Выбор стратегии каждого игрока затрагивает пару значений В и R и минимизирует его ожидаемые потери, т.е. максимизирует ожидаемую им ценность игры. Обозначим через Vr ожидаемую ценность игры для игрока R. Задача выбора системы предупреждения для R состоит в выборе пары значений для R и В, совместимых с В = f(R), которая максимизирует[122]:
Согласно проведенному ранее анализу матрицы, игрок R должен исследовать «модифицированную» матрицу выигрышей, получившуюся от использования «оптимальных» значений Rr and Вr, совместно с рассматриваемыми (или представляющимися оптимальными) значениями Rc and Вc, чтобы видеть, является ли взаимное ненападение все еще взаимно предпочтительным исходом. Условия такого общего предпочтения взаимного ненападения с оптимально настроенными системами предупреждения будут следующими:
При симметрии знаменатели правых частей неравенств становятся равными единице.
Фактически, как мы увидим ниже, это второе исследование (т.е. исследование модифицированной матрицы) может и не понадобиться: при выполнении некоторых гипотез о поведении «оптимальное» приспособление R и В (для любого значения, за исключением R=1) требует выполнения условий устойчивости измененной матрицы.
Остается определить поведение игроков. Вообще говоря, мы можем принять любую из трех гипотез, более или менее согласующихся с различием между «параметрическим поведением», «безмолвной игрой» и «игрой торга».
ДИНАМИЧЕСКАЯ КОРРЕКТИРОВКА (ПАРАМЕТРИЧЕСКОЕ ПОВЕДЕНИЕ)
Вначале предположим, что каждый игрок принимает вероятность подвергнуться нападению как заданную величину, т.е. как параметр, а не переменную в его собственной функции потерь, и то же самое относится к надежности систем предупреждения противника. То есть он непосредственно наблюдает значения B и R противника и выбирает пару значений собственных В и R, которые минимизируют его ожидаемые потери. Это допущение имеет тенденцию приводить к тому, что значение В, выбранное любым игроком, приобретает свойства возрастающей функции, зависящей от вероятности того, что противник будет его атаковать. (Оно лишь «имеет тенденцию приводить», так как здесь имеется возможность того, что соответствующие изменения в значении R другого игрока создают противоположную тенденцию, как будет показано ниже.) Если принять, что оба игрока непрерывно корректируют свои значения В и R, поглядывая на В и R противника, всегда параметрически реагируя на текущую вероятность подвергнуться атаке и не представляя поведение противника функцией собственного поведения, то получим простую динамическую систему «мультипликатора» — устойчивую или дающую взрывной рост, в зависимости от значений параметров и формы функции f. Можно выразить оптимальное значение В для любого игрока как функцию значения В другого игрока, решить эти два уравнения и вывести условия устойчивости равновесия. Можно также рассчитать «мультипликаторы», связывающие изменения В и R каждого игрока со сдвигами в функции f или с изменениями параметров А.
Подробнее, чтобы найти функцию «параметрического поведения» для игрока R, мы максимизируем V. относительно Rr, подчиненного Br = f(Rr), рассматривая Вс и Rc как постоянные. Используя формулу для Vr, выведенную ранее, получаем:
и для h(1-Rс) < 1 >h(l-Rr), f">0.
Поскольку предполагается, что f" положительна, ее знаменатель должен быть положительным, если Vr достигает максимума при R < 1. Но условие, что знаменатель должен быть положительным, есть в точности сформулированное выше условие для Рс при удовлетворении которого предпочтение R, состоит в ненападении. Таким образом, если оба игрока достигли оптимального приспособления при R < 1, эти оптимальные значения R и В также по необходимости совместимы с одновременным предпочтением ненападения.
Отношение Вr к Вc по условию поведенческой гипотезы, т.е. наклон результирующей функции, что для R достигает оптимального значения В для заданного значения Вc, получается путем дифференцирования обеих сторон следующего уравнения:
где Вс = φ(Rc) означает соответствующую функцию для игрока С.
Поскольку ∂f'/dRc отрицательно, малое значение φ' может сделать отрицательным для игрока R, поднимая «издержки» случайного нападения до степени, перевешивающей увеличение риска подвергнуться нападению. Другими словами, Вr является функцией не только Вс, но и φ(Bc); Вr тяготеет к росту с увеличением Вс и уменьшается с увеличением Rc, в то время как Вс и Rc возрастают совместно, поскольку мы рассматриваем удаление от оси Вс.
Устойчивое равновесие требует, чтобы произведение величин dBr/dBc для игрока R и dBr/dRr для игрока С было меньше единицы, т. е. если откладывать Вr по вертикали и Вс по горизонтали, то кривая игрока С должна пересекать кривую игрока R снизу. Общее выражение «мультипликатора», связывающее изменения переменных В и R при сдвиге функций (или изменениях в значениях А), есть дробь, в которой в числителе стоит 1, а в знаменателе 1 минус это произведение.