В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.

Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.

Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.

С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они ожидают. Изменить ожидания можно только нарушив их.

 

Рисунок 24

Это нарушение может быть как к лучшему, так и к худшему. Для собаки первый кусок мяса после "жужжания" - это приятный сюрприз, который сильно влияет на ее ожидания. Однако после многократных спариваний ожидания меняются, и слюнотечение при звуке зуммера становится второй натурой. В этот момент самое неприятное, что может произойти, - это услышать звуковой сигнал и не получить еду. Такое лишение привело бы к значительному снижению вероятности слюноотделения в будущем - такому же значительному, как и увеличение, произошедшее при первой паре. Эта обратная сторона обучения на основе вознаграждения, когда животное учится не связывать сигнал с вознаграждением, называется угасанием. С каждым предъявлением сигнала без ожидаемой награды процесс угасания разрушает ассоциацию, в итоге полностью уничтожая выученную реакцию. Буш и Мостеллер постарались показать, что их модель точно отражает этот процесс.

В то время как Буш и Мостеллер превращали информацию о слюноотделении в уравнения, другой человек на противоположном конце страны работал над применением математики для решения самых сложных проблем в бизнесе и промышленности. Глубокие и важные связи между этими работами не были осознаны еще несколько десятилетий.

* * *

Перейти на страницу:

Похожие книги