Что же делают нейроны, когда мы учимся на опыте? Учитывая, сколько разных составляющих в этом процессе — и память, и мотивация, и причинно-следственные модели окружающего мира, — кажется, что разгадать загадку механизмов обучения с подкреплением не удастся еще долго.

Когда речь заходила о стратегии исследований, Фрэнсис Крик не уставал раз за разом повторять, что ученый должен подступаться к задаче с той стороны, с которой есть возможность продвинуться. За регулярными вечерними чаепитиями в лаборатории Терри Сейновски в Институте Солка Крик советовал нам не хвататься на начальном этапе за самые сложные и неразрешимые вопросы, как бы они ни манили. Его слова до сих пор звучат у меня в ушах: «Найдите простую отправную точку. Пусть критики твердят, что это лишь часть проблемы или это слишком просто. Не обращайте внимания. Вам все равно удастся сделать важные шаги. Если повезет, за первой дверью откроется множество других, и тогда можно переходить к более сложным вопросам».

Разумные и практичные рекомендации Крика я с благодарностью вспоминала, раздумывая о механизмах научения с подкреплением.

<p>В поисках механизма</p>

Чтобы обнаружить механизмы, за счет которых происходит обучение с подкреплением, в идеале хорошо было бы найти в мозге признак какой-нибудь простой формы обучения — например, формирование ассоциативной связи между двумя событиями. Как заметил И. П. Павлов (1849–1936), поначалу у его собак слюна выделялась только при появлении пищи. Но если перед появлением еды регулярно звонили в колокольчик, со временем слюна начинала выделяться по звонку. Собачий мозг усвоил, что звонок предвещает кормление. Процесс получил известность как павловский условный рефлекс, или, как иногда его называют, обусловливание стимул — ответ. Согласно стратегии Крика, сначала нужно исследовать механизм образования связи между звонком и получением пищи, а затем, отталкиваясь от результатов, двигаться дальше. Так оно и произошло.

Все началось с Вольфрама Шульца, который регистрировал реакции нейронов в среднем мозге низших обезьян[103]. Когда обезьяна просто сидела смирно, каждый нейрон находился в пассивном состоянии, возбуждаясь до определенного базового уровня. Шульц заметил, что фоновая активность нейрона резко возрастает (происходит скачок, «спайк», илл. 3.2), когда обезьяне достается неожиданная награда (порция сока). Если вознаграждению регулярно предшествовало включение лампы, то через несколько повторений процедуры «загорается лампочка, льется сок» уровень возбуждения нейрона нарастал уже при включении света. Пока все понятно. Павловские условные рефлексы на нейронном уровне. Нейроны ассоциируют включение света с наградой.

Нейроны, которые исследовали Шульц и его коллеги, располагаются в ядре (скоплении клеточных тел нейронов) среднего мозга, именуемом вентральной областью покрышки (ВОП). Это центральная часть эволюционно древней системы вознаграждения (см. илл. 3.1).

Илл. 3.2. Что означает спайк применительно к нейрону? На мембранах каждого нейрона имеется разность потенциалов — в данном примере она составляет около –70 милливольт. Нейрон может получать множество входящих сигналов (вызывающих незначительные изменения напряжения), которые способны конвергировать на аксонном холмике почти одновременно. Часть из них будет возбуждающей, часть — тормозной. Если в совокупности они обеспечат определенный (пороговый) уровень деполяризации мембраны, нейрон внезапно возбудится. Возбуждение нейрона означает быстрое и существенное изменение напряжения мембраны аксонного холмика. В данном примере напряжение мембраны достигает +40 милливольт. Это изменение напряжения в аксонном холмике провоцирует столь же значительное изменение напряжения по всей длине аксона до самой терминали. Если вживить в нейрон электрод и записать изменения напряжения в мембране, мы увидим на графике, как выглядит нервный импульс — резкий всплеск, спайк. Спайк называют также потенциалом действия. Тормозный сигнал приводит к гиперполяризации нейрона, то есть, чтобы достичь порогового значения, нейрону потребуется более сильное возбуждение.

Но вот что удивительно: пока нейрон регулярно реагировал на включение света, он перестал живо откликаться на награду, вернувшись к исходному уровню. Кроме того, если свет включался, а награда не поступала, частота импульсов в момент ожидаемого получения награды падала ниже фоновой (илл. 3.3). О чем говорят эти изменения частоты импульсов?

Перейти на страницу:

Все книги серии Книжные проекты Дмитрия Зимина

Похожие книги