• модели АП на основе эволюционных и нейросетевых методов, в частности, модели эволюционного возникновения целенаправленного адаптивного поведения [36-38] (В.Г. Редько, М.С. Бурцев, О.П. Моса-лов, Институт оптико-нейронных технологий РАН, Институт прикладной математики им. М.В. Келдыша РАН).
2.3. Проект «Мозг Анимата» [39]
Анализ исследований в рамках анимат-подхода показывает, что разработанные модели пока еще очень фрагментарны и иллюстрируют только отдельные стороны адаптивного поведения. Поэтому было бы целесообразно предложить общую «платформу» для систематического построения моделей адаптивного поведения. В работах [39,40] предложен проект «Мозг Анимата», который нацелен на формирование общей схемы построения таких моделей. Проект основан на теории функциональных систем П.К. Анохина [41]. Кратко опишем данный проект, следуя [39], где предложена архитектура системы управления аниматом, основанная на нейросетевых адаптивных критиках. Нейро-сетевые адаптивные критики - схемы автономного адаптивного управления, основанные на методе обучения с подкреплением [22].
Предполагается, что система управления аниматом имеет иерархическую архитектуру. Базовым элементом системы управления является отдельная функциональная система (ФС). Верхний уровень соответствует основным потребностям организма: питания, размножения, безопасности, накопления знаний. Более низкие уровни соответствуют тактическим целям поведения. Блоки всех этих уровней реализуются с помощью ФС. Управление с верхних уровней может передаваться на нижние уровни (от «суперсистем» к «субсистемам») и возвращаться назад. Предполагается, что система управления аниматом функционирует в дискретном времени
Предполагается простая формализация ФС на основе адаптивных критиков. Формальная ФС моделирует следующие важные особенности ее биологического прототипа: а) прогноз результата действия, б) сравнение прогноза и результата, и в) коррекцию прогноза путем обучения в соответствующих нейронных сетях.
Схема адаптивного критика. Рассматриваемая схема адаптивного критика состоит из двух нейронных сетей: Модель и Критик. Предполагается, что производные по весам синапсов нейронных сетей могут быть вычислены обычным методом обратного распространения ошибки [42]. Также предполагается, что адаптивный критик предназначен для выбора одного из нескольких действий. Например, при управлении движением действиями могут быть: двигаться вперед, поворачивать вправо, поворачивать влево, стоять на месте. В каждый момент времени
Цель адаптивного критика - максимизировать функцию суммарной награды «,
где
Модель имеет два типа входов: 1) входы, характеризующие текущую ситуацию S(0 (сигналы из внешней и внутренней среды анимата), и 2) входы, характеризующие действия. Предполагается, что число возможных действий
При выборе действия применяется
- с вероятностью 1 - £ выбирается действие с максимальным значением F(Spr,(M-i)):
- с вероятностью
О <
Применение этого правила означает, что с большой вероятностью выбирается действие, для которого максимальна оценка суммарной награды
Обучение Модели проводится обычным методом обратного распространения ошибки [42]. Смысл обучения Модели -уточнение прогнозов будущих ситуаций.
Обучение Критика проводится методом ошибки временной разности [22]. Смысл обучения Критика состоит в том, чтобы итеративно уточнять оценки качества ситуаций F(S(/)) в соответствии с поступающими подкреплениями
Функционирование системы управления аниматом.