В 1950-х годах Скиннер развил теорию Павлова о классических условных рефлексах. Скиннер начал экспериментировать с крысами и голубями, изучая, как на их поведение влияет получение вознаграждения. Он назвал это выработкой «оперантных» условных рефлексов (по аналогии с «классическими» условными рефлексами, описанными Павловым).
При этом сам Скиннер предпочитал термин «подкрепление», и чуть позже я поясню почему.
Идея заключалась в следующем: если вы хотите усилить проявления определенного поведения, вам следует его подкрепить (вознаграждением). Если вы хотите ослабить проявления определенного поведения, вы подкрепляете желательное поведение и игнорируете нежелательное. Звучит вполне здраво, однако Скиннер решил выйти за пределы здравого смысла, чтобы подвести под свои наблюдения научную основу. Вот как выглядела базисная идея Скиннера:
Например:
Или:
Или:
Скиннер пошел дальше, пытаясь выяснить, какими должны быть подкрепления, когда их следует делать, как часто и в каком объеме. Если вы хотите, чтобы люди делали то, что вам нужно, вам следует быть в курсе некоторых тонких, но важных нюансов человеческого поведения.
Задумайтесь: вы пытаетесь заставить кого-то, например, регулярно выносить мусор, вовремя сдавать отчеты или голосовать на выборах. Вы напрягаете свой мозг, пытаясь придумать, как это сделать. «Может быть, мне нужно его (или ее) как-то простимулировать? — думаете вы. — Деньгами или чем-то еще?»
В то же самое время тысячи людей сидят в казино и раз за разом жмут на кнопку, хотя им за нажатие кнопки никто не платит. Напротив, это
Пять базовых режимов подкрепления
Допустим, вы поместили крыс в клетку с кнопкой. Каждый раз, когда крыса нажимает на эту кнопку, она получает порцию пищи. Еда служит подкреплением определенного поведения:
Поведение → Подкрепление → Усиление поведения
В нашем случае эта схема выглядит следующим образом:
Нажать кнопку → Получить порцию пищи → Чаще нажимать на кнопку
Но что будет, если вы сделаете так, что крыса перестанет получать еду каждый раз, когда она нажимает на кнопку?
Скиннер проверял различные сценарии и обнаружил, что может предсказывать и контролировать, как часто и как быстро крысы будут нажимать на кнопку, чтобы получить еду. В ходе эксперимента он менял необходимое для получения пищи условия (количество и частоту нажатий на кнопку) и наблюдал происходящие изменения.
Были использованы пять базовых режимов подкрепления: