Как же это поможет Анжеле? Учитывая карту возможных станций метро (см. рис. 25) и соответствующие пожертвования, которые она ожидает получить от каждой из них, мы можем рассчитать "функцию ценности". Функция ценности - это просто ценность, связанная с каждым состоянием (в данном случае с каждой станцией). Мы можем рассчитать ее, начав с конца и работая в обратном направлении. Как только Анжела дойдет до Бликер-стрит, она сразу же отправится домой к своему другу и не будет заниматься букингом, поэтому вознаграждение, которое она получит в конечном пункте назначения, составит 0 долларов. Поскольку с этой точки не существует других состояний, ценность Бликер-стрит также равна нулю. Возвращаясь назад, можно вычислить ценности Юнион-сквер и 34-й улицы в терминах ожидаемого там вознаграждения и ценности Бликер-стрит. Этот процесс продолжается до тех пор, пока не будет вычислена стоимость каждой станции.

Рисунок 25

Имея на руках эти значения, Анжела теперь может планировать свое путешествие. Отправившись с Гринпойнт-авеню, она может сесть на поезд до Корт-Сквер или Метрополитен-авеню. Что ей выбрать? Если смотреть только на возможное вознаграждение от каждого из них, то Метрополитен-авеню кажется более выгодным выбором, поскольку предлагает 10 долларов против 5 долларов на Корт-Сквер. Но если посмотреть на функцию ценности, то Корт-Сквер - правильный выбор. Это происходит потому, что функция ценности заботится о том, в какие состояния вы можете попасть в будущем, а с Корт-Сквер Анджела может попасть прямо в джекпот, на Таймс-сквер. С Корт-сквер Анжела также может отправиться на Квинс-плаза, но это не имеет значения, потому что функция ценности предполагает, что Анжела умна.Она предполагает, что с Корт-сквер она пойдет на Таймс-сквер, потому что Таймс-сквер - лучший выбор. В целом, следуя функции ценности, Анжела пройдет через Корт-Сквер на Таймс-сквер, затем на 34-ю улицу и, наконец, доберется до места назначения на Бликер-стрит. В общей сложности она заработает 65 долларов - больше, чем может предложить любой путь на этой карте.

Переход Беллмана на функцию ценности был важен, потому что он исправил недостаток в первоначальной постановке задачи. Мы начали с того, что пытались вычислить общее вознаграждение, которое мы могли бы получить от данного плана. На самом деле, план - это именно то, что мы пытаемся найти! Как только мы узнаем функцию ценности, план становится простым: следуйте ему. Подобно хлебным крошкам, оставленным на лесной тропинке, функция ценности указывает вам, куда идти. Тому, кто ищет наибольшую награду, нужно лишь жадно искать следующее состояние с наибольшей ценностью. Все действия могут быть выбраны на основе этого простого правила.

Перейти на страницу:

Похожие книги