Они прочли какое-то математическое исследование, в котором анализировались цитаты с целью получить индекс цитируемости, и решили попробовать применить описанный алгоритм к веб-страницам (тогда было немного веб-страниц). Проблема заключалась в том, чтобы идентифицировать «хорошие» веб-страницы, то есть те, которые стоят того, чтобы быть прочитанными. Сперва они решили повторить логику отбора академических цитат: в области компьютерных наук самые-цитируемые-статьи всегда самые важные. Значит, хорошая статья должна быть популярной по определению. Таким образом, они создали поисковик, который подсчитывал количество ссылок, указывавших на эту страницу. Затем подсчитывался ранг страницы (PageRank), основанный на количестве указывавших на нее ссылок и ссылок, находящихся внутри нее. Они посчитали, что пользователи будут поступать точно как научные работники: каждый из них будет создавать страницу, которая бы включала ссылки, ведущие на важные, по мнению конкретного пользователя, страницы. Таким образом, популярной страницей становилась та, на которую указывало много ссылок. PageRank был назван в честь одного из выпускников, Ларри Пейджа. Он и его партнер Сергей Брин решили заработать на своем изобретении и создали Google, одну из самых влиятельных компаний в мире.
Долгое время PageRank прекрасно справлялся. Популярные страницы действительно были хорошими – в том числе потому, что в сети тогда было настолько мало контента, что этот порог был не очень высоким. Тем временем все больше людей оказывались онлайн, количество контента росло, и Google стал зарабатывать деньги за счет рекламы на веб-страницах. Модель поискового ранжирования позаимствовали у научных издательств, а рекламную модель – у рекламных изданий.
По мере того как пользователи выясняли, как можно перехитрить PageRank, чтобы повысить позицию своих страниц в поисковой выдаче, популярность стала чем-то вроде валюты в сети. Разработчикам Google пришлось добавлять новые факторы поиска так, чтобы спамерам не удавалось обходить систему. Постоянно подправляя алгоритм, они в итоге добавили несколько функций. Одной из них стало определение географического положения, помогавшее автоматически заполнять адрес. По сути, это поисковое автозаполнение, основанное на реалиях окружающего мира. И, если вы вводили «ga», система бы заменила это на «GA», если в вашей округе многие искали что-то связанное с Джорджией (или, может, футбольную команду Университета Джорджии (UGA)), или предложила бы «Lady Gaga», если пользователи рядом с вами искали что-то связанное с музыкой. Сегодня в поиск внедрены более двух сотен факторов, а PageRank был дополнен множеством дополнительных функций, в том числе машинным обучением. Все это отлично работает до тех пор, пока работает.
История о том, как оформители создавали макет первой полосы газеты, служит хорошим примером того, что машина на самом деле не может переводить. Текст тщательно подбирается. Например, у разных мест на странице есть названия вроде