И, опять же, по словам Воложа, Колмановская до ухода на синекуру занималась маркетингом, а делала это, как следует опять же из слов Воложа, в свободное от работы время в качестве личного биографа Воложа. Или же, как однажды высказалась Колмановская, «на самом деле я работаю Аркашиным архивом».

«Волож ее (Елену Колмановскую. — В.Д.) уговорил стать нашим маркетологом. Как позже вспоминала сама Елена, она была первым человеком в “Яндексе”, кто не писал код. Первым ее заданием был обзор поисковых решений, которые существовали на рынке. По результатам этого анализа мы оказались лучшими. Колмановская влилась в команду, и буквально за три месяца мы вышли на рынок с названием Яndex. А уже в сентябре 1996 г. (на выставке Netcom’96, 18 октября 1996 г. — В.Д.) появился наш коробочный софт — Яndex.Site, Яndex.Lib, Яndex.CD, а вскоре и онлайновый Яndex.Web… Начиная с 1996 г. мы предлагали потребителю приобрести эту систему как самостоятельный сервис… На протяжении 1996 г. мы работали над изготовлением цифровых копий произведений русских классиков и параллельно переделывали ядро поиска, чтобы можно было использовать его в Интернете. Ядро технологий было готово к лету того года, оно работало на операционной системе Unix и годилось для общих задач поиска в Интернете», — фиксировал даты Илья Сегалович.

«Всемирная сеть развивалась, и в конце 1996 г. мы решили связать будущее Яndex с Интернетом… И получается, что и я стал одним из создателей известного “поисковика”, одного из лидеров Рунета. А ведь поначалу не понимал, что такие технологии будут востребованы, просто решил подзаработать», — как всегда искренен Сегалович.

Кстати, полученные за работу над академическими изданиями русских классиков $20 000 позволили вдвое увеличить команду программистов под проект, который вдохновенно вел Сегалович. На протяжении 1996 г. параллельно с изготовлением цифровых копий русской классики шла подготовка к запуску собственной поисковой машины в Интернете.

Под руководством Сегаловича был разработан алгоритм построения гипотез. Теперь морфологический разбор не привязывался к словарю. Отныне, если какого-либо слова в словаре не оказывалось, модель словоизменения строилась на основе поиска похожих на него слов.

Илья Сегалович: «В 1995 г. мы наконец подключились к Интернету, и всем сразу стало понятно, что надо для него что-то делать… Посмотрели на поиск Altavista и поняли, что надо делать вещи для Интернета».

Владельцы и руководители CompTek пришли к выводу, что развитие самой поисковой технологии важнее и интереснее, чем создание прикладных продуктов на базе поиска. В итоге было принято решение об использовании поискового приложения Яndex для Интернета.

18 октября 1996 г. на выставке Netcom’96 были представлены первые продукты серии «Яndex»: Яndex.Site — поиск по своему сайту, до сих пор установленный на сотнях серверов Рунета, и Яndex.Dict, морфологическое расширение запроса.

25 ноября приложение Яndex.Dict заработало на поисковике AltaVista.

«И уже к 1996 г., работая одновременно над Грибоедовым, мы дописали “Яндекс”, чтобы он работал в Сети», — вспоминал Сегалович.

В 1996 г. в мировую Сеть вышел поисковик «Рамблер», созданный группой инженеров Института биохимии и физиологии микроорганизмов РАН. Лидера, и затем главного конкурента «Яндекса» в Рунете.

До интернет-премьеры «Яндекса» оставался год.

Существующие к тому моменту в Рунете поисковики AltaVista (переводится как «взгляд сверху»; появился в декабре 1995 г.) и «Рамблер» (переводится как «бродяга»; работает в Сети с октября 1996 г.) искали по английскому принципу. Но в английском языке слова практически не склоняются. Русский и английский принадлежат к разным группам, к их анализу следует подходить по-разному. Русский язык принадлежит к группе флективных языков — различные словоформы получаются с помощью окончаний. Имя существительное, например, может встречаться в 12 различных формах: шесть падежей в единственном числе и еще шесть — во множественном. Некоторые существительные образуют новые словоформы с помощью изменения основы слова. Поэтому для поиска в русскоязычном тексте поисковые машины должны использовать сложные лемматизирующие алгоритмы, которые предполагают составление леммы слова, то есть перечень всех его словоформ, и учет всех этих словоформ в документе.

Перейти на страницу:

Похожие книги