По словам Дэлли, Катанзаро продемонстрировал, что при умелой работе с программным обеспечением графические процессоры могут стать "искрой, которая зажжет революцию ИИ". 12 "Если представить, что топливо - это алгоритмы, а воздух - наборы данных, то после появления графических процессоров становится возможным применять их друг к другу. Без этого это было просто невозможно".

Благодаря оптимизациям CUDA Катанзаро также впервые вступил в прямой контакт с Дженсеном. "Внезапно его очень заинтересовала работа, которой я занимался. Он писал мне по электронной почте и задавал вопросы о том, что я пытаюсь сделать, что такое глубокое обучение, как оно работает", - вспоминает Катанзаро. "А также, конечно, о том, какую роль в этом могут сыграть графические процессоры" 13.

Конечно, Дженсен хотел продавать больше графических процессоров. Но для этого ему нужно было найти "приложение-убийцу", которое стимулировало бы внедрение GPU. Глубокое обучение могло стать именно таким приложением - но только если кто-то сможет показать его применение не только для определения домашних животных.

В ТОТ САМЫЙ ПЕРИОД, КОГДА Катанзаро помогал Нг развивать его проект нейронной сети глубокого обучения, исследовательская группа Университета Торонто показала, что такие сети могут превзойти лучшие программы, созданные человеком, в решении самых сложных задач компьютерного зрения.

Это событие произошло еще в 2007 году, когда новоиспеченный профессор информатики из Принстона по имени Фей-Фей Ли (которого Дэлли упоминал в приведенной выше цитате) начал работать над новым проектом. В то время область компьютерного зрения была нацелена на разработку лучших моделей и алгоритмов, поскольку предполагалось, что тот, кто разработает лучший алгоритм, обязательно получит самые точные результаты. Ли перевернула это представление с ног на голову, предложив, что тот, кто обучится на лучших данных, получит лучшие результаты, даже если он не разработал самый совершенный алгоритм. 14 Чтобы дать своим коллегам-исследователям фору в решении монументальной задачи сбора необходимых данных, она начала составлять каталог изображений, каждое из которых было вручную помечено в зависимости от его содержания. После двух лет работы база данных выросла до более чем 3 миллионов изображений с тысячей различных и взаимоисключающих категорий, которые варьировались от конкретных (сорока, барометр, электродрель) до широких (соты, телевизор, церковь). Она окрестила свою базу данных ImageNet и представила ее академическому миру в виде научной статьи. Поначалу никто не читал статью и не обращал внимания на другие способы, которыми она пыталась привлечь внимание к своему исследованию. Тогда она обратилась в Оксфордский университет, который вел базу данных, аналогичную ее, и спонсировал ежегодный конкурс в Европе для исследователей компьютерного зрения. Она спросила, не согласится ли Оксфорд выступить спонсором чего-то подобного в США, используя ImageNet. Университет согласился, и в 2010 году состоялся первый конкурс ImageNet Large Scale Visual Recognition Challenge. 15

Правила были просты: соревнующиеся модели получали случайные изображения из ImageNet и должны были правильно распределить их по категориям. В первых двух конкурсах в 2010 и 2011 годах результаты были не очень хорошими. Во время первого конкурса одна модель неправильно классифицировала почти все изображения, и ни одна команда не набрала более 75 % правильных результатов. 16 Во второй год команды в среднем справились лучше - худший участник правильно классифицировал около половины изображений, но опять же никто не смог правильно классифицировать более 75 % изображений.

В третьем конкурсе, который состоялся в 2012 году, профессор Университета Торонто Гэри Хинтон и два его студента, Илья Суцкевер и Алекс Крижевский, представили работу под названием AlexNet. В отличие от остальных участников, которые начали разрабатывать алгоритмы и модели, прежде чем оптимизировать их для использования в ImageNet, команда AlexNet использовала противоположный подход. Они использовали графические процессоры Nvidia для поддержки небольшой нейронной сети глубокого обучения, которая получала контент ImageNet, а затем "училась" строить взаимосвязи между изображениями и связанными с ними тегами. Команда не ставила перед собой задачу написать лучший алгоритм компьютерного зрения из возможных; фактически, они сами не написали ни строчки кода компьютерного зрения. Вместо этого они написали лучшую модель глубокого обучения, на которую только были способны, и доверили ей самостоятельно решить проблему компьютерного зрения.

"Начиная с поколения Fermi, графические процессоры были достаточно мощными, чтобы можно было за разумное время создать нейронную сеть интересного размера и обработать интересный объем данных", - говорит Дэлли, имея в виду архитектуру чипов, на которых построена серия GeForce 500, впервые выпущенная в 2010 году. "Так что AlexNet была обучена за две недели" 17.

Перейти на страницу:
Нет соединения с сервером, попробуйте зайти чуть позже