Другой перспективный путь заключался в изменении уровня точности математических вычислений, которые могли выполнять графические процессоры Nvidia. В то время графические процессоры компании поддерживали 32-битную (single float, или FP32) или 64-битную (double float, или FP64) математическую точность; любой из этих типов математики был обязательным условием для многих научных и технических областей. Но моделям глубокого обучения не требовалась такая точность. Модели требовали от GPU только 16-битных вычислений с плавающей точкой, поскольку сети были устойчивы к ошибкам вычислений во время обучения. Другими словами, графические процессоры Nvidia выполняли слишком точные вычисления, что значительно замедляло работу моделей глубокого обучения. Чтобы ускорить работу GPU и позволить этим моделям работать более эффективно, в 2016 году компания Dally внедрила поддержку FP16 во все графические процессоры Nvidia.

Но настоящей задачей было создание аппаратных схем, оптимизированных для ИИ. Когда Nvidia переключилась на ИИ, ее архитекторы уже работали над следующим поколением графических процессоров под названием Volta. Новая линейка находилась в разработке несколько лет; внести даже небольшое изменение в дизайн чипа на тот момент было бы дорого и сложно. Но Дэлли с помощью Дженсена понял, что если компания не попытается создать чипы, оптимизированные для ИИ, сейчас, то другой возможности может не представиться в течение многих лет.

По словам Дэлли, "вся команда - группа GPU, Дженсен и я - согласилась включить в проект значительно большую поддержку искусственного интеллекта", несмотря на то, что они были на позднем этапе разработки. Эта "поддержка" включала разработку совершенно нового типа крошечного процессора под названием Tensor Core, который был интегрирован в Volta. В машинном обучении тензор - это тип контейнера данных, который кодирует множество измерений информации, особенно для сложных типов контента, таких как изображения и видео. Из-за своей насыщенности вычисления на основе тензоров требуют больших вычислительных мощностей. И наиболее интересные формы глубокого обучения - распознавание изображений, генерация языка и автономное вождение - требуют использования все более крупных и все более сложных тензоров.

Точно так же, как традиционные GPU стали улучшением по сравнению с вычислениями на базе CPU благодаря своей способности более эффективно справляться с небольшим подмножеством задач, тензорные ядра стали улучшением по сравнению с традиционными GPU, поскольку они были оптимизированы для выполнения еще более специализированного подмножества задач с еще большей эффективностью. По словам Дэлли, это были "матричные мультидвигатели", созданные для глубокого обучения и только глубокого обучения. Графический процессор на базе Volta с ядрами Tensor может обучить модель глубокого обучения в три раза быстрее, чем тот же GPU со стандартными ядрами CUDA. 22

Все эти инновации и изменения были сопряжены с операционными издержками. Дэлли и его команда внесли последние изменения в линейку Volta всего за несколько месяцев до того, как она была готова к выпуску, - последнего шага перед запуском закрытого дизайна в производство. Это было почти неслыханно, чтобы производитель чипов пошел на такое добровольно, а не в ответ на серьезный дефект, обнаруженный в последний момент.

"Это было решение о том, сколько площади чипа мы собираемся потратить, потому что мы считаем, что этот развивающийся рынок ИИ будет большим", - вспоминает Дэлли. "Это оказалось хорошим решением. Я думаю, что это была настоящая сила Nvidia, что мы смогли это сделать" 23.

В каком-то смысле Nvidia делала то, что делала всегда: замечала большие возможности и спешила вывести свои продукты на рынок до того, как кто-то другой поймет, что этот потенциал вообще существует. В начале гонки за ИИ Дженсен понял, что дело не только в том, кто сделает самый быстрый чип для глубокого обучения. Не менее важно, как все вместе - аппаратная и программная инфраструктура - будет работать.

"Наличие архитектуры и механизма внимания, позволяющих масштабировать эти модели, действительно стало толчком для развития отрасли", - вспоминал Дженсен в 2023 году. 24

Дэлли согласился с оценкой Дженсена. "Важнее всего создать целую экосистему программного обеспечения на ранних этапах", - сказал он. Nvidia хотела создать "всевозможное программное обеспечение, чтобы людям было очень легко эффективно выполнять глубокое обучение на GPU", потому что предоставление готового фреймворка и библиотеки вспомогательного программного обеспечения делает практически неизбежным то, что сторонние разработчики, исследователи и инженеры будут обращаться к Nvidia в первую очередь, когда задумаются об ИИ.

Перейти на страницу:
Нет соединения с сервером, попробуйте зайти чуть позже