Денис
Хлебородов

генеральный директор Cloud X
© ComNews
28.04.2025

Недавно стало известно, что OpenAI завершит разработку первого собственного ИИ-чипа до конца 2025 года. При успешном запуске компания станет крупным игроком на рынке технологий искусственного интеллекта, что значительно изменит ситуацию в этой отрасли. О том, как происходит процесс ИИ-обработки и как его ускоряют специализированные чипы, о перспективах обучения крупных языковых моделей и востребованных технологиях для ИИ-ускорителей, рассказывает Денис Хлебородов, генеральный директор Cloud X.

Специализированные ИИ-чипы для ускорения матричных вычислений

В связи с развитием искусственного интеллекта требуются технологии, способные обрабатывать огромное количество данных одновременно. Для этого специалисты разрабатывают различные ИИ-чипы. В основе ИИ-обработки лежат глубокие нейросети, операции которых основаны на матричных вычислениях. Такие вычисления оперируют линейной алгеброй: перемножением матриц, сложением тензоров и решением систем линейных уравнений.

Каждый слой нейросети — это множество векторов-признаков, которые преобразуются через весовые коэффициенты. Матричное умножение — ключевая операция в обучении и инференсе нейросетей.

Процессоры общего назначения имеют относительно узкие регистры и не оптимизированы для обработки массивных параллельных операций. Применение GPU ускорили этот процесс благодаря массовому параллелизму: тысячи ядер выполняют операции одновременно. Это был первый шаг повышения скорости вычислений. Специализированные ИИ-чипы, такие как TPU, IPU, NPU, позволили дополнительно ускорить операции. Это стало возможным благодаря архитектуре, оптимизированной для выполнения специальных операций нейросетей и учета их особенностей в вычислениях. Таким образом, сначала проводятся алгоритмические улучшения, а затем полученные эффективные алгоритмы перекладываются на программно-аппаратную реализацию, которая позволяет их осуществить за наиболее короткое время. Повышение эффективности алгоритмов — это выстраивание баланса между алгоритмической сложностью, объемом памяти и технической реализацией.

При традиционном подходе каждая операция (например, умножение и сложение) выполняется отдельно, с промежуточными сохранениями в память. Специализированные чипы вычисляют целые группы операций за один такт, сокращая доступ к памяти, и тем самым сокращая время вычислений. В частности, применяется подход объединения слоев в единый вычислительный граф с целью минимизации промежуточных шагов. Очень действенным является метод предвычислений таблицы значений и формирование, так называемых Lookup Tables. Они снижают необходимость сложных расчетов на лету. Из-за того, что высокая 32-битная точность не всегда нужна, многие современные ускорители применяют смешанную точность — например, NVIDIA Tensor Cores выполняют FP16-умножение с FP32-аккумуляцией.

Один из острых вопросов в ИИ-вычислениях — это снижение энергопотребления и тепловыделения. В этой связи свое развитие получили оптические процессоры. Они рассчитывают матричные операции световыми интерференциями, значительно сокращая энергопотребление. И это только первые шаги к следующему витку оптимизации ИИ-операций. Уже сегодня ставится вопрос о пересмотре вычислительных парадигм. Недавняя публикация об успехах Microsoft в квантовых чипах на основе топопроводников, формирующих топологическое состояние материи, описывает возможность создать квантовый компьютер с миллионом кубитов, способный полностью поменять подход к сложным вычислениям. Практические результаты будут получены в перспективе ближайших лет.

Перспективы применения ИИ-чипов для обучения языковых моделей

В отличие от других задач ИИ, обучение таких крупных моделей как ChatGPT — это не просто матричные вычисления, а комплексная оптимизация распределенных вычислений, памяти и энергопотребления. Сегодня существуют разные варианты чипов, которые специалисты выбирают в зависимости от поставленных перед ними задач.

Например, графические процессоры (GPU), несмотря на все недостатки, остаются главными чипами для обучения моделей. NVIDIA (H100, A100) доминирует в этом сегменте благодаря мощной архитектуре CUDA и оптимизированным для параллельного выполнения операциям. GPU выигрывают благодаря своей универсальности — они подходят как для обучения, так и для инференса — процесса применения обученных нейронных сетей для обработки новых данных, обеспечивая достаточно высокий уровень гибкости и производительности.

Tensor Processing Units (TPU) — это специализированные чипы, созданные Google для ускорения обучения нейросетей. Они обладают высокой энергоэффективностью и отлично подходят для обработки матричных вычислений, но их главный недостаток — ограниченная доступность: они доступны только в облаке Google.

Application-Specific Integrated Circuits (ASIC) — это чипы, созданные для узкоспециализированных задач. ASIC-архитектуры обладают максимальной эффективностью, но требуют значительных инвестиций и времени на разработку. Такие чипы обладают высоким уровнем энергоэффективности, но их главный недостаток — низкая гибкость. На такие чипы, как правило, выносят выполнение атомарных, неизменяемых, но при этом, вычислительно нагруженных и энергоемких операций.

FPGA (Field-Programmable Gate Arrays) могут быть адаптированы под любые вычислительные задачи, но способ их программирования сложнее, а производительность уступает GPU и TPU. В основном их применяют в экспериментальных проектах, узкоспециализированных решениях или для отладки. Их главное преимущество — гибкость. Такие чипы представляют собой миллионы эквивалентных вентилей, образующих полный базис булевых функций, с возможностью создания на их основе необходимых вычислительных схем.

К тому же, мировые лидеры в области облачных технологий, такие как Google, Amazon и Microsoft, уже давно развивают собственные чипы для ускорения работы с ИИ. Эти компании создали специализированные чипы, которые оптимизированы для инференса, а не для обучения нейросетей. Например, Google разработал TPU v4, прошедший несколько итераций, и недавно представленный TPU v5e, которые значительно ускоряют инференс и оптимизацию работы с большими моделями ИИ. Amazon, в свою очередь, создал чипы AWS Trainium2, которые предназначены для высокопроизводительных вычислений в области обучения моделей машинного обучения и инференса. Microsoft также использует собственные чипы на базе Maia 100, которые ориентированы на ускорение работы с ИИ.

Состояние и пути развития рынка производителей ИИ-чипов

Однако ключевое различие между этими чипами и тем, что нужно для быстрого обучения моделей, — для этого необходима специфическая библиотека, которая эффективно взаимодействует с железом. На данный момент Nvidia является безусловным лидером в этой области: компания разработала CUDA — библиотеку, которая обеспечивает тесную интеграцию с её графическими процессорами (GPU). CUDA позволяет значительно ускорить обучение нейросетей за счет эффективной работы с параллельными вычислениями, что делает её незаменимой в современных решениях для ИИ. Все крупнейшие фреймворки для обучения нейронных сетей, такие как TensorFlow, PyTorch, и другие, в первую очередь оптимизированы для работы с Nvidia GPU, из-за чего другим производителям сложно конкурировать в этой сфере. Например, чипы AMD, хоть и предлагают хорошую производительность в задачах общего назначения, все еще отстают по скорости обучения нейронных сетей. Это создаёт значительный барьер для входа новых игроков на этот рынок.

Такое положение вещей вызывает обеспокоенность у крупных технологических компаний, к примеру, Google и Amazon не могут в полной мере раскрыть потенциал своих чипов, если ограничены существующими решениями, разработанными для работы исключительно с CUDA. В ответ на это, они активно развивают собственные аппаратные и программные решения. Например, Amazon создала MXnet — свою библиотеку для глубокого обучения, ориентированную на использование её собственных чипов AWS Trainium, а Google разрабатывает JAX, который предоставляет возможности для высокопроизводительных вычислений с использованием TPU. Однако эти решения не получили широкого распространения, поскольку в первую очередь они привязаны к аппаратным решениям этих компаний и не продаются на свободном рынке.

Компании и исследователи, работающие с ИИ, сталкиваются с проблемой: как использовать преимущества новых архитектур чипов и библиотек, не будучи ограниченными специфической поддержкой одного производителя железа? Этот вопрос становится все более актуальным, и в ответ на него ИТ-сообщество стремится разрабатывать универсальные библиотеки и фреймворки, которые могут эффективно работать с различными архитектурами чипов. Это означает, что в будущем может появиться больше решений, которые не будут зависеть от особенностей отдельных производителей, и позволят раскрыть потенциал GPU более гибким образом.

Так как OpenAi является частью Microsoft, разработка собственных чипов может принести компании значительные преимущества. Во-первых, это позволит OpenAI значительно снизить затраты на создание и поддержку инфраструктуры, которая в настоящее время зависит от сторонних поставщиков оборудования. Во-вторых, собственные чипы дадут OpenAI большую гибкость в оптимизации своих моделей и алгоритмов, что может привести к улучшению производительности и снижению задержек в инференсе. Microsoft, в свою очередь, будет заинтересована в том, чтобы OpenAI не только сократил зависимость от внешних поставщиков, но и укрепил свою позицию в ИТ-экосистеме компании. Разработка собственных чипов также может улучшить их возможности в управлении облачной инфраструктурой, что в конечном итоге скажется на стоимости и доступности вычислительных ресурсов для пользователей.

Таким образом создание собственных чипов OpenAI также может повлиять на общий рынок, стимулируя другие компании инвестировать в собственные аппаратные решения, что в свою очередь приведет к более диверсифицированному и конкурентному рынку технологий для ИИ.