Эксперты в области искусственного интеллекта (ИИ) пришли к выводу, что в 2024 г. данных для обучения больших языковых моделей стало недостаточно, и назвали способы, как решить эту проблему в 2025 г.
© ComNews
09.01.2025

Есть два основных варианта, которые предлагают эксперты для того, чтобы решить этот вопрос. Первый - это когда частные компании смогут получить доступ к государственным данным для того, чтобы развивать большие языковые модели. И второй - это когда частные компании будут делиться данными.

Ведущий научный сотрудник Института системного программирования им. В.П. Иванникова Российской академии наук (ИСП РАН) Алексей Хорошилов на вопрос корреспондента ComNews, какой подход он видит более прагматичным, ответил, что не надо опираться только на данные, объяснив это тем, что оба этих пути нормально не сработают по ряду причин: "Поэтому вопрос надо решать не на уровне данных, а на уровне изменения подходов к ним", - заключил он.

Директор ИСП РАН Арутюн Аветисян согласился, что проблема нехватки данных для обучения больших языковых моделей действительно существует. Однако, по его словам, есть несколько направлений, по которым идет развитие больших языковых моделей: "Одно из которых позволяет получить качественные скорректированные данные и при помощи них поднимает качество самих моделей. Во-вторых, мы создаем небольшие модели - от 2 млрд до 10 млрд параметров, - которые работают так же, как и большие модели, но больше как специализированные. Соответственно, возникает окно возможностей обучать такие модели как с нуля, так и с помощью дистилляции больших моделей, то есть уменьшения их сложности и объема".

Технический директор ООО "Еора Дата Лаб" Сергей Веренцов обратил внимание, что данные перестали быть доступны: "Это связано и с государственным регулированием, и с тем, что компании не открыты, как раньше. Данных не то чтобы перестало хватать, скорее доступ к ним стал трудный. Компании понимают, что это один из их активов. Перед разработчиками крупных и сложных моделей стоит задача найти источники данных. Я считаю, что решение этой проблемы лежит в политической и экономической плоскости".

Представитель пресс-службы ООО "МТС ИИ" (MTS AI) подтвердил корреспонденту ComNews, что развитие больших языковых моделей подошло к переломной точке из-за недостатка данных для обучения в интернете - релевантных доступных текстов больше нет, старые уже изучены, а новые не появляются с требуемой скоростью: "В дальнейшем прогресс продолжится в иной форме: развитие станет более бизнес-ориентированным, модели будут больше нацелены на решение прикладных задач и возврат инвестиций, а не на развлекательные или визионерские функции".

Исходя из этого, представитель пресс-службы MTS AI выделил направления развития ИИ в больших языковых моделях в ближайшее время:

1. Узкая специализация. Модели будут сосредоточены на решении точечных задач, например - на проведении сложных математических вычислений и выполнении конкретных требований бизнеса.
2. Мультимодальность, что предполагает создание одновременно текстового, аудио- и видеоконтента в рамках одной модели.
3. Повышение производительности при снижении ресурсоемкости. Модели будут развиваться в сторону не увеличения, а уменьшения параметров. Такая трансформация позволит запускать и обучать их на пользовательских устройствах без потери качества.
4. Выполнение задач реального мира. ИИ будет способен выполнять конкретные запросы пользователей, такие как работа на компьютере или других устройствах и т.д. Таким образом, модели будут осваивать область роботизированной автоматизации.
5. Открытые модели догонят по качеству проприетарные. Уже существуют примеры моделей на открытом исходном коде, показавших достойные результаты при скромной стоимости. Таким образом, искусственный интеллект продолжит развиваться не только благодаря корпорациям и для решения их нужд, но и с помощью представителей ИТ-сообщества.

Руководитель научной группы "Адаптивные агенты" Научно-исследовательского института искусственного интеллекта (AIRI) Владислав Куренков согласился, что недостаток данных для обучения в будущем - превалирующее мнение среди научного и профессиональных сообществ, занимающихся ИИ, но с важной поправкой: "Закачиваются не данные в целом, а публичные текстовые данные из интернета. На мой взгляд, есть три основных направления по решению проблемы "конца данных". Первое - генерация синтетических данных - например, создание симуляторов. Второе - ИИ модели, которые более эффективно утилизируют данные. И третье - обучение и досбор данных через взаимодействие моделей с миром".

Технический директор ИТ-компании "КодТех" Кирилл Котов рассказал корреспонденту ComNews, что для обучения и развития моделей на текстовых данных все чаще используются наборы данных, которые генерируются самими моделями: "То есть для обучения модели следующего поколения данные генерируются моделями текущего поколения. Но есть большой пласт данных, которые сгенерировать либо затруднительно, и это не даст нужного качества, либо слишком ресурсоемко. Например, изображения, видео, голос. Вопрос таких качественных данных действительно стоит остро: для хорошего обучения и тюнинга модели их нужно больше, особенно есть потребность в специализированных наборах данных под конкретные отрасли и задачи".

Руководитель лаборатории ИИ интегратора эффективных ИТ-решений "Первый Бит" Владимир Фадеев считает, что решение проблемы с нехваткой данных для больших языковых моделей лежит в трех ключевых направлениях:

1. Создание синтетических данных. Существующие модели могут генерировать тексты для обучения будущих версий. Это позволяет не только наращивать объем данных, но и контролировать их качество и содержание.

2. Работа с уже имеющимися данными. Повышение их качества через тщательную разметку, очистку и структурирование дает возможность использовать текущие ресурсы более эффективно.

3. Обучение на мультимодальных данных. Подключение информации из других форматов, таких как аудио, видео и изображения. Например, аудио можно транскрибировать в текст, а изображения или видео анализировать и интерпретировать. Это расширяет наборы данных и помогает моделям лучше понимать контекст.

https://www.comnews.ru/article/236865/2024-12-16/2024-w51/2025-g-iskusstvennyy-intellekt-nachnet-luchshe-ponimat-cheloveka

Новости из связанных рубрик