BSS существенно улучшила качество технологии RAG в GPT-поиске в Базе знаний InKnowledge

05.09.2024

ИИ-поиск с RAG справляется успешно с 76% запросов, а вероятность некорректного ответа снизилась с 28% до 6% при работе с PDF-файлами. Также команда внедрила новую модель векторизации и оптимизировала работу с внешними нейросетями GPT. Нововведения направлены на повышение эффективности, быстроты и точности работы с Базой знаний.

В новой версии RAG внесены существенные доработки, направленные на повышение производительности и качества ИИ-поиска. Компания теперь использует другую модель векторизации, которая имеет больший размер контекстного окна, что позволяет собирать больше информации и увеличить точность поиска. Ранее компания BSS внедрила GPT-поиск с RAG в Базе знаний InKnowledge от компании L2U. Это позволяет строить ответы на основе документов, находящихся в доверенном хранилище Базы знаний. Также технология умеет различать права доступа каждого пользователя, что обеспечивает дополнительную информационную безопасность при работе с RAG.

Следующее важное изменение касается обработки PDF-документов. Теперь RAG-поиск умеет анализировать информацию из таблиц, размещенных в PDF-файлах, что ранее было недоступно. В предыдущей версии RAG на вопросы по таблице система находила релевантную информацию в других текстовых источниках.

Также новая версия адаптирована под особенности внешних нейросетей и LLM-моделей (например, Яндекс GPT). Теперь весь распознанный текст переводится в формат Markdown, который более точно распознается сторонними сервисами при работе с таблицами в PDF. Улучшено качество разбивки файлов на чанки (кусочки информации), на которые делится база знаний для дальнейшей передачи в промт. Это было достигнуто за счет более корректного распознавания структуры файлов и расстановки границ в нужных согласно контексту местах (стык параграфов, заголовки таблиц, подзаголовки разделов и т.д.) при дроблении текстовых материалов.

"При создании новой версии RAG мы сосредоточились на работе с PDF-файлами, поскольку это популярный формат документов, но вызывающий сложности при обработке материалов с помощью метода RAG. Мы научились корректно доставать информацию из таблиц в PDF-документах, а также передавать её внешним LLM-моделям за счет увеличения длины чанков. Качество поиска повысилось, а доля ошибочных ответов снизилась до 6% или более в 4 раза относительно значения показателя старой версии. Благодаря обновлению можно ещё быстрее получать содержательные ответы в Базе Знаний", — прокомментировал директор департамента голосовых цифровых технологий компании BSS Александр Крушинский.

BSS существенно улучшила качество технологии RAG в GPT-поиске в Базе знаний InKnowledge

МТС провела реструктуризацию

Мошеннику никто не звонит: Антифрод "Билайна" не даст абоненту позвонить мошеннику

Искусственный интеллект в ретейле показал 30% эффективности

"Яндекс Браузер" увеличил популярность в корпоративном сегменте

СберТех получил сертификат соответствия ФСТЭК России на процессы безопасной разработки ПО

Отечественные базовые станции вышли на серийное производство

Правительство Воронежской области продолжает переход на российское ПО

"МегаФон" увеличил ёмкость сети в петербургском метро в 2 раза

На ВДНХ появились автономные роверы

Цифровизация автокредитования разошлась на два пути

Экзоскелеты с искусственным интеллектом разрабатывают в России

НСА представил цифровой инструмент для страхования урожая

В "Росэлектронике" создали доверенный отечественный программно-аппаратный комплекс виртуализации

"Роснефть" расширяет возможности цифрового исследования керна

"РТ Доктис" и Сеченовский университет проведут дистанционный мониторинг пациентов с ХОБЛ

"Как у любого продукта, у нормативного документа есть свой жизненный цикл. И им надо уметь управлять"

Письмо Деду Морозу от редакции ComNews

"Моторика" приобрела 50,1% доли в ООО "Завод специального оборудования"

Сервис OneБизнес от билайн бизнес и Альфа-Банка создает сайты из товарных каталогов соцсетей и маркетплейсов

Т1 Облако расширит возможности в области информационной безопасности

Количество вебатак на онлайн-магазины резко выросло в преддверие праздников

83% компаний не защищены на уровне DNS