© ComNews
26.08.2024

Компания "ВЫГОН Консалтинг" оценила возможности генеративных моделей ИИ для решения прикладной отраслевой задачи - оценки шанса геологического успеха (geological chance of success, gCoS) в разведке месторождений углеводородного сырья.

gCoS определяется по результатам геофизических исследований скважин, сейсморазведочных работ и анализа образцов горных пород, проводимых в определенном нефтегазоносном бассейне и связанных с ним геологических формациях. Результаты, как правило, публикуются в виде научных статей в формате pdf - неструктурированных документов в текстовой или табличной форме с привязкой к онтологическим объектам (образец с измерениями, бассейн, отложение). Корректная экстракция (извлечение) таких геологических данных является базовым условием для эффективной оценки gCoS, ошибочный результат может привести к существенным финансовым потерям при выполнении геологоразведочных работ (ГРР).

Для изучения текущих возможностей и границ применимости нейросетей в оценке gCoS эксперты "ВЫГОН Консалтинг" использовали специально разработанное для этих целей ИИ-решение, включающее модули поиска релевантных научных статей, предобработки исходных данных, извлечения структурированных данных и сравнения (бенчмаркинга) качества ответов фронтирных LLM (large language model - больших языковых моделей).

В качестве предмета для исследования были выбраны геологические отчеты, опубликованные в рамках программы лицензирования открытых площадей Индии (Open Acreage Licensing Program, OALP). Экстракция проводилась из 50 статей, содержащих информацию о 830 образцах горных пород. Нейросеть проверяла ее с помощью специально подготовленных справочников, включающих верифицированные экспертами "ВЫГОН Консалтинг" данные о 900 геологических формациях в 37 нефтегазоносных бассейнах. Неструктурированная информация из pdf-документов была размечена в тестовый датасет по 16 взаимосвязанным онтологическим параметрам. По результатам экстракции для лицензионного участка № MB-OSHP-2023/1 нейросеть определила 95-процентную вероятность наличия богатой нефтегазоматеринской породы с хорошей зрелостью, предполагающей генерацию газа. Значение параметра Рнм (одного из пяти факторов gCoS) оценено в 0,95.

Бенчмаркинг качества экстракции данных показал, что закрытые иностранные LLM лучше справляются с извлечением данных, чем опенсорсные. Самая высокая доля корректных извлечений, необходимых для расчета Рнм - у Claude 3.5 Sonnet (68%). На шесть процентных пунктов от нее отстает самая популярная в мире модель GPT 4o. На третьем месте с 60% еще одна закрытая модель - Gemini 1.5 Pro. Результат опенсорсных моделей чуть ниже: Llama 3.1 405В - 52%, Mistral Large 2 - 47%, Qwen2 72B - 45%, Llama 3.1 70B - 44%.

Отечественные YandexGPT и GigaChat принимали участие в тестировании, но в итоговый бенчмаркинг не попали. Им не удалось извлечь неструктурированные геологические данные в CSV формат в соответствии с заданной онтологической инструкцией. Кроме того, из-за небольшого размера контекстного окна и ограничений на количество генерируемых токенов процедура извлечения усложнялась и теряла в качестве. Очевидно, что ИИ-решения с использованием российских LLM могут улучшить результаты в экстракции данных для оценки gCoS (например, с помощью fine tuning). Но это повлечет дополнительные затраты на разработку и исследования (R&D), в отличие от опенсорсных моделей, где эти сценарии работают по умолчанию.

По результатам исследования эксперты "ВЫГОН Консалтинг" пришли к выводу, что современные модели генеративного ИИ начинают претендовать на роль эффективного инструмента для выполнения прикладных задач геологоразведки. Они помогут сократить временные затраты геологов на поиск и анализ данных и повысить результативность ГРР. В России, по данным Роснедр, ежегодно открывается около 50 месторождений УВС, причем средний объем технически извлекаемых запасов нефти постепенно снижается и составляет всего около 4 млн т. При этом есть ряд новых регионов (глубокие горизонты Западной Сибири, Таймыр, Восточная Сибирь, шельфы северных морей и Дальнего Восток), где открытия могут быть значительными. В виду их недостаточной изученности инструмент для gCoS на базе LLM может быть очень полезен.

В перспективе такой ассистент геолога может использоваться как частными нефтегазовыми компаниями, так и подведомственными структурами Роснедр (Росгеолфонд, ГКЗ, институты) для формирования структурированных баз данных на основе значительного объема накопленной геологической информации и создания инструментов экспертизы геологических отчетов, проектно-технических документов, а также для приоритезации региональных ГРР. В частности, полезной выглядит возможность использования генеративного ИИ для подбора месторождений-аналогов, технико-экономических параметров, оценки ресурсов. Эту гипотезу "ВЫГОН Консалтинг" планирует проверить и опубликовать результаты до конца 2024 г.