Рентгенологи приступили к сборке всероссийского датасета для проверки сервисов ИИ
Федеральные (общероссийские) датасеты, которые будут сформированы экспертами Центра диагностики и телемедицины, необходимы для проведения объективной проверки сервисов для лучевой диагностики на основе технологий искусственного интеллекта. В начале проекта будут собраны компьютерные томограммы и рентгенограммы пациентов с признаками коронавирусной инфекции (COVID-19) из разных регионов Российской Федерации
Эксперты Центра диагностики и телемедицины приступили к формированию уникальной общероссийской базы данных снимков лучевой диагностики. Сбор данных осуществляется в рамках масштабной программы по развитию технологий искусственного интеллекта в медицине, частью которой является московский эксперимент по компьютерному зрению в лучевой диагностике. Фактически будут сформированы эталонные датасеты, с помощью которых специалисты здравоохранения смогут оценивать корректность и точность работы сервисов искусственного интеллекта по выявлению патологий в исследуемых областях.
"Во всем мире создаются тысячи медицинских сервисов искусственного интеллекта. Перед запуском необходимо протестировать их работу, то есть проверить, насколько они адаптированы для практического здравоохранения. Им нужна "песочница" — это цифровое пространство или база данных, на которых будут испытаны новые технологии. Как показывает практика, новые сервисы искусственного интеллекта анализируют изображения правильно на 70–80 %. С помощью датасета можно понять, преодолевает ли требуемый порог качества сервис, чтобы быть полезным и востребованным врачами, готов ли к практическому внедрению в медицинских организациях", — пояснил главный специалист по лучевой и инструментальной диагностике Москвы, директор Центра диагностики и телемедицины Сергей Морозов.
К участию в формировании федерального датасета приглашаются врачи-рентгенологи со всей России. Платформа для загрузки данных имеет простую и понятную структуру. На сайте проекта врачам нужно ознакомиться с условиями использования платформы. В опросный лист — внести информацию о статусе ПЦР-теста пациента (положительный или отрицательный), описать клиническую картину при проведении диагностики, заполнить информацию для обратной связи и загрузить обезличенное медицинское изображение.
"Сейчас приступаем к подготовке репрезентативного медицинского датасета пациентов с признаками COVID-19. Таким образом, будет сформирован всероссийский эталонный датасет, в котором будут представлены не только медицинские изображения лучевых исследований пациентов с признаками коронавирусной инфекции, но и сопровождающая клиническая информация. Последнее необходимо для повышения точности постановки дифференциального диагноза и прогнозирования течения заболевания системами искусственного интеллекта. В дальнейшем направление по сбору датасетов может быть расширено, и начнется объединение медицинских изображений пациентов с диагностированными злокачественными образованиями в том числе в головном мозге, молочных железах, предстательной железе, легких и других органах. Общей целью создания данных датасетов является тестирование и повышение точности систем на основе искусственного интеллекта по выявлению и характеризации данных социально-значимых заболеваний", — отметила руководитель сектора медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины Анна Андрейченко.
Процесс подготовки датасета является трудоемким и кропотливым, а качество итогового продукта будет определять его способность к объективной оценке тестируемого на его основе сервиса искусственного интеллекта.
"Для каждого элемента базы данных будет проводиться классификация по группам "компьютерная томограмма" и "рентгенограмма", по наличию или отсутствию информации о клинической картине, результатов анализа, по техническим характеристикам томографов, например толщине срезов и размерам матрицы,— В итоговый датасет войдут исследования КТ со срезами толщиной не более 1 мм, так как необходимо создать унифицированный набор данных. Но более точные характеристики датасета будут известны после обработки всех полученных данных", — объяснил руководитель проекта в секторе медицинской информации, радиомики и радиогеномики Центра диагностики и телемедицины Николай Павлов.
Обязательным условием предоставления данных является их полная и безвозвратная деперсонализация (обезличивание), то есть полное исключение каких-либо персональных сведений о пациенте. Обезличивание медицинских изображений может проводиться с помощью встроенного программного обеспечения в аппараты КТ и РГ. Обычно такая опция используется для передачи данных в другие медицинские центры. Существуют также и специальные программы — просмотрщики медицинских изображений с функцией удаления персональных данных. Рентгенологи тоже их используют в работе. Кроме того, со всеми специалистами, кто загружает данные, эксперты держат обратную связь, при необходимости инструктируют и разъясняют методику загрузки данных.
В пандемию исследователи Центра диагностики и телемедицины собрали самую большую в мире базу данных пациентов с признаками коронавирусной пневмонии. Датасет кропотливо нарабатывался — из тысячи медицинских изображений производилась выборка по определенным критериям для систем искусственного интеллекта и выполнялась разметка — к снимкам прикреплялась определенная техническая информация. База собиралась в сжатые сроки, что было вызвано необходимостью автоматизации процесса распознавания патологических изменений в легких при коронавирусной инфекции. На основе датасета, представленного в открытом доступе, разработчики всего мира могли "дообучать" и тестировать алгоритмы своих сервисов. С начала пандемии его скачали более 500 российских и зарубежных разработчиков и программистов. Центр диагностики и телемедицины принял участие в борьбе с COVID-19 в мировом масштабе в сфере искусственного интеллекта.