Нейросети Яндекса помогут найти информацию в архивах "Советского спорта" с 1922 года
Нейросети Яндекса распознали 24 тысячи выпусков газеты "Советский спорт". Теперь они доступны в сервисе Поиск по архивам.
Пользователи не только увидят сканы практически всех выходивших с 1922 по 2022 год номеров легендарной газеты, но и получат возможность искать в них информацию так же, как в интернете. Журналисты, историки и любители спорта смогут быстро находить нужные сведения. Например, упоминания конкретных людей, событий и соревнований.
Проект реализован в рамках партнёрства Яндекса с "Советским спортом" и Национальной электронной библиотекой (НЭБ), которая агрегирует и представляет пользователям в цифровом формате документы из фондов российских библиотек
Для работы с "Советским спортом" распознающую тексты нейросеть потребовалось адаптировать под особую вёрстку газетных страниц. Разработчики научили нейросети ориентироваться в газетах на примере специально созданного набора данных. Специалисты вручную обработали тысячи страниц, выделив на каждой десятки, а иногда и сотни текстовых блоков: от заголовков и колонок до шахматных нотаций и надписей на форме спортсменов.
В архивах "Советского спорта" можно найти, например, интервью легенды советского футбола Игоря Нетто, статью о необычном подходе к трансферам в середине прошлого века в Бразилии и заметку о том, что австрийская футбольная ассоциация больше не намерена терпеть в составах команд игроков с причёской в "стиле битлз".
Улучшенная технология распознавания, которая применялась для работы с выпусками "Советского спорта", в перспективе позволит лучше ориентироваться в других типах сложной вёрстки. Например, они часто встречаются в рукописных архивах.