Утечка исходников Яндекса

ciso_on_fire

26.01.2023

25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса. Общий объем архивов (в сжатом виде) составляет более 44.7 ГБ.

Утекли исходники почти всех продуктов. Там есть и Почта, и Такси, и Диск, и Алиса. Врядли эти исходники кто-то сможет использовать напрямую, этого точно не стоит бояться. Пользовательских данных, в первом приближении, там нет. В том смысле, что это именно исходники, конфигурации, но не базы данных.

Часто утечка исходников сильно вредит безопасности продукта, потому что там бывают захардкоженные секреты и простые уязвимости. На первый взгляд, здесь этого тоже нет, по крайней мере в сравнении с масштабом утечки. Секреты не хранятся в коде напрямую, а подтягиваются откуда-то еще - это очень правильно, так и нужно всегда делать.
Очень много самописных внутренних инструментов, много документации. Интересно для изучения, чтобы понимать, как работают большие компании и их ИТ-инфраструктура. Кажется, что в Яндексе есть сильный перевес в пользу "напишем сами" даже тогда, когда другие компании обошлись бы опенсорсом.
Конечно, интересен репозиторий security. Там тоже внутренние инструменты, всевозможные сканеры, разбиралки тикетов, все на достаточно продвинутом уровне.
Яндекс массово использует Telegram в качестве рабочего мессенджера. В файлах есть куча ссылок на чатики в телеграме, по которым можно было прийти и вступить. Сразу после новости о сливе большую часть из них подчистили, но не все. Использование Telegram - большая проблема и боль для безопасности. Правильный выход - это конечно использование корпоративного мессенджера с полным запретом личных. Но у них тоже есть недостатки, телеграм просто очень удобный. В Яндексе используют специального телеграм-бота, которого добавляют в чатики и он следит, чтобы там не было чужаков. Но понятно, что работает это только в тех чатиках, куда бота не забыли добавить.

В репозитории Алисы тоже много интересного. Именно самой говорящей модели Алисы вроде нет, но есть много разных скриптов для ее обучения, фрагментов обучающих данных и т.п. Есть выборки реальных (анонимных) запросов пользователей к Алисе, очень интересные. На скриншоте фрагмент файла с реальными призывами к Алисе замолчать. Его можно растащить на мемы буквально целиком, В репозитории Почты есть код, который занимается разметкой данных из писем. В том числе анализируются письма с подписками на разные онлайн-сервисы, письма с чеками. Зачем именно - неясно, возможно Яндекс так мониторит конкурентов по рынку?
Подход с "монорепой", когда весь код большой компании лежит в одном большом репозитории имеет и свои плюсы и минусы. Когда много сотрудников имеют доступ сразу ко всему - с одной стороны это очень удобно, а с другой, утечка становится вопросом времени. Надо быть к ней готовыми.
Данных очень много, это все еще только предстоит изучать. Что делать Яндексу? Да ничего, выпустить пресс-релиз, что исходники старые, данные пользователей в безопасности, взлома не было, виноват инсайдер. Ну и старательно найти и инвалидировать все секреты.
Можно еще сделать красивый жест, выложить официально в опенсорс часть внутренних инструментов и библиотек. Хуже уже точно не будет, а лучше будет.

Утечка исходников Яндекса

Новости из связанных рубрик

Информационная безопасность

В Нижнем Новгороде появилась первая в России будка фрод-рулетки

Депутат Боярский рассказал о втором пакете мер по борьбе с мошенничеством

Больше половины компаний малого и среднего бизнеса перейдут на западное ПО

Первый замминистра экономического развития назвал сроки утверждения ключевых актов по технологической политике

Выручка "Яндекса" выросла, чистая прибыль - упала

"РЦ "Плинор" разработал "Молоко 2.0"

"МегаФон" в Новосибирске возглавил Дмитрий Оловянников

"Аренамастер" внедрил билетную систему собственной разработки на "Live Арене"

VAS Experts помог мексиканскому интернет-провайдеру повысить производительность и масштабируемость сети

"Роснефть" развивает технологии информационного моделирования

Сеть "ЛабКвест" объединила лабораторные и врачебные услуги в цифре

До трети госзакупок отменяют из-за ошибок в техническом задании

"Ростех" создал супердатчики "Набат" для защиты объектов ТЭК от пожаров

Fix Price развивает онлайн-продажи и клиентский сервис

Почему заказная разработка ПО - это выгодно

Цифровая трансформация российских компаний: главные тренды

Инновационные связи: как ИИ и данные меняют реалии российской медицины

Увеличение количества бюджетных мест в вузах не приведет к технологическому лидерству

билайн запустил акцию "Смартфон за 1 рубль"

Просмотры детского контента в VK Видео за год выросли более чем в 30 раз

Альянс в сфере ИИ представил Кодекс этики в сфере ИИ в медицине и здравоохранении

Количество запросов к данным о доменах российских компаний достигло 15 млн

ИТ-компании стали искать сотрудников по скилам