Утечка исходников Яндекса
25 января 2023 в сети появились исходные коды и сопутствующие им данные множества сервисов и программ компании Яндекс. Раздача содержит отдельные архивы (.tar.bz2), по названиям которых можно идентифицировать соответствующие сервисы Яндекса. Общий объем архивов (в сжатом виде) составляет более 44.7 ГБ.
Утекли исходники почти всех продуктов. Там есть и Почта, и Такси, и Диск, и Алиса. Врядли эти исходники кто-то сможет использовать напрямую, этого точно не стоит бояться. Пользовательских данных, в первом приближении, там нет. В том смысле, что это именно исходники, конфигурации, но не базы данных.
Часто утечка исходников сильно вредит безопасности продукта, потому что там бывают захардкоженные секреты и простые уязвимости. На первый взгляд, здесь этого тоже нет, по крайней мере в сравнении с масштабом утечки. Секреты не хранятся в коде напрямую, а подтягиваются откуда-то еще - это очень правильно, так и нужно всегда делать.
Очень много самописных внутренних инструментов, много документации. Интересно для изучения, чтобы понимать, как работают большие компании и их ИТ-инфраструктура. Кажется, что в Яндексе есть сильный перевес в пользу "напишем сами" даже тогда, когда другие компании обошлись бы опенсорсом.
Конечно, интересен репозиторий security. Там тоже внутренние инструменты, всевозможные сканеры, разбиралки тикетов, все на достаточно продвинутом уровне.
Яндекс массово использует Telegram в качестве рабочего мессенджера. В файлах есть куча ссылок на чатики в телеграме, по которым можно было прийти и вступить. Сразу после новости о сливе большую часть из них подчистили, но не все. Использование Telegram - большая проблема и боль для безопасности. Правильный выход - это конечно использование корпоративного мессенджера с полным запретом личных. Но у них тоже есть недостатки, телеграм просто очень удобный. В Яндексе используют специального телеграм-бота, которого добавляют в чатики и он следит, чтобы там не было чужаков. Но понятно, что работает это только в тех чатиках, куда бота не забыли добавить.
В репозитории Алисы тоже много интересного. Именно самой говорящей модели Алисы вроде нет, но есть много разных скриптов для ее обучения, фрагментов обучающих данных и т.п. Есть выборки реальных (анонимных) запросов пользователей к Алисе, очень интересные. На скриншоте фрагмент файла с реальными призывами к Алисе замолчать. Его можно растащить на мемы буквально целиком, В репозитории Почты есть код, который занимается разметкой данных из писем. В том числе анализируются письма с подписками на разные онлайн-сервисы, письма с чеками. Зачем именно - неясно, возможно Яндекс так мониторит конкурентов по рынку?
Подход с "монорепой", когда весь код большой компании лежит в одном большом репозитории имеет и свои плюсы и минусы. Когда много сотрудников имеют доступ сразу ко всему - с одной стороны это очень удобно, а с другой, утечка становится вопросом времени. Надо быть к ней готовыми.
Данных очень много, это все еще только предстоит изучать. Что делать Яндексу? Да ничего, выпустить пресс-релиз, что исходники старые, данные пользователей в безопасности, взлома не было, виноват инсайдер. Ну и старательно найти и инвалидировать все секреты.
Можно еще сделать красивый жест, выложить официально в опенсорс часть внутренних инструментов и библиотек. Хуже уже точно не будет, а лучше будет.