Ошибка в конфигурации сетей провайдеров привела к сбою в интернете
Ошибка конфигурации сетей российских провайдеров привела к произошедшему на днях сбою при доступе к популярным сервисам для российских пользователей. По данным Qrator Labs, произошедшая аномалия могла затронуть до 20% пользователей в РФ и стала результатом двух связанных между собой ошибок. Небольшой оператор связи допустил ошибку в конфигурации протокола BGP, перенаправив значительную часть трафика ПАО "Ростелеком" на свою сеть. Справиться с такой нагрузкой сеть небольшого оператора не могла, в результате сделав недоступными тысячи сервисов для пользователей "Ростелекома". "Ростелеком" же не настроил корректную фильтрацию на стыке с этим клиентом. Из-за ошибок настройки протокола BGP эти операторы не только "подвесили" свои сети, но и создали проблемы для сторонних сервисов.
Специалисты Qrator Labs 25 ноября в 16:00 по московскому времени зафиксировали ошибку в конфигурации сетей российских провайдеров, из-за которых от 10% до 20% российских пользователей стали недоступны популярные ресурсы. Сбой продлился более часа.
По данным Qrator Labs, небольшой оператор Krek Ltd. перенаправил значительную часть трафика "Ростелекома" на свою сеть. Справиться с такой нагрузкой сеть Krek не могла, в результате сделав недоступными тысячи сервисов для пользователей "Ростелекома".
У инцидента было три стороны, рассказывает сетевой архитектор Qrator Labs Александр Азимов. Первая сторона - это оператор, который перенаправил на себя трафик (в данном случае Krek), вторая сторона - оператор, который принял аномальный маршрут и распространил его ("Ростелеком"), и третья сторона - сервисы, у которых был перехвачен трафик.
Специалист Qrator Labs пояснил корреспонденту ComNews, что оператор перенаправил на себя трафик из-за ошибки в настройке BGP (Border Gateway Protocol, служит для управления трафиком на уровне операторов связи, и ошибки в его настройке приводят к нелегитимному перехвату трафика) маршрутизатора.
"Проблема в том, что в протоколе BGP технически не заложено четко прописанных законов, а есть только правила, носящие рекомендательный характер относительно того, что каждый оператор должен делать внутри своей сети, а что запрещено, - отмечает Александр Азимов. - При этом сами сетевые настройки в большинстве случаев по-прежнему делают руками сетевые инженеры, а людям свойственно совершать ошибки. И конечно, вместе с ростом количества операторов пропорционально растет и число ошибок". По его словам, системным решением этой проблемы может стать упрощение и автоматизация процесса настройки протокола BGP.
У принявшего аномальный маршрут и распространившего его оператора имеет место другая ошибка конфигурации, продолжает Александр Азимов. "Операторы связи должны - но снова не обязаны - настраивать фильтры на стыках с клиентами. Это, по сути, является "предохранителем" от подобных ошибок их клиентов, - поясняет специалист Qrator Labs. - В данном случае фильтры отсутствовали, что привело к перенаправлению трафика из сети "Ростелекома" в сеть Krek, которая не имела никаких шансов пропустить через себя такой объем трафика".
"На сети "Ростелекома" на прием всех BGP-анонсов от внешних операторов и клиентов стоят prefix-lists, которые обновляются в автоматическом режиме на основании данных RIPE и других регистратур", - сказал представитель "Ростелекома".
Он пояснил, что в данной ситуации, с целью отладки параметров подключения, по просьбе клиента фильтр был временно модифицирован в ручном режиме. По стечению обстоятельств, в этот момент на сети Krek Ltd произошла ошибка, в связи с чем его пограничный маршрутизатор стал анонсировать полную таблицу маршрутов. "Эти маршруты на сети "Ростелекома" были помечены как клиентские, поэтому были реанонсированы вовне", - добавил он.
Представитель "Ростелекома" замечает, что ситуация вскрыла глобальную проблему, когда ряд крупных операторов приняли некорректные анонсы без соответствующей фильтрации. Например, свои собственные сети, а также маршруты, в которых содержались их собственные AS (автономная система - система IP-сетей и маршрутизаторов, управляемых одним или несколькими операторами, имеющими единую политику маршрутизации с интернетом).
Александр Азимов рассказал корреспонденту ComNews, что от сбоя пострадало более 5000 российских и зарубежных операторов. Среди них он назвал таких провайдеров, как Comcast, Deutsche Telekom, Telecom Italia, Orange, Chinanet-backbone, HINET Data Communication Business Group, Level3, British Telecommunications, Akamai Technologies, China Telecom, MegaFon и Kazakhtelecom.
Сервисы наблюдали потерю значительной части аудитории, но понять, что именно произошло, было затруднительно. Недоступными для пользователей оказались Amazon, YouTube, "ВКонтакте", онлайн-кинотеатр ivi и др.
Отвечая на вопрос о том, насколько часто в российском сегменте интернета встречаются подобные сбои, Александр Азимов сказал, что столь крупные инциденты возникают несколько раз в год, но более мелкие перехваты являются системной проблемой. Он добавил, что если раньше причиной были именно ошибки, то за последний год набирает обороты хакерская активность с целью перехвата и анализа трафика. По словам специалиста Qrator Labs, такие атаки могут нести значительные финансовые риски.
Корреспондент ComNews опросил крупнейших операторов, сталкивались ли они с подобной проблемой в указанный период, и все ответили отрицательно.
NetByNet (ООО "Нэт Бай Нэт Холдинг", "дочка" ПАО "МегаФон") эта проблема не затронула. Об этом сообщил директор по развитию бизнеса на массовом рынке NetByNet Андрей Егоров. Он пояснил, что сеть NetByNet обладает достаточно разветвленной сетевой связностью и имеет прямые стыки со всеми существенными генераторами контента. "Что касается сети NetByNet, мы считаем, что повторение такой ситуации в нашем случае невозможно, так как мы в обязательном порядке прописываем фильтры на всех межоператорских стыках с нашими клиентами в соответствии с заявленными политиками", - добавил Андрей Егоров.
По мнению специалиста NetByNet, проблема могла произойти из-за ошибки конфигурации протокола BGP на стыках между оператором и его клиентом. "Наиболее эффективный способ предотвращения таких проблем - правильная конфигурация протокола BGP на межоператорских стыках таким образом, чтобы от присоединенного оператора могли приниматься только маршруты, в соответствии с политикой маршрутизации", - сказал он.
В ПАО "Московская городская телефонная сеть" (МГТС) пояснили, что контролируют анонсируемые сети от присоединенных операторов, поэтому подобная ситуация к ним не применима.
Пресс-служба "Акадо Телеком" (ОАО "Комкор") сообщила, что на их сети подобных явлений зафиксировано не было.
У ПАО "ВымпелКом" (бренд "Билайн") все работало в штатном режиме и проблем зафиксировано не было.
Эксперт по сетевой безопасности ЗАО "Крок Инкорпорейтед" (КРОК) Данил Дрожжин замечает, что подобные инциденты случаются достаточно редко, и чаще всего их причиной становится человеческий фактор - ошибка конфигурации (невнимательность, "пренебрежение" фильтрацией и пр.) либо намеренные действия злоумышленников. "Протокол BGP, использующийся для глобальной маршрутизации, по своей природе небезопасен, так как в нем нет механизмов проверки подлинности и аутентификации источника обновлений. При настройке BGP есть специальные инструменты, которые помогают избежать утечек маршрутов, например Resource Public Key Infrastructure - RPKI", - говорит он.
Специалист технического сопровождения продуктов Eset Russia Борис Соболев обращает внимание корреспондента ComNews на то, что подобные ситуации случаются не в первый раз. "Отсутствие фильтров BGP-анонсов на стыках с клиентами могжет привести к печальным последствиям, вплоть до недоступности определенных интернет-ресурсов по всему миру. Стоит также отметить, что некорректная конфигурация может большую часть времени работать исправно и не подавать признаков аномалии", - отмечает он. Он рекомендует правильно настроить фильтрацию анонсов, поскольку это дешевле и легче, чем предотвратить возникшую проблему.