18.7.16

Когнитивная безопасность или победоносный возврат нейросетей

В 2000-м году, когда я писал свою первую книгу "Обнаружение атак", я посвятил много времени изучению не только традиционных подходов по обнаружению вторжений по сигнатурам или аномалиям, но и многим другим методам, среди которых были и нейросети, призванные автоматизировать процесс принятия решения по событиям безопасности, подаваемым на вход нейросети. Однако на тот момент времени, основным препятствием на победоносном пути нейросетей была нехватка обучающего материала. Сегодня, в век Больших Данных (пусть и мало кто понимает что это такое на самом деле) ситуация стала кардинально иной - данных для анализа (в том числе и с точки зрения безопасности) стало настолько много, что прежние подходы, те же сигнатуры, начинают потихоньку сдавать свои позиции.

Именно поэтому в последний год-два так активно стали упоминаться термины "машинное обучение", "нейросети", "искусственный интеллект" в описании различных технологий и средств защиты информации. Когда в 2012-м году мы покупали компанию Cognitive Security, мало кто еще понимал, что это такое и с чем едят ту математику, которая лежала в основе анализа огромных объемов Web-логов, которые и анализировались с помощью технологий Cognitive Security. Сегодня технологии машинного обучения применяются не только в Cisco Cognitive Threat Analytics, но и во многих других решениях Cisco по ИБ. Спустя 4 года термин "Cognitive Security" стала использовать компания IBM, рассказывая о "новой эре" информационной безопасности, а различные "умные" технологии прочно обосновались в портфолио многих вендоров по ИБ.

Машинное обучение и искусственный интеллект позволят создать новые рынки
Я не буду сейчас вдаваться в дискуссию о том, чем отличается нейросеть от машинного обучения и корректно ли делать ссылки на искусственный интеллект применительно к ИБ, но факт остается фактом - на последних RSAC и InfoSecurity Europe эти термины эксплуатировались в хвост и в гриву всеми кому не лень. И это не то, чтобы дань моде (хотя и такое тоже бывает). Просто технологии действительно достигли такого уровня, чтобы снять нагрузку с человека, принимающего решения. Возьмем совсем недавнюю новость о том, что программа победила пилота ВВС США в воздушном бою. В переводе говорится об искусственном интеллекте, хотя в самих результатах упоминаются немного иной математический аппарат - и нечеткая логика, и генетические алгоритмы. Но суть не в терминах, а в том, что то, что еще совсем недавно считалось невозможным - компьютер обыграл человека в пусть и учебном, но все-таки бою. Кстати, именно опираясь на опыт воздушных боев полковник ВВС США Джон Бойд сформулировал теорию про петлю, позже названную его именем, которую все чаще и чаще на Западе примеряют к теме кибербезопасности.

Независимо от конкретного математического аппарата почти все такие системы базируются на анализе большого числа, в том числе разрозненных и неструктурированных данных, моделирующими человеческий процесс принятия решения, но делающие это более быстро. Основным же преимуществом различных технологий машинного обучения является способность к самообучению и исправлению ошибок. Полностью, конечно, ошибки исключить нельзя, но так и человек их тоже совершает и далеко не всегда извлекает уроки из них. Помимо анализа большого объема данных (а в ИБ их действительно много) технологии машинного обучения (читайте нейросети, читайте искусственные интеллект) также применяются в прогнозировании и принятии решений - в задачах, которые так важны и в кибербезопасности.

Читали ли вы роман Сергея Лукьяненко "Лабиринт отражений"? В нем (а раньше аналогичная идея была описана Гиббсоном в его известнейшом романе "Нейромансер") приводится пример системы защиты киберпространства, которая действует сама, адаптируясь к атакам, на нее направленным. С увеличением числа и сложности атак, растет мощность и системы защиты, тем самым превращая попытку проникновения (и защиты) в бой с непредсказуемым результатом, зависящим от того, у кого (атакующих или обороняющихся) лучше алгоритм самообучения. Раньше я думал, что это фантастика и при мне таких технологий не появится. Но сейчас я понимаю, что, возможно, я ошибался. Я вижу то, что делается у нас в Cisco и какие исследования мы проводим в области новых технологий ИБ. Я примерно представляю, что происходит у других игроков рынка ИБ. Я слежу за ИБ-стартапами. Я понимаю, что сегодня многие ринулись в эту сферу и скоро картина используемых в ИБ технологий сильно преобразится (возможно это даст даже перевес в борьбе с злоумышленниками, которые пока не замечены в активном поиске научных исследований на эту тему). Например, недавно специалисты из лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и стартапа PatternEx представили платформу AI2, построенную как раз на данном подходе, которая позволяет обнаруживать до 85% атак, не имея никакой базы сигнатур (кстати, как сертифицировать такие решения, не имеющие базы решающих правил, не совсем понятно).

Огорчает только, что российские игроки рынка ИБ тему машинного обучения пока почему-то обходят стороной. Возможно, это связано с нехваткой данных для обкатки технологий. Все-таки этот барьер преодолеть не так-то легко. Западным компаниям проще - у них доступ к гораздо большему объему данных, чем у россиян. Например, OpenDNS анализирует 80 миллиардов DNS-запросов ежедневно (!), а Cisco Talos пропускает через себя 16 миллиардов URL, 500 миллиардов сообщений e-mail и 18,5 миллиардов файлов в день (!). На таких объемах действительно проще отрабатывать новую математику. В России, пожалуй, что только Касперский с его KSN может выполнить аналогичную задачу; а также Яндекс, Mail.ru, Qiwi, Сбербанк и другие неИБ-компании с большими потоками данных для анализа и своими разработчиками. Хотя все, конечно, зависит от конкретной задачи. Например, для анализа защищенности Web-сайтов есть весь Интернет, а для обнаружения атак с помощью машинного обучения можно использовать различные конкурсы, те же CTF, в рамках которых собирать и анализировать методы злоумышленников.

ЗЫ. Кстати, в США (а где же еще) проходит и специализированная конференция по применению искусственного интеллекта в ИБ - AICS.

2 коммент.:

Александр Бодрик комментирует...

Когнитивные технологии недешевое удовольствие и требует больших обьемов данных. А значит злоумышленникам надо будет консолидировать финансовые и человеческие ресурсы, что неизбежно делает их достаточно крупной мишенью для правоохранителей. С другой стороны - безопасникам надо подумать о всем "периметре" а злоумышленнику достаточно одной дырки что бы попасть внутрь, и в отличие от безопасников у злоумышленников возврат на инвестированный капитал принципиально выше и прозрачнее.

Алексей Лукацкий комментирует...

Ну тут как всегда - кто первый совершит ошибку