В презентации по машинному обучению в ИБ я приводил слайд с примерами датасетов, которые можно использовать в своих проектах по машинному обучению. У меня несколько человек попросили ссылок на них, что я и делаю.
- Набор PCAP-файлов с записанным сетевым трафиком от Netresec
- KDD Cup 1999. Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно.
- 5 датасетов от Stratosphere Lab - для вредоносного ПО, включая самые последние семплы, для нормального трафика, для смешанного трафика (зараженного и вычищенного), для Интернета вещей, а также специальный датасет, основанные на данных из реальной инфраструктуры.
- Еще один датасет NSL KDD для систем обнаружения атак.
- Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак. На сайте Лаборатории Линкольна есть несколько версий датасетов - от 1998-го, 99-го и 2000-го годов.
- Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
- Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
- Четырехмесячный датасет с 2,5 миллионами вредоносных URL. А тут еще один.
- Датасет ADFA (австралийская академия сил обороны) для проверки хостовых систем обнаружения атак, работающих под Linux и Windows.
- Коллекция Web-атак.
- Тройка датасетов с примерами вредоносного кода - тут, тут и тут (этот с малварью для Андроида).
- Датасеты для спама и фишинга.
- Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.
- Датасет с DGA-доменами.
- Датасет по даркнету в периоде с 2013 по 2015 годы.
- Топ 1000000 популярных доменов по версии Alexa и Cisco Umbrella.
Вопреки расхожему мнению, что в Интернет мало датасетов для обучения собственных моделей машинного обучения, это не совсем так. Примеры выше показывают, что их немало (и это только часть того, что выложено в открытый доступ). Но есть и проблемы, которые были отмечены в заголовке слайда выше - все датасеты имеют разные форматы, разные способы разметки, неполны и не всегда актуальны (угрозы-то меняются постоянно). В обозримом будущем датасеты останутся конкурентным преимуществом компаний, активно работающих в сфере применения машинного обучения в области кибербезопасности. Хотя, со временем, на рынке появятся, а возможно и будут сдаваться в аренду или продаваться, хорошие датасеты под разные задачи ИБ. Но до этого нам (особенно в России) еще далеко.