10.08.2009

Обезличивание персональных данных - практика

Уже не раз поднималась тема обезличивания персональных данных. Что это? Как делать? Как это понимает регулятор? Пока в России идут дискуссии, в США уже предложены алгоритмы обезличивания, защищаются диссертации, разрабатываются специальные инструменты для решения данной задачи. Самой известной является модель, получившая название k-anonymity и предложенная еще в 2002 году Латаньей Суинни.

Так что если среди вас есть разработчики, то эту модель можно попробовать реализовать в реальных проектах. Учитывая, что это математическая модель, эффективность которой доказана, то претензий к ее реализации у регуляторов быть не должно. В теории...

9 коммент.:

Анонимный комментирует...

Не нравится она мне - теоретик ее писал ;-(
По сути речь в ней идет о том, что есть информация приватная (по ФСТЭКовски - категория 3) и есть информация публичная (категория 4).
Вот только проблема в том, говорит эта модель, что даже по категории 4, если набор значений атрибутов является уникальным для конкретного человека (например, номер сотового), и есть "known external sources" (aka пиратские диски с базами), по которым можно связать эти вроде бы анонимные данные с человеком ;-(

Для защиты от этого предлагается перед тем, как определить является ли та или иная комбианция атрибутов публичными данными (категория 4, проверять по базе - сколько людей с той или иной комбинацией значений. И если их меньше заданного k, то считать такую комбинацию категорией 3. ;-(

Как-то я не очень представляю, как все это можно реализовать :(((

Алексей Лукацкий комментирует...

На эту же тему есть диссертация, где есть еще и исходники инструментов, которые реализуют этот подход.

Анонимный комментирует...

"Учитывая, что это математическая модель, эффективность которой доказана, то претензий к ее реализации у регуляторов быть не должно. В теории..."

У теоретических регуляторов не будет теоретических претензий!
Жаль, что ИБ – не формализованная область..

swan комментирует...

"...есть еще и исходники инструментов, которые реализуют этот подход..."

Инструмент, по видимому реализует некий алгоритм который проверяет обезличенные ПДн или нет. Вообще, кажется, что можно написать кучу ПО которое призвано определить ПДн или не ПДн(обезличенные). Это уже проходили, когда были попытки написать программы поиска гос/коммерческой/иной тайны на ЖМД ПЭВМ. Результат известен - разве что "по верхам". А по сути такое ПО смысл данных не разбирает. Поэтому бывали случаи, когда ПО не находит а специалист - навалом...

Это я к тому, что алгоритм алгоритмом, но в узком смысле. Например если есть конкретная БД с конкретными полями и таблицами - там можно поискать по шаблону.
На мой взгляд появление понятия "обезличенные ПДн" - ошибка. Они либо есть в какой то форме и есть пусть простой или сложный алгоритм их получения или их нет. А сложный алгоритм - это, извините, к криптографии...

Олег Винокуров комментирует...

To swan:
Понятия "обезличенные ПДн" в 152-ФЗ нет! А появляется оно в описании категории 4 в приказе трех. Символично, ибо ПДн могут после обезличивания остаться ровно такими же, теряется только связь с субъектом. Сам термин какой-то кривой.
Насчет обезличивания в вакууме - в жизни не будет работать, практика докажет. Сильно важен контекст обработки.
Не буду умничать, лучше всего это описано в http://ec.europa.eu/justice_home/fsj/privacy/docs/wpdocs/2007/wp136_en.pdf, глава "Means to identify". Очень рекомендуется для периодического прочтения, стимулирует весьма.

Анонимный комментирует...

2Олег Винокуров: Спасибо, хороший документ. Нашим регуляторам очень не хватает подобного

george комментирует...

Категорически не согласен с трактовкой широких масс понятия «known external sources» - aka «пиратские диски с базами».

Такие данные де-юро должны получить правовой статус общедоступных, в силу их известности неограниченному кругу лиц. Как следствие такие данные должны быть выведены из под режима обеспечения их конфиденциальности. Что-то не заметно таких событий.

Либо такие данные должны быть признаны полученными незаконным путем. И как следствие либо не быть принятыми к рассмотрению, например, в качестве доказательств.
Либо в отношении факта их поучения должны быть проведены определенные процессуальные действия. В результате таких действий либо должно быть пресечено распространение таких данных, либо должен измениться их правовой статус.

Так, что де-юро «пиратские диски с базами», как доступные внешние источники, рассматриваться не должны.

Анонимный комментирует...

Алексей Лукацкий, Вы говорили что на эту тему есть диссертация, не подскажете где её можно посмотреть?

Алексей Лукацкий комментирует...

A Theory and Toolkit for the Mathematics of Privacy:
Methods for Anonymizing Data while Minimizing Information Loss