Другие журналы

научное издание МГТУ им. Н.Э. Баумана

НАУКА и ОБРАЗОВАНИЕ

Издатель ФГБОУ ВПО "МГТУ им. Н.Э. Баумана". Эл № ФС 77 - 48211.  ISSN 1994-0408

Процедура обезличивания персональных данных

# 03, март 2011
УДК: 681.3
Файл статьи: О©╫О©╫О©...╫О©╫.pdf (301.41Кб)
авторы: профессор МИЭМ Саксонов Е. А., Шередин Р. В.

Московский государственный институт электроники и математики (МИЭМ)

saksmiem@mail.ru

 

            Введение.

            Вступление в действие Федерального закона о персональных данных обусловило разработку различных подходов, связанных с выполнением требований к их защите и сокращением издержек на ее обеспечение [1].

            Одним из эффективных подходов к защите персональных данных является их обезличивание, поскольку оно позволяет снизить требования к уровню защищенности данных и, соответственно, сократить расходы на защиту. Поэтому процедуры обезличивания достаточно широко применяются на практике [1, 2, 3].

Под обезличиванием персональных данных  будем понимать действия, в результате которых невозможно определить принадлежность персональных данных конкретному субъекту персональных данных.

            Описание проблемы.

            К настоящему времени можно выделить, например,  следующие методы обезличивания персональных данных [2]:

·         уменьшение перечня обрабатываемых сведений;

·         замена части сведений идентификатором/ами;

·         замена численных значений минимальным, средним, или максимальным значением;

·         понижение точности некоторых сведений;

·         деление сведений на части и обработка в разных информационных системах.

            Критерием качества метода обезличивания часто является возможность определить на основании имеющихся обезличенных данных конкретного человека, при учете контекста обработки, но часто возможно использование дополнительной информации из других источников, позволяющей провести де-обезличивание [5, 7].

Многие из перечисленные методов не гарантируют невозможность получения персональной информации (де-обезличивания) путем использования контекста обработки и данных, размещенных в других системах, которые можно связать с обезличенными, поскольку эти методы, как правило, сохраняют связь между различными данными, относящимися к одному и тому же субъекту.

      Разорвать эту связь возможно, если осуществить перемешивание данных, относящихся к различным субъектам.

      Перемешивание данных имеет ряд достоинств, которые  делают этот подход к обезличиванию достаточно перспективным:

·         данные находятся в одном хранилище;

·         использование дополнительных сведений, получаемых из других источников, не позволяет провести процедуру де-обезличивания;

·         простота реализации обезличивания и обратного формирования персональных данных;

·         мобильность данных, позволяющая распространять их, хранить в распределенных системах.

Однако, практическая реализация процедур обезличивания, основанных на перемешивании данных, в условиях, когда число хранимых данных достигает 106  - 109, требует преодоления значительных сложностей, связанных с описанием и заданием параметров перемешивания, разработкой математического и программного обеспечения.

Здесь предлагается процедура обезличивания, основанная на перемешивании данных, позволяющая  оперировать с большими объемами данных, при простом задании параметров и большое количество возможных вариантов, обеспечивающее высокую защищенность от проведения де-обезличивания.

Описание задачи.

Предлагаемая процедура обезличивания, основана на разбиении исходного множества данных на подмножества, что позволяет сократить размерность и упростить ее практическую реализацию.

            В качестве базового алгоритма процедуры предлагается использовать циклические перестановки [4].

            Пусть задана исходная таблица персональных данных , где N число атрибутов, M – длина таблицы. Будем рассматривать множество данных, относящееся к одному атрибуту -  (i = 1,2,...,N). Это множество атрибута  - , содержит M элементов. Все элементы каждого множества  занумерованы от 1 до M, и в таблице  совокупность элементов множеств разных атрибутов с одинаковыми номерами будем называть записью с соответствующим номером. Считаем, что в исходной таблице каждая запись имеет определенный смысл, связанный с конкретным субъектом (физическим лицом), т.е. содержит персональные данные конкретного лица, определенного в этой же записи.

            Ниже приводятся описание и результаты анализа процедуры обезличивания.

            Описание процедуры обезличивания.

            Процедура обеспечивает перемешивание данных каждого множества атрибутов исходной таблицы на двух уровнях. На каждом уровне используется алгоритм циклических перестановок.

            Первый уровень.       Проведем разбиение множества  на  () непересекающихся подмножеств , где число элементов подмножества  равно  (),. Все элементы каждого подмножества  считаем занумерованными от 1 до  эти номера будем называть внутренними номерами элементов подмножества. Внешний номер элемента в подмножестве , имеющего внутренний номер k, обозначим - , (). Так, что  - это порядковый номер элемента в множестве , соответствующий элементу с внутренним номером k.   Разбиение каждого множества должно обладать следующими свойствами:

1) - подмножества разбиения включают все элементы множества ;

2)  и  для всех - каждое подмножество не пусто, а пересечение любых двух подмножеств - пусто;

3)  для всех   - для  любых двух подмножеств с  и  элемент с первым внутренним номером подмножества  имеет внешний номер на единицу больший, чем внешний номер элемента с наибольшим внутренним номером подмножества ;

4) если , то  для всех  - упорядоченность внешней и внутренних нумераций для всех множеств и подмножеств их разбиения совпадают;

5) - суммарное число элементов всех подмножеств  равно общему числу элементов множества .

            Для каждого подмножества  определим циклическую перестановку (подстановку),  задаваемую следующим образом [4]:

       .  

Здесь элементы первой строки матрицы, стоящей в правой части равенства, соответствуют внутренним номерам элементов подмножества  до перестановки (в исходной таблице), а элементы, стоящие во второй строке, соответствуют внутренним номерами элементов подмножества , стоящим на местах, с номерами, определенными в верхней строке, после перестановки.

            Таким образом, в перестановке (подстановке)  производится циклический сдвиг всех элементов подмножества на число , (). Будем называть величину  параметром перестановки . Теперь все перестановки для всех подмножеств множества  можно задать набором (вектором) параметров . Вектор параметров перестановок  задает первый уровень алгоритма перемешивания, т.е. перестановки первого уровня.

            Второй уровень. Рассмотрим теперь множество , состоящее из  элементов. Здесь элемент  соответствует подмножеству , . Для этого множества определим циклическую перестановку :

    ,

где элементы верхней строки матрицы перестановки соответствуют исходным номерам элементов множества  (подмножеств ), а элементы нижней строки матрицы соответствуют номерам элементов множества , стоящим на местах с номерами, определенными в верхней строке, после перестановки.  

            Таким образом, в перестановке  производится циклический сдвиг элементов множества  (подмножеств множества ) на число , () – параметр перестановки. Эту перестановку будем называть перестановкой второго уровня.

            В результате последовательного проведения перестановок первого и второго уровней получается перемешивание элементов множества  так, что меняется нумерация этих элементов по отношению к исходной нумерации.

            Определим теперь нумерацию элементов множества  после проведения всех перестановок. Имеем, с учетом правил перемножения перестановок, следующую результирующую перестановку [4]:

Здесь верхняя строка матрицы содержит порядковые номера элементов множества атрибута i, в соответствии с их размещением в столбце после перемешивания, а нижняя строка содержит внешние номера элементов множества этого атрибута, соответствующие их размещению в исходной таблице.          

            Пример 1. Пусть M = 15,  и  при этом

 и

 и

, .

Имеем, после применения перестановок первого уровня:

,      ,

,    .

Результирующая перестановка имеет вид:

            Теперь представим, что алгоритм перестановки, определенный для множества, соответствующего одному атрибуту, проводится для всех множеств атрибутов исходной таблицы. В этом случае полный алгоритм перестановки задается следующим набором параметров:

1.  - множество, определяющее количество подмножеств для множества каждого атрибута, которое определяет подмножества элементов ;

2. - множество, определяющее число элементов в подмножествах для множества каждого атрибута;

3.  - множество параметров перестановок для множества каждого атрибута.

      Этот набор задает параметры процедуры перемешивания для исходной таблицы .

В результате применения процедуры, вместо исходной таблицы  получается таблица обезличенных данных .

Набор параметров:

 

полностью и однозначно задает процедуру перемешивания для исходной таблицы .

            Пример 2. Пусть исходная таблица имеет вид:

Атрибут

Атрибут

Атрибут

Атрибут

           

Для этой таблицы заданы следующие параметры процедуры перемешивания:

После проведения процедуры перемешивания получаем таблицу :

Атрибут

Атрибут

Атрибут

Атрибут

 

            Как видно из примера, получена преобразованная таблица, в которой записи не соответствуют записям в исходной таблице, что обеспечивает достаточно высокую сложность восстановления исходной таблицы при отсутствии сведений о параметрах процедуры перемешивания.

Де-обезличивание.

Для практического применения указанной процедуры обезличивания необходимо иметь возможность формировать правильные записи (соответствующие записям в исходной таблице).

Пусть в столбце атрибута  таблицы  выбран элемент номер , тогда из матрицы результирующей перестановки  можно получить номер этого элемента в исходной таблице - , который находится как элемент второй строки столбца номер . Далее, в каждом  столбце атрибута j, в соответствии с матрицей результирующей перестановки  , находится элемент, номер которого равен номеру столбца, во второй строке которого стоит число  (номер элемента в исходной таблице).  Таким образом, после просмотра всех столбцов таблицы  будет построена запись, соответствующая элементу номер  из множества атрибута , соответствующая записи номер  в таблице .

            Для оценки защищенности предложенной процедуры обезличивания используем такую характеристику, как число вариантов обезличивания, получаемых при применении данной процедуры.            

            Число возможных различных вариантов разбиения множества из M элементов на  подмножеств, удовлетворяющих условиям разбиения, приведенным выше, при заданном наборе () равно  (при условии, что все подмножества имеют различное число элементов).

Максимальное число возможных вариантов для заданного набора разбиений N множеств атрибутов:

.

При большом числе записей число вариантов получается очень большим, что обеспечивает очень малую вероятность подбора параметров, т.е. хорошую защиту обезличенных данных.

Заключение.

Перемешивание данных предложенным методом реализуется достаточно простыми средствами и может применяться в уже сформированных базах данных.

Большое количество вариантов параметров перемешивания обеспечивает достаточно эффективную защиту от атаки путем подбора параметров.

Использование процедуры перемешивания для обезличивания данных обеспечивает защиту от атак, использующих внешние данные, имеющие наборы атрибутов, совпадающие с некоторыми атрибутами в исходной таблице [5].

Наличие набора записей из исходной таблицы не позволяет провести процедуру де-обезличивания для других записей из таблицы обезличенных данных.

            Однако, применение процедур перемешивания, предлагаемых в настоящей статье, в конкретной системе, должно учитывать правовые последствия использования подмножества (конечного множества значений) персональных данных, а каждый критерий разбиения должен быть согласован с технологией обработки персональных данных в указанной системе и ее окружении. Оценку эффективности обезличивания необходимо проводить для каждой реализации конкретной системы, включая рабочие места с ограниченным доступом и вывод информации на внешние носители.

 

Литература

1.             Федеральнй закон «О персональных даннх»,- 2-е изд. – М.: «Ось-89», 2008. – 32 с.

2.             McCallister E., Grance T., Scarfone K. Guide to Protecting the Confidentiality of Personally Identifiable Information (PII). Recomendations of the National Institute of Standarda and Technology (NIST) U.S. 2010.

3.             Конопкин Н. Как превратить предприятие в легитимного менеджера персональных данных //  ITManager, 11, 2009.

4.             Калужин Л.А., Сущанский В.И. Преобразования и перестановки. – М.: Наука, 1985. – 160 с. 

5.            L. Sweeney. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, 10 (5), 2002. - P. 557-570.

6.             http://ispdn.ru/forum/index.php?PAGE_NAME=read&FID=1&TID=1161 (дата обращения 10.01.2011).

7.             http://xp-7.ru/blog/2010-01-03-26 (дата обращения 27.01.2011).

Поделиться:
 
ПОИСК
 
elibrary crossref ulrichsweb neicon rusycon
 
ЮБИЛЕИ
ФОТОРЕПОРТАЖИ
 
СОБЫТИЯ
 
НОВОСТНАЯ ЛЕНТА



Авторы
Пресс-релизы
Библиотека
Конференции
Выставки
О проекте
Rambler's Top100
Телефон: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)
  RSS
© 2003-2018 «Наука и образование»
Перепечатка материалов журнала без согласования с редакцией запрещена
 Тел.: +7 (915) 336-07-65 (строго: среда; пятница c 11-00 до 17-00)