유럽네트워크정보보호원 ENASA(European Union Agency for Cybersecurity)는 2019년 11월 발표한 보고서(Pseuonymisation Techniques and Best Practices)를 통해 가명처리(Pseudonymisation)의 기본 개념과 실제 구현을 위한 기술적 솔루션에 대해 검토
동 보고서는 데이터 가명처리를 위한 기술적 측면에 대한 지침을 제공하기 위해, 가명처리 실행에 대한 시나리오의 공격 모델을 검토한 후 가명처리의 기법과 방침을 제시
데이터 보호, 데이터의 유용성, 확장성, 복원 가능성 등 가명처리 기술의 선택에 영향을 미칠 수 있는 매개변수들을 함께 고려
○ 배경
EU GDPR 시행 이후 개인정보보호를 위한 적절한 가명처리 적용 문제가 규제 준수와 법집행을 위한 중요한 이슈로 부각
가명처리는 GDPR 시행 이후 보안 및 개인정보보호 관점에서 주목받고 있으며, 데이터 컨트롤러는 적절한 가명처리를 통해 개인정보보호에 대한 법적 의무를 일정 정도 완수
이와 관련, ENISA는 2018년 발간된 보고서(Recommendations on shaping technology according to GDPR provisions - An overview on data pseudonymisation)를 통해, GDPR 시행에 따른 가명처리의 역할과 개념 및 주요 기술에 대해 설명한 바 있음
동 보고서에서는 보안강화 수단으로서 가명처리와 개념을 강화하고(GDPR 제32조) 개인정보보호 최적화 설계(data protection by desing) 수단으로서의 역할을 보강하기 위해서는 추가적인 연구와 분석이 필요하다는 점을 지적
ENISA의 보고서에서도 강조된 바와 같이, 가명처리의 모범사례(best practices)를 제시 및 장려하고 최첨단 가명처리의 개념에 부합하는 유스케이스(use case)를 제공하기 위함
[가명처리의 필요성과 시나리오]
○ 가명처리의 필요성과 효과
가명처리를 통한 데이터 보안 강화 및 개인정보보호 최적화 설계 구현이 이루어질 경우 다음과 같은 효과를 기대
가명처리의 가장 확실한 이점은 개인정보 처리 과정에서 제3자가 정보주체의 신원을 알 수 없도록 한다는 것
이를 위해서는 단순히 실제 신원을 감추는 수준을 넘어 데이터 연결을 통한 추정이 불가능한 수준의 가명처리 필요
데이터 컨트롤러가 정보주체의 실제 신원까지 알 필요가 없을 경우에는 가명처리 데이터만을 활용함으로써 데이터 최소화의 원칙을 실현
가명처리 방식을 적용할 경우, 가명처리 이후에도 데이터의 정확성(data accuracy)을 유지할 수 있음
○ 가명처리 수행 상황별 시나리오
가명처리를 수행하는 행위자와 가명처리의 목적 및 특징에 따라 다음과 같은 6가지 시나리오로 구분
(시나리오 1) 데이터 컨트롤러가 정보주체로부터 직접 데이터를 수집하고 가명처리하여 자체적으로 이용하는 경우로서, 내부 활용 또는 사고 발생 시 데이터 보안 확보 목적
(시나리오 2) 데이터 프로세서가 데이터 컨트롤러를 대신하여 정보주체로부터 데이터를 수집하고 데이터 컨트롤러가 가명처리를 진행하는 경우로서, <시나리오 1>과 마찬가지로 내부 활용 또는 사고 발생 시 데이터 보안을 확보 목적
(시나리오 3) 데이터 컨트롤러가 데이터 수집과 가명처리를 진행한 후 통계처리 등을 위해 데이터 프로세서에게 가명처리 결과물을 전달하는 경우로서, 데이터 프로세서는 데이터 원본을 보유하지 않으므로 자체적으로는 재식별화 불가능
(시나리오 4) 데이터 프로세서가 데이터 컨트롤러를 대신하여 데이터를 수집하고 가명처리한 후 데이터 컨트롤러에게 전달하는 경우로서, 데이터 컨트롤러는 가명처리 정보만을 저장하게 되므로 실제 개인정보가 유출될 가능성이 없어 보안 수준을 향상
(시나리오 5) 제3자가 데이터 수집과 데이터를 수집하고 가명처리한 후 데이터 컨트롤러에게 전달하는 경우로서, 이 때 데이터 컨트롤러는 제3자를 통제할 수 없으므로 직·간접적인 재식별화를 시도할 수 없으며 데이터 최소화의 원칙에 따라 보안수준 향상
(시나리오 6) 정보주체 스스로가 가명처리 과정에 참여하여 데이터 컨트롤러에게 가명 데이터를 전달하는 특수한 경우로서, 데이터 컨트롤러는 개인식별자를 파악할 수 없고 정보주체가 가명처리 과정을 직접 통제하게 되지만, 전반적인 가명처리 시스템에 대한 책임은 여전히 데이터 컨트롤러에게 부과된다는 점 유리
[주요 재식별 공격모델과 가명처리 기법 및 방침]
○ 주요 재식별 공격모델
(재식별 공격) 가명처리의 주요 목표는 가명처리된 데이터세트(dataset)와 정보주체 간의 연결성을 제한하여 정보주체의 신원을 보호하는 것이며, 이를 위해서는 내부와 외부에서 이루어지는 재식별 공격에 대한 대응 필요
(내부 공격자) 특정 지식 · 지능 · 권한을 보유한 내부자가 가명처리에 이용된 기밀 또는 여타 중요한 정보를 획득할 수 있으며, 데이터 컨트롤러(시나리오 1, 2, 3, 4), 데이터 프로세서(시나리오 2, 4), 제3자(시나리오 5)가 모두 내부 공격자가 될 수 있음
단, 감독관이나 법진행 기관 등 개인정보에 합법적으로 접근할 수 있는 제3자는 잠재적인 내부 공격자에서 제외
(외부 공격자) 가명처리의 기밀이나 기타 관련 정보에 직접 접근할 수 없으나 가명처리된 데이터세트에 접근하여 추가적인 정보를 파악 또는 적용함으로써 공격을 시도하며, 일반적인 외부자 이외에 악의적인 데이터 컨트롤러(시나리오 5, 6)와 악의적인 데이터 프로세서(시나리오 3)도 외부 공격자 역할을 할 수 있음
(공격의 목적) 공격이 발새아는 상황과 가명처리 방법 등에 따라, 공격자는 ① 가명처리 기밀 인출(tetrieval of the pseudonymiation secret), ② 완전한 재식별화(complete re-identification), ③ 판별(discrimination) 등을 목적으로 공격을 시도
(주요 공격 기술) 가명화된 데이터에 대한 공격은 ① 무차별대입공격(brute force atacks 또는 exhaustive search), ② 사전검색(dictionary search), ③ 추측(guesswork) 등의 방식으로 이루어지며, 이 같은 공격 기술의 효과는 정보의 양, 배경지식, 가명처리 기법의 특징 등에 따라 달라질 수 있음