인터뷰

“데이터, 부수고 남긴다” 비식별화 기술로 AI 시장 공략하는 딥핑소스

2020.03.23

영상·이미지 데이터에서 프라이버시 침해로 이어질 수 있는 개인 식별정보를 지우는 방법은 크게 두 가지다. 하나는 얼굴을 뿌옇게(블러링·Blurring) 만들거나 잘라내는 것이고, 다른 하나는 사람이 식별할 수 없도록 모든 영상·이미지를 깨뜨리고, 인공지능(AI)만 알아보도록 하는 것이다.

후자가 딥핑소스가 개발한 ‘비식별화’ 기술이다. 이 회사는 머신러닝에 필요한 대용량 데이터를 개인정보 문제없이 안전하게 수집하고 사용할 수 있는 기술을 보유하고 있다. 김태훈 딥핑소스 대표는 “데이터를 제공하는 쪽도, 제공받는 쪽도 안심하고 문제없이 사용할 수 있는 기술을 개발하고 있다”라고 말했다.

이미지 인식 기술 스타트업 올라웍스의 최고기술책임자(CTO) 출신인 김 대표는 2012년 올라웍스가 인텔로 인수된 이후 6년여 동안 인텔의 ‘핵심 엔지니어(Principal Engineer)’로 근무했다.

이후 유럽연합(EU)이 ‘일반개인정보보호규정(GDPR·General Data Protection Regulations)’ 시행을 예고하면서 데이터 가격이 폭등했고, 추진하던 딥러닝 프로젝트가 무산되는 상황을 맞았다. 그러던 중 개인정보 유출 우려로 인해 제대로 쓰이지 못하는 데이터가  많은 것을 보고, 비식별화 기술의 가능성을 주목하기 시작했다.

‘애당초 데이터 소스부터 개인정보 문제없는 안전한 데이터가 온다면 어떨까?’ 딥핑소스가 만들어진 배경이다. 2020년 2월 기준 딥핑소스는 퓨처플레이, 글로벌브레인(with KDDI), 미래에셋벤처스, 스톤브릿지 벤처스 등을 통해 현재까지 60억 이상의 누적 투자를 유치했다.

| 김태훈 딥핑소스 대표는 카이스트 전산학과 박사 출신으로, 삼성전자 책임연구원을 거쳐 올라웍스를 공동창업한 바 있다.

데이터 보안 기술, ‘타이밍’이 통했다

시작은 쉽지 않았다. 딥핑소스를 설립한 2018년만 해도 “데이터를 누가 돈 주고 사냐”, “이 기술이 왜 필요하냐”는 질문을 수도 없이 들었다. 당시에는 얼굴인식 알고리즘 개발에 필요한 사진을 인터넷에서 마구잡이로 구하거나 중국 기업으로부터 저렴한 값에 구매하고는 했기 때문이다.

그러나 GDPR 시행 이후 분위기가 바뀌었다. 업계 안팎으로 데이터 거래, 개인정보 보호조치 등에 대한 이해도도 높아졌다. GDPR은 얼굴 특징 등을 비롯한 생체정보를 민감정보로 구분, 활용을 엄격히 제한하고 있다. 지난해 스웨덴데이터보호당국(DPA)은 GDPR에 따라 학생출석 확인에 안면인식 기술을 사용한 지방자치단체에 벌금을 부과했다. 미국은 개인정보보호에 관한 일반법이 없었으나 올해 1월부터 미국 캘리포니아 주가 캘리포니아 소비자 프라이버시 보호법(CCPA·California Consumer Privacy Act)을 시행하고 있다. 김 대표는 “불과 1년 사이에 인식 자체가 상당히 달라졌다”라고 평가했다.

| “특허 등록한 것도 있고 출원 작업 중인 것도 있다. 아주 중요한 것을 등록하고 어떤 것은 출원만 해놓았다. 내용을 못 보므로 경쟁자 입장에서는 불안해서 개발을 쉽게 못한다. 우리만의 특허 전략이다.”

개인정보는 ㉠살아 있는 ㉡개인에 관한 ㉢정보로서 ㉣개인을 알아볼 수 있는 정보를 말한다. 해당 정보만으로는 특정개인을 알아볼 수 없더라도, ㉤다른 정보와 쉽게 결합해 알아볼 수 있는 정보를 포함한다. 개인을 식별할 수 없도록 하는 게 비식별화다.

구체적으로는 데이터 값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹(****) 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체하는 조치를 뜻한다. 비식별 정보는 개인을 알아볼 수 없는 정보이기 때문에 개인정보가 아니다. 따라서 활용도, 유통도 보다 자유롭다.

딥핑소스는 데이터에서 개인 식별정보를 삭제하는 동시에 AI 개발에 필요한 정보를 보존한다. 문자·표정 인식 등 다양한 응용 분야에서 원본 데이터와 거의 동일한 수준으로 데이터를 활용할 수 있다는 게 강점이다. 기존의 익명화는 데이터에서 삭제가 필요한 요소를 인지하고 없애는 방식이었다면 딥핑소스는 모든 데이터를 부수고, 무엇을 남길지 택한다. “데이터 소스에서 나오는 불필요한 정보는 없애고, 필요한 정보를 안전하게 쓸 수 있도록 하는 겁니다. 기존보다 훨씬 안전한 방식이라고 자신해요.”

처음부터 비식별화된 데이터를 모은다면

사용처는 폭넓다. 영상, 비디오, 오디오, 텍스트 등 숫자 배열이 쓰이는 모든 데이터에 딥핑소스의 기술을 적용할 수 있다. 이메일은 해독이 불가능한 ‘외계어’로 바뀐다. 전화상담 등 통화 내용은 알아들을 수 없는 소리로 만든다. 기업 기밀이 담겨 있는 회로 도면, 칩 사진 등도 이 같은 비식별화가 가능하다. 딥핑소스의 AI 알고리즘을 통해서만 원본의 정보가 동일하게 인식된다.

특정인만 사용하거나, 특정 용도의 정보만 남도록 제한을 걸 수도 있다. 예를 들어 딥핑소스가 인텔에 제공하고 있는 얼굴인증용 데이터는 얼굴 자체 대조는 가능해도 표정, 이목구비 등을 확인하는 것은 불가능하다. 의료계는 이 같은 기술을 반기고 있다. 용도 제한을 걸어 두면 유출 시에도 무작위 사용을 막을 수 있기 때문이다.

주력분야는 AI 카메라 보안 시스템 분야다. 상점, 카페, 거리 등에 설치되는 AI 카메라는 사람들의 시선이나 동선 등을 파악하는 게 목적이다. 다만 불특정다수를 대상으로 하기 때문에 개인정보 침해는 불가피하다. 이때 딥핑소스의 솔루션이 탑재돼 있다면 데이터를 실시간으로 익명화 처리해 클라우드에 전송할 수 있다. 인원 수와 청중의 나이, 성별, 얼굴(표정, 안경, 시선) 등은 물론 행동 인식 등을 개인정보 침해 우려 없이 분석할 수 있다는 의미다. 이를 통해 대규모 사용자들로부터 실데이터 수집이 가능하다.

AI 학습용 데이터 보호 방법도 마련했다. 크라우드 소싱의 확대로 데이터 유출 우려가 커지고 있는 가운데, 개인정보의 비식별화에서 나아가 데이터 자체의 보호를 실현한다는 구상이다. △데이터 교란과 △소유권 표시 등이 그 방법이다. 데이터 교란은 육안상 원본처럼 보이는 데이터지만, 이를 훔쳐 AI 모델을 학습하는 경우 정확도가 원본의 절반 이하로 떨어지도록 하는 기술이다. 소유권 표시로는 워터마크를 각인하고도 새 AI 모델 학습에는 사용이 가능하게 만들 수 있다고 한다.

물론 비식별화 기술이 영구적인 것은 아니다. 새로운 결합기술이 나타나거나 결합가능한 정보가 증가하는 경우에는 정보주체가 ‘재식별’될 가능성이 있다. 완벽한 익명화는 이론상 불가하다는 게 중론이다. 법에서도 비식별 조치가 깨질 경우 후속조치를 해야 한다고 안내하고 있다. 딥핑소스는 이에 맞춰 끊임없이 보안 기술을 개발하겠다는 포부를 밝혔다.

현재 딥핑소스는 인텔, LG CNS, 서울아산병원 등의 파트너를 확보하고 있다. 올해부터는 단기수익 창출에도 집중할 계획이다. 솔루션을 반복적으로 사용하는 고객들을 최대한 확보하는 것이 목표다. AI 알고리즘의 데이터 편향성을 해결하는 방안도 연구 중이다. 김 대표는 “알고리즘이 작동되지 않는 집단에 대한 데이터를 모으는 방법이 필요하다. 비식별화 기술을 적용하면 데이터를 좀더 쉽게 모을 수 있을 것”이라고 말했다.