최신 인공지능 모델, 효율성은 합격…보안 허점은?

가 +
가 -

인공지능(AI)은 불과 몇 년 사이 대중적인 기술로 자리 잡았다. 영화 AI의 수준은 아니라도 특정 분야에 최적화된 학습력과 빠른 처리 속도를 앞세워 맹활약하고 있다. 금융권 등 보수적인 산업에서도 AI 도입 비중을 확대해 나가는 중이다. 하지만 동시에 현재 AI 모델과 알고리즘이 지닌 보안 허점에 대해서도 충분한 고민이 필요하다는 지적이 나온다.

주요 산업에서의 AI 도입이 증가하면서 최근 AI 보안 관련 논문의 수도 급증하고 있다 / 이하 출처=발표자료 발췌

‘금융 정보보호 컨퍼런스 2020’ 연사로 나선 신승원 카이스트 전기·전자공학부 교수는 “해커가 컴퓨터를 공격해 정보를 탈취해 가듯이 AI 알고리즘도 공격 대상이 될 수 있다”며 “최근 서비스형 머신러닝(MLaaS) 확산으로 자체 개발 AI를 사용하지 않는 일도 증가하고 있는 만큼 AI 모델에 대한 보다 세밀한 보안 검토도 중요해지고 있다”고 강조했다.

신승원 카이스트 교수

신 교수는 발표를 통해 몇 가지 대표적인 AI 알고리즘 공격 유형과 대응 방식에 대해 소개했다. 우선 ‘적대적 공격(Adversarial Attacks)’이다. 이는 딥러닝 모델이 잘못된 결과를 내놓도록 공격자가 의도적으로 입력 데이터에 노이즈(Noise)를 심는 방식이다.

가령 사람은 판다 이미지에 작은 점 하나가 찍힌다고 판다를 못 알아보지 않지만, 사람과 인지 방식이 다른 AI에겐 점 하나도 완전히 상반된 결과를 내놓게 할 수 있다.

만약 이 같은 공격이 자율주행차를 대상으로 실행될 경우 공격자는 차량이 표지판을 잘못 인식하도록(ex: 저속 구간에서 가속하게 하거나) 만들 수 있고, 금융권에서 사용하는 AI 기반 OCR(광학문자판독)도 노이즈 공격으로 인한 금융사고를 발생시키게 될 수 있다는 이야기다.

인간은 식별할 수 없는 수준의 노이즈를 삽입하자, AI는 판다를 긴팔 원숭이로 인식했다

다음으로 블랙박스 회피 공격(Black-box Evasion Attack)이 있다. 블랙박스 공격이란 공격자가 대상 내부의 데이터 값을 모르고 있는 경우를 말하며, 반대로 화이트박스 공격은 공격에 필요한 데이터 값을 아는 경우다. 당연히 블랙박스 공격의 난이도가 더 높다.

해커가 블랙박스를 파훼하는 방식은 크게 두 가지다. 하나는 ‘최적화 공격(Optimization Attack)’으로, 임의의 값을 블랙박스에 입력해 나오는 출력값을 통해 공격에 필요한 데이터를 유추해내는 방식이다. 만약 필요한 데이터 추출에 성공하면 해커는 이를 사용해 상대적으로 손쉬운 화이트박스 기반의 공격 방식을 감행할 수 있게 된다.

블랙박스 내 데이터를 공격에는 ‘유한차분법’이 활용된다

다른 하나는 ‘전이 공격(Transfer Attack)’으로, 공격하는 AI 알고리즘과 비슷한 분포도를 지닌 데이터로 타깃과 유사한 자체 알고리즘을 만드는 방식이다. 학습에 필요한 데이터는 블랙박스 회피 공격처럼 임의의 명령을 보내 확보한다. 블랙박스 공격과 달리 정확도는 낮지만 필요한 값을 찾는 데 필요한 시간과 비용을 줄일 수 있다.

또 나아가 최근 학회에는 두 가지 방식을 합쳐 비용은 줄이고 공격 성공률은 강화한 ‘하이브리드 배치(Hybrid Batch Attack) 공격’ 방식도 보고되고 있다.

전이공격 구조

여기서 끝이 아니라 엣지 컴퓨팅(Edge computing)과 개인정보보호 의식이 높아지며 주목받고 있는 ‘AI 연합학습’도 공격 대상에 해당된다. 연합학습은 다수의 사용자 개인 단말기에서 1차로 학습된 AI 데이터를 익명 처리한 뒤 중앙 서버로 보내면 이를 새 모델로 가공해 개인 단말기로 업데이트하는 방식이다. AI 모델 성능은 개선하면서도 개인정보를 보호할 수 있어 각광받고 있다.

하지만 여기에도 허점은 있다. 데이터를 중앙으로 보내 취합하는 구조를 노려, 고의로 오염된 데이터를 보낼 경우 적대적 공격과 마찬가지로 잘못된 업데이트 값이 불특정 다수의 단말기로 전파될 수 있다. 또 중앙에서도 수집된 데이터를 악의적으로 역이용해 데이터 주인을 특정하는 인버전 공격도 이론상 불가능한 일이 아니다.

연합학습 모델이 공격받는 과정

신승원 교수는 이 같은 AI 공격에 대해 몇 가지 대응 방안을 함께 소개했다. 가령, 적대적 공격의 경우 AI가 사물을 인식하는 특징점에 대한 가중치를 사람과 유사하게 만들면 ‘자잘한’ 노이즈에는 영향을 받지 않도록 하는 방어법이 사용될 수 있다.

또 현재 진행 중인 카이스트 내 연구에 따르면 연합학습은 서버에 단말 데이터를 100% 제공하지 않아도 원하는 학습 효과를 얻을 수 있는 만큼, 그 비율을 낮춰 복원·추적 정확도를 낮추는 식의 대응법도 연구되고 있다고 한다.

적대적 공격 방어 프로세스

신 교수는 “인공지능 기술은 딥러닝에 의해 빠르게 발전할 수 있었지만 동시에 보안 위협도 크게 증가하고 있다”며 “AI 도입에 앞서 딥러닝 모델 자체의 안정성을 검증하는 다양한 도구를 활용하고 검증 과정을 강화할 필요가 있다”고 조언했다.

한편, 금융 정보보호 컨퍼런스 2020 내 모든 발표는 11일부터 13일까지 온라인으로 공개되며 사전등록 없이 누구나 시청할 수 있다.