구글, “사회적 편견 제거한 공정한 AI 만들겠다”

구글이 말하는 머신러닝의 공정성

가 +
가 -

‘게이더’는 대표적인 오남용된 인공지능(AI) 사례로 꼽힌다. 게이(gay)와 레이더(radar)의 합성어인 게이더는 머신러닝 기술을 활용해 사진을 보고 해당 인물의 성적 지향을 판별하는 AI로 지난 2017년 개발됐다. 해당 소식이 전해지면서 AI가 사회적 편견을 강화하는 방향으로 오용될 가능성에 대한 우려가 제기됐다. 구글은 게이더에 대해 다양한 변수에 의해 분류 결과가 달라질 수 있다고 반박했다. 자세, 조명, 화장 여부에 따라 알고리즘 분류 기준을 속일 수 있다는 설명이다.

AI가 다양한 영역에서 사용되면서 ‘불공정성’, ‘편향성’ 등 윤리 문제가 대두되는 가운데, 구글이 공정한 AI 개발 확산에 나섰다. AI의 영향력이 커짐에 따라 모든 사람에게 공정하고 포용적인 시스템을 만드는 일이 중요하다는 판단에서다.

| 베키 화이트 구글 AI 리서치 프로그램 매니저가 구글 AI 포럼에서 ‘AI 혁신과 머신러닝의 공정성’을 주제로 발표하고 있다.

구글코리아는 6월25일 ‘AI 혁신과 머신러닝의 공정성’을 주제로 한 ‘구글 AI 포럼’을 열고 머신러닝의 편향성을 줄이기 위한 노력을 소개했다. 구글은 ‘불공정한 편견을 만들거나 강화하지 않는다’라는 원칙을 강조했다.

이날 발표에 나선 베키 화이트 구글 AI 리서치 프로그램 매니저는 “인간이 머신러닝 시스템을 설계하는 과정에 있어서 사회적 맥락을 유념해야 한다”라며 “인간이 언제든 이런 문제를 해결하기 위해 나설 수 있고, 공정하고 포용적인 기술을 개발하는 데 노력할 수 있다”라고 말했다.

구글 AI에서 머신러닝의 공정성을 연구하고 있는 베키 화이트 매니저는 불공정성은 데이터 수집, 분류, 이용 과정에서 항상 개입할 수 있는 요소라고 짚었다. 또 단일 원인을 추적하기 어렵고, 복합적으로 편향성 문제가 발생하기 때문에 이에 대한 해결책도 복합적일 수밖에 없다고 설명했다.

베키 화이트 매니저는 머신러닝 모델에서 발생하는 편향의 유형으로 ‘선택편향’, ‘확증 편향’, ‘자동화 편향’ 등을 꼽았다. 선택편향은 모델을 학습시키는 데이터 자체가 편향된 경우를 말한다. 확증 편향은 연구자가 자신의 믿음을 강화하는 방향으로 데이터를 처리하는 경우다. 자동화 편향은 실제 오류율과 관계없이 비자동화 시스템보다 자동화된 시스템이 내놓는 결과를 선호하는 경향을 말한다.

데이터에 반영된 사회적 편향성의 대표적인 예는 직업과 관련된 성적 편향이다. 가사 도우미나 식당 종업원 등을 여성에 편향된 직업, 경비원이나 대통령을 남성에 편향된 직업으로 분류하는 식이다. 이러한 데이터 편향성은 실제 현실에 나타나는 사회적 편향성을 고착화할 위험성이 있다.

구글은 머신러닝 공정성을 강화하기 위해 다양한 노력을 기울이고 있다고 밝혔다. 다양한 지식을 아우를 수 있는 포용적인 인력 구성을 통해 훈련 데이터셋에 잠재된 편향 원인이 있는지 평가하고, 문제가 될 수 있는 편향을 제거 또는 수정하는 모델을 훈련하고, 머신러닝 모델의 성능 차이를 평가하고, 완성된 시스템이 불공정한 결과를 내지 않는지 시험하는 식이다.

베키 화이트 매니저는 이러한 노력이 반영된 대표적인 사례로 최근 성적 편향성을 줄인 구글 번역의 변화를 들었다. 기존 구글 번역은 ‘힘센(strong)’이나 ‘의사(doctor)’와 같은 단어는 남성형으로, ‘간호사(nurse)’나 ‘아름다운(beautiful)’과 같은 단어는 여성형으로 번역하는 경향이 강했다.

| 여성형·남성형 두 가지 번역 결과를 제시하는 구글 번역

바뀐 구글 번역은 영어를 프랑스어, 이탈리아어, 포르투갈어, 스페인어로 번역할 경우 ‘외과 의사(surgeon)’와 같은 단어가 여성형, 남성형 두 가지로 번역 결과가 제공된다. 해당 기능은 현재 웹사이트 번역에서만 제공된다. 구글은 성별에 따른 번역 제공 기능을 더 많은 언어로 확대하고, 안드로이드와 iOS 앱 등 다른 플랫폼에도 적용할 계획이다.

또한, 구글은 개방형 이미지 데이터셋을 제공해 문화·지리적 다양성을 포괄하는 노력을 기울이고 있다고 밝혔다. 베키 화이트 매니저는 모델링에 많이 사용되는 개방형 데이터에 문화적 편향성이 있다고 지적했다. 예를 들어 결혼과 관련된 사진이 대부분 서양식 결혼식 위주로 구성돼 있어 이를 통해 훈련한 모델이 다양한 문화권의 결혼 이미지를 제대로 인식하지 못한다는 설명이다.

베키 화이트 매니저는 “앞서 소개한 사례는 긴 여정의 시작에 불과하며, 머신러닝 제품의 포용성을 강화하기 위해 더 많은 노력이 필요하다”라며 “다양한 툴을 이용해 개발자들은 공정성 개념을 여러 시각에서 바라볼 수 있게 되고, 결과에 따라 모델링 설계를 달리할 수 있다”라고 밝혔다.

네티즌의견(총 0개)