▲ 임혜숙 과기정통부 장관(앞줄 오른쪽에서 다섯째)과 주요 ICT 기업 관계자들이 18일 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에 참석해 기념촬영을 하고 있다.(사진=과기정통부)
▲ 임혜숙 과기정통부 장관(앞줄 오른쪽에서 다섯째)과 주요 ICT 기업 관계자들이 18일 서울 강서구 LG 사이언스파크 ISC에서 열린 '인공지능(AI) 데이터 활용협의회 출범식'에 참석해 기념촬영을 하고 있다.(사진=과기정통부)
KT와 네이버 등 주요 정보통신기술(ICT) 기업들이 정부가 18일 공개한 인공지능(AI) 학습용 데이터의 품질에 대해 만족감을 나타냈다.

이날 과학기술정보통신부 주최로 서울 강서구 LG사이언스파크에서 열린 'AI 데이터 활용협의회' 출범식 및 간담회에 참석한 기업들은 그동안 써 본 공공 AI 데이터에 대한 평가와 건의사항을 임혜숙 과기정통부 장관에게 전달했다. 이날 AI 허브를 통해 공개된 AI 학습용 데이터는 총 4억8000만건(8대 분야 170종)이다. 과기정통부는 AI 알고리즘을 보유한 20여곳의 기업 및 연구기관에게 먼저 데이터를 제공해 테스트하도록 했다.

과기정통부는 지난 2017년부터 기업·연구자·개인이 시간 및 비용 문제로 개별적으로 구축하기 어려운 AI 학습용 데이터를 구축·개방했다. 2020년부터는 디지털뉴딜의 데이터댐 구축 프로젝트의 일환으로 AI 학습용 데이터 규모를 확대했다. 이날 공개된 데이터는 텍스트뿐만 아니라 각 지역의 사투리 음성과 해상·선박의 이미지 등 다양한 형태로 구성됐다.

사투리 음성 데이터의 검증 작업을 한 KT는 AI의 음성인식률이 향상됐다는 의견을 냈다. 현재 주요 AI 서비스들은 주로 표준어 데이터를 학습을 해 사투리는 인식률이 상대적을 낮았다. 하지만 KT를 비롯한 간담회에 참석한 기업들은 이번에 공개된 사투리 데이터를 기반으로 인식률을 끌어올릴 수 있을 것으로 기대했다. 과기정통부는 강원도·경상도·전라도·제주도·충청도 등 각 지역 주민의 사투리 음성을 녹음해 사투리 데이터를 구축했다.

네이버도 AI 학습용 데이터를 검증한 결과 품질에 대해 만족감을 나타냈다. 하정우 네이버 AI랩 책임리더는 "AI 데이터를 하이퍼클로바에 넣어 테스트해보니 상용 서비스에 적용해도 될 정도의 품질이었다"며 "사투리나 다양한 연령대의 음성 데이터는 기업이 만들기 쉽지 않은데 이번 AI 학습용 데이터는 특히 (데이터가 부족한)스타트업게 도움이 될 것"이라고 말했다.

기업들은 AI 학습용 데이터에 대해 전반적으로 만족하면서도 세부적인 데이터의 양에 있어서는 아쉬움을 나타냈다. 과기정통부 관계자는 "간담회에서 보다 세부적인 데이터가 더 있었으면 좋겠다는 의견도 나왔다"며 "농림 분야를 예로 든다면 더 다양한 병충해 관련 데이터가 필요하다는 의미"라고 말했다. 

이날 출범한 AI 데이터 활용협의회(이하 협의회)는 데이터 품질관리 전문기관인 TTA와 170종 데이터의 활용성 검토에 참여한 기업·기관을 중심으로 구성됐다. 협의회는 AI 데이터를 지속 개선할 방침이다. 과기정통부와 지능정보원(NIA)은 2020년에 구축한 170종의 데이터를 이날 60종을 시작으로 6월 말까지 순차적으로 개방할 예정이다.

저작권자 © 블로터 무단전재 및 재배포 금지