트렌드

[해보니] “데이터 라벨러는 어때요?”…지금이 ‘적기’

2020.07.02

지난달 정부가 인공지능(AI) 학습용 데이터 구축 사업에 3000억원의 예산을 투입하겠다고 밝힌 뒤, ‘데이터 라벨링(Data Labeling)’ 일이 재조명 받고 있다. 별다른 준비 없이 누구나 시작할 수 있는 데다가, 보수도 괜찮다는 말에 관심을 갖는 이들도 있다. 정말 소문대로 할 만한 일일까? 지난 1일, AI 스타트업 슈퍼브에이아이 본사에서 데이터 라벨링을 직접 체험해봤다.

각 사진에서 필요한 개체를 찾아 표시하고, 이름이나 종류를 결정해줘야 한다

AI를 가르치기 위한 첫 단계, 데이터 라벨링

AI가 무언가를 익히려면 사람처럼 학습용 데이터가 필요하다. 우리가 알파벳을 배울 때 처음엔 ‘A’를 ‘에이’라고 누군가 알려주는 과정이 있었을 거고, 그 과정이 반복되며 전체 알파벳을 익혀 나갔던 것처럼 말이다. 인공지능도 마찬가지다.

만약 AI가 자동차를 구분할 수 있도록 하고 싶다면, 다양한 자동차 사진을 AI에게 입력하고 그 특징을 학습하도록 하면 된다. 그때 학습용 사진에 ‘자동차’라는 각각의 이름표를 달아주는 작업이 바로 데이터 라벨링이다.

보고, 찍고, 고르면 끝

데이터 라벨링은 좋게 말하면 쉽고, 나쁘게 말하면 ‘노가다’로 느껴졌다. 주어진 이미지 안에서 요구하는 개체를 찾아 표시하고, 각각에 이름을 달아주면 끝이다. 누군가는 데이터 라벨링을 두고 ‘디지털판 인형 눈 붙이기’라고 표현했는데, 적절한 비유다.

예를 들어 고속도로에 차가 가득 찬 사진이 있고, 그 안에서 자동차 라벨링에 대한 의뢰를 받았다고 치자. 라벨러는 이미지를 확대해가며 모든 자동차에 표시를 남기고, 이름을 달아줘야 한다.

다행히 이날 체험한 슈퍼브에이아이의 데이터 라벨링 도구 ‘스위트(Suite)’는 오토 라벨링을 지원해 모든 개체를 직접 찾아 처리하는 수고는 없었다. 오토 라벨링은 예를 들어 ‘자동차 인지 AI’를 사전에 만들어 두고 이를 데이터 라벨링에 투입함으로써 사람은 AI가 보류한 부분이나 찾아내지 못한 자동차만 골라 라벨링할 수 있도록 하는 방식이다.

정확도는 꽤 높았지만, 이것도 완전 자동화는 아니기에 결국 이미지가 복잡할수록 사람이 골라내야 하는 부분도 많아진다. 어쨌든 편한 건 맞다. 스마트폰 사진 앱에서 자동 인물보정 기능이 있는 것과 없는 것의 차이랄까?

직업으로는 어떨까?

업체마다 도구나 방식은 조금씩 다르겠지만 데이터 라벨링 자체가 어려운 일은 아니다. 컴퓨터만 다룰 줄 알면 누구나 간단한 교육만 받고 시작할 수 있을 것 같다. 그러면 경제적 보상은 어느 정도일까? 체험 직후 김현수 슈퍼브에이아이 대표와 간단한 질의응답 시간을 가졌다.

김현수 슈퍼브에이아이 대표

결론부터 말해 아직까지 수익은 ‘하기 나름’이라고 한다. 전업으로 할 경우 하루 8시간 작업을 기준으로 200만원 전후를 기대할 수 있지만 조건이 좋아야 한다. 건당 보수 체계라면 일이 꾸준해야 하고, 라벨링 난이도에 따라서도 보수는 달라진다. 고양이 하나만 덩그러니 놓인 사진과 명절날 꽉 막힌 고속도로 사진 작업이 같은 보수를 받을 순 없지 않은가.

라벨러가 보유한 능력, 정확도에 따라서도 배정되는 일감은 달라진다. 일을 대충 하는 건 금물이다. 현장 라벨러들의 성실성을 확인할 수 있는 내부 시스템들은 이미 마련돼 있다. 이 밖에도 아직은 변수가 많다. 아무래도 김 대표가 말한 200만원은 최선의 환경에서 최대로 벌 수 있는 금액 정도로 참고하는 것이 좋아 보인다.

기왕이면 전문 라벨러에 도전하길

하지만 아예 전문 라벨러를 꿈꾼다면 이야기가 조금 다르다. 실제 슈퍼브에이아이와 협업 중인 ‘데이터연구소’에는 라벨링 아르바이트로 시작했다가 검수 팀장, 프로젝트 매니저 등을 거쳐 전문 라벨러로 성장한 사례들이 있다고 한다. 단순 라벨링뿐 아니라 라벨러 그룹을 관리하고 품질 유지 업무까지 가능한 데이터 가공 전문가로 성장하는 것이다. 이 경우 더 안정된 보수와 커리어 확장성을 기대해볼 수 있다.

그런 측면에서 만약 전문 라벨러를 꿈꾼다면 지금이 적기라고 한다. 김현수 대표는 “이 분야도 아직 초기이다 보니 현장 노하우를 지닌 사람이 적다”며 “아마 지금부터 시작하면 몇 년 이내에 경력으로 인정받는 순간들이 찾아올 것”이라고 말했다.

그의 말처럼 AI는 앞으로도 계속 성장할 분야다. 데이터 라벨러에 대한 수요도 꾸준히 늘어날 수밖에 없다. 몇 년 뒤에는 전문가들 중심의 교육 비즈니스 등 다양한 파생 기회가 생겨날 지도 모르는 일이다. “지금부터 시작하라”는 권유는 시장이 성숙하기 전 미리 기회를 선점하라는 의미다.

한편, 추가경정 예산이 포함된 한국형 데이터 라벨링 사업의 윤곽은 이르면 다음 주 공개된다. 정부 발표에 따르면 올해 총 150개의 AI 학습용 데이터 구축 과제가 발표될 예정이다. 각 과제마다 20억원의 예산이 책정되며, 이를 통해 총 6만개의 데이터 라벨링 일자리가 만들어질 것으로 예상되고 있다.

sugyo@bloter.net

더 쉽고, 알차게 쓰겠습니다.