“빅데이터로 국가를 운영하려면…”

가 +
가 -

과학기술이 발전하면서 10년 전만 해도 발생 속도가 빠르고 양이 방대해 처리하지 못했던 데이터를 수집하고 처리할 수 있는 기회가 열렸다. 오픈소스 하둡의 등장은 슈퍼컴퓨터가 아니더라도 데스크톱 PC를 여러 대 붙이면 대용량 데이터로부터 가치를 얻어낼 수 있음을 보여줬다.

신용카드 거래 내역, 휴대폰 통화 기록, 인터넷 접속 기록, 하루에 판매되는 의약품 수 등 바야흐로 주변에 데이터가 넘쳐나는 시대다. 미국영국, 싱가포르는 하루에 수없이도 발생하는 데이터를 통해 국가를 운영해보겠다고 도전장을 내밀었다. 국가 차원에서 공개할 수 있는 모든 정부 보유 전수데이터를 웹사이트에 게시해 데이터 분석을 통한 가치를 끌어내라고 장려하고 있다. 국내에서도 빅데이터 국가 전략 포럼을 통해 데이터를 바탕으로 한 효율적인 국정 운영 방법을 고민 중이다.

분석 솔루션 업체 SAS에서 오랫동안 데이터 과학자로 활동한 존 클래어 브로클뱅크 박사는 “정부가 주도해서 데이터를 활용하려면, 분석에 필요한 가용 데이터가 무엇인지를 파악하는 일이 중요하다”라며 “단순한 일로 들릴지 모르지만, 가장 우선해야 할 일”이라고 조언했다.

프로클뱅크 박사는 미국 주요 도시에서 복지 프로그램을 시행할 때 편법으로 복지 지원 서비스 혜택을 누리는 이들을 방지하기 위한 사기 탐지 솔루션을 기획했다. 최근 그는 LA카운티에서 ‘아동 복지 지원 서비스 사기 방지 프로젝트’를 진행했다. 이 과정에서 약 45억개가 넘는 데이터를 활용됐다.

“아동 복지 지원 서비스 자료, 서비스를 신청한 개인의 소득 자료, 세금 납부 상황, 사회보장번호, 가입한 보험 정보 같은 데이터를 기반으로 복지 지원 서비스를 신청하는 이들을 분석했습니다. 개개인에게 초점을 맞추기보다는 관계에도 신경을 썼지요. 그 결과 부당하게 복지 서비스를 신청하도록 유도하는 중개인, 협력자들도 함께 찾을 수 있었습니다.”

그 결과 LA카운티 주 정부는 불필요한 복지 예산 집행을 막을 수 있었다. 편법으로 복지 서비스를 누리는 이들을 데이터 분석 결과로 예측하고, 사전에 적발한 셈이다. 이를 위해 운전면허 발급기관, 병원, 보험기관에 협력을 요청했다. 정부가 모든 전수 데이터를 갖고 있지 않을 수도 있기 때문이다.

“원하는 결과를 뽑기 위해 어떤 데이터가 필요한지 알고 있었기 때문에 가능한 일입니다. 단순히 정부가 갖고 있는 데이터를 굴린다고 해서 원하는 결과가 나올까요. 아닙니다. 분석에 필요한 데이터가 무엇인지, 해당 데이터를 어떻게 수집할 것인지, 수집하는 과정에서 개인정보보호를 침해하지는 않는지 여러 상황을 고려해야 합니다.”

분석에 맞는 데이터를 활용하지 못하면, 제대로 된 투자수익(ROI)이 나오지 않는다. 프로클뱅크 박사는 이 점에서 데이터 과학자의 역량이 중요해진다고 설명했다. 데이터 과학자는 올바른 데이터 분석 결과를 만들어 낼 수 있는 다양한 조건들을 시도해봐야 한다. 그 결과 IT 부서에서 정확한 데이터를 뽑아낼 수 있게 도와줘야 한다.

“가장 흔히 착각하는 게 있어요. 저렴하게 데이터를 처리할 수 있게 되면서, 모든 데이터를 분석하면 반드시 양질의 분석 결과가 나올 것이라 오해하지요. 그냥 데이터를 다 넣고 돌리면 되는데 왜 데이터를 선별해야 하냐고 되묻는 이들도 있습니다. 방대한 양을 분석한다고 해서 질이 보장된 건 아닙니다. 올바른 데이터를 선별하는 클렌징이라는 작업이 필요합니다.”

데이터 양이 늘었다고 해서 분석 질이 높아지는 건 아니다. 데이터 과학자가 데이터를 엄선하는 작업이 꼭 사전에 수행돼야 하는 이유다. 그래야 사전에 데이터 효율성을 보장받을 수 있다. 프로클뱅크 박사도 사기 방지 프로젝트를 위해 3개월이 넘는 시간 동안 검증과 평가 작업만 진행했다.

검증만 넘어서면 데이터 기반 국정 운영이 이뤄지는 것일까. 데이터를 수집해 통일해야 하는 작업이 남았다. 우리나라만 해도 국방부가 갖고 있는 데이터, 지식경제부가 갖고 있는 데이터 형식이 다르다고 한다. 각 기관마다 데이터를 수집하는 방식과 조사하는 방법이 다른 탓이다. 데이터를 운영하는 솔루션들도 제각각이다. 기존에 운영되고 있는 분석, 통계, 정보처리 프로그램들은 SQL 기반으로, 하둡 기반의 빅데이터 처리 기술을 사용하지 못할 때도 존재한다.

“데이터 기반으로 국정 운영을 하겠다고 나선 나라들이 고민하는 부문입니다. 기존에 갖고 있는 전수 데이터들 형식을 맞춰야 하는데 어려움을 호소하고 있더군요. 지금부터라도 차근히 시작하면 해결할 수 있습니다.”

프로클뱅크 박사도 사기 탐지 솔루션을 기획할 때, 데이터 과학자로서 이 통합 작업에 검증만큼 많은 시간을 투자했다. 여기에 데이터 보호 같은 개인정보보호문제도 빠질 수 없어, 따로 변호사를 불러 문제를 해결했다.

“데이터로 세상을 바꿔보겠다는 일은 어느 날 갑자기 시작된 움직임이 아닙니다. 최근 빅데이터라면서 이에 대한 얘기가 많은데, 원래부터 정보통신쪽 업체들은 데이터를 가지고 많은 일들을 하고 있었습니다. 통신사부터 시작해 신용카드 회사까지 보유한 고객 데이터를 가지고 새로운 사업 기회를 만드는 건 흔한 일이었습니다. 분석 기회가 정부까지 확대됐을 뿐입니다. 앞으로 어떤 시대가 열릴지 기대됩니다”

[youtube tDTz3465N8w 500]