“꼭꼭 숨은 공공데이터 찾아드려요”

가 +
가 -

개발자가 데이터 찾아 헤맬 시간을 줄여줄 웹사이트가 열렸다.

‘코리아데이터허브’는 공공데이터나 민간에서 공개한 데이터의 파일 내려받기나 바로가기 링크를 제공하는 웹사이트다. 이 웹사이트는 1895건 데이터를 시작으로, 10월15일 문을 열었다.

이 곳은 일종의 열린 데이터 포털이다. 이 웹사이트 개발은 공공데이터 활용을 주제로 한 커뮤니티 ‘코드나무’의 자원활동가가 맡았다. 개발에 참여한 사람 수가 일정하지 않은 건, 다들 자발적으로 자기 시간이 허락할 때 참여하기 때문이리라. 코드나무와 웹사이언스워크그룹에 참여하고 있는 김학래 박사는 “데이터 찾는 일이 쉽지 않다”라며 코리아데이터허브를 소개했다.

“코드잼이나 캠프를 열고, 데이터를 활용해 서비스를 만들면요. 이때 20시간이 주어진다면 10시간은 데이터가 어디에 있는지 찾고 쓸 수 있도록 파싱하는 작업하는 데 씁니다. 코리아데이터허브가 활성화되면 이 10시간을 줄일 수 있을 것 같습니다.”

그는 다음커뮤니케이션이 연 개발자 행사 ‘디브온 2012’에서도 이와 비슷한 말을 했다. “데이터에 접근할 경로는 많이 있는데 개발자는 같은 일을 반복합니다. 크롤링하고 데이터를 만들고 앱을 만들죠. 이때 쓰이는 데이터를 공유하려고 시도하고 있습니다.”

우리 동네에서 사람들이 외래 진료를 위해 가장 많이 찾는 병원을 지도 위에 보여주는 서비스를 만든다고 치자. 필요한 정보는 어디에서 구해야 할까. 막막하다. 의료와 관련한 정보이니 보건복지부, 외래 진료 기록을 찾기 위해 국민건강보험공단에 있는지 고민이 된다. 해당 지역의 가장 정확한 정보는 지자체에서 잘 알지도 모른다. 김학래 박사는 이렇게 부처와 지자체를 돌아다니며 데이터를 수집하고, 또 활용할 때 유의 사항을 확인하는 작업이 오래 걸린다고 지적했다.

코리아데이터허브는 이 과정을 줄이는 데 초점을 맞췄다. 이곳에 오면 필요한 데이터를 파일로 내려받거나 얻을 수 있는 곳으로 바로 갈 수 있고, 덤으로 이용허락 조건과 담당자와 기관, 부처를 확인할 수 있다.

열린 데이터를 찾는 방법이 편리해지면, 해외에서 우리나라 데이터를 활용할 길도 쉽게 열릴 것이다. 김학래 박사는 케냐의 데이터는 활용해도 우리나라 데이터는 활용되지 못하는 현실을 꼬집었다.

“각국 정부의 지출 규모를 보여주는 ‘오픈스펜딩’이란 프로젝트가 있습니다. 저도 여기에 참여하는데요. 여기에 케냐에 관한 정보는 나오지만, 한국 정보는 없어요. 한국 데이터를 찾는 방법을 모르기 때문이지요. 코리아데이터허브의 목적 중 하나는 이렇게 한국 데이터를 영어로 번역해, 외국에서도 쓸 수 있는 형태로 보여주는 데 있습니다. 우리나라 데이터를 우리나라 사람만 활용할 필요는 없지요.”

공유할 데이터는 누구나 올릴 수 있다. 회원가입한 이용자면 누구나 데이터를 파일로 올리거나 링크를 연결하면 된다. 데이터를 올릴 때는 소스와 만든이, 저작권자와 이용허락 조건, 작성 주기 등을 기록하면 된다. 올릴 수 있는 데이터는 공공데이터뿐 아니라, 누구나 활용하도록 열린 데이터까지 포함한다. 김학래 박사는 “법적인 제한이 없는 오픈데이터”를 대상으로 한다며 시민단체가 만드는 데이터도 이곳에 올릴 수 있다고 말했다.

그런데 코리아데이터허브에 내가 필요한 데이터에 대한 정보가 없을 수도 있다. 이때는 코리아데이터허브와 연결된 Q&A 웹사이트를 찾자. 이 웹사이트는 미국의 개발자용 Q&A 웹사이트 ‘스택오버플로우’의 형식을 빌려 만들어졌다. 코리아데이터허브는 데이터를 보여주는 역할이면, Q&A 웹사이트는 얻는 방법부터 사용법까지 각종 정보를 나누는 공간이다. 김학래 박사는 “반복하는 실수가 없으면 좋겠다”라며 “데이터를 ‘써보니 어땠다’나 얻는 과정을 공유해, 이 Q&A 웹사이트가 데이터 품질을 높이는 역할을 하길 바란다”라고 덧붙였다.

이제 막 문을 연 두 웹사이트는 특정 회사나 단체의 도움 없이, 개발에 참여한 개인들이 서버 비용을 충당하고 있다.