“오픈 데이터, 이렇게 구축해 봐요”

가 +
가 -

2월23일 토요일, 주말 나들이하기엔 조금 추웠습니다. 서울시립미술관 근처는 ‘팀 버튼’ 전시회 보려는 관람객, 덕수궁과 서울시립미술관을 배경으로 사진을 찍는 여행자로 붐볐습니다. 다른 곳에 비하면 붐비는 편이었지요. 그 바로 옆에 서울특별시청 서소문청사가 있는데요. 이곳 후생동도 붐볐습니다.

오픈데이터데이

▲서울특별시 서소문청사 후생동 3층 국실

후생동 3층 ‘국실’에서는 ‘오픈 데이터 데이’라는 행사가 오전 10시부터 열렸습니다. 이름도 묵직한 이 행사에 40명이 넘는 사람들이 토요일 하루 내 머리를 맞대며 보냈습니다.

오픈 데이터 데이는 열린지식재단이 주최하고 서울시가 후원한 행사로, 올해는 2월23일 전세계 50곳에서 열렸습니다. 오픈 데이터 데이는 응용프로그램을 만들거나 데이터를 쓰기 좋게 밖으로 끄집어내고, 시각화하고, 분석하기 위해 전세계에서 열리는 모임입니다. 우리나라에서는 국내에 효과적으로 활용할 데이터를 만드는 걸 목표로 열렸습니다. 짧게 줄이면 ‘데이터 구축’이 목표입니다. 멋진 서비스 하나 만들어보자는 건 아닙니다. 데이터를 잘 정리하자는 거지요.

이름만 들으면 지루할 것 같은 이 행사가 정말 따분했는지 궁금한가요. 저는 이 궁금증을 풀려고 갔습니다.

오픈데이터데이 코리아

점심 식사 후, 40명 남짓 참석자가 돌아가며 자기소개하는 모습에 걱정이 됐습니다. 개발자 대상 행사 같은데, 개발을 잘 모른다는 사람이 더 많았습니다. 사회학, 경영, 건축학을 공부하고 가르치는 사람, 언론인 등 이른바 ‘비 개발자’가 80% 정도였습니다. 컴퓨터공학을 공부하거나 지금 개발자로 일하는 분은 이 행사장에선 소수였지요. 행사를 준비한 열린지식재단에서 활동하는 김학래 박사에게 ‘오늘 목표를 이룰 수 있을까’라고 물었습니다. 돌아온 대답은 뜻밖이었습니다. “잘 될 겁니다.” 너무도 자신있게 웃으며 말했습니다.

오후 내 진행된 데이터 구축 과정을 지켜보고서야 그 말 뜻을 알았습니다. 오픈 데이터 데이는 데이터 품질을 개선하는 걸 목표로 기획됐습니다. 이번에도 줄여 말하면 ‘데이터 정제’와 ‘링크드데이터’ 만들기라고 할 수 있겠습니다. 종종 서울시의 열린데이터광장이나 NHN과 다음커뮤니케이션, 트위터, 페이스북 API 등을 활용한 매시업 경진대회나 해커톤이 열리는데요. 오픈 데이터 데이에서 참석자는 이런 행사에서 쓰이는 데이터를 다듬는 작업을 했습니다. 기발한 아이디어로 새로운 서비스를 만드는 것보다 찾을 수 있는 데이터를 활용해 연결하고 정리했습니다. 물론 여기에도 고민이 필요했습니다.

오픈데이터데이

▲행사 내 필요한 건 ‘대화’였습니다. 무엇을, 어떻게 찾아 어디와 연결할까.

데이터는 서울시와 관련한 것으로 좁혔습니다. 서울시는 ‘열린데이터광장’이라는 데이터 포털을 운영합니다. 이곳에는 서울시에서 만들어지는 각종 데이터가 카테고리, 유형별로 저장돼 올라옵니다. 문화, 인구/통계, 보건, 복지 등에 관한 자료가 스프레드시트 파일이나 API 등으로 정리됐습니다.

‘문화’팀은 서울시에서 기획하거나 열리는 문화행사 정보를 정리하기로 했습니다. 연극이나 공연, 전시회 등 여러 행사가 열리는 장소, 주소, 시각, 근처 버스 정류장이나 지하철 역 등에 관한 정보를 모으려는데 생각만큼 쉽지 않았습니다.

오픈데이터데이 코리아

▲이렇게 팀마다 주제에 따라 정리할 데이터를 찾았습니다.

먼저 활용 가능한 데이터를 찾는 데부터 시작했습니다. 도서관이나 문화시설, 행사 등 문화 관련한 데이터가 많지만, 의미를 찾는 건 다른 일입니다. 구별 도서관이 몇 개인지 표시한 자료만으론 ‘구별 도서관 개수가 몇 개다’란 사실만 알 수 있을 뿐입니다. 의미를 찾으려면 도서관마다 보유한 장서량, 분야별 종수, 신간 비율, 일별 또는 시간대별 이용자수, 면적, 책상 수 등 여러 자료를 살펴야 할 겁니다.

그런데 말입니다. 문화팀에 딱 맞는 자료는 없었습니다. 지도 위에 뿌리면 그럴듯한 ‘무언가’를 만들 데이터 말입니다. 오픈 데이터 데이가 데이터 구축을 목표로 삼은 이유가 여기에 있습니다. 데이터를 쓰는 사람은 ‘데이터가 없다’라고 말하지만, 데이터를 제공하는 쪽에서는 ‘뭘’, ‘어떻게’란 걸 모르기 때문입니다. 특히 공공기관 데이터가 그럴 겁니다.

무슨 데이터가 어떤 형태로 필요한지에 관한 얘기가 오가지 않으면 이런 모습이 나타날 수 있습니다.

  • 민간 : 정부 데이터 공개된 게 없다.
  • 정부 : 데이터가 부족하다면 공개하면 되지. (돌아서서) 데이터 구축 사업 발주해.
  • 결과 : 어떤 데이터를 구체적인 어떤 항목으로 추릴 것인지에 관한 고민이 없다. 데이터는 있지만, 쓸 데이터는 없다.

데이터를 쓰려는 사람의 고민을 반영하지 못한 데이터가 쓸모가 있을까요. 인력과 비용을 들여 만들었는데 쓰는 이, 찾는 이도 없다면, 그런 데이터는 아무리 많이 공개되도 예산낭비, 세비낭비에 지나지 않을 겁니다. 이번 오픈 데이터 데이는 참석자끼리 그 고민을 느끼게 했을 겁니다.

‘문화’팀은 문화 행사 정보만 잘 정리해도 도움이 되겠다 싶었는데 열린데이터광장에는 자료가 적었습니다. 외부 사이트에서 정보를 긁어와야 하는데 이 부분은 개발자가 나서야 했습니다.

오픈데이터데이

위치 정보는 어느 선까지 정리하면 좋은가, 주소를 수집할 것인가, 그럼 그 주소는 구와 동으로 나눠 정리할 것인가, 시간은 러닝타임만 알아도 충분한가, 행사는 시가 주최하는 것만 확인하는 게 좋은가, 아니면 서울시 안에서 벌어지는 모든 행사를 모아야하는가 등에 과한 고민도 필요했습니다. 데이터를 정하고 나선 주어진 시간 안에 웹문서에서 긁어올 수 있는가, 긁어오는 데 걸리는 시간과 문제점, 정리한 데이터는 어디에 쓸 것인가 등 주로 고민하는 시간을 보냈습니다. ‘연결할 데이터’가 있는 것인가란 고민도 하겠지요.

이곳저곳에서 데이터만 모아서 엑셀에 넣은 것만으로 아래와 같은 멋진 결과가 나왔습니다.(↓)

잘 정리된 걸 가져다 써서 멋진 서비스 만드는 것도 좋겠지요. 하지만 그 멋진 서비스를 만드는 데 필요한 데이터가 어떤 모습이어야 하는가에 관한 생각을 할 수 있었습니다. 특히, 정부에 ‘데이터를 달라’라고만 얘기하는 대신 구체적으로 무엇을 어떻게라고 말하는 게 서로 도움이 될 거란 것도 알게 됐습니다. 좀 더 나아가 데이터를 공개하는 정부와 그 데이터를 가져다 쓰는 사람 사이에 대화가 잦다면 더 멋진 작품이 나올 거란 기대를 품게 했습니다.

▲인구/통계팀은 2009년 한강 옆 유동 인구 데이터를 지도 위에 보이는 작업을 했습니다. 그런데 GPS 정보가 지금은 사용하지 않는 방식으로 정리돼 처음 작업할 때는 인천 앞바다에 표시됐다고 합니다.

▲작업 내용은 구글 드라이브에 폴더를 만들어 공유했는데요. 접속 불가능할 정도였습니다.

▲교통팀은 기존 주소와 새 도로명 주소를 맞춰볼 수 있도록 자료를 정리했습니다. 옛 주소를 입력하면 거기에 맞는 새 주소를 보여주는 식이지요. 주소 체계가 바뀌면서 같은 곳인데 옛 주소와 새 주소를 별개의 장소로 저장하거나 같은 고객인데 주소가 달라 다른 고객으로 착각하는 경우도 있다고 합니다.

▲날씨/환경 팀은 서울에 있는 공원과 산책로 정보를 모아 데이트 코스를 만들려고 했습니다. 그런데 산책로 자료는 8곳 뿐어서 상상어린이공원을 정리하는 것으로 방향을 틀었습니다. 이 정보는 지도와 연결돼 있지 않았는데요. 열린데이터광장에서 API로 내려받은 상상어린이공원 정보를 구글 지도에 뿌렸습니다. 교통정보와 연결해 버스로 찾아가는 방법도 안내하고 싶었다고 합니다.

▲보건팀은 건강보험심사평가원 자료를 바탕으로 암 관련 병원비와 수술 성공률 등에 관한 자료를 찾았습니다. 건강보험심사평가원에 있는 자료이지만, 찾기 좋게 만들려고 했지요. 이미 있는 자료인데도 찾는 과정이 복잡했다고 합니다. 예측사망율이 높은데 사망율은 낮은 병원이면 위험한 수술을 하는데도 성공율이 높다는 뜻이겠죠. 

▲정치팀은 19대 국회의원 중 초선 의원의 재산을 찾았습니다. 대한민국국회 홈페이지에 이 자료가 PDF로 올라와 ‘리트로’란 프로그램을 이용해 엑셀파일로 바꿨고 이 자료를 CSV 파일로 변환해 데이터를 정렬했습니다. 지역구와 거주지 주소, 부동산 등을 지도에 표시했는데 해석은 여러분에게 맡기겠습니다.(국회의원이 사둔 땅이라면 남다르게 보이나요? =3 =3)

▲복지팀은 독거노인이 구별로 몇 명이 있고, 구별로 어떤 형태의 주택이 많은지 정리했습니다. 서울시 주택 형태와 주택 면적에 관한 평균값을 구별로 정리해 지도에 표시했습니다. 가장 그럴듯했는데요. 이 과정에서 애를 먹었다고 합니다.

오픈데이터데이 코리아

 ▲행사 마무리는 역시 단체사진입니다.

네티즌의견(총 0개)