오픈소스와 공공데이터, ‘데이터 문맹률’ 낮춘다

가 +
가 -

코드와 데이터 식자율

인쇄기가 발명됐던 시절, 글을 읽고 쓸 줄 아는 능력인 ‘식자율’은 2%로 추정된다. 그렇지만 인쇄기 발명 이후로도 대부분의 문명 사회에서 식자율이 90%에 도달하는 데는 무려 400년이 더 걸렸다. 기술의 발명이 파급효과를 미치기까지는 상당한 시간이 걸릴 수 있다는 얘기이다. 책의 보급과 식자율의 점진적인, 그러나 필연적인 증대는 정치적으로는 민주화의 발판이 됐고, 인터넷을 비롯한 현대 문명의 토대가 됐다. 대부분의 인류가 글을 읽고 쓸 수 있게 되기까지는 생각보다 오래 걸렸지만, 인터넷 통신이 인간의 기본권에 포함돼야 한다는 논의가 있는 오늘날 소프트웨어 코드와 데이터 해독 능력의 보급은 그보다 훨씬 빠르게 진행될 것이라고 기대할 수 있다.

밀레니엄의 오픈소스 확대와 정착

데이터 공개는 그 전의 중요한 기술 사상이라고 할 수 있는 오픈소스를 전제로 한다. 내가 2004년 미국에 있을 때 기억에 남는 것 중 하나는 미국 동부와 서부 쪽에서 진행된, ‘오픈소스’ 관련한 산업계와 학계의 열띤 토론이었다.

한쪽은 오픈소스 소프트웨어가 필연적이며 경제에도 긍정적이라는 입장이었고, 다른 쪽은 오픈소스 소프트웨어는 믿을 수 없으며 저작권을 기반으로 한 소프트웨어 업계에 부정적인 영향을 미칠 거라는 주장을 펼쳤다. 물론 프로그래머들은 오픈소스가 너무나 당연하기 때문에 해야 하는지 여부에 대한 논의는 그만큼 치열하지 않았다. 그런 논의는 코드를 잘 모르는 사람들에게 맡기고 코드를 통해 더 나은 기술 사상을 표현하고 다른 프로그래머와 코드를 근거로 논의하는 데 관심을 가졌다.

당시 마이크로소프트 CEO였던 스티브 발머는 2000년에 “리눅스는 공산주의”라고 말할 정도였다. 물론 그 이후 마이크로소프트의 오픈소스에 대한 입장은 혁명적인 수준으로 변화했다. 이런 흥미로운 논의들 속에 소프트웨어를 전공으로 삼으며 나는 ‘지식의 특성은 전통적인 자본과 달리 사용될수록 더 가치가 높아진다’는 미래학자 앨빈 토플러의 주장에 동의하게 됐다.

인터넷을 비롯해 현대사회의 전산망은 오픈소스와 공개 표준을 근거로 삼고 있다. 오픈소스 운동은 ‘내가 애써 만든 것을 공짜로 준다’는 개념이 아니다. 앨빈 토플러의 지식에 대한 관점을 가져오면, ‘공개함으로써 가치를 높여 새로운 부를 창출한다’는 개념으로 접근해야 한다. 즉, 공산주의나 감상적인 히피 문화로 취급돼서는 오픈소스 정신을 이해할 수 없다는 뜻이다.

사진 : https://www.flickr.com/photos/rh2ox/9990024683. CC BY-SA 2.0 https://creativecommons.org/licenses/by-sa/2.0/

사진 : https://www.flickr.com/photos/rh2ox/9990024683. CC BY-SA 2.0.

팀 버너스 리가 유럽입자물리연구소(CERN)의 의뢰를 받아 개발한 인터넷 통신 규약인 ‘HTTP’도 개발 뒤 CERN에서 규약을 공개하고 웹서버도 오픈소스로 제공했다. 현재 인터넷의 위상은 ‘지식은 사용될 수록 가치가 증가한다’는 것의 증명 그 자체이다. 이는 비단 인터넷에만 한정되지 않는다. 구글이 만든 리눅스 기반 안드로이드는 시행착오 없이 의식적으로 오픈소스 전략을 선택했으며, 아주 빠른 시간 안에 의도한 목적을 달성했다. (기존 오픈소스 전략과도 다른 점도 많았다.)

리눅스 운영체제와 프로그래밍 언어인 파이썬은 모두 오픈소스 프로젝트의 형식을 채택히 강력한 기술 커뮤니티를 형성했고, 그러한 기술자 집단의 논의와 기여를 통해 발전해 나가고 있다. 기술 그룹의 논의와 검증을 거쳤고 계속해서 그러한 발전적인 논의가 반영된 덕분에 1990년대 이후 리눅스와 파이썬은 전세계 전산망의 근간을 이루는 중요한 요소가 됐다. 코드 공개만큼 중요한 것은 소스코드를 근거로 한 논의가 발생할 수 있다는 점이다.

데이터 공개, 성공 방정식의 반복

오픈소스의 경제적인 효과에 대한 우려에도 불구하고, 오픈소스로 가장 혜택을 본 것은 소프트웨어 산업계와 프로그래머들이다. 오픈소스 덕분에 이미 푼 문제를 매번 조직마다 반복해서 개발해야 하는 엄청난 낭비를 줄이고 이전 세대의 지식 위에 계속 올라설 수 있다. 이는 서구의 과학이 성공한 바로 그 이유이다.

그런데 소프트웨어의 가치는 입력을 처리하는데 있다. 우리가 키보드, 마우스, 터치스크린으로 입력하면 무언가 처리돼 결과가 발생해야 한다. 입력은 곧 데이터이며, 출력도 데이터이다. 입력의 대부분은 컴퓨터 메모리의 외부 세계에서 발생한다. 많은 경우 우리 인간이 입력을 발생하며, 이미 도래했지만 곧 공공연해질 사물인터넷이 지배적인 시대에는 기계의 센서가 우리 인간이 수동으로 해 온 입력의 상당수를 자동화해 줄 것이다. 소프트웨어 소스코드의 공유와 공개가 당연하게 받아들여진 시대에서는 그것의 재료이자 결과물인 데이터에 대해서도 ‘사용될 수록 가치가 올라간다’는 지식의 특성을 또 다시 반영해야 하는 것은 자명하다.

미국 정부는 '데이터 민주화'를 추구하며 NASA 지식 관리 분야 전문가와 웹·사물인터넷 전문가를 data.gov 설계 및 운영 책임자로 선정했다.

미국 정부는 ‘데이터 민주화’를 추구하며 NASA 지식 관리 분야 전문가와 웹·사물인터넷 전문가를 data.gov 설계 및 운영 책임자로 선정했다.

공공데이터 개방

미국 정부는 “연방 정부의 행정기관이 생성하는 가치 있는 전산 자료의 접근성을 증진”하고자 2009년 5월부터 ‘데이터닷거브’(data.gov) 웹사이트를 운영하고 있다. 미국 정부의 이런 움직임은 공개 데이터(open data)가 “정부와 사업체의 신뢰를 재구축”할 것이라는 주장과 맞닿아 있다.

정부 데이터의 공개는 사물인터넷과 긴말하게 연관이 있다. 사물인터넷 관련 블로거 데이비드 스티븐슨은 이러한 주장을 하는 영향력 있는 인물 중 한 명으로 꼽힌다. 그는 21세기 사물인터넷 시대에는 데이터 문맹률을 낮추는 것이 매우 중요하다고 주장하며, 이를 위한 방법으로 ‘데이터 민주화’(Democratizing data)를 설파하고 있다. 이런 주장에 대해 미국 정부는 적극적인 자세로 항공우주국(NASA)의 지식 관리 분야 전문가와 웹·사물인터넷 전문가를 data.gov 설계 및 운영 책임자로 선정했다.

한국 정부도 ‘공공데이터 포털’을 통해 미국 정부와 매우 유사한 형태로 서비스를 제공하기 시작했다. 웹사이트 구성 측면에서 data.gov와 매우 흡사한데, 이런 경우는 독창성이 좀 떨어지더라도 발빠르게 발맞춰 나가는 데 더 의의가 있다고 생각한다. 한국 정부는 전자정부를 비롯해 여러 면에서 공개데이터를 위한 준비와 토양이 갖춰져 있다고 평가된다. 오픈소스가 산업과 인류 문명에 고작 지난 10여 년 동안 미친 영향을 보면, 공공데이터가 다음 10년에 미칠 영향이 기대된다.

data_go_kr

한국 ‘공공데이터 포털’은 데이터가 정확하고 효과적으로 표현됐는지, 더 나은 방법은 있는지 신뢰를 줄 수 있는가? 

앞서 오픈소스 프로젝트와 관련한 논의에서, 소스코드보다 그것을 근거로 한 논의가 중요하다고 말했다. 그런 주장을 공공데이터에도 적용할 필요가 있다. 공공데이터 포털에 공개된 데이터는 자료가 어떻게 수집됐고 왜 타당한지 납득할 수 있는 논의와 방법론이 아직 부족하다. ‘data.go.kr’ 도메인에서 제공한다는 사실 외에는 이 데이터를 얼마만큼 신뢰할 수 있을까? 정부가 거짓말을 한다는 얘기가 아니다. 데이터가 정확하고 효과적으로 표현됐는지, 더 나은 방법은 있는지 등에서 신뢰를 줄 수 있느냐는 얘기다. 지금은 이 데이터가 유효하고 정확한지 검증하는 과정이 없다. 데이터가 있는 것과 데이터가 목표로 하는 현상을 적절하고 가능한 근사하게 표현했는가는 별개의 문제이다.

물고기 잡는 ‘낚시대’가 필요하다

다음 10년에서 공공데이터를 비롯한 공개 데이터가 제 역할을 하려면 미국 정부의 data.gov 웹사이트에서 강조하듯 ‘데이터와 데이터를 처리할 수 있는 도구’를 모두 제공해야 한다. data.gov는 깃허브를 통해 데이터 처리 예시 소스코드도 제공하고 있다. 우리 공공데이터 포털은 데이터 처리 도구로써의 소스코드 제공 면에선 아직 부족해 보인다.

부족하다고 가만히 있으면 진정한 해커의 자세가 아니다. 하지만 새로운 형태의 데이터를 살펴보는 데 예시 코드만큼 유용한 것도 없다. 파이썬은 공공 데이터 처리 표준 도구가 되기에 충분하다. 공공데이터 포털을 통해 제주특별자치도가 제공한 관광객 유동인구 데이터를 파이썬으로 처리하는 예시를 아래 링크에서 살펴볼 수 있다. 링크 내용은 소스코드와 설명, 출력 결과까지 포함한다. 이 예시는 공공데이터 포털에서 제공하는 데이터의 극히 일부분을 활용한 것이지만, 전반적인 ‘느낌’은 살펴볼 수 있을 것이다.