대용량 데이터 마이닝: SNS 데이터 소유권은?

가 +
가 -

최근 유행하고 있는 대용량 데이터(Big Data)의 개념은 비즈니스 기회를 창출하기 위해 페이스북과 트위터에 포스팅되는 비정형 정보까지 포함한 모든 것으로부터 지식을 수집하는 것을 의미한다. 그러나 이러한 개념에는 정확히 누가 모든 이런 데이터를 소유하고 있는가라는 문제를 제기할 수 있다는 위험도 존재한다.

기가옴(GigaOm)의 데릭 해리스 애널리스트는 “대용량 데이터”라는 용어에 대해 약간 오해의 소지가 있다. 현재 논의되는 대용량 데이터의 원천은 소셜 네트워크와 휴대폰 등이라고 설명했다.

그는 이어 대용량 데이터에 대한 IT와 경영 부서들의 관심으로 인해 “대용량 데이터는 이제야 활용될 수 있게 되었다”라며 이제 갓 본질적으로 대용량 데이터를 분석할 수 있게 된 상황이라고 말했다.

모질라의 크라스챤 헤일만 개발자는 “지금까지는 인간 게놈 정보 분석 혹은 정부 데이터 제공과 같이 선의의 목적으로 그것을 사용할 수 있는 곳에서 대용량 데이터 분석 시스템을 보유하고 있었다”라고 말했다. 그는 비즈니스 애널리스트들이 하둡과 같은 기술을 사용하여 한 시간 동안 대여한 서버를 활용한 후 대규모 데이터를 연구할 수 있었다는 점을 덧붙였다.

대용량 데이터에 대한 관심이 증가하고 있는 상황에서 벤더들이 대용량 데이터를 활용하기 위한 움직임을 보이고 있다는 것은 새삼스러운 것이 아니다. IBM은 데이터 웨어하우스 어플라이언스 업체인 네티자(Netezza)를 17억 달러에 인수했다. 또 테라데이터는 비정형 데이터에 대한 고급 분석과 관리 서비스를 제공하는 신생 데이터 웨어하우징 업체 아스타 데이터 시스템즈를 인수했다.

소셜 네트워크에서의 대용량 데이터 마이닝

에코와 클라우데라 같은 업체들은 대용량 데이터와 소셜 네트워크 데이터 분야에서 틈새 시장을 찾고 있다. 에코의 크리스 사드 전략 부문 부회장은 “이러한 수백만 달러 규모 업체들이 현재 사업을 진행 중인 대용량 데이터 분야는 활동 데이터와 관련한 것들이다”라고 설명했다.

IT 기업들과 개별 사용자들은 데이터 수집이 현저히 증가함에 따라 제공되는 대용량 데이터의 종류도 증가할 것이라고 확신하고 있다. 예를 들어, 미디어 업체와 광고 에이전시 같은 업체들에 서비스를 제공중인 에코의 스트림서버는 고객과 관련한 소셜 미디어 데이터를 단일 스트림으로 제공한다.

고객사로 로이터를 확보하고 있는 에코는 고객사의 웹 사이트뿐만 아니라 트위터와 페이스북과 같은 사이트에서 고객사의 데이터를 수집한다. 그러면 고객은 그러한 데이터에 대한 실시간 환경을 구축할 수 있다. 고객들은 포럼과 라이브 블로그와 같은 애플리케이션을 개발하기 위해 “대규모의 통합 데이터 집합”을 얻게 되는 것이다.

클라우데아는 데이터 관리를 위한 플랫폼 기능을 제공하는 자사 고유의 하둡 배포판을 제공하고 있다. 클라우데아 엔터프라이즈 제품은 대규모 데이터 스토리지와 분석 기능을 구현한다. 클라우데아의 아므르 아와댈라 CTO는 자사의 하둡 배포판을 사용함으로써 기업들은 소셜 데이터를 수집하고 통합할 수 있고 중앙의 데이터 저장소에 그러한 데이터를 저장할 수 있다고 말했다. 그러면 사용자들은 새로운 관계와 같은 요인을 살펴보기 위한 목적으로 데이터를 분석하기 위해 맵리듀스(MapReduce)를 실행할 수 있다.

누가 데이터를 소유하는가?

모질라의 헤일만 개발자의 관점에 따르면 대용량 데이터는 웹 상에 축적된 모든 데이터 혹은 실시간 데이터이다. 그러나 이러한 데이터의 소유주는 누구인가? “그것이 바로 논란거리이다”라고 그는 말했다.

헤일만 개발자는 “내 생각에 (페이스북과 같은 사이트가 제공하는) 빠른 속도와 인터페이스의 아름다움으로 인해 사람들은 자신이 무엇을 하고 있는지 깨닫지 못한 채로 자신의 정보를 넘겨주고 있는 것 같다”고 말했다. 예를 들어, 사람들이 자신의 술 취한 자신의 사진을 업로드 한 경우 차후에 잠재적인 고용주가 그러한 사진을 살펴볼 수도 있는 것이다.

그리고 그는 “당신이 인터넷 상에서 무언가를 삭제하는 경우가 진짜 문제다”며 “당신이 인터넷에 무언가를 올리자마자, 그것은 캐시되고, 어딘가에 복사된다. 인터넷에 무언가를 올릴 때 심사숙고 해야 한다”라고 강조했다.

기가옴의 해리스 애널리스트는 데이터의 소유권은 환경에 따라 다르다며 “분명한 것은 업체가 데이터를 생성한 경우 그 업체가 해당 데이터에 대한 소유권을 갖는다는 것”이라고 말했다. 그는 그러나 페이스북과 트위터 등의 서비스들이 사용자가 생성한 데이터를 소유하기도 한다는 점을 지적했다.

클라우데아의 책임자도 누가 비정형 데이터를 소유하는가의 문제는 대답하기 어렵다며 애플 앱스토어에서의 고객 구매 정보와 같은 데이터는 애플이 소유한다고 말했다. 그리고 그는 비록 구글은 사용자에게 데이터 삭제권을 제공하지만 여전히 데이터 자체는 구글의 소유한다고 덧붙였다.

‘데이터 포터빌리티 프로젝트(Data Portability Project)’는 이러한 데이터 소유권 문제를 명확히 하고 소셜 네트워크에의 데이터 포팅을 장려하려는 취지로 진행되고 있다. 이 프로젝트는 사용자가 자기 자신의 데이터를 소유하고 소셜 네트워크는 사용자가 그것을 이동하기 쉽도록 만들어야 한다는 개념을 장려한다.

데이터 포터빌리티 프로젝트의 공동 설립자이기도 한 에코의 사드 부회장은 이러한 노력으로 데이터가 업로드된 이후 사용자들이 무엇을 할 수 있는지에 대해 사이트들이 공개하는 사례가 많아지고 있다고 말했다.

사드 부회장은 그러나 몇몇 사례에서 사용자들의 데이터가 온라인 서비스 기업에 의해 공유되고 있다고 지적하면서 “그것은 은행에 있는 돈과 같다. 돈의 소유주는 당신이지만 당신과 잠재적으로는 돈의 사용권과 보호권을 은행에 제공한다”라고 말했다.

이러한 이슈는 단지 프라이버시에 관한 것만은 아니다. 대용량 데이터 개념 중 한가지는 트렌드, 사업 기회, 시장 동향, 잠재적 고객, 그리고 고객 세그먼트 등을 파악하기 위해 다중 소스로부터 데이터를 분석하는 것이다. 대용량 데이터 툴을 사용하여 웹에서 이용 가능한 정보를 분석할 때, 소유주의 동의 없이 그렇게 할 권리가 있을까?

사드 부회장은 “그것은 상황에 따라 다르다”며 “만약 사용자가 공공 인터넷 상에서 퍼블리싱한다면, 아마도 사회적인 계약은 사람들이 자신의 데이터가 처리되고 색인되며 사용되는 것을 예상하고 있다는 것이다”라고 주장했다.

그는 그러나 “페이스북이 사적인 네트워크가 되어 사용자 정보의 어느 부분이 공개될 수 있는가의 경계를 지속적으로 살펴보는 것과는 다른 이야기다”라고 말했다.

네티즌의견(총 0개)