삼성SDS가 바이오연구에 하둡·NoSQL 쓴 이유

가 +
가 -

지난 7월 7일 서울 삼성동 코엑스홀 401호~403호서 지디넷코리아와 ‘한국커뮤니티 연합회’가 공동으로 개최한 ‘제2회 대한민국 커뮤니티 데이’가 열렸습니다. 다양한 볼거리가 많았던 행사였는데 유독 눈길을 끄는 발표가 있었습니다.

삼성SDS에서 바이오인포매틱스와 관련해 개발한 NoSQL인 바이퍼(Biper)가 그 주인공입니다.

삼성SDS는 2011년 6월부터 공식적으로 삼성지놈닷컴을 통해 유전자 분석 서비스를 선보이고 있습니다. 유전체 전체를 분석하는 WGS(Whole Genome Sequencing), RNA를 분석하는 WTS(Whole Transcriptome Sequencing), 엑솜 영역을 분석하는 WES(Whole Exome Sequencing) 서비스 등입니다. 이 외에도 암 분석 서비스를 유전자 연구원 대상으로 제공하고 있죠.

지난 6월 중순 만났던 구형준 삼성SDS 플랫폼 개발센터장은 ““과학 기술의 발달로 바이오인포매틱스는 급격한 전환을 맞았습니다. 지난 10년 동안 DNA를 분석하는 시퀀싱 비용은 1천달러 수준으로 떨어졌지요. 1990년대 한 사람의 유전자를 분석하는데 15년이 걸리고 30억달러에 이르는 비용이 들었다면,  2015년에는 4시간, 100달러 수준이 될 전망입니다”라고 밝혔습니다.

당시 인터뷰에서 삼성SDS는 관련 서비스를 위해 NoSQL을 개발했다고 했는데 이번 개발자 행사에서 좀더 구체적으로 그 성과물과 내용을 공유한 것이죠.

인간의 유전체는 총 30억쌍입니다. 여기서 얻어지는 DNA 정보가 1인당 약 120GB에 이릅니다. 이 정보들을 분석하면 염기서열 정보, DNA 변이 정보, 질병관계 정보를 파악해 개인 맞춤형 질병 예방과 처방 등에 활용할 수 있습니다.

문제는 이런 것들을 비용 효율적인 인프라를 활용해 가격 경쟁력 있는 서비스로 선보이기 위해서는 막대한 IT 인프라 투자가 필요하다는 것이죠. 상용 DBMS 못지않게 데이터를 저장하는 스토리지 비용이 기하급수적으로 늘어나게 되는 문제가 발생하는 것이죠.

홍태희 연구원은 삼성SDS가 바이오인포매틱스 서비스를 위해 하둡과 NoSQL인 ‘바이퍼’를 개발한 이유에 대해 “기존 상용 DB와 상용 스토리지를 활용할 때 너무나 많은 비용이 듭니다. DNA 분석을 위해서 수많은 데이터들이 쏟아지는데 이를 전통 적인 IT 인프라로는 감당하기 힘들었습니다. 그래서 찾은 방안이 하둡과 NoSQL의 활용이었습니다”라고 설명했습니다.

삼성SDS는 국내 기반을 둔 오픈소스 NoSQL인 클라우데이터를 활용해 바이오인포매틱스에 맞도록 개발했습니다. 삼성SDS의 NoSQL인 바이퍼는 영어 독사(Viper)를 응용해서 작명했다고 합니다. ‘V’ 대신에 바이오를 표시하는 ‘B’를 썼다고 합니다. 하둡 생태계를 이루는 많은 프로젝트의 코드명들에 동물이나 이와 관련한 단어들이 많았는데 삼성SDS도 이런 상황에 맞췄다고 설명했습니다. 위트 넘치는 작명입니다.

홍태희 연구원은 “초기 상용DB와 상용 스토리지를 사용했던 삼성SDS 바이오인포매틱스 IT 인프라는 현재 하둡과 바이퍼를 사용해 기존인프라를 99% 대체했습니다. 현재 한사람의 DNA를 분석하는 데 3일이 걸리는데 향후 맵리듀스 지원 애플리케이션들이 나오면 분석 시간은 더 빠르게 줄일 수 있을 겁니다”라고 밝혔습니다. 모든 바이오인포매틱스 애플리케이션들이 맵리듀스를 지원하지는 않지만 빅데이터 플랫폼으로 하둡 생태계의 제품들이 사실상 산업계 표준으로 자리잡으면서 이를 지원하는 추세는 빨라질 것이라는 것이죠.

이번 발표를 하면서 홍태희 연구원은 국내 빅데이터 관련 종사자들에게 의미심장한 이야기를 했습니다.

그는 “빅데이터를 분석하는데 든 비용이 분석 후 가치보다 크면 그 빅데이터는 쓰레기”라고 말했습니다. 상당히 공격적인 발언이었습니다. 빅데이터에 대한 관심이 폭발적으로 높아지고 있는 상황에서 홍태희 연구원의 말은 시사하는 바가 큽니다. 무조건 금액을 크게 잡아놓고 시작해서는 안된다는 것이죠. 가치가 있는지 없는지 모를 빅데이터에 큰 금액을 투자한다는 것 자체가 위험한 발상이라는 조언으로 들렸습니다. 작게 시작해서 차곡차곡 기술과 서비스 운영 경험, 서비스 모델들을 만들어 나가야 하는 상황을 이렇게 표현한 것 아닌가 하는 생각이 들었습니다.

한편, 이날 오전에 열린 빅데이터 관련 개발자들 토론회에서는 빅데이터에 대한 인프라와 그 가치를 이해하고 서비스를 제공하려면 개발자와 기획자, 현업 분석가들이 함께 머리를 맞대야 한다는 조언이 있었습니다. 한 팀으로 묶여 있어야 정말 가치를 찾을 수 있다는 것이죠. 그렇지 않으면 그 어떤 가치도 얻어낼 수 없다는 겁니다. 빅데이터 인프라를 고민하는 많은 종사자들이 홍태희 연구원의 말과 빅데이터 프로젝트에 참여했던 이들의 말을 곱씹어볼 필요가 있어 보입니다.

네티즌의견(총 5개)