삼성SDS “빅데이터로 생명연장 꿈 성큼”

가 +
가 -

K씨는 지난 2월, 계속되는 가슴 통증과 기침에 피가 묻어나는 증세로 근처 가까운 병원을 찾았다. 진단 결과 K씨는 폐암 4기로, 종양이 이미 폐를 가득 채우고 있는 것으로 나타났다. 의료진은 K씨 유전자를 분석한 뒤 폐암 세포 생존과 전이에 관계하는 유전자 돌연변이 문제임을 알아채고, 폐암 표적치료제를 처방했다. 유전자 분석에 기반한 치료제 투입 덕에 K씨의 종양은 3분의 2 크기로 빠르게 줄어들었다.

상위 0.1%의 소수만이 누릴 수 있는 특별한 병원 치료가 아니다. 국민건강보험료를 내는 사람이라면 3~4년 안에 누구나 유전자 분석에 기반한 치료를 받을 수 있게 된다. 이른바 바이오인포매틱스 기반 서비스 덕분이다.

바이오인포매틱스는 컴퓨터를 활용해 유전체 정보를 체계적으로 수집, 관리, 저장, 분석해 예방의학, 맞춤의학 등 생명공학에 응용하도록 도와주는 분야로 생물학과 정보과학의 합성어다. 인간의 유전체는 총 30억쌍, 여기서 얻어지는 DNA 정보는 약 120GB에 이른다. 이 정보들을 분석하면 염기서열 정보, DNA 변이 정보, 질병관계 정보를 파악해 개인 맞춤형 질병 예방과 처방 등에 활용할 수 있다.

“과학 기술의 발달로 바이오인포매틱스는 급격한 전환을 맞았습니다. 지난 10년 동안 DNA를 분석하는 시퀀싱 비용은 1천달러 수준으로 떨어졌지요. 1990년대 한 사람의 유전자를 분석하는데 15년이 걸리고 30억달러에 이르는 비용이 들었다면,  2015년에는 4시간, 100달러 수준이 될 전망입니다.”

구형준 삼성SDS 플랫폼 개발센터장은 평균 수명이 늘어나고 건강에 관심 가진 사람이 늘어나면서 기존 제약산업과 의료산업 구조가 변화하고 있다고 설명했다. 이 과정에서 유전자 분석은 신생아 검진이나 검강검진시 필수 요소로 자리잡을 가능성이 높다고 내다봤다. 바이오인포매틱스 사업에 삼성SDS가 관심을 갖고 뛰어든 이유다.

삼성SDS는 지난해 6월부터 공식적으로 삼성지놈닷컴을 통해 유전자 분석 서비스를 선보이고 있다. 유전체 전체를 분석하는 WGS(Whole Genome Sequencing), RNA를 분석하는 WTS(Whole Transcriptome Sequencing), 엑솜 영역을 분석하는 WES(Whole Exome Sequencing) 서비스 등을 1천달러 내외에서 누릴 수 있다. 이 외에도 암 분석 서비스를 유전자 연구원 대상으로 제공하고 있다.

“시퀀스 플랫폼과 분석하려는 유전자 데이터 크기에 따라 달라지나, 분석 기간은 7일 이내입니다. 대용량 데이터를 빠르게 처리할 수 있는 하둡 같은 기술이 등장하면서 가능해진 일이지요. 고성능 서버 컴퓨터 32대 이상과 적어도 수십 테라바이트 이상의 스토리지 공간을 갖고 있으면, 얼마든지 유전자 또는 유전체 분석이 가능해집니다.”

구형준 개발센터장 설명에 따르면, 전통적인 IT 인프라의 데이터 저장 방식으로는 유전자 데이터를 효율적으로 저장하고 분석하긴 어려워보인다. 비용과 성능 모든 측면에서 효율이 나오지 않는 까닭이다. 성능이 좋으면 비용이 과하게 들어가고 비용을 낮추면 성능이 떨어지는 식이다. 10여년전과 비교했을 때 바이오 데이터 양은 폭발적으로 급증했다. 수집되는 유전자 데이터 규모도 달라졌고, 유전자 데이터 크기도 커진 탓이다. 여기에 유전자 데이터를 분석하는 솔루션들은 하루가 다르게 발전해 고차원적인 정보를 만들어 냈다.

삼성SDS는 대략 2가지 방식으로 유전체 데이터를 수집하고 있다. 대용량 파일을 고속 전송하는 솔루션을 통한 업로드 방식과 하드 드라이브를 통한 데이터 수집 방식이다. 고객이 삼성지놈닷컴에서 유전자 분석을 의뢰하고 결제하면, 삼성SDS는 RNA와 전체 엑손을 묶어 표현하는 엑솜 데이터를 업로드하고, 전체 게놈 데이터는 주로 하드디스크로 받는 식이다.

이런 식으로 한 사람의 유전체 전체를 분석하기 위해서는 약 10TB를 효율적으로 분석할 수 있는 시스템이 뒷받침돼야 한다. 10TB는 영화 파일 1만여개에 해당하는 크기다. 단순히 하드디스크로 데이터를 전달하는 전통적인 인프라 방식에는 분명 한계가 있었다.

삼성SDS가 증가하는 유전자 데이터를 효율적으로 분석하기 위해 선택한 플랫폼은 클라우드 컴퓨팅과 하둡이다. 구형준 개발센터장은 “클라우드 컴퓨팅과 하둡 바탕의 분산 환경의 플랫폼을 기반으로 저장과 분석처리 과정을 자동화하는 게 중요하다고 판단했다”라며 “이러한 기술 개발과 적용을 통해 분석 시간 단축과 비용절감 효과를 누리고 있다”라고 밝혔다.

실제로 삼성SDS는 사용자에게 분석 결과를 보여주기 위한 데이터 저장 대부분은 삼성SDS가 개발한 NoSQL 솔루션으로 대체함으로써 비용을 절감하면서 데이터 처리 속도를 개선했다. 이렇게 확보한 데이터를 수집한 후 분석이 시스템상 자동으로 이뤄지도록 구축했다. 그 결과 고객이 유전자 데이터 분석 결과를 삼성지놈닷컴에서 바로 내려받아 볼 수 있게 됐다.

“바이오인포매틱스 미래상은 바이오 데이터를 효율적으로 가공해 의료, 제약 등과 관련해 고부가가치 정보를 만드는 데 있습니다. 개인별 특징을 나타내는 생체 정보를 바탕으로 암과 같은 난치병을 효과적으로 정복하는 세상을 만들려고 합니다.”

삼성SDS가 구축한 클라우드 컴퓨팅과 하둡 기반의 인프라는 바이오인포매틱스 분야에만 활용되는 건 아니다. 삼성SDS는 바이오인포매틱스 외에도 다양한 클라우드컴퓨팅 서비스를 계획하고 있다. 데이터를 보다 빠르고 정확하게 분석할 수 있는 인프라를 그냥 놀리지 않겠다는 심산이다.

“바이오인포매틱스는 사실 삼성SDS가 추진하고 있는 클라우드컴퓨팅 서비스 중 하나입니다. 정보통신이 생명공학 외에도 다른 전문지식과 접목해 새로운 부가가치가 창출되는 시장을 눈여겨 보고 있습니다. 엔지니어링 컨버전스 서비스라고 할까요.”

네티즌의견(총 2개)