비즈니스

기업 비즈니스, 보안, 네트워크, 기업용 소프트웨어

arrow_downward최신기사

HDFS

하둡, 데이터 분석에 활용하기까지

하둡. 혜성처럼 등장해 대용량 데이터 처리 부문에 있어 사실상 표준으로 자리잡은 기술이다. 하둡이 제공하는 분산파일시스템(HDFS)과 맵리듀스는 오픈소스 프레임워크로 수 페타바이트(PB)에 이르는 대용량 데이터를 저렴한 비용으로 빠르게 처리하고 분석할 수 있게 도와준다. 이렇게 좋은 솔루션이지만 막상 국내 기업이 하둡을 도입해 활용하기까지는 꽤 긴 시간이 걸렸다. 5년 전만 해도 하둡은 새로운 데이터 처리 기술 중 하나에 불과했다. 그 당시만 해도 관계형 데이터베이스 관리시스템(RDBMS)으로 충분히 데이터를 처리할 수 있다고 믿는 사람들이 많았다. 새롭게 배워야 사용할 수 있는 하둡을 반기는 이들은 많지 않았다. 이후 비정형 데이터가 등장하고 기업이 감당해야 할 데이터가 많아지면서 하둡에 대한 관심이 높아졌다. 기존 솔루션으로 데이터를 감당하기에는 너무나 많은 비용과 시간이...

HDFS

"클라우데라 개발 문화? 배우고 소통하죠"

"기술은 영원하지 않습니다. 그렇기에 개발자는 항상 최신 기술에 대해 깨어 있어야 합니다. 지금 이 순간에도 새로운 기술이 나오고 있으니까요. 일 하면서도 끊임없이 배우는 것, 그게 바로 장수하는 좋은 개발자가 될 수 있는 지름길이라고 생각합니다." 올해로 5살을 맞이한 NHN 개발자 컨퍼런스 '데뷰(DEVIEW)'에 처음으로 외국인 개발자가 떴다. 아론 T. 마이어 클라우데라 소프트웨어 엔지니어도 그 중 한 명이다. 그는 빅데이터 처리 플랫폼 회사인 클라우데라 대표 개발자로 이번 개발자 행사에 참석했다. 클라우드데라 한국 출신 동료인 박철수 개발자와의 인연으로 이번에 처음 한국을 찾았다. 아론 엔지니어는 데뷰 강연에 앞서 진행된 블로터닷넷과의 인터뷰에서 장수하는 좋은 개발자의 조건으로 '배움과 소통'을 꼽았다. 자신도 늘 최신 하둡 관련 기술에 귀를...

HDFS

빅데이터 플랫폼, 표준은 '하둡'

"하둡 자체는 파일 시스템과 분산 처리 플랫폼이지만, 하둡을 중심으로 다양한 에코 시스템이 구축되면서 하둡은 빅데이터에 있어 산업계 표준이라고 할 수 있습니다." 국내 하둡 전문기업 그루터의 김형준 수석이 자신의 블로그를 통해 남긴 글이다. 그의 말처럼 하둡이 빅데이터 처리와 분석을 위한 플랫폼 시장에서 사실상 표준이 되고 있다. 국내외 빅데이터 컨퍼런스 관련 주제에서 하둡이 빅데이터 플랫폼에 빠지지 않고 거론되는 걸 보면 알 수 있다. 해외 '빅데이터 컨퍼런스', 국내 한국데이터베이스진흥원이 주관하는 '빅데이터 전문가로 가는 길', 국내 커뮤니티가 준비한 빅데이터 행사인 '빅데이터 오픈소스 플랫폼 기술세미나' 등 여러 행사에서 아파치 하둡과 다양한 NoSQL에 대한 기술 논의가 빠지지 않고 등장한다. 이유는 단순하다. 관계형 데이터베이스 관리 시스템(RDBMS) 기반의...

Hadoop

[주간 스토리지]빅데이터 분석엔 '하둡'

싱크소트, 하둡에서 활용할 수 있도록 지원체제 마련 이 소식을 들으면서 싱크소트(Syncsort)의 솔루션을 왜 포천 100 대 기업들이 선택하게 되는지 알 수 있습니다. 하둡(Hadoop) 환경에서 싱크소트의 툴을 보다 더 잘 사용할 수 있도록 플러그인을 마련해둠으로써 빅데이터 분석에 보다 효과적인 방법을 제시할 것으로 기대됩니다. 아직 제품이 공식적으로 출시된 것이 아니고 개발 계획을 밝힌 것이라 좀 아쉽습니다만 아주 의미 있는 일이라고 생각되는군요. 하둡 커뮤니티에 플러그인을 제공하게 된다면 싱크소트도 좋고 하둡의 기반이 보다 더 늘어날 수 있을 것이라고 생각합니다. 하둡 오픈 커뮤니티에 플러그인을 제공할 것이라는 계획을 발표하면서 동시에 싱크소트는 ‘디엠스프레스 하둡 에디션(DMExpress Hadoop Edition)’을 발표했는데요. 이 제품은 하둡 분산 파일 시스템(Hadoop Distributed File System;...

cloud

[주간 스토리지] IBM, HPC 위한 새 스토리지 아키텍처 선보여

IBM의 HPC를 위한 새로운 스토리지 아키텍처 스토리지 기업들에서 왜 이런 소식이 없을까 했었는데, IBM이 결국 하는군요. '슈퍼컴퓨팅 2010 컨퍼런스'에서 IBM은 새로운 스토리지 아키텍처 설계를 선보였습니다. IBM의 과학자들이 만든 이 새로운 파일 시스템은 GPFS-SNC(General Parallel File System-Share Nothing Cluster)라고 하는데, GPFS와 하둡(Hadoop)을 결합해 만든 모형으로 기존 HDFS(Hadoop Distributed File System)에 비해 2배나 빠르다는 것이 IBM의 주장입니다. IBM의 GPFS는 SONAS와 스마트비즈니스 컴퓨트 클라우드(SmartBusiness Compute Cloud)를 기반으로 만들었습니다. 맵리듀스(Mapreduce) 벤치마크에서 16개의 노드 클러스터와 4개의 SATA 디스크를 각 노드마다 장착하여 실시한 결과 HDFS와 비교하여 2배 정도 빠르다는 것입니다. 클라우드 컴퓨팅 인프라를 구성하는데 있어 HDFS와 같은 설계가 거의 필수적으로 요청되고 있는데요, 디지털 미디어, 데이터 마이닝,...