KT와 현대증권은 왜 ‘스플렁크’를 도입했을까

가 +
가 -

빅데이터는 여전히 화제다. 많은 기업이 데이터를 수집해서 이를 바탕으로 분석하고, 데이터로부터 더 많은 가치를 얻고자 한다. 경영에 데이터 분석을 활용하고 싶은 기업도 많다. 많은 컨퍼런스에서 데이터 분석 사례가 한결같이 통하는 이유다.

6월28일 열린 ‘스플렁크 라이브 서울’ 행사에서 다양한 기업이 데이터 분석 사례를 소개했다. KT와 현대증권은 스플렁크 솔루션을 도입해 어떤 효과를 보았는지, 도입하면서 겪은 어려움도 함께 다뤘다.

KT 클라우드 모니터링, 오픈소스와 스플렁크서 답 찾다

KT는 유클라우드 비즈 서비스는 유클라우드 서버, 유클라우드 CDN, 유클라우드 스토리지, 웹 방화벽, 유클라우드 DB, 유클라우드 맵리듀스 등과 같은 다양한 서비스를 제공하고 있다. 이 서비스를 사용자에게 원활하게 제공하기 위해선 모니터링이 필수다. 클라우드 플랫폼, 가상라우터(VR), 가상머신(VM), 하이퍼바이저, 호스트, 스토리지, CPU와 메모리, 네트워킹 등등 다양한 환경에서 발생하는 로그를 수시로 살펴야 한다.

로그 패턴을 감지하는 방법에는 크게 2가지가 있다. 모니터 서버 스크립트를 활용해서 패턴을 감지하거나, 로그 툴을 활용하는 법이다.

KT는 자빅스(ZABBIX), 나기오스(Nagios) 등과 같은 오픈소스 로그 툴을 활용해서 클라우드 모니터링을 했다. 모니터링 서버 스크립트 방식은 모니터 서버에서 필요한 데이터를 주기적으로 수집해 확인해서 알림을 보내기 때문에, 스크립트를 상황마다 꾸준하게 개발해야 한다. 개발자가 매번 스크립트를 개발해야 한다. 원하는 로그 패턴을 감지하기에 시간이 오래 걸린다.

“로그 툴을 활용하면 다양한 목적에 맞게 사용할 수 있지만, 목적마다 담당자가 필요하다는 단점이 있더군요. 그래서 로그 툴을 통합해보려고 했는데, 나기오스는 직접 서버에 접근해서 확인하는 방식이기에 로그 툴 통합에 맞지 않고, 활용도가 떨어졌습니다.”

하희원 KT 클라우드 운용총괄팀 매니저

하희원 KT 클라우드 운용총괄팀 매니저

이날 사례 발표자로 나선 하희원 KT 클라우드 운용총괄팀 매니저 설명에 따르면, KT는 ‘스플렁크 세이브드 서치’와 나기오스를 적절하게 활용하는 식으로 답을 찾았다.

서버 과부하나 랜카드 에러 같은 서버 이상이 발생했을 때 발생하는 특정 패턴을 포함하는 로그를 스플렁크 세이브드 서치에 등록한다. 그다음 주기적으로 세이브드 서치를 실행해서 담당 관리자에게 이메일로 알림 메시지를 전송했다. 스플렁크 솔루션으로 로그 패턴을 등록해서 주기적으로 알림 메시지를 받고, 나기오스를 이용해 로그를 수집하는 방식을 통해 이벤트 감시 이중화 환경을 만들었다.

“서버에 문제가 생겼을 때, 나기오스에서 서버에 접근해서 이상을 발견할 수 있지만, 나기오스 자체에 문제가 생기면 이상 여부를 확인할 수 없습니다. 나기오스 서버에 스플렁크 포워더를 통해 스플렁크에서 나기오스 로그를 수집할 수 있는 환경을 만들었습니다. 문제가 생겼을 때 나기오스와 스플렁크 양쪽에서 알림이 오기 때문에 이벤트 감시 이중화가 가능해지더군요.”

스플렁크 활용 예시

스플렁크 활용 예시

이 외에도 KT는 스크립트 실행 기능을 이용해 가상머신 생성 요청을 받았을 때, 클라우드 플랫폼에서 가상 머신을 생성하고 자동으로 운영 패키지를 설치할 수 있는 자동화 환경을 구축했다. 여기서 더 나아가 비즈니스 분석에까지 솔루션 활용 범위를 넓힌다는 방침이다.

“사용자 이용 패턴과 로그 분석을 통해서 이용 빈도수가 적은 메뉴 원인을 분석해 UI나 UX를 고도화하고, 빈도수 높은 오류에 대한 패턴 분석을 통해 서비스 품질을 향상할 계획입니다. 사용자 요구사항을 분석해서 비즈니스 방향 설계에 활용할 계획입니다.”

현대증권, PC로 서비스 통합관제 시스템 만들기

이진우 현대증권 IT본부 과장이 데이터 분석에 관심을 갖게 된 이유는 하나다. 고객에게 편리한 서비스를 제공하기 위해서다. 현대카드는 카드, HTS, 모바일 앱, 스마트 계좌 개설, 로보어드바이저 등 다양한 서비스를 제공하고 있다.

이 중 카드 서비스를 예로 들어보자. 현대증권에서 체크카드 타임아웃을 15초로 설정했다고 하자. 고객이 가맹점에서 체크카드로 결제를 요청했을 때, 승인이 10초 만에 이뤄지면 IT 서비스 상으로 문제는 아니다. 15초를 넘어가지 않았기 때문이다. 그러나 평소 3~5초 안에 이뤄지던 서비스가 10초 만에 이뤄졌다면 어떨까. 고객은 10초라는 시간을 길게 느꼈을 수 있다. 장애가 일어난 건 아니지만, 고객은 충분히 불편하다고 느낄 수 있다. 현대증권은 이런 상황을 사전에 미리 파악해서 해결할 수 없는지 고민했다.

이진우 현대증권 IT본부 과장

이진우 현대증권 IT본부 과장

“장애가 없으면 과연 서비스도 이상이 없을까요. 일반적으로 IT 장애 포인트는 서비스 요청을 하고 그 요청에 대한 응답이 정해진 시간 안에 주어지는가에 달려 있습니다. 기술 용어로 ‘타임아웃’이라고 하지요. 우린 IT 재해까진 아니더라도, 고객 입장에서 보았을 때 불편함을 준 건 없는지 고민했습니다. 이와 관련해서 서비스에 대한 전반적인 분석이 필요하다고 보았지요.”

데이터 분석에 나섰지만, 현대증권은 곧 몇 가지 어려움에 부딪혔다. 먼저, 데이터 수집과 분석 구현하는 데 걸쳐 상당한 시간이 소요됐다. 서비스 단위로 데이터가 존재해 서로 다른 팀 데이터와 연계해서 복합 분석하기도 어려웠다. 또, 수천만 건의 대용량 데이터 분석은 물론 데이터를 확인하거나 검증하는 과정에서 한계에 부딪혔다.

이런 모든 어려움을 겪으면서도 이진우 과장은 2014년 하반기 자체적인 시범 프로젝트를 진행했다. 서비스 통합관제 시스템을 만들어서 고객 서비스 이상 징후를 실시간으로 분석할 수 있는 예측 가능 시스템을 구축하는 걸 목표로 삼았다. 주전산 TR 로그, DMBS 알림, 대외계 거래로그, 네트워크 로그, 주문 거래 로그 등 각종 로그와 데이터를 모아 장애가 발생했을 때 통합적인 IT 서비스 분석을 통해 원인을 파악하고 조치할 수 있는 서비스를 개발했다.

splunk seuol hyundai2

그리고 서버가 아닌 PC로 서치헤더 클러스터 3대, 인덱서 클러스터 34대를 구성했다. 부서에서 시범 프로젝트로 시작한 탓에 비용을 신경썼다. 많은 노드를 이용하면 좋겠다는 생각에서 실제 사용이 사용하던 PC 장비 중 유휴 장비를 구해 PC로 시스템을 구성했다. 1TB SSD PC 34대, CPU는 i7, 메모리 16GB를 탑재해서 데이터를 저장했다.

“서버보다 내구성이 떨어지지 않냐고 생각할 수 있습니다. 2년 동안 온라인 상태로 운영했지만, 하드웨어 문제는 없더군요. 그렇다고 서버가 아닌 PC로 서비스를 구현하라는 얘기는 아닙니다.”

이진우 과장은 2015년 5월부터 3개월간 서비스 통합관제 서비스를 만들어서 운영했다. 시스템 관리자, 데이터 수집과 대시보드 개발, 데이터 시나리오 분석 등을 모두 혼자 맡아 진행했다.

스플렁크가 제공하는 기본 기능을 활용해서 대외계 분석, 주전산 TR 응답시간과 메시지, HTS 화면 호출현황, 접속서버 현황 등을 분석하고 파악했다. 이어 고객 유입과 이탈 등 징후를 사전에 파악해 마케팅과 고객관리 전반에 걸친 전략 고도화에 나섰다.

splunk seoul hyundai3

“KB금융그룹과의 통합과정에서 효과적인 서비스와 비즈니스 분석 활용을 목표로 삼았습니다. 지금까지 소개한 모든 콘텐츠 화면, 시나리오, 스플렁크 설치까지 현대증권 자체 인력으로 해결했습니다. 다른 기업도 손쉽게 도입해서 활용할 수 있을 거라고 봅니다.”

네티즌의견(총 1개)