close

NHN엔터 IDC 장애, 원인 들여다보니

가 +
가 -

NHN엔터테인먼트가 구축한 판교 인터넷데이터센터(IDC) ‘토스트클라우드센터(TCC)‘가 최근 잇따라 장애를 일으켰다. 개시 반 년 만에 일어난 일이다.

앞서 5월21일 NHN엔터 판교IDC(인터넷데이터센터)에 문제가 생겨 한게임 일부와 모바일게임, 페이코, 벅스, 티켓링크가 먹통이 되는 사태가 있었다. 21일 오전에 시작돼 오후까지 지속한 장애는 당일 오후 3시30분에 복구가 됐다. 티켓링크도 5시30분쯤에 모두 복구가 됐다. 그렇지만 이튿날인 22일, ‘토스트캠’이 한 차례 더 오류를 겪었다. 이를 두고 IDC 자체 장애란 주장과 토스트캠 프로그램(SW) 오류란 의견이 맞서기도 했다. <블로터>는 지난 6월 중순, NHN엔터 토스트클라우드센터를 직접 방문해 보다 자세한 장애 발생 원인을 들었다.

집선 스위치로 인한 IDC 네트워크 장애

TCC의 첫 장애는 지난 5월21일에 일어났다. 당일 오전 10시20분, NHN엔터테인먼트 판교 IDC의 TCC에서 문제가 생겨 음악 스트리밍 서비스인 벅스를 비롯해 페이코, 티켓링크, 한게임 일부와 모바일 게임 등 NHN엔터 서비스가 먹통이 됐다.

벅스 이용자는 한동안 음원을 듣지 못했고, 페이코 사용자들은 로그인이 안 되는 등 불편을 겪었다. 특히 티켓링크로 예매대행을 하는 KT, 한화, KIA, NC, SK, 삼성 6개 구단은 온라인 결제에 문제가 생겼다. 이 때문에 21일 열린 다섯 경기 중 네 경기가 무료 입장을 허용하는 사태를 겪었다.

NHN엔터테인먼트 설명에 따르면, 해당 장애는 NHN엔터테인먼트 내부 서버를 집선해주는 E1 서버룸에 네트워크 통신을 하는 집선 스위치가 관리망 OS 버그에 영향을 받아 생긴 문제로 나타났다.

좀 더 자세하게 상황을 들여다보자. 당시 네트워크 가장 아랫단에 위치하는 OOB DS 관리망에서 오전 10시10분쯤 ‘링크 플랩링크가 살았다 죽었다 하는 상황. 랜선을 꼽았다 뺐다 하는 것과 마찬가지의 상황이라고 이해할 수 있다.close‘이 발생했다. 이 링크 플랩이 OOB DS 관리망 윗단의 OOB AS 관리망 스위치 OS에 알려지지 않은 버그를 건드렸다. NHN엔터 쪽은 “해당 제조사가 아니면 알 수 없는 버그였기에 이에 대비할 겨를이 없었다”고 밝혔다.

스위치 OS 버그에서 생긴 방해 신호는 그대로 집선 스위치로 전달됐다. 방해 신호를 받은 집선 스위치는 ‘커널 비지하드웨어과 애플리케이션 사이에 OS가 있다. 서버 OS가 하드웨어하고 애플리케이션을 연결하는데, OS 중 '커널'이라는 역할을 하는 게 있다. 커널이 문제가 생기면 여러 장비를 하나로 묶어 기능하게 해주는 '클러스터' 역할을 제대로 수행하지 못해 문제점이 생기는 데 이를 '커널 비지' 상황이라고 한다.close‘ 상황에 맞닥뜨렸고, 여러 장비를 하나로 묶어 기능하게 해주는 클러스터가 풀렸다. 이렇게 집선 스위치에 오류가 생기고 제 기능을 잃게 되면서 네트워크망에서는 루프 상황이 왔다. 루프 상황은 트래픽을 비정상적으로 증폭시키고 결국 네트워크가 제대로 돌아가지 못하는 사태를 만들었다.

NHN엔터테인먼트 5월21일 IDC 장애 상황 도식

용어 설명

  • 링크 플랩(Link Flap) : 링크가 살았다 죽었다 하는 상황. 랜선을 꽂았다 뺐다 하는 것과 마찬가지의 상황이라고 이해할 수 있다.
  • 커널 비지(Kernel Busy) : 하드웨어과 애플리케이션 사이에 운영체제(OS)가 있다. 서버 OS가 하드웨어하고 애플리케이션을 연결하는데 OS중 ‘커널’이라는 역할을 하는 게 있다. 커널이 문제가 생기면 여러 장비를 하나로 묶어 기능하게 해주는 ‘클러스터’ 역할을 제대로 수행하지 못해 문제점이 생기는 데 이를 ‘커널 비지’ 상황이라고 한다.

이런 장애가 8개 장비 중 6개에 차례로 생기면서, 원격으로 제어할 수 있는 서비스부터 서버 접속 시 암호를 관리하는 커버로스 서버, DB 서버 그리고 NAS까지 모두 오류가 발생했다.

링크 플랩은 데이터센터 내부에서 좀체 발생하지 않는 상황이다. 설령 문제가 된다 하더라도 정상적인 상황이었다면 OOB DS 관리망에서 링크 플랩이 발생한 후 해당 관리망 안에서만 맴돌았을 뿐 그 이상의 문제를 일으키지 않았을 것이다.

NHN엔터 쪽은 “해당 장애는 당일 티켓링크를 17시28분, PC 웹보드를 18시에 복구 완료하며 마무리됐다”라고 해명했다.

부품 파손으로 인한 누수

6월17일 NHN엔터테인먼트의 웹 호스팅 자회사 NHN 고도에서 서버 장애가 발생하면서 해당 서버를 이용하는 다수의 고객사 쇼핑몰 서비스 이용이 중단됐다. 서비스 장애는 17일 저녁 7시부터 발생해 다음날인 18일 오전 11시30분에 복구됐다.

해당 장애는 NHN엔터테인먼트의 IDC에 물리적 장애가 발생하며 일어났다. TCC에서는 물을 사용한 간접 기화로 IDC 공조 환경을 조절한다. 그 공조 시스템의 파이프를 고정하는 ‘플램프’라는 기구가 고장나 수도 배관이 파손됐다. 공조기 내부에 물이 흘렀고 고도몰 장비가 있는 서버룸의 습도가 올라가며 장애가 생겼다. “대부분 서비스는 실시간으로 복구할 수 있었지만 서버 2대의 서비스가 직접적으로 영향을 받아 복구하는 데 시간이 걸렸다”는 게 NHN엔터 쪽 설명이다.

토스트캠 장애는 소프트웨어 문제

5월21일 IDC 네트워크 장애가 한 차례 일어난 다음날인 22일, IDC를 이용하는 토스트캠에 여전히 문제가 있다는 이용자 제보가 들어왔다. 하지만 이에 대해 NHN엔터 쪽은 “토스트캠은 IDC의 문제라기보다 토스트캠 SW에서 발생한 문제”라고 해명했다.

좀 더 자세히 알아보면, 토스트캠에는 수천 대의 카메라가 접속해 있다. 토스트캠에는 카메라가 접속하는 관문 서버가 있다. 이 서버는 마스터 서버와 슬레이브 서버로 나뉘는데,  마스터에 문제가 생기면 슬레이브 중 한 곳이 명령을 내리는 마스터 역할을 해야 한다.

토스트캠에 문제가 생긴 이 날은 마스터 서버에 문제가 생겼다. 그러면서 자연스럽게 마스터가 바뀌는 현상이 일어났지만, 토스트캠은 새로 지정된 마스터 대신 오류가 발생한 기존 마스터 서버로 계속해서 신호를 보냈다. 결국, 토스트캠 영상이 먹통이 돼 녹화 상황이 보이지 않는 문제가 생겼다. 해당 장애는 22일 오후 7시에 복구됐다.

“중·장기 대책 마련으로 후속 조치 진행”

NHN엔터테인먼트는 잇따른 장애에 대해 후속 대책 수립에 들어갔다고 밝혔다.

5월21일 발생한 IDC 장애와 관련해선 우선 관리망을 새롭게 디자인해 주요 스위치를 분리해 구성하는 작업을 진행했다. OS 버그가 일어났던 스위치는 지난 5월 업데이트 된 OS였다. 따라서 문제가 없던 이전 OS로 다운그레이드 해 네트워크가 정상 가동될 수 있도록 조치했다고 밝혔다.

NHN엔터는 장기 대책도 밝혔다.

  1. 기존 서버 풀과 토스트 클라우드를 함께 사용하도록 하며 토스트 클라우드의 비중을 높인다. 이는 장애가 발생하더라도 좁은 범위에서 국지적으로 발생해 피해를 줄이기 위함이다.
  2. 각 서비스의 방어 로직 점검 및 보안을 적용한다. 각 영역별 장애 발생 가능성이 낮더라도 사건이 겹칠때 대형 장애가 발생할 수 있다. 따라서 각 영역별 장애 발생 가능성을 낮추는 노력을 하면서 동시에 그 장애가 다른 서비스에 영향이 없도록 조치하려는 대책이다.
  3. DNS 기반 데이터베이스 고가용성(HA)을 확대 적용한다.
  4. 장애 처리를 위해 필요한 서버들의 위치 이동 및 다중화 작업을 진행한다.

김주환 NHN엔터테인먼트 인프라운영 팀장은 “TCC의 네트워크 장애로 인해 많은 이용자 및 고객사의 서비스 이용에 불편을 드린 점, 거듭 사과의 말씀을 드린다”라며 “TCC는 이번 장애를 교훈 삼아 근본적인 장애 가능성을 제거할 수 있는 다각적인 방어 로직과 이상 동작에 대한 대안을 마련하고 있으며, 비용 효율화뿐만 아니라 안정적인 운영을 위한 장비와 OS 도입에도 각별한 관심 갖고 후속 조치를 진행할 예정”이라고 밝혔다.

DevOps 첫걸음: Docker에서 Rancher를 이용한 CD까지

블로터 독자를 위한 특별 할인쿠폰이 발행되었습니다.

네티즌의견(총 1개)