close

AWS 정전 원인, 알고보니 ‘오타’

가 +
가 -

오타는 때때로 웃기기도 하고 민망하기도 하다. 그리고 가끔은 원치 않는 결과를 초래하기도 한다.

아마존웹서비스(AWS)가 3월2일 (현지시각) S3(Simple Storage Service) 문제 원인이 직원의 ‘오타’에 있었다고 AWS 사이트를 통해 밝혔다.

AWS 문제 원인 요약 메시지

아마존웹서비스(AWS) S3 문제 원인에 대한 메시지. 대응 방안도 함께 이야기했다.

지난 2월28일 (현지시각) AWS의 북부 버지니아 주요 데이터센터 US-EAST-1 리전의 S3에 문제가 생기면서 전세계 인터넷 서버의 3분의 1이 ‘먹통’이 됐다. AWS에 따르면, 처음 S3 담당팀은 S3 서비스 프로세스에 쓰이는 몇몇 서버만 오프라인 시킬 계획이었다. 그러나 이 과정에서 오타를 발견하지 못했고, 그 결과 주요 서버 2개가 모두 오프라인 상태가 돼 버렸다. 두 서버에 연결된 많은 서비스는 통신 연결이 되지 않거나 속도가 기하급수적으로 느려지는 불편을 겪었다.

메시지에서는 아마존이 복구 문제에 대해 준비가 미비했다는 점도 읽을 수 있었다. S3는 수 년 동안 재가동 과정을 시험해 본 적이 없었다. 이전에 대비해보지 못한 과정이었기 때문에 오프라인 된 서버를 다시 온라인으로 재가동하는 데 4시간이라는 시간이 들게 됐다.

AWS는 이런 문제가 다시 일어나지 않도록 ‘세이프가드’시스템이 전부 오프라인으로 다운되는 것을 막기 위한 장치close를 설치하고 복구 시간을 단축하기 위해 업무 우선순위를 조정할 것을 약속했다. AWS는 “이번 일로 고객들에게 미친 영향에 죄송하게 생각한다”라며 “이번 일을 계기로 더 나은 가용성을 만들기 위해 할 수 있는 최선을 다하겠다”라고 덧붙였다.

네티즌의견(총 3개)