오타는 때때로 웃기기도 하고 민망하기도 하다. 그리고 가끔은 원치 않는 결과를 초래하기도 한다.

아마존웹서비스(AWS)가 3월2일 (현지시각) S3(Simple Storage Service) 문제 원인이 직원의 '오타'에 있었다고 AWS 사이트를 통해 밝혔다.

▲  아마존웹서비스(AWS) S3 문제 원인에 대한 메시지. 대응 방안도 함께 이야기했다.
▲ 아마존웹서비스(AWS) S3 문제 원인에 대한 메시지. 대응 방안도 함께 이야기했다.

지난 2월28일 (현지시각) AWS의 북부 버지니아 주요 데이터센터 US-EAST-1 리전의 S3에 문제가 생기면서 전세계 인터넷 서버의 3분의 1이 '먹통'이 됐다. AWS에 따르면, 처음 S3 담당팀은 S3 서비스 프로세스에 쓰이는 몇몇 서버만 오프라인 시킬 계획이었다. 그러나 이 과정에서 오타를 발견하지 못했고, 그 결과 주요 서버 2개가 모두 오프라인 상태가 돼 버렸다. 두 서버에 연결된 많은 서비스는 통신 연결이 되지 않거나 속도가 기하급수적으로 느려지는 불편을 겪었다.

메시지에서는 아마존이 복구 문제에 대해 준비가 미비했다는 점도 읽을 수 있었다. S3는 수 년 동안 재가동 과정을 시험해 본 적이 없었다. 이전에 대비해보지 못한 과정이었기 때문에 오프라인 된 서버를 다시 온라인으로 재가동하는 데 4시간이라는 시간이 들게 됐다.

AWS는 이런 문제가 다시 일어나지 않도록 [bref desc="시스템이 전부 오프라인으로 다운되는 것을 막기 위한 장치"]'세이프가드'[/bref]를 설치하고 복구 시간을 단축하기 위해 업무 우선순위를 조정할 것을 약속했다. AWS는 "이번 일로 고객들에게 미친 영향에 죄송하게 생각한다"라며 "이번 일을 계기로 더 나은 가용성을 만들기 위해 할 수 있는 최선을 다하겠다"라고 덧붙였다.

저작권자 © 블로터 무단전재 및 재배포 금지