1월 25일(금) 구글서비스 장애 안내, 그리고 구글앱스 SLA

한국시간으로 지난 1월 25일 토요일 새벽 4시 경부터 약 30여분 간 Gmail을 비롯한 몇몇 구글 서비스에 장애가 있었습니다.

장애범위는 미국, 유럽, 캐나다, 인도 일부 지역이며, 구글 측에서는 장애발생 후 조치완료된 날 저녁에 공식 블로그를 통해 사과문과 세부내용을 포스팅했습니다.

장애 관련 구글 측 발표 내용

위 발표 내용에 보면 세부적인 원인에 대해서 설명이 되어 있는데 이를 간단히 옮겨보면,

1. 장애관련 사과문

금일 오전, 구글 서비스 사용자 중 일부가 서비스에 접속하는데 장애를 겪었으며 장애시간은 대략 25분 정도였습니다. 전체 구글서비스 사용자 중 약 10%는 30분 이상의 장애를 겪었습니다. 이 장애가 잠시 나타났다가 사라진 사용자도 있을 것이고 오래 지속된 사용자도 있을 것입니다. 이에 머리숙여 사과드립니다.

우리는 여러분들을 위해 구글 서비스가 보다 안정적이고 빠른 시스템이 될 수 있도록 항상 노력해왔지만 오늘 그 임무를 잠시 놓쳤습니다.

서비스는 무사히 복구되었습니다. 우리는 장애를 일으켰던 버그를 수정하는데 최선을 다하였으며, 동일한 장애가 발생하지 않도록 모니터링을 보다 강화하고 입력체크 기능을 보강하였습니다. 금번 장애의 기술적인 내용이 궁금하신 분들은 아래 내용을 참조하시기 바랍니다.

2. 장애원인

1월 24일 금요일 오전 10:55 (PST, 한국시간 1월 25일 토요일오전 3:55)

– 내부 시스템 중에 시스템 configuration을 생성하여 타 시스템에 작업지시를 하는 시스템이 있는데 이 시스템에서 잘못된 configuration이 발생, 약 15분 간 타 시스템으로 전송됨. 이로 인해 시스템이 사용자의 요청을 거부하게 되었으며 이로 인해 오류가 순차적으로 나타남.

 

1월 24일 금요일 오전 11:02 (PST, 한국시간 1월 25일 토요일오전 4:02)

– 이 문제의 영향권하에 있던 사용자들은 오류 화면을 접하기 시작했으며 구글 내부 시스템 모니터링 팀은 구글 시스템 안정화 팀 (Site Reliability’ team)에 장애 사실을 통보함.

 

1월 24일 금요일 오전 11:14 (PST, 한국시간 1월 25일 토요일오전 4:14)

– 시스템 자체적으로 잘못된 configuration을 제거하였으며 올바른 configuration을 생성하여 오류 시스템으로 전송하기 시작함. 이때부터 오류가 신속히 제거되기 시작함.

 

1월 24일 금요일오전 11:30 (PST, 한국시간 1월 25일 토요일오전 4:30)

올바른 configuration이 시스템에 올바로 적용되었으며 거의 모든 사용자의 서비스가 복구됨.

3. 추후 대응안

  1. 재발을 방지 하도록 시스템 configuration 생성 부분을 수정할 것이며 유사한 버그가 없도록 해당 시스템을 모두 검사할 것임
  2. 문제가 되었던 시스템 configuration 생성기에 입력값 유효성을 체크하는 기능을 추가하여 잘못된 configuration으로 인해 다시는 서비스 중단이 일어나지 않도록 조치.
  3. 보다 신속하게 서비스 장애를 진단할 수 있는 모니터링 시스템을 추가보완.

 

이번 장애는 비교적 신속하게 복구된 것으로 보입니다. 다만 장애 영향권에는 Google Apps 사용자도 포함되어 있습니다.

구글 공식 블로그에는 많은 코멘트가 달렸는데,

– “구글의 서비스는 높은 품질의 무료 서비스다. 무엇을 더 바라는가?” ( You get a free, high quality services. What more can you ask?)

라 말하는 사용자도 있는 반면 구글앱스 관리자라고 밝힌 한 사용자는,

– 사실이다. 하지만 난 회사의 시스템 관리자며 우리 회사는 돈내고 쓰는 구글앱스를 사용하고 있다. 업무 시간에 돈내고 사용하는 서비스가 중단되는 것은 골치아픈 일이다.” ( Very true, but I am the administrator for our company which pays for Google Apps. It is a frustrating point when you are paying for services that go down during a business day.) 고 말합니다.

지금 구글 서비스는 퀄리티 높은 서비스이며 개인은 무료입니다. 하지만 이것이 돈을 지불하는 유료 서비스가 되면 이야기가 완전히 달라지게 됩니다. 비용에 상응하는 가치를 제공해야함은 물론이며 기업용 서비스인 만큼 안정성을 담보하지 않고서는 어려울 수 있다는 것이죠.

그래서 구글에서는 SLA (Service Level Agreement)라는 서비스 안정을 보장하는 계약을 앞에 내걸었습니다. 즉 제공하는 서비스가 최소한도로 보장하는 수준을 명시하며 그에 미치지 못했을 경우 보상을 하는 것입니다.

구글에서는 구글앱스의 안정성을 99.9% uptime 보장으로 출시하였습니다. 쉽게 말하면,

우리는 구글앱스의 연간 가동률을 99.9% 보장하겠습니다. 1년 동안 시스템 uptime이 99.9% 이하라면 그에 준하는 보상을 하겠습니다.

구글은 그 약속을 지키려 많은 노력을 하였고 2010년 Gmail uptime 실적을 99.984%로 발표하였습니다.

– 관련링크 : 구글 공식 블로그 발표내용

참고로 99.9%의 업타임은 연간 8시간이 조금 넘는 수준의 다운타임이며 99.984%의 가동률은 연간 다운타임이 1.4시간 정도를 말합니다.

금번 장애로 저희 구글앱스 고객사분들께도 영향이 있었기에 SLA관련내용을 조금 부연했습니다. 장애시간은 SLA에 영향을 줄 정도는 아니었지만 1월 이라는 시기가 조금 부담되지는 않을까 개인적으로 생각해 봅니다.

 물론 메일시스템을 자체적으로 구축해서 사용하는 On-Premise 시스템(IBM Domino®, Microsoft Exchange®, 기타 자체적으로 구축하는 메일 서비스)에 비하면 그 안정성은 수십 배 더 뛰어납니다만 5억 명에 육박하는 사용자를 가지고 있는 Gmail인 만큼 장애가 발생하면 그 여파는 상당히 큰 듯 합니다.

장애는 발생할 수 있는 것이지만 동일한 문제를 되풀이 하지만 않았으면 하는 바램입니다.