You are on page 1of 1

LostSaga 한국 서비스 장애보고

1. 장애발생
2. 원인파악
3. 1 차 대처
4. 2 차 대처
5. 주말점검
2012-07-16 신영욱

1. 장애발생
: 7 월 12 일 점검 이후 오후 7 시부터 서버에서 장애가 발생함
불특정한 유저에게 렉이 발생하고 서버가 다운되는 현상 발생

2. 원인파악
: 네트워크 코드의 성능 업그레이드에서 발생한 문제로 파악함

3. 1 차 대처
: 장애 최초 발생부터 13 일 새벽 0 시 30 분까지 서버 모니터링을 하였는데 동접자 기준 6
천부터 장애가 발생하지 않아서 다음 날 오전에 기존 코드로 롤백하고 점검하기로 결정하고
오전 9 시 30 분에 점검을 시행함

4. 2 차 대처
: 1 차 점검 이후 문제의 원인이 다른 곳에 있는 것을 파악하여 해당 상황에 대한 테스트
케이스를 만들어서 재현하고 이를 확인 한 후에 새로운 패치를 만들어 서버에 업로드함.
서버가 재시작되면 자동으로 적용이 되도록 하고 운영팀에서 점검 요청이 오면 바로 진행할 수
있도록 함

5. 주말점검
: 토요일 오전 11 시 30 분에 운영팀의 건의로 점검을 진행하기로 결정함
(서버에 렉이 심하다는 운영팀의 보고)
이후 운영팀 내부의 협의가 완료된 후 원격으로 점검을 진행하고 서비스를 정상화 시킴

* 1 차 원인은 개발자의 실수인 것이 확실하고 프로그램 파트에서 이에 대한 원칙 설정을 할


예정입니다.
* 2 차 적으로 문제해결 후 점검을 하기까지의 의견 수렴 및 결정까지 시간 소요가 길어져서
문제를 증폭시킨 것도 장애가 길어진 원인 중의 하나로 보여집니다.

You might also like