Professional Documents
Culture Documents
1. 장애발생
2. 원인파악
3. 1 차 대처
4. 2 차 대처
5. 주말점검
2012-07-16 신영욱
1. 장애발생
: 7 월 12 일 점검 이후 오후 7 시부터 서버에서 장애가 발생함
불특정한 유저에게 렉이 발생하고 서버가 다운되는 현상 발생
2. 원인파악
: 네트워크 코드의 성능 업그레이드에서 발생한 문제로 파악함
3. 1 차 대처
: 장애 최초 발생부터 13 일 새벽 0 시 30 분까지 서버 모니터링을 하였는데 동접자 기준 6
천부터 장애가 발생하지 않아서 다음 날 오전에 기존 코드로 롤백하고 점검하기로 결정하고
오전 9 시 30 분에 점검을 시행함
4. 2 차 대처
: 1 차 점검 이후 문제의 원인이 다른 곳에 있는 것을 파악하여 해당 상황에 대한 테스트
케이스를 만들어서 재현하고 이를 확인 한 후에 새로운 패치를 만들어 서버에 업로드함.
서버가 재시작되면 자동으로 적용이 되도록 하고 운영팀에서 점검 요청이 오면 바로 진행할 수
있도록 함
5. 주말점검
: 토요일 오전 11 시 30 분에 운영팀의 건의로 점검을 진행하기로 결정함
(서버에 렉이 심하다는 운영팀의 보고)
이후 운영팀 내부의 협의가 완료된 후 원격으로 점검을 진행하고 서비스를 정상화 시킴