2024.05.20 (월)
[CIOCISO매거진 홍상수 기자] 지난 10월 SK 주식회사 C&C 판교 데이터센터 화재로 빚어진 카카오와 네이버 서비스 장애의 복구 시간이 크게 달랐던 이유가 밝혀졌다. 원인은 '서버 이중화' 운영 문제였다.
과학기술정보통신부가 6일 발표한 데이터센터 화재 및 카카오·네이버 등 서비스 장애에 대한 조사 결과를 발표했다. 양사가 모두 SK C&C 데이터센터에 서버를 두고 있었는데도 복구 완료까지 걸린 시간이 최대 수백 배 차이가 났었다.
과기정통부에 따르면 카카오의 주요 서비스가 완벽하게 제공되지는 못했던 시간은 127시간 33분. 네이버의 주요 서비스·기능은 약 20분∼12시간 만에 정상화됐고, 블로그 등 일부 서비스 오류도 약 48시간 내 모두 복구됐다.
카카오는 화재 당시 판교 데이터센터의 서버를 동작상태로, 다른 데이터센터 서버를 대기 상태로 두며 이중화하기는 했지만, 정작 사고가 발생했을 때 대기 중인 서버를 가동하는 데 실패했다. 대기 서버를 동작 상태로 바꿀 권한 관리 기능인 '운영 및 관리 도구'가 다른 데이터센터에 이중화되지 않은 탓이었다.
홍은택 카카오 대표는 서비스 장애 사과 기자회견에서 "주요 데이터와 서비스 응용 프로그램에 대한 이중화 조치는 돼 있었으나, 개발자들의 주요 작업 및 운영 도구가 이중화되지 못했다"고 밝힌 바 있다.
카카오는 애플리케이션과 서비스 플랫폼 관련 이미지와 동영상 송수신 시스템 등 일부 서비스 구성 요소도 이중화하지 못했던 것으로 드러났다.
반면, 네이버는 데이터센터 간 이중화 조치를 잘해 둬 서비스 중단은 발생하지 않았다. 다른 데이터센터로 서비스를 전환하는 과정 등에서 쇼핑과 뉴스 등 일부 기능에만 오류가 발생했다.
현편, 정부는 카카오 등의 데이터센터 임차인에게도 데이터 보호 조치와 보고 의무를 부여하는 '정보통신망 이용촉진 및 정보보호법 개정안'과 부가통신사업자도 사고 발생 시 국가 재난관리 시스템에 따라 대응하라는 '방송통신발전기본법'을 발의, 국회 본회의 통과를 앞두고 있다.