KT 광화문 본사. 사진=한국금융신문
이미지 확대보기과학기술정보통신부는 29일 정부종합청사에서 “KT 네트워크 장애 사고는 25일 11시 16분부터 시작돼 DNS 트래픽 증가에 이어 네트워크 장애가 발생했고, 12시 45분경 KT의 복구 조치가 완료돼 약 89분의 서비스 장애가 발생했다”고 밝혔다.
과기부는 작업내역 확인 결과 부산 신규기업용 라우터에 라우팅 설정 명렁어 입력 과정에서 명령어를 마무리하면서 ‘exit’ 명령어를 빠뜨렸다고 설명했다. 부산 신규 기업용 라우터에서 발생한 오류는 부산 백본 라우터를 거쳐 서울 혜화·구로센터 라우터(중앙), 타 지역 백본 라우터, 기타 라우터 순으로 확산되며 30초 만에 전국 단위 통신 장애가 발생하게 됐다.
다만, IPTV 서비스망과 음성전화·문자 서비스망은 인터넷 서비스망과 별도로 구성돼 피해가 적었다.
당초 KT네트워크관제센터는 26일 오전 1시~6시 야간작업을 승인했지만, 작업자가 이를 어기고 낮에 작업을 진행했다. 당시 관리자 없이 KT 협력업체 직원들끼리 작업을 진행했으며, 망 차단을 하지 않은 채로 작업을 진행한 것으로 나타났다.
과기부는 시간대 변경에 대해 “KT측 관리자와 협력업체 직원이 합의한 것으로 안다”며 “야간 작업을 좋아하는 사람은 없기에 주간작업을 한 것으로 파악된다”고 설명했다.
또 스크립트에서 명령어가 누락됐지만, 스크립트 작성 과정과 사전 검증 과정에서 발견하지 못했다.
과기정통부는 “KT에는 네트워크가 차단된 가상 상태에서 오류 여부를 사전에 발견하기 위한 가상 테스트베드가 없었다”며 “또 지역에서 발생한 오류가 전국으로 확산하는 것을 차단할 수 있는 시스템도 부재했다”고 밝혔다.
KT가 사고 초기 원인으로 지목한 디도스(분산서비스거부) 공격은 없는 것으로 확인됐다. 과기부는 다량이 도메인 또는 비정상 도메인을 DNS 서버에 질의하는 ‘시스템 자원 공격’이나 대량의 네트워크 패킷을 DNS 서버에 전송해 서비스 대역폭을 채우는 ‘네트워크 대역폭 공격’ 모두 발견되지 않았다고 발표했다.
라우팅 오류 전파 양상. 자료=과기정통부
단기 대책으로는 통신사를 대상으로 네트워크 작업 체계, 기술적 오류확산 방지체계 등 네트워크 관리 체계 전반을 점검한다. 통신사가 네트워크 작업으로 인한 오류 여부를 사전에 진단할 수 있는 시뮬레이션 시스템을 도입한다.
또 이번 사고의 특징을 반영한 대책으로 주요 통신사가 라우팅 작업을 할 때에는 한 번에 업데이트 되는 경로 정보의 수를 일정 수준 이하로 제한하는 방식도 검토하겠다고 밝혔다. 라우팅 설정 오류에 따른 피해가 전국으로 확산하는 것을 방지하기 위함이다.
중장기 대책으로는 주요통신사업자의 통신장애 대응 모니터링 체계 강화, 네트워크 안정성과 복원력을 높이는 기술개발, 안정적인 망 구조 등 네트워크의 생존성을 확보하기 위한 구조적인 방안을 마련할 계획이다.
KT도 이날 오전 8시부터 10시까지 두 시간동안 긴급 이사회를 열고 통신 장애로 피해를 입은 이들에 대한 보상안을 논의했다. 업계에선 KT가 약관과 관계없이 일괄 보상안을 마련할 것으로 보고 있다. 또 피해 시간이 점심시간에 발생하며 소상공인의 피해가 큰 만큼 이들을 위한 별도의 보상이 있을 것이라는 예상이 나온다.
피해자 신고센터도 운영할 계획이다. 구 대표는 “피해자 신고센터는 과거에도 운영해본 경험이 있어 다음주쯤 빨리 마련할 수 있을 것”이라며 “콜센터를 역추적해 먼저 고객들게 전화를 드릴 수도 있다”고 말했다.
정은경 기자 ek7869@fntimes.com