인터넷 장애가 국가 대혼란을 야기하는 시대, 어떻게 대비해야 하나

이문규 munch@itdonga.com

[IT동아]

지난 10월 전국을 마비시킨 인터넷/통신 장애로 일상에서 발생한 피해는 생각보다 막심했다. 상점 내 카드 결제 불가로 고객들은 발길을 돌리는 한편 온라인 중간고사 시험을 실시하던 대학에선 시험이 중단됐다. 생명과 건강을 다루는 병원에서도 국민건강보험공단 서비스 접속 불가로 환자 진료에 차질을 빚기도 했다.

장애 발생 대상인 KT는 사고 직후 '대규모 분산서비스거부공격(DDoS, Distributed Denial of Service attack)'을 그 원인으로 발표했지만, 약 2시간 만에 '네트워크 설정 오류'로 원인을 번복했다. 네트워크 장비의 설정을 잘못했거나, 그에 오류가 발생했다는 말이다. KT 기업망 라우터 교체 작업 중 작업자가 설정 명령을 잘못 입력해 발생한, 그야말로 총체적인 '인재(人災)'였음이 과학기술정보통신부의 정책브리핑을 통해 밝혀졌다.

이번 장애 사고를 계기로 장애 재발을 우려하는 목소리가 나오고 있다. 특히 코로나19 대유행으로 이제 일상의 대부분이 오프라인에서 온라인으로 이전되어, 단 1분 간의 접속 장애라도 개인 또는 기업, 국가 전반에 미치는 피해가 대단히 크기 때문이다.

출처=가비아
출처=가비아

앱 접속 장애부터 웹사이트, 블로그, 뉴스 마비까지

최근 디지털 전환의 시류에 맞물려 기업의 경우 자체 운영하던 IT 인프라를 외부에 맡기는 클라우드 전환이 가속화되고 있어, 이후 발생하는 전산 대란은 이런 기업에 있어 현실적인 두려움으로 다가온다. 인터넷/통신이 끊기면 처리할 수 있는 업무가 거의 없기 때문이다.

인프라 제공 업체의 장애로 인한 피해는 고스란히 해당 고객사에게 돌아간다. 지난 2018년 발생한 AWS(아마존웹서비스)의 대규모 접속 장애는 대표적인 IT 인프라 재해로 꼽힌다. AWS의 서울 지역(region) 컴퓨트 클라우드의 DNS 오류로 여러 국내 기업의 서비스가 중단되는 사태가 빚어졌다. 수 많은 이용자가 접속하는 기업 서비스가 오전 내내 접속 불가 문제를 겪으며 이용자의 원성을 사야 했다. (DNS: Domain Name Server, 웹사이트의 IP주소와 도메인 주소를 이어주는 서비스 혹은 그 역할을 하는 서버)

2019년에 발생한 클라우드 서비스 업체 패스틀리(Fastly)의 CDN 장애 역시 상당한 파급력을 남겼다. 유명 언론사부터 해외 주요 웹사이트까지 마비되어 접속이 불가능했기 때문이다. 한 글로벌 시장조사 업체(Kantar)는 해당 접속 장애로 입은 손실액이 시간당 2,900만 달러(한화 약 340억 원)에 달한다고 추정했다. (CDN: Contents Delivery Network, 대용량 콘텐츠를 인터넷으로 안정적으로 전송하는 서비스)

출처=동아DB
출처=동아DB

이처럼 인프라 제공 업체의 장애는 다른 기업(고객사)의 비즈니스에 연쇄 작용을 야기한다. 서비스를 이용하는 최종 이용자(End-user)는 장애 원인이 개별 서비스 제공업체에 있는지, 이용 중인 인프라 탓인지 알 수 없으니 인프라 위에서 비즈니스를 운영하는 고객 기업에게만 비난의 화살이 향하곤 한다.

가트너(Gartner) 조사에 따르면, 'IT 다운타임(IT 시스템을 이용할 수 없는 시간)'의 평균 비용은 분당 한화 약 665만 원($5,600)에 달하며, 은행이나 온라인 거래와 같이 민감한 데이터를 다루는 환경이라면 피해 비용은 최대 한화 약 6억 4,000만 원($540,000)에 달하는 것으로 나타났다. 금전적 손실 외에 브랜드 이미지 하락 및 신뢰도 급감 등 장기적으로 이어지는 기업의 손실까지 더하면 피해 규모는 기하급수적으로 늘어난다.

망 이원화 구축하면 네트워크 장애에 유연 대처

네트워크 장애로 인한 사회/경제적 혼란이 점점 커지자, 이에 대비하려는 움직임도 활발하다. 이에 최근 국내에서는 '통신망 이원화'가 장애 대응책으로 급부상하고 있다. 통신망 이원화(이중화)는 통신 서비스의 주 회선 이외에 별도의 (다른 통신사의) 보조 회선을 구축하는 것이다. 그러면 한 통신사 서비스에 장애가 발생해도 다른 통신사 망을 대신 사용해 서비스를 이어갈 수 있다.

실제로 KT 사태 발생 당시, 주 회선과 보조 회선을 모두 KT를 통해 연결된 경찰청은 112 신고 시스템을 운영할 수 없었다. 이에 비해 통신망 이원화를 구축한 소방서의 경우 이때 서비스 중단을 피할 수 있었다. 이처럼 통신망을 다원화하면 통신 장애에도 사업 연속성을 유지할 수 있다. 통신망 이원화의 효과가 입증되자, 정치권에서는 지난 2019년, '경찰·소방·금융기관 망 이원화'를 의무화하는 전자정부법/전자금융거래법 일부개정법률안을 발의하기도 했다.

시스템 장애 대응을 위한 네 가지 방안

통신사 이원화 외에 기업 시스템의 가용성을 극대화할 수 있는 네 가지 예방책이 있다. 이들 예방책은 장애 발생 시 데이터를 저장, 복구하는 역할을 수행한다는 점에서 서로 유사하다. 하지만 각 예방책 별로 세부 기능과 목적은 저마다 다르다. 때문에 내부 상황에 따라, 하나 이상의 장애 대응 시스템을 도입할 필요가 있다.

첫째, 고가용성 시스템(High Availability, HA)이다. IT 분야에서 고가용성이란 '오랜 시간 지속적으로 운영할 있는 시스템', 즉 '절대 멈추지 않음'을 뜻한다. 물론 실제로 HA도 완전 무결한 시스템은 아니지만, 99.99% 수준까지 시스템을 사용할 수 있도록 설계된 정책이다.

HA의 핵심은 여러 대의 서버를 구축해 장애 발생 시 서로를 대체하도록 구성함에 있다. HA는 여러 서버를 클러스터로 연동시킨 후, 서버 한 대가 작동하지 않으면 다른 서버가 대신 작업을 수행하게 된다. 클러스터로 묶인 여러 서버가 실시간 100% 동일한 데이터를 공유(동기화)하고 있기에 가능하다. 일반적으로, 장애 감지부터 서비스를 재개하기까지 1분 정도 걸린다.

둘째, 무중단 시스템(Falut Tolerant, FT)으로, HA보다 더욱 강력한 가용성을 제공한다. HA는 장애 발생 시 1분 남짓한 가동 중지가 발생할 수 있다. 하지만 FT는 가동 중지 시간 '0'을 보장한다. 여러 시스템을 동시에 운영하여, 한쪽 시스템이 마비될 경우 다른 시스템이 단독으로 서비스를 이어가도록 설계됐기 때문이다. 이는 단 1초의 서비스 중지도 있어서는 안되는 금융, 증권 분야에서 사용하는 시스템이다.

출처=셔터스톡
출처=셔터스톡

셋째, 재해복구 시스템(Disaster Recovery, DR)은 기업의 IT 설비 전반에 문제가 생겨 기본 시스템을 작동할 수 없을 때, 원격지에 있는 별도의 DR 센터가 서비스를 다시 정상 상태로 복구시키는 시스템이다. 기업의 주요 데이터를 원격지 서버에 지속 복제하는 방식으로 재난에 대응하는 것이다.

DR은 HA나 FT를 포괄하는 상위의 대응책으로, HA나 FA가 CPU, 서버 등 IT 자원의 특성 요소를 복구하는 것과 달리, DR은 IT 설비 전체의 오류에 대처하는 정책이다. 실제로 세계적인 금융기업인 모건 스탠리는 9.11.테러 때 본사가 입주한 세계무역센터가 붕괴하는 재난을 맞았다. 하지만 그전부터 DR을 차곡차곡 구축했기에, 세계무역센터 입주사 중 유일하게 사건 발생 후 24시간 만에 본사를 제외한 해외 모든 서비스를 정상화했다.

마지막으로, 백업은 주기적으로 데이터를 저장/보관하는 장애 대응 정책이다. 백업은 앞선 3단계의 대응책과는 달리 복구 시간이 오래 걸린다. 복구 시간이 길더라도, 과거 데이터를 안전하게 보존하는 것이 중요한 기업에게 적절한 정책이라 할 수 있다.

인프라의 본질은 집중화가 아닌 '분산화'

관련 전문가들은 KT 사태 같은 네트워크 장애가 언제든 다시 발생할 수 있다고 경고한다. 인재이긴 하지만, 적지 않은 IT 인프라 제공업체가 여전히 제대로 된 이원화/이중화 시스템을 사전 구축하지 않은 탓도 분명 있다.

이에 관해 가비아 호스팅 사업 이태석 총괄이사는, "IT 인프라 업체의 장애는 고객 기업의 존폐에도 영향을 미치는 크나큰 일이니, 인프라 서비스 제공 업체는 사안의 중대함을 자각하고 발생 가능한 다양한 장애 사례를 사전에 정의해 분산화, 이원화 등의 대비책을 상시 마련해야 한다"라고 강조했다.

인프라의 분산화 및 이원화가 현재로서는 유일한 대비책이라는 데 업계의 견해가 일치한다. 디지털 전환 트렌드로 외부의 IT 인프라에 대한 의존도가 높아지는 만큼 기업 스스로가 잠재 위험을 최소화할 수 있는 대비책을 갖춰놔야 한다. 소를 잃으면 외양간은 존재 이유가 없어진다.

글 / IT동아 이문규 (munch@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.