클라우드 오류가 불러온 '사이버 정전', 발생 원인과 교훈은?

#AWS #CSP #IDC #KT클라우드 #LGCNS #구글클라우드 #데이터센터 #마이크로소프트 #사이버정전 #애저 #인터넷데이터센터 #크라우드스트라이크 #클라우드

남시현 sh@itdonga.com

2024.07.23.

[IT동아 남시현 기자] 지난주 금요일, 마이크로소프트의 클라우드 서비스 ‘애저(Azure)’가 일시 중단되며 사이버 정전이 발생했다. 처음에는 애저 저장공간과 서버 연결에 문제가 발생해 클라우드 서비스 자체에 문제가 생겼고, 약 12시간 이상 정전 현상이 지속됐다. 그런 와중에 사이버 공격을 방지하는 크라우드스트라이크(CrowdStrike)의 팰컨 시스템에 결함이 있는 업데이트가 적용됐고, 이 기업의 소프트웨어를 사용하는 기업 중 약 850만 대가 먹통이 됐다.

두 사건이 연달아 겹치며 애저 클라우드 기반으로 동작하는 IT인프라가 계속 정전 상태에 빠졌고, 수천 편의 항공이 지연되거나 물류 및 금융 체계가 먹통이 되는 등 혼란에 빠졌다. 국내에서도 게임사 등을 비롯한 10개 기업이 피해를 입었다. 크라우드스트라이크는 성명을 내고 해당 업데이트는 사이버 공격 및 보안 문제가 아니며, 크라우드스트라이크 팰컨 플랫폼 자체의 손상이 없다고 발표하며 보완이 진행 중이라 밝혔다.

마이크로소프트 애저 클라우드가 다운되며 그중 1%인 850만 대의 PC가 먹통이 되는 사고가 발생했다 / 출처=IT동아

상황 전반이 수습되자 마이크로소프트는 비난의 화살을 유럽연합으로 돌렸다. 보안 독점을 막는다는 이유로 유럽연합이 마이크로소프트 애저의 커널(핵심 관리 체계)에 직접 소프트웨어를 설치할 수 있도록 지시한 점이 문제가 됐다. 또 협정으로 인해 마이크로소프트가 크라우드스트라이크의 업데이트를 차단할 수 없어서 사태가 더 커졌다는 설명이다.

마이크로소프트는 유럽연합과 크라우드스트라이크의 잘못으로 규정하고, 크라우드스트라이크는 장애를 초래한 것에 대해 원론적인 사과만 하고 있다. 해당 문제가 현재 진행형인 까닭에 정확한 피해 금액 산정과 보상 여부는 논의할 단계가 아니다. 그렇다면 왜 클라우드에 문제가 생겼는데, ‘사이버 정전’ 현상이 발생하는 걸까?

안정성 강조하던 ‘클라우드’, 왜 대규모 문제 불러왔나?

클라우드 서비스의 개념을 이해하려면 서버에 대한 개념부터 알아야 한다. IT기반 서비스를 진행하려면 데이터를 저장 및 관리하고, 이를 중개하기 위한 서버가 필요하다. 서버는 서비스를 제공하는 주체가 관리하며, 서비스 규모나 환경에 따라 서버의 크기나 성능도 제각각이다.

초기에는 기업 자체에서 컴퓨터로 서버를 구현하는 게 일반적이었지만, 대규모 IT 서비스가 등장하며 서버의 규모도 컴퓨터 수백에서 수천 대로 구성되는 서버가 등장했다. 때맞춰 통신 기술이 발달하며 고객이 서버를 사내에 구축하는 게 아니라, 서버를 전문적으로 관리하고 네트워크로 연결해 쓰는 형태의 사업이 발달했다.

LG CNS 부산 글로벌 클라우드 데이터 센터와 KT의 목동 IDC 2 센터, 내부에 들어가는 서버는 다르지 않고 관리하는 데이터와 자산의 방식에 따라 클라우드인지 IDC로 보는지가 정해진다 / 출처=LG CNS, KT클라우드

이것이 IDC와 클라우드다. IDC는 인터넷 데이터 센터로 고객이 소유한 서버를 IDC 내에 배치해 관리한다. 클라우드는 클라우드 서비스 제공 기업이 소유한 서버를 고객에게 대여하는 식으로 관리한다. 과거에는 IDC 비중이 높았지만, 지금은 실시간 수요에 맞춰 서버 활용량을 가변하고 데이터 관리를 위한 여러 도구나 최신 보안 등을 쓸 수 있어 클라우드가 시장의 대세로 자리 잡았다.

클라우드는 퍼블릭, 프라이빗, 하이브리드로 나뉜다. 이번에 문제가 된 부분은 퍼블릭 클라우드다 / 출처=마이크로소프트

클라우드는 아마존웹서비스, 마이크로소프트 애저, 구글 클라우드 등 다수의 사용자가 이용할 수 있는 퍼블릭 클라우드와 특정 조직을 위해 운영되는 프라이빗 클라우드, 두 개 환경이 복합적으로 운용되는 하이브리드 클라우드로 나뉜다. 이번에 발생한 문제는 마이크로소프트 애저가 다운되면서 이를 임대해서 서버로 사용하고 있는 기업들의 서비스도 중단된 것이다. 데이터를 저장하거나 중개할 서버가 없어서 서비스가 멈췄다.

클라우드, 대규모 정전 불러왔지만 실제로는 안전한 서비스

기업들이 퍼블릭 클라우드를 사용하는 이유는 자체적으로 서비스를 유지하는 것보다 서비스 안정성이 월등히 높기 때문이다. 클라우드 데이터 센터는 이용자의 위치와 가까우면서, 네트워크 성능이 충분히 높고, 데이터 주권이 확보되고 재해로부터 안전한 지역에 건립된다. 클라우드를 사용하는 기업이 데이터에 접근하고 활용하는 과정은 모두 네트워크로 이뤄진다. 따라서 인터넷 속도도 빠르고 IT 기업이 밀집한 지역일수록 리전이 많다.

글로벌 퍼블릭 클라우드 기업들은 데이터 주권 및 성능 확보를 위해 세계 곳곳에 데이터 센터를 짓고 있다 / 출처=AWS

데이터 주권은 데이터의 물리적 위치를 의미한다. 우리나라만 하더라도 현재 정부 기관에서 외국계 클라우드를 사용할 수 없다. 데이터가 저장되는 위치가 한국이 아닌 해외에 있기 때문이다. 핵심 데이터를 실정법이 닿지 않는 위치에 두는 것 자체에 우려가 생길 수 있다. 미국 기업인 AWS가 인천 서구에 데이터 센터를 짓는 것도 국내 기업뿐만 아니라 데이터 소재를 국내에 둬야 하는 금융 기관 및 기업을 위한 시도다.

마지막으로 물리적 서버의 안정성과 재해 복구의 용이성이다. 한 중견기업이 자체적으로 구축한 서버를 사내에 뒀다고 치자. 별도 관리 인원을 두고 업데이트를 한다고 하더라도 변수가 너무 많다. 어느 날 누전으로 인해 화재가 발생할수도 있고, 누군가가 서랍에 둔 스마트폰이 폭발할수도 있다. 야행성 폭우로 침수되거나 벼락을 맞고 정전될수도 있다. 어떤 조건이든 어떻게든 문제가 될 수 있다.

LG CNS의 데이터센터 화재 및 재해 재난 대책, 실제로는 이보다 훨씬 많은 절차와 대책이 있다 / 출처=LG CNS

반면 데이터 서버는 이를 전문적으로 다루는 곳이다. 천재지변에 최대한 안전한 지역에 짓고, 온습도나 내구성 등도 철저히 관리된다. 화재나 정전, 폭우 등에 대한 대비책도 다 갖춰져 있다. 아무리 전문 기업이 잘 관리하더라도, 처음부터 안정성 하나만을 위해 지은 데이터서버만큼 안전할 수 없다.

또한 데이터는 가용성 영역 등으로 구분돼 중복성 및 내결함성을 갖는다. 서버 하나가 다운되더라도 다른 가용성 영역이 작동하면 사용자의 서버는 정전되지 않는다. 최신 업데이트를 빠르게 적용하는 점, 해외 시장 진출을 위해 해외에 데이터 소재를 두는 등의 접근도 클라우드의 이점이다.

클라우드의 문제보다는 기술적인 오류가 원인

이번 문제는 보안 문제도, 사이버 공격도, 클라우드 서비스의 문제도 아니었다. 하지만 실질적인 피해가 발생한 만큼 관련 대책에 대한 목소리는 커질 전망이다 / 출처=크라우드스트라이크

사이버 정전에 대한 우려가 커지고 있지만, 클라우드의 안정성에 의문을 제기할 필요는 없다. 전산망이 마비되고 곳곳에서 피해가 발생했지만 데이터 서버 자체로 인한 문제는 아니었다. 마이크로소프트 애저의 관리의 문제였고, 크라우드스트라이크의 커널 단위 업데이트가 복합적으로 오류를 일으킨 것이 겹치며 사태가 커졌다.

이번 사태는 기업 입장에서는 하이브리드 클라우드 도입 등 사이버 정전에 대한 최소한의 대비가 필요하다는 교훈을 준다. 클라우드 서비스 제공자들 역시 소비자 불신을 해소하기 위해 노력하고, 동일한 문제를 반복하지 않기 위한 대비책을 마련해야 한다.

글 / IT동아 남시현 (sh@itdonga.com)

#AWS #CSP #IDC #KT클라우드 #LGCNS #구글클라우드 #데이터센터 #마이크로소프트 #사이버정전 #애저 #인터넷데이터센터 #크라우드스트라이크 #클라우드