IT DONGA

[컬럼] 단일 클라우드에 의존하기에는 너무 위험한 시대

이문규

[IT동아]

지난 22일, 글로벌 클라우드 기업인 아마존웹서비스(AWS)에서 발생한 장애로 인해, 국내 일부 고객사의 주요 인터넷 서비스가 마비됐다.

이번 장애로 피해를 입은 업체는 쿠팡, 배민(배달의민족), 야놀자 등 주로 인터넷 서비스 기업이며, 피해 범위는 KB금융, 신한은행, 카카오스탁을 비롯한 금융권에까지 미쳤다.

장애 원인은 AWS 서울 리전에서 발생한 DNS 서버 오류로, 장애 발생 당일 약 2시간 동안 대부분 기업들은 어떤 조치도 취하지 못한 채 AWS 측의 대처를 기다려야 했다. 같은 시간, 즉각 대처에 나서 서비스 정상화에 나서거나, 장애에도 별다른 타격을 입지 않고 서비스 운영을 지속하는 등 대처 방식에서 주목을 끈 기업도 있었다.

지난 22일 아마존웹서비스에 장애가 발생했다

레진코믹스는 클라우드 이중화를 통해 서울 리전 외에도 서버를 구축해 접속 장애를 피할 수 있었으며, 배민은  위기 상황의 자체 대응 매뉴얼을 활용해 서비스를 일부 정상화했다. 아무 조치를 취하지 못한 기업은 주로 AWS에 인프라 하나에 전적으로 의존한 기업들이다.

하나의 업체에 비즈니스 인프라를 전적으로 위탁해 모든 워크로드를 돌리는 건 이와 같은 위기 상황에서 위험도를 높인다. 업체에 문제가 생길 경우를 대비한 '플랜B'가 없기 때문이다. 인프라를 위탁하여 운영하더라도 장애 발생 상황에서 직접적으로 타격을 입는 곳은 고객사인 만큼, 클라우드 제공업체와 긴밀한 커뮤니케이션을 통해 사전에 대응 전략을 수립해야 한다.

현재 많은 기업들이 퍼블릭 클라우드와 프라이빗 클라우드 서버를 함께 사용하는 하이브리드 전략을 채택하고 있으며, 2개 이상의 클라우드 업체를 이용하는 멀티 클라우드에도 관심이 몰리고 있다.

멀티 클라우드는 이번 장애와 같은 위기 상황에 유연하게 대응하고 있고, 다양한 클라우드 서비스의 장점을 서비스 운영 목적에 맞게 활용할 수 있다는 장점이 있다.

공공기관을 비롯한 주요 기업/기관이 활용하는 또 다른 방식은 '이중화'다. 재해복구(DR)를 통해 주 센터에서 재해가 발생할 경우 다른 지역에 위치한 부 센터에서 서비스를 복구하는 방식으로, 장애나 자연재해에도 중단 없이 서비스를 운영할 수 있다.

AWS 사례에서 보듯, 한 업체에 대한 맹목적인 믿음도 한번쯤 고민해 볼 필요가 있다. 클라우드 도입 시 다양한 클라우드 서비스 업체를 비교 대상에 놓고, 기업의 목적에 알맞은 서비스를 채택하는 것이 이상적이지만, 국내 기업들은 주로 유명한 클라우드 업체를 무조건 채택하려는 경향이 있다.

많은 기업들이 컴퓨팅 자원이나 스토리지 등의 한정적인 IaaS 서비스를 사용하기 위해 클라우드를 도입하지만, 이는 글로벌 클라우드 서비스를 활용하기에 썩 좋은 방법이 아니다.

컴퓨팅 자원, 스토리지와 같은 가상화에 필요한 자원은 국내 클라우드 서비스를 이용하는 것과 기술적 혹은 비용적으로 큰 차이가 없다. 커뮤니케이션이나 기술 지원 측면에서 국내 서비스를 이용하는 게 좀더 편리하고 효율적이기도 하다. 맹목적으로 특정 서비스를 채택하면 단일 인프라에 대한 의존도를 심화시킬 뿐만 아니라, IT 인프라의 효율적인 운영 측면에서도 바람직하지 못하다.

이번 장애로 인해 클라우드 기술 자체에 대한 문제가 다시 제기되고 있어 우려가 생긴다. 클라우드와 관련된 여러 문제는 클라우드 서비스 업체 입장에서 지속적인 검토와 개선이 필요한 부분이지만, 운영 주체인 각 기업도 고려해야 할 부분이 적지 않다.

클라우드는 운영 주체의 역량에 따라 비즈니스와 서비스에 날개를 달아줄 수 있지만, 어쩌면 서버호스팅보다 나은 효과를 얻지 못할 수도 있다. 클라우드 도입을 검토 중이거나 이미 도입해 운영하고 있다면, 클라우드의 진정한 가치가 '기업들의 유연하고 탄력적인 IT 자원 활용'에 있다는 사실을 기억하기 바란다.

글 / 가비아 g클라우드개발실 정대원 실장
정리 / IT동아 이문규 (munch@itdonga.com)

이전 다음