[스타트업 리뷰] IT운영 전문가가 평가한 인포플라의 ‘AI장비헬스체크’
[편집자주] 스타트업(start-up)은 특정한 문제를 해결하기 위해서 ‘시작하는’ 기업을 말합니다. 기업의 생사가 걸려있는 만큼 스타트업은 문제에 대한 가장 효율적인 답을 찾으려고 노력합니다. 이들의 고군분투가 낳은 결과가 현재 우리가 향유하는 ‘혁신’이 된 경우가 많습니다.
다만, 대다수의 스타트업이 좋은 기술과 서비스를 보유하고 있음에도 충분히 성장하지 못하고 있습니다. 다양한 원인이 함께 작용한 결과지만, 가장 큰 문제는 좋은 기술이 있어도 이를 사회에 잘 알리지 못한다는 것입니다. 이에 [스타트업리뷰]를 통해 스타트업의 좋은 기술을 접해보고, 이를 어떻게 사용할지 그리고 업계 관계자들의 시선은 어떠한지 시리즈로 전하고자 합니다.
[IT동아 정연호 기자] 10분 뒤의 미래를 예측할 수 있다면 어떨까? 교통사고 같은 한 치 앞에서 발생하는 문제를 피할 수 있을뿐더러, 다가올 사고를 막기 위한 준비도 할 수 있을 것이다. 조직의 시스템을 관리하는 담당자에게 미래를 예측할 수 있는 기회는 응급환자를 살릴 ‘골든타임’과도 같다. 많은 사람이 사용하는 시스템이라면 이러한 골든타임이 더 값지게 느껴질 것이다.
IT운영관리 솔루션 기업 인포플라의 최인묵 대표는 "아이톰스 헬스체크 기능에 AI를 적용해서 시스템 관리자가 시스템 안전의 골든타임을 확보할 수 있게 했다"고 말한다. 아이톰스 AI는 IT장비 CPU, 메모리, 네트워크, 디스크를 모니터링하면서 데이터를 학습하고, 미래에 발생할 문제를 감지할 수 있다고 한다. AI가 문제를 예측하고 IT시스템 관리자에게 이를 전달하면, 관리자는 사고 발생 전 미리 조처를 할 수도 있다는 게 최 대표의 설명이다.
그렇다면, 인포플라의 AI 헬스체크는 실제 IT시스템을 관리하는 현장에서 유용하게 쓸 수 있는 기능일까? 해당 산업 관계자들의 관점에서 솔루션을 뜯어봐야 알 수 있는 내용이다. 이를 확인하기 위해서 기업에서 IT장비를 관리하는 전문가 세 명을 섭외해 아이톰스의 AI헬스체크에 대한 의견을 물었다.
모 쇼핑몰의 IT총괄인 A는 16대 정도의 IT장비만 관리하고 있지만, 이 분야에 오래 있으면서 전문성을 쌓아왔다. 그가 소속된 기업은 오프라인 점포를 운영하다 최근 온라인 사업 확장에 나서는 단계라 아직 관리할 IT장비 규모가 크진 않다. 시스템 통합유지보수업체의 부장 B는 대형 IDC 센터의 운영시스템을 관리하면서 1000여 개의 웹서비스 및 6000대 이상의 서버를 모니터링하고 있다. 모 기업의 네트워크운영팀 총괄 C의 경우엔 30종의 네트워크 설비 6000개, 10종의 보안설비 200개를 담당한다. 인터뷰이의 요청에 따라 본 기사에선 이들의 소속과 이름은 익명으로 표기했다.
IT동아: 모두 IT운영 전문가로서 IT시스템을 관리하는 일을 맡고 있다. IT시스템에 장애가 생기면 대표적으로 어떤 문제가 발생하는지 궁금하다.
쇼핑몰 IT총괄 A: 과거부터 DB 과부하 현상으로 쇼핑몰이 느려지는 일이 있어서 부하를 줄이는 솔루션을 사용하곤 했다. 쇼핑몰 시스템에 장애가 발생하면 상품 주문을 못 하게 되거나, 주문 시간 지체돼 고객의 불편함은 커진다. 이는 매출에 직접적인 타격을 주기 때문에 IT관리자들이 상시로 IT장비를 모니터링하면서 관리한다.
통합유지보수업체 부장 B: 최근 데이터 센터 화재로 카카오 서비스에 장애가 발생했다. 시스템에 문제가 생기면 고객이 서비스 자체를 사용할 수 없게 된다. 시스템에 심각한 문제가 생겼다는 알람을 받을 때 IT관리자라면 누구나 큰 부담을 느끼게 된다. 문제가 발생했을 때 서버 상태를 모니터링하는 SMS, 네트워크 상태를 모니터링하는 NMS가 있어서 바로 조치가 가능하긴 하다. 다만, 여러 서비스에 장애나 지연 현상이 발생했는데 어떤 장비에 문제가 생겼는지 특정할 수 없을 때 부담이 커진다. IT장비를 하나씩 확인해서 어디에 문제가 있는지 봐야 하니 시스템 복구가 지체되기 때문이다.
IT동아: 인포플라는 IT시스템에 발생할 문제를 예측하는 AI를 개발했다고 한다. 이런 예측 기능이 시스템 관리자의 부담을 덜어준다고 생각하나?
통합유지보수업체 부장 B: IT관리자들이 시스템을 매번 꼼꼼하게 모니터링하기는 쉽지 않다. CPU나 메모리는 순간적인 부하로 일시적인 문제가 발생하는 게 잦아서 이에 민감하게 반응하지 않는 관리자도 있다. 이런 상황에선 시스템 장애를 제때 발견하지 못하면 초기 대응도 불가능해져 문제가 커질 수 있다. 예측 기능으로 장애에 대한 경고를 사전에 받는다는 건 대응도 미리 할 수 있다는 뜻이다. 발생한 장애를 탐지하는 솔루션은 이미 있지만, 이를 넘어서 문제를 예측하는 건 큰 기술적인 발전이라고 생각한다.
네트워크운영팀 총괄 C: IT운영 조직에게 가장 중요한 목표는 시스템 장애를 최소화하는 것이다. 특정한 이벤트가 예정돼 있어서 시스템 가용성이 부족하다고 판단하면 시스템을 미리 확장하는 것처럼 말이다. 관리자가 일일이 확인하지 않아도 AI로 장애를 예측할 수 있다면 ‘장애 최소화’라는 목적에 큰 도움이 된다. 업무량이 늘고 있는 IT관리자에겐 더할 나위 없이 좋은 기능이다.
IT동아: 세 사람 모두 아이톰스의 ‘AI 헬스체크’ 기능을 체험해봤는데 이 기능에 대한 평가를 부탁한다.
쇼핑몰 IT총괄 A: 관리하는 IT 장비는 16대 정도지만 관리 작업에 시간이 정말 많이 든다. 아이톰스로 관리 작업을 자동화하면 업무량을 줄일 수 있을 것으로 보인다. 고객이 자동화 시스템을 별도로 구축하지 않아도 된다는 것도 장점이다. 장비의 헬스체크를 위한 기존 로그 분석 솔루션은 서버마다 에이전트를 설치하고, 로그 분석 시스템도 구축해야 했다. 또한, 기존 솔루션은 솔루션 자체도 무거워서 장비 성능에도 영향을 줬는데, AI 헬스체크 기능은 서버 리소스를 많이 사용하지 않아서 사용에 부담이 없다.
통합유지보수업체 부장 B: 아이톰스로 장애를 예측하는 방법은 정말 간단하다. 장비를 등록하고 아이톰스 데이터를 확인하기만 하면 된다. 보기 편하게 장애는 빨간 점으로 표시된다. 최근 IT관리자들이 IT 솔루션의 UI(인터페이스)/UX(이용자경험)에 기대하는 수준이 과거에 비해 크게 높아졌다. 아이톰스 플랫폼에선 다양한 IT운영관리 업무를 자동화할 수 있는데 이는 UI 측면에서 고객들의 기대에 부응하는 발전이라고 생각한다.
기존에는 IT운영관리를 자동화하려면 작업별로 다른 솔루션을 써야 했다. 이렇게 되면 전체 시스템 간 연동, 데이터 공유, 장애 연계 해결이 어렵다. 아이톰스는 하나의 UI에서 자동화 기능을 추가하는 방식이라 자동화 시스템이 모두 연동된다. 기존 방식의 한계를 해결할 수 있는 것이다.
네트워크운영팀 총괄 C: 일반적으로, 자동화 도구를 쓰더라도 고객사의 개발자가 직접 개발을 해야 하는 부분이 있다. 아이톰스는 이러한 개입을 최소화했다는 것이 인상적이다. 다른 기능도 마찬가지지만 헬스체크 기능은 이용이 간편하도록 직관적인 UI로 설계됐는데, 장비 관리자가 아니어도 누구나 쓸 수 있을 정도로 사용법이 쉽다.
IT동아: 미래의 사고를 예측하는 건 이론적으로는 좋은 기술로 느껴지지만, 중요한 건 기술적인 완성도인 것 같다. IT운영 전문가로서 기술의 완성도는 어떻다고 보는가?
쇼핑몰 IT총괄 A: CPU나 메모리 사용량 등 객관적인 수치로 장애를 예측하는 방향은 좋다고 생각한다. 다만, 솔루션이 이제 막 상용화된 단계이니 현장 경험을 더 쌓는 게 필요해 보인다. 현장에서 장애가 발생하는 원인은 CPU나 메모리의 과부하 말고도 더 많고, 여러 요소가 복잡하게 얽힌다. 장애의 전조 현상이 생겼어도 시스템 문제로 이어지지 않고 그냥 사라지는 경우도 많다. 다양한 원인과 케이스를 수집하면서 AI를 학습하면 기술의 완성도가 올라갈 것이다. 현재 많이 쓰고 있는 대부분의 B2B(기업 대상) 솔루션도 이런 과정을 거쳐서 발전했다.
통합유지보수업체 부장 B: 미래의 사고를 예측하는 건 결코 쉬운 일이 아니다. 아이톰스는 미래를 예측할 수 있다는 가능성을 보여줬다는 게 차별화된 지점이다. 지금은 초기 단계이니 완벽하진 않아도 데이터와 경험치가 쌓이면 예측이 정밀해질 것이다. 개별 환경에 맞춤형 학습이 가능하다는 게 AI의 장점이니 이를 잘 활용하면 좋겠다.
네트워크운영팀 총괄 C: AI가 알맞은 답을 하려면 엄청난 양의 데이터와 운영 노하우가 쌓여야 한다. 아이톰스는 데이터와 경험을 더 쌓아야 하기 때문에 완벽한 예측은 시간이 더 필요하다고 생각한다. 가야 할 길이 멀다고 할 수 있지만, 진행 과정을 보면 다른 솔루션보다 빠르게 진화하는 것이라고 본다.
IT동아: 마지막으로, 서비스가 개선되려면 어떤 부분에서 변화가 필요하다고 생각하는지 궁금하다.
쇼핑몰 IT총괄 A: 두 가지 정도가 있다. 첫째는 사고가 발생했을 때 담당자에게 알람을 보내주는 기능이다. 앞으로 이 기능이 생길 것이라고 듣긴 했다. ‘CPU 사용량이 90%를 넘을 때 스마트폰으로 문자를 받는다’처럼 개인이 알람 방식을 직접 설정할 수 있으면 더 편할 것이다. 두 번째는 보안과 관련된 기능이다. 저녁 9시 이후로 시스템을 사용할 사람이 없는데 누군가 IT장비에 접근을 했다고 해보자. 이럴 때 담당자에게 RPA(로봇프로세스자동화)가 알람을 보내주면 보안을 유지하는 데 도움이 될 것이다.
통합유지보수업체 부장 B: 현재는 헬스체크 기능을 통해서 장비의 운영상태를 확인할 수 있다. 여기에 RPA를 더해서 IT장비 관리 업무를 더 발전시킬 수 있을 것이다. 자주 발생하는 장애의 경우, 문제를 탐지한 뒤 RPA를 접목해 대처까지 자동화할 수 있다면 이용자 만족도가 크게 올라갈 것이다.
네트워크운영팀 총괄 C: IT운영관리 자동화는 스크립트를 작성해야 하는데, 인포플라에서 제공하는 것 외에도 개별 기업이 아이톰스에서 자동화 스크립트를 작성할 수 있다고 들었다. 이러한 스크립트가 플랫폼에서 공유된다면 아이톰스 생태계가 탄탄해질 것이다.
글 / IT동아 정연호 (hoho@itdonga.com)