[스타트업 리뷰] IT장비의 사고를 AI로 예방한다, 인포플라 아이톰스의 장비헬스체크
[편집자주] 스타트업(start-up)은 특정한 문제를 해결하기 위해서 ‘시작하는’ 기업을 말합니다. 기업의 생사가 걸려있는 만큼 스타트업은 문제에 대한 가장 효율적인 답을 찾으려고 노력합니다. 이들의 고군분투가 낳은 결과가 현재 우리가 향유하는 ‘혁신’이 된 경우가 많습니다.
다만, 대다수의 스타트업이 좋은 기술과 서비스를 보유하고 있음에도 충분히 성장하지 못하고 있습니다. 다양한 원인이 함께 작용한 결과지만, 가장 큰 문제는 좋은 기술이 있어도 이를 사회에 잘 알리지 못한다는 것입니다. 이에 [스타트업리뷰]를 통해 스타트업의 좋은 기술을 접해보고, 이를 어떻게 사용할지 그리고 업계 관계자들의 시선은 어떠한지 시리즈로 전하고자 합니다.
[IT동아 정연호 기자] 이번 [스타트업 리뷰]로 소개할 기업은 IT운영관리 자동화 솔루션을 개발한 인포플라이다. 인포플라의 ‘아이톰스(ITOMS)’는 장비의 헬스체크, 비밀번호 변경, 웹 서비스 모니터링 등의 작업을 자동화하는 SaaS(클라우드 기반 구독형 소프트웨어) 솔루션이다. 여기에 인공지능(이하 AI)을 적용했기 때문에 IT장비에 발생할 문제를 예측해 선제적으로 대응할 수 있다는 게 솔루션의 강점이다.
아이톰스는 IT운영관리 작업의 페인포인트(고객이 불편함을 느끼는 지점)인 ‘업무 자동화가 어렵다는 점’에서 시작된 솔루션이다. 현대 IT기술의 최정점에 있는 것이 AI를 통한 자동화인데, 이에 반해 IT시스템을 관리하는 방식은 대부분 인력 베이스로 진행된다. 대표적인 업무 중 하나인 데이터 백업조차도 새벽 시간대에 IT관리자가 회사에 출근해서 작업을 진행하는 게 현실이다.
그렇기 때문에, 많은 기업이 IT장비를 관리하는 작업도 자동화하기를 원했다. 다만, 지금까지는 시장에 IT운영관리 작업에 특화된 자동화 솔루션이 없었다는 게 업계 관계자들의 설명이다. 이는 IT장비 관리에 전문성을 갖춘 인포플라가 자동화와 AI를 함께 적용한 ‘아이톰스’를 만들게 된 배경이다. 인포플라의 최인묵 대표는 “AI를 통해서 업무 중 사람이 저지르는 실수를 줄일 수 있고, 업무 데이터를 학습해 작업 효율성을 계속 향상시킬 수 있다”고 설명한다.
앞으로 IT장비를 관리하는 역량은 더욱더 중요해질 전망이다. 사람들의 일상이 디지털로 전환되면서 서비스를 안정적으로 전달하는 게 기업의 핵심 경쟁력으로 떠올랐기 때문. IT장비의 CPU나 메모리에 과부하가 생겼을 때 기업이 빠르게 대응하지 못한다고 해보자. 서비스 먹통이 잦아지면 고객 만족도는 떨어지고, 이탈 고객도 늘어날 수밖에 없다.
기업들은 이러한 과부하 문제를 장비의 상태를 점검하는 헬스체크 솔루션으로 대응하고 있다. 최 대표는 “다만, 대부분의 솔루션은 미래의 사고를 예측하는 기능까지 제공하진 않는다. 모니터링 데이터를 보고 과거에 발생한 문제를 확인해 이를 해결하는 것이다. 아이톰스는 현재부터 약 1시간 동안 발생할 수 있는 사고들을 예측할 수 있다”고 설명한다.
아이톰스의 헬스체크 기능은 장비의 CPU, 메모리, 네트워크, 디스크 등을 모니터링하는 것과 더불어 AI로 각 항목에서 과부하가 발생하는 것을 예측한다. 이렇게 발생할 수 있는 문제를 미리 발견하면 IT관리자들이 사고에 선제적으로 대응할 수 있다. 헬스체크 기능은 아이톰스에 IT장비를 등록하고, 장비에 전용 에이전트 프로그램을 설치하면 사용이 가능하다. 관련된 내용은 오른쪽 상단에 있는 물음표 표시를 누르면 뜨는 ‘아이톰스 가이드’에서 확인할 수 있다.
CPU, 메모리, 디스크, 네트워크 상태는 당장 소비자가 이용하는 서비스 품질에 직결된다. 가령, CPU가 과부하되면 장비에서 돌아가던 웹페이지나 앱이 정상적으로 작동하지 않게 된다. 메모리 사용량도 정상 범위를 넘어서면 장비 속도는 느려진다. 네트워크 트래픽이 과부하되면 스트리밍 서비스가 끊기는 것처럼 인터넷 프로그램 작동이 잘 안되고, 디스크 사용량도 과부하가 발생하면 장비 속도가 느려진다.
매번 일정한 리소스만 사용하는 이 항목들의 이상징후를 미리 발견하고 대응할 수 있다면, 기업은 서비스 품질을 안정적으로 유지할 수 있다. 최 대표는 “장비가 디도스(DDoS)에 공격을 당하면, 네트워크와 디스크 사용량이 갑자기 늘어난다. 이런 징후도 초기부터 발견하면 IT관리자들은 이를 빠르게 해결할 수 있다”고 전했다.
위 사진은 아이톰스에 등록한 테스트용 장비의 CPU와 메모리 데이터다. 왼쪽이 과거 1시간 동안의 데이터라면 오른쪽은 AI가 예측한 미래 데이터다. 아이톰스는 CPU, 메모리, 디스크, 네트워크 영역에서 최대 1시간까지 미래를 예측할 수 있다고 한다. CPU 예측데이터를 보면 11시부터 11시 10분 사이에 빨간 점이 세 개 찍혀 있다. 이는 AI가 장애 발생을 예측한 지점을 뜻한다. 각 항목별 예측데이터는 1분마다 갱신된다.
장비의 사고 예측이 가능한 이유는 IT장비의 CPU, 메모리, 디스크, 네트워크 사용량은 대체로 일정한 상태로 유지되기 때문. IT장비 데이터를 학습한 AI는 CPU 사용량 3%를 유지했던 장비가 갑자기 10%로 올라갈 때 나타나는 단서를 발견할 수 있다고 한다. 현재 PC버전 외에도 모바일 앱으로도 아이톰스 헬스체크 데이터를 확인할 수 있다. 다만, 아직 문제를 예측했을 때 알림을 보내는 기능은 없어 조만간 추가될 예정이다.
그렇다면, AI가 적용된 헬스체크 기능이 장비 성능에 영향을 주진 않을까? 이에 최 대표는 “아이톰스 AI는 IT장비 CPU의 여러 코어 중 하나의 코어에서만 최대 5% 정도를 쓴다. AI 예측 기능을 해제할 수도 있는데, 고객들은 CPU의 코어 하나에서만 5% 정도는 쓰는 것에 문제가 없다면서 예측 기능을 쓰려고 한다”고 답했다.
아이톰스 AI는 특정 장비만의 데이터를 학습하는 방식을 취한다. IT장비마다 리소스 사용 패턴이 달라서 여러 장비의 데이터를 통합하지 않아도 되며, 개별 장비에 맞춰 AI 학습이 가능하다. 이때, 각 장비의 오래전 데이터보단 최근의 데이터와 실시간 데이터가 장비의 미래를 예측할 때 더 중요하다. 학습 시 최신 데이터에 더 큰 비중을 주고, 과거 데이터 비중은 줄이기 때문에 CPU를 적게 사용한다는 게 최 대표의 설명이다.
또한, 아이톰스에 등록된 IT장비라면 어떤 프로그램이 CPU와 메모리를 많이 사용하는지 위 사진처럼 확인이 가능하다. TOP10 표를 보면서 평소와 달리 지나치게 많은 리소스를 사용하는 프로그램이 있다면 조처를 하면 되는 것이다.
테스트 계정에 등록된 IT장비는 총 16개. 기존에는 각 장비의 프로그램별 CPU나 메모리 사용량을 보려면 장비를 하나씩 개별적으로 확인해야 했다. 이러한 불편함을 줄이기 위해서 아이톰스 홈페이지에서 등록된 IT장비의 프로그램별 리소스 사용 내역을 한 번에 볼 수 있도록 했다.
인포플라는 RPA(로봇프로세스자동화) ‘알파카’를 제작했는데, 앞으로 AI가 장비 문제를 예측했을 때 사람이 대응하는 걸 자동화할 때도 활용할 계획이라고 한다. IT장비에 문제가 발생하면 IT관리자는 이에 대한 원인을 분석하고 문제를 해결한다. 이런 과정이 모두 데이터로 쌓이면 문제와 해결책을 유형화해 학습하고 RPA로 자동화할 수 있다는 것. 최 대표는 "인포플라가 자체 개발한 SaaS 솔루션인 알파카는 사용 시 관련 인프라 설치를 비롯한 RPA 라이선스 비용을 별도로 청구하지 않는다"고 말했다.
인포플라 아이톰스의 헬스체크 기능은 IT장비를 점검하는 기존 솔루션에서 더 나아가 사고를 예방하는 기능까지 추가됐다. 그렇다면, 이러한 기능은 실제로 얼마나 유용할까? 좋은 기능이 존재하는 것과 이용자들이 이를 얼마나 쉽고, 유용하게 쓸 수 있는지는 다른 문제다. 다음 기사에선 IT운영관리 업계 관계자 세 명이 아이톰스를 평가한 내용을 다룰 예정이다. 업계 관계자들의 시선에서 헬스체크에 적용된 AI가 어떤 지점에서 유용하고, 기존 솔루션과 차별성이 있는지 등을 다룬다.
글 / IT동아 정연호 (hoho@itdonga.com)