IT운영전문가가 본 인포플라의 ‘웹장애 모니터링’[스타트업 리뷰]

정연호 hoho@itdonga.com

[편집자주] 스타트업(start-up)은 특정한 문제를 해결하기 위해서 ‘시작하는’ 기업을 말합니다. 기업의 생사가 걸려있는 만큼 스타트업은 문제에 대한 가장 효율적인 답을 찾으려고 노력합니다. 이들의 고군분투가 낳은 결과가 현재 우리가 향유하는 ‘혁신’이 된 경우가 많습니다.

다만, 대다수의 스타트업이 좋은 기술과 서비스를 보유하고 있음에도 충분히 성장하지 못하고 있습니다. 다양한 원인이 함께 작용한 결과지만, 가장 큰 문제는 좋은 기술이 있어도 이를 사회에 잘 알리지 못한다는 것입니다. 이에 [스타트업리뷰]를 통해 스타트업의 좋은 기술을 접해보고, 이를 어떻게 사용할지 그리고 업계 관계자들의 시선은 어떠한지 시리즈로 전하고자 합니다.

[IT동아 정연호 기자] 사람들이 사용하는 웹, 앱의 서비스는 종종 장애 때문에 멈춘다. IT관리자들은 문제를 빠르게 찾아내기 위해서 장애 모니터링 솔루션을 사용하지만, 모든 장애를 신속하게 해결하지는 못한다. 이러한 모니터링 솔루션으로 발견할 수 있는 장애가 한정돼 있기 때문이다.

그래서, IT관리자들은 장애 모니터링 솔루션을 사용하더라도 웹 페이지, 앱에 수시로 접속해 문제가 있는지 확인해야 한다. 다만, 이들은 다른 중요한 IT운영관리 작업을 해야 하기 때문에, 장애 모니터링에 많은 시간을 쓰지 못한다는 것이 문제다.

이를 해결하기 위해서, IT운영관리 솔루션을 만드는 스타트업 인포플라는 RPA(로봇프로세스자동화)를 활용해 ‘웹 장애 모니터링’ 기술을 개발했다. RPA는 사람이 하는 일을 자동화하는 기술이다. 직접 웹 페이지에 접속해 ‘로그인’, ‘상품구매’ 등의 기능을 누른 뒤, 이들이 제대로 작동하는지를 확인할 수 있다. 장애를 발견하면, IT관리자에게 알림을 통해 알린다.

RPA는 사람처럼 홈페이지(옥션)의 '로그인' 메뉴를 누를 수 있다, 출처=IT동아
RPA는 사람처럼 홈페이지(옥션)의 '로그인' 메뉴를 누를 수 있다, 출처=IT동아

인포플라의 최인묵 대표는 “웹 페이지의 메뉴를 눌렀을 때 다음 페이지로 넘어가는 시간이 오래 걸리거나, ‘오류코드:400’이 뜨면서 페이지 연결이 안 되는 경우가 있다. 기존의 장애 모니터링 솔루션은 이런 장애를 발견하지 못한다. 사람이나 RPA가 직접 웹 페이지의 서비스들이 잘 작동하는지 확인해야 한다.”고 설명했다.

웹 페이지에 전송된 요청이 수행되지 않는 장애 오류코드:400, 출처=구글
웹 페이지에 전송된 요청이 수행되지 않는 장애 오류코드:400, 출처=구글

이러한 기술의 유용함은 현장의 문제를 얼마나 잘 해결하는지를 통해서 평가할 수 있다. 그래서, 기업의 IT관리자 세 명(쇼핑몰 IT총괄 A, 시스템 통합유지보수업체 부장 B, 네트워크운영팀 총괄 C)을 섭외해 인포플라 ‘아이톰스’의 ‘웹 장애 모니터링’을 체험할 것을 요청하고, 기술에 대한 의견을 물었다.

모 쇼핑몰의 IT총괄인 A는 IT장비 16대를 관리하지만, IT운영관리 업계에 오래 종사하며 전문성을 쌓아왔다. A가 소속된 기업은 오프라인 점포를 운영하는 것에 집중하다 최근 온라인 사업을 확장했기 때문에, IT장비의 규모는 크지 않다. 통합유지보수업체의 부장 B가 이끄는 팀은 대형 데이터센터의 IT시스템을 관리하며, 6000대 이상의 서버를 모니터링한다. 모 기업의 네트워크운영팀 총괄 C의 팀은 네트워크 설비 6000개, 보안설비 200개를 관리한다. 인터뷰이의 요청에 따라 본 기사에선 이들의 소속과 이름을 익명으로 표기했다.

IT동아: 웹 페이지의 서비스에는 다양한 장애가 발생할 수 있다. 이러한 장애를 어떻게 발견하고, 해결하는지 설명 부탁한다.

쇼핑몰 IT총괄 A “서버의 상태를 확인하는 SMS(서버관리), 웹 사이트 기능의 상태를 점검하는 APM(앱 성능 관리) 솔루션을 사용한다. SMS와 APM 솔루션은 장애 모니터링을 자동화하기 때문에, IT관리자들의 업무 부담을 크게 줄인다.

또한, 이들 솔루션은 사람이 할 수 없는 일까지도 한다. 특히, 서버의 자원 사용량은 초 단위로 빠르게 변하는데, 모니터링 솔루션만이 이러한 변화를 실시간으로 확인 가능하다. 서버 과부하가 발생하면, 모니터링 솔루션이 알림을 보내니 바로 문제를 해결할 수 있다.”

통합유지보수업체 부장 B “IT관리자가 웹 사이트에 수시로 접속해서 웹 상태 코드를 확인한다. ‘오류 코드:400 에러’를 발견하면, 다른 팀원들에게 알려 문제를 같이 해결한다.”

네트워크운영팀 총괄 C “IT장비의 CPU, 메모리 사용량이 너무 높아지면 웹 페이지 서비스가 멈출 수 있다. 그래서, 웹 호스팅 업체인 카페24가 제공하는 서버 모니터링 기능을 써서 이들을 관리한다.”

IT동아: 현재 사용하는 모니터링 솔루션으로 모든 서비스 장애를 정확하게 탐지할 수 있는 건가?

쇼핑몰 IT총괄 A “그렇지는 않다. SMS, APM 솔루션은 시스템의 자원 사용량이나 웹의 상태만 모니터링한다. 이용자들이 웹 페이지의 서비스를 이용할 때 마주치는 장애를 탐지하지는 못한다. 그래서, ‘계정 로그인이 안 된다.’ 이런 고객의 항의를 받고서 서비스 장애가 발생했다는 걸 아는 경우도 있다.”

네트워크운영팀 총괄 C “모니터링 솔루션이 발견한 장애가 없는데, 서버가 너무 느리다는 이야기가 가끔 나온다. 그런 상황이라면, 이제 IT관리자들이 원인을 파악해야 한다. 대부분의 경우, 무엇이 문제인지 모르니 이 과정에서 시간이 오래 걸린다.”

IT동아: 인포플라의 웹 장애 모니터링 기능을 직접 써봤다. 이에 대한 의견을 듣고 싶다.

쇼핑몰 IT총괄 A “장애 모니터링 작업의 효율성을 크게 높였다. 사람은 오래 일하면 피곤해지고, 실수를 더 자주 하게 된다. 반면, RPA는 24시간 내내 실시간으로 장애 모니터링을 한다. 실수를 하지 않으니 장애 탐지의 정확도도 올라간다.

웹 장애 모니터링을 통해 발견한 웹 서비스 장애, 출처=IT동아
웹 장애 모니터링을 통해 발견한 웹 서비스 장애, 출처=IT동아

또한, RPA 덕분에 IT관리자들의 작업 부담이 크게 줄어들 것이며, 이들은 장애 모니터링 대신 더 중요한 작업을 할 수 있을 것이다. 그리고, 인포플라의 솔루션으로 서비스 장애에 빠르게 대응하면, 이용자들의 경험도 개선될 것이다.”

통합유지보수업체 부장 B “앞서 설명했듯, 서버에는 문제가 없음에도, 웹 페이지의 특정 기능이 작동하지 않을 때가 많다. 결국, IT관리자들이 시간을 쪼개서 서비스 모니터링을 직접 해야 했다. 인포플라의 솔루션은 이러한 작업을 자동화함으로써, 기존 장애 모니터링 솔루션의 한계를 보완했다.

또한, 인포플라의 웹 장애 모니터링을 사용하려면 알파카(인포플라의 RPA) 스크립트를 작성해야 하는데, 이 과정이 굉장히 쉬웠다. 타사의 RPA 제품은 스크립트를 만들 때 코딩을 직접 해야 한다. IT관리자들이 RPA 코딩 언어를 배워야 하는 것이다. 반면, 인포플라의 알파카는 코딩 작업이 필요하지 않은 ‘노코딩’ 툴이다.”

네트워크운영팀 총괄 C “아이톰스가 제공하는 두 가지의 장애 대응 기술을 동시에 사용할 수 있어서 좋았다. 솔루션을 체험할 때, IT장비의 CPU, 메모리, 네트워크 부하를 체크하는 기술(AI장비헬스체크)로 장비의 장애를 파악했고, 웹 서비스에 발생한 장애는 ‘웹 장애 모니터링’으로 확인했다.

AI장비헬스체크 기능을 통해 CPU와 메모리의 사용량을 확인하고, 미래에 발생할 사고까지 예측할 수 있다, 출처=IT동아
AI장비헬스체크 기능을 통해 CPU와 메모리의 사용량을 확인하고, 미래에 발생할 사고까지 예측할 수 있다, 출처=IT동아

시중에는 이렇게 장애 모니터링 기술을 통합한 솔루션이 없다. 그래서, 여러 회사의 솔루션을 구매해서 함께 사용해야 한다. 솔루션마다 사용 방법이 다르니 이를 일일이 배워야 하고, 시스템 유지보수가 필요할 때 각 회사에 개별적으로 요청해야 하는 번거로움이 있다. 아이톰스는 여러 자동화 서비스를 동일한 플랫폼으로 제공하기 때문에 이런 불편함이 없다.”

IT동아: 마지막으로, 아이톰스의 웹 장애 모니터링을 사용하면서 개선이 필요하다고 느낀 점이 있다면 듣고 싶다.

통합유지보수업체 부장 B “아이톰스의 UI(사용자 인터페이스)는 아직 이용자 친화적이지 않다. 장애와 관련된 데이터들을 이해하는 것이 쉽지 않다. 여러 이용자의 의견을 수렴해서 서비스를 개선해야 한다. 또한, 인포플라는 알파카를 활용해 다양한 IT운영관리 작업을 자동화할 예정이라고 들었다. 그렇다면, 알파카가 다양한 업무 환경에 적용될 수 있도록 범용성을 갖추는 것이 중요하다.”

웹 장애 모니터링의 데이터를 보여주는 대시보드, 출처=IT동아
웹 장애 모니터링의 데이터를 보여주는 대시보드, 출처=IT동아

네트워크운영팀 총괄 C “솔루션의 완성도를 높이려면, 현장에서 정말로 많은 사례를 접해야 한다. 웹 페이지의 UI는 기업마다 천차만별이다. 메뉴의 글씨가 작은 웹 페이지라면, RPA가 글자를 인식하지 못할 수 있다. 알파카는 이미지 인식 기술 덕분에 글자를 어느 정도 인식할 수 있지만, 문자인식 기술인 OCR(광학문자인식)을 적용하지 않았기 때문에 인식의 정확도가 조금 떨어진다. OCR을 적용할 필요가 있다. 이처럼 다양한 상황에서 RPA가 정상적으로 작동하도록 보완해야 한다.”

인터뷰에 응한 세 명의 업계 관계자는 인포플라가 기존 ‘서비스 장애 모니터링’ 기술의 한계를 잘 이해했다고 평가한다. 덕분에 장애 모니터링 시스템이 더 견고해졌다는 것이다. 다만, 그들은 “아직 기술적인 한계도 분명하다”고 말했다. 그렇지만, 이는 극복할 수 없는 문제가 아니다. 인포플라는 “이용자 의견을 참고해 UI를 개선할 것이며, 조만간 OCR 기술을 RPA에 적용할 것”이라고 밝혔다.

글 / IT동아 정연호 (hoho@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.