디지털 전환 시대, ‘관찰성’ 확보를 위한 엑셈의 노력
[IT동아 권명관 기자] 디지털 전환(digital transformatio , DT 또는 DX, 이하 DT)은 전세계 산업 전반에서 부는 바람이다. 국내 주요 기업과 정부 기관은 그 필요성을 인식하고 클라우드 전환을 가속화 중이다. DT로 인해 기업은 클라우드 환경을 통해 새로운 애플리케이션과 기술을 보다 빠르게 배포하고, 인프라를 매우 유연하게 활용할 수 있다. 다만, 관리 단계는 보다 세분화되고, 새로운 기술 요소 적용으로 IT 환경은 예상보다 복잡해졌다. IT 운영 데이터 역시 기하급수적으로 증가해 관리자가 감당할 수 있는 수준이 아니다. 하루가 다르게 거대하고 복잡해지는 IT 비즈니스 환경에서 순간의 예측할 수 없는 장애는 치명적인 시간과 비용 손실을 초래하기 마련이다.
시대는 민첩한 IT 운영뿐만 아니라, 이를 통해 비즈니스 혁신도 이뤄내라고 요구한다. 이러한 상황에 직면한 기업의 디지털 전환에, ‘관찰성(Observability)’ 확보는 더욱 중요하다. 복잡해진 인프라 환경을 실시간으로 한눈에 쉽고 빠르게 파악하는 통합 모니터링이 필요한 시점이다. 때문에 인공지능이 시스템 장애를 미리 예측하고, 원인을 알아서 찾아 분석한 뒤, 최적의 IT 운영 인사이트를 확보하는 AI옵스 기술을 주목하고 있다.
디지털 전환 속 ‘관찰성’
엑셈은 디지털 전환 현상과 시장의 요구를 파악해 해결책을 제시한다. 엑셈은 그간 500여 고객사의 IT 운영 관리 경험과 모니터링 이해도를 바탕으로 지난 2019년 클라우드 인프라와 서비스 전체 상황을 통합 관제하는 모니터링 솔루션 ‘클라우드모아(CloudMOA)’, 인공지능(AI) 기반 IT 운영 지능화 솔루션 ‘싸이옵스(XAIOps)’를 출시했다. 이후 현재까지 기능 고도화를 거쳐 ‘관찰성’ 문제를 해결하기 위해 노력했다.
클라우드 환경을 모니터링하는 클라우드모아
클라우드모아는 '클라우드 가시성(Visibility) 확보'에 최적화한 솔루션이다. 퍼블릭, 프라이빗 클라우드, IaaS, VM을 포괄하는 멀티/하이브리드 클라우드 등 다양한 클라우드 환경을 통합, 관제한다. 2D, 3D 토폴로지뷰를 통해 여러 클라우드 요소를 한 화면에서 보여주고, 직관적인 UI/UX를 제공하기 위해 노력했다. 이는 장애 발생 컨테이너에 대해 빠른 탐색과 인지를 가능케합니다.
뿐만 아니라 서비스 성능을 지표로 제공, 쉽게 파악할 수 있는 ‘서비스 오버뷰(Services Overview)’, PaaS 환경의 인프라 성능을 지표로 제공하는 ‘인프라스트럭처 오버뷰(Infrastructure Overview)’, 쿠버네티스 기반의 다양한 성능을 지표로 표시하는 ‘워크로드 오버뷰(Workload Overview)’와 ‘Workloads Pod 별 상세 현황’ 화면 등을 제공한다. 클라우드 가시성을 확보하기 위함이다.
클라우드모아는 장애 발생 시 원인을 찾아 분석해 복구 소요 시간을 단축한다. 또한, 복잡한 MSA(Micro-Service Architecture) 기반 서비스간 호출 관계와 트랜잭션 흐름을 추적해 분석한다. SMS와 연계된 실시간 알람을 통해 IT 운영자가 빠르게 장애를 인지할 수 있도록 제공한 것.
이외에도 클라우드모아는 AI를 탑재해 장애 발생 이전에 진단할 수 있는 기능을 지원한다. AI 기반 비정상 지수(Anomaly Score) 기능을 통해 평소와 다른 패턴의 부하 패턴을 보이는 관리 대상을 사전에 진단, 리포트를 제공한다. 희소 로그 감지 및 분석 기능도 있다.
AI 기반 모니터링, 싸이옵스
싸이옵스는 AI 기술을 통해 IT 운영에 필요한 ‘관찰성’을 높이기 위한 모니터링 솔루션이다. 싸이옵스는 여러 IT 인프라 구성 요소, 애플리케이션, 성능 모니터링 도구 등 다양한 소스 데이터들을 한 곳에 취합, 분석한다. 이를 통해 문제 발생 전 장애 상황을 예측, 운영자가 선제 대응할 수 있도록 지원한다.
싸이옵스는 실시간 처리로 수집한 대용량 데이터들을 검색, 분석하는 ‘고속 인덱스 기술’과 데이터를 컬럼(Columnar)으로 다뤄 장기간 분석도 빠르게 처리할 수 있는 ‘컬럼 스토리지 기술’을 지원한다. 또한, ‘JIT 쿼리 컴파일 기술’을 적용해 빅데이터 쿼리 분석 시 데이터 탐색 시간을 줄였다.
이외에도 엑셈의 딥러닝 모델을 사용해 약 95%의 예측 신뢰도를 보장한다. 이는 일반적인 수학적 통계 방식이나 머신러닝 기술을 적용한 타 솔루션 대비 높은 수치다. 탐지된 이상치는 지속 학습해 향후 진단 정확도를 높일 수 있다.
싸이옵스는 '장애 발생 후 수 분 이내 근본 원인 분석’을 제공한다. 근본원인 분석 대시보드에서 장애 발생 시 장애 인지와 함께 장애 근본 원인을 요약 제공하고, 각 영역별(Transaction, WAS, DB, OS 등) 해당 시점의 문제 포인트도 제공한다. 또한, 시스템 부하 유형에 대해 패턴을 분석하고, 문제 원인 분석 요청 시 해당 문제와 상호 연관있는 유사 지표를 분석, 추출해 관련 인사이트를 높일 수 있다.
싸이옵스의 장점은 다른 AI옵스 솔루션 대비 직관적인 대시보드다. 정상 상태와 장애 발생 시 조건에 따른 색상으로 강조 표시해 빠르게 파악할 수 있다. 위젯을 이용해 사용자 정의 대시보드 설정도 할 수 있다.
클라우드모아와 싸이옵스는 디지털 전환 시대 기업이 필요로 하는 ‘관찰성’과 ‘가시성’ 확보에 노력했다. 최근 엑셈은 대형 카드사에 클라우드모아를 구축했고, 제1금융권 3곳에서 싸이옵스를 구축하고 있다. 향후 엑셈은 클라우드모아의 기존 AI 엔진을 고도화해 AI 기반 지능화 모듈을 탑재하고, SaaS 버전을 상반기내 개발 완료할 예정이다.
글 / IT동아 권명관(tornadosn@itdonga.com)