베리타스, 기업에 방치된 파일만 정리해도 유지비 24억 원 절감한다
[IT동아 이상우 기자] 빅데이터가 기업의 주요 화두가 되면서 이를 수용하고 관리하는 데이터 센터 인프라에 관한 이슈도 커졌다. 그런데 이러한 상황에 대응하기 위해 많은 기업이 데이터 센터의 물리적인 인프라 확장에 초점을 맞추고 있다. 베리타스 코리아 조원영 대표는 "빅데이터에서는 무엇이 쓸모 있는 데이터인지를 파악하는 것이 중요하다"며, "불필요한 데이터를 정리하면 스토리지의 가용성이 커지며, 특히 흩어진 데이터에 관해 가시성을 얻어 정책 기반의 데이터 관리가 가능해진다"고 말했다.
2016년 3월 22일, 베리타스가 데이터 구성 현황과 인사이트를 제공하는 데이터 게놈 지수(Data Genomics Index) 보고서를 발표했다. 해당 보고서에 따르면 전체 데이터 중 40가 넘는 파일이 약 3년간 전혀 사용한 흔적이 없는, 방치된 데이터인 것으로 나타났다.
데이터 게놈 지수는 베리타스가 포춘 500개 기업의 86%를 포함해 5만 여개의 고객사를 통해 파일과 속성을 분석해 발표한 보고서로, 오늘날 기업 데이터 환경을 분석하고 비교를 위한 표준 역할을 한다. 파일 유형별 비중에서부터 개별 파일의 생성 시기 분포, 크기 등에 이르기까지 실제 데이터 환경의 구성을 조명했다. 이번 보고서를 통해 기업은 정보 관리의 효율성을 얻을 전망이다.
이번 보고서의 주요 내용을 살펴보면, 우선 개발자 파일의 비중이 높아지고, 프레젠테이션 파일의 비중이 줄어드는 추세다. 이미지, 개발자 파일 및 압축 파일이 전체 데이터 환경의 약 1/3을 차지하며, 전체 파일 수로 보면 개발자 파일이 전체의 약 20%를 차지하고 있다. 지난 10년 간의 추세를 보면 프레젠테이션 파일은 스프레드시트, 오디오 파일, 텍스트 파일 등 증가 추세인 다른 파일 유형과 달리 500%나 감소했다.
파일 생성이 가장 활발한 계절은 가을로 나타났다. 가을에 생성되는 파일의 최대 증가율을 보면, 텍스트 파일 91%, 스프레드시트 48%, 지리적 파일 및 정보 시스템 파일이 89%에 이른다. 비디오 파일은 약 68% 증가했는데, 이는 주로 여름과 가을 휴가에서 동영상을 촬영 한 뒤, 사내 디스크에 저장한 것으로 볼 수 있다.
사내 규제나 정책 요건을 제외하고, 데이터가 오래돼 방치된 상태라고 판단하는 기준은 보통 3년이다. 기업 데이터의 41%는 지난 3년간 사용 또는 수정되지 않은 상태로 남아있다. 또한, 인사 이동이나 직원 퇴사로 소유자가 없는, 이른바 '주인 없는 데이터'에 관한 부담도 커졌다. 이런 파일 유형은 보통 동영상, 이미지, 프레젠테이션 등 많은 콘텐츠를 포함하고 있는 경향이 있기 때문에 이를 방치해두면 정보 유출의 위험이 늘어날 수 있다. 또한 일반 파일보다 200% 이상 디스크 공간을 차지하는 경우가 많기 때문에 공간 관리 측면에서 부담도 크다.
기업은 데이터에 관한 가시성을 확보하면 데이터 자산 중 비즈니스에 중요한 데이터를 구분해 우선 순위를 정할 수 있다. 일정 기간 이상 사용하지 않은 문서는 기업에 불필요한 비용을 초래하므로, 이러한 데이터에는 아키이빙, 삭제, 이전 등의 조치가 필요하다. 기업에서의 평균 데이터 환경이 10PB급인 것을 고려하면, 방치된 프레젠테이션 및 문서 파일, 스프레드시트 등을 분류해 정리하거나 이동하는 것만으로 무려 연간 200만 달러의 인프라 유지 비용을 줄일 수 있다.
베리타스 스티브 브라네스(Steve Vranyes) CTO는 "기업 고객은 항상 서로 상충되는 상황에 직면해 있다. 데이터는 폭발적으로 증가하는데, 이에 대응하기 위한 신규 서버 및 애플리케이션을 위한 자원과 예산은 한정돼 있기 때문이다"며, "베리타스는 주요 메타데이터 특징에 관한 고유의 역량을 통합해 일반적인 데이터 환경을 분석적이고 가시적으로 보여준다.이를 통해 기업이 직면한 불균형적인 역학 관계를 해결할 것"이라고 말했다.
한편, 베리타스는 데이터 환경에 대한 연구를 위한 커뮤니티 및 포럼의 장을 마련하고자 '데이터 게놈 프로젝트(Data Genomics Project)'를 출범했다. 이번 보고서는 해당 프로젝트의 첫 번째 결과물로, 이 프로젝트는 기업이 매일 생성하고 저장, 관리하는 비정형 데이터의 실체를 보다 잘 이해하는 것을 목적으로 한다. 데이터 과학자, 업계 전문가 및 권위자 등으로 구성된 커뮤니티로, 정보 관리를 위한 데이터 게놈을 구축하고, 데이터 폭증 문제를 해결하기 위해 노력하고 있는 전세계 기업과 관련한 정보를 공유하고 있다.
글 / IT동아 이상우(lswoo@itdonga.com)