[모두를 위한 인공지능] 5. 우리에게 '데이터'는 어떤 의미인가
[편집자주 / '인공지능(AI)'은 더 이상 SF영화에서나 보던 상상의 기술이 아닙니다. 이미 현실과 실제가 되어, 알게 모르게 우리 일상에 스며들고 있습니다. 이에 인공지능에 관한 보편적 지식은 현대인이라면 누구라도 가볍게 알아 둘 만합니다. 이 연재에서는 인공지능의 역사부터 일상/산업 내 융합, 국내외 인공지능 산업 현황, 인공지능 관련 최신 트렌드, 근미래의 인공지능 융합기술 등, 필자가 오랜 동안 현업에서 얻은 다양한 경험과 지식을 하나씩 독자와 공유합니다.]
1부 - 환갑이 훌쩍 넘은 인공지능의 어제와 오늘 (https://it.donga.com/102301/)
2부 - 인공지능 기술을 활용해 비즈니스 가치를 높여라 (https://it.donga.com/102418/)
3부 - 인공지능 산업/기업을 지원, 육성하기 위해 필요한 것 (https://it.donga.com/102543/)
4부 - 인공지능이 아무리 발전해도 결국 사람의 '경험'이 중요하다 (https://it.donga.com/102629/)
요즘 언론과 주변에서 '데이터(Data)'의 의미와 그 중요성에 대해 자주 언급한다. 데이터를 미래의 석유 또는 식량에 비유하기도 한다. 데이터가 이렇게 중요하다고는 하는데, 그럼 무엇 때문에 데이터가 중요한 것일까? 그리고 디지털 생태계의 D.N.A(데이터.네트워크,인공지능), 디지털 시대의 데이터 댐/데이터 레이크(lake)/데이터 폰드(Pond) 같은 파생어는 또 무슨 뜻일까? 인공지능이 중요해짐에 따라 데이터 학습, 빅데이터 분석도 거론된다.
혼란스럽기도 하고 굳이 알 필요도 없을 수 있다. 하지만 데이터는 지금도 우리 주변에서 일상에 대단히 밀접해 있으니 생각을 바꿔야 한다. 스마트폰이나 PC 등으로 이 글을 보는 이 순간에도, 우리는 끊임 없이 데이터를 만들어 내고 있다.
데이터의 양
먼저 '데이터의 양'에 대해 이야기해보자. 데이터가 중요해진 이유는 디지털 기술의 발전 때문이다. 디지털 기술이 급격히 발전하면서 데이터 생성과 복제가 무척 쉬워졌고, 사물인터넷(IoT) 기술과 개인의 디지털 기기 사용으로 엄청난 양의 데이터가 생성되고 있다.
요즘은 유튜브나 페이스북 같은 미디어에서 개인 디지털 콘텐츠가 폭발적으로 생산되고, 각자 사용하는 스마트기기, 신용카드 거래, 거리의 수 많은 CCTV 등 일상 전반에 걸쳐 각종 디지털기기를 통해 데이터가 매일매일 쌓여간다. 대략적으로 이런 데이터의 양은 얼마나 될까?
KT경제경영연구소에 따르면, 인류가 파피루스를 시작으로 종이에 기록을 남기기 시작한 이후 2000년대초까지 생산된 데이터가 약 20 엑사바이트(exabyte)라 추정한다. 엑사바이트는 0이 18개 붙는 단위라, 조를 넘어 100경에 달라는 단위다. 즉 2,000경 바이트가 되는 셈이다. 가늠조차 하기 어려운 숫자다.
파피루스가 고대 이집트에서 발명된 종이 비슷한 것이고, 기원전 3,000년 전 정도로 추정되니 5,000년 동안 생성된 데이터가 약 20 엑사바이트인 셈이다. 그런데 2000년대 초반부터 2021년까지 생산된 전 세계 데이터 총량이 약 50 제타바이트(zettabyte)라고 한다. 엑사바이트의 상위 단위가 제타바이트라, 이는 5만 엑사바이트에 해당된다.
불과 20여년 동안 생산된 데이터가 5,000년간 데이터의 2,500배를 넘어서는 것이다. 현재 인류가 가진 데이터의 약 90%는 지난 10년 간 생산됐음을 의미한다. 물론 이후로도 데이터 생산 속도는 더욱 빨라질 것이다.
IDC에 따르면, 인류의 디지털 정보, 즉 데이터의 연간 성장률은 20%에 달한다. 영국의 한 물리학자는 이렇게 데이터가 쌓이게 되면, 앞으로 150~350년 사이에 지구에 존재하는 원자 수보다 디지털 정보의 최소 단위인 비트의 수가 더 많아질 것이라 예측했다.
폭발적으로 증가하는 데이터, 부작용은?
이렇게 데이터가 폭증해도 아무 문제가 없이 우리 일상에 도움이 되는 걸까? 생산 속도가 빠른 '빅데이터'는 생산될 때마다 어딘가에는 저장해둬야 한다. 디지털 데이터라 특별한 전자장치에 저장해야 한다. 전자장치는 SSD나 하드디스크 같은 저장장치(스토리지)다.
스토리지는 실물 장치라 물리적 공간이 필요한데, 현재 기술로는 디지털의 최소단위인 1비트를 저장하는데 약 25제곱 나노미터가 필요하다. 25제곱 나노미터라면 머리카락의 1/50,000의 두께로, 사람 눈에 보이지 않는 크기긴 하다. 다만 앞서 말한 대로, 전 세계에서 매일 쏟아지는 빅데이터를 온전히 저장하려면 스토리지의 물리적 공간 역시 커질 수 밖에 없다.
영국 포츠머스 대학의 멜빈 봅슨(Melvin Vopson) 교수는 스토리지의 물리적 공간이 몇 백년 내에 지구의 총 질량을 초과할 수 있다고 예측했다(현재의 기술 수준 기준). 스토리지 공간 외에도, 디지털 데이터 저장에는 에너지도 필요하다. 클라우드 기반의 데이터센터는 이미 전 세계 전력 생산의 약 1%를 소비하고 있다. 이는 네트워크로 데이터를 전송하거나 모바일기기에서 데이터를 사용할 때 소비되는 에너지는 제외한 것이다.
하지만 언제나 그랬듯, 이러한 걱정, 문제거리에 당면하면 인류는 늘 새로운 방안을 찾는다. 전자가 아닌 광자를 활용하거나, 직접도를 높이기 위해 바이오 물질에 데이터를 저장하고, 에너지를 한계 상황 이하로 낮춰 동작하는 기기를 개발하는 등 연구 개발을 지속하고 있다.
빅데이터의 활용 - 데이터 댐, 데이터 레이크
앞서 말한 대로, 현재 인류는 디지털 시대를 살며 상상할 수 없을 엄청난 양의 데이터를 생산하고 있다. 이렇게 저장된, 쌓인 데이터는 그럼 어떻게 활용할 수 있을까? 정부가 발표하는 '데이터 댐'이나 '디지털 생태계' 관련 내용을 한번 쯤은 들어봤을 듯하다.
우선 데이터 댐이 무언지 알아야 하겠다. 그래야 데이터 댐이 왜 D.N.A 생태계의 기반이 되는지 이해할 수 있다. 참고로, '댐'이라 표현하는 건, 미국 경제 대공황 시절 '후버 댐' 건설을 통해 일자리 창출과 경기부양 효과, 전력생산, 관광산업 및 도시 개발 등의 효과를 얻은 사례를 빗댄 것이다. 즉 데이터 댐 사업은 한국판 뉴딜 또는 디지털 뉴딜 사업의 일환이다.
데이터를 저장한 댐은 수돗물이나 농경수를 공급하듯, 데이터 그 자체로 공급할 수 있고, 전기처럼 다양한 용도로 변환해 제공할 수도 있다. 인공지능 학습용 데이터로 가공하거나, 빅데이터 분석 도구와 함께 개인 맞춤형 서비스를 개발하는데 활용될 수 있다. 의료, 교육, 제조 등 다양한 연관 분야에 새로운 비즈니스를 만들 수 있는 바탕이 되기도 한다. 이때 사물인터넷, 5G 통신 같은 ICT 기술을 접목하면, 빅데이터를 실시간으로 활용하는 비즈니스로 확장할 수도 있다. 새로운 부가가치를 만드는 융합산업으로 확장하는 것이다.
이렇게 댐에 저장되는 데이터의 약 75%가 개인 데이터다. 즉 이 데이터의 주인은 바로 우리라는 뜻이다. 우리가 별 고민 없이 공유 동의한 개인 데이터가 현재 다양한 서비스에 활용된다. 데이터 활용에 동의하고 우리는 그 다양한 서비스를 대부분 무료로 사용하고 있다. 현재는 아주 자연스러운 일이다.
스마트폰 내비게이션 서비스가 대표적인 예다. 운전자와 차량의 위치와 운행 데이터 등을 내비게이션 업체에 제공하는 대신, 길 안내 서비스나 도로정보 서비스 등을 무상으로 사용하고 있다. 유튜브나 넷플릭스 같은 OTT 서비스, 페이스북이나 인스타그램 같은 SNS도 사용자가 한두 번 본 콘텐츠 중심으로 유사한 콘텐츠를 추천해 준다. 사용자의 시청/관람 데이터를 서비스 업체에게 제공했기에(제공을 동의했기에) 가능한 일이다. 원하는 콘텐츠를 일일이 찾지 않아도, 인공지능 알고리즘이 적절히 찾아 보여주니 편리하긴 편리하다. 물론 이런 추천 알고리즘을 원치 않는 사용자도 많을 것이다.
이 같은 콘텐츠 추천 인공지능을 학습시키기 위해서는 사용자의 데이터가 필요하다. 인공지능은 학습을 위한 데이터가 많을수록 똑똑해진다. 상대적으로 적은 양의 데이터로도 학습 효과를 높이는 방법이나, 확보된 데이터를 토대로 가상 데이터를 만들어 학습해 높은 품질의 추론 결과를 얻는 방법도 연구되고 있다.
빅데이터 분석을 위한 데이터 활용 방법은 인공지능 학습 방법과는 조금 다르다. 빅데이터의 정의도 다양하게 기술되고 있다. 가트너는 빅데이터를 '큰 용량 과 빠른 속도'를 기반한 데이터로 정의했다(2021). 필자는 여기서 '큰 용량'은 빅데이터 분석 목적을 달성하기 위한 한 과정이라 생각한다. 빅데이터 분석은 가능한 모든 데이터를 분석하여 불확실성을 없애기 위한 방법론이다. 그렇기에 데이터 양이 많아 질 수 밖에 없다.
빅데이터 분석과 관련해선, 미국의 유통업체인 '타겟(Target)'의 일화가 유명하다. 고객 이탈에 대해 조사하던 중 여성 고객층이 임신 중에는 이탈률이 높다는 것을 파악하고, 임신 고객을 찾아 출산/육아 관련 각종 혜택 등을 제공하기 시작했다. 고객들의 제품 검색 패턴/데이터 등을 분석한 뒤, 한 여중생에게 임신 축하 메시지와 관련 제품 홍보자료를 발송했는데, 얼마 후 그 아버지로부터 항의 연락을 받았다. 자신의 딸은 중학생인데 메시지를 잘못 보냈다는 내용이었다. 업체는 즉각 사과했지만, 나중에 알고 보니 그 여중생의 임신은 사실이었다. 아버지는 몰랐지만, 빅데이터는 여중생의 데이터를 정확히 분석한 것이다.
빅데이터 분석으로 가장 성공한 업체는 '넷플릭스'가 아닐까 싶다. 넷플릭스가 짧은 시간에 미디어 업계의 절대 강자로 성장하게 된 배경에는 데이터가 있다. 넷플릭스는 '블럭버스터'라는 비디오/DVD 대여 업체로 출발했는데, 대여 업계의 시장 한계를 깨닫고 2004년에 동영상 스트리밍 서비스를 시작했다. 이후 디지털 시대의 흐름에 맞춰 체질을 완전히 변경했고, 고객/사용자 데이터를 적극 활용해 인공지능 기반의 대고객 서비스를 지속적으로 개발했다. 시대의 변화를 잘 읽고 과감한 변신을 시도한 좋은 성공 사례다.
당시에는 넷플릭스의 비즈니스 모델 변경이 무모한 시도라는 이야기가 많았는데, 넷플릭스는 철저한 데이터 분석을 통해 사용자가 무엇을 원하는 지를 파악했고, 그에 따른 효과적인 마케팅 전략을 세웠다. 인공지능을 활용해 사용자에게 동영상 추천 서비스를 제공했고, 사용자의 75%가 추천 동영상을 선택했다. 현재는 콘텐츠를 직접 제작하거나 제작 투자를 진행하고 있다. 물론 여기에도 빅데이터를 충분히 활용한다.
이렇듯 데이터 분석은 불확실성을 줄이고 성공 가능성을 높여준다. 이게 가능하려면 엄청난 양의 빅데이터를 처리하는 시스템이 필요하다. 현재 광주광역시에는 지난 연재에서 언급한 '국가인공지능데이터센터'가 구축 중이다. 여기서는 인공지능 학습용 데이터 수집/가공 뿐 아니라, 빅데이터 처리에 필요한 컴퓨팅 자원과 도구가 제공된다.
2022년 8월 현재, 전체 구축되는 저장용량 107 페타바이트(petabyte)의 10%인 10.7 페타바이트의 데이터를 저장하고 가공할 수 있는 '데이터 레이크(Data Lake)' 도구를 제공하고 있다(1 페타바이트는 1,024 테라바이트). 데이터 댐보다는 작은 규모의 데이터 호수인 셈이다. 하둡이나 스파크 같은 빅데이터 처리 소프트웨어 등도 포함되어, 데이터 기업의 빅데이터 분석을 돕는다. 내년 국가인공지능데이터센터가 완공되면, 전국의 많은 인공지능 융합기업을 비롯해, 빅데이터 분석/활용 기업을 대단위로 지원할 수 있는 체제가 비로소 갖춰지게 된다.
[참고]
1 바이트 = 8 비트
1 메가바이트 = 100만 바이트
1 기가바이트 = 1,024 메가바이트
1 테라바이트 = 1,024 기가바이트
1 페타바이트 = 1,024 테라바이트
1 엑사바이트 = 1,024 페타바이트
1 제타바이트 = 1,024 엑사바이트
글 / 인공지능산업융합사업단 곽재도 본부장
미국 뉴욕 소재 로체스터 대학에서 인공지능 분야를 공부한 뒤, 문화체육관광부 문화기술 PD로 재직하며 연구개발 사업을 기획했다. 현재 대통령 소속 지식재산위원회 4,5,6기 전문위원으로 활동 중이며, 인공지능산업융합사업단 소속으로 국가 인공지능 데이터센터를 비롯해 인공지능 산업융합 생태계 조성을 위한 집적단지 조성사업을 추진하고 있다.
정리 / IT동아 이문규 (munch@itdonga.com)