[송대리의 잇(IT)트렌드] 알파고 뛰어넘는 ‘초거대 인공지능’ 개발 경쟁

전국 직장인, 그 중에서도 열정 하나만으로 온갖 궂은일을 도맡아 처리하는 대리님들을 위한 IT 상식을 전하고자 합니다. 점심시간 뜬금없는 부장님의 질문에 난감한 적 있잖아요? 그래서 저 송대리가 작게나마 도움을 드리고자 합니다. 부장님, 아니 더 윗분들에게 아는 ‘척’할 수 있도록 정보 포인트만 쏙쏙 정리하도록 노력하겠습니다. 테슬라, 클럽하우스, 삼성, 네카라쿠배 등 전세계 IT 소식을 언제 다보겠어요? 지금 이 순간에도 피곤한 대리님들이 작게나마 숨 한번 쉴 수 있기를 희망합니다.

1. 그러고보니 요즘 인공지능은 어떤가? 그 이세돌 9단하고 대국해서 이겼던 게 인공지능 맞지?

네 맞습니다. 인공지능 ‘알파고’였죠. 지난 2016년이었습니다. 이세돌 9단과 알파고의 바둑 대국. ‘누가 이길까?’라는 것도 중요했지만, 그보다는 인공지능 발전 가능성에 많이 주목했습니다. 그리고 왠지 모르게 무섭다는 생각도 하셨을 겁니다. 인공지능의 능력? 성능? 사람을 지배할 수도 있다? 등등, 많은 이야기가 있었죠. 지금 돌이켜보면, 쓸데없는 걱정이었지만요.

이세돌 9단과 알파고의 대국 모습, 출처: IT동아
이세돌 9단과 알파고의 대국 모습, 출처: IT동아

요즘에는 알파고 같은 인공지능, 그러니까 바둑과 같은 특정 분야에 특화한 몇몇 인공지능을 앞서는 기술에 도전하고 있습니다. 이름도 거창한 ‘초거대 인공지능’이라고 하는데요. 모든 산업 분야에 바둑의 알파고 수준으로 응용할 수 있는 차세계 인공지능이라고 이해할 수 있습니다.

2. 초거대 인공지능…?

영어로 ‘Hyperscale(하이퍼스케일, 초거대) AI’ 라고 합니다. 구글이나 페이스북, 아마존처럼 대규모 데이터센터를 운영하는 업체를 하이퍼스케일이라고 말하는데요. 단어부터 일반적으로 생각하는 ‘크다’라는 느낌보다 ‘훨씬 크다’는 느낌을 주죠.

수많은 데이터를 보관하는 데이터센터, 출처: IT동아
수많은 데이터를 보관하는 데이터센터, 출처: IT동아

인공지능은 어디에 사용될까요? 우선, 자율주행 자동차가 있죠. 우리가 많이 사용하는 기능 중에는 페이스북 같은 SNS에 사진을 올리면 사용자 얼굴과 친구 얼굴을 자동으로 인식해 태그를 넣어주는 것도 인공지능입니다. 넷플릭스가 사용자 취향에 맞는 콘텐츠를 추천하는 것도 인공지능이죠. 쿠팡 등 쇼핑몰이 사용자 취향을 분석해 추천 상품을 보여주는 것도 인공지능입니다. 알게모르게 우리들 일상 속에 많이 들어와 있죠.

인공지능이란 기계의 지능화를 의미합니다. 기계가 스스로 무언가를 학습하고, 판단하고 행동한다는 뜻입니다. 예전에는 사람이 특정한 규칙과 데이터를 넣으면, 기계가 그에 맞는 결과를 만들었죠. 즉, 하라는대로 했습니다. 하지만, 지금은 사람이 최소한만 개입하고, 기계가 스스로 데이터를 수집하고 분석해 규칙(결과)을 찾아냅니다.

인공지능과 함께 발달한 것이 인공신경망입니다. 인공신경망이란 인간의 뇌 구조, 그러니까 뉴런 구조를 본떠 만든 기계학습 모델입니다. 생물의 신경망, 특히 인간의 시각/청각 피질을 본떠 만든 알고리즘인데요. 복잡한 것은 건너뛰고, 데이터가 많을수록 정확도와 학습력이 높아진다고 이해할 수 있습니다.

솔직히 ‘초거대’라는 용어가 다소 거창하게 느껴질 수 있어요. 초거대 인공지능은 기존 인공지능이 새로운 부가가치를 창출하는 데 필요한 기술입니다. 인간이 물리적으로 할 수 없는 엄청난 데이터를 분석해 의미있는 결과값을 창출할 수 있기 때문입니다.

초거대 인공지능은 대용량을 빠르게 연산할 수 있는 기계라고 생각하셔도 됩니다. 대규모 데이터를 학습해 특정용도에 한정하지 않고, 종합적/자율적으로 사고, 학습, 판단, 행동하는 인간의 뇌 구조를 닮은 인공지능입니다. 대표적인 예가 'GPT-3'랍니다. 'GPT-3'는 현존하는 가장 뛰어난 초거대 인공지능 언어모델인데요. 테슬라의 일론 머스크 CEO가 주도해 설립한 오픈AI가 지난 2020년 발표했습니다. GPT-3는 방대한 데이터를 학습해 고차원적 추론 결과를 내놓을 수 있는 자연어처리 능력을 갖춘 것으로 알려졌죠. GPT-3를 둘러싼 여러 잡음이 있지만, 일단 지금은 넘어가도록 하죠. 소유권에 대한 문제로 시끌시끌하거든요.

3. 초거대 인공지능은 기존 인공지능과 다르게 어떤걸 할 수 있어?

요즘 우리 코로나19 때문에 전세계가 걱정하고 있잖아요. 여기에 사용할 수 있습니다. 백신을 만들거나, 신약을 개발할 때 활용할 수 있죠. 신소재를 개발할 때도 이용할 수 있습니다. 초거대 인공지능이 방대한 데이터를 바탕으로 유용한 결과를 낼 수 있기 때문이죠.

컨셉 이미지, 출처: IT동아
컨셉 이미지, 출처: IT동아

인간처럼 자연스럽게 대화할 수도 있습니다. 에세이나 소설도 창작할 수 있고…, 이미지와 영상을 이해하고 데이터 추론까지 할 수 있습니다. 소프트웨어 개발, 데이터 분석, 고객 상담 등 각 분야에서 상위 1% 전문가 수준의 역량을 낼 수 있다네요. 예를 들어보죠. 현재 인공지능 상담 챗봇은 유형화된 질문에 한해 정해진 답변만 골라서 냅니다. 하지만, 초거대 인공지능은 고객이 어떤 질문을 하더라도 사람처럼 분석하고 대처합니다. 상당을 요청한 사람은 지금 채팅하는 상대방이 사람인지 인공지능인지 구분하지 못할 거라는 거죠.

출처: 셔터스톡
출처: 셔터스톡

이런 상상도 해볼 수 있습니다. 완성된, 완벽한 초거대 인공지능에 인류가 수백 년간 내놓은 과학 논문과 특허를 모두 넣으면 무슨 일이 벌어질까요. 더 안전하고 오래가는 전기차 배터리를 개발할 수도 있고, 고효율의 발광 소재를 발굴해 화질은 기존보다 선명하면서 전력 소모가 적은 TV를 개발할 수도 있습니다. 연구팀이 기존 논문을 분석하고 후보 물질을 일일이 시험하느라 허비하는 시간을 초거대 인공지능이 대신한다는 것죠.

현재 의료 업계에서 사용하는 인공지능은 질병 위치와 병명을 표기한 수백만 장의 엑스레이 사진을 필요로 합니다. 그래야 유사한, 비슷한 병을 찾아낼 수 있죠. 반면, 초거대 인공지능은 일반 엑스레이 사진과 진료 소견만으로도 질병을 진단할 수 있습니다.

출처: 셔터스톡
출처: 셔터스톡

그리고 제품 생산 공장에서 발생한 문제와 해결책을 기록한 모든 엔지니어 문서를 학습한 초거대 인공지능은 생산 시계 수만 대에서 발생할 수 있는 문제를 예측해 미리 정비할 수 있습니다. 불량을 일으키는 원인도 미리 파악해 관련 공정을 직접 수정할 수도 있구요.

4. 무섭다. 무서운데? 사람이 설 자리가 없어지지 않을까? 초거대 인공지능을 연구하는 곳은 어디가 있어?

우선 구글이 있습니다. 초거대 인공지능 개발에 열을 올리고 있죠. 지난 5월 18일부터 20일까지 열린 구글의 개발자회의 ‘구글 I/O’에서 순다르 피차이 CEO가 마치 자신이 명왕성인 것처럼 행동하는 인공지능 대화 모델 '람다'를 소개했습니다. 한 프로그래머가 람다에게 "너를 찾아가면 뭘 볼 수 있니"라고 물어봤거든요? 람다는 "거대한 협곡, 꽁꽁 언 빙산, 분화구 등을 볼 수 있을 거예요. 한 번 놀러올 만합니다. 다만, 코트를 챙겨 오셔야 해요. 정말 춥거든요"라고 답했습니다. 프로그래머가 물어보지 않은, 다른 정보(춥다는 정보)를 스스로 찾고, 정보를 더해(코트를 입고 오라는) 답한거죠.

올해 온라인으로 열린 구글 개발자회의 ‘구글 I/O’, 출처: 구글
올해 온라인으로 열린 구글 개발자회의 ‘구글 I/O’, 출처: 구글

국내 기업의 도전도 엄청납니다. LG는 1,000억 원 규모를 투자해 초거대 인공지능을 만든다고 발표했는데요. LG는 초거대 인공지능을 산업 현장 공정 자동화에 이용하고, 차세대 배터리와 고효율 발광 물질, 항암제 등 신약 개발에도 활용한다고 합니다.

지난 5월 17일, 배경훈 LG AI연구원장이 ‘AI 토크 콘서트’에서 발표하는 모습, 출처: LG
지난 5월 17일, 배경훈 LG AI연구원장이 ‘AI 토크 콘서트’에서 발표하는 모습, 출처: LG

KT는 원천기술과 산업 인공지능 분야에 20여개의 초기 연구를 진행한다고 하고요. SKT는 카카오, 국립국어원과 손잡고 GPT-3와 유사한 수준의 초거대 인공지능 모델 'GLM'을 연내 상용화할 계획이라고 합니다.

네이버는 지난해 서울대와 손잡고 만든 초거대 인공지능 모델을 검색엔진에 일부 도입합니다. 사용자가 검색어를 잘못 입력해도 올바른 단어로 바꿔주거나 적절한 검색어를 추천하는 기능을 선보였죠. 그리고 이번주에 한국말로 대화할 수 있는 초거대 인공지능 '하이퍼클로바'를 공개했습니다. 그리고 올해는 카이스트와 수백억원을 들여 추가 인공지능 기술을 연구할거라네요.

하이퍼클로바, 출처: 네이버
하이퍼클로바, 출처: 네이버

5. 네이버가 연구하고 개발한 초거대 인공지능은 실제 적용하고 있다고?

네. 일론 머스크가 말한 GPT-3는 영어가 학습 데이터의 대부분을 차지합니다. 하지만, 하이퍼클로바는 한국어를 학습하죠. 비중은 97%에 달한답니다. 현재 전세계에서 가장 큰 한국어 초거대 언어모델인 셈이죠. 영어 중심의 글로벌 인공지능 모델과 달리 한국어에 최적화한 언어모델을 개발해 인공지능 주권을 확보한다는 의미도 있습니다. 네이버는 앞으로 한국어 외 다른 언어로 모델을 확장하고, 언어뿐만 아니라 영상이나 이미지 등도 학습하는 하이퍼클로바로 계속해서 발전시켜나갈 계획이라고 합니다.

인공지능은 데이터가 많을 수록 더 정확한 결과값을 만든다고 했는데요. 현재 하이퍼클로바는 선별하고 정제한 데이터로부터 최종적으로 1.96테라바이트(TB) 상당의 데이터셋을 구축했다고 말합니다. 이는 5,600억개의 토큰 데이터 셋으로, 한국어 위키피디아의 2,900배, 뉴스 50년치, 네이버 블로그 9년치에 해당한다네요. 엄청난 양의 데이터셋을 가지고 있는 것이죠.

단어를 조합해 문구를 생성하는 하이퍼클로바 기능, 출처: 네이버 AI 유튜브 채널
단어를 조합해 문구를 생성하는 하이퍼클로바 기능, 출처: 네이버 AI 유튜브 채널

나아가, 네이버는 하이퍼클로바가 소상공인, 크리에이터, 스타트업에게도 지원하겠다고 밝혔습니다. 예를 들어보죠. 네이버 쇼핑에 입점한 중소상공인들을 대신해 상품 마케팅 문구를 자동으로 작성해주고, 상품 리뷰를 ‘긍정 리뷰’, ‘부정 리뷰’ 등으로 분류해줄 수 있습니다. 또한, 창작자가 스토리나 아이디어만 입력하면 웹툰을 그려주거나, 학생과 일반인이 공부해야 할 내용을 빠르게 요약해주고, 모르는 내용을 질문하면 대신 조사해 답변해줄 수 있죠. 아, 그리고 네이버는 다른 기업에 하이퍼클로버를 판매하는 B2B 사업도 계획 중이라고 합니다.

6. 초거대 인공지능으로 할 수 있는 더 신기한 것이 있어?

개인적으로 인상적이었던 것은, 프로그램을 개발할 때 자연어를 써서 만든다는 점이었습니다. 자연어로 개발한다? 이런 거에요. 어려운 프로그래밍 코드가 아니라 그냥 말로, 우리가 일상에서 사용하는 언어로 프로그램을 개발한다는 거죠.

예를 들어, ‘감정 분석기를 만들어줘’라는 주제를 텍스트로 쓰고, 예제로 ‘기분 진짜 좋다’는 ‘긍정’이고, ‘아오 진짜 짜증나게 하네’는 ‘부정’의 의미라고 전달하면, 초거대 인공지능이 자동으로 해당 프로그램을 개발해 실행하는거죠. 더 놀라운 점은 이렇게 긍정, 부정을 학습해 정보를 취합하고 발전한 초거대 인공지능은 사람이 ‘어? 이쁘다!’라고 말하면 ‘기쁨’이라는 것을 알고, ‘철이 없었죠…’라고 말하면 ‘슬픔’이라는 것을 알아채는 겁니다. 스스로 학습해 발전하는거죠.

다양한 인공지능 스피커, 출처: IT동아
다양한 인공지능 스피커, 출처: IT동아

현재 인공지능 스피커에 “왜 바흐를 음악의 아버지라고 부르니?”라고 질문하면, 대부분 “검색사이트에서 검색합니다”, “무슨 말인지 잘 모르겠어요”라고 대답하거든요. 그런데 이번에 공개한 답변은 이렇습니다. “바흐 음악에서 풍기는 분위기가 마치 아버지처럼 온화하면서도 무게감 있고 굳건한 인상을 풍겨서 그렇게 불러왔어요”라고, 마치 사람처럼 대답했죠.

7. 데이터를 얘기하다보니… 개인정보 보호에 대한 문제가 있을 것 같은데?

개인정보 보호 관련은 인공지능 개발 시장에서 최대 화두입니다. 네이버는 개인정보 수집을 지양한다고 밝혔는데요. 사용자들이 전체공개로 지정해 정보와 검색 허용한 문서에 대해서 정보를 수집한다고 합니다. 그렇게 수집한 정보더라도 개인정보에 해당하는 것은 제거하거나 비식별화를 진행했다고 하네요.

개인정보는 인공지능을 개발하는 기업만이 접근할 수 없습니다. 사회적인 합의, 나아가서는 정부, 국가 차원에서 결정해야죠. 최근 우리도 배웠잖아요. 인공지능 챗봇 '이루다'를 개발한 스캐터랩를 통해서 말이죠. 스캐터랩은 '텍스트앳'과 '연애의 과학' 서비스를 선보이기 위해 2020년 2월부터 2021년 1월까지 수집한 이용자 약 60만 명의 카카오톡 대화문장 94억여건을 이루다 개발에 이용했죠. 문제는 이 과정에서 카카오톡 대화에 포함된 이름과 휴대전화번호, 주소 등 개인정보를 삭제하거나 암호화 조치를 취하지 않아, 개인 정보 보호 위원회로부터 1억 330만 원의 과징금·과태료를 부과받았습니다. 이렇게 하나씩 만들어 나가야죠.

인공지능 개발과 관련해 정보 허용의 기준은 앞으로 계속 등장할겁니다. 당장 판단할 수는 없을 것 같아요. 다만, 이것 하나만은 꼭 기억해야 합니다. 결국 인공지능, 초거대 인공지능을 개발하는 근본적인 이유는, 사람을, 인간을 이롭게 하기 위해서라는 점을요.

송태민 / IT전문가
스타트업부터 글로벌 대기업까지 다양한 경험을 지니고 있다. 현재 KBS 라디오 ‘최승돈의 시사본부’에서 IT따라잡기 코너를 담당하고 있으며, '애플워치', '아이패드 미니', '구글 글래스' 등의 국내 1호 구매자이기도 하다. 그는 스스로를 IT 얼리어답터이자 오타쿠라고 칭하기도. 두 딸과 ‘루루체체 TV’ 유튜브 채널, 개그맨 이문재와 ‘우정의 무대’ 유튜브 채널을 운영하고 있다. '어비'라는 닉네임으로 활동 중이며, IT 전문서, 취미 서적 등 30여 권을 집필했고, 음반 40여장을 발표했다.

정리 / IT동아 권명관(tornadosn@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.