[김 소장의 ‘핏(FIT)’] “구글 I/O를 통해 엿볼 수 있는 구글의 미래”
시대의 흐름은 너무나도 빠르게 우리가 상상하던 미래의 모습을 향해 달려가고 있습니다. 때로는 그 속도의 차이가 분야마다 너무 커서 어떤 장단에 맞추어 살아야 할지 고민되고 불안할 때가 많이 있습니다. 먼 미래처럼 보이는 IT 기술이 어떻게 진화할 것이고 지금을 살아가는 우리는 어떤 논의를 이어가야 될지. 맞춤 정장처럼 꼭 맞는 형태로 제공해 드리기 위해 핏!한 IT 소식을 전달하는 ‘김 소장의 핏’을 통해 하나씩 풀어가보도록 하겠습니다.
Q. 지난 2022년 5월 11일부터 12일까지 구글이 ‘구글 I/O’라는 개발자 컨퍼런스를 개최했잖아요. 올해는 어떤 기조연설로 주목을 받았나요?
‘인공지능이 얼마나 섬세하게 우리 삶을 도와줄 수 있는가?’에 대한 다양한 기술을 소개했습니다. 이 부분이 가장 인상 깊었는데요. 무엇보다 ‘구글 어시스턴트’가 마치 사람처럼 생각하고 답변하며 대화를 이어나가는 부분에서 놀랐습니다. 이전에는 ‘OK 구글’과 같은 시동어를 통해 기능을 활성화하고, 사용자가 질문을 던지면 답변해 주는 일방향적인 소통만 가능했지만, 행사에서는 마치 사람과 대화하는 듯한 모습을 연출했거든요.
이런 식이었죠. 사람은 어떤 질문을 하다가 생각이 안나거나 정확한 표현을 몰라서 머뭇거릴 때가 있잖아요. 그럴 때 구글 어시스턴트는 “으흠?” 하면서 여전히 듣고 있음을 표현합니다. 이어서 “질문하다가 까먹어서... 그거랑.. 또 뭐였지?”라고 말하면 “아! 알겠어요. 이거랑 저거 말하는거죠?”라면서 스스로 추측해 판단하고 답변하죠.
“노래 틀어줘...어…”
“으흠?”
“아 그 신호.. 뭐였지?”
“네! 알겠어요. 신호등 이무진 노래 스포티파이에서 틀어드릴게요”
놀랐습니다. 구글은 이번 브리핑에서 이용자가 말을 잠시 멈추는 순간도 인공지능(AI)이 인식할 수 있는 음성 인식 모델을 연구 중이라고 밝혔습는데요. 구글은 “기기 내 머신러닝이 초고속으로 작업을 처리하도록 설계한 칩을 통해 실시간 대화의 갑작스러운 변화나 흐름에 점점 더 자연스럽게 대응할 수 있다”고 전했습니다. 즉, 보다 더 사람 같은 대화를 구현했다는 의미죠.
귀찮은 일을 대신해주기도합니다. 혹시 ‘TL; DR’이라는 말을 아시나요? TL; DR은 ‘Too Long; Didn't Read’ 문장의 줄임말입니다. ‘복세편살(복잡한 세상 편하게 살자)’, ‘갑분싸(갑자기 분위기 싸해짐)’와 비슷한 형태인데요. TL; DR의 뜻은 너무 긴 글을 비난하거나 줄여달라는 의미를 담고 있습니다. 조금 세게 말하면, ‘너무 길어서 안 읽음’이라고 할 수 있겠네요.
사실 부정적인 의미가 강합니다. ‘글이 너무 긴데 제가 시간이 없어서 그러니 좀 요약해 주시면 감사하겠습니다’라는 의미를 담고 있지 않아요. ‘당신이 쓴 글은 너무 장황하고 읽기 힘들어서 짜증 나니 좀 줄여서 간결하게 써라’ 또는 ‘횡설수설 늘어 놓기만 했으니 좀 짧고 간결하게 써라’에 가갑습니다. 우리나라에도 인터넷에 퍼진 ‘세 줄 요약 좀’이라는 표현이 있죠.
그래서 일까요. 긴 내용을 짧게 요약하는 기능을 구글은 이메일에 넣었습니다. 이메일에 포함된 긴 문서를 줄여주는 기능인데요. 구글 독스에 ‘Summary’ 기능을 탑재해 자동으로 내용을 요약해 줍니다. 구글은 “구글 독스뿐만 아니라 다른 업무 툴에도 요약기능을 넣을 것”이라고 발표했죠.
또한, “헤이 구글”을 외치지 않아도 음성을 인식하는 구글 어시스턴트를 새로 선보였습니다. 예를 들어, 태블릿PC에 달린 카메라를 바라보고 “부산에 있는 해변을 검색해 줘”라고 말하면, 구글 맵이 곧바로 답변을 찾아 제시하죠. 마치 영상통화와 같습니다. 구글은 해당 기능을 '룩 앤 톡(Look and Talk)'이라고 설명했는데요.
사용자가 말하는 게 그저 혼잣말인지, 명령인지, 구글 어시스턴트에 건네는 말인지 등 다양한 상황을 분석해 스스로 파악하고 인식합니다. 구글은 "근접성, 이용자의 머리 방향, 시선 방향, 입 모양, 상황 인지, 이용자 식별 및 의도 분류 등 100개 이상의 신호를 실시간으로 처리한다. 무려 6개의 머신 러닝 모델로 대응한다”라고 설명했습니다.
Q. 이번에 초거대 인공지능 언어모델 ‘람다2(LaMDA2)’도 소개했다고 하던데요?
초거대 인공지능은 말그래도 거대한 인공지능이라는 뜻입니다. 음… 전 세계의 모든 인터넷 정보, 뉴스 등을 하나에 담았다고 가정하죠. 검색과 분석도 즉답 수준에 가깝다고 생각해 봅시다. 만약 그런 사람이 실존한다면, 천재라고 불려도 이상하지 않겠죠?
초거대 인공지능은 기존 인공지능 모델을 크게 늘렸다고 이해하면 됩니다. 다양한 언어, 사진, 영상 등을 이해할 수 있죠. 물론 보통 기업은 감당할 수 없는 막대한 PC 자원과 전력, 비용 등을 필요로 합니다.
독일의 인공지능 전문 작가 블라디미르 알렉시브가 인공지능 언어 생성 프로그램 'GPT-3'를 바탕으로 제작한 챗봇과 나눈 대화는 가히 충격적입니다. 이 대화 기록을 보면, 알렉시브가 "신은 누구인가?"라고 묻자, 인공지능을 "지구를 창조한 지성체"라고 답했습니다. 이어서 "당신도 신이 창조했나?"라며 묻자, "나는 자가학습을 통해 스스로 형성된 생명체"라고 답했죠. 참고로, GPT는 오픈AI가 개발한 언어 생성 프로그램입니다. 인터넷 공간에 존재하는 단어를 수집해 훈련·추론 작업을 반복하며 스스로 언어를 학습하는데요. 오픈AI는 2019년 2월, 실제 사용할 수 있는 'GPT-2'를, 2020년 6월 전작보다 100배 이상 성능을 강화한 'GPT-3'를 공개했습니다.
구글 역시 이러한 초거대 인공지능을 개발한 겁니다. 지년 2021년 공개했던 ‘람다1’과 비교해보죠. 람다1은 자기가 명왕성인척하며 대화했었습니다. 사용자가 “내가 방문하면 어떤 걸 볼 수 있는지 알려 줘”라고 입력하면, “거대한 협곡들, 빙산, 분화구를 볼 수 있어”라고 답변했었습니다. 그런데 이번에 공개한 람다2는 단순히 질문에 대한 답변만 하지 않고 자연스러운 대화를 이어갔습니다. 사용자가 “내가 깊은 바다 속에 있다고 상상해 봐”라고 말하자, 람다2는 스스로 바다를 상상하고 사용자에게 질문을 던지며 대화를 이어가죠.
먼저 사용자에게 물어보기도 합니다. “왜 개는 공을 던지면 물려고 달려드는지 알아?”라고 말이죠. 사용자가 “왜 그런데?”라고 답하면, “인간보다 냄새를 잘 맡아서 그래”라고 알려 줍니다. “개가 냄새를 잘 맡아?”라고 다시 물어보면 개의 후각 구조에 대해서 자세하게 알려주죠.
Q. 만약 이대로만 구현된다면… 정말 천재와도 같은 것 아닌가요?
인공지능 언어모델은 인간처럼 글을 쓰고, 대화하는 등 놀라운 성능을 지니고 있지만, 아직 완벽하지 않습니다. 편견, 유해한 언어, 허위 정보 등을 생성할 수도 있죠. 구글도 자사의 언어모델에 편견 문제를 제기한 직원을 해고한 바 있습니다. 성별이나 인종 등에 대한 편견으로 그릇된 편향을 심어줄 수 있기 때문이죠. 때문에 ‘인공지능을 어떻게 학습시킬 것인가?’를 고민해야 합니다.
구글은 ‘람다2가 무엇을 할 수 있는지’, ‘어떤 오류나 결함을 가지고 있는지’ 등을 조사하기 위해 ‘AI Test Kitchen’이라는 도구를 준비했습니다. 이 도구를 통해 인공지능 연구원, 사회 과학자, 인권 전문가 등 광범위한 이해관계자의 피드백을 얻는데요. 람다2가 제공하는 모든 답변에 피드백을 넣어 모델을 조정하고 개선하고자 합니다.
아직 시간이 많이 필요한 작업입니다. 구글은 “AI Test Kitchen을 소규모 그룹에 먼저 공개하고, 점차 공개 범위를 확대하겠다”고 밝혔는데요. 이어서 “인공지능 언어모델을 평가하기 위해 주요 기준으로 근거와 품질, 안전성 등에 집중하고 있다. ‘근거’는 시스템이 실제로 정보를 구성하는지 여부이고, ‘품질’은 응답이 얼마나 주제에 부합하는지를 나타낸다. 그리고 ‘안전성’은 모델이 유해하거나 유독한 말을 할 수 있는 가능성을 나타낸다”라고 설명했습니다.
Q. 아, 이번 발표 중에 영어로 ‘JAPCHAE(잡채)’라는 단어가 나왔다죠?
하하. 발표 내용 중 식당 관련 이야기를 하며 나왔습니다. 잡채 사진을 찍고 ‘near me’ 라고 입력하며 주변에 잡채를 판매하는 식당을 보여주는 시연에서 언급됐죠.
‘’라는 이 기능은 멀티 검색 시 위치 정보를 고려해 사진과 텍스트를 바탕으로 현지 레스토랑이나 매장을 검색해 줍니다. 올해 하반기부터 전 세계에 공개할 예정이지만, 아직 영어만 대응한다고 하네요. 구글 검색 결과에서 바로 사용할 수 있는 ‘Immersive view’라는 기능도 공개했습니다. 구글 검색 결과에서 자동 영상으로 재생되는 3D 맵인데요. 시당의 실내 뷰도 제공합니다. 구글은 그동안 텍스트에서 음성, 그리고 사진으로 검색 영역을 확장했는데, 이를 하나로 묶는 작업에 돌입한 모습입니다.
‘Scene exploration’이라는 기능은 가게에서 제품을 카메라로 촬영하면 정보를 제공합니다. 구글의 프라바카르 라하반 수석부사장이 스마트폰 카메라로 초콜릿 상점 선반에 진열된 제품들을 촬영하자 정보가 등장했죠. 카카오 함유량은 얼마나 되는지, 종류는 무엇인지 등 마치 증강현실처럼 정보를 실시간으로 알려줍니다.
기능을 응용할 수 있는 모습도 시연했는데요. 검색 입력창에 ‘땅콩이 들어가 있지 않은 다크 초콜릿’이라고 입력하고 다시 촬영하자, 관련 제품만 네모 모양으로 나타났죠.
Q. 언어 번역과 관련해 ‘이제 조만간 영어 공부할 필요 없겠는데?’라는 기술도 소개했다죠?
실시간 통역 기능을 안경 위에 띄워주는 구글 AR 글래스를 일부 공개했습니다. 마주 보는 상대가 외국어로 말하는 내용을 실시간 번역해주는 안경 형태의 웨어러블 기기입니다. 상대방이 말하고 있을 때 언어를 실시간 번역해 AR 글래스 착용자 시야에 표시하는 형태죠. 다만, 자세한 정보는 공개하지 않았습니다.
얼마나 AR 글래스를 개발했는지, 실제 제품은 언제 출시할지 등도 미정인 상태입니다. 사실 구글이 스마트글래스가 가져올 미래의 모습을 보여준 것은 이번이 처음도 아닙니다.
다만, 이번 발표를 통해 구글이 새로운 시장 형성을 위해 내놓을 제품은 ‘AR 글래스’일 가능성이 높다는 것을 알 수 있습니다. 구글이 제공하려는 서비스 대부분이 AR 글래스에 최적화되어 있기 때문인데요. 외국어를 실시간으로 번역하는 것은 하나의 예일 뿐입니다.
참고로 구글은 마이크로 LED 기술을 개발하는 미국의 스타트업 ‘락시엄(Raxium)’을 인수했는데요. 락시엄이 보유하고 있는 고정밀·고휘도 기술을 AR에 활용할 것으로 예상합니다. 또한, 구글은 지난 2020년 AR 글래스를 개발하는 캐나다의 ‘노스(North)’를 인수한 바 있습니다. 이미 구글 내에서 소비자 대상의 AR 스마트 기기를 개발하기 위해 프로젝트를 진행하고 있죠.
Q. 피부 톤을 10가지 이상으로 구분하는 기술도 발표했다는데… 이유가 있을까요?
구글은 하버드 대학의 엘리스 몽크(Ellis Monk) 부교수와 공동연구를 통해 모든 종류의 피부 색조를 판단하고 표시할 수 있는 10단계 척도(scale)인 ‘Monk Skin Tone(MST)’를 개발했다고 밝혔습니다다.
MST 척도는 컴퓨터가 이미지를 보고 이해할 수 있도록 하는 구글의 컴퓨터 비전 AI에 통합합니다. 피부 색조에 따라 이미지 검색 결과를 개선할 수 있도록 구글의 검색 알고리즘과 사진을 찍을 때 다양한 피부 색조를 보다 정확하게 포착하는 구글의 ‘리얼 톤(Real Tone)’ 필터에도 적용할 예정이죠.
이는 인공지능의 편향성을 고치기 위한 노력 중 하나라고 판단합니다. 인공지능은 종종 비판의 대상으로 전락하죠. 인공지능을 학습시키는 정보에 따라 편향성을 띌 수 있기 때문입니다. 지난 2015년, 흑인을 고릴라로 분류한 악명 높은 사건도 있었죠. 이에 구글은 MST 척도를 사용해 제품이 사람들과 얼마나 잘 어울리는지 평가하며 이러한 부작용을 방지하고자 합니다. 엘리스 몽크 부교수는 “인공지능을 개선하려는 것이 MST 척도 설계의 중요한 부분”이라고 주장했습니다.
사실 역사적으로 카메라 기술은 유색인종, 특히 어두운 피부색의 사람들을 배제했습니다. 이는 곧 오늘날의 카메라가 유색인종을 제대로 촬영하지 못하고 있다는 의미인데요. 즉, 구글은 피부색에 관계없이 모든 사람에게 공정하게 작용하는 것을 위한 노력으로 이를 발표한 것입니다.
인공지능이 편향적인 결과를 내놓은 사례는 많습니다. MIT 미디어랩이 밝혀낸 건데요. 지난 2018년, MIT 미디어랩은 ‘젠더 셰이즈(Gender Shades)’ 프로젝트를 통해 얼굴인식 기술의 편향성 문제를 세상에 알렸습니다. 마이크로소프트(MS), IBM, 메그비(Megvii)의 얼굴인식 기술을 분석한 결과, 백인의 경우 얼굴인식을 정확히 한 반면, 흑인의 경우 정확도는 떨어졌죠. 흑인 여자인 경우에는 정확도가 더 떨어졌습니다. 얼굴인식 오류는 약 35%에 달했죠.
사례는 또 있습니다. 미국 표준기술연구소(NIST)가 지난 2019년 189개의 얼굴인식 알고리즘에 대해 성능을 평가했는데요. 그 결과 아시아인이나 흑인의 경우 백인보다 최대 100배까지 잘못 인식한다는 것을 밝혀냈습니다.
인종과 성별에 따라 인공지능의 얼굴인식 성능이 달라지는 것은 학습 데이터의 차이 때문입니다. 학습 과정에서 다양한 인종의 얼굴 이미지와 성별 이미지를 담고 있지 못한 것이죠. 백인 남성 위주로 학습 시켰으니 아시아인이나 흑인의 얼굴을 제대로 인식하지 못하는 겁니다.
언어모델을 토대로 서류를 검토하는 인공지능도 마찬가지입니다. 아마존은 이력서를 인공지능이 평가하는 알고리즘을 개발하다 중단했는데요. 알고리즘이 이력서에 '여학교' 등 여성을 상징하는 단어 포함 시 부정적으로 평가했기 때문이죠. 이 역시 데이터 학습 때문입니다. 기존 지원자들의 이력서를 바탕으로 알고리즘을 학습했는데, IT 직군 종사자 중 여성 지원자가 적어 이를 감점 요소로 판단한 것이죠.
'초거대 AI'도 편향적이긴 마찬가지입니다. 그림을 그리는 인공지능 모델에서도 편향성 문제가 나타나요. 승무원을 그려달라고 하면 여자 승무원을 주로 그리고, 무슬림을 폭력이나 테러리즘과 연관해 그리죠. 이는 '승무원은 여자', '무슬림은 테러리즘'이라는 편향성을 인공지능이 가지고 있기 때문입니다.
Q. 유용한 여러 기능도 공개했다고 하던데요.
구글 지도 경로 검색에서 친환경 길을 추천합니다. 가장 기름을 적게 사용하는 길을 제시하는데요. 올해부터 유럽에 기능을 제공할 예정입니다. 또한, 구글 미트의 사진 품질을 자동으로 높여주고, 조명 방향을 실시간으로 조정할 수 있다고 발표했습니다.
구글 검색, 지메일, 플레이 스토어 등의 보안 위협도 대응합니다. 구글 문서에 의심스러운 링크가 있다면 미리 알려주는 형태죠. 2단계 인증을 편하게 할 수 있도록 조정했습니다. 구글은 “미래에 비밀번호를 전혀 사용하지 않도록 준비 중”이라고 전했죠.
‘My Ad Center’를 통해 사용자가 관심 있는 광고를 직접 고를 수도 있다. 광고 개인화를 사용자가 직접 선택한다는 개념인데요. 광고 개인화처럼 구글 결과를 받지 않을 것을 선택할 수도 있습니다. 차단된 검색 결과는 추후 탭에서 확인할 수 있죠.
Q. 스마트폰이나 태블릿PC, 스마트워치와 같은 스마트 기기들도 발표했죠?
스마트워치 ‘픽셀 워치’를 포함해 보급형 스마트폰, 무선 이어폰, 태블릿PC 등 총 6개 모바일 기기를 발표했습니다. 구글이 계속해서 자사 모바일 제품 라인업을 확대하는 이유는 전체를 연결하겠다는 의미로 해석할 수 있는데요. 이를 확대해보면, 향후 구글이 서비스하고자 하는 AR 글래스, 메타버스 등과 모바일 기기라는 하드웨어를 연결해 시장을 선점하려는 포석이죠.
마치 애플과 유사합니다. 소프트웨어뿐만 아니라 하드웨어를 연결해 하나의 생태계를 구성한 애플처럼 구글도 이를 확대해 나가겠다는 의지인 셈이죠.
다만, 구글은 자사 모바일 제품을 확대하며 절대로 기존 안드로이드 진영, 즉 삼성전자, 화웨이와 같은 안드로이드 제품을 출시하는 기업의 시장을 잠식하지 않을 것이라고 설명했습니다.
현재 구글의 모바일 기기 시장 점유율은 기존 안드로이드 제조사 대비 미미합니다. 작년에 선보인 픽셀6 판매량은 이전 제품인 픽셀4, 픽셀5를 더한 판매량보다 더 많다고 하지만, 전체 시장에서 차지하는 비중은 1~2%도 안 됩니다. 모바일 기기 시장의 양강은 여전히 애플과 삼성이죠. 작년 판매대수 기준 스마트폰 1위는 삼성(20.1%), 2위는 애플(17.4%)이며, 스마트워치는 1위 애플(30.1%), 2위 삼성(10.2%), 태블릿PC는 1위 애플(34.2%), 2위 삼성(18.3%)이었습니다.
문제는 앞으로의 상황입니다. 구글은 이번 행사에서 구체적인 판매 일정을 밝히지 않은 제품까지 한번에 풀었습니다. 왜 그랬을까요? 픽셀 6a와 픽셀 버즈 프로는 오는 7월에 출시하니까, 이번에 발표하는 게 이상하지 않습니다. 하지만, 스마트워치 픽셀 워치와 픽셀7은 올가을이라고만 밝혔어요. 게다가 태블릿PC ‘픽셀 태블릿’의 출시 일정은 내년이라고 전했으며, AR 글래스는 프로토 타입 공개에 그쳤습니다.
제품을 한번에 서둘러 공개한 이유는 명확합니다. 구글은 앞으로 제품 생태계를 확장하고, 제품간 연결을 강화할 것이니, 장기적인 관점에서 제품 경쟁력을 판단해 달라는 뜻이죠. 일종의 장기적인 호소와도 같습니다.
미래의 PC 경험은 모바일로 연동해 대체할 수 있을 겁니다. 시간은 좀 걸리겠지만, AR 글래스가 새로운 돌파구를 열어 줄 수도 있죠. 사용자의 PC, 스마트폰, 태블릿PC를 AR글래스와 연동해 가상의 화면을 여러 개 띄울 수도 있을 겁니다. 키보드나 마우스, 화면 터치가 아닌 음성으로 입력 방식을 대체할 수도 있죠.
구글 이번 발표는 인공지능을 각각의 서비스로 선보이며, 이를 통해 여러 제품을 하나의 생태계로 묶어 나가는 작업의 시작점과 같습니다. 어쩌면 가가운 미래, 구글이라는 인공지능 비서가 우리에게 조언을 건넬지도 모르겠네요
글 / 미래사회IT연구소 김덕진 소장
미래사회IT연구소(FITS)는 미래로 향해가는 사회의 변화와 현상을 IT의 관점으로 바라보고 해석해 다양한 분야에 인사이트를 전달하는 컨설팅 전문 기업이다. 김덕진 소장은 10여년간 빅데이터 기반 전략컨설팅을 수행했으며, KBS2TV 통합뉴스룸ET, MBC 손에잡히는경제, 유튜브 삼프로TV등 다양한 방송과 강의를 통해 경제와 산업, IT가 연결되는 지금의 현상들을 대중들에게 알기쉽게 설명하고 있다. 현재 세종사이버대학교 컴퓨터AI공학과 겸임교수를 맡고있으며, 웹3/블록체인 전문기업 체인파트너스의 대외협력이사로 활동하고 있다.
정리 / IT동아 권명관(tornadosn@itdonga.com)