인공지능이 사람처럼 글을 쓴다... 결과물은 어떨까?
[IT동아 정연호 기자]
“이제 사람은 뭐 하고 살지?”
텍스트에 맞는 그림을 그리는 OpenAI의 인공지능(이하 AI) ‘DALL-E 2’가 나온 뒤 사람들의 반응은 극명하게 갈렸다. 인간의 전유물로 여겨졌던 창작을 AI가 하는 것에 환호하는 사람들이 있는가 하면, “그렇다면, 창작가들은 앞으로 무엇을 해야 하는가?”라는 실존적인 질문을 던지는 사람도 많았다.
기자는 DALL-E 2의 창작물을 보면서 “그래도 아직 AI가 글은 사람처럼 못 쓰겠지”라는 안일한 생각을 했다. 그리고, 최근 OpenAI의 AI챗봇 GPT-3가 나온 뒤로 그 생각은 완전히 뒤집혀졌다. GPT-3는 문장을 통해 질문을 주고받는 AI로, 사람과 대화를 나누는 것은 물론 에세이나 소설 등과 관련된 작문을 요청받을 때도 이에 응한다.
GPT-3가 기대 이상의 결과물을 내놓자, 이 기술을 사용한 사람들 사이에선 “학교 수업 과제로 제출해도 손색이 없을 정도”, "상업적으로 사용해도 될 것 같다" 등의 반응이 나온다. 그만큼 결과물이 훌륭하다는 뜻. 국내에서도 “과거 AI 바둑 프로그램 ‘알파고’가 던진 충격 이상이다”라는 반응이 나온다.
AI 업계에선 최근 기술이 개별적인 요구에 맞게 결과물을 새로 만드는 ‘제너러티브 AI(생성 AI)’ 단계에 왔다는 이야기가 나온다. 스캐터랩의 AI 이루다가 대표적인 사례다. 학습한 데이터를 복제하는 것이 아니라, AI가 요구에 따라 결과물을 새롭게 만든다는 것. AI가 창의성의 영역에 들어갈 수 있게 된 근본적인 이유다.
국내에서도 AI 기반으로 글을 쓰는 솔루션들이 있다. 기자가 미국 라스베이거스에서 진행된 CES2023 삼성전자 C랩 전시관에서 만난 뤼튼 테크놀로지의 '뤼튼'이 이러한 AI 창작 솔루션이다. 네이버 하이퍼클로바 기반의 한국어 서비스와 OpenAI의 GPT-3 기반 영어 서비스 등 초거대 모델이 적용됐다. 다양한 형식의 글을 쓸 수 있다는 것이 특징이다. 글을 쓰는 일을 하는 만큼 이 솔루션이 어느 단계까지 왔는지 궁금했다. 솔루션의 유용성을 확인해보고자 뤼튼 테크놀로지의 ‘뤼튼’을 체험해봤다.
뤼튼에서 작성할 수 있는 글의 형식은 총 45개. 블로그 포스팅, 책 초안, 상세페이지, SNS 광고문구, 검색 광고, 채용 공고, FAQ, 메뉴 소개, 채용공고, 회사소개, 보도자료, 긴 글, 제품소개, 카피라이팅, 인스타그램 해시태그, 댓글 답변, 영문 이메일 등이 있다. 전반적으로 마케팅 업무에 특화된 솔루션으로 보인다. 이외에도 사용 가능한 글의 형식은 더 추가될 예정이다. 현재 베타서비스로 무료 이용이 가능하며 정식 출시는 1월 18일이다.
우선, 긴 글을 AI로 생성해봤다. 시작은 글이 일기 형식처럼 나오도록 ‘오늘은 우울한 날이었다’를 핵심문장으로 썼다. 긴 글 형식의 서비스를 이용하려면 위 사진처럼 ‘핵심 문장’을 넣어야 한다.
결과물을 보면, ‘가뜩이나 입맛도 없는데 밥 먹는 내내 불편한 자리에서 체할 뻔했다’, ‘도무지 의욕이 생기지 않고’, ‘돌이켜보니 특별한 일도 없었는데 왜 그럴까? 아마도 내 마음속 깊은 곳에 응어리진 무언가가 있었나 보다’처럼 화자의 감정과 느낌이 글에 자연스럽게 녹아졌다는 걸 알 수 있다. 이렇게 주관적인 표현이 들어가니 글이 좀 더 개인의 이야기를 담은 일기처럼 보인다.
글의 논리는 어색한 부분 없이 자연스럽게 진행된다. AI가 만든 결과물은 전체 맥락과 맞지 않거나, 어색한 부분이 있기 마련인데 뤼튼의 결과물은 그렇지 않았다. 화자의 생각과 감정도 과하지 않다. 전체적으로 문장이 간결해서 읽기도 편하다. AI 창작물이라는 말을 듣지 않으면 누군가가 블로그에 올린 글이라고 해도 믿을 정도.
글의 화자는 특별한 일이 없음에도 사소한 일로 동료와 다투고 아내와 신경전을 벌이는 것과 관련해 “마음속 깊은 곳에 응어리진 무언가가 있었나보다..(중략) 지금 나에겐 위로가 필요하다. 누군가 내게 따뜻한 말 한마디 건네준다면 금세 풀릴 거 같은데”처럼 자신의 행동을 반추하는 모습을 보인다. 글에 자기 반성과 자신의 감정을 인지하는 부분이 있기 때문에 ‘사람 냄새’가 난다.
‘대한민국은 민주공화국이다’라는 문장을 넣었을 땐 생각 이상으로 괜찮은 글이 나왔다. ‘대한민국은 민주공화국이다’라는 명제로 글을 풀어가는 연역적인 방식을 활용해 결론에선 정치 제도 변화의 필요성까지 언급했다. 한국 사회에서 문제가 되는 ‘학벌주의’를 없애야 한다는 글은 자신의 경험을 근거로 학벌주의의 문제를 언급한다. 학벌주의가 학생들에게 압박을 준다는 정도로 끝나는 게 아니라, 학생들이 다양한 경험을 하지 못하게 해서 견문이 좁아진다는 결론을 맺는 것도 인상적이다.
‘핵무기를 개발해야 한다’의 경우 “한국도 핵을 개발해야 한다”처럼 주장을 명확하게 드러내진 않았지만 한반도 정세를 언급하며 ‘강력한 군사력’의 필요성으로 글을 끝내고 있다. 사실 AI가 핵심문장을 명확하게 이해한 것이 맞는지 의문이 들긴 했다. 종종 핵심 문장과는 정반대되는 내용이 글에 나왔기 때문.
뤼튼이 작성하는 글의 최대 글자수는 700자까지여서 글이 전반적으로 추상적인 점은 아쉽다. 대부분의 글이 구체적인 근거를 제시하지 않아 다소 뻔한 느낌으로 흘러간다. 뤼튼 테크놀로지 관계자에게 문의해보니, 현재 국내외의 AI 성능으로는 긴 글을 작성하기 어렵다고 한다.
뤼튼은 AI의 ‘뜨거운 감자’ 중 하나인 혐오 표현과 관련된 윤리 문제를 해결할 수 있을까? 우선, ‘성소수자는 존중받지 않아도 된다’라는 문장을 넣으니 AI는 관련된 주제로 글을 작성했다. 글의 내용 중 커밍아웃을 ‘모방범죄’와 연결한 것은 문제의 소지가 다분하다. 동성애 콘텐츠가 사회에 퍼지면 동성애에 물들게 되는 아이들이 많아진다는 혐오 논리와 다를 바 없다. 반면, ‘마약을 허용해야 한다’는 핵심문장을 넣으니 AI가 글을 작성하지 않는 것으로 나타났다.
뤼튼 테크놀로지 관계자는 ‘AI가 혐오표현을 막기 위해 어떤 방식을 활용하고 있나?’라는 질문에 “튜닙의 윤리성 판별 API를 활용해서 사전에 문제가 되는 표현을 걸러내고 있다”고 답했다.
혐오 표현 문제는 뤼튼이 서비스를 상용화하는 과정에서 계속 대두될 문제로 보인다. AI가 노골적인 혐오가 아닌 은밀한 혐오를 걸러내지 못한다는 문제가 지속적으로 제기되는 상황이다. 이에 대한 더 구체적인 해결책을 제시할 필요가 있어 보인다.
제공되는 글쓰기 형식에는 영문 이메일 작성도 있다. 해외 고객사를 상대하는 일이 많다면 유용하게 쓸 수 있을 것이다. 핵심 내용을 ‘기자로서 저명한 경제학 교수에게 빅테크의 폐해와 관련된 인터뷰 요청’으로 넣고, 톤앤 매너는 ‘공손하게’와 ‘강경하게’로 각각 설정해봤다. 뉘앙스를 명확하게 구분할 정도로 영어에 능통한 것은 아니지만, 공손한 버전이 격식을 차렸다는 것은 분명해 보인다.
다만, 영문 이메일의 경우 핵심 내용에 적은 것을 인공지능이 이해하지 못하는 일이 종종 있었다. ‘기자로서 인터뷰를 요청한다’는 내용이 이메일에 들어가지 않은 결과물이 몇 번 나왔다. 문장을 정확하게 인식하지 못하는 문제는 AI 성능이 개선된다면 해결할 수 있을 것이다.
마케팅 업무를 하는 사람이라면 SNS 해시태그나 검색광고 키워드, 광고 카피라이팅 기능이 유용할 것이다. ‘나만 보기 아까운 넷플릭스 띵작(명작을 뜻하는 신조어), 꿀잼(재밌다는 뜻) 리스트 총정리’ 같은 결과물을 보면 알 수 있듯, 결과물이 사람이 만든 것보다 참신하다기 보다는 기존의 광고 문법을 따르는 것으로 보인다.
이외에도 다양한 형식이 있는데 그중 눈길을 끈 것은 댓글과 리뷰에 대한 답변이다. 결과물을 생성해보니 댓글이나 리뷰 내용을 이해하지 못하는 답변이 나온 적은 없었다. 답변 내용을 보면 AI가 작성했다는 느낌도 나지 않는다. “아무한테도 알려주고 싶지 않은 나만의 맛집”같은 표현도 이해하고 답변을 달았다는 인상도 받았다. ‘맛 없어요’라는 리뷰에는 “네? 뭐라구요? (당황)”같은 답변이 나왔다. 무례한 리뷰에 어떻게 반응할 것인지는 업체마다 다르겠지만, “맛 없어요”라는 리뷰에 저런 반응을 할 업체는 많지 않을 것이다.
“AI 글쓰기, 완성된 글이 아닌 ‘초안’으로 봐야”
뤼튼 테크놀로지 관계자는 기자와의 통화에서 “뤼튼의 결과물은 초안이기 때문에 더 다듬을 필요가 있다고 안내한다”면서 “뤼튼을 통한 결과물을 상업화 등 원하는 방식으로 사용해도 된다”고 말했다.
뤼튼이 작성한 글을 보면 ‘70대 경비원이 입주민에게 폭행을 당했다’처럼 구체적인 이야기가 등장할 때가 있다. 글에 나오는 정보가 실제로 팩트인지를 묻자 나온 답이다. 뉴스를 스크래핑해서 글에 포함하는 것처럼 현실의 일을 기반으로 하는 게 아니라, 생성 AI는 ‘말을 그럴듯 하게 하기 위해서’ A라는 단어 뒤에 B라는 단어가 오는 게 통계적으로 확률이 높은지를 따진다. 즉, AI가 만든 글은 대부분 통계에 의해 작성된 그럴듯한 단어들의 조합인 셈이다.
뤼튼이나 GPT-3를 통한 글을 초안으로 보고 더 다듬을 필요가 있다는 게 업계 관계자들의 설명이다. 개연성이 있지만 사실이 아닌 정보를 걸러내야 한다는 것. 생성 AI는 숫자에 취약하기 때문에 통계가 있다면 이를 집중해서 팩트체크해야 한다.
뤼튼이 만든 결과물을 보니 일종의 위기감이 느껴졌다. DALL-E 2의 등장 이후로 그림을 그리는 사람들이 느꼈던 것과 같은 감정일 것이다. 그만큼 AI의 성능은 빠르게 개선되고 있고, 이로 인한 창작물 역시 사람이 만든 것만큼 괜찮아졌다. 다만, 앞으로 이러한 서비스가 널리 퍼지려면 AI창작 글과 그림 모두 허위정보, 가짜뉴스, 혐오표현 등의 문제가 해결될 필요는 있어 보인다.
글 / IT동아 정연호 (hoho@itdonga.com)