[생성 AI 길라잡이] 인공지능이 작성한 표절 논문 찾아내는 무하유 카피킬러 ‘GPT 킬러’

김예지 yj@itdonga.com

※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 최근 학계를 넘어 사회 전반에서 논문 표절 문제가 수면 위로 떠올랐다. 정보의 홍수 속에서 수많은 자료에 접근하는 것이 과거보다 용이해진 환경은 논문 표절을 쉽게 만든 데 한몫했다.

카피킬러 공식 홈페이지 / 출처=무하유
카피킬러 공식 홈페이지 / 출처=무하유

특히 챗GPT가 등장한 이후, 생성 인공지능(AI)은 학술 연구의 효율성을 높였지만 동시에 새로운 형태의 표절 가능성을 야기했다. 과제물, 논문, 자기소개서 등 전문성과 고유성을 요구하는 분야에서도 AI가 작성한 글을 사람이 쓴 것처럼 제출하는 경우가 빈번해진 것. 그러나 논문 표절 문제는 개인의 윤리를 넘어 국내 학술 연구의 신뢰도를 저하시킬 수 있어 심각한 우려를 낳는다.

이러한 배경 속에서 논문 표절 검사 기술은 함께 고도화되고 있다. AI가 작성한 글은 매우 정교해서 기존의 키워드 또는 문장 매칭 방식으로는 표절 탐지에 한계가 있다. 이에 따라 표절 검사 서비스도 AI 기술을 기반으로 문맥과 특유의 AI 패턴을 분석해 패턴을 잡아내는 방식으로 진화했다.

무하유, 표절 검사 서비스 카피킬러에 생성 AI 기술 적용

무하유는 최근 자사의 대표 AI 기반 표절 검사 서비스 ‘카피킬러’에 생성 AI를 도입했다 / 출처=IT동아
무하유는 최근 자사의 대표 AI 기반 표절 검사 서비스 ‘카피킬러’에 생성 AI를 도입했다 / 출처=IT동아

AI 기술기업 무하유(muhayu)도 최근 자사의 대표 표절 검사 서비스 ‘카피킬러’에 AI 기술을 도입했다. 카피킬러는 표절, 출처 미표기, 중복 게재 등 사람이 일일이 파악하기 힘든 검토 작업을 AI 기술로 빠르게 수행하는 표절 검사 서비스다. 이 서비스는 1분 이내 약 100억 건의 빅데이터를 기반으로 짜깁기 영역을 검출해내는 표절 검사를 진행하고, 실시간 비교 분석을 통해 문장별 표절률과 표절 의심 영역을 표시한다.

무하유는 2023년 GPT 킬러를 접목했다. GPT 킬러는 무하유가 12년간 쌓아온 데이터 및 기술 노하우를 기반으로 개발한 생성 AI 활용 여부를 탐지하는 디텍트 GPT 솔루션이다. GPT 킬러는 챗GPT가 생성한 문장과 사람이 생성한 문장을 각각 학습한 후, 문장들의 공통점을 파악해 챗GPT 작성 확률을 분석한다. 이는 문장 속 단어와 어순 관계를 추적하고, 맥락 및 의미를 학습하는 트랜스포터 모델을 기반으로 만들어졌다. AI 모델은 검사 문서를 문단 단위로 분할한 후, 검출을 원하는 문단과 이전 맥락을 고려해 입력된 값을 결과에 따라 참 또는 거짓 형태로 분류한다.

무하유는 “챗GPT와 같은 대형 언어 모델(LLM)은 문맥을 바탕으로 다음에 나올 단어를 확률적으로 예측한다. GPT 킬러는 문서에 포함된 단어들의 출현 확률을 역으로 추적하여, 특정 단어들이 높은 확률로 생성된 것인지 분석한다. 높은 확률로 생성된 단어들이 많다면, 해당 문서가 AI에 의해 생성된 것으로 판단한다”고 설명했다. 예컨대, LLM 특유의 문장 구성과 격식체 등 최신 특성을 지속적으로 파악해 문서를 분석한다.

카피킬러가 사람이 작성한 표절 문서를 찾을 때 유리했다면, AI가 생성한 글을 찾을 때 GPT 킬러가 유용하다 / 출처=무하유
카피킬러가 사람이 작성한 표절 문서를 찾을 때 유리했다면, AI가 생성한 글을 찾을 때 GPT 킬러가 유용하다 / 출처=무하유

카피킬러가 사람이 작성한 표절 문서를 찾을 때 유리했다면, AI가 생성한 글을 찾을 때 GPT 킬러가 유용하다. 무하유 관계자는 “한국어 자연어 이해(NLU) 기술을 적용한 덕분에 챗GPT가 만든 문장을 찾아내는 디텍트 GPT 솔루션 중 유일하게 AI가 쓴 한국어 문장까지 잡아낼 수 있다”며, “GPT 킬러 정확도는 문서의 종류에 따라 차이를 보이지만, 초기에 비해 문서 유형별 모듈 업데이트를 거치면서 평균적으로 98% 이상 수준의 탐지 정확도를 기록했다”고 말했다.

현재 카피킬러 서비스는 공기관, 학교 및 연구원, 사기업 등 3500여 개 기관에서 약 1000만 명이 사용하고 있다. 카피킬러는 개인을 위한 서비스 ‘카피컬러 라이트’, ‘카피킬러 채널’을 비롯해, 단체/기관 전용 구독형 및 구축형 서비스, 공모전·자격증 시험·학교 등 용도별 특화 서비스도 제공한다.

카피킬러·GPT 킬러, 문장별 유사성 표절률로 표시

카피킬러 홈페이지에 접속해 이메일로 회원가입하면 월 1회 무료 이용권을 제공받을 수 있다 / 출처=IT동아
카피킬러 홈페이지에 접속해 이메일로 회원가입하면 월 1회 무료 이용권을 제공받을 수 있다 / 출처=IT동아

카피킬러 홈페이지에 접속해 이메일로 회원가입하면 월 1회 무료 이용권을 제공받을 수 있다. 카피킬러 라이트를 기준으로 문서 1건 당 9900원을 지불하면 표절률 및 평가결과를 받아볼 수 있다. 먼저 ‘문서평가’ 버튼을 눌러 평가 페이지로 이동한 뒤, 안내 사항에 따라 문서를 작성한다. 라이트 버전도 직접 문장을 입력하거나 한글, 워드, PPT, PDF 등 다양한 확장자를 지원하지만, 용량은 100KB 또는 3000자로 제한된다.

무하유는 문서 업로드 한번에 카피킬러 및 GPT 킬러의 2가지 평가 결과를 함께 제공한다. 학위논문, 학술논물을 포함해 연구/정책보고서, 연구대회, 과제물, 자기소개서, 공모전, 보도자료 등 문서 유형 중에서 하나를 선택하고, 인용/출처 표시 문장, 법령 경전 포함 문장, 목차 참고문헌의 표절률 포함 여부를 설정한다. 이때 ‘제외’로 설정하면 해당 문장이 다른 사람의 문장과 일치하더라도 표절 의심으로 보지 않는다. 카피킬러는 빅데이터와 실시간 비교해 6어절(문장을 구성하는 각각의 마디), 1문장과 일치되는 영역을 검출한다. 평가 설정 및 표절 기준은 유료 이용권 구매 시 조정 가능하다.

GPT 킬러는 과제물, 자기소개서, 학술논문, 학위논문 등의 문서 유형을 지원한다. 문단의 형태, 앞뒤 단어의 구성을 분석해 챗GPT 등 생성형 AI가 작성했을 확률이 높은 문장을 표시한다. 다만, 글자 수는 300자 이하로 지나치게 짧을 경우 검출 정확도가 낮아진다.

유료 이용권의 경우, 평가한 문서의 표절률, 평가 유형을 확인할 수 있다 / 출처=무하유
유료 이용권의 경우, 평가한 문서의 표절률, 평가 유형을 확인할 수 있다 / 출처=무하유

‘평가 시작’을 클릭하면 몇 분 후 검사가 완료된다. 무료 이용권이라면 표절률만 확인 가능하다. 유료 이용권의 경우, 평가한 문서의 표절률, 평가 유형을 확인할 수 있다. 본문을 클릭하면 해당하는 문장의 상세평가 결과를 확인할 수 있다. GPT 아이콘을 클릭하면 GPT 작성 의심 영역에 대한 상세 평가 결과를 확인할 수 있다. 본문에는 평과결과에 따라 빨강, 보라, 검정 등 다른 색깔로 표시된다. 예컨대, GPT가 작성한 문장으로 의심되면 보라색으로 표시된다.

이때 주의할 점은 카피킬러와 GPT 킬러는 참고용이라는 점이다. 카피킬러는 검사문서와 비교문서의 문장별 유사성을 표절률로 표시하는 정도로, 카피킬러는 표절 여부에 대한 최종 판정은 하지 않는다. 무하유는 “검사문서의 표절 여부에 대한 판단은 해당 학계의 의견을 고려하여 회원의 책임하에 이루어져야 한다”고 덧붙였다.

무하유는 문서 표절 검사를 넘어 표이미지 검사, 문서 작성 서비스 등을 함께 제공한다 / 출처=IT동아
무하유는 문서 표절 검사를 넘어 표이미지 검사, 문서 작성 서비스 등을 함께 제공한다 / 출처=IT동아

한편, 무하유는 문서 표절 검사를 넘어 표이미지 검사, 문서 작성 서비스 등을 함께 제공한다. 향후에는 논문 표절을 넘어 수식이 많은 실험 보고서, 프로그래밍 코드 등도 탐지하도록 솔루션 범위를 확장할 계획이다. 무하유는 일본, 중국 등 해외 시장에도 진출해 서비스를 확장하고 있으며, 2026년 상반기 코스닥 상장을 앞두고 있다.

AI가 생성한 문서와 사람이 작성한 문서는 구체성과 일관성에서 차이를 보일 수 있지만, 점점 그 경계는 흐릿해져가고 있다. AI가 진화하는 만큼 사람처럼 자연스러운 글쓰기가 가능해지고, 반대로 사람은 AI가 작성한 글을 참고하며 그 스타일과 닮아지기도 한다. 양질의 글을 찾기 어려운 시대다. 독창적이고 개성이 드러나는 글을 가려내기 쉽지 않은 가운데, AI 서비스 사용은 점점 늘어날 수밖에 없지만 그 용도와 범위는 스스로 판단해야 한다. 특히 논문 표절은 학계 발전을 저하할 수 있는 논문 작성 시 범위에 대한 기준은 스스로 엄하게 두는 편이 필요하다.

IT동아 김예지 기자 (yj@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.