AI 커닝 사태 일파만파...부정행위 막을 기술 살펴보니
[IT동아 김동진 기자] 최근 국내 명문대학교에서 생성형 인공지능(AI)을 활용한 대규모 부정행위가 발생해 학계와 사회에 충격을 안겼다. 비대면 감시 시스템을 뚫고 대규모 부정행위가 발생하자, AI 시대 평가 시스템 전체가 흔들리고 있다는 우려의 목소리가 나온다. 동일한 사태를 막기 위한 새로운 감독, 인증 기술 개발에 속도가 붙을 전망이다.

연세대 집단 커닝 사태…AI 시대 평가 시스템을 흔들다
최근 연세대 신촌캠퍼스에서 3학년 대상 강의인 ‘자연어처리(NLP)와 챗GPT’ 중간고사가 치러졌다. 약 600명이 수강하는 대형 강의로, 해당 수업의 중간고사는 비대면으로 진행됐다.

연세대는 온라인으로 시험을 치르는 만큼, 컴퓨터 화면과 손, 얼굴이 나오도록 영상을 찍어 제출하는 강도 높은 감독 방식을 도입했다. 하지만 감독관이 이를 확인하는 과정에서 다수 학생이 복수 프로그램을 띄우거나 화면 전환을 반복하는 등 감독 조건을 회피한 정황을 포착했다.
부정행위를 저지른 학생이 몇 명인지 정확히 알 수는 없으나, 부정행위자는 시험 응시자의 절반 이상일 것으로 추측된다. 연세대 학생 커뮤니티 ‘에브리타임’ 게시판에 한 학생이 이번 사태와 관련해 양심껏 투표해 보자며 설문조사를 올렸다. 그 결과 9일 기준 387명이 설문에 응했고 ‘커닝했다’는 응답이 211명에 달했다. 직접 풀었다는 응답은 176명이었다. 이 과정에서 (비대면 시험에서) 대부분이 챗GPT를 사용해서 시험을 치른다는 증언도 나왔다.
학교 측은 부정행위 적발 시 0점 처리 방침을 밝히고 조사를 진행 중이다. 그러나 이 사건이 던진 파문은 단순 징계를 넘어선다. 학생들 사이에 “시험에서 AI를 사용하지 않으면 불리하다, 손해를 본다”는 인식이 팽배하기 때문이다.
해외에서도 터져 나온 ‘AI 커닝’…전 세계 교육계 공통된 고민
연세대 AI 커닝 사태와 같은 문제는 세계 곳곳에서도 발생한다.
영국 일간지 가디언은 2023년~2024년 한 해 동안 영국에서 약 7000명에 달하는 대학생이 AI로 부정행위를 저질러 적발됐다고 보도했다. 벨기에 영자 신문인 브뤼셀 타임스의 보도에 따르면, 벨기에와 스코틀랜드를 비롯한 유럽 대학들은 ‘챗GPT 등장 후 과제나 리포트의 동일한 문장 구조와 해설 패턴 등 AI를 악용한 부정행위가 급증했다’고 공식 발표했다. 미국 주요 대학들도 온라인 시험 중 AI 활용을 포착했으나, 탐지 기술 부족으로 제재가 쉽지 않다는 교수·기관 보고를 연이어 발간했다.
해외에서는 이같은 문제를 개선하기 위해 AI 기반 부정행위 차단 기술이 속속 등장한다. AI로 수험자의 행동을 분석해 부정행위를 실시간 탐지하는 방식이다.
예컨대 ▲눈동자 움직임과 시선 이동 패턴을 분석해 화면 밖을 지속해서 보는 행위를 감지하는 ‘시선 추적’ ▲시험 중 타인이 등장하거나 본인이 자리를 비우면 즉시 경고하는 ‘얼굴 인식’ ▲화면 전환·멀티 프로그램 실행·검색 시도 등을 자동 추적하는 ‘화면 패턴 분석’ ▲마우스 움직임이나 키 입력, 응답 시간 패턴을 기록해 비정상적 행동을 판별하는 ‘의심 행동 로그 축적’ 등의 기술이다. 이미 미국과 유럽 일부 대학에서는 이같은 AI 감독 시스템 도입을 필수로 적용 중이다.
우리나라에서도 AI 커닝 사태를 방지할 기술 개발과 도입 움직임이 포착된다. 일례로 에듀테크 기업 악어에듀는 고려대학교 정보창의연구소와 손잡고 AI 커닝 사태를 방지할 지능형 시험 관리·감독 시스템을 공동 개발 중이다.

해당 시스템은 ▲실시간 모니터링 ▲자동 부정행위 감지 ▲응시 데이터 관리 기능을 하나의 플랫폼에서 통합 제공한다. 관리자는 대시보드 한 화면에서 전체 응시자의 상태를 실시간으로 파악할 수 있으며, 이상 행위가 감지되면 자동으로 이벤트를 기록하고 즉시 알림을 보낸다.
특히 부정행위 의심 이벤트가 발생할 경우, 해당 시점의 화면 녹화 영상을 자동 저장해 관리자가 사후 검토 시 객관적인 근거 자료로 활용하도록 돕는다. 타임라인 형태로 기록을 정리해 언제 어떤 행위가 있었는지 객관적으로 판별할 수 있다.

AI 모델은 응시 중 발생한 행동 패턴을 분석해 위험 지수(Risk Score)를 산출하고, 감독자는 이 내용을 확인해 고위험 응시자를 실시간으로 식별할 수 있다. 시험 종료 후에는 응시자별 성적뿐 아니라 부정행위 의심 로그를 데이터로 내려받아 분석·보관할 수 있다.
강태환 악어에듀 대표는 “지능형 시험 관리·감독 시스템은 소규모 수업부터 수백 명 규모의 대형 시험까지 안정적으로 운영할 수 있는 AI 기반 평가 플랫폼이다. 서술형, 객관식, 코딩 등 문제 유형에 관계없이 다양한 평가 환경을 지원한다”며 “우선 내년 고려대에서 치르는 온라인 시험에 지능형 시험 관리·감독 시스템 적용을 목표로 연구 개발 중이며, AI 커닝 사태를 방지하기 위해 추후 다양한 교육 기관을 대상으로 시스템을 공급할 예정”이라고 말했다.
교육계에서는 AI 활용 자체를 인정하되 다양한 평가 방식을 도출해야 한다는 목소리도 나온다. AI가 필수 활용 도구로 자리잡았음을 인정하고 어떻게 시대에 맞춰 학생의 성취도를 평가할지 다각도로 고민해야 한다는 시각이다.
최승재 세종대 법학과 교수는 “개인적으로 강의 시 AI 악용을 막기 위해 페이퍼 과제 제출에 큰 점수를 부여하지 않는다. 대신 그 내용을 학생들 앞에서 발표하도록 해 평가한다. AI로 페이퍼를 준비하더라도 그 내용을 자신의 것으로 만들지 못하면 높은 점수를 받기 어려운 방식을 적용해 학습을 유도한다”며 “이번 연세대 커닝 사태와 관련해 AI를 악용한 부정행위는 우리나라만의 문제라기보다는 전 세계에 나타나는 현상이라고 본다. AI를 능숙하게 활용하는 인재가 높은 생산성을 보이는 현 상황에서 대학이 어떤 인재를 길러야 하고 교육을 통해 무엇을 가르쳐야 할지 본질적인 질문을 던져야 할 시점이라고 본다. 이같은 논의를 다각도로 풍부하게 진행해 제도적인 대안을 마련할 필요가 있다”고 말했다.
IT동아 김동진 기자 (kdj@itdonga.com)

