스켈터랩스, 인공지능 기반 대화엔진 정확도와 재현율 테스트 공개
[IT동아 권명관 기자] 인공지능(AI) 기술 기업 스켈터랩스(대표: 조원규)가 자사의 AI 기반 대화엔진 인텐트 분류에 대한 자체 성능 테스트 결과를 공개하며, 대화형 인공지능 시장에서의 영역 확장 계획을 밝혔다.
스켈터랩스는 지난 6월 한국정보화진흥원이 인공지능 학습용으로 공개한 250만 건의 데이터 중 소상공인 및 공공민원 분야에 대한 총 10만 건의 한국어 대화 데이터를 활용해 테스트를 진행했다. 이번 테스트는 총 600개 인텐트(intent, 질문 의도)를 대상으로 스켈터랩스 대화엔진을 글로벌 기업 A, B사 엔진과 비교했다.
그 결과, 스켈터랩스는 72%, 글로벌 A사와 B사는 모두 65%의 F1 스코어(F1 Score)를 기록했다. F1 스코어는 정밀도(precision, 스켈터랩스: 73%, A사: 64%, B사: 65%))와 재현율(recall, 스켈터랩스: 70%, A사: 67%, B사: 66%)을 모두 고려한 종합값으로 인공지능 기술의 분류 평가 수치 중 하나이며, F1 스코어가 높다는 뜻은 그만큼 질문의 의도를 정확히 파악한다는 의미이다.
스켈터랩스 대화엔진은 규칙 기반(Rule-based) 의도 분류와 머신러닝 기반(Machine learning-based) 의도 분류를 활용해 정밀도와 재현율을 구현할 수 있다. 규칙 기반 의도 분류는 적은 샘플 문장만으로도 의도 규칙을 자동 생성하며, 머신러닝 기반 의도 분류는 규칙만으로 처리하기 어려운 문장 변이 패턴 모델링을 가능하게 한다. 따라서 대화형 에이전트(Agent, 비서나 챗봇 등 자율적으로 정보를 처리하는 시스템) 설계자가 예측한 샘플 문장 수준을 넘어서 사람들의 자연스럽고 변칙적인 대화의 의도를 파악할 수 있다.
이번 기술 성능 테스트를 총괄한 스켈터랩스 조성진 CTO는 "인공지능 기술 개발 경쟁력은 데이터 확보 여부에 많이 달려있다. 이번 한국정보화진흥원이 공개한 250만여 인공지능 학습용 데이터는 스타트업의 기술 개발 과정에 자산이 되었다"라며, "이번 테스트로 글로벌 기업 대비 탁월한 인텐트 분류 정확도를 확인했다. 특히, 600개 인텐트로 70%가 넘는 수치를 기록한 것은 스켈터랩스 대화엔진의 실용적 가치를 의미한다. 인공지능 기술 고도화에 집중한 노력의 산물이라고 생각하며, 앞으로도 한국어 외 다양한 언어에 적용했을 때도 유사한 수준의 정확도를 실현할 수 있도록 기술 수준을 높여갈 계획"이라고 말했다.
글 / IT동아 권명관(tornadosn@itdonga.com)