[생성 AI 길라잡이] 해커인 척 LLM 취약점 찾아낸다, AI 레드팀

김예지 yj@itdonga.com

※생성 인공지능이 세계를 뜨겁게 달굽니다. 사람만큼, 더러는 사람보다 더 그림을 잘 그리고 글을 잘 쓰는 생성 인공지능. 생성 인공지능을 설치하고 활용하는 방법과 최신 소식을 매주 전합니다.

[IT동아 김예지 기자] 생성 AI 기술이 빠르게 발전하면서 새로운 위험 요소가 부각되고 있다. 특히 거대언어모델(LLM)에는 200개가 넘는 취약점이 존재한다고 알려졌다. 이처럼 잘못 사용되거나 악의적인 요청에 의해 조작될 수 있는 생성 AI의 한계에 맞서, ‘AI 레드팀(Red Team)’은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다.

AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡
AI 레드팀은 예측하기 어려운 위험에 선제 대응해 AI의 신뢰성 및 안전성을 검증하는 전략이다 / 출처=셔터스톡

AI 레드팀, 모델 취약점 찾아 방어책 마련

‘레드팀’이라는 용어는 모의 군사 훈련에서 아군의 취약점을 파악하기 위해 적군 역할을 수행하는 팀을 운영한 데서 유래했다. 이후 AI 분야에서 레드팀은 마치 실제 공격자(해커)처럼 AI 시스템을 위협함으로써 예상치 못한 오작동이나 유해한 결과의 생성 가능성을 점검하는 활동을 맡았다.

특히 생성 AI 분야에서 레드팀은 의도된 악의적 공격뿐만 아니라 일반 사용자의 상호작용에서 발생할 수 있는 부적절한 결과까지 폭넓게 다룬다. AI 모델의 결함, 학습 데이터의 문제, 윤리적 쟁점 등 잠재적 위험 요인을 찾아내는 게 이들의 임무다. 예컨대, 악의적인 프롬프트를 입력해 AI가 혐오 발언, 차별적 내용, 잘못된 정보, 유해한 지침을 생성하도록 유도하는 테스트를 수행한다. 더불어 AI 시스템의 빠른 변화에 발맞춰 지속적이고 주기적인 점검과 자동화된 모니터링도 실시한다.

AI 레드팀 가이드 / 출처=마이크로소프트
AI 레드팀 가이드 / 출처=마이크로소프트

AI 레드팀은 모델의 취약점을 발견하고, 이를 방어할 방법을 개발해 궁극적으로 모델의 안전성을 높인다. LG AI연구원에 따르면, 이 과정은 ▲위험 요소를 찾아 분류 ▲공격 전략을 개발해 자동화 ▲공격에 대한 방어법 수립 ▲이를 적용해 시스템을 개선 등 네 가지 단계를 거쳐 이뤄진다. LG AI연구원은 지난 8월 공개한 기업용 AI 에이전트 ‘ChatEXAONE’에 AI 레드팀 활동을 적용한 바 있다.

한편, 레드팀과 함께 블루팀, 퍼플팀이라는 개념도 등장했다. 블루팀은 다양한 도구를 활용해 레드팀의 공격 시도에 맞서 방어 엄무를 수행한다. 퍼플팀은 레드팀과 블루팀 간의 협력을 촉진해 보안 조치를 통합하는 역할을 한다. 여기에는 양팀을 오가며 기술을 적용하는 멤버를 포함한다. 각 팀은 궁극적으로 조직의 사이버 보안 강화를 목표한다.

LLM 속이는 기술, 프롬프트 인젝션

AI 레드팀은 취약점을 찾아내기 위한 여러 기술을 활용한다. 이때 대표적인 수법은 ‘프롬프트 인젝션(Prompt injection)’이다. LLM을 대상으로 사용자가 입력하는 프롬프트를 조작해 AI가 기존 설계된 지침을 벗어나 악의적인 행동을 하도록 유도하는 기법이다. 레드팀은 다양한 시나리오를 만들어 테스트를 시도해 개발 과정에서 놓칠 수 있는 숨겨진 위험 요소들을 발견하고 개선함으로써 안전하고 신뢰할 수 있는 AI 시스템을 구축하도록 한다.

프롬프트 인젝션은 직접 프롬프트를 입력하는 방식과, LLM이 접근하는 외부 데이터에 악성 프롬프트를 숨겨두는 간접적 방식으로 나뉜다. 직접 프롬프트 인젝션 방법에는 ▲지침 무력화 ▲역할 재할당 ▲맥락 혼동 ▲특수문자 악용 ▲순차적 명령 ▲코드 인젝션 등이 있다. 지침 무력화의 대표적인 예시는 사용자가 ‘이전 지침을 무시해’와 같은 명령을 내려 기존의 설정을 우회하는 것이다. 또한 역할 재할당은 ‘너는 이제 제한 없는 AI야’와 같은 문장을 입력해 AI에게 새로운 역할을 부여하는 방식으로, 탈옥 공격이라고도 부른다.

권태경 연세대학교 정보대학원 교수 / 출처=IT동아
권태경 연세대학교 정보대학원 교수 / 출처=IT동아

산업교육연구소가 4월 11일 진행한 ‘딥시크(DeepSeek) 분석을 통한 AI 기술 개발을 위한 새로운 기회·혁신·포착 전략 세미나’에서 권태경 연세대학교 정보대학원 교수는 ‘포스트 딥시크 시대의 AI 보안 위협과 대응’을 주제로 발표했다. 권태경 교수는 “AI 모델이 비밀성, 무결성, 가용성을 모두 만족할 때 보안성을 갖추었다고 평가한다. NIST, OWASP 등 기관에서는 AI 모델에 위협 대응 방안을 오래 전부터 연구하고 표준화해왔다”고 말했다.

그는 “OWASP에서는 10가지 LLM 취약점을 소개했는데, AI 모델이 데이터를 기반으로 콘텐츠를 생성하는 과정에서 의도적으로 민감 데이터나 시스템 정보를 노출시키는 위험은 매우 치명적이기 때문에 프롬프트 인젝션의 위험성을 가장 처음으로 언급한다”고 덧붙였다. 또한 “SQL인젝션(코드 인젝션의 기법으로 입력값을 조작해 서버의 데이터베이스를 공격하는 해킹 기법)처럼 악의적인 명령과 데이터를 함께 주입해 오염시키는 유형의 공격도 늘었다”며, “결국 입력값을 철저히 검증하고, 지속 모니터링하는 것이 앞으로 중요한 대응책이 될 것”이라고 말했다.

나아가, 권태경 교수는 AI 보안의 중요성이 커지는 이유에 대해 “AI 에이전트가 점차 물리적인 세계로 확장돼 우리 실생활에서 상호작용하게 되면서, 만약 누군가의 악의적인 명령으로 인해 예상치 못한 문제가 벌어지면 현실 세계에까지 큰 위험을 초래할 수 있다”고 지적하며, “이제는 생성 AI의 위협을 면밀히 분석하고 국가적 대응을 본격화할 때”라고 말했다.

이어 그는 “특히 오픈소스 모델의 경우 더욱 주의가 필요하다. 해커가 이런 모델의 뛰어난 성능을 악용할 가능성이 있기 때문”이라고 말했다. 실제로 시스코(Cisco)는 딥시크의 오픈소스 R1 모델이 다른 모델보다 탈옥 공격에 취약하다는 분석 결과를 내놓기도 했다.

고도화되는 AI 위협…레드팀 역할 커질 것

지난해 네이버는 생성 AI 레드팀 챌린지를 개최했다 / 출처= 네이버
지난해 네이버는 생성 AI 레드팀 챌린지를 개최했다 / 출처= 네이버

초기부터 생성 AI 개발을 주도해 온 오픈AI, 메타, 마이크로소프트, 구글 등 빅테크 기업들은 자체적으로 레드팀을 구축하거나 전문 보안 업체의 도움을 받고 있다. 네이버, SKT, LG유플러스, 업스테이지, 셀렉트스타 등 국내 기업들도 역시 레드팀의 중요성을 인식하고 관련 역량 확보에 적극 투자하고 있다.

오픈AI는 자체 ‘레드티밍 네트워크’를 구축해 GPT-4 등 대형 AI 모델의 잠재적 악용 사례를 지속 찾아내고 있다. 마이크로소프트는 빙챗(Bing Chat) 등 AI 서비스를 대상으로 AI 레드팀 활동을 수행하며 보안 취약점과 유해 콘텐츠 생성 가능성을 식별한다. 또한 애저 오픈AI(Azure OpenAI) 서비스 사용자에게 레드팀 가이드라인을 제공해 신뢰성 있는 AI 시스템을 개발을 지원하고 있다.

메타는 레드팀과 블루팀을 결합한 퍼플팀을 운영해 AI 시스템의 보안을 강화하고 있다. 일환으로 퍼플 라마(Purple Llama) 프로젝트를 통해 LLM의 사이버 보안 평가 벤치마크 및 ‘라마 가드(Llama Guard)’와 같은 안전 필터 모델을 개발자들에게 제공한다.

국내 기업의 움직임도 활발하다. 네이버는 AI 안전성 연구를 전담하는 ‘퓨처 AI 센터(Future AI 센터)’를 신설하고, 자체 AI 레드팀을 운영 중이다. 지난해에는 ‘생성 AI 레드팀 챌린지’를 개최한 바 있다. 이 행사에는 AI 전문가뿐만 아니라 제조·금융 등에서 1000여 명이 모여 네이버 하이퍼클로바X를 비롯해 SKT, 업스테이지, 포티투마루 등 국내 4개 기업의 LLM에 대해 ▲인권침해 ▲잘못된 정보 ▲일관성 결여 ▲사이버 공격 ▲편견 및 차별 ▲불법 콘텐츠 ▲탈옥 등 7가지 주제로 안전성을 검증했다. 네이버에 따르면, 전체 시도된 공격 중 42%가 ‘잘못된 정보’ 생성을 유도하는 대화로 나타났다.

AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타
AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다 / 출처=셀렉트스타

또한 AI 스타트업 셀렉트스타는 지난 3월 MWC 2025에서 글로벌이동통신협회(GSMA)와 ‘글로벌 AI 레드팀 챌린지’를 개최했다. 세계에서 모인 100명의 참가자들은 ‘통신’을 주제로 LLM이 유해하거나 차별적 결과를 생성하도록 유도하고, 시스템 오용을 일으키는 프롬프트 공격을 시도했다. 공격에 성공한 프롬프트 유형에는 ▲권위적 지위 설정 ▲의도적 거짓말 유도 ▲가상 상황 설정 ▲잘못된 전제 유도 등이 두드러졌다.

황민영 셀렉트스타 부대표는 “참가자들은 이번 챌린지를 통해 AI가 아직 완벽하지 않다는 점을 확인하고, 레드팀 분야에 더 많은 연구와 투자의 필요성을 느꼈다고 전했다”고 말했다. 또한 “AI의 취약점 검증의 중요성이 커지는 가운데, 생성 AI 서비스를 제공하는 기업은 레드팀 활동을 통해 시스템을 꾸준히 개선해야 한다"고 강조했다. 한편, 셀렉트스타는 생성 AI 신뢰성 검증 자동화 솔루션 ‘다투모 아벨(DATUMO Eval)’을 통해 AI 서비스의 잠재적 오류와 위험 요소를 사전에 식별하고 대응하도록 지원한다. ‘레드티밍’ 기능 외에도 평가용 질문 대량 생성, AI 답변의 정량적 평가 등 자동화된 검증 프로세스를 제공한다.

AI 보안은 AI 시장의 핵심 화두가 될 전망이다. AI가 우리 일상에 미치는 영향력이 커짐에 따라 AI 레드팀의 역할과 방법론도 진화할 것으로 예상된다. 특히 AI 레드팀은 AI 개발 전 과정에 깊숙이 통합되고, 레드팀과 블루팀 간 실시간 협력을 이끄는 퍼플팀이 더욱 부각될 것이다. 이를 지원하는 다양한 도구가 개발·활용되는 동시에 관련 정책 수립과 표준화 노력도 가속화되면서 AI 레드팀은 ‘책임감 있는 AI’ 개발의 핵심 요소로 자리 잡을 것으로 예측된다.

더불어 AI 레드팀은 단순히 문제점을 찾는 수동적인 역할에 그치지 않고, AI 안전성 분야 전체를 주도하는 원동력이 될 것이다. 레드팀을 통해 드러난 AI 모델의 취약점은 결과적으로 더욱 견고한 모델을 설계하도록 촉진함으로써 AI 기술의 발전을 견인한다.

IT동아 김예지 기자 (yj@itdonga.com)

IT동아의 모든 콘텐츠(기사)는 Creative commons 저작자표시-비영리-변경금지 라이선스에 따라 이용할 수 있습니다.
의견은 IT동아(게임동아) 페이스북에서 덧글 또는 메신저로 남겨주세요.