동국대 이우진 교수 연구팀, LLM 안전 취약점 분석 연구 ICLR 2026 채택

(왼쪽부터) 이우진 교수, 정승원 석사과정, 정지우 석사과정, 김현진 석사과정, 이윤석 석사과정. 사진=동국대

[로이슈 전여송 기자] 동국대학교 컴퓨터·AI학부 이우진 교수 연구팀이 거대언어모델의 안전성 취약점을 분석한 연구 논문이 국제 인공지능 학회 ICLR 2026에 채택됐다고 16일 밝혔다.

동국대학교에 따르면 컴퓨터·AI학과 인공지능전공 정승원, 정지우, 김현진, 이윤석 석사과정생과 이우진 교수가 참여한 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’가 오는 4월 개최되는 국제 학회 ICLR 2026(International Conference on Learning Representations)에 채택돼 발표될 예정이다.

이번 연구는 거대언어모델 보안 우회 공격 방식의 구조적 취약점을 분석하는 데 초점을 맞췄다. 기존 연구가 프롬프트 끝부분에 토큰을 추가하는 방식에 집중해 왔다는 점에 주목해, 연구팀은 프롬프트 내부 특정 위치의 취약 지점을 분석했다.

연구팀은 프롬프트 내 취약 지점을 정량화하기 위한 지표인 Vulnerable Slot Score(VSS)를 제시하고, 이를 기반으로 새로운 공격 프레임워크 ‘SlotGCG’를 제안했다.

연구팀에 따르면 해당 방식은 AdvBench 데이터셋과 Llama, Mistral, Vicuna, Qwen 등 공개 거대언어모델을 대상으로 한 실험에서 기존 방법보다 평균 약 14% 높은 성능을 보였으며, 처리 속도는 최대 10배 빠른 것으로 나타났다. 방어 기법이 적용된 환경에서도 기존 방식보다 29% 높은 공격 성공률을 보였다.

이우진 교수 연구팀은 이번 연구가 거대언어모델의 취약성을 분석하고 방어 체계 개선을 위한 기초 자료로 활용될 수 있다고 설명했다.

연구팀 관계자는 “프롬프트 내 위치별 취약성을 정량적으로 분석해 거대언어모델의 안전성 평가와 방어 기술 연구에 활용할 수 있도록 했다”고 말했다.

전여송 로이슈(lawissue) 기자 arrive71@lawissue.co.kr

로이슈가 제공하는 콘텐츠에 대해 독자는 친근하게 접근할 권리와 정정·반론·추후 보도를 청구 할 권리가 있습니다.
메일: law@lawissue.co.kr 전화번호: 02-6925-0217