이미지 확대보기동국대학교에 따르면 컴퓨터·AI학과 인공지능전공 정승원, 정지우, 김현진, 이윤석 석사과정생과 이우진 교수가 참여한 논문 ‘SlotGCG: Exploiting the Positional Vulnerability in LLMs for Jailbreak Attacks’가 오는 4월 개최되는 국제 학회 ICLR 2026(International Conference on Learning Representations)에 채택돼 발표될 예정이다.
이번 연구는 거대언어모델 보안 우회 공격 방식의 구조적 취약점을 분석하는 데 초점을 맞췄다. 기존 연구가 프롬프트 끝부분에 토큰을 추가하는 방식에 집중해 왔다는 점에 주목해, 연구팀은 프롬프트 내부 특정 위치의 취약 지점을 분석했다.
연구팀은 프롬프트 내 취약 지점을 정량화하기 위한 지표인 Vulnerable Slot Score(VSS)를 제시하고, 이를 기반으로 새로운 공격 프레임워크 ‘SlotGCG’를 제안했다.
연구팀에 따르면 해당 방식은 AdvBench 데이터셋과 Llama, Mistral, Vicuna, Qwen 등 공개 거대언어모델을 대상으로 한 실험에서 기존 방법보다 평균 약 14% 높은 성능을 보였으며, 처리 속도는 최대 10배 빠른 것으로 나타났다. 방어 기법이 적용된 환경에서도 기존 방식보다 29% 높은 공격 성공률을 보였다.
이우진 교수 연구팀은 이번 연구가 거대언어모델의 취약성을 분석하고 방어 체계 개선을 위한 기초 자료로 활용될 수 있다고 설명했다.
연구팀 관계자는 “프롬프트 내 위치별 취약성을 정량적으로 분석해 거대언어모델의 안전성 평가와 방어 기술 연구에 활용할 수 있도록 했다”고 말했다.
전여송 로이슈(lawissue) 기자 arrive71@lawissue.co.kr
<저작권자 © 로이슈, 무단 전재 및 재배포 금지>
메일: law@lawissue.co.kr 전화번호: 02-6925-0217
