메뉴

로이슈

검색

범죄학·범죄심리학

AI 배심원, 인간보다 더 공정할까?…"AI 배심원 인간보다 유죄 판단 2.3배 적어"

[크라임 렌즈] 인간 배심원의 유죄 판단 기준을 다시 묻다
- "AI가 법적 기준 더 충실히 따랐다"…'합리적 의심' 원칙 제대로 적용

2025-12-20 21:39:59

형사들이 오랜 시간 공을 들여 범인을 추적하고 증거를 수집한 노력은, 최종 선고 결과를 납득하기 어려울 때 가장 허탈하게 느껴질지 모른다. 뉴스나 범죄 실화 프로그램을 통해 사건을 접한 시청자들 역시 상식과 동떨어진 형량에 탄식을 내뱉는 경우가 적지 않다. 터무니없이 짧은 형이 선고된 사건이 보도될 때마다, 온라인에서는 "차라리 판사를 AI로 바꾸자"는 반응이 반복적으로 등장한다.

그러나 형사사법에서 중요한 것은 단순히 '강한 처벌'이 아니라, 법과 증거에 기초한 정확한 판단이다. 그렇다면 인간과 AI 중 누구의 판단이 더 법에 충실할 수 있을까?

지난 28년간 교차문화 심리학을 가르친 로렌스 화이트(Lawrence T. White) 명예교수는 최근 <Law and Human Behavior> 저널에 실린 AI 배심원 연구를 소개하며, AI 배심원의 가능성에 대한 견해를 <사이콜로지 투데이(Psychology Today)>에 기고했다. AI 배심원에 관한 기존 연구와 화이트 교수의 분석을 통해, AI 배심원과 인간 배심원의 차이를 살펴본다.

선(Sun) 등(2024)의 연구에 따르면 AI 배심원은 전체 사건 중 21%에서만 유죄 평결을 내린 반면, 인간 배심원은 49%에서 유죄를 선택해 2.3배의 차이를 보였다. 연구진은 &quot;인간 배심원은 법이 요구하는 '합리적 의심을 넘어'라는 증명 기준을 65% 수준으로 낮게 해석한다&quot;며 &quot;AI 배심원이 법적 기준을 보다 충실히 따른다는 점에서 형사사법 시스템의 정확성 향상 가능성을 시사한다&quot;고 강조했다. / 이미지 디자인=로이슈 AI 디자인팀 (*본 이미지는 기사내용의 이해를 돕기 위해 AI로 생성한 것입니다.)이미지 확대보기
선(Sun) 등(2024)의 연구에 따르면 AI 배심원은 전체 사건 중 21%에서만 유죄 평결을 내린 반면, 인간 배심원은 49%에서 유죄를 선택해 2.3배의 차이를 보였다. 연구진은 "인간 배심원은 법이 요구하는 '합리적 의심을 넘어'라는 증명 기준을 65% 수준으로 낮게 해석한다"며 "AI 배심원이 법적 기준을 보다 충실히 따른다는 점에서 형사사법 시스템의 정확성 향상 가능성을 시사한다"고 강조했다. / 이미지 디자인=로이슈 AI 디자인팀 (*본 이미지는 기사내용의 이해를 돕기 위해 AI로 생성한 것입니다.)
■ AI 배심원이 더 정확할 수 있다는 가설


AI 배심원이 인간보다 우수할 수 있다는 주장의 핵심은 판단 과정의 특성에 있다. AI는 피로하지 않고 집중력을 유지하며, 중요한 정보를 잊지 않는다. 24시간 작동이 가능하고, 비용이 들지 않으며, 다른 배심원의 의견에 영향을 받지 않는다.

또한 AI는 인간보다 편향이 적을 가능성도 제기된다. 피고인의 인종이나 사회적 지위처럼 법적으로 고려 대상이 되어서는 안 되는 요소들이 인간 배심원에게는 무의식적으로 영향을 미칠 수 있지만, AI는 상대적으로 그런 영향을 덜 받을 수 있다는 설명이다.

■ 가상의 형사사건에서 AI와 인간 배심원 비교

지난달 <Law and Human Behavior>에 게재된 연구에서 용지에 선(Yongjie Sun)과 동료들은 가상의 형사사건을 설정해 AI 배심원과 인간 배심원의 판단을 비교했다. AI 배심원은 세 가지 대형언어모델(LLM)—오픈AI의 챗GPT 두 버전과 앤트로픽의 클로드—이었고, 인간 배심원은 대학생 752명이었다. 모든 참가자는 성폭력 혐의 사건의 증언 증거를 검토한 뒤 평결을 내렸다.

■ 네 가지 '법외적 요인'을 조작한 연구 설계

선 연구팀은 법적으로 유죄 판단에 영향을 미쳐서는 안 되는 네 가지 요인을 설정했다. 연구에서는 ▲피고인의 인종(흑인·백인), ▲사회적 지위(치과의사·조경사), ▲고소인의 수(1명·5명), ▲사건 신고까지 경과한 시간(5년·20년·35년)을 조작했다.

연구진은 네 가지 요소를 조합해 총 24개의 재판 기록(transcript)을 제작했다. 각 기록은 변론, 증인 진술, 최종 변론, 판사의 지시사항을 포함한 8쪽 분량이었다. 인간 배심원은 24개 버전 중 하나를 배정받았고, AI 배심원은 모든 버전을 검토했다. 참가자들은 이후 피고인의 유죄 확률(0~100%)을 추정하고, 유죄 또는 무죄 평결을 내렸다.

■ 판단 방식은 유사… 그러나 평결 빈도는 달랐다

연구 결과, 대부분의 판단 양상에서 AI 배심원과 인간 배심원의 반응은 유사했다. 두 집단 모두 고소인이 5명일 때 유죄 가능성을 더 높게 평가했고, 피고인이 백인일 경우에도 유죄 확률을 높게 보았다. 인간 배심원의 평균 유죄 확률 평가는 59%, AI는 64%로 큰 차이는 없었다.

연구팀은 "LLM은 인간보다 판단의 일관성은 높았지만, 인종이나 다수 고소인 사건에서 인간과 유사한 편향을 보였다"며, AI가 아직 인간 배심원을 완전히 대체할 수준은 아니라고 결론지었다. 그러나 화이트 교수는 연구에서 보다 주목해야 할 지점은 평결 결과의 차이라고 지적했다.

■ AI는 훨씬 덜 유죄를 선고했다

AI 배심원은 전체 사건 중 21%에서만 유죄 평결을 내렸지만, 인간 배심원은 49%에서 유죄를 선택했다. 두 집단 모두 유죄 가능성을 비슷하게 평가했음에도, 인간 배심원이 2.3배 더 자주 유죄를 선고한 것이다.

왜 차이가 발생했을까? 화이트 교수는 원인을 배심원이 적용하는 '증명 기준'에서 찾았다.

■ "합리적 의심을 넘어"… 실제로는 제대로 지켜지지 않는다

형사재판에서 유죄 판단 기준인 '합리적 의심을 넘어(beyond a reasonable doubt)'는, 일반적으로 배심원이 피고인의 범행에 대해 80~90% 이상의 확신을 가질 때 적용돼야 한다. 확신 수준이 75%에 그친다면, 합리적 의심이 남아 있으므로 무죄 평결이 타당하다.

하지만 실제로는 다르다. 여러 연구에 따르면 다수의 배심원은 법적 기준을 훨씬 낮게 해석한다. 한 연구에서는 배심원 자격이 있는 성인들이 55~70% 수준의 확신이면 유죄 선고가 가능하다고 인식한 것으로 나타났다(Horowitz & Kirkpatrick, 1996). 또 다른 연구에서는 대학생들이 유·무죄 판단의 경계선을 유죄 확률 63%로 설정했다(Wright & Hall, 2007).

매그너슨(Magnussen) 등(2014)의 연구에서도 모의 배심원들은 유죄 판단에 필요한 확신 수준을 평균 68%로 인식했다. 화이트 교수는 연구 결과에 대해 "법이 요구하는 기준과는 상당한 괴리가 있다"고 평가했다.

■ '65% 넘으면 유죄'… 법의 기준과는 달랐다

화이트 교수는 변호사 마이클 치키니(Michael Cicchini)와 함께, 미국 45개 주의 배심원 자격 성인 495명을 대상으로 실험을 진행한 바 있다(White & Cicchini, 2019). 참가자들은 증거 강도에 차이가 있는 네 가지 사건 요약— 증거가 강한 폭행 사건, 증거가 약한 폭행 사건, 증거가 강한 무단침입 사건, 증거가 약한 무단침입 사건—을 무작위 순서로 읽었다.

그 결과, 약 90%의 참가자가 "검찰 측 증거가 65% 이상 유리하면 유죄"라는 단순 기준을 적용한 것으로 나타났다. 참가자들이 적용한 기준은 헌법과 형사법이 요구하는 증명 수준과는 분명한 차이가 있다.

■ AI 배심원 vs. 인간 배심원, 당신의 선택은?

인간 배심원은 법이 요구하는 증명 기준을 충분히 이해하지 못하거나, 이해하더라도 실제 판단에서는 기준을 적용하지 않는 경향이 있다. 그 결과, 기준보다 낮은 확신 수준에서도 유죄 평결을 내릴 가능성이 높다.

반면 선 등(2025)의 연구에서 AI 배심원은 "유죄가 매우 확실한 경우에만" 유죄 평결을 내리는 경향을 보였다. 화이트 교수는 AI 배심원의 판단 방식을 두고 "AI 배심원이 법적 기준을 보다 충실히 따랐다는 신호"라고 해석했다.

화이트 교수는 글 말미에서 독자들에게 묻는다. "만약 당신이 형사재판을 받게 된다면, 인간 배심원과 AI 배심원 중 누구 앞에 서고 싶은가." 그리고 솔직히 말해, 자신은 기계 쪽을 선택할지도 모르겠다고 덧붙였다.

▶ 원문 기사 출처
“Can AI Jurors Perform Better than Humans?” Lawrence T. White, Ph.D., 2025.11.23. .

▶ 기사에 언급된 연구논문 (언급 순서 순)
- Sun, Y., Zappalà, A., Di Maso, E., Pompedda, F., Nyman, T. J., & Santtila, P. (2025). Large language models (LLMs) as jurors: Assessing the potential of LLMs in legal contexts. Law and Human Behavior. Advance online publication. https://dx.doi.org/10.1037/lhb0000620
- Horowitz, I. A., & Kirkpatrick, L. C. (1996). A concept in search of a definition: The effects of reasonable doubt instructions on certainty of guilt standards and jury verdicts. Law and Human Behavior, 20(6), 655-670.
Wright, D. B., & Hall, M. (2007). How a “reasonable doubt” instruction affects decisions of guilt. Basic and Applied Social Psychology, 29(1), 91-98.
- Magnussen, S., Eilertsen, D. E., Teigen, K. H., & Wessel, E. (2014). The probability of guilt in criminal cases: Are people aware of being “beyond reasonable doubt”? Applied Cognitive Psychology, 28(2), 196-203.
White, L. T., & Cicchini, M. C. (2019). Is reasonable doubt self-defining? Villanova Law Review, 64, 1-24.

김지연(Jee Yearn Kim) Ph.D.
독립 연구자로 미국 신시내티 대학교 형사정책학 박사 학위를 취득했다. 주요 연구 및 관심 분야는 범죄 행위의 심리학(Psychology of Criminal Conduct), 범죄자 분류 및 위험 평가(Offender Classification and Risk Assessment), 효과적인 교정개입의 원칙(Principles of Effective Intervention), 형사사법 실무자의 직장내 스트레스 요인, 인력 유지 및 조직행동(Workplace Stressors, Retention, and Organizational Behavior of Criminal Justice Practitioners), 스토킹 범죄자 및 개입 방법(Stalking Offenders and Interventions)이다.


김지연 형사정책학 박사 cjdr.kim@gmail.com
로이슈가 제공하는 콘텐츠에 대해 독자는 친근하게 접근할 권리와 정정·반론·추후 보도를 청구 할 권리가 있습니다.
메일: law@lawissue.co.kr 전화번호: 02-6925-0217
리스트바로가기
상단으로 이동