한림대동탄성심병원, AI 챗봇 무릎 인공관절수술 정보 정확도 비교 연구

[로이슈 전여송 기자] 한림대학교동탄성심병원이 인공지능(AI) 챗봇 5종의 무릎 인공관절수술 관련 답변 정확도를 비교한 연구 결과를 발표했다고 16일 밝혔다.

정형외과 송시영 교수 연구팀이 수행한 이번 연구는 ‘GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5의 무릎 인공관절수술 관련 질문 답변 비교 분석’을 주제로 진행됐다. 연구 결과는 정형외과·스포츠의학 분야 SCIE 학술지 ‘Orthopaedic Journal of Sports Medicine’ 올해 1월호에 게재됐다.

연구팀은 구글 검색 경향과 정형외과 전문의 자문을 토대로 환자들이 수술 전후에 자주 묻는 질문 43개를 선정했다. 질문은 수술 개요 및 과정, 수술 적응증과 결과, 부작용 및 합병증, 통증과 회복 과정, 수술 후 활동, 수술 대안 및 변형 술기 등 6개 영역으로 구성됐다.

연구에서는 동일한 질문을 GPT-3.5, GPT-4, GPT-4 Omni, Gemini Advanced, Gemini 1.5 등 5개 대형언어모델 기반 챗봇에 제시한 뒤 답변을 비교했다. 무릎 인공관절수술을 전문으로 하는 정형외과 전문의 2명이 블라인드 방식으로 답변의 정확도와 질문 적합성을 5점 리커트 척도로 평가했다.

분석 결과 GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 평균 정확도 4.8점 이상을 기록했고 질문과의 관련성은 100%로 평가됐다. Gemini Advanced는 평균 정확도 4.07점, 관련성 83.7%로 다른 챗봇보다 낮은 점수를 보였다. 일부 질문에서는 답변 대신 의료진 상담을 권유하는 안내가 제공된 사례도 확인됐다.

특히 수술 적응증과 수술 결과, 수술 대안 및 변형 술기 관련 질문에서 챗봇 간 점수 차이가 나타났다. GPT-3.5, GPT-4, GPT-4 Omni, Gemini 1.5는 높은 점수를 받은 반면 Gemini Advanced는 상대적으로 낮은 평가를 받았다.

송시영 교수는 “AI 챗봇이 무릎 인공관절수술 관련 정보를 비교적 정확하게 제공할 수 있는 것으로 나타났다”며 “환자 교육을 보조하는 도구로 활용 가능성을 확인했지만 수술 여부 결정은 의료진과 상담을 통해 이뤄져야 한다”고 말했다.

전여송 로이슈(lawissue) 기자 arrive71@lawissue.co.kr

로이슈가 제공하는 콘텐츠에 대해 독자는 친근하게 접근할 권리와 정정·반론·추후 보도를 청구 할 권리가 있습니다.
메일: law@lawissue.co.kr 전화번호: 02-6925-0217