[로이슈 편도욱 기자] AI 데이터 전문 기업 플리토가 아랍어 음성 데이터를 수집하는 신규 프로젝트를 시작했다고 10일 밝혔다.
이 프로젝트는 음성인식 모델의 아랍어 인식률을 개선하기 위해 기획됐다. 아랍어는 표준어 외 30개 이상의 방언이 존재하며, 구어체에서 표준어와 방언이 섞이는 현상이 빈번해 AI 학습 데이터 구축 난도가 높은 언어로 꼽힌다.
플리토는 자사 모바일 앱 내 기능을 활용해 아랍어 사용자들이 직접 참여하는 음성 데이터를 수집한다. 참여자가 문장을 읽어 녹음하면 AI 시스템이 발화한 방언 유형을 자동 판별한다.
글로벌 빅테크 기업들의 다국어 음성 데이터 수요 증가에 대응하기 위해 이번 프로젝트를 추진하게 됐다고 회사는 설명했다. 발화 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 정교한 학습용 데이터를 구축할 계획이다.
플리토 관계자는 "아랍어는 사용 인구에 비해 AI 학습용 데이터가 적은 저자원 언어"라며 "실제 사용 맥락을 반영한 데이터로 글로벌 AI 모델의 아랍어 인식 품질을 높이겠다"라고 말했다.
편도욱 로이슈 기자 toy1000@hanmail.net
이 프로젝트는 음성인식 모델의 아랍어 인식률을 개선하기 위해 기획됐다. 아랍어는 표준어 외 30개 이상의 방언이 존재하며, 구어체에서 표준어와 방언이 섞이는 현상이 빈번해 AI 학습 데이터 구축 난도가 높은 언어로 꼽힌다.
플리토는 자사 모바일 앱 내 기능을 활용해 아랍어 사용자들이 직접 참여하는 음성 데이터를 수집한다. 참여자가 문장을 읽어 녹음하면 AI 시스템이 발화한 방언 유형을 자동 판별한다.
글로벌 빅테크 기업들의 다국어 음성 데이터 수요 증가에 대응하기 위해 이번 프로젝트를 추진하게 됐다고 회사는 설명했다. 발화 패턴, 억양, 어휘 선택 등 언어적 다양성이 반영된 정교한 학습용 데이터를 구축할 계획이다.
플리토 관계자는 "아랍어는 사용 인구에 비해 AI 학습용 데이터가 적은 저자원 언어"라며 "실제 사용 맥락을 반영한 데이터로 글로벌 AI 모델의 아랍어 인식 품질을 높이겠다"라고 말했다.
편도욱 로이슈 기자 toy1000@hanmail.net
<저작권자 © 로이슈, 무단 전재 및 재배포 금지>
메일: law@lawissue.co.kr 전화번호: 02-6925-0217

