제논, 시각 인지 기반 실행 AI 모델 '훈민 VLM 235B' 공개

[로이슈 편도욱 기자] 생성형 AI 기업 제논이 컴퓨터 화면 요소를 식별하고 직접 조작할 수 있는 시각 언어 모델(VLM) '훈민 VLM 235B'를 공개했다고 4일 밝혔다.

이 모델은 지난해 공개된 '훈민 32B'의 후속 버전으로, 범용 지능을 유지하면서 시각 인지와 업무 실행 능력을 강화했다. 컴퓨터 화면에서 원하는 위치를 클릭하는 '컴퓨터 유즈'와 웹 브라우저를 활용한 복잡한 작업 수행 능력에 초점을 맞췄다.

제논은 이 기술을 자사의 AI 솔루션 '원에이전트'에 적용해 사용자의 명령을 이해하고 직접 실행하는 '액셔너블 AI'의 완성도를 높일 계획이다. 향후 시각 인지 기술을 더 발전시켜 공정 자동화 장비나 서비스 로봇 제어 등 물리적 환경으로 확장할 방침도 밝혔다.

모델은 기존 서비스와의 동시 구동이 가능하도록 설계됐다. 내부 테스트 결과, 일상 업무 수행 및 미디어 도구 조작 등 다양한 실무 과제에서 기존 모델 대비 향상된 성능을 보인 것으로 나타났다.

한편, 제논은 이번 모델과 학습 데이터를 글로벌 AI 커뮤니티 허깅페이스에 전면 공개했다.

업체 관계자는 "이번 모델 업데이트를 시작으로 액셔너블 AI에서 피지컬 AI까지 기술력을 확장하겠다"며 "산업 현장의 AI 전환을 실질적으로 주도하는 기업으로 성장할 것"이라고 말했다.

편도욱 로이슈 기자 toy1000@hanmail.net

로이슈가 제공하는 콘텐츠에 대해 독자는 친근하게 접근할 권리와 정정·반론·추후 보도를 청구 할 권리가 있습니다.
메일: law@lawissue.co.kr 전화번호: 02-6925-0217