구글, 70개 언어 실시간 통역 지원 '제미나이 3.5 라이브 트랜스레이트' 공개
구글이 음성 대 음성(Speech-to-Speech) 번역 기술의 새로운 이정표를 제시했다. 구글의 최고과학책임자(CSO) 제프 딘(Jeff Dean)은 최근 70개 이상의 언어를 실시간으로 통역하는 인공지능 모델 '제미나이 3.5 라이브 트랜스레이트(Gemini 3.5 Live Translate)'를 공식 발표했다. 이번 모델은 기존의 텍스트 기반 번역 과정을 거치지 않고 음성 신호를 직접 처리하는 방식을 채택해, 대화의 지연 시간을 최소화하고 자연스러운 어조와 감정까지 전달하는 데 주력했다.
구글의 음성 번역 연구는 지난 수십 년간 구글 번역(Google Translate)과 구글 어시스턴트(Google Assistant)를 통해 축적된 방대한 데이터와 알고리즘을 기반으로 한다. 과거의 번역 모델이 문장을 텍스트로 변환한 뒤 다시 음성으로 합성하는 다단계 방식을 사용했다면, 제미나이 3.5 라이브 트랜스레이트는 엔드 투 엔드(End-to-End) 학습을 통해 음성 데이터에서 직접 의미를 추출하고 타겟 언어로 변환한다. 이는 단순히 단어를 바꾸는 수준을 넘어, 화자의 억양과 말하기 속도까지 반영할 수 있는 기술적 진보를 의미한다.
이번 발표가 시장에 미칠 영향은 상당할 것으로 보인다. 현재 메타(Meta)의 '심리스M4T(SeamlessM4T)'나 오픈AI(OpenAI)의 GPT-4o 음성 모드 등이 실시간 통역 시장에서 치열하게 경쟁하고 있다. 구글은 70개 이상의 언어 지원이라는 광범위한 커버리지를 앞세워, 다국어 환경에서의 비즈니스 미팅이나 여행 등 실생활 활용도를 높이겠다는 전략이다. 특히 안드로이드 생태계와의 결합을 통해 스마트폰 기기 자체에서 구동되는 온디바이스(On-device) AI로의 확장 가능성도 열려 있다.
다만, 기술적 완성도와 별개로 해결해야 할 과제도 존재한다. 실시간 통역은 문맥 파악이 중요한데, 특정 언어권의 방언이나 문화적 관용구를 얼마나 정확하게 처리할 수 있는지가 관건이다. 또한, 실시간 데이터 처리 과정에서 발생하는 개인정보 보호 문제와 데이터 보안은 구글이 향후 서비스 상용화 과정에서 반드시 증명해야 할 영역이다. 과거 구글이 선보였던 '픽셀 버즈(Pixel Buds)'의 실시간 통역 기능이 초기 시장에서 기대만큼의 사용자 경험을 제공하지 못했던 사례를 반면교사 삼아, 이번 모델은 실제 대화의 흐름을 얼마나 끊김 없이 유지할 수 있을지가 성공의 척도가 될 것이다.
결론적으로 제미나이 3.5 라이브 트랜스레이트는 구글이 AI 모델의 멀티모달(Multimodal) 능력을 음성 영역으로 완전히 확장했음을 보여주는 사례다. 텍스트 중심의 LLM 경쟁이 음성 기반의 실시간 소통 도구로 이동함에 따라, 향후 글로벌 통신 시장과 번역 서비스 시장의 판도는 누가 더 자연스러운 '언어 장벽 없는 대화'를 구현하느냐에 따라 결정될 전망이다. 구글은 이번 모델을 통해 단순한 정보 검색 도구를 넘어, 인간의 소통을 보조하는 핵심 인프라로서의 입지를 다지려 하고 있다.
※ 이 바이라인은 AIDEN이 운영하는 가상의 편집 페르소나이며, 실존 인물이 아닙니다. 소개
한국 시장에 주는 의미
국내 통신사와 IT 기업들이 추진 중인 AI 통역 서비스는 텍스트 기반의 번역 품질을 넘어 음성 데이터의 감정과 억양을 처리하는 엔드 투 엔드 모델로의 전환 압박을 받게 되었다. 특히 안드로이드 생태계를 장악한 구글이 온디바이스 AI로 이 기능을 확장할 경우, 국내 제조사 및 소프트웨어 기업은 언어 장벽 해소를 넘어 문화적 맥락까지 이해하는 로컬라이제이션 경쟁에서 차별화된 전략을 마련해야 하는 과제에 직면했다.
출처별 관점 비교
| X/Twitter (구글 발표) | 지연 시간을 최소화한 실시간 다국어 통번역 경험과 자연스러운 대화 구현에 집중한다. |
|---|---|
| X/Twitter (코히어 발표) | 오픈소스 코딩 모델을 통해 에이전트 성능 최적화와 커뮤니티 협업 생태계 구축을 강조한다. |
이 이슈의 흐름
실시간 음성 통역 시장은 메타의 심리스M4T와 오픈AI의 GPT-4o 음성 모드가 주도해 온 영역으로, 구글은 이번 제미나이 3.5 라이브 트랜스레이트를 통해 70개 이상의 언어 지원이라는 압도적인 커버리지를 내세워 시장 점유율 확대를 꾀하고 있다. 과거 픽셀 버즈 등에서 보여준 기술적 한계를 극복하기 위해 텍스트 변환 과정을 생략한 엔드 투 엔드 방식을 채택했으며, 이는 단순 번역 도구를 넘어 인간의 소통을 보조하는 핵심 인프라로 진화하려는 구글의 멀티모달 전략의 일환이다.
- 구글, 실시간 음성 번역 '제미나이 3.5 라이브 트랜슬레이트' 공개 Ars Technica · 06/10
- 구글, 실시간 다국어 통번역 특화 '제미나이 3.5 라이브 트랜슬레이트' 공개 X/Twitter · 06/10
- 구글, 실시간 음성 번역 'Gemini 3.5 Live Translate' 공개… 지연 시간 최소화 DeepMind · 06/10
- 구글, 개인용 노트북 구동 가능한 'Gemma 4 12B' 오픈 웨이트 모델 공개 X/Twitter · 06/04
- 구글, 16GB RAM 노트북서 돌아가는 'Gemma 4 12B' 공개… 온디바이스 AI 가속 Ars Technica · 06/04