구글 리서치가 픽셀 9 및 10 기기에서 제미나이 나노 모델의 온디바이스 추론 속도를 높이기 위해 다중 토큰 예측(MTP) 기술을 도입했다. 기존 언어 모델은 텍스트를 한 번에 한 단어씩 생성하는 자기회귀적 방식을 사용해 모바일 기기에서 병목 현상을 겪어왔다. 이번에 적용된 MTP는 기존의 고정된 제미나이 나노 v3 모델에 새로운 아키텍처를 결합해 별도의 드래프터 없이도 미래 토큰 시퀀스를 예측한다. 특히 MTP 드래프터는 메인 모델의 최종 활성화 값을 직접 활용해 더 풍부한 표현에 접근하며, 이를 통해 픽셀 9 기기에서 작업에 따라 50% 이상의 속도 향상을 구현했다. 또한 더 적은 검증 단계를 거쳐 프로세서 활성화 시간을 줄임으로써 에너지 소비를 절감하고 배터리 수명을 늘리는 성과를 거뒀다. 기술적 효율성 측면에서 MTP의 도입은 기존 방식과 비교해 뚜렷한 차이를 보인다. 독립형 드래프터를 사용하던 기존 방식과 비교했을 때 픽셀 9 기기에서의 추론 속도는 50% 이상 향상되었다. 실제로 구글이 앞서 젬마 4 모델에 이 기술을 적용했을 때, 픽셀 TPU 환경의 젬마 4 E4B 모델은 미적용 시보다 3.1배, 엔비디아 A100 기반의 젬마 4 31B 모델은 3.0배의 처리 속도 향상을 기록했다. 이러한 성능 개선은 AI 알림 요약이나 교정 작업과 같은 실무 워크로드에서 추론당 평균 약 2개의 추가 토큰을 정확하게 예측하는 결과로 이어지고 있다. 국내 시장에서도 온디바이스 AI는 하드웨어 혁신과 일상적 서비스의 핵심으로 자리 잡고 있다. 삼성전자는 갤럭시 AI를 통해 온디바이스 AI 스마트폰 시장을 주도하고 있으며, 국내 기업들은 AI 반도체와 소프트웨어 최적화에 역량을 집중하는 추세다. 네이버와 카카오 등 플랫폼 기업들 역시 자체 모델의 경량화와 효율적 구동을 위한 기술 개발에 박차를 가하고 있다. 특히 과기정통부와 개인정보보호위원회가 추진하는 AI 기본법과 데이터 활용 가이드라인은 이러한 기술적 진보가 국내 산업계에 안착할 수 있는 제도적 토대가 될 전망이다. 국내 기업들은 구글의 이번 사례를 참고해 기기 내 연산 효율을 극대화하는 방향으로 전략을 수정할 것으로 보인다. 온디바이스 AI 시장은 2024년 50억 6천만 달러 규모에서 2032년 505억 달러까지 연평균 33.33% 성장할 것으로 예측된다. 스마트폰이 가장 큰 점유율을 차지할 것으로 예상되는 만큼, 구글의 이번 기술 도입은 국내외 제조사 간의 성능 경쟁을 더욱 가속화할 전망이다. 삼성전자의 갤럭시 시리즈와 애플의 아이폰 17 시리즈 등 주요 스마트폰 제조사들이 생성형 AI 기능을 확대하는 상황에서, 누가 더 적은 전력으로 더 빠른 응답 속도를 구현하느냐가 시장 점유율을 결정짓는 핵심 변수가 될 것이다. 국내 기업들은 하드웨어와 소프트웨어의 긴밀한 결합을 통해 글로벌 경쟁력을 확보하는 데 주력해야 하는 시점이다.