아마존웹서비스(AWS)가 생성형 AI 혁신 센터를 통해 아제르바이잔의 통신사 아제르셀(Azercell)과 함께 아제르바이잔어 전용 거대언어모델(LLM) 학습 파이프라인을 구축했다. 이번 프로젝트는 형태론적으로 복잡한 언어 구조를 가진 아제르바이잔어의 특성을 고려해 라마 3.2(Llama 3.2) 1B 모델을 기반으로 진행됐다. 핵심 기술은 라이거 커널(Liger Kernels)을 활용한 메모리 최적화와 맞춤형 토크나이저 개발이다. 이를 통해 ml.p5.48xlarge 인스턴스 환경에서 학습 처리량은 23% 증가했고, 피크 GPU 메모리 점유율은 58% 낮아지는 성과를 거뒀다. 특히 단어당 토큰 수를 절반으로 줄여 모델의 컨텍스트 윈도우 활용도를 2배 높인 점이 기술적 핵심이다. 글로벌 시장에서는 이처럼 특정 언어의 데이터 부족 문제를 해결하기 위해 파운데이션 모델을 미세조정(fine-tuning)하는 방식이 주류를 이루고 있다. 하지만 한국 시장의 상황은 조금 다르다. 네이버의 하이퍼클로바X(HyperCLOVA X)는 이미 한국어 특화 데이터셋을 대규모로 학습해 국내 시장 점유율을 방어하고 있으며, 카카오의 코GPT(KoGPT) 역시 한국어 문맥 이해도를 높이는 데 집중하고 있다. 최근 삼성전자는 가우스(Gauss)를 통해 온디바이스 AI 환경에서의 한국어 처리 효율을 극대화하는 전략을 취하고 있고, LG AI연구원의 엑사원(EXAONE)은 금융·법률 등 전문 분야 데이터 학습에 주력한다. 특히 KB금융, 신한금융, 하나금융 등 국내 금융권은 개인정보보호위원회의 가이드라인에 따라 폐쇄형 망 내에서 자체 LLM을 구축하는 추세이며, 우아한형제들과 같은 플랫폼 기업은 고객 상담 챗봇의 한국어 응답 품질을 높이기 위해 자체적인 데이터 정제 파이프라인을 고도화하고 있다. 과기정통부가 추진 중인 AI 기본법과 관련해 국내 기업들은 데이터 주권 확보와 안전성 검증을 최우선 과제로 삼고 있어, AWS의 이번 사례처럼 범용 모델을 특정 언어에 맞게 최적화하는 기술은 국내 기업들의 자체 모델 고도화 과정에서 벤치마킹 대상이 될 가능성이 높다. 한국 시장에서 가장 빠르게 움직일 곳은 대규모 고객 접점을 가진 통신사와 금융권이다. KT와 LG유플러스는 이미 자체 AI 에이전트 도입을 서두르고 있으며, 이들은 아제르셀의 사례처럼 특정 도메인 언어의 효율성을 높이는 기술을 도입해 인프라 비용을 절감하려 할 것이다. 특히 GPU 자원 효율화는 클라우드 비용과 직결되는 문제이므로, 라이거 커널과 같은 최적화 도구의 도입은 국내 엔터프라이즈 AI 시장에서 필수적인 선택지가 될 전망이다. 향후 1년 내에 국내 기업들은 단순히 모델의 크기를 키우는 경쟁에서 벗어나, 특정 언어와 도메인에 최적화된 토크나이저와 커널 수준의 최적화를 통해 운영 비용을 얼마나 낮추느냐가 시장 경쟁력의 핵심 지표가 될 것으로 보인다.