디 애틀랜틱의 기자 알렉스 라이스너는 최근 AI 모델 학습에 사용된 4개의 음악 데이터셋을 발견하고 이를 대중이 직접 검색할 수 있도록 데이터베이스화하여 공개했다. 이번에 공개된 데이터셋은 구글과 스테빌리티가 자사의 연구 논문에서 학습 데이터로 활용했음을 확인한 자료들이다. 해당 데이터셋들은 이미 수천 번 이상 다운로드되며 AI 업계의 데이터 출처 투명성 논란을 가중하고 있다. 데이터셋의 규모는 모델 학습의 효율성을 가늠하는 핵심 지표다. 이번에 공개된 4개의 데이터셋 중 가장 작은 규모는 10만 곡 수준이나, 가장 큰 데이터셋은 1,200만 곡에 달한다. 즉, 최소 단위인 10만 곡 대비 최대 1,190만 곡이 증가한 규모로 학습이 이루어진 셈이다. 나머지 두 개의 데이터셋 역시 각각 10만 곡 이상의 데이터를 포함하고 있어, 대규모 언어 모델 및 음악 생성 모델의 학습 데이터 구성이 얼마나 방대한지 수치로 증명한다. 학습 데이터의 저작권 문제는 기술적 효율성만큼이나 중요한 변수다. 프리 뮤직 아카이브와 같은 출처는 개인적인 스트리밍 용도로는 허용되지만, 이를 AI 학습 목적으로 재배포하는 행위는 저작권 침해 소지가 다분하다. 데이터의 양적 팽창이 곧 모델의 성능 향상으로 직결되는 구조에서, 이러한 저작권 리스크는 모델 개발사들이 직면한 운영상의 불확실성을 높이는 요소로 작용한다. 이번 데이터베이스 공개는 한국 AI 기업들에게도 학습 데이터의 투명성 확보라는 과제를 던져준다. 국내 AI 음악 생성 스타트업들은 학습 데이터의 출처를 명확히 소명하고 저작권 침해 가능성을 최소화하는 기술적·법적 대응이 요구된다. 특히 한국음악저작권협회 등 관련 단체들이 AI 학습 데이터에 대한 권리 보호를 강화할 가능성이 커짐에 따라, 향후 모델 개발 시 데이터 라이선싱 비용과 규제 준수 여부가 기업의 운영 비용 및 도입 의사결정에 결정적인 영향을 미칠 것으로 보인다.