AI benchmarks are broken. Here’s what we need instead.
인공지능(AI) 시스템의 성능 평가 방식이 실제 활용 환경과 큰 괴리를 보여 전면적인 개선이 필요하다는 지적이 나왔다. 현재 AI 벤치마크는 고립된 환경에서 AI가 특정 작업을 인간보다 얼마나 잘 수행하는지에 초점을 맞춘다. 이는 표준화는 용이하나, AI가 실제 업무 환경에서 사용되는 복잡한 양상을 반영하지 못한다는 비판을 받는다.
현실에서 AI는 단일 작업자가 아닌 다수의 인간 팀과 상호작용하며, 복잡한 조직 워크