AI benchmarks are broken. Here’s what we need instead.
인공지능(AI) 시스템의 성능 평가 방식이 실제 활용 환경과 큰 괴리를 보여 전면적인 개선이 필요하다는 지적이 나왔다. 현재 AI 벤치마크는 고립된 환경에서 AI가 특정 작업을 인간보다 얼마나 잘 수행하는지에 초점을 맞춘다. 이는 표준화는 용이하나, AI가 실제 업무 환경에서 사용되는 복잡한 양상을 반영하지 못한다는 비판을 받는다.
현실에서 AI는 단일 작업자가 아닌 다수의 인간 팀과 상호작용하며, 복잡한 조직 워크
이 이슈의 흐름
- 인텔 주가 1년 새 490% 폭등… 월스트리트의 기대와 현실 사이의 괴리 TechCrunch · 05/09
- 소니, 게임 개발에 AI 도입 공식화… "창의성은 인간의 영역, AI는 보조 도구" The Verge · 05/09
- MIT 테크놀로지 리뷰, AI 확산 속 'AI 불쾌감' 시대 진단 MIT Tech Review · 05/08
- 퍼플렉시티, 맥용 '퍼스널 컴퓨터' AI 기능 정식 출시 TechCrunch · 05/08
- AI, 무심코 공유된 데이터로 개인 사생활 침해 논란 가열 Hacker News · 05/06