AWS, SageMaker AI로 강화 학습 보상 신뢰성 'RLVR' 기법 제시
AWS가 강화 학습(RL)의 보상 신호 신뢰성 문제를 해결하기 위한 검증 가능한 보상 기반 강화 학습(RLVR) 기법을 소개했다. 이 기법은 규칙 기반 피드백과 GRPO를 활용하여...
AWS가 강화 학습(RL)의 보상 신호 신뢰성 문제를 해결하기 위한 검증 가능한 보상 기반 강화 학습(RLVR) 기법을 소개했다. 이 기법은 규칙 기반 피드백과 GRPO를 활용하여...
리눅스 커널에서 'Dirtyfrag'라는 새로운 로컬 권한 상승(LPE) 취약점이 발견되었다. 이 취약점은 힙 오버플로우를 통해 임의 코드 실행을 가능하게 하며, 2014년 이후 ...
학술 연구팀이 'OpenSeeker-v2'를 공개하며, 적은 데이터와 단순 SFT만으로 최첨단 검색 에이전트 성능을 달성했다. 지식 그래프 확장, 도구 세트 확대, 저단계 필터링 ...
새로운 AI 레드팀 에이전트가 드레드노드(Dreadnode) SDK를 기반으로 개발되어 AI 시스템의 취약점 분석 시간을 수주에서 수시간으로 단축한다. 이 에이전트는 자연어 인터페...
SpecKV는 대규모 언어 모델(LLM)의 추론 속도를 높이는 적응형 추측 디코딩 기법이다. 드래프트 모델의 신뢰도와 엔트로피를 활용해 추측 길이(γ)를 동적으로 조절하며, 고정된...
강화 학습(RL) 모델은 알고리즘 및 하이퍼파라미터 설정에 민감하며, 환경 간 일반화 격차가 실제 배포를 어렵게 한다. 이 연구는 SHAP(SHapley Additive exPla...
이 기사는 글로벌 파트너십과 오픈 리소스가 과학적 영향력을 촉진하는 방안을 제시합니다. 주요 내용은 Data Mining & Modeling 분야에 초점을 맞춥니다.
싱가포르와 중국 연구진이 AI를 활용해 다양한 SIEM 시스템의 보안 규칙을 자동으로 번역하는 기술을 개발했다. 이 기술은 여러 SIEM 솔루션을 사용하는 기업의 보안 운영 효율성...
챗GPT의 교육적 효과를 주장했던 영향력 있는 연구 논문이 출판 1년 만에 철회됐다. 스프링거 네이처는 분석의 불일치와 결론에 대한 신뢰 부족을 이유로 들었으며, 해당 논문은 수백...
DAIMON 로보틱스가 세계 최대 옴니모달 로봇 데이터셋 'Daimon-Infinity'를 공개했다. 고해상도 촉각 센싱 데이터를 포함하며, 구글 딥마인드 등과 협력해 물리 AI ...
하버드 의대 연구팀이 AI의 응급실 진단 정확도에 대한 연구 결과를 발표했다. 특정 AI 모델이 실제 응급실 사례에서 두 명의 인간 의사보다 더 정확한 진단을 내린 것으로 나타났다...
마이크로소프트와 노스웨스턴 대학교, 위트니스 연구팀이 생성형 AI 딥페이크 탐지 강화를 위한 'MNW 딥페이크 탐지 벤치마크' 데이터셋을 공개했다. 이 데이터셋은 다양한 AI 생성...