Claude 3.5 Sonnet Achieves 21% on PaperBench Research Task

AI Dynamics

Global AI News Aggregator

Claude 3.5 Sonnet Achieves 21% on PaperBench Research Task

–

02 April 2025 19h13

We evaluate several frontier models on PaperBench, finding that the best-performing tested agent, Claude 3.5 Sonnet (New) with open-source scaffolding, achieves an average replication score of 21.0%. Finally, we recruit top ML PhDs to attempt a subset of PaperBench, finding that

→ View original post on X — @openai,

2 April 2025

AGENTS AI GENERATIVE AI LLMS MACHINE LEARNING RESEARCH

AI Dynamics

Claude 3.5 Sonnet Achieves 21% on PaperBench Research Task

Commentaires

Leave a Reply Cancel reply

MORE ARTICLES

AI Generates Perfect Jokes Using Image Generation Skills

Codex App Transformation: Atlas Integration Reshapes User Experience

AI File Access Limitations: Screenshot vs Disk Storage Issues

Synthetic Aperture Radar: Satellite Tech for Global Monitoring