Aquí siempre en el equipo de Noam, ojalá más y más benchmarks se reportarán cruzando accuracy con coste!
@dotcsv
-
Anthropic Model Card: Evaluation Overfitting Risks Assessment
By
–
2) Tal y como reportan en el propio Model Card hay riesgo de que estas evaluaciones hayan sido vistas por el modelo durante el pre-entrenamiento (a.k.a overfitting) y eso desvirtúa la interpretación de las métricas. Trabajo honesto el de Anthropic en la Model Card en muchos de
-
Mythos Model Evaluation: Why Single Benchmark Reporting Matters
By
–
Respecto a Mythos me han preguntado por qué en el vídeo de Youtube no he hecho mención a esta gráfica que todos estas comentando, y hay un par de motivos por el que descarté hablar de ello tras leer la Model Card. 1) Reportar la eficiencia de un modelo sobre un único benchmark
-
Opus loses warmth and personality in tone generation
By
–
Tal cual. El tono es lo más triste porque la calidez de Opus se pierde por completo, e incluso cuando fuerzas a que lo intente suena todo el rato a esto
-
AI Model Cherry Picking Benchmarks Falls Behind Competitors
By
–
Hacen mucho cherry picking de sólo aquellos benchmarks en los que salen primeros, pero se han quedado atrás frente a Gemini, GPT y Claude. Cuando hacen updates que sí los coloca a la frontera suelo hacer vídeo. Pero llevan un tiempo que se han quedado atrás.
-
OpenAI’s Internal Model Solves Five More Erdos Problems
By
–
Other 5 Erdos problems more solved using an internal model of OpenAI. It adds up and keeps going.
-
Meta’s GPU Investment Accelerates AI Race Competition
By
–
Las GPUs de Zuckerberg went brrrrr brrrrr para dar un salto necesario por estar en la carrera. Ahora toca mantener el ritmo!
-
Model Performance Near Opus, Gemini, GPT5 Without Notable Advantage
By
–
El rendimiento del modelo lo coloca cerca de Opus 4.6, Gemini 3.1 y GPT 5.4 sin sobresalir notablemente en ninguna dimensión.
— Carlos Santana (@DotCSV) 8 avril 2026
Mi sensación es que han metido prisa para sacar y estar en la carrera a la vista de los movimientos de Anthropic y OpenAI.https://t.co/oHyzbjpSLXEl rendimiento del modelo lo coloca cerca de Opus 4.6, Gemini 3.1 y GPT 5.4 sin sobresalir notablemente en ninguna dimensión. Mi sensación es que han metido prisa para sacar y estar en la carrera a la vista de los movimientos de Anthropic y OpenAI.
-
Claude Mythos Preview: Powerful AI Model Analysis and Safety Concerns
By
–
¡NUEVO VIDEO en el LAB! Claude Mythos Preview nos ha pillado por sorpresa aún cuando estamos acostumbrados al ritmo de progreso de la IA. Un modelo tan potente como peligroso hasta el punto de que no verá la luz… Hoy analizamos esta nueva bestia! Link a continuación
-
Dario Amodei statements misrepresented lacking proper context
By
–
Habitualmente las declaraciones de Dario Amodei del año pasado se comparten apropiadamente cortadas para restarle contexto y que parezca que dice que el programador humano no será necesario en 6 meses.
— Carlos Santana (@DotCSV) 8 avril 2026
Cuando escuchas un poco más allá lo que dice, te das cuenta de que realmente… https://t.co/wdx6z3HXbFHabitualmente las declaraciones de Dario Amodei del año pasado se comparten apropiadamente cortadas para restarle contexto y que parezca que dice que el programador humano no será necesario en 6 meses. Cuando escuchas un poco más allá lo que dice, te das cuenta de que realmente