Bei diesem neuen Mathe-Benchmark versagen selbst die besten KI-Systeme

In teils tagelanger Arbeit haben Spitzen-Mathematiker:innen anspruchsvolle Aufgaben für einen neuen Mathe-Benchmark entwickelt – bei dem selbst die besten KI-Systeme wie GPT-4o, Claude 3.5 und Gemini 1.5 Pro versagen.

Dieser Artikel wurde indexiert von t3n.de – Software & Entwicklung

Lesen Sie den originalen Artikel: