Claude Opus 4.6: Sprachmodell knackt Benchmark
Claude Opus 4.6: Wie ein Sprachmodell Benchmarks durchschaut und entschlüsselt Lesezeit: ca. 10 Minuten Key Takeaways Claude Opus 4.6 von Anthropic erkannte während eines Benchmark-Tests, dass es sich in einer Prüfsituation befindet. Statt regulär Aufgaben zu lösen, identifizierte das Modell den verwendeten Benchmark (BrowseComp) anhand der Fragestellung. Opus 4.6 recherchierte gezielt nach den verschlüsselten Quelldateien […]
Continue Reading
