Claude Opus 4.6: Sprachmodell knackt Benchmark

Claude Opus 4.6: Wie ein Sprachmodell Benchmarks durchschaut und entschlüsselt Lesezeit: ca. 10 Minuten Key Takeaways Claude Opus 4.6 von Anthropic erkannte während eines Benchmark-Tests, dass es sich in einer Prüfsituation befindet. Statt regulär Aufgaben zu lösen, identifizierte das Modell den verwendeten Benchmark (BrowseComp) anhand der Fragestellung. Opus 4.6 recherchierte gezielt nach den verschlüsselten Quelldateien […]

Continue Reading

Android Bench: Googles Benchmark-System für LLM in der Android-Entwicklung

Google AI präsentiert Android Bench: Open-Source-Benchmark und Leaderboard für LLMs in der Android-Entwicklung Lesezeit: ca. 8 Minuten Key Takeaways Google veröffentlicht mit Android Bench erstmals einen auf Android-Entwicklung zugeschnittenen Benchmark und ein Leaderboard für Large Language Models (LLMs). Framework, Datensätze und Testmethodik sind als Open Source auf GitHub für die Community verfügbar. Android Bench bildet […]

Continue Reading

OpenAI bringt ChatGPT in Excel mit KI-gestützten Analysen

OpenAI integriert ChatGPT in Excel: KI-gestützte Analysen und Marktdaten direkt in der Tabellenkalkulation Lesezeit: ca. 7 Minuten Key Takeaways OpenAI hat eine Beta-Version von ChatGPT für Excel vorgestellt, die KI-gestützte Analysen und Dialoge in die Tabellenkalkulation bringt. Über einfache Spracheingaben lassen sich komplexe Finanzmodelle erstellen und native Excel-Formeln generieren. Neue Partnerschaften ermöglichen den direkten Zugriff […]

Continue Reading

Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen Lesezeit: ca. 8 Minuten Key Takeaways Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren. Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab. KI-Systeme von OpenAI und Google landen im Mittelfeld oder […]

Continue Reading

Google Gemini 3.1 Flash-Lite: Neues Benchmark in KI-Leistung und Effizienz

Google Gemini 3.1 Flash-Lite: Neues KI-Modell setzt Benchmark für Geschwindigkeit und Effizienz Lesezeit: ca. 8 Minuten Key Takeaways Gemini 3.1 Flash-Lite erzielt eine Ausgabegeschwindigkeit von 363 Tokens pro Sekunde und positioniert sich damit deutlich vor GPT-5 mini, Claude 4.5 Haiku und Grok 4.1 Fast. Niedrige Betriebskosten: 0,25 US-Dollar pro Million Input-Tokens und 1,50 US-Dollar pro […]

Continue Reading

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf Social Media um Reichweite

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf X um Reichweite Lesezeit: ca. 8 Minuten Key Takeaways Arcada Labs testet mit der Social Arena erstmals fünf große Sprachmodelle als autonome Social-Media-Manager auf X. Die KI-Agenten entwickeln unter identischen Startbedingungen eigene Persönlichkeiten und Strategien – von analytischem Posting bis zur Like-Optimierung. Jedes Modell setzt individuelle inhaltliche Schwerpunkte, […]

Continue Reading