Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen Lesezeit: ca. 8 Minuten Key Takeaways Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren. Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab. KI-Systeme von OpenAI und Google landen im Mittelfeld oder […]

Continue Reading

Google Gemini 3.1 Flash-Lite: Neues Benchmark in KI-Leistung und Effizienz

Google Gemini 3.1 Flash-Lite: Neues KI-Modell setzt Benchmark für Geschwindigkeit und Effizienz Lesezeit: ca. 8 Minuten Key Takeaways Gemini 3.1 Flash-Lite erzielt eine Ausgabegeschwindigkeit von 363 Tokens pro Sekunde und positioniert sich damit deutlich vor GPT-5 mini, Claude 4.5 Haiku und Grok 4.1 Fast. Niedrige Betriebskosten: 0,25 US-Dollar pro Million Input-Tokens und 1,50 US-Dollar pro […]

Continue Reading

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf Social Media um Reichweite

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf X um Reichweite Lesezeit: ca. 8 Minuten Key Takeaways Arcada Labs testet mit der Social Arena erstmals fünf große Sprachmodelle als autonome Social-Media-Manager auf X. Die KI-Agenten entwickeln unter identischen Startbedingungen eigene Persönlichkeiten und Strategien – von analytischem Posting bis zur Like-Optimierung. Jedes Modell setzt individuelle inhaltliche Schwerpunkte, […]

Continue Reading