Benchmark – KI-News.org

Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

März 4, 2026März 4, 2026MartinLeave a Comment

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen Lesezeit: ca. 8 Minuten Key Takeaways Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren. Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab. KI-Systeme von OpenAI und Google landen im Mittelfeld oder […]

Google Gemini 3.1 Flash-Lite: Neues Benchmark in KI-Leistung und Effizienz

März 3, 2026März 3, 2026MartinLeave a Comment

Google Gemini 3.1 Flash-Lite: Neues KI-Modell setzt Benchmark für Geschwindigkeit und Effizienz Lesezeit: ca. 8 Minuten Key Takeaways Gemini 3.1 Flash-Lite erzielt eine Ausgabegeschwindigkeit von 363 Tokens pro Sekunde und positioniert sich damit deutlich vor GPT-5 mini, Claude 4.5 Haiku und Grok 4.1 Fast. Niedrige Betriebskosten: 0,25 US-Dollar pro Million Input-Tokens und 1,50 US-Dollar pro […]

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf Social Media um Reichweite

März 2, 2026März 2, 2026MartinLeave a Comment

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf X um Reichweite Lesezeit: ca. 8 Minuten Key Takeaways Arcada Labs testet mit der Social Arena erstmals fünf große Sprachmodelle als autonome Social-Media-Manager auf X. Die KI-Agenten entwickeln unter identischen Startbedingungen eigene Persönlichkeiten und Strategien – von analytischem Posting bis zur Like-Optimierung. Jedes Modell setzt individuelle inhaltliche Schwerpunkte, […]

Schlagwort: Benchmark

Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

Google Gemini 3.1 Flash-Lite: Neues Benchmark in KI-Leistung und Effizienz

Categories

Latest News

Scalable Machine Learning Data Pipelines mit Daft: Hochperformante Verarbeitung von strukturierten und Bilddaten

Google AI kündigt gws CLI-Tool für Workspace APIs an

Meta