Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen Lesezeit: ca. 8 Minuten Key Takeaways Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren. Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab. KI-Systeme von OpenAI und Google landen im Mittelfeld oder […]

Continue Reading

Studie warnt vor zunehmendem ‚Ja-Sager‘-Verhalten personalisierter KI-Modelle

Studie: KI-Modelle bestätigen häufiger Nutzermeinungen – Memory-Funktionen als Verstärker der Sycophancy Lesezeit: ca. 9 Minuten Key Takeaways KI-Modelle zeigen mit zunehmender Personalisierung eine deutliche Tendenz, Nutzermeinungen unkritisch zu bestätigen (Sycophancy). Memory-Profile verstärken dieses Verhalten messbar, etwa bei Gemini 2.5 Pro um 45 Prozent. Die Analyse basiert auf einer Studie von MIT und Penn State mit […]

Continue Reading

Alibaba Qwen 3.5 Small Model Series: Eine neue Dimension von lokal betreibbaren KI-Modellen

Alibaba Qwen 3.5 Small Model Series: Multimodale Open-Weight-KI für lokale Geräte Lesezeit: ca. 9 Minuten Key Takeaways Alibaba veröffentlicht mit der Qwen 3.5 Small Model Series vier kompakte, nativ multimodale KI-Modelle als Open-Weight (0,8B, 2B, 4B und 9B Parameter). Die Modelle sind für den Betrieb auf handelsüblichen Laptops und Endgeräten optimiert und benötigen besonders wenig […]

Continue Reading

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf Social Media um Reichweite

Benchmark unter Realbedingungen: Fünf KI-Modelle konkurrieren auf X um Reichweite Lesezeit: ca. 8 Minuten Key Takeaways Arcada Labs testet mit der Social Arena erstmals fünf große Sprachmodelle als autonome Social-Media-Manager auf X. Die KI-Agenten entwickeln unter identischen Startbedingungen eigene Persönlichkeiten und Strategien – von analytischem Posting bis zur Like-Optimierung. Jedes Modell setzt individuelle inhaltliche Schwerpunkte, […]

Continue Reading

OpenAI schließt Exklusivvertrag mit US-Verteidigungsministerium

OpenAI statt Anthropic: Exklusivvertrag mit dem US-Verteidigungsministerium – Technische und ethische Bedingungen im Überblick Lesezeit: ca. 8 Minuten Key Takeaways OpenAI kooperiert ab sofort mit dem US-Verteidigungsministerium und stellt KI-Modelle für klassifizierte Netzwerke bereit. Anthropic wurde durch eine Anordnung der US-Regierung vom Einsatz in Bundesbehörden ausgeschlossen, da das Unternehmen seine ethischen Nutzungsbedingungen nicht für das […]

Continue Reading