Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

KI-News

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen

Lesezeit: ca. 8 Minuten

Key Takeaways

  • Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren.
  • Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab.
  • KI-Systeme von OpenAI und Google landen im Mittelfeld oder auf hinteren Plätzen und produzieren häufig selbstbewusst falsche Antworten.
  • Reasoning-Modelle verschlechtern die Resultate, da sie fehlerhafte Prompts besonders hartnäckig „lösen“ wollen.
  • Über alle Fachbereiche und neuen Versionen hinweg bleibt die Fehlerquote trotz neuester Releases auf hohem Niveau – nur Anthropic verbessert gezielt.

BullshitBench v2: KI-Benchmark für unsinnige Anfragen

Künstliche Intelligenz wird in immer mehr Lebensbereichen eingesetzt, und viele Nutzer verlassen sich auf zuverlässige und richtige Ergebnisse – vor allem bei wichtigen oder kritischen Anwendungen. Doch wie verlässlich erkennen Sprachmodelle in der Praxis eigentlich inhaltliche Fehler oder unsinnige Aufforderungen? Der Benchmark BullshitBench v2 liefert hierzu erstmals einen vielschichtigen Härtetest. Entwickelt von Peter Gostev, konzentriert sich das Testverfahren darauf, wie KI-Modelle mit bewusst unsinnigen oder offensichtlich fehlerhaften Prompts umgehen. Anstelle von Fragen, bei denen eine Lösung im Prinzip möglich ist, werden die Systeme hier mit Problemstellungen konfrontiert, die logisch oder faktisch nicht zu beantworten sind.

Ziel des Benchmarks ist es, KIs dazu zu bringen, einen Fehler im Prompt zu erkennen und die Bearbeitung abzulehnen – statt zur – aus Sicht des Nutzers vielleicht sogar überzeugenden – Erfindung falscher Fakten überzugehen. Gerade das „Nein-Sagen“ und der Widerspruch bei offenkundig falschen Prämissen ist für breite Anwendungen, verlässliche Systeme und vertrauenswürdige KI-Assistenten zentral. BullshitBench v2 prüft somit ausdrücklich die Fähigkeit zur kritischen Reflektionsleistung, die eine alltagstaugliche KI von reiner Sprachsimulation abhebt.

Testdesign, Fachbereiche und Methodik

Die Testfragen von BullshitBench v2 decken ein breites Spektrum ab: Es werden gezielt Szenarien aus den Bereichen Programmierung, Medizin, Recht, Finanzen und Physik gewählt, jeweils mit eingebautem logischen oder faktischen Fehler. Beispiele sind etwa mathematische Aufgaben mit widersprüchlichen Annahmen, medizinische Ratschläge zu nicht existierenden Symptomen oder juristische Fragen mit unmöglichen Voraussetzungen.

Für die zweite Version des Benchmarks wurden 70 verschiedene Modellvarianten ausgewählt – darunter kommerzielle Systeme wie GPT oder Gemini, aber auch Open-Source-Modelle. Insgesamt mussten die Modelle auf 100 neue, gezielt unsinnige Fragen reagieren. Die Bewertung erfolgt danach, ob ein System a) den Fehler erkennt und b) der Anfrage widerspricht – idealerweise freundlich und begründet.

Ergänzend macht der BullshitBench v2 Explorer die Testergebnisse transparent zugänglich. Für Analyse und eigene Tests stehen auch GitHub-Skripte und das vollständige Dataset bereit.

Marktüberblick: Sieger, Verlierer und auffällige Trends

Die Auswertung zeigt ein deutliches Qualitätsgefälle bei der Fähigkeit zur Fehlererkennung. Sehr gut schneiden hier vor allem Modelle aus der Claude-Reihe von Anthropic ab. Claude Sonnet 4.6 erreicht Spitzenwerte: Er lehnt fehlerhafte Prompts nicht nur zuverlässig ab, sondern begründet seine Entscheidung nachvollziehbar und widerspricht selbstbewusst den falschen Annahmen.

Ebenfalls überraschend gut performt das Open-Source-Modell Qwen3.5 von Alibaba. Während viele Open-Source-Systeme beim BullshitBench nur durchwachsene Ergebnisse liefern, zeigt sich Qwen3.5 als robust und wenig anfällig für die naheliegenden Fallen absurder Prompts.

Klar abgeschlagen sind hingegen die prominenten Flaggschiffe von Google und OpenAI. Modelle wie Gemini 3.1 Pro oder GPT-5.3 Codex landen häufig im Mittelfeld oder noch weiter hinten. Die Systeme folgen oftmals der fehlerhaften Prämisse, generieren scheinbar fundierte, aber inhaltlich nutzlose oder schlicht falsche Antworten und erkennen den Unsinn im Prompt nicht zuverlässig. Somit sind gerade die meistgenutzten KI-Modelle im Alltag bei kritischen Anwendungen alles andere als narrensicher.

„Die Modelle erkennen den Unsinn in medizinischen Fragen nicht besser als in reinen Programmieraufgaben.“ (BullshitBench v2)

Fachübergreifende Schwächen: Medizin, Recht, Programmierung

Erstaunlich ist, dass die Fehlerquote unabhängig vom Themengebiet hoch bleibt: Die KIs erkennen Unsinn gleichermaßen selten in medizinischen, juristischen und programmiertechnischen Kontexten. Diese Feststellung verdeutlicht, dass der Mangel an kritisch-reflektierender Kompetenz ein grundsätzliches, kein domänenspezifisches Problem aktueller KI-Modelle ist.

Gerade im Alltagseinsatz – etwa bei medizinischen Schnellabfragen oder juristischen Auskünften – scheitert der „gesunde Menschenverstand“ der Algorithmen. Der Benchmark untermauert, dass „Verantwortungsbewusstsein“ maschinell eben nicht einfach in ein Tool eingebaut werden kann – selbst modernste KI bleibt in diesem Bereich häufig hinter den (oft hohen) Erwartungen der Nutzer zurück.

Reasoning-Modelle: Denkpausen als unerwartete Falle

Ein kontroverser Befund betrifft die sogenannten Reasoning-Modelle. Diese KI-Systeme investieren vor der Textausgabe zusätzliche Rechenzeit in einen internen „Lösungsweg“, typischerweise sichtbar an der Zahl der Reasoning-Tokens. Die Hoffnung: Durch mehr Nachdenken sollte das System inhaltliche Fehler aufspüren und widersprechen.

Die Ergebnisse zeigen allerdings das Gegenteil. Je mehr Reasoning-Tokens, desto seltener erkennt ein Modell die Unsinnigkeit der Anfrage. Die Systeme verfangen sich offenkundig in aufwendigen Lösungsversuchen, suchen zwanghaft nach einer Antwort, statt einen Schritt zurückzutreten und die Fragestellung prinzipiell in Frage zu stellen. Damit werden Reasoning-Modelle ironischerweise besonders empfänglich für Bullshit-Prompts – statt beim „Kopfschütteln“ zu glänzen, beeindrucken sie mit maximalem Erfindungsreichtum.

Dieses Phänomen ist konsistent über alle getesteten Fachgebiete hinweg: Reasoning erhöht zwar oft die schiere Länge und Komplexität der Antwort, doch in Bezug auf die entscheidende Kompetenz – das Erkennen der Unsinnigkeit – führen die Denkpausen sprichwörtlich in die Irre.

„Je mehr Tokens ein Modell für das Nachdenken aufwendet, desto seltener erkennt es den fehlerhaften Prompt.“ (Quelle: petergpt.github.io)

Kein Fortschritt trotz neuer Versionen

Ein kritischer Blick auf die Veröffentlichungschronologie der getesteten Systeme offenbart: Über sämtliche neuen Releases hinweg gibt es keinen signifikanten Fortschritt bei der Erkennung und Ablehnung absurder Prompts. Viele Anbieter fokussieren offenbar weiterhin auf andere Bewertungskriterien, beispielsweise kreative Textgenerierung, Multimodalität oder Performanz in Benchmarks mit lösbaren Aufgaben.

Auffällig ist, dass einzig Anthropic die Robustheit gegen logischen Unsinn mit jeder neuen Modellgeneration verbessert. Für die übrigen Akteure lässt sich im Bereich „Bullshit-Resistenz“ keine klare Aufwärtstendenz erkennen. Ein heutiges Top-Modell fällt im Test nahezu ebenso leicht auf eine unlogische Frage herein wie sein Vorgänger aus dem Vorjahr. Dies spiegelt sich sowohl im Markttest als auch im Datenvergleich von BullshitBench wider.

Damit bleibt eine grundlegende Herausforderung der KI-Entwicklung bestehen: Reflexion über die Prämissen einer Anfrage ist offenbar schwerer zu trainieren als die Generierung perfekter Sprachmuster. Für Anwendungsfälle, bei denen Fehl- oder Unsinnserkennung ein zentrales Qualitätsmerkmal darstellt (etwa in Forschung, Recht oder Medizin), ist ein kritischer Blick auf die Benchmark-Ergebnisse von BullshitBench v2 daher unerlässlich.

Der BullshitBench v2 liefert einen wichtigen Realitätscheck für KI-Entwicklung und alltägliche Nutzung: Nur wenige Modelle schaffen es, offensichtlich unsinnige Anfragen systematisch zu entlarven und zu verweigern. Die Ergebnisse legen offen, dass die meisten beliebten Modelle nach wie vor anfällig für scheinbar plausible, aber faktisch falsche Prompts sind.

Gerade die starke Performance der Claude-Modelle und der offene Zugang zu Qwen3.5 können Entwicklern als Orientierungshilfe dienen. Wer KI im professionellen Umfeld einsetzt – ob für kundenspezifische AI-Tools, Chatbots oder als Recherche- und Assistenzsystem – sollte die Resultate der BullshitBench v2 im Blick behalten und eigene KI-Assistenten gezielt auf die Erkennung von Fehlern und Unsinn trimmen.

Ein grundsätzliches Umdenken bei Trainingszielen und Bewertungskriterien von KI-Modellen könnte mittelfristig nötig werden, um die Herausforderungen logischer Konsistenz und kritischer Reflexion zu meistern.

Bildquelle: https://www.all-ai.de/news/beitrage2026/bullshit-bench-ki

What do you feel about this post?

0%
like

Like

0%
love

Love

0%
happy

Happy

0%
haha

Haha

0%
sad

Sad

0%
angry

Angry

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert