Mit BullshitBench v2 enthüllt: KI-Modelle versagen bei absurden Anfragen

BullshitBench v2: Benchmark entlarvt Schwächen führender KI-Sprachmodelle bei unsinnigen Anfragen Lesezeit: ca. 8 Minuten Key Takeaways Der Benchmark BullshitBench v2 testet, wie KI-Modelle auf absichtlich unsinnige oder fehlerhafte Anfragen reagieren. Modelle von Anthropic (Claude) und Alibaba (Qwen3.5) erkennen fehlerhafte Prompts besonders zuverlässig und lehnen diese ab. KI-Systeme von OpenAI und Google landen im Mittelfeld oder […]

Continue Reading

Alibaba OpenSandbox: Einheitliche und sichere API für autonome KI-Agenten

Alibaba veröffentlicht OpenSandbox: Vereinheitlichte, sichere und skalierbare API für autonome KI-Agenten Lesezeit: ca. 7 Minuten Key Takeaways Alibaba stellt mit OpenSandbox ein Open-Source-Tool zur Verfügung, das sichere, isolierte Umgebungen für KI-Agenten bietet. OpenSandbox ermöglicht Codeausführung, Web-Browsing und Modelltraining in geschützten, voneinander abgeschotteten Sandboxes. Die Lösung bietet eine einheitliche API — programmiersprachenübergreifend und plattformunabhängig einsetzbar. Das […]

Continue Reading

Alibaba stellt Qwen3.5 Small Model Serie vor: Effiziente KI für On-Device-Anwendungen

Alibaba präsentiert Qwen3.5 Small Model Series: Effiziente KI-Modelle für On-Device-Anwendungen Lesezeit: ca. 10 Minuten Key Takeaways Alibaba veröffentlicht die Qwen3.5 Small Model Series mit LLMs im Bereich von 0,8 bis 9 Milliarden Parametern. Fokus auf „More Intelligence, Less Compute“: Leistungsfähige KI bei geringeren Hardware-Anforderungen. Optimiert für On-Device-Anwendungen – etwa auf mobilen Geräten, Wearables oder Edge-Devices. […]

Continue Reading

Alibaba Qwen 3.5 Small Model Series: Eine neue Dimension von lokal betreibbaren KI-Modellen

Alibaba Qwen 3.5 Small Model Series: Multimodale Open-Weight-KI für lokale Geräte Lesezeit: ca. 9 Minuten Key Takeaways Alibaba veröffentlicht mit der Qwen 3.5 Small Model Series vier kompakte, nativ multimodale KI-Modelle als Open-Weight (0,8B, 2B, 4B und 9B Parameter). Die Modelle sind für den Betrieb auf handelsüblichen Laptops und Endgeräten optimiert und benötigen besonders wenig […]

Continue Reading

Alibaba CoPaw: Agentenbasierte Multi-Channel-AI-Workflows mit Open-Source-Framework

Alibaba Team Open-Sources CoPaw: High-Performance Personal Agent Workstation für Multi-Channel-AI-Workflows Lesezeit: ca. 8 Minuten Key Takeaways Alibaba stellt mit CoPaw ein Open-Source-Framework für autonome, agentenbasierte KI-Systeme vor. CoPaw fokussiert auf die Arbeitsumgebung der KI-Modelle und nicht ausschließlich auf die Modelle selbst. Das Framework soll Entwicklern helfen, Multi-Channel-KI-Workflows und speicherintensive Prozesse zu skalieren. CoPaw positioniert sich […]

Continue Reading