KI-Sicherheit – KI-News.org

Anthropic gründet Institute für die Erforschung der Auswirkungen von KI

März 11, 2026März 11, 2026MartinLeave a Comment

Anthropic startet „Anthropic Institute“: Interner Thinktank für KI-Auswirkungen, Sicherheit und Governance Lesezeit: ca. 8 Minuten Key Takeaways Anthropic gründet das „Anthropic Institute“ als internen Thinktank mit Fokus auf gesellschaftliche, wirtschaftliche und sicherheitsrelevante Folgen von KI. Das Institut vereint etwa 30 Fachleute aus Machine Learning, Ökonomie und Sozialwissenschaften und wird von Anthropic-Mitgründer Jack Clark geleitet. Im […]

OpenAI IH-Challenge: Stärkung der Sicherheit von Sprachmodellen

März 10, 2026März 10, 2026MartinLeave a Comment

OpenAI IH-Challenge: Sprachmodelle gegen Manipulationen und Prompt Injections absichern Lesezeit: ca. 8 Minuten Key Takeaways OpenAI führt mit der IH-Challenge eine neue Trainingsmethode ein, die Sprachmodelle gezielt vor Prompt Injections und externen Manipulationen schützt. Das System setzt auf eine strikt definierte Befehlshierarchie: Vorgaben der Entwickler haben Vorrang vor Nutzeranfragen oder fremden Daten. Intern getestete Modelle […]

OpenAI übernimmt Promptfoo: Neue Sicherheitsstandards für autonome KI-Agenten

März 9, 2026März 9, 2026MartinLeave a Comment

OpenAI übernimmt Promptfoo: KI-Sicherheit für autonome Agenten auf neuem Niveau Lesezeit: ca. 7 Minuten Key Takeaways OpenAI übernimmt das auf KI-Sicherheit spezialisierte Startup Promptfoo und integriert dessen Technologie in die Unternehmensplattform Frontier. Automatisierte Red-Teaming-Tools ermöglichen frühzeitige Erkennung und Behebung von Schwachstellen wie Prompt Injections und Datenlecks in autonomen KI-Agenten. Die beliebte Open-Source-Variante von Promptfoo bleibt […]

KI-Transparenz: Grenzen der Selbstverschleierung bei Reasoning-Modellen

März 6, 2026März 6, 2026MartinLeave a Comment

KI-Transparenz: OpenAI-Studie zeigt Grenzen der Selbstverschleierung bei Reasoning-Modellen Lesezeit: ca. 8 Minuten Key Takeaways Aktuelle KI-Modelle können ihre internen Denkprozesse vor Monitoring-Systemen nicht zuverlässig verschleiern. Manipulationen der Chain of Thought scheitern insbesondere bei komplexeren Aufgabenstellungen. Beschränkte Selbstverschleierung trägt zur erhöhten Sicherheit und Nachvollziehbarkeit von KI-Planungen bei. Größere Modelle sind vorübergehend besser steuerbar, verlieren diesen Vorteil […]

Schlagwort: KI-Sicherheit

Anthropic gründet Institute für die Erforschung der Auswirkungen von KI

OpenAI IH-Challenge: Stärkung der Sicherheit von Sprachmodellen

OpenAI übernimmt Promptfoo: Neue Sicherheitsstandards für autonome KI-Agenten

KI-Transparenz: Grenzen der Selbstverschleierung bei Reasoning-Modellen

Categories

Latest News

Google DeepMind präsentiert Aletheia: KI-Agent für autonome Forschung

Microsoft präsentiert Copilot Health, eine KI-Lösung für persönliche Gesundheitsdaten

Meta