Anthropic gründet Institute für die Erforschung der Auswirkungen von KI

Anthropic startet „Anthropic Institute“: Interner Thinktank für KI-Auswirkungen, Sicherheit und Governance Lesezeit: ca. 8 Minuten Key Takeaways Anthropic gründet das „Anthropic Institute“ als internen Thinktank mit Fokus auf gesellschaftliche, wirtschaftliche und sicherheitsrelevante Folgen von KI. Das Institut vereint etwa 30 Fachleute aus Machine Learning, Ökonomie und Sozialwissenschaften und wird von Anthropic-Mitgründer Jack Clark geleitet. Im […]

Continue Reading

OpenAI IH-Challenge: Stärkung der Sicherheit von Sprachmodellen

OpenAI IH-Challenge: Sprachmodelle gegen Manipulationen und Prompt Injections absichern Lesezeit: ca. 8 Minuten Key Takeaways OpenAI führt mit der IH-Challenge eine neue Trainingsmethode ein, die Sprachmodelle gezielt vor Prompt Injections und externen Manipulationen schützt. Das System setzt auf eine strikt definierte Befehlshierarchie: Vorgaben der Entwickler haben Vorrang vor Nutzeranfragen oder fremden Daten. Intern getestete Modelle […]

Continue Reading

OpenAI übernimmt Promptfoo: Neue Sicherheitsstandards für autonome KI-Agenten

OpenAI übernimmt Promptfoo: KI-Sicherheit für autonome Agenten auf neuem Niveau Lesezeit: ca. 7 Minuten Key Takeaways OpenAI übernimmt das auf KI-Sicherheit spezialisierte Startup Promptfoo und integriert dessen Technologie in die Unternehmensplattform Frontier. Automatisierte Red-Teaming-Tools ermöglichen frühzeitige Erkennung und Behebung von Schwachstellen wie Prompt Injections und Datenlecks in autonomen KI-Agenten. Die beliebte Open-Source-Variante von Promptfoo bleibt […]

Continue Reading

KI-Transparenz: Grenzen der Selbstverschleierung bei Reasoning-Modellen

KI-Transparenz: OpenAI-Studie zeigt Grenzen der Selbstverschleierung bei Reasoning-Modellen Lesezeit: ca. 8 Minuten Key Takeaways Aktuelle KI-Modelle können ihre internen Denkprozesse vor Monitoring-Systemen nicht zuverlässig verschleiern. Manipulationen der Chain of Thought scheitern insbesondere bei komplexeren Aufgabenstellungen. Beschränkte Selbstverschleierung trägt zur erhöhten Sicherheit und Nachvollziehbarkeit von KI-Planungen bei. Größere Modelle sind vorübergehend besser steuerbar, verlieren diesen Vorteil […]

Continue Reading