Google Gemini 3.1 Flash-Lite: Neues KI-Modell setzt Benchmark für Geschwindigkeit und Effizienz
Lesezeit: ca. 8 Minuten
Key Takeaways
- Gemini 3.1 Flash-Lite erzielt eine Ausgabegeschwindigkeit von 363 Tokens pro Sekunde und positioniert sich damit deutlich vor GPT-5 mini, Claude 4.5 Haiku und Grok 4.1 Fast.
- Niedrige Betriebskosten: 0,25 US-Dollar pro Million Input-Tokens und 1,50 US-Dollar pro Million Output-Tokens.
- Überragende Leistungen bei Faktenchecks und wissenschaftlichen Datenanalysen; in den wichtigsten Benchmarks führen die Google-Modelle.
- Multimodalität mit sehr guten Ergebnissen im Videobereich; leichte Schwächen beim Coding im Vergleich zu GPT-5 mini.
- Preview-Version ab sofort für Entwickler über die Google API verfügbar.
Google Gemini 3.1 Flash-Lite: Schnelles KI-Modell für Entwickler vorgestellt
Google hat mit Gemini 3.1 Flash-Lite die neueste Iteration seines für Geschwindigkeit optimierten KI-Modells als Preview-Version über die eigene API veröffentlicht (siehe Google Blog – Gemini 3.1 Flash-Lite (Ankündigung)). Das Modell richtet sich gezielt an Entwickler, die extrem schnelle Antwortzeiten und niedrige Betriebskosten für KI-basierte Anwendungen benötigen. Die Architektur der Flash-Lite-Reihe ist konsequent auf Effizienz und Skalierbarkeit ausgelegt.
Mit einer Ausgabegeschwindigkeit von 363 Tokens pro Sekunde erreicht Gemini 3.1 Flash-Lite beinahe das Maximum des technisch derzeit Machbaren in dieser Größenordnung. Damit bleibt das Modell praktisch gleichauf mit dem Vorgänger Gemini 2.5 Flash-Lite, übertrifft aber alle branchenführenden Konkurrenzmodelle teils deutlich.
Geschwindigkeits- und Kostenvergleich zu Mitbewerbern
Die messbare Leistung in Benchmarks unterstreicht den aktuellen Technologievorsprung von Gemini 3.1 Flash-Lite: Im direkten Vergleich erreicht GPT-5 mini von OpenAI lediglich 71 Tokens pro Sekunde. Claude 4.5 Haiku von Anthropic kommt auf 108, Grok 4.1 Fast von xAI auf 145 Tokens pro Sekunde. Damit operiert das Google-Modell in einer eigenen Liga für Antwortgeschwindigkeit.
Beachtenswert sind auch die Preise für die Nutzung des Modells über die API. Google verlangt für eine Million Input-Tokens 0,25 US-Dollar und für eine Million Output-Tokens 1,50 US-Dollar. Damit liegt der Input-Preis exakt auf dem Niveau von GPT-5 mini, während das neue Flash-Lite-Modell bei den Output-Tokens um 0,50 US-Dollar günstiger ist. Im Vergleich zu Claude 4.5 Haiku ist die Preisstruktur von Gemini 3.1 Flash-Lite nochmals attraktiver. Einzig das ältere Modell Gemini 2.5 Flash-Lite bleibt bei den Kosten mit 0,10 bzw. 0,40 US-Dollar weiterhin der günstigste Vertreter im Google-Portfolio.
Benchmark-Werte: Faktenabfrage und wissenschaftliche Datenanalyse
Neben Geschwindigkeit und Effizienz zählen auch die inhaltlichen Leistungen zu den Stärken von Gemini 3.1 Flash-Lite. Insbesondere bei Aufgabenstellungen, die harte Faktensicherheit und umfangreiches Weltwissen erfordern, erzielt das Modell beeindruckende Werte.
Im renommierten „SimpleQA Verified“-Testfeld, das auf parametrisches Faktenwissen setzt, erreicht Gemini 3.1 Flash-Lite 43,3 Prozent – der direkte Konkurrent GPT-5 mini liegt mit 9,5 Prozent deutlich dahinter. Auch bei der Analyse komplexer wissenschaftlicher Daten im „GPQA Diamond“-Benchmark führt das Google-Modell mit 86,9 Prozent souverän das Feld an (OpenAI: jeweils niedriger).
Diese Resultate belegen, dass die Flash-Lite-Serie trotz Priorisierung der Geschwindigkeit im Kern keine gravierenden Abstriche bei der inhaltlichen Präzision macht, sondern gezielt auf ein gutes Gleichgewicht von Performance und Qualität ausgelegt ist.
Multimodalität: Text, Bild und Video in einem Modell
Gemini 3.1 Flash-Lite richtet sich auch an Anwendungen, die neben Textverarbeitung multimodale Inputquellen nutzen. Besonders im Bereich Videoverarbeitung erzielt das Modell hohe Werte und eignet sich damit für Entwickler, die Anwendungen rund um audiovisuelle Informationen und die Analyse solcher Inhalte bauen möchten.
Im „Video-MMMU“-Benchmark zur Wissensaneignung aus Videomaterial erzielt Gemini 3.1 Flash-Lite einen Wert von 84,8 Prozent. Das unterstreicht das Potenzial des Modells für komplexe Use Cases, in denen Wissen aus mehreren Modalitäten kombiniert werden muss.
Spezifische Stärken und Schwächen: Code-Generierung & lange Texte
In technischen Benchmarks zur Codegenerierung – konkret im „LiveCodeBench“ – zeigt sich, dass Gemini 3.1 Flash-Lite gegenüber der Konkurrenz leichte Defizite hat: Mit 72,0 Prozent bleibt es zwar solide, aber GPT-5 mini erzielt mit 80,4 Prozent das bessere Resultat.
Bei der Verarbeitung sehr langer Dokumente (Benchmark: „MRCR v2 128k“) überzeugt Gemini 3.1 Flash-Lite dagegen erneut: Mit einer durchschnittlichen Leistung von 60,1 Prozent liegt das Modell deutlich vor allen aktuellen Wettbewerbern. Entwicklern, die KI-Systeme für umfangreiche, kontextsensitive Aufgaben benötigen – etwa für das Verarbeiten langer wissenschaftlicher Texte oder juristischer Dokumente – bietet Google somit eine hochgradig konkurrenzfähige Lösung.
Eine umfassende Übersicht zu den einzelnen Benchmark-Ergebnissen und Preisen findet sich in den Gemini API Release Notes und in den offiziellen Model-Details zum Launch von Gemini 3.1 Flash-Lite Preview.
Einfache Integration und Einstieg für Entwickler
Mit der Freischaltung der Preview-Version von Gemini 3.1 Flash-Lite über die Google API haben Entwickler nun die Möglichkeit, die Leistungsdaten des neuen Modells in eigenen Projekten zu evaluieren. Die Kombination aus Geschwindigkeit, wirtschaftlicher Preisgestaltung und solider Benchmarktauglichkeit dürfte insbesondere bei skalierbaren Cloud-Anwendungen, KI-basierten Chatbots, Videoanalysetools oder Editoren auf enorme Resonanz stoßen.
Die Zugänglichkeit und einfache Integration, wie sie von Google im eigenen Entwickler-Ökosystem gefördert wird, begünstigen schnelle Testzyklen und Experimente in produktiven Umgebungen.
„Smarter. Faster. Gemini 3.1 Flash-Lite is here⚡ The model offers uncompromising speed & intelligence at scale by focusing on: — Cost-efficiency: Priced at just $0.25/1M input and $1.50/1M output tokens, it gets work done faster at a fraction of the cost of larger models.“
– Google AI auf X (Twitter)
Fazit: Gemini 3.1 Flash-Lite als neuer Maßstab für performante KI-Systeme
Mit Gemini 3.1 Flash-Lite gelingt Google ein deutlicher Vorstoß im Rennen um das schnellste und gleichzeitig effizienteste KI-Modell im Markt. Die technischen Daten zur Geschwindigkeit, kombiniert mit einer aggressiven Preisgestaltung und überzeugenden Benchmark-Resultaten insbesondere bei Fakten- und Videoverarbeitung, heben dieses Modell aus der Masse der aktuellen KI-Systeme heraus.
Die Preview-Version ist für Entwickler ab sofort über die Google API verfügbar – ideale Voraussetzungen also, um das Potenzial in eigenen Anwendungen auszuloten oder bestehende Pipeline-Lösungen auf das neue Geschwindigkeitsniveau zu heben.
Bildquelle: https://www.all-ai.de/news/news26top/gemini-3-1-flash-lite-start
What do you feel about this post?
Like
Love
Happy
Haha
Sad

