Lokale KI-Modelle 2026

aktualisiert, Stand: 9. Juli 2026

Lokale KI ist im Frühjahr 2026 an einem Punkt angekommen, an dem die alte Grundsatzfrage kaum noch trägt.Ob brauchbare Modelle lokal laufen, ist inzwischen geklärt. Die eigentlichen Fragen lauten heute: Welche Modellklasse passt zu welchem Workload, wie ordnen sich offene Systeme gegenüber der proprietären Frontier ein, und welche Hardware ist dafür realistisch nötig? Für DACH-Unternehmen kommt ein zweiter Hebel dazu: Datenhoheit. Wer sensible Dokumente, Kundendaten oder Geschäftslogik nicht über US-APIs leiten will – wegen DSGVO, Branchenvorgaben oder strategischer Eigenständigkeit – findet mit dem aktuellen Stand der offenen Modelle erstmals produktionsreife Alternativen zur reinen Cloud-KI.

Noch vor einem Jahr war lokale KI ein spürbarer Kompromiss: mehr Privatsphäre, aber weniger Qualität; mehr Kontrolle, aber deutlich mehr Bastelaufwand. Im ersten Halbjahr 2026 hat sich dieses Verhältnis sichtbar verschoben. Offene Modelle in der Sub-32B-Klasse sind stärker geworden, kleine Modelle produktiver, Apple-Silicon-Setups ernsthaft relevant, und die Diskussion hat sich vom reinen Chat-Modell zu Agenten, multimodaler Suche und produktionsnahen Workflows verlagert. Der Juni hat dann noch einmal nachgelegt: eine neue Frontier-Spitze, ein neuer Open-Weights-Favorit und der erste Fall, in dem Regulierung ein Frontier-Modell wochenlang vom Markt genommen hat – dazu mehr weiter unten.

Was sich von März bis Anfang Juli 2026 wirklich verändert hat

Die Dynamik der letzten Wochen lässt sich auf drei Linien verdichten.

Erstens ist die offene Sub-32B-Klasse erheblich stärker geworden. Das klarste Signal kommt aus der neuen Qwen-3.6-Generation: Das dichte Qwen3.6-27B soll laut Hersteller in mehreren wichtigen Coding-Benchmarks das vorherige offene Flaggschiff Qwen3.5-397B-A17B übertreffen. Ein 27B-Dense-Modell schlägt damit ein deutlich größeres 397B-MoE.

Das ist natürlich keine Gleichsetzung mit proprietären Frontier-Systemen, aber trotzdem ein ziemlich eindeutiger Hinweis: Modelle, die lokal oder effizient betrieben werden können, rücken in ihrer Leistungsfähigkeit spürbar näher an die Spitze heran – viel stärker, als man es noch vor einem Jahr erwarten würde.

Zweitens ist mit Gemma 4 am 2. April 2026 eine Modellfamilie erschienen, die den Markt nicht als Einheitsklasse behandelt. E2B und E4B adressieren Edge- und Mobile-Szenarien, 26B A4B die effiziente MoE-Mittelklasse, 31B Dense die dichte lokale Oberklasse. Alle Varianten stehen unter Apache 2.0 – kommerziell nutzbar ohne gesonderte Lizenzvereinbarung, was für DACH-Unternehmen die Einführung deutlich vereinfacht. Dieses Release ist deshalb so wichtig, weil es eine Marktbewegung sichtbar macht: Modelle werden 2026 nicht mehr nur entlang ihrer Größe, sondern entlang ihrer Zielhardware und Nutzungssituation designt.

Drittens ist das lokale Software-Ökosystem reifer geworden. Ollama hat Apple-Silicon-Workflows mit MLX sichtbar gestärkt, LM Studio ist als Desktop- und Laufzeitplattform breiter und belastbarer geworden, und mit MolmoWeb von Ai2 ist ein offener Web-Agent erschienen, der zeigt, wie stark sich die lokale Welt in Richtung Handlungssysteme verschiebt. Das ist vielleicht die eigentliche Nachricht des Frühjahrs: Lokale KI 2026 ist nicht mehr ein Modell im Terminal, sondern ein vollständiger Stack – das einzelne Modell im Terminal ist nur noch der Ausgangspunkt.

Viertens hat sich die offene Oberklasse in sehr kurzer Zeit gleich zweimal neu sortiert. Ab April verschoben Modelle wie DeepSeek V4 (Pro und Flash), Kimi K2.6, das überraschende MiMo-V2.5-Pro von Xiaomi und MiniMax M3 die Spitze im offenen Markt sichtbar nach oben; mehrere davon erreichten im neutralen Artificial-Analysis-Index Werte, die kurz zuvor klar der proprietären Spitzenklasse vorbehalten waren. Mitte Juni übernahm dann GLM-5.2 von Z.ai die Führung unter den offenen Modellen – mit MIT-Lizenz, solidem 1M-Token-Kontext und 81,0 % auf Terminal-Bench 2.1 im Terminus-2-Harness laut Modellkarte. Der offene Favorit des Frühjahrs, Kimi K2.6, ist damit nach nur wenigen Wochen abgelöst.

Fünftens ist die proprietäre Frontier in Bewegung geraten wie nie, und mit ihr erstmals die Regulierung. Claude Fable 5 (9. Juni) etablierte eine neue Modellklasse oberhalb von Opus; OpenAI startete GPT-5.6 am 26. Juni zunächst als begrenzte Preview und gab die Familie laut ComputerBase/OpenAI ab 9. Juli breiter frei; Grok 4.5 wurde am 8. Juli offiziell vorgestellt. Begleitet wurde das von US-Exportkontrollen, einer 19-tägigen Zwangspause für Fable 5, einer phasenweisen GPT-5.6-Freigabe nach Sicherheitsprüfung und einem Grok-Start ohne EU-Verfügbarkeit. Beides – die neue Frontier-Spitze und die Regulierung als Verfügbarkeitsrisiko – ist im Abschnitt „Update Anfang Q3 2026“ ausführlich eingeordnet.

Die neuen Open-Weights-Releases, die 2026 wirklich zählen

Nicht jede Neuerscheinung ist für den lokalen Alltag gleich wichtig. Einige setzen Benchmarks, andere verändern tatsächlich die Praxis.

Gemma 4 – die breiteste Staffelung des Frühjahrs

Gemma 4 ist eines der strategisch wichtigsten Open-Weights-Releases des Frühjahrs. Die Familie deckt gleich mehrere Klassen ab: Edge, effiziente lokale Mittelklasse und hochwertige Workstation-Zone. Google nennt direkte Hardware-Signale: Das 31B-Dense-Modell passt unquantisiert in BF16 auf eine einzelne 80 GB H100, quantisierte Varianten laufen lokal auf Consumer-Hardware, und E2B/E4B sind ausdrücklich für Phones, Raspberry Pi und Jetson Orin Nano gedacht.Die Gemma-4-Familie ist multimodal auf Text, Bild und Video ausgelegt; Video wird dabei als Frame-Sequenz verarbeitet. Native Audio-Eingabe unterstützen E2B und E4B; die 12B-, 26B- und 31B-Modelle sind für PC- und Workstation-Szenarien positioniert. Der Kontext reicht bei E2B und E4B bis 128K Token, bei 12B, 26B A4B und 31B Dense bis 256K. Genau diese saubere Staffelung hat der offenen Welt lange gefehlt.

Besonders spannend für kleinere DACH-Unternehmen: Das 26B A4B aktiviert nur etwa 3,8 Milliarden seiner 25,2 Milliarden Parameter pro Inferenz. Die Rechenkosten liegen näher an einem 4B-Modell, während die Qualität sich dem dichten 31B-Modell annähert — ein attraktives Verhältnis für Teams, die keine Rechenzentrumskapazität haben.

Qwen3.6 – die aktuell wichtigste Leistungsachse

Qwen 3.6 löst im Oberbau die Qwen3.5-Generation ab und ist für die lokale Praxis das wichtigste Release des Frühjahrs. Zwei Open-Weights-Varianten zählen, beide unter Apache 2.0 und beide quantisiert auf 24-GB-Consumer-GPUs nutzbar – allerdings nur mit begrenztem Kontext; die nominellen 262K bzw. bis zu 1M Kontext sind eher Workstation- oder Server-Szenarien:

Qwen3.6-27B (Dense, veröffentlicht am 22. April) ist nativ multimodal, bietet 262K-Kontext (über YaRN bis 1M erweiterbar) und meldet SWE-bench Verified 77,2 %, SWE-bench Pro 53,5 % und Terminal-Bench 2.0 59,3 % — Werte, die das deutlich größere Qwen3.5-397B-A17B über mehrere Coding-Benchmarks hinweg übertreffen. In 4-Bit-Quantisierung liegt das Gewicht bei rund 17 GB.

Qwen3.6-35B-A3B (MoE, laut Qwen-GitHub seit 16. April verfügbar) aktiviert von 35 Milliarden Parametern nur etwa 3 Milliarden pro Inferenz. Damit liefert es Rechenkosten nahe einem 3B-Modell bei der Qualität einer deutlich größeren Klasse: SWE-bench Verified 73,4 %, Terminal-Bench 2.0 51,5 %. Community-Messungen nennen je nach Runtime, Quantisierung und Kontextlänge Werte nahe 100 tok/s auf RTX-3090-Systemen in Q4; solche Angaben sollten aber als stark setupabhängig gelesen werden. Mit RAM-Offload ist ein Betrieb auch unterhalb von 24 GB VRAM möglich, komfortabler bleibt 24 GB+.

Wichtig für die Einordnung: Die stärksten Qwen-Modelle der Cloud (Qwen3.6-Max-Preview, Qwen3.7 Max/Plus) sind closed-weights und lokal nicht verfügbar. Für den lokalen Einsatz zählen also die beiden offenen Varianten oben. Die kompakte und mittlere Tagesarbeit deckt — bis Qwen entsprechende kleine 3.6-Open-Weights nachlegt — weiterhin sehr gut die Qwen3.5 4B/9B-Klasse ab.

DeepSeek V4 – das offene Comeback des Frühjahrs

DeepSeek V4 ist das offene Comeback des Frühjahrs. Am 24. April erschien DeepSeeks erste neue Architektur seit V3, und gleich als zweistufige Familie. DeepSeek V4 Pro (1,6 Billionen Gesamt- / 49 Milliarden aktive Parameter, 1M-Kontext, MIT-Lizenz) ist mit einem Artificial-Analysis-Intelligence-Index von 52 nach Kimi K2.6 das zweitstärkste offene Modell und liegt im Coding ganz vorne (rund 80 % auf SWE-bench Verified). DeepSeek V4 Flash (284 Milliarden Gesamt- / 13 Milliarden aktive Parameter, 1M-Kontext, MIT) ist für schnellere, günstigere Inferenz positioniert und mit nur 13 Milliarden aktiven Parametern die für ernsthafte On-Prem-Setups eigentlich interessantere Variante. Beide sind Hybrid-Modelle (Thinking/Non-Thinking). Die permissive MIT-Lizenz macht V4 für DACH-Unternehmen, die On-Premises ernst meinen, besonders attraktiv. (Aktuelle Index-Werte nach der Umstellung auf v4.1: siehe Benchmark-Kapitel.)

Wichtige Einschränkung: Artificial Analysis misst für V4 Pro und V4 Flash eine sehr hohe Halluzinationsrate von 94 bzw. 96 Prozent – wenn das Modell eine Antwort nicht kennt, antwortet es fast immer trotzdem. Für faktenkritische DACH-Workflows (Recht, Steuer, Medizin, Verwaltung) daher nur mit striktem RAG-Grounding und Verifikationsschicht einsetzen, nicht als freistehendes Wissensmodell.

Kimi K2.6, MiMo-V2.5-Pro und MiniMax M3 – die neue offene Oberklasse

Drei weitere Releases haben die Spitze des offenen Marktes geprägt. Kimi K2.6 (Moonshot) löst Kimi K2.5 ab und führte im Frühjahr die offenen Modelle im AA-Index an. Das Modell ist als Open-Weights-Modell unter Modified-MIT-Lizenz verfügbar, gehört mit rund 1T Gesamtparametern und 32B aktiven Parametern aber klar in die Server-/Lab-Klasse.

Update Juni: Mit Kimi K2.7-Code hat Moonshot einen coding-spezialisierten Nachfolger auf Basis von Kimi K2.6 nachgelegt: MoE-Architektur, 1T Gesamtparameter, 32B aktive Parameter, 384 Experten, 256K Kontext, Modified-MIT-Lizenz und Gewichte auf Hugging Face. Laut Modellkarte sinkt die Thinking-Token-Nutzung gegenüber K2.6 um rund 30 %; Kimi Code Bench v2 steigt von 50,9 auf 62,0. Das Modell nutzt native INT4-Quantisierung, bleibt aber klar Server-/Lab-Klasse; konkrete VRAM-Zahlen sollten aus Deployment-Guide oder eigener Messung kommen, nicht aus pauschalen Community-Schätzungen.

MiMo-V2.5-Pro (Xiaomi) ist der Überraschungseinstieg in die offene Oberklasse. Das Modell gehört klar in die Server-/Lab-Klasse und ist damit beeindruckend, aber nicht sinnvoll auf normaler lokaler Hardware zu betreiben.

MiniMax M3 Update Anfang Q3: Der Watchlist-Status ist aufgelöst. Die Gewichte sind veröffentlicht, die Eckdaten haben sich konkretisiert: rund 428 Milliarden Gesamt- / 23 Milliarden aktive Parameter, 1M-Kontext, native Multimodalität (Bild/Video) und eine Sparse-Attention-Architektur. Wichtig für die Lizenzprüfung: Statt der bei DeepSeek und GLM üblichen MIT-Lizenz gilt hier eine eigene „MiniMax Community License“ mit Auflagen für kommerzielle Nutzung — vor dem Produktiveinsatz prüfen. Im aktuellen AA-Index v4.1 erreicht M3 44 Punkte und spielt damit in einer Liga mit Kimi K2.6 und DeepSeek V4 Pro.

MolmoWeb – der Markt bewegt sich Richtung Agenten

MolmoWeb ist kein generisches Chatmodell, sondern ein offener visueller Web-Agent. Für Teams, die sichere Browser-Automation, interne Web-Workflows, QA oder agentische Recherche lokal und selbst gehostet denken, ist das eine der spannendsten Veröffentlichungen des Frühjahrs. Gerade in regulierten DACH-Branchen ist ein lokaler Web-Agent attraktiv, weil er sensible Interaktionen nicht über fremde API-Schichten leitet.

📌 Praxisbeispiel DACH: Wo Qwen3.5 9B reicht

Ein 15-köpfiges Steuerbüro setzt Qwen3.5 9B auf einem Mac mini M4 Pro mit 48 GB Unified Memory ein, um eingehende Mandantendokumente (PDF, E-Mail, Scans) automatisch zu klassifizieren und zu Stichworten zusammenzufassen. Keine Daten verlassen das Haus, keine API-Kosten, keine DSGVO-Diskussion mit dem Datenschutzbeauftragten. Der gesamte Setup-Aufwand: rund zwei Tage Konfiguration mit Ollama und einem einfachen n8n-Flow für die Eingangsverteilung.

Die ehrliche Einordnung: Für 70–80 % der KMU-Workloads im DACH-Raum -Dokumentensortierung, E-Mail-Zusammenfassung, interne Q&A, einfaches RAG auf eigene Handbücher – reicht ein Modell der Sub-10B-Klasse auf einem gut ausgestatteten Notebook oder Mac mini. Alles darüber ist in der Regel Over-Engineering, bis der konkrete Workload es erzwingt.

FLUX.2 (klein) – Bild-KI mit Hardwaretransparenz

Im Bildbereich ist FLUX.2 [klein] besonders relevant, weil Black Forest Labs nicht nur Qualität, sondern auch brauchbare Hardwaretransparenz liefert. Die kleinere 4B-Variante läuft unter Apache 2.0 und ist kommerziell nutzbar. Die 9B-Variante ist für die lokale Nutzung nicht-kommerziell vorgesehen — für kommerzielle Workloads führt BFL über die API. Inzwischen hat BFL die Familie nach oben mit FLUX.2 [max] ergänzt, das in der Bildqualität an die proprietäre Spitze heranrückt, dort aber wieder API-gebunden ist.

Auf der offenen Seite ist Qwen-Image-2.0 der wichtigste Bewegungspunkt (schlankes 7B-Modell, native 2K-Auflösung, herausragendes Text-Rendering); hier war die lokale Gewichtsverfügbarkeit zum Redaktionsschluss allerdings noch nicht abschließend bestätigt. Diese Unterscheidungen sind für deutsche und österreichische Agenturen wichtig, bevor Produktivkosten entstehen.

Frontier-Referenzen: Daran misst sich die offene lokale Welt

Eine vollständige Einordnung lokaler KI kommt an der proprietären Frontier nicht vorbei. Diese Modelle gehören zwar nicht zur Open-Weights-Kategorie, setzen aber den Referenzrahmen, an dem sich die offene Entwicklung 2026 faktisch ausrichtet.

Die Chronologie des Frühjahrs zeigt eine ungewöhnlich hohe Taktung: Claude Opus 4.6 erschien am 5. Februar 2026, gefolgt von Claude Sonnet 4.6 am 17. Februar. GPT-5.4 folgte am 5. März, Gemini 3.1 Flash Live am 26. März. Im April ging es weiter mit Claude Opus 4.7 (16. April) und GPT-5.5 (23. April), bevor im Mai Gemini 3.5 Flash (19. Mai) und Claude Opus 4.8 (28. Mai) nachzogen. Und die Taktung hielt im Sommer an: Claude Fable 5 (9. Juni), die GPT-5.6-Preview (26. Juni) und Grok 4.5 (offiziell vorgestellt am 8. Juli).

Zur Einordnung der Zahlen: Artificial Analysis hat den Intelligence Index inzwischen von v4.0 auf v4.1 umgestellt und dabei neu skaliert – die Werte der beiden Versionen sind nicht direkt vergleichbar. Im Juni-Stand dieses Reports (v4.0) lag Claude Opus 4.8 mit rund 61 Punkten vorn, gefolgt von GPT-5.5 (xhigh) mit 60 und Gemini 3.1 Pro bei etwa 57; die offene Spitze (Kimi K2.6, MiMo-V2.5-Pro mit 54, DeepSeek V4 Pro mit 52) rückte damals bis auf wenige Punkte heran. Aktuell (v4.1, Stand 9. Juli) führt Claude Fable 5 mit 60 Punkten vor Claude Opus 4.8 (56), GPT-5.5 xhigh (55) sowie Grok 4.5 und Claude Opus 4.7 (je 54); das stärkste offene Modell ist GLM-5.2 mit 51. Die Frühjahrs-Aussage, der Abstand zwischen offener und proprietärer Welt sei „so gering wie nie“, muss man damit differenzieren: An der absoluten Spitze hat sich die Schere mit der neuen Mythos-Klasse wieder geöffnet – beim Coding dagegen ist sie enger denn je (dazu unten).

GPT-5.5 – Referenz für Wissensarbeit und Computer Use und GPT-5.6 – Preview

GPT-5.5 (intern „Spud“) hat im April GPT-5.4 abgelöst und war bis zur GPT-5.6-Familie die klarste OpenAI-Referenz für produktionsnahe Wissensarbeit und Computer Use. Seit der GPT-5.6-Preview vom 26. Juni und der breiteren Freigabe ab 9. Juli verschiebt OpenAI die Spitze weiter nach oben; GPT-5.5 bleibt aber als Vergleichsmodell wichtig. OpenAI nennt unter anderem Terminal-Bench 2.0 82,7 %, GDPval 84,9 %, OSWorld-Verified 78,7 % und SWE-Bench Pro 58,6 %. Das Modell bietet ein 1M-Token-Kontextfenster und liegt preislich bei $5 Input / $30 Output pro Million Token. Wichtiger als die Einzelzahlen ist die Richtung: GPT-5.5 wird als Modell für Tool-Nutzung, Softwareumgebungen, Dokumente, Spreadsheets und Computer Use positioniert. Genau an dieser Fähigkeitsmischung müssen sich offene lokale Modelle heute messen lassen.

Claude Opus 4.8 – Referenz für Agenten und Coding

Claude Opus 4.8 war von Ende Mai bis zum 9. Juni die Spitze von Anthropic und bleibt auch nach dem Fable-5-Start das Arbeitspferd-Referenzmodell – nicht zuletzt, weil Fable 5 in sensiblen Themenbereichen auf Opus 4.8 zurückfällt. Anthropic hebt vor allem Zuverlässigkeit und „Ehrlichkeit“ hervor: Das Modell flaggt Unsicherheiten proaktiver und ist nach eigenen Evals rund viermal seltener dabei, eigene Code-Fehler unkommentiert durchzulassen. Auf SWE-Bench Pro nennt Anthropic 69,2 %. Praktisch relevant: Der Fast-Modus läuft mit 2,5-facher Geschwindigkeit, der Preis bleibt mit $5 Input / $25 Output pro Million Token gegenüber dem Vorgänger stabil. Neu sind außerdem die Effort-Stufen (extra/max) und „Dynamic Workflows“ in Claude Code, mit denen sehr große, mehrstufige Aufgaben über viele parallele Sub-Agenten laufen. Für lokale KI ist die Richtung interessant: längere autonome Läufe, robuste Tool-Nutzung, verlässlichere Selbstprüfung.

Gemini 3.1 Pro, Flash Live und 3.5 Flash – Voice, Realtime und Effizienz

Google setzt mit der Gemini 3-Serie einen breiteren Referenzrahmen. Gemini 3.1 Pro wird als Modell für komplexe Problemlösung positioniert und erreicht laut Google 77,1 % auf ARC-AGI-2. Gemini 3.1 Flash Live verschiebt die Frontier in Richtung Audio, Realtime-Interaktion und Voice Agents; im Mai folgten die generelle Verfügbarkeit von Gemini 3.1 Flash-Lite (sehr günstig, sehr schnell) und das neue Gemini 3.5 Flash.

Die Bedeutung für die lokale Welt ist klar: Die Zielgröße 2026 ist nicht mehr nur Textreasoning, sondern ein System aus Text, Audio, Vision, Tool-Nutzung und niedriger Latenz.

Update Anfang Q3 2026: neue Frontier-Spitze, neuer Open-Weights-Favorit

Seit der Juni-Ausgabe dieses Reports hat sich an der Spitze des Marktes mehr getan als im gesamten Frühjahr – auf beiden Seiten: bei den proprietären Frontier-Modellen und bei den offenen Gewichten.

Ein wichtiger Unterschied vorweg: Die ersten vier Modelle in diesem Abschnitt – Claude Fable 5, GPT-5.6, Grok 4.5 und Gemini 3.x Pro sind proprietäre Cloud-Modelle. Sie können zwar auch aus lokalen Anwendungen heraus genutzt werden, die Inferenz erfolgt jedoch ausschließlich über die Infrastruktur der jeweiligen Anbieter. Erst ab GLM-5.2 folgen Modelle mit offenen Gewichten, die sich auf eigener Hardware betreiben lassen.

Kategorie	Modelle	Lokal betreibbar?
Proprietäre Frontier-Modelle	Claude Fable 5, GPT-5.5/5.6, Grok 4.5, Gemini 3.x	Nein – können zwar über lokal installierte Anwendungen genutzt werden, die Inferenz erfolgt jedoch ausschließlich über die Cloud-Infrastruktur der Anbieter.
Offene Gewichte (Server-Klasse)	GLM-5.2, DeepSeek V4, Kimi K2.6/K2.7, MiMo-V2.5-Pro, MiniMax M3, Nemotron 3 Ultra, Mistral Medium 3.5	Ja – mit leistungsfähiger Server-Hardware und entsprechendem IT-Betrieb
Offene Gewichte (lokal erreichbar)	Qwen3.6-27B/35B-A3B, Gemma 4, Qwen3.5 4B/9B	Ja – auf Workstations, Notebooks oder Macs mit ausreichendem Speicher

Claude Fable 5: die erste Mythos-Klasse mit Zwangspause

Am 9. Juni stellte Anthropic Claude Fable 5 und Claude Mythos 5 vor — das erste Modell der neuen Claude-5-Familie und eine neue Modellklasse („Mythos-Klasse“) oberhalb von Claude Opus. Beide Varianten nutzen dasselbe zugrunde liegende Modell: Fable 5 ist allgemein verfügbar und leitet Anfragen aus sensiblen Bereichen (offensive Cybersicherheit, Biologie/Chemie, Destillationsversuche) per Sicherheitsklassifikator an Opus 4.8 weiter — laut Anthropic in unter 5 % der Sessions. Mythos 5 läuft ohne diese Schranken, ist aber geprüften Partnern vorbehalten (Cyber-Verteidiger im „Project Glasswing“, ausgewählte biomedizinische Forschung).

Bemerkenswert ist der Stolperstart: Anthropic startete das Modell am 9. Juni, setzte den Zugang am 12. Juni aber vorübergehend aus. Am 1. Juli wurde Fable 5 nach aufgehobenen Exportkontrollen und nachgeschärften Sicherheitsklassifikatoren wieder ausgerollt.

Preislich liegt Fable 5 mit 10 $ Input / 50 $ Output pro Million Tokens deutlich über Opus 4.8. Verfügbar ist es über die Claude-API, Claude.ai, Claude Code und Claude Cowork; in den Abo-Plänen war es zeitlich befristet enthalten, danach läuft der Zugang über Nutzungsguthaben. Im Artificial-Analysis-Index v4.1 führt Fable 5 mit 60 Punkten — vier Punkte vor Opus 4.8.

GPT-5.6 (Sol, Terra, Luna): Preview am 26. Juni, breitere Freigabe am 9. Juli

OpenAI startete am 26. Juni die Preview von GPT-5.6 mit einem neuen Namensschema: Die Zahl bezeichnet die Generation, die Namen Sol (Flaggschiff), Terra (ausgewogen) und Luna (schnell, günstig) stehen für dauerhafte Leistungsstufen. Preise pro Million Tokens: Sol 5 $/30 $, Terra 2,50 $/15 $, Luna 1 $/6 $ — Terra verspricht GPT-5.5-Niveau zum etwa halben Preis. s. OpenAI nennt GPT-5.6 Sol als neuen Spitzenwert auf Terminal-Bench 2.1; konkrete Prozentwerte sollten nur aus der System Card oder dem offiziellen Chart übernommen werden. Der Ultra Mode – parallele Subagenten —-bleibt Sol vorbehalten.

Entscheidend ist die Verfügbarkeit: Die GPT-5.6-Preview begann am 26. Juni zunächst für ausgewählte Partner über API und Codex. ComputerBase meldete am 8. Juli unter Berufung auf OpenAI die Freigabe für die Allgemeinheit am Donnerstag, dem 9. Juli 2026. Im AA-Index v4.1 ist GPT-5.6 noch nicht gelistet.

Grok 4.5: Neueinsteiger auf Augenhöhe mit Opus 4.7, aber (noch) nicht in der EU

Am 8. Juli stellte SpaceXAI/xAI Grok 4.5 offiziell vor. Laut Anbieter ist es in Grok Build, in Cursor und über die API-Konsole verfügbar. Das Modell wurde gemeinsam mit Cursor trainiert und zielt auf Coding, agentische Aufgaben und Wissensarbeit; die Anbieterangaben nennen unter anderem Terminal-Bench 2.1 83,3 % und SWE-Bench Pro 64,7 %. Im AA-Index v4.1 steht Grok 4.5 (high) bei 54 Punkten — gleichauf mit Claude Opus 4.7.

Für DACH-Leser der entscheidende Punkt: Grok 4.5 ist zum Redaktionsschluss in der EU nicht verfügbar — weder in den SpaceXAI-Produkten noch über die API-Konsole. Die EU-Freischaltung wird für Mitte Juli erwartet.

Gemini 3.5 Pro: angekündigt, aber verschoben

Google hat Gemini 3.5 Pro auf der I/O (19. Mai) angekündigt – 2-Millionen-Token-Kontext, „Deep Think“-Modus – den für Juni geplanten Launch aber verschoben. Zum Redaktionsschluss liegt das Modell in einer begrenzten Vertex-AI-Enterprise-Preview.

GLM-5.2: der neue Open-Weights-Spitzenreiter

Mitte Juni veröffentlichte Z.ai GLM-5.2 — ein MoE-Modell, das Hugging Face mit 753 Milliarden Parametern führt, mit solidem 1M-Token-Kontext und MIT-Lizenz. Mit 51 Punkten im AA-Index v4.1 ist es das aktuell stärkste offene Modell und löst Kimi K2.6 als Open-Weights-Favoriten ab — mit deutlichem Abstand: K2.6, MiniMax M3 und DeepSeek V4 Pro folgen bei je 44 Punkten.

Beim Coding rückt GLM-5.2 erstmals in echte Schlagdistanz zur Frontier: Terminal-Bench 2.1: 81,0 % (Claude Opus 4.8: 85,0 %) — das erste offene Modell über der 80-Prozent-Marke. Auf FrontierSWE liegt es laut Modellkarte nahe bei Opus 4.8 und vor GPT-5.5; die Kostenbewertung hängt vom konkreten Self-Hosting- oder API-Setup ab. Für den lokalen Betrieb gilt weiter die Server-/Lab-Klasse dieses Reports; wer die Hardware hat, bekommt hier die derzeit frontier-nächste offene Option mit der saubersten Lizenz.

Nemotron 3 Ultra und Mistral Medium 3.5 – zwei Sonderfälle

Zwei weitere Modelle runden das neue Bild ab, aus unterschiedlichen Gründen:

Nemotron 3 Ultra gehört zur Nemotron-3-Familie offener NVIDIA-Modelle. NVIDIA beschreibt Ultra als großes Reasoning-Modell mit etwa 500 Milliarden Gesamtparametern und bis zu 50 Milliarden aktiven Parametern pro Token. Besonders relevant ist die Offenheit des Stacks: NVIDIA veröffentlicht neben den Modellen auch Trainingsdaten, Reinforcement-Learning-Umgebungen und Post-Training-Werkzeuge. Der AA-v4.1-Wert sollte als Momentaufnahme mit Abrufdatum behandelt werden.

Mistral Medium 3.5 (28. April, hier nachgetragen): 128 Milliarden Parameter dense, 256K Kontext, multimodal, Modified-MIT. Es ersetzt Mistral Medium 3.1, Magistral in Le Chat und Devstral 2 in Mistral Vibe und meldet 77,6 % auf SWE-Bench Verified — auf Augenhöhe mit Qwen3.6-27B, allerdings deutlich größer. Für lokales Serving verweist Mistral vor allem auf vLLM/SGLang/Transformers; konkrete GPU-Zahlen hängen stark vom Serving-Setup ab. Relevant ist es vor allem als europäischer Open-Weights-Anbieter.

Einordnung: Die Schere öffnet sich oben – und schließt sich beim Coding

Zwei gegenläufige Bewegungen prägen den Beginn des dritten Quartals. Oben zieht die Frontier davon: Fable 5 (60) liegt neun v4.1-Punkte vor dem besten offenen Modell – im Frühjahr war der Abstand (auf der alten Skala) auf wenige Punkte geschrumpft. Beim Coding dagegen schließt sich die Lücke: GLM-5.2 über 80 % auf Terminal-Bench 2.1, einen Punkt hinter Opus 4.8 auf FrontierSWE – für agentische Entwicklungs-Workflows ist die offene Alternative erstmals deutlich näher an der proprietären Spitze und mit MIT-Lizenz nutzbar.

Dazu kommt ein Faktor, den es im Frühjahr nicht gab: Regulierung als Verfügbarkeitsrisiko. Binnen eines Monats griff die US-Regierung zweimal direkt in Frontier-Releases ein (Fable 5: Exportkontrollen und 19 Tage Zwangspause; GPT-5.6: begrenzte Partner-Preview), und Grok 4.5 startete ohne EU-Verfügbarkeit. Wer geschäftskritische Prozesse auf US-Frontier-APIs baut, plant künftig auch regulatorische Ausfälle ein — ein struktureller Vorteil für die lokal betreibbare Open-Weights-Klasse, um die es in diesem Report geht.

Werkzeug-Trend: n8n + Claude Code / Codex

Abseits der Modell-Releases verfestigt sich ein Muster, das für die Praxis mindestens so wichtig ist wie Benchmark-Punkte: Coding-Agenten und Workflow-Automatisierung wachsen zusammen. Claude Code (Anthropic) und Codex (OpenAI) werden zunehmend genutzt, um n8n-Workflows per Sprachbefehl bauen, testen und debuggen zu lassen – das mühsame Zusammenklicken von Hand im visuellen Editor entfällt.

Technische Grundlage ist das Model Context Protocol (MCP): Open-Source-Projekte wie n8n-mcp verbinden Claude Code, Claude Desktop oder Codex direkt mit einer n8n-Instanz — der Agent kennt die Node-Dokumentation, erzeugt die Workflow-JSON, validiert sie und liest bei Fehlern die Execution-Logs. Auch OpenAI positioniert Codex 2026 klar als Agenten-Plattform: mit „Agent Skills“ (paketierte Anleitungen für wiederkehrende Aufgaben) und parallelen Agenten-Workflows.

In der Praxis etabliert sich dabei eine Arbeitsteilung: n8n übernimmt die deterministische Orchestrierung (Trigger, Zeitpläne, Datenrouting, hohe Volumina), der Coding-Agent das, was Urteilsvermögen braucht — Workflows entwerfen, anpassen, Fehler diagnostizieren. Für den lokalen Kontext dieses Reports ist das doppelt relevant: n8n läuft self-hosted, und die Kombination aus lokal gehosteter Orchestrierung plus punktuell zugeschaltetem Cloud-Agenten ist für viele KMU der pragmatischste Mittelweg zwischen Datensouveränität und Frontier-Fähigkeiten.

Was Nutzer damit konkret machen

Die wichtigste praktische Frage lautet nicht, welches Modell „insgesamt am besten“ ist, sondern welches Modell für welchen Workload die beste Wahl darstellt.

Private Wissensarbeit und lokale Alltagsassistenz

Für Recherche, Zusammenfassungen, Notizen, Dokumentenarbeit und persönliche Offline-Assistenten sind Qwen3.5 4B, Qwen3.5 9B und Gemma 4 E4B derzeit besonders attraktiv. Diese Klasse liefert genug Qualität für reale Arbeit, ohne dass eine High-End-Workstation nötig wäre. Für DACH-Anwender mit DSGVO-Sensibilität ist das oft der direkteste Einstieg in produktive lokale KI.

Coding und technische Wissensarbeit

Sobald längere Kontexte, Codebasen, Tool-Integration, Agentenketten oder strukturierte technische Aufgaben ins Spiel kommen, verschiebt sich die sinnvolle Zone nach oben. Qwen3.6-27B, Qwen3.6-35B-A3B, Gemma 4 31B und Gemma 4 26B A4B sind hier die relevantesten offenen Klassen für lokal erreichbare Hardware. Wer ein IT-Team und Server-Hardware hat, findet in DeepSeek V4 Flash und – seit Mitte Juni als neue offene Spitze – GLM-5.2 sowie am oberen Ende DeepSeek V4 Pro, Kimi K2.6/K2.7-Code oder MiMo-V2.5-Pro die stärksten offenen Optionen. Der Mehrwert zeigt sich neben besseren Einzelergebnissen vor allem in längerer Stabilität, saubererem Verhalten bei mehrstufigen Aufgaben und besserer Tool-Nutzung.

RAG und multimodale Suche

Für interne Wissenssysteme, PDFs, Screenshots, Produktbilder oder technische Dokumente ist nicht das Chatmodell allein der Hebel. Embeddings und Retrieval-Stacks sind oft wichtiger. Genau deshalb ist die aktuelle Bewegung zu multimodalen Embeddings so relevant – die Suche passt sich der Realität der Daten an, statt alles erst in Textform übersetzen zu müssen.

Bildgenerierung und Bildbearbeitung

In produktiven Bildpipelines zählt 2026 nicht nur rohe Text-to-Image-Qualität, sondern Bearbeitbarkeit, Konsistenz, Steuerbarkeit und lokale Einbettung. FLUX-2-dev, Qwen-Image, Qwen-Image-Edit und FLUX-2-klein sind deshalb besonders interessant; bei Qwen-Image-2.0 lohnt vor dem produktiven Einsatz der Blick auf die lokale Gewichtsverfügbarkeit.

Video-Enhancement und diffusionsbasierte Videoverbesserung

Video bleibt die teuerste lokale KI-Disziplin. Klassische Videoverbesserung ist heute lokal gut machbar. Sobald aber diffusionsbasierte Workflows wie Starlight Mini ins Spiel kommen, steigt der Ressourcenbedarf spürbar. Das ist klar ein Workstation-Workload und für kleine Systeme kein Alltagsthema.

Benchmark-Vergleich

Die aktuelle Lage lässt sich sinnvoll in eine offene Oberklasse und einen lokalen Sweet Spot unterteilen. Ein methodischer Hinweis vorweg: Chatbot-Arena-Elo-Werte werden in diesem Artikel bewusst nicht mit dem Artificial-Analysis-Intelligence-Index vermischt. Das sind unterschiedliche Messungen – Arena ist menschliches Präferenz-Voting, der AA-Index eine gewichtete Benchmark-Suite aus standardisierten Evals. Seit Ende Juni gibt es außerdem eine wichtige Änderung bei Artificial Analysis: Der Index wurde von Version 4.0 auf 4.1 umgestellt und neu skaliert. Die Werte aus der Juni-Ausgabe dieses Reports bleiben als historische Momentaufnahme erhalten, sind jedoch nicht direkt mit den aktuellen v4.1-Werten vergleichbar. Ein niedrigerer Zahlenwert bedeutet daher nicht, dass sich die Leistung eines Modells verschlechtert hat.

Offene Oberklasse — aktuell (AA Intelligence Index v4.1, Stand 9. Juli 2026)

Modell	AA-Index v4.1	Einordnung
GLM-5.2 (max)	51	neuer Open-Weights-Spitzenreiter, MIT, 753B Gesamtparameter laut Hugging Face, 1M Kontext
MiniMax M3	44	1 Mio. Token Kontext, multimodal; MiniMax Community License (Lizenzbedingungen prüfen)
DeepSeek V4 Pro	44	Spitzenmodell der V4-Familie für Coding; MIT-Lizenz; ca. 1,6T Parameter (49B aktiv)
Kimi K2.6	44	Modified MIT License; leistungsstarkes Modell der Server-/Lab-Klasse
MiMo-V2.5-Pro (Xiaomi)	42	starke offene Oberklasse; Server-/Lab-Klasse, keine Desktop-Empfehlung
DeepSeek V4 Flash	40	MIT-Lizenz; nur 13B aktive Parameter – besonders attraktives Preis-Leistungs-Verhältnis für On-Premises
Nemotron 3 Ultra (NVIDIA)	38	offene NVIDIA-Modellfamilie; laut NVIDIA etwa 500B/50B aktiv und mit offenem Trainings-/Post-Training-Stack
Qwen3.5-397B-A17B	34	Apache-2.0-Lizenz; großes MoE-Modell
Mistral Medium 3.5	30	128B Dense-Modell; Modified MIT License; europäischer Anbieter
Gemma 4 31B	29	Final bestätigter v4.1-Wert

Zur Frontier-Referenz auf derselben Skala: Claude Fable 5 60, Claude Opus 4.8 56, GPT-5.5 (xhigh) 55, Grok 4.5 (high) 54. Für Kimi K2.7-Code und die Qwen3.6-Varianten lagen zum Redaktionsschluss noch keine v4.1-Werte vor.

Offene Oberklasse – historische Momentaufnahme (Stand 8. Juni, Index v4.0)

Diese Tabelle dokumentiert den Juni-Stand; die Werte sind mit v4.1 nicht vergleichbar.

Modell	AA-Index v4.0	Einordnung (Juni)
Kimi K2.6 (Reasoning)	54	Damals höchster Score unter den Open-Weights-Modellen
MiMo-V2.5-Pro (Xiaomi)	54	damalige offene Oberklasse; Server-/Lab-Klasse
DeepSeek V4 Pro	52	Spitzenmodell für Coding (ca. 80 % SWE-bench Verified); MIT-Lizenz
Qwen3.6-Max-Preview	52	Sehr leistungsstark, aber proprietär – nicht lokal betreibbar
GLM-5.1 (Reasoning)	51	MIT-Lizenz; 40B aktive Parameter; inzwischen durch GLM-5.2 ersetzt
GLM-5 (Reasoning)	50	Sehr leistungsstark, aufgrund der Hardwareanforderungen jedoch nur eingeschränkt lokal einsetzbar

Lokal relevanter Sweet Spot

Modell	Intelligenz / Benchmark	Durchsatz	Einordnung
Qwen3.6-27B (Dense)	SWE-bench Verified 77,2 %	–	Höchste Coding-Qualität in der lokal erreichbaren Leistungsklasse
Qwen3.6-35B-A3B (MoE, 3B aktiv)	SWE-bench Verified 73,4 %	setupabhängig; Q4 auf High-End-Consumer-GPUs sehr schnell	effizienter MoE-Sweet-Spot; sinnvoll ab 24 GB, mit RAM-Offload auch darunter möglich
Gemma 4 31B (Reasoning)	29 (AA v4.1, final)	35,8 Token/s, TTFT 1,69 s	Etwas geringere Spitzenleistung, dafür sehr reaktionsschnell
Gemma 4 26B A4B	ca. 31 (AA v4.0, vorläufig)	–	Nur 3,8B aktive Parameter; auf maximale Effizienz ausgelegt
Qwen3.5 9B (Reasoning)	32 (AA v4.0)	131,3 Token/s	Starke Midrange-Klasse und sehr guter Daily Driver
Qwen3.5 4B (Reasoning)	27 (AA v4.0)	218,3 Token/s	Überraschend leistungsfähig für kompakte Systeme
Gemma 4 E4B	19 (AA v4.0)	n. a.	Für Edge-Geräte und mobile Systeme konzipiert

Hinweis zu den Benchmarks: Für Gemma 4 31B liegt inzwischen der finale Artificial-Analysis-Wert nach Index v4.1 (29) vor. Für die übrigen kleineren Modelle waren zum Redaktionsschluss noch keine v4.1-Werte verfügbar, weshalb hier weiterhin die v4.0-Werte verwendet werden. Diese lassen sich untereinander vergleichen, jedoch nicht direkt mit den v4.1-Ergebnissen. Für Qwen 3.6 dienen weiterhin die derzeit aussagekräftigsten Coding-Benchmarks auf Basis der Herstellerangaben als Referenz. Insgesamt sind alle Werte als Momentaufnahme zu verstehen: Der Open-Weights-Markt entwickelt sich 2026 so schnell, dass sich die Rangfolge innerhalb weniger Wochen spürbar verändern kann.

Hardware: Welche Leistung zu welcher Modellkategorie passt

Welche Hardwareklasse passt zu welcher Modellkategorie? Die folgenden Empfehlungen basieren auf Herstellerangaben, Artificial-Analysis-Daten und Community-Benchmarks.

Ein wichtiger Hinweis vorab: Der KV-Cache kostet echten VRAM. Die unten genannten Speicherangaben decken das reine Modell-Gewicht ab. Jede laufende Konversation – besonders mit langem Kontext (RAG auf große Dokumente, Agentenketten, Codebasen) – produziert zusätzlich einen Key-Value-Cache im GPU-Speicher. Faustregel: Für 32K Kontext können je nach Modell, KV-Quantisierung und Runtime bereits zusätzliche 1–2 GB anfallen, für 64K eher mehrere GB. Bei 128K+ wird der KV-Cache schnell zu einem eigenen Speicherbudget und kann je nach Modell auch deutlich über 5 GB liegen. Plane also mindestens 15–25 % Headroom über der reinen Modellgröße ein, sonst friert die Inferenz bei langen Sessions ein oder fällt auf SSD-Offloading zurück (und wird dadurch sehr langsam).

Edge- und On-Device-Klasse

Typische Modelle: Gemma 4 E2B, Gemma 4 E4B, Qwen3.5 2B, Qwen3.5 4B

Geeignet für: Offline-Assistenten, leichte RAG-Setups, Edge-Anwendungen, eingebettete Workflows (IoT, Kiosk, Retail)

Sinnvolle Hardware: RAM / Unified Memory 16 GB Einstieg, 24 GB angenehm; VRAM meist nicht zwingend; CPU / SoC: Apple Silicon, Snapdragon X Elite, moderne x64-CPUs mit AVX-VNNI, etwa Intel ab 12th Gen, oder AVX-512, etwa AMD Zen 4/5 und ausgewählte Intel-Plattformen; Software: LM Studio, Ollama, Edge-Runtimes von Google

Daily-Driver-Klasse für Notebooks und Mini-PCs

Typische Modelle: Qwen3.5 4B, Qwen3.5 9B, Gemma 4 E4B

Geeignet für: tägliche Wissensarbeit, Dokumentenarbeit, persönliche Automatisierungen, kleine Coding-Hilfe

Sinnvolle Hardware: RAM / Unified Memory 24–32 GB; VRAM: 8 GB reichen für Qwen3.5 9B in Q4/Q5-Quantisierung, für Q8 12 GB einplanen; CPU: moderner 8-Kern-Prozessor oder Apple M2/M3/M4; Software: LM Studio, Ollama

Diese Klasse dürfte 2026 für die meisten DACH-Anwender – Freelancer, kleine Agenturen, IT-Abteilungen in KMU – die eigentliche Realität lokaler KI sein.

MoE-Sweet-Spot

Typische Modelle: Gemma 4 26B A4B, Qwen3.6-35B-A3B

Geeignet für: ernsthafte lokale Wissensarbeit, Coding, Agenten und RAG, aber mit deutlich geringerem Hardware-Bedarf als das 31B-Dense-Modell, dank Mixture-of-Experts-Architektur

Sinnvolle Hardware: RAM / Unified Memory 32 GB;VRAM: 24 GB sind für Q4-Quantisierung und praxistauglichen Kontext die sinnvollere Zielgröße. Mit RAM-Offload kann Qwen3.6-35B-A3B auch auf 16-GB-GPUs laufen, dann aber mit klaren Abstrichen bei Geschwindigkeit und Kontextlänge. Geeignet sind etwa RTX 4080/4090, RTX 3090 oder vergleichbare Karten; CPU: moderner 8-Kern+; Software: Ollama, LM Studio

Das Gemma 4 26B A4B ist für DACH-KMU oft die intelligentere Wahl als ein Dense-Modell: fast gleiche Qualität bei halbem Hardware-Budget, weil nur 3,8 Milliarden der 25,2 Milliarden Parameter pro Inferenz aktiv sind. Dasselbe Prinzip macht Qwen3.6-35B-A3B mit nur 3 Milliarden aktiven Parametern zu einem der effizientesten lokalen Coder des Jahres.

Pro-Desktop- und Workstation-Klasse

Typische Modelle: Qwen3.6-27B, Gemma 4 31B

Geeignet für: Coding, Agenten, große Kontexte, multimodale Analyse, ernsthafte lokale Wissensarbeit, interne RAG-Systeme

Sinnvolle Hardware: RAM / Unified Memory 48–64 GB; VRAM: 24 GB ist das absolute Minimum für Q4-Quantisierung mit kurzem Kontext (≤16K Tokens); Qwen3.6-27B liegt in Q4 bei rund 17 GB Gewicht; für längeren Kontext (32K+) oder Q8 32 GB+ einplanen; CPU: 12+ Kerne oder Apple Silicon Max/Ultra; Software: Ollama, LM Studio, lokale API-Server

Diese Zone ist aktuell der eigentliche Premium-Sweet-Spot für lokale KI – für Teams, die On-Premises-KI als echte Alternative zu Cloud-APIs aufbauen wollen.

Apple-Silicon-Profi-Setups

Typische Modelle: Qwen3.6-35B-A3B, Gemma 4 26B/31B quantisiert. Unified Memory: mindestens >32 GB, besser 48–64 GB; SoC: M4 Pro, M4 Max, M5, M5 Pro, M5 Max; Software: Ollama MLX, LM Studio. Für die MoE-Modelle der A3B-Klasse auf Apple Silicon empfiehlt sich ein Mac mit mehr als 32 GB Unified Memory; die Modelle laufen über die MLX-Backends von Ollama und LM Studio nativ.

Server- und Lab-Klasse

Typische Modelle: GLM-5.2, Kimi K2.6 / K2.7-Code, MiMo-V2.5-Pro, DeepSeek V4 Pro, MiniMax M3, Nemotron 3 Ultra, Mistral Medium 3.5, GLM-5.1, Qwen3.5-397B-A17B

Geeignet für: Team-Serving, interne Modellplattformen, On-Prem-Sicherheit, große Modellpools – also typischerweise Umgebungen mit einem IT-Team dahinter

Sinnvolle Hardware: RAM 128 GB+; VRAM 80 GB-Klasse oder Multi-GPU; Server-CPU mit vielen PCIe-Lanes; SSD 1 TB NVMe oder mehr; Software: vLLM, SGLang oder TGI als Serving-Layer, Ollama mit eigenem API-Gateway für kleinere Teams, LM Studio mit Business-Lizenz für Desktop-Workflows

Hinweis: Mit DeepSeek V4 Flash (13 Milliarden aktive Parameter) und Mistral Medium 3.5 (128B dense) gibt es in dieser Klasse inzwischen Optionen, die je nach Serving-Setup günstiger laufen können als die ganz großen MoE-Flaggschiffe. Am oberen Ende ist GLM-5.2 (MIT, 753B Gesamtparameter laut Hugging Face) seit Mitte Juni die frontier-nächste offene Option.

Hardware für Bildmodelle

Im Bildbereich ist die Begriffswahl wichtig. Nicht jede Modellfamilie läuft unter einer vollständig freien Open-Source-Lizenz. Für die kommerzielle Nutzung in DACH-Unternehmen ist deshalb die präzisere Formulierung „offen verfügbare oder community-gelistete Modelle“ sinnvoller als pauschales Open Source – die Lizenzprüfung lohnt sich vor jedem produktiven Einsatz.

FLUX.2 [klein]: 4B ca. ~13 GB VRAM, 9B ca. ~24 GB VRAM, RAM 32 GB, moderner 8-Kern+, Software: ComfyUI, Forge, AUTOMATIC1111. Wichtig: FLUX.2 [klein] 4B ist lokal unter Apache 2.0 nutzbar – also auch kommerziell; die 9B-Variante ist lokal für non-commercial use gedacht, kommerzielle Nutzung läuft laut BFL über die API.

Bild-Oberklasse (Hunyuan Image 3.0, FLUX-2-dev, Qwen-Image, Qwen-Image-Edit): RAM ab 32 GB, VRAM 16–24 GB je nach Modell/Workflow, moderner Desktop-Prozessor, Software: ComfyUI, Forge, AUTOMATIC1111. Hier gilt besonders: Das Modell mit dem höchsten Arena-Score ist nicht automatisch die sinnvollste Wahl für eine lokale Produktionspipeline.

Video-Enhancement-Klasse (Upscaling, Denoising, Schärfung, klassische Restaurierung): RAM ab 32 GB, GPU NVIDIA RTX 30-Serie aufwärts oder AMD Radeon 5000-Serie aufwärts, VRAM ab 8 GB, CPU Intel/AMD mit AVX (ideal ab Baujahr 2020), Software: Topaz Video AI.

Starlight-Klasse (diffusionsbasierte Videoverbesserung): Windows mit NVIDIA mindestens 10 GB VRAM (besser 16 GB), Windows mit AMD 20 GB VRAM empfohlen, Mac mindestens 36 GB RAM, RAM allgemein ab 32 GB, schnelle interne SSD. Das ist der Bereich, in dem lokale Video-KI klar Richtung High-End-Workstation kippt.

Zwei hilfreiche Rechner für die Praxis: ApX VRAM Calculator (Quantisierung, KV-Cache, Kontextlänge, Batch-Größe, Offloading) und CanIRun.ai (Gegencheck, welche Modellklassen auf vorhandener Hardware realistisch laufen). Beide eignen sich gut als Service-Links, sollten aber nicht die wichtigste Grundlage der Marktanalyse sein.

Fazit: Lokale KI ist 2026 planbar geworden

Der lokale KI-Markt ist im Frühjahr 2026 vor allem deshalb spannend, weil er sich endlich sauberer lesen lässt. Vor einem Jahr war vieles ein unscharfer Mix aus Hoffnungen, Community-Benchmarks und Einzelfall-Hardware. Heute lässt sich die Landschaft in vier klare Klassen gliedern: Edge- und Daily-Driver-Zone, produktive Midrange, Premium-Workstations und darüber die On-Prem-Server-Klasse.

Gemma 4 E2B/E4B und Qwen3.5 4B/9B machen lokale Alltags-KI produktiv. Qwen3.6-27B, Qwen3.6-35B-A3B und Gemma 4 26B/31B definieren die neue lokal erreichbare Oberklasse für starke Notebooks und Workstations. Darüber, in der Server- und Lab-Klasse, hat sich der offene Markt mit GLM-5.2 an der Spitze sowie DeepSeek V4, Kimi K2.6/K2.7-Code, MiMo-V2.5-Pro, MiniMax M3, Nemotron 3 Ultra und Mistral Medium 3.5 nahe an die proprietäre Frontier herangeschoben – beim Coding näher als je zuvor. Und die Frontier selbst – Claude Fable 5, GPT-5.5/5.6, Grok 4.5, Gemini 3.1 Pro und 3.5 Flash – zeigt, wohin sich die Messlatte verschiebt: zu Agenten, Computer Use, multimodaler Arbeit und echter Produktionszuverlässigkeit – der bloße Chat ist nur noch die Grundausstattung.

Für Unternehmen im DACH-Raum kommt ein strategischer Vorteil dazu: Die offenen Modelle stehen inzwischen meist unter Apache 2.0, MIT oder vergleichbar kommerziell nutzbaren Lizenzen. Das macht eine echte On-Premises-Strategie möglich nicht als Notlösung, sondern als produktive Architektur, die sensible Daten im Haus behält und gleichzeitig mit dem Weltmarkt Schritt hält.

Wer heute lokal plant, sollte deshalb nicht mit der Frage beginnen, welches Modell in irgendeiner Rangliste zwei Punkte mehr erreicht. Die sinnvollere Reihenfolge lautet: Welcher Workload, welche Datenhoheit, welche Hardware, und dann das passende Modell.

Häufige Fragen (FAQ)

Welches lokale KI-Modell ist 2026 das beste für KMU in Deutschland? Für die meisten kleinen und mittelständischen Unternehmen reicht Qwen3.5 9B oder Gemma 4 E4B auf einem gut ausgestatteten Notebook oder Mac mini. Wer ernsthaft codet oder mit Agenten arbeitet, fährt mit Qwen3.6-35B-A3B oder Qwen3.6-27B auf einer 24-GB-Maschine gut, solange die Modelle quantisiert laufen und der Kontext begrenzt bleibt. Diese Klassen decken Dokumentenarbeit, Zusammenfassungen, E-Mail-Triage und einfaches RAG zuverlässig ab, ohne Rechenzentrumskosten.

Welche Hardware brauche ich für Qwen3.6 27B lokal? Realistisch: 48–64 GB RAM, eine GPU mit mindestens 24 GB VRAM (Q4 belegt rund 17 GB Gewicht) oder ein Apple-Silicon-System mit 48 GB+ Unified Memory, 200 GB NVMe-SSD. Für längeren Kontext oder Q8 sollte man 32 GB+ VRAM einplanen.

Ist Gemma 4 kommerziell nutzbar? Ja – die öffentlich dokumentierten Gemma-4-Varianten E2B, E4B, 12B Unified, 26B A4B und 31B Dense stehen unter Apache-2.0-Lizenz und sind damit kommerziell einsetzbarr. Auch Qwen 3.6 (27B und 35B-A3B) steht unter Apache 2.0.

Welches ist aktuell das stärkste offene Modell? Seit Mitte Juni: GLM-5.2 (Z.ai) mit 51 Punkten im AA-Index v4.1 und MIT-Lizenz — es hat Kimi K2.6 als offenen Favoriten abgelöst und erreicht laut Modellkarte 81,0 % auf Terminal-Bench 2.1 im Terminus-2-Harness beziehungsweise 82,7 % im Best-Reported-Harness. Für den Betrieb braucht es allerdings Server-Hardware; im lokal erreichbaren Bereich bleiben Qwen3.6-27B und Qwen3.6-35B-A3B die erste Wahl.

Welcher Unterschied besteht zwischen dem AA Intelligence Index und Chatbot Arena?Der Artificial Analysis Intelligence Index (aktuell v4.1) ist eine gewichtete Suite aus standardisierten Benchmarks (u. a. GPQA Diamond, SciCode, Humanity’s Last Exam, Terminal-Bench Hard). Chatbot Arena misst menschliche Präferenz in Blindvergleichen. Beide sind aussagekräftig, aber nicht direkt vergleichbar. Wichtig seit Ende Juni: Mit dem Wechsel von v4.0 auf v4.1 wurden die Werte neu skaliert – ältere v4.0-Zahlen (etwa aus der Juni-Fassung dieses Artikels) lassen sich nicht direkt mit aktuellen v4.1-Werten vergleichen.

Lohnt sich ein eigener lokaler KI-Server für ein 10-Personen-Unternehmen? Meist nein. Ein starker Workstation-Rechner oder ein Mac Studio deckt die typischen Workloads ab. Ein dedizierter Server lohnt sich erst, wenn mehrere Teams parallel zugreifen oder kontinuierliche Agentenläufe im Hintergrund nötig sind.

Kann ich Claude Opus 4.8, Claude Fable 5, GPT-5.6 oder Grok 4.5 lokal betreiben? Nein. Wie schon Claude Opus 4.8 und GPT-5.5 sind auch die neuen Spitzenmodelle reine Cloud-Modelle und nur über APIs verfügbar (z. B. über Anthropic, AWS Bedrock, Azure oder OpenAI) – Fable 5 zusätzlich mit Sicherheitsklassifikatoren, GPT-5.6 seit der Preview vom 26. Juni und laut ComputerBase/OpenAI mit breiterer Freigabe ab 9. Juli, Grok 4.5 zum Redaktionsschluss nicht in der EU. Zwar gibt es teilweise Desktop- oder App-Zugänge, aber das ist nur eine Oberfläche für den Cloud-Dienst – das Modell selbst läuft dabei weiterhin auf entfernten Servern und nicht auf dem eigenen Rechner. Wer etwas Ähnliches lokal umsetzen will, landet bei Modellen wie Qwen3.6-27B oder Gemma 4 31B. Mit entsprechender Server-Hardware kommen Systeme wie DeepSeek V4 Flash oder GLM-5.2 der Frontier-Leistungsklasse inzwischen – vor allem beim Coding – sehr nahe, bleiben aber strukturell in einem anderen Betriebsmodell als echte proprietäre Cloud-Modelle.

Was bedeutet der Trend „Coding-Agent + n8n“ für KMU? Er senkt die Einstiegshürde für Automatisierung deutlich: n8n läuft self-hosted als deterministisches Rückgrat (Trigger, Zeitpläne, Datenrouting), während ein Coding-Agent wie Claude Code oder Codex die Workflows entwirft, baut und debuggt. Der Einstieg gelingt am einfachsten über das Open-Source-Projekt n8n-mcp, das den Agenten per Model Context Protocol direkt mit der eigenen n8n-Instanz verbindet.

Quellen

Trends, Modelle, Benchmarks

Automatisierung & Agenten

Hardware, Laufzeit, Software

Rechner / Service-Links

Post Views: 3.882

Lokale KI-Modelle 2026: Report zu Modellen, Benchmarks und Hardware

Was sich von März bis Anfang Juli 2026 wirklich verändert hat

Die neuen Open-Weights-Releases, die 2026 wirklich zählen

Gemma 4 – die breiteste Staffelung des Frühjahrs

Qwen3.6 – die aktuell wichtigste Leistungsachse

DeepSeek V4 – das offene Comeback des Frühjahrs

Kimi K2.6, MiMo-V2.5-Pro und MiniMax M3 – die neue offene Oberklasse

MolmoWeb – der Markt bewegt sich Richtung Agenten

📌 Praxisbeispiel DACH: Wo Qwen3.5 9B reicht

FLUX.2 (klein) – Bild-KI mit Hardwaretransparenz

Frontier-Referenzen: Daran misst sich die offene lokale Welt

GPT-5.5 – Referenz für Wissensarbeit und Computer Use und GPT-5.6 – Preview

Claude Opus 4.8 – Referenz für Agenten und Coding

Gemini 3.1 Pro, Flash Live und 3.5 Flash – Voice, Realtime und Effizienz

Update Anfang Q3 2026: neue Frontier-Spitze, neuer Open-Weights-Favorit

Claude Fable 5: die erste Mythos-Klasse mit Zwangspause

GPT-5.6 (Sol, Terra, Luna): Preview am 26. Juni, breitere Freigabe am 9. Juli

Grok 4.5: Neueinsteiger auf Augenhöhe mit Opus 4.7, aber (noch) nicht in der EU

Gemini 3.5 Pro: angekündigt, aber verschoben

GLM-5.2: der neue Open-Weights-Spitzenreiter

Nemotron 3 Ultra und Mistral Medium 3.5 – zwei Sonderfälle

Einordnung: Die Schere öffnet sich oben – und schließt sich beim Coding

Werkzeug-Trend: n8n + Claude Code / Codex

Was Nutzer damit konkret machen

Benchmark-Vergleich

Offene Oberklasse — aktuell (AA Intelligence Index v4.1, Stand 9. Juli 2026)

Offene Oberklasse – historische Momentaufnahme (Stand 8. Juni, Index v4.0)

Lokal relevanter Sweet Spot

Hardware: Welche Leistung zu welcher Modellkategorie passt

Fazit: Lokale KI ist 2026 planbar geworden

Häufige Fragen (FAQ)

Quellen

Über Julka

Was sich von März bis Anfang Juli 2026 wirklich verändert hat

Die neuen Open-Weights-Releases, die 2026 wirklich zählen

Gemma 4 – die breiteste Staffelung des Frühjahrs

Qwen3.6 – die aktuell wichtigste Leistungsachse

DeepSeek V4 – das offene Comeback des Frühjahrs

Kimi K2.6, MiMo-V2.5-Pro und MiniMax M3 – die neue offene Oberklasse

MolmoWeb – der Markt bewegt sich Richtung Agenten

📌 Praxisbeispiel DACH: Wo Qwen3.5 9B reicht

FLUX.2 (klein) – Bild-KI mit Hardwaretransparenz

Frontier-Referenzen: Daran misst sich die offene lokale Welt

GPT-5.5 – Referenz für Wissensarbeit und Computer Use und GPT-5.6 – Preview

Claude Opus 4.8 – Referenz für Agenten und Coding

Gemini 3.1 Pro, Flash Live und 3.5 Flash – Voice, Realtime und Effizienz

Update Anfang Q3 2026: neue Frontier-Spitze, neuer Open-Weights-Favorit

Claude Fable 5: die erste Mythos-Klasse mit Zwangspause

GPT-5.6 (Sol, Terra, Luna): Preview am 26. Juni, breitere Freigabe am 9. Juli

Grok 4.5: Neueinsteiger auf Augenhöhe mit Opus 4.7, aber (noch) nicht in der EU

Gemini 3.5 Pro: angekündigt, aber verschoben

GLM-5.2: der neue Open-Weights-Spitzenreiter

Nemotron 3 Ultra und Mistral Medium 3.5 – zwei Sonderfälle

Einordnung: Die Schere öffnet sich oben – und schließt sich beim Coding

Werkzeug-Trend: n8n + Claude Code / Codex

Was Nutzer damit konkret machen

Benchmark-Vergleich

Offene Oberklasse — aktuell (AA Intelligence Index v4.1, Stand 9. Juli 2026)

Offene Oberklasse – historische Momentaufnahme (Stand 8. Juni, Index v4.0)

Lokal relevanter Sweet Spot

Hardware: Welche Leistung zu welcher Modellkategorie passt

Fazit: Lokale KI ist 2026 planbar geworden

Häufige Fragen (FAQ)

Quellen

Ähnliche Beiträge

3 neue ThinkPad T14s Snapdragon

Future of Memory & Storage 2026: Was die neuen Speichertrends für Notebooks und PCs bedeuten

Testbericht Lenovo ThinkPad X61s mit Chrome Flex OS

Über Julka