OpenAI in Bedrängnis? Neues chinesisches KI-Modell Kimi K2 übertrifft GPT-4.1 in wichtigen Benchmarks

Führende KI-Anbieter wie OpenAI und Anthropic bekommen neue Konkurrenz. Wie The Decoder berichtet, hat das Startup Moonshot AI mit dem Modell Kimi K2 ein leistungsstarkes LLM mit offenen Gewichten vorgestellt. Selbst ohne Reasoning-Modul soll es an die Konkurrenz von OpenAI und Anthropic heranreichen. Was genau steckt hinter dem neuen KI-Modell? Und wie schlägt es sich in gängigen Benchmark-Tests?
Kimi K2 schließt direkt zur Konkurrenz auf
Das KI-Startup Moonshot AI wurde 2023 in der chinesischen Hauptstadt Peking gegründet. Bei Kimi K2 handelt es sich um ein Mixture-of-Experts-Modell mit insgesamt einer Billion Parametern. Pro Inferenz werden 32 Milliarden Parameter aktiviert. Anstelle von ausgefeiltem Reasoning setzt Kimi K2 auf Optimierung für agentische Anwendungen: So führt das Modell Tools aus, generiert und debuggt Code oder orchestriert mehrstufige Aufgaben eigenständig. Möglich wird das durch gezieltes Training mit Reinforcement Learning, das den Umgang mit Tools vermittelt – nicht durch klassische Chain-of-Thought-Prompts.
Kimi K2 wurde mithilfe eines neuen Optimierungsverfahrens mit 15,5 Billionen Tokens trainiert. Laut Moonshot AI verhindert der Algorithmus Instabilitäten im Training und trägt entscheidend zur hohen Performance bei. In gängigen Benchmark-Tests konnte die für den Praxiseinsatz optimierte Version Kimi-K2-Instruct durchaus überzeugen: So erzielte das Modell im „SWE-bench Verified“-Test im agentischen Modus eine Genauigkeit von 65,8 Prozent. Hier wird bewertet, ob ein KI-Modell Codefehler tatsächlich erkennt und mit einem passenden Patch behebt. Mit diesem Ergebnis landet Kimi K2 nur knapp hinter Claude Sonnet 4 und sogar deutlich vor GPT-4.1, das in dem Test nur 54,6 Prozent erreichte.
Das neue KI-Modell kann bei Benchmarks überzeugen
Die Benchmarks „Live Code Bench“ und „OJ Bench“ messen die Fähigkeit von Sprachmodellen, Programmieraufgaben direkt zu lösen. Auch hier konnte Kimi K2 mit 53,7 beziehungsweise 27,1 Prozent überzeugende Ergebnisse erzielen und liegt damit sogar vor allen Konkurrenzmodellen ohne Reasoning. Auch in den Mathematik-, Naturwissenschafts- und Multilingual-Benchmarks gehört Kimi K2 zur Spitzengruppe. Moonlight AI demonstriert die Coding-Fähigkeiten von Kimi K2 in einem Beitrag auf X. In einem weiteren Beispiel hat das Modell Gehaltsdaten im Zusammenhang mit Remote-Arbeit analysiert, eine statistische Auswertung durchgeführt und eine interaktive HTML-Seite mit personalisierbarem Empfehlungstool generiert – und das alles im Rahmen eines einzigen agentischen Ablaufs.
Kimi K2 ist aktuell in zwei Versionen verfügbar: Während Kimi-K2-Instruct für praktische Agentenanwendungen optimiert ist, eignet sich Kimi-K2-Base für Forschung und eigenes Finetuning. Kimi K2 kann auch über eine API genutzt werden, die mit OpenAI kompatibel ist und über die Plattform von Moonshine AI zugänglich ist. Die MIT-Lizenz enthält allerdings eine Einschränkung: Unternehmen, die das Modell in einem Produkt verwenden wollen, das über 100 Millionen monatliche Nutzer:innen zählt, müssen den Namen des Modells sichtbar in der Benutzeroberfläche anzeigen. Dasselbe gilt für Unternehmen, die Umsätze in Höhe von mehr als 20 Millionen US-Dollar pro Monat erzielen.
Starke Performance – mit kleinen Einschränkungen
Die Preisstruktur für die Nutzung von Kimi K2 ist gestaffelt: Für eine Million Eingabetokens fallen 0,15 US-Dollar an, wenn der Cache greift – bei Cache-Fehlschlägen sind es 0,60 US-Dollar. Eine Million Ausgabetokens kosten 2,50 US-Dollar. Trotz der nachweislich starken Performance weist Moonshot AI auf Einschränkungen hin, die aktuell noch bestehen: Bei besonders komplexen Aufgaben oder unklar definierten Tools kann das Modell überlange Antworten generieren oder Ergebnisse abschneiden. Und auch bei Prompts, die keinen weiteren Kontext liefern, ist die Leistung von Kimi K2 schwächer als bei durchgehend agentischer Nutzung.
So arbeitet Deepseek – und das macht es anders als andere KI-Modelle