Anzeige
Anzeige
Anzeige
Anzeige
News
Verpasse keine News mehr!

OpenAI in Bedrängnis? Neues chinesisches KI-Modell Kimi K2 übertrifft GPT-4.1 in wichtigen Benchmarks

Kommt das nächste KI-Wunder wieder aus China? Das neue Modell Kimi K2 von Moonshot AI brilliert in Benchmarks – und das sogar ganz ohne Reasoning. Besonders in agentischen Anwendungen zeigt das LLM seine Stärke.

Von Noëlle Bölling
3 Min.
Artikel merken
Anzeige
Anzeige
Dieses neue KI-Modell aus China mischt ganz vorne mit. (Bild: Phonlamai Photo / Shutterstock)

Führende KI-Anbieter wie OpenAI und Anthropic bekommen neue Konkurrenz. Wie The Decoder berichtet, hat das Startup Moonshot AI mit dem Modell Kimi K2 ein leistungsstarkes LLM mit offenen Gewichten vorgestellt. Selbst ohne Reasoning-Modul soll es an die Konkurrenz von OpenAI und Anthropic heranreichen. Was genau steckt hinter dem neuen KI-Modell? Und wie schlägt es sich in gängigen Benchmark-Tests?

Anzeige
Anzeige

Kimi K2 schließt direkt zur Konkurrenz auf

Das KI-Startup Moonshot AI wurde 2023 in der chinesischen Hauptstadt Peking gegründet. Bei Kimi K2 handelt es sich um ein Mixture-of-Experts-Modell mit insgesamt einer Billion Parametern. Pro Inferenz werden 32 Milliarden Parameter aktiviert. Anstelle von ausgefeiltem Reasoning setzt Kimi K2 auf Optimierung für agentische Anwendungen: So führt das Modell Tools aus, generiert und debuggt Code oder orchestriert mehrstufige Aufgaben eigenständig. Möglich wird das durch gezieltes Training mit Reinforcement Learning, das den Umgang mit Tools vermittelt – nicht durch klassische Chain-of-Thought-Prompts.

Kimi K2 wurde mithilfe eines neuen Optimierungsverfahrens mit 15,5 Billionen Tokens trainiert. Laut Moonshot AI verhindert der Algorithmus Instabilitäten im Training und trägt entscheidend zur hohen Performance bei. In gängigen Benchmark-Tests konnte die für den Praxiseinsatz optimierte Version Kimi-K2-Instruct durchaus überzeugen: So erzielte das Modell im „SWE-bench Verified“-Test im agentischen Modus eine Genauigkeit von 65,8 Prozent. Hier wird bewertet, ob ein KI-Modell Codefehler tatsächlich erkennt und mit einem passenden Patch behebt. Mit diesem Ergebnis landet Kimi K2 nur knapp hinter Claude Sonnet 4 und sogar deutlich vor GPT-4.1, das in dem Test nur 54,6 Prozent erreichte.

Anzeige
Anzeige

Das neue KI-Modell kann bei Benchmarks überzeugen

Die Benchmarks „Live Code Bench“ und „OJ Bench“ messen die Fähigkeit von Sprachmodellen, Programmieraufgaben direkt zu lösen. Auch hier konnte Kimi K2 mit 53,7 beziehungsweise 27,1 Prozent überzeugende Ergebnisse erzielen und liegt damit sogar vor allen Konkurrenzmodellen ohne Reasoning. Auch in den Mathematik-, Naturwissenschafts- und Multilingual-Benchmarks gehört Kimi K2 zur Spitzengruppe. Moonlight AI demonstriert die Coding-Fähigkeiten von Kimi K2 in einem Beitrag auf X. In einem weiteren Beispiel hat das Modell Gehaltsdaten im Zusammenhang mit Remote-Arbeit analysiert, eine statistische Auswertung durchgeführt und eine interaktive HTML-Seite mit personalisierbarem Empfehlungstool generiert – und das alles im Rahmen eines einzigen agentischen Ablaufs.

Kimi K2 ist aktuell in zwei Versionen verfügbar: Während Kimi-K2-Instruct für praktische Agentenanwendungen optimiert ist, eignet sich Kimi-K2-Base für Forschung und eigenes Finetuning. Kimi K2 kann auch über eine API genutzt werden, die mit OpenAI kompatibel ist und über die Plattform von Moonshine AI zugänglich ist. Die MIT-Lizenz enthält allerdings eine Einschränkung: Unternehmen, die das Modell in einem Produkt verwenden wollen, das über 100 Millionen monatliche Nutzer:innen zählt, müssen den Namen des Modells sichtbar in der Benutzeroberfläche anzeigen. Dasselbe gilt für Unternehmen, die Umsätze in Höhe von mehr als 20 Millionen US-Dollar pro Monat erzielen.

Starke Performance – mit kleinen Einschränkungen

Die Preisstruktur für die Nutzung von Kimi K2 ist gestaffelt: Für eine Million Eingabetokens fallen 0,15 US-Dollar an, wenn der Cache greift – bei Cache-Fehlschlägen sind es 0,60 US-Dollar. Eine Million Ausgabetokens kosten 2,50 US-Dollar. Trotz der nachweislich starken Performance weist Moonshot AI auf Einschränkungen hin, die aktuell noch bestehen: Bei besonders komplexen Aufgaben oder unklar definierten Tools kann das Modell überlange Antworten generieren oder Ergebnisse abschneiden. Und auch bei Prompts, die keinen weiteren Kontext liefern, ist die Leistung von Kimi K2 schwächer als bei durchgehend agentischer Nutzung.

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle

So arbeitet Deepseek – und das macht es anders als andere KI-Modelle Quelle: (Grafik: Dall-E / t3n)

Fast fertig!

Bitte klicke auf den Link in der Bestätigungsmail, um deine Anmeldung abzuschließen.

Du willst noch weitere Infos zum Newsletter? Jetzt mehr erfahren

Anzeige
Anzeige
Kommentare

Community-Richtlinien

Bitte schalte deinen Adblocker für t3n.de aus!
Hallo und herzlich willkommen bei t3n!

Bitte schalte deinen Adblocker für t3n.de aus, um diesen Artikel zu lesen.

Wir sind ein unabhängiger Publisher mit einem Team von mehr als 75 fantastischen Menschen, aber ohne riesigen Konzern im Rücken. Banner und ähnliche Werbemittel sind für unsere Finanzierung sehr wichtig.

Schon jetzt und im Namen der gesamten t3n-Crew: vielen Dank für deine Unterstützung! 🙌

Deine t3n-Crew

Anleitung zur Deaktivierung
Artikel merken

Bitte melde dich an, um diesen Artikel in deiner persönlichen Merkliste auf t3n zu speichern.

Jetzt registrieren und merken

Du hast schon einen t3n-Account? Hier anmelden

oder
Auf Mastodon teilen

Gib die URL deiner Mastodon-Instanz ein, um den Artikel zu teilen.

Community-Richtlinien

Wir freuen uns über kontroverse Diskussionen, die gerne auch mal hitzig geführt werden dürfen. Beleidigende, grob anstößige, rassistische und strafrechtlich relevante Äußerungen und Beiträge tolerieren wir nicht. Bitte achte darauf, dass du keine Texte veröffentlichst, für die du keine ausdrückliche Erlaubnis des Urhebers hast. Ebenfalls nicht erlaubt ist der Missbrauch der Webangebote unter t3n.de als Werbeplattform. Die Nennung von Produktnamen, Herstellern, Dienstleistern und Websites ist nur dann zulässig, wenn damit nicht vorrangig der Zweck der Werbung verfolgt wird. Wir behalten uns vor, Beiträge, die diese Regeln verletzen, zu löschen und Accounts zeitweilig oder auf Dauer zu sperren.

Trotz all dieser notwendigen Regeln: Diskutiere kontrovers, sage anderen deine Meinung, trage mit weiterführenden Informationen zum Wissensaustausch bei, aber bleibe dabei fair und respektiere die Meinung anderer. Wir wünschen Dir viel Spaß mit den Webangeboten von t3n und freuen uns auf spannende Beiträge.

Dein t3n-Team

Kommentar abgeben

Melde dich an, um Kommentare schreiben und mit anderen Leser:innen und unseren Autor:innen diskutieren zu können.

Anmelden und kommentieren

Du hast noch keinen t3n-Account? Hier registrieren