- Doppelgänger Update
- Posts
- KW35 - Die Trügerische Kostendeflation bei KI
KW35 - Die Trügerische Kostendeflation bei KI
Doppelgänger Update (BETA)
Von Philipp Klöckner · 25. August 2025
👋 Hallo! Du empfängst diesen Newsletter als eine(r) von 🥳 20,578 Abonnent:innen (+46).
❤️ Danke an alle, die letzte Woche neue Leser:innen auf unseren Newsletter aufmerksam gemacht haben! Die “Share the Newsletter” Funktion findet ihr am Ende der aktuellen Ausgabe und das Rennen startet jeden Montag von neuem. Der heutige Newsletter hat 1.283 Wörter und das vollständige Lesen dauert etwa 5 Minuten. Heute ist Montag, der 25. August 2025 und die KW35 startet.
📉 KI-Inferenz: Trügerische Kostendeflation

Diesen Mittwochvormittag stehen die Quartalsergebnisse von NVIDIA an. Der KI-Chiphersteller war und ist der Schaufelverkäufer des KI-Goldrausches und hat seinen Unternehmenswert unter der Leitung von CEO Jensen Huang auf 4 Billionen US-Dollar gesteigert. Ein weiteres Mal werden die Resultate des letzten Quartals über Gedeih und Verderb des gesamten Technologie-Portfolios, der Magnificent Seven und den Aktienmärkten an sich entscheiden.
Skepsis ist angebracht, wenn ein “Hardwarehersteller” wie Unkraut wächst und dabei noch Rohmargen von bis zu 80 Prozent durchsetzen kann. Die Leistungsfortschritte der neuesten State-of-the-Art-LLMs sind trotz Milliarden-Dollar-Rechenzentren marginal und Inferenz kostet immer weniger Rechenzeit und wird tendenziell erst einmal weniger GPUs benötigen.

“Inference”, der Abfrage der KI-Modelle wird fast um Faktor 1000 günstiger binnen 12 Monaten
Doch das ist eine Zeitpunkt-Analyse, welche die Entwicklungen der nächsten Jahre verfehlen könnte, auch weil sie die Trends der letzten Monate missversteht. Zwar wird das Abfragen der Modelle (“Inference”) massiv günstiger, jedoch bezieht sich diese Rechnung immer auf ein (früher oder später veraltetes) Modell. Genauso könnte man sagen, das Kaufen eines VW Golf III wird jedes Jahr günstiger.
Tatsächlich möchte man natürlich immer das führende - also State-of-the-Art - Modell nutzen, und die Kosten für die Nutzung des aktuell leistungsfähigsten Modells bleiben relativ stabil hoch.

Quelle: Ethan Ding
Dieser Chart sollte vor allen bei jenen Startups und VCs Sorgenfalten auslösen, die derzeit noch LLM-Wrapper, also neuartige Interfaces und Applikationen basierend auf fremden LLMs, mit niedrigen oder negativen Rohmargen weiterverkaufen. Darauf zu Wetten, dass die Cost of Revenue, die Einstandskosten für die Nutzung der LLMs, mit der Zeit günstiger werden ist eine gewagte Hypothese. Denn sie unterstellt, dass Nutzer mit der aktuellen Qualität zufrieden sind und weder nach leistungsfähigeren Modellen noch anspruchsvollen Use Cases verlangen.
Die Kosten für eine kleine Anfrage, Kalkulation oder Zusammenfassung eines Dokuments werden natürlich logarithmisch fallen. Bald werden mehr und mehr User aber ganze Diplomarbeiten, Podcasts, Business Modelle, Quartalsberichte, IPO-Prospekte, Kinofilme oder Computerspiele generieren. Agenten, die immer besser nachdenken können, werden stundenlange Tasks verarbeiten und Zigtausende an Abfragen und Milliarden an Tokens pro Session generieren.

Es ist unmöglich vorauszusagen, wie viele Tokens oder GPUs die Menschheit in fünf Jahren nutzen wird oder anderweitig NVIDIAs potentielle Marktgröße zu modellieren. Letztlich gibt es genau zwei Occam’s Razor Scenarios: (1) Inference wird so günstig, dass die Kosten kaum noch messbar sein werden, wie Sam Altman kürzlich behauptete, oder (2) KI-Anwendungen werden in einem wettbewerbsintensiven Umfeld immer genau so viel Rechenzeit beanspruchen, wie nötig ist um zu den leistungsfähigsten Angeboten zu gehören und idealerweise noch eine Marge zu machen.
Der “Too cheap to meter” Anspruch hat vor 70 Jahren schon einer anderen bahnbrechenden Technologie das Leben schwer gemacht: Strom aus Kernkraftwerken wird eines Tages zu praktisch nichtigen Grenzkosten erstellt werden, sagte einst der Chef der U.S. Atomenergiebehörde. Würde es auch nur den Ansatz eines Überfluss an günstiger Inferenz geben, würde nicht jedes Release eines neuen LLM oder Bildgebungsmodell die Server der KI-Anbieter schmelzen lassen.
Ich glaube, dass das Jevons Paradox hier tatsächlich einschlägiger ist. Auch wenn der gleiche Output immer günstiger werden sollte, wird die massiv steigende Nachfrage, komplexere Anwendungen und zusätzliche Anwendungsfelder wie Autonomes Fahren, Robotic und Real-World-Simulationen in Industrie und Wissenschaft die Datenzentren auch weiter auslasten und Platinen auf Höchsttemperatur laufen.
Günstigere Inferenz kann aber dennoch einen Wettbewerbsvorteil darstellen. Denn wer sein Modell beim Hyperscaler ausführt, der das dreifache der Gestehungskosten in Rechnung stellt und NVIDIA-GPUs für das fünffache der COGS bezieht, könnte sich aus dem Markt kalkulieren. Auch deswegen bauen große Techkonzerne wie Google seit 10 Jahren ihre eigenen KI-Prozessoren, statt Rechenzeit am Markt für das 15-fache der Kosten einzukaufen.
🔗 Unter anderem inspiriert von Ethan Ding und Nathan Lambert | Ausführliche Analyse wie immer auch im aktuellen Doppelgänger Podcast
“Intelligence too cheap to meter is well within grasp. This may sound crazy to say, but if we told you back in 2020 we were going to be where we are today, it probably sounded more crazy than our current predictions about 2030.”
Das sind die weiteren News der Woche:
🤝 META kooperiert mit MidJourney: Neben der Restrukturierung der KI-Abteilung des Social-Media-Konzerns, verkündet Metas neuer KI-Boss, Scale AI Gründer Alexander Wang, dass man bei der Generierung von Bildern fortan mit dem Anbieter MidJourney kooperieren werde. Dazu greife man in Zukunft auf die “ästhetische Technologie” der KI-Bildgebungs-Pionier hin.
🔗 Alexander Wang (X) | TechCrunch | The Verge
👩⚖️ Elon Musk setzt “Lawfare” fort. Neuestes Ziel von Elon Musks Initiative zur Steigerung der Beschäftigung im Rechtsapparat der Vereinigten Staaten ist Apple. Weil der Smartphone Hersteller die Grok-App von Musks Unternehmen xAI empfiehlt, aber eine Zusammenarbeit mit dem von Musk gehassten OpenAI unterhält, zieht Musk mal wieder vor Gericht. Der reichste Mann der Welt wird offenbar regelmäßig von anderen übervorteilt. Auf dem besten Weg zum Einkommensmillionär sind vermutlich auch seine Rechtsanwälte.
🔗 Reuters
📹 YouTube verbessert Videos, ob Du willst oder nicht. Falls ihr bei Eurem Lieblingscreator auf YouTube in Zukunft eine Sommersprosse vermisst oder die graue Strähne im Haar weg ist, könnte es nicht an einem Beauty-Upgrade des Influencers, sondern Googles KI-Makeover der YouTube Videos liegen. In einem Test verbesserte die Google Video-Plattform Videos ohne das Zutun der Schöpfer, berichtet die BBC.
🔗 BBC
🪙 Tech-Bros launchen KI-SuperPAC: Künstliche Intelligenz ist zu wichtig, um sie den Einschätzungen von Politikern zu überlassen. So oder so ähnlich scheinen der renommierte Silicon Valley VC Andreessen Horowitz (A16Z) und OpenAI COO Greg Brockman zu denken. “PACs”, Political Action Committees, sind millionenschwere Lobby-Instrumente, die für Parteien und Kandidaten mit Unterstützung im Wahlkampf besorgen. Natürlich in der Erwartung wohlwollender Lenkung durch die Günstlinge. Abgeschaut haben sich die KI-Klüngler das Konstrukt vermutlich beim Fairshake-PAC, der erfolgreich die Crypto-Wirtschaft in Stellung brachte.
🔗 The Wall Street Journal
🪰 Weitere News gibt es in der letzten Folge des Doppelgänger Podcast…
🔗 Doppelgänger Podcast
📈 Chart der Woche: Schwergewicht NVIDIA

Nicht nur US-Präsident Donald Trump versteht seit seinem Treffen mit CEO Jensen Huang die Relevanz des Chipherstellers. Was Gewichtung und Performance angeht zieht NVIDIA die meisten US-Indizes massiv nach oben. Aber das KI-Wunder stellt auch ein immer größeres systematisches Risiko für die US-Börsen und Kapitalmärkte insgesamt da.
🔗 Bloomberg
📺 Sehenswert: Always Hamburg (6 x ca. 30 min)

Vom Bundesliga-Dino zum Zweitligisten – und zurück: Der Hamburger SV erlebt Drama, Hoffnung und Triumph auf dem langen Weg zurück in Liga 1. Produziert wurde diese Doku-Miniserie von OMR-Legende Philipp Westermeyer. Ich wünsche Philipp viel Erfolg und freue mich auch mehr Dokus aus dem Hause OMR Frames.
🔗 ZDF
🖨️ Earnings Season: Quartalsergebnisse der Woche
Montag 25. August: PinDuoDuo (BMO)
Dienstag 26. August: okta (AMC), mongoDB (AMC), box (AMC)
Mittwoch 27. August: NVIDIA (AMC), snowflake (AMC), Crowdstrike (AMC), Veeva (AMC), Nutanix (AMC)
Donnerstag 28. August: BestBuy (BMO), Marvell (AMC), Dell (AMC), SentinelOne (AMC), affirm (AMC), elastic (AMC)
Freitag 29. August: Alibaba (BMO)
Dieser Newsletter wird auch weiterhin jeden Montagmorgen auf wundersame Weise in Deiner Inbox erscheinen. Einen Faxabruf gibt es leider nicht. Vielleicht solltest Du die Absender-eMail in Deinem eMail-Programm whitelisten oder den Newsletter in Deine Primary Inbox verschieben, um keine Ausgabe zu verpassen.
Danke für Deine Zeit und Aufmerksamkeit! ❤️
📮 Schick mir gern Dein Feedback an [email protected] oder leite diese Mail an Freunde und Kollegen weiter, wenn Du sie nützlich fandest.
Oder nutze diesen Link um ihn in sozialen Netzwerken und mit Freunden zu teilen: https://doppelgaenger.beehiiv.com/subscribe?ref=PLACEHOLDER
Die erfolgreichsten Helfer:innen, erwähnen wir im nächsten Newsletter.