Het is 19 maanden geleden dat ChatGPT de wereld stormenderhand veroverde. Consumenten konden zonder enige drempel het beste LLM-model gebruiken dat er is, en bovendien kregen bedrijven opeens de kans om hun eigen AI-applicaties te ontwikkelen bovenop makkelijk te gebruiken APIs, in plaats van hun eigen modellen te bouwen, trainen, deployen en beheren.
Het succes van OpenAI, gecombineerd met een van de grootste instromen van venture funding in de geschiedenis, heeft ertoe geleid dat steeds meer spelers het veld betreden in de hoop het toekomstige platform voor Generative AI te worden. Een van de meest prominente, Anthropic, zit slechts een paar meter verwijderd van het hoofdkantoor van OpenAI. Een andere uitdager die flink van zich laat horen, Mistral, heeft zijn hoofdkantoor 9.000 kilometer verderop in Parijs.
Ongeacht hun locatie zijn hun strategieen opvallend vergelijkbaar:
- Recruteer de allerbeste AI-onderzoekers die streetcred hebben opgebouwd in de labs van Deepmind, Meta, Google of andere onderzoeksinstituten. Natuurlijk door enorme salarissen te betalen voor dit schaarse talent.
- Train zeer grote foundation models die voor 99,9% van de normale bedrijven onmogelijk te ontwikkelen zijn.
- Toon de mogelijkheden via AI-chat, vaak met beperkt gratis gebruik van hun vlaggenschipmodellen.
- Bied APIs voor third-party-ontwikkeling waarmee teams nieuwe oplossingen kunnen bouwen met deze grote modellen.
- Pas usage-based pricing toe op deze APIs, gekoppeld aan het volume van data dat erin en eruit gaat.
Deze 5-stappenaanpak stopt niet bij de 3 genoemde spelers, er zijn nog veel meer leveranciers op de markt die op deze manier werken, zoals Cohere en Google Vertex. Het mooie van dit alles is dat je als bedrijf dat AI-mogelijkheden bovenop deze foundational models ontwikkelt, vrijheid van keuze krijgt. Dit stimuleert concurrentie, drijft snelle innovatie aan en verlaagt de prijzen dramatisch.
Heel recent hield Simon Willison een briljante talk over dit alles op de AI Engineer World's Fair 2024, deze blogpost is deels gebaseerd op zijn inzichten.
Voorbij OpenAI's GPT4
Sinds de lancering in maart 2023 was het GPT4-model van OpenAI duidelijk de beste optie op de markt op basis van prestaties en behield het ongeveer 12 maanden zijn dominantie. Toen begonnen er nieuwe modellen van de concurrerende spelers die we net noemden uit te komen. Spoel door naar vandaag, en het benchmarken van deze modellen op kosten versus prestaties schetst een beeld van meerdere solide opties:

Door Karina Nguyen
Prestaties zijn in deze figuur gebaseerd op de MMLU Benchmark (Massive Multi-task Language Understanding). Die meet de prestaties van een taalmodel over een breed scala aan taken, met onderwerpen in wetenschap, technologie, engineering en wiskunde, geesteswetenschappen, sociale wetenschappen en meer. Het is geen perfecte benchmark, maar het beoordeelt in elk geval de prestaties van al deze modellen op een appels-met-appels-manier.
Wat je uit deze vergelijking kunt halen, zijn een paar heel belangrijke dingen:
- Veel nieuwe uitdagers betraden de markt in 2023.
- De beste modellen van xAI, Google Gemini, Mistral en Anthropic werden in 2024 nauwe uitdagers van OpenAI's GPT4.
- De modellen die dicht bij GPT4 zitten hebben ook vergelijkbare prijsniveaus, waardoor ze directe alternatieven zijn.
- Tegelijkertijd is er een hele reeks modellen met lagere prestaties, maar ook betere prijzen, op de markt gekomen.
De AI-markt beweegt razendsnel. Deze grafiek is bijvoorbeeld 2 maanden geleden gemaakt:

Door Simon Willison
Zoals Simon in zijn talk opmerkt, is er nog iets interessants begonnen te gebeuren:
- Er zijn twee belangrijke clusters van modellen, hoge prestaties die "Best" worden genoemd versus goedkopere modellen met lagere prestaties die "Cheapest" worden genoemd.
- De prijzen van deze "Cheapest"-modellen zijn over de hele linie flink gedaald. Daar komen we zo op.
- Merk op dat GPT3.5 Turbo, gemarkeerd met een "?", niet heel goed presteert maar nog steeds relatief hoog geprijsd is. Het is echter nog steeds een van de weinige modellen die je kunt fine-tunen, waarmee je prestaties op gelijke hoogte met chatGPT4 kunt krijgen voor een lagere prijs.
Als je deze twee recente analyses in bovenstaande grafieken combineert, betekent dat:
- Je hebt vrijheid van keuze om een model met hoge prestaties te selecteren, uit een groeiende groep leveranciers.
- Je hebt nu de mogelijkheid om hiernaast een veel goedkoper model toe te voegen voor use-cases met lagere prestatie-eisen.
- De lagere prijzen openen steeds meer use-cases met een duidelijke business case.
Bij Mozaik hebben we meerdere projecten bij klanten uitgevoerd waarbij we niet langer slechts een enkele LLM gebruiken. In plaats daarvan implementeerden we een hybride model, vaak met een model met hoge prestaties en een of meer goedkope modellen. Het model met hoge prestaties wordt gebruikt voor de complexere use-cases (zoals het genereren van het uiteindelijke antwoord), terwijl de modellen met lagere prestaties worden gebruikt om data op te schonen en voor te bereiden, of om gebruikersvragen te beantwoorden die als simpel zijn geclassificeerd. Dit maakt niet alleen een groot verschil in kosten, maar dit hybride model optimaliseert ook de responstijden van het systeem enorm. Uiteindelijk maakt het use-cases mogelijk die geen slimme investering zouden zijn met alleen modellen met hoge prestaties.
Nu we het over investeringen hebben, laten we ook eens wat gedetailleerder kijken naar prijzen en wat er op dat front gebeurt.
Dalende prijzen ontsluiten use-cases
Hoewel de prijsstrategieen heel vergelijkbaar zijn, verschilt de detail-usage-based pricing voor elk van de drie leveranciers. Die ontwikkelt zich ook heel snel, omdat prijzen snel worden bijgewerkt wanneer er nieuwe modellen worden gelanceerd. Laten we eens kijken naar de best presterende en recente modellen die elk van hen aanbiedt en wat de prijsverschillen zijn:

Dezelfde inputdata op deze verschillende modellen draaien kan tot 40% verschil in prijs opleveren. Voor het leveren van de output-antwoorden is dit kleiner, met een gat van 20%.
De concurrentie op de markt drijft deze prijzen duidelijk omlaag. Laten we bijvoorbeeld de laatste drie generaties van OpenAI's modellen vergelijken:

De prijs van het nieuwste GPT-4o-model is 4 keer lager dan het originele GPT4-model. Dat is een heel snelle daling in ongeveer 15 maanden. Opnieuw opent dit de deuren voor use-cases die voorheen te duur zouden zijn om te maken, maar die nu opeens een positieve financiele uitkomst hebben.
En dit gaat niet alleen over OpenAI. Een van hun grootste uitdagers, Anthropic, sprak op de AI Engineer World's Fair 2024 over hun verwachtingen dat de intelligentie van hun modellen in de komende 12 maanden omhoog zal gaan terwijl de latency en kosten blijven dalen:

Wat betekent dit allemaal voor jouw AI-projecten?
Wij geloven dat we het tijdperk van keuze in AI zijn binnengetreden. Voor elke use-case heb je de mogelijkheid om een model te kiezen uit een selectie van leveranciers. Voor use-cases met verschillende eisen aan kwaliteit krijg je de kans om een hybride setup te maken waarbij de modellen met de hoogste prestaties en de hoogste prijs worden gebruikt wanneer het echt nodig is, maar goedkopere modellen worden toegepast wanneer ze de juiste tool voor de taak zijn.
Om echt de voordelen van al deze nieuwe opties en mogelijkheden te benutten, stelt dat wel wat eisen aan de technische setup en infrastructuur van je AI-projecten.
Om succesvol te zijn in het snel evoluerende landschap geloven wij dat een AI-infrastructuur moet:
- Vendor agnostic zijn. Implementeer niet zomaar standaard de vendor-APIs die deel uitmaken van je cloud-infrastructuur. De extra moeite nemen om APIs van andere leveranciers toe te voegen betaalt zich enorm terug. En het brengt je in een heel goede positie voor de toekomst naarmate er meer concurrentie in de ruimte komt, wat snel gebeurt.
- Meerdere modellen mogelijk maken, zelfs binnen een enkele use-case. We hebben heel sterke resultaten gezien door verschillende modellen toe te passen voor verschillende stukken van het werk. Hiermee kun je niet alleen de laagste prijzen benutten, maar ook de verschillen in sterke en zwakke punten van de modellen.
- Een kwaliteitsframework als centrale basis hebben. De enige manier om goed onderbouwde keuzes te maken over welke leverancier en modellen de juiste zijn voor de taak, is door een duidelijke definitie van succes en een evaluatieframework te hebben om de kwaliteit van de output te meten. Mozaik-partner Gert Jan Spriensma bespreekt enkele recente lessen over het opzetten van zo'n kwaliteitsevaluatieframework in deze post.
Zeg hallo tegen het tijdperk van keuze in AI
Het is duidelijk dat we het tijdperk van keuze in AI zijn binnengetreden, en dat is iets prachtigs. Vergeet niet dat alles wat we in deze post hebben besproken in slechts 15 maanden is gebeurd. Stel je voor hoe het beeld er bijvoorbeeld over een jaar uitziet!
De inzet is hoog voor leveranciers die ernaar streven een modelplatformspeler te worden in de trant van OpenAI. In de afgelopen twee decennia hebben we een vergelijkbare zeer competitieve race gezien, maar dan om een dominante cloudspeler te worden. Dat leidde tot drie duidelijke winnaars: Google's GCP, Microsoft's Azure en Amazon's AWS.
Kijken we over een paar jaar ook naar een duidelijke top 3 in AI-platforms? Misschien, maar wij geloven meer in het scenario, gedeeld door bijvoorbeeld Marc Andreesen, van hyperconcurrentie met veel bedrijven die decennialang strijden. De modelprestaties zijn sterk afhankelijk van specifieke use-cases en (maatwerk-)datasets, waardoor een breder scala aan bedrijven aanzienlijk marktaandeel kan veroveren. Dit staat in contrast met de cloud computing-markt, waar diensten meer gestandaardiseerd en vergelijkbaar zijn tussen verschillende aanbieders.
En met dit alles hebben we het nog niet eens gehad over open source-initiatieven, die misschien lastiger te gebruiken zijn voor ontwikkeling (niet zomaar een API-call), maar die zeker een grote rol gaan spelen in het aanjagen van innovatie, het verbreden van mogelijkheden en het omlaag brengen van kosten. We zijn erg enthousiast over het tijdperk van keuze waar we nu in zijn beland en kunnen niet wachten om te zien wat we er allemaal mee gaan bouwen.
