5 december 2024 | Gert Jan Spriensma

Is AI echt te duur voor jouw business case?

Met de recente introductie van Google's Gemini Ultra model en de daaropvolgende release van hun Gemma modellen als open-source, zien we de noodzaak om wat duidelijkheid te scheppen in dit snel evoluerende vakgebied en dit te koppelen aan de operationele discussie die we vaak voeren in ons werk.

3-niveau productparadigma

In het evoluerende landschap van large language models (LLMs) zien we een productstrategie met drie niveaus. De meest geavanceerde modellen, zoals GPT-4 en Gemini Ultra, zijn ontworpen voor geavanceerde redeneervaardigheden. Deze modellen bieden indrukwekkende mogelijkheden, maar vereisen aanzienlijke rekenkracht en brengen hogere kosten met zich mee, waardoor ze geschikt zijn voor scenario's die zich vertalen in hoge inkomsten.

In het middensegment, met 7 miljard parameters, bedienen LLMs zakelijke toepassingen en sommige consumententoepassingen op high-end PCs. Een voorbeeld hiervan is de integratie van een 7B model in software voor virtuele assistenten, wat zorgt voor een intuitievere interactie en slimmere antwoorden voor taken zoals plannen en e-mailbeheer, rechtstreeks vanaf het bureaublad van een gebruiker. Gemma 7B biedt vergelijkbare voordelen en functionaliteiten voor desktopontwikkeling en geeft ontwikkelaars meer flexibiliteit.

Op instapniveau zijn modellen met 2 miljard parameters of minder afgestemd op consumentenproducten zoals telefoons. Door LLMs direct op PCs of telefoons te gebruiken, kan data lokaal worden verwerkt. Dit betekent dat data niet hoeft te worden verstuurd naar een externe locatie voor analyse. Modellen kunnen ter plekke worden aangepast, lokale bronnen aanspreken of veilig verbinding maken met andere applicaties, zonder dat gevoelige informatie in gevaar komt.

Grote modellen

Deze krijgen de meeste aandacht van de media, omdat ze zeer krachtig zijn en allemaal meer dan 70B parameters hebben, waardoor ze zowel duur zijn om te trainen als om te draaien. Enkele voorbeelden zijn;

  • GPT4 van OpenAI
  • Claude2 van Anthropic
  • Gemini Ultra van Google
  • LLama2 van Facebook

Er zijn er meer, maar dit zijn de bekendste. Het LLama2 model van Facebook is bijzonder interessant omdat dat een open-source model is, dat door veel anderen wordt gebruikt als basis om op voort te bouwen. Een opmerkelijk project dat we vorige week tegenkwamen, was Groq, dat een verbluffende snelheid biedt voor deze grote modellen. Het is een hardwareproject dat ook toegang biedt via een API. Je kunt het testen op hun website en het werkt met 300 tokens per seconde. Dit kan alleen omdat de inference (technische term voor het genereren van antwoorden of voorspellingen) veel efficienter is en minder rekenkracht kost, wat betekent dat de kosten om een model te hosten ook lager zijn.

Kleinere modellen

Er zijn honderden LLMs in de 7B en 2B klasses. De nieuwe Gemma modellen werden gebenchmarkt tegen vergelijkbare modellen in dezelfde categorie en vooral benchmarks op wiskunde- en programmeertaken zijn aanzienlijk beter dan vergelijkbare modellen van hetzelfde formaat. Toch liggen de benchmarkscores voor coderings- en wiskundetoepassingen ruim onder het menselijke niveau.

Voor andere taken scoren ze vergelijkbaar met concurrenten zoals Mistral 7B, wat nog steeds ruim onder de prestaties van de grote modellen ligt. Dus waarom zou je uberhaupt overwegen om zo'n model te gebruiken?

Nou, terugkomend op waarom we zo enthousiast waren over het Groq project; snelheid en kosten. Voor veel toepassingen zijn 7B modellen meer dan voldoende, zeker wanneer ze getraind of fine-tuned zijn op een specifieke taak. Dit maakt ze bijzonder aantrekkelijk voor bedrijven die betrouwbare AI-mogelijkheden nodig hebben zonder een fors prijskaartje. Door te optimaliseren op deze factoren kunnen 7B modellen een praktische oplossing bieden voor een breed scala aan toepassingen, van geautomatiseerde klantenservice tot het maken van content, waardoor ze een kosteneffectieve keuze zijn voor bedrijven die AI in hun bedrijfsvoering willen integreren.

Bovendien benadrukt de introductie van modellen zoals Gemma de voortdurende innovatie binnen het vakgebied van AI. Naarmate deze modellen geavanceerder worden, verbetert hun vermogen om complexe taken aan te kunnen, waardoor de kloof naar prestaties op menselijk niveau in specifieke domeinen wordt overbrugd. Deze evolutie opent nieuwe mogelijkheden om AI in te zetten op gebieden waar nauwkeurigheid en efficientie cruciaal zijn, zonder dat de middelen nodig zijn die grotere modellen vereisen. In essentie vertegenwoordigt de ontwikkeling van deze modellen een belangrijke stap voorwaarts in het toegankelijker en toepasbaarder maken van AI in verschillende sectoren, waardoor bedrijven de voordelen van AI-technologie op een meer schaalbare en economische manier kunnen benutten.

Wat betekent dit

De laatste tijd zaten we vaak in gesprekken waarin operationele kosten een groot onderwerp zijn, wat natuurlijk erg belangrijk is. Toch, als we kijken naar de ontwikkelingen van alleen al het afgelopen jaar, denken we dat we gerust kunnen stellen dat voor de meeste toepassingen de kosten aanzienlijk zullen dalen. Deze trend opent nieuwe kansen voor bedrijven om AI in te zetten voor een breder scala aan toepassingen, zonder de onbetaalbare kosten die nu misschien een barriere vormen.

Maar om echt te profiteren van deze aanstaande kostenverlagingen, moeten bedrijven nu beginnen met de voorbereiding. Deze voorbereiding houdt in dat je investeert in de juiste technologieen en vaardigheden en een strategisch plan ontwikkelt dat AI op een manier in het bedrijfsmodel verwerkt die aansluit bij toekomstige mogelijkheden. Het betekent ook dat je op de hoogte blijft van technologische ontwikkelingen en begrijpt hoe deze kunnen worden toegepast om echte zakelijke uitdagingen op te lossen.

Strategisch gezien kan dit inhouden dat je de belangrijkste gebieden van het bedrijf identificeert die het meest kunnen profiteren van AI-integratie, zoals klantenservice, data-analyse of operationele efficientie. Door nu al te experimenteren met AI-oplossingen kunnen bedrijven een duidelijker beeld krijgen van de potentiele impact ervan en van de operationele veranderingen die nodig zijn om ze te ondersteunen. En het kan snel gaan, bijvoorbeeld: Groq biedt nu 1M tokens voor de 70B aan voor slechts $0,70, vergeleken met circa $1,20 voor ChatGPT3.5, wat een kostenverlaging van 42% is. Het 7B model bij Groq is geprijsd op slechts $0,10 per 1M tokens, wat slechts 8% van de chatGPT kosten is.

We vinden dit zeer spannende ontwikkelingen die AI vandaag de dag al toegankelijk maken voor zoveel bedrijven.

Gert Jan Spriensma

Author

Gert Jan Spriensma

Een ervaren AI-engineer, gespecialiseerd in het bouwen van productieklare AI-systemen.

Blijf op de hoogte

Meld je aan voor onze nieuwsbrief en ontvang onze kijk op alles wat speelt in data en AI.

Begin je reis naar People positive AI.

Neem contact op met ons team via contact@mozaik.ai of gebruik het formulier hieronder. We nemen snel contact met je op!