Veel bedrijven hebben hun data het afgelopen decennium naar de cloud verplaatst en een data warehouse opgezet. Dat dient als een single source of truth die data verzamelt uit alle softwaretools die het bedrijf gebruikt en die combineert op een centrale plek voor Business Intelligence over de verschillende teams heen.
Tegelijkertijd spreken we ook veel bedrijven die dit nog moeten doen. Hun data leeft verspreid over de verschillende softwaretools, of sommige centrale databases draaien on-premise in plaats van in de cloud. Dit is een zeldzaam moment, waarop bedrijven die hebben gewacht met de overstap naar een data warehouse een voordeel kunnen hebben in hun AI-ontwikkeling. Waarom? Laten we induiken welke technologie het beste werkt voor AI.
Het afgelopen decennium maakte data warehouse-infrastructuur complex
Bedrijven die hun cloud data warehouse hebben gebouwd, hadden de afgelopen tien jaar steeds meer opties om uit te kiezen. Van data lakes tot real-time streamingplatforms en graph databases. Stuk voor stuk technisch indrukwekkend en heel goed in specifieke (veelgevraagde) use-cases. Maar ze hebben ook nog iets anders gemeen: ze werken niet samen met Large Language Models.
LLMs draaien het beste op een simpele en super gestructureerde setup
Het is onmogelijk om al je interne bedrijfsdata in de LLM op te slaan, en daarom moet je de relevante bedrijfsdata op run-time aanleveren. Dit aanlevermechanisme kan op snelheid draaien omdat het werkt op een gestructureerde database waar een tabel staat met een paar kolommen:
- De ID van het content-item
- Wat metadata om segmentatie te bieden
- Een opgeschoond stuk content met alleen tekst
- Vector embedding van dit stuk content
En dat is het. Elke moderne LLM kan met deze datastructuur werken en snel uitvoeren omdat het de embedding vectors in deze tabel snel kan doorlopen. Wat dit wel betekent, is dat je je data heel goed moet structureren, opschonen en splitsen zodat die geschikt is voor deze setup.
Iets soortgelijks willen doen in een data lake? Behoorlijk lastig en veel werk, omdat je in eerste instantie de cruciale stap om je data te structureren hebt overgeslagen en die complexiteit hebt verplaatst naar software verderop in de pipeline.
Het is lastiger om van complex naar simpel te gaan dan vanaf nul te beginnen
Veel moderne stukken (ongestructureerde) data warehouse-technologie moeten een gestructureerde laag toevoegen voordat ze met LLMs kunnen werken. Onze opvatting is dat dit opzetten terwijl je nog geen data warehouse hebt sneller gaat dan deze laag toevoegen aan een bestaande, complexere setup. Als je vanaf nul begint, kun je ontwerpen voor AI, in plaats van het een bijzaak te maken.
Old-school technologieen weer welkom heten
Een van de populairste databases voor LLMs van vandaag is het 27 jaar oude Postgres met een extension voor embeddings. Dit werkt goed om verschillende redenen:
- Bewezen technologie die makkelijk te onderhouden en te beheren is.
- Gestructureerde data, die goed werkt voor zowel Business Intelligence als AI.
- SQL-gebaseerd, nog steeds de databasetaal met de minst steile leercurve, waardoor je het makkelijker over teams kunt verspreiden.
- Schaalt in de clouds van verschillende leveranciers tot een niveau dat voor veel organisaties werkt, aangezien de meeste geen enorme datasets hebben.
Er zijn andere gestructureerde databases, en voor meer schaal werken bijvoorbeeld Google BigQuery en Snowflake goed. Deze zijn echter ontworpen voor de big data 1% en komen met een stevig prijskaartje. Als je honderden nodes nodig hebt om een query te draaien, gaat je dat waarschijnlijk een arm en een been kosten.
Het mooie van een data warehouse bouwen met simpele technologie zoals Postgres is dat je daarmee heel snel AI-ready wordt, en op een manier die werkt voor zowel Business Intelligence als AI. Met de huidige capaciteiten (CPU/RAM) van fysieke servers past het voor de meeste use-cases waarschijnlijk op een enkele machine, waardoor je geen dure oplossing nodig hebt.
De ideale setup voor zowel BI als AI in een keer ontwikkelen
Als je in de fase zit waarin er nog geen centrale source of truth is, is dit misschien wel je beste moment ooit om een data warehouse te gaan bouwen. Door dit nu te doen kun je tijd investeren in het structureren en opschonen van data, om het daarna direct beschikbaar te hebben voor veel BI- en AI-use-cases tegelijk, met dezelfde infrastructuur en dezelfde dataflows. Elke toegevoegde tool en laag in een data stack maakt dingen ingewikkelder. Het maakt onderhoud, ontwikkeling, troubleshooting en het wisselen tussen leveranciers lastiger.
Bedrijven die vandaag beginnen aan hun data warehouse kunnen ervoor kiezen om vanaf het begin voor AI te ontwerpen, en met de lessen die zijn geleerd over het onderhouden van complexe data-infrastructuren en de kennis van de eisen van de nieuwste AI-technologieen van vandaag, hebben ze een zeldzame voorsprong.
We schrijven een vervolgpost over de kracht van een simpele en open-source data stack als jouw centrale source of truth voor besluitvorming en AI.
