Fra data til beslutningsgrunnlag; slik blir data til noe ledelsen kan stole på.
- 23. feb.
- 6 min lesing
Oppdatert: 9. mars
Når data kommer fra mange kilder, er det overraskende lett å ende opp med rapporter som ser riktige ut, men som ikke tåler å bli brukt.

Det var i et slikt landskap Hans Petter ble introdusert for Databricks i 2016, da han jobbet som konsulent i Sporveien og løsningen de jobbet på skulle migrere til skyen. Siden har plattformen blitt en av de mest omtalte byggesteinene i moderne dataplattformer. Forenklet sagt handler det om å samle data, få dem til å henge sammen, og oppdatere ofte nok til å kunne stole på tallene når beslutninger tas. Med 15 år i bransjen husker Hans Petter godt da Databricks åpnet et handlingsrom han ikke hadde i verktøykassa fra før.
Hva gjorde at du fikk øynene opp for Databricks?
Det var mulighetene som lå i det, som ikke var mulig i Microsoft-verdenen jeg kom fra. Det var fleksibelt. Man kunne laste data på en måte som ikke var kronglete for å komme frem til mål. Jeg merket i løpet av kort tid at plattformen utviklet seg teknisk raskere enn noe annet jeg har vært borti. Det kan til tider være utfordrende å holde tritt med farta, men jeg liker å utforske nye ting.

Hva er egentlig Databricks? Databricks er en skybasert plattform for databehandling og analyse. Den brukes ofte til å jobbe med større datamengder selv om den passer helt fint til små også. Det er en veldig fleksibel plattform med mange muligheter og bruksområder, selv om jeg personlig bare har brukt en del av funksjonaliteten siden jeg jobber med datavarehus.
Har du eksempler på hvordan en dataplattform kan gi verdi i praksis?
En dataplattform skaper verdi ved å binde sammen hele verdikjeden – for eksempel fra råvare til ferdig produkt, eller fra et lead til et salg.
Når data deles og forstås på tvers, blir det enklere å redusere svinn, planlegge bedre og ta mer korrekte beslutninger.
Hos Nortura samler vi data fra flere systemer i dataplattformen. Disse dataene vaskes, renses og sammenstilles til ferdige dataprodukter som forretningen kan lage rapporter og analyser av. Verdien av disse dataproduktene gir Nortura en mulighet til bedre planlegging og raskere oversikt over for eksempel slaktedata og salg.
Når du snakker om å “rense” data, så skjønner jeg at det handler om datakvalitet, men hva konkret gjør dere?
Det kan være veldig mye. For det første kan det være å fjerne duplikater. Det kan være at noen data inneholder feil/manglende verdier, eller hvis man skal standardisere hva dataene skal være i form av for eksempel datoformater, måleenheter, type tekst.
Databricks er jo i vinden nå, men har du noen meninger om hvorfor?Jeg tror det treffer viktige behov i disse virksomhetene akkurat nå. Man får samlet ganske mye på én plattform. Man tenker ikke nødvendigvis at man skal bruke maskinlæringsmodeller eller AI eller lignende her og nå, men at man har muligheten for å tilrettelegge for det. Og så er det en plattform i ekstrem rask utvikling. Det er også fleksibelt i forhold til fremtidige endringer.
Hvilke utfordringer løses best med Databricks? Hva er det man oppnår ved å bruke det, eller hva er fordelene? Databricks passer spesielt godt når man jobber med store og komplekse datamengder. Plattformen gjør det enkelt å skalere etter behov og gir god ytelse, som ofte kan være en utfordring i mer tradisjonelle datavarehus der flaskehalsen er ytelse. Det er ofte en av hovedgrunnene til at virksomheter velger å gå over til en mer moderne dataplattform.I tillegg gir Databricks god oversikt og kontroll over datakvalitet. Med Unity Catalog får man en sentral katalog over dataene sine, der man kan se hvor dataene kommer fra, styre tilgangene og dele data på en trygg måte - både internt i organisasjonen og eksternt dersom det er ønskelig. Dette gir bedre kontroll helt ned på detaljnivå.Databricks egner seg også godt når det er behov for rask rapportering, med data som oppdateres én eller flere ganger om dagen.
Hva må være klart på forretningssiden for at man skal få utnyttet Databricks?
Det viktigste er egentlig at man vet hvor man vil. Litt på samme måte som i alle datavarehus- og dataplattformprosjekter. Man må ha en tanke om hva man faktisk vil bruke dataene til. For eksempel raskere innsikt, bedre rapportering eller mer automatisering.
Databricks er jo bare et verktøy, så teknologien i seg selv løser ingenting hvis man ikke har en retning. Forretningen må være tydelig på behovene sine, og så bør teknologien støtte den strategien – ikke omvendt.

Er det noen fallgruver for forretningssiden?
Ja, fallgruvene kan jo være at man gjør det for komplisert, hvis man ikke har de tydelige målene. Det kan også fort bli dyrt hvis man ikke vet hvordan man skal skalere jobbene sine.
Hvilke trender kan endre hvordan norske virksomheter utnytter plattformen de neste to årene?
Det har jo vært veldig fokus på automatisering, og det har vært veldig fokus på sanntidsdata, og ikke minst generativ AI. Du kan få ganske mye ut av Databricks når det kommer til generativ AI også, for de legger veldig mye fokus på akkurat den biten der. Jeg tenker at man vil bruke Databricks-plattformen som en type grunnmur.
Du nevnte tidligere at utviklingen går veldig fort. Hvor mye tid må du sette av for å lese deg opp på ting? Eller er det bare sånn at du prøver ut nye ting kontinuerlig?
Jeg prøver ut nye ting hele tiden, men jeg prøver lese meg opp på det nye som kommer. Er jeg heldig så kan jeg bruke det i prosjektet jeg er i. Og hvis ikke så må man se på om man skal bruke tid på det eller ikke. Det er ikke alt man bruker tid på. Det kommer litt an på hva som er relevant for prosjektet man er på.
Hvorfor skal man investere i en dataplattform?
Det er ikke nødvendigvis dataplattformen som skaper verdien, men du ser verdien først når du vet hvilke forretningsproblemer du skal løse. De fleste virksomheter av en viss størrelse kan ha nytte av en dataplattform: For å samle data fra flere kilder, bruke det til rapportering og få bedre innsikt i hvordan bedriften går, og hvor man bør gå videre. I tillegg gir det også muligheter for å leke seg litt med AI eller maskinlæring. AI er kommet for å bli, så det handler ikke om man skal bruke det, men hvordan. Det som er viktig er å bruke det riktig og da er det viktig med et godt og pålitelig datagrunnlag.
Kvalitetssikring er av ekstra stor viktighet før man tar i bruk kunstig intelligens
Når forretningsutfordringer løses med big data og innovasjonstakten er høy, da gjelder det å velge teknologi som kan tilpasses og ha konsulenter som elsker å lene seg inn i det nye, samtidig som de er erfarne nok til å se mulige fallgruver. Databricks gir muligheter for å skalere når utviklingen går raskt. Å “slenge på AI” uten å kvalitetssikre data kan gjøre at feilkildene kan få enorme konsekvenser. Erfarne konsulenter som sikrer kvaliteten på datakildene i kombinasjon med sanntidsrapportering gir effektivt beslutningsgrunnlag og dermed også konkurransefortrinn.
Intervjuet med Hans Petter Kristiansen er skrevet av Solgunn Ø. Matre.
La oss ta en prat!
Vil du vite hvordan Cloudberries kan hjelpe din bedrift med å komme i gang med datadrevet innovasjon? Ring oss eller send en mail.

Anders Larsson
Tlf: 982 14 843
E-post: anders.larsson @ cloudberries .no
Ytterligere noen fakta om Databricks og tilhørende begrep:
Databricks er en skybasert plattform for databehandling, analyse og maskinlæring. Plattformen forenkler håndteringen av store datamengder og forener data, analyse og AI i et felles miljø, som ofte kalles en data lakehouse.
Bruksområder: Databricks gjør det bl.a. mulig for bedrifter å behandle, analysere og bygge maskinlæringsmodeller.
Samarbeid: Databricks tilbyr et samarbeidende og enhetlig miljø som gjør det enkelt for data scientists og data engineers å jobbe sammen.
Skybasert plattform: Databricks kjører på skyleverandører som Microsoft Azure, Amazon Web Services (AWS) og Google Cloud Platform (GCP). Bygget på Apache Spark: Den utnytter Apache Spark, en rask, åpen kildekode-motor for stordata, og ble utviklet av de samme personene bak Apache Spark.
Data lakehouse: Plattformen kombinerer funksjonalitet fra datavarehus og datasjøer, noe som gir et enhetlig miljø for både strukturerte og ustrukturerte data.
Unity Catalog er et sentralisert styrings- og administrasjonslag for alle data- og AI-ressurser i Databricks, som gir en enhetlig tilnærming til sikkerhet, tilgangskontroll, linjesporing (lineage) og dataoppdagelse på tvers av alle arbeidsområder, regioner og skyplattformer. Det gjør det mulig å definere ett sett med regler for tilgang og sikkerhet, som deretter gjelder konsekvent over hele organisasjonen.
