Datakaos i næringslivet koster samfunnet millioner hvert år

Hvert år taper industrien store summer fordi de ansatte ikke klarer å finne raskt nok frem til de relevante dataene i bedriftens enorme datamengder.

Samtidig som datamengdene øker i et stadig større tempo, vokser også mengden av irrelevant informasjon.

– Mangelen på gode systemer for å finne relevante data, kan koste store bedrifter hundre millioner kroner i året. Mange beslutninger må tas innen kort tid, så den informasjonen de ansatte ikke greier å finne innen fristen, har bedriften ingen glede av. Det er derfor viktig å få raskere tilgang til dataene enn i dag. Teknikken for å gjøre dette, har ikke endret seg på tjue-tretti år. Vi må derfor lage helt nye kikkhull inn i de store datalagrene.

Det sier Arild Waaler som er professor i logikk og semantisk teknologi på Institutt for informatikk ved Universitetet i Oslo.

Han er nå blitt leder av det nyopprettede Senter for skalerbar data- aksess, som er et samarbeid mellom UiO, NTNU, Universitetet i Oxford og en rekke industrielle tungaktører.

Store oljeselskaper er med

Senteret skal både utnytte teknologiske nyvinninger og utvikle helt nye teknologier. Teknologien skal testes ut på svære datasett i store selskaper som Statoil, Philips og Schlumberger, i samarbeid med internasjonale konsulentselskaper som IBM og Oracle.

En av oppgavene som senteret håper å løse, er å lage et nytt system for oljeselskapene slik at de raskt skal kunne finne frem i de enorme mengdene med interne rapporter og informasjon som finnes spredt i en rekke databaser. En database er en systematisk måte å organisere dataene på. Uheldigvis mangler den gjennomsnittlige oljegeologen, akkurat som den vanlige Apollon- leseren, god nok dataforståelse til å kombinere informasjonen i databasene på best mulig måte.

– Tenk deg at du er ingeniør og har fått svært kort tid til å finne viktig informasjon om en viss type oljebrønn. Du skal sy sammen relevant informasjon fra mange databaser der hver database kan inneholde titusenvis av variabler. Du må vite hvilke tabeller i databasene du skal koble sammen. Dessverre vet du ikke engang hva tabellene heter.

Hvis geologen ikke vet hvor informasjonen befinner seg, nytter det ikke med et raskt databaseoppslag. Problemet er at dataene er organisert på en så kompleks måte at det kreves svært spesialisert kunnskap for å gjenfinne dem.

Utfyller Google

Når Google trekker frem relevant informasjon fra hele verdensveven, baserer den treffene sine på statistiske analyser.

– Det gjør at tidligere søk med mange treff kommer høyt opp på Googles liste. Denne teknikken fungerer dessverre ikke i industrien, fordi brukerne og spørringene er for få.

Google søker dessuten ikke etter informasjon i databaser. Database-programmererne bruker et eget programmeringsspråk som heter Structured Query Language (SQL). SQL har ikke endret seg siden 1980-tallet. Avanserte SQL-spørringene kan være svært komplekse og fortone seg komplett uforståelige for dem som ikke har inngående, datateknisk kunnskap.

Målet er at geologen ikke skal være avhengig av it-konsulenten, men kunne beskrive informasjonsbehovet med sitt eget vokabular på et mest mulig normalt språk.

– Vi ønsker at systemet automatisk skal oversette disse setningene til et dataspråk som skal lage SQL-spørringer mot datamaskinen. Hvis vi klarer dette, skal det arbeidet som geologene i dag bruker flere dager på, kunne gjøres på få minutter.

Det gjør det ikke enklere at mange av geologene også må lete etter og tolke seismiske data. Seismiske data, som er geofysiske målinger av havbunnen, kan ta svimlende mye plass og kreve enorme beregninger på superraske datamaskiner. Disse maskinene er ti tusen ganger raskere enn PC-en din.

– Hele poenget er å kombinere mye regnekraft med radikalt nye metoder for å kunne finne frem til informasjonen og gjøre beregninger langt raskere å finne enn hva som er mulig i dag.

Ser framover

Forskerne skal ta alle de store datateknologiene i bruk, på alle nivåer, fra sky-teknologier, der data blir lagret og delt på nett, og ned til det mest elementære maskinspråket.

– Datasystemer har mange abstraksjonslag. For hvert lag mister du ytelse. Vi ønsker å kutte tvers igjennom alle abstraksjonslagene og designe dataprogrammene på en slik måte at vi kan pushe teknologien i grenseland og dermed øke ytelsen.

– Om åtte år tror jeg at det vi forsker på i dag, vil være en selvfølge i industrien. Da informatikerne startet med relasjonsdatabaser, spurte folk hva det var godt for. I dag er slike databaser allemannseie. Nå skal vi ta et tilsvarende grep for å trekke ut relevant informasjon fra store datamengder, påpeker Arild Waaler.

Leave a Reply

Your email address will not be published.