Tenk deg følgende situasjon. Palynologen sitter ved mikroskopet sitt og er usikker på en artsbestemmelse. Følgelig ringer han til en kollega og spør om hjelp. Deretter tar han et bilde og sender som vedlegg i en e-post. Dette tar tid, krever mye arbeid og innfører nye usikkerheter. Da hadde det vært mye bedre om alle mikrofossilene i preparatet allerede var digitalisert. I 3 dimensjoner.
– Mitt mål er å digitalisere så godt at ingen i etterkant spør om å låne slides for å måtte kontrollere resultatene, proklamerer Robert Williams.
Williams er seniorgeolog i Oljedirektoratet med spesialekspertise i palynologi. Nå erhan godt i gang med sitt unike digitaliseringsprosjekt. Hensikten er å oppnå en betydelig rasjonalisering for både Oljedirektoratet og kundene i oljeselskaper og serviceselskaper, og ikke minst gi bedre og mer konsistente geologiske tolkninger av biostratigrafiske enheter. Riktig alder på et lag er som kjent av betydning for å kunne gjøre riktige tolkninger.
Gjentatt behov
Bakgrunnen er som følger. I henhold til regelverket som gjelder for operasjoner på den norske kontinentalsokkelen skal operatørene sende alle palynologiske preparater («slides») til Oljedirektoratet for lagring i Geobank (Oljedirektoratets databank for alt fra olje til kjerner og borkaks). Derfor foreligger det slides fra de fleste undersøkelsesbrønner som har blitt boret siden 1966.
Detaljerte undersøkelser av innholdet i hvert preparat danner grunnlaget for å bestemme alderen på et gitt lag. Denne type analyse hører med til rutinen for alle nye brønner. Mange gamle brønner blir imidlertid analysert om igjen i lys av ny kunnskap, gjerne flere ganger, og derfor må Oljedirektoratet stadig låne ut slidene til de som har behov. Akkurat det er en ressurskrevende øvelse, blant annet fordi kundene må håndbære materialet tilbake til sitt eget kontor, og hver gang et preparat er lånt ut, er det selvsagt utilgjengelig for andre.
Det er derfor lett å skjønne at prøver i digital form vil innebære en betydelig rasjonaliseringsgevinst.
Først digitalisering …
– Vi har ukentlige forespørsler, og kundene får da lov å beholde slidene i opptil tre måneder, mot at de selv kommer og henter dem. Ofte må vi imidlertid purre for å få dem tilbake, og fordi det bare foreligger ett eksemplar av hvert preparat, er det altså ingen andre som kan bruke det i den perioden. Det er «låst» for andre brukere, fortelle Williams.
Fordi pågangen er såpass stor, er det viktig for utforskningen av norsk sokkel at materialet blir gjort mer og lettere tilgjengelig, og det er her Robert Williams sitt digitaliseringsprosjekt kommer inn i bildet. Det overordnede formålet er at kundene skal slippe å be om få hente slides hver gang det er bruk for dem. I stedet skal de kunne finne digitaliserte mikrofossiler i en databank.
– Løsningen er mikroskopskannere, der hvert enkelt fossil blir framstilt i 3 dimensjoner, og altså forhåpentligvis godt nok til at de kan identifiseres av den enkelte bruker. Det vil også være gratis å logge seg på for å studere hver enkelt prøve.
Digitalisering er på alles lepper, og her foreligger altså et konkret eksempel på hvordan det kan gjøres når store mengder data foreligger.
… deretter maskinlæring
Det stopper imidlertid ikke der. Vi er faktisk bare halvveis.
– Den ambisiøse ambisjonen vår er å utvikle maskinlæring for artsbestemmelse, og det er grunnen til at jeg i fjor dro på et europeisk møte for patologer med interesse for digitalisering – «European Congress on Digital Pathology». Likheten mellom celler og mikrofossiler er stor, og hensikten var å finne ut hvor langt de har kommet innen dette fagfeltet.
Williams opplyser at det er patologene som har drevet fram utviklingen av artsbestemmelse ved maskinlæring de siste 10-15 årene, og spesielt de siste 5 årene.
– Patologene har vanskeligere problemstillinger enn palynologene, så for oss blir det å ta fordel av de algoritmene som de har utviklet.
Williams opplyser at det hver eneste uke kommer nye algoritmer som freeware eller open source, kanskje 5-10 programmer, men de er alle tilrettelagt for forskjellige problemstillinger. Kanskje kan jeg ta i bruk en algoritme som er tenkt for å skille mellom katteraser, undrer Williams.
– Status nå er prøving og feiling, og det vil nok ta noe tid før vi kan bruke maskinlæring til artsbestemmelse. Vi er imidlertid helt sikre på at vi skal klare det, slår Williams fast.
– Men det krever mye data. Vi tenker at vi trenger 1000 digitaliserte eksemplarer av en art før maskinen har lært. Årsaken er at fossilene er av ulik «kvalitet». Noen er godt bevart, andre dårlig bevart, mens andre igjen er fragmentert.
Fordelene ved å lære opp maskiner til artsbestemmelse er opplagte. Store mengder data kan analyseres på kort tid. Dertil har maskinene evne til å lære uten å glemme. Så hvis de gjør feil, vil de være konsekvente. Når feilene i artsbestemmelse oppdages, vil alle analysene kunne bli rettet opp med et tastetrykk.
– En tredje fordel er at vi vil kunne finne mønstre som den menneskelig hjerne ikke er i stand til. Vi kan for eksempel tenke oss at før «art nr. 10» dør ut, da vil maskinen kunne fortelle oss at det er 70 prosent sjanse for at et fenomen skjer i tilknytning til det.
På god vei
Williams foreslo prosjektet for ett år siden, og ledelsen grep ideen begjærlig. Dermed fikk geologen et budsjett på 2,4 millioner kroner for blant annet å kunne kjøpe en «high end» mikroskop-skanner.
– Det skal kunne ta 1000 prøver samtidig og vil gjøre seg ferdig på ca. tre dager. Med 200 000 prøver i Geobank vil det likevel ta minimum to år, kanskje opp til seks, å bli ferdig.
Oljedirektoratet er på god vei med et digitaliseringsprosjekt som kan vise veien for andre.