Svært mye forskning bygger på tidligere forskning innen samme eller relaterte felt. Men et reelt problem er at det innen mange områder er utgitt så mye forskningsmateriale at det er helt umulig for en forsker å få oversikt over det hele. Ofte vil forskerne måtte basere sine studier på bare et utvalg av forskningsrapportene som tidligere er utgitt, noe som kan påvirke hypotesene som fremstilles i feil retning.
– I gjennomsnitt leser en forsker kanskje mellom én og fem vitenskapelige artikler på en god dag, sier Olivier Lichtarge, en professor i blant annet molekylær genetikk og direktør for Center of Computational and Integrative Biomedical Research ved Baylor College of Medicine i Houston, Texas, i en pressmelding. Når det finnes tusenvis av slike artikler, vil det kunne ta år å lese gjennom hele materialet.
Derfor har man ved Baylor samarbeidet med IBM om å utvikle et dataverktøy som kan hjelpe forskere med å pløye gjennom all offentlig tilgjengelig litteratur om et tema, samt å formulere hypoteser basert på det komplette materialet. Verktøyet kalles for Knowledge Integration Toolkit (KnIT).
– En datamaskin kan helt klart ikke resonnere like godt som en forsker, men det lille den kan, logisk og objektivt, kan bidra stort når det brukes på vår hele vår samling med kunnskap, sier Lichtarge.
Watson
I et testprosjekt som har involvert publiserte data om p53, et protein som ofte er relatert til kreft, har forskere ved Baylor og IBM brukt KnIT og superdatamaskinen Watson til å evaluere flere titalls tusen forskningsartikler om p53 og hvordan man ved hjelp av kinaser, en spesiell type enzymer, kan aktivere eller deaktivere aktiviteten til p53.
Det finnes mer enn 500 kjente, menneskelige kinaser, og titusenvis av mulige proteiner som kinasene kan være rettet mot.
I testen ble KnIT og Watson bare gitt de av forskningsartiklene som var gitt ut før 2003. Før 2003 var bare 16-17 av de 33 p53-påvirkende kinasene man visste om under testen, kjente for forskere.
I testen trakk KnIT fram 74 kinaser som potensielle modifikatorer. Ti av disse var kjente modifikatorer for p53 fra før 2003, mens ni har blitt oppdaget senere. KnIT redegjorde for de ti allerede kjente kinasene ved hjelp av resonnering. De øvrige 64 ble rangert etter hvilken sannsynlighet de er rettet mot p53. Av de ni øvrige, kjente kinasene som KnIT fant, ble sju nøyaktig forutsett av systemet.
– Denne studien viste at i et svært smalt felt relatert til p53, kan vi faktisk antyde nye forhold og nye funksjoner knyttet til p53, som senere kan bli direkte validert i laboratoriet, sier Lichtarge.
Ifølge IBM resulterte testen i at seks nye, potensielle kinaser nå vil bli forsket videre på. I gjennomsnitt har man tidligere bare funnet én slik potensiell kandidat per år, så dette blir ansett som et ganske dramatisk framskritt.
– Håpet vårt er at forskere vil kunne bruke Watsons kognitive evner til å øke forståelsen av biologien som ligger til grunn for sykdommer, sier Scott Spangler, en forskningsleder ved IBM, i en pressemelding.
– Bedre forståelse av biologien til sykdommer kan etter hvert føre til bedre behandling for noen av de mest komplekse og utfordrende sykdommene, slik som kreft, sier Spangler.
– Vårt langsiktige håp er å kunne systematisk utvinne kunnskap direkte fra totalsummen av den offentlige, medisinske litteraturen. Til dette trenger vi teknologiske framskritt innen det å lese tekst, trekke ut fakta fra hver eneste setning og å integrere denne informasjonen i et nettverk som beskriver forholdet mellom alle objektene og entitetene som drøftes i litteraturen, sier Lichtarge.
– Denne første studien er lovende fordi den antyder et bevis på prinsippet for et lite skritt i retning av denne typen oppdagelse av kunnskap. Med mer forskning håper vi å komme nærmere kliniske og terapeutiske anvendelser, avslutter han.