– Kunne vi vridd noen av ressursene vi i dager bruker på klagestrukturen, over på å utvikle gode sensurveiledninger og god sensurkultur, ville vi fått bedre karakterer som studentene var mer fornøyde med, sier professor Johan Fredrik Rye ved Institutt for sosiologi og statsvitenskap på NTNU, til Universitetsavisa.
Han har undersøkt målesikkerheten til karakterene innenfor sosiologi, med utgangspunkt i karakterundersøkelsene Universitets- og høgskolerådet gjennomfører.
– Både vi som setter karakterer og de som får karakterene, forholder oss til en mengde anekdoter og historier om hvor tilfeldig en karakter kan være. Noe av motivasjonen for å gå inn i dette, var å gi en mer kvalitativ analyse. Uten at det på noen måte er en fasit eller noe å trekke allmenne konklusjoner fra, sier Rye.
Gikk fra svak D til B
Utgangspunktet var enkelt nok: Seks ulike studiesteder plukket ut to tilfeldige bacheloroppgaver i sosiologi. Deretter skulle en sensor fra hvert lærested vurdere alle tolv oppgavene alene, før de seks sensorene sammen i en gruppe skulle komme frem til en karakter for hver av oppgavene.
Rye fant blant annet at:
• I de individuelle vurderingene satt sensorene i seks av ti tilfeller en annen karakter enn den opprinnelige
• I fellesvurderingen falt panelet på en annen karakter enn den opprinnelige i halvparten av tilfellene.
• De seks panelsensorene var aldri samstemte. Det nærmeste man kom var et tilfelle der fem av seks var enige.
• Det mest markante spriket var en oppgave som ble rangert fra en ren B til en svak D.
• Én sensor hadde en andel A/B-karakterer på 67 prosent, en annen 16 prosent.
Svært store sprik
– Ble du overrasket over at ingen oppgaver fikk samme karakter av samtlige sensorer?
– Det vet jeg ikke. Det vil være forskjeller mellom sensorer, det må det være og vil det naturlig være. Men jeg vil tro mange studenter vil bli overrasket, fordi de tror karakterene er mer uomtvistelige enn de rent faktisk er. Jeg tror mange av dem ikke er klar over hvor mye skjønn som ligger i karakterene, sier Rye.
Og fortsetter:
– Én ting er at de aldri er enige, men én oppgave ble også vurdert fra B – til D. Dét overrasket meg kanskje mer. I et par tilfeller er det svært store sprik.
Rangerer ulikt
Et viktig spørsmål i Ryes forskning var om avvikene bare besto av nivåforskjeller, eller om sensorene også vurderte ulikt når det gjaldt rangering.
Det vil si: Var det snakk om at sensorene egentlig hadde den samme rangeringen av oppgaven, men at noen av dem forskjøv karakterskalaen? Eller var de også uenige om rekkefølgen oppgavene skulle rangeres i?
Alle sensorene identifiserte den samme oppgaven som dårligst, og oppgaven som opprinnelig fikk best karakter som enten nummer én eller nummer to. Ellers var det store variasjoner.
Oppgaven som opprinnelig var én av de to med dårligst karakter (D), ble av én sensor rangert som nest best. Oppgaven som fikk den neste beste karakteren i den opprinnelige vurderingen, ble vurdert fra femte- til ellevteplass
Diskuterte studentenes bakgrunn
At resultatene også varierer i rangeringen, mener Rye taler for at sensorene ikke bare er uenige om hvordan de skal bruke skalaen, men også bruker ulike kriterier i vurderingene av bacheloroppgavene.
«Bare unntaksvis ble det referert til de nasjonale beskrivelsene av karakterer», skriver Rye i den kvalitative analysen av sensorenes arbeid.
Utenforliggende ting som studentenes «livsbiografi», ble også trukket inn i vurderingene.
En oppgave, som var skrevet av en utenlandsk student, ble vurdert som interessant i tematikken, men svakt fremstilt språklig. Hvordan disse to faktorene skulle veies mot hverandre var det vidt forskjellige meninger om, og ingen kunne vise til noen eksterne kriterier som man kunne enes om for å avgjøre saken.
Er C en god karakter?
Sensorene kunne heller ikke bli enige om C var en grei, dårlig eller god karakter.
Universitets- og høgskolerådet har fra Kunnskapsdepartementet fått ansvaret for samkjøre bruken av karakterer her til lands siden bokstavkarakterene ble innført på nasjonal basis i 2003. Den nasjonale beskrivelsen av karaktertrinnene er klinkende klar: Karakteren C er definert som «god».
– Det er elleve år siden vi fikk svaret på spørsmålet om karakteren C er god eller ikke. Hvorfor er ingen felles forståelse på plass?
– Det gjenstår mye arbeid for en enhetlig forståelse av karakterskalaen. Problemet er nok ikke Universitets- og høgskolerådet gjør eller kan gjøre, for det er begrenset hva som kan gjøres sentralt. Det er fagmiljøene som har en løpende utfordring og må gjøre mer, sier Rye.
Mandag varslet kunnskapsminister Torbjørn Røe Isaksen et pilotprosjekt med nasjonale prøver i høyere utdanning, som blant annet vil undersøke hvor sammenlignbare karakterene er mellom de ulike institusjonene.
– Læres ikke opp
Rye mener man trenger størrelse forståelse hos studentene for hvor skjønnsbasert en karakter er, mer diskusjon i fagmiljøene om hva gode prestasjoner er, bedre sensurveiledning og ikke minst bedre eksamensoppgaver.
– Det er et tankekors at vi ikke systematisk lærer ferske sensorer å sensurere. Det er vilkårlig hva de får med seg underveis. Det går i riktig retning, men første gang jeg sensurerte var det ingen veiledninger i hva som skulle vektlegges, sier Rye.
Fant ingen systematikk
Snittet i karakterene til de sensorene lå mellom 2,3 og 3,3, som også er et stort avvik ifølge Rye. Men da han så på det samlede snittet deres, og snittet for karakterene de ble enige om i fellesskap, lå det på 2,7, nøyaktig det samme som snittet til de opprinnelige karakterene.
– Det gir ikke grunnlag for å si at samlekarakteren blir påvirket her. Man kan hverken avskrive eller bekrefte at det er systematikk i avvikene på bakgrunn av mine undersøkelser, sier Rye.
En bachelorstudent for i sosiologi får omkring ti karakterer. Om avvikene er vilkårlige, vil de dermed ikke nødvendigvis påvirke samlekarakteren.
– Det hadde vært mer bekymringsfullt om det var systematikk i det, fordi det vill slått ut på gjennomsnittskarakteren for individet eller gruppen, sier Rye.
Systematikk på overordnet nivå
Systematiske avvik på et mer overordnet nivå er det derimot annen forskning som sier noe om.
I fjor viste for eksempel en forskningsrapport fra Senter for økonomiske studier store variasjoner mellom karakterpraksisen ved norske studiesteder.
En forskningsartikkel fra Monica Kristensen i Uniped 2, 2013, viste også at mappevurderinger i gjennomsnitt får en karakter 0,86 karaktertrinn høyere enn skriftlige eksamener.
– Så kan det både tolkes som et uttrykk for et karakterproblem eller et spesielt godt undervisningsopplegg. Men overordnet er det en del forskning som peker mot at avvikene i karaktersettingen også er et systematisk problem, sier Rye.
Ryes arbeid er trykket i siste nummer av Uniped, med tittelen «Konsistente karakterer?».