Av advokat/partner Kristian Jåtog Trygstad, Advokatfirmaet Mageli
Anbud365 har hatt flere innlegg om normalisering det siste året. Det er positivt, siden det er viktig å velge riktige evalueringsmetoder for å finne det beste tilbudet. Jeg mener at oppdragsgiverne ikke bør følge Alf Amund Gulsviks råd om normalisering. Nedenfor skal jeg forsøke å vise hva som er den sentrale utfordringen ved normalisering, og hvorfor normalisering kan gi uønskede utslag i konkurransene.
Valg av tilbud og bruk av evalueringsmetoder
I artikkelen Normalisering – lovlig og hensiktsmessig – Anbud365 skriver Alf Amund Gulsvik om KOFAs stornemndsavgjørelse i sak 2021/1000 og om hvorfor han mener oppdragsgivere i en del tilfeller bør normalisere tilbudenes poengscore ved valg av tilbud. Jeg deltok i den nevnte stornemndsavgjørelsen og vil ikke gå inn på Gulsviks kommentarer til denne. Jeg vil derimot forsøke å vise hvorfor oppdragsgivere ikke bør følge Gulsviks råd om å normalisere tilbudenes poengscore.
Offentlige anskaffelser avsluttes ved at oppdragsgiver tildeler kontrakt til tilbudet med det beste forholdet mellom pris eller kostnad og kvalitet. Målet med tilbudsevalueringen er altså å finne tilbudet med den beste kombinasjonen av lav pris/kostnad og høy kvalitet.
Hvis ett tilbud har den laveste prisen og den beste kvaliteten, gir utfallet seg selv. Som regel er imidlertid oppdragsgiver nødt til å vurdere tilbud med lav pris opp mot tilbud med noe høyere pris og bedre kvalitet. Da må man finne en metode for å sammenligne tilbudenes styrker og svakheter. I sin artikkel tar Gulsvik utgangspunkt i en vanlig fremgangsmåte, hvor tilbudene gis poeng på hvert tildelingskriterium, og hvor tilbudet med flest poeng til sammen vinner konkurransen.
Når oppdragsgiver evaluerer tilbudene ved å holde poengscorene på hvert kriterium opp mot hverandre, sammenlignes ikke tilbudenes styrker og svakheter direkte. Sammenligningen skjer isteden indirekte, ved at et forsprang som ett tilbud får på priskriteriet som følge av lav pris, kan utlignes ved forsprang som et annet tilbud med bedre kvalitet får på kvalitetskriteriet. Hvis Tilbud A for eksempel får 1 (vektet) poengs forsprang på Tilbud B i bedømmelsen av priskriteriet, vil Tilbud B vinne konkurransen hvis det får 1,5 poengs (vektet) forsprang på Tilbud A i bedømmelsen av kvalitetskriteriet.
Ideelt sett skal bruk av evalueringsmetoder gi det samme utfallet som når de konkurrerende tilbudenes sterke og svake sider holdes direkte opp mot hverandre. I eksemplet foran vil i så fall Tilbud B vinne konkurransen fordi den gode kvaliteten mer enn oppveier for den høyere prisen. Som jeg vil vise, er en utfordring ved normalisering at oppdragsgiver er villig til å betale mer for en kvalitetsforskjell mellom tilbud, uten at det nødvendigvis reflekterer kvaliteten på tilbudene eller oppdragsgivers betalingsvillighet.
Problemet med normaliseringen
«Normalisering» brukes som en betegnelse på en oppjustering av tilbudenes poengscore på et tildelingskriterium. Ved normalisering gis det tilbudet som vurderes som best på dette tildelingskriteriet full uttelling, selv om dette tilbudet opprinnelig fikk en lavere poengsum. Noen ganger har oppdragsgiver forpliktet seg til normalisering, for eksempel ved å opplyse om at det beste tilbudet på et kvalitetskriterium skal få maksimal uttelling, typisk 10 poeng.
De øvrige tilbudenes poengscore oppjusteres også, og det er flere måter å gjøre det på. Metoden Gulsvik beskriver, den forholdsmessige oppjusteringen, innebærer at samtlige tilbud multipliseres med den faktoren som gir det beste tilbudet full uttelling. Han bruker følgende eksempel[1]:
En tilsiktet effekt ved normaliseringen er at poengdifferansen mellom tilbudene øker. Før normaliseringen skilte det 2 poeng mellom tilbudene på dette tildelingskriteriet, mens det skiller 2,4 poeng etter normaliseringen. Normalisering bygger på at den prosentvise forskjellen mellom tilbudenes uttelling er det sentrale. I eksemplet ovenfor skiller det 24% mellom tilbudene, og synspunktet er da at poengdifferansen skal være 2,4 poeng, altså 24% av 10 poeng. Gulsvik hevder at poengdifferansen blir for liten om man gir tilbudet med lavest pris full uttelling, 10 poeng, mens man ikke tar utgangspunkt i at tilbudet med best kvalitet skal få full uttelling.
Det er denne tilnærmingen jeg mener er feil, i alle fall som en generell retningslinje. En slik normalisering vil kunne ødelegge sammenligningen av pris- og kvalitetsforskjeller, og det er en risiko for at oppdragsgiver velger et annet tilbud enn det beste.
Den typiske situasjonen hvor det kan være aktuelt å normalisere, er hvor et tildelingskriterium består av delvurderinger (også omtalt som underkriterier), og hvor tilbudene har ulike styrker og svakheter. En tenkt utvidelse av Gulsviks eksempel kan være at tilbudene fikk følgende uttelling på tre underkriterier:
Når et tildelingskriterium deles opp i underkriterier, må oppdragsgiver ta høyde for at poengene som utmåles for hvert av underkriteriene gjenspeiler underkriteriets betydning. I mitt eksempel er de tre underkriteriene ansett som like viktige.
Evalueringsmetodene er hjelpemidler for å strukturere tilbudsevalueringen og valget av tilbud. Den poengscoren som et tilbud får på et tildelingskriterium, skal gjenspeile hvor godt dette tilbudet er. Grunnen til at Tilbud A ikke fikk full uttelling på tildelingskriteriet, er at det tilbys lavere kvalitet i underkriterium Y. Disse manglene ved tilbudet gir tilbudet redusert uttelling i bedømmelsen av tildelingskriteriet. Det springende punkt er om man skal ta høyde for denne mangelen ved tilbudet i den samlede vurderingen av tildelingskriteriene (uten å normalisere) eller om man skal basere seg på at Tilbud A tross alt var det beste tilbudet, og gi tilbudet 10 poeng.
For å svare på dette spørsmålet må man se på hvilke utslag normaliseringen gir i den samlede vurderingen. Som jeg var inne på innledningsvis, holdes poengforsprang på et tildelingskriterium opp mot uttellingen på de øvrige kriteriene. Hvis man i denne konkurransen legger til grunn at Tilbud B hadde lavest pris, vil det avgjørende være om Tilbud As bedre kvalitet mer enn oppveier prisforskjellen.
Gulsvik tar utgangspunkt i konkurranser hvor tilbudet med lavest pris får maksimal uttelling, 10 poeng. Det er en vanlig måte å bedømme priskriteriet på. Selv om jeg mener at oppdragsgivere ofte bør bruke andre metoder,[2] bruker jeg en slik metode i den videre gjennomgangen for å møte hans argumentasjon. Uttellingen på priskriteriet kan for eksempel være slik:[3]
Metoden som er benyttet for poengsetting innebærer at 10% økning av prisen gir 1 poeng lavere uttelling. Siden lavest pris er 10 000 000 kroner, vil 1 poeng tilsvare 1 000 000 kroner. I Gulsviks eksempel var pris og kvalitet vektet 50% hver. Det innebærer at 1 kvalitetspoeng utligner 1 prispoeng. Et tilbud som har 1 000 000 kroner høyere pris, vil dermed få samme poengscore som tilbudet med lavest pris om det har 1 poeng høyere uttelling på kvalitetskriteriet.
I denne konkurransen ville utfallet avhenge av om tilbudenes uttelling på kvalitetskriteriet ble normalisert eller ikke.
Valg av tilbud uten normalisering
Valg av tilbud med normalisering
Dette er en konsekvens av at kvalitetsforskjellene mellom tilbudene utligner en større prisdifferanse etter at tilbudene er normalisert. Uten normalisering utligner kvalitetsforskjellen 2 prispoeng, altså en prisforskjell på 2 000 000 kroner. Med normalisering vil den samme kvalitetsforskjellen utligne en prisforskjell på 2 400 000 kroner. Normaliseringen fører altså til at oppdragsgiveren er villig til å betale mer for (den samme) kvalitetsforskjellen mellom de to tilbudene.
Gulsviks fokus er den prosentvise differansen mellom tilbudenes uttelling. Hvor stor en kvalitetsendring på 50% er, avhenger imidlertid av hvor godt det beste tilbudet er. Er det beste tilbudet godt, vil halvparten av denne kvaliteten være ganske mye. Er det beste tilbudet derimot dårlig, vil halvparten av denne kvaliteten være mye mindre.
Utfordringene ved normalisering blir da også tydeligere jo dårligere det beste tilbudet er. Ved normalisering skal alle de 10 poengene fordeles mellom det beste tilbudet og et tilbud uten merverdi på kvalitetskriteriet. Hvis det beste tilbudet ikke er spesielt godt, vil det da kunne bli mange poeng til fordeling på små kvalitetsforskjeller. Dette kan illustreres ved å endre litt på utfallet i eksemplet ovenfor:
Skal disse poengsummene normaliseres, blir differansen mellom tildelingskriteriene merkbart større:
Holder man fast ved prisforskjellene og bedømmelsen av disse, vil normaliseringen øke oppdragsgivers betalingsvillighet for Tilbud As bedre kvalitet fra 2 830 000 kroner til 4 300 000 kroner. Om det er riktig, avhenger av (markeds)verdien av de kvalitetsforskjellene som faktisk foreligger. Som et utgangspunkt ser dette imidlertid mye ut, siden ingen av tilbudene egentlig ser ut til å tilby noe særlig merverdi.
Normaliseringen kan altså få stor innvirkning på den samlede vurderingen av tildelingskriteriene. Disse konsekvensene ser man ikke når man bedømmer det aktuelle tildelingskriteriet for seg. Uavhengig av om man normaliserer eller ikke, vil det beste tilbudet få flest poeng på kriteriet. Det er først når uttellingen på kriteriet inngår i den samlede vurderingen, at utslagene blir tydelige.
For å finne tilbudet med det beste forholdet mellom pris og kvalitet må oppdragsgiver sikre at det er samsvar mellom uttellingen på tildelingskriteriene. Det kronebeløpet som tilsvarer 1 poengs (vektet) forsprang på priskriteriet, skal svare til hva oppdragsgiver mener det er riktig å betale for den kvaliteten som gir 1 poengs (vektet) forsprang på kvalitetskriteriet. Dette kan og bør oppdragsgiver styre.
Min hovedinnvending mot normalisering av poengscore er at oppdragsgiveren mister kontrollen med forholdet mellom pris- og kvalitetsforskjeller. Før tilbudene er gjennomgått vet ikke oppdragsgiveren hvor god kvalitet som tilbys. Under planleggingen av evalueringen må oppdragsgiveren derfor både ta høyde for at det beste tilbudet er kvalitativt godt, og at det kvalitativt beste tilbudet ikke tilbyr noe særlig merverdi. I det første tilfellet vil normaliseringen føre til en relativt liten økning av poengdifferansen på kvalitetskriteriet, mens økningen vil være stor i det siste tilfellet. Jeg mener det er svært krevende – og ofte umulig – å innrette evalueringen slik at normaliseringen gir riktig utslag i begge disse tilfellene.
Normalisering øker derfor risikoen for at poengberegningsmetodene gir feil utslag, og for at oppdragsgiveren ender opp med et annet tilbud enn det han egentlig mener at er det beste. I økonomisk teori anbefales det da også at man styrer unna såkalte relative evalueringsmetoder hvor det beste tilbudet gis full uttelling og brukes som referanseramme.[4] Et relativt ferskt eksempel er en masteroppgave ved Norges Handelshøyskole, hvor konsekvenser ved evalueringsmetoder ble analysert og simulert. Forfatterne av avhandlingen trakk blant annet følgende konklusjoner, som det er verdt å merke seg:
«– Kanskje aller viktigst, vi er enige i at relativ normalisering fører til vilkårlige endringer i utfall/vinner av en anbudskonkurranse. Det fører også til at kvalitet vektes mer relativt til pris, i tillegg til at vektingen mellom kvalitetsdimensjoner også endres vilkårlig (ref. når tilbyderne tilbyr lik total kvalitet og pris). Vi har vist at denne effekten av normalisering særlig forekommer når tilbyderne tilbyr lav kvalitet, ifølge masterstudentene, som fortsetter:
– Man bør unngå relative scoringregler da disse verken reflekterer kjøperens preferanser eller bidrar til forutsigbarhet for tilbyder. Forutsigbarhet er jo et viktig vilkår i loven om offentlige anskaffelser, og vi ser derfor ikke hvordan bruken av relative regler slikt sett kan forsvares. Gitt at man bruker en relativ regel, vil en relativ normalisering gjøre vondt verre. Vi har vist at når man sammenligner en absolutt regel med en relativ regel, vil antall tilfeller hvor utfallet endrer seg mellom de to reglene, dobles hvis man utfører normalisering i tillegg til bruken av en relativ regel. Disse endringene har vi sett er vilkårlige og dermed uforutsigbare. Det er derfor god grunn til å stille spørsmål rundt lovligheten rundt dagens praksis.»[5]
Absolutte og relative metoder kan kombineres uten å endre tildelingskriterienes vekt
I sin artikkel mener Gulsvik at det er «mest korrekt» å bruke relative poengberegningsmetoder på alle tildelingskriteriene hvis man bruker en slik metode på priskriteriet. Han gir ingen annen begrunnelse for dette enn at man da unngår å forskyve tildelingskriterienes relative vekt.
Valg av metoder for utmåling av poeng kan påvirke tildelingskriterienes vekt. Det sentrale er imidlertid ikke hvor mange poeng som fordeles ved bedømmelsen av et tildelingskriterium, men hvordan metodene beregner poengutslag for forskjellene mellom tilbudene. Dette er en konkret vurdering, hvor normalisering ikke bidrar til et mer treffsikkert resultat.
Hvis det er lettere å få poengforsprang på ett tildelingskriterium enn de andre, vil den vektede poengscoren for fortrinn på dette kriteriet bli større enn for tilsvarende fortrinn på de andre kriteriene. Da vil fortrinn på dette kriteriet gi større utslag i den samlede vurderingen enn det vekten skulle tilsi. Dette skal oppdragsgiver unngå. Klagenemnda har i en del saker uttalt at oppdragsgiver skal premiere tilbudene på en måte som sikrer at poengscoren gjenspeiler relevante forskjeller mellom tilbudene for å ivareta tildelingskriterienes vekt.
Risikoen for at tildelingskriterienes vekt endres er imidlertid ikke større hvis oppdragsgiveren bedømmer priskriteriet ved en relativ metode og benytter absolutte metoder på andre tildelingskriterier. Klagenemnda har da også i flere saker lagt til grunn at ulike metoder kan kombineres, se for eksempel sak 2019/203:
«(48) Det gjelder ikke noe generelt krav om at oppdragsgiver skal benytte samme poengberegningsmetode på tildelingskriteriene. Det avgjørende er derimot om metodene som benyttes, gir egnede utslag i den samlede vurdereringen, se for eksempel Borgarting lagmannsretts avgjørelse i sak LB-2010-68992 og klagenemndas avgjørelse i sak 2016/179 med videre henvisning til sakene 2008/204, sak 2013/31 og 2015/60. Metodene vil gi egnede utslag hvis et fortrinn på ett tildelingskriterium kan utlignes ved et tilsvarende fortrinn på et annet tildelingskriterium.»
Konkurranser avgjøres av hvordan tilbudenes styrker og svakheter holdes opp mot hverandre. Et sentralt formål ved poengberegningsmetoder er å sikre at tilsvarende kvalitetsforskjeller utligner hverandre, og at et kvalitetsfortrinn utligner en passende prisforskjell. Da vil metodene bidra til å legge til rette for at pris/kostnad og kvalitet holdes opp mot hverandre på den måten som er bestemt av tildelingskriterienes vekt.
Det er ingen holdepunkter for at dette er enklere om oppdragsgiveren kombinerer en relativ poengberegningsmetode på priskriteriet med normalisering. Tvert imot foreligger det flere økonomiske utredninger som støtter opp om og underbygger at oppdragsgivere ikke bør normalisere tilbudenes poengscore. Som jeg har forsøkt å vise med et enkelt eksempel ovenfor, er det vanskelig – og ofte umulig – å utarbeide synkroniserte metoder når man normaliserer. I eksemplet tok jeg utgangspunkt i at priskriteriet ble bedømt ved en relativ metode, for å vise at disse utfordringene også gjør seg gjeldende i disse tilfellene.
Oppdragsgivere bør styre unna normalisering
Når oppdragsgivere velger evalueringsmetoder, bør fokuset være at metodene skal være godt egnet til å finne det beste tilbudet. Et helt sentralt tema er hvordan et poengforsprang på ett tildelingskriterium holdes opp mot poengforsprang på andre kriterier.
Poengberegningsmetoder med normalisering vil gi ulike poengutslag avhengig av hvor gode de beste tilbudene er. Da er det vanskelig – og ofte umulig – å innrette metodene slik at tildelingskriteriene holdes opp mot hverandre i samsvar med oppdragsgiverens preferanser.
Det finnes flere enkle og treffsikre evalueringsmetoder, uten normalisering. Min anbefaling er at oppdragsgiverne bruker en av disse,[6] så slipper man å forholde seg til den kompleksiteten, usikkerheten og risikoen for feil som knytter seg til normalisering.
Norske oppdragsgivere velger ofte å bruke relative metoder for å utmåle poeng på priskriteriet. Disse metodene har svakheter som oppdragsgivere bør ta i betraktning, og i økonomisk teori er det anbefalt at man isteden bruker andre evalueringsmetoder. Bedømmes priskriteriet ved en relativ poengmetode, må metodene for å utmåle poeng på de andre kriteriene sikre at tilbudenes poengscore gjenspeiler relevante forskjeller. Det er ingen holdepunkter for at dette er lettere hvis man normaliserer. Tvert imot er den klare anbefalingen at oppdragsgiver også lar være å normalisere i disse tilfellene.
[1] Gulsvik har presentert eksemplet i tekst, og tabellen og beregningen av faktor er min.
[2] Jeg har skrevet mer om dette i Tildeling av offentlige kontrakter del V, særlig kapitlene 26.3 og 29, og i artikkelen Utfordringer ved Difis nye verktøy for tilbudsevaluering – Anbud365. Bjørn Erik Bjørnstad har skrevet om en god, alternativ evalueringsmetode for Anbud365 En bedre evalueringsmodell? – Anbud365.
[3] Priskriteriet er bedømt ved metoden Poengscore = (1 – (tilbudt pris – lavest pris)/lavest pris) x 10
[4] Se for eksempel rapportene Metoder vid utvärdering av pris och kvalitet i offentlig upphandling og En logisk fälla – relativ poängsättning av pris vid anbudsutvärdering i offentlig upphandling og
[5] Se Masteroppgave (III): Tydeliggjøring av hva ulike evalueringsmetoder innebærer – Anbud365
[6] I økonomisk teori anbefales det at tilbudene sammenlignes ved å prise kvalitetsforskjeller. Benyttes poengberegningsmetoder, bør kvalitetskriteriene bedømmes ved absolutte metoder, hvor det beste tilbudet ikke nødvendigvis får full uttelling.
Når kvalitetspoeng gis v absolutt poengmodell, vil da leverandør få poeng ifht til at det foreligger en idealkvalitet. Er det ikke en åpenbar vilkårlig vurdering? Ingen kjenner idealkvaliteten, og dette åpner for spekulasjon hos oppdragsgiver. Vilkårlighet og spekulasjon. Oppdragsgiver kan velge å gi 6 poeng som maksimalt isteden for 10, og har da også åpenbart forrykket tildelingskriteriets vekt. Kan ikke skjønne at dette kan tillates.
Er det slik å forstå at forfatteren mener det bør benyttes absolutt metode for å ha kontroll over hvilken kvalitet oppdragsgiver mener d er riktig å betale for? Oppdragsgiver har altså full kontroll over hvor mange kvalitetspoeng som gis v absolutt metode nettopp å ha kontroll på at d er sammenheng mellom pris og kvalitet. Dette høres jo mer ut som manipulasjon og vilkårlighet.
Det vil nesten alltid være en rom for skjønn – og en risiko for manipulasjon – uavhengig av hvilken metode man bruker. Det henger sammen med at det svært sjelden er en objektivt riktig måte å sammenligne pris og kvalitet på. Jeg er imidlertid ikke enig med deg i at risikoen for manipulasjon og vilkårlighet er mindre om man normaliserer. Den risikoen du peker på, knytter seg til poengdifferansene som beregnes for kvalitetsforskjeller mellom tilbudene, og de differansene skal beregnes ved normalisering også. Forskjellen ved normaliseringen er at man øker den poengdifferansen som allerede er beregnet. Det er heller ikke slik at oppdragsgiver står fritt til å beregne (vilkårlige) poengutslag. Evalueringen kan overprøves på vanlig måte, ved å holde poengforskjellene på tildelingskriteriene opp mot hverandre. Oppdragsgivers mål med evalueringen skal være at “tilsvarende forskjeller” på de ulike tildelingskriteriene kan utligne hverandre. I en sammenligning av pris og kvalitet vil man for eksempel se hvor stor prisforskjell som differansen på kvalitetskriteriene utligner og se om det er rimelig samsvar mellom dette og en normal betalingsvillighet/markedspris. Det er en slik vurdering regelverket legger opp til når man skal finne tilbudet med det beste forholdet mellom pris og kvalitet.
Hvis man har sagt at man gir beste tilbud 10 poeng, hvorfor gir man det da 8,3 poeng for så å normalisere etterpå? Beste tilbud (I det valgte kriterie) skal ha 10 poeng uavhengig av tenkt ideal kvalitet, og resten vurderes direkte mot 10 poeng (Beste tilbud).
Hvorfor må man egentlig benytte underkriterier, egentlig? Kan man ikke heller bare dele opp tildelingskriteriet i flere, med egen vekt? Da er man jo kvitt hele problemet, eller?