Hvad har usexede sportsgrene og upopulære ministre til fælles?

Da agurkesæsonen i juli peakede i et slags omvendt proportionalt kapløb med det elendige sommervejr, kunne man hos Metroxpress læse Ny undersøgelse: Denne sport synes danske unge er MINDST sexet.

usexet sport 1

Kan ikke modstå maddingen. Jeg begynder at bladre den illustrerede liste med sportsgrene igennem. 0%. 0%. Hmm, gad vide hvad det betyder? Efter et par klik sker det. Et voldsomt ubehag rammer mig. Bladrer hurtigt frem, hurtigt tilbage, hurtigt frem igen. Har jeg misforstået listen? Nej, en hurtig skimning af artiklen bekræfter mine bange anelser. Ubehaget er nu blevet til kvalme. Jeg ser dem i glimt for mig. Waldner. Maze. Tugwell. Pedersen. Min ungdoms idoler. Nu reduceret til ikoner for den mindst sexede sportsgren. I Danmark. Ifølge unge. Bordtennis.

Værre: Det er ifølge den citerede køns- og til lejligheden showforsker, Karen Sjørup, slet ikke underligt, for bordtennis er en sport, der ikke er “meget show i”. Aaav.

Noget må være galt med den undersøgelse. Den MX-journalist har da vist været ramt af fikseringsfejl. Og det var da også en helt utrolig negativ vinkel. Jeg beslutter mig for i videnskabens tjeneste at kaste et KRITISK blik på metoden bag. Er undersøgelsen overhovedet repræsentativ? Tages der højde for den statistiske usikkerhed? Og hvad med målingsvaliditeten? Måler man faktisk det, man tror? Heldigvis har analysefirmaet bag, YouGov, været flinke og varedeklarere, og Metroxpress har været flinke at bringe deklarationen. Den ser sådan her ud:

usexet sport 2

Nedslået må jeg konstatere, at der ikke umiddelbart er noget alvorligt at udsætte på repræsentativiteten. Svarpersonerne kommer ganske vist næsten med sikkerhed fra YouGovs webpanel, og de rekrutterer ikke via simpel tilfældig udvælgelse, så måske kan der være systematiske forskelle, når man sammenholder de 900 svarpersoner med “alle danske unge”? Ja, det kan der godt. Men det er næppe noget, der rykker fundamentalt ved de overordnede resultater.

Nå, hvad så med den statistiske usikkerhed? Den er da vist blevet glemt i skyndingen? HVIS man tager højde for usikkerheden, kan man med rette så tvivl om, hvem der ligger sidst, næstsidst og tredjesidst osv. på listen. De nederste sportsgrene på listen har nemlig alle det til fælles, at de har fået lige omkring nul stemmer. Okay, så rubrikken er altså lidt skråsikkert konkluderende. Der kan sagtens være tale om en fejludråbt taber. Måske er den virkelige bundskraber karate eller ishockey? Eller en af de sportsgrene, som slet ikke optræder på Metroxpress’ ikke-udtømmende liste over sportsgrene? Mit humør stiger en anelse. Min mission – at genoprette Maze og Co.’s anseelse – er tilbage på sporet.

Men der er større og mere interessante problemer. For hvad er det egentlig, de 900 unge har svaret på? Spørgsmålet lyder: “Hvilken sportsgren synes du, er mest sexet?” Men kan man derudfra konkludere, hvad der er mindst sexet? Nej. Hvis man vil vide, hvad der er mindst sexet, så skal man … yes, rigtigt … spørge om det. Og her kommer de upopulære ministre ind i billedet. For hvis man vil undersøge, hvilke ministre der er mindst populære, så skal man også spørge om det. Og IKKE spørge, hvem der er mest populær. Det har Erik Gahner Larsen tidligere overbevisende demonstreret. Der er med andre ord tale om et problem, vi møder i andre sammenhænge i nyhedsstrømmen.

Undersøgelsen kan altså ikke bruges til at sige noget om, hvilken sportsgren der er mindst sexet. Jeg kan mærke, at denne her analyse er god. Det føles helt rigtigt. Det slår mig, at jeg burde sende et link til DBTU’s presseansvarlige. Og Maze. Han er sikkert også nedtrykt.

Men fortæller undersøgelsen så faktisk, hvilken sportsgren der er mest sexet? Njah, det kan man faktisk godt sætte spørgsmålstegn ved. I undersøgelsen peger hele 15 procent på fodbold som den mest sexede sportsgren. Til det kan man indvende to ting:

1) Er det i virkeligheden en kombination af eksponering, tilslutning og sexethed, vi måler? På samme måde, som man vanskeligt kan vurdere en ny-udnævnt (ikke-eksponeret) minister, kan man vel vanskeligt pege på de mindst eksponerede/dyrkede sportsgrene?

2) Hvad nu, hvis 15 procent samtidig peger på fodbold som direkte usexet? Altså, forudsat at de 900 unge fik chancen for at tage stilling til usexethed. Lad os rent hypotetisk forestille os, at fodbold deler vandene. Måske svarer de 15 procent, som dyrker fodbold, at det er mest sexet. Mens deres respektive partnere svarer, at det er dybt usexet. Det ville være et lidt ærgerligt resultat for de pågældende. Men tænkeligt. Ministerparallellen er til at få øje på. Støjberg.

Det konstruktive
Alternativt og bedre (!) kan man bede svarpersonerne bedømme hver enkelt sportsgren på en skala fra 1-5. Det gør YouGov da også i deres ministermålinger. På den måde kan man både se, hvem der får flest ekstreme værdier (1 og 5) og rangliste sportsgrenene efter deres gennemsnitsscorer eller efter andel positive minus andel negative bedømmelser. Det ville – måske – give helt andre resultater. Kan du også mærke endorfinerne nu, Maze? Og lad os så få det show.

Hvis bare det er signifikant …

Danske journalister forholder sig efterhånden hyppigt og kvalificeret til statistisk signifikans og usikkerhed – i meningsmålingsjournalistik: ”… en tilbagegang der lige akkurat er større end den statistiske usikkerhed og derfor er signifikant”. Og “ingen af de to blokke fører dog signifikant … Dødt løb, hvis man tager den statistiske usikkerhed i betragtning“.

Glædeligt – men er det sandt, hvis det er signifikant?

Ikke nødvendigvis, og det ved danske journalister da også godt: “Målingen står indtil videre alene, og derfor skal man være varsom med konklusionerne, men hvis billedet bekræftes af andre meningsmålinger …“.

Klog betragtning. Den kan journalister roligt overføre på forskningsresultater generelt.

Røde kort til sorte spillere
Data kan analyseres statistisk på mange forskellige måder! Forskere skal med andre ord træffe nogle metodevalg, som er styrende for deres statistiske analyser og i sidste ende for de resultater, de offentliggør. Disse valg er i høj grad subjektive, hvor velbegrundede og velargumenterede de end måtte fremstå – og leder til forskellige resultater. Ralph Silberzahn (IESE Business School, Barcelona) og Eric Luis Uhlmann (Insead, Singapore) besluttede at lave et eksperiment, hvor de ville teste, hvordan forskere i praksis træffer forskellige metodevalg, og hvordan det påvirker deres resultater.

forskning 2

29 forskerteams fra hele verden blev stillet samme forskningsspørgsmål: Giver fodbolddommere flere røde kort til sorte spillere end til hvide? De 29 teams, som alle bestod af fagstatistikere, fik det samme datasæt til rådighed og frie hænder til at foretage analysen. Data bestod af samtlige spillere i den bedste række i Spanien, England, Tyskland og Frankrig i sæsonen 2012-2013 og disse spilleres interaktioner med dommere i hele deres professionelle karriere, herunder hvilke røde kort de måtte have fået af hvilke dommere. Alle spillere blev desuden på forhånd kodet efter hudfarve, plads på holdet og en række andre ting.

Forskerens subjektive valg
Denne analyse er vel ret ligetil? Ikke i praksis – viste det sig. 20 forskerteams konkluderede, at hudfarve havde en statistisk signifikant effekt på antallet af rødt kort, altså at sorte spillere får flest røde kort. 9 teams konkluderede, at der ikke var en signifikant sammenhæng. Hvordan kunne det falde så forskelligt ud? Det skyldes, at de 29 teams foretog en række forskellige metodevalg, som ikke er entydigt rigtige eller forkerte – særligt på to områder: 1) De anvendte modeller, som bygger på forskellige statistiske fordelinger; 2) De valgte at kontrollere for forskellige faktorer, fx om den enkelte spiller er forsvarsspiller eller angrebsspiller.

forskning 1

Nu er det sjældent, at journalister præsenteres for 29 simultane analyser baseret på samme forskningsspørgsmål, men mindre kan også gøre det. Eksperimentet viser med al ønskelig tydelighed, at man skal være varsom med at konkludere på en enkeltstående statistisk analyse – selv om den måtte fortælle, at en sammenhæng er signifikant. Eller ikke-signifikant. Mere generelt – og almindeligt – er god, valid forskning blandt andet kendetegnet ved, at andre forskere kan gentage forsøget eller analysen og nå frem til nogenlunde samme resultat, men som bl.a. Jens Ramskov fint har beskrevet i en artikel om samme emne, så viser gentagelseseksperimenter, at overraskende mange forskningsresultater ikke lader sig reproducere.

En svær, men vigtig journalistisk opgave
Det er altså en forbandet god ide altid at spørge, om resultatet står alene eller kan bekræftes af andre lignende forskningsresultater, når man præsenteres for ny forskning.
Det kræver fagekspertise hos den enkelte journalist. Mange danske journalister er eksperter i meningsmålinger og kan på et øjeblik vurdere, om en ny måling ser ”underlig” ud; om der er tale om et ekstremt resultat. Vanskeligere er opgaven, når det gælder alle mulige andre undersøgelser, som (måske?) skal formidles. Men man bør tjekke, om resultaterne understøttes af anden anerkendt forskning. Og forholde sig til metodevalgene. En nylig undersøgelse af forskningsbaseret dækning af udsatte børn og unge, som jeg selv var med til at lave, konkluderer, at forskere på dette fagområde generelt efterlyser større kritisk sans og forståelse af forskningsmetoder og -paradigmer hos journalisterne. Det er vanskeligt, men ikke desto mindre en vigtig journalistisk opgave. Det er ikke nødvendigvis sandt, blot fordi resultatet er ”statistisk signifikant”.

Lykke uden Facebook …?

Institut for Lykkeforskning har sat 1.200 danskere på Facebookafvænning, kunne man forleden læse i Politiken og en række andre danske medier. Og det har de haft godt af. Afvænningen forstås.

Billede3

Måske skulle man prøve medicinen? – tænkte jeg ved mig selv. Men først ville jeg godt vide lidt mere om undersøgelsen bag, så jeg dykkede ned i rapporten.

Der er tale om et eksperiment, hvor cirka 600 danskere i en uge skulle undvære Facebook (den såkaldte treatmentgruppe), mens cirka 500 danskere blot skulle fortsætte deres sædvanlige forbrug (kontrolgruppen).  Ved hjælp af spørgeskemaer har man henholdsvis før og efter ”eksperimentugen” stillet såvel kontrol- som treatmentgruppen en række enslydende spørgsmål relateret til lykke og livstilfredshed. På hvert spørgsmål har man kunnet angive tilfredshed, aktivitet etc. på skalaer fra enten 1-5 eller 1-10.

Gennemsnitsscorerne på spørgsmålet om livstilfredshed henholdsvis før og efter så således ud:

Billede4

Efter en uge uden Facebook rapporterer treatmentgruppen ”a significantly higher level of life satisfaction”.

Dejligt, tænkte jeg. En signifikant højere livstilfredshed. Men samtidig nagede tvivlen i mig. For manglede jeg ikke nogle informationer? Hvordan kan man som journalist – eller helt almindelig læser – vurdere undersøgelsens troværdighed?

Man kan fx starte her:

1. Signifikant højere i forhold til hvad? Er det i forhold til kontrolgruppen? Eller i forhold til treatmentgruppens egen livstilfredshed før eksperimentets start?

2. Hvad betyder ”signifikant højere niveau” egentlig? Er det på et 5 procents signifikansniveau? Eller et 1 procents signifikansniveau? Eller noget tredje?

3. Hvorfor fortæller rapporten kun, at lige netop dette resultat er signifikant? Skyldes det, at Facebook-effekterne målt på alle de andre spørgsmål, som stilles, ikke er signifikante?

4. Skal man se på (og rapportere) før-efter tallene inden for treatmentgruppen, eller bør man sammenligne kontrolgruppens og treatmentgruppens efter-resultater, hvis man vil udtale sig om en mulig effekt? Altså, hvilke tal bør journalisten (efter dialog med instituttet) sammenligne og vinkle ud fra?

5. Er der ikke en eksperimenteffekt, som man skal forholde sig til? Altså, når nu kontrolgruppen scorer højere på samtlige tilfredshedsspørgsmål efter en uge, hvor de absolut ingen ”medicin” har fået? Bliver de lykkeligere af at være med i eksperimentet? Skulle vi så ikke ordinere nogle flere eksperimenter til alle mellemfornøjede danskere?

6. Kan jeg overføre resultaterne til mit eget liv? Der er jo tale om gennemsnitstal, altså gennemsnitlige effekter. Men vi er vel ret forskellige som Facebook-brugere? Nogle er meget aktive, andre er mere passive. Nogle er tilsyneladende altid på (kender du typen?), mens andre har et mere moderat forbrug. Er der risiko for en niveaufejlslutning her? Og kunne man ikke nedbryde treatmentgruppen i nogle ”typer” Facebook-brugere, som man bedre selv kan spejle sig i?

Alle disse spørgsmål tårnede sig op. Nyhedsartiklerne om eksperimentet gav ikke svar på spørgsmålene. Rapporten fra Institut for Lykkeforskning gjorde heller ikke. Og det var jo egentlig alt sammen relevante opklarende journalistiske spørgsmål.

Jeg kontaktede derfor folkene bag undersøgelsen, og de var heldigvis flinke til at svare. For der findes selvfølgelig – selvfølgelig! – svar på alle disse spørgsmål:

Stigningen i livskvalitet, som medierne rapporterede, var stigningen inden for treatmentgruppen – altså gennemsnitsscoren henholdsvis før (7,56) og efter (8,12). Og den er statistisk signifikant på ethvert rimeligt signifikansniveau (p<0,01). Som enhver journalistdimittend fra Danmarks Medie- og Journalisthøjskole er klar over, kan jeg kun lave denne beregning, hvis jeg kender standardafvigelserne (da der er tale om gennemsnitsscorer). Disse fremsendte Institut for Lykkeforskning beredvilligt, og så var det enkelt at kontrolberegne i et regneark.

Men burde man ikke i stedet have rapporteret forskellen mellem kontrolgruppen og treatmentgruppen? Kunne det ikke imødegå indvendingen i forhold til en mulig eksperimenteffekt? Jo. Er der gode journalistiske grunde til IKKE at gøre dette, og i stedet vinkle på den størst mulige observerede effekt i undersøgelsen, altså stigningen fra 7,56 til 8,12? Nej.

Effekterne på det sociale liv målt som sociale aktiviteter og tilfredsheden med samme (altså nogle af undersøgelsens øvrige spørgsmål) – var de så faktisk statistisk signifikante? Nej. Ikke på et niveau, der gør det rimeligt at rapportere. Det er velsagtens (?) derfor, rapporten forbigår det i tavshed. Man kunne godt interessere sig journalistisk for dette, altså for de dele af undersøgelsen, som ikke fremhæves – for de ting, der ikke fremgår eksplicit af rapporten.

Nørde-alert (følgende kan springes over): Herunder ses signifikanstesten af effekten observeret på spørgsmålet om “Social Activity”, altså testen af om forskellen på de to gennemsnitsscorer på henholdsvis 3,85 og 3,81 er signifikant. Med så høj en p-værdi (p=0,255) er forskellen mellem kontrol- og treatmentgruppe, altså effekten på “Social Activity” af at undvære Facebook, ikke statistisk signifikant (for de særligt interesserede: Klik på billedet for at se det i fuld størrelse):

Billede7

Nørde-alert ophævet.

Hvad så med den tilsyneladende eksperimenteffekt, altså den kendsgerning, at kontrolgruppen på alle målte parametre fik det ”bedre” af at være med i eksperimentet? En mulig plausibel forklaring er, at de har ændret adfærd i eksperimentugen, altså at deltagerne i kontrolgruppen af egen drift har valgt ikke at være så meget på Facebook, som de ellers er. Sådan lyder forklaringen fra folkene bag undersøgelsen. Det havde været relevant at oplyse i rapporten og relevant at spørge ind til journalistisk.

Hvad så med mig? Eksperimentet tyder jo på, at det faktisk hjælper på livstilfredshed (og muligvis en række andre ting) at drosle ned eller helt droppe Facebook. Men man kan IKKE slutte til individniveau fra en undersøgelse som denne. Effekten på mig (eller dig) kan være helt anderledes. Måske får jeg det faktisk bedre af at være på Facebook. Faktisk har folkene bag undersøgelsen nedbrudt resultaterne på en række interessante undergrupper, men disse analyser er endnu ikke offentliggjort.

Undersøgelsen er interessant. Og der kommer sikkert endnu mere interessante opfølgende undersøgelser. Gerne med lidt større detaljeringsgrad og metodeformidling i både afrapportering og den journalistiske formidling.

Danskernes holdning til retsforbeholdet – et svært spørgsmål?

”Måling: Dødt løb mellem ja og nej inden folkeafstemning”. ”Dyk til ja-siden i kamp om retsforbehold”. ”Måling: Flertal vil stemme ja ved folkeafstemning”.

Det svirrer i luften. Medierne kappes om at tage temperaturen på den kommende folkeafstemning. Men hvordan måler man danskernes holdning? Hvordan stiller man bedst dette – skulle man mene – ret enkle spørgsmål?

dødt løb billede

Det er der langt fra enighed om. Grundlæggende har man to helt væsensforskellige muligheder:

1) Man kan forsøge at bibringe svarpersoner en fælles (bedre) forståelse af problemstillingen og mulige konsekvenser af et ja henholdsvis nej, før man beder dem tage stilling. Det kan man gøre med en vejledende, introducerende tekst. Udfordringen er, at det er enormt svært at gøre balanceret – og at det hurtigt bliver langstrakt og langhåret.

2) Man kan stille spørgsmålet nøgternt og ”nøgent”. Dermed undgår man at påvirke svarpersonernes holdning med selve spørgsmålet. Til gengæld må man så forvente, at svarpersonerne forestiller sig ret forskellige konsekvenser og for manges vedkommende svarer ud fra en ret begrænset viden.

DR har i alle forårets målinger anvendt den første strategi med denne spørgsmålsformulering:

”Et flertal i Folketinget vil have en folkeafstemning om det danske EU-forbehold på retsområdet for at omdanne forbeholdet til en såkaldt tilvalgsordning. En tilvalgsordning vil betyde, at Danmark selv kan vælge, hvilke europæiske samarbejder man vil deltage i, og hvilke man ønsker at stå uden for på det retslige område. Det vil eksempelvis betyde, at Danmark kan vælge at deltage i det europæiske politisamarbejde, Europol, men at stå uden for de fælles beslutninger omkring eksempelvis udlændingepolitikken. Støtter du en sådan ændring af retsforbeholdet?”

Formuleringen er – med rette – blevet beskyldt for at være ledende og favorisere et ”ja”. Man nævner, at et flertal i Folketinget ønsker ændringen; Man beskriver fordelene og fleksibiliteten ved frit-valg uden at nævne suverænitetsafgivelse, flytning af beslutningsmagt og uden at nævne muligheden for parallelaftaler ved den eksisterende ordning; Og man spørger, om du ”støtter denne ændring” i stedet for at spørge, om ”du er for eller imod ændringen”.

DR har nu ændret strategi og lavet en ny spørgsmålsformulering:

”Den 3. december skal der være folkeafstemning om at ændre det danske EU-retsforbehold til en tilvalgsordning. Hvad vil du stemme ved folkeafstemningen?”

Den nye formulering minder – overordnet set – om Børsens (som er fra januar måned): ”Hvad ville du stemme, hvis der var folkeafstemning om dansk deltagelse i den fælles rets- og udlændingepolitik i EU i morgen?”; om Altingets: ”Vælgerne skal i år til folkeafstemning om det danske retsforbehold over for EU. Hvad vil du stemme, hvis afstemningen var i dag?”; Og om TV2’s: ”Hvilket af følgende udsagn er du mest enig i? 1) Jeg synes, at det eksisterende retsforbehold skal omdannes til en tilvalgsordning. 2) Jeg synes, at retsforbeholdet skal bevares, som det er i dag”. Fælles for alle disse formuleringer er, at de IKKE beskriver fordele, ulemper og konsekvenser, og at de IKKE refererer til Folketingets eller partiernes holdninger.

Det betyder dog ikke, at spørgsmålene er ens eller kan forventes at give ”samme svar”. Langtfra. Djævelen ligger i detaljen. Børsens formulering nævner udlændingepolitikken, og netop spørgsmålet om udlændingepolitikken må forventes at trigge mange. Politiken har for nylig gennemført et interessant eksperiment for at undersøge netop denne problemstilling. De stillede spørgsmålet på to forskellige måder til repræsentative udsnit af den voksne danske befolkning. Den første formulering lød (min fremhævning):

”Den 3. december er der folkeafstemning. Her skal danskerne stemme om, hvorvidt Danmark skal overgive magt til EU på flere områder, der i dag er omfattet af det danske retsforbehold, herunder bl.a. dele af udlændingepolitikken. Vil du stemme ja eller nej?” (36% ja; 41% nej).

Den anden formulering lød (min fremhævning):

”Den 3. december er der folkeafstemning. Her skal danskerne stemme om, hvorvidt Danmark skal bevare sit retsforbehold i EU med en tilvalgsordning på udvalgte områder, herunder bl.a. deltagelse i kampen mod grænseoverskridende kriminalitet. Vil du stemme ja eller nej?” (42% ja; 26% nej).

Andelene, som svarer ja/nej i Politikens eksperiment, bekræfter, hvad man kunne forvente, nemlig at framingen af spørgsmålet betyder alverden for de svar, man får.

TV2’s formulering adskiller sig fra de øvrige ved at bestå af udsagn, som man kan erklære sig enig i. Dermed bliver det ikke længere et spørgsmål om at sige ja eller nej. Det har den fordel, at man neutraliserer eventuelle ”enighedseffekter”, altså mulige effekter af at det kræver mindre stillingtagen og fremstår mere positivt at erklære sig enig og sige ja, end det modsatte.

Hvad kan vi så lære? Essensen er, at man skal være meget forsigtig med at flette fordele, ulemper og konsekvenser ind i denne type holdningsspørgsmål. Hold det kort og nøgternt, så du undgår at påvirke svarpersonen. Det giver også det mest realistiske og repræsentative øjebliksbillede af folkestemningen.

Nogle vil sikkert mene, at alle disse målinger er ligegyldige og uinteressante, men forskning viser, at vi ikke er upåvirkede af dem. Målingerne betyder noget – om vi kan lide det eller ej. Det samme gør formuleringer. Og i sidste ende er der én formulering, vi ikke kan undslå os: Den på stemmesedlen ..

Forstå din meningsmåling – helt

Folketingsvalget nærmer sig, og det samme gør en lavine af meningsmålinger. DRs Detektor har i den anledning produceret en videoguide, som præsenteres under overskriften Undgå at blive narret af en meningsmåling.

Picture1 detektor

Videoen (og den forklarende tekst på DR’s site) giver en på mange måder udmærket pædagogisk introduktion til fænomenet, som så mange af os elsker at hade. Men den fortæller ikke hele historien, og dermed risikerer man faktisk – paradoksalt – at blive narret af en meningsmåling. Hvis man altså tager DR’s forklaringer for pålydende.

Det er jo en skam – og helt sikkert ikke meningen. Men hvad er problemet da? Jo, DR skriver: “Spørger man cirka 1.000 personer, når man et resultat med en usikkerhed på blot to til tre procent”. Sådan! Det er jo dejligt at vide som læser. Det er bare ikke hele historien.

Det, vi ikke får at vide, er, at usikkerheden på blot 2-3 procentpoint (ja, det er faktisk procentpoint. Det skulle der have stået på DR’s site) er under forudsætning af, at man anvender et 95 procents konfidensniveau. Er det nu så vigtigt med konfidensniveauet? Ja, det er det faktisk. For det betyder, at der er en kalkuleret risiko for, at man tager fejl. At tage fejl betyder her, at meningsmålingen viser MERE end 2-3 procentpoint forkert. Og denne risiko fortæller DR ikke noget om.

Faktisk tager man fejl 1 ud af 20 gange, når man anvender et 95 procents konfidensniveau. Altså i 1 ud af 20 målinger. Den risiko lever de fleste af os nok fint med i det daglige. Også undertegnede. Men vil du forstå din meningsmåling, skal du vide, at der altid er en (lille) risiko for, at meningsmålingen viser mere end de ellers anførte maksimale 2-3 procentpoint forkert.

Den gode nyhed er, at du faktisk kan gøre noget ved det. Du kan nemlig lade være med at stole blindt på enkeltmålinger og i stedet sætte din lid til gennemsnit af mange aktuelle målinger. Tjek fx Berlingske Barometer  eller Ritzau Indeks. Her er risikoen for at tage fejl meget mindre end ved enkeltmålinger.

Fup, fejl og fordrejninger

Vil du gerne være din egen detektor? Eller bare blive bedre til at gennemskue tal, fakta og statistik i medierne? Så kan jeg kraftigt anbefale, at du investerer i netop udkomne “Fup, fejl og fordrejninger. Bliv din egen detektor”.

Indrømmet, jeg er ikke en helt uhildet betragter. Jeg er begejstret over, at vi i Danmark har et program som Detektor, og jeg har indimellem selv medvirket i udsendelserne.

9788702164763

Med det sagt, så er det en særdeles oplysende, velskrevet, mundret og eksempelrig bog, Thomas Buch-Andersen og Mads Bøgh Johansen er barslet med. Bogen er inddelt i 11 tematiske kapitler, og det er faktisk bogens helt åbenlyse styrke. Temaerne giver dig hurtigt et overblik over, hvilke typiske fejl og fordrejninger man som mediebruger (eller journalist, politiker, kommunikatør etc.) skal være særligt opmærksom på – tested by reality. Hvis jeg skal fremhæve enkelte temaer, så må det blive “om cherry-picking” – altså når man ved selektiv brug af tal tegner et forkert billede af helheden, “om årsagssammenhænge”, som ofte er nogle helt andre, “om sammenligninger”, som kræver sammenlignelige størrelser, og “om inflation”, som ofte “glemmes”, når priserne igen-igen er rekordhøje. Der er også et udmærket kapitel om meningsmålinger og spørgeskemabaserede undersøgelser, men det bliver dog mest til en indledende introduktion til de typiske validitetsproblemer.

Alle kapitler er krydret med Detektors egne eksempler, og de er både lærerige og underholdende. Bogen indeholder desuden en række korte bidrag fra politikere, erhvervs- og mediefolk, som selv har været en tur i Detektormøllen. Der er – som det nok fremgår – ikke tale om en lærebog. Du lærer ikke, hvordan du finder supplerende tal hos Danmarks Statistik, hvordan du tester for spuriøse sammenhænge, hvordan du korrigerer fra løbende til faste priser, eller hvordan du beregner statistisk usikkerhed ved meningsmålinger. Hvis du skal “kunne selv”, kræver det naturligvis mere end at læse denne bog.

Men med bogen under huden har du alle muligheder for at blive en mere kritisk og vågen medieforbruger. Så læs den. Også – og ikke mindst! – hvis du er journaliststuderende.

 

Lad os nu se undersøgelsen!

Godt udgangspunkt for inklusion i folkeskolen. Variationer over dette tema har man i dag kunnet læse i næsten alle større danske digitale medier.

Picture1

Baggrunden er en netop offentliggjort undersøgelse fra SFI med den uhelbredelige titel: Statusrapport 1: Et forskningsprojekt om inklusion af elever med særlige behov i den almindelige undervisning.

Og det er jo faktisk et ret interessant og vedkommende emne – ikke mindst hvis man, som jeg, har børn i skolealderen. Derfor tænkte jeg også straks, at det kunne være dejligt at kigge nærmere på selve undersøgelsen. Og det er da heller ikke nogen umulig opgave. Den kan Googles frem. Og man kan finde den på SFI’s hjemmeside.

Men hvordan kan det være, at ingen toneangivende danske medier føler sig foranlediget til at dele rapporten med os? En række medier (Information, Politiken, EkstraBladet, Kristeligt Dagblad etc.) bringer samme Ritzau-telegram. Intet link til rapporten. Andre medier bringer et lignende telegram fra Berlingske Nyhedsbureau. Heller intet link til rapporten. Jyllands-Posten laver deres egen historie. Og linker ikke til rapporten. DR.dk laver deres egen nyhedshistorie. Og linker heller ikke til rapporten. Det er faktisk kun folkeskolen.dk, som linker til rapporten.

Det er jo en lille ting, kan man indvende. Og er der overhovedet nogen derude, som gider og har tid til at læse rapporter og bagvedliggende dokumentation? Ja, jeg gør faktisk. Ikke altid, men indimellem. Og jeg bliver lige irriteret hver gang, jeg selv skal ud og opstøve dokumentation, som medierne har, men blot ikke har delt.

Påvirker meningsmålinger faktisk vælgerne?

De seneste uger har de toneangivende medier været fyldt med selvransagelse: ”Vi lader os rive med af positive meningsmålinger”; ”Målinger overbeviser vælgerne” og ”Politiske prognoser flytter stemmer”.

De refererer alle til en ny forskningsrapport fra Institut for Statskundskab på Københavns Universitet forfattet af Kasper Møller Hansen m.fl. – med titlen: Hvordan påvirkes vælgerne af meningsmålinger?

Projektet er interessant – ikke mindst set i lyset af DR’s uheldige exitprognose ved seneste kommunalvalg. For spørgsmålet er jo, om DR – og refererende medier – har påvirket vælgerne og dermed valgresultatet med den tidlige skæve måling?

Nu er det undersøgt, for første gang i en dansk sammenhæng, via et såkaldt survey-eksperiment. Her har man inddelt ca. 3.000 repræsentativt udvalgte danskere i fire stimuligrupper og en kontrolgruppe, hver især bestående af ca. 600 personer, og herefter præsenteret stimuligrupperne for meningsmålinger og tilhørende nyhedsartikler, som giver fiktiv frem- eller tilbagegang for henholdsvis Socialdemokraterne og De Konservative. Så har man stillet de 3.000 danskere en række spørgsmål, herunder hvad de ville stemme, hvis der var folketingsvalg i morgen, og herudfra estimeret stimulieffekterne – altså mulige fremgangs- og tilbagegangseffekter.

Undersøgelsen konkluderer, at det er ”sandsynliggjort, at når et parti går frem i meningsmålingerne, kan det give dem et ekstra boost blandt vælgerne” og ”… der er en tendens til, at positive meningsmålinger sender partierne frem, mens dårlige målinger kan sende dem tilbage”. Definitionen af boost vil jeg overlade til andre, men faktum er, at undersøgelsen sandsynliggør en ganske lille fremgangseffekt (bandwagon effekt). For Socialdemokraternes vedkommende fraviger man i undersøgelsen det ellers bredt anerkendte krav om et 5 procents signifikansniveau. Effekten er blot signifikant på et 10 procents signifikansniveau.

I forskningssammenhæng taler man om, at en effekt kan være stærkt signifikant, svagt/marginalt signifikant eller slet ikke signifikant. Et 10 procents signifikansniveau vil i mange forskningssammenhænge betegnes ”ikke signifikant” eller ”marginalt signifikant”. Det er et gråzoneområde. Begrundelsen er, at der er en ikke ubetydelig risiko for, at den målte forskel blot er ”tilfældig støj” – altså, at der ingen virkelig effekt er. I fagsproget taler man om risikoen for fejlagtigt at forkaste en sand H0-hypotese, en såkaldt type 1 fejl. Hvis H0-hypotesen er sand, er der ingen effekt. Denne risiko er til stede her, også selv om eksperimentet forventes at have høj intervaliditet (høj intervaliditet: At den observerede stemmeeffekt kan tilskrives stimuli – her meningsmåling og artikel – og ikke andre “forstyrrende” årsager).

Min kritik af undersøgelsens hovedresultater – når man ser på stemmeadfærd – kan i forlængelse heraf sammenfattes i to pointer, som ikke afspejles i de seneste ugers mediedækning:

Pointe 1: Havde der været tale om virkelige meningsmålinger hver især baseret på ca. 600 svar og med samme fremgang i tilslutningen til Socialdemokraterne, ville fagpersoner rådgive journalister til ikke at vinkle på forskellen pga. den statistiske usikkerhed. Med henvisning til eksperimentets høje intervaliditet og evidens fra lignende eksperimenter mener forskerne, at det er forsvarligt her. Det fremgår dog ingen steder i rapporten eller i medieomtalen, at der er tale om marginal signifikans.

Pointe 2: Tilbagegangseffekterne er insignifikante, dvs. ikke sandsynliggjort i undersøgelsen. Men når det er tilfældet, hvordan kan rapporten så konkludere en tendens til, at dårlige målinger kan sende partierne tilbage? Det virker ikke stærkt underbygget i eksperimentets resultater.

Dertil kommer en tredje væsentlig pointe, som handler om selve forskningsdesignet, altså at der er tale om et survey-eksperiment: Fremgangseffekterne ville næppe være målbare ved et virkeligt valg, fordi man ved virkelige valg påvirkes af mange modsatrettede faktorer, og fordi de fleste danskere ikke læser en bestemt meningsmåling og ditto nyhedsartikel. Dette forhold diskuteres behørigt i forskningsrapporten og er et grundvilkår ved denne type forskningsdesign. Og jeg lever gerne med det – når blot det ikke negligeres i formidlingen af undersøgelsens resultater. Det, mener jeg desværre, er sket i flere af artiklerne.

Man har i landsdækkende medier kunnet læse, at der er tale om ”ret store effekter”, ”at det kan være ret fatalt at udkomme med en tidlig meningsmåling”, at der ”gerne kommer 3,4 procent oveni, hvis et parti går 5 procent frem”, at ”S kan have tabt på, at vælgerne har fået at vide, at det gik dårligt” – kort sagt: Man får indtryk af, at meningsmålinger kan påvirke et valgresultat i betydelig grad.

Men alle de nævnte citater, fortolkninger og vinkler er for hårdt strammede. Effekterne ved et virkeligt valg er nærmest umulige at estimere på baggrund af et eksperiment, som det man her har gennemført. Undersøgelsen dokumenterer ikke store effekter med potentielt fatale konsekvenser for fx Socialdemokraterne ved efterårets kommunalvalg.

Nu handler undersøgelsen ikke blot om stemmeadfærd. Stimulieffekter på ”partisympati” undersøges også. Og stemmeadfærdseffekterne for De Konservative er i undersøgelsen større end for Socialdemokraterne. Samlet set sandsynliggør undersøgelsen, at vælgere faktisk påvirkes af fremgangsmålinger. Men det ændrer ikke ved, at hovedparten af stemmeadfærdseffekterne er insignifikante eller marginalt signifikante med almindelig målestok, og at fremgangseffekten i populationen kan være meget begrænset.

Berlingske citerer Kasper Møller Hansen for at sige, at ”der hviler et stort ansvar på nyhedsmedierne som formidlere af meningsmålinger”. Enig. Men, kunne man tilføje, der hviler også et stort ansvar på selvsamme medier som formidlere af undersøgelser om meningsmålingers effekt. Og et ditto ansvar hos forskerne bag undersøgelsen for, at resultaterne ikke overeksponeres.

Politiets interviewteknik

Netop hjemvendt fra årets på alle måder storslåede SKUP-konference i Norge (SKUP er Stiftelsen for en Kritisk og Undersøkende Presse) må jeg reklamere for ét særligt inspirerende metode-oplæg. Han er hjernen bag afhøringerne af Anders Behring Breivik og manden, som har indført en egentlig forskningsbaseret afhøringsmetodik og systematik hos norsk politi: Asbjørn Rachlew.

Picture1Der er helt oplagte paralleller mellem politiets og journalisters interviewteknik, men – og det er måske lidt mindre selvindlysende – også inspiration til, hvordan man stiller gode spørgsmål i spørgeskemaundersøgelser. Lad os håbe, at nogen inviterer manden til Danmark også.

I nogen grad enig …?

De er lumske. Ikke nemme at håndtere. Og medierne har ofte ganske svært ved at fortolke dem retvisende.

Jeg taler om midterkategorierne. Altså svarskalaernes centrale omdrejningspunkt. Enhver balanceret svarskala har vel en midterkategori? Næh, faktisk ikke. Det er ikke givet, at man SKAL have en “hverken-eller/i nogen grad” mulighed, eller hvad man nu måtte kalde sit centrum. Det er et videnskabeligt studie for sig, hvad det betyder for svarfordelingerne, hvis man helt fjerner den midterste værdi – for naturligvis betyder det noget. Men det er en anden diskussion.

Picture1

Forleden stillede Jyllands-Posten danskerne dette spørgsmål:

I hvilken grad mener du, at den danske folkeskole har det nødvendige faglige niveau?

Med svarmulighederne “i meget lav grad”, “i lav grad”, “i nogen grad”, “i høj grad” og “i meget høj grad”. Men hvad vil det sige i nogen grad at mene, at folkeskolen har det nødvendige faglige niveau? Jyllands-Postens fortolkning faldt både undertegnede og Detektor for brystet.

Men problemet kendes også uden for landets grænser. TV2 Norge fik ørerne i maskinen, da de stillede spørgsmålet (om ressourcer på sykehjem):

I hvilken grad går manglende ressurser utover en forsvarlig og verdig omsorg?

Igen var problemet fortolkningen af svaret “I noen grad” – den midterste svarmulighed. Problemet opstår, når man slår midterkategorierne sammen med enten de tilfredse/enige eller utilfredse/uenige. Det kan være fristende – ikke mindst fordi, der ofte er mange svar i midten. Med denne fremgangsmåde står man pludselig med en meget stor andel danskere eller nordmænd eller plejere, som man kan vinkle på: 2 ud af 3 mener… Men billedet er fortegnet.

Hvordan skal man så fortolke svarene i midterkategorierne? Løsningen er – i mange tilfælde – at lade dem være.