Påvirker meningsmålinger faktisk vælgerne?

De seneste uger har de toneangivende medier været fyldt med selvransagelse: ”Vi lader os rive med af positive meningsmålinger”; ”Målinger overbeviser vælgerne” og ”Politiske prognoser flytter stemmer”.

De refererer alle til en ny forskningsrapport fra Institut for Statskundskab på Københavns Universitet forfattet af Kasper Møller Hansen m.fl. – med titlen: Hvordan påvirkes vælgerne af meningsmålinger?

Projektet er interessant – ikke mindst set i lyset af DR’s uheldige exitprognose ved seneste kommunalvalg. For spørgsmålet er jo, om DR – og refererende medier – har påvirket vælgerne og dermed valgresultatet med den tidlige skæve måling?

Nu er det undersøgt, for første gang i en dansk sammenhæng, via et såkaldt survey-eksperiment. Her har man inddelt ca. 3.000 repræsentativt udvalgte danskere i fire stimuligrupper og en kontrolgruppe, hver især bestående af ca. 600 personer, og herefter præsenteret stimuligrupperne for meningsmålinger og tilhørende nyhedsartikler, som giver fiktiv frem- eller tilbagegang for henholdsvis Socialdemokraterne og De Konservative. Så har man stillet de 3.000 danskere en række spørgsmål, herunder hvad de ville stemme, hvis der var folketingsvalg i morgen, og herudfra estimeret stimulieffekterne – altså mulige fremgangs- og tilbagegangseffekter.

Undersøgelsen konkluderer, at det er ”sandsynliggjort, at når et parti går frem i meningsmålingerne, kan det give dem et ekstra boost blandt vælgerne” og ”… der er en tendens til, at positive meningsmålinger sender partierne frem, mens dårlige målinger kan sende dem tilbage”. Definitionen af boost vil jeg overlade til andre, men faktum er, at undersøgelsen sandsynliggør en ganske lille fremgangseffekt (bandwagon effekt). For Socialdemokraternes vedkommende fraviger man i undersøgelsen det ellers bredt anerkendte krav om et 5 procents signifikansniveau. Effekten er blot signifikant på et 10 procents signifikansniveau.

I forskningssammenhæng taler man om, at en effekt kan være stærkt signifikant, svagt/marginalt signifikant eller slet ikke signifikant. Et 10 procents signifikansniveau vil i mange forskningssammenhænge betegnes ”ikke signifikant” eller ”marginalt signifikant”. Det er et gråzoneområde. Begrundelsen er, at der er en ikke ubetydelig risiko for, at den målte forskel blot er ”tilfældig støj” – altså, at der ingen virkelig effekt er. I fagsproget taler man om risikoen for fejlagtigt at forkaste en sand H0-hypotese, en såkaldt type 1 fejl. Hvis H0-hypotesen er sand, er der ingen effekt. Denne risiko er til stede her, også selv om eksperimentet forventes at have høj intervaliditet (høj intervaliditet: At den observerede stemmeeffekt kan tilskrives stimuli – her meningsmåling og artikel – og ikke andre “forstyrrende” årsager).

Min kritik af undersøgelsens hovedresultater – når man ser på stemmeadfærd – kan i forlængelse heraf sammenfattes i to pointer, som ikke afspejles i de seneste ugers mediedækning:

Pointe 1: Havde der været tale om virkelige meningsmålinger hver især baseret på ca. 600 svar og med samme fremgang i tilslutningen til Socialdemokraterne, ville fagpersoner rådgive journalister til ikke at vinkle på forskellen pga. den statistiske usikkerhed. Med henvisning til eksperimentets høje intervaliditet og evidens fra lignende eksperimenter mener forskerne, at det er forsvarligt her. Det fremgår dog ingen steder i rapporten eller i medieomtalen, at der er tale om marginal signifikans.

Pointe 2: Tilbagegangseffekterne er insignifikante, dvs. ikke sandsynliggjort i undersøgelsen. Men når det er tilfældet, hvordan kan rapporten så konkludere en tendens til, at dårlige målinger kan sende partierne tilbage? Det virker ikke stærkt underbygget i eksperimentets resultater.

Dertil kommer en tredje væsentlig pointe, som handler om selve forskningsdesignet, altså at der er tale om et survey-eksperiment: Fremgangseffekterne ville næppe være målbare ved et virkeligt valg, fordi man ved virkelige valg påvirkes af mange modsatrettede faktorer, og fordi de fleste danskere ikke læser en bestemt meningsmåling og ditto nyhedsartikel. Dette forhold diskuteres behørigt i forskningsrapporten og er et grundvilkår ved denne type forskningsdesign. Og jeg lever gerne med det – når blot det ikke negligeres i formidlingen af undersøgelsens resultater. Det, mener jeg desværre, er sket i flere af artiklerne.

Man har i landsdækkende medier kunnet læse, at der er tale om ”ret store effekter”, ”at det kan være ret fatalt at udkomme med en tidlig meningsmåling”, at der ”gerne kommer 3,4 procent oveni, hvis et parti går 5 procent frem”, at ”S kan have tabt på, at vælgerne har fået at vide, at det gik dårligt” – kort sagt: Man får indtryk af, at meningsmålinger kan påvirke et valgresultat i betydelig grad.

Men alle de nævnte citater, fortolkninger og vinkler er for hårdt strammede. Effekterne ved et virkeligt valg er nærmest umulige at estimere på baggrund af et eksperiment, som det man her har gennemført. Undersøgelsen dokumenterer ikke store effekter med potentielt fatale konsekvenser for fx Socialdemokraterne ved efterårets kommunalvalg.

Nu handler undersøgelsen ikke blot om stemmeadfærd. Stimulieffekter på ”partisympati” undersøges også. Og stemmeadfærdseffekterne for De Konservative er i undersøgelsen større end for Socialdemokraterne. Samlet set sandsynliggør undersøgelsen, at vælgere faktisk påvirkes af fremgangsmålinger. Men det ændrer ikke ved, at hovedparten af stemmeadfærdseffekterne er insignifikante eller marginalt signifikante med almindelig målestok, og at fremgangseffekten i populationen kan være meget begrænset.

Berlingske citerer Kasper Møller Hansen for at sige, at ”der hviler et stort ansvar på nyhedsmedierne som formidlere af meningsmålinger”. Enig. Men, kunne man tilføje, der hviler også et stort ansvar på selvsamme medier som formidlere af undersøgelser om meningsmålingers effekt. Og et ditto ansvar hos forskerne bag undersøgelsen for, at resultaterne ikke overeksponeres.

Politiets interviewteknik

Netop hjemvendt fra årets på alle måder storslåede SKUP-konference i Norge (SKUP er Stiftelsen for en Kritisk og Undersøkende Presse) må jeg reklamere for ét særligt inspirerende metode-oplæg. Han er hjernen bag afhøringerne af Anders Behring Breivik og manden, som har indført en egentlig forskningsbaseret afhøringsmetodik og systematik hos norsk politi: Asbjørn Rachlew.

Picture1Der er helt oplagte paralleller mellem politiets og journalisters interviewteknik, men – og det er måske lidt mindre selvindlysende – også inspiration til, hvordan man stiller gode spørgsmål i spørgeskemaundersøgelser. Lad os håbe, at nogen inviterer manden til Danmark også.

I nogen grad enig …?

De er lumske. Ikke nemme at håndtere. Og medierne har ofte ganske svært ved at fortolke dem retvisende.

Jeg taler om midterkategorierne. Altså svarskalaernes centrale omdrejningspunkt. Enhver balanceret svarskala har vel en midterkategori? Næh, faktisk ikke. Det er ikke givet, at man SKAL have en “hverken-eller/i nogen grad” mulighed, eller hvad man nu måtte kalde sit centrum. Det er et videnskabeligt studie for sig, hvad det betyder for svarfordelingerne, hvis man helt fjerner den midterste værdi – for naturligvis betyder det noget. Men det er en anden diskussion.

Picture1

Forleden stillede Jyllands-Posten danskerne dette spørgsmål:

I hvilken grad mener du, at den danske folkeskole har det nødvendige faglige niveau?

Med svarmulighederne “i meget lav grad”, “i lav grad”, “i nogen grad”, “i høj grad” og “i meget høj grad”. Men hvad vil det sige i nogen grad at mene, at folkeskolen har det nødvendige faglige niveau? Jyllands-Postens fortolkning faldt både undertegnede og Detektor for brystet.

Men problemet kendes også uden for landets grænser. TV2 Norge fik ørerne i maskinen, da de stillede spørgsmålet (om ressourcer på sykehjem):

I hvilken grad går manglende ressurser utover en forsvarlig og verdig omsorg?

Igen var problemet fortolkningen af svaret “I noen grad” – den midterste svarmulighed. Problemet opstår, når man slår midterkategorierne sammen med enten de tilfredse/enige eller utilfredse/uenige. Det kan være fristende – ikke mindst fordi, der ofte er mange svar i midten. Med denne fremgangsmåde står man pludselig med en meget stor andel danskere eller nordmænd eller plejere, som man kan vinkle på: 2 ud af 3 mener… Men billedet er fortegnet.

Hvordan skal man så fortolke svarene i midterkategorierne? Løsningen er – i mange tilfælde – at lade dem være.

Gætværk

Et nyt – og problematisk – argument for at tage meningsmålinger for pålydende er begyndt at dukke op blandt journalister og journaliststuderende:

Man anerkender, at de små ændringer i partiernes tilslutning ligger inden for den statistiske usikkerhed, men argumenterer samtidig for, at det er mest sandsynligt, at tilslutningen (altså den virkelige tilslutning blandt alle myndige danskere)  alligevel ligger som målt. Og man slutter deraf, at det er OK at tage undersøgelsen for pålydende.

I en hvis forstand er argumentet rigtigt, men konklusionen er forkert. Jeg diskuterer problemstillingen her: http://journalisten.dk/gaetvaerk

Spørgeteknik – og lukning af Thomas B. Thriges Gade

Hen over sommeren har odenseanerne diskuteret den mulige lukning af Odenses centrale færdselsåre, Thomas B. Thriges Gade, heftigt.  Et flertal i Odense Byråd har foreslået lukningen – til det lokale erhvervslivs og Venstres fortrydelse. Lokale meningsmålinger foretaget blandt almindelige odenseanere og lokale erhvervsdrivende har været et input til denne diskussion og er blevet forsøgt brugt som politisk løftestang af modstandere af lukningen – som beskrevet af Fyens Stiftstidende i går, 27. august 2013:

Så langt, så godt. Det kan være helt legitimt at bruge lødige og troværdige meningsmålinger som led i en politisk diskussion. Men lad os kigge nærmere på et par af målingerne og den spørgeteknik, de anvender.

En af målingerne er foretaget af analysefirmaet M3 Research. Det har spurgt 500 beboere bosat i Odense Kommune om deres holdning til lukningen af gaden. Sådan lyder spørgsmålet:

Et flertal i Odense Byråd har foreslået en lukning af Thomas B. Thriges Gade. I hvilken grad går du ind for en lukning af Thomas B. Thriges Gade? I meget høj grad, I høj grad, I nogen grad, I lille grad, Slet ikke, Ved ikke.

Er det ikke et helt tilforladeligt og afbalanceret spørgsmål at stille? Nej, det er det faktisk ikke. Det skyldes tre forhold:

  1. Man spørger: “I hvilken grad går du ind for en lukning …?” Man lægger dermed op til, at svarpersonen nok i en eller anden grad går ind for lukning.
  2. Man præsenterer spørgsmålet i en bestemt kontekst, nemlig: “Et flertal i Odense Byråd har foreslået en lukning”. Denne kontekst, som peger på lukning foreslået af byens politiske autoriteter, kan være med til at påvirke uafklarede odenseanere til at udtrykke en eller anden grad af enighed med byrødderne. Det faktum, at man nævner Odense Byråd i formuleringen, kan altså gøre den enkelte borgers stillingtagen til et spørgsmål, om man er for eller imod byrådet. Og det var jo ikke meningen.
  3. Man anvender et sæt svarmuligheder, som ikke er særligt velegnede til formålet. Hvad vil det sige at gå ind for noget i lille grad? Det er næsten en selvmodsigelse.

Man kunne i stedet have spurgt helt enkelt: “Er du tilhænger af at bevare eller lukke gaden?” Og så med 2-3 svarmuligheder uden gradbøjning (og “ved ikke” som udvej). Det ville gøre den efterfølgende fortolkning meget mere entydig.

Man kunne altså have grebet det hele noget mere enkelt – og balanceret – an. Og det er der faktisk nogen, som har gjort – tilbage i efteråret 2012. Hvilket analyseinstitut er der så tale om? Her kommer det morsomme: Det er såmænd en meningsmåling udarbejdet af gymnasieelever fra Sct. Knuds Gymnasium. De har stillet 380 odenseanere følgende spørgsmål:

Er du for eller imod lukningen af Thomas B. Thriges Gade? For, Imod, Både og, Ved ikke

De har i samme ombæring – og i lighed med M3 Research – stillet en lang række uddybende og supplerende spørgsmål, som de fint linker til fra deres netavis. Og så har de naturligvis vægtet svarene fra de 380 odenseanere på en række indsamlede baggrundsvariable for at sikre et mest muligt retvisende billede i forhold til den faktiske befolkningssammensætning i Odense Kommune. Hvis denne klasse sætter standarden for nutidens gymnasieelever, hvad angår metodisk forståelse og stringens (læs selv deres øvrige analyser på netavisen), så er jeg både tryg og imponeret.

Kvalitetsvægtede gennemsnit af meningsmålinger

Det lyder grimt. Eller i hvert fald kompliceret.

Men faktisk er det ret enkelt: Et gennemsnit af mange meningsmålinger er alt andet lige mere retvisende end de enkelte målinger, som gennemsnittet bygger på. Sådanne gennemsnit finder du fx hos Berlingske Barometer, hos Ritzau Index og på Altinget.dk. Brug dem.

Erik Gahner Larsen har for nylig skrevet et godt og informativt indlæg, som forklarer, hvorfor gennemsnit typisk er mere præcise, og hvad man som journalist eller mediebruger skal være særligt opmærksom på, når man læser meningsmålinger. Læs det.

Træk vejret og vind (måske) nobelpriser

Træk vejret. Gerne adskillige gange dagligt og gerne dybt ned i lungerne. Det øger dine chancer for at vinde en nobelpris. Sådan lyder konklusionen i det indlæg, som blandt andet forskeren Ann Cathrine Popowitz har fået optaget i tidsskriftet New Recommended Behaviour Journal. Den engelske forsker ser i indlægget nærmere på, om der er en sammenhæng mellem, hvor ofte og dybt et lands indbyggere i gennemsnit trækker vejret, og hvor mange nobelpriser et land modtager. Regressionsanalysen, som ligger bag, viser desuden det – for mange – overraskende resultat, at en helt afbrudt vejrtrækning alt andet lige vil føre til 2,3 nationale nobelpriser pr. 10 millioner indbyggere – over tid. Forskeren tilføjer dog, at den mulighed foreligger, at alt andet ikke er helt lige.

Okay, jeg kryber til korset. Hvis nogen måtte være i tvivl. Det er en joke. Der findes ikke nogen forsker ved navn Ann Cathrine Popowitz. Mig bekendt. Men joken står ikke alene.

Se blot denne historie fra Berlingske i dag: Drik mælk og vind (måske) nobelpriser. Og denne her, som for nylig gik den glade verdenspresse rundt: Spis chokolade og vind nobelpriser. Den er god nok – der står rigtige forskere bag historierne. Der er tilsyneladende blandt visse ansete forskere gået sport i at offentliggøre indlæg og notitser, som ikke holder vand. Vel at mærke i anerkendte videnskabelige tidsskrifter.

1000-kroners spørgsmålet må være: Hvorfor? For at se, om pressen hopper på den? For at drille kollegerne? Fordi de keder sig? Fordi de er trætte af altid at skulle fremstå troværdige og seriøse? Det er svært at forestille sig sådan en forbandet god og tvingende grund. Men nogen burde stille spørgsmålet.

To skridt frem – og tre tilbage

Nogen burde kortlægge omfanget af ikke-historier baseret på meningsmålinger. Den seneste uge bød på et par af slagsen:

Thorning haler ind på oppositionen i ny meningsmåling

S efter god meningsmåling: »Danskerne kan godt se, at statsministeren har ret«

Overskrifterne baserer sig på en ny måling fra Voxmeter, som tilsyneladende viser, at Socialdemokraterne er gået frem fra 20,6 procent (Voxmeter-måling kort før jul) til 22,6 procent af stemmerne.

De danske netmedier er blevet bedre til at oplyse om den statistiske usikkerhed, når de skriver om meningsmålinger. Det har Erik Gahner Larsen (m.fl.) for nylig dokumenteret. Usikkerheden oplyses da også i de to nævnte  artikler. I førstnævnte artikel, som stammer fra Ritzau, får vi således at vide, at Bevægelserne ligger dog inden for målingens usikkerhed, som kan være op til 2,9 procentpoint for de største partier. Yes, det er korrekt. Bevægelserne ligger inden for målingens usikkerhed. Tjek selv efter her. Det er jo fint, at journalisten er opmærksom på problemet – og åbent og ærligt oplyser læseren om det. Vi får også at vide, hvor mange der har svaret, at undersøgelsen er repræsentativ, og hvornår den er gennemført. To skridt frem. Men æh …, når bevægelserne ligger inden for den statistiske usikkerhed, så ved vi ikke, om Thorning faktisk haler ind på oppositionen i den nye måling. Altså når målingen generaliseres til befolkningen. Der er således ikke belæg for rubrikken og vinklen.

Dette faktum afholder imidlertid ikke Ritzau fra at lave den – naturlige – opfølgende historie, hvor årsagsforklaringen køres i stilling: Fremgangen skyldes – ifølge Socialdemokraternes Magnus Heunicke – nytårstalen og de første synlige effekter af Socialdemokraternes lange seje træk. Også her oplyses om den statistiske usikkerhed, men konsekvensen drages ikke. Det er ikke kun undertegnede, som har studset over dette.

Lad os for en kort bemærkning dvæle ved Socialdemokraternes seneste målinger:

Voxmeter YouGov Gallup Voxmeter Rambøll Voxmeter YouGov Voxmeter Voxmeter
02-dec 03-dec 06-dec 09-dec 13-dec 15-dec 17-dec 22-dec 07-jan
19,9 18,5 23,1 20,6 21,3 20,2 19 20,6 22,6

Som man kan se, går det lidt op og ned med målingerne. Der er ikke rigtig noget mønster eller nogen ensartet udvikling, og næsten alle målingerne ligger så tæt, at det er inden for den statistiske usikkerhed. Tager man målingerne for pålydende, kan man lave historierne om Socialdemokraternes fald og stigning og fald og stigning og fald og fald og stigning og stigning. Det er meningsløst, men man kan gøre det. Med udokumenterede vinkler, afledte politiske kommentarer og postulerede årsagsforklaringer. Med korrekte informationer, men forkerte konklusioner. Det er to skridt frem og tre tilbage.

Sådan snyder medier med statistikken

Du ser dem dagligt – i fjernsynet, på nettet, i avisen: Søjlediagrammer, lagkagediagrammer, kurvediagrammer etc. De hjælper dig med at få et hurtigt overblik over udviklingen, stillingen, fordelingen. Men kan du stole på dem?

Ikke altid. Faktisk er grafikker et minefelt af mulig manipulation af dig som læser og seer. Der er med andre ord grund til at se sig godt for. Måske er dette old news for dig, men tag alligevel et kig på denne gode blog: Simply Statistics. En af forfatterne bag bloggen, Jeff Leek, har kigget Fox News efter i sømmene og fundet en række kreative eksempler på vildledende grafikker. Nogle af metoderne er velkendte, fx afkortning af x- og y-akser. Andre er mere kuriøse, fx forkert placering af punkter på akserne og sammenligning af forskellige enheder, uden at det oplyses.

Der er naturligvis mange andre end Fox News, man kan kritisere for vildledning af denne type, men eksemplerne i artiklen er gode til at skærpe éns kritiske blik.

Jyllands-Posten har i øvrigt taget historien op her.

Troværdige kulturvaner?

Kulturvaneundersøgelsen – den nye, monumentale, tilbagevendende, og særdeles grundige – har fået megen medieomtale de seneste uger. Men ikke den slags omtale, som Kulturministeriet (rekvirent), Epinion og Pluss Leadership på forhånd kunne håbe på.

Sagen tog sin begyndelse, da Stig Jarl, lektor i teatervidenskab, i Politiken leverede en analyse med det hovedbudskab, at danskernes rapporterede teaterbesøg var skudt helt forbi og dermed løgn. Det blev startskuddet til en serie af kritiske artikler om undersøgelsens validitet og troværdighed generelt. Jeg blev selv interviewet til Information om undersøgelsen i sidste uge.

Men hvad er egentlig op og ned i sagen? Lad mig starte med at slå fast, at der er tale om en omfattende og grundig undersøgelse, som rent metodisk ikke lader meget tilbage at ønske.

Man må stille to grundlæggende kritiske spørgsmål til en undersøgelse af denne type, nemlig 1) Hvad vil man undersøge, og hvordan er spørgsmålene formuleret? og 2) Hvordan er svarpersonerne udvalgt, og er de faktisk repræsentative for os danskere?

Til det sidste kan man konstatere, at der er tale om store og i udgangspunktet repræsentative stikprøver; at den overordnede svarprocent ligger omkring 50%, hvilket er normalt, men naturligt har givet anledning til en grundig bortfaldsanalyse, som ikke peger på ret store skævheder. Dog er børnefamilier overrepræsenterede. Det problem har man efterfølgende vægtet sig ud af. Repræsentativiteten er derfor ikke et stort problem.

Til det første kan man konstatere, at 1) undersøgelsesemnet – kulturvaner (og herunder medievaner) – er et følsomt område, forbundet med forskellige grader af social status og knyttet til de kulturværdier, vi hver især bærer rundt på. Forskning på området viser, at socialt følsomme emner ikke kan afdækkes præcist gennem spørgeskemaundersøgelser. Det er med andre ord et grundlæggende problem, som ikke handler om kvaliteten af den konkrete undersøgelse. Noget af usikkerheden kan naturligvis afdækkes ved at sammenholde svarene med registerbaserede oplysninger, fx om solgte teaterbilletter og operabilletter. 2) En række spørgsmål er formuleret anderledes i 2012-undersøgelsen i forhold til den seneste tilsvarende undersøgelse fra 2004. Det er der en række gode grunde til, som der argumenteres sagligt for i undersøgelsen. Bl.a. hensyn til den teknologiske udvikling i den mellemliggende periode og hensyn til sammenlignelighed med internationale undersøgelser på området.

Problemet er med andre ord ikke undersøgelsen an sich. Problemet er i stedet, hvis man

1) ukritisk tager konklusionerne om vores alle sammens kulturvaner som sandhedsvidne – og ikke blot som det pejlemærke eller fingerpeg, det vitterligt er;

2) konkluderer om udviklingen fra 2004-2012 uden smålig skelen til, hvordan man faktisk har spurgt, herunder om man har ændret i formuleringer og definitioner mellem de to undersøgelser.

Der mangler med andre ord en nuanceret og kritisk læsning og formidling af undersøgelsen. Her kunne kulturministeren passende selv gå forrest i stedet for at lade begejstringen løbe af med sig, når han i ministeriets egen pressemeddelelse udtaler, at børnene “… er meget aktive og læser for eksempel markant flere bøger end i 2004, hvor den forrige kulturvaneundersøgelse fandt sted.” Det ved vi så faktisk ikke noget om, da man i 2012-undersøgelsen har spurgt børnene hvor ofte de læser/hører bøger. Mens man i 2004 spurgte børnene, hvor ofte de læser bøger. Det er dog to forskellige ting.