Gætværk

Et nyt – og problematisk – argument for at tage meningsmålinger for pålydende er begyndt at dukke op blandt journalister og journaliststuderende:

Man anerkender, at de små ændringer i partiernes tilslutning ligger inden for den statistiske usikkerhed, men argumenterer samtidig for, at det er mest sandsynligt, at tilslutningen (altså den virkelige tilslutning blandt alle myndige danskere)  alligevel ligger som målt. Og man slutter deraf, at det er OK at tage undersøgelsen for pålydende.

I en hvis forstand er argumentet rigtigt, men konklusionen er forkert. Jeg diskuterer problemstillingen her: http://journalisten.dk/gaetvaerk

Spørgeteknik – og lukning af Thomas B. Thriges Gade

Hen over sommeren har odenseanerne diskuteret den mulige lukning af Odenses centrale færdselsåre, Thomas B. Thriges Gade, heftigt.  Et flertal i Odense Byråd har foreslået lukningen – til det lokale erhvervslivs og Venstres fortrydelse. Lokale meningsmålinger foretaget blandt almindelige odenseanere og lokale erhvervsdrivende har været et input til denne diskussion og er blevet forsøgt brugt som politisk løftestang af modstandere af lukningen – som beskrevet af Fyens Stiftstidende i går, 27. august 2013:

Så langt, så godt. Det kan være helt legitimt at bruge lødige og troværdige meningsmålinger som led i en politisk diskussion. Men lad os kigge nærmere på et par af målingerne og den spørgeteknik, de anvender.

En af målingerne er foretaget af analysefirmaet M3 Research. Det har spurgt 500 beboere bosat i Odense Kommune om deres holdning til lukningen af gaden. Sådan lyder spørgsmålet:

Et flertal i Odense Byråd har foreslået en lukning af Thomas B. Thriges Gade. I hvilken grad går du ind for en lukning af Thomas B. Thriges Gade? I meget høj grad, I høj grad, I nogen grad, I lille grad, Slet ikke, Ved ikke.

Er det ikke et helt tilforladeligt og afbalanceret spørgsmål at stille? Nej, det er det faktisk ikke. Det skyldes tre forhold:

  1. Man spørger: “I hvilken grad går du ind for en lukning …?” Man lægger dermed op til, at svarpersonen nok i en eller anden grad går ind for lukning.
  2. Man præsenterer spørgsmålet i en bestemt kontekst, nemlig: “Et flertal i Odense Byråd har foreslået en lukning”. Denne kontekst, som peger på lukning foreslået af byens politiske autoriteter, kan være med til at påvirke uafklarede odenseanere til at udtrykke en eller anden grad af enighed med byrødderne. Det faktum, at man nævner Odense Byråd i formuleringen, kan altså gøre den enkelte borgers stillingtagen til et spørgsmål, om man er for eller imod byrådet. Og det var jo ikke meningen.
  3. Man anvender et sæt svarmuligheder, som ikke er særligt velegnede til formålet. Hvad vil det sige at gå ind for noget i lille grad? Det er næsten en selvmodsigelse.

Man kunne i stedet have spurgt helt enkelt: “Er du tilhænger af at bevare eller lukke gaden?” Og så med 2-3 svarmuligheder uden gradbøjning (og “ved ikke” som udvej). Det ville gøre den efterfølgende fortolkning meget mere entydig.

Man kunne altså have grebet det hele noget mere enkelt – og balanceret – an. Og det er der faktisk nogen, som har gjort – tilbage i efteråret 2012. Hvilket analyseinstitut er der så tale om? Her kommer det morsomme: Det er såmænd en meningsmåling udarbejdet af gymnasieelever fra Sct. Knuds Gymnasium. De har stillet 380 odenseanere følgende spørgsmål:

Er du for eller imod lukningen af Thomas B. Thriges Gade? For, Imod, Både og, Ved ikke

De har i samme ombæring – og i lighed med M3 Research – stillet en lang række uddybende og supplerende spørgsmål, som de fint linker til fra deres netavis. Og så har de naturligvis vægtet svarene fra de 380 odenseanere på en række indsamlede baggrundsvariable for at sikre et mest muligt retvisende billede i forhold til den faktiske befolkningssammensætning i Odense Kommune. Hvis denne klasse sætter standarden for nutidens gymnasieelever, hvad angår metodisk forståelse og stringens (læs selv deres øvrige analyser på netavisen), så er jeg både tryg og imponeret.

Kvalitetsvægtede gennemsnit af meningsmålinger

Det lyder grimt. Eller i hvert fald kompliceret.

Men faktisk er det ret enkelt: Et gennemsnit af mange meningsmålinger er alt andet lige mere retvisende end de enkelte målinger, som gennemsnittet bygger på. Sådanne gennemsnit finder du fx hos Berlingske Barometer, hos Ritzau Index og på Altinget.dk. Brug dem.

Erik Gahner Larsen har for nylig skrevet et godt og informativt indlæg, som forklarer, hvorfor gennemsnit typisk er mere præcise, og hvad man som journalist eller mediebruger skal være særligt opmærksom på, når man læser meningsmålinger. Læs det.

SMS-afstemning vandt over Facebook

Vinderen af det grønlandske valg var helt klart Siumut og ifølge iagttagere måske især partiets formand Aleqa Hammond. Tilstrømningen til Siumut var allerede tydelig i en måling, som den grønlandske avis Sermitsiaq.AG foretog på avisens Facebook-side frem til fire dage forud for valget – en måling, som vi udsatte for kritik i et indlæg her på sitet.

Kritikken holder vi fast ved. Vi er ikke overbeviste om, at deltagerne i tilkendegivelsen på Facebook var repræsentative for alle vælgere, og samlet set ramte denne måling da også langt forbi skiven, hvis man ser på, hvor mange af målingens svarpersoner der skal flytte deres stemme for at ”ramme” valgets resultat. Fejlprocenten var på 8,9 procentpoint, hvilket er langt fra præcisionen i de sidste meningsmålinger forud for de seneste valg i Danmark. I september sidste år var fejlprocenten i Gallups måling dagen før valget den 15. september på 2,4 procentpoint, mens Rambøll, der fejlede mest, ramte 4,4 procentpoint ved siden af.

Grønlands Radio, KNR, var med en fejlprocent på 4,6 procentpoint tættere på i en lige så uvidenskabelig måling lørdag eftermiddag forud for valget sidste tirsdag. Det var en meningsmåling pr. sms i forbindelse med den sidste tv-transmitterede valgdebat. ”1.817 unikke mobiltelefoner deltog i målingen. Det svarer til 4,5 procent af alle stemmeberettigede”, skriver KNR.

Med til billedet hører, at en videnskabelig måling foretaget telefonisk blandt 800 tilfældigt udvalgte vælgere ramte endnu mere ved siden af end de to nævnte. Den blev afsluttet 10 dage før valget, hvilket ifølge firmaet bag målingen, HS Analyse, kan være en del af forklaringen.

“Vi kunne klart se, at Siumut ville få en stor fremgang, mens IA var på vej tilbage. Og så var der 25 procent, der ikke havde besluttet sig, hvoraf mere end halvdelen havde stemt på IA ved seneste valg. En overvejende del af denne gruppe har i den sidste uge af valgkampen besluttet at følge strømmen og stemt på Siumut, hvorved partiets fremgang blev understreget,” skriver Henrik Skydsbjerg, HS Analyse i en mail.

Han fortæller, at noget af det samme skete ved valget i Grønland i 2009. Dengang var det bare IA, “der stormede frem og først fik tilslutning fra den sidste gruppe af vælgere så tæt på valget, at vi ikke nåede at registrere det.”

Meget tyder på, at Aleqa Hammond og Siumut denne gang høstede mange vælgere i valgkampens slutspurt, men meningsmålingens natur er, at vi ikke kan sige noget præcist om, hvilke skævheder der skyldes den almindelige statistiske usikkerhed, og hvilke der skyldes vælgernes bevægelser, efter at målingen er foretaget.

HS Analyse
afsl. 2.3.

Facebook
afsl. 8.3.

SMS
9.3.
Valget
12.03
Siumut 38,2 35,8 45,2 42,8
Inuit Ataqatigiit 41,4 39,2 32,3 34,4
Demokraterne 8,9 10,2 7,9 6,2
Atassut 6,0 6,9 6,3 8,1
Partii Inuit 4,7 7,0 7,4 6,4
Kattusseqatigiit Partiiat 0,8 0,9 0,9 1,1
Fejlprocent
9,2 8,9 4,6
Antal svar

800

1.927 1.817  30.136

Grønlandske Facebook-brugere strømmer til Siumut

En stikprøve på næsten 2.000 vælgere er ganske mange. Ikke mindst i Grønland, hvor 40.000 indbyggere kan stemme til valget på tirsdag. Det er den grønlandske avis Sermitsiaq.AG, der har fået så mange svar i en meningsmåling på avisens Facebook-side.

Men partiet Siumut, der står til en stor fremgang, skal nok ikke glæde sig for tidligt, for stikprøven kan vise sig at ramme ret meget ved siden af. Ud over den almindelige statistiske usikkerhed er det nemlig langt fra sikkert, at de 1.927 deltagere i meningsmålingen er repræsentative for de grønlandske vælgere. Der kan for eksempel stilles følgende spørgsmål til en eventuel skævhed:

  • Er det kun stemmeberettigede, der har deltaget i afstemningen på Facebook?
  • Er profilen for de grønlandske Facebook-brugere skæv i forhold til partivalg?
  • Er der en skævhed i forhold til, hvem der klikker ind på Sermitsiaq.AG’s Facebook-side?
  • Er især partiet Siumut bare god til at mobilisere sine tilhængere i forbindelse med den slags afstemninger – måske ud fra den betragtning, at medvind kan give ny gejst og yderligere opbakning?

Vi ved det ikke. Men vi ved, at det på andre tidspunkter i historien er gået galt med en meningsmåling, hvor man ikke har sikret sig, at stikprøven var udtaget simpelt og tilfældigt og dermed var repræsentativ for hele befolkningen. Det klassiske eksempel er fra kort før det amerikanske præsidentvalg i 1936, hvor den republikanske guvernør Landon stod til at vinde klart, men alligevel blev Franklin D. Roosevelt genvalgt med en historisk stor valgsejr.

Stikprøven ved meningsmålingen viste sig at være endog meget skæv, fordi den blandt andet kun omfattede forholdsvis velhavende amerikanere med et telefonapparat i huset.

Forud for det seneste Folketingsvalg foretog ekstrabladet.dk en måling, som ramte helt ved siden af landsresultatet samme dag. Dagen efter måtte avisen da også indrømme, at 84.608 ekstrabladet.dk-læsere godt kan tage fejl, selv om der var tale om landets største meningsmåling.

I forbindelse med det grønlandske valg har KNR, “Grønlands Radio”, i dag offentliggjort sin egen undersøgelse foretaget som en sms-afstemning a la X-Factor. “1.817 unikke mobiltelefoner”, 4,5 pct. af alle stemmeberettigede, deltog, og deres svar viser et noget andet resultat end Facebook-afstemningen hos Sermitsiaq.AG og omtales som en “chokmåling”. I forbindelse med den kan der imidlertid sættes mindst lige så store spørgsmålstegn ved deltagernes repræsentativitet.

Til både Sermitsiaq.AG’s og KNR’s ære skal nævnes, at de begge anfører, at der ikke er tale om videnskabelige, repræsentative undersøgelser. Hvad grønlænderne stemmer, ved vi på tirsdag.

Usunde danskere viger uden om spørgeskemaer om kost og helbred

Uanset svarprocentens størrelse er det altid et godt spørgsmål, om de, der rent faktisk har svaret på en rundspørge, nu også er repræsentative for hele den gruppe, man har sat sig for at undersøge. Hvor varsom man skal være med at generalisere, bliver understreget af ny dansk forskning, der dokumenterer en afgørende forskel på de, der deltog i en stor undersøgelse af deres kost og livsstil, og de, der valgte ikke at være med.

Her mange år senere viser det sig nemlig, at dødeligheden blandt de, der ikke ønskede at indgå, er dobbelt så høj som hos dem, der valgte at være med i undersøgelsen.

Det handler om den store befolkningsundersøgelse ”Kost, kræft og helbred”, som midt i 90’erne inviterede 160.725 danskere i alderen 50-64 år til at svare på en række spørgsmål om blandt andet deres kostvaner og livsstil. Af dem valgte 57.053 at svare, hvilket giver en svarprocent så lav som 35 procent. Dertil skal siges, at den lave svarprocent til dels kan forklares med de ret store krav til deltagerne om – ud over at besvare et spørgeskema – også at stille op til at få foretaget blod- og fedtvævsprøver samt levere urinprøve og afklippede tånegle.

Fordi man kender cpr-numrene på alle, man inviterede til at være med i undersøgelsen, har forskerne haft mulighed for at tjekke, hvordan det sidenhen er gået dem, og ud over, at kun halvt så mange af deltagerne i undersøgelsen er døde, har man fundet ud af, at dødsårsagen blandt ikke-deltagerne i vid udstrækning er relateret til alkohol og rygning. Det får forskerne til at konkludere, at personer, der ryger og drikker lidt for meget, nok ikke er så villige til at deltage i undersøgelser, der handler om ”Kost, kræft og helbred”. Alene titlen på undersøgelsen har måske skræmt nogle væk.

For folk, der beskæftiger sig med at lave rundspørger, må disse nye erfaringer med systematisk frafald give yderligere anledning til grundigt at overveje, hvordan kan man tilrettelægge en rundspørge, så man får en høj svarprocent. Det kan blandt andet handle om præsentationen af temaet for rundspørgen og motiveringen af svarpersonerne. Samtidig skal man bestræbe sig på at gøre besvarelsen så overkommelig som mulig, så ”besværet” ikke bliver en undskyldning for ikke at give sit bidrag. Derudover kan det også komme på tale at gøre en ekstra indsats for indhente svar fra dem, der ikke deltager i første omgang, og sammenligne svarene fra disse svarpersoner med de øvrige svar for at få et fingerpeg om systematisk frafald.

Kræftens Bekæmpelse, som står bag ”Kost, kræft og helbred”, præsenterer de nye resultater – lad dig ikke forvirre af den newspeak-agtige overskrift på meddelelsen, klik her.

DR’s Orientering på P1 har interviewet en af forskerne bag undersøgelsen, klik her.

Træk vejret og vind (måske) nobelpriser

Træk vejret. Gerne adskillige gange dagligt og gerne dybt ned i lungerne. Det øger dine chancer for at vinde en nobelpris. Sådan lyder konklusionen i det indlæg, som blandt andet forskeren Ann Cathrine Popowitz har fået optaget i tidsskriftet New Recommended Behaviour Journal. Den engelske forsker ser i indlægget nærmere på, om der er en sammenhæng mellem, hvor ofte og dybt et lands indbyggere i gennemsnit trækker vejret, og hvor mange nobelpriser et land modtager. Regressionsanalysen, som ligger bag, viser desuden det – for mange – overraskende resultat, at en helt afbrudt vejrtrækning alt andet lige vil føre til 2,3 nationale nobelpriser pr. 10 millioner indbyggere – over tid. Forskeren tilføjer dog, at den mulighed foreligger, at alt andet ikke er helt lige.

Okay, jeg kryber til korset. Hvis nogen måtte være i tvivl. Det er en joke. Der findes ikke nogen forsker ved navn Ann Cathrine Popowitz. Mig bekendt. Men joken står ikke alene.

Se blot denne historie fra Berlingske i dag: Drik mælk og vind (måske) nobelpriser. Og denne her, som for nylig gik den glade verdenspresse rundt: Spis chokolade og vind nobelpriser. Den er god nok – der står rigtige forskere bag historierne. Der er tilsyneladende blandt visse ansete forskere gået sport i at offentliggøre indlæg og notitser, som ikke holder vand. Vel at mærke i anerkendte videnskabelige tidsskrifter.

1000-kroners spørgsmålet må være: Hvorfor? For at se, om pressen hopper på den? For at drille kollegerne? Fordi de keder sig? Fordi de er trætte af altid at skulle fremstå troværdige og seriøse? Det er svært at forestille sig sådan en forbandet god og tvingende grund. Men nogen burde stille spørgsmålet.

To skridt frem – og tre tilbage

Nogen burde kortlægge omfanget af ikke-historier baseret på meningsmålinger. Den seneste uge bød på et par af slagsen:

Thorning haler ind på oppositionen i ny meningsmåling

S efter god meningsmåling: »Danskerne kan godt se, at statsministeren har ret«

Overskrifterne baserer sig på en ny måling fra Voxmeter, som tilsyneladende viser, at Socialdemokraterne er gået frem fra 20,6 procent (Voxmeter-måling kort før jul) til 22,6 procent af stemmerne.

De danske netmedier er blevet bedre til at oplyse om den statistiske usikkerhed, når de skriver om meningsmålinger. Det har Erik Gahner Larsen (m.fl.) for nylig dokumenteret. Usikkerheden oplyses da også i de to nævnte  artikler. I førstnævnte artikel, som stammer fra Ritzau, får vi således at vide, at Bevægelserne ligger dog inden for målingens usikkerhed, som kan være op til 2,9 procentpoint for de største partier. Yes, det er korrekt. Bevægelserne ligger inden for målingens usikkerhed. Tjek selv efter her. Det er jo fint, at journalisten er opmærksom på problemet – og åbent og ærligt oplyser læseren om det. Vi får også at vide, hvor mange der har svaret, at undersøgelsen er repræsentativ, og hvornår den er gennemført. To skridt frem. Men æh …, når bevægelserne ligger inden for den statistiske usikkerhed, så ved vi ikke, om Thorning faktisk haler ind på oppositionen i den nye måling. Altså når målingen generaliseres til befolkningen. Der er således ikke belæg for rubrikken og vinklen.

Dette faktum afholder imidlertid ikke Ritzau fra at lave den – naturlige – opfølgende historie, hvor årsagsforklaringen køres i stilling: Fremgangen skyldes – ifølge Socialdemokraternes Magnus Heunicke – nytårstalen og de første synlige effekter af Socialdemokraternes lange seje træk. Også her oplyses om den statistiske usikkerhed, men konsekvensen drages ikke. Det er ikke kun undertegnede, som har studset over dette.

Lad os for en kort bemærkning dvæle ved Socialdemokraternes seneste målinger:

Voxmeter YouGov Gallup Voxmeter Rambøll Voxmeter YouGov Voxmeter Voxmeter
02-dec 03-dec 06-dec 09-dec 13-dec 15-dec 17-dec 22-dec 07-jan
19,9 18,5 23,1 20,6 21,3 20,2 19 20,6 22,6

Som man kan se, går det lidt op og ned med målingerne. Der er ikke rigtig noget mønster eller nogen ensartet udvikling, og næsten alle målingerne ligger så tæt, at det er inden for den statistiske usikkerhed. Tager man målingerne for pålydende, kan man lave historierne om Socialdemokraternes fald og stigning og fald og stigning og fald og fald og stigning og stigning. Det er meningsløst, men man kan gøre det. Med udokumenterede vinkler, afledte politiske kommentarer og postulerede årsagsforklaringer. Med korrekte informationer, men forkerte konklusioner. Det er to skridt frem og tre tilbage.

Sådan snyder medier med statistikken

Du ser dem dagligt – i fjernsynet, på nettet, i avisen: Søjlediagrammer, lagkagediagrammer, kurvediagrammer etc. De hjælper dig med at få et hurtigt overblik over udviklingen, stillingen, fordelingen. Men kan du stole på dem?

Ikke altid. Faktisk er grafikker et minefelt af mulig manipulation af dig som læser og seer. Der er med andre ord grund til at se sig godt for. Måske er dette old news for dig, men tag alligevel et kig på denne gode blog: Simply Statistics. En af forfatterne bag bloggen, Jeff Leek, har kigget Fox News efter i sømmene og fundet en række kreative eksempler på vildledende grafikker. Nogle af metoderne er velkendte, fx afkortning af x- og y-akser. Andre er mere kuriøse, fx forkert placering af punkter på akserne og sammenligning af forskellige enheder, uden at det oplyses.

Der er naturligvis mange andre end Fox News, man kan kritisere for vildledning af denne type, men eksemplerne i artiklen er gode til at skærpe éns kritiske blik.

Jyllands-Posten har i øvrigt taget historien op her.

Troværdige kulturvaner?

Kulturvaneundersøgelsen – den nye, monumentale, tilbagevendende, og særdeles grundige – har fået megen medieomtale de seneste uger. Men ikke den slags omtale, som Kulturministeriet (rekvirent), Epinion og Pluss Leadership på forhånd kunne håbe på.

Sagen tog sin begyndelse, da Stig Jarl, lektor i teatervidenskab, i Politiken leverede en analyse med det hovedbudskab, at danskernes rapporterede teaterbesøg var skudt helt forbi og dermed løgn. Det blev startskuddet til en serie af kritiske artikler om undersøgelsens validitet og troværdighed generelt. Jeg blev selv interviewet til Information om undersøgelsen i sidste uge.

Men hvad er egentlig op og ned i sagen? Lad mig starte med at slå fast, at der er tale om en omfattende og grundig undersøgelse, som rent metodisk ikke lader meget tilbage at ønske.

Man må stille to grundlæggende kritiske spørgsmål til en undersøgelse af denne type, nemlig 1) Hvad vil man undersøge, og hvordan er spørgsmålene formuleret? og 2) Hvordan er svarpersonerne udvalgt, og er de faktisk repræsentative for os danskere?

Til det sidste kan man konstatere, at der er tale om store og i udgangspunktet repræsentative stikprøver; at den overordnede svarprocent ligger omkring 50%, hvilket er normalt, men naturligt har givet anledning til en grundig bortfaldsanalyse, som ikke peger på ret store skævheder. Dog er børnefamilier overrepræsenterede. Det problem har man efterfølgende vægtet sig ud af. Repræsentativiteten er derfor ikke et stort problem.

Til det første kan man konstatere, at 1) undersøgelsesemnet – kulturvaner (og herunder medievaner) – er et følsomt område, forbundet med forskellige grader af social status og knyttet til de kulturværdier, vi hver især bærer rundt på. Forskning på området viser, at socialt følsomme emner ikke kan afdækkes præcist gennem spørgeskemaundersøgelser. Det er med andre ord et grundlæggende problem, som ikke handler om kvaliteten af den konkrete undersøgelse. Noget af usikkerheden kan naturligvis afdækkes ved at sammenholde svarene med registerbaserede oplysninger, fx om solgte teaterbilletter og operabilletter. 2) En række spørgsmål er formuleret anderledes i 2012-undersøgelsen i forhold til den seneste tilsvarende undersøgelse fra 2004. Det er der en række gode grunde til, som der argumenteres sagligt for i undersøgelsen. Bl.a. hensyn til den teknologiske udvikling i den mellemliggende periode og hensyn til sammenlignelighed med internationale undersøgelser på området.

Problemet er med andre ord ikke undersøgelsen an sich. Problemet er i stedet, hvis man

1) ukritisk tager konklusionerne om vores alle sammens kulturvaner som sandhedsvidne – og ikke blot som det pejlemærke eller fingerpeg, det vitterligt er;

2) konkluderer om udviklingen fra 2004-2012 uden smålig skelen til, hvordan man faktisk har spurgt, herunder om man har ændret i formuleringer og definitioner mellem de to undersøgelser.

Der mangler med andre ord en nuanceret og kritisk læsning og formidling af undersøgelsen. Her kunne kulturministeren passende selv gå forrest i stedet for at lade begejstringen løbe af med sig, når han i ministeriets egen pressemeddelelse udtaler, at børnene “… er meget aktive og læser for eksempel markant flere bøger end i 2004, hvor den forrige kulturvaneundersøgelse fandt sted.” Det ved vi så faktisk ikke noget om, da man i 2012-undersøgelsen har spurgt børnene hvor ofte de læser/hører bøger. Mens man i 2004 spurgte børnene, hvor ofte de læser bøger. Det er dog to forskellige ting.