Journalister generaliserer for hurtigt

“Flere piger elsker at game i fritiden”. “Børn er bange for at fejle i skolen”. “Kvinder frygter indbrud om natten”. Kan du få øje på fællesnævneren?

Journalister er (for) hurtige til at generalisere på baggrund af undersøgelser, viser ny forskning. Det kan føre til urigtige påstande.

Bladrer du igennem en avis, kan du næsten være 100 procent sikker på at møde ordene ’Ny undersøgelse viser, at …’ eller en ’En rundspørge peger på …’. Det viser min egen nye undersøgelse af ti tilfældigt valgte dages indhold i landsdækkende danske dagblade.

På de ti dage møder læserne cirka 200 unikke artikler, som alle bruger en undersøgelse, rapport eller meningsmåling som belæg for påstande. Den helt centrale metode, der anvendes, er spørgeskemaundersøgelser. 120 gange præsenteres vi for en spørgeskemaundersøgelse. Og hvad kan vi så bruge dem til? Journalisterne bruger dem til at generalisere.

Det har jeg skrevet et indlæg om, som du kan læse i sin fulde længde i MediaJournal. Det er også bragt i Politiken d. 23. februar.

Hvis bare det er signifikant …

Danske journalister forholder sig efterhånden hyppigt og kvalificeret til statistisk signifikans og usikkerhed – i meningsmålingsjournalistik: ”… en tilbagegang der lige akkurat er større end den statistiske usikkerhed og derfor er signifikant”. Og “ingen af de to blokke fører dog signifikant … Dødt løb, hvis man tager den statistiske usikkerhed i betragtning“.

Glædeligt – men er det sandt, hvis det er signifikant?

Ikke nødvendigvis, og det ved danske journalister da også godt: “Målingen står indtil videre alene, og derfor skal man være varsom med konklusionerne, men hvis billedet bekræftes af andre meningsmålinger …“.

Klog betragtning. Den kan journalister roligt overføre på forskningsresultater generelt.

Røde kort til sorte spillere
Data kan analyseres statistisk på mange forskellige måder! Forskere skal med andre ord træffe nogle metodevalg, som er styrende for deres statistiske analyser og i sidste ende for de resultater, de offentliggør. Disse valg er i høj grad subjektive, hvor velbegrundede og velargumenterede de end måtte fremstå – og leder til forskellige resultater. Ralph Silberzahn (IESE Business School, Barcelona) og Eric Luis Uhlmann (Insead, Singapore) besluttede at lave et eksperiment, hvor de ville teste, hvordan forskere i praksis træffer forskellige metodevalg, og hvordan det påvirker deres resultater.

29 forskerteams fra hele verden blev stillet samme forskningsspørgsmål: Giver fodbolddommere flere røde kort til sorte spillere end til hvide? De 29 teams, som alle bestod af fagstatistikere, fik det samme datasæt til rådighed og frie hænder til at foretage analysen. Data bestod af samtlige spillere i den bedste række i Spanien, England, Tyskland og Frankrig i sæsonen 2012-2013 og disse spilleres interaktioner med dommere i hele deres professionelle karriere, herunder hvilke røde kort de måtte have fået af hvilke dommere. Alle spillere blev desuden på forhånd kodet efter hudfarve, plads på holdet og en række andre ting.

Forskerens subjektive valg
Denne analyse er vel ret ligetil? Ikke i praksis – viste det sig. 20 forskerteams konkluderede, at hudfarve havde en statistisk signifikant effekt på antallet af rødt kort, altså at sorte spillere får flest røde kort. 9 teams konkluderede, at der ikke var en signifikant sammenhæng. Hvordan kunne det falde så forskelligt ud? Det skyldes, at de 29 teams foretog en række forskellige metodevalg, som ikke er entydigt rigtige eller forkerte – særligt på to områder: 1) De anvendte modeller, som bygger på forskellige statistiske fordelinger; 2) De valgte at kontrollere for forskellige faktorer, fx om den enkelte spiller er forsvarsspiller eller angrebsspiller.

Nu er det sjældent, at journalister præsenteres for 29 simultane analyser baseret på samme forskningsspørgsmål, men mindre kan også gøre det. Eksperimentet viser med al ønskelig tydelighed, at man skal være varsom med at konkludere på en enkeltstående statistisk analyse – selv om den måtte fortælle, at en sammenhæng er signifikant. Eller ikke-signifikant. Mere generelt – og almindeligt – er god, valid forskning blandt andet kendetegnet ved, at andre forskere kan gentage forsøget eller analysen og nå frem til nogenlunde samme resultat, men som bl.a. Jens Ramskov fint har beskrevet i en artikel om samme emne, så viser gentagelseseksperimenter, at overraskende mange forskningsresultater ikke lader sig reproducere.

En svær, men vigtig journalistisk opgave
Det er altså en forbandet god ide altid at spørge, om resultatet står alene eller kan bekræftes af andre lignende forskningsresultater, når man præsenteres for ny forskning.
Det kræver fagekspertise hos den enkelte journalist. Mange danske journalister er eksperter i meningsmålinger og kan på et øjeblik vurdere, om en ny måling ser ”underlig” ud; om der er tale om et ekstremt resultat. Vanskeligere er opgaven, når det gælder alle mulige andre undersøgelser, som (måske?) skal formidles. Men man bør tjekke, om resultaterne understøttes af anden anerkendt forskning. Og forholde sig til metodevalgene. En nylig undersøgelse af forskningsbaseret dækning af udsatte børn og unge, som jeg selv var med til at lave, konkluderer, at forskere på dette fagområde generelt efterlyser større kritisk sans og forståelse af forskningsmetoder og -paradigmer hos journalisterne. Det er vanskeligt, men ikke desto mindre en vigtig journalistisk opgave. Det er ikke nødvendigvis sandt, blot fordi resultatet er ”statistisk signifikant”.

Fup, fejl og fordrejninger

Vil du gerne være din egen detektor? Eller bare blive bedre til at gennemskue tal, fakta og statistik i medierne? Så kan jeg kraftigt anbefale, at du investerer i netop udkomne “Fup, fejl og fordrejninger. Bliv din egen detektor”.

Indrømmet, jeg er ikke en helt uhildet betragter. Jeg er begejstret over, at vi i Danmark har et program som Detektor, og jeg har indimellem selv medvirket i udsendelserne.

9788702164763

Med det sagt, så er det en særdeles oplysende, velskrevet, mundret og eksempelrig bog, Thomas Buch-Andersen og Mads Bøgh Johansen er barslet med. Bogen er inddelt i 11 tematiske kapitler, og det er faktisk bogens helt åbenlyse styrke. Temaerne giver dig hurtigt et overblik over, hvilke typiske fejl og fordrejninger man som mediebruger (eller journalist, politiker, kommunikatør etc.) skal være særligt opmærksom på – tested by reality. Hvis jeg skal fremhæve enkelte temaer, så må det blive “om cherry-picking” – altså når man ved selektiv brug af tal tegner et forkert billede af helheden, “om årsagssammenhænge”, som ofte er nogle helt andre, “om sammenligninger”, som kræver sammenlignelige størrelser, og “om inflation”, som ofte “glemmes”, når priserne igen-igen er rekordhøje. Der er også et udmærket kapitel om meningsmålinger og spørgeskemabaserede undersøgelser, men det bliver dog mest til en indledende introduktion til de typiske validitetsproblemer.

Alle kapitler er krydret med Detektors egne eksempler, og de er både lærerige og underholdende. Bogen indeholder desuden en række korte bidrag fra politikere, erhvervs- og mediefolk, som selv har været en tur i Detektormøllen. Der er – som det nok fremgår – ikke tale om en lærebog. Du lærer ikke, hvordan du finder supplerende tal hos Danmarks Statistik, hvordan du tester for spuriøse sammenhænge, hvordan du korrigerer fra løbende til faste priser, eller hvordan du beregner statistisk usikkerhed ved meningsmålinger. Hvis du skal “kunne selv”, kræver det naturligvis mere end at læse denne bog.

Men med bogen under huden har du alle muligheder for at blive en mere kritisk og vågen medieforbruger. Så læs den. Også – og ikke mindst! – hvis du er journaliststuderende.

 

Gætværk

Et nyt – og problematisk – argument for at tage meningsmålinger for pålydende er begyndt at dukke op blandt journalister og journaliststuderende:

Man anerkender, at de små ændringer i partiernes tilslutning ligger inden for den statistiske usikkerhed, men argumenterer samtidig for, at det er mest sandsynligt, at tilslutningen (altså den virkelige tilslutning blandt alle myndige danskere)  alligevel ligger som målt. Og man slutter deraf, at det er OK at tage undersøgelsen for pålydende.

I en hvis forstand er argumentet rigtigt, men konklusionen er forkert. Jeg diskuterer problemstillingen her: http://journalisten.dk/gaetvaerk

Kvalitetsvægtede gennemsnit af meningsmålinger

Det lyder grimt. Eller i hvert fald kompliceret.

Men faktisk er det ret enkelt: Et gennemsnit af mange meningsmålinger er alt andet lige mere retvisende end de enkelte målinger, som gennemsnittet bygger på. Sådanne gennemsnit finder du fx hos Berlingske Barometer, hos Ritzau Index og på Altinget.dk. Brug dem.

Erik Gahner Larsen har for nylig skrevet et godt og informativt indlæg, som forklarer, hvorfor gennemsnit typisk er mere præcise, og hvad man som journalist eller mediebruger skal være særligt opmærksom på, når man læser meningsmålinger. Læs det.

Mindst 11.000 studerende i bolignød – eller hvad?

I dag kunne man på Politiken.dk læse, at Mindst 11.000 studerende er i bolignød. Forbrugerøkonom hos Nordea, Ann Lehmann Erichsen, udtalte belejligt, at det kom bag på hende, at så stor en gruppe studerende er de facto hjemløse. Det kom da også bag på undertegnede – og sikkert på mange andre overraskede læsere.

Historien bygger på en undersøgelse foretaget af TNS Gallup for – ja, Nordea såmænd. Gallup har i undersøgelsen fået svar fra 490 studerende i alderen 18 til 29 år.

Ud af de 490 studerende, har 1% – eller 4-5 personer – oplyst, at de ikke har nogen permanent adresse. Derudover har yderligere 3% (omtrent 14-15 personer) oplyst, at de bor til fremleje. Smag lige på tallene et øjeblik: 1% uden permanent adresse og 3% til fremleje. Nu er det at bo til fremleje efter mine begreber ikke det samme, som at være de facto hjemløs eller at være i bolignød, men lad nu det ligge. Der er andre og mere væsentlige problemer ved historien.

Problem 1

Det er en – relativt – kendt sag, at den statistiske usikkerhed er relativt (forholdsmæssigt) stor ved små andele. En andel på 1% må siges at være en lille andel. Det samme gælder en andel på 3%. Alarmklokkerne burde derfor nok ringe, når man generaliserer fra undersøgelsen og til samtlige danske studerende på videregående uddannelser. Som man gør, når man skønner, at 11.000 studerende befinder sig i bolignød.

Men hvad er usikkerheden på tallene egentlig? En hurtig beregning på andelen på 1% uden permanent adresse viser, at konfidensintervallet (ved et 95% sikkerhedsniveau) ligger mellem 0,1-1,9 procent. Vi ved med andre ord ganske lidt om omfanget af problemet hos danske studerende som sådan. Det kan således være helt ned til 0,1%. Det er derfor også gætværk, når man konkluderer, at problemet tilsyneladende er dobbelt så stort som i Sverige, hvor man har lavet en lignende undersøgelse. Og det er gætværk, når man skønner, at 11.000 danske studerende er “ramt”.

Intet sted i artiklen forholder man sig til denne betydelige usikkerhed, som i sig selv er ødelæggende for vinklen.

Problem 2

Et andet grundlæggende problem er, at man i artiklen tager for givet, at en studerende uden permanent adresse er i bolignød. Det er bestemt ikke givet. Retfærdigvis skal det siges, at artiklen citerer uddannelsesøkonom, Mie Dalskov Pihl,  for den ret ædruelige indvending, at manglende fast bolig (for et fåtal af studerende) kan skyldes helt almindelige ting som hjemkomst fra udlandsophold, at man er gået fra kæresten eller lige har skiftet studieby. Det ville med andre ord være mærkeligt, hvis undersøgelsen ikke havde vist en lille gruppe uden fast bopæl.

Men når man nu har en kilde, som faktisk leverer den logiske og gode forklaring, hvorfor negligerer man det så fuldstændig i rubrikken og underrubrikken, og lader Nordeas forbrugerøkonom levere sine gætterier uimodsagt?

Det er meget muligt, at der rundt om i landet er problemer med at skaffe boliger nok til vores studerende. Og lad os da endelig tage den debat. Men lad os gøre det på et sagligt grundlag.

Når svarpersoner pynter på virkeligheden

Forleden kunne man i Politiken læse en større undersøgelse af danskernes kulturforbrug. Megafon havde spurgt 1.026 danskere om følgende:

Har du inden for det seneste år gjort én eller flere af nedenstående ting? (Her er et udpluk af de svarmuligheder, man kunne krydse af)

  • Besøgt et kunstgalleri
  • Været til klassisk koncert
  • Været til koncert med rytmisk musik
  • Købt billedkunst
  • Været til opera
  • Hørt radioteater

Det viste sig, at blandt de universitetsuddannede svarpersoner havde halvdelen været i teatret, hver tredje købt billedkunst, hver fjerde været til opera og knap hver tredje været til klassisk koncert. Inden for det seneste år. Hvis man altså tager svarpersonerne på ordet.

Men kan man faktisk stole på den slags svar? Eller har folk en tilbøjelighed til at pynte lidt på virkeligheden? Ja, det har mange mennesker faktisk. Effekten kaldes i fagsproget social desirability bias – en betegnelse, som henviser til, at undersøgelser i almindelighed viser forkert, når de spørger folk om emner, der er socialt følsomme. Socialt følsomme emner kan fx være seksualitet, generøsitet, intolerance, intellektuel formåen og adfærd, som er forbundet med høj eller lav status. Fænomenet (socially desirable responding) er særlig udtalt, når man spørger folk direkte om deres egen adfærd/egne holdninger. Det er ikke nødvendigvis, fordi svarpersonerne lyver. Ofte husker de forkert og tror selv på det, de svarer. Men det hjælper lige lidt.

Hvordan skal man så undersøge folks kulturvaner – og alle mulige andre vaner – og få valide svar? Èn mulighed er at lade være med at spørge! I stedet kan man via Danmarks Statistik og kulturinstitutionerne undersøge, hvor mange billetter, der faktisk er solgt over en 1-årig periode. Men det besvarer jo ikke spørgsmål om køb af billedkunst m.v.

En anden mulighed er at gøre svarene mere forpligtende. Man kan fx bede svarpersonerne konkretisere, hvor og hvornår de har været i operaen, og eventuelt fortælle, hvad de har set. Det kan man problem- og omkostningsfrit gøre i en webbaseret undersøgelse, og det vil gøre det noget vanskeligere for svarpersonerne at pynte på virkeligheden. Det vil provokere svarpersonen til faktisk at tænke efter. Måske ligger operaturen og kunstkøbet et par år tilbage, når det kommer til stykket?

En anden problemstilling ved undersøgelsen er Megafons nedbrydning af stikprøven på 6 undergrupper (længste gennemførte uddannelse). Det er legitimt at gøre, men giver stor statistisk usikkerhed på de konkrete tal, når den samlede stikprøve ikke er større end 1.026 danskere. Denne betydelige usikkerhed forbigås i rungende tavshed.

Alt i alt er der god grund til at tage undersøgelsens resultater med et stort gran salt. Desværre bliver ingen af disse oplagte fejlkilder og forbehold nævnt i artiklen. Tværtimod. Undersøgelsens resultater tages for pålydende:

“Mens for eksempel 26 procent af kandidaterne fra universiteterne har været til opera inden for det seneste år, så gælder det 6 procent af håndværkerne og 9 procent af de ufaglærte.”

Det er for skråsikkert. For ukritisk. Og formentlig forkert. Og det havde faktisk ikke krævet meget at gøre det bedre.

Målingerne ramte skævt

Gårsdagens valgresultat vækker næppe professionel begejstring hos landets meningsmålingsinstitutter. Ved valget i 2007 ramte institutterne således noget tættere på resultatet, end tilfældet har været i år.

Her er overblikket over institutternes fejlprocenter*. I tabellen kan du også se fejlprocenter for Berlingske Barometer, Altingets gennemsnit og det uvægtede gennemsnit, som dagligt er blevet præsenteret her på siden.

Gallup kom i år tættest på med en fejlprocent på 2,4. Til sammenligning havde Megafon og Catinét i 2007 fejlprocenter på blot 1,2 og 1,8. Ingen af gennemsnitsmålene kom for alvor tæt på, men de blev dog kun slået af Gallup. Det uvægtede gennemsnit af de seneste 5 målinger viste sig at være mindst lige så retvisende, som Berlingske Barometer og Altingets mere avancerede modeller.

Hvad gik galt? Venstre og SF snød institutterne. Henholdsvis positivt og negativt. Omvendt lykkedes det i år at estimere tilslutningen til Dansk Folkeparti – noget som voldte enkelte institutter store problemer i 2007.

Tidsfaktoren spiller naturligvis en rolle: Der kan ske noget politisk på selve valgdagen, som målingerne ikke når at registrere. Men det er svært at pege på noget konkret ved årets valg. Måske er svaret helt enkelt, at institutterne ikke fik estimeret tvivlerne godt nok.

Hør indslag i Detektor på P1, hvor jeg udtaler mig om, hvordan målingerne ramte.

*Fejlprocent betyder, hvor mange procentpoint, der skal flyttes i en måling for at ramme valgresultatet. fejlprocenten er beregnet som summen (numerisk) af forskellene mellem de enkelte partiers valgresultatet og den enkelte målings estimat af samme. Summen er herefter divideret med to. Summen divideres med to, for at fejl ikke kommer til at tælle dobbelt (hvis et parti estimeres for højt, vil et andet parti jo nødvendigvis estimeres for lavt, når summen skal give 100%). Modellen er udarbejdet af Søren Risbjerg Thomsen, professor og valgekspert, Aarhus Universitet.

Drop enkeltmålingerne

Opdateret 15. september kl. 9:00 (5 målinger fra Gallup, Epinion, Megafon, Voxmeter og Rambøll)

Drop nu enkeltmålingerne og se på nogle gennemsnitsmål over tid i stedet. Nogenlunde sådan har jeg – og mange andre – sagt og skrevet den seneste uge. For hvad skal man stille op med 6 nye daglige meningsmålinger, som stritter indbyrdes?

Berlingske Barometer formidler sådan et dagligt gennemsnit, og dem ville jeg egentlig gerne anbefale. Men jeg ved ikke, hvordan de gør! “En avanceret model ligger til grund for beregningen” – sådan skriver de, på deres hjemmeside. Nogenlunde som ethvert andet analysefirma ville skrive det. Nå nej, Berlingske er jo ikke et analysefirma. Eller er de? Deres fremgangsmåde er under alle omstændigheder en forretningshemmelighed. Læseren må derfor bare stole på, at journalisterne og researchafdelingen er kloge og har ret. Hmm…

Jeg har derfor sat mig for hver dag at formidle et simpelt gennemsnit baseret på de seneste målinger fra 5-6 institutter* med svar indsamlet de seneste 3 dage** (tabellen opdateres dagligt – klik på den for fuld størrelse):


Nu er det simple gennemsnit jo hverken avanceret eller hemmeligt. Men baseret på de første 3 sammenligninger (4.-6.  5.-7.  og 6.-8. september) så rammer det en anelse anderledes end Berlingskes gennemsnit. Hvad kan det skyldes? Formentlig, at Berlingske medtager flere ældre målinger i deres vægtede gennemsnit. Det simple gennemsnit her på siden er i så fald mere følsomt over for dag-til-dag udviklinger.

Men er gennemsnittet så til at stole på? Ja, det lever i hvert fald op til kravene om aktualitet kombineret med mange svar, og det er givetvis bedre end alle de daglige enkeltmålinger. Med en stikprøve på ca. 6000 repræsentativt udvalgte svarpersoner bør gennemsnittet tegne et temmelig retvisende billede. Den matematiske usikkerhed er reduceret til maksimalt 1,3 procentpoint (plus/minus). Tjek selv med beregneren på denne hjemmeside (beregn usikkerhed 1 andel).

Vær opmærksom på, at der dagligt “kun” udskiftes ca. 2000 svarpersoner i de valgte målinger. Det betyder, at dag-til-dag udviklinger mellem blokkene baserer sig på disse 2000 nye svar – og ikke 6000 nye svar.

*Gennemsnittet er baseret på daglige målinger fra typisk Gallup, Epinion, Megafon, Voxmeter, Rambøll og Norstat.

**Svarene er indsamlet over tre dage. Institutterne anvender rullende målinger.