Har hver fjerde ung været til lægen med stress?

Forleden kunne man i flere danske medier læse, at mere end hver fjerde ung har opsøgt læge eller været sygemeldt på grund af stress. Et skræmmende “resultat”, som hurtigt affødte kommentarer fra flere folketingspolitikere om behov for politisk handling. Og ja, der kan godt være brug for politisk handling. Men grundlaget for politisk handling skal være solidt og velunderbygget. Var det tilfældet her?

Baggrunden var en ny rapport fra Ungetrivselsrådet, som har indsamlet svar fra 1870 unge i alderen 15-30 år. Umiddelbart lyder det jo ret solidt. Så hvad er problemet egentlig? Repræsentativitet. Eller rettere: Mangel på samme.

De 1870 indsamlede svar er ikke repræsentative for den danske ungdom. Der er nemlig en markant overvægt i undersøgelsen af unge kvinder, unge fra Hovedstaden og Syddanmark og unge på ungdomsuddannelser. Konsekvensen af skævheden er, at undersøgelsen risikerer at give et fortegnet billede af “unge med stress”. Flere medier opdagede heldigvis problemet og har skrevet om det, fx TjekDet.

Okay, så undersøgelsen er ikke repræsentativ. Derfor kan den vel godt påpege eksistensen af et problem? Ja. Bare ikke på nogen måde præcist. Det skylder man at fortælle læseren. Og tage konsekvensen af. Ved ikke at generalisere. Og ved ikke at foregive, at man kan sige noget præcist om problemets omfang. Ansvaret ligger hos journalisten.

Men ligger ansvaret da ikke også hos andre? Jo, Ungetrivselsrådet kunne godt skrive (lidt) tydeligere i deres pressemeddelelse, at undersøgelsen ikke er repræsentativ. Og politikere kunne godt lave et minimum af research, før de tweeter om behov for politisk handling. Men vi ved godt, at det ikke altid sker. Vi kommenterer og deler, før vi tjekker. Så meget desto større er behovet for, at journalisten forholder sig kildekritisk.

Fra metodehjørnet: Hvad så med den statistiske usikkerhed, tænker du måske? Har jeg glemt den? Det er vel netop til sådan en undersøgelse, at man kan bruge usikkerhedsberegnerne her på dette site? Nej! Beregnerne må kun bruges til resultater fra undersøgelser, som er repræsentative. Man beregner kun statistisk usikkerhed på repræsentative undersøgelser. Så det er slet ikke aktuelt med Ungetrivselsrådets undersøgelse. Også derfor er det afgørende, at journalister er i stand til at afgøre, om en undersøgelse er repræsentativ eller ej.

Journalister generaliserer for hurtigt

“Flere piger elsker at game i fritiden”. “Børn er bange for at fejle i skolen”. “Kvinder frygter indbrud om natten”. Kan du få øje på fællesnævneren?

Journalister er (for) hurtige til at generalisere på baggrund af undersøgelser, viser ny forskning. Det kan føre til urigtige påstande.

Bladrer du igennem en avis, kan du næsten være 100 procent sikker på at møde ordene ’Ny undersøgelse viser, at …’ eller en ’En rundspørge peger på …’. Det viser min egen nye undersøgelse af ti tilfældigt valgte dages indhold i landsdækkende danske dagblade.

På de ti dage møder læserne cirka 200 unikke artikler, som alle bruger en undersøgelse, rapport eller meningsmåling som belæg for påstande. Den helt centrale metode, der anvendes, er spørgeskemaundersøgelser. 120 gange præsenteres vi for en spørgeskemaundersøgelse. Og hvad kan vi så bruge dem til? Journalisterne bruger dem til at generalisere.

Det har jeg skrevet et indlæg om, som du kan læse i sin fulde længde i MediaJournal. Det er også bragt i Politiken d. 23. februar.

Gør kage på jobbet dig fed?

Det kunne man forleden læse i B.T., som også kunne fortælle, at 41 procent ønsker færre kager på arbejdspladsen. For en kageglad mand som mig lød det umiskendeligt som en tvivlsom historie. Kunne det virkelig passe? Gad vide hvad belægget mon var for de påstande?

Andre undrede sig også. Mandag Morgens TjekDet-redaktion bad mig (og andre metodenørder) kigge nærmere på undersøgelsen og artiklen. Resultatet kan du læse her.

Det er muligt, at man kan blive fed af kage på jobbet. Og det er muligt, at fire ud af ti danskere ønsker færre kager på arbejdspladsen. Men ingen af delene er dokumenteret i B.T.s artikel eller i undersøgelsen bag. Metodehints: #repræsentativitet; #spørgeteknik; #kausalitet; #sammenhæng mellem rubrik og undersøgelse;

TjekDet – selv.

Er klimapolitik danskernes foretrukne valgtema?

Klimapolitik er danskernes foretrukne valgtema. Forleden kunne man læse denne opsigtsvækkende nyhed hos den grønne tænketank Concito. Dagen forinden havde Berlingske imidlertid fortalt, at flygtninge- og indvandrerpolitikken ifølge danskerne er det vigtigste politikområde for en kommende regering. Flere medier undrede sig behørigt over de strittende budskaber. DR’s Detektor tog fat i undersøgelserne og skrev en glimrende artikel om metodeproblemerne ved Concitos undersøgelse, men kom ikke hele vejen rundt. Her er den lidt længere – og lidt mere nørdede – version.

Priming
Concitos undersøgelse bygger på en survey med 27 spørgsmål, som alle handler om klimaforandringer, grøn omstilling, drivhusgasser og klimaudfordringen. Efter de første 26 spørgsmål kommer så spørgsmålet om valgtemaer: “Hvilke af følgende temaer mener du, er vigtigst at få prioriteret i valgdebatten forud for det kommende folketingsvalg?” De 1076 respondenters svar fordelte sig således:

klimabarometer_valg

Problemet er, at respondenterne primes pga. måden, spørgeskemaet er bygget op. Priming kan defineres som “an implicit memory effect in which exposure to a stimulus influences a response to a later stimulus”. Altså en implicit hukommelseseffekt, hvor personen udsættes for et stimuli (her 26 klimaspørgsmål), hvilket påvirker personens svar på et senere stimuli (her spørgsmål 27 om valgtemaer), uden at personen selv er opmærksom på det. Det er derfor velegnet til manipulation og børnelærdom inden for marketing og salg. Det er bestemt ikke sikkert, at Concito gør det med intention om at manipulere resultatet. Men i praksis er det det, der sker. Der etableres en underliggende præmis om, at klimaområdet er vigtigt. En situationsbias. Er Berlingskes undersøgelse så et hak bedre? Ja, det er den faktisk. For den indeholder ikke 26 forudgående stimuli-spørgsmål. De spørger direkte ind til “de vigtigste politikområder” og får denne svarfordeling:

Berlingskes undersøgelse

Repræsentative svarpersoner
Når man undersøger danskernes foretrukne valgtemaer, skal det gøres med repræsentative udsnit (stikprøver) af den voksne danske befolkning. Begge undersøgelser er gennemført af anerkendte analysebureauer (Analyse Danmark og Kantar Gallup), som normalt gør en dyd ud af at fortælle, at svarpersonerne er repræsentativt udvalgte vælgere. Det hviler på en underliggende forudsætning om, at de udvalgte personer faktisk svarer. Er der frafald, kan det være med til at skævvride undersøgelsen og gøre den ikke-repræsentativ. Hvis det sker, er der problemer med den eksterne validitet. Frafald kan opstå undervejs i en undersøgelse. Der er risiko for, at svarpersonen giver op, hvis der er mange spørgsmål; hvis spørgsmålene virker uvedkommende; hvis man er uenig i præmissen for undersøgelsen. I en undersøgelse med 27 spørgsmål om klima er der risiko for, at svarpersoner giver op, hvis de ikke interesserer sig for klimaet og ikke mener, at det er et vigtigt politisk tema. Det kan potentielt skævvride undersøgelsens resultater. Det oplyses, at der undervejs i undersøgelsen sker et frafald på 8 procent. Vi ved ikke, om nogle af dem falder fra på grund af manglende interesse for emnet. Men risikoen er til stede.

Hvad betyder “foretrukne” og “vigtigst”?
Berlingske præsenterer med egne ord politikområder, som er “vigtigst for danskerne”. Concito taler om “danskernes foretrukne valgtema”. Men hvordan kommer man rent metodisk frem til “foretrukne” og “vigtigst”?

For det første opstiller man to forskellige lister med politikområder. Concito udvælger 17 valgtemaer, mens Berlingske udvælger 13 politiske områder. Det er svært på den baggrund at tale om objektive eller direkte sammenlignelige målinger af, hvad danskerne foretrækker. Der er (naturligvis) allerede på forhånd truffet nogle valg for svarpersonerne. Disse valg er præmisser og er forskellige for de to undersøgelser.

For det andet giver man ikke svarpersonerne det samme antal krydser at sætte. Concito lader svarpersonerne sætte fem krydser, mens Berlingske lader sine svarpersoner sætte tre krydser. Er det nu vigtigt? Ja! Det kan faktisk være helt afgørende for undersøgelsens resultat.

Lad mig illustrere pointen med to fiktive holdningsfordelinger, jeg har opfundet til lejligheden:

klimapolitik fiktiv grafik

Indvandrerpolitik fiktiv grafik

Tag et godt kig på de to fordelinger. Har du gættet pointen?

Hvis vi vælger Concitos model med fem krydser (hver person sætter kryds for de fem områder, som har højest prioritet), så vil 48% pege på klimapolitik. Og 48% vil pege på flygtninge- og indvandrerpolitik. Ergo har vores undersøgelse nu vist, at befolkningen peger på de to områder som lige vigtige.

Hvis vi derimod vælger Berlingskes model med tre krydser, så vil 28% pege på klimapolitik. Mens 39% vil pege på flygtninge- og indvandrerpolitik. Ergo har vores undersøgelse nu vist, at befolkningen klart peger på flygtninge- og indvandrerpolitik som vigtigst.

Jamen det var jo den samme undersøgelse med de samme spørgsmål og de samme svarpersoner? Nemlig. Vi vælger bare at kigge på to forskellige udsnit af disse personers politiske præferencer. Og det gør en verden til forskel. Ja, det giver faktisk to radikalt forskellige nyhedshistorier. Og hvad værre er: Vi kan ikke på forhånd entydigt sige, om det er mest korrekt at lade svarpersonerne sætte 1, 2, 3 eller 5 krydser. Men vi kan i det mindste være opmærksomme på problemstillingen.

Som sagt er fordelingerne fiktive. Vi ved ikke, hvordan det havde set ud, hvis Concito havde begrænset sig til tre krydser. Eller hvis Berlingske havde tilladt fem. Men “danskernes foretrukne temaer” og “de vigtigste politikområder” havde formentlig set anderledes ud.

 

Når undersøgelser er kommercielt bullshit

Er hussælgere for grådige? Vil gør-det-selv-folket virkelig genbruge? Og giver de fleste forældre deres børn lommepenge? Arrgh..! Mit hoved sprænges af spænding. Hvor er Dolph, og hvor er hans kølle?

Jeg har skrevet en klumme til Mandag Morgens Tjekdet om kommercielle undersøgelser i medierne: naar-undersoegelser-er-noget-kommercielt-bullshit.

Formue og boligejerskab hænger da sammen, ikke?

Boligejere har otte gange større formue end lejere. Sådan kunne man læse tidligere på året hos Ugebrevet A4. Baggrunden var en netop udkommet analyse fra Danmarks Statistik med titlen: “Boligejerskab kan forklare en stor del af formueuligheden“.

A4 analyse billede 1Otte gange større formue. 3 millioner kroner i formuegab pr. husholdning. Det er alligevel en slat. Man forestiller sig, hvordan det gibber i “leje”læseren. Man forestiller sig køen foran den lokale ejendomsmægler.

Men vent. Lad os lige kaste et nærmere blik på undersøgelsen fra DST Analyse. Den rummer nemlig en række spændende metodiske dilemmaer. Og nogle lidt – overraskende – valg.

Første undren. Analysen er lavet på baggrund af danske husstandes gennemsnitsformuer. Er der noget galt i det? Well, man kunne i stedet have lavet analysen på baggrund af medianformuer. Og det gør man faktisk ofte, når man analyserer fx løn og formue. Forklaringen er lige så simpel, som den er god: Medianformuen er upåvirket af, at de rigeste danskere ejer langt mere end den typiske dansker. Det er gennemsnitsformuen til gengæld ikke. Overhovedet ikke!

DST billede 4De 10 procent rigeste danskere ejer 50 procent af nettoformuen. Det betyder, at de trækker gennemsnitsformuen gevaldigt i vejret. Lad os antage, at de superrige danskere er boligejere. Det lyder som en plausibel antagelse. Så er det boligejernes formuer, som trækkes i vejret. Dermed fremstår forskellen på ejere og lejere kunstigt stor. Lad os samtidig antage, at de superrige danskere næppe er blevet superrige, fordi de har købt et hus. Kan du se, hvor jeg vil hen?

Anden undren. Som læser efterlades man umiddelbart med det indtryk, at boligejerskab er nøglen til formuenhed. Hvad der åbenlyst er en voldsom stramning. DST Analyse nuancerer selv delvist dette indtryk i deres analyse. De anvender en såkaldt dekomponeringsmodel til at forklare formuegabet mellem ejere og lejere. Modellen viser, at variablene indkomst, alder og uddannelsesmæssig baggrund kan forklare cirka halvdelen af formuegabet. Med andre ord: Boligejere og lejere er generelt nogle lidt forskellige typer. Lejere kan fx være studerende eller yngre mennesker, som endnu ikke har nået at spare op, eller bare mennesker med lav indkomst.

Men hvad så med de sidste 50 procent af formuegabet? Kan det forklares med boligejerskab? Noget af det kan givetvis. Hvor meget ved vi ikke noget om. Der kan være mange andre faktorer, som dekomponeringsmodellen ikke tager højde for. Arv fx. Alligevel skriver DST, at de sidste 50 procent “kan tilskrives, at boligejere har en større formue end lejere med de samme karakteristika”.

Tredje undren. DST Analyse gør en dyd ud af at slå fast, at de ikke har belæg for at sige noget om årsagssammenhænge. De kan med andre ord ikke sige, om (noget af) forskellen i formue faktisk skyldes boligejerskab. Men hvordan kan de så samtidig skrive i analysens titel, at “Boligejerskab kan forklare (min kursivering) en stor del af formueuligheden”? Ordet forklare bruges igen og igen i analysen. Men forklare implicerer vel, at tingene hænger sammen?

Fjerde undren. DST Analyse skriver, at “Formue i fast ejendom er den største komponent i husholdningernes formue”. Ugebrevet A4 griber den naturligvis og skriver, at “boligen er det aktiv i husholdningernes formue, som betyder mest for uligheden i formuefordelingen”. Men det er forkert – ud fra DSTs egne tal. Formuen i fast ejendom er kun den største komponent, hvis man ser bort fra husstandenes gæld. Enhver almindelig boligejer kan godt finde ud af at skelne mellem friværdi og boligens vurdering. De to tal er sjældent identiske. Hvis man trækker gæld i ejendommen fra og dermed ser på friværdi som formuekomponent, så er det slet ikke den største komponent. Både pension og finansielle aktiver er større. Faktisk så gør DST selv fint rede for dette længere nede i deres analyse. Men hvorfor så konkludere forkert?

Der er næppe tvivl om, at boligejerskab kan forklare noget af formueuligheden blandt danskerne. Men hvor meget? Min største anke er egentlig, at analyser som denne er med til at skabe forkerte billeder inde i almindelige danskeres hoveder. Ikke fordi de læser analysen fra DST. Det gør de næppe. Men måske læser de mediernes gengivelse af konklusionerne. Det er en skam.

Hvad har usexede sportsgrene og upopulære ministre til fælles?

Da agurkesæsonen i juli peakede i et slags omvendt proportionalt kapløb med det elendige sommervejr, kunne man hos Metroxpress læse Ny undersøgelse: Denne sport synes danske unge er MINDST sexet.

Kan ikke modstå maddingen. Jeg begynder at bladre den illustrerede liste med sportsgrene igennem. 0%. 0%. Hmm, gad vide hvad det betyder? Efter et par klik sker det. Et voldsomt ubehag rammer mig. Bladrer hurtigt frem, hurtigt tilbage, hurtigt frem igen. Har jeg misforstået listen? Nej, en hurtig skimning af artiklen bekræfter mine bange anelser. Ubehaget er nu blevet til kvalme. Jeg ser dem i glimt for mig. Waldner. Maze. Tugwell. Pedersen. Min ungdoms idoler. Nu reduceret til ikoner for den mindst sexede sportsgren. I Danmark. Ifølge unge. Bordtennis.

Værre: Det er ifølge den citerede køns- og til lejligheden showforsker, Karen Sjørup, slet ikke underligt, for bordtennis er en sport, der ikke er “meget show i”. Aaav.

Noget må være galt med den undersøgelse. Den MX-journalist har da vist været ramt af fikseringsfejl. Og det var da også en helt utrolig negativ vinkel. Jeg beslutter mig for i videnskabens tjeneste at kaste et KRITISK blik på metoden bag. Er undersøgelsen overhovedet repræsentativ? Tages der højde for den statistiske usikkerhed? Og hvad med målingsvaliditeten? Måler man faktisk det, man tror? Heldigvis har analysefirmaet bag, YouGov, været flinke og varedeklarere, og Metroxpress har været flinke at bringe deklarationen. Den ser sådan her ud:

usexet sport 2

Nedslået må jeg konstatere, at der ikke umiddelbart er noget alvorligt at udsætte på repræsentativiteten. Svarpersonerne kommer ganske vist næsten med sikkerhed fra YouGovs webpanel, og de rekrutterer ikke via simpel tilfældig udvælgelse, så måske kan der være systematiske forskelle, når man sammenholder de 900 svarpersoner med “alle danske unge”? Ja, det kan der godt. Men det er næppe noget, der rykker fundamentalt ved de overordnede resultater.

Nå, hvad så med den statistiske usikkerhed? Den er da vist blevet glemt i skyndingen? HVIS man tager højde for usikkerheden, kan man med rette så tvivl om, hvem der ligger sidst, næstsidst og tredjesidst osv. på listen. De nederste sportsgrene på listen har nemlig alle det til fælles, at de har fået lige omkring nul stemmer. Okay, så rubrikken er altså lidt skråsikkert konkluderende. Der kan sagtens være tale om en fejludråbt taber. Måske er den virkelige bundskraber karate eller ishockey? Eller en af de sportsgrene, som slet ikke optræder på Metroxpress’ ikke-udtømmende liste over sportsgrene? Mit humør stiger en anelse. Min mission – at genoprette Maze og Co.’s anseelse – er tilbage på sporet.

Men der er større og mere interessante problemer. For hvad er det egentlig, de 900 unge har svaret på? Spørgsmålet lyder: “Hvilken sportsgren synes du, er mest sexet?” Men kan man derudfra konkludere, hvad der er mindst sexet? Nej. Hvis man vil vide, hvad der er mindst sexet, så skal man … yes, rigtigt … spørge om det. Og her kommer de upopulære ministre ind i billedet. For hvis man vil undersøge, hvilke ministre der er mindst populære, så skal man også spørge om det. Og IKKE spørge, hvem der er mest populær. Det har Erik Gahner Larsen tidligere overbevisende demonstreret. Der er med andre ord tale om et problem, vi møder i andre sammenhænge i nyhedsstrømmen.

Undersøgelsen kan altså ikke bruges til at sige noget om, hvilken sportsgren der er mindst sexet. Jeg kan mærke, at denne her analyse er god. Det føles helt rigtigt. Det slår mig, at jeg burde sende et link til DBTU’s presseansvarlige. Og Maze. Han er sikkert også nedtrykt.

Men fortæller undersøgelsen så faktisk, hvilken sportsgren der er mest sexet? Njah, det kan man faktisk godt sætte spørgsmålstegn ved. I undersøgelsen peger hele 15 procent på fodbold som den mest sexede sportsgren. Til det kan man indvende to ting:

1) Er det i virkeligheden en kombination af eksponering, tilslutning og sexethed, vi måler? På samme måde, som man vanskeligt kan vurdere en ny-udnævnt (ikke-eksponeret) minister, kan man vel vanskeligt pege på de mindst eksponerede/dyrkede sportsgrene?

2) Hvad nu, hvis 15 procent samtidig peger på fodbold som direkte usexet? Altså, forudsat at de 900 unge fik chancen for at tage stilling til usexethed. Lad os rent hypotetisk forestille os, at fodbold deler vandene. Måske svarer de 15 procent, som dyrker fodbold, at det er mest sexet. Mens deres respektive partnere svarer, at det er dybt usexet. Det ville være et lidt ærgerligt resultat for de pågældende. Men tænkeligt. Ministerparallellen er til at få øje på. Støjberg.

Det konstruktive
Alternativt og bedre (!) kan man bede svarpersonerne bedømme hver enkelt sportsgren på en skala fra 1-5. Det gør YouGov da også i deres ministermålinger. På den måde kan man både se, hvem der får flest ekstreme værdier (1 og 5) og rangliste sportsgrenene efter deres gennemsnitsscorer eller efter andel positive minus andel negative bedømmelser. Det ville – måske – give helt andre resultater. Kan du også mærke endorfinerne nu, Maze? Og lad os så få det show.

Hvis bare det er signifikant …

Danske journalister forholder sig efterhånden hyppigt og kvalificeret til statistisk signifikans og usikkerhed – i meningsmålingsjournalistik: ”… en tilbagegang der lige akkurat er større end den statistiske usikkerhed og derfor er signifikant”. Og “ingen af de to blokke fører dog signifikant … Dødt løb, hvis man tager den statistiske usikkerhed i betragtning“.

Glædeligt – men er det sandt, hvis det er signifikant?

Ikke nødvendigvis, og det ved danske journalister da også godt: “Målingen står indtil videre alene, og derfor skal man være varsom med konklusionerne, men hvis billedet bekræftes af andre meningsmålinger …“.

Klog betragtning. Den kan journalister roligt overføre på forskningsresultater generelt.

Røde kort til sorte spillere
Data kan analyseres statistisk på mange forskellige måder! Forskere skal med andre ord træffe nogle metodevalg, som er styrende for deres statistiske analyser og i sidste ende for de resultater, de offentliggør. Disse valg er i høj grad subjektive, hvor velbegrundede og velargumenterede de end måtte fremstå – og leder til forskellige resultater. Ralph Silberzahn (IESE Business School, Barcelona) og Eric Luis Uhlmann (Insead, Singapore) besluttede at lave et eksperiment, hvor de ville teste, hvordan forskere i praksis træffer forskellige metodevalg, og hvordan det påvirker deres resultater.

29 forskerteams fra hele verden blev stillet samme forskningsspørgsmål: Giver fodbolddommere flere røde kort til sorte spillere end til hvide? De 29 teams, som alle bestod af fagstatistikere, fik det samme datasæt til rådighed og frie hænder til at foretage analysen. Data bestod af samtlige spillere i den bedste række i Spanien, England, Tyskland og Frankrig i sæsonen 2012-2013 og disse spilleres interaktioner med dommere i hele deres professionelle karriere, herunder hvilke røde kort de måtte have fået af hvilke dommere. Alle spillere blev desuden på forhånd kodet efter hudfarve, plads på holdet og en række andre ting.

Forskerens subjektive valg
Denne analyse er vel ret ligetil? Ikke i praksis – viste det sig. 20 forskerteams konkluderede, at hudfarve havde en statistisk signifikant effekt på antallet af rødt kort, altså at sorte spillere får flest røde kort. 9 teams konkluderede, at der ikke var en signifikant sammenhæng. Hvordan kunne det falde så forskelligt ud? Det skyldes, at de 29 teams foretog en række forskellige metodevalg, som ikke er entydigt rigtige eller forkerte – særligt på to områder: 1) De anvendte modeller, som bygger på forskellige statistiske fordelinger; 2) De valgte at kontrollere for forskellige faktorer, fx om den enkelte spiller er forsvarsspiller eller angrebsspiller.

Nu er det sjældent, at journalister præsenteres for 29 simultane analyser baseret på samme forskningsspørgsmål, men mindre kan også gøre det. Eksperimentet viser med al ønskelig tydelighed, at man skal være varsom med at konkludere på en enkeltstående statistisk analyse – selv om den måtte fortælle, at en sammenhæng er signifikant. Eller ikke-signifikant. Mere generelt – og almindeligt – er god, valid forskning blandt andet kendetegnet ved, at andre forskere kan gentage forsøget eller analysen og nå frem til nogenlunde samme resultat, men som bl.a. Jens Ramskov fint har beskrevet i en artikel om samme emne, så viser gentagelseseksperimenter, at overraskende mange forskningsresultater ikke lader sig reproducere.

En svær, men vigtig journalistisk opgave
Det er altså en forbandet god ide altid at spørge, om resultatet står alene eller kan bekræftes af andre lignende forskningsresultater, når man præsenteres for ny forskning.
Det kræver fagekspertise hos den enkelte journalist. Mange danske journalister er eksperter i meningsmålinger og kan på et øjeblik vurdere, om en ny måling ser ”underlig” ud; om der er tale om et ekstremt resultat. Vanskeligere er opgaven, når det gælder alle mulige andre undersøgelser, som (måske?) skal formidles. Men man bør tjekke, om resultaterne understøttes af anden anerkendt forskning. Og forholde sig til metodevalgene. En nylig undersøgelse af forskningsbaseret dækning af udsatte børn og unge, som jeg selv var med til at lave, konkluderer, at forskere på dette fagområde generelt efterlyser større kritisk sans og forståelse af forskningsmetoder og -paradigmer hos journalisterne. Det er vanskeligt, men ikke desto mindre en vigtig journalistisk opgave. Det er ikke nødvendigvis sandt, blot fordi resultatet er ”statistisk signifikant”.

Lykke uden Facebook …?

Institut for Lykkeforskning har sat 1.200 danskere på Facebookafvænning, kunne man forleden læse i Politiken og en række andre danske medier. Og det har de haft godt af. Afvænningen forstås.

Billede3

Måske skulle man prøve medicinen? – tænkte jeg ved mig selv. Men først ville jeg godt vide lidt mere om undersøgelsen bag, så jeg dykkede ned i rapporten.

Der er tale om et eksperiment, hvor cirka 600 danskere i en uge skulle undvære Facebook (den såkaldte treatmentgruppe), mens cirka 500 danskere blot skulle fortsætte deres sædvanlige forbrug (kontrolgruppen).  Ved hjælp af spørgeskemaer har man henholdsvis før og efter ”eksperimentugen” stillet såvel kontrol- som treatmentgruppen en række enslydende spørgsmål relateret til lykke og livstilfredshed. På hvert spørgsmål har man kunnet angive tilfredshed, aktivitet etc. på skalaer fra enten 1-5 eller 1-10.

Gennemsnitsscorerne på spørgsmålet om livstilfredshed henholdsvis før og efter så således ud:

Billede4

Efter en uge uden Facebook rapporterer treatmentgruppen ”a significantly higher level of life satisfaction”.

Dejligt, tænkte jeg. En signifikant højere livstilfredshed. Men samtidig nagede tvivlen i mig. For manglede jeg ikke nogle informationer? Hvordan kan man som journalist – eller helt almindelig læser – vurdere undersøgelsens troværdighed?

Man kan fx starte her:

1. Signifikant højere i forhold til hvad? Er det i forhold til kontrolgruppen? Eller i forhold til treatmentgruppens egen livstilfredshed før eksperimentets start?

2. Hvad betyder ”signifikant højere niveau” egentlig? Er det på et 5 procents signifikansniveau? Eller et 1 procents signifikansniveau? Eller noget tredje?

3. Hvorfor fortæller rapporten kun, at lige netop dette resultat er signifikant? Skyldes det, at Facebook-effekterne målt på alle de andre spørgsmål, som stilles, ikke er signifikante?

4. Skal man se på (og rapportere) før-efter tallene inden for treatmentgruppen, eller bør man sammenligne kontrolgruppens og treatmentgruppens efter-resultater, hvis man vil udtale sig om en mulig effekt? Altså, hvilke tal bør journalisten (efter dialog med instituttet) sammenligne og vinkle ud fra?

5. Er der ikke en eksperimenteffekt, som man skal forholde sig til? Altså, når nu kontrolgruppen scorer højere på samtlige tilfredshedsspørgsmål efter en uge, hvor de absolut ingen ”medicin” har fået? Bliver de lykkeligere af at være med i eksperimentet? Skulle vi så ikke ordinere nogle flere eksperimenter til alle mellemfornøjede danskere?

6. Kan jeg overføre resultaterne til mit eget liv? Der er jo tale om gennemsnitstal, altså gennemsnitlige effekter. Men vi er vel ret forskellige som Facebook-brugere? Nogle er meget aktive, andre er mere passive. Nogle er tilsyneladende altid på (kender du typen?), mens andre har et mere moderat forbrug. Er der risiko for en niveaufejlslutning her? Og kunne man ikke nedbryde treatmentgruppen i nogle ”typer” Facebook-brugere, som man bedre selv kan spejle sig i?

Alle disse spørgsmål tårnede sig op. Nyhedsartiklerne om eksperimentet gav ikke svar på spørgsmålene. Rapporten fra Institut for Lykkeforskning gjorde heller ikke. Og det var jo egentlig alt sammen relevante opklarende journalistiske spørgsmål.

Jeg kontaktede derfor folkene bag undersøgelsen, og de var heldigvis flinke til at svare. For der findes selvfølgelig – selvfølgelig! – svar på alle disse spørgsmål:

Stigningen i livskvalitet, som medierne rapporterede, var stigningen inden for treatmentgruppen – altså gennemsnitsscoren henholdsvis før (7,56) og efter (8,12). Og den er statistisk signifikant på ethvert rimeligt signifikansniveau (p<0,01). Som enhver journalistdimittend fra Danmarks Medie- og Journalisthøjskole er klar over, kan jeg kun lave denne beregning, hvis jeg kender standardafvigelserne (da der er tale om gennemsnitsscorer). Disse fremsendte Institut for Lykkeforskning beredvilligt, og så var det enkelt at kontrolberegne i et regneark.

Men burde man ikke i stedet have rapporteret forskellen mellem kontrolgruppen og treatmentgruppen? Kunne det ikke imødegå indvendingen i forhold til en mulig eksperimenteffekt? Jo. Er der gode journalistiske grunde til IKKE at gøre dette, og i stedet vinkle på den størst mulige observerede effekt i undersøgelsen, altså stigningen fra 7,56 til 8,12? Nej.

Effekterne på det sociale liv målt som sociale aktiviteter og tilfredsheden med samme (altså nogle af undersøgelsens øvrige spørgsmål) – var de så faktisk statistisk signifikante? Nej. Ikke på et niveau, der gør det rimeligt at rapportere. Det er velsagtens (?) derfor, rapporten forbigår det i tavshed. Man kunne godt interessere sig journalistisk for dette, altså for de dele af undersøgelsen, som ikke fremhæves – for de ting, der ikke fremgår eksplicit af rapporten.

Nørde-alert (følgende kan springes over): Herunder ses signifikanstesten af effekten observeret på spørgsmålet om “Social Activity”, altså testen af om forskellen på de to gennemsnitsscorer på henholdsvis 3,85 og 3,81 er signifikant. Med så høj en p-værdi (p=0,255) er forskellen mellem kontrol- og treatmentgruppe, altså effekten på “Social Activity” af at undvære Facebook, ikke statistisk signifikant (for de særligt interesserede: Klik på billedet for at se det i fuld størrelse):

Billede7

Nørde-alert ophævet.

Hvad så med den tilsyneladende eksperimenteffekt, altså den kendsgerning, at kontrolgruppen på alle målte parametre fik det ”bedre” af at være med i eksperimentet? En mulig plausibel forklaring er, at de har ændret adfærd i eksperimentugen, altså at deltagerne i kontrolgruppen af egen drift har valgt ikke at være så meget på Facebook, som de ellers er. Sådan lyder forklaringen fra folkene bag undersøgelsen. Det havde været relevant at oplyse i rapporten og relevant at spørge ind til journalistisk.

Hvad så med mig? Eksperimentet tyder jo på, at det faktisk hjælper på livstilfredshed (og muligvis en række andre ting) at drosle ned eller helt droppe Facebook. Men man kan IKKE slutte til individniveau fra en undersøgelse som denne. Effekten på mig (eller dig) kan være helt anderledes. Måske får jeg det faktisk bedre af at være på Facebook. Faktisk har folkene bag undersøgelsen nedbrudt resultaterne på en række interessante undergrupper, men disse analyser er endnu ikke offentliggjort.

Undersøgelsen er interessant. Og der kommer sikkert endnu mere interessante opfølgende undersøgelser. Gerne med lidt større detaljeringsgrad og metodeformidling i både afrapportering og den journalistiske formidling.