Når undersøgelser er kommercielt bullshit

Er hussælgere for grådige? Vil gør-det-selv-folket virkelig genbruge? Og giver de fleste forældre deres børn lommepenge? Arrgh..! Mit hoved sprænges af spænding. Hvor er Dolph, og hvor er hans kølle?

Jeg har skrevet en klumme til Mandag Morgens Tjekdet om kommercielle undersøgelser i medierne: naar-undersoegelser-er-noget-kommercielt-bullshit.

Formue og boligejerskab hænger da sammen, ikke?

Boligejere har otte gange større formue end lejere. Sådan kunne man læse tidligere på året hos Ugebrevet A4. Baggrunden var en netop udkommet analyse fra Danmarks Statistik med titlen: “Boligejerskab kan forklare en stor del af formueuligheden“.

A4 analyse billede 1Otte gange større formue. 3 millioner kroner i formuegab pr. husholdning. Det er alligevel en slat. Man forestiller sig, hvordan det gibber i “leje”læseren. Man forestiller sig køen foran den lokale ejendomsmægler.

Men vent. Lad os lige kaste et nærmere blik på undersøgelsen fra DST Analyse. Den rummer nemlig en række spændende metodiske dilemmaer. Og nogle lidt – overraskende – valg.

Første undren. Analysen er lavet på baggrund af danske husstandes gennemsnitsformuer. Er der noget galt i det? Well, man kunne i stedet have lavet analysen på baggrund af medianformuer. Og det gør man faktisk ofte, når man analyserer fx løn og formue. Forklaringen er lige så simpel, som den er god: Medianformuen er upåvirket af, at de rigeste danskere ejer langt mere end den typiske dansker. Det er gennemsnitsformuen til gengæld ikke. Overhovedet ikke!

DST billede 4De 10 procent rigeste danskere ejer 50 procent af nettoformuen. Det betyder, at de trækker gennemsnitsformuen gevaldigt i vejret. Lad os antage, at de superrige danskere er boligejere. Det lyder som en plausibel antagelse. Så er det boligejernes formuer, som trækkes i vejret. Dermed fremstår forskellen på ejere og lejere kunstigt stor. Lad os samtidig antage, at de superrige danskere næppe er blevet superrige, fordi de har købt et hus. Kan du se, hvor jeg vil hen?

Anden undren. Som læser efterlades man umiddelbart med det indtryk, at boligejerskab er nøglen til formuenhed. Hvad der åbenlyst er en voldsom stramning. DST Analyse nuancerer selv delvist dette indtryk i deres analyse. De anvender en såkaldt dekomponeringsmodel til at forklare formuegabet mellem ejere og lejere. Modellen viser, at variablene indkomst, alder og uddannelsesmæssig baggrund kan forklare cirka halvdelen af formuegabet. Med andre ord: Boligejere og lejere er generelt nogle lidt forskellige typer. Lejere kan fx være studerende eller yngre mennesker, som endnu ikke har nået at spare op, eller bare mennesker med lav indkomst.

Men hvad så med de sidste 50 procent af formuegabet? Kan det forklares med boligejerskab? Noget af det kan givetvis. Hvor meget ved vi ikke noget om. Der kan være mange andre faktorer, som dekomponeringsmodellen ikke tager højde for. Arv fx. Alligevel skriver DST, at de sidste 50 procent “kan tilskrives, at boligejere har en større formue end lejere med de samme karakteristika”.

Tredje undren. DST Analyse gør en dyd ud af at slå fast, at de ikke har belæg for at sige noget om årsagssammenhænge. De kan med andre ord ikke sige, om (noget af) forskellen i formue faktisk skyldes boligejerskab. Men hvordan kan de så samtidig skrive i analysens titel, at “Boligejerskab kan forklare (min kursivering) en stor del af formueuligheden”? Ordet forklare bruges igen og igen i analysen. Men forklare implicerer vel, at tingene hænger sammen?

Fjerde undren. DST Analyse skriver, at “Formue i fast ejendom er den største komponent i husholdningernes formue”. Ugebrevet A4 griber den naturligvis og skriver, at “boligen er det aktiv i husholdningernes formue, som betyder mest for uligheden i formuefordelingen”. Men det er forkert – ud fra DSTs egne tal. Formuen i fast ejendom er kun den største komponent, hvis man ser bort fra husstandenes gæld. Enhver almindelig boligejer kan godt finde ud af at skelne mellem friværdi og boligens vurdering. De to tal er sjældent identiske. Hvis man trækker gæld i ejendommen fra og dermed ser på friværdi som formuekomponent, så er det slet ikke den største komponent. Både pension og finansielle aktiver er større. Faktisk så gør DST selv fint rede for dette længere nede i deres analyse. Men hvorfor så konkludere forkert?

Der er næppe tvivl om, at boligejerskab kan forklare noget af formueuligheden blandt danskerne. Men hvor meget? Min største anke er egentlig, at analyser som denne er med til at skabe forkerte billeder inde i almindelige danskeres hoveder. Ikke fordi de læser analysen fra DST. Det gør de næppe. Men måske læser de mediernes gengivelse af konklusionerne. Det er en skam.

Hvad har usexede sportsgrene og upopulære ministre til fælles?

Da agurkesæsonen i juli peakede i et slags omvendt proportionalt kapløb med det elendige sommervejr, kunne man hos Metroxpress læse Ny undersøgelse: Denne sport synes danske unge er MINDST sexet.

usexet sport 1

Kan ikke modstå maddingen. Jeg begynder at bladre den illustrerede liste med sportsgrene igennem. 0%. 0%. Hmm, gad vide hvad det betyder? Efter et par klik sker det. Et voldsomt ubehag rammer mig. Bladrer hurtigt frem, hurtigt tilbage, hurtigt frem igen. Har jeg misforstået listen? Nej, en hurtig skimning af artiklen bekræfter mine bange anelser. Ubehaget er nu blevet til kvalme. Jeg ser dem i glimt for mig. Waldner. Maze. Tugwell. Pedersen. Min ungdoms idoler. Nu reduceret til ikoner for den mindst sexede sportsgren. I Danmark. Ifølge unge. Bordtennis.

Værre: Det er ifølge den citerede køns- og til lejligheden showforsker, Karen Sjørup, slet ikke underligt, for bordtennis er en sport, der ikke er “meget show i”. Aaav.

Noget må være galt med den undersøgelse. Den MX-journalist har da vist været ramt af fikseringsfejl. Og det var da også en helt utrolig negativ vinkel. Jeg beslutter mig for i videnskabens tjeneste at kaste et KRITISK blik på metoden bag. Er undersøgelsen overhovedet repræsentativ? Tages der højde for den statistiske usikkerhed? Og hvad med målingsvaliditeten? Måler man faktisk det, man tror? Heldigvis har analysefirmaet bag, YouGov, været flinke og varedeklarere, og Metroxpress har været flinke at bringe deklarationen. Den ser sådan her ud:

usexet sport 2

Nedslået må jeg konstatere, at der ikke umiddelbart er noget alvorligt at udsætte på repræsentativiteten. Svarpersonerne kommer ganske vist næsten med sikkerhed fra YouGovs webpanel, og de rekrutterer ikke via simpel tilfældig udvælgelse, så måske kan der være systematiske forskelle, når man sammenholder de 900 svarpersoner med “alle danske unge”? Ja, det kan der godt. Men det er næppe noget, der rykker fundamentalt ved de overordnede resultater.

Nå, hvad så med den statistiske usikkerhed? Den er da vist blevet glemt i skyndingen? HVIS man tager højde for usikkerheden, kan man med rette så tvivl om, hvem der ligger sidst, næstsidst og tredjesidst osv. på listen. De nederste sportsgrene på listen har nemlig alle det til fælles, at de har fået lige omkring nul stemmer. Okay, så rubrikken er altså lidt skråsikkert konkluderende. Der kan sagtens være tale om en fejludråbt taber. Måske er den virkelige bundskraber karate eller ishockey? Eller en af de sportsgrene, som slet ikke optræder på Metroxpress’ ikke-udtømmende liste over sportsgrene? Mit humør stiger en anelse. Min mission – at genoprette Maze og Co.’s anseelse – er tilbage på sporet.

Men der er større og mere interessante problemer. For hvad er det egentlig, de 900 unge har svaret på? Spørgsmålet lyder: “Hvilken sportsgren synes du, er mest sexet?” Men kan man derudfra konkludere, hvad der er mindst sexet? Nej. Hvis man vil vide, hvad der er mindst sexet, så skal man … yes, rigtigt … spørge om det. Og her kommer de upopulære ministre ind i billedet. For hvis man vil undersøge, hvilke ministre der er mindst populære, så skal man også spørge om det. Og IKKE spørge, hvem der er mest populær. Det har Erik Gahner Larsen tidligere overbevisende demonstreret. Der er med andre ord tale om et problem, vi møder i andre sammenhænge i nyhedsstrømmen.

Undersøgelsen kan altså ikke bruges til at sige noget om, hvilken sportsgren der er mindst sexet. Jeg kan mærke, at denne her analyse er god. Det føles helt rigtigt. Det slår mig, at jeg burde sende et link til DBTU’s presseansvarlige. Og Maze. Han er sikkert også nedtrykt.

Men fortæller undersøgelsen så faktisk, hvilken sportsgren der er mest sexet? Njah, det kan man faktisk godt sætte spørgsmålstegn ved. I undersøgelsen peger hele 15 procent på fodbold som den mest sexede sportsgren. Til det kan man indvende to ting:

1) Er det i virkeligheden en kombination af eksponering, tilslutning og sexethed, vi måler? På samme måde, som man vanskeligt kan vurdere en ny-udnævnt (ikke-eksponeret) minister, kan man vel vanskeligt pege på de mindst eksponerede/dyrkede sportsgrene?

2) Hvad nu, hvis 15 procent samtidig peger på fodbold som direkte usexet? Altså, forudsat at de 900 unge fik chancen for at tage stilling til usexethed. Lad os rent hypotetisk forestille os, at fodbold deler vandene. Måske svarer de 15 procent, som dyrker fodbold, at det er mest sexet. Mens deres respektive partnere svarer, at det er dybt usexet. Det ville være et lidt ærgerligt resultat for de pågældende. Men tænkeligt. Ministerparallellen er til at få øje på. Støjberg.

Det konstruktive
Alternativt og bedre (!) kan man bede svarpersonerne bedømme hver enkelt sportsgren på en skala fra 1-5. Det gør YouGov da også i deres ministermålinger. På den måde kan man både se, hvem der får flest ekstreme værdier (1 og 5) og rangliste sportsgrenene efter deres gennemsnitsscorer eller efter andel positive minus andel negative bedømmelser. Det ville – måske – give helt andre resultater. Kan du også mærke endorfinerne nu, Maze? Og lad os så få det show.

Hvis bare det er signifikant …

Danske journalister forholder sig efterhånden hyppigt og kvalificeret til statistisk signifikans og usikkerhed – i meningsmålingsjournalistik: ”… en tilbagegang der lige akkurat er større end den statistiske usikkerhed og derfor er signifikant”. Og “ingen af de to blokke fører dog signifikant … Dødt løb, hvis man tager den statistiske usikkerhed i betragtning“.

Glædeligt – men er det sandt, hvis det er signifikant?

Ikke nødvendigvis, og det ved danske journalister da også godt: “Målingen står indtil videre alene, og derfor skal man være varsom med konklusionerne, men hvis billedet bekræftes af andre meningsmålinger …“.

Klog betragtning. Den kan journalister roligt overføre på forskningsresultater generelt.

Røde kort til sorte spillere
Data kan analyseres statistisk på mange forskellige måder! Forskere skal med andre ord træffe nogle metodevalg, som er styrende for deres statistiske analyser og i sidste ende for de resultater, de offentliggør. Disse valg er i høj grad subjektive, hvor velbegrundede og velargumenterede de end måtte fremstå – og leder til forskellige resultater. Ralph Silberzahn (IESE Business School, Barcelona) og Eric Luis Uhlmann (Insead, Singapore) besluttede at lave et eksperiment, hvor de ville teste, hvordan forskere i praksis træffer forskellige metodevalg, og hvordan det påvirker deres resultater.

forskning 2

29 forskerteams fra hele verden blev stillet samme forskningsspørgsmål: Giver fodbolddommere flere røde kort til sorte spillere end til hvide? De 29 teams, som alle bestod af fagstatistikere, fik det samme datasæt til rådighed og frie hænder til at foretage analysen. Data bestod af samtlige spillere i den bedste række i Spanien, England, Tyskland og Frankrig i sæsonen 2012-2013 og disse spilleres interaktioner med dommere i hele deres professionelle karriere, herunder hvilke røde kort de måtte have fået af hvilke dommere. Alle spillere blev desuden på forhånd kodet efter hudfarve, plads på holdet og en række andre ting.

Forskerens subjektive valg
Denne analyse er vel ret ligetil? Ikke i praksis – viste det sig. 20 forskerteams konkluderede, at hudfarve havde en statistisk signifikant effekt på antallet af rødt kort, altså at sorte spillere får flest røde kort. 9 teams konkluderede, at der ikke var en signifikant sammenhæng. Hvordan kunne det falde så forskelligt ud? Det skyldes, at de 29 teams foretog en række forskellige metodevalg, som ikke er entydigt rigtige eller forkerte – særligt på to områder: 1) De anvendte modeller, som bygger på forskellige statistiske fordelinger; 2) De valgte at kontrollere for forskellige faktorer, fx om den enkelte spiller er forsvarsspiller eller angrebsspiller.

forskning 1

Nu er det sjældent, at journalister præsenteres for 29 simultane analyser baseret på samme forskningsspørgsmål, men mindre kan også gøre det. Eksperimentet viser med al ønskelig tydelighed, at man skal være varsom med at konkludere på en enkeltstående statistisk analyse – selv om den måtte fortælle, at en sammenhæng er signifikant. Eller ikke-signifikant. Mere generelt – og almindeligt – er god, valid forskning blandt andet kendetegnet ved, at andre forskere kan gentage forsøget eller analysen og nå frem til nogenlunde samme resultat, men som bl.a. Jens Ramskov fint har beskrevet i en artikel om samme emne, så viser gentagelseseksperimenter, at overraskende mange forskningsresultater ikke lader sig reproducere.

En svær, men vigtig journalistisk opgave
Det er altså en forbandet god ide altid at spørge, om resultatet står alene eller kan bekræftes af andre lignende forskningsresultater, når man præsenteres for ny forskning.
Det kræver fagekspertise hos den enkelte journalist. Mange danske journalister er eksperter i meningsmålinger og kan på et øjeblik vurdere, om en ny måling ser ”underlig” ud; om der er tale om et ekstremt resultat. Vanskeligere er opgaven, når det gælder alle mulige andre undersøgelser, som (måske?) skal formidles. Men man bør tjekke, om resultaterne understøttes af anden anerkendt forskning. Og forholde sig til metodevalgene. En nylig undersøgelse af forskningsbaseret dækning af udsatte børn og unge, som jeg selv var med til at lave, konkluderer, at forskere på dette fagområde generelt efterlyser større kritisk sans og forståelse af forskningsmetoder og -paradigmer hos journalisterne. Det er vanskeligt, men ikke desto mindre en vigtig journalistisk opgave. Det er ikke nødvendigvis sandt, blot fordi resultatet er ”statistisk signifikant”.

Lykke uden Facebook …?

Institut for Lykkeforskning har sat 1.200 danskere på Facebookafvænning, kunne man forleden læse i Politiken og en række andre danske medier. Og det har de haft godt af. Afvænningen forstås.

Billede3

Måske skulle man prøve medicinen? – tænkte jeg ved mig selv. Men først ville jeg godt vide lidt mere om undersøgelsen bag, så jeg dykkede ned i rapporten.

Der er tale om et eksperiment, hvor cirka 600 danskere i en uge skulle undvære Facebook (den såkaldte treatmentgruppe), mens cirka 500 danskere blot skulle fortsætte deres sædvanlige forbrug (kontrolgruppen).  Ved hjælp af spørgeskemaer har man henholdsvis før og efter ”eksperimentugen” stillet såvel kontrol- som treatmentgruppen en række enslydende spørgsmål relateret til lykke og livstilfredshed. På hvert spørgsmål har man kunnet angive tilfredshed, aktivitet etc. på skalaer fra enten 1-5 eller 1-10.

Gennemsnitsscorerne på spørgsmålet om livstilfredshed henholdsvis før og efter så således ud:

Billede4

Efter en uge uden Facebook rapporterer treatmentgruppen ”a significantly higher level of life satisfaction”.

Dejligt, tænkte jeg. En signifikant højere livstilfredshed. Men samtidig nagede tvivlen i mig. For manglede jeg ikke nogle informationer? Hvordan kan man som journalist – eller helt almindelig læser – vurdere undersøgelsens troværdighed?

Man kan fx starte her:

1. Signifikant højere i forhold til hvad? Er det i forhold til kontrolgruppen? Eller i forhold til treatmentgruppens egen livstilfredshed før eksperimentets start?

2. Hvad betyder ”signifikant højere niveau” egentlig? Er det på et 5 procents signifikansniveau? Eller et 1 procents signifikansniveau? Eller noget tredje?

3. Hvorfor fortæller rapporten kun, at lige netop dette resultat er signifikant? Skyldes det, at Facebook-effekterne målt på alle de andre spørgsmål, som stilles, ikke er signifikante?

4. Skal man se på (og rapportere) før-efter tallene inden for treatmentgruppen, eller bør man sammenligne kontrolgruppens og treatmentgruppens efter-resultater, hvis man vil udtale sig om en mulig effekt? Altså, hvilke tal bør journalisten (efter dialog med instituttet) sammenligne og vinkle ud fra?

5. Er der ikke en eksperimenteffekt, som man skal forholde sig til? Altså, når nu kontrolgruppen scorer højere på samtlige tilfredshedsspørgsmål efter en uge, hvor de absolut ingen ”medicin” har fået? Bliver de lykkeligere af at være med i eksperimentet? Skulle vi så ikke ordinere nogle flere eksperimenter til alle mellemfornøjede danskere?

6. Kan jeg overføre resultaterne til mit eget liv? Der er jo tale om gennemsnitstal, altså gennemsnitlige effekter. Men vi er vel ret forskellige som Facebook-brugere? Nogle er meget aktive, andre er mere passive. Nogle er tilsyneladende altid på (kender du typen?), mens andre har et mere moderat forbrug. Er der risiko for en niveaufejlslutning her? Og kunne man ikke nedbryde treatmentgruppen i nogle ”typer” Facebook-brugere, som man bedre selv kan spejle sig i?

Alle disse spørgsmål tårnede sig op. Nyhedsartiklerne om eksperimentet gav ikke svar på spørgsmålene. Rapporten fra Institut for Lykkeforskning gjorde heller ikke. Og det var jo egentlig alt sammen relevante opklarende journalistiske spørgsmål.

Jeg kontaktede derfor folkene bag undersøgelsen, og de var heldigvis flinke til at svare. For der findes selvfølgelig – selvfølgelig! – svar på alle disse spørgsmål:

Stigningen i livskvalitet, som medierne rapporterede, var stigningen inden for treatmentgruppen – altså gennemsnitsscoren henholdsvis før (7,56) og efter (8,12). Og den er statistisk signifikant på ethvert rimeligt signifikansniveau (p<0,01). Som enhver journalistdimittend fra Danmarks Medie- og Journalisthøjskole er klar over, kan jeg kun lave denne beregning, hvis jeg kender standardafvigelserne (da der er tale om gennemsnitsscorer). Disse fremsendte Institut for Lykkeforskning beredvilligt, og så var det enkelt at kontrolberegne i et regneark.

Men burde man ikke i stedet have rapporteret forskellen mellem kontrolgruppen og treatmentgruppen? Kunne det ikke imødegå indvendingen i forhold til en mulig eksperimenteffekt? Jo. Er der gode journalistiske grunde til IKKE at gøre dette, og i stedet vinkle på den størst mulige observerede effekt i undersøgelsen, altså stigningen fra 7,56 til 8,12? Nej.

Effekterne på det sociale liv målt som sociale aktiviteter og tilfredsheden med samme (altså nogle af undersøgelsens øvrige spørgsmål) – var de så faktisk statistisk signifikante? Nej. Ikke på et niveau, der gør det rimeligt at rapportere. Det er velsagtens (?) derfor, rapporten forbigår det i tavshed. Man kunne godt interessere sig journalistisk for dette, altså for de dele af undersøgelsen, som ikke fremhæves – for de ting, der ikke fremgår eksplicit af rapporten.

Nørde-alert (følgende kan springes over): Herunder ses signifikanstesten af effekten observeret på spørgsmålet om “Social Activity”, altså testen af om forskellen på de to gennemsnitsscorer på henholdsvis 3,85 og 3,81 er signifikant. Med så høj en p-værdi (p=0,255) er forskellen mellem kontrol- og treatmentgruppe, altså effekten på “Social Activity” af at undvære Facebook, ikke statistisk signifikant (for de særligt interesserede: Klik på billedet for at se det i fuld størrelse):

Billede7

Nørde-alert ophævet.

Hvad så med den tilsyneladende eksperimenteffekt, altså den kendsgerning, at kontrolgruppen på alle målte parametre fik det ”bedre” af at være med i eksperimentet? En mulig plausibel forklaring er, at de har ændret adfærd i eksperimentugen, altså at deltagerne i kontrolgruppen af egen drift har valgt ikke at være så meget på Facebook, som de ellers er. Sådan lyder forklaringen fra folkene bag undersøgelsen. Det havde været relevant at oplyse i rapporten og relevant at spørge ind til journalistisk.

Hvad så med mig? Eksperimentet tyder jo på, at det faktisk hjælper på livstilfredshed (og muligvis en række andre ting) at drosle ned eller helt droppe Facebook. Men man kan IKKE slutte til individniveau fra en undersøgelse som denne. Effekten på mig (eller dig) kan være helt anderledes. Måske får jeg det faktisk bedre af at være på Facebook. Faktisk har folkene bag undersøgelsen nedbrudt resultaterne på en række interessante undergrupper, men disse analyser er endnu ikke offentliggjort.

Undersøgelsen er interessant. Og der kommer sikkert endnu mere interessante opfølgende undersøgelser. Gerne med lidt større detaljeringsgrad og metodeformidling i både afrapportering og den journalistiske formidling.

Fup, fejl og fordrejninger

Vil du gerne være din egen detektor? Eller bare blive bedre til at gennemskue tal, fakta og statistik i medierne? Så kan jeg kraftigt anbefale, at du investerer i netop udkomne “Fup, fejl og fordrejninger. Bliv din egen detektor”.

Indrømmet, jeg er ikke en helt uhildet betragter. Jeg er begejstret over, at vi i Danmark har et program som Detektor, og jeg har indimellem selv medvirket i udsendelserne.

9788702164763

Med det sagt, så er det en særdeles oplysende, velskrevet, mundret og eksempelrig bog, Thomas Buch-Andersen og Mads Bøgh Johansen er barslet med. Bogen er inddelt i 11 tematiske kapitler, og det er faktisk bogens helt åbenlyse styrke. Temaerne giver dig hurtigt et overblik over, hvilke typiske fejl og fordrejninger man som mediebruger (eller journalist, politiker, kommunikatør etc.) skal være særligt opmærksom på – tested by reality. Hvis jeg skal fremhæve enkelte temaer, så må det blive “om cherry-picking” – altså når man ved selektiv brug af tal tegner et forkert billede af helheden, “om årsagssammenhænge”, som ofte er nogle helt andre, “om sammenligninger”, som kræver sammenlignelige størrelser, og “om inflation”, som ofte “glemmes”, når priserne igen-igen er rekordhøje. Der er også et udmærket kapitel om meningsmålinger og spørgeskemabaserede undersøgelser, men det bliver dog mest til en indledende introduktion til de typiske validitetsproblemer.

Alle kapitler er krydret med Detektors egne eksempler, og de er både lærerige og underholdende. Bogen indeholder desuden en række korte bidrag fra politikere, erhvervs- og mediefolk, som selv har været en tur i Detektormøllen. Der er – som det nok fremgår – ikke tale om en lærebog. Du lærer ikke, hvordan du finder supplerende tal hos Danmarks Statistik, hvordan du tester for spuriøse sammenhænge, hvordan du korrigerer fra løbende til faste priser, eller hvordan du beregner statistisk usikkerhed ved meningsmålinger. Hvis du skal “kunne selv”, kræver det naturligvis mere end at læse denne bog.

Men med bogen under huden har du alle muligheder for at blive en mere kritisk og vågen medieforbruger. Så læs den. Også – og ikke mindst! – hvis du er journaliststuderende.

 

Lad os nu se undersøgelsen!

Godt udgangspunkt for inklusion i folkeskolen. Variationer over dette tema har man i dag kunnet læse i næsten alle større danske digitale medier.

Picture1

Baggrunden er en netop offentliggjort undersøgelse fra SFI med den uhelbredelige titel: Statusrapport 1: Et forskningsprojekt om inklusion af elever med særlige behov i den almindelige undervisning.

Og det er jo faktisk et ret interessant og vedkommende emne – ikke mindst hvis man, som jeg, har børn i skolealderen. Derfor tænkte jeg også straks, at det kunne være dejligt at kigge nærmere på selve undersøgelsen. Og det er da heller ikke nogen umulig opgave. Den kan Googles frem. Og man kan finde den på SFI’s hjemmeside.

Men hvordan kan det være, at ingen toneangivende danske medier føler sig foranlediget til at dele rapporten med os? En række medier (Information, Politiken, EkstraBladet, Kristeligt Dagblad etc.) bringer samme Ritzau-telegram. Intet link til rapporten. Andre medier bringer et lignende telegram fra Berlingske Nyhedsbureau. Heller intet link til rapporten. Jyllands-Posten laver deres egen historie. Og linker ikke til rapporten. DR.dk laver deres egen nyhedshistorie. Og linker heller ikke til rapporten. Det er faktisk kun folkeskolen.dk, som linker til rapporten.

Det er jo en lille ting, kan man indvende. Og er der overhovedet nogen derude, som gider og har tid til at læse rapporter og bagvedliggende dokumentation? Ja, jeg gør faktisk. Ikke altid, men indimellem. Og jeg bliver lige irriteret hver gang, jeg selv skal ud og opstøve dokumentation, som medierne har, men blot ikke har delt.

I nogen grad enig …?

De er lumske. Ikke nemme at håndtere. Og medierne har ofte ganske svært ved at fortolke dem retvisende.

Jeg taler om midterkategorierne. Altså svarskalaernes centrale omdrejningspunkt. Enhver balanceret svarskala har vel en midterkategori? Næh, faktisk ikke. Det er ikke givet, at man SKAL have en “hverken-eller/i nogen grad” mulighed, eller hvad man nu måtte kalde sit centrum. Det er et videnskabeligt studie for sig, hvad det betyder for svarfordelingerne, hvis man helt fjerner den midterste værdi – for naturligvis betyder det noget. Men det er en anden diskussion.

Picture1

Forleden stillede Jyllands-Posten danskerne dette spørgsmål:

I hvilken grad mener du, at den danske folkeskole har det nødvendige faglige niveau?

Med svarmulighederne “i meget lav grad”, “i lav grad”, “i nogen grad”, “i høj grad” og “i meget høj grad”. Men hvad vil det sige i nogen grad at mene, at folkeskolen har det nødvendige faglige niveau? Jyllands-Postens fortolkning faldt både undertegnede og Detektor for brystet.

Men problemet kendes også uden for landets grænser. TV2 Norge fik ørerne i maskinen, da de stillede spørgsmålet (om ressourcer på sykehjem):

I hvilken grad går manglende ressurser utover en forsvarlig og verdig omsorg?

Igen var problemet fortolkningen af svaret “I noen grad” – den midterste svarmulighed. Problemet opstår, når man slår midterkategorierne sammen med enten de tilfredse/enige eller utilfredse/uenige. Det kan være fristende – ikke mindst fordi, der ofte er mange svar i midten. Med denne fremgangsmåde står man pludselig med en meget stor andel danskere eller nordmænd eller plejere, som man kan vinkle på: 2 ud af 3 mener… Men billedet er fortegnet.

Hvordan skal man så fortolke svarene i midterkategorierne? Løsningen er – i mange tilfælde – at lade dem være.

Sådan snyder medier med statistikken

Du ser dem dagligt – i fjernsynet, på nettet, i avisen: Søjlediagrammer, lagkagediagrammer, kurvediagrammer etc. De hjælper dig med at få et hurtigt overblik over udviklingen, stillingen, fordelingen. Men kan du stole på dem?

Ikke altid. Faktisk er grafikker et minefelt af mulig manipulation af dig som læser og seer. Der er med andre ord grund til at se sig godt for. Måske er dette old news for dig, men tag alligevel et kig på denne gode blog: Simply Statistics. En af forfatterne bag bloggen, Jeff Leek, har kigget Fox News efter i sømmene og fundet en række kreative eksempler på vildledende grafikker. Nogle af metoderne er velkendte, fx afkortning af x- og y-akser. Andre er mere kuriøse, fx forkert placering af punkter på akserne og sammenligning af forskellige enheder, uden at det oplyses.

Der er naturligvis mange andre end Fox News, man kan kritisere for vildledning af denne type, men eksemplerne i artiklen er gode til at skærpe éns kritiske blik.

Jyllands-Posten har i øvrigt taget historien op her.

Troværdige kulturvaner?

Kulturvaneundersøgelsen – den nye, monumentale, tilbagevendende, og særdeles grundige – har fået megen medieomtale de seneste uger. Men ikke den slags omtale, som Kulturministeriet (rekvirent), Epinion og Pluss Leadership på forhånd kunne håbe på.

Sagen tog sin begyndelse, da Stig Jarl, lektor i teatervidenskab, i Politiken leverede en analyse med det hovedbudskab, at danskernes rapporterede teaterbesøg var skudt helt forbi og dermed løgn. Det blev startskuddet til en serie af kritiske artikler om undersøgelsens validitet og troværdighed generelt. Jeg blev selv interviewet til Information om undersøgelsen i sidste uge.

Men hvad er egentlig op og ned i sagen? Lad mig starte med at slå fast, at der er tale om en omfattende og grundig undersøgelse, som rent metodisk ikke lader meget tilbage at ønske.

Man må stille to grundlæggende kritiske spørgsmål til en undersøgelse af denne type, nemlig 1) Hvad vil man undersøge, og hvordan er spørgsmålene formuleret? og 2) Hvordan er svarpersonerne udvalgt, og er de faktisk repræsentative for os danskere?

Til det sidste kan man konstatere, at der er tale om store og i udgangspunktet repræsentative stikprøver; at den overordnede svarprocent ligger omkring 50%, hvilket er normalt, men naturligt har givet anledning til en grundig bortfaldsanalyse, som ikke peger på ret store skævheder. Dog er børnefamilier overrepræsenterede. Det problem har man efterfølgende vægtet sig ud af. Repræsentativiteten er derfor ikke et stort problem.

Til det første kan man konstatere, at 1) undersøgelsesemnet – kulturvaner (og herunder medievaner) – er et følsomt område, forbundet med forskellige grader af social status og knyttet til de kulturværdier, vi hver især bærer rundt på. Forskning på området viser, at socialt følsomme emner ikke kan afdækkes præcist gennem spørgeskemaundersøgelser. Det er med andre ord et grundlæggende problem, som ikke handler om kvaliteten af den konkrete undersøgelse. Noget af usikkerheden kan naturligvis afdækkes ved at sammenholde svarene med registerbaserede oplysninger, fx om solgte teaterbilletter og operabilletter. 2) En række spørgsmål er formuleret anderledes i 2012-undersøgelsen i forhold til den seneste tilsvarende undersøgelse fra 2004. Det er der en række gode grunde til, som der argumenteres sagligt for i undersøgelsen. Bl.a. hensyn til den teknologiske udvikling i den mellemliggende periode og hensyn til sammenlignelighed med internationale undersøgelser på området.

Problemet er med andre ord ikke undersøgelsen an sich. Problemet er i stedet, hvis man

1) ukritisk tager konklusionerne om vores alle sammens kulturvaner som sandhedsvidne – og ikke blot som det pejlemærke eller fingerpeg, det vitterligt er;

2) konkluderer om udviklingen fra 2004-2012 uden smålig skelen til, hvordan man faktisk har spurgt, herunder om man har ændret i formuleringer og definitioner mellem de to undersøgelser.

Der mangler med andre ord en nuanceret og kritisk læsning og formidling af undersøgelsen. Her kunne kulturministeren passende selv gå forrest i stedet for at lade begejstringen løbe af med sig, når han i ministeriets egen pressemeddelelse udtaler, at børnene “… er meget aktive og læser for eksempel markant flere bøger end i 2004, hvor den forrige kulturvaneundersøgelse fandt sted.” Det ved vi så faktisk ikke noget om, da man i 2012-undersøgelsen har spurgt børnene hvor ofte de læser/hører bøger. Mens man i 2004 spurgte børnene, hvor ofte de læser bøger. Det er dog to forskellige ting.