Manipuliatyvios žinutės autorius socialiniuose tinkluose pasidalino statistiniais duomenimis. Žinutėje bandoma netiesiogiai įtikinti esant ryšio tarp mirčių pagausėjimo ir vakcinacijos. „Melo detektorius“ susisiekė su Lietuvos statistikos departamentu su prašymu pakomentuoti pateiktus duomenis ir atsakyti, ar iš tiesų esama tokių dėsningumų, apie kuriuos užsimena žinutės autorius.
Dalindamasis statistiniais duomenimis, žinutės autorius pateikia retorinį klausimą: „Tai norėčiau to A. Vinokūro pasiteirauti: [...] 4. Ar atsitiktinai visose amžiaus grupėse nuo 40 iki 69 metų daugiausiai mirčių po skiepo įvyko 20-29 dienomis (nuo 70 metų – 10-39 dienomis)? (žr. žemiau).”
„Melo detektoriui“ Statistikos departamento atstovai pateikė atsakymą į šį klausimą:
„Autorius naudoja Lietuvos statistikos departamento skelbiamus kasdien atnaujinamus duomenis iš [1] (švieslentė “Atviri duomenys”, lentelė “Mirę asmenys kurie buvo skiepyti”, 2021-10-31 dieną skelbta versija). Autorius skaitytojui leidžia suprasti aptikęs mirčių pagausėjimą specifinėje amžiaus grupėje specifiniu laikotarpiu po pirmojo COVID-19 skiepo.
Į autoriaus klausimą „Ar atsitiktinai visose amžiaus grupėse nuo 40 iki 69 metų daugiausiai mirčių po skiepo įvyko 20-29 dienomis?“ atsakymas yra „Taip, atsitiktinai“. Visose amžiaus grupėse nėra jokių statistiškai patikimų nuokrypių nuo nulinės hipotezės, teigiančios, kad mirčių atvejai laike yra pasiskirstę tolygiai. Autoriaus klausimas pasąmoningai perša išvadą, kad skiepai sukelia mirtis. Korektiška statistinė analizė rodo, kad tam nėra jokių įrodymų“, – rašoma elektroniniu paštu gautame komentare.
Kaip teigiama Statistikos departamento paruoštame atsakyme, autoriaus žinutėje galima aptikti keturias esmines klaidas:
- Autorius padaro esminių klaidų paruošdamas duomenis;
- Naudoja ydingą “vyšniavimo” strategiją selektyviai pasirinkdamas rezultatus;
- Neatlieka statistinės analizės, o vertina „iš akies“;
- Ignoruoja korektiškai atliktus tyrimus, prieštaraujančias jo požiūriui.
Pateikiame platesnį kiekvienos klaidos paaiškinimą.
Klaidingai paruošti duomenys
Autorius ignoravo duomenų lentelės aprašymo vietą: „Paskutinė įtraukta data visada yra viena savaite ankstesnė nei einamoji data, kad būtų įtraukiami ir pavėluotai užregistruoti mirčių faktai. Pateikiamos tik tos mirtys, kurias nuo pirmojo skiepo datos skiria 90 arba mažiau dienų.“
Jeigu norima tirti 90 dienų laikotarpį po skiepo, iš lentelės būtina eliminuoti visus asmenis, kurie pasiskiepijo vėliau nei prieš 97 dienas nuo lentelės paskelbimo. Kitu atveju skirtingi asmenys bus stebimi skirtingą dienų skaičių, pvz. pasiskiepiję prieš dvi savaites buvo stebimi trigubai trumpiau nei pasiskiepiję prieš mėnesį.
Pašalinus autoriaus padarytas klaidas, pasikeičia visi stebimi mirčių skaičiai (žr. geresnės kokybės iliustraciją 1). Ši klaida rodo, kad su duomenimis yra elgiamasi itin neatsakingai.
„Vyšniavimo“ strategija pasirenkant tik sensacingus rezultatus
Tai nėra pirmas kartas, kuomet autorius klaidingai interpretuoja Statistikos departamento skelbiamus duomenis, tyčia ar netyčia pasirinkdamas juos pagal tai, ar jie rodo „sensacingus“ rezultatus ar ne, kryptingai ignoruodamas jų visumą. Ši gerai žinoma ydinga strategija yra vadinama „vyšniavimu“ (angl. cherry picking [2]) arba „duomenų masažu“ (angl. data dredging [3]): duomenys apkarpomi, grupuojami, pertvarkomi, kol galiausiai randamas vienas ar keli pjūviai, kurie patvirtina išankstinę suformuotą tyrėjo nuomonę.
Autoriaus pateiktoje lentelėje iš pirmo žvilgsnio atrodo, kad tarp visų Lietuvos gyventojų, kurie per 90 dienų mirė po COVID skiepo dėl bet kokių priežasčių, amžiaus grupėje „40-49“ mirtys yra pasiskirsčiusios netolygiai, pvz. 10-19 dienų po skiepo intervale yra 11 mirčių, 20-29 dienų po skiepo intervale yra 23 mirtys, 30-39 dienų po skiepo intervale yra 11 mirčių. Sudaromas klaidingas įspūdis, kad 20-29 dienų laikotarpis po skiepo yra kažkuo pavojingas 40-49 metų amžiaus asmenims (žr. geresnės kokybės iliustraciją 2).
Autorius, iš anksto nesuformulavęs savo hipotezės apie tai, kokia amžiaus grupė ir koks tiriamas laikotarpis jį domina, pažiūrėjęs į duomenis „netyčia“ pasirinko išskirtiniausią amžiaus ir laikotarpio kombinaciją. Autorius selektyviai nepasirinko kitų amžiaus grupių ir laikotarpių po skiepo, nepasižyminčių „sensancingumu“.
Tokią „vyšniavimo“ klaidą darantys pradedantieji analitikai labai dažnai apgauna ne tik kitus, bet ir save, „atrasdami“ dalykus, kurių iš tiesų nėra.
Teisingas būdas nedaryti šios klaidos yra arba iš anksto apsibrėžti labai konkrečią hipotezę, kuri po to bus tikrinama duomenyse, arba neturėti išankstinės hipotezės, bet sumokėti už tai „statistinę kainą“, matematiškai pakeliant reikšmingai įdomaus atradimo kartelę (mutiple-test correction [4]).
Vertindamas „iš akies“ prieina klaidingų išvadų
Autorius apskritai neatliko jokios statistinės analizės. Tad šią analizę už jį atliko Statistikos departamento tyrėjai. Mes patikrinome kiekvieną amžiaus grupę atskirai ir pažiūrėjome, ar stebimi mirčių pagausėjimai tam tikrais laikotarpiais yra kažkuo išskirtiniai, ar tėra atsitiktinis svyravimas. Buvo naudojamas statistinis permutacijų metodas: kiekvienoje amžiaus grupėje įvykusį mirčių skaičių mes 100 tūkstančių kartų atsitiktinai paskirstėme į 9 laikotarpius. Kiekvieną kartą fiksavome, koks yra didžiausias mirčių skaičius tarp šių laikotarpių. Duomenyse stebimą mirčių maksimumą palyginome su atsitiktiniu būdu sugeneruotais maksimumais ir įsitikinome, kad visose amžiaus grupėse mirtys yra pasiskirsčiusios tolygiai. Nors “iš akies” skaičiai svyruoja, bet statistiškai jie niekuo nesiskiria nuo tolygaus pasiskirstymo (žr. geresnės kokybės iliustraciją 3).
Ignoruoja korektiškai atliktas analizes, prieštaraujančias jo požiūriui
Lietuvos statistikos departamentas yra ne kartą pademonstravęs, kad autoriaus naudojami atvirų duomenų rinkiniai rodo, jog nėra jokio pagrindo teigti, kad po COVID-19 skiepų pagausėtų mirties įvykių [5][6].
- Šaltiniai
- [1] https://osp.stat.gov.lt/covid-dashboards
- [2] https://en.wikipedia.org/wiki/Cherry_picking
- [3] https://en.wikipedia.org/wiki/Data_dredging
- [4] https://en.wikipedia.org/wiki/Multiple_comparisons_problem
- [5] https://www.facebook.com/Lietuvosstatistikos/posts/249093013914645
- [6] https://www.facebook.com/Lietuvosstatistikos/posts/256711976486082
- Lietuvos statistikos departamento komentaras, pateiktas elektroniniu paštu