Jak to jest z tym kryzysem replikacji w nauce?

Przyznam, nie sądziłem, że będę wracał do tego tematu. Zrobiłem na ten temat webinar, jego nagranie jest dostępne na YT. Sam temat nie wydawał się aż tak popularny, by dodatkowo poświęcać mu wpis.

Niedawno jednak na blogu sceptycznym To Tylko Teoria pojawił się wpis o kryzysie replikacji w psychologii. Wpis ten – słusznie – wywołał sporą burzę, jako niezasłużenie atakujący psychologię. (Autor twierdzi, że jego zamiary były inne, ale cóż, wyszło jak wyszło.) Uznałem więc, że warto przygotować coś dla równowagi. Jak faktycznie jest z tym kryzysem replikacji? Czy dotyczy on psychologii, czy szerzej – całej nauki? Jakie są jego konsekwencje? Czy to znaczy, że mamy już nie wierzyć w wyniki badań? No ale jeśli nie, to w co wierzyć? Skąd biorą się te problemy i jakie są systemowe możliwości im przeciwdziałania?


Stali czytelnicy mogą część z tych argumentów już kojarzyć, np. z cyklu nt. czytania badań naukowych. Uznałem jednak, że przyda się oddzielny wpis tylko o tym.

O co chodzi z tymi całymi replikacjami?

Przede wszystkim warto zacząć od wyjaśnienia czego dotyczy cała ta afera. Dla przeciętnego człowieka termin „replikacja” kojarzy się co najwyżej z replikantami z Blade Runnera, a i to tylko dlatego, że całkiem niedawno w kinach była druga część.

Replikacja to inaczej powtórzenie określonego badania naukowego. Idealnie, aby podążało dokładnie za protokołem pierwotnego badania (z niewielkimi wyjątkami, o których napiszę później). W miarę możliwości autorzy oryginalnego badania nie powinni w nich brać udział w innej roli niż doradcza.

Po co nam takie powtórzenie potrzebne? Czy oryginalne badanie nie mówi nam już, że coś działa, albo nie?

No cóż, nie do końca.


Każde badanie, które prowadzimy, obarczone jest ryzykiem tzw. fałszywych pozytywów i fałszywych negatywów. Fałszywy pozytyw to sytuacja, gdy w rzeczywistości nie ma efektu, ale nam czystym przypadkiem wyszły wyniki sugerujące, że jest. Fałszywy negatyw – odwrotnie. Efekt jest, ale nam błędnie wyszło, że nie ma. Skąd taki przypadek może się wziąć? Cóż, np. w grupie badanej mogły się znaleźć zupełnym przypadkiem osoby w wyjątkowo dobrym, albo wyjątkowo złym zdrowiu. Takie rzeczy są zwykle kontrolowane, grupę należy dobrać w odpowiedni sposób, im większa grupa tym mniejsze szanse na takie wydarzenie… Ale niestety i tak zawsze mamy ryzyko, że coś się „przemknie”. W efekcie wynik może być błędny – i mamy nawet w statystyce konkretne zmienne, które ilustrują nam skalę tego ryzyka, np. tzw „wartość p” .

Już samo to powinno sprawić, że z dystansem powinniśmy podchodzić do pojedynczych wyników badań (typowe minimalne p w publikowanych badaniach to 0.05, co – w uproszczeniu – oznacza, że mamy 1 szanse na 20, że wyniki mogą być błędne). Ale oprócz tego może być coś w samym schemacie badania, co zniekształca wyniki, coś czego badacze nie dostrzegają. Np. ze względu na subtelne uszkodzenie którejś z maszyn lub drobny błąd w procedurach próbki mogą być zanieczyszczone. Oczekiwania badaczy mogą sprawić, że będą się doszukiwać wyniku tam, gdzie go nie ma i interpretować wieloznaczne wyniki na korzyść tezy, tak jak w przypadku tzw. promieni n. O ile to ostatnie da się zwykle zredukować lub wykluczyć przez techniki takie jak podwójne zaślepienie próby, o tyle wcześniejszych zagrożeń nie da się tak łatwo wykluczyć.


Tu przydaje nam się właśnie wspomniana replikacja. Szansa na to, że w dwóch podobnie przeprowadzonych badaniach wyjdzie nam fałszywy pozytyw czy fałszywy negatyw jest już dużo mniejsza. (Przy czym, należy pamiętać, jedno duże badanie jest zwykle i tak silniejsze statystycznie, niż kilka małych w tym samym zakresie.) Jest też bardzo mała szansa, że konkretne uszkodzenie maszyny będzie dokładnie tak samo powtórzone w innym zespole. Patrząc z zewnątrz, inni badacze mogą też dużo jaśniej dostrzec potencjalne problemy.

Replikacja jest kluczowa dla skutecznego rozwoju nauki. Bez niej budujemy w próżni, nie wiedząc, które z kolumn na których opieramy ciężar naszej wiedzy są solidne, a które wykonano z pianki tylko wyglądającej jak wzmocniony cement. Naukowcy zwykle mają też tego świadomość. (Niestety nie zawsze, o czym później.) Dla przykładu, gdy w 2011 włoski zespół fizyków w OPERA (oddział CERN) przeprowadził eksperyment, z którego wydawało się wynikać przekroczenie prędkości światła (neutrina wysyłane do celu dotarły do niego odrobinę szybciej, niż dopuszczały przewidywania), pierwszą rzeczą, którą zrobili było wezwanie innych fizyków do replikacji ich wyników i ich weryfikacji. Jak się okazało słusznie – replikacje nie potwierdziły tezy, różnice w pierwotnym pomiarze są dziś wyjaśniane problemami technicznymi. Zachowanie zespołu OPERA było tu przykładem tego, jak porządnie robi się naukę – stawiając rozwój wiedzy przed osobistą sławą.


Wspomniałem, że najlepiej by replikacje odwzorowywały dokładnie pierwotne badanie. Chodzi o to, że czasem nawet drobna zmiana tego jak badamy może sprawić, że badamy coś zupełnie innego, niż pierwotny test. Czy są jednak sytuacje, w których należałoby odejść od pierwotnego protokołu badania? Tak, czasem się zdarzają. Główne kwestie, które nas tu interesują to:

  • Sytuacja, w której pierwotne badanie sugeruje tak duże korzyści jednej z dwóch metod terapeutycznych, że nieetyczne byłoby odbieranie dostępu do niej. (To wymaga często dość drastycznych modyfikacji protokołu badawczego, no ale trudno usprawiedliwić inne podejście. Jest to jednak bardzo rzadka sytuacja.)
  • Sytuacja, w którym pierwotne wyniki badania są powszechnie znane, co może zniekształcić zachowania osób podchodzących do replikacji. (Badani oczekują, że powinni się zachować w jakiś sposób, więc będą się tak zachowywać.)
  • Możliwość usprawnienia oryginalnej procedury badawczej. (Np. w oryginale mieliśmy ślepą próbę – pacjenci nie wiedzieli czy dostają lek czy placebo, a teraz mamy podwójnie ślepą próbę – nie wiedzą tego również osoby podające lek ani analizujące surowe dane, dopiero na koniec odkrywane jest która grupa była którą.)
  • Zmiana popularnego znaczenia niektórych elementów badania. Np. w ramach pierwotnego badania dotyczącego tzw. facial feedback hypothesis, wpływu mimiki na emocje, wykorzystywano komiksy z Farside, popularne w czasach pierwotnego badania, ale obecnie praktycznie nieznane i bardzo, bardzo specyficzne. Ten rodzaj humoru jest na tyle obcy dla współczesnego odbiorcy, że wykorzystanie tych samych komiksów we współczesnej replikacji badania było, w mojej ocenie, błędem metodologicznym.


Skoro to takie dobre, to w czym problem?

No dobra, wyjaśniliśmy, że replikacje są fajne i cenne. Że stanowią tak naprawdę sedno dobrze robionej nauki. Gdzie tu w ogóle problem, o co cała afera?

Cóż, podstawowy problem jest taki, że replikacji robi się dużo mniej, niż się powinno.

Jest to niestety związane z wypaczonymi systemami nagród dla badaczy. Trudniej jest opublikować replikację, niż nowe badanie, zwłaszcza z popisowym, wyraźnym efektem. (Który to efekt, jak mówi nam statystyka, w większości wypadków będzie co najmniej wyolbrzymiony.) Niestety, ale wiele pism naukowych traktuje replikacje po macoszemu, ignoruje ich wartość i niechętnie je publikuje. Powoli się to zmienia, zaczynają pojawiać się całe pisma poświęcone konkretnie replikacjom dotychczasowych badań, ale to stopniowy proces. Do tego badacze wraz z upływem lat są pod coraz większą presją by publikować – jak najwięcej, jak najczęściej, w jak najlepszych pismach. To przejaw patologicznych zmian w systemach uniwersyteckich, które zaczynają być zarządzane bardziej biznesowo i ze skupieniem na bezpośrednich, szybko mierzalnych rezultatach. Problem w tym, że nauka tak nie działa – a przynajmniej dobrze robiona nauka. Nie da się przewidzieć, czy dane badania, zwłaszcza podstawowe, dadzą efekt, czy nie. Gdybyśmy byli w stanie to przewidywać, nie potrzebowalibyśmy badań! Ba, ze względu na sam przekrój możliwych tematów, większość badań efektu nie da. Jednocześnie te, które dadzą, dadzą często efekt przełomowy i popchną naszą wiedzę do przodu nieporównywalnie bardziej, niż szybkie dłubanie spod znaku „opublikuj, albo giń”.

Niestety, tak jak w latach 40-tych czy 50-tych badacze mieli wiele czasu na to by po prostu siąść, myśleć, rozważać i testować, tak w minionych dekadach coraz więcej ich czasu (niekiedy nawet 80%!) pochłania biurokratyczna pogoń za grantami i ich rozliczanie. „Siąść i myśleć” mogą mieć czas po uzyskaniu tzw. tenury, stałej posady na uniwersytecie – ale wtedy są już zwykle na tyle utarci w swoich dotychczasowych poglądach, że dużo trudniej tu o znaczącą innowację czy nowe spojrzenie na problem. Niestety, ale nauka nie działa jak fabryka i próby zarządzania nią jak fabryką podmywają same je fundamenty.

Przekłada się to też na działania samych naukowców. Skoro replikacje nie są atrakcyjnymi tematami publikacji, to robi się mniej takich eksperymentów, a nawet gdy się je robi, rzadko kiedy spisuje się potem wyniki do publikacji. To tzw. efekt szuflady – „mamy wyniki, ale ich nie opublikujemy”, stosowany też niekiedy celowo (np. w korporacyjnych badaniach, czemu przeciwdziałać ma inicjatywa AllTrials – zachęcam do wsparcia, widać, że uzyskuje już niezłe efekty), ale najczęściej będący formą swoistej samocenzury. Co istotne, wydaje się, że ten efekt szuflady jest w dużej mierze samonarzucony przez naukowców – statystyki publikacji replikowanych badań nie są może powalające, ale nie są też takie złe. 36% naukowców próbowało publikować pozytywne replikacje i 2/3 z nich zostało opublikowanych, w przypadku negatywnych proporcje wynosiły 13:10. Nie jest to powalający wynik, ale nie jest to też coś tragicznego i można sobie wyobrazić np. zlecanie przygotowywania takich publikacji doktorantom…

Wiele jest też do zmiany w samych podejściu pism naukowych, co potwierdza nawet świeżutkie badanie opublikowane przez Bena Goldacre. Wskazywał on w pismach na nieuprawnione decyzje odnośnie wyników badań. (Prawidłowo należy zdefiniować czego szukamy zanim zaczniemy badanie i się tego trzymać, tymczasem wiele badań zmieniało kryteria oceny w toku badań, tak by jakoś wykorzystać uzyskane wyniki – co prowadzi do nadmiernych fałszywych pozytywów.) Niestety, nie wszyscy redaktorzy byli w stanie zrozumieć czemu jest to problemem i nie wszystkie pisma zareagowały stosownie. (Spośród 5 pism formalnie przestrzegających reguł raportowania CONSORT, Annals of Internal Medicine i British Medical Journal zareagowały wręcz idealnie, Lancet relatywnie dobrze, natomiast JAMA i NEJM wykazały się bardzo kiepskimi standardami.)


W efekcie tych systemowych problemów znajdujemy się w sytuacji, w której duża część naszej wiedzy naukowej opiera się na bardzo kruchych podstawach. W 2005 John Ioannidis opublikował artykuł „Czemu większość opublikowanych wyników badań jest fałszywa„, wskazując na skalę problemu i jego przyczyny. Fajnie byłoby powiedzieć, że ruszyło to lawinę… Ale tak nie było. Był to raczej ten budzik, który przestawia się kilkanaście, albo i kilkadziesiąt razy, zanim w końcu zwlecze się z łóżka i pójdzie coś zrobić… Z czasem jednak faktycznie świadomość problemów z błędami w badaniach i niedoboru replikacji zaczęła być coraz większa. Jednocześnie jednak wydaje się, że świadomość problemów podlega tu swego rodzaju efektowi ślepej plamki i to efektowi wyjątkowo odpornemu nawet na konkretne, doświadczone dane. W 2016 Nature przeprowadziło ankietę wśród naukowców, pytając m.in. o to, jak często zdarzyło im się nie być w stanie zreplikować wyników innych naukowców, oraz własnych. Fascynujące jest dla mnie to, że nauki najsilniej przekonane o jakości opublikowanych badań w swojej dziedzinie, były jednocześnie tymi naukami w których najczęściej naukowcom nie udawały się replikacje. Wydaje się, że lata przedstawiania chemii, fizyki czy biologii jako „twardych” nauk w odróżnieniu od podejrzanych, miękkich nauk jak medycyna czy psychologia, przełożyły się na niezdrowe i nierealistyczne poczucie pewności wśród przedstawicieli tych nauk. W odróżnieniu od nich, dziedziny takie jak medycyna czy psychologia wydają się być dużo bardziej świadome tych problemów i podejmować aktywne próby ich redukcji.


Czy akurat psychologia ma kryzys replikacyjny?

Ta świadomość problemów z niedoborem replikacji stanęła u podstaw szeregu dużych projektów replikacyjnych. Były one prowadzone w ostatnich latach przede wszystkim właśnie w medycynie oraz w psychologii. Jest to o tyle powtarzalny wzorzec, że obydwie te nauki, a zwłaszcza psychologia, są świadome zajmowania się często bardzo subtelnymi zależnościami i wśród ich przedstawicieli można zwykle znaleźć dużo większą świadomość odnośnie narzędzi statystycznych, niż w innych dziedzinach. Bardzo wiele narzędzi analizy statystycznej używanych we współczesnej nauce zostało opracowanych właśnie przez psychologów, na swoje potrzeby. Dla jasności, nie oznacza to, że wśród przedstawicieli psychologii czy medycyny nie będzie statystycznych ignorantów. Nie jestem nawet pewien, czy uprawnione będzie sugerowanie, że mediana kompetencji statystycznych w psychologii czy medycynie będzie lepsza od mediany w innych naukach. Postuluję natomiast, że tam gdzie ta świadomość będzie głębsza, będzie ona dużo głębsza, niż w innych dziedzinach. A wystarczy bardziej świadoma mniejszość, by zaangażować się w aktywne działania mające na celu redukcję postrzeganych problemów.

Stąd właśnie wspomniane projekty replikacyjne. Nie wszystkie były idealne, natomiast tak czy tak dały nam pewne dane. Choć ogólne wyniki w replikacjach były podobne do pierwotnych eksperymentów, w wielu wypadkach siła efektu była słabsza lub dużo słabsza (innymi słowy, oddziaływanie było, lecz było słabsze). W niektórych przypadkach na tyle słabsza, że nowe wyniki nie były już statystycznie istotne, co można uznać za porażkę replikacji. Nie było raczej wyników odwrotnych i do tego istotnych statystycznie, ale już to co było podważyło część popularnych koncepcji, lub je osłabiło.

Niestety, z jakiegoś powodu wyniki te zaczęły być stosowane do swego rodzaju nagonki na psychologię. Zaczęto wskazywać je jako argument, że psychologia nie jest „prawdziwą nauką” i podobnych nieuzasadnionych haseł. Tymczasem, jeśli cokolwiek, te wyniki świadczą właśnie o tym, że psychologia zachowuje się jak prawdziwa nauka. Prawdziwa nauka replikuje swoje wyniki, a jeśli replikacje nie wyjdą, zmienia tezy. To właśnie jedna z kluczowych tez nauki, gotowość do autoweryfikacji i autokorekty. Czy działa tak dobrze, jak powinna? Nie, bo działa z dużym opóźnieniem. Tyle tylko, że akurat psychologia i medycyna i tak są w tym zakresie pionierami – projektów replikacyjnych na taką skalę ani widu ani słychu w innych, rzekomo bardziej poważnych naukach. Psychologia jest tu więc niczym prymus, który zrobił dodatkową pracę, dostał za nią 5 zamiast 6 i stał się obiektem kpin… trójkowych uczniów.

Myślę, że kluczem do wyjaśnienia sytuacji jest tu wspomniane nieuzasadnione poczucie wyższości niektórych nauk, przeświadczenie, że takie nauki jak chemia czy fizyka są ścisłe, „bardziej prawdziwe”. Tyle tylko, że wyniki wspomnianego sondażu z Nature nie wydają się tego potwierdzać. Wręcz przeciwnie, sugerują, że dopiero te dziedziny siedzą na bombach, które tylko czekają na detonację.


Co z tego wynika?

No dobrze, to teraz jakie są konsekwencje tego kryzysu replikacyjnego dla nauki? Czy odrzucamy, wracamy do starych, sprawdzonych rozwiązań jak krwawe ofiary dla zapewnienia wschodu słońca?

Cóż, nie powiem, jest to kuszące, mam już całą listę gotową „chętnych”, noże naostrzone ślicznie błyszczą… Ale nie.

De facto dla typowej osoby z kryzysu replikacyjnego nie wynika zbyt wiele. Po prostu, przy tych wszystkich wadach nauka wciąż pozostaje absolutnie najlepszą dostępną nam metodą weryfikacji rzeczywistości. Dalej jest dłuuuuugo nic i dopiero inne opcje.

Co więcej, w praktyce nie mamy tu nawet żadnej istotnej zmiany we własnoręcznej weryfikacji źródeł. Reguła „zreplikowane badanie lepsze od pojedynczego” i wszystkie pokrewne, o których wielokrotnie pisałem na blogu, wciąż pozostają w mocy.

Problem, jaki tu mamy jest problemem systemowym. Jest problemem sabotującym naukę i problemem, z którym zdecydowanie trzeba coś zrobić. Nie jest jednak czymś, co szczególnie dotyka jednostek. Na tym poziomie wnioskowanie z nauki zostaje takie, jakie było.


Są natomiast konkretne systemowe rzeczy, które można, należy i trzeba zrobić, by było lepiej.


Po pierwsze, potrzebujemy – i to pilnie – systemowej zmiany w zakresie inicjatyw dla naukowców. Obecny „fabryczny” system jest chory i to poważnie. Niestety, takie podejście w nauce nie ma jak trwać. Publikuj albo giń musi odejść. Pogoń za tenurą musi odejść. Nie chodzi o to, by zupełnie nie weryfikować prac i postępów naukowców, ale nie można ich też rozliczać jak robotników w fabryce. Ba, niejeden programista z którym pracuje ma większą swobodę pracy kreatywnej, niż niektórzy naukowcy, z którymi rozmawiałem!


Po drugie, potrzebujemy systemowej inicjatywy dla replikacji – tak by bardziej opłacało się naukowcom je prowadzić i publikować. W tym zakresie, ze względu na autocenzurę, potrzebujemy też odpowiedniej edukacji, tak by uświadomić naukowcom wartość takich artykułów i skłaniać do ich zgłaszania do publikacji. Powoli zaczynają się pojawiać wspomniane pisma tylko do replikacji oraz granty tylko na replikacje, świadomość środowiska się więc rozwija. Ale mamy przed sobą jeszcze długą drogę.


Po trzecie, potrzebujemy inwestować w społeczność naukowców rozumiejących rolę i znaczenie standardów w nauce. Im silniejsze zaangażowanie w takie struktury, tym silniejsza skłonność do autokorekty całego środowiska i dbania o przestrzeganie reguł.


Po czwarte, propozycja ze wspomnianego AllTrials, już powoli wdrażana, jest bardzo dobrym krokiem. Wymuszenie publikacji surowych danych wszystkich prerejestrowanych badań w ciągu określonego okresu czasu (i niemożność publikacji bez takiej prerejestracji) zapewni surowe dane umożliwiające pełniejszą analizę sytuacji.


Po piąte, coś co też już powoli zachodzi, potrzebujemy odejść od „wartości p” jako kluczowego czynnika przy publikacji badań. Wciąż potrzebujemy niskich „p” i niektórzy sugerują po prostu jego 10-krotną redukcję, z p>0,05 na p>0,005, ale być może oprócz „p” należałoby zwracać też uwagę np. na rozmiar efektu w badaniu? Istotne statystycznie badanie, w którym uzyskujemy np. 1% większą skuteczność w terapii jest może i istotne, ale niekoniecznie wartościowe. W tym zakresie sugeruje się też skupienie (lub wręcz wymóg) większych próbek w badaniach. Oczywiście tu pojawiają się problemy, bo to wszystko utrudnia publikacje, a „publikuj albo giń” i bez zmiany systemowej może to prowadzić do większej skłonności do naginania wyników albo wręcz fałszerstw. Te wychodzą na jaw, ale zwykle dopiero po pewnym czasie i mieszają w powszechnie postrzeganej wiedzy.

Niektórzy metodologowie sugerują w ogóle rezygnację z „p” na rzecz innych zmiennych, np. MBI (magnitude based inferences), ale nie ma tu zgody wśród ekspertów.


Po szóste, niektórzy metodologowie nauki sugerują podejście triangulacyjne, a nie replikacyjne. Innymi słowy, jeśli mamy już zidentyfikowane zjawisko w jeden sposób i nawet zreplikowane, należy następnie poszukać innych sposobów na próbę podważenia tego samego zjawiska – bo pierwotnie replikowane badanie może mieć błąd systemowy w samej procedurze badania, tym samym prowadząc do fałszywych pozytywów.


Po siódme i prawdopodobnie najważniejsze, czego zresztą zwykle świadomi są sami naukowcy… Potrzebujemy lepszej edukacji naukowej dla samych naukowców. Potrzebujemy zapewnić im lepsze rozumienie statystyki. Potrzebujemy też zapewnić im lepsze rozumienie tego, jak działa nauka i dlaczego akurat tak. (Bo wiele pierwotnych błędów prowadzących do braku replikacji wynika właśnie z braku wiedzy statystycznej lub zrozumienia tego, po co w nauce podchodzimy do pewnych kwestii tak, a nie inaczej.)


Czego ludzie (i czasem niestety naukowcy) nie rozumieją odnośnie badań i replikacji?

No dobrze, to jakie są niektóre z tych błędów, które ludzie – w tym niektórzy naukowcy – popełniają w myśleniu nt. badań i replikacji?


Brak zrozumienia celu badania – jednym z kluczowych problemów, czymś o co wszystko się tak naprawdę rozbija, jest to po co w ogóle robimy badania. Niestety, tak sam spotykam się, jak i słyszę regularnie o tym, że celem badań miałoby rzekomo być potwierdzenie, że dana technologia czy metoda działa.

To pozornie drobny, ale w praktyce kluczowy błąd. Bo celem badań jest sprawdzenie CZY coś działa, a nie potwierdzenie ŻE działa.

Może się to wydawać różnicą semantyczną, ale przekłada się na ogromną różnicę w podejściu, prowadzącą do nadwymiarowych fałszywych pozytywów. Bo z takim podejściem będziemy mieli choćby tendencje do prowadzenia badań aż w końcu (czy to przez mniej lub bardziej świadomą manipulację, czy zwykły fałszywy pozytyw) coś nam pozytywnego wyjdzie.

Nie o to chodzi w nauce. Jest naprawdę powód, dla którego protokół badania szykuje się tak, by próbować PODWAŻYĆ stawianą tezę i potwierdzamy ja dopiero gdy nie uda się jej podważyć. Niestety, za sprawą efektu potwierdzenia i licznych innych błędów poznawczych nasz mózg skłania nas do tego, byśmy byli w stanie dowieść wszystkiego. Dlatego celem nauki jest weryfikacja czy coś działa. Jeśli Twoim celem kiedykolwiek stałoby się dowiedzenie, że działa – to jest natychmiastowy sygnał, żeby wyłączyć siebie z badania, bo zagrażasz jego jakości. Niestety, ale to wynika z tego jak działa nasz mózg.

Badania nie są narzędziem perswazji. Nie są metodą na pokazanie klientowi „to co robię działa”. Są narzędziem na dojście do tego co działa. Jeśli tego nie rozumiesz – nie tykaj badań. Bo jednak do czegoś te moje świeżo naostrzone noże wykorzystam.


Brak zrozumienia statystyki – problem wielowarstwowy i rozbudowany. Statystyka jest trudna. Do tego często jest niestety uczona kiepsko, przez matematyków myślących jak matematycy i oczekujących, że inni – bez odpowiedniego wprowadzenia – też będą tak myśleć. To sprawia, że, niestety, błędy statystyczne potrafią być częste w badaniach. Pół biedy jeszcze, jak ktoś bierze sobie za współautora/kę osobę oblataną ze statystyką i zdaje się na nią w pełni. Niestety często tacy statystycy są używani jako ludzie od czarnej roboty „znajdź mi sposób, żeby to opublikować”.

Dla jasności, czasem takie wyszukiwanie przypadkowych zależności statystycznych może być cenne. Jest tak na poziomie wstępnych badań, gdzie wyłapanie określonych zależności, które mogą, ale nie muszą być przypadkowe, może być dobrą inspiracją do zaprojektowania kolejnych badań, tym razem już skupionych na weryfikacji jakiejś konkretnej tezy. Pierwotne „łowy” statystyczne nie są nic dowodem (bo są potwornie podatne na fałszywe pozytywy), są raczej sugestią gdzie warto w ogóle szukać i co warto sprawdzać. Niestety ten drugi etap bywa często pomijany, często z czystej ignorancji, tacy badacze naprawdę mogą nie wiedzieć, że robią coś źle… bo nie rozumieją statystyki.

Statystyka jest trudna i nieintuicyjna. Nie bez powodu probabilistykę w ogóle zaczęliśmy opracowywać ledwie kilkaset lat temu, choć matematykę znaliśmy od tysiącleci. Potrzebujemy metod lepszego nauczania tych narzędzi. I potrzebujemy szerszej edukacji w tym zakresie.


„Bo jakby robić replikację to inne zespoły będą chciały podważyć nasze wyniki i w ten sposób nauka nigdy nie pójdzie do przodu” – przyznam, że kiedy pierwszy raz usłyszałem tą tezę, mocno opadła mi szczęka, bo jest dla mnie czymś, co naprawdę trudno mi zrozumieć. Ponieważ jednak niekiedy pada, warto się do niego odnieść i to w kilku kwestiach.

Po pierwsze, nie wiem czy pod spodem przyjąć należy założenie, że te inne zespoły dopuszczą się fałszerstwa swoich wyników w ramach replikacji? Bo jeśli nie, to w jaki konkretnie sposób miałyby podważyć wyniki, które są trafne? Jedyna opcja która jeszcze przychodzi mi do głowy to odwrócony efekt szuflady (publikujemy tylko negatywne), ale tu inicjatywa AllTrials zamyka drogę do takiej opcji. Oczywiście można zmienić protokół replikacji, np. zmieniając grupę badaną – ale to są rzeczy zapisane w metodologii badania, da się je porównać i wskazać, że nie mamy do czynienia z prawdziwą replikacją. Jakie więc wchodzą inne opcje? Bo zgodnie z tym jak działa nauka, jeśli innemu zespołowi uda się podważyć wyniki pierwszego – to znaczy, że te wyniki pierwszego prawdopodobnie po prostu nie były tak silne, jak się pierwszemu zespołowi wydawało. Jasne, możliwy jest fałszywy negatyw, ale dwa? Trzy? Tu już prawdopodobieństwo jest jasne.

Przygotowanie replikacji to kawał pracy (w tym cały problem!). Wiemy też z wspomnianej sondy Nature, że pozytywne replikacje mają akurat większe prawdopodobieństwo na publikację. Skala postulowanej zawiści jest tu mało realistyczna, no i ewentualne fałszerstwa są łatwe do statystycznego wykrycia.

Po drugie, nauka idzie do przodu właśnie przez weryfikacje. Nie przez pozytywne wyniki, ale przez wyniki zreplikowane. Bez tego nie wiemy, czy to co wyszło za pierwszym było faktycznie trafnym wynikiem, czy przypadkiem. O tym już mówiliśmy.


Skoro włożyliśmy już wysiłek, pieniądze, itp. w badanie, to potrzebujemy coś z niego wyciągnąć – to podejście, prowadzące często do tzw. p-hackingu, czyli manipulowania danymi, wycinania/dodawania grup, zmieniania kryteriów oceny, itp. byle tylko uzyskać wynik, który spełni owo kluczowe p>0,05 i będzie istotny statystycznie, jest pochodną pierwszej kwestii, czyli mylenia celu badań. Jeśli przeprowadzisz badanie i nie ma tam efektu istotnego statystycznie, to nie jest to błąd czy brak danych! To również jest istotna informacja, którą należy zgłosić i opublikować. Nie jest to informacja „seksowna” – prawdopodobnie nie będą jej chciały najlepsze pisma, mała jest szansa, że pomoże w zdobyciu kolejnego grantu, itp. Tyle tylko, że to przejaw patologii systemu. Z perspektywy nauki brak efektu jest jak najbardziej cennym wynikiem poszerzającym naszą wiedzę. To jednak wymaga myślenia o nauce jako dążącej do weryfikacji prawdy, a nie do dowiedzenia czegoś.

Niestety, przeprowadzenie badania nic nie gwarantuje. To jak z eksperymentowaniem z nowymi przepisami. Czasem odkryjesz genialne połączenie. Czasem odkryjesz tylko, że nie, serio tych rzeczy nie należy łączyć.


Powinno się robić nie replikacje, a rozwinięcie, w oparciu o dostępne wyniki – teza zgodnie z którą zamiast robić replikacje danego badania, należy je rozwinąć – wybrać te grupy, które miały szczególnie dobre wyniki i przeprowadzić podobne badanie tylko na nich. Przeprowadzenie takich badań nie jest z zasady złym pomysłem, jak najbardziej może wnieść coś do lepszego zrozumienia tematu. Sęk w tym, że nie możemy na nich polegać w kontekście weryfikacji pierwotnej tezy. Ba! Takie badania będą potencjalnie dodatkowo podważały pierwotne! Nie wiemy bowiem nigdy, czy to, że w jakichś podgrupach wyszły szczególnie dobre wyniki to nie jest po prostu artefakt statystyczny, wynik błędnej metodologii czy zwykłego przypadku. Pamiętajmy – im mniejsza grupa, tym większa szansa na fałszywy pozytyw. Dlatego też wspomniane łowy statystyczne po fakcie są tak ryzykowne i krytykowane w nauce (popularnie określa się je mianem HARKingu – Hypothesis After Results are Known). Dlatego o ile wyniki z jednego badania mogą być jakąś sugestią dla kolejnego „warto sprawdzić tą szczegółową podgrupę, bo tu może być coś obiecującego), to nie znoszą one potrzeby zwykłej replikacji.


Co istotne, to generalnie nie są duże kwestie. To drobna różnica punktu skupienia, często przekazywana przez osmozę w ramach kultury danej grupy czy organizacji. Dlatego właśnie tak kluczowa jest odpowiednia edukacja i popularyzacja konkretnych wzorców.

Bo kryzys replikacyjny dotyka absolutnie wszystkich. Oznacza, że może będziesz leczony lekami, które nie działają tak dobrze, jak powinny – ale nikt nie zreplikował oryginalnej próby klinicznej. Oznacza, że możemy używać technologii, które kosztują nas dużo więcej (np. w kosztach środowiskowych) niż sądzimy – bo nikt nie zreplikował pierwotnych wyników. Oznacza, że potencjalnie tracimy łatwo dostępne rozwiązania mocno usprawniające nasze życie – bo nikt nie zreplikował pierwotnych wyników.

Jest to coś, co wymaga zmiany i trzeba o tym mówić. Tylko na litość mroku, mówmy o tym trafnie, nie jako problem tej dziwnej miękkiej psychologii, tylko jako problem całej nauki, z którym akurat medycyna i psychologia pierwsze wzięły się za bary, ale którego nauka jest coraz bardziej świadoma w ogóle.



Zostań Patronem/Patronką tego bloga!

Jeśli materiały na tym blogu są dla Ciebie wartościowe, rozważ wsparcie go w ramach Patronite. 

Więcej na ten temat znajdziesz TUTAJ.

 

Podziel się tym tekstem ze znajomymi:
Następny wpis
Poprzedni wpis