„Dlaczego śpimy” – czy Matthew Walker napisał rzetelną książkę

Od jakiegoś czasu dostaje od Was dość regularnie zapytania w kontekście książki „Dlaczego Śpimy” Matthew Walkera i jej krytyki, która pojawiła się w jednym miejscu w sieci. Pomyślałem więc, że warto odnieść się do tematu w krótkim wpisie (a przy okazji odnieść się też do innej kontrowersji co do innego źródła, które cenię).

Zanim zaczniemy, ważna deklaracja – należę do homo sapiens. ~~(A przynajmniej tak będę utrzymywać do czasu, gdy nie ujawnię się jako leftilianin, demonstrując moje piękne jaszczurze łuski światu.)~~ Jako homo sapiens podlegam dokładnie tym samym błędom poznawczym, jak inni przedstawiciele mojego gatunku. ~~(Przybranego, ale ciii!)~~ Staram się redukować ich wpływ na tyle na ile to możliwe, regularnie podważam swoje stanowiska i szukam kontr dowodów do nich. Nie znaczy to jednak, że moje wnioski zawsze będą trafne. Zwłaszcza, że jak pokazują badania, nawet ludzie rozumiejący statystykę częściowo tracą tą umiejętność, gdy zostaną skonfrontowani z danymi nie pasującymi do ich poglądów. Pytacie o moją opinię i fachową ocenę, przedstawiam więc je. Miejcie jednak do nich pewien dystans. Jestem tylko ~~człekożernym humanoidalnym lewicującym (0.1% są najsmaczniejsi, to dlatego) gadem udającym człowieka~~ człowiekiem.

To powiedziawszy, przejdźmy do sedna: krytyki oraz tego, czy uważam ją za uzasadnioną (oraz dlaczego mam takie, a nie inne stanowisko).

Pierwotna krytyka ukazała się na tym blogu. Tym, co zwróciło moją uwagę, gdy pierwszy raz się z nią zetknąłem, to że dotyczy ona niemal wyłącznie pierwszego rozdziału, który stanowi wprowadzenie do książki. Większość poruszanych kwestii jest szerzej omawiana w dalszym toku książki i wiele krytycznych uwag blogera znajduje odpowiedź i uzasadnienie w tamtych rozdziałach. Autor bloga stwierdził, że skrytykował tylko pierwszy rozdział, bo już to zajęło mu ogromną ilość pracy (ponad 130 godzin). Szanując włożoną pracę, mam tu dwa duże problemy.

Po pierwsze, ta praca, przy tej objętości materiału, po prostu nie powinna była tyle zająć. Nawet 40h researchu tu byłoby dość duże i skłaniało do pewnych wątpliwości. 130h? Trudno mi to uzasadnić jakkolwiek bez tworzenia dziwnych domniemań odnośnie blogera (albo złych intencji i bardzo celowego cherry-pickingu, albo bardzo dużej niekompetencji w temacie). Umówmy się wiec, ze po prostu nie kupuję tej liczby i uznaję to za pewną wymówkę. Tym bardziej, że…

Po drugie – bloger jak rozumiem przeczytał całą książkę. Więc nawet jeśli zdecydował się tylko na krytykę pierwszego, wstępnego rozdziału, powinien brać pod uwagę to, jak dane wątki są rozbudowywane w kolejnych rozdziałach i nie stosować argumentów, które są tam poruszane. Biorąc pod uwagę, że sam bloger ma pewien demonstrowalny bias odnośnie książki (ta wskazuje na problemy ze zbyt krótkim snem, a on sam uparcie eksperymentuje ze spaniem 4-5h + 1-2 20-30 minutowe drzemki), jest to dość problematyczna sytuacja.

Idąc dalej – Walker odniósł się do tej krytyki na swoim blogu. Z mojej perspektywy odpowiedź ta jest bardziej niż wystarczająca i punktuje raczej ograniczenia krytyki. Pokazuje, że dane w takich kwestiach należy oceniać całościowo, jeśli mamy taką opcję (po to mamy w końcu systematyczne przeglądy literatury), bo bez tego można się zgubić w pojedynczych zmiennych, tracąc szerszą perspektywę. W zasadzie jedna rzecz, na którą zwraca uwagę, to że faktycznie pomylił WHO i CDC w kontekście deklarowania „epidemii niedoboru snu”. Jest to pewien błąd, ale WHO i CDC są obydwie na tyle prestiżowymi organizacjami, że trudno tu się tego specjalnie czepiać.

Jeden ze zwolenników oryginalnej krytyki zgłosił też Walkera do komisji etycznej Uniwersytetu Berkeley, zarzucając mu (trzeba przyznać – w wyjątkowo głupi sposób, demonstrujący niezrozumienie terminu) „fałszowanie danych”. Choć zarzut ten był głupi, był o tyle przydatny, że Uniwersytet Berkeley zareagował, przydzielając niezależnego specjalistę do weryfikacji tego co napisał Walker. Nie stwierdzili w tym nadużyć i uznają ewentualne nieścisłości za drobne. (Pełna wymiana znajduje się tutaj.) Oczywiście zwolennik bloga (i patrząc po tonie, odniesienia, również autor oryginalnej krytyki) nie zgadzają się z tą oceną. Nie dziwi mnie to, prawdę mówiąc – ale jeśli cokolwiek, zmniejsza wiarygodność samej krytyki i zwiększa wiarygodność Walkera.

Podsumowując – w mojej ocenie w książce jest parę drobnych błędów, nie są one jednak istotne z perspektywy ogólnego przekazu, który uznaję wciąż za aktualny i wiarygodny. Dbajcie o swój sen, serio.

Brian Wansink, czyli dużo bardziej realna kontrowersja

Skoro już mówimy o kontrowersji, pomyślałem, że odniosę się też do drugiego autora, którego cenię, a który zaliczył ostatnio sporo krytyki. W tym wypadku krytyka ta jest zdecydowanie bardziej uzasadniona, choć na ten moment moje ogólne stanowisko co do wyników tego badacza pozostaje relatywnie niezmienione.

Brian Wansink znany jest jako psycholog specjalizujący się w psychologii jedzenia i drobnych wpływów. Opublikował dwie fajne książki („Mindless eating” i „Slim by design”) oraz przeprowadził masę kreatywnych eksperymentów z tego obszaru. Jednocześnie w 2017 wybuchła w związku z jego pracą spora kontrowersja. W pewnym uproszczeniu – Wansinkowi na podstawie jednego z jego postów, zarzucono tzw. data mining, czyli próby znalezienia losowych wzorców w dużych zbiorach danych, tylko po to, by móc opublikować istotny statystycznie wynik. Sam Wansink wskazywał, że w jego poście chodziło owszem, o data mining, ale innego rodzaju – chodziło o przejrzenie masy danych i wyłapanie które z nich sygnalizują na temat jakich kwestii warto zaprojektować nowe badania. Dla kogoś nieogarniętego ze statystyką różnica może się wydawać żadna, w uproszczeniu napiszmy więc tylko, że to czy robimy taki data mining przed projektowaniem badania (by wybrać co chcemy zbadać) czy po przeprowadzeniu badania (żeby cokolwiek z niego wyszło, bo niestety pozytywne wyniki są dużo chętniej publikowane) jest istotne. Pierwsze jest ok, drugie jest w najlepszym razie problematyczne.

Niezależnie od tego jaki był cel pierwotnego działania Wansinka, doprowadziło to innych badaczy do weryfikacji statystycznej jego prac i zarzucenia mu błędów, niemożliwych wyników itp. w szeregu z nich. (Dotyczyło to w sumie 52 z jego publikacji, spośród 538 których jest współautorem wg. ResearchGate. Przy czym część krytyki dotyczyło tzw. autoplagiatu, czyli przepisania fragmentów swojej publikacji w innej publikacji oraz duplikacji danych, czyli użycia danych z jednego badania w kilku różnych opublikowanych artykułach.) Sam Wansink wskazywał raczej na niezamierzone błędy i po prostu ogólny bajzel w przechowywaniu danych, brak odpowiednich procedur. Kontrola ze strony uczelni doprowadziła do jego rezygnacji, przy czym sama uczelnia zarzuciła mu nie fałszowanie badań czy manipulacje danych, co brak ostrożności (recklesness) w prowadzeniu badań. Co istotne, wiele z wykazanych błędów nie wpływało na finalne wyniki badań, a niezależne replikacje przeprowadzone w odniesieniu do części z podważanych wyników badań potwierdziły pierwotne tezy Wansinka.

W sumie problemy z wynikami doprowadziły do wycofania 18 publikacji Wansinka . Trzeba tu wskazać, że w niektórych przypadkach wycofanie było bardzo mocno „na wszelki wypadek”. Dla przykładu w jednym przypadku okazało się, że badanie nie gromadziło jednej zmiennej (wieku), nieistotnej dla wyników, ale zgłoszonej w artykule – biorąc pod uwagę ogólne wątpliwości, jakie pojawiły się do pracy Wansinka, część pism uznała, że lepiej wycofać takie prace. Dla jasności, nie uważam, żeby takie prewencyjne wycofanie było błędem. (Sam Wansink podszedł do tego w mojej ocenie bardzo sensownie, tworząc listę pt. „Ej, robiliśmy taki badania, one zostały opublikowane, zostały z różnych przyczyn wycofane, ale to pokazuje, że jest chęć publikacji tego typu badań w tego typu tematach, wiec zachęcam do replikacji.”) Jednocześnie warto wskazać, że jego skala może być wyolbrzymiona względem realnych problemów.

Podsumowując – Wansink zdecydowanie spaprał. Potrafię zrozumieć czemu spaprał – presja „publikuj albo giń” jest ogromna, a opublikowanie 538 badań jakieś 25 lat oznacza jakieś 22 publikacje ROCZNIE. To jest kosmiczne wręcz tempo, nawet przy relatywnie prostych eksperymentach, jakie w większości robił Wansink. Bez odpowiednich procedur nic więc dziwnego, że miał bajzel w danych, a z drugiej strony dla utrzymania tego tempa jakaś forma data-miningu (mam nadzieję, że ta bardziej uzasadniona, ale tego nie wiemy, pytanie czy można mu zaufać na słowo) była uzasadniona.

To powiedziawszy, wciąż – choć z nieco większą ostrożnością – pozostaję zwolennikiem wyników Wansinka. Dlaczego? Cóż, z dwóch kluczowych powodów – większość wskazywanych błędów w wyliczeniach nie podważała finalnych wyników jego prac ORAZ jego wątpliwe (i nie tylko) prace były w dużej mierze niezależnie zreplikowane. Zwłaszcza ta druga kwestia jest istotnym argumentem za uznawaniem jego wyników za istotne, nawet jeśli sam człowiek, jako naukowiec, stracił dużo w tej aferze.

I to chyba tyle, co do Waszych pytań. Jeśli macie dalsze, dawajcie, postaram się odnieść.

Masz pytanie z zakresu kompetencji miękkich/soft skills? Kanał Self Overflow dostarcza odpowiedzi z tego zakresu, dostosowanych w szczególności do potrzeb osób z sektora IT. Co tydzień nowe filmy z odpowiedziami na pytania od naszych widzów!

Przykładowe pytania: