Testy i pseudotesty psychologiczne

Zanim zaczniemy, muszę coś wyznać: nawet dobre testy psychologiczne traktuję z pewną niechęcią. Wiąże się to z prostym faktem – ludzie funkcjonują kontekstowo. W danej sytuacji i roli życiowej mamy dostęp do określonych wspomnień, uwarunkowań i reakcji. W innej sytuacji zasoby będą inne – wiec potencjalnie wynik testu również. Nie znam niestety testu, który bierze to pod uwagę i jest to moim zdaniem ich największą słabością. (Dla jasności, mowa o testach osobowości, np. testy inteligencji zwykle dobrze funkcjonują niezależnie od kontekstu.)

[br]

Ostatnio pojawił się w internecie taki urodzaj pseudotestów, że stwierdziłem, iż warto coś w temacie napisać. Zaznaczam przy tym, że nie jestem ekspertem w zakresie psychometrii (nauce o tworzeniu testów psychologicznych) i z pewnością dokonam w tym tekście pewnych uproszczeń, które mogą zazgrzytać faktycznym specom. Chcę jednak stworzyć coś przystępnego dla typowego czytelnika i wyjaśniającego dlaczego takie pseudotesty, podobnie jak np. testy z pism dla kobiet, są w najlepszym wypadku rozrywką.

[br]

Co czyni test wartościowym?

Test testowi nierówny. Wśród testów znanych przez szerszą publikę są zarówno wyssane z palca i napisane na kolanie bzdury (choćby MBTI czy Dynamika Bogactwa, o której pisałem w cyklu Anty-Guru) jak i takie, które wstępnie weryfikowane były na wielotysięcznych próbach i starannie precyzowane dla uzyskania najlepszego efektu (MMPI, NEO-FFI, test matryc Ravena, itp.) Co różni te dobre od tych złych?

Takich kryteriów jest wiele, a nie chcę zrobić z tego artykułu potworka, skupmy się więc na najważniejszych: trafności, rzetelności, normach, tendencyjności pytań, odporności na oszukiwanie oraz możliwości praktycznego wykorzystania wyników.

[br]

Trafność – to w psychometrii cecha testu mówiąca o tym czy test bada nam to, co w założeniu ma badać. Możesz bowiem stworzyć wspaniały jakościowo test, rzetelny, z normami, w ogóle cud-miód – tylko co z tego, jeśli np. miał mierzyć otwartość na doświadczenia, a w rzeczywistości mierzy agresję? Dodatkowym problemem z trafnością jest to, czy mierzymy obiektywne, czy subiektywne natężenie danej cechy.* Na prostym przykładzie – pomiar obiektywny mówi, że jesteś ponadprzeciętnie wysoki. (Przykładem takiego pomiaru obiektywnego jest np. test matryc Ravena). Pomiar subiektywny (np. testy z rodziny DISC) mówi, że jesteś bardziej miły niż inteligentny – choć przecież możesz być zarówno inteligentny jak i miły, jedno drugiego nie wyklucza.

Trafność należy również weryfikować miedzy poszczególnymi tłumaczeniami testu, ponieważ nawet drobna zmiana znaczenia słowa może sprawić, że dane pytanie mierzy już zupełnie inną cechę. Np. jeśli pozycja w teście brzmi „Do you resent angry people?”, możemy to przetłumaczyć jako „Czy gardzisz wściekłymi osobami?” albo jako „Czy chowasz urazę do osób denerwujacych się?” Zgodzisz się chyba, że pytania te dotyczą dwóch nieco innych kwestii.

[br]

Rzetelność – czyli innymi słowy powtarzalność wyników testu. Np. Jeśli przebadam Cię tym testem dzisiaj, a potem przebadam tym samym testem za rok, to czy wyjdzie Ci podobny wynik? Oczywiście, niektóre cechy dynamicznie zmieniają się wraz z upływem czasu (dotyczy to choćby wszelkich testów zaburzeń psychologicznych) co dodatkowo utrudnia weryfikację rzetelności testu. Jeśli test nie jest rzetelny, to wyniki które uzyskujesz mogą być zupełnie przypadkowe i bezużyteczne.

[br]

Normy – to kryterium dotyczy z zasady testów mierzących obiektywne, nie subiektywne natężenie cech. „Normy” to inaczej typowe wyniki danej cechy w określonej populacji. Pozwalają one nam ocenić jak czyjś wynik ma się innych ludzi – „Czy to 47 punktów, które dostałem na teście inteligencji to dużo, czy mało?” itp. W różnych populacjach normy będą różne, dlatego wprowadzając dany test do danego kraju należy takie normy zbadać, najczęściej na kilkutysięcznej próbie. Ze względu na ten wymóg jest wiele testów, których obecnie nie da się wykonać w polskich badaniach – bo nie mamy do nich wykonanych norm. A, normy powinny być wykonywane na reprezentatywnej próbie – czyli jeśli chcemy je odnieść do populacji Polski, to np. powinniśmy przebadać, na 1000 osób, kilkanaście osób w wieku 35-45 mieszkających w mieście do 20 tys osób, kilkadziesiąt w wieku 50+ mieszkających na wsi, itp. Nie jest to wiec po prostu kwestia wrzucenia ankiety do internetu (chyba, że chcemy mieć normy wyłącznie internautów, itp.)

[br]

Odporność na oszukiwanie – pamiętasz kwestię trafności testów? Najczęstszym zagrożeniem trafności w teście jest to, że mierzy on nie to, jaka osoba jest faktycznie, ale to jaka chciałaby być lub jaką chciałaby się przedstawiać. W końcu jeśli wypełniasz test w toku rekrutacji do pracy, to chciałbyś wypaść na dobrego pracownika, a nie aroganckiego buca. Dlatego dobry test będzie skonstruowany tak, aby nie dało się domyślić jak należy go wypełniać dla uzyskania „optymalnego wyniku”. Najczęściej uzyskuje się to formułując pytania tak, by każda opcja była nieco kiepska (przerysowując: „Jesteś raczej leniwy czy raczej nieuczciwy?”), albo zawierając w teście pytania które prowokują do lekkiego skłamania, po czym dokonując korektę na poziom kłamstwa tak uzyskanego (np. „Nigdy nie zdarzyło mi się powiedzieć nieprawdy.” – każdemu się zdarzyło, pytanie czy się do tego przyznasz).

Z popularnych na rynku testów tego kryterium nie spełniają np. wszelkie testy z rodziny DISC (np. Extended DISC, Persolog, itp.). Banalnie łatwo jest na nich oszukiwać i uzyskać „pożądane” wyniki, odpowiedzi dające takie wyniki są jasno widoczne dla osób testowanych.

[br]

Tendencyjność pytań – kryterium pokrewne z powyższym. Łatwo jest niestety stworzyć pytania, gdzie dużo łatwiej będzie odpowiedzieć na jeden sposób, niż na inny, ze względu choćby na cechy cenione w danej kulturze. Np. nasza kultura ceni raczej ekstrawertyków, więc można oczekiwać, że ludzie naturalnie będą zawyżali swoje tendencje ekstrawertyczne. Najczęściej stosowanym rozwiązaniem jest tu wspomniane wcześniej stosowanie dwóch równie negatywnych odpowiedzi, albo przeciwnie – konfrontowanie ze sobą dwóch cech wysoko atrakcyjnych społecznie. Doszlifowanie pytań testu tak, by uniknąć takich zniekształceń jest oczywiście bardzo pracochłonne.

[br]

Test niemal idealny

Spełnienie powyższych kryteriów daje nam dobry test – test, który faktycznie mierzy to co ma mierzyć, w trafny i powtarzalny sposób. Wymaga to ogromnej pracy, ale daje coś, z czym można faktycznie pracować – oczywiście zakładając, że zostanie zastosowany w odpowiednich warunkach, nie zniekształcających wyniku np. przez wprowadzenie do testu sugerujące, że należy odpowiadać tak, a nie inaczej. (Co wbrew pozorom zdumiewająco łatwo zrobić.) Wszelkie pseudotesty z gazetek, popularne ostatnio testy internetowe, wspomniane MBTI czy DB, nie spełniają tych wszystkich kryteriów, więc ich wyniki są po prostu bezużyteczne. Mogą być rozrywkowe – każdy lubi się czegoś o sobie „dowiedzieć” – ale to by było na tyle. Ich praktyczna wartość jest absolutnie zerowa.

Co gorsza – również wiarygodne i dobrze przygotowane testy mogą mieć zerową wartość praktyczną, bo zostało nam jeszcze jedno kryterium.

[br]

Praktyczne zastosowanie wyników -nawet świetne testy mogą okazać się nijak niezdatne do uogólnienia na praktyczne wyniki w życiu. Np. testy IQ są obecnie bardzo dobrymi testami metodologicznie. Tyle tylko, że poza umiarkowanym powiązaniem z ocenami szkolnymi (ok. 25% w amerykańskim systemie edukacji) IQ naprawdę niewiele nam mówi. No, upraszczam tu nieco – ponadprzeciętnie niskie IQ faktycznie pozwala nam co nieco przewidzieć. Jednak niskie, średnie ani wysokie IQ przestaje już być specjalnie różnicujące i np. nic nie mówi o przyszłym sukcesie finansowym danej osoby.

Skoro zaś nawet dobre jakościowo testy mają problem z przełożeniem swoich wyników na praktyczne konsekwencje, to co dopiero pseudotesty? Niestety, faktycznie spotykałem się z patologiami w rodzaju kobiet, którym w teście z pisma wychodziło, że mąż je zdradza i które niszczyły w efekcie swoje związki. O osobach układających cale swoje życie i biznes w.g. np. MBTI nie wspominając. Wiem, że to pewnie margines, ale może ten artykuł pozwoli przynajmniej kilku osobom uniknąć popełniania takich błędów.

[br]

Mam nadzieję, że udało mi się oddać ogrom pracy niezbędny do stworzenia faktycznego testu psychologicznego oraz wyjaśnić tym samym czemu pseudotesty można sobie, jak mawiał mój znajomy „o kant filozofa rozbić”. Prawdziwy test na uczelni potrafi być tworzony przez cały zespół ludzi przez kilka lat, z wielokrotnymi badaniami na tysiącach osób, zanim będzie można coś takiego „wypuścić” na rynek. Nikt tego nie robi dla zabawy – to po prostu minimalne wymogi, aby ten test do czegokolwiek się nadawał.

Zanim skończymy, warto zająć się trzema najpopularniejszymi argumentami zwolenników pseudotestów wraz z wyjaśnieniem czemu nie są one trafne.

[br]

Ale mój pseudotest tak mi ładnie pasuje!

Oczywiście. „Dobre” – tzn. dobre do sprzedania – pseudotesty wykorzystują tzw. efekt horoskopowy (znany też jako efekt Forera lub efekt Barnuma). Zwał jak zwał, efekt ten opiera się na pisaniu w tak ogólny i nieprecyzyjny sposób, aby każdy mógł odnaleźć siebie w uzyskanym wyniku – jeśli tylko będzie chciał się tego doszukać.

Przykładem takiego tekstu jest tekst wykorzystany w pierwotnym badaniu psychologa Bertrama Forera (tłumaczenie za wikipedią): „Masz potrzebę by ludzie cię lubili i podziwiali, jednak jesteś osobą krytyczną wobec siebie. Masz pewne wady osobowości, ale potrafisz je kompensować tym, co jest w tobie dobre. Masz duże możliwości, które wciąż pozostają niewykorzystane. O ile na zewnątrz możesz wyglądać na osobę zdyscyplinowaną i opanowaną, wewnątrz często trapi cię niepewność i martwisz się o wiele spraw. Niekiedy masz poważne wątpliwości, czy twoja decyzja była dobra albo czy twoje czyny były właściwe. Lubisz pewną ilość zmian i różnorodności, a kiedy osaczają cię ograniczenia odczuwasz niezadowolenie. Cenisz sobie własną niezależność myślenia i nie przyjmujesz cudzych twierdzeń bez przekonujących dowodów. Życie nauczyło cię, aby nie przesadzać ze szczerością kiedy się przed kimś otwierasz. Czasem bywasz osobą otwartą na ludzi, przystępną i towarzyską, ale innym razem zamkniętą, ostrożną i zdystansowaną. Niektóre z twoich marzeń wydają się być nierealistyczne.” (źródło: Wikipedia, http://pl.wikipedia.org/wiki/Efekt_horoskopowy#Eksperyment_Forera)

Prawda, że pasuje?

Niekiedy efekt ten jest dodatkowo rozbudowywany, np. przez twórcze wykorzystanie danych statystycznych. Jeśli wiemy, że w danym kraju 60% rodzin ma psy, możemy założyć, że ok. 90% odbiorców miało w swoim życiu jakiś epizod z psami – własnym, u krewnych, sąsiadów, itp. Łatwo więc można wpleść taki epizod do interpretacji pseudotestu. Efekt horoskopowy jest dodatkowo wspierany przez fakt, że większość osób zwróci uwagę i zapamięta to co się w opisie zgadzało, ignorując rzeczy, które były mniej trafne. Jest również wzmacniany przez fakt, że ludzie łatwo identyfikują się z pozytywnym opisem siebie – wynik będzie więc sformułowany tak, by raczej chwalić, niż krytykować.

[br]

Ale moi ludzie podążają za wskazówkami sprzedaży z pseudotestu i mają lepsze wyniki!

Zrób eksperyment – części nowych pracowników (losowo dobranych, oznaczonych tak, byś w trakcie eksperymentu nie wiedział kogo to dotyczy) daj przemieszane wskazówki z pseudotestu, tak by stosowali nieodpowiednie wskazówki. Sprawdź ich skuteczność po jakimś czasie, porównując z losowo dobranymi nowymi pracownikami którzy dostali nieprzemieszane wskazówki. Przekonasz się, że ogólne wyniki obydwu grup są podobne.

Wskazówki postępowania z pseudotestu mogą dać dwie faktyczne wartości – mogą sprawić, że pracownik czuje się pewniej, oraz mogą dostarczyć mu procedury sprzedaży, gdy takiej wcześniej nie miał. Te dwie kwestie mogą faktycznie wspomóc jego wyniki sprzedażowe, nie są jednak pochodna samego testu. Co jednak istotne, możesz w ogóle obejść test i po prostu przygotować wskazówki lepszej sprzedaży w oparciu o swoje doświadczenie i/lub doświadczenie swoich najlepszych sprzedawców. Takie wskazówki wyjdą taniej, a będą co najmniej równie skuteczne jak wskazówki z pseudotestu.

[br]

Ale nie robiłeś mojego pseudotestu, jakbyś zrobił to byś doświadczył i zmienił zdanie

Nie. Mam dość pokory by wiedzieć, że jestem równie podatny na samooszukiwanie jak każdy inny człowiek, dlatego nie zmieniłbym w takim wypadku zdania. Mogę zmienić zdanie gdy przedstawisz badania nt. trafności, rzetelności i norm Twojego testu :)

Masz pytanie z zakresu kompetencji miękkich/soft skills? Kanał Self Overflow dostarcza odpowiedzi z tego zakresu, dostosowanych w szczególności do potrzeb osób z sektora IT. Co tydzień nowe filmy z odpowiedziami na pytania od naszych widzów!

Przykładowe pytania: