Dlaczego Statystyki są tak trudne dla naszych uczniów? - Naukowiec widzi wiewiórkę

Prywatność & Pliki cookie

ta strona używa plików cookie. Kontynuując, zgadzasz się na ich użycie. Dowiedz się więcej, w tym jak kontrolować pliki cookie.

Mam!

reklamy

(Uwaga: długie i lekko wonkish)

jeśli jesteś taki jak ja, to ciągle jesteś sfrustrowany faktem, że studenci studiów licencjackich mają problemy ze zrozumieniem statystyk. Właściwie, to delikatnie mówiąc: duża część studentów po prostu odmawia zrozumienia statystyk; wymień wymóg analizy Danych Statystycznych w swoim kursie, a dostaniesz eye-rolling, Jęki lub (jeśli jest wystarczająco wcześnie w semestrze) wysypka oczywiście-spada.

to mi przeszkadza, bo nie da się wnioskować w nauce bez statystyki*. Dlaczego uczniowie są tak nieuchwytni na coś tak ważnego? W niestrzeżonych chwilach obwiniałem samych uczniów za to, że zdecydowali, a priori i w samospełniającej się przepowiedni, że statystyka to matematyka, a oni nie potrafią matematyki. Obwiniałem nauczycieli matematyki w liceum za to, że uczynili matmę nudną. Obwiniałem o to opiekunów szkół średnich za mówienie uczniom, że jeśli nie lubią matematyki, powinni zostać nauczycielami biologii. Obwiniałem rodziców za to, że pozwalali dzieciom nie lubić matematyki. Nawet zwaliłem winę na boogie.

wszystkie te partie (z wyjątkiem boogie) są winne. Ale zrozumiałem, że moja lista pominęła najbardziej winnego ze wszystkich: nas. Przez ” nas ” mam na myśli pracowników uczelni, którzy uczą statystyki – czy to na wydziałach matematyki, wydziałach statystyki, czy na wydziałach Biologii. Niepotrzebnie utrudniamy naszym uczniom statystyki i nie rozumiem dlaczego.

problem jest uchwycony na powyższym obrazku-wzory potrzebne do obliczenia t-testu Welcha. Są arytmetycznie nieco skomplikowane i są używane w jednej konkretnej sytuacji: porównanie dwóch środków, gdy rozmiary próbek i wariancji są nierówne. Jeśli chcesz porównać trzy środki, potrzebujesz innego zestawu formuł; jeśli chcesz przetestować nachylenie niezerowe, potrzebujesz ponownie innego zestawu; jeśli chcesz porównać wskaźniki sukcesu w dwóch próbach binarnych, inny zestaw nadal; i tak dalej. A każdy zestaw formuł działa tylko pod warunkiem poprawności własnego konkretnego zestawu założeń dotyczących danych.

biorąc to pod uwagę, czy możemy winić uczniów za to, że Statystyki są skomplikowane? Nie, Nie możemy, ale możemy obwiniać siebie za to, że pozwalamy im myśleć, że tak jest. Myślą tak, ponieważ konsekwentnie niedoceniamy najważniejszej rzeczy w statystykach: że ta komplikacja jest iluzją. W rzeczywistości każdy test istotności działa dokładnie tak samo.

każdy test istotności działa dokładnie tak samo. Powinniśmy tego nauczać najpierw, uczyć często i głośno, ale nie uczymy. zamiast tego popełniamy ogromny błąd: przeskakujemy przez to i zaczynamy uczyć test po teście, bombardując uczniów wyprowadzaniem statystyk i dystrybucji testów oraz zwracając większą uwagę na różnice między testami niż na ich kluczową, podstawową tożsamość. Nic dziwnego, że studenci mają pretensje do statystyk.

co mam na myśli mówiąc „każdy test istotności działa dokładnie tak samo”? Wszystkie (NHST) testy statystyczne odpowiadają na jeden problem za pomocą dwóch prostych kroków.

problem:

widzimy pozorny wzór, ale nie jesteśmy pewni, czy powinniśmy wierzyć, że jest prawdziwy, ponieważ nasze dane są hałaśliwe.

dwa kroki:

punkt 1. Zmierz siłę wzorca w naszych danych.
Krok 2. Zadaj sobie pytanie, czy ten wzór jest wystarczająco silny, aby uwierzyć?

Nauczanie problemu motywuje przede wszystkim do korzystania ze statystyki (wiele kursów matematycznych i prawie wszystkie kursy biologii robią to dobrze). Nauczanie dwóch kroków daje uczniom narzędzia do testowania każdej hipotezy-zrozumienie, że jest to tylko kwestia wyboru odpowiedniej arytmetyki dla ich konkretnych danych. Tu chyba spadamy.

Krok 1 to oczywiście statystyka testu. Naszym zadaniem jest znalezienie (lub wynalezienie) liczby, która mierzy siłę dowolnego wzoru. Nic dziwnego, że szczegóły obliczenia takiej liczby zależą od wzoru, który chcemy zmierzyć (różnica dwóch środków, nachylenie linii, cokolwiek). Ale te szczegóły zawsze obejmują trzy rzeczy, które intuicyjnie rozumiemy jako część „siły” wzorca( zilustrowane poniżej): surowy rozmiar pozornego efektu (w T Welcha, różnica w dwóch próbkach oznacza); ilość szumu w danych (w T Welcha, dwa odchylenia standardowe próbki) i ilość danych w dłoni (w T Welcha, dwa rozmiary próbki). Możesz zobaczyć przez kontrolę, że zachowują się one w formułach Welcha tak, jak powinny: T staje się większy, jeśli środki są dalej od siebie, próbki są mniej hałaśliwe i / lub rozmiary próbek są większe. Cała reszta jest nieciekawym szczegółem arytmetycznym.

Krok 2 to wartość P. Musimy uzyskać wartość p odpowiadającą naszej statystyce testu, co oznacza, że wiemy, czy założenia są spełnione (możemy więc użyć tabeli lookup), czy nie (powinniśmy więc użyć randomizacji lub przełączyć się na inny test***). Każdy test używa innej tabeli – ale wszystkie tabele działają w ten sam sposób, więc różnice są znowu tylko arytmetyczne. Interpretacja wartości P, Gdy już ją mamy, jest bardzo prosta, ponieważ nie ma znaczenia, jaką arytmetykę zrobiliśmy po drodze: wartość p dla dowolnego testu jest prawdopodobieństwem wzoru tak silnego jak nasz (lub silniejszego), przy braku prawdziwego efektu bazowego. Jeśli jest to niskie, wolimy wierzyć, że nasz wzór powstał z prawdziwej biologii, niż wierzyć, że powstał z oszałamiającego zbiegu okoliczności (Deborah Mayo wyjaśnia filozofię stojącą za tym tutaj lub zobacz jej doskonały blog).

oczywiście w różnicach między testami jest wiele szczegółów. Te mają znaczenie, ale mają znaczenie w sposób drugorzędny: dopóki nie zrozumiemy podstawowej tożsamości tego, jak działa każdy test, nie ma sensu martwić się o różnice. I nawet wtedy, różnice nie są rzeczami, o których musimy pamiętać; są to rzeczy, które musimy wiedzieć, aby spojrzeć w razie potrzeby. Dlatego, jeśli wiem, jak wykonać jeden test statystyczny-dowolny test statystyczny-wiem, jak wykonać wszystkie.

czy to znaczy, że opowiadam się za nauczaniem statystyk „książki kucharskiej”? Tak, ale tylko jeśli użyjemy metafory ostrożnie, a nie pejoratywnie. Książka kucharska jest mało przydatna dla kogoś, kto nic nie wie o gotowaniu; ale jeśli znasz kilka podstawowych zasad, książka kucharska poprowadzi Cię przez tysiące sytuacji kulinarnych, dla różnych składników i różnych celów. Wszyscy kucharze posiadają książki kucharskie; niewielu je zapamiętuje.

więc jeśli uczymy statystyki wszystko źle, oto jak zrobić to dobrze: Uporządkuj wszystko wokół podstawowej tożsamości. Zacznij od niego, poświęć na to dużo czasu i zilustruj go jednym testem (dowolnym testem), który przeszedł ze szczegółową uwagą nie na obliczenia, ale na to, jak ten test prowadzi nas przez dwa kroki. Nie próbuj opisywać „8 testów, które każdy student powinien znać”; nie ma takiej listy. Zaproponuj problem statystyczny: prawdziwe dane i wzór, i zapytaj uczniów, jak mogą zaprojektować test, aby rozwiązać ten problem. Nie będzie jednej właściwej drogi, a nawet gdyby tak było, byłoby to mniej ważne niż ćwiczenie myślenia poprzez etapy leżącej u podstaw tożsamości.

wreszcie: dlaczego instruktorzy tworzą statystyki dotyczące różnic, a nie podstawowej tożsamości? Powiedziałem, że nie wiem, ale mogę spekulować.

kiedy statystyki uczą matematycy, widzę pokusę. Pod względem matematycznym najciekawsze są różnice między testami. To tutaj matematycy pokazują swoje kotlety i to tam wykonują trudną i ważną pracę, jaką jest wymyślanie nowych receptur, aby gotować wiarygodne wyniki z nowych składników w nowych sytuacjach. Użytkownicy statystyk z przyjemnością stwierdzą, że matematycy byli sprytni i że wszyscy jesteśmy im wdzięczni, więc możemy zająć się tworzeniem statystyk, które musimy robić.

kiedy Statystyki są nauczane przez biologów, tajemnica jest głębsza. Myślę (mam nadzieję!) Ci z nas, którzy uczą statystyki wszyscy rozumieją podstawową tożsamość wszystkich testów, ale to nie wydaje się powstrzymywać nas od podejścia parade-of-tests. Jedna hipoteza: możemy reagować na presję (postrzeganą lub rzeczywistą) z działów matematyki, którzy mogą nie aprobować statystyki nauczanej poza ich jednostkami i szybko twierdzą, że jest niewystarczająca rygor matematyczny, gdy jest. Skupienie się na wielu matematycznych szczegółach daje fornir pozornej rygoru. Nie jestem pewien, czy moja hipoteza jest poprawna, ale na pewno byłem częścią dyskusji z wydziałami matematyki, które były zgodne z nią.

niezależnie od przyczyn, wyrządzamy realne szkody naszym uczniom, gdy komplikujemy statystyki. Nie jest. Pamiętaj, każdy test statystyczny działa dokładnie tak samo. Naucz tego dzisiaj ucznia.

uwaga: dla nieco innego spojrzenia na metaforę książki kucharskiej-statystyki, Zobacz ciekawy post Joan Strassmann tutaj. Myślę, że Zgadzam się z nią tylko częściowo, więc też powinieneś przeczytać jej artykuł.

kolejny powiązany artykuł Christie Bahlai jest tutaj: „Hej, uspokójmy się wszyscy o statystykach – – ale z szerszym przesłaniem o nhst w różnych polach.

wreszcie historia dwóch ekologów, którzy nauczyli się kochać statystyki – i to jest dużo zabawy.

*^w tym poście mam zamiar omówić frequentist inferential statystyki, lub tradycyjne „testowanie znaczenia hipotezy zerowej”. Pominę dyskusje na temat tego, czy metody Bayesa są lepsze i czy wartości P są błędnie stosowane (patrz moja obrona wartości P). Powstrzymam się od wyszydzania twierdzeń, że w ogóle nie potrzebujemy wnioskujących statystyk.

* * ^OK, nie bardzo, ale wrzucenie tego tam pozwala mi linkować do tego. Podobnie kusi mnie zrzucenie winy na deszcz, zrzucenie winy na Kaina, zrzucenie winy na Bossa novę i zrzucenie winy na Rio. Ok, zatrzymam się teraz; ale jeśli masz jeden przegapiłem, dlaczego nie upuścić link w odpowiedziach?

***^dodałbym transformację danych jako „Przełącz na inny test”, ale jeśli wolisz narysować tam rozróżnienie, to w porządku.

ogłoszenia

dlaczego tak utrudniamy naszym studentom statystyki?

Prywatność & Pliki cookie

Dodaj komentarz Anuluj pisanie odpowiedzi

Ostatnie wpisy