Datenschutz & Cookies
Diese Seite verwendet Cookies. Indem Sie fortfahren, stimmen Sie deren Verwendung zu. Erfahren Sie mehr, einschließlich der Kontrolle von Cookies.
( Warnung: lang und leicht wackelig)
Wenn Sie wie ich sind, sind Sie ständig frustriert über die Tatsache, dass Studenten Schwierigkeiten haben, Statistiken zu verstehen. Eigentlich ist das gelinde gesagt: Ein großer Teil der Studenten weigert sich einfach, Statistiken zu verstehen; Erwähnen Sie eine Anforderung für die statistische Datenanalyse in Ihrem Kurs und Sie werden Augenrollen, Stöhnen oder (wenn es früh genug im Semester ist) einen Ausschlag natürlich fallen lassen.
Das stört mich, weil wir in der Wissenschaft ohne Statistik keine Inferenz machen können *. Warum sind Schüler so unempfänglich für etwas so Wichtiges? In unbewachten Momenten habe ich es den Schülern selbst vorgeworfen, a priori und in einer sich selbst erfüllenden Prophezeiung entschieden zu haben, dass Statistik Mathematik ist und sie nicht rechnen können. Ich habe es den Mathematiklehrern der Highschool vorgeworfen, Mathe langweilig zu machen. Ich habe es den Highschool-Beratern vorgeworfen, den Schülern gesagt zu haben, wenn sie Mathe nicht mögen, sollten sie Biologie-Majors werden. Ich habe es Eltern vorgeworfen, weil sie ihren Kindern erlaubt haben, Mathe nicht zu mögen. Ich habe es sogar dem Boogie ** vorgeworfen.
Alle diese Parteien (außer dem Boogie) sind schuldig. Aber ich habe verstanden, dass meine Liste die schuldigste Partei von allen ausgelassen hat: uns. Mit „uns“ meine ich Fakultätsmitglieder, die Statistiken unterrichten – egal ob sie in Abteilungen für Mathematik, Abteilungen für Statistik oder (keuchend) Abteilungen für Biologie sind. Wir machen Statistiken unnötig schwierig für unsere Schüler, und ich verstehe nicht, warum.
Das Problem ist im obigen Bild dargestellt – die Formeln, die zur Berechnung des Welch-t-Tests benötigt werden. Sie sind arithmetisch etwas kompliziert und werden in einer bestimmten Situation verwendet: der Vergleich zweier Mittel, wenn Stichprobengrößen und Varianzen ungleich sind. Wenn Sie drei Mittelwerte vergleichen möchten, benötigen Sie einen anderen Satz von Formeln; Wenn Sie auf eine Steigung ungleich Null testen möchten, benötigen Sie erneut einen anderen Satz; Wenn Sie die Erfolgsraten in zwei binären Versuchen vergleichen möchten, noch einen anderen Satz; und so weiter. Und jeder Satz von Formeln funktioniert nur, wenn seine eigenen Annahmen über die Daten korrekt sind.
Können wir angesichts dessen den Schülern vorwerfen, dass sie denken, Statistik sei kompliziert? Nein, wir können es nicht; aber wir können uns selbst die Schuld geben, dass wir sie denken lassen, dass es so ist. Sie denken das, weil wir das Wichtigste an Statistiken immer wieder unterschätzen: dass diese Komplikation eine Illusion ist. Tatsächlich funktioniert jeder Signifikanztest genau gleich.
Jeder Signifikanztest funktioniert genauso. Wir sollten dies zuerst lehren, es oft lehren und es laut lehren; aber wir tun es nicht. Stattdessen machen wir einen großen Fehler: Wir sausen daran vorbei und beginnen Test für Test zu unterrichten, bombardieren die Schüler mit Ableitungen von Teststatistiken und -verteilungen und achten mehr auf Unterschiede zwischen Tests als auf ihre entscheidende, zugrunde liegende Identität. Kein Wunder, dass sich die Schüler über Statistiken ärgern.
Was meine ich mit „Jeder Signifikanztest funktioniert genau gleich“? Alle (NHST) statistischen Tests reagieren auf ein Problem mit zwei einfachen Schritten.
Das Problem:
- Wir sehen scheinbare Muster, aber wir sind uns nicht sicher, ob wir glauben sollten, dass es real ist, weil unsere Daten verrauscht sind.
Die zwei Schritte:
- Schritt 1. Messen Sie die Stärke des Musters in unseren Daten.
- Schritt 2. Fragen Sie sich, ist dieses Muster stark genug, um geglaubt zu werden?
Das Unterrichten des Problems motiviert in erster Linie die Verwendung von Statistiken (viele Mathematikunterrichtskurse und fast alle Biologieunterricht leisten dies gut). Das Unterrichten der beiden Schritte gibt den Schülern die Werkzeuge, um jede Hypothese zu testen – zu verstehen, dass es nur darum geht, die richtige Arithmetik für ihre speziellen Daten auszuwählen. Hier scheinen wir zu fallen.
Schritt 1 ist natürlich die Teststatistik. Unsere Aufgabe ist es, eine Zahl zu finden (oder zu erfinden), die die Stärke eines bestimmten Musters misst. Es ist nicht verwunderlich, dass die Details der Berechnung einer solchen Zahl von dem Muster abhängen, das wir messen möchten (Unterschied in zwei Mitteln, Steigung einer Linie, was auch immer). Aber diese Details beinhalten immer die drei Dinge, die wir intuitiv als Teil der „Stärke“ eines Musters verstehen (siehe unten): die rohe Größe des scheinbaren Effekts (in Welch’s t, der Unterschied in den beiden Stichprobenmitteln); die Menge an Rauschen in den Daten (in Welch’s t, den beiden Standardabweichungen der Stichprobe) und die Menge an Daten in der Hand (in Welch’s t, den beiden Stichprobengrößen). Sie können durch Inspektion sehen, dass sich diese in den Welch-Formeln genau so verhalten, wie sie sollten: t wird größer, wenn die Mittelwerte weiter voneinander entfernt sind, die Stichproben weniger verrauscht sind und / oder die Stichprobengrößen größer sind. Der ganze Rest ist uninteressant arithmetische Detail.
Schritt 2 ist der P-Wert. Wir müssen einen P-Wert erhalten, der unserer Teststatistik entspricht, was bedeutet, dass wir wissen, ob Annahmen erfüllt sind (damit wir eine Nachschlagetabelle verwenden können) oder nicht (also sollten wir Randomisierung verwenden oder zu einem anderen Test wechseln ***). Jeder Test verwendet eine andere Tabelle – aber alle Tabellen funktionieren auf die gleiche Weise, sodass die Unterschiede wieder nur arithmetisch sind. Die Interpretation des P-Wertes, sobald wir ihn haben, ist ein Kinderspiel, denn es spielt keine Rolle, welche Arithmetik wir auf dem Weg gemacht haben: Der P-Wert für jeden Test ist die Wahrscheinlichkeit eines Musters, das so stark ist wie unseres (oder stärker), in Abwesenheit eines wahren zugrunde liegenden Effekts. Wenn dies niedrig ist, würden wir lieber glauben, dass unser Muster aus der realen Biologie entstanden ist, als zu glauben, dass es aus einem erstaunlichen Zufall entstanden ist (Deborah Mayo erklärt die Philosophie dahinter hier, oder sehen Sie ihren ausgezeichneten Blog).
Natürlich gibt es viele Details in den Unterschieden zwischen den Tests. Diese sind wichtig, aber sie sind auf eine Weise zweiter Ordnung wichtig: Bis wir die zugrunde liegende Identität verstehen, wie jeder Test funktioniert, macht es keinen Sinn, sich über die Unterschiede Gedanken zu machen. Und selbst dann sind die Unterschiede keine Dinge, an die wir uns erinnern müssen; Sie sind Dinge, die wir wissen müssen, um bei Bedarf nachzuschlagen. Deshalb, wenn ich weiß, wie man einen statistischen Test macht – irgendeinen statistischen Test –, weiß ich, wie man sie alle macht.
Bedeutet das, dass ich dafür bin, „Kochbuch“ -Statistiken zu unterrichten? Ja, aber nur, wenn wir die Metapher sorgfältig und nicht abwertend verwenden. Ein Kochbuch ist von geringem Nutzen für jemanden, der überhaupt nichts über das Kochen weiß; Aber wenn Sie eine Handvoll Grundprinzipien kennen, führt Sie ein Kochbuch durch Tausende von Kochsituationen, für verschiedene Zutaten und unterschiedliche Ziele. Alle Köche besitzen Kochbücher; nur wenige merken sie sich.
Also, wenn wir Statistiken falsch lehren, hier ist, wie man es richtig macht: Organisieren Sie alles um die zugrunde liegende Identität. Beginnen Sie damit, verbringen Sie viel Zeit damit und veranschaulichen Sie es mit einem Test (einem beliebigen Test), wobei Sie nicht auf die Berechnungen achten, sondern darauf, wie dieser Test uns durch die beiden Schritte führt. Versuchen Sie nicht, die „8 Tests, die jeder Student wissen sollte“ abzudecken; Es gibt keine solche Liste. Bieten Sie ein statistisches Problem an: einige reale Daten und ein Muster, und fragen Sie die Schüler, wie sie einen Test entwerfen könnten, um dieses Problem anzugehen. Es wird keinen richtigen Weg geben, und selbst wenn es ihn gäbe, wäre er weniger wichtig als die Übung, die Schritte der zugrunde liegenden Identität zu durchdenken.
Endlich: warum machen Lehrer Statistiken über die Unterschiede, nicht die zugrunde liegende Identität? Ich sagte, ich weiß es nicht, aber ich kann spekulieren.
Wenn Statistik von Mathematikern gelehrt wird, kann ich die Versuchung sehen. Mathematisch gesehen sind die Unterschiede zwischen den Tests der interessante Teil. Hier zeigen Mathematiker ihre Koteletts, und hier erledigen sie die schwierige und wichtige Aufgabe, neue Rezepte zu erfinden, um aus neuen Zutaten in neuen Situationen zuverlässige Ergebnisse zu erzielen. Benutzer von Statistiken würden jedoch gerne festlegen, dass Mathematiker klug waren und dass wir ihnen alle dankbar sind, damit wir uns an die Arbeit machen können, die Statistiken zu erstellen, die wir tun müssen.
Wenn Statistik von Biologen gelehrt wird, ist das Geheimnis tiefer. Ich denke (ich hoffe!) diejenigen von uns, die Statistik unterrichten, verstehen alle die zugrunde liegende Identität aller Tests, aber das scheint uns nicht vom Parade-of-Tests-Ansatz abzuhalten. Eine Hypothese: möglicherweise reagieren wir auf den Druck (wahrgenommen oder real) von Mathematikabteilungen, die es ablehnen können, dass Statistiken außerhalb ihrer Einheiten unterrichtet werden, und schnell behaupten, dass die mathematische Strenge unzureichend ist, wenn dies der Fall ist. Fokus auf viele mathematische Details gibt ein Furnier der scheinbaren Strenge. Ich bin mir nicht sicher, ob meine Hypothese richtig ist, aber ich war sicherlich Teil von Diskussionen mit mathematischen Abteilungen, die damit übereinstimmten.
Aus welchen Gründen auch immer, wir schaden unseren Schülern, wenn wir Statistiken kompliziert machen. Ist es nicht. Denken Sie daran, dass jeder statistische Test genau gleich funktioniert. Lehren Sie einen Schüler, dass heute.
Hinweis: Für eine etwas andere Sicht auf die Kochbuch-Statistik-Metapher, siehe Joan Strassmanns interessanten Beitrag hier. Ich denke, ich stimme ihr nur teilweise zu, also solltest du auch ihr Stück lesen.
Ein weiteres verwandtes Stück von Christie Bahlai ist hier: „Hey, lass uns alle einfach über Statistiken entspannen“ – aber mit einer breiteren Botschaft über NHST über Felder hinweg.
Hier ist die Geschichte zweier Ökologen, die gelernt haben, Statistiken zu lieben – und es macht viel Spaß.
© Stephen Heard ([email protected]) Oktober 6, 2015
*^ In diesem Beitrag werde ich frequentistische Inferenzstatistiken oder traditionelle „Nullhypothesen-Signifikanztests“ diskutieren. Ich werde Debatten darüber beiseite lassen, ob Bayes-Methoden überlegen sind und ob P-Werte falsch angewendet werden (siehe meine Verteidigung des P-Wertes). Ich werde es unterlassen, spöttisch über Behauptungen zu schnauben, dass wir überhaupt keine Inferenzstatistiken brauchen.
** ^ OK, nicht wirklich, aber wenn ich das da reinschiebe, kann ich darauf verlinken. Ebenso bin ich versucht, dem Regen die Schuld zu geben, Kain die Schuld zu geben, dem Bossa Nova die Schuld zu geben und Rio die Schuld zu geben. OK, ich werde jetzt aufhören; Aber wenn Sie einen haben, den ich verpasst habe, warum nicht einen Link in die Antworten einfügen?
***^ Ich würde die Transformation der Daten als „Zu einem anderen Test wechseln“ einbeziehen, aber wenn Sie dort lieber einen Unterschied machen möchten, ist das in Ordnung.