Statistiken und die Problematiken ihrer Interpretation

3. Januar 2009

Frohes neues Jahr.

Wie im alten Jahr versprochen, wollte ich einen Thread zu der Problematik der Interpretation von Statistiken eröffnen.

Nach reiflicher Überlegung bin ich zu dem Schluss gekommen, dass es eventuell am meisten Sinn macht, eine möglichst kurze und klare theoretische Einführung in die Problematik hier selbst zu schreiben, und dann die Möglichkeit zu bieten, exemplarisch Statistiken nach diesen Vorgaben zu betrachten, oder generell die Problematik der Interpretation von Statistiken hier weiter zu diskutieren – zum Beispiel auch dann, wenn bei dem was ich geschrieben habe Fragen auftauchen sollten, etwas undeutlich sein sollte oder mir ein Fehler unterlaufen ist. Ich kann auch gerne, falls weiter gewünscht, ein oder zwei Beispiele selbst bringen, belasse es aber zunächst erstmal bei der Einführung / Übersicht, um zu sehen, wie viel Interesse der Thread überhaupt weckt.

Ich basiere mich bei dem, was ich schreibe, auf die Human-/ Psychologische Statistik, da hier im Forum ja zumeist Statistiken in Bezug auf menschliches Verhalten diskutiert werden. Wer gern einen Quellen-Nachweis wünscht, woher ich meine Informationen beziehe, kann mir gern eine PN schicken.

3. Januar 2009

1. Operationalisierungen, Validität, Reliabilität

Wenn ich in einer Statistik eine einfache Datenerhebung mache (sagen wir, eine Statistik darüber, wie viele Männer und wie viele Frauen in der Bundesrepublik Deutschland leben), gibt es über die verwendete Variable (Geschlecht) recht wenig Diskussionsbedarf – Geschlecht ist eindeutig genug.

Meistens, zumindest wenn es um Menschen und menschliches Verhalten geht, sind die Variablen aber gar nicht so eindeutig. „Sind Männer gewalttätiger als Frauen ?“ – wie definiert sich hier „gewalttätig“ ? Verbale Gewalt ? Physische Gewalt ? Mit welcher Intensität, von welcher Dauer ? Oder auch „Sind Christen moralischer als Atheisten“ – wie ist „moralisch“ gemeint ?

Um an der Stelle nicht bereits eine Beliebigkeit in der Definition dessen zu riskieren, was man eigentlich messen will, „operationalisiert“ (d.h. man definiert sie auf eine bestimmte Art und Weise) man die Variable(n), die man statistisch erfassen will. Eine mögliche Operationalisierung der Variable „Gewalt“ könnte zum Beispiel die folgende sein: „Anzahl von tatsächlich erfolgten physischen Attacken gegen den Lebenspartner im letzten Jahr“. Eine Operationalisierung der Variable „moralisch“ könnte z.B. ein Fragebogenverfahren sein, mit dem gemessen wird, ob jemand der Versuchung widerstehen würde, Geld zu stehlen, wenn das Risiko, dabei erwischt zu werden, als gering einzustufen ist.

Das Problem bei diesen Operationalisierungen ist meist, dass die untersuchten Variablen oft von solcher Komplexität sind (wie das Beispiel Moral zeigt), dass eine einzelne Operationalisierung dieser Variable deren gesamte Breite gar nicht abzudecken imstande ist, sondern nur einen Teilbereich. Hier ist dann auch schon das erste Problem für eine Interpretation: Man verallgemeinert die Operationalisierung, ohne genau zu wissen oder gelesen zu haben, was *genau* eigentlich gemessen wurde. Wenn eine Statistik nun ergibt, dass Atheisten eher dazu neigen, zu stehlen wenn sie dabei nicht erwischt werden als Christen, ist damit mitnichten gezeigt dass Christen moralischer sind als Atheisten, eben weil die untersuchte Variable nur einen ganz kleinen Teilbereich abdeckt.

Wenn man nun die Variablen operationalisiert hat, macht man sich daran, sie mit einem geeigneten Instrument zu messen (wie zum Beispiel einem Fragebogenverfahren, einem Zeitmesser, einer Waage, psychologischen Testverfahren, je nachdem, was man eben messen will). Dabei ist es wünschenswert, dass das Instrument auch dafür geeignet ist, das zu messen was man messen will (dass es valide ist), und dass es unter gleichen Bedingungen auch das gleiche mißt (dass es reliabel ist).

Es stellt sich bei der Interpretation von Statistiken diesbezüglich also die Frage, ob das verwendete Instrument eigentlich dazu geeignet ist, die Variablen zu messen. Es gibt gerade in der Psychologie und in den Humanwissenschaften haufenweise völlig unzureichende Testverfahren (die nicht ausreichend valide oder reliabel sind), und natürlich muss das verwendete Testverfahren überhaupt zur verwendeten Operationalisierung passen.

3. Januar 2009

2. Kausal vs. Korrelation

Wenn man eine Statistik vorgelegt bekommt, stellt sich sofort die Frage, wie diese zustande gekommen ist. Daraus ergibt sich auch direkt, welche Aussagekraft sie eigentlich besitzt.

Kausalzusammenhänge lassen sich einzig und allein durch ein Experiment nachweisen (ein Experiment zeichnet sich u.a. dadurch aus, dass randomisiert wird und dass die Umgebung menschenmöglichst konstant gehalten wird). Bei einem Experiment ist es wünschenswert und erwartungsgemäß so, dass eine hohe interne Validität vorliegt – d.h., dass Alternativ-Erklärungen für einen gefundenen Effekt möglichst ausgeschlossen werden können, wodurch es eben möglich ist, den Nachweis von kausalen Zusammenhängen zu erbringen.

Auch hier gibt es bereits diverse Möglichkeiten, sich die Aussagekraft und damit die Höhe der Validität zu versauen. Ein Beispiel dafür ist ein sogenannter „Selection Bias“ – wenn ich eine Statistik erstelle indem ich zu einem Experiment, in dem die Religiösität der Bevölkerung festgestellt werden soll, nur Testpersonen zulasse, die ausgewiesenermaßen religiös sind, erhalte ich keine objektiven Daten.

Wünschenswert aber weniger häufig ist es bei (Labor-)Experimenten, dass auch eine hohe externe Validität vorliegt – dass man die gefundenen Ergebnisse also auch verallgemeinern kann. Das ist mitnichten automatisch der Fall. Durch die starke Kontrolle sämtlicher Einflüsse in einem (Labor-)Experiment, die es eben gestattet, eine hohe interne Validität zu erzielen, entfernt man sich in der Regel von der Beobachtung einer Alltagssituation hin zu einem sehr speziellen Ausschnitt, der meist nicht mehr mit einer Alltagssituation übereinstimmt, auf die die externe Validität – also die Generalisierbarkeit hin zur Population – hinzielt.

Das ist dann auch meist die Crux. Entdecke ich einen Kausalzusammenhang (weil ich ein Experiment durchgeführt habe), gilt dieser Kausalzusammenhang meist nur in einem sehr eingeschränkten Gebiet. Spreche ich über eine Population und Effekte, die für die gesamte Population gelten soll, ist es sehr schwierig, nachzuweisen, dass auch hier Kausalzusammenhänge vorliegen. Meist – und dafür braucht man keine experimentellen Designs – weist man in Studien Korrelationen nach. Eine Korrelation zwischen zwei Variablen bedeutet, dass beide Variablen zueinander in einem Zusammenhang stehen. Eine positive Korrelation bedeutet, dass wenn die Werte einer Variable steigt, auch die Werte der anderen Variable steigt. Eine negative Korrelation bedeutet, dass wenn die Werte einer Variable steigt, die Werte der anderen Variable fällt. Eine Null-Korrelation bedeutet, dass sich kein Zusammenhang feststellen lässt.

Eine starke Korrelation kann, muss aber kein Hinweis auf einen Kausalzusammenhang sein. Diesen Fehler machen sehr viele Leute, dies gleichzusetzen. Bei einem Kausalzusammenhang weiß ich ganz genau, dass durch die Veränderung einer Variable auf direktem Wege die andere Variable verändert wird. Bei einer Korrelation weiß ich dies nicht – es ist durchaus möglich, dass eine sogenannte störende Variable Einfluss auf beide korrelierende Variablen hat, aber im verborgenen sitzt. Ein Beispiel: Für gewöhnlich korrelieren Schuhgröße und Gewicht positiv miteinander. Das bedeutet aber nicht, dass hier ein direkter kausaler Zusammenhang besteht und die dicksten Menschen die größten Füße haben – sondern hier gibt es eine störende, intermedierende Variable, nämlich das Alter, welches sowohl auf Schuhgröße als auch auf Gewicht vor allem während der Wachstumsphase Einfluß nimmt.

In dem geschlossenen Thread zur Frauengewalt (nein, ich möchte das Thema nicht aufwärmen, sondern es hier lediglich als Anschauung verwenden) und der verlinkten Website wurde ein Fragebogenverfahren verwendet (kein Experiment, kein Kausalzusammenhang), um Aussagen zur Gewaltausübung bei Scheidungsfällen (sehr spezielle Situation) zu treffen. Der Autor der Website verwendete diese Daten, um den Anschein einer Generalisierbarkeit auf die Population zu erwecken und gleichzeitig einen Kausalzusammenhang herzustellen, methodisch gesehen also gleich zwei Todsünden auf einmal.

3. Januar 2009

3. Allgemeine Probleme der Statistik

Statistische Verfahren funktionieren im wesentlichen nach folgendem Prinzip: Daten werden erhoben, und in verschiedenen statistischen Verfahren analysiert, mit dem Ziel, herauszufinden, wie wahrscheinlich es ist, dass der analysierte Datensatz auf Zufälligkeit beruht. Der sogenannte p-Wert wird hierbei als Gradmesser verwendet. Es ist Konvention (also Absprache), dass ein p-Wert von 0,05 (5 % Wahrscheinlichkeit) als cut-off Wert angesetzt wird, was bedeutet, wenn eine statistische Analyse einen p-Wert von 0,05 oder kleiner erreicht, geht man davon aus, dass die Daten nicht dem Zufall entspringen, sondern dass System dahinter steckt. Es gibt mathematische Berechnungen, wieviele Testpersonen man bei einem gewissen Daten/Variablensatz benötigt, um einen p-Wert von 0,05 oder kleiner zu erreichen, also ist es meist nur eine Frage der Anzahl der Testpersonen, ob ich meine statistische Analyse in den aussagekräftigen Bereich bekomme oder nicht. Was sich theoretisch leicht anhört, ist es praktisch meist nicht.

Aussagekräftiger ist meist der sogenannte R-Quadrat-Wert, der angibt, zu welchem Prozentsatz eine gemessene Variable eine andere direkt beeinflusst.

Das Problem des p-Werts ist es, dass dessen cut-off Wert nicht auf einem mathematisch gesicherten Konzept beruht, sondern eben abgesprochen ist. Sämtliche Analysen mit p größer oder gleich 0,05 werden zumeist als aussagefrei angesehen (was ein Fehler ist, aber das auszuführen würde zu speziell werden), obwohl dieser Wert lediglich die Möglichkeit der Zufälligkeit des Datensatzes angibt, nicht, dass es definitiv so ist – so ist es vielleicht schwer zu verteidigen, warum eine Analyse mit p-Wert = 0,051 für die Mülltonne sein soll, eine Analyse mit p-Wert = 0,049 aber nicht. Deswegen plädieren viele Statistiker für ein Gleit-Modell, d.h. dass p-Werte zwischen 0,05 und 0,1 noch als mäßig aussagekräftig angesehen werden dürfen.

Natürlich ist es trotzdem möglich, dass selbst eine Studie mit einem gefundenen p-Wert von 0,01 in Wirklichkeit trotzdem auf Zufall beruht (also die 1-Prozentige Wahrscheinlichkeit hier zuschlägt). Deswegen ist die Aussagekraft einer einzigen Studie zu einem Bereich auch meist als eher begrenzt anzusehen, und man wartet gern, bis weitere Studien und Analysen zum gleichen Bereich erfolgt sind, die die gefundenen Resultate untermauern (wenn ich bei vergleichbaren Experimenten oder Studien immer ähnliche p-Werte finde, wird es mit zunehmender Anzahl von bestätigenden Studien immer unwahrscheinlicher, dass die gefundenen Resultate auf Zufall beruhen).

bearbeitet 3. Januar 2009 von Tarislar

3. Januar 2009

Aber auf jeden Fall ganz herzlichen Dank, dass Du ins hier in einigen Kurz-Lektionen in die Grundlagen der Statistik eingeführt hast - das hast Du toll gemacht! :thumbsup:

(Ich erinnere mich dumpf an den Anfang meines Studiums...)

bearbeitet 3. Januar 2009 von kam

3. Januar 2009

Ich habe jetzt hier nach Gutsherrenart böse herumgelöscht, weil ich hier was über Statistik lernen möchte, Grüße, KAM

3. Januar 2009

Danke, Tarislar.

Bzgl. Operationalisierung: was sind denn so die "Sicherungsmechanismen", um bei der Operationalisierung nicht schon dem erkenntnisleitenden Interesse zu "verfallen"?

3. Januar 2009

Danke, Tarislar.

Bzgl. Operationalisierung: was sind denn so die "Sicherungsmechanismen", um bei der Operationalisierung nicht schon dem erkenntnisleitenden Interesse zu "verfallen"?

Im Prinzip gibt es unendlich viele Möglichkeiten ein Konstrukt / eine Variable zu operationalisieren. Deswegen ist eine exakte Definition der Operationalisierung des Konstrukts so wichtig, um jedem Leser der Studie zu ermöglichen, nachzuvollziehen, was eigentlich gemeint ist.

In den Humanwissenschaften werden daher multiple Operationalisierungen mehr und mehr bevorzugt - also verschiedene Facetten die zu einer gemeinsamen Definition oder einem Gesamt-Instrument zusammengefügt werden, um ein Konstrukt (damit ist, wie oben unter 1. zum Beispiel "Moral" gemeint) möglichst so umfassend wie möglich zu beschreiben / definieren, um immerhin eine Annäherung zu erreichen.

Ein Beispiel : Es gibt eine Studie von 2007 (Ellison, Fan, 2007) zum Zusammenhang täglicher spiritueller Erfahrungen (theistisch sowie non-theistisch) und dem Wohlbefinden von US-Bürgern. Das Konstrukt "täglicher spiritueller Erfahrungen" wurde hierbei durch einen umfassenden Fragebogen operationalisiert, in dem ganz verschiedene Fragen zu verschiedenen Bereichen von "spiritueller Erfahrung" zusammengefaßt sind, um ein möglichst breites Abbild dieses Konstrukts zu erzeugen.

Die wichtigste "Sicherungsmaßnahme" um sinnlose oder potentiell tendenziöse Operationalisierungen zu vermeiden, ist die wissenschaftliche Gemeinschaft und deren Erkenntnisstand - die Operationalisierung muss testbar sein, aber natürlich hält einen niemand zwingend davon ab, z.B. "Moralität" als "die Genauigkeit, mit der sich ein Mensch an die 10 Gebote der Bibel hält" zu operationalisieren - die Frage dabei ist, ob eine solche Studie es überhaupt schaffen würde, publiziert zu werden, weil jede Studie zunächst durch ein recht strenges Lektorat mit fachlich belesenem Personal muss, bevor sie überhaupt ausgewählt und zugelassen wird.

bearbeitet 3. Januar 2009 von Tarislar

3. Januar 2009

Aber auf jeden Fall ganz herzlichen Dank, dass Du ins hier in einigen Kurz-Lektionen in die Grundlagen der Statistik eingeführt hast - das hast Du toll gemacht! :thumbsup:

Ja, ich schliesse mich an. Vielen Dank an Tarislar auch von mir! Seine Einleitung zu diesem Thema ist sehr kompetent gemacht und somit eine Diskussion ist überflüssig. Es bleibt nur übrig imho, an dem aktuellen Beispiel von Gewalt nach Geschlechtern zu zeigen, wie mit "bias" gearbeitet wird. Michael Kimmel, ein Soziologieprofessor aus New York, hat gemacht sehr kompetente Analysen zum Thema von Gewalt in Beziehungen. (Literatur: Kimmel, gender symmetry in domestic violence: a substantive and methodological research review). Er ist auch eingegangen auf das CTS (conflict tactics scale) von Murray Straus, das verwendet wird bei den Statistiken die belegen sollen zumindest den gleichen Anteil der Frauen bei häusliche Gewalt. Ich versuche, mit den Aussagen von Tarislar zu belegen, warum das CTS falsch ist und die Ergebnisse unbrauchbar und die Problematik mit Erhebungen bei diesem Thema generell. Ich habe dabei überprüft meine Aussagen mit den Einwänden von Kimmel, die man findet zusammengefasst hier auf englisch:

http://www.ncdsv.org/images/male_DV_victims1.pdf

Eine mögliche Operationalisierung der Variable „Gewalt“ könnte zum Beispiel die folgende sein: „Anzahl von tatsächlich erfolgten physischen Attacken gegen den Lebenspartner im letzten Jahr“.

Bei haeusliche Gewalt ist es bereits problematisch. Man ignoriert dadurch psychische Gewalt oder Drohungen. Man beruecksichtigt nicht die Intensitaet der Gewalt. Man stellt nicht fest, wer angefangen hat mit Gewalt. Es wird nicht differenziert zwischen Aggression, Retribution und Notwehr.

CTS hat alle diese Nachteile. Es erfasst nur physische Attacken pro Kopf innerhalb letzte 12 Monate, und es berücksichtigt sexuelle Gewalt nicht. Eine befragte Person ist gewalttaetig unabhaengig ob er den Partner einmal oder 50x Gewalt zugefuegt hat. Ein Partner wird erfasst als Gewalttaeter, wenn er sich wehrt physisch gegen sexuelle Belaestigung oder zum Schutz der Kinder. Ein Partner, der sich wehrt gegen Pruegel und den Angreifer zurueckschubst (sagt man so?) ist gleich gewalttaetig wie der Angreifer selber laut CTS. Diese Schwaeche besteht nicht nur bei CTS, sondern bei allen Erhebungen zu diesen Thema. Die Entwicklung in eine Partnerschaft, der Wunsch nach Dominanz, die Schwierigkeiten sich zu halten in Kontrolle und die Anwendung von Gewalt als Mittel zum Zweck sind sehr dynamische Prozesse, was nur schwierig reduziert werden kann auf eine Datenset. Das mindeste, das getan werden muesste, ist physische Attacken zu gewichten nach "minor" und "significant" Gewalt in eine solche Model. (leichte und schwere, sagt man so?) Kimmel hat es getan und die Ergebnisse sehen aus sehr verschieden.

Eine Operationalisierung der Variable „moralisch“ könnte z.B. ein Fragebogenverfahren sein, mit dem gemessen wird, ob jemand der Versuchung widerstehen würde, Geld zu stehlen, wenn das Risiko, dabei erwischt zu werden, als gering einzustufen ist.

Man muss dabei voraussetzen die Ehrlichkeit der Person die beantwortet die Fragen. Bei haeuslicher Gewalt dies muss angezweifelt werden. Personen die dominieren wollen ihre Partner mit Gewalt sind psychisch labil und sehen sich selber als Opfer – viele Gewalttaeter auch ausserhalb der Domaene von haeusliche Gewalt tun es auch. Bei ihnen vorauszusetzen Ehrlichkeit bei den Antworten ist bereits problematisch.

Nachtrag:ich erinnere mich im Studium wir hatten immer ein lustiges Beispiel. In Singapore man fragte die maennliche business travellers am Flughafen, ob sie waehrend der Reise betruegen ihre Ehefrau. 95% antworteten mit nein. :angry2:

Wenn man nun die Variablen operationalisiert hat, macht man sich daran, sie mit einem geeigneten Instrument zu messen (wie zum Beispiel einem Fragebogenverfahren, einem Zeitmesser, einer Waage, psychologischen Testverfahren, je nachdem, was man eben messen will).

Ausser Fragebogen und Statistiken der Polizei ich kann mir keine geeignete Instrument zur Datenerhebung vorstellen fuer die Erfassung von haeusliche Gewalt. Die Problematik zu Fragebogen ich habe erwaehnt, darueber kann man sicher diskutieren. Die Statistik der Polizei kommt auf ganz andere Zahlen als das CTS.

In dem geschlossenen Thread zur Frauengewalt (nein, ich möchte das Thema nicht aufwärmen, sondern es hier lediglich als Anschauung verwenden) und der verlinkten Website wurde ein Fragebogenverfahren verwendet (kein Experiment, kein Kausalzusammenhang), um Aussagen zur Gewaltausübung bei Scheidungsfällen (sehr spezielle Situation) zu treffen. Der Autor der Website verwendete diese Daten, um den Anschein einer Generalisierbarkeit auf die Population zu erwecken und gleichzeitig einen Kausalzusammenhang herzustellen, methodisch gesehen also gleich zwei Todsünden auf einmal.

Wo hast du diese Statistik gesehen? Ich fand nur diejenige von Murray Straus. Und Straus zieht keine solche Schlussfolgerungen.

Sämtliche Analysen mit p größer oder gleich 0,05 werden zumeist als aussagefrei angesehen (was ein Fehler ist, aber das auszuführen würde zu speziell werden), obwohl dieser Wert lediglich die Möglichkeit der Zufälligkeit des Datensatzes angibt, nicht, dass es definitiv so ist – so ist es vielleicht schwer zu verteidigen, warum eine Analyse mit p-Wert = 0,051 für die Mülltonne sein soll, eine Analyse mit p-Wert = 0,049 aber nicht. Deswegen plädieren viele Statistiker für ein Gleit-Modell, d.h. dass p-Werte zwischen 0,05 und 0,1 noch als mäßig aussagekräftig angesehen werden dürfen.

ich denke, man kann lernen aus fast allen Statistiken, wenn man nicht übersieht die Schwächen bei der Erhebung der Daten. Leider werden viele Statistken verwendet für die Meinungsbildung, wie auch hier in diesem Forum leider, von Leuten, die nicht verstehen wollen oder verstanden haben die Problematik. Vielleicht diese Diskussion hilft, darüber hinwegzukommen.

lg, Kiki

bearbeitet 3. Januar 2009 von kiki

4. Januar 2009

Danke für deinen Beitrag, kiki. Und ja, deine Ausführungen zum CTS sind ein gutes Beispiel, meiner Meinung nach, wie man eine Operationalisierung unzulässig generalisieren kann. Wenn man dann nicht ganz genau hinschaut, was da eigentlich wie gemessen wird, kommt man zu völlig unzulässigen und damit potentiell gefährlichen Schlussfolgerungen.

Man muss dabei voraussetzen die Ehrlichkeit der Person die beantwortet die Fragen. Bei haeuslicher Gewalt dies muss angezweifelt werden. Personen die dominieren wollen ihre Partner mit Gewalt sind psychisch labil und sehen sich selber als Opfer – viele Gewalttaeter auch ausserhalb der Domaene von haeusliche Gewalt tun es auch. Bei ihnen vorauszusetzen Ehrlichkeit bei den Antworten ist bereits problematisch.

Nachtrag:ich erinnere mich im Studium wir hatten immer ein lustiges Beispiel. In Singapore man fragte die maennliche business travellers am Flughafen, ob sie waehrend der Reise betruegen ihre Ehefrau. 95% antworteten mit nein.

Das ist ein allgemeines Problem bei Fragebogenverfahren - überhaupt bei expliziten Verfahren - dass man sich sozial wünschenswert darstellt, oder die Ergebnisse bewußt verfälschen kann.

Ausser Fragebogen und Statistiken der Polizei ich kann mir keine geeignete Instrument zur Datenerhebung vorstellen fuer die Erfassung von haeusliche Gewalt. Die Problematik zu Fragebogen ich habe erwaehnt, darueber kann man sicher diskutieren. Die Statistik der Polizei kommt auf ganz andere Zahlen als das CTS.

Es gibt vor allem in der kognitiven Psychologie seit einiger Zeit Testungen mit sogenannten impliziten Testverfahren, die sich dadurch auszeichnen, dass man sie schwer bis gar nicht beeinflussen, also faken kann. Beispiele dafür sind der Stroop Task, oder der Approach-Avoidance Task. Für die Erfassung von häuslicher Gewalt sind sie meines Erachtens (noch) nicht geeignet, aber dieses Prinzip findet sich auch schon in den bereits länger bestehenden (dafür schwerer verlässlich zu interpretierenden) projektiven Testverfahren wie z.B. dem Rosenzweig-Picture-Frustration Test.

Wo hast du diese Statistik gesehen? Ich fand nur diejenige von Murray Straus. Und Straus zieht keine solche Schlussfolgerungen.

Im offenen Text auf Seite 2, glaube ich, sind zwei kleine Statistik-Blöckchen mit Text dazwischen - schau am besten nochmal nach.

ich denke, man kann lernen aus fast allen Statistiken, wenn man nicht übersieht die Schwächen bei der Erhebung der Daten. Leider werden viele Statistken verwendet für die Meinungsbildung, wie auch hier in diesem Forum leider, von Leuten, die nicht verstehen wollen oder verstanden haben die Problematik. Vielleicht diese Diskussion hilft, darüber hinwegzukommen.

lg, Kiki

Deswegen habe ich diesen Thread hier ja auch eröffnet, und hoffe, dass er diese Wirkung haben wird :angry2:

bearbeitet 4. Januar 2009 von Tarislar

4. Januar 2009

Es gibt vor allem in der kognitiven Psychologie seit einiger Zeit Testungen mit sogenannten impliziten Testverfahren ...

Hättest Du dazu lesenswerte links o.ä.? Würde mich stark interessieren!

4. Januar 2009

Es gibt vor allem in der kognitiven Psychologie seit einiger Zeit Testungen mit sogenannten impliziten Testverfahren ...
Hättest Du dazu lesenswerte links o.ä.? Würde mich stark interessieren!

Ja, zum Beispiel Wikipedia hat dazu etwas, wie ich gerade festgestellt habe:

http://de.wikipedia.org/wiki/Impliziter_Assoziationstest

4. Januar 2009

Danke - konnte die Qualität von Wikipedia nicht beurteilen...

Beim Nachlesen ist mir aufgegangen, daß mir die Computerumsetzung von irgendwoher bekannt war, meiner Erinnerung nach von Fragen zur eigenen Einschätzung mathematisch-naturwissenschaftlicher vs. literarisch-künstlerischer Begabung von Frauen.

bearbeitet 4. Januar 2009 von gouvernante

4. Januar 2009

Danke - konnte die Qualität von Wikipedia nicht beurteilen...

Die ist in diesem Artikel m.A.n. nicht schlecht.

Hier geht es zu einigen Beispieltests, wenn man daran mal teilnehmen möchte:

https://implicit.harvard.edu/implicit/germany/

Leider ist das Anwendungsgebiet dieser impliziten Tests noch etwas beschränkt, aber ich halte einiges davon. Es hat mit diesen Testverfahren bereits Studien gegeben, inwieweit man die eigenen Ergebnisse bewußt fälschen kann, und bei den meisten Tests sind die Ergebnisse recht vielversprechend, wodurch dann natürlich auch die gewonnenen Daten als zuverlässiger betrachtet werden können.

Beim Nachlesen ist mir aufgegangen, daß mir die Computerumsetzung von irgendwoher bekannt war, meiner Erinnerung nach von Fragen zur eigenen Einschätzung mathematisch-naturwissenschaftlicher vs. literarisch-künstlerischer Begabung von Frauen.

Das ist gut möglich - oft werden diese Fragen zusammen mit den impliziten Testverfahren verwendet, und davor bzw. danach gestellt, um bewußte, selbst-gesteuerte Antworten (wie von diesen Fragebögen) mit den Resultaten der impliziten Testverfahren vergleichen und ggfls korrelieren zu können.

bearbeitet 4. Januar 2009 von Tarislar

4. Januar 2009

Hallo Tarislar,

erst mal vielen Dank für die Mühe, die Du Dir gemacht hast - bevor ich mich ans Lesen mache. :angry2:

4. Januar 2009

Vielleicht erstellen wir einige Beispielstatistiken, aus denen wir weitere Fehler ableiten können.

Gutes Beispiel wäre vllt, dass der Durchschnittsmensch weniger als 2 Beine hat. Wenn von 1000 Personen eine nur ein einziges Bein hat, haben wir im Durchschnitt keine 2 Beine pro Person mehr.

Anhand einer anderen Statistik sollte man den Median genauer erläutern, den viele Leute mit dem Durchschnittswert verwechseln.

Weiter: In den USA werden Schwarze Schüler häufiger geschlagen als weiße Kinder. Was aber vermutlich daran liegt, dass gerade die Bundesstaaten mit dem höchsten Bevölkerungsanteil an Schwarzen hauptsächlich die Prügelstrafe im Gesetz haben. Im einzelnen Staat werden dann aber Weiße und Schwarze gleichermaßen stark geschlagen.

Noch n nettes Beispiel: Manche Berufsgruppen haben eine höhere Lebenserwartung als der Bevölkerungsschnitt, eben weil man mindestens 30 Jahre alt sein muss, um Mitglied zu werden.

Vllt jede dritte Ehe wird geschieden. Aber auch da verzerrt die Statistik ungemein, denn die jeweils erste Ehe wird nur selten geschieden. Die zweite Ehe wird schon häufiger geschieden, weil einer der Ehepartner ja bereits gezeigt hat, dass er zu keiner intakten Ehe fertig ist.

10% aller Autounfälle werden durch ALkohol am Steuer verursacht. Also werden 90% aller Unfälle durch Nüchternheit am Steuer verursacht. :angry2:

4. Januar 2009

Vielleicht erstellen wir einige Beispielstatistiken, aus denen wir weitere Fehler ableiten können.

Gutes Beispiel wäre vllt, dass der Durchschnittsmensch weniger als 2 Beine hat. Wenn von 1000 Personen eine nur ein einziges Bein hat, haben wir im Durchschnitt keine 2 Beine pro Person mehr.

Anhand einer anderen Statistik sollte man den Median genauer erläutern, den viele Leute mit dem Durchschnittswert verwechseln.

Weiter: In den USA werden Schwarze Schüler häufiger geschlagen als weiße Kinder. Was aber vermutlich daran liegt, dass gerade die Bundesstaaten mit dem höchsten Bevölkerungsanteil an Schwarzen hauptsächlich die Prügelstrafe im Gesetz haben. Im einzelnen Staat werden dann aber Weiße und Schwarze gleichermaßen stark geschlagen.

Noch n nettes Beispiel: Manche Berufsgruppen haben eine höhere Lebenserwartung als der Bevölkerungsschnitt, eben weil man mindestens 30 Jahre alt sein muss, um Mitglied zu werden.

Vllt jede dritte Ehe wird geschieden. Aber auch da verzerrt die Statistik ungemein, denn die jeweils erste Ehe wird nur selten geschieden. Die zweite Ehe wird schon häufiger geschieden, weil einer der Ehepartner ja bereits gezeigt hat, dass er zu keiner intakten Ehe fertig ist.

10% aller Autounfälle werden durch ALkohol am Steuer verursacht. Also werden 90% aller Unfälle durch Nüchternheit am Steuer verursacht.

Hmm das bringt mich auf eine Idee - ich lese dazu noch ein paar Dinge nach, und erweitere die drei Essays daraufhin eventuell...oder wenn ich eine entsprechende Statistik auffinde, arbeite ich es daran ab.

4. Januar 2009

Gutes Beispiel wäre vllt, dass der Durchschnittsmensch weniger als 2 Beine hat. Wenn von 1000 Personen eine nur ein einziges Bein hat, haben wir im Durchschnitt keine 2 Beine pro Person mehr.

Anhand einer anderen Statistik sollte man den Median genauer erläutern, den viele Leute mit dem Durchschnittswert verwechseln.

wieso, das geht sehr gut mit deiner statistik. während in deinem beispiel im durchschnitt tatsächlich sowas wie 1.9999 beine rauskommt, wird der median bei 2 beinen liegen. bei 1000 personen ergibt sich der median aus dem durchschnitt des 500 + 501 (sortierten) datensatzes, was dann wohl auf 2 beine hinausläuft, ausser wir befinden uns in einem krankenhaus für amputierte.

danke auch für den "refresher", tarislar.

bearbeitet 4. Januar 2009 von phyllis

5. Januar 2009

Lesen wir doch einmal über CTS nach in dem betreffenden Wikipedia-Artikel. Da stellt sich das ganz anders dar. Tarislar, ist dir das nicht aufgefallen ? Wobei die Wikipedia selbstverständlich nur eine allererste Orientierung sein kann. Aber schon da zeigt, daß Aussagen, wie kiki sie macht, unhaltbar sind.

Ich möchte die Conflict Tactics Scale als Instrument zur Messung häuslicher Gewalt in diesem Thread nicht verwenden, um über das Thema häusliche Gewalt zu sprechen, sondern es aus dem Blickwinkel der statistischen Betrachtung zu besprechen.

Dazu zunächst der Link sowohl zur deutschen als auch englischen Besprechung dieses Instruments in Wikipedia:

http://de.wikipedia.org/wiki/Conflict_Tactics_Scales

http://en.wikipedia.org/wiki/Conflict_Tactics_Scale

Der Feststellung, dass Wikipedia als Quelle für wissenschaftliche Arbeit ungeeignet ist, wie von kiki bereits gesagt und auch von Trevir angeschnitten, schließe ich mich an - manche Artikel sind vom wissenschaftlichen Standpunkt aus absolut korrekt, aber es gibt keine wirklichen Kontrollorgane für die Korrektheit der Information, wie das üblicherweise bei wissenschaftlicher Arbeit nötig wäre.

Um die Conflict Tactics Scale wirklich eingehend analysieren zu können, bräuchten wir einen Überblick über jedes einzelne Item, also jede Frage, die in diesem Instrument enthalten ist. Ohne dies kann man die Qualität dieses Instruments nicht wirklich abschließend beurteilen, und das muss dieser Thread auch nicht wirklich leisten. Es scheint aber Konsensus zu sein, dass die Erst-Version dieser Skala bereits einer Revision durch berechtigte Kritik unterzogen wurde, und nun also ein CTS2 existiert.

Weiterhin entnehme ich den Wikipedia-Artikeln und kiki's Äußerungen, dass es Diskussionen darum gegeben hat, ob diese Skala wirklich dazu imstande ist, das zu messen, was sie messen soll - nämlich häusliche Gewalt. Das schließt bei der weiter oben diskutierten Problematik an, wie eine Variable zu operationalisieren ist, und dass es im Prinzip unendlich Möglichkeiten gibt, dies zu tun - und dass folgerichtig auch unter Fachleuten ein Streit entbrennen kann, ob ein gewisses Instrument geeignet ist, oder nicht.

In diesem Fall scheint mir der Hauptkritikpunkt der zu sein, dass das CTS-Instrument im wesentlichen eine quantitative Messung vornimmt, aber Kontext-Informationen außer Acht lässt, so dass sich die Frage stellt, ob häusliche Gewalt als Konstrukt durch eine reine zahlenmäßige Gegenüberstellung von Gewaltakten ausreichend definiert ist, oder die Kontextinformation in jedem Fall zwingend dazu gehört, in welchem Fall das Instrument diesbezüglich unzureichend wäre.

Ein weiterer Kritikpunkt gegenüber dem CTS ist im übrigen ein Kritikpunkt der bei den meisten Fragebogenverfahren gemacht werden kann: Der sogenannte "response bias" - also die Tatsache, dass viele Menschen sich in einem sozial erwünschten Licht darzustellen versuchen, und dadurch die Ergennisse verfälscht werden können.

Ich will hier gar nicht versuchen (und noch einmal, ohne genaue Kenntnis der einzelnen Items des CTS geht das auch nicht wirklich) den CTS abschließend zu diskutieren, es reicht mir, daran zu demonstrieren, wie schwierig es mitunter sein kann, eine Operationalisierung eines Konstrukts zu finden mit der man sich objektiv einverstanden erklären kann oder auch muss - Ideologien, egal von welcher Seite, haben leider dabei immer einen verzerrenden Einfluss, sind aber oft aufgrund der Komplexität der Materie nicht vollends aus dem Weg zu drängen.

5. Januar 2009

Koennte man nicht ein paar weniger idiologisch aufgeladene und vor allen Dingen weniger komplexe Beispiele nehmen? Das staendige Abbiegen von Trevir auf sein Thema schadet diesem ausgesprochen interessanten Thread nur, da es fuer alle anderen, die sich fuer Statistik und nicht fuer Maennergewalt interessieren, keinen Nutzwert hat.

Kann man. Ich wollte diesbezüglich auch auf das Posting von narziss eingehen, und zu dem was er genannt hat einige einfache Beispiele bringen, bin nur noch nicht dazu gekommen. Allerdings nehme ich nun noch einmal ganz unideologisch Bezug auf das Thema Dunkelziffer und anschließend Sensitivität und Spezifizität von Instrumenten.

Mit der Dunkelziffer bin ich schnell durch - in der Kriminalstatistik, ein Gradmesser für nicht genau zu erfassene Zahlen, z.B. weil sich Leute nicht, oder nicht wahrheitsgemäß genug, bei entsprechenden Fragen äußern. Diese Dunkelziffer wird dadurch geschätzt, dass man repräsentative Umfragen (repräsentativ bedeutet hier eine zufällige Stichprobe aus der Bevölkerung die befragt wird, wobei die Anzahl der Befragten groß genug ist, um auf jeden Fall ein signifikantes p-Ergebnis dabei zu erzielen) durchführt, und diese vergleicht mit den vorliegenden Statistiken, also der Prävalenz (Gesamtzahl vorliegender Fälle) und der Inzidenz (neue Fälle im vorliegenden Jahr). Warum die Dunkelziffer eine Dunkelziffer bleibt und durch diese Methodik nicht zur Hellziffer mutiert, erklärt sich dadurch, dass die repräsentativen Umfragen ebenfalls z.B. von response bias betroffen sind, und nur eine Schätzung erlauben, nicht aber eine klare Zahl ergeben.

Spezifizität und Sensitivität

Bei Testverfahren in den Humanwissenschaften kommt es vor, dass dieses Testverfahren nicht immer hundertprozentige Treffer liefert. Nehmen wir als Beispiel einen Test, der feststellen soll, ob eine bestimmte Krankheit vorliegt oder nicht.

Dabei gibt es natürlich die eindeutigen Varianten - der Test stellt fest, jemand ist krank - oder er stellt fest, jemand ist nicht krank. Es kommt aber durchaus auch vor, dass jemand der eigentlich krank ist, als nicht krank klassifiziert wird, und genau so kann es vorkommen, dass jemand, der eigentlich nicht krank ist, im Test doch als krank klassifiziert wird.

Sensitivität bezeichnet die richtig-positiven Ergebnisse - also den Fall, dass der Test eine Krankheit als solche identifiziert. Spezifizität bezeichnet die richtig-negativen Ergebnisse - also den Fall, dass der Test jemanden, der nicht krank ist, als nicht krank identifiziert.

Im allgemeinen gilt, je sensitiver ein Instrument (also je besser darin, die Krankheit als solche zu identifizieren), desto mehr falsch-positive Resultate produziert es auch (es wird eine Krankheit identifiziert die nicht wirklich vorliegt) - und je spezifischer ein Instrument ist (also besser darin, eine nicht vorliegende Krankheit auch entsprechend als nicht vorliegend zu identifizieren), desto mehr falsch-negative Ergebnisse werden produziert (die Krankheit wird nicht identifiziert, obwohl sie vorliegt).

Für die vorliegende Diskussion zur Interpretation von Statistiken ist die Kenntnis um die Spezifizität oder Sensitivität eines Instruments deswegen wichtig, weil ich weiß, wenn ein Instrument verwendet wird, dass einen zu hohen Grad an Spezifizität oder Sensitivität aufweist, in welche Richtung das Instrument die Statistik dann möglicherweise verfälscht.

bearbeitet 5. Januar 2009 von Tarislar

7. Januar 2009

Hallo Tarislar,

vielen Dank!

9. Januar 2009

Die Diskussion über Gewalt von Frauen ggü. Männern uä. ist unter allen denkbaren Aspekten in dem eigens von mir dafür eingerichteten Thread zu führen. Wer hier nochmal damit anfängt, wird gelöscht und verwarnt. Grüße, KAM

10. Januar 2009

So, endlich komme ich wieder dazu, zu schreiben.

Zunächst wollte ich ja auf das Posting von narziss eingehen.

Erst einmal zur Unterscheidung von Durschnittswert und Median: Einen Durchschnittswert erhalte ich, wenn ich sämtliche vorliegenden Zahlen meiner Stichprobe addiere, und durch die Anzahl der Zahlen teile. Beispiel: Wenn ich 2, 3, 5, 10, 30 habe, ist der Durchschnittswert = 50 / 5 = 10.

Ein Median hingegen ist der Wert, der in der Mitte der Zahlenreihe liegt, der also möglichst die Hälfte der Zahlenwerte unter, und die Hälfte der

Zahlenwerte über sich hat. In diesem Fall wäre der Median = 5. Ein Vorteil eines Medians gegenüber dem Durchschnittswert, der manchmal zur Anwendung

kommt ist der, dass der Median gegenüber Ausreißern - also ungewöhnlich hohen Zahlenwerten die man in einer statistischen Verteilung nicht unbedingt

erwarten würde - resistenter ist. In meinem Zahlenbeispiel sieht man, dass durch die 30 am Ende der Durchschnittswert auf 10 erhöht wird, der Median

hingegen bleibt bei 5.

Weiter: In den USA werden Schwarze Schüler häufiger geschlagen als weiße Kinder. Was aber vermutlich daran liegt, dass gerade die Bundesstaaten mit dem höchsten Bevölkerungsanteil an Schwarzen hauptsächlich die Prügelstrafe im Gesetz haben. Im einzelnen Staat werden dann aber Weiße und Schwarze gleichermaßen stark geschlagen.

Nehmen wir an das Beispiel ist zutreffend, und das Schlagen von Schülern wird kausal durch die Prügelstrafe bedingt, und weiter trifft dies auf

Staaten mit höherem Anteil von schwarzen als weißen Schülern zu, dann erklärt sich die Tatsache, dass rein zahlenmäßig mehr schwarze als weiße

Schüler geschlagen werden tatsächlich möglicherweise über die reine Verteilung: Nehmen wir an, in eine hypothetischen Bundesstaat werden

1.000.000 weiße und 2.000.000 schwarze Schüler unterrichtet, und 10 % aller Schüler werden regelmäßig der Prügelstrafe unterzogen, dann trifft das

auf 100.000 weiße und 200.000 schwarze Schüler zu - rein zahlenmäßig auf doppelt so viele schwarze wie weiße Schüler, aber es gibt auch doppelt

so viele von ihnen. Im Durchschnitt sind es trotzdem nicht mehr.

Noch n nettes Beispiel: Manche Berufsgruppen haben eine höhere Lebenserwartung als der Bevölkerungsschnitt, eben weil man mindestens 30 Jahre alt sein muss, um Mitglied zu werden.

Das ist ein schönes Beispiel dafür, wie sehr der Durchschnittswert von den gemessenen Werten abhängt und auch wie oben bemerkt, dass er Ausreißern

oder Extremwerten gegenüber empfindlicher ist als z.B. der Median. Ein einfaches Zahlenbeispiel kann das verdeutlichen:

Nehmen wir exemplarisch die Lebenserwartung von fünf zufälligen Personen an: 79, 66, 52, 28, 19. Die durchschnittliche Lebenserwartung hier beträgt

48,8 Jahre. Die Selektion derjenigen, die in der speziellen Berufsgruppe zu finden ist, hat aber eine Lebenserwartung von im Schnitt 79 + 66 + 52 / 3 =

65,66 Jahren, eben weil die Werte unter 30, die den Durchschnittswert weit nach unten ziehen, wegfallen.

Vllt jede dritte Ehe wird geschieden. Aber auch da verzerrt die Statistik ungemein, denn die jeweils erste Ehe wird nur selten geschieden. Die zweite Ehe wird schon häufiger geschieden, weil einer der Ehepartner ja bereits gezeigt hat, dass er zu keiner intakten Ehe fertig ist.

Im Prinzip funktioniert dies wie das obige Beispiel - die hohe Anzahl von Scheidungen nach zweiter Ehe (angenommen das Beispiel ist so korrekt) zieht

den Durchschnittswert der nach erster Ehe geschiedenen mit nach unten, wenn hier keine Unterscheidung vorgenommen und beide Zahlenreihen vermengt werden.

10% aller Autounfälle werden durch ALkohol am Steuer verursacht. Also werden 90% aller Unfälle durch Nüchternheit am Steuer verursacht.

Das wiederum ist ein Fall unzulässiger Umkehrung. "Verursachung" von Autounfällen durch Alkohol am Steuer unterstellt Kausalität. Was nicht automatisch

bedeutet, dass die Umkehrung auch automatisch einen kausalen Bezug zur Verursachung von Autounfällen hat.

Statistiken und die Problematiken ihrer Interpretation

Recommended Posts

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Epicureus

Link zu diesem Kommentar

Auf anderen Seiten teilen

kam

Link zu diesem Kommentar

Auf anderen Seiten teilen

gouvernante

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

kiki

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

gouvernante

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

gouvernante

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Julius

Link zu diesem Kommentar

Auf anderen Seiten teilen

narziss

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

phyllis

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

andre...

Link zu diesem Kommentar

Auf anderen Seiten teilen

kam

Link zu diesem Kommentar

Auf anderen Seiten teilen

Tarislar

Link zu diesem Kommentar

Auf anderen Seiten teilen

Join the conversation

Umsehen

Aktivitäten

Meine Aktivitätsverläufe