Fehlerreduktionsmaße
Proportionale Fehlerreduktionsmaße geben indirekt die Stärke des Zusammenhangs zwischen zwei Variablen X und Y an. Definiert werden sie als
PRE=E1−E2E1=1−E2E1{displaystyle PRE={frac {E_{1}-E_{2}}{E_{1}}}=1-{frac {E_{2}}{E_{1}}}},
wobei E1{displaystyle E_{1}} der Fehler bei der Vorhersage der abhängigen Variablen Y ohne Kenntnis des Zusammenhangs und E2{displaystyle E_{2}} der Fehler bei der Vorhersage der abhängigen Variablen Y mit Kenntnis des Zusammenhangs mit X ist.
Da 0≤E2≤E1{displaystyle 0leq E_{2}leq E_{1}} gilt (weil man annimmt, dass die Kenntnis des Zusammenhangs korrekt ist; der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab), folgt 0≤PRE≤1{displaystyle 0leq PREleq 1}. Ein Wert von Eins bedeutet, dass bei Kenntnis der unabhängigen Variable der Wert der abhängigen Variable perfekt vorhergesagt werden kann. Ein Wert von Null bedeutet, dass die Kenntnis der unabhängigen Variablen keine Verbesserung in der Vorhersage der abhängigen Variable ergibt.
Der Vorteil ist, dass damit alle proportionalen Fehlerreduktionsmaße in gleicher Weise unabhängig vom Skalenniveau interpretiert werden können. Als Vergleichsmaßstab kann daher das Bestimmtheitsmaß dienen, da es ein proportionales Fehlerreduktionsmaß ist, oder folgende Daumenregel:[1]
PRE<0,1{displaystyle PRE<0{,}1}: Keine Beziehung,
0,1≤PRE<0,3{displaystyle 0{,}1leq PRE<0{,}3}: Schwache Beziehung,
0,3≤PRE<0,5{displaystyle 0{,}3leq PRE<0{,}5}: Mittlere Beziehung und
0,5≤PRE{displaystyle 0{,}5leq PRE}: Starke Beziehung.
Der Nachteil ist, dass
- die Richtung des Zusammenhangs nicht berücksichtigt werden kann, da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden können und
- die Größe der Fehlerreduktion davon abhängt, wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird. Ein kleiner Wert des proportionalen Fehlerreduktionmaßes bedeutet nicht, dass es keinen Zusammenhang zwischen den Variablen gibt.
Da eine Variable abhängig und die andere unabhängig ist, unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmaßen:
Skalenniveau der | Maß | |||
---|---|---|---|---|
unabhängigen Variable X | abhängigen Variable Y | Name | Bemerkung | |
nominal | nominal | Goodman und Kruskals λ{displaystyle lambda }[2] | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
nominal | nominal | Goodman und Kruskals τ{displaystyle tau }[2] | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
nominal | nominal | Unsicherheitskoeffizient oder Theils U[3] | Es gibt ein symmetrisches und ein asymmetrisches Maß. | |
ordinal | ordinal | Goodman und Kruskals γ{displaystyle gamma }[2] | Es gibt nur ein symmetrisches Maß. | |
nominal | metrisch | η2{displaystyle eta ^{2}} | Es gibt nur ein asymmetrisches Maß. | |
metrisch | metrisch | Bestimmtheitsmaß R2{displaystyle R^{2}} | Es gibt nur ein symmetrisches Maß. |
Inhaltsverzeichnis
1 Bestimmtheitsmaß
2 Goodman und Kruskals λ und τ
2.1 Goodman und Kruskals λ
2.2 Goodman und Kruskals τ
2.3 Symmetrische Maße
3 Unsicherheitskoeffizient
3.1 Entropie
3.2 Asymmetrischer Unsicherheitskoeffizient
3.3 Symmetrischer Unsicherheitskoeffizient
4 Goodman und Kruskals γ
5 η2
6 Literatur
7 Einzelnachweise
Bestimmtheitsmaß |
Für die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X und Y dürfen nur Werte der abhängigen Variablen Y benutzt werden. Der einfachste Ansatz ist y^i(1)=c{displaystyle {hat {y}}_{i}^{(1)}=c}, also die Annahme eines konstanten Wertes. Dieser Wert soll die Optimalitätseigenschaft c=minc~∑i=1n(yi−c~)2{displaystyle c=min _{tilde {c}}sum _{i=1}^{n}(y_{i}-{tilde {c}})^{2}} erfüllen, also die Summe der quadratischen Abweichungen minimieren. Daraus folgt, dass c{displaystyle c} das arithmetische Mittel ist, also c=y¯{displaystyle c={bar {y}}}. Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs
E1=∑i=1n(yi−y^i(1))2=∑i=1n(yi−y¯)2{displaystyle E_{1}=sum _{i=1}^{n}(y_{i}-{hat {y}}_{i}^{(1)})^{2}=sum _{i=1}^{n}(y_{i}-{bar {y}})^{2}}.
Für die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression y^i(2)=b0+b1xi{displaystyle {hat {y}}_{i}^{(2)}=b_{0}+b_{1}x_{i}} aus:
E2=∑i=1n(yi−y^i(2))2=∑i=1n(yi−b0−b1xi)2{displaystyle E_{2}=sum _{i=1}^{n}(y_{i}-{hat {y}}_{i}^{(2)})^{2}=sum _{i=1}^{n}(y_{i}-b_{0}-b_{1}x_{i})^{2}}.
Das Bestimmtheitsmaß R2{displaystyle R^{2}} ist dann ein proportionales Fehlerreduktionsmaß, da gilt
- R2=1−E2E1=1−∑i=1n(yi−y^i(2))2∑i=1n(yi−y¯)2.{displaystyle R^{2}=1-{frac {E_{2}}{E_{1}}}=1-{frac {displaystyle sum _{i=1}^{n}(y_{i}-{hat {y}}_{i}^{(2)})^{2}}{displaystyle sum _{i=1}^{n}(y_{i}-{bar {y}})^{2}}}.}
Werden die Rollen der abhängigen und unabhängigen Variable vertauscht, so ergibt sich der gleiche Wert für R2{displaystyle R^{2}}. Daher gibt es nur ein symmetrisches Maß.
Goodman und Kruskals λ und τ |
Goodman und Kruskals λ |
Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable und der Vorhersagefehler
- E1=1−hMn{displaystyle E_{1}=1-{frac {h_{M}}{n}}}
mit hM{displaystyle h_{M}} die absolute Häufigkeit in der Modalkategorie und n{displaystyle n} die Anzahl der Beobachtungen.
Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhängigen Variable in Abhängigkeit von den Kategorien der unabhängigen Variablen und der Vorhersagefehler ist
- E2=∑jh∙,jn(1−hM,jh∙,j){displaystyle E_{2}=sum _{j}{frac {h_{bullet ,j}}{n}}left(1-{frac {h_{M,j}}{h_{bullet ,j}}}right)}
mit h∙,j{displaystyle h_{bullet ,j}} die absolute Häufigkeit für die jeweilige Kategorie der unabhängigen Variablen und hM,j{displaystyle h_{M,j}} die absolute Häufigkeit der Modalkategorie in Abhängigkeit von den Kategorien der unabhängigen Variablen.
Beispiel
Im Beispiel rechts ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ bei Unkenntnis des Zusammenhangs als der Vorhersagewert „CDU/CSU“ und damit eine Fehlervorhersage E1=1−770/2660=0,711{displaystyle E_{1}=1-770/2660=0{,}711}.
Je nach Ausprägung der Variablen „Subjektive Schichteinstufung“ ergibt sich für die abhängige Variable „Wahlabsicht Bundestagswahl“ der Vorhersagewert „CDU/CSU“ (Kategorie: Mittelschicht, Obere Mittelschicht/Oberschicht), „SPD“ (Kategorie: Arbeiterschicht) oder „Andere Partei/Nichtwähler“ (alle anderen Kategorien). Der Vorhersagefehler E2=91/2660⋅(1−27/91)+953/2660⋅(1−264/953)+⋯+21/2660⋅(1−6/21)=0,689{displaystyle {E_{2}=91/2660cdot (1-27/91)+953/2660cdot (1-264/953)+dots +21/2660cdot (1-6/21)=0{,}689}} und λ=1−0,689/0,711=0,031{displaystyle lambda =1-0{,}689/0{,}711=0{,}031}.
Das heißt, im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3,1 % reduziert werden, wenn man seine eigene subjektive Schichteinstufung kennt.
Goodman und Kruskals τ |
Bei Goodman und Kruskals τ{displaystyle tau } wird als Vorhersagewert statt der Modalkategorie ein zufälliger gezogener Wert aus der Verteilung von Y angenommen, d. h. mit Wahrscheinlichkeit h1,∙/n{displaystyle h_{1,bullet }/n} wird Kategorie 1 gezogen, mit Wahrscheinlichkeit h2,∙/n{displaystyle h_{2,bullet }/n} wird Kategorie 2 gezogen und so weiter. Der Vorhersagefehler ergibt sich dann als
- E1=∑khk,∙n(1−hk,∙n){displaystyle E_{1}=sum _{k}{frac {h_{k,bullet }}{n}}left(1-{frac {h_{k,bullet }}{n}}right)}
mit hk,∙{displaystyle h_{k,bullet }} die absolute Häufigkeit der Kategorie k{displaystyle k} der abhängigen Variablen. Analog ergibt sich der Vorhersagefehler E2{displaystyle E_{2}}, nur das jetzt die Vorhersage entsprechend für jede Kategorie der unabhängigen Variablen gemacht wird und der Vorhersagefehler E2{displaystyle E_{2}} ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhängigen Variablen.
- E2=∑jh∙,jn(∑khk,jh∙,j(1−hk,jh∙,j)){displaystyle E_{2}=sum _{j}{frac {h_{bullet ,j}}{n}}left(sum _{k}{frac {h_{k,j}}{h_{bullet ,j}}}left(1-{frac {h_{k,j}}{h_{bullet ,j}}}right)right)}
mit hk,j{displaystyle h_{k,j}} die absolute Häufigkeit für das gemeinsame Auftreten der Kategorien i{displaystyle i} und j{displaystyle j}.
Symmetrische Maße |
Für Goodman und Kruskals λ{displaystyle lambda } und τ{displaystyle tau } können die Vorhersagefehler
E1Y{displaystyle E_{1}^{Y}} und E2Y{displaystyle E_{2}^{Y}}, wenn Y{displaystyle Y} die abhängige Variable ist, und
E1X{displaystyle E_{1}^{X}} und E2X{displaystyle E_{2}^{X}}, wenn X{displaystyle X} die abhängige Variable ist,
berechnet werden. Die symmetrischen Maße für Goodman und Kruskals λ{displaystyle lambda } und τ{displaystyle tau } ergeben sich dann als (E1X−E2X)+(E1Y−E2Y)E1X+E1Y{displaystyle {frac {(E_{1}^{X}-E_{2}^{X})+(E_{1}^{Y}-E_{2}^{Y})}{E_{1}^{X}+E_{1}^{Y}}}}.
Unsicherheitskoeffizient |
Entropie |
Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie. Wenn fk{displaystyle f_{k}} die relative Häufigkeit des Auftretens der Kategorie k{displaystyle k} ist, dann ist die Entropie oder Unsicherheit definiert als
- U=−∑kfklog(fk).{displaystyle U=-sum _{k}f_{k},log(f_{k}).}
Die Unsicherheit U{displaystyle U} ist Null, wenn für alle möglichen Kategorien bis auf eine fk=0{displaystyle f_{k}=0} ist. Die Vorhersage, welchen Kategorienwert eine Variable annimmt, ist dann trivial. Ist fk=1/k{displaystyle f_{k}=1/k} (Gleichverteilung), dann ist die Unsicherheit U=log(k){displaystyle U=log(k)} und auch maximal.
Asymmetrischer Unsicherheitskoeffizient |
Das Fehlermaß unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit UY{displaystyle U_{Y}} für die abhängige Variable
- E1=−∑khk,∙nlog(hk,∙n)=UY.{displaystyle E_{1}=-sum _{k}{frac {h_{k,bullet }}{n}}log left({frac {h_{k,bullet }}{n}}right)=U_{Y}.}
Das Fehlermaß unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit für jede Kategorie der abhängigen Variablen
- E2=∑jh∙,jn[−∑khk,jh∙,jlog(hk,jh∙,j)]⏟Unsicherheit in Kategorie jder unabhängigen Variable.{displaystyle E_{2}=sum _{j}{frac {h_{bullet ,j}}{n}}underbrace {left[-sum _{k}{frac {h_{k,j}}{h_{bullet ,j}}}log left({frac {h_{k,j}}{h_{bullet ,j}}}right)right]} _{begin{matrix}{text{Unsicherheit in Kategorie }}j\{text{der unabhängigen Variable}}end{matrix}}.}
Dieser Ausdruck lässt auch schreiben als
- E2=UXY−UX=[−∑j,khk,jnlog(hk,jn)]−[−∑jh∙,jnlog(h∙,jn)]{displaystyle E_{2}=U_{XY}-U_{X}=left[-sum _{j,k}{frac {h_{k,j}}{n}}log left({frac {h_{k,j}}{n}}right)right]-left[-sum _{j}{frac {h_{bullet ,j}}{n}}log left({frac {h_{bullet ,j}}{n}}right)right]}
mit UXY{displaystyle U_{XY}} die Unsicherheit basierend auf der gemeinsamen Verteilung von X{displaystyle X} und Y{displaystyle Y} und UX{displaystyle U_{X}} die Unsicherheit der unabhängigen Variable X{displaystyle X}.
Der Unsicherheitskoeffizient ergibt sich dann als
- Uasym.=E1−E2E1=UX+UY−UXYUY.{displaystyle U_{text{asym.}}={frac {E_{1}-E_{2}}{E_{1}}}={frac {U_{X}+U_{Y}-U_{XY}}{U_{Y}}}.}
Symmetrischer Unsicherheitskoeffizient |
Für den Unsicherheitskoeffizient können die Vorhersagefehler
E1Y{displaystyle E_{1}^{Y}} und E2Y{displaystyle E_{2}^{Y}}, wenn Y{displaystyle Y} die abhängige Variable ist, und
E1X{displaystyle E_{1}^{X}} und E2X{displaystyle E_{2}^{X}}, wenn X{displaystyle X} die abhängige Variable ist,
berechnet werden. Der symmetrische Unsicherheitskoeffizient ergibt sich, wie bei Goodman and Kruskals λ{displaystyle lambda } und τ{displaystyle tau }, als
Usym.=(E1X−E2X)+(E1Y−E2Y)E1X+E1Y=2(UX+UY−UXY)UX+UY{displaystyle U_{text{sym.}}={frac {(E_{1}^{X}-E_{2}^{X})+(E_{1}^{Y}-E_{2}^{Y})}{E_{1}^{X}+E_{1}^{Y}}}={frac {2(U_{X}+U_{Y}-U_{XY})}{U_{X}+U_{Y}}}}.
Goodman und Kruskals γ |
C{displaystyle C} sei die Zahl konkordanten Paare (xi<xj{displaystyle x_{i}<x_{j}} und yi<yj{displaystyle y_{i}<y_{j}}) und D{displaystyle D} die Zahl diskordanten Paare (xi<xj{displaystyle x_{i}<x_{j}} und yi>yj{displaystyle y_{i}>y_{j}}). Wenn wir keine gemeinsamen Rangzahlen (Ties) haben und n{displaystyle n} die Anzahl der Beobachtungen ist, dann gilt C+D=n(n−1)/2{displaystyle C+D=n(n-1)/2}.
Unter Unkenntnis des Zusammenhangs können wir keine Aussage darüber machen, ob ein Paar konkordant oder diskordant ist. Daher sagen wir Wahrscheinlichkeit 0,5 ein konkordantes bzw. diskordantes Paar vorher. Der Gesamtfehler für alle möglichen Paare ergibt sich als
- E1=C+D2.{displaystyle E_{1}={frac {C+D}{2}}.}
Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt, falls C≥D{displaystyle Cgeq D}, oder immer Diskordanz, wenn C<D{displaystyle C<D}. Der Fehler ist
- E2=min(C,D)={D, falls C≥DC, falls C<D{displaystyle E_{2}=min(C,D)=left{{begin{matrix}D,&{text{ falls }}Cgeq D\C,&{text{ falls }}C<Dend{matrix}}right.}
und es folgt
- E1−E2E1=C+D2−min(C,D)C+D2=|C−D|C+D=|γ|.{displaystyle {frac {E_{1}-E_{2}}{E_{1}}}={frac {{frac {C+D}{2}}-min(C,D)}{frac {C+D}{2}}}={frac {|C-D|}{C+D}}=|gamma |.}
Der Betrag von Goodman and Kruskals γ{displaystyle gamma } ist damit ein symmetrisches proportionales Fehlerreduktionsmaß.
η2 |
Wie bei dem Bestimmtheitsmaß ist der Vorhersagewert für die abhängige metrische Variable unter Unkenntnis des Zusammenhangs y¯{displaystyle {bar {y}}} und der Vorhersagefehler
E1=∑i=1n(yi−y¯)2{displaystyle E_{1}=sum _{i=1}^{n}(y_{i}-{bar {y}})^{2}}.
Bei Kenntnis, zu welcher der Gruppen der nominale oder ordinale unabhängigen Variable die Beobachtung gehört, ist der Vorhersagewert gerade der Gruppenmittelwert y¯k{displaystyle {bar {y}}_{k}}. Der Vorhersagefehler ergibt sich als
- E2=∑k∑i=1n(yi−y¯k)2δik{displaystyle E_{2}=sum _{k}sum _{i=1}^{n}(y_{i}-{bar {y}}_{k})^{2}delta _{ik}}
mit δik={1, falls i=k0 sonst {displaystyle delta _{ik}=left{{begin{matrix}1,&{text{ falls }}i=k\0&{text{ sonst }}end{matrix}}right.}, wenn die Beobachtung i{displaystyle i} zur Gruppe k{displaystyle k} gehört und sonst Null. Damit ergibt sich
η2=1−E2E1=1−∑k∑i=1n(yi−y¯k)2δik∑i=1n(yi−y¯)2{displaystyle eta ^{2}=1-{frac {E_{2}}{E_{1}}}=1-{frac {sum _{k}sum _{i=1}^{n}(y_{i}-{bar {y}}_{k})^{2}delta _{ik}}{sum _{i=1}^{n}(y_{i}-{bar {y}})^{2}}}}.
Die Rollen der abhängigen und unabhängigen Variablen können nicht vertauscht werden, da sie unterschiedliche Skalenniveaus haben. Deswegen gibt es nur ein (asymmetrisches) Maß.
In Cohen (1998)[1] wird als Daumenregel angegeben:
η2<0,01{displaystyle eta ^{2}<0{,}01} kein Zusammenhang,
0,01≤η2<0,04{displaystyle 0{,}01leq eta ^{2}<0{,}04} geringer Zusammenhang,
0,04≤η2<0,16{displaystyle 0{,}04leq eta ^{2}<0{,}16} mittlerer Zusammenhang und
0,16≤η2{displaystyle 0{,}16leq eta ^{2}} starker Zusammenhang.
Beispiel
In dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um 0,3062=0,094{displaystyle 0{,}306^{2}=0{,}094}, also knapp 10 %, reduziert werden. Das zweite η{displaystyle eta } ergibt sich, wenn man die Rolle der Variablen vertauscht, was aber hier unsinnig ist. Daher muss dieser Wert ignoriert werden.
Literatur |
- Y.M.M. Bishop, S.E. Feinberg, P.W. Holland (1975). Discrete Multivariate Analysis: Theory and Practice. Cambridge, MA: MIT Press.
- L.C. Freemann (1986). Order-based Statistics and Monotonicity: A Family of Ordinal Measures of Association. Journal of Mathematical Sociology, 12(1), S. 49–68
- J. Bortz (2005). Statistik für Human- und Sozialwissenschaftler (6. Auflage), Springer Verlag.
- B. Rönz (2001). Skript "Computergestützte Statistik II", Humboldt-Universität zu Berlin, Lehrstuhl für Statistik.
Einzelnachweise |
↑ ab J. Cohen (1988). Statistical Power Analysis for Behavioral Science. Erlbaum, Hilsdale.
↑ abc L.A. Goodman, W.H. Kruskal (1954). Measures of association for cross-classification. Journal of the American Statistical Association, 49, S. 732–764.
↑ H. Theil (1972), Statistical Decomposition Analysis, Amsterdam: North-Holland Publishing Company (diskutiert den Unsicherheitskoeffizient).