5. Examinarea relației dintre variabile

5. Examinarea relației dintre variabile

variabile

Cuprins Eșantion bidimensional (diagramă de dispersie) Analiza tendințelor, regresie liniară Coeficientul de determinare Semnificațiile coeficientului de corelație Transformarea Z a lui Fisher Modelul corelației parțiale Monotonia stochastică

Timpul petrecut studiind (ore/zile) Eșantion bidimensional Student Timp petrecut studiind (ore/zile) Media studiului 1. 2 3.0 2. 4 4.0 3. 4. 5. 1 3.5 6. 3 2.5 7 5 8. 5.0

Scatterplot (bivariant) 5 4 Media studiului 3 2 1 2 3 4 5 Numărul de ore pe zi?

Relație liniară pozitivă (I) 55 50 Lungimea nașterii (cm) 45 40 35 1 2 3 4 5 Greutatea nașterii (kg)

Relație liniară pozitivă (II) 145 140 135 Miezul corpului. La vârsta de 10 130 125 120 115 20 25 30 35 40 45 Greutatea corporală la vârsta de 10 ani (kg)

Conexiune neliniară (în formă de U) Y X -3 3

Independență 1 80 Y Y 0,5 50 20 X 0,5 X 1 20 50 80

Relație, relație între două variabile (X și Y) Cooperare, co-mișcare, co-schimbare a valorilor X și a valorilor Y conform unor reguli

Care este regula în raport cu următoarele două variabile? 55 50 Lungimea nașterii (cm) 45 40 35 1 2 3 4 5 Greutatea nașterii (kg)

La ce bun să descoperi o astfel de regulă? Înțelegem ceva (aspect teoretic) îl puteți folosi pentru a trage concluzii (aspect practic). De exemplu, dacă valoarea lui X este aceasta, valoarea lui Y este cât de mult?

Predicție folosind o linie: dacă X = 2, Y =? 55 50 Lungimea nașterii (cm) 45 40 35 1 2 3 4 X 5 Greutatea nașterii (kg)

Problema de regresie Pentru a afla regula relației dintre variabila X și Y: cum „depinde” Y de X? Dependența nu este neapărat cauzală (de exemplu, poate fi dedusă de la copil către părinte) Tipul dependenței poate fi de mai multe tipuri: de ex. liniar sau o varietate de neliniare (în formă de U, exponențiale etc.)

Concepte de bază ale prognozei Variabilă predictivă (dependentă): Y Variabilă predictivă (predictor, independentă): X Prognoza liniară (predicție): Ŷ = a + bX Valoarea Y adevărată pentru x: y Prognoza pentru x: ŷ = a + bx

Parametrii unei linii y = a + bx 320 240  160 a 80 1 2 3 4 5 X ‘a’: secțiunea axei Y ‘b’: coeficientul pantei: b = tg (

Caracteristica unei relații liniare Nu întotdeauna proporționalitate dreaptă Aceeași cantitate de schimbare X este întotdeauna însoțită de aceeași cantitate de schimbare Y. Pentru 1 unitate X schimbare, schimbarea așteptată a lui Y este b unitate

Exemplu de regresie liniară Variabile: X: ThengthBirth, Y: Thength10 years Ecuația de regresie: Ŷ = 96,88 + 0,83X Concluzie (predicție de regresie): de ex. Pentru X = 45cm: Ŷ = 96,88 + 0,83 · 45 = 134, 23 (cm) FAQ

Eroarea estimării de regresie pentru o persoană Dacă înălțimea corpului estimată (prezisă) la vârsta de 10 ani pentru o persoană este de 151 cm (Ŷ) și valoarea reală este de 146 cm (Y), atunci eroarea este: Abaterea absolută: | 151-146 | = 5 cm Abaterea pătrată: (151-146) 2 = 52 = 25 cm2

Eroare medie de estimare a regresiei: eroare standard Deviație standard medie = Varianță de eroare = Res Deviație standard de eroare = Rădăcină (varianță de eroare) = Eroare standard (SH)

Var (Y) și Res media Var (Y): deviația pătrată medie de la medie = eroare varianța estimării medii. (.) SH2 = Res: eroare varianța estimării regresiei. Cu cât este mai mic Res (Y) Res, cu atât este mai bună estimarea de regresie Reducere eroare: Var (Y) - Res Reducere eroare relativă: (Var (Y) - Res)/Var (Y)

Exemple Întrebări variabile medii variabile Res SH RHCS X: ThosszBirth 50.2 6.4 Y: Thossz10 138.7 41.5 37.09 6.1 0.107 X: Corpul mamei 161.1 38.3 Y: Thossz10 138.7 41, Δ 36.02 6.0 0.132 X: Apatesth 173.4 46.0 Y: Thossz10 138.7 41.5 35.96 6.0 X: Greutate10 33,2 46,4 Y: Thossz10 138,7 41, 5 23,33 4,8 0,438 Întrebări frecvente

Coeficientul de determinare Reducerea erorii relative = coeficientul de determinare Raportul de varianță explicat Notare: Det (X, Y)

Coeficientul de corelație Valoarea absolută a coeficientului de corelație este rădăcina pătrată a coeficientului de determinare: Semnul coeficientului de corelație este același cu semnul coeficientului de regresie al pantei (b): Tendință pozitivă: +, tendință negativă: -

Notări ale coeficientului de corelație Notare a populației (teoretic) coeficientul de corelație: ρ (pronunțat: Ró), ρxy, ρ (x, y) y)

O matrice de corelație (n = 500) Greutate variabilă0 Greutate10 Tmag0 Tmag10 1 0,16 0,79 0,24 0,23 0,66 0,33

Unele corelații tipice Variabile (X și Y) Corelație IQ și progresul universitar 0,3-0,5 IQ al gemenilor identici co-crescuți 0,86 IQ al fraților crescuți împreună 0,47 IQ al fraților crescuți separat 0,24 IPC Scală de bunăstare și satisfacție cu căsătoria 0,25-0,35 Religios practică și credință în Dumnezeu 0,68 Cunoașterea practicii religioase și a culturii religioase 0,03 Greutatea soțului și a soției 0,22

Caracteristicile coeficientului de corelație Dacă X și Y sunt independente, atunci  (X, Y) = 0. Dacă  (X, Y) = 0, adică dacă X și Y sunt necorelate, ele nu sunt neapărat independente, dar există cu siguranță nu există un tip liniar între ele. relație (pot fi, desigur, relații în formă de U sau inversate în formă de U). Dacă distribuția combinată a lui X și Y este normală, adică pentru orice X = x fix, Y este normal, atunci independența și necorelarea sunt echivalente.

Efectul transformării liniare asupra coeficientului de corelație Transformări liniare: Adăugarea unui număr la o variabilă: Y = X + 100 Înmulțirea unei variabile cu un număr: Y = 10X Combinația acestora: Y = 50 + 3X Valoarea absolută a lui ρ și r nu se schimbă, cel mult semnul său

Examinarea semnificației coeficientului de corelație Ipoteză nulă: H0: ρ = 0 Baza deciziei: coeficientul de corelație calculat într-un eșantion de element n (r) Ce determină respingerea H0? Mărimea coeficientului r Mărimea gradului de libertate f (f = n - 2)

Corelații între soț și soție aceleași caracteristici Scale IPC Slab h. (n = 10) Mediu (n = 14) Casă bună. (n = 13) Dominanță -0,362 0,273 0,406 Prezență socială -0,115 0,398 0,627 * Auto-acceptare -0,719 * -0,061 0,278 Anxietate -0,588 -0,534 * 0,259 Responsabilitate 0,637 * 0,541 * -0,102 Toleranță -0,308 0,364 0,43

Matricea de corelație cu semnificație Fete (n = 256) Greutate Naștere Greutate 10 MamaWeight 0,289 *** 0,201 ** PapaWeight 0,097 0,282 *** MamaTmag 0,213 *** 0,121+ PapaTmag 0,126 * 0,141 * (f = 254; +: p 0, apoi trei cazuri posibile: X are un efect pozitiv asupra Y Y are un efect pozitiv asupra X Unele variabile de fond Z acționează simultan asupra X și Y

Coeficientul de corelație parțială este Z

Corelații surprinzătoare Care este corelația dintre eșantionul tuturor elevilor din învățământul primar între vocabular și dimensiunea piciorului?

Logica coeficientului de corelație parțială X

Înțelesul coeficientului de corelație parțială Cum ar fi corelația dintre X și Y dacă efectul variabilei Z ar fi eliminat prin menținerea valorii sale constante (corelație condițională)? Condiții de utilizare: X, Y și Z trebuie distribuite separat împreună și împreună.

Rezoluția variabilelor X și Y Xmar X variabilă Ymar Y variabilă Z parte independentă Z parte dependentă de Z parte independentă Z parte dependentă de Z variabilă Y

Cu regresie liniară X = Xz + Xmar Y = Yz + Ymar rXY.Z = r (Xmar, Ymar)

Corelația parțială rXY.Z este o corelație lină între X și Y „curățate” de efectul liniar al lui Z

Un exemplu interesant este 0,64 X

Y 0,80 0,80 Z rxy.z = 0

Un alt exemplu interesant este 0,10 X

Y -0,60 0,60 Z rxy.z = 0,72

Un exemplu Rorschach (n = 359 persoană normală) r (Isk, Eye) = 0,32 ** r (Isk, Landscape) = 0,26 ** r (Isk, Eye) = 0,18 **

Corelații cu școala cu numărul de răspuns Rorschach. Rochie Landscape Eyes FSZ 0,38 ** 0,57 ** 0,29 ** 0,41 **

Corelații și corelații parțiale cu educația X = Școala Y = Rochie Y = Peisaj Y = Vârsta ochiului (rIsk, Y) 0,32 ** 0,26 ** 0,18 ** Parc. cor. (rIsk, Y.FSZ) 0,13 * 0,17 ** 0,03 FREQ

Ce se întâmplă dacă se încalcă condiția de normalitate a corelației parțiale? În acest caz, nu numai relațiile liniare pot apărea între variabilele Filtrarea relației liniare nu filtrează efectul complet al variabilei de fundal Corelația parțială nu se potrivește neapărat cu corelația condițională Posibilitatea de interpretare greșită.

Ce ar trebui să facem dacă variabilele noastre nu sunt distribuite în mod normal? Corelație robustă Wilcox (rpb) Corelații de rang între variabile ordinale minime (măsuri de monotonicitate) Corelație de rang Spearman: Corelație Pearson între clasamente Corelație de rang Kendall: diferența dintre raportul dintre relația pozitivă și cea negativă

Relația monotonă stochastică a două variabile, X și Y

Dacă X este o femeie, atunci Y este și o femeie. Creștere monotonă deterministă Y X 16 12 8 4 1 2 3 4 X

Creștere monotonă stochastică 16 * Dacă X crește, atunci este probabil ca și Y să crească. * * 12 * * * Y 8 * * 4 * * * * * * * * 1 2 3 4 X

Un exemplu de Ksz. X Y 1. 1 35 2. 1,5 34 3. 2 36 4. 3 37 5. 7 38 6. 10 39

Ne clasăm după variabila Ksz. X rang Y rang 1. 1 1 35 2 2. 1,5 2 34 1 3. 2 3 36 3 4. 3 4 37 4 5. 7 5 38 5 6. 10 6 39 6

Spearman rank correlation (rS): corelație între clasamente

Concordanță și discordanță Y B + C A - X D

Pereche concordantă: X mic cu Y mic, X mare cu Y mare (coexistență pozitivă) Pereche discordantă: X mic cu Y mare, X mare cu Y mic (coexistență negativă)

t = p + - p- Monotonitatea lui Kendall e.h. p +: Proporția perechilor concordante din populație p-: Perechi discordante t = p + - p-

Caracteristicile lui Kendall t Dacă X și Y sunt independente: t = 0 t = 0: fără stoch. monotonicitate t = -1: relație monotonică pură descrescătoare t = +1: relație pură monotonică crescătoare

Ce trebuie făcut dacă X și/sau Y nu sunt continue? Valori monotonice unidirecționale (Somers 'DYX și DXY) Media geometrică a valorilor unidirecționale: Kendall's tau-b În caz de discreție puternică: gama Kendall

Superioritatea relativă a unei relații pozitive. Recomandat pentru X și Y discrete. Coeficientul de monotonicitate gamma al lui Kendall Superioritatea relativă a relației pozitive. Recomandat pentru X și Y discrete.

Caracteristicile lui Kendall G Dacă X și Y sunt independente: G = 0 Dacă G = 0: fără stoch. monot. Dacă G = -1: p + = 0 Dacă G = +1: p- = 0

Examinarea ipotezei H0: t = 0 Eșantion tau: coeficientul de corelație a rangului lui Kendall (rt) Testarea monotoniei stochastice: examinarea semnificației rt H0: Nicio relație monotonă

Calculul rt în eșantionul Y B E = n + = 4 F = n- = 2 rt = (4-2)/6 = 2/6 = 0,33 + + C C + + A - - D X

rt = (E - F)/T, G = (E - F)/(E + F) Când este satisfăcut rt = G? Formula Rt și G E = numărul de concordanțe F = numărul de discordanțe T = numărul total de perechi = n (n-1)/2 rt = (E - F)/T, G = (E - F)/(E + F) Când susține că rt = G?