Zależność zmiennych losowych
Zależność statystyczna zmiennych losowych (korelacja) – związek pomiędzy dwiema zmiennymi losowymi X{displaystyle X} i Y.{displaystyle Y.}
Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.
W dalszej części artykułu będziemy rozważać zmienne losowe o wartościach rzeczywistych i zdarzenia określone na ustalonej przestrzeni probabilistycznej (Ω,A,P).{displaystyle (Omega ,{mathcal {A}},P).} Jeśli X{displaystyle X} jest zmienną losową, to symbolem PX{displaystyle P_{X}} oznaczać będziemy jej rozkład.
Spis treści
1 Zmienne rzeczywiste
1.1 Niezależność statystyczna
1.2 Zależność statystyczna
1.3 Szczególne przypadki
1.3.1 Zależność monotoniczna
1.3.2 Zależność liniowa
2 Zmienne losowe o wartościach rzeczywistych
2.1 Niezależność dowolnej rodziny zmiennych losowych
2.2 Wartość oczekiwana iloczynu niezależnych zmiennych losowych
3 Niektóre twierdzenia wykorzystujące założenie niezależności zmiennych
4 Popularne błędy
4.1 Zależność a rozkłady zmiennych
4.2 Zależność a współczynnik korelacji
4.3 Zależność a związek przyczynowo-skutkowy
4.4 Niesprawdzanie istotności statystycznej oraz wielkości efektu
4.5 Obserwacje odstające
5 Zobacz też
6 Przypisy
7 Bibliografia
Zmienne rzeczywiste |
Niezależność statystyczna |
Mówimy, że zmienne losowe X,Y{displaystyle X,Y} są niezależne, gdy dla każdych liczb rzeczywistych a,b{displaystyle a,b} zachodzi równość
- P(X⩽a)P(Y⩽b)=P(X⩽a∧Y⩽b){displaystyle P(Xleqslant a)P(Yleqslant b)=P(Xleqslant aland Yleqslant b)}
Powyższy wzór jest uogólniany na dowolną liczbę zmiennych (por. rozdział Zmienne losowe o wartościach rzeczywistych.)
W szczególności niezależność każdej dla pary zmiennych Xi,Xj{displaystyle X_{i},X_{j}} nie oznacza koniecznie niezależności wszystkich zmiennych X1,X2,…Xn.{displaystyle X_{1},X_{2},dots X_{n}.}
Zależność statystyczna |
Mówimy, że zmienne losowe X,Y{displaystyle X,Y} są zależne, gdy nie są one niezależne – to znaczy, dla pewnych liczb rzeczywistych a,b{displaystyle a,b}
- P(X⩽a)P(Y⩽b)≠P(X⩽a∧Y⩽b){displaystyle P(Xleqslant a)P(Yleqslant b)neq P(Xleqslant aland Yleqslant b)}
lub w języku dystrybuant:
- FX(a)FY(b)≠FXY(a,b){displaystyle F_{X}(a)F_{Y}(b)neq F_{XY}(a,b)}
Szczególne przypadki |
Zależność monotoniczna |
Dodatnia zależność monotoniczna zachodzi, gdy zwiększenie wartości jednej ze zmiennych oznacza zwiększenie wartości oczekiwanej drugiej zmiennej. Analogicznie ujemna zależność monotoniczna zachodzi, gdy zwiększenie jednej ze zmiennych oznacza zmniejszenie drugiej.
Ściśle zależność monotoniczna (a konkretniej jej odmiana zwana Quadrant Dependence) została określona przez Lehmana (1966). Dodatnia zależność monotoniczna:
- ⋀(x,y)∈R2P(X<x|Y>y)⩽P(X<x){displaystyle bigwedge _{(x,y)in mathbb {R} ^{2}}P(X<x|Y>y)leqslant P(X<x)}
Ujemna zależność monotoniczna:
- ⋀(x,y)∈R2P(X<x|Y>y)⩾P(X<x){displaystyle bigwedge _{(x,y)in mathbb {R} ^{2}}P(X<x|Y>y)geqslant P(X<x)}
Istnieją też inne definicje zależności monotonicznej. Lehman podał także dwie silniejsze definicje, a Kowalczyk i Pleszczyńska (1977) także definicję słabszą.
Powyższe definicje obejmują skrajny przypadek zależności zmiennych (ρ=±1).{displaystyle (rho =pm 1).} W praktyce zależność nie musi być pełna. Miarą stopnia zależności monotonicznej są współczynniki korelacji rangowej.
Zależność liniowa |
- Szczególnym przypadkiem zależności monotonicznej jest zależność liniowa. W przypadku skrajnym zachodzi, gdy jedna ze zmiennych jest liniowo zależna od drugiej zmiennej. W praktyce tu również zależność nie musi być pełna. Miarą stopnia zależności liniowej jest np. współczynnik korelacji Pearsona.
- Jeżeli zmienne losowe są niezależne i całkowalne, to ich kowariancja jest równa zeru. Bezpośrednim wnioskiem z tego twierdzenia jest następujący fakt:
- Jeżeli zmienne losowe X1,…,Xn{displaystyle X_{1},dots ,X_{n}} są całkowalne i parami niezależne, to
- D2(X1+…+Xn)=D2X1+…D2Xn.{displaystyle D^{2}(X_{1}+ldots +X_{n})=D^{2}X_{1}+ldots D^{2}X_{n}.}
Zmienne losowe o wartościach rzeczywistych |
Zmienne losowe X1,…,Xn{displaystyle X_{1},dots ,X_{n}} nazywamy niezależnymi, gdy dla każdego ciągu zbiorów borelowskich (na prostej) B1,…,Bn{displaystyle B_{1},dots ,B_{n}} spełniony jest warunek
- P(X1∈B1,…,Xn∈Bn)=P(X1∈B1)⋅…⋅P(Xn∈Bn).{displaystyle P(X_{1}in B_{1},dots ,X_{n}in B_{n})=P(X_{1}in B_{1})cdot ldots cdot P(X_{n}in B_{n}).}
Innymi słowy, zmienne X1,…,Xn{displaystyle X_{1},dots ,X_{n}} są niezależne wtedy i tylko wtedy, gdy generowane przez nie σ-ciała[1]σ(X1),…,σ(Xn){displaystyle sigma (X_{1}),dots ,sigma (X_{n})} są niezależne.
Używając zmiennych losowych możemy opisywać niezależność zdarzeń. I tak, zdarzenia A1,…,An{displaystyle A_{1},dots ,A_{n}} są niezależne wtedy i tylko wtedy, gdy niezależne są ich funkcje charakterystyczne 1A1,…,1An,{displaystyle mathbf {1} _{A_{1}},dots ,mathbf {1} _{A_{n}},} rozpatrywane jako zmienne losowe. Często wygodnie jest używać następującej charakteryzacji niezależności zmiennych losowych:
Jeśli X1,…,Xm{displaystyle X_{1},dots ,X_{m}} są zmiennymi losowymi, to każde dwa z następujących zdań są równoważne:
- Zmienne losowe X1,…,Xm{displaystyle X_{1},dots ,X_{m}} są niezależne.
P(X1,…,Xn)=PX1⊗…⊗PXn,{displaystyle P_{(X_{1},dots ,X_{n})}=P_{X_{1}}otimes ldots otimes P_{X_{n}},} tzn. rozkład łączny wektora losowego (X1,…,Xn){displaystyle (X_{1},dots ,X_{n})} jest produktem rozkładów odpowiednich zmiennych losowych.
P(X1⩽x1,…,Xn⩽xn)=P(X1⩽xn)⋅…⋅P(Xn⩽xn){displaystyle P(X_{1}leqslant x_{1},dots ,X_{n}leqslant x_{n})=P(X_{1}leqslant x_{n})cdot ldots cdot P(X_{n}leqslant x_{n})} dla każdych liczb rzeczywistych x1,…,xn,{displaystyle x_{1},dots ,x_{n},} tzn. dystrybuanta wielowymiarowa wektora losowego (X1,…,Xn){displaystyle (X_{1},dots ,X_{n})} jest iloczynem dystrybuant odpowiednich zmiennych losowych.
Ponadto, jeśli zmienne losowe X1,…,Xn{displaystyle X_{1},dots ,X_{n}} mają rozkłady ciągłe, a g1,…,gn{displaystyle g_{1},dots ,g_{n}} są ich gęstościami, to są one niezależne gdy funkcja
- g(x1,…,xn)=g1(x1)⋅…⋅gn(xn){displaystyle g(x_{1},dots ,x_{n})=g_{1}(x_{1})cdot ldots cdot g_{n}(x_{n})}
jest gęstością wektora losowego (X1,…,Xn).{displaystyle (X_{1},dots ,X_{n}).}
Jeżeli X1,…,Xn{displaystyle X_{1},dots ,X_{n}} są zmiennymi losowymi o rozkładach dyskretnych, a S1,…,Sn⊂R{displaystyle S_{1},dots ,S_{n}subset mathbb {R} } są takimi zbiorami przeliczalnymi, że
- PX1(S1)=1,…,PXn(Sn)=1,{displaystyle P_{X_{1}}(S_{1})=1,dots ,P_{X_{n}}(S_{n})=1,}
to zmienne te są niezależne wtedy i tylko wtedy, gdy dla każdych liczb x1∈S1,…,xn∈Sn{displaystyle x_{1}in S_{1},dots ,x_{n}in S_{n}} zachodzi równość
- P(X1=x1,…,Xn=xn)=P(X1=x1)⋅…⋅P(Xn=xn).{displaystyle P(X_{1}=x_{1},dots ,X_{n}=x_{n})=P(X_{1}=x_{1})cdot ldots cdot P(X_{n}=x_{n}).}
Jeżeli, natomiast, zmienne losowe X1,…,Xn{displaystyle X_{1},dots ,X_{n}} są niezależne, a (i1,…,ik){displaystyle (i_{1},dots ,i_{k})} jest ściśle rosnącym ciągiem liczb ze zbioru {1,…,n−1},{displaystyle {1,dots ,n-1},} to σ-ciała
- σ(X1,…,Xi1),σ(Xi1+1,…,Xi2),…,σ(Xik+1,…,Xn){displaystyle sigma (X_{1},dots ,X_{i_{1}}),sigma (X_{i_{1}+1},dots ,X_{i_{2}}),dots ,sigma (X_{i_{k}+1},dots ,X_{n})}
są niezależne.
Niezależność dowolnej rodziny zmiennych losowych |
Jeśli {Xt}t∈T,{displaystyle {X_{t}}_{tin T},} gdzie T{displaystyle T} jest pewnym zbiorem indeksów, jest rodziną zmiennych losowych, to mówimy, że jest ona niezależne gdy dla każdej liczby naturalnej n{displaystyle n} oraz dla każdych elementów t1,…,tn{displaystyle t_{1},dots ,t_{n}} niezależne są zmienne losowe Xt1,…,Xtn.{displaystyle X_{t_{1}},dots ,X_{t_{n}}.}
Wartość oczekiwana iloczynu niezależnych zmiennych losowych |
Korzystając z twierdzenia Fubiniego można dowieść, że jeśli X1,…,Xn{displaystyle X_{1},dots ,X_{n}} są niezależnymi zmiennymi losowymi, to wartość oczekiwana modułu ich iloczynu wyraża się wzorem
- E|X1⋅…⋅Xn|=(E|X1|)⋅…⋅(E|Xn|).{displaystyle E|X_{1}cdot ldots cdot X_{n}|=(E|X_{1}|)cdot ldots cdot (E|X_{n}|).}
Jeśli ponadto, zmienne te są całkowalne, to
- E(X1⋅…⋅Xn)=EX1⋅…⋅EXn.{displaystyle E(X_{1}cdot ldots cdot X_{n})=EX_{1}cdot ldots cdot EX_{n}.}
Twierdzenie odwrotne nie jest jednak prawdziwe – niech Ω=[0,1]{displaystyle Omega =[0,1]} oraz niech A{displaystyle {mathcal {A}}} będzie σ-ciałem zbiorów borelowskich na tym zbiorze, a P{displaystyle P} będzie obcięciem miary Lebesgue’a do tego σ-ciała. Rozważmy następujące zmienne losowe
- X(ω)=sin(2πω),Y(ω)=cos(2πω).{displaystyle X(omega )=sin(2pi omega ),Y(omega )=cos(2pi omega ).}
Wartość oczekiwana każdej z nich oraz ich iloczynu wynosi 0, natomiast zmienne te nie są niezależne, gdyż w przeciwnym razie byłyby niezależne zmienne
|X|,1−X2{displaystyle |X|,{sqrt {1-X^{2}}}} (jedynka trygonometryczna),
czyli w konsekwencji dla każdego zbioru borelowskiego B{displaystyle B} byłby spełniony warunek
- P({ω∈[0,1]:sin(2πω)∈B})∈{0,1},{displaystyle P({omega in [0,1]colon ,sin(2pi omega )in B})in {0,1},}
co oczywiście nie jest prawdą.
Niektóre twierdzenia wykorzystujące założenie niezależności zmiennych |
Funkcja charakterystyczna sumy niezależnych zmiennych losowych jest iloczynem funkcji charakterystycznych tych zmiennych.
Funkcja tworząca sumy niezależnych zmiennych losowych (przyjmujących wartości w zbiorze liczb naturalnych z zerem) jest iloczynem funkcji tworzących tych zmiennych losowych.
Prawo zero-jedynkowe Kołmogorowa
- Jeżeli (Xn)n∈N{displaystyle (X_{n})_{nin mathbb {N} }} jest ciągiem niezależnych zmiennych losowych, to
- P({ω∈Ω: szereg ∑n=1∞Xn(ω) jest zbieżny})∈{0,1}.{displaystyle P({omega in Omega colon ,{mbox{ szereg }}sum _{n=1}^{infty }X_{n}(omega ){mbox{ jest zbieżny}}})in {0,1}.}
- Rozkład sumy niezależnych zmiennych losowych, z których choć jedna ma rozkład ciągły, jest rozkładem ciągłym.
- Gęstością sumy niezależnych zmiennych losowych o rozkładach ciągłych jest splot gęstości tych zmiennych losowych.
- Rozkładem (dystrybuantą) sumy niezależnych zmiennych losowych jest splot rozkładów (dystrybuant) tych zmiennych.
Twierdzenie Kołmogorowa-Prochorowa
- Tożsamość Walda
- Nierówność Kołmogorowa
Twierdzenie Kołmogorowa
- Mocne prawo wielkich liczb Kołmogorowa
- Słabe prawo wielkich liczb
- Twierdzenie Poissona
- Twierdzenie Gliwenki
Popularne błędy |
Zależność a rozkłady zmiennych |
Znając rozkłady brzegowe każdej ze zmiennych z osobna nic nie da się powiedzieć o ewentualnej zależności lub braku zależności pomiędzy nimi. Na przykład między dwiema zmiennymi X{displaystyle X} i Y{displaystyle Y} przyjmującymi każdą z wartości {1,2,3,4,5,6} z tym samym prawdopodobieństwem (rozkład jednostajny dyskretny), może istnieć korelacja ujemna, dodatnia, lub mogą być niezależne:
- Jeśli zmienna X{displaystyle X} jest wynikiem rzutu kostką, a Y=7−X,{displaystyle Y=7-X,} to zmienne X{displaystyle X} i Y{displaystyle Y} są zależne, współczynnik korelacji wynosi -1
- Jeśli zmienna X{displaystyle X} jest wynikiem rzutu kostką, a Y=X,{displaystyle Y=X,} to zmienne X{displaystyle X} i Y{displaystyle Y} są zależne, współczynnik korelacji wynosi +1
- Jeśli każda z nich modeluje wyniki rzutu inną kostką, to zmienne X{displaystyle X} i Y{displaystyle Y} są niezależne, współczynnik korelacji wynosi 0.
- Jeśli zmienna X{displaystyle X} jest wynikiem rzutu kostką, a Y{displaystyle Y} jest w części przypadków równe X,{displaystyle X,} a w pozostałych przypadkach równe wynikowi rzutu drugą kostką, to zmienne X{displaystyle X} i Y{displaystyle Y} są zależne, współczynnik korelacji będzie gdzieś pomiędzy 0 a +1.
W każdym z tych przypadków rozkład brzegowy każdej ze zmiennych X,Y{displaystyle X,Y} jest identyczny, jednak różni się ich rozkład łączny. W trzech pierwszych przypadkach różni się np. zbiór możliwych wartości pary (X,Y):{displaystyle (X,Y){:}}
- W pierwszym przypadku jest to {(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}{displaystyle {(1,6),(2,5),(3,4),(4,3),(5,2),(6,1)}}
- W drugim przypadku {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}{displaystyle {(1,1),(2,2),(3,3),(4,4),(5,5),(6,6)}}
- W trzecim przypadku {(1,1),(1,2),…,(1,6),(2,1),(2,2),…,(2,6),(3,1),…,(6,6)}.{displaystyle {(1,1),(1,2),dots ,(1,6),(2,1),(2,2),dots ,(2,6),(3,1),dots ,(6,6)}.} Zmienne są niezależne, bo informacja o wartości jednej z nich nic nie mówi o wartości drugiej.
- W czwartym przypadku zbiór możliwych wartości jest taki sam jak w trzecim, jednak różnią się prawdopodobieństwa, z jakimi są one przyjmowane. Znajomość zmiennej X{displaystyle X} pozwala dokładniej przewidywać znajomość zmiennej Y{displaystyle Y} (formalnie: rozkład warunkowy Y|X=x{displaystyle Y|X=x} zmienia się w zależności od x{displaystyle x}), więc są zależne.
Zależność jest więc cechą rozkładu łącznego porównywanych zmiennych.
Zależność a współczynnik korelacji |
Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne X{displaystyle X} i Y{displaystyle Y} mogą być związane zależnością:
- Y=X2∧−1⩽X⩽1.{displaystyle Y=X^{2}land -1leqslant Xleqslant 1.}
Jest to przykład ścisłej zależności. Jednak zarówno klasyczna korelacja Pearsona, jak i rangowa dadzą wartość zero (dla próbki – bliską zeru), gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.
Zależność a związek przyczynowo-skutkowy |
Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, nie jest on jednak żadną przyczyną ruchu – i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy jedynie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. W związku z tym jeśli czynnik A (np. wykształcenie) i czynnik B (np. zarobki) korelują ze sobą, to powinno się tworzyć przynajmniej kilka hipotez na temat ewentualnego związku przyczynowego między nimi:
Czynnik A wpływa na czynnik B. Tu: wykryto związek między zarobkami a wykształceniem, bo wyższe wykształcenie powoduje że dana osoba więcej zarabia.
Czynnik B wpływa na czynnik A. Tu: ludzie zamożniejsi mają lepszy dostęp do wykształcenia i dlatego istnieje związek między zarobkami a wykształceniem.
Jednocześnie A wpływa na B i B na A Tu: z jednej strony ludzie zamożniejsi mają lepszy dostęp do wykształcenia, ale z drugiej ludzie lepiej wykształceni mają lepsze zarobki.
Istnieje czynnik C niezidentyfikowany w badaniu, który koreluje z A i z B. Tu: miejsce zamieszkania (lub ambicje) mogą być czynnikiem, który z jednej strony powoduje, że ktoś więcej zarabia, a z drugiej, że ma wyższe wykształcenie.
Korelacja nie dowodzi więc żadnego związku przyczynowo-skutkowego.
Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km² w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów, jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.
W innej wersji mówi się o korelacji liczby bocianów z liczbą dzieci na tym samym terenie wiejskim w skali wielu lat. Okazuje się, że liczba bocianów jest skorelowana dodatnio z ciepłym latem, a przy dobrej pogodzie wzrastać ma też liczba par kochających się na łonie natury.
Prawdopodobnie nie są to wyniki poważnych badań, lecz tylko legenda, niemniej jest ona dobrą ilustracją, jak może powstawać zależność, nie będąca związkiem przyczynowo-skutkowym[2].
Podobnie, można by się dopatrzyć silnej dodatniej korelacji między wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to jedynie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.
Innym przykładem jest korelacja liczby zgonów osób bezdomnych w Indiach a poziomem spożycia lodów w Stanach Zjednoczonych. Tu trzecią zmienną jest średnia temperatura lata na półkuli północnej. Jej zwiększenie powoduje więcej zgonów spowodowanych upałem i oczywiście zwiększenie spożycia lodów.
Niesprawdzanie istotności statystycznej oraz wielkości efektu |
Przy zbyt małej próbie fałszywe korelacje mogą powstać zupełnie przypadkowo[3], stąd ważne jest sprawdzanie istotności statystycznej uzyskanego wyniku. Przy bardzo dużych próbach – a co za tym idzie, bardzo wysokiej mocy statystycznej – istotność osiągają nawet mikroskopijne współzmienności, co z kolei wskazuje na to, że ważne jest branie pod uwagę wielkości efektu zaobserwowanych zależności. Miarą wielkości efektu dla korelacji jest współczynnik korelacji.
Obserwacje odstające |
Innym częstym błędem jest niesprawdzanie, czy w próbie nie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona.
Zobacz też |
- zdarzenia losowe niezależne
Przypisy |
↑ Przypomnijmy, że dla funkcji f:Ω→R{displaystyle scriptstyle {fcolon Omega to mathbb {R} }} σ-ciałem generowanym przez funkcję f{displaystyle scriptstyle {f}} nazywamy najmniejsze w sensie inkluzji σ-ciało podzbiorów Ω{displaystyle scriptstyle {Omega }} względem którego funkcja ta jest mierzalna. Tym σ-ciałem jest rodzina {f−1(B):B∈B(R)}.{displaystyle scriptstyle {{f^{-1}(B)colon ,Bin {mathcal {B}}(mathbb {R} )}}.}
↑ [1], [2].
↑ Dużo przykładów fałszywych korelacji można znaleźć tutaj.
Bibliografia |
- Jacek Jakubowski, Rafał Sztencel: Wstęp do teorii prawdopodobieństwa. Warszawa: Script, 2004. ISBN 83-89716-02-X.
- Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2006. ISBN 83-204-3242-1.
E.L. Lehmann. Some concepts of dependence. „Ann. Math. Statist.”. 37 1137-53, 1966.
T. Kowalczyk, E. Pleszczyńska. Monotonic Dependence Functions of Bivariate Distributions. „The Annals of Statistics”. Vol. 5, No.6, 1221-1227, 1977. http://www.jstor.org/pss/2958654