Metody odkrywania wiedzy: wykład 3
Narzędzia ze statystyki i teorii informacji

Paweł Cichosz


Date: 2001/2002

Wykład stanowi przegląd najbardziej elementarnych narzędzi wywodzących się ze statystyki i teorii informacji, jakie wykorzystuje się do indukcyjnego uczenia się i odkrywania wiedzy.

Rozkłady i ich parametry

Przy odkrywaniu wiedzy często pojawia się pojęcie rozkładu, odnoszone zazwyczaj do wartości opisujących dane atrybutów. Językiem statystyki mówi się o cechach statystycznych pewnej populacji, które są zmiennymi losowymi o pewnym rozkładzie prawdopodobieństwa. Dane, którymi dysponujemy, stanowią losową próbę z populacji (dziedziny), a obserwowane w tych danych rozkłady to rozkłady empiryczne.

Rozkłady dyskretne

Rozkłady wartości atrybutów dyskretnych są charakteryzowane przez podanie liczby wystąpień poszczególnych wartości lub ich częstości występowania (liczby wystąpień każdej wartości podzielonej przez rozmiar próby).

Rozkłady ciągłe

Podstawowe parametry ciągłych rozkładów empirycznych, którymi się posługujemy, to średnia i odchylenie standardowe. Dla cechy $ y$, która w $ n$-elementowej próbie przyjmuje wartości $ y_i$ dla $ i=1,2,\dots,n$, obliczamy je następująco:

$\displaystyle \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i$, (1)
$\displaystyle \sigma = \sqrt{\frac{1}{n}\sum_{i=1}^n(y_i - \bar{y})^2}$. (2)

Kwadrat odchylenia standardowego $ \sigma^2$ jest nazywany wariancją.

Obliczanie odchylenia standardowego znacznie się upraszcza w szczególnym, ale istotnym przypadku, gdy w próbie występują wyłącznie dwie różne wartości rozważanej cechy. Załóżmy, że są to wartości $ a$ i $ b$, przy czym $ a<b$. Niech $ n_a$ i $ n_b$ oznaczają odpowiednio liczbę wystąpień wartości $ a$ i $ b$ w $ n$-elementowej próbie ($ n_a+n_b=n$). Wówczas

$\displaystyle \sigma = (b-a)\sqrt{\frac{n_a}{n}\cdot\frac{n_b}{n}}$. (3)

Jeśli w szczególności $ a=0$ i $ b=1$ (czyli rozważana cecha reprezentuje np. kategorię lub atrybut dwuwartościowy), to $ \sigma=\sqrt{f(1-f)}$, gdzie $ f$ jest częstością występowania (na przykład) wartości $ 1$ (stosunek liczby wystąpień wartości $ 1$ do liczebności próby).

Często, zwłaszcza przy niewielkiej liczebności próby, zalecana jest poprawka do obliczania odchylenia standardowego, polegająca na obliczaniu go w poniższy sposób:

$\displaystyle \sigma^+ = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(y_i - \bar{y})^2}$. (4)

Jest to bardziej wiarygodne oszacowanie ,,prawdziwego'' odchylenia standardowego cechy dla rozkładu prawdopodobieństwa, z którego pochodzi próba. Stykamy się to z rozróżnieniem między odchyleniem standardowym jako parametrem rozkładu empirycznego, będącym miarą ,,rozrzutu'' danych, a odchyleniem standardowym jako parametrem rozkładu prawdopodobieństa, opisującym zmienność procesu losowego (niektórzy autorzy dla odróżnienia używają dwóch terminów, ,,odchylenie standardowe'' i ,,błąd standardowy'').

Rozważmy sytuację, w której z próby $ n$-elementowej o odchyleniu standardowym $ \sigma$ losuje się $ m$-krotnie ze zwracaniem. Dla zmiennej losowej reprezentującej sumę wylosowanych liczb odchylenie standardowe (jako parametr rozkładu prawdopodobieństwa) jest wówczas równe $ \sqrt{m}\sigma$, a dla zmiennej reprezentującej wartość średnią wylosowanych liczb wynosi $ \sqrt{m}\sigma/m=\sigma/\sqrt{m}$.

Do charakteryzowania rozkładów ciągłych zmiennych losowych używa się funkcji gęstości prawdopodobieństwa. Dla zmiennej losowej $ Y$ o wartościach rzeczywistych funkcja gęstości prawdopodobieństwa $ g$ spełnia warunek:

$\displaystyle \mathrm{Pr}(\theta_1\leq Y<\theta_2) = \int_{\theta_1}^{\theta_2}g(y)dy$. (5)

Nie ma przy tym znaczenia, czy stosujemy nierówności ostre czy łagodne, gdyż dla dowolnej wartości $ y\in\Re$

$\displaystyle \mathrm{Pr}(Y=y) = 0$. (6)

Dla standardowych rozkładów prawdopodobieństwa znane są wzory określające funkcję gęstości w zależności od parametrów rozkładu. W szczególności dla rozkładu normalnego o wartości oczekiwanej $ \mu$ i odchyleniu standardowym $ \sigma$ funkcja gęstości ma postać następująco:

$\displaystyle g(y) = \frac{1}{\sigma\sqrt{2\pi}} \exp\Big(-\frac{(y-\mu)^2}{2\sigma^2}\Big)$. (7)

Mediany i kwartyle

W przypadku cech, których rozkład nie może być określony z góry i istnieje domniemanie, że może nie być normalny, stosowana jest często charakterystyka za pomocą mediany i kwartyli. Najprościej wprowadzić te wielkości rozważając próbę uporządkowaną niemalejąco według wartości charakteryzowanej cechy ciągłej $ y$, której elementy są ponumerowane kolejnymi liczbami $ 1,2,\dots,n$ (czyli ciąg $ y_1,y_2,\dots,y_n$ jest niemalejący). Wówczas mediana cechy $ y$ jest określona następująco:

$\displaystyle \mathrm{med}(y) = \begin{cases}y_{(n+1)/2} & \text{jeśli $n$\ jes...
...frac{1}{2}(y_{n/2}+y_{n/2+1}) & \text{jeśli $n$\ jest parzyste.}\\  \end{cases}$ (8)

Jest to więc wartość ,,środkowa'', poniżej i powyżej której znajduje się (w miarę możliwości) tyle samo wartości cechy.

Mediana jest nazywana także kwartylem rzędu 2, albo drugim kwartylem. O ile mediana wyznacza podział wartości cechy na połowę, kwartyle wyznaczają podział na cztery części. Kwartyl zerowy to wartość minimalna, kwartyl pierwszy ,,odcina'' dolną ćwiartkę wartości, kwartyl trzeci -- górną, a kwartyl czwarty jest wartością maksymalną. Bardziej precyzyjnie kwartyle pierwszy i trzeci definiowane są, przy założeniu niemalejącego uporządkowania próby według wartości cechy $ y$, następująco:

$\displaystyle \mathrm{q_1}(y) ={}$ $\displaystyle (1-\alpha_1)y_{k_1} + \alpha_1y_{k_1+1},$ (9)
$\displaystyle \mathrm{q_3}(y) ={}$ $\displaystyle (1-\alpha_3)y_{k_3} + \alpha_3y_{k_3+1},$ (10)

gdzie $ k_1$ i $ \alpha_1$ są odpowiednio częścią całkowitą i ułamkową liczby $ (n-1)/4+1$ oraz $ k_3$ i $ \alpha_3$ są odpowiednio częścią całkowitą i ułamkową liczby $ 3(n-1)/4+1$.

Prawdopodobieństwo a częstość

W praktyce metod odkrywania wiedzy bardzo często szacujemy prawdopodobieństwa na podstawie częstości. Jeśli rozważamy cechę statystyczną $ y$ o możliwych wartościach $ y_i$ dla $ i=1,2,\dots,k$ i chcemy szacować prawdopodobieństwo $ i$-tej wartości na podstawie liczby jej wystąpień $ n_i$ w $ n$-elementowej próbie losowej, to bezpośrednie podejście polega na przyjęciu częstości jako estymatora prawdopodobieństwa:

$\displaystyle p_i = \frac{n_i}{n}$. (11)

Za bardziej przydatny w zastosowaniach, z jakimi mamy do czynienia przy odkrywaniu wiedzy, zwłaszcza dla niewielkich prób, uważany jest estymator, jaki daje technika znana jako $ m$-szacowanie, zgodnie z którą przyjmuje się:

$\displaystyle p_i = \frac{n_i + mp}{n + m}$, (12)

gdzie $ p\in(0,1)$ jest oszacowaniem a priori prawdopodobieństwa wystąpienia $ i$-tej cechy i $ m>0$ jest liczbą całkowitą. Technikę tę można interpretować jako uzupełnienie $ n$-elementowej próby o $ m$ elementów ,,wirtualnych'', dla każdego z których spodziewamy się $ i$-tej wartości cechy z prawdopodobieństwem $ p$. Przy braku lepszej wiedzy często przyjmuje się (zakładając, że wszystkie wartości cechy są a priori jednakowo prawdopodobne) $ m=k$ i $ p=\frac{1}{k}$, co daje oszacowanie:

$\displaystyle p_i = \frac{n_i + 1}{n + k}$. (13)

Estymacja przedziałowa

Estymacja przedziałowa służy w ogólnym przypadku do szacowania wartości pewnego nieznanego parametru rozważanej populacji na podstawie jego estymatora. Estymator jest zmienną losową o wartościach wyznaczanych na podstawie losowej próby elementów z tej populacji, a jego wartość dla konkretnej próby jest nazywana oceną estymowanego parametru. Parametr ten zazwyczaj oznacza częstość występowania w populacji elementów o określonej wartości pewnej cechy. Naturalnym estymatorem jest wówczas częstość występowania tej cechy w losowej próbie wybranej z populacji. Dla różnych losowych prób będą to na ogół różne częstości, czyli różne realizacje zmiennej losowej, którą jest estymator.

Estymacja przedziałowa polega na wyznaczaniu przedziałów ufności dla estymowanego parametru na podstawie estymatora. Przedział ufności wyznacza się zawsze dla ustalonego poziomu ufności, który jest prawdopodobieństwem, że rzeczywista wartość parametru znajduje się w tym przedziale:

Przedziałem ufności dla parametru $ p$ o poziomie ufności $ 1-\delta$ dla $ 0\leq\delta<1$ jest każdy przedział, do którego wartość $ p$ należy z prawdopodobieństwem równym $ 1-\delta$.

Celem estymacji przedziałowej jest wyznaczenie przedziału ufności dla danego parametru $ p$ na podstawie pewnego estymatora tego parametru $ \hat{P}$. Jeśli jest to estymator nieobciążony, czyli $ \mathbf{E}[\hat{P}]=p$, to każda realizacja tego estymatora, czyli wyznaczona na podstawie losowej próby ocena $ \hat{p}$, jest środkiem pewnego przedziału ufności dla $ p$. Granice tego przedziału można wyznaczyć na podstawie rozkładu zmiennej losowej, jaką jest estymator.

Znane są wzory wyrażające końce przedziałów ufności (przy zadanym poziomie ufności) dla podstawowych rozkładów prawdopodobieństwa. Tu będą przedstawione dwa przypadki: rozkładu normalnego o znanym odchyleniu standardowym, gdzie poszukuje się przedziału ufności dla wartości średniej, i rozkładu dwumianowego, gdzie poszukuje się przedziału ufności dla prawdopodobieństwa sukcesu w próbie Bernoulliego.

Rozkład normalny.

Rozważmy cechę o rozkładzie normalnym $ N(\mu,\sigma)$ o nieznanej wartości średniej $ \mu$ i znanym odchyleniu standardowym $ \sigma$. Estymatorem dla $ \mu$ jest wówczas wartość średnia cechy w losowej próbie. W szczególności jeśli $ n$-elementowa próba zawiera wartości cechy $ y_i$ dla $ i=1,2,\dots,n$, to realizacja estymatora jest następująca:

$\displaystyle \bar{y} = \frac{1}{n}\sum_{i=1}^n y_i$. (14)

Przedział ufności ma wówczas postać:

$\displaystyle \left(\bar{y}-u_{\delta}\frac{\sigma}{\sqrt{n}}, \bar{y}+u_{\delta}\frac{\sigma}{\sqrt{n}}\right)$, (15)

gdzie $ u_{\delta}$ jest liczbą wyznaczoną z warunku

$\displaystyle \mathrm{Pr}(\vert U\vert<u_{\delta}) = 1-\delta$ (16)

dla zmiennej losowej $ U$ o standardowym rozkładzie normalnym $ N(0,1)$. Warto wspomnieć, że dokładnie taką samą postać ma (lecz tylko w przybliżeniu) przedział ufności dla średniej dowolnego nieznanego rozkładu prawdopodobieństwa o znanym odchyleniu standardowym.

Rozkład dwumianowy.

Z punktu widzenia naszych zastosowań najbardziej interesujący jest przypadek rozkładu dwumianowego (rozkład zmiennej losowej oznaczającej liczbę sukcesów w określonej liczbie prób Bernoulliego), którego parametrami sią liczba prób $ n$ i prawdopodobieństwo sukcesu w pojedynczej próbie $ p$. Na ogół wartość $ p$ nie jest znana i do jej oszacowania na podstawie eksperymentu o dostatecznie dużej liczbie prób może być użyta estymacja przedziałowa. Najlepszym estymatorem $ \hat{P}$ jest wówczas stosunek liczby sukcesów w eksperymencie do liczby wykonanych prób. Przedział ufności o poziomie ufności $ 1-\delta$ dla parametru $ p$ rozkładu dwumianowego ma postać:

$\displaystyle \left(\hat{p}-u_{\delta}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}, \hat{p}+u_{\delta}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)$, (17)

przy czym $ \hat{p}=\frac{r}{n}$ jest realizacją estymatora $ \hat{P}$, czyli stosunkiem liczby sukcesów $ r$ do liczby prób $ n$ w przeprowadzonym eksperymencie, a $ u_{\delta}$ jest liczbą wyznaczoną z warunku

$\displaystyle \mathrm{Pr}(\vert U\vert<u_{\delta}) = 1-\delta$ (18)

dla zmiennej losowej $ U$ o standardowym rozkładzie normalnym $ N(0,1)$. Taka konstrukcja przedziału ufności opiera się na przybliżeniu rozkładu dwumianowego za pomocą rozkładu normalnego oraz na przybliżeniu nieznanego odchylenia standardowego częstości sukcesów $ \sqrt{p(1-p)/n}$ za pomocą $ \sqrt{\hat{p}(1-\hat{p})/n}$, dopuszczalnych dla odpowiednio dużej liczby prób $ n$ i wartości $ \hat{p}$, które nie są zbyt bliskie 0 ani $ 1$. Ze względu na te przybliżenia na ogół zaleca się korzystanie z tego oszacowania, jeśli jest spełniony warunek $ n\hat{p}(1-\hat{p})\geq 5$.

Szacowanie błędu

Estymacja przedziałowa dla rozkładu dwumianowego może być wykorzystana do szacowania błędu rzeczywistego hipotez na podstawie ich błędu próbki. Wystarczy w tym celu potraktować klasyfikację przez hipotezę każdego przykładu jako próbę, w której ,,sukcesem'' jest błędna klasyfikacja (gdyż chcemy szacować błąd rozumiany jako prawdopodobieństwo pomyłki).

Załóżmy zatem, że dana jest hipoteza $ h$ i pewien zbiór przykładów $ P\subseteq X$ wybranych zgodnie z rozkładem prawdopodobieństwa $ \Omega$ niezależnie od tej hipotezy i niezależnie od siebie nawzajem. Niech $ c$ będzie dowolnym pojęciem docelowym, względem którego jest określany błąd hipotezy $ h$. Wówczas błąd próbki $ e^c_P(h)$ jest realizacją nieobciążonego estymatora błędu rzeczywistego, a więc najbardziej prawdopodobną wartością błędu rzeczywistego $ e^c_{\Omega}(h)$ jest wartość błędu próbki $ e^c_P(h)$. Ponadto dla dowolnego $ 0\leq\delta<1$ z prawdopodobieństwem równym $ 1-\delta$ jest spełniony warunek

$\displaystyle \big\vert e^c_{\Omega}(h)-e^c_P(h)\big\vert < u_{\delta}\sqrt{\frac{e^c_P(h)(1-e^c_P(h))}{\vert P\vert}}$. (19)

Zalecane jest korzystanie z tego oszacowania dla dostatecznie licznych zbiorów $ P$, czyli zazwyczaj jeśli $ \vert P\vert\geq 30$ lub $ \vert P\vert e^c_P(h)(1-e^c_P(h))\geq 5$. Szczególnie popularne jest używanie przedstawionego przedziału ufności dla błędu rzeczywistego z poziomem ufności $ 1-\delta=0.95$, dla którego $ u_{\delta}=1.96$.

Statystyczna istotność

Jednym z podstawowych testów statystycznych jest test istotności, który -- mówiąc najogólniej -- służy do oceny, czy obserwowane w danych regularności są przypadkowe, czy też kryje się za nimi jakaś faktyczna zależność. Ocenia się wówczas dwie hipotezy (w sensie hipotez statystycznych, nie indukcyjnych): tzw. hipotezę zerową, która mówi, że obserwowane zjawiska są przypadkowe, i hipotezę alternatywną, że są one istotne.

Test $ z$

Najprostsze ujęcie, w którym dyskutuje się statystyczną istotność, dotyczy wartości średniej pewnej cechy statystycznej $ y$, która ma rozkład normalny. Hipoteza zerowa mówi, że wartość średnia cechy dla populacji wynosi $ \mu_0$, a hipoteza alternatywna, że jest różna od $ \mu_0$. W celu weryfikacji bada się $ n$-elementową próbę z populacji, dla której mamy wartości cechy $ y_i$ dla $ i=1,2,\dots,n$. Dla tej próby określana jest faktyczna średnia arytmetyczna $ \bar{y}$. Prosty test istotności, nazywany czasem testem $ z$, polega na obliczeniu statystyki:

$\displaystyle z = \frac{\bar{y}-\mu_0}{\sigma}\sqrt{n}$, (20)

gdzie $ \sigma$ oznacza z założenia znane odchylenie standardowe cechy $ y$ w populacji (a więc $ \frac{\sigma}{\sqrt{n}}$ jest odchyleniem standardowym średniej). Statystyka $ z$ ma rozkład normalny $ N(0,1)$. Jeśli $ \vert z\vert>u_{\delta}$, gdzie $ u_{\delta}$ jest liczbą wyznaczoną z warunku

$\displaystyle \mathrm{Pr}(\vert U\vert<u_{\delta}) = 1-\delta$ (21)

dla zmiennej losowej $ U$ o standardowym rozkładzie normalnym $ N(0,1)$, to uznaje się, że różnica między wartością oczekiwaną $ \mu_0$ a średnią $ \bar{y}$ jest statystycznie istotna (o poziomie istotności $ \delta$) i hipotezę zerową należy odrzucić.

Test $ t$

W sytuacji, gdy odchylenie standardowe dla populacji nie jest znane, wykorzystuje się jego oszacowanie na podstawie próby:

$\displaystyle \sigma^+ = \sqrt{\frac{1}{n-1}\sum_{i=1}^n(y_i - \bar{y})^2}$ (22)

i oblicza statystykę

$\displaystyle t = \frac{\bar{y}-\mu_0}{\sigma^+}\sqrt{n}$, (23)

a otrzymywany tak test nazywany jest testem $ t$ Studenta. Statystyka $ t$ ma rozkład $ t$ Studenta o $ n-1$ stopniach swobody. Interpretacja wartości $ t$ jest więc analogiczna jak $ z$ z tą różnicą, że zamiast rozkładu normalnego wykorzystuje się rozkład $ t$ Studenta o $ n-1$ stopniach swobody. Zatem jeśli $ \vert t\vert>s_{\delta}$, gdzie $ s_{\delta}$ jest liczbą wyznaczoną z warunku

$\displaystyle \mathrm{Pr}(\vert S\vert<s_{\delta}) = 1-\delta$ (24)

dla zmiennej losowej $ S$ o rozkładzie $ t$ Studenta z $ n-1$ stopniami swobody, to uznaje się, że różnica między wartością oczekiwaną $ \mu_0$ a średnią $ \bar{y}$ jest statystycznie istotna (o poziomie istotności $ \delta$) i hipotezę zerową należy odrzucić. Odpowiednie wartości $ u_{\delta}$ można znaleźć w tablicach statystycznych.

Testy dla dwóch średnich

Oba powyższe testy mają swoje warianty dla przypadku, gdy rozważane są dwie populacje, z których każda ma być może inny rozkład normalny o nie znanych wartościach średnich $ \mu_1$ i $ \mu_2$. Hipoteza zerowa mówi wówczas, że $ \mu_1=\mu_2$. Weryfikacji tej hipotezy dokonuje się na podstawie $ n_1$-elementowej próby z pierwszej populacji i $ n_2$-elementowej próby z drugiej populacji, dla których obliczane są średnie arytmetyczne $ \bar{y}_1$ i $ \bar{y}_2$.

Jeśli odchylenia standardowe $ \sigma_1$ i $ \sigma_2$ są znane, wykorzystuje się statystykę:

$\displaystyle z = \frac{\bar{y}_1-\bar{y}_2} {\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}}$. (25)

Jej interpretacja opiera się na wykorzystaniu rozkładu normalnego $ N(0,1)$ analogicznie jak w przypadku testu $ z$ dla jednej średniej.

Jeśli odchylenia standardowe nie są znane, ale wiadomo, że są jednakowe dla obu populacji, używa się oszacowania $ \sigma^+$ obliczonego dla połączonych prób oraz statystyki

$\displaystyle z = \frac{\bar{y}_1-\bar{y}_2} {\sigma^+\left(\sqrt{\frac{1}{n_1} +\frac{1}{n_2}}\right)}$. (26)

Tu stosuje się interpretację analogiczną jak dla testu $ t$ dla jednej średniej, używając rozkładu $ t$ Studenta o $ n_1+n_2-2$ stopniach swobody.

W przypadku, gdy nie można założyć, że odchylenia standardowe dla obu populacji są jednakowe, szacuje je się niezależnie dla obu prób jako $ \sigma^+_1$ i $ \sigma^+_2$ oraz używa statystyki

$\displaystyle z = \frac{\bar{y}_1-\bar{y}_2} {\sqrt{\frac{(\sigma^+_1)^2}{n_1} +\frac{(\sigma^+_2)^2}{n_2}}}$, (27)

która z kolei ma rozkład normalny $ N(0,1)$.

Testy dla klasyfikacji

Omówione testy istotności mogą być używane również w sytuacji, gdy przedmiotem rozważań nie są średnie, lecz liczby pewnych elementów, z czym mamy do czynienia w przypadku klasyfikacji. Zostanie tu naszkicowane przykładowe podejście. Zakładamy, że dana jest zmienna losowa reprezentująca cechę o wartościach 0 i $ 1$ (np. klasyfikacja błędna, klasyfikacja poprawna). Hipoteza zerowa zakłada pewną częstość $ f_1$ wartości $ 1$ (np. $ 0.5$), co pozwala wyznaczyć dla $ n$-elementowej losowej próby oczekiwaną liczbę wartości $ 1$ równą $ f_1n$. Niech z kolei faktyczna liczba wartości $ 1$ w próbie wynosi $ n_1$. Z kolei standardowe odchylenie dla liczby wartości $ 1$ przy losowaniu $ n$ elementów z populacji, w której częstość tych wartości wynosi $ f_1$, może być obliczone jako $ \sqrt{nf_1(1-f_1)}$. Pozwala to zapisać wyrażenie na statystykę $ z$ następująco:

$\displaystyle z = \frac{n_1-f_1n}{\sqrt{nf_1(1-f_1)}}$. (28)

Statystyczna niezależność

Weźmy pod uwagę zagadnienie weryfikacji, czy dwie zmienne losowe są niezależne na podstawie obserwacji ich wartości. W tym celu wykorzystuje się popularną statystykę $ \chi^2$, która znajduje bardzo wiele zastosowań w dziedzinie odkrywania wiedzy.

Rozważmy dwie dyskretne zmienne losowe $ y_1$ i $ y_2$, reprezentujące cechy elementów pewnej populacji, i załóżmy, że dana jest losowa próba elementów tej populacji. Niech $ k_1$ i $ k_2$ oznaczają odpowiednio liczby możliwych wartości cech $ y_1$ i $ y_2$. Dla losowej próby $ n$ elementów populacji niech $ n^1_i$ oznacza zaobserwowaną częstość (liczbę wystąpień) $ i$-tej wartości cechy $ y_1$ dla $ i=1,2,\dots,k_1$ i odpowiednio $ n^2_j$ liczbę wystąpień $ j$-tej wartości cechy $ y_2$ dla $ j=1,2,\dots,k_2$. Przez $ n_{ij}$ oznaczymy obserwowaną liczbę (częstość) jednoczesnych wystąpień $ i$-tej wartości cechy $ y_1$ i $ j$-tej wartości cechy $ y_2$, a przez $ e_{ij}$ odpowiednią oczekiwaną liczbę wystąpień przy założeniu hipotezy zerowej, czyli niezależności $ y_1$ i $ y_2$. Wówczas wartość statystyki $ \chi^2$ może być obliczona zgodnie z formułą:

$\displaystyle \chi^2 = \sum_{i=1}^{k_1}\sum_{j=1}^{k_2}\frac{(n_{ij}-e_{ij})^2}{e_{ij}}$. (29)

Wartości oczekiwane $ e_{ij}$ możemy oszacować w oczywisty sposób:

$\displaystyle e_{ij} = \frac{n^1_i\cdot n^2_j}{n}$. (30)

Jak widzimy, statystyka $ \chi^2$ mierzy różnicę między faktycznym rozkładem poszczególnych par wartości cech $ y_1$ i $ y_2$ a ich rozkładem oczekiwanym przy założeniu niezależności tych cech. Im większa jest wartość tej statystyki, tym oba rozkłady bardziej się różnią, a co za tym idzie prawdopodobieństwo niezależności cech jest mniejsze. Możemy określić to prawdopodobieństwo uwzględniając, że wartość statystyki $ \chi^2$ jest zmienną losową (o różnych wartościach dla różnych prób losowych), która ma (w przybliżeniu) rozkład nazywany rozkładem $ \chi^2$ o $ (k_1-1)\cdot(k_2-1)$ stopniach swobody. Dzięki temu dla określonego poziomu istotności $ \delta$ można wyznaczyć (posługując się tablicami statystycznymi lub wyposażonym w odpowiednie funkcje kalkulatorem) wartość progową tej statystyki $ \theta_{\delta}$ taką, że prawdopodobieństwo jej uzyskania lub przekroczenia dla niezależnych cech wynosi $ \delta$. Na ogół przyjmuje się, że między cechami występuje zależność, jeśli wartość statystyki $ \chi^2$ przekracza próg dla poziomu istotności $ 5$%, czyli $ \delta=0.05$. W tablicach statystycznych można znaleźć odpowiednie wartości progowe dla różnych liczb stopni swobody. Przybliżenie rozkładu statystyki $ \chi^2$ za pomocą rozkładu $ \chi^2$ uznaje się za dostatecznie dobre, jeśli wszystkie szacowane wartości oczekiwane $ e_{ij}$ są większe niż $ 1$ i co najwyżej $ 20$% z nich jest poniżej $ 5$. Warunki te są znane pod nazwą kryteriów Cochrana.

Wartość statystyki $ \chi^2$ zawsze należy do przedziału $ [0,n(k-1)]$, gdzie $ k=\min(k_1,k_2)$. Minimalną wartość 0 przyjmuje, gdy wszystkie wartości faktyczne są równe oczekiwanym, co oznacza niezależność cech, zaś wartość maksymalną $ n(k-1)$ przyjmuje w przypadku zależności funkcyjnej. Siłę zależności wygodnie jest mierzyć za pomocą współczynnika $ V$ Cramera określonego jako:

$\displaystyle V = \sqrt{\frac{\chi^2}{n(k-1)}}$, (31)

którego wartość zawsze należy do przedziału $ [0,1]$.

Inna statystyka, używana w tym samym celu, która również ma w przybliżeniu rozkład $ \chi^2$ z $ (k_1-1)\cdot(k_2-1)$ stopniami swobody (chociaż jest to przybliżenie nieco gorsze niż dla statystyki $ \chi^2$), wyrażona jest wzorem:

$\displaystyle G^2 = 2\sum_{i=1}^{k_1}\sum_{j=1}^{k_2}n_{ij}\ln\frac{n_{ij}}{e_{ij}}$. (32)

Statystyczna istotność hipotez

Najbardziej bezpośrednim zastosowaniem testu niezależności jest ocena statystycznej istotności hipotez indukcyjnych do klasyfikacji. Testowaniu podlegałaby wówczas niezależność kategorii przypisywanych przez hipotezę przykładom i ich faktycznych kategorii. Jeśli okażą się one zależne, hipoteza jest statystycznie istotna.

Weźmy pod uwagę pewien zbiór przykładów $ P\subset X$, dla których znamy poprawne kategorie pojęcia $ c$. Wprowadźmy oznaczenia:

$\displaystyle P^{cd} ={}$ $\displaystyle \{x\in P \;\vert\; c(x)=d\}$, (33)
$\displaystyle P^{hd} ={}$ $\displaystyle \{x\in P \;\vert\; h(x)=d\}$, (34)
$\displaystyle P^{cd_1,dh_2} ={}$ $\displaystyle \{x\in P \;\vert\; c(x)=d_1\land h(x)=d_2\}$. (35)

Wzór na statystykę $ \chi^2$ zapiszemy wówczas następująco:

$\displaystyle \chi^2 = \sum_{d_1\in C}\sum_{d_2\in C} \frac{(\vert P^{cd_1,hd_2}\vert-e_P^{cd_1,hd_2})^2}{e_P^{cd_1,hd_2}}$, (36)

gdzie $ e_P^{cd_1,hd_2}$ oznacza oczekiwaną liczbę przykładów w zbiorze $ P$, które należą do kategorii $ d_1$ pojęcia $ c$ i które hipoteza $ h$ przypisuje do kategorii $ d_2$ przy założeniu, że między kategoriami przypisywanym przez $ c$ i $ h$ nie ma zależności:

$\displaystyle e_P^{cd_1,hd_2} = \frac{\vert P^{cd_1}\vert\cdot \vert P^{hd_2}\vert}{\vert P\vert}$. (37)

Tak określona statystyka ma w przybliżeniu rozkład $ \chi^2$ o $ (\vert C\vert-1)^2$ stopniach swobody.

Należy zwrócić uwagę, że statystyczna istotność hipotezy nie wiąże się bezpośrednio z jej dokładnością.

Nierównomierność rozkładu

Kolejne często spotykane w odkrywaniu wiedzy zagadnienie polega na mierzeniu nierównomierności rozkładu pewnej cechy w populacji. Rozważmy cechę $ y$ o $ k$ możliwych wartościach i oznaczmy przez $ n_i$ liczbę wystąpień $ i$-tej wartości tej cechy w pewnej $ n$-elementowej próbie, dla $ i=1,2,\dots,k$. Interesuje nas liczbowe określenie stopnia nierównomierności rozkładu różnych wartości cechy, przy czym maksymalna równomierność oznacza, że każda możliwa wartość występuje tyle samo razy, a minimalna równomierność oznacza, że występuje wyłącznie jedna wartość.

Popularną miarą nierównomierności rozkładu jest wywodząca się z teorii informacji entropia, obliczana następująco:

$\displaystyle E = \sum_{i=1}^k -\frac{n_i}{n}\log\frac{n_i}{n}$. (38)

Jest ona maksymalizowana przy całkowicie równomiernym rozkładzie i osiąga wartość 0 przy całkowicie nierównomiernym rozkładzie, jeśli przyjmiemy do obliczeń $ 0\log 0=0$. Podstawa logarytmu wpływa tylko na skalę wartości entropii (logarytm dwójkowy daje wynik wyrażony w bitach).

Korelacja

Dla zmiennych losowych o wartościach ciągłych prostym testem sprawdzającym występowanie między nimi zależności jest określenie ich współczynnika korelacji. Rozważmy dwie zmienne losowe $ y_1$ i $ y_2$ reprezentujące cechy elementów pewnej populacji, i załóżmy że dana jest $ n$-elementowa próba elementów tej populacji. Niech $ y_{1i}$ i $ y_{2i}$ oznaczają odpowiednio wartości cech $ y_1$ i $ y_2$ dla $ i$-tego elementu próby, $ i=1,2,\dots,n$, zaś $ \bar{y}_1$ i $ \bar{y}_2$ ich wartości średnie:

$\displaystyle \bar{y}_1 = \frac{1}{n}\sum_{i=1}^n y_{1i}$,$\displaystyle \bar{y}_2 = \frac{1}{n}\sum_{i=1}^n y_{2i}$. (39)

Współczynnik korelacji cech $ y_1$ i $ y_2$ oblicza się zgodnie ze wzorem:

$\displaystyle k_{y_1,y_2} = \frac{\sum_{i=1}^{n} (y_{1i}-\bar{y}_1)(y_{2i}-\bar{y}_2)} {\sqrt{\sum_{i=1}^n(y_{1i}-\bar{y}_1)^2 \sum_{i=1}^n(y_{2i}-\bar{y}_2)^2}}$. (40)

Wartość współczynnika korelacji należy do przedziału $ [-1,1]$. Im jego wartość bezwzględna jest większa, tym zależność między cechami silniejsza. Wartość 0 oznacza brak zależności, a wartość $ 1$ lub $ -1$ -- zależność liniową.

Określony wyżej współczynnik korelacji, nazywany współczynnikiem korelacji Pearsona, mierzy siłę zależności liniowej (mówi się o nim, że jest współczynnikiem korelacji liniowej). Oznacza to, że nawet bardzo silna, lecz nieliniowa zależność monotoniczna dwóch cech ciągłych, nie musi prowadzić do wartości bliskich 1. W przypadku, gdy interesuje nas wykrywanie zależności niekoniecznie liniowej, przydatny może okazać się współczynnik korelacji rangowej Spearmana. Niech $ k_{1i}$ oznacza kolejny numer porządkowy $ i$-tego elementu próby po uporządkowaniu niemalejąco według wartości cechy $ y_1$ i odpowiednio $ k_{2i}$ -- kolejny numer porządkowy $ i$-tego elementu próby po uporządkowaniu niemalejąco według wartości cechy $ y_2$. Wówczas wartość współczynnika Spearmana obliczana jest następująco:

$\displaystyle \rho_{y_1,y_2} = 1 - \frac{6\sum_{i=1}^n(k_{1i}-k_{2i})^2}{n(n^2-1)}.$ (41)

Literatura

  1. Cichosz, P. Systemy uczące się. WNT, 2000. (Podrozdziały 2.3.1, B.4, B.5.)
  2. Witten, I. A., Frank, E. Data Mining. Morgan Kaufmann, 2000. (Podrozdziały 5.2, 5.5.)
  3. Jóźwiak, J., Podgórski, J. Wprowadzenie do statystyki. PWE, 1997. (Podrozdziały 1.1, 1.2, 10.1, 10.2, 10.6, 11.3, 15.2, 15.4.)
  4. Freedman, D., Pisani, R., Purves, R. Statistics. W. W. Norton & Co., 1998. (Rozdziały 4, 8, 17, 26, 28.)

About this document ...

Metody odkrywania wiedzy: wykład 3
Narzędzia ze statystyki i teorii informacji

This document was generated using the LaTeX2HTML translator Version 2K.1beta (1.48)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -split 0 -no_navigation mow-w3

The translation was initiated by Pawel Cichosz on 2004-03-10


Pawel Cichosz 2004-03-10