Paweł Cichosz
Date: 2001/2002
Wykład stanowi przegląd najbardziej elementarnych narzędzi wywodzących się ze statystyki i teorii informacji, jakie wykorzystuje się do indukcyjnego uczenia się i odkrywania wiedzy.
Przy odkrywaniu wiedzy często pojawia się pojęcie rozkładu, odnoszone zazwyczaj do wartości opisujących dane atrybutów. Językiem statystyki mówi się o cechach statystycznych pewnej populacji, które są zmiennymi losowymi o pewnym rozkładzie prawdopodobieństwa. Dane, którymi dysponujemy, stanowią losową próbę z populacji (dziedziny), a obserwowane w tych danych rozkłady to rozkłady empiryczne.
Rozkłady wartości atrybutów dyskretnych są charakteryzowane przez podanie liczby wystąpień poszczególnych wartości lub ich częstości występowania (liczby wystąpień każdej wartości podzielonej przez rozmiar próby).
Podstawowe parametry ciągłych rozkładów empirycznych, którymi się
posługujemy, to średnia i odchylenie standardowe. Dla cechy
, która
w
-elementowej próbie przyjmuje wartości
dla
,
obliczamy je następująco:
, |
(1) |
. |
(2) |
Obliczanie odchylenia standardowego znacznie się upraszcza w
szczególnym, ale istotnym przypadku, gdy w próbie występują wyłącznie
dwie różne wartości rozważanej cechy. Załóżmy, że są to wartości
i
, przy czym
. Niech
i
oznaczają odpowiednio liczbę
wystąpień wartości
i
w
-elementowej próbie (
).
Wówczas
. |
(3) |
Często, zwłaszcza przy niewielkiej liczebności próby, zalecana jest poprawka do obliczania odchylenia standardowego, polegająca na obliczaniu go w poniższy sposób:
. |
(4) |
Rozważmy sytuację, w której z próby
-elementowej o odchyleniu
standardowym
losuje się
-krotnie ze zwracaniem. Dla
zmiennej losowej reprezentującej sumę wylosowanych liczb odchylenie
standardowe (jako parametr rozkładu prawdopodobieństwa) jest wówczas
równe
, a dla zmiennej reprezentującej wartość średnią
wylosowanych liczb wynosi
.
Do charakteryzowania rozkładów ciągłych zmiennych losowych używa się
funkcji gęstości prawdopodobieństwa. Dla zmiennej losowej
o
wartościach rzeczywistych funkcja gęstości prawdopodobieństwa
spełnia warunek:
. |
(5) |
| (6) |
Dla standardowych rozkładów prawdopodobieństwa znane są wzory
określające funkcję gęstości w zależności od parametrów rozkładu. W
szczególności dla rozkładu normalnego o wartości oczekiwanej
i
odchyleniu standardowym
funkcja gęstości ma postać
następująco:
. |
(7) |
W przypadku cech, których rozkład nie może być określony z góry i
istnieje domniemanie, że może nie być normalny, stosowana jest często
charakterystyka za pomocą mediany i kwartyli. Najprościej wprowadzić
te wielkości rozważając próbę uporządkowaną niemalejąco według wartości
charakteryzowanej cechy ciągłej
, której elementy są ponumerowane
kolejnymi liczbami
(czyli ciąg
jest
niemalejący). Wówczas mediana cechy
jest określona następująco:
![]() |
(8) |
Mediana jest nazywana także kwartylem rzędu 2, albo drugim
kwartylem. O ile mediana wyznacza podział wartości cechy na połowę,
kwartyle wyznaczają podział na cztery części. Kwartyl zerowy to
wartość minimalna, kwartyl pierwszy ,,odcina'' dolną ćwiartkę
wartości, kwartyl trzeci -- górną, a kwartyl czwarty jest wartością
maksymalną. Bardziej precyzyjnie kwartyle pierwszy i trzeci
definiowane są, przy założeniu niemalejącego uporządkowania próby
według wartości cechy
, następująco:
| (9) | ||
| (10) |
W praktyce metod odkrywania wiedzy bardzo często szacujemy
prawdopodobieństwa na podstawie częstości. Jeśli rozważamy cechę
statystyczną
o możliwych wartościach
dla
i
chcemy szacować prawdopodobieństwo
-tej wartości na podstawie
liczby jej wystąpień
w
-elementowej próbie losowej, to
bezpośrednie podejście polega na przyjęciu częstości jako estymatora
prawdopodobieństwa:
| (11) |
Za bardziej przydatny w zastosowaniach, z jakimi mamy do czynienia
przy odkrywaniu wiedzy, zwłaszcza dla niewielkich prób, uważany jest
estymator, jaki daje technika znana jako
-szacowanie, zgodnie z
którą przyjmuje się:
, |
(12) |
. |
(13) |
Estymacja przedziałowa służy w ogólnym przypadku do szacowania wartości pewnego nieznanego parametru rozważanej populacji na podstawie jego estymatora. Estymator jest zmienną losową o wartościach wyznaczanych na podstawie losowej próby elementów z tej populacji, a jego wartość dla konkretnej próby jest nazywana oceną estymowanego parametru. Parametr ten zazwyczaj oznacza częstość występowania w populacji elementów o określonej wartości pewnej cechy. Naturalnym estymatorem jest wówczas częstość występowania tej cechy w losowej próbie wybranej z populacji. Dla różnych losowych prób będą to na ogół różne częstości, czyli różne realizacje zmiennej losowej, którą jest estymator.
Estymacja przedziałowa polega na wyznaczaniu przedziałów ufności dla estymowanego parametru na podstawie estymatora. Przedział ufności wyznacza się zawsze dla ustalonego poziomu ufności, który jest prawdopodobieństwem, że rzeczywista wartość parametru znajduje się w tym przedziale:
Przedziałem ufności dla parametruo poziomie ufności
dla
jest każdy przedział, do którego wartość
należy z prawdopodobieństwem równym
.
Celem estymacji przedziałowej jest wyznaczenie przedziału ufności dla
danego parametru
na podstawie pewnego estymatora tego parametru
. Jeśli jest to estymator nieobciążony, czyli
, to każda realizacja tego estymatora, czyli
wyznaczona na podstawie losowej próby ocena
, jest środkiem
pewnego przedziału ufności dla
. Granice tego przedziału można
wyznaczyć na podstawie rozkładu zmiennej losowej, jaką jest estymator.
Znane są wzory wyrażające końce przedziałów ufności (przy zadanym poziomie ufności) dla podstawowych rozkładów prawdopodobieństwa. Tu będą przedstawione dwa przypadki: rozkładu normalnego o znanym odchyleniu standardowym, gdzie poszukuje się przedziału ufności dla wartości średniej, i rozkładu dwumianowego, gdzie poszukuje się przedziału ufności dla prawdopodobieństwa sukcesu w próbie Bernoulliego.
Rozważmy cechę o rozkładzie normalnym
o nieznanej
wartości średniej
i znanym odchyleniu standardowym
.
Estymatorem dla
jest wówczas wartość średnia cechy w losowej
próbie. W szczególności jeśli
-elementowa próba zawiera wartości
cechy
dla
, to realizacja estymatora jest
następująca:
. |
(14) |
, |
(15) |
| (16) |
Z punktu widzenia naszych zastosowań najbardziej interesujący jest
przypadek rozkładu dwumianowego (rozkład zmiennej losowej oznaczającej
liczbę sukcesów w określonej liczbie prób Bernoulliego), którego
parametrami sią liczba prób
i prawdopodobieństwo sukcesu w
pojedynczej próbie
. Na ogół wartość
nie jest znana i do jej
oszacowania na podstawie eksperymentu o dostatecznie dużej liczbie
prób może być użyta estymacja przedziałowa. Najlepszym estymatorem
jest wówczas stosunek liczby sukcesów w eksperymencie do
liczby wykonanych prób. Przedział ufności o poziomie ufności
dla parametru
rozkładu dwumianowego ma postać:
, |
(17) |
| (18) |
Estymacja przedziałowa dla rozkładu dwumianowego może być wykorzystana do szacowania błędu rzeczywistego hipotez na podstawie ich błędu próbki. Wystarczy w tym celu potraktować klasyfikację przez hipotezę każdego przykładu jako próbę, w której ,,sukcesem'' jest błędna klasyfikacja (gdyż chcemy szacować błąd rozumiany jako prawdopodobieństwo pomyłki).
Załóżmy zatem, że dana jest hipoteza
i pewien zbiór przykładów
wybranych zgodnie z rozkładem prawdopodobieństwa
niezależnie od tej hipotezy i niezależnie od
siebie nawzajem. Niech
będzie dowolnym pojęciem docelowym,
względem którego jest określany błąd hipotezy
. Wówczas błąd
próbki
jest realizacją nieobciążonego estymatora błędu
rzeczywistego, a więc najbardziej prawdopodobną wartością błędu
rzeczywistego
jest wartość błędu próbki
.
Ponadto dla dowolnego
z prawdopodobieństwem równym
jest spełniony warunek
. |
(19) |
Jednym z podstawowych testów statystycznych jest test istotności, który -- mówiąc najogólniej -- służy do oceny, czy obserwowane w danych regularności są przypadkowe, czy też kryje się za nimi jakaś faktyczna zależność. Ocenia się wówczas dwie hipotezy (w sensie hipotez statystycznych, nie indukcyjnych): tzw. hipotezę zerową, która mówi, że obserwowane zjawiska są przypadkowe, i hipotezę alternatywną, że są one istotne.
Najprostsze ujęcie, w którym dyskutuje się statystyczną istotność,
dotyczy wartości średniej pewnej cechy statystycznej
, która ma
rozkład normalny. Hipoteza zerowa mówi, że wartość średnia cechy dla
populacji wynosi
, a hipoteza alternatywna, że jest różna od
. W celu weryfikacji bada się
-elementową próbę z populacji,
dla której mamy wartości cechy
dla
. Dla tej
próby określana jest faktyczna średnia arytmetyczna
. Prosty
test istotności, nazywany czasem testem
, polega na obliczeniu
statystyki:
, |
(20) |
| (21) |
W sytuacji, gdy odchylenie standardowe dla populacji nie jest znane, wykorzystuje się jego oszacowanie na podstawie próby:
![]() |
(22) |
, |
(23) |
| (24) |
Oba powyższe testy mają swoje warianty dla przypadku, gdy rozważane są
dwie populacje, z których każda ma być może inny rozkład normalny o
nie znanych wartościach średnich
i
. Hipoteza zerowa
mówi wówczas, że
. Weryfikacji tej hipotezy dokonuje się
na podstawie
-elementowej próby z pierwszej populacji i
-elementowej próby z drugiej populacji, dla których obliczane są
średnie arytmetyczne
i
.
Jeśli odchylenia standardowe
i
są znane,
wykorzystuje się statystykę:
. |
(25) |
Jeśli odchylenia standardowe nie są znane, ale wiadomo, że są
jednakowe dla obu populacji, używa się oszacowania
obliczonego dla połączonych prób oraz statystyki
. |
(26) |
W przypadku, gdy nie można założyć, że odchylenia standardowe dla obu
populacji są jednakowe, szacuje je się niezależnie dla obu prób jako
i
oraz używa statystyki
, |
(27) |
Omówione testy istotności mogą być używane również w sytuacji, gdy
przedmiotem rozważań nie są średnie, lecz liczby pewnych elementów, z
czym mamy do czynienia w przypadku klasyfikacji. Zostanie tu
naszkicowane przykładowe podejście. Zakładamy, że dana jest zmienna
losowa reprezentująca cechę o wartościach 0 i
(np. klasyfikacja
błędna, klasyfikacja poprawna). Hipoteza zerowa zakłada pewną częstość
wartości
(np.
), co pozwala wyznaczyć dla
-elementowej losowej próby oczekiwaną liczbę wartości
równą
. Niech z kolei faktyczna liczba wartości
w próbie wynosi
. Z kolei standardowe odchylenie dla liczby wartości
przy
losowaniu
elementów z populacji, w której częstość tych wartości
wynosi
, może być obliczone jako
. Pozwala to
zapisać wyrażenie na statystykę
następująco:
. |
(28) |
Weźmy pod uwagę zagadnienie weryfikacji, czy dwie zmienne losowe są
niezależne na podstawie obserwacji ich wartości. W tym celu
wykorzystuje się popularną statystykę
, która znajduje bardzo
wiele zastosowań w dziedzinie odkrywania wiedzy.
Rozważmy dwie dyskretne zmienne losowe
i
, reprezentujące
cechy elementów pewnej populacji, i załóżmy, że dana jest losowa próba
elementów tej populacji. Niech
i
oznaczają odpowiednio
liczby możliwych wartości cech
i
. Dla losowej próby
elementów populacji niech
oznacza zaobserwowaną
częstość (liczbę wystąpień)
-tej wartości cechy
dla
i odpowiednio
liczbę wystąpień
-tej
wartości cechy
dla
. Przez
oznaczymy
obserwowaną liczbę (częstość) jednoczesnych wystąpień
-tej wartości
cechy
i
-tej wartości cechy
, a przez
odpowiednią oczekiwaną liczbę wystąpień przy założeniu hipotezy
zerowej, czyli niezależności
i
. Wówczas wartość
statystyki
może być obliczona zgodnie z formułą:
. |
(29) |
. |
(30) |
Jak widzimy, statystyka
mierzy różnicę między faktycznym
rozkładem poszczególnych par wartości cech
i
a ich
rozkładem oczekiwanym przy założeniu niezależności tych cech. Im
większa jest wartość tej statystyki, tym oba rozkłady bardziej się
różnią, a co za tym idzie prawdopodobieństwo niezależności cech jest
mniejsze. Możemy określić to prawdopodobieństwo uwzględniając, że
wartość statystyki
jest zmienną losową (o różnych wartościach
dla różnych prób losowych), która ma (w przybliżeniu) rozkład nazywany
rozkładem
o
stopniach swobody. Dzięki
temu dla określonego poziomu istotności
można wyznaczyć
(posługując się tablicami statystycznymi lub wyposażonym w odpowiednie
funkcje kalkulatorem) wartość progową tej statystyki
taką, że prawdopodobieństwo jej uzyskania lub przekroczenia dla
niezależnych cech wynosi
. Na ogół przyjmuje się, że między
cechami występuje zależność, jeśli wartość statystyki
przekracza próg dla poziomu istotności
%, czyli
.
W tablicach statystycznych można znaleźć odpowiednie wartości progowe
dla różnych liczb stopni swobody. Przybliżenie rozkładu statystyki
za pomocą rozkładu
uznaje się za dostatecznie dobre,
jeśli wszystkie szacowane wartości oczekiwane
są większe niż
i co najwyżej
% z nich jest poniżej
. Warunki te są znane
pod nazwą kryteriów Cochrana.
Wartość statystyki
zawsze należy do przedziału
,
gdzie
. Minimalną wartość 0 przyjmuje, gdy
wszystkie wartości faktyczne są równe oczekiwanym, co oznacza
niezależność cech, zaś wartość maksymalną
przyjmuje w
przypadku zależności funkcyjnej. Siłę zależności wygodnie jest mierzyć
za pomocą współczynnika
Cramera określonego jako:
, |
(31) |
Inna statystyka, używana w tym samym celu, która również ma w
przybliżeniu rozkład
z
stopniami
swobody (chociaż jest to przybliżenie nieco gorsze niż dla statystyki
), wyrażona jest wzorem:
. |
(32) |
Najbardziej bezpośrednim zastosowaniem testu niezależności jest ocena statystycznej istotności hipotez indukcyjnych do klasyfikacji. Testowaniu podlegałaby wówczas niezależność kategorii przypisywanych przez hipotezę przykładom i ich faktycznych kategorii. Jeśli okażą się one zależne, hipoteza jest statystycznie istotna.
Weźmy pod uwagę pewien zbiór przykładów
, dla których
znamy poprawne kategorie pojęcia
. Wprowadźmy oznaczenia:
| (33) | ||
| (34) | ||
| (35) |
, |
(36) |
. |
(37) |
Należy zwrócić uwagę, że statystyczna istotność hipotezy nie wiąże się bezpośrednio z jej dokładnością.
Kolejne często spotykane w odkrywaniu wiedzy zagadnienie polega na
mierzeniu nierównomierności rozkładu pewnej cechy w populacji.
Rozważmy cechę
o
możliwych wartościach i oznaczmy przez
liczbę wystąpień
-tej wartości tej cechy w pewnej
-elementowej
próbie, dla
. Interesuje nas liczbowe określenie
stopnia nierównomierności rozkładu różnych wartości cechy, przy czym
maksymalna równomierność oznacza, że każda możliwa wartość występuje
tyle samo razy, a minimalna równomierność oznacza, że występuje
wyłącznie jedna wartość.
Popularną miarą nierównomierności rozkładu jest wywodząca się z teorii informacji entropia, obliczana następująco:
. |
(38) |
Dla zmiennych losowych o wartościach ciągłych prostym testem
sprawdzającym występowanie między nimi zależności jest określenie ich
współczynnika korelacji. Rozważmy dwie zmienne losowe
i
reprezentujące cechy elementów pewnej populacji, i załóżmy że
dana jest
-elementowa próba elementów tej populacji. Niech
i
oznaczają odpowiednio wartości cech
i
dla
-tego elementu próby,
, zaś
i
ich wartości średnie:
, . |
(39) |
. |
(40) |
Wartość współczynnika korelacji należy do przedziału
. Im
jego wartość bezwzględna jest większa, tym zależność między cechami
silniejsza. Wartość 0 oznacza brak zależności, a wartość
lub
-- zależność liniową.
Określony wyżej współczynnik korelacji, nazywany współczynnikiem
korelacji Pearsona, mierzy siłę zależności liniowej (mówi się o nim,
że jest współczynnikiem korelacji liniowej). Oznacza to, że nawet
bardzo silna, lecz nieliniowa zależność monotoniczna dwóch cech
ciągłych, nie musi prowadzić do wartości bliskich 1. W przypadku, gdy
interesuje nas wykrywanie zależności niekoniecznie liniowej, przydatny
może okazać się współczynnik korelacji rangowej Spearmana. Niech
oznacza kolejny numer porządkowy
-tego elementu próby po
uporządkowaniu niemalejąco według wartości cechy
i odpowiednio
-- kolejny numer porządkowy
-tego elementu próby po
uporządkowaniu niemalejąco według wartości cechy
. Wówczas
wartość współczynnika Spearmana obliczana jest następująco:
![]() |
(41) |
This document was generated using the LaTeX2HTML translator Version 2K.1beta (1.48)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 -no_navigation mow-w3
The translation was initiated by Pawel Cichosz on 2004-03-10