Metody odkrywania wiedzy: wykład 1
Wprowadzenie
Paweł Cichosz
Date: 2001/2002
Wykład wprowadza w dziedzinę odkrywania wiedzy i ma na celu dać
wstępne wyobrażenie o tym, o czym będzie mowa na kolejnych wykładach.
- Konsultacje: czwartek 12-13 z możliwością przedłużenia (pokój
231).
- Praca domowa: dwa indywidualne zadania w ciągu semestru,
polegające na przeprowadzeniu eksperymentów z wykorzystaniem
biblioteki metod odkrywania wiedzy Weka.
- Projekt: jedno zespołowe (2-3 osoby) zadanie w ciągu semestru
polegające na implementacji i eksperymentowaniu z metodami
odkrywania wiedzy.
- Literatura uzupełniająca: polecana indywidualnie do każdego
wykładu.
- Zasady oceniania: 40% egzamin, 40% projekt, 20% praca domowa.
- Na podstawie analizy dostępnych danych odkryć występujące w nich
regularności.
- Dane -- zazwyczaj z bazy danych, w postaci zbioru rekordów
charakteryzowanych przez pewne atrybuty.
- Regularności mogą polegać na zależności pewnych atrybutów od
innych lub korelacji występujących między atrybutami (w
szczególności współwystępowaniu pewnych wartości atrybutów).
- Takie regularności mogą występować nie tylko dla atrybutów
pierwotnie występujących w danych, lecz także dla nowych atrybutów
zdefiniowanych w procesie odkrywania (np. atrybutach agregujących
pewne pierwotne atrybuty).
- Odkryte regularności muszą być statystycznie istotne
(zweryfikowane przez odpowiednie testy statystyczne).
- Odkryte regularności muszą być interesujące, przydatne dla
posiadacza danych (np. dotyczyć interesujących atrybutów).
- Odkryte regularności należy sformułować w postaci umożliwiającej
ich wykorzystanie do wnioskowania przez człowieka lub
automatycznego, przy czym w każdym przypadku pożądane jest zapisanie
ich postaci czytelnej dla człowieka i poddanie ich jego ocenie.
Metody odkrywania wiedzy wywodzą się z dwóch pni: statystyki i
maszynowego uczenia się. W maksymalnym uproszczeniu: wybrane
algorytmy uczenia się są używane do znalezienia regularności w danych
i zapisania ich w odpowiedniej postaci, a narzędzia statystyczne służą
do weryfikacji ich jakości. Często powiązania uczenia się i statystyki
w metodach odkrywania wiedzy są jednak bardziej złożone: praktyczne
algorytmy odkrywania wiedzy w wielu przypadkach są algorytmami uczenia
się lub algorytmami wywodzącymi się z nich, wykorzystującymi w swoim
działaniu techniki statystyczne. Z implementacyjnego punktu widzenia
metody odkrywania wiedzy uwzględniać muszą ponadto zagadnienia
efektywnej komunikacji z bazą danych, wizualizacji odkrywanej wiedzy i
interakcji z analitykiem danych.
Odkrywanie regularności w danych można potraktować jako uczenie się na
podstawie tych danych. Wynikiem uczenia się jest wiedza, która stanowi
uogólnienie danych będących jej podstawą. Uczenie się polegające na
analizowaniu i uogólnianiu danych jest nazywane indukcyjnym
uczeniem się.
Do odkrywania wiedzy wykorzystuje się algorytmy uczenia się, które
zostały pierwotnie opracowane bez uwzględniania praktycznych wymogów,
jakie występują przy odkrywaniu wiedzy w danych. Dotyczy to przede
wszystkich cech rzeczywistych zbiorów danych, takich jak duży rozmiar,
zaszumienie, niekompletność, występowanie atrybutów różnych typów,
występowanie atrybutów. Rozwój dziedziny odkrywania wiedzy w ciągu
ostatniej dekady doprowadził do opracowania odpowiednio
,,wzmocnionych'' wersji znanych wcześniej algorytmów, radzących sobie
z rzeczywistymi danymi i spełniających praktyczne wymogi efektywności
obliczeniowej. Jednocześnie powstały nowe algorytmy przeznaczone do
odkrywania innych rodzajów regularności w danych, którymi nie
zajmowano się wcześniej w ramach badań nad maszynowym uczeniem się.
Odkrywanie wiedzy jest procesem wymagającym udziału doświadczonego
analityka -- niestety, nie istnieją narzędzia, które po wskazaniu
źródła danych automatycznie wygenerowałyby wiedzę spełniającą
oczekiwania (przydatną, interesującą, statystycznie istotną i zapisaną
w odpowiedniej postaci). Najczęściej istnieje konieczność
zastosowania jednego lub większej liczby narzędzi w sposób
interaktywny. W takim procesie analityk zazwyczaj zmienia różne
parametry używanych algorytmów, określa, które atrybuty mają być
uwzględnione, modyfikuje atrybuty, dodaje nowe atrybuty określając ich
definicje w zależności od pierwotnych atrybutów, odrzuca część
rekordów, wybiera próbki z danych itd. Uzyskanie zadowalających
efektów może wymagać wiele wysiłku i pomysłowości, czego nawet
najbardziej wyrafinowane narzędzia nie zastąpią. Z drugiej strony,
nawet prosty pakiet statystyczny czy arkusz kalkulacyjny może być
cennym narzędziem w rękach dobrego analityka. W związku z tym na
metody odkrywania wiedzy należy patrzeć z pewnym dystansem: nie dają
one najczęściej w automatyczny sposób dobrych efektów, a tylko
pomagają je uzyskać.
Wygodnie jest podzielić metody odkrywania wiedzy na rodzaje
odpowiadające rodzajom wiedzy, jakiej odkrywaniu służą.
- Klasyfikacja:
- wiedza o tym, jak przynależność do pewnych
kategorii (klas) zależy od atrybutów. Metody odkrywania takiej
wiedzy wywodzą się algorytmów uczenia się pojęć (drzewa decyzyjne,
reguły, klasyfikacja bayesowska). W praktyce wybrany atrybut
reprezentuje kategorie.
- Aproksymacja:
- wiedza o tym, jak wartość pewnej funkcji
rzeczywistoliczbowej zależy od atrybutów. Metody odkrywania
odkrywania takiej wiedzy wywodzą się z algorytmów uczenia się
aproksymacji (m.in. sieci neuronowe) i statystycznych metod
regresji. W praktyce wybrany atrybut reprezentuje wartości funkcji.
- Zależności przyczynowe:
- wiedza o tym, jakie zależności
przyczynowe występują między różnymi atrybutami. Jest to w pewnym
sensie uogólnienie klasyfikacji na dowolną liczbę atrybutów
zależnych, która dotyczy zależności jednego atrybutu (kategorii) od
innych. Metody odkrywania takiej wiedzy wykorzystują
probabilistyczne algorytmy uczenia się w sieciach bayesowskich.
- Zależności funkcyjne:
- wiedza o tym, jakimi wzorami najlepiej
wyrażają się zależności występujące między atrybutami o wartościach
liczbowych. Jest to w pewnym sensie uogólnienie aproksymacji na
dowolną liczbę atrybutów zależnych z dodatkowym wymogiem, aby
zależność była wyrażona za pomocą formuły algebraicznej. Do
znajdowania takich zależności wykorzystuje się metody odkrywania
równań.
- Podobieństwo:
- wiedza o tym, jakie w analizowanych
występują grupy rekordów podobnych i jak to podobieństwo zależy od
poszczególnych atrybutów, co umożliwia wnioskowanie. Do odkrywania
takiej wiedzy wykorzystuje się metody grupowania.
- Asocjacje:
- wiedza o tym, jakie wartości różnych atrybutów
często współwystępują w danych. Do znajdowania takiej wiedzy służą
algorytmy odkrywania reguł asocjacyjnych.
Dodatkowo do metod odkrywania wiedzy zaliczymy techniki
przekształcania danych, które bezpośrednio nie odkrywają żadnej
wiedzy, ale wspomagają jej odkrywanie za pomocą innych metod, takie
jak dyskretyzacja atrybutów ciągłych i inne przekształcenia atrybutów.
Określanie profilu zachowań klienta
(banku, operatora telekomunikacyjnego) na podstawie jego historii
(transakcji bankowych, połączeń itp.) w celu wykrywania zachowań
podejrzanych.
Określanie, od jakich cech klienta
zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego
produktu w celu bardziej efektywnego adresowania ofert.
Określanie, od jakich cech klienta lub
używanych przez niego produktów zależy lojalność wobec firmy w celu
minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej.
Określanie, jakie grupy
towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej.
Określanie, jak zapotrzebowanie
na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych
(pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej
historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania.
- Cichosz, P. Systemy uczące się. WNT, 2000. (Podrozdziały
10.1, 1.1, 1.2, 1.6.)
- Witten, I. A., Frank, E. Data Mining. Morgan Kaufmann,
2000. (Podrozdziały 1.1, 1.2, 1.3, 1.4, 1.5.)
Metody odkrywania wiedzy: wykład 1
Wprowadzenie
This document was generated using the
LaTeX2HTML translator Version 2K.1beta (1.48)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 -no_navigation mow-w1.tex
The translation was initiated by Pawel Cichosz on 2004-02-12
Pawel Cichosz
2004-02-12