Metody odkrywania wiedzy: wykład 1
Wprowadzenie

Paweł Cichosz


Date: 2001/2002

Wykład wprowadza w dziedzinę odkrywania wiedzy i ma na celu dać wstępne wyobrażenie o tym, o czym będzie mowa na kolejnych wykładach.

Informacje organizacyjne

  1. Konsultacje: czwartek 12-13 z możliwością przedłużenia (pokój 231).
  2. Praca domowa: dwa indywidualne zadania w ciągu semestru, polegające na przeprowadzeniu eksperymentów z wykorzystaniem biblioteki metod odkrywania wiedzy Weka.
  3. Projekt: jedno zespołowe (2-3 osoby) zadanie w ciągu semestru polegające na implementacji i eksperymentowaniu z metodami odkrywania wiedzy.
  4. Literatura uzupełniająca: polecana indywidualnie do każdego wykładu.
  5. Zasady oceniania: 40% egzamin, 40% projekt, 20% praca domowa.

Zadanie odkrywania wiedzy

  1. Na podstawie analizy dostępnych danych odkryć występujące w nich regularności.
  2. Dane -- zazwyczaj z bazy danych, w postaci zbioru rekordów charakteryzowanych przez pewne atrybuty.
  3. Regularności mogą polegać na zależności pewnych atrybutów od innych lub korelacji występujących między atrybutami (w szczególności współwystępowaniu pewnych wartości atrybutów).
  4. Takie regularności mogą występować nie tylko dla atrybutów pierwotnie występujących w danych, lecz także dla nowych atrybutów zdefiniowanych w procesie odkrywania (np. atrybutach agregujących pewne pierwotne atrybuty).
  5. Odkryte regularności muszą być statystycznie istotne (zweryfikowane przez odpowiednie testy statystyczne).
  6. Odkryte regularności muszą być interesujące, przydatne dla posiadacza danych (np. dotyczyć interesujących atrybutów).
  7. Odkryte regularności należy sformułować w postaci umożliwiającej ich wykorzystanie do wnioskowania przez człowieka lub automatycznego, przy czym w każdym przypadku pożądane jest zapisanie ich postaci czytelnej dla człowieka i poddanie ich jego ocenie.

Metody odkrywania wiedzy

Metody odkrywania wiedzy wywodzą się z dwóch pni: statystyki i maszynowego uczenia się. W maksymalnym uproszczeniu: wybrane algorytmy uczenia się są używane do znalezienia regularności w danych i zapisania ich w odpowiedniej postaci, a narzędzia statystyczne służą do weryfikacji ich jakości. Często powiązania uczenia się i statystyki w metodach odkrywania wiedzy są jednak bardziej złożone: praktyczne algorytmy odkrywania wiedzy w wielu przypadkach są algorytmami uczenia się lub algorytmami wywodzącymi się z nich, wykorzystującymi w swoim działaniu techniki statystyczne. Z implementacyjnego punktu widzenia metody odkrywania wiedzy uwzględniać muszą ponadto zagadnienia efektywnej komunikacji z bazą danych, wizualizacji odkrywanej wiedzy i interakcji z analitykiem danych.

Odkrywanie wiedzy a uczenie się

Odkrywanie regularności w danych można potraktować jako uczenie się na podstawie tych danych. Wynikiem uczenia się jest wiedza, która stanowi uogólnienie danych będących jej podstawą. Uczenie się polegające na analizowaniu i uogólnianiu danych jest nazywane indukcyjnym uczeniem się.

Do odkrywania wiedzy wykorzystuje się algorytmy uczenia się, które zostały pierwotnie opracowane bez uwzględniania praktycznych wymogów, jakie występują przy odkrywaniu wiedzy w danych. Dotyczy to przede wszystkich cech rzeczywistych zbiorów danych, takich jak duży rozmiar, zaszumienie, niekompletność, występowanie atrybutów różnych typów, występowanie atrybutów. Rozwój dziedziny odkrywania wiedzy w ciągu ostatniej dekady doprowadził do opracowania odpowiednio ,,wzmocnionych'' wersji znanych wcześniej algorytmów, radzących sobie z rzeczywistymi danymi i spełniających praktyczne wymogi efektywności obliczeniowej. Jednocześnie powstały nowe algorytmy przeznaczone do odkrywania innych rodzajów regularności w danych, którymi nie zajmowano się wcześniej w ramach badań nad maszynowym uczeniem się.

Odkrywanie wiedzy jako proces interaktywny

Odkrywanie wiedzy jest procesem wymagającym udziału doświadczonego analityka -- niestety, nie istnieją narzędzia, które po wskazaniu źródła danych automatycznie wygenerowałyby wiedzę spełniającą oczekiwania (przydatną, interesującą, statystycznie istotną i zapisaną w odpowiedniej postaci). Najczęściej istnieje konieczność zastosowania jednego lub większej liczby narzędzi w sposób interaktywny. W takim procesie analityk zazwyczaj zmienia różne parametry używanych algorytmów, określa, które atrybuty mają być uwzględnione, modyfikuje atrybuty, dodaje nowe atrybuty określając ich definicje w zależności od pierwotnych atrybutów, odrzuca część rekordów, wybiera próbki z danych itd. Uzyskanie zadowalających efektów może wymagać wiele wysiłku i pomysłowości, czego nawet najbardziej wyrafinowane narzędzia nie zastąpią. Z drugiej strony, nawet prosty pakiet statystyczny czy arkusz kalkulacyjny może być cennym narzędziem w rękach dobrego analityka. W związku z tym na metody odkrywania wiedzy należy patrzeć z pewnym dystansem: nie dają one najczęściej w automatyczny sposób dobrych efektów, a tylko pomagają je uzyskać.

Rodzaje metod odkrywania wiedzy

Wygodnie jest podzielić metody odkrywania wiedzy na rodzaje odpowiadające rodzajom wiedzy, jakiej odkrywaniu służą.

Klasyfikacja:
wiedza o tym, jak przynależność do pewnych kategorii (klas) zależy od atrybutów. Metody odkrywania takiej wiedzy wywodzą się algorytmów uczenia się pojęć (drzewa decyzyjne, reguły, klasyfikacja bayesowska). W praktyce wybrany atrybut reprezentuje kategorie.
Aproksymacja:
wiedza o tym, jak wartość pewnej funkcji rzeczywistoliczbowej zależy od atrybutów. Metody odkrywania odkrywania takiej wiedzy wywodzą się z algorytmów uczenia się aproksymacji (m.in. sieci neuronowe) i statystycznych metod regresji. W praktyce wybrany atrybut reprezentuje wartości funkcji.
Zależności przyczynowe:
wiedza o tym, jakie zależności przyczynowe występują między różnymi atrybutami. Jest to w pewnym sensie uogólnienie klasyfikacji na dowolną liczbę atrybutów zależnych, która dotyczy zależności jednego atrybutu (kategorii) od innych. Metody odkrywania takiej wiedzy wykorzystują probabilistyczne algorytmy uczenia się w sieciach bayesowskich.
Zależności funkcyjne:
wiedza o tym, jakimi wzorami najlepiej wyrażają się zależności występujące między atrybutami o wartościach liczbowych. Jest to w pewnym sensie uogólnienie aproksymacji na dowolną liczbę atrybutów zależnych z dodatkowym wymogiem, aby zależność była wyrażona za pomocą formuły algebraicznej. Do znajdowania takich zależności wykorzystuje się metody odkrywania równań.
Podobieństwo:
wiedza o tym, jakie w analizowanych występują grupy rekordów podobnych i jak to podobieństwo zależy od poszczególnych atrybutów, co umożliwia wnioskowanie. Do odkrywania takiej wiedzy wykorzystuje się metody grupowania.
Asocjacje:
wiedza o tym, jakie wartości różnych atrybutów często współwystępują w danych. Do znajdowania takiej wiedzy służą algorytmy odkrywania reguł asocjacyjnych.

Dodatkowo do metod odkrywania wiedzy zaliczymy techniki przekształcania danych, które bezpośrednio nie odkrywają żadnej wiedzy, ale wspomagają jej odkrywanie za pomocą innych metod, takie jak dyskretyzacja atrybutów ciągłych i inne przekształcenia atrybutów.

Przykładowe zastosowania

Profilowanie klientów.

Określanie profilu zachowań klienta (banku, operatora telekomunikacyjnego) na podstawie jego historii (transakcji bankowych, połączeń itp.) w celu wykrywania zachowań podejrzanych.

Adresowanie ofert.

Określanie, od jakich cech klienta zależy prawdopodobieństwo jego pozytywnej odpowiedzi na ofertę nowego produktu w celu bardziej efektywnego adresowania ofert.

Lojalność klientów.

Określanie, od jakich cech klienta lub używanych przez niego produktów zależy lojalność wobec firmy w celu minimalizacji prawdopodobieństwa przejścia do firmy konkurencyjnej.

Analiza koszyka sklepowego.

Określanie, jakie grupy towarów są często kupowane łącznie lub w bliskiej sekwencji czasowej.

Przewidywanie obciążenia.

Określanie, jak zapotrzebowanie na dostawy (energii, surowca itp.) zależy od czynników zewnętrznych (pora roku, miesiąca, tygodnia, dnia, pogoda itp.) i ostatniej historii zapotrzebowania, w celu przewidywania przyszłego zapotrzebowania.

Literatura

  1. Cichosz, P. Systemy uczące się. WNT, 2000. (Podrozdziały 10.1, 1.1, 1.2, 1.6.)
  2. Witten, I. A., Frank, E. Data Mining. Morgan Kaufmann, 2000. (Podrozdziały 1.1, 1.2, 1.3, 1.4, 1.5.)

About this document ...

Metody odkrywania wiedzy: wykład 1
Wprowadzenie

This document was generated using the LaTeX2HTML translator Version 2K.1beta (1.48)

Copyright © 1993, 1994, 1995, 1996, Nikos Drakos, Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999, Ross Moore, Mathematics Department, Macquarie University, Sydney.

The command line arguments were:
latex2html -split 0 -no_navigation mow-w1.tex

The translation was initiated by Pawel Cichosz on 2004-02-12


Pawel Cichosz 2004-02-12