To jest strona domowa przedmiotu Metody odkrywania wiedzy z klasy tematycznej PZ-I. W ciągu semestru, w którym przedmiot jest uruchomiony, pojawiać się tu mogą bieżące komunikaty organizacyjne, więc warto od czasu do czasu zajrzeć. Ponadto dostępne są notatki do wykładów oraz informacje o projekcie.
Komentarze na temat zawartości tej strony i inne uwagi dotyczące przedmiotu proszę kierować pocztą.
Przedmiot ma na celu przedstawić najważniejsze algorytmy używane do odkrywania wiedzy w danych. Jest to dziedzina najbardziej znana pod hasłami data mining i knowledge discovery (niektórzy rozróżniają zakresy tych dwóch terminów, ale dla nas nie będzie to istotne). Chodzi w niej o wydobycie z posiadanych danych istotnych, interesujących i przydatnych zależności, które umożliwiają jakiś rodzaj wnioskowania i dają szansę na poprawienie strategii działania posiadacza tych danych. Typowe przykłady praktycznych zastosowań odkrywania wiedzy to np.:
Ostatnio popularne stały się też zagadnienia tzw. text mining, w których chodzi głównie o klasyfikację lub grupowanie dokumentów tekstowych, np. na potrzeby publicznych lub korporacyjnych portali internetowych/intranetowych.
Na wykładzie nie będą analizowane takie konkretne zastosowania, lecz będą omawiane podstawowe metody, jakich się w nich używa. Wywodzą się one głównie z dwóch dziedzin nauki: maszynowego uczenia się i statystyki. Wynika stąd częściowe podobieństwo przedmiotu Metody odkrywania wiedzy do innego przedmiotu, Uczenie się maszyn. Bardziej szczegółowe informacje zawiera oficjalny konspekt przedmiotu. Jest tam plan wykładów, chociaż zdarzają się odstępstwa od niego związane z ewolucją przedmiotu.
Dostępna jest już aktualna oferta tematów projektów.
Przedmiot jest realizowany po raz kolejny w semestrze zimowym 2011. Wykłady odbywają się w czwartki w godzinach 10-12 w sali 04B. Formalne zajęcia projektowe nie odbywają się -- realizacja projektu następuje samodzielnie w zespołach projektowych z możliwością korzystania z konsultacji (czwartek 8.45-10.10, pok. 215).
Na ocenę z przedmiotu składają się dwa elementy:
W przypadku doktorantów stosowany jest inny elastyczny system oceniania.
Proszę o zapoznanie się z zasadami i zgłoszenia zespołów z wybranymi tematami pocztą elektroniczną.
W obecnym semestrze projekt prowadzą:
Notatki dostępne są do przeglądania w formacie HTML (z osadzonymi
obrazkami dla symboli matematycznych) i
do ściągnięcia w postscripcie (pliki skompresowane za pomocą
programu gzip). Ponieważ przedmiot cały czas ewoluuje,
faktyczny układ i zakres materiału przedstawianego obecnie na wykładzie
odbiega od zawartości notatek, lecz wciąż obejmują one znaczną część
omawianych zagadnień.
Do niektórych zagadnień omawianych na wykładzie zamierzam tu przedstawiać proste demonstracje w języku R, które mogą być punktem wyjścia do samodzielnego eksperymentowania. Zachęcam do prześledzenia i rozwinięcia tych przykładów, a w szczególności do zapoznania się z używanymi funkcjami i znaczeniem ich argumentów oraz zrozumienia stosowanych niekiedy prostych idiomów języka R, co może istotnie przyspieszyć oswajanie się z tym środowiskiem i ułatwić pracę nad projektem. Będę oczywiście wdzięczny za wytknięcie błędów, gdyby takie się tu wkradły. Numeracja przykładów jest wyłącznie orientacyjna i nie musi ściśle odpowiadać faktycznej kolejności wykładów.
Najbardziej obszernym materiałem pomocniczym do wykładu dostępnym w języku polskim pozostaje wciąż moja pod wieloma względami niedoskonała książka. Polecam ją jednak tylko osobom szczególnie zainteresowanym przedstawianą tematyką, które poszukują bardziej wnikliwej dyskusji zagadnień z wykłady, przy zachowaniu podobnego ujęcia oraz konwencji terminologicznych i notacyjnych.