Uczenie się maszyn: wykład 15
Ćwiczenia
Paweł Cichosz
Date: Semestr zimowy 1997/98
Aby umożliwić weryfikację zrozumienia i utrwalenie materiału
przedstawionego na wszystkich dotychczasowych wykładach, a także
ułatwić przygotowanie do kolokwium, proponuję do rozważenia podane
niżej ćwiczenia. Są one w większości dość proste i, być może z małymi
wyjątkami, nie zanadto pracochłonne. Uporządkowane zostały w
przybliżeniu w kolejności wykładów, których dotyczą, chociaż niektóre
wymagają połączenia wiadomości z różnych wykładów. Przy okazji warto
też przejrzeć ponownie notatki, gdyż co najmniej kilkakrotnie znalazły
się tam sugestie problemów do przemyślenia. Niektóre z nich powtórzono
poniżej, ale prawdopodobnie nie wszystkie.
Spora część podanych ćwiczeń zakłada, że dany jest pewien problem
indukcyjnego uczenia się pojęć (tj. dziedzina, atrybuty, klasa pojęć
i hipotez) oraz zbiór danych (najczęściej zbiór trenujący do śledzenia
działania różnych algorytmów). Przyjmujemy tu dla wygody, że zawsze
chodzi o dziedzinę określoną w przykładzie o klasyfikowaniu pogody i
podany dla niego zbiór trenujący (niekiedy ograniczamy go do kilku
wybranych przykładów), zaś przyjęta przestrzeń hipotez jest podawana
treści ćwiczenia lub wynika z algorytmu, którego dotyczy ćwiczenie.
Jeśli ćwiczenia tego typu pojawią się na kolokwium, będą dotyczyć
oczywiście innej dziedziny i innego zbioru danych.
Kilka ćwiczeń polega na zaproponowaniu pewnych algorytmów lub szkiców
algorytmów, będących modyfikacjami lub rozszerzeniami algorytmów
omawianych na wykładzie. Chodzi o raczej proste pomysły i ich
umiejętne, lecz niekoniecznie bardzo szczegółowe sformułowanie.
- Czy klasa pojęć reprezentowanych jako prostokąty w
o bokach równoległych do osi układu współrzędnych
jest PAC-nauczalna za pomocą przestrzeni hipotez reprezentowanych
jako kwadraty w
o bokach równoległych do osi układu
współrzędnych? Uzasadnić.
- Rozważmy dziedzinę i atrybuty jak dla pogody. Niech
będzie przestrzenią hipotez reprezentowanych przez wszystkie
(syntaktycznie) poprawne różne drzewa decyzyjne dla tych atrybutów.
Ile przykładów trenujących wystarczy, aby dowolny spójny algorytm
uczący się nauczył się dowolnego pojęcia
z prawdopodobieństwem co najmniej
hipotezy o błędzie
rzeczywistym nie przekraczającym
?
- Wskazówka:
- Zaproponować sensowne (ale niekoniecznie bardzo
ścisłe) górne ograniczenie na liczbę różnych hipotez.
- Rozważmy dziedzinę i atrybuty jak dla pogody. Niech
będzie przestrzenią hipotez reprezentowanych przez wszystkie różne
kompleksy selektorów pojedynczych, pustych i uniwersalnych dla tych
atrybutów. Ile przykładów trenujących wystarczy, aby dowolny spójny
algorytm uczący się nauczył się dowolnego pojęcia
z prawdopodobieństwem co najmniej
hipotezy o błędzie rzeczywistym nie przekraczającym
? Jak zmieni się oszacowanie, jeśli dopuścimy selektory
dysjunkcyjne w hipotezach?
- Zaproponować spójny algorytm uczący się koniunkcji literałów
boolowskich dla
zmiennych działający w czasie wielomianowym
względem
.
- Podać wymiar VC dla przestrzeni hipotez reprezentowanych przez
koniunkcje literałów boolowskich dla
zmiennych.
- Udowodnić, że jeśli
i
są odpowiednio szczegółowym i
ogólnym ograniczeniem przestrzeni wersji
, to
wtedy i tylko wtedy, gdy
.
- Przyjmując dziedzinę i atrybuty jak dla pogody oraz przestrzeń
hipotez
reprezentowanych jako kompleksy selektorów
(pojedynczych, pustych lub uniwersalnych), podać liczbę hipotez w
przestrzeni wersji
dla zbioru
i
pojęcia
określonych przez pierwsze cztery przykłady trenujące
dla pogody.
- Prześledzić działanie algorytmu CAE (podając zbiory
i
po
rozpatrzeniu kolejnych przykładów) dla zbioru trenującego
składającego się z przykładów 1, 3, 6 i 7 ze zbioru danych dla
pogody.
- Dla dziedziny i atrybutów jak dla pogody oraz przestrzeni
hipotez reprezentowanych jako kompleksy selektorów (pojedynczych,
pustych lub uniwersalnych) dane są zbiory
i
.
Załóżmy, że nauczyciel proponuje uczniowi wykorzystującemu algorytm
CAE ujawnienie kategorii jednego z przykładów 1, 7, 13. Który z nich
powinien wybrać uczeń dążący do uzyskania jak najszybszej
zbieżności?
- Wskazówka:
- Zakładając, że każdy z podanych trzech przykładów
może z jednakowym prawdopodobieństwem być pozytywny lub negatywny,
określić oczekiwaną redukcję rozmiaru przestrzeni wersji dla
każdego z nich.
- Dla dziedziny i atrybutów jak dla pogody oraz przestrzeni
hipotez reprezentowanej przez drzewa decyzyjne, podać które z
podanych poniżej hipotez są porównywalne i w jaki sposób za pomocą
relacji większej/mniejszej szczegółowości:
:
-
- outlook
- = sunny
yes
- outlook
- = overcast
no
- outlook
- = rain
no
:
-
- outlook
- = sunny
- wind
- = weak
no
- wind
- = strong
yes
- outlook
- = overcast
- humidity
- = normal
yes
- humidity
- = high
no
- outlook
- = rain
no
:
-
- wind
- = weak
- outlook
- = sunny
yes
- outlook
- = overcast
yes
- outlook
- = rain
no
- wind
- = strong
- outlook
- = sunny
yes
- outlook
- = overcast
no
- outlook
- = rain
no
:
-
- wind
- = weak
no
- wind
- = strong
- outlook
- = sunny
yes
- outlook
- = overcast
no
- outlook
- = rain
no
- Dla dziedziny i atrybutów jak dla pogody oraz zbioru trenującego
składającego się z przykładów o numerach parzystych, dane jest
następujące drzewo decyzyjne w trakcie budowy:
- outlook
- = sunny
no
- outlook
- = overcast
yes
- outlook
- = rain
- *
-
Jaki test zostanie wybrany dla węzła oznaczonego gwiazdką?
- Przyjmując dziedzinę i atrybuty jak dla pogody, podać drzewo
decyzyjne równoważne następującemu zbiorowi reguł:
IF
THEN
,
IF
THEN
,
IF
THEN
.
- Przyjmując dziedzinę i atrybuty jak dla pogody, podać dowolny
zbiór trenujący, dla którego algorytm ID3 (uczący się dokładnych
drzew na podstawie całego zbioru trenującego) wygenerowałby
następujące drzewo decyzyjne:
- outlook
- = sunny
- wind
- = weak
no
- wind
- = strong
yes
- outlook
- = overcast
- humidity
- = normal
yes
- humidity
- = high
no
- outlook
- = rain
no
- Zaproponować algorytm konstruowania drzew decyzyjnych, który
otrzymuje jako parametr maksymalną liczbę węzłów w drzewie i
konstruuje możliwie jak najlepsze drzewo przy uwzględnieniu tego
ograniczenia.
- Przyjmując dziedzinę i atrybuty jak dla pogody oraz zbiór
trenujący złożony z przykładów o numerach parzystych, podać błąd
próbki algorytmu AQ (uczącego się reguł dla kategorii yes)
dla zbioru złożonego z przykładów o numerach nieparzystych.
Parametry algorytmu:
, heurystyka oceniająca kompleksy według
łącznej liczby pokrywanych przykładów trenujących o kategorii
zgodnej z kategorią ziarna i niepokrywanych przykładów trenujących o
kategorii różnej od kategorii ziarna (w przypadku równych ocen
rozstrzyga mniejsza liczba występujących wartości atrybutów, a gdyby
i te były równe -- kolejność), ziarna wybierane ze zbioru
trenującego w kolejności numerów przykładów.
- Załóżmy, że atrybut temperature występujący w zbiorze
danych dla pogody ma wartości ciągłe, dla kolejnych przykładów
zbioru trenującego złożonego tylko z przykładów o numerach
parzystych równe odpowiednio
,
,
,
,
,
,
. Które dwa z czterech przedziałów:
,
,
,
zostałyby połączone przez algorytm
ChiMerge?
- Dane jest następujące drzewo grupowania utworzone przez system
COBWEB po przetworzeniu przykładów 1-5 dla pogody:
-
Która z następujących decyzji dotyczących przykładu 6 na poziomie 1
drzewa da w efekcie lepszą jakość grupowania: utworzenie dla niego
nowego węzła, czy dołączenie go do węzła zawierającego przykład 5?
- Zaproponować sposób wykorzystania algorytmu COBWEB do uczenia
się z nadzorem pewnego pojęcia docelowego.
- Przyjmijmy dziedzinę i atrybuty jak dla pogody oraz zbiór
trenujący złożony z przykładów o numerach parzystych. Niech
przestrzeń hipotez składa się wyłącznie z hipotez reprezentowanych
przez kompleksy atomowe dla selektorów pojedynczych oraz kompleks
sprzeczny i uniwersalny. Które z przykładów 1, 3, 5 naiwny
klasyfikator bayesowski zaklasyfikuje inaczej, niż optymalny
klasyfikator bayesowski (przy założeniu, że w przypadku jednakowego
prawdopodobieństwa kategorii 0 i
wybiera on 0) oraz hipoteza
MAP (pierwsza leksykograficznie, jeśli jest ich wiele) dla tej
przestrzeni hipotez? Przyjąć, że wszystkie hipotezy są jednakowo
prawdopodobne a priori. Prawdopodobieństwa szacowane na
podstawie zbioru trenującego jako 0 zastąpić w obliczeniach przez
.
- Przyjmując dziedzinę i atrybuty jak dla pogody oraz zbiór
trenujący złożony z przykładów o numerach parzystych, podać błąd
próbki naiwnego klasyfikatora bayesowskiego dla zbioru przykładów o
numerach nieparzystych.
- Zaproponować sposób wykorzystania naiwnego klasyfikatora
bayesowskiego dla dziedzin charakteryzowanych za pomocą atrybutów
ciągłych.
- Zaproponować sposób wykorzystania zasady minimalnej długości
kodu do grupowania pojęciowego podając odpowiedni schemat obliczania
długości kodu.
- Zaproponować sposób wykorzystania zasady minimalnej długości
kodu do dyskretyzacji atrybutów ciągłych podając odpowiedni schemat
obliczania długości kodu.
- Zaproponować sposób wykorzystania zasady minimalnej długości
kodu do oceny jakości kompleksów podczas indukcji reguł podając
odpowiedni schemat obliczania długości kodu.
- Dany jest zbiór wartości zmiennych
i
:
Odkryć równanie
.
- Dane jest pojęcie
,
interpretowane jako stwierdzenie, że
może dostać w swoim banku
kredyt konsumpcyjny na sumę
, oraz następująca teoria dziedziny:
-
,
-
,
-
,
-
,
-
,
-
.
Wyjaśnić przykład pozytywny:
-
,
-
,
-
,
-
,
-
i uogólnić uzyskane wyjaśnienie.
- Prześledzić działanie algorytmu L* uczącego się automatu z
alfabetem wejściowym
rozpoznającego wszystkie napisy
zaczynające się od
i kończącego się na
.
- Rozważmy środowisko siatki
z przykładu podanego na
wykładzie 12 dla
i
. Dla jakich
strategia
:
jest lepsza, niż strategia
:
- Dla środowiska z poprzedniego ćwiczenia i
podać
i
dla
i
.
- Zaproponować algorytm uczenia się ze wzmocnieniem, który uczy
się
-funkcji względem aktualnej strategii reprezentowanej za
pomocą funkcji strategii
, jednocześnie modyfikowanej, podobnie
jak w algorytmie AHC, i uzasadnić, dlaczego można mieć nadzieję na
to (chociaż raczej trudno byłoby to udowodnić), że algorytm ten
będzie uczyć się strategii optymalnej.
- W trakcie wartościowania strategii za pomocą algorytmu
TD
odwiedzono kolejno stany
, uzyskując
odpowiednio nagrody
. Przyjmując, że wszystkie
odwiedzone stany są różne, wyrazić sumę błędów, za pomocą których
aktualizowana będzie wartość stanu
, w zależności (tylko) od
oraz
i
dla
(tj. bez
odwoływania się do śladów aktywności ani
).
- Rozważmy algorytm TD
stosowany do wartościowania strategii.
W kroku
następuje aktualizacja wartości
na
podstawie wartości
. Ale w kolejnym kroku
z kolei
wartość
jest aktualizowana i staje się przypuszczalnie
dokładniejsza, można więc poprzednią aktualizację
powtórzyć używając nowej wartości
. Zaproponować oparty na
tym pomyśle algorytm powtarzanego TD
, w którym po każdej
,,normalnej'' aktualizacji dla
w kroku
wykonuje się
,,powtórzone'' aktualizacje kolejno dla
dla
, czyli łącznie
aktualizacji w każdym kroku. Czy taki algorytm może mieć jakieś
zalety?
- Dla algorytmu z poprzedniego ćwiczenia z
podać ostateczną
wartość
po przetworzeniu ciągu stanów
i
odpowiednich nagród
, przyjmując początkowo
i tablicową reprezentację funkcji.
- Rozważyć możliwość wykorzystania pewnej formy śladów aktywności
do przyspieszenia uczenia się algorytmu brygady kubełkowej, biorąc
pod uwagę jego podobieństwo do algorytmu TD
.
- Które spośród omawianych na wszystkich wykładach algorytmów i do
rozwiązania jakich problemów mogłyby się przydać konstruktorowi
mobilnego robota?
- Które spośród omawianych na wszystkich wykładach algorytmów i do
rozwiązania jakich problemów mogłyby się przydać twórcy programu
grającego w grę planszową?
Uczenie się maszyn: wykład 15
Ćwiczenia
This document was generated using the
LaTeX2HTML translator Version 2K.1beta (1.48)
Copyright © 1993, 1994, 1995, 1996,
Nikos Drakos,
Computer Based Learning Unit, University of Leeds.
Copyright © 1997, 1998, 1999,
Ross Moore,
Mathematics Department, Macquarie University, Sydney.
The command line arguments were:
latex2html -split 0 -no_navigation wyklad15.tex
The translation was initiated by Pawel Cichosz on 2004-03-01
Pawel Cichosz
2004-03-01