Śledź nas na:



Reguły asocjacyjne - reprezentowanie danych i hipotez

Reprezentowanie danych i hipotez.

1. Opis przykładów


Załóżmy, że chodzi nam o odkrywanie asocjacji wśród wartości pewnych atrybutów, występujących w rekordach bazy danych, zwanych w terminologii maszynowego uczenia się przykładami. W przypadku mojej aplikacji (sklep internetowy) dużo wygodniej jest nie zajmować się samymi atrybutami, ale konkretnie ich wartościami. W takim rodzaju danych dopuszcza się występowanie w każdym z przykładów mogą wystąpić różne zestawy atrybutów, bądź pojedyncze atrybuty mogą przyjmować nie pojedyncze wartości, ale całe zbiory wartości. Tak dzieje sie w przypadku analizowania zakupów poszczególnych klientów w sklepie. Każdy klient może kupić dowolną ilość towarów w ramach jednej transakcji. Podczas analizy należy traktować pojedynczą transakcję jako całość, niezależnie od ilości zakupionych w ramach niej towarów.

Pomijając sposób organizacji takich danych w relacyjnej bazie danych, możemy przyjąć, że każdy przykład p jest opisany przez pewien zbiór atrybutów Zp (zbiór wartości), nie interesując się tym, ile tych atrybutów w istocie jest, ani również ile każdy z nich może mieć wartości. Jako Z oznaczmy zbiór wszystkich wartości, jakie mogą wystąpić w ramach rozważanej dziedziny w opisach przykładów. Jak wcześniej wspomniałem, będziemy rozważać przykłady nie jako zbiór atrybutów i wartości, ale tylko jako zbiór wartości, eliminując w ten sposób konieczność zakładania ilości atrybutów oraz ile każdy z nich może mieć wartości w danym przykładzie.


2. Reguły asocjacyjne

 

Wiedzę o asocjacjach w zbiorze danych zapisujemy za pomocą reguł asocjacyjnych. Jak wspomniałem w poprzednich podrozdziałach tej pracy, reguły przedstawiamy w najbardziej naturalny sposób – za pomocą logicznej implikacji. Każda reguła asocjacyjna składa się z dwóch części – dwóch zbiorów wartości: warunkujących i warunkowych. Regułę o części warunkującej X ⊂ Z i części warunkowej Y ? Z zapiszemy więc w sposób następujący:


X ⇒ Y


i będziemy ją interpretować jako stwierdzenie, że wartości atrybutów ze zbioru X często pociągają za sobą wartości atrybutów ze zbioru Y. Inaczej – w wielu przykładach, w których występują wszystkie wartości zbioru X występują również wszystkie wartości ze zbioru Y.



Zobacz także