Artyku³y na temat Eksploracji danych, czyli Data Miningu

Ju¿ od zarania dziejów informacja mia³a dla cz³owieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbli¿aj±cych siê stadach dzikich zwierz±t pozwala³a na przygotowanie pu³apek i upolowanie po¿ywienia. To informacja jest podstawowym czynnikiem potrzebnym do kszta³towania czego¶ o bardziej wysublimowanym charakterze – wiedzy.

W dzisiejszym ¶wiecie znaczenie informacji nie tylko siê nie zatar³o, ale siê jeszcze bardziej pog³êbi³o. B³yskawicznie rozwijaj±ce siê ga³êzie nauki, jak telekomunikacja czy informatyka nie tylko u³atwiaj± szybki dostêp do poszukiwanej informacji, ale równie¿ pomagaj± na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilo¶ci informacji wcale jednak bezpo¶rednio nie u³atwiaj± podjêcia trafnej decyzji, poniewa¿ cz³owiek nie jest w stanie ich wszystkich ogarn±æ i wyci±gn±æ sensownych konkluzji. Z pomoc± przychodzi nowa dziedzina nauki: eksploracja danych.

Systemy odkrywaj±ce wiedzê w danych powstawa³y i wci±¿ powstaj± na ca³ym ¶wiecie. Jako, ¿e problem jest pal±cy, potrzebne s± wci±¿ szybsze i dok³adniejsze algorytmy, które poradz± sobie z odnalezieniem nowego rodzaju wiedzy w coraz wiêkszych zbiorach danych. Rozwi±zania, które opisa³em w niniejszej pracy pojawia³y siê i bêd± pojawia³y siê w wielu systemach, zarówno komercyjnych, jak i amatorskich.

£ukasz Go³aszewski, ADAPTACYJNY SKLEP INTERNETOWY

Dodany przez: pukas
Reprezentowanie danych i hipotez.



1. Opis przyk³adów



Za³ó¿my, ¿e chodzi nam o odkrywanie asocjacji w¶ród warto¶ci pewnych atrybutów, wystêpuj±cych w rekordach bazy danych, zwanych w terminologii maszynowego uczenia siê przyk³adami. W przypadku mojej aplikacji (sklep internetowy) du¿o wygodniej jest nie zajmowaæ siê samymi atrybutami, ale konkretnie ich warto¶ciami. W takim rodzaju danych dopuszcza siê wystêpowanie w ka¿dym z przyk³adów mog± wyst±piæ ró¿ne zestawy atrybutów, b±d¼ pojedyncze atrybuty mog± przyjmowaæ nie pojedyncze warto¶ci, ale ca³e zbiory warto¶ci. Tak dzieje sie w przypadku analizowania zakupów poszczególnych klientów w sklepie. Ka¿dy klient mo¿e kupiæ dowoln± ilo¶æ towarów w ramach jednej transakcji. Podczas analizy nale¿y traktowaæ pojedyncz± transakcjê jako ca³o¶æ, niezale¿nie od ilo¶ci zakupionych w ramach niej towarów.

Pomijaj±c sposób organizacji takich danych w relacyjnej bazie danych, mo¿emy przyj±æ, ¿e ka¿dy przyk³ad p jest opisany przez pewien zbiór atrybutów Zp (zbiór warto¶ci), nie interesuj±c siê tym, ile tych atrybutów w istocie jest, ani równie¿ ile ka¿dy z nich mo¿e mieæ warto¶ci. Jako Z oznaczmy zbiór wszystkich warto¶ci, jakie mog± wyst±piæ w ramach rozwa¿anej dziedziny w opisach przyk³adów. Jak wcze¶niej wspomnia³em, bêdziemy rozwa¿aæ przyk³ady nie jako zbiór atrybutów i warto¶ci, ale tylko jako zbiór warto¶ci, eliminuj±c w ten sposób konieczno¶æ zak³adania ilo¶ci atrybutów oraz ile ka¿dy z nich mo¿e mieæ warto¶ci w danym przyk³adzie.



2. Regu³y asocjacyjne

 

Wiedzê o asocjacjach w zbiorze danych zapisujemy za pomoc± regu³ asocjacyjnych. Jak wspomnia³em w poprzednich podrozdzia³ach tej pracy, regu³y przedstawiamy w najbardziej naturalny sposób – za pomoc± logicznej implikacji. Ka¿da regu³a asocjacyjna sk³ada siê z dwóch czê¶ci – dwóch zbiorów warto¶ci: warunkuj±cych i warunkowych. Regu³ê o czê¶ci warunkuj±cej X ⊂ Z i czê¶ci warunkowej Y  Z zapiszemy wiêc w sposób nastêpuj±cy:



X ⇒ Y



i bêdziemy j± interpretowaæ jako stwierdzenie, ¿e warto¶ci atrybutów ze zbioru X czêsto poci±gaj± za sob± warto¶ci atrybutów ze zbioru Y. Inaczej – w wielu przyk³adach, w których wystêpuj± wszystkie warto¶ci zbioru X wystêpuj± równie¿ wszystkie warto¶ci ze zbioru Y.

Okre¶lenie “czêsto” nie jest zbyt precyzyjnym okre¶leniem ilo¶ci powtórzeñ wyst±pieñ zbiorów X i Y w¶ród analizowanego zbioru trenuj±cego. W celu sprecyzowania interpretacji regu³ asocjacyjnych okre¶la siê dla nich wsparcie i zaufanie. Wsparcie jest stosunkiem ilo¶ci wyst±pieñ przyk³adów P, które zawieraj± w ca³o¶ci opisy X oraz Y do ilo¶ci wszystkich przyk³adów P, gdzie P jest dowolnym podzbiorem zawieraj±cym tylko i wy³±cznie przyk³ady Z:



Wsparcie(X ⇒ Y) = |PX∪Y| / |P|



Ka¿da regu³a mo¿e byæ wiêc wspierana, albo naruszana przez przyk³ad. Natomiast zaufanie regu³y w zbiorze P definiuje siê nastêpuj±co:



Zaufanie(X ⇒ Y) = |PX∪Y| / |PX|



czyli jako stosunek liczby przyk³adów ze zbioru P, w których opisach wystêpuj± zarówno opisy X jak i Y do liczby przyk³adów, w których opisach wystêpuj± tylko elementy zbioru X, czyli zbioru warto¶ci warunkuj±cych. Poni¿szy przyk³ad ilustruje wsparcie i zaufanie wybranych regu³ w transakcjach sprzeda¿y sklepu:



transakcja

produkty

1

chleb, mas³o

2

chleb, mas³o, mleko, jab³ka

3

chleb, mleko, jab³ka

4

chleb, mas³o, mleko, jab³ka



regu³a

wspierana

naruszana

chleb AND mleko --> jab³ka

2, 3, 4


chleb --> mas³o

1, 2, 4

3



Zgodnie z definicj± wsparcia i zaufania dla regu³ otrzymujemy nastêpuj±ce wyniki dla analizowanych regu³:



  • chleb AND mleko --> jab³ka wsparcie=75% zaufanie=100%

  • chleb --> mas³o wsparcie=75% zaufanie=75%

Podsumowuj±c, wsparcie mówi, jak czêsto w badanym zbiorze wystêpuje sytuacja opisana przez regu³ê, natomiast zaufanie mówi, jak czêsto sytuacja opisana przez zbiór warto¶ci warunkowych wystêpuje pod warunkiem wyst±pienia sytuacji opisanej przez zbiór warto¶ci warunkuj±cych.



3. Struktury danych dla przechowywania zbiorów

Ka¿dy element nale¿y do jakiego¶ zbioru – w naszym przypadku ka¿da warto¶æ atrybutu nale¿y do danego zbioru warto¶ci. W celu zilustrowania pos³u¿ê siê przyk³adem z poprzednich podrozdzia³ów:



transakcja

produkty

1

chleb, mas³o

2

chleb, mas³o, mleko, jab³ka

3

chleb, mleko, jab³ka

4

chleb, mas³o, mleko, jab³ka


Mamy tu do czynienia z modelem logicznym danych. W polu produkty mami zbiory produktów, które zosta³y zakupione w ramach transakcji zapisanych w polu transakcje, czyli w transakcji numer 2, klient kupi³ chleb, mas³o, mleko, jab³ka. Taki model danych s³u¿y jednak tylko do teoretycznych rozwa¿añ i nie nadaje siê do analizy. W praktyce dane o sprzeda¿y (jak i wszelkie inne) zwykle zapisuje siê w relacyjnych bazach danych. Przekszta³cenie modelu logicznego na model relacyjny przedstawia siê nastêpuj±co:

transakcja

produkt

1

chleb

1

mas³o

2

chleb

2

mas³o

2

mleko

2

jab³ka

3

chleb

3

mleko

3

jab³ka

4

chleb

4

mas³o

4

mleko

4

jab³ka

Widzimy wiêc istotn± ró¿nicê, gdy¿ w modelu relacyjnym jeden zbiór warto¶ci zapisany jest w kilku rekordach (tylu, ile elementów liczy dany zbiór), natomiast w modelu logicznym do zapisania jednego zbioru warto¶ci wystarcza³ jeden rekord.



4. Struktury danych dla przechowywania regu³



Podobnie jak zbiory warto¶ci, równie¿ regu³y asocjacyjne musimy zapisaæ w modelu relacyjnym. Poni¿szy przyk³ad ilustruje sposób zapisu regu³ w logicznym i relacyjnym modelu danych.



Model logiczny:



  • chleb AND mleko --> jab³ka wsparcie=75% zaufanie=100%

  • chleb --> mas³o wsparcie=75% zaufanie=75%



Model relacyjny:

ERD

Przyk³adowe dane w modelu relacyjnym dla przechowywania regu³:



tabela regu³y

id_regu³a

wsparcie

zaufanie

1

0.75

1

2

0.75

0.75




tabela elementy_regu³

id_element

id_regu³a

warto¶æ

typ

1

1

chleb

body

2

1

mleko

body

3

1

jab³ka

head

4

2

chleb

body

5

2

mas³o

head



Zobacz te¿ inne materia³y

Eksploracja danych - data mining
Systemy ucz±ce siê
Reprezentowanie wiedzy
Problemy zwi±zane z analiz± rzeczywistych danych - du¿e zbiory danych
Problemy zwi±zane z analiz± rzeczywistych danych - liczne atrybuty
Problemy zwi±zane z analiz± rzeczywistych danych - niekompletne dane
Problemy zwi±zane z analiz± rzeczywistych danych - niepoprawne dane
Regu³y asocjacyjne - istota asocjacji
Generowanie regu³ asocjacyjnych

Powi±zane kategorie

Eksploracja danych - data mining

Komentarze

  • Brak komentarzy

Dodaj komentarz

Aby dodawaæ komentarze, zaloguj siê.
Nie masz jeszcze swojego konta na Wyk³ady.org? Zarejestruj siê!.
Google
 

Wyk³ady.org to serwis kierowany do studentów i uczniów szkó³ ¶rednich. Na stronach serwisu znajdziesz wiele materia³ów z wyk³adów oraz opracowania lektur i przyk³adowe prace maturalne. Dowiedz siê wiêcej.

Zapraszamy wszystkie osoby chêtne do wspó³pracy przy tworzeniu tego serwisu. Je¿eli posiadasz jakie¶ ciekawe materia³y lub opracowania swojego autorstwa i nie ³ami±ce praw autorskich i chcesz podzieliæ siê nimi z innymi uczniami lub studentami, napisz do nas - opublikujemy Twoje prace w tym serwisie!

Rejestracja

Chcesz mieæ mo¿liwo¶æ wp³ywania na kszta³t portalu Wyk³ady.org? Zarejestruj siê i pisz, komentuj, oceniaj, bierz udzia³ w konkursach i wygrywaj nagrody!