Artykuły na temat Eksploracji danych, czyli Data Miningu
Już od zarania dziejów informacja miała dla człowieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbliżających się stadach dzikich zwierząt pozwalała na przygotowanie pułapek i upolowanie pożywienia. To informacja jest podstawowym czynnikiem potrzebnym do kształtowania czegoś o bardziej wysublimowanym charakterze – wiedzy.
W dzisiejszym świecie znaczenie informacji nie tylko się nie zatarło, ale się jeszcze bardziej pogłębiło. Błyskawicznie rozwijające się gałęzie nauki, jak telekomunikacja czy informatyka nie tylko ułatwiają szybki dostęp do poszukiwanej informacji, ale również pomagają na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilości informacji wcale jednak bezpośrednio nie ułatwiają podjęcia trafnej decyzji, ponieważ człowiek nie jest w stanie ich wszystkich ogarnąć i wyciągnąć sensownych konkluzji. Z pomocą przychodzi nowa dziedzina nauki: eksploracja danych.
Systemy odkrywające wiedzę w danych powstawały i wciąż powstają na całym świecie. Jako, że problem jest palący, potrzebne są wciąż szybsze i dokładniejsze algorytmy, które poradzą sobie z odnalezieniem nowego rodzaju wiedzy w coraz większych zbiorach danych. Rozwiązania, które opisałem w niniejszej pracy pojawiały się i będą pojawiały się w wielu systemach, zarówno komercyjnych, jak i amatorskich.
Łukasz Gołaszewski, ADAPTACYJNY SKLEP INTERNETOWY
+ Zapis i interpretacja reguł
+ Interpretacja zbioru reguł
Reguły indukcyjne
Reguła indukcyjna jest najbardziej naturalnym sposobem reprezentowania wiedzy. Poprzez regułę rozumiemy zwykłą logiczną implikację postaci: jeżeli przesłanki to konkluzja lub jeżeli warunki to decyzja, np. jeżeli Jasio z Olsztyna kupił motor i Stasio z Olsztyna kupił motor, to prawdopodobnie Kazio z Olsztyna również kupi motor.
Można wykorzystać reguły do zapisu wiedzy dotyczącej klasyfikacji, czyli indukcyjnego uczenia się pojęć. Część przesłankowa (warunkująca) opisuje wówczas warunki dotyczące atrybutów klasyfikowanego pojęcia, natomiast konkluzją (część warunkowa) będzie odpowiednia kategoria, do której dodamy klasyfikowany przykład. My natomiast skupimy się bardziej na wykorzystaniu reguł do reprezentacji wiedzy dotyczącej asocjacji, czyli uczenia się, jakie atrybuty najczęściej występują razem. Część przesłankowa opisuje tutaj warunki dotyczące wartości atrybutów sprawdzanego rekordu, natomiast wnioskiem będzie wartość atrybutu, który najprawdopodobniej wystąpi wraz z badanymi. Przy pomocy takich reguł możemy sprawdzić poprawność zbioru wartości atrybutów, uzupełnić lub przewidzieć przyszłe wartości atrybutów. Właśnie mechanizm przewidywania przyszłych wartości atrybutów zastosowałem w swojej aplikacji, która na podstawie zgromadzonej wiedzy stara się przewidzieć, które towary klient wrzuci do koszyka.
Zapis i interpretacja reguł
W większości przypadków możemy dopuszczać zapis reguł, jako dowolnych formuł logicznych, zbudowanych z formuł atomowych, mających postać równości, nierówności lub przynależności dla wartości jednego atrybutu. W praktyce, ze względu na efektywność i szybkość generowania reguł oraz wnioskowania dedukcyjnego na ich podstawie, dopuszcza się budowanie formuł logicznych, których część przesłankowa zbudowana jest prawie wyłącznie z koniunkcji warunków atomowych.
Wspomniane warunki elementarne dotyczące wartości pojedynczego atrybutu nazywane są selektorami, a ich koniunkcje – kompleksami. Przyjmuje się tu ograniczenie, że jeden kompleks zawiera tylko pojedyncze selektory dotyczące każdego atrybutu. Regułę składającą się z kompleksu X i decyzji Y możemy przedstawić jako implikację X → Y.
Interpretacja zbioru reguł
Aby umożliwić interpretację dowolnej hipotezy dla danego zestawu atrybutów nie możemy wprowadzić ograniczenia co do ilości reguł opisujących daną hipotezę. Weryfikacja danego przykładu pod kątem utworzonej hipotezy polega na znalezieniu w tej hipotezie reguły pokrywającej, to znaczy takiej, której kompleks będzie identyczny jak zestaw atrybutów w badanym przykładzie. W przypadku, gdy znajdzie się dokładnie jedna reguła pokrywająca dany przykład, jej część decyzyjna Y będzie wartością przypisaną danemu przykładowi przez hipotezę zawierającą regułę pokrywającą. W praktyce jednak taka sytuacja, że dokładnie jedna reguła pokrywa nam weryfikowany przykład zdarza się rzadko. Częściej mamy do czynienia z sytuacją, ze jeden przykład jest pokrywany przez wiele reguł, które posiadają różne części decyzyjne Y, albo przykład nie jest pokrywany przez żadną regułę. W takich przypadkach wszystko zależy od tego, czy zbiór reguł traktujemy jako uporządkowany, czy nieuporządkowany.
Nieuporządkowany zbiór reguł rzeczywiście możemy w dokładnym tego słowa znaczeniu nazwać zbiorem. Zawarte w nim reguły nie są w żaden sposób uporządkowane i każda z nich jest traktowana dokładnie tak samo. Do rozstrzygnięcia sytuacji, w których jeden przykład jest pokrywany przez kilka reguł jednocześnie albo nie jest pokrywany przez żadną regułę należy użyć specjalnej strategii:
losowy wybór jednej z reguł pokrywających klasyfikowany przykład,
wybór najbardziej szczegółowej reguły pokrywającej klasyfikowany przykład,
wybór reguły o najmniejszej liczbie selektorów,
losowy wybór decyzji według rozkładu prawdopodobieństwa wyznaczonego przez rozkład częstości decyzji wśród reguł pokrywających klasyfikowany przykład,
związanie z każdą z reguł liczby pokrywanej przez nią przykładów i wybranie reguły posiadających największą ilość pokrywanych przez nią przykładów.
Mimo prostoty, strategie te dają bardzo dobre efekty, a wspomniana prostota obliczeń przekłada się na efektywność i szybkość generowania i interpretacji reguł, co ma bardzo duże znaczenie w praktycznym ich zastosowaniu.
Komplikacji związanych ze stosowaniem nieuporządkowanych zbiorów reguł możemy uniknąć używając algorytmów odkrywania wiedzy, które zbudują nam zbiór reguł uporządkowanych według określonej wartości i ze z góry ustaloną kolejnością ich stosowania. Jeżeli w takim zbiorze zdarzy się, że dany przykład jest pokrywany przez więcej niż jedną regułę, zostaje mu przyporządkowana decyzja z reguły będącej pierwszą z kolei wśród reguł pokrywających dany przykład. Niekiedy taki zbiór uporządkowanych reguł nazywamy listą decyzyjną. Jest to taka lista reguł, gdzie po każdej z nich zostaje dopisana fraza w przeciwnym wypadku i w razie nie spełnienia warunków danej reguły, brana jest pod uwagę kolejna reguła znajdująca się na liście. W ten sposób eliminowany jest problem w sytuacji, gdy jeden przykład jest pokrywany przez więcej niż jedną regułę.
Zobacz też inne materiały
Eksploracja danych - data mining
Systemy uczące się
Problemy związane z analizą rzeczywistych danych - duże zbiory danych
Problemy związane z analizą rzeczywistych danych - liczne atrybuty
Problemy związane z analizą rzeczywistych danych - niekompletne dane
Problemy związane z analizą rzeczywistych danych - niepoprawne dane
Reguły asocjacyjne - istota asocjacji
Reguły asocjacyjne - reprezentowanie danych i hipotez
Generowanie reguł asocjacyjnych
Powiązane kategorie
Eksploracja danych - data mining
Komentarze
-
Brak komentarzy
Dodaj komentarz
Nie masz jeszcze swojego konta na Wykłady.org? Zarejestruj się!.
Wykłady.org to serwis kierowany do studentów i uczniów szkół średnich. Na stronach serwisu znajdziesz wiele materiałów z wykładów oraz opracowania lektur i przykładowe prace maturalne. Dowiedz się więcej.
Zapraszamy wszystkie osoby chętne do współpracy przy tworzeniu tego serwisu. Jeżeli posiadasz jakieś ciekawe materiały lub opracowania swojego autorstwa i nie łamiące praw autorskich i chcesz podzielić się nimi z innymi uczniami lub studentami, napisz do nas - opublikujemy Twoje prace w tym serwisie!
Subskrypcja
Chcesz być zawsze na bieżąco i od razu dowiadywać się o nowych materiałach w naszym serwisie? Skorzystaj z subskrypcji naszego kanału
RSS lub E-mail.
Rejestracja
Chcesz mieć możliwość wpływania na kształt portalu Wykłady.org? Zarejestruj się i pisz, komentuj, oceniaj, bierz udział w konkursach i wygrywaj nagrody!
