Artykuły na temat Eksploracji danych, czyli Data Miningu
Już od zarania dziejów informacja miała dla człowieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbliżających się stadach dzikich zwierząt pozwalała na przygotowanie pułapek i upolowanie pożywienia. To informacja jest podstawowym czynnikiem potrzebnym do kształtowania czegoś o bardziej wysublimowanym charakterze – wiedzy.
W dzisiejszym świecie znaczenie informacji nie tylko się nie zatarło, ale się jeszcze bardziej pogłębiło. Błyskawicznie rozwijające się gałęzie nauki, jak telekomunikacja czy informatyka nie tylko ułatwiają szybki dostęp do poszukiwanej informacji, ale również pomagają na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilości informacji wcale jednak bezpośrednio nie ułatwiają podjęcia trafnej decyzji, ponieważ człowiek nie jest w stanie ich wszystkich ogarnąć i wyciągnąć sensownych konkluzji. Z pomocą przychodzi nowa dziedzina nauki: eksploracja danych.
Systemy odkrywające wiedzę w danych powstawały i wciąż powstają na całym świecie. Jako, że problem jest palący, potrzebne są wciąż szybsze i dokładniejsze algorytmy, które poradzą sobie z odnalezieniem nowego rodzaju wiedzy w coraz większych zbiorach danych. Rozwiązania, które opisałem w niniejszej pracy pojawiały się i będą pojawiały się w wielu systemach, zarówno komercyjnych, jak i amatorskich.
Łukasz Gołaszewski, ADAPTACYJNY SKLEP INTERNETOWY
W wielu współczesnych bazach danych mamy do czynienia z rekordami, w których wartości niektórych atrybutów są nieznane. W zależności od dziedziny i specyfikacji bazy danych, takie niewiadome wartości atrybutów można spotkać w od kilku do kilkudziesięciu procent ogólnej ilości badanych rekordów. W niektórych rekordach możemy spotkać się z sytuacją, że więcej jest wartości nie znanych niż znanych.
Aby poradzić sobie z tym, jakże nagminnym problemem, stworzono szereg strategii. Najważniejszymi z nich są:
ignorowanie rekordów zawierających brakujące wartości,
traktowanie braku wartości jako wartości specjalnej,
wypełnianie brakujących wartości,
zastępowanie brakujących przykładów przykładami ułamkowymi.
Pierwsza możliwość jest chyba najmniej doskonałą ze wszystkich wymienionych. Można ją stosować tylko w przypadku, kiedy mamy do czynienia z bardzo małą ilością niekompletnych rekordów i tylko na etapie analizy danych i wyszukiwania reguł. Później nie można dopuścić do sytuacji odmowy wnioskowania korzystając z niepełnego przykładu!
Druga możliwość polega na interpretowaniu wartości pustej atrybutu jako nieznana i wykonywaniu kolejnych czynności tak samo, jakbyśmy mieli do czynienia z kompletnymi rekordami. Zastosowanie tej strategii jest zasadne, jeżeli owe braki występują stosunkowo często w badanych danych, tak, by wartość nieznana mogła być odpowiednio uwzględniana w odnajdywanych regułach – tylko wtedy strategia ta jest skuteczna i daje zadowalające efekty. Poza tym braki wartości w atrybutach powinny być równie częste w danych analizowanych przez algorytmy odkrywania reguł, jak i w przykładach poddawanych później testom. Pozwala to na zachowanie reprezentatywności zbioru trenującego. Jednak założenia te nie zawsze są spełnione (częściej występuje sytuacja odwrotna), zwłaszcza w przypadku, kiedy dane, na podstawie których budujemy hipotezy są bardziej kompletne, niż dane, do których ma być później ów hipoteza stosowana – taka sytuacja całkowicie wyklucza stosowanie tej strategii.
Trzecie podejście jest bardziej uniwersalne i nie wymaga specjalnych właściwości algorytmu uczenia się. Wymaga jedynie odpowiedniego przygotowania danych trenujących przed przystąpieniem do ich analizy. Na podstawie wstępnej analizy danych trenujących powstaje wiedza o tym, jak należy wypełniać brakujące wartości atrybutów zarówno w danych trenujących, jak i w przykładach, do których będzie później stosowana hipoteza. Wykorzystuje się trzy warianty wypełniania brakujących wartości:
najczęściej występującą wartością atrybutu w zbiorze danych,
najczęściej występującą wartością atrybutu w zbiorze decyzji Y,
wartością ustaloną na podstawie znanych wartości innych atrybutów.
Czwarte podejście wymaga związania z każdym przykładem liczby jego egzemplarzy. Z reguły każdy przykład ma egzemplarzy równą dokładnie 1. Przykłady ułamkowe mają liczbę egzemplarzy między 0 a 1. Przykład z nieznaną wartością atrybutu zostaje zastąpiony zbiorem przykładów ułamkowych ze wszystkimi wartościami tego atrybutu, występującymi w zbiorze. Dla każdego z nich liczba egzemplarzy jest ustalana, jako stosunek ilości przykładów z taką wartością atrybutu do ilości wszystkich przykładów trenujących ze znaną wartością tego atrybutu.
Zobacz też inne materiały
Eksploracja danych - data mining
Systemy uczące się
Reprezentowanie wiedzy
Problemy związane z analizą rzeczywistych danych - duże zbiory danych
Problemy związane z analizą rzeczywistych danych - liczne atrybuty
Problemy związane z analizą rzeczywistych danych - niepoprawne dane
Reguły asocjacyjne - istota asocjacji
Reguły asocjacyjne - reprezentowanie danych i hipotez
Generowanie reguł asocjacyjnych
Powiązane kategorie
Eksploracja danych - data mining
Komentarze
-
Brak komentarzy
Dodaj komentarz
Nie masz jeszcze swojego konta na Wykłady.org? Zarejestruj się!.
Wykłady.org to serwis kierowany do studentów i uczniów szkół średnich. Na stronach serwisu znajdziesz wiele materiałów z wykładów oraz opracowania lektur i przykładowe prace maturalne. Dowiedz się więcej.
Zapraszamy wszystkie osoby chętne do współpracy przy tworzeniu tego serwisu. Jeżeli posiadasz jakieś ciekawe materiały lub opracowania swojego autorstwa i nie łamiące praw autorskich i chcesz podzielić się nimi z innymi uczniami lub studentami, napisz do nas - opublikujemy Twoje prace w tym serwisie!
Subskrypcja
Chcesz być zawsze na bieżąco i od razu dowiadywać się o nowych materiałach w naszym serwisie? Skorzystaj z subskrypcji naszego kanału
RSS lub E-mail.
Rejestracja
Chcesz mieć możliwość wpływania na kształt portalu Wykłady.org? Zarejestruj się i pisz, komentuj, oceniaj, bierz udział w konkursach i wygrywaj nagrody!
