Problemy związane z analizą rzeczywistych danych - niekompletne dane

Niekompletne dane.

W wielu współczesnych bazach danych mamy do czynienia z rekordami, w których wartości niektórych atrybutów są nieznane. W zależności od dziedziny i specyfikacji bazy danych, takie niewiadome wartości atrybutów można spotkać w od kilku do kilkudziesięciu procent ogólnej ilości badanych rekordów. W niektórych rekordach możemy spotkać się z sytuacją, że więcej jest wartości nie znanych niż znanych.

Aby poradzić sobie z tym, jakże nagminnym problemem, stworzono szereg strategii. Najważniejszymi z nich są:

  • ignorowanie rekordów zawierających brakujące wartości,

  • traktowanie braku wartości jako wartości specjalnej,

  • wypełnianie brakujących wartości,

  • zastępowanie brakujących przykładów przykładami ułamkowymi.

Pierwsza możliwość jest chyba najmniej doskonałą ze wszystkich wymienionych. Można ją stosować tylko w przypadku, kiedy mamy do czynienia z bardzo małą ilością niekompletnych rekordów i tylko na etapie analizy danych i wyszukiwania reguł. Później nie można dopuścić do sytuacji odmowy wnioskowania korzystając z niepełnego przykładu!

Druga możliwość polega na interpretowaniu wartości pustej atrybutu jako nieznana i wykonywaniu kolejnych czynności tak samo, jakbyśmy mieli do czynienia z kompletnymi rekordami. Zastosowanie tej strategii jest zasadne, jeżeli owe braki występują stosunkowo często w badanych danych, tak, by wartość nieznana mogła być odpowiednio uwzględniana w odnajdywanych regułach – tylko wtedy strategia ta jest skuteczna i daje zadowalające efekty. Poza tym braki wartości w atrybutach powinny być równie częste w danych analizowanych przez algorytmy odkrywania reguł, jak i w przykładach poddawanych później testom. Pozwala to na zachowanie reprezentatywności zbioru trenującego. Jednak założenia te nie zawsze są spełnione (częściej występuje sytuacja odwrotna), zwłaszcza w przypadku, kiedy dane, na podstawie których budujemy hipotezy są bardziej kompletne, niż dane, do których ma być później ów hipoteza stosowana – taka sytuacja całkowicie wyklucza stosowanie tej strategii.

Trzecie podejście jest bardziej uniwersalne i nie wymaga specjalnych właściwości algorytmu uczenia się. Wymaga jedynie odpowiedniego przygotowania danych trenujących przed przystąpieniem do ich analizy. Na podstawie wstępnej analizy danych trenujących powstaje wiedza o tym, jak należy wypełniać brakujące wartości atrybutów zarówno w danych trenujących, jak i w przykładach, do których będzie później stosowana hipoteza. Wykorzystuje się trzy warianty wypełniania brakujących wartości:

  • najczęściej występującą wartością atrybutu w zbiorze danych,

  • najczęściej występującą wartością atrybutu w zbiorze decyzji Y,

  • wartością ustaloną na podstawie znanych wartości innych atrybutów.

Czwarte podejście wymaga związania z każdym przykładem liczby jego egzemplarzy. Z reguły każdy przykład ma egzemplarzy równą dokładnie 1. Przykłady ułamkowe mają liczbę egzemplarzy między 0 a 1. Przykład z nieznaną wartością atrybutu zostaje zastąpiony zbiorem przykładów ułamkowych ze wszystkimi wartościami tego atrybutu, występującymi w zbiorze. Dla każdego z nich liczba egzemplarzy jest ustalana, jako stosunek ilości przykładów z taką wartością atrybutu do ilości wszystkich przykładów trenujących ze znaną wartością tego atrybutu.

Powiązane kategorie

» Eksploracja danych - data mining

Komentarze

  • Jeszcze nie ma komentarzy.

Aby dodać komentarz, zaloguj się.
Jeżeli nie masz jeszcze swojego konta, utwórz je w kilka sekund.

Eksploracja danych - data mining

Już od zarania dziejów informacja miała dla człowieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbliżających się stadach dzikich zwierząt pozwalała na przygotowanie pułapek i upolowanie pożywienia. To informacja jest podstawowym czynnikiem potrzebnym do kształtowania czegoś o bardziej wysublimowanym charakterze – wiedzy.

W dzisiejszym świecie znaczenie informacji nie tylko się nie zatarło, ale się jeszcze bardziej pogłębiło. Błyskawicznie rozwijające się gałęzie nauki, jak telekomunikacja czy informatyka nie tylko ułatwiają szybki dostęp do poszukiwanej informacji, ale również pomagają na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilości informacji wcale jednak bezpośrednio nie ułatwiają podjęcia trafnej decyzji, ponieważ człowiek nie jest w stanie ich wszystkich ogarnąć i wyciągnąć sensownych konkluzji. Z pomocą przychodzi nowa dziedzina nauki: eksploracja danych.

Systemy odkrywające wiedzę w danych powstawały i wciąż powstają na całym świecie. Jako, że problem jest palący, potrzebne są wciąż szybsze i dokładniejsze algorytmy, które poradzą sobie z odnalezieniem nowego rodzaju wiedzy w coraz większych zbiorach danych. Rozwiązania, które opisałem w niniejszej pracy pojawiały się i będą pojawiały się w wielu systemach, zarówno komercyjnych, jak i amatorskich.

Łukasz Gołaszewski, ADAPTACYJNY SKLEP INTERNETOWY

» strona główna

Szukaj

Pokrewne serwisy

Informatyka

Subskrypcja

Chcesz być na bieżąco? Dodaj swój adres e-mail do newslettera!

Wpisz adres E-mail: