Śledź nas na:



Problemy związane z analizą rzeczywistych danych - niekompletne dane

Niekompletne dane.

W wielu współczesnych bazach danych mamy do czynienia z rekordami, w których wartości niektórych atrybutów są nieznane. W zależności od dziedziny i specyfikacji bazy danych, takie niewiadome wartości atrybutów można spotkać w od kilku do kilkudziesięciu procent ogólnej ilości badanych rekordów. W niektórych rekordach możemy spotkać się z sytuacją, że więcej jest wartości nie znanych niż znanych.

Aby poradzić sobie z tym, jakże nagminnym problemem, stworzono szereg strategii. Najważniejszymi z nich są:

  • ignorowanie rekordów zawierających brakujące wartości,

  • traktowanie braku wartości jako wartości specjalnej,

  • wypełnianie brakujących wartości,

  • zastępowanie brakujących przykładów przykładami ułamkowymi.

Pierwsza możliwość jest chyba najmniej doskonałą ze wszystkich wymienionych. Można ją stosować tylko w przypadku, kiedy mamy do czynienia z bardzo małą ilością niekompletnych rekordów i tylko na etapie analizy danych i wyszukiwania reguł. Później nie można dopuścić do sytuacji odmowy wnioskowania korzystając z niepełnego przykładu!

Druga możliwość polega na interpretowaniu wartości pustej atrybutu jako nieznana i wykonywaniu kolejnych czynności tak samo, jakbyśmy mieli do czynienia z kompletnymi rekordami. Zastosowanie tej strategii jest zasadne, jeżeli owe braki występują stosunkowo często w badanych danych, tak, by wartość nieznana mogła być odpowiednio uwzględniana w odnajdywanych regułach – tylko wtedy strategia ta jest skuteczna i daje zadowalające efekty. Poza tym braki wartości w atrybutach powinny być równie częste w danych analizowanych przez algorytmy odkrywania reguł, jak i w przykładach poddawanych później testom. Pozwala to na zachowanie reprezentatywności zbioru trenującego. Jednak założenia te nie zawsze są spełnione (częściej występuje sytuacja odwrotna), zwłaszcza w przypadku, kiedy dane, na podstawie których budujemy hipotezy są bardziej kompletne, niż dane, do których ma być później ów hipoteza stosowana – taka sytuacja całkowicie wyklucza stosowanie tej strategii.

Trzecie podejście jest bardziej uniwersalne i nie wymaga specjalnych właściwości algorytmu uczenia się. Wymaga jedynie odpowiedniego przygotowania danych trenujących przed przystąpieniem do ich analizy. Na podstawie wstępnej analizy danych trenujących powstaje wiedza o tym, jak należy wypełniać brakujące wartości atrybutów zarówno w danych trenujących, jak i w przykładach, do których będzie później stosowana hipoteza. Wykorzystuje się trzy warianty wypełniania brakujących wartości:

  • najczęściej występującą wartością atrybutu w zbiorze danych,

  • najczęściej występującą wartością atrybutu w zbiorze decyzji Y,

  • wartością ustaloną na podstawie znanych wartości innych atrybutów.

Czwarte podejście wymaga związania z każdym przykładem liczby jego egzemplarzy. Z reguły każdy przykład ma egzemplarzy równą dokładnie 1. Przykłady ułamkowe mają liczbę egzemplarzy między 0 a 1. Przykład z nieznaną wartością atrybutu zostaje zastąpiony zbiorem przykładów ułamkowych ze wszystkimi wartościami tego atrybutu, występującymi w zbiorze. Dla każdego z nich liczba egzemplarzy jest ustalana, jako stosunek ilości przykładów z taką wartością atrybutu do ilości wszystkich przykładów trenujących ze znaną wartością tego atrybutu.



Zobacz także