Problemy związane z analizą rzeczywistych danych - niekompletne dane
W wielu współczesnych bazach danych mamy do czynienia z rekordami, w których wartości niektórych atrybutów są nieznane. W zależności od dziedziny i specyfikacji bazy danych, takie niewiadome wartości atrybutów można spotkać w od kilku do kilkudziesięciu procent ogólnej ilości badanych rekordów. W niektórych rekordach możemy spotkać się z sytuacją, że więcej jest wartości nie znanych niż znanych.
Aby poradzić sobie z tym, jakże nagminnym problemem, stworzono szereg strategii. Najważniejszymi z nich są:
ignorowanie rekordów zawierających brakujące wartości,
traktowanie braku wartości jako wartości specjalnej,
wypełnianie brakujących wartości,
zastępowanie brakujących przykładów przykładami ułamkowymi.
Pierwsza możliwość jest chyba najmniej doskonałą ze wszystkich wymienionych. Można ją stosować tylko w przypadku, kiedy mamy do czynienia z bardzo małą ilością niekompletnych rekordów i tylko na etapie analizy danych i wyszukiwania reguł. Później nie można dopuścić do sytuacji odmowy wnioskowania korzystając z niepełnego przykładu!
Druga możliwość polega na interpretowaniu wartości pustej atrybutu jako nieznana i wykonywaniu kolejnych czynności tak samo, jakbyśmy mieli do czynienia z kompletnymi rekordami. Zastosowanie tej strategii jest zasadne, jeżeli owe braki występują stosunkowo często w badanych danych, tak, by wartość nieznana mogła być odpowiednio uwzględniana w odnajdywanych regułach – tylko wtedy strategia ta jest skuteczna i daje zadowalające efekty. Poza tym braki wartości w atrybutach powinny być równie częste w danych analizowanych przez algorytmy odkrywania reguł, jak i w przykładach poddawanych później testom. Pozwala to na zachowanie reprezentatywności zbioru trenującego. Jednak założenia te nie zawsze są spełnione (częściej występuje sytuacja odwrotna), zwłaszcza w przypadku, kiedy dane, na podstawie których budujemy hipotezy są bardziej kompletne, niż dane, do których ma być później ów hipoteza stosowana – taka sytuacja całkowicie wyklucza stosowanie tej strategii.
Trzecie podejście jest bardziej uniwersalne i nie wymaga specjalnych właściwości algorytmu uczenia się. Wymaga jedynie odpowiedniego przygotowania danych trenujących przed przystąpieniem do ich analizy. Na podstawie wstępnej analizy danych trenujących powstaje wiedza o tym, jak należy wypełniać brakujące wartości atrybutów zarówno w danych trenujących, jak i w przykładach, do których będzie później stosowana hipoteza. Wykorzystuje się trzy warianty wypełniania brakujących wartości:
najczęściej występującą wartością atrybutu w zbiorze danych,
najczęściej występującą wartością atrybutu w zbiorze decyzji Y,
wartością ustaloną na podstawie znanych wartości innych atrybutów.
Czwarte podejście wymaga związania z każdym przykładem liczby jego egzemplarzy. Z reguły każdy przykład ma egzemplarzy równą dokładnie 1. Przykłady ułamkowe mają liczbę egzemplarzy między 0 a 1. Przykład z nieznaną wartością atrybutu zostaje zastąpiony zbiorem przykładów ułamkowych ze wszystkimi wartościami tego atrybutu, występującymi w zbiorze. Dla każdego z nich liczba egzemplarzy jest ustalana, jako stosunek ilości przykładów z taką wartością atrybutu do ilości wszystkich przykładów trenujących ze znaną wartością tego atrybutu.