Problemy związane z analizą rzeczywistych danych - niepoprawne dane

Niepoprawne dane.

W wielu bazach danych przechowujących rzeczywiste dane można spotkać atrybuty, których wartości są w naturalny sposób obarczone błędami, np. w danych pochodzących z pomiarów. O takich danych mówimy, że są zaszumione. Taka sytuacja stwarza ryzyko stworzenia reguł zbytnio dopasowanych do przypadkowych danych. Reguły takie, nawet jeżeli są wystarczająco dokładne w odniesieniu do istniejących danych, okazują się zupełnie nieprzystające do nowych rekordów, co całkowicie eliminuje je w dalszym wnioskowaniu dedukcyjnym. Zapobiegać nadmiernemu dopasowaniu możemy już podczas wyszukiwania zależności, biorąc od uwagę tylko te statystycznie istotne – taki mechanizm zastosowałem w swojej aplikacji, aby wykluczyć z analizy przypadkowe zakupy klientów zachowujących się irracjonalnie lub dokonujących zakupów w sposób losowy. Możemy również poddawać modyfikacjom już znalezione zależności poprzez ich upraszczanie, np. usuwanie niektórych warunków z istniejących reguł. Takie działanie pogarsza dostosowanie reguł do istniejących rekordów w zbiorze trenującym, ale zwiększa ich przydatność i skuteczność w odniesieniu do nowych przykładów.

W przypadku atrybutów, w których naturalnie nie powinny występować błędy, możemy odkryć w czasie ich analizowania różnego rodzaju anomalie w postaci nadzwyczajnego odchylenia ich wartości od pozostałych atrybutów i to w niewielkiej liczbie przypadków. Często anomalie te są błędami spowodowanymi przez operatora wprowadzającego dane do bazy danych. Anomalie te mogą być również obserwowane jako wyjątki od istniejących reguł lub jako reguły pokrywające niewielką liczbę analizowanych przykładów.

Problemy związane z analizą rzeczywistych danych - niepoprawne dane

Zobacz także