Problemy związane z analizą rzeczywistych danych - duże zbiory danych

4. Dekompozycja zbioru trenującego

Koszt obliczeniowy nie jest jedynym problemem, występującym podczas analizy dużych zbiorów danych rzeczywistych. Często zależności opisujące taki zbiór są tak wysoki stopień złożenia, że stworzone na ich podstawie hipotezy stają się nadmiernie skomplikowane i niemożliwe do interpretacji. Jeżeli więc uzyskana złożoność hipotez jest nie akceptowalna z punktu widzenia dalszego ich wykorzystania do klasyfikacji nowych przykładów, stosuje się dekompozycję zbioru trenującego na mniejsze podzbiory i uzyskuje się kilka mniej złożonych hipotez dla każdego z tych podzbiorów. Ze względu na to, że nowe hipotezy zostały uzyskane na podstawie podzbiorów całego zbioru trenującego, mają ograniczony zakres stosowania. Aby ułatwić rozróżnienie tego zakresu, należy dokonać dekompozycji zbioru trenującego ze względu na wartości atrybutów, a nie losowo. W ten sposób mamy ścisły podział zakresów stosowania każdej z uzyskanych hipotez do warunków jej stosowania, określonych przez wartości atrybutów wybranych do dekompozycji.

Problemy związane z analizą rzeczywistych danych - duże zbiory danych

4. Dekompozycja zbioru trenującego

Zobacz także