Śledź nas na:



Problemy związane z analizą rzeczywistych danych - duże zbiory danych

3. Próbkowanie wewnętrzne


Zarówno okienkowanie jak i redukcja liczby przykładów prowadzi do zmniejszenia kosztów obliczeń poprzez prowadzenie ich na podstawie pewnego podzbioru całego zbioru trenującego. Istnieje jednak strategia, która nie prowadzi do skazywania niektórych przykładów z góry na wykluczenie. Metoda ta nazywana jest próbkowaniem wewnętrznym. Polega na tym, że tylko do najbardziej złożonych i wymagających długiego czasu obliczeń stosuje się podzbiory całego zbioru trenującego, a wszystkie pozostałe obliczenia prowadzone są bezpośrednio na całym zbiorze trenującym. Często takie podejście daje lepsze efekty niż okienkowanie i redukcja liczby przykładów właśnie dzięki temu, że możemy dla każdego obliczenia, którego koszt jest w dużej mierze zależny od ilości analizowanych przykładów, dobierać taką ilość przykładów, aby uzyskać porządany efekt przy najmniejszym koszcie.

W przypadku reguł indukcyjnych, od ilości przykładów zależy przede wszystkim ocena jakości kompleksów, do którego wymagane jest podanie liczby przykładów pokrywających kompleks z pewnego podzbioru przykładów. Jeżeli taki zbiór jest liczny, obliczenia możemy wykonać na jego losowym podzbiorze, co w efekcie da znaczną redukcję kosztów wykonania algorytmu.




Zobacz także