Śledź nas na:



Problemy związane z analizą rzeczywistych danych - duże zbiory danych

1. Okienkowanie


Najbardziej powszechną strategią uczenia się na podstawie dużych zbiorów danych jest technika okienkowania, czyli uczenia się na podstawie tylko niewielkiego fragmentu zbioru trenującego i w miarę potrzeby rozszerzania go. Wybierane “okienko” całego zbioru trenującego nazywane jest zbiorem roboczym. Cały pomysł tej strategii jest bardzo prosty. Najpierw algorytm wybiera losowo jakiś niewielki zbiór roboczy z całego zbioru trenującego i na jego podstawie uczy się hipotezy. Następnie hipoteza ta jest testowana na pozostałych przykładach całego zbioru trenującego, a początkowo wybrany zbiór roboczy jest uzupełniany o losowo wybrane przykłady, które są klasyfikowane przez tą hipotezę niepoprawnie. Następnie, po uzyskaniu nowego zbioru roboczego, algorytm uczy się nowej hipotezy na jego podstawie. Cały proces jest powtarzany tak długo, jak długo nowa hipoteza jest lepsza od poprzedniej (ma mniejszy błąd próbki lub uzyskany błąd próbki spadł poniżej wymaganego poziomu). Ponieważ uzyskane wyniki mogą w dużym stopniu zależeć od wyboru pierwszego zbioru roboczego, zaleca się powtórzyć cały proces kilka razy i wybrać najlepszy wynik ze wszystkich uzyskanych. W przypadki zbiorów trenujących o liczebnościach od kilku do kilkuset tysięcy przykładów zaleca się wybór pierwszego zbioru roboczego, który jest 10% częścią całego zbioru trenującego. Taki wybór prowadzi zwykle do uzyskiwania zadowalających hipotez już po kilku iteracjach.




Zobacz także