Problemy związane z analizą rzeczywistych danych - duże zbiory danych

Duże zbiory danych

We współczesnym świecie mamy do czynienia z bardzo dużymi ilościami informacji. Wciąż powstają ogromne bazy danych i magazyny danych, w których przechowuje się informacje o często strategicznym znaczeniu dla firmy lub innego podmioty, którego te informacje dotyczą. Mogą to być np. dane na temat sprzedaży produktów w sieci sklepów, dane o preferencjach klientów, dane meteorologiczne. Często gromadzi się ich bardzo dużo. Sieć sprzedaży Wal-Mart gromadzi dziennie dane o ponad 20 milionach przeprowadzonych transakcji. Łatwo można przeliczyć, ile danych gromadzi w ciągu roku, dziesięciu lat itd. Koncern Mobil Oil rozbudowuje magazyn danych mogący pomieścić ponad 100 terabajtów danych o wydobyciu ropy naftowej, system satelitarnej obserwacji EOS zbudowany przez NASA, w każdej godzinie pracy generuje dziesiątki gigabajtów danych, niewielkie supermarkety rejestrują dziennie dziesiątki tysięcy sprzedaży.

Jak widać praktycznie na każdym kroku powstają ogromne skarbnice danych – wystarczy tylko do nich sięgnąć i możemy uzyskać cenną wiedzę. Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży mogą posłużyć do wspomagania podejmowania decyzji. Z pomocą przychodzą nam różnego rodzaju systemy wspomagające podejmowanie decyzji. Wykorzystują one szereg algorytmów wyszukujących wiedzę w zbiorach danych. Oczywiście, im większa jest taka baza danych, tym trafniejsze decyzje możemy na jej podstawie podejmować. I tu napotykamy na bardzo poważny problem, bowiem koszt przeanalizowania zbioru danych (najczęściej kosztem jest czas potrzebny na wykonanie analizy) zależy co najmniej liniowo od objętości analizowanych danych. Jeżeli ilość rekordów w bazie danych sięga kilku-kilkunastu milionów, co w przypadku współczesnych baz danych nie jest rzadkością, koszt ten może znacznie przekroczyć granice akceptowalności, nawet wielokrotnie! Po co nam algorytm, który da bardzo dobre i wysoce prawdopodobne wyniki po kilku miesiącach lub kilku latach pracy, skoro potrzebne są nam w ciągu najwyżej kilku sekund, minut lub godzin, w zależności od rodzaju problemu.

Aby zredukować ten problem, stworzono kilka strategii radzących sobie z nim. Oto najpopularniejsze z nich.

Problemy związane z analizą rzeczywistych danych - duże zbiory danych

Zobacz także