Problemy związane z analizą rzeczywistych danych - duże zbiory danych

Duże zbiory danych

We współczesnym świecie mamy do czynienia z bardzo dużymi ilościami informacji. Wciąż powstają ogromne bazy danych i magazyny danych, w których przechowuje się informacje o często strategicznym znaczeniu dla firmy lub innego podmioty, którego te informacje dotyczą. Mogą to być np. dane na temat sprzedaży produktów w sieci sklepów, dane o preferencjach klientów, dane meteorologiczne. Często gromadzi się ich bardzo dużo. Sieć sprzedaży Wal-Mart gromadzi dziennie dane o ponad 20 milionach przeprowadzonych transakcji. Łatwo można przeliczyć, ile danych gromadzi w ciągu roku, dziesięciu lat itd. Koncern Mobil Oil rozbudowuje magazyn danych mogący pomieścić ponad 100 terabajtów danych o wydobyciu ropy naftowej, system satelitarnej obserwacji EOS zbudowany przez NASA, w każdej godzinie pracy generuje dziesiątki gigabajtów danych, niewielkie supermarkety rejestrują dziennie dziesiątki tysięcy sprzedaży.

Jak widać praktycznie na każdym kroku powstają ogromne skarbnice danych – wystarczy tylko do nich sięgnąć i możemy uzyskać cenną wiedzę. Informacje o dotychczasowej działalności przedsiębiorstwa, poziomie i strukturze sprzedaży mogą posłużyć do wspomagania podejmowania decyzji. Z pomocą przychodzą nam różnego rodzaju systemy wspomagające podejmowanie decyzji. Wykorzystują one szereg algorytmów wyszukujących wiedzę w zbiorach danych. Oczywiście, im większa jest taka baza danych, tym trafniejsze decyzje możemy na jej podstawie podejmować. I tu napotykamy na bardzo poważny problem, bowiem koszt przeanalizowania zbioru danych (najczęściej kosztem jest czas potrzebny na wykonanie analizy) zależy co najmniej liniowo od objętości analizowanych danych. Jeżeli ilość rekordów w bazie danych sięga kilku-kilkunastu milionów, co w przypadku współczesnych baz danych nie jest rzadkością, koszt ten może znacznie przekroczyć granice akceptowalności, nawet wielokrotnie! Po co nam algorytm, który da bardzo dobre i wysoce prawdopodobne wyniki po kilku miesiącach lub kilku latach pracy, skoro potrzebne są nam w ciągu najwyżej kilku sekund, minut lub godzin, w zależności od rodzaju problemu.

Aby zredukować ten problem, stworzono kilka strategii radzących sobie z nim. Oto najpopularniejsze z nich.


Strony: 1 2 3 4 5

Powiązane kategorie

» Eksploracja danych - data mining

Komentarze

  • Jeszcze nie ma komentarzy.

Aby dodać komentarz, zaloguj się.
Jeżeli nie masz jeszcze swojego konta, utwórz je w kilka sekund.

Eksploracja danych - data mining

Już od zarania dziejów informacja miała dla człowieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbliżających się stadach dzikich zwierząt pozwalała na przygotowanie pułapek i upolowanie pożywienia. To informacja jest podstawowym czynnikiem potrzebnym do kształtowania czegoś o bardziej wysublimowanym charakterze – wiedzy.

W dzisiejszym świecie znaczenie informacji nie tylko się nie zatarło, ale się jeszcze bardziej pogłębiło. Błyskawicznie rozwijające się gałęzie nauki, jak telekomunikacja czy informatyka nie tylko ułatwiają szybki dostęp do poszukiwanej informacji, ale również pomagają na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilości informacji wcale jednak bezpośrednio nie ułatwiają podjęcia trafnej decyzji, ponieważ człowiek nie jest w stanie ich wszystkich ogarnąć i wyciągnąć sensownych konkluzji. Z pomocą przychodzi nowa dziedzina nauki: eksploracja danych.

Systemy odkrywające wiedzę w danych powstawały i wciąż powstają na całym świecie. Jako, że problem jest palący, potrzebne są wciąż szybsze i dokładniejsze algorytmy, które poradzą sobie z odnalezieniem nowego rodzaju wiedzy w coraz większych zbiorach danych. Rozwiązania, które opisałem w niniejszej pracy pojawiały się i będą pojawiały się w wielu systemach, zarówno komercyjnych, jak i amatorskich.

Łukasz Gołaszewski, ADAPTACYJNY SKLEP INTERNETOWY

» strona główna

Szukaj

Pokrewne serwisy

Informatyka

Subskrypcja

Chcesz być na bieżąco? Dodaj swój adres e-mail do newslettera!

Wpisz adres E-mail: