Artykuły na temat Eksploracji danych, czyli Data Miningu

Już od zarania dziejów informacja miała dla człowieka kluczowe znaczenie w walce o przetrwanie. To informacja o zbliżających się stadach dzikich zwierząt pozwalała na przygotowanie pułapek i upolowanie pożywienia. To informacja jest podstawowym czynnikiem potrzebnym do kształtowania czegoś o bardziej wysublimowanym charakterze – wiedzy.

W dzisiejszym świecie znaczenie informacji nie tylko się nie zatarło, ale się jeszcze bardziej pogłębiło. Błyskawicznie rozwijające się gałęzie nauki, jak telekomunikacja czy informatyka nie tylko ułatwiają szybki dostęp do poszukiwanej informacji, ale również pomagają na szybsze i trafniejsze podejmowanie strategicznych decyzji decyzji. Ogromne ilości informacji wcale jednak bezpośrednio nie ułatwiają podjęcia trafnej decyzji, ponieważ człowiek nie jest w stanie ich wszystkich ogarnąć i wyciągnąć sensownych konkluzji. Z pomocą przychodzi nowa dziedzina nauki: eksploracja danych.

Systemy odkrywające wiedzę w danych powstawały i wciąż powstają na całym świecie. Jako, że problem jest palący, potrzebne są wciąż szybsze i dokładniejsze algorytmy, które poradzą sobie z odnalezieniem nowego rodzaju wiedzy w coraz większych zbiorach danych. Rozwiązania, które opisałem w niniejszej pracy pojawiały się i będą pojawiały się w wielu systemach, zarówno komercyjnych, jak i amatorskich.

Łukasz Gołaszewski, ADAPTACYJNY SKLEP INTERNETOWY

Dodany przez: pukas
+ Co to jest data mining?
+ Rodzaje metod odkrywania wiedzy



Co to jest data mining?

Data mining jest jednym z etapów odkrywania wiedzy w bazach danych. Wywodzi się z takich dziedzin nauki, jak statystyka i uczenie maszynowe. Istota data miningu polega na wykorzystaniu szybkości komputerów do odkrywania ukrytych dla człowieka zależności i prawidłowości w ogromnych zbiorach danych. Przykładem może być wykrycie, jakie towary są najczęściej kupowane razem w danym sklepie – właśnie to zastosowanie data miningu wykorzystałem w swojej aplikacji.



Innymi przykładami wykorzystania data miningu są problemy:

  • jakie cechy wyróżniają kierowców najczęściej powodujących wypadki?

  • jakie jest prawdopodobieństwo terminowej spłaty kredytu przez klienta banku?

  • jaka będzie jutro pogoda?

  • jakie ustalić wielkości produkcji dóbr X w okresie Y?

W maksymalnym uproszczeniu cały proces odkrywania wiedzy sprowadza sie do tego, że wybrane metody uczenia się są używane do odnalezienia regularności w danych i zapisania ich w odpowiedniej postaci, zaś metody statystyczne służą do oceny ich jakości.

Rodzaje metod odkrywania wiedzy


W bardzo wygodny sposób możemy podzielić metody odkrywania wiedzy na kategorie odpowiadające rodzajom wiedzy, jakie odkrywają.

  • Klasyfikacja. Odkrywa wiedzę, w jaki sposób przynależność do pewnych kategorii zależy od ilości i wartości atrybutów. Metoda ta wywodzi się od algorytmów uczenia się pojęć.

  • Aproksymacja. Odkrywa wiedzę, jak wartość funkcji rzeczywistoliczbowej zależy od atrybutów. Metoda ta wywodzi się z algorytmów uczenia się aproksymacji (np. sieci neuronowe) i statystycznych metod regresji.

  • Zależności przyczynowe. Odkrywa wiedzę o tym, jakie zależności przyczynowe występują między różnymi atrybutami. Metody odkrywania takiej wiedzy znajdują zastosowanie w algorytmach sieci bayesowskich.

  • Zależności funkcyjne. Odkrywa wiedzę, jakimi wzorcami najlepiej wyrażają się zależności między atrybutami o wartościach liczbowych. Odkryte zależności muszą być zapisane przy pomocy formuły algebraicznej. Wykorzystuje się tu metody odkrywania równań.

  • Podobieństwo. Odkrywa wiedzę o tym, jakie występują wśród analizowanych rekordów grupy rekordów podobnych i w jaki sposób to podobieństwo zależy od atrybutów, co umożliwia nam późniejsze wnioskowanie. Do odszukania takich zależności wykorzystuje się metody grupowania.

  • Asocjacje. Odkrywa wiedzę o tym, jakie wartości atrybutów często występują razem w analizowanym zbiorze rekordów. Do znajdowania takiej wiedzy służą algorytmy odkrywania reguł asocjacyjnych. Właśnie tą metodę odkrywania wiedzy zastosowałem w swojej aplikacji i bardziej przybliżę ją w dalszej części pracy.

Zobacz też inne materiały

Systemy uczące się
Reprezentowanie wiedzy
Problemy związane z analizą rzeczywistych danych - duże zbiory danych
Problemy związane z analizą rzeczywistych danych - liczne atrybuty
Problemy związane z analizą rzeczywistych danych - niekompletne dane
Problemy związane z analizą rzeczywistych danych - niepoprawne dane
Reguły asocjacyjne - istota asocjacji
Reguły asocjacyjne - reprezentowanie danych i hipotez
Generowanie reguł asocjacyjnych

Powiązane kategorie

Eksploracja danych - data mining

Komentarze

  • Brak komentarzy

Dodaj komentarz

Aby dodawać komentarze, zaloguj się.
Nie masz jeszcze swojego konta na Wykłady.org? Zarejestruj się!.
Google
 

Wykłady.org to serwis kierowany do studentów i uczniów szkół średnich. Na stronach serwisu znajdziesz wiele materiałów z wykładów oraz opracowania lektur i przykładowe prace maturalne. Dowiedz się więcej.

Zapraszamy wszystkie osoby chętne do współpracy przy tworzeniu tego serwisu. Jeżeli posiadasz jakieś ciekawe materiały lub opracowania swojego autorstwa i nie łamiące praw autorskich i chcesz podzielić się nimi z innymi uczniami lub studentami, napisz do nas - opublikujemy Twoje prace w tym serwisie!

Rejestracja

Chcesz mieć możliwość wpływania na kształt portalu Wykłady.org? Zarejestruj się i pisz, komentuj, oceniaj, bierz udział w konkursach i wygrywaj nagrody!