Reguły asocjacyjne - reprezentowanie danych i hipotez
3. Struktury danych dla przechowywania zbiorów
Każdy element należy do jakiegoś zbioru – w naszym przypadku każda wartość atrybutu należy do danego zbioru wartości. W celu zilustrowania posłużę się przykładem z poprzednich podrozdziałów:
transakcja |
produkty |
1 |
chleb, masło |
2 |
chleb, masło, mleko, jabłka |
3 |
chleb, mleko, jabłka |
4 |
chleb, masło, mleko, jabłka |
Mamy tu do czynienia z modelem logicznym danych. W polu produkty mami zbiory produktów, które zostały zakupione w ramach transakcji zapisanych w polu transakcje, czyli w transakcji numer 2, klient kupił chleb, masło, mleko, jabłka. Taki model danych służy jednak tylko do teoretycznych rozważań i nie nadaje się do analizy. W praktyce dane o sprzedaży (jak i wszelkie inne) zwykle zapisuje się w relacyjnych bazach danych. Przekształcenie modelu logicznego na model relacyjny przedstawia się następująco:
transakcja |
produkt |
1 |
chleb |
1 |
masło |
2 |
chleb |
2 |
masło |
2 |
mleko |
2 |
jabłka |
3 |
chleb |
3 |
mleko |
3 |
jabłka |
4 |
chleb |
4 |
masło |
4 |
mleko |
4 |
jabłka |
Widzimy więc istotną różnicę, gdyż w modelu relacyjnym jeden zbiór wartości zapisany jest w kilku rekordach (tylu, ile elementów liczy dany zbiór), natomiast w modelu logicznym do zapisania jednego zbioru wartości wystarczał jeden rekord.