Dátový sklad, dátový trh, operatívne dáta, architektúra dátového skladu (schéma hviezdy a snehovej vločky), systém OLAP pre analýzu veľkého objemu dát.
Dátový sklad (Data Warehouse)
Centralizované úložisko, ktoré uchováva historické a agregované dáta z rôznych zdrojov na podporu rozhodovania a analýzy. Používa sa pre strategické rozhodovanie, prediktívnu analýzu a reporting.
Charakteristiky:
- Obsahuje historické údaje;
- Dáta sú organizované tak, aby podporovali OLAP dotazy (nie OLTP);
- Údaje sú často denormalizované (teda, nie sú v normálnej forme, atribúty nie sú atomické a tak ďalej) pre zlepšenie výkonu analýzy;
Napríklad:
- Záznamy o predaji za posledných 5 rokov uložené pre analýzu trendov;
Dátový trh (Data Mart)
Je to podmnožina dátového skladu určená pre špecifické oddelenie alebo funkciu organizácie. Používa sa pre lokálne analýzy konkrétnej časti organizácie (napríklad, oddelenie marketingu zaujímajú iba dáta o predaji, nie údaje o spokojnosti zamestnancov v podniku).
Charakteristiky:
- Obsahuje údaje relevantné iba pre konkrétny tím alebo účel (napr. predaj, marketing);
- Menší rozsah dát v porovnaní s dátovým skladom;
Napríklad:
- Dátový trh pre oddelenie predaja obsahujúci len údaje o tržbách;
Operatívne dáta (Operational Data)
Dáta používané v každodenných operáciách organizácie, uložené v tradičných transakčných databázach (sú to produkčné dáta, určené napríklad pre správu zásob, objednávok, zákazníckych údajov a podobne).
Charakteristiky:
- Aktuálne a neustále sa meniace údaje;
- Organizované a optimalizované na rýchle vkladanie a vyhľadávanie (OLTP, nie OLAP);
Príklad:
- Aktuálny stav zásob v reálnom čase;
Rozdiely medzi dátovým skladom, trhom a operatívnymi dátami
Faktor | Dátový sklad | Dátový trh | Operatívne dáta |
---|---|---|---|
Účel: | Strategická analýza | Špecifické lokálne analýzy | Denné operácie |
Rozsah: | Centralizované (celá organizácia) | Oddelenie alebo tím | Transakčné údaje |
Typ dát: | Historické a agregované | Relevantné pre konkrétny tím | Aktuálne a detailné |
Príklady použitia: | OLAP, reporting | Predajná analýza | Správa objednávok |
Architektúra dátového skladu
Architektúra dátového skladu určuje, ako sú dáta usporiadané a modelované.
Medzi najbežnejšie modely patrí: hviezdicová schéma a vločková schéma.
Schéma hviezdy (Star Schema)
Jednoduchá denormalizovaná štruktúra, kde je faktová tabuľka v strede a je prepojená s viacerými dimenzionálnymi tabuľkami.
Charakteristiky:
- Faktová tabuľka obsahuje numerické hodnoty a cudzie kľúče na dimenzionálne tabuľky;
- Dimenzionálne tabuľky obsahujú popisné informácie;
Výhody:
- Jednoduché pochopenie a rýchly výkon pri čítaní dát;
- Ideálne pre OLAP dotazy;
Nevýhody:
- Môže viesť k redundancii dát;
- Poznámka: redundancia dát je v prípade snehovej vločky v poriadku, na rozdiel od tradičnej relačnej schémy kde to je problém;
Napríklad:
- Faktová tabuľka:
trzba
(mnozstvo
,cena
,dim_zakaznik_id
,dim_produkt_id
); - Dimenzionálne tabuľky:
zakaznik
,produkt
,datum
;
Schéma vločky (Snowflake Schema)
Normalizovaná verzia hviezdicovej schémy, kde sú dimenzionálne tabuľky rozdelené na menšie tabuľky.
Charakteristiky:
- Dimenzionálne tabuľky môžu obsahovať odkazy na ďalšie tabuľky;
- Znižuje redundanciu dát;
Výhody:
- Menej redundancie, menšia veľkosť dát;
- Lepšia integrita dát;
Nevýhody:
- Zložitejšie dotazy a pomalší výkon (kvôli veľa
JOIN
operáciám);
Napríklad:
- Faktová tabuľka:
trzba
; - Dimenzionálne tabuľky:
zakaznik
(odkazuje na tabuľkumesto
),produkt
(odkazuje nakategoria
).
OLAP (Online Analytical Processing)
OLAP je technológia používaná na analýzu veľkých objemov dát v dátových skladoch pomocou multi-dimenzionálnych pohľadov. Poskytuje flexibilné možnosti analýzy dát cez rôzne dimenzie, ako sú čas, produkt, región atď.
Rozdiel medzi OLAP (Online Analytical Processing) a OLTP (Online Transaction Processing) je ten, že OLAP je navrhnutý pre analýzu agregovaných dát (zhrnutých dát, napríklad dáta o tržbách, a tak ďalej) a OLTP je systém pre spracovanie databázových transakcií (napríklad, v tradičných MySQL databázach).
V skratke:
- OLAP používame pri tvorbe hviezdicovej alebo vločkovej schémy, v službách ako je napríklad Snowflake a podobne;
- OLTP používame v produkčných SQL alebo NoSQL databázach, napríklad v MySQL, MongoDB a podobne;
Ako funguje OLAP?
- Multi-dimenzionálne dáta:
- Dáta sú organizované v multi-dimenzionálnej štruktúre, ktorá umožňuje pohľady z rôznych uhlov.
- Operácie OLAP:
- Roll-up: Agregácia dát na vyššej úrovni (napr. z denného predaja na mesačný);
- Drill-down: Detailnejší pohľad na dáta (napr. z mesačného predaja na denné predaje);
- Slice: Výber konkrétnej dimenzie (napr. predaj iba pre rok 2023);
- Dice: Výber viacrozmernej podmnožiny dát;
- Pivot: Rotácia dát na zmenu pohľadu (napr. výmena riadkov a stĺpcov v reporte);
Použitie OLAP v analýze veľkých objemov dát
- Reporting a dashboardy – OLAP umožňuje rýchle vytváranie reportov, ako sú mesačné predaje alebo výkon produktov (napríklad v službe Snowflake);
- Predikcie a trendy – analyzuje historické údaje na predpovedanie budúcich trendov (napr. predajné trendy);
- Manažérske rozhodovanie – podporuje strategické rozhodovanie pomocou detailných a agregovaných pohľadov na dáta;
Pojem | Popis |
---|---|
Dátový sklad | Centralizované historické dáta na podporu rozhodovania. |
Dátový trh | Podmnožina dátového skladu určená pre špecifické potreby oddelenia. |
Operatívne dáta | Aktuálne dáta používané na každodenné transakcie. |
Schéma hviezda | Jednoduchá denormalizovaná štruktúra, rýchla pre OLAP. |
Schéma vločka | Normalizovaná štruktúra, menej redundancie, zložitejšia. |
OLAP | Technológia pre multidimenzionálnu analýzu veľkých dát. |