More actions
Vytvorená stránka „Dátový sklad, dátový trh, operatívne dáta, architektúra dátového skladu (schéma hviezdy a snehovej vločky), systém OLAP pre analýzu veľkého objemu dát. {{Pojmová mapa}} == Dátový sklad (''Data Warehouse'') == Centralizované úložisko, ktoré uchováva historické a agregované dáta z rôznych zdrojov na podporu rozhodovania a analýzy. Používa sa pre strategické rozhodovanie, prediktívnu analýzu a reporting. '''Charakteristiky''': * O…“ |
Bez shrnutí editace |
||
Riadok 9: | Riadok 9: | ||
* Obsahuje '''historické údaje'''; | * Obsahuje '''historické údaje'''; | ||
* Dáta sú organizované tak, aby podporovali '''''OLAP dotazy''''' (<u>nie OLTP</u>); | * Dáta sú organizované tak, aby podporovali '''''[[Práca s dátovým skladom#OLAP (Online Analytical Processing)|OLAP dotazy]]''''' (<u>nie OLTP</u>); | ||
* Údaje sú často denormalizované (teda, nie sú v normálnej forme, atribúty nie sú atomické a tak ďalej) pre zlepšenie výkonu analýzy; | * Údaje sú často denormalizované (teda, nie sú v normálnej forme, atribúty nie sú atomické a tak ďalej) pre zlepšenie výkonu analýzy; | ||
Riadok 34: | Riadok 34: | ||
* Aktuálne a neustále sa meniace údaje; | * Aktuálne a neustále sa meniace údaje; | ||
* Organizované a optimalizované na rýchle vkladanie a vyhľadávanie (<u>OLTP</u>, ''nie OLAP''); | * Organizované a optimalizované na rýchle vkladanie a vyhľadávanie (<u>OLTP</u>, ''nie [[Práca s dátovým skladom#OLAP (Online Analytical Processing)|OLAP]]''); | ||
'''Príklad''': | '''Príklad''': | ||
Riadok 42: | Riadok 42: | ||
== Rozdiely medzi dátovým skladom, trhom a operatívnymi dátami == | == Rozdiely medzi dátovým skladom, trhom a operatívnymi dátami == | ||
{| class="wikitable" | {| class="wikitable" | ||
! | !Faktor | ||
! | !Dátový sklad | ||
! | !Dátový trh | ||
! | !Operatívne dáta | ||
|- | |- | ||
|'''Účel''' | |'''Účel:''' | ||
|Strategická analýza | |Strategická analýza | ||
|Špecifické lokálne analýzy | |Špecifické lokálne analýzy | ||
|Denné operácie | |Denné operácie | ||
|- | |- | ||
|'''Rozsah''' | |'''Rozsah:''' | ||
|Centralizované (celá organizácia) | |Centralizované (celá organizácia) | ||
|Oddelenie alebo tím | |Oddelenie alebo tím | ||
|Transakčné údaje | |Transakčné údaje | ||
|- | |- | ||
|'''Typ dát''' | |'''Typ dát:''' | ||
|Historické a agregované | |Historické a agregované | ||
|Relevantné pre konkrétny tím | |Relevantné pre konkrétny tím | ||
|Aktuálne a detailné | |Aktuálne a detailné | ||
|- | |- | ||
|'''Príklady použitia''' | |'''Príklady použitia:''' | ||
|OLAP | |[[Práca s dátovým skladom#OLAP (Online Analytical Processing)|OLAP]], reporting | ||
|Predajná analýza | |Predajná analýza | ||
|Správa objednávok | |Správa objednávok | ||
Riadok 84: | Riadok 84: | ||
* Jednoduché pochopenie a rýchly výkon pri čítaní dát; | * Jednoduché pochopenie a rýchly výkon pri čítaní dát; | ||
* Ideálne pre OLAP dotazy; | * Ideálne pre [[Práca s dátovým skladom#OLAP (Online Analytical Processing)|OLAP]] dotazy; | ||
'''Nevýhody''': | '''Nevýhody''': | ||
Riadok 120: | Riadok 120: | ||
== OLAP (Online Analytical Processing) == | == OLAP (Online Analytical Processing) == | ||
OLAP je technológia používaná na analýzu veľkých objemov dát v dátových skladoch pomocou multi-dimenzionálnych pohľadov. Poskytuje flexibilné možnosti analýzy dát cez rôzne dimenzie, ako sú čas, produkt, región atď. | OLAP je technológia používaná na analýzu veľkých objemov dát v dátových skladoch pomocou multi-dimenzionálnych pohľadov. Poskytuje flexibilné možnosti analýzy dát cez rôzne dimenzie, ako sú čas, produkt, región atď. | ||
Rozdiel medzi OLAP (''Online Analytical Processing'') a OLTP (''Online Transaction Processing'') je ten, že OLAP je navrhnutý pre analýzu agregovaných dát (zhrnutých dát, napríklad dáta o tržbách, a tak ďalej) a OLTP je systém pre spracovanie databázových transakcií (napríklad, v tradičných MySQL databázach). | |||
V skratke: | |||
* '''OLAP''' používame pri tvorbe hviezdicovej alebo vločkovej schémy, v službách ako je napríklad Snowflake a podobne; | |||
* '''OLTP''' používame v produkčných SQL alebo NoSQL databázach, napríklad v MySQL, MongoDB a podobne; | |||
=== Ako funguje OLAP? === | === Ako funguje OLAP? === | ||
Riadok 132: | Riadok 139: | ||
#* '''''Pivot''''': Rotácia dát na zmenu pohľadu (napr. výmena riadkov a stĺpcov v reporte); | #* '''''Pivot''''': Rotácia dát na zmenu pohľadu (napr. výmena riadkov a stĺpcov v reporte); | ||
=== Použitie OLAP v analýze veľkých objemov dát === | |||
# '''Reporting a dashboardy''' – OLAP umožňuje rýchle vytváranie reportov, ako sú mesačné predaje alebo výkon produktov (napríklad v službe [https://www.snowflake.com/ Snowflake]); | # '''Reporting a dashboardy''' – OLAP umožňuje rýchle vytváranie reportov, ako sú mesačné predaje alebo výkon produktov (napríklad v službe [https://www.snowflake.com/ Snowflake]); | ||
# '''Predikcie a trendy''' – analyzuje historické údaje na predpovedanie budúcich trendov (napr. predajné trendy); | # '''Predikcie a trendy''' – analyzuje historické údaje na predpovedanie budúcich trendov (napr. predajné trendy); | ||
Riadok 142: | Riadok 148: | ||
!'''Popis''' | !'''Popis''' | ||
|- | |- | ||
|'''Dátový sklad''' | |'''[[Práca s dátovým skladom#Dátový sklad (Data Warehouse)|Dátový sklad]]''' | ||
|Centralizované historické dáta na podporu rozhodovania. | |Centralizované historické dáta na podporu rozhodovania. | ||
|- | |- | ||
|'''Dátový trh''' | |'''[[Práca s dátovým skladom#Dátový trh (Data Mart)|Dátový trh]]''' | ||
|Podmnožina dátového skladu určená pre špecifické potreby oddelenia. | |Podmnožina dátového skladu určená pre špecifické potreby oddelenia. | ||
|- | |- | ||
|'''Operatívne dáta''' | |'''[[Práca s dátovým skladom#Operatívne dáta (Operational Data)|Operatívne dáta]]''' | ||
|Aktuálne dáta používané na každodenné transakcie. | |Aktuálne dáta používané na každodenné transakcie. | ||
|- | |- | ||
|'''Schéma hviezda''' | |'''[[Práca s dátovým skladom#Schéma hviezdy (Star Schema)|Schéma hviezda]]''' | ||
|Jednoduchá denormalizovaná štruktúra, rýchla pre OLAP. | |Jednoduchá denormalizovaná štruktúra, rýchla pre OLAP. | ||
|- | |- | ||
|'''Schéma vločka''' | |'''[[Práca s dátovým skladom#Schéma vločky (Snowflake Schema)|Schéma vločka]]''' | ||
|Normalizovaná štruktúra, menej redundancie, zložitejšia. | |Normalizovaná štruktúra, menej redundancie, zložitejšia. | ||
|- | |- | ||
|'''OLAP''' | |'''[[Práca s dátovým skladom#OLAP (Online Analytical Processing)|OLAP]]''' | ||
|Technológia pre multidimenzionálnu analýzu veľkých dát. | |Technológia pre multidimenzionálnu analýzu veľkých dát. | ||
|} | |} |
Aktuálna revízia z 09:36, 13. január 2025
Dátový sklad, dátový trh, operatívne dáta, architektúra dátového skladu (schéma hviezdy a snehovej vločky), systém OLAP pre analýzu veľkého objemu dát.
Dátový sklad (Data Warehouse)
Centralizované úložisko, ktoré uchováva historické a agregované dáta z rôznych zdrojov na podporu rozhodovania a analýzy. Používa sa pre strategické rozhodovanie, prediktívnu analýzu a reporting.
Charakteristiky:
- Obsahuje historické údaje;
- Dáta sú organizované tak, aby podporovali OLAP dotazy (nie OLTP);
- Údaje sú často denormalizované (teda, nie sú v normálnej forme, atribúty nie sú atomické a tak ďalej) pre zlepšenie výkonu analýzy;
Napríklad:
- Záznamy o predaji za posledných 5 rokov uložené pre analýzu trendov;
Dátový trh (Data Mart)
Je to podmnožina dátového skladu určená pre špecifické oddelenie alebo funkciu organizácie. Používa sa pre lokálne analýzy konkrétnej časti organizácie (napríklad, oddelenie marketingu zaujímajú iba dáta o predaji, nie údaje o spokojnosti zamestnancov v podniku).
Charakteristiky:
- Obsahuje údaje relevantné iba pre konkrétny tím alebo účel (napr. predaj, marketing);
- Menší rozsah dát v porovnaní s dátovým skladom;
Napríklad:
- Dátový trh pre oddelenie predaja obsahujúci len údaje o tržbách;
Operatívne dáta (Operational Data)
Dáta používané v každodenných operáciách organizácie, uložené v tradičných transakčných databázach (sú to produkčné dáta, určené napríklad pre správu zásob, objednávok, zákazníckych údajov a podobne).
Charakteristiky:
- Aktuálne a neustále sa meniace údaje;
- Organizované a optimalizované na rýchle vkladanie a vyhľadávanie (OLTP, nie OLAP);
Príklad:
- Aktuálny stav zásob v reálnom čase;
Rozdiely medzi dátovým skladom, trhom a operatívnymi dátami
Faktor | Dátový sklad | Dátový trh | Operatívne dáta |
---|---|---|---|
Účel: | Strategická analýza | Špecifické lokálne analýzy | Denné operácie |
Rozsah: | Centralizované (celá organizácia) | Oddelenie alebo tím | Transakčné údaje |
Typ dát: | Historické a agregované | Relevantné pre konkrétny tím | Aktuálne a detailné |
Príklady použitia: | OLAP, reporting | Predajná analýza | Správa objednávok |
Architektúra dátového skladu
Architektúra dátového skladu určuje, ako sú dáta usporiadané a modelované.
Medzi najbežnejšie modely patrí: hviezdicová schéma a vločková schéma.
Schéma hviezdy (Star Schema)
Jednoduchá denormalizovaná štruktúra, kde je faktová tabuľka v strede a je prepojená s viacerými dimenzionálnymi tabuľkami.
Charakteristiky:
- Faktová tabuľka obsahuje numerické hodnoty a cudzie kľúče na dimenzionálne tabuľky;
- Dimenzionálne tabuľky obsahujú popisné informácie;
Výhody:
- Jednoduché pochopenie a rýchly výkon pri čítaní dát;
- Ideálne pre OLAP dotazy;
Nevýhody:
- Môže viesť k redundancii dát;
- Poznámka: redundancia dát je v prípade snehovej vločky v poriadku, na rozdiel od tradičnej relačnej schémy kde to je problém;
Napríklad:
- Faktová tabuľka:
trzba
(mnozstvo
,cena
,dim_zakaznik_id
,dim_produkt_id
); - Dimenzionálne tabuľky:
zakaznik
,produkt
,datum
;
Schéma vločky (Snowflake Schema)
Normalizovaná verzia hviezdicovej schémy, kde sú dimenzionálne tabuľky rozdelené na menšie tabuľky.
Charakteristiky:
- Dimenzionálne tabuľky môžu obsahovať odkazy na ďalšie tabuľky;
- Znižuje redundanciu dát;
Výhody:
- Menej redundancie, menšia veľkosť dát;
- Lepšia integrita dát;
Nevýhody:
- Zložitejšie dotazy a pomalší výkon (kvôli veľa
JOIN
operáciám);
Napríklad:
- Faktová tabuľka:
trzba
; - Dimenzionálne tabuľky:
zakaznik
(odkazuje na tabuľkumesto
),produkt
(odkazuje nakategoria
).
OLAP (Online Analytical Processing)
OLAP je technológia používaná na analýzu veľkých objemov dát v dátových skladoch pomocou multi-dimenzionálnych pohľadov. Poskytuje flexibilné možnosti analýzy dát cez rôzne dimenzie, ako sú čas, produkt, región atď.
Rozdiel medzi OLAP (Online Analytical Processing) a OLTP (Online Transaction Processing) je ten, že OLAP je navrhnutý pre analýzu agregovaných dát (zhrnutých dát, napríklad dáta o tržbách, a tak ďalej) a OLTP je systém pre spracovanie databázových transakcií (napríklad, v tradičných MySQL databázach).
V skratke:
- OLAP používame pri tvorbe hviezdicovej alebo vločkovej schémy, v službách ako je napríklad Snowflake a podobne;
- OLTP používame v produkčných SQL alebo NoSQL databázach, napríklad v MySQL, MongoDB a podobne;
Ako funguje OLAP?
- Multi-dimenzionálne dáta:
- Dáta sú organizované v multi-dimenzionálnej štruktúre, ktorá umožňuje pohľady z rôznych uhlov.
- Operácie OLAP:
- Roll-up: Agregácia dát na vyššej úrovni (napr. z denného predaja na mesačný);
- Drill-down: Detailnejší pohľad na dáta (napr. z mesačného predaja na denné predaje);
- Slice: Výber konkrétnej dimenzie (napr. predaj iba pre rok 2023);
- Dice: Výber viacrozmernej podmnožiny dát;
- Pivot: Rotácia dát na zmenu pohľadu (napr. výmena riadkov a stĺpcov v reporte);
Použitie OLAP v analýze veľkých objemov dát
- Reporting a dashboardy – OLAP umožňuje rýchle vytváranie reportov, ako sú mesačné predaje alebo výkon produktov (napríklad v službe Snowflake);
- Predikcie a trendy – analyzuje historické údaje na predpovedanie budúcich trendov (napr. predajné trendy);
- Manažérske rozhodovanie – podporuje strategické rozhodovanie pomocou detailných a agregovaných pohľadov na dáta;
Pojem | Popis |
---|---|
Dátový sklad | Centralizované historické dáta na podporu rozhodovania. |
Dátový trh | Podmnožina dátového skladu určená pre špecifické potreby oddelenia. |
Operatívne dáta | Aktuálne dáta používané na každodenné transakcie. |
Schéma hviezda | Jednoduchá denormalizovaná štruktúra, rýchla pre OLAP. |
Schéma vločka | Normalizovaná štruktúra, menej redundancie, zložitejšia. |
OLAP | Technológia pre multidimenzionálnu analýzu veľkých dát. |