Toggle menu
Toggle preferences menu
Toggle personal menu
Neprihlásený/á
Your IP address will be publicly visible if you make any edits.

Dátový sklad, dátový trh, operatívne dáta, architektúra dátového skladu (schéma hviezdy a snehovej vločky), systém OLAP pre analýzu veľkého objemu dát.


Dátový sklad (Data Warehouse)

Centralizované úložisko, ktoré uchováva historické a agregované dáta z rôznych zdrojov na podporu rozhodovania a analýzy. Používa sa pre strategické rozhodovanie, prediktívnu analýzu a reporting.

Charakteristiky:

  • Obsahuje historické údaje;
  • Dáta sú organizované tak, aby podporovali OLAP dotazy (nie OLTP);
  • Údaje sú často denormalizované (teda, nie sú v normálnej forme, atribúty nie sú atomické a tak ďalej) pre zlepšenie výkonu analýzy;

Napríklad:

  • Záznamy o predaji za posledných 5 rokov uložené pre analýzu trendov;

Dátový trh (Data Mart)

Je to podmnožina dátového skladu určená pre špecifické oddelenie alebo funkciu organizácie. Používa sa pre lokálne analýzy konkrétnej časti organizácie (napríklad, oddelenie marketingu zaujímajú iba dáta o predaji, nie údaje o spokojnosti zamestnancov v podniku).

Charakteristiky:

  • Obsahuje údaje relevantné iba pre konkrétny tím alebo účel (napr. predaj, marketing);
  • Menší rozsah dát v porovnaní s dátovým skladom;

Napríklad:

  • Dátový trh pre oddelenie predaja obsahujúci len údaje o tržbách;

Operatívne dáta (Operational Data)

Dáta používané v každodenných operáciách organizácie, uložené v tradičných transakčných databázach (sú to produkčné dáta, určené napríklad pre správu zásob, objednávok, zákazníckych údajov a podobne).

Charakteristiky:

  • Aktuálne a neustále sa meniace údaje;
  • Organizované a optimalizované na rýchle vkladanie a vyhľadávanie (OLTP, nie OLAP);

Príklad:

  • Aktuálny stav zásob v reálnom čase;

Rozdiely medzi dátovým skladom, trhom a operatívnymi dátami

Faktor Dátový sklad Dátový trh Operatívne dáta
Účel: Strategická analýza Špecifické lokálne analýzy Denné operácie
Rozsah: Centralizované (celá organizácia) Oddelenie alebo tím Transakčné údaje
Typ dát: Historické a agregované Relevantné pre konkrétny tím Aktuálne a detailné
Príklady použitia: OLAP, reporting Predajná analýza Správa objednávok

Architektúra dátového skladu

Architektúra dátového skladu určuje, ako sú dáta usporiadané a modelované.

Medzi najbežnejšie modely patrí: hviezdicová schéma a vločková schéma.

Schéma hviezdy (Star Schema)

Jednoduchá denormalizovaná štruktúra, kde je faktová tabuľka v strede a je prepojená s viacerými dimenzionálnymi tabuľkami.

Charakteristiky:

  • Faktová tabuľka obsahuje numerické hodnoty a cudzie kľúče na dimenzionálne tabuľky;
  • Dimenzionálne tabuľky obsahujú popisné informácie;

Výhody:

  • Jednoduché pochopenie a rýchly výkon pri čítaní dát;
  • Ideálne pre OLAP dotazy;

Nevýhody:

  • Môže viesť k redundancii dát;
    • Poznámka: redundancia dát je v prípade snehovej vločky v poriadku, na rozdiel od tradičnej relačnej schémy kde to je problém;

Napríklad:

  • Faktová tabuľka: trzba (mnozstvo, cena, dim_zakaznik_id, dim_produkt_id);
  • Dimenzionálne tabuľky: zakaznik, produkt, datum;

Schéma vločky (Snowflake Schema)

Normalizovaná verzia hviezdicovej schémy, kde sú dimenzionálne tabuľky rozdelené na menšie tabuľky.

Charakteristiky:

  • Dimenzionálne tabuľky môžu obsahovať odkazy na ďalšie tabuľky;
  • Znižuje redundanciu dát;

Výhody:

  • Menej redundancie, menšia veľkosť dát;
  • Lepšia integrita dát;

Nevýhody:

  • Zložitejšie dotazy a pomalší výkon (kvôli veľa JOIN operáciám);

Napríklad:

  • Faktová tabuľka: trzba;
  • Dimenzionálne tabuľky: zakaznik (odkazuje na tabuľku mesto), produkt (odkazuje na kategoria).

OLAP (Online Analytical Processing)

OLAP je technológia používaná na analýzu veľkých objemov dát v dátových skladoch pomocou multi-dimenzionálnych pohľadov. Poskytuje flexibilné možnosti analýzy dát cez rôzne dimenzie, ako sú čas, produkt, región atď.

Rozdiel medzi OLAP (Online Analytical Processing) a OLTP (Online Transaction Processing) je ten, že OLAP je navrhnutý pre analýzu agregovaných dát (zhrnutých dát, napríklad dáta o tržbách, a tak ďalej) a OLTP je systém pre spracovanie databázových transakcií (napríklad, v tradičných MySQL databázach).

V skratke:

  • OLAP používame pri tvorbe hviezdicovej alebo vločkovej schémy, v službách ako je napríklad Snowflake a podobne;
  • OLTP používame v produkčných SQL alebo NoSQL databázach, napríklad v MySQL, MongoDB a podobne;

Ako funguje OLAP?

  1. Multi-dimenzionálne dáta:
    • Dáta sú organizované v multi-dimenzionálnej štruktúre, ktorá umožňuje pohľady z rôznych uhlov.
  2. Operácie OLAP:
    • Roll-up: Agregácia dát na vyššej úrovni (napr. z denného predaja na mesačný);
    • Drill-down: Detailnejší pohľad na dáta (napr. z mesačného predaja na denné predaje);
    • Slice: Výber konkrétnej dimenzie (napr. predaj iba pre rok 2023);
    • Dice: Výber viacrozmernej podmnožiny dát;
    • Pivot: Rotácia dát na zmenu pohľadu (napr. výmena riadkov a stĺpcov v reporte);

Použitie OLAP v analýze veľkých objemov dát

  1. Reporting a dashboardy – OLAP umožňuje rýchle vytváranie reportov, ako sú mesačné predaje alebo výkon produktov (napríklad v službe Snowflake);
  2. Predikcie a trendy – analyzuje historické údaje na predpovedanie budúcich trendov (napr. predajné trendy);
  3. Manažérske rozhodovanie – podporuje strategické rozhodovanie pomocou detailných a agregovaných pohľadov na dáta;
Pojem Popis
Dátový sklad Centralizované historické dáta na podporu rozhodovania.
Dátový trh Podmnožina dátového skladu určená pre špecifické potreby oddelenia.
Operatívne dáta Aktuálne dáta používané na každodenné transakcie.
Schéma hviezda Jednoduchá denormalizovaná štruktúra, rýchla pre OLAP.
Schéma vločka Normalizovaná štruktúra, menej redundancie, zložitejšia.
OLAP Technológia pre multidimenzionálnu analýzu veľkých dát.