1. Introduzione al corso
Big Data – Le 4V:
- Volume: enormi quantità di dati (es. 7 ZB = 1 TB per persona nel 2025). I dati stanno crescendo esponenzialmente, con nuove unità di misura come Zettabyte (1 ZB = 10^21 byte).
- Variety: 88% dei dati sono non strutturati (testi, immagini, log…). Fonti: social media, email, sensori industriali e sanitari.
- Velocity: analisi in tempo reale (es. turbine che generano 80 GB/giorno). I dati sono prodotti e raccolti molto rapidamente.
- Veracity (o Affidabilità): incertezza e qualità dei dati (es. inconsistenze nei dati sanitari). Spesso i dati raccolti velocemente non sono immediatamente verificabili.
Data Science:
- Integrazione di statistica, informatica, dominio applicativo e visualizzazione dati.
- Esempio: routing ambulanze con più obiettivi (tempo, costo, equità).
- Si utilizzano Pareto front: soluzioni non dominate, ciascuna ottima in modo diverso.
- Process Mining: tecnica per estrarre conoscenza dai log di eventi, ottimizzare processi e supportare il decision making, specialmente in sanità.
2. Data Warehouse (DW)
Architettura ETL:
- Extract: da sorgenti eterogenee (ERP, database, file log, cartelle cliniche, dati di laboratorio).
- Transform: pulizia, aggregazione, applicazione di regole di business per uniformare i dati.
- Load: caricamento nel modello a stella (star schema), spesso su database relazionali.
Star Schema:
- Fatto centrale: metrica da analizzare (es. vendite, fatturato, quantità venduta).
- Dimensioni: tempo, prodotto, luogo, cliente ecc. Permettono analisi multidimensionale e a vari livelli di granularità (giorno, mese, città, categoria prodotto).
OLAP (Online Analytical Processing):