Metodi Statistici Multivariati
Propedeuticità
Nessuna
Obiettivi del corso
Fornire una introduzione generale ai principi delle tecniche di “data science”, e alle loro applicazioni in campo aziendale, business intelligence e ricerche di marketing. Durante il corso gli studenti apprenderanno l’ambiente per l’analisi dei dati R, realizzando personalmente applicazioni dei modelli di data mining oggetto del corso.
Programma
Modulo I. Elementi di probabilità ed inferenza statistica
- Introduzione di base
- Probabilità elementare
- Variabili aleatorie discrete e continue
- Variabili aleatorie doppie e multiple
- Elementi di inferenza statistica
- Matrici dati
Modulo II. Modelli di Data Mining e Knowledge Discovery per l’azienda
- Apprendimento supervisionato e non supervisionato
- Regole associative e Market Basket Analysis
- Classificazione Naïve Bayes
- Alberi di decisione
- Clustering I: algoritmi gerarchici
- Clustering II: k-means
Modulo III. Laboratorio
Il laboratorio è parte integrante del corso. Sarà utilizzato il software di analisi dei dati R, liberamente disponibile sul network del CRAN all’indirizzo http://cran.r-project.org. Durante il corso di laboratorio sarà erogata un’introduzione approfondita ad R, e verranno mostrati casi pratici di studio relativi a tutti gli argomenti teorici riguardanti la seconda parte.
Testi consigliati
Riferimento generale per la preparazione dell’esame:
- M. Bilancia (2017) Dispense per il Corso di Metodi Statistici Multivariati – Versione 1.1 Settembre 2017. Dipartimento Jonico, liberamente distribuite sotto Licenza Creative Commons 4.0 CC BY-NC-ND.
Di utile consultazione per approfondimento/consultazione sulle metodologie descritte a lezione (ma non richiesti ai fini della preparazione dell’esame) possono essere:
- S. Borra, A. Di Ciaccio (2014) Statistica – Metodologie per le Scienze Economiche e Sociali 3/ed., Mc-Graw Hill, ISBN: 9788838667404
- S. Dulli, S. Furini, E. Peron (2009) Data Mining: Metodi e Strategie, Springer Science & Business Media, ISBN 9788847011632
- P. Giudici (2005) Data Mining – Metodi Informatici Statistici ed Applicazioni 2/ed., McGraw Hill, ISBN: 9788838672125.
Le dispense fornite dal docente coprono completamente anche la parte di laboratorio. Tuttavia una utile guida integrativa a riguardo è la seguente:
A.M. Mineo, Una Guida all’Utilizzo dell’Ambiente Statistico R, 2003. Disponibile sul sito del CRAN