Marco Riani, Professor of Statistics

      Univ. of Parma (ITALY)

ANALISI DEI DATI PER IL MARKETING


ESAME 25 gennaio 2024
Soluzione


La pagina con le risposte alle domande degli studenti, discussione sugli argomenti del corso e/o del libro di testo  è

Issues · UniprJRC/DSconMATLAB (github.com)



Link alla pagina con la graduatoria mondiale dei risolutori di problemi in linguaggio MATALB

MATLAB Cody - MATLAB Central (mathworks.com)



SOLUZIONE ESAMI PASSATI


Esame 11 gennaio 2024 SOLUZIONE


Esame 11 dicembre 2023 SOLUZIONE



LIBRI DI TESTO

 

Riani M., Corbellini A. Laurini F., Morelli G., Proietti T., Perrotta D. Torti F. (2023). Data Science con MATLAB, (seconda edizione), Giappichelli editore, Torino.

 

 

Disponibile presso la libreria MEDICO SCIENTIFICA  oppure tramite AMAZON


 

Comando da eseguire dentro MATLAB per scaricare il materiale aggiuntivo di corredo al libro

!git clone https://github.com/UniprJRC/DSconMATLAB


 

File youtube con le modalità di esame

 


Tutte le lezioni sono disponibili nel canale youtube

https://www.youtube.com/channel/UCvrSSDHucSqwnjuEFmOAe2w

 


SOFTWARE utilizzato durante il corso

Excel e  MATLAB 2023a e MATLAB 2023b.






MATLAB ACADEMY

Gli studenti dell'Università di Parma possono seguire un corso approfondito di MATLAB dall'indirizzo web 
https://matlabacademy.mathworks oppure facendo click sul pulsante "Learn MATLAB" una volta lanciato il programma


Si noti che per gli utenti non UNIPR questi corsi sono a pagamento e sono davvero molto costosi.

Per gli studenti che seguono i corsi di MATLAB Academy è stata resa disponibile da qualche giorno la possibilità di generare in modo automatico dal sistema una certificazione che può essere condivisa con Facebook o Linkedin:


Per utilizzare MATLAB on line per potersi esercitare utilizzando direttamente il browser è possibile fare click su questo link

 


 

COMPONENTI AGGIUNTIVI DI MATLAB DA SCARICARE

 

Link per scaricare il MATLAB toolbox FSDA (Flexible Statistics Data Analysis) dal sito web Mathworks, sviluppato congiuntamente dall'Università di Parma e dal Joint Research Centre della Commissione Europea

Link alla pagina github di FSDA

Link alla documentazione di FSDA

 

 



 

 

Lucidi delle lezioni (a.a. 2023/2024)

Settimana I:  introduzione al corso, introduzione a MATLAB. Tipologia di variabili: array numerici, characters, string, table, struct. Importazione di file tramite tasks. Creazione di plot tramite tasks.

Settimana II: Logica condizionale, cicli for e while, operazioni matriciali, espansione implicita, matrice degli scostamenti dalla media, matrice degli scostamenti standardizzati. Analisi statistiche univariate per variabili qualitative e quantitative. Distribuzioni di frequenze, boxplot con o senza variabile di raggruppamento

Settimana III:Statistiche per sottogruppi. Intervalli di confidenza e riepiloghi avanzati, tabelle pivot tramite la creazione guidata, tabelle pivot avanzate, boxplot in base a più variabili di ragguppamento. Importazione dei dati da una pagina web. Importazione dei dati da una pagina di GitHub. Importazione dati avanzata, rimozione caratteri non numerici nell'importazione. Formato di acquisizione delle variabili durante l'importazione. Collegamenti alle banche date ISTAT e FRED. Gestione delle date. Gestione delle timetable

Settimana IV: Introduzione alle distribuzioni, funzioni di densità, funzioni di ripartizione e quantili. Distribuzione normale (standardizzata), uniforme, T, Chi2 e Weibull. Funzioni normspec, distribspec, makedist e fitdist. Frequenza relativa e probabilità.Distribuzione normale bivariata a componenti indipendenti e dipendenti. Generazione di numeri casuali dalla distribuzione normale bivariata. Introduzione ai valori mancanti e loro gestione. Creazione di report sui valori mancanti e sui valori anomali

 

 

Programma a.a. 2022/2023

 

Terza settimana:  Intervalli di confidenza con o senza variabile di raggruppamento. Tabelle di contingenza e tabelle pivot. Analisi delle distribuzioni: funzione densità, funzione di ripartizione, quantili e generazioni di numeri casuali, da diverse distribuzioni univariate (normale, uniforme, chi quadrato, T di Student). Distribuzione normale bivariata. Analisi preliminari dei dati: gestione dei dati mancanti e dei valori anomali. FIno al capitolo 5

Quarta settimana: Introduzione alla relazione tra due variabili: covarianza e coefficiente di correlazione lineare.  Matrice di covarianze e matrice di correlazione. Test sulla significatività del coefficiente di correlazione. Verifica empirica della distribuzione del test di assenza di correlazione. Correlazione tra i ranghi. Relazione tra correlazione e cograduazione. Correlazione e cograduazione in presenza di missing values. 165-183 del testo.

Le rappresentazioni grafiche per serie storiche univariate (grafici a barre orizzontali, verticali, a linee ed area). Grafici a cascata. Rappresentazioni grafiche per serie storiche bivariate. Grafici ad imbuto. Grafici per la stima della densità (approccio parametrico e non parametrico). Grafici a dispersione personalizzati. Grafici a dispersione con istogrammi o boxplot ai margini con o senza variabile di raggruppamento. Grafici con istogrammi bivariati. Grafici per l'analisi di regressione. Il balloonplot. Matrice dei diagrammi di dispersione (con o senza variabile di raggruppamento). Heatmap, coordinate parallele e rappresentazione iconica. Capitolo 8 del testo

Settimana V

Indici di associazione. Tabelle 2x2, Tabelle IxJ. Misure basate sulla statistica di Pearson. Misure basate sul rapporto dei prodotti incrociati. Indici di associazione basati sulla riduzione dell'errore. Indici di associazione basati sulla riduzione dell'eterogeneità. Indici di associazione per variabili ordinali.

Settimana VI  (parte I)

Algebra lineare avanzata (norme prodotto scalare, forme quadratiche, spazio vettoriale, rango, autovalori e autovettori, proiezioni ortogonali,

Settimana VI  (parte II)

introduzione ai poligoni, distanze e indici di similarità.

 

Settimana VII e prima parte della settimana VIII 

Componenti principali. Approccio basato sulla combinazione lineare delle variabili originarie (lezione del mattino). Approccio basato sulla proiezione dei punti in un sottospazio oppure sulla rappresentazione della matrice originaria con una matrice di rango ridotto. Esempi pratici di applicazione della tecnica delle componenti principali  10/11/2021

 

Settimana VIII (prima parte) 

Introduzione ai profili riga e colonna. Analisi delle corrispondenze, proiezione in un sottospazio di punti che presentano diverso peso nella metrica ponderata. Esempi di utilizzo dell'analisi delle corrispondenze.

Settimana VIII (seconda parte) e Settimana IX 

Introduzione alla classificazione (supervisionata e non supervisionata). Clustering gerarchico e taglio del dendrogramma. Clustering non generarchico. Scelta del numero ottimo di gruppi. Introduzione al  clustering robusto. Cenni sull'analisi testuale.