%% Testo % 1) Caricare le variabili "retta" e "affiliazione" presenti nel file di % Excel UnivUSAanova.xlsx. % 2) rimuovere in maniera listwise le righe del dataset che presentano % valori mancanti % 3) Costruire la distribuzione di frequenze della variabile % classificatoria "affiliazione". % % 4) Calcolare tramite la funzione grpstats il conteggio, la media, la % standard deviation della retta pagata ed un intervallo di confidenza al % 99 per cento della media dell'universo per ogni modalità della variabile % classificatoria. % % Verificare la proprietà associativa della media aritmetica % Calcolare la varianza tra i gruppi (VARfra) e la varianza nei gruppi % (VARnei) % % % 5) Analizzare la distribuzione della retta pagata tramite boxplot nei 3 % strati della variabile classificatoria ("Clero" "Stato" "Privati"). % % 6) Tramite la funzione di MATLAB anova1 testare l'ipotesi che le rette % medie per iscriversi a scuole statali, private o del clero non % differiscano tra loro significativamente. Calcolare e commentare il % p-value del test. Commentare il risultato del test. % % 7) Calcolare il rapporto di correlazione (rapporto tra la VARfra e la % VARtot) % % 8) Rappresentare graficamente i 3 intervalli di confidenza al 99 per % cento della retta pagata nei 3 strati. Suggerimento: utilizzare la % funzione grpstats. %% Soluzione % 1) Caricamento dati da file di Excel % Oservazione: carico dentro Matlab solo la zona che contiene le due % variabili "retta" e "affiliazione" SheetName = "UnivUSA"; Range = "K1:L251"; Y = readtable("UnivUSAanova.xlsx",'Sheet',SheetName,'Range',Range,'ReadRowNames',false); %% 2) Rimozione valori mancanti (in maniera listwise) [X,indexmissX]=rmmissing(Y); % conta i missing di X % sum(indexmissX) %% 3) Costruire la distribuzione di frequenze della variabile % classificatoria "affiliazione". tabulate(X.affiliazione) % 4) Calcolare tramite la funzione grpstats il conteggio, la media, la % standard deviation della retta pagata ed un intervallo di confidenza al % 99 per cento della media dell'universo per ogni modalità della variabile % classificatoria. % % Verificare la proprietà associativa della media aritmetica % Calcolare la varianza tra i gruppi (VARfra) e la varianza nei gruppi % (VARnei) % Osservazione: con le espressioni std e var si intendono la standard % deviation e la varianza corrette. meanci specifica che vogliamo anche % l'intervallo di confidenza. % Se non si specifica il livello di confidenza MATLAB per default propone % intervalli di confidenza al 95 per cento. X1=grpstats(X,'affiliazione',{'mean' 'std' 'var' 'meanci'},'Alpha',0.01); disp('Calcolo statistiche descrittive e intervalli di confidenza al 99 per cento delle medie') disp(X1) n=size(X,1); % Varianza nei gruppi VARnei=sum(X1{:,'var_retta'}.*(X1{:,'GroupCount'}-1))/n; DEVneiCalcoltaManualmente=VARnei*n; % Media generale della variabile retta MediaGenerale=mean(X{:,'retta'}); % Media generale utilizzando la proprietà associativa della media % aritmetica MediaGeneraleCHK=sum(X1{:,'mean_retta'}.*(X1{:,'GroupCount'})/n); disp('Differenza nel calcolo della media con i due metodi') disp(MediaGenerale-MediaGeneraleCHK) % Varianza tra i gruppi VARfra=sum((X1{:,'mean_retta'}-MediaGenerale).^2.*(X1{:,'GroupCount'}))/n; DEVfraCalcoltaManualmente=VARfra*n; %% Analisi preliminare tramite boxplot % 5) Analizzare la distribuzione della retta pagata tramite boxplot nei 3 % strati della variabile classificatoria ("Clero" "Stato" "Privati"). boxplot(X.retta,X.affiliazione); %% 6) Test ANOVA di uguaglianza delle medie % Tramite la funzione di MATLAB anova1 testare l'ipotesi che le rette % medie per iscriversi a scuole statali, private o del clero non % differiscano tra loro significativamente. Calcolare e commentare il % p-value del test. Commentare il risultato del test. % % Analisi ANOVA [pval,anovatab,stats]=anova1(X.retta,X.affiliazione); % Commento: il p-value è molto basso di conseguenza rifiuto decisamente % l'ipotesi di uguaglianza delle tre medie nell'universo. %% Calcolo del rapporto di correlazione % 7) Calcolare il rapporto di correlazione (rapporto tra la VARfra e la % VARtot) DEVfra=anovatab{2,2}; DEVnei=anovatab{3,2}; disp('Il rapporto di correlazione è pari a') disp(DEVfra/(DEVfra+DEVnei)) % Commento: le differenze tra le medie dei gruppi spiegano oltre il 72% % della variabilità totale. %% Rappresentazione grafica intervalli di confidenza al 99 per cento % 8) Rappresentare graficamente i 3 intervalli di confidenza al 99 per % cento della retta pagata nei 3 strati. Suggerimento: utilizzare la % funzione grpstats. % % Dall'help di grpstats % grpstats(X,group,alpha) plots the means of the groups of data in the % vector or matrix X determined by the values of the grouping variable, % group. The grouping variable values are on the horizontal plot axis. Each % group mean has 100×(1 – alpha) per cent confidence intervals. % Osservazione: gli intervalli di confidenza utilizzano i quantili della % v.v. T di Student (e non quelli della normale) grpstats(X.retta,X.affiliazione,0.01);