%% Esercizio % Estrarre il testo presente nel file parole.pdf (tramite la funzione) extractFileText % di Text Analytics toolbox. % Generale la nuvola di etichette (tramite la funzione wordcloud) % https://it.wikipedia.org/wiki/Nuvola_di_etichette % Effettuare la tokenizzazione (analisi lessicale) del documento % https://it.wikipedia.org/wiki/Analisi_lessicale % Eliminare dal documento le "stop words" % Words like "a", "and", "to", and "the" (known as stop words) can add % noise to data. Use this function to remove stop words before analysis. % Suggerimento: utilizzare la funzione removeStopWords % Costruire la distribuzione di frequenza delle 10 parole più utilizzate % nel documento (ignorare le maiuscole/minuscole) %% Soluzione % La funzione extractFileText del TextAnalytics toolbox estrae il testo da % file pds, word, txt str = extractFileText("parole.pdf"); figure % La funzione wordcloud genera la nuvola di etichette wordcloud(str); % Effettuare l'analisi lessicale del documento (tokenizzazione) % https://it.wikipedia.org/wiki/Analisi_lessicale documents = tokenizedDocument(str); % la funzione removeStopWords elimina le stop words ecc... % Words like "a", "and", "to", and "the" (known as stop words) can add % noise to data. Use this function to remove stop words before analysis. documents = removeStopWords(documents); % tdetails contiene il dettaglio su come viene classificata ogni parola tdetails = tokenDetails(documents); bag = bagOfWords(documents); % bag.Vocabulary contiene le parole presenti nel documento % bag.Counts il numero di volte in cui ogni parola appare nel documento % La funzione Removewords rimuove esplicitamente alcune parole % Con l'istruzione di seguito vado a rimuovere la virgola bag=removeWords(bag,','); % topkwords = distribuzione di frequenze delle parole più utilizzate T = topkwords(bag,10,'IgnoreCase',true);