%% Esercizio
% Estrarre il testo presente nel file parole.pdf (tramite la funzione) extractFileText
% di Text Analytics toolbox.
% Generale la nuvola di etichette (tramite la funzione wordcloud)
% https://it.wikipedia.org/wiki/Nuvola_di_etichette

% Effettuare la tokenizzazione (analisi lessicale) del documento
% https://it.wikipedia.org/wiki/Analisi_lessicale

% Eliminare dal documento le "stop words"
% Words like "a", "and", "to", and "the" (known as stop words) can add
% noise to data. Use this function to remove stop words before analysis.
% Suggerimento: utilizzare la funzione removeStopWords

% Costruire la distribuzione di frequenza delle 10 parole più utilizzate
% nel documento (ignorare le maiuscole/minuscole)

%% Soluzione
% La funzione extractFileText del TextAnalytics toolbox estrae il testo da
% file pds, word, txt
str = extractFileText("parole.pdf");
figure

% La funzione wordcloud genera la nuvola di etichette
wordcloud(str);

% Effettuare l'analisi lessicale del documento (tokenizzazione)
% https://it.wikipedia.org/wiki/Analisi_lessicale
documents = tokenizedDocument(str);

% la funzione removeStopWords elimina le stop words ecc...
% Words like "a", "and", "to", and "the" (known as stop words) can add
% noise to data. Use this function to remove stop words before analysis.
documents = removeStopWords(documents);

% tdetails contiene il dettaglio su come viene classificata ogni parola
tdetails = tokenDetails(documents);


bag = bagOfWords(documents); 
% bag.Vocabulary contiene le parole presenti nel documento
% bag.Counts il numero di volte in cui ogni parola appare nel documento

% La funzione Removewords rimuove esplicitamente alcune parole
% Con l'istruzione di seguito vado a rimuovere la virgola
bag=removeWords(bag,',');

% topkwords = distribuzione di frequenze delle parole più utilizzate 
T = topkwords(bag,10,'IgnoreCase',true);