Strumenti Utente

Strumenti Sito


distribuzione_delle_frequenze

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisione Revisione precedente
Prossima revisione
Revisione precedente
distribuzione_delle_frequenze [2021/10/25 14:10]
65.21.180.48 versione precedente ripristinata (2021/06/02 20:07)
distribuzione_delle_frequenze [2024/07/07 18:48] (versione attuale)
admin
Linea 31: Linea 31:
 import re import re
 import matplotlib.pyplot as plt import matplotlib.pyplot as plt
-with open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1'as f: testo = f.read()+f = open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1') 
 +testo = f.read()
 testo=testo[1704:] testo=testo[1704:]
 +
 +# istruzioni per l'affinamento della tokenizzazione
 testo=re.sub("'","' ", testo) testo=re.sub("'","' ", testo)
 testo=re.sub("([^\.]+)([\.,;:\!-]+)","\g<1> \g<2>", testo) testo=re.sub("([^\.]+)([\.,;:\!-]+)","\g<1> \g<2>", testo)
 testo=testo.lower() testo=testo.lower()
 +# fine istruzioni per l'affinamento della tokenizzazione
 +
 testo=testo.split() testo=testo.split()
 fd=[testo.count(i) for i in set(testo)] fd=[testo.count(i) for i in set(testo)]
Linea 60: Linea 65:
  
 <code python frequenze_etichettate_pinocchio.py> <code python frequenze_etichettate_pinocchio.py>
 +import re
 import matplotlib.pyplot as plt import matplotlib.pyplot as plt
-with open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1'as f: testo = f.read() +f = open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1') 
 +testo = f.read() 
 +testo=testo[1704:]
 # istruzioni per l'affinamento della tokenizzazione # istruzioni per l'affinamento della tokenizzazione
 testo=re.sub("'","' ", testo) testo=re.sub("'","' ", testo)
-testo=re.sub("([^\.]+)([\.,;:\!-]+)","\g<1> \g<2>", testo)+testo=re.sub('[\.,;:\-?!]{1}','',testo)#elimina gli interpunti
 testo=testo.lower() testo=testo.lower()
-# fine istruzioni per l'affinamenti della tokenizzazione+# fine istruzioni per l'affinamento della tokenizzazione
  
 testo=testo.split() testo=testo.split()
Linea 79: Linea 86:
 plt.show() plt.show()
 </code> </code>
 +
 +{{::frequenze_etichettate.png?800|}}
distribuzione_delle_frequenze.1635171029.txt.gz · Ultima modifica: 2021/10/25 14:10 da 65.21.180.48