Strumenti Utente

Strumenti Sito


distribuzione_delle_frequenze

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisione Revisione precedente
Prossima revisione
Revisione precedente
distribuzione_delle_frequenze [2021/06/02 20:05]
admin
distribuzione_delle_frequenze [2024/07/07 18:48] (versione attuale)
admin
Linea 31: Linea 31:
 import re import re
 import matplotlib.pyplot as plt import matplotlib.pyplot as plt
-with open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1'as f: testo = f.read()+f = open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1') 
 +testo = f.read()
 testo=testo[1704:] testo=testo[1704:]
 +
 +# istruzioni per l'affinamento della tokenizzazione
 testo=re.sub("'","' ", testo) testo=re.sub("'","' ", testo)
 testo=re.sub("([^\.]+)([\.,;:\!-]+)","\g<1> \g<2>", testo) testo=re.sub("([^\.]+)([\.,;:\!-]+)","\g<1> \g<2>", testo)
 testo=testo.lower() testo=testo.lower()
 +# fine istruzioni per l'affinamento della tokenizzazione
 +
 testo=testo.split() testo=testo.split()
 fd=[testo.count(i) for i in set(testo)] fd=[testo.count(i) for i in set(testo)]
Linea 60: Linea 65:
  
 <code python frequenze_etichettate_pinocchio.py> <code python frequenze_etichettate_pinocchio.py>
 +import re
 import matplotlib.pyplot as plt import matplotlib.pyplot as plt
-with open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1'as f: testo = f.read()+f = open('testi/collodi_pinocchio.txt', mode='r', encoding='iso-8859-1') 
 +testo = f.read() 
 +testo=testo[1704:
 +# istruzioni per l'affinamento della tokenizzazione
 testo=re.sub("'","' ", testo) testo=re.sub("'","' ", testo)
 +testo=re.sub('[\.,;:\-?!]{1}','',testo)#elimina gli interpunti
 testo=testo.lower() testo=testo.lower()
-altre istruzioni per l'affinamento della tokenizzazione +fine istruzioni per l'affinamento della tokenizzazione
-# ...+
  
 testo=testo.split() testo=testo.split()
Linea 77: Linea 86:
 plt.show() plt.show()
 </code> </code>
 +
 +{{::frequenze_etichettate.png?800|}}
distribuzione_delle_frequenze.1622664353.txt.gz · Ultima modifica: 2021/06/02 20:05 da admin