Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.
| Entrambe le parti precedenti la revisione Revisione precedente | |||
|
prime_operazioni_con_le_espressioni_regolari [2021/10/25 14:05] 65.21.180.48 versione precedente ripristinata (2021/05/20 07:21) |
prime_operazioni_con_le_espressioni_regolari [2021/10/29 21:23] (versione attuale) deleteme versione precedente ripristinata (2021/06/02 20:16) |
||
|---|---|---|---|
| Linea 1: | Linea 1: | ||
| ====== Prime operazioni con le espressioni regolari ====== | ====== Prime operazioni con le espressioni regolari ====== | ||
| - | <code python | + | <code python |
| # -*- coding: utf-8 -*- | # -*- coding: utf-8 -*- | ||
| import re | import re | ||
| - | import nltk | ||
| - | frase=u"Se c'è qualcuno, p. es. un nativo di Creta, che dice di mentire, quel qualcuno sta mentendo. Parola di mentitore." | + | frase=" |
| - | print frase | + | print(frase) |
| frase=re.sub("'","' | frase=re.sub("'","' | ||
| - | print frase | + | print(frase) |
| frase=re.sub(" | frase=re.sub(" | ||
| - | print frase | + | print(frase) |
| frase=re.sub(" | frase=re.sub(" | ||
| - | print frase | + | print(frase) |
| frase=frase.lower() | frase=frase.lower() | ||
| - | print frase | + | print(frase) |
| frase=frase.split() | frase=frase.split() | ||
| - | print frase | + | print(frase) |
| - | + | ||
| - | fd=nltk.FreqDist(frase) | + | |
| - | fd.plot() | + | |
| </ | </ | ||
| Linea 31: | Linea 27: | ||
| ---- | ---- | ||
| Operazioni analoghe possono essere applicate a un testo letto da un file. La r. 6 taglia i primi caratteri del testo, che rappresentano il frontespizio dell' | Operazioni analoghe possono essere applicate a un testo letto da un file. La r. 6 taglia i primi caratteri del testo, che rappresentano il frontespizio dell' | ||
| - | <code python > | + | <code python |
| - | import codecs | + | |
| import re | import re | ||
| - | import nltk | + | f = open('testi/ |
| - | file=codecs.open('Testi/ | + | testo = f.read() |
| testo=file.read() | testo=file.read() | ||
| - | testo=testo[1758:] | + | testo=testo[1704:] |
| testo=re.sub("'","' | testo=re.sub("'","' | ||
| testo=re.sub(' | testo=re.sub(' | ||
| Linea 43: | Linea 38: | ||
| testo=testo.lower() | testo=testo.lower() | ||
| testo=testo.split() | testo=testo.split() | ||
| - | fd=nltk.FreqDist(testo) | ||
| - | fd.plot(50) | ||
| </ | </ | ||
| Linea 50: | Linea 43: | ||
| ---- | ---- | ||
| - | Con le istruzioni seguenti gli interpunti vengono eliminati anziché considerati come parole grafiche. | + | Con le istruzioni seguenti gli interpunti vengono eliminati anziché |
| - | <code python | + | <code python> |
| - | import codecs | + | |
| import re | import re | ||
| - | import nltk | + | f = open('testi/ |
| - | file=codecs.open('Testi/ | + | testo = f.read() |
| - | testo=file.read() | + | testo=testo[1704:] |
| - | testo=testo[1758:] | + | |
| testo=re.sub("'","' | testo=re.sub("'","' | ||
| testo=re.sub(' | testo=re.sub(' | ||
| testo=testo.lower() | testo=testo.lower() | ||
| testo=testo.split() | testo=testo.split() | ||
| - | fd=nltk.FreqDist(testo) | ||
| - | fd.plot(50) | ||
| </ | </ | ||
| Linea 72: | Linea 61: | ||
| Per far sì che solo le maiuscole precedute da punto e spazio vengano convertite in minuscole occorre definire una funzione (qui denominata toLowercase): | Per far sì che solo le maiuscole precedute da punto e spazio vengano convertite in minuscole occorre definire una funzione (qui denominata toLowercase): | ||
| - | <code python | + | <code python> |
| import re | import re | ||
| - | import nltk | ||
| def toLowercase(matchobj): | def toLowercase(matchobj): | ||
| return matchobj.group(0).lower() | return matchobj.group(0).lower() | ||
| - | frase=u"Se c'è qualcuno, p. es. un nativo di Creta, che dice di mentire, quel qualcuno sta mentendo. Parola di mentitore." | + | frase=" |
| - | print frase | + | print(frase) |
| frase=re.sub("'","' | frase=re.sub("'","' | ||
| - | print frase | + | print(frase) |
| frase=re.sub(" | frase=re.sub(" | ||
| - | print frase | + | print(frase) |
| frase=re.sub(" | frase=re.sub(" | ||
| - | print frase | + | print(frase) |
| frase=re.sub(" | frase=re.sub(" | ||
| - | print frase | + | print(frase) |
| frase=frase.split() | frase=frase.split() | ||
| - | print frase | + | print(frase) |
| - | + | ||
| - | fd=nltk.FreqDist(frase) | + | |
| - | fd.plot() | + | |
| - | frase_bis=u"Se c'è qualcuno, p.es. Epimenide, che dice di mentire, quel qualcuno sta mentendo. Parola di mentitore." | + | frase_bis=" |
| </ | </ | ||