Questa è una vecchia versione del documento!
Alcune istruzioni esemplificative (cf. http://docs.python.org/2/library/xml.etree.elementtree.html):
import xml.etree.ElementTree as ET tree=ET.parse('testi/ldt-1.5.xml') root=tree.getroot() print root parole=root.findall('.//word') print len(parole) forme_di_populor=root.findall(".//word[@lemma='populor1']") for i in forme_di_populor: print i.tag for i in forme_di_populor: print i.attrib for i in forme_di_populor: print i.text for i in forme_di_populor: print i.attrib['form']
Come ricostruire il testo in forma di lista (r. 6) e tracciare il grafico delle frequenze:
import nltk import xml.etree.ElementTree as ET tree=ET.parse('Testi/ldt-1.5.xml') root=tree.getroot() parole=root.findall('.//word') testo=[i.attrib['form'].lower() for i in parole] fd=nltk.FreqDist(testo) print fd.B(), fd.N() fd.plot(50)