Il codice seguente crea un grafico della crescita del vocabolario nelle prime 10.000 parole del De Catilinae Coniuratione di Gaio Sallustio Crispo (in verde) e di un estratto di 10.000 parole dal Satyricon di Petronio (in blu).
import matplotlib.pyplot as plt import xml.etree.ElementTree as ET xmlfile=ET.parse('testi/ldt-1.5.xml') root=xmlfile.getroot() Sallustio=root.findall('.//sentence[@document_id="Perseus:text:2008.01.0002"]//word') Petronio=root.findall('.//sentence[@document_id="Perseus:text:2007.01.0001"]//word') testoa=[i.attrib['form'].lower() for i in Sallustio] testob=[i.attrib['form'].lower() for i in Petronio] testoa=testoa[:10000] testob=testob[:10000] crescitaa=[len(set(testoa[:i+1])) for i in range(10000)] crescitab=[len(set(testob[:i+1])) for i in range(10000)] plt.plot(range(1,10001),crescitaa, 'g-') plt.plot(range(1,10001),crescitab, 'b-') plt.show()
Dovrebbe prodursi un grafico di questo tipo: