Strumenti Utente

Strumenti Sito


ud_treebank

Struttura di un treebank “Universal Dependencies”

Scaricare il treebank di copto

Copiate nella cartella “testi” la cartella “UD_Coptic-Scriptorium-master” scaricabile in formato compresso da questo link (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).

Struttura dei record

Nel formato “Universal Dependencies” (https://universaldependencies.org) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):

15	ⲕ	ⲛⲧⲟⲕ	PRON	PPERS	Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs	16	nsubj	_	_


33	ⲭⲣⲓⲥⲧⲟⲥ	ⲭⲣⲓⲥⲧⲟⲥ	NOUN	N	Foreign=Yes	30	nmod	_	Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc

Disponendo in verticale i campi abbiamo:

  1. posizione della parola unita' nella frase;
  2. significante grafico della parola unità;
  3. lessema;
  4. parte del discorso secondo una classificazione universale;
  5. parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame;
  6. insieme di sottocampi comprendente i valori delle categorie grammaticali;
  7. posizione nella frase della parola da cui la parola in esame dipende sintatticamente;
  8. relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente;
  9. campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica;
  10. altre note.
1) 15 #posizione della parola unita' nella frase
2)#significante grafico della parola unita'
3) ⲛⲧⲟⲕ	#lessema
4) PRON	#parte del discorso secondo una classificazione universale
5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali
7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 
10) _ #altre note 
 
 
1) 33 #posizione della parola unita' nella frase
2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita'
3) ⲭⲣⲓⲥⲧⲟⲥ #lessema
4) NOUN #parte del discorso secondo una classificazione universale
5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale)
7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica
10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note 

Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:

# sent_id = shenoute_fox-XH204-216_s0006

Esempio di frase completa:

# sent_id = shenoute_a22-a22_YA421-428_s0021
# text_en = ...
# text = ⲁⲩⲱ ⲉⲩⲧⲛⲧⲱⲛ ⲉⲡⲟⲩⲟⲉⲓⲛ ⲙⲡⲉϩⲟⲟⲩ ·
1	ⲁⲩⲱ	ⲁⲩⲱ	CCONJ	CONJ	_	4	cc	_	_
2-4	ⲉⲩⲧⲛⲧⲱⲛ	_	_	_	_	_	_	_	_
2	ⲉ	ⲉⲣⲉ	PART	CFOC	_	4	mark	_	_
3	ⲩ	ⲛⲧⲟⲟⲩ	PRON	PPERS	Definite=Def|Number=Plur|Person=3|PronType=Prs	4	nsubj	_	_
4	ⲧⲛⲧⲱⲛ	ⲧⲟⲛⲧⲛ	VERB	VSTAT	Mood=Ind|VerbForm=Fin	0	root	_	Orig=ⲧ︤ⲛ︥ⲧⲱⲛ`
5-7	ⲉⲡⲟⲩⲟⲉⲓⲛ	_	_	_	_	_	_	_	_
5	ⲉ	ⲉ	ADP	PREP	_	7	case	_	_
6	ⲡ	ⲡ	DET	ART	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	7	det	_	Entity=(abstract
7	ⲟⲩⲟⲉⲓⲛ	ⲟⲩⲟⲉⲓⲛ	NOUN	N	_	4	obl	_	_
8-10	ⲙⲡⲉϩⲟⲟⲩ	_	_	_	_	_	_	_	_
8	ⲙ	ⲛ	ADP	PREP	_	10	case	_	Orig=ⲙ̄
9	ⲡⲉ	ⲡ	DET	ART	Definite=Def|Gender=Masc|Number=Sing|PronType=Art	10	det	_	Entity=(time
10	ϩⲟⲟⲩ	ϩⲟⲟⲩ	NOUN	N	_	7	nmod	_	Entity=time)abstract)|Orig=ϩⲟⲟⲩ`
11	·	·	PUNCT	PUNCT	_	4	punct	_	_
ud_treebank.txt · Ultima modifica: 2026/03/31 12:08 da admin