Strumenti Utente

Strumenti Sito


ud_treebank

Struttura di un treebank “Universal Dependencies”

Scaricare il treebank di copto

Copiate nella cartella “testi” la cartella “UD_Coptic-Scriptorium-master” scaricabile in formato compresso da questo link (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).

Struttura dei record

Nel formato “Universal Dependencies” (https://universaldependencies.org) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):

15	ⲕ	ⲛⲧⲟⲕ	PRON	PPERS	Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs	16	nsubj	_	_


33	ⲭⲣⲓⲥⲧⲟⲥ	ⲭⲣⲓⲥⲧⲟⲥ	NOUN	N	Foreign=Yes	30	nmod	_	Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc

Disponendo in verticale i campi abbiamo:

  1. posizione della parola unita' nella frase;
  2. significante grafico della parola unità;
  3. lessema;
  4. parte del discorso secondo una classificazione universale;
  5. parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame;
  6. insieme di sottocampi comprendente i valori delle categorie grammaticali;
  7. posizione nella frase della parola da cui la parola in esame dipende sintatticamente;
  8. relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente;
  9. campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica;
  10. altre note.
1) 15 #posizione della parola unita' nella frase
2)#significante grafico della parola unita'
3) ⲛⲧⲟⲕ	#lessema
4) PRON	#parte del discorso secondo una classificazione universale
5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali
7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 
10) _ #altre note 
 
 
1) 33 #posizione della parola unita' nella frase
2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita'
3) ⲭⲣⲓⲥⲧⲟⲥ #lessema
4) NOUN #parte del discorso secondo una classificazione universale
5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale)
7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica
10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note 

Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:

# sent_id = shenoute_fox-XH204-216_s0006
ud_treebank.txt · Ultima modifica: 2021/10/29 21:15 da deleteme