====== Struttura di un treebank “Universal Dependencies” ======
===== Scaricare il treebank di copto =====
Copiate nella cartella "testi" la cartella "UD_Coptic-Scriptorium-master" scaricabile in formato compresso da questo [[https://github.com/UniversalDependencies/UD_Coptic-Scriptorium/archive/refs/heads/master.zip|link]] (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).
===== Struttura dei record =====
Nel formato “Universal Dependencies” ([[https://universaldependencies.org]]) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):
15 ⲕ ⲛⲧⲟⲕ PRON PPERS Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs 16 nsubj _ _
33 ⲭⲣⲓⲥⲧⲟⲥ ⲭⲣⲓⲥⲧⲟⲥ NOUN N Foreign=Yes 30 nmod _ Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc
Disponendo in verticale i campi abbiamo:
- posizione della parola unita' nella frase;
- significante grafico della parola unità;
- lessema;
- parte del discorso secondo una classificazione universale;
- parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame;
- insieme di sottocampi comprendente i valori delle categorie grammaticali;
- posizione nella frase della parola da cui la parola in esame dipende sintatticamente;
- relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente;
- campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica;
- altre note.
1) 15 #posizione della parola unita' nella frase
2) ⲕ #significante grafico della parola unita'
3) ⲛⲧⲟⲕ #lessema
4) PRON #parte del discorso secondo una classificazione universale
5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali
7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica
10) _ #altre note
1) 33 #posizione della parola unita' nella frase
2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita'
3) ⲭⲣⲓⲥⲧⲟⲥ #lessema
4) NOUN #parte del discorso secondo una classificazione universale
5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale)
7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica
10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note
Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:
# sent_id = shenoute_fox-XH204-216_s0006