Copiate nella cartella “testi” la cartella “UD_Coptic-Scriptorium-master” scaricabile in formato compresso da questo link (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).
Nel formato “Universal Dependencies” (https://universaldependencies.org) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):
15 ⲕ ⲛⲧⲟⲕ PRON PPERS Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs 16 nsubj _ _ 33 ⲭⲣⲓⲥⲧⲟⲥ ⲭⲣⲓⲥⲧⲟⲥ NOUN N Foreign=Yes 30 nmod _ Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc
Disponendo in verticale i campi abbiamo:
1) 15 #posizione della parola unita' nella frase 2) ⲕ #significante grafico della parola unita' 3) ⲛⲧⲟⲕ #lessema 4) PRON #parte del discorso secondo una classificazione universale 5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame 6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali 7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente 8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject") 9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 10) _ #altre note 1) 33 #posizione della parola unita' nella frase 2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita' 3) ⲭⲣⲓⲥⲧⲟⲥ #lessema 4) NOUN #parte del discorso secondo una classificazione universale 5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame 6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale) 7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente 8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier") 9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note
Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:
# sent_id = shenoute_fox-XH204-216_s0006