Copiate nella cartella “testi” la cartella “UD_Coptic-Scriptorium-master” scaricabile in formato compresso da questo link (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).
Nel formato “Universal Dependencies” (https://universaldependencies.org) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):
15 ⲕ ⲛⲧⲟⲕ PRON PPERS Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs 16 nsubj _ _ 33 ⲭⲣⲓⲥⲧⲟⲥ ⲭⲣⲓⲥⲧⲟⲥ NOUN N Foreign=Yes 30 nmod _ Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc
Disponendo in verticale i campi abbiamo:
1) 15 #posizione della parola unita' nella frase 2) ⲕ #significante grafico della parola unita' 3) ⲛⲧⲟⲕ #lessema 4) PRON #parte del discorso secondo una classificazione universale 5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame 6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali 7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente 8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject") 9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 10) _ #altre note 1) 33 #posizione della parola unita' nella frase 2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita' 3) ⲭⲣⲓⲥⲧⲟⲥ #lessema 4) NOUN #parte del discorso secondo una classificazione universale 5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame 6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale) 7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente 8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier") 9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note
Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:
# sent_id = shenoute_fox-XH204-216_s0006
Esempio di frase completa:
# sent_id = shenoute_a22-a22_YA421-428_s0021 # text_en = ... # text = ⲁⲩⲱ ⲉⲩⲧⲛⲧⲱⲛ ⲉⲡⲟⲩⲟⲉⲓⲛ ⲙⲡⲉϩⲟⲟⲩ · 1 ⲁⲩⲱ ⲁⲩⲱ CCONJ CONJ _ 4 cc _ _ 2-4 ⲉⲩⲧⲛⲧⲱⲛ _ _ _ _ _ _ _ _ 2 ⲉ ⲉⲣⲉ PART CFOC _ 4 mark _ _ 3 ⲩ ⲛⲧⲟⲟⲩ PRON PPERS Definite=Def|Number=Plur|Person=3|PronType=Prs 4 nsubj _ _ 4 ⲧⲛⲧⲱⲛ ⲧⲟⲛⲧⲛ VERB VSTAT Mood=Ind|VerbForm=Fin 0 root _ Orig=ⲧ︤ⲛ︥ⲧⲱⲛ` 5-7 ⲉⲡⲟⲩⲟⲉⲓⲛ _ _ _ _ _ _ _ _ 5 ⲉ ⲉ ADP PREP _ 7 case _ _ 6 ⲡ ⲡ DET ART Definite=Def|Gender=Masc|Number=Sing|PronType=Art 7 det _ Entity=(abstract 7 ⲟⲩⲟⲉⲓⲛ ⲟⲩⲟⲉⲓⲛ NOUN N _ 4 obl _ _ 8-10 ⲙⲡⲉϩⲟⲟⲩ _ _ _ _ _ _ _ _ 8 ⲙ ⲛ ADP PREP _ 10 case _ Orig=ⲙ̄ 9 ⲡⲉ ⲡ DET ART Definite=Def|Gender=Masc|Number=Sing|PronType=Art 10 det _ Entity=(time 10 ϩⲟⲟⲩ ϩⲟⲟⲩ NOUN N _ 7 nmod _ Entity=time)abstract)|Orig=ϩⲟⲟⲩ` 11 · · PUNCT PUNCT _ 4 punct _ _