Struttura di un treebank “Universal Dependencies”

Scaricare il treebank di copto

Copiate nella cartella “testi” la cartella “UD_Coptic-Scriptorium-master” scaricabile in formato compresso da questo link (si veda il file LICENSE.txt per riferimenti e condizioni di utilizzo).

Struttura dei record

Nel formato “Universal Dependencies” (https://universaldependencies.org) i record relativi alle singole parole unità corrispondono a singoli righi di testo con campi separati da TAB (caratteri di tabulazione), esemplificato dai record seguenti (tratti in particolare dal corpus di copto menzionato sopra):

15	ⲕ	ⲛⲧⲟⲕ	PRON	PPERS	Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs	16	nsubj	_	_


33	ⲭⲣⲓⲥⲧⲟⲥ	ⲭⲣⲓⲥⲧⲟⲥ	NOUN	N	Foreign=Yes	30	nmod	_	Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc

Disponendo in verticale i campi abbiamo:

posizione della parola unita' nella frase;
significante grafico della parola unità;
lessema;
parte del discorso secondo una classificazione universale;
parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame;
insieme di sottocampi comprendente i valori delle categorie grammaticali;
posizione nella frase della parola da cui la parola in esame dipende sintatticamente;
relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente;
campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica;
altre note.

1) 15 #posizione della parola unita' nella frase
2) ⲕ #significante grafico della parola unita'
3) ⲛⲧⲟⲕ	#lessema
4) PRON	#parte del discorso secondo una classificazione universale
5) PPERS #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Definite=Def|Gender=Masc|Number=Sing|Person=2|PronType=Prs #insieme di sottocampi comprendente i valori delle categorie grammaticali
7) 16 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nsubj #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal subject")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica 
10) _ #altre note 
 
 
1) 33 #posizione della parola unita' nella frase
2) ⲭⲣⲓⲥⲧⲟⲥ #significante grafico della parola unita'
3) ⲭⲣⲓⲥⲧⲟⲥ #lessema
4) NOUN #parte del discorso secondo una classificazione universale
5) N #parte del discorso secondo una classificazione elaborata specificamente per la lingua in esame
6) Foreign=Yes #insieme di sottocampi comprendente i valori delle categorie grammaticali (qui contiene un valore relativo allo strato lessicale)
7) 30 #posizione nella frase della parola da cui la parola in esame dipende sintatticamente
8) nmod #relazione sintattica tra la parola in esame e la parola da cui essa dipende sintatticamente (qui "nominal modifier")
9) _ #campo eventualmente utilizzabile per l'indicazione combinata della posizione della parola reggente e della relazione sintattica
10) Entity=person)person)|Orig=ⲭ︤ⲥ︥|OrigLang=grc #altre note

Inoltre all'inizio di ogni frase figura un rigo recante il codice identificativo della frase stessa. P. es:

# sent_id = shenoute_fox-XH204-216_s0006

Linguistica computazionale

Barra laterale

Contenuti

Indice

Struttura di un treebank “Universal Dependencies”

Scaricare il treebank di copto

Struttura dei record

Linguistica computazionale

Strumenti Utente

Strumenti Sito

Barra laterale

Contenuti

Indice

Struttura di un treebank “Universal Dependencies”

Scaricare il treebank di copto

Struttura dei record

Strumenti Pagina