La marcatura in XML-TEI

Documenti epistolari e schema TEI-XML: l’annotazione dei modelli del FM in ARACNE

La marcatura in XML-TEI

Nell’ambito del “Programma Operativo Nazionale Ricerca e Innovazione 2011-2020: Dottorati innovativi a caratterizzazione industriale – XXXIV ciclo” che ha finanziato la ricerca dottorale, si colloca l’edizione critica digitale che si offre in questo portale.

L’edizione, ospitata anche nella collana Digital Humanities della Basilicata University Press (BUP) [1], è stata arricchita con un’annotazione dei testi in XML, acronimo di eXtensible Markup Language, linguaggio di marcatura che fa riferimento a un insieme di norme sintattiche elaborate dal World Wide Web Consortium (W3C). Nel nostro caso, tale lavoro di codifica è stato agevolato dall’ausilio del software open access ARACNE, un framework in XQuery per la gestione e pubblicazione di collezioni di documenti in TEI-XML funzionante all’interno dell’application server per database nativi XML, eXist-db, realizzato da Alfredo Cosco [2].

Prima di entrare nel dettaglio dell’edizione digitale, si rendono necessarie alcune considerazioni preliminari sul linguaggio di marcatura utilizzato per l’annotazione dei nostri documenti.

La marcatura TEI-XML è lo schema di codifica di tipo dichiarativo ormai riconosciuto dalla comunità scientifico-accademica come standard per l’annotazione e la rappresentazione digitale di contenuti di ambito umanistico. La TEI, acronimo di Text Encoding Initiative, si pone l’obiettivo di fornire uno standard definitivo per l’annotazione di questa tipologia di materiali, ponendo così un freno al proliferare di schemi sorti negli anni non sempre tra loro del tutto compatibili. I lavori di definizione di questo markup language sono iniziati nel 1989, e hanno portato alla realizzazione di una complessa Document Type Definition, presentata per la prima volta nel 1994 con il titolo “Guidelines for Electronic Text Encoding and Interchange” (TEI P3). Le linee guida – applicabili sia per la creazione sia per lo scambio di risorse – rappresentano un valido mezzo per esplicitare le caratteristiche di un testo in modo da agevolarne il trattamento nelle varie piattaforme. L’intero “vocabolario” TEI, composto da elementi e attributi, è raccolto in un poderoso volume liberamente scaricabile dal sito del consorzio che ne cura lo sviluppo: <https://tei-c.org>. L’uso di questo linguaggio, oltre a costituire una «valida strategia di mantenimento dell’informazione sulla lunga durata» [3], favorisce e amplifica le possibilità di interrogazione del testo grazie alla marcatura logica delle informazioni di cui esso è latore. Dal punto di vista delle logiche di funzionamento dell’elaboratore, infatti, «l’introduzione di “marcatori” all’interno di un testo ha lo scopo di indicare ai programmi incaricati di decodificarli il modo in cui la parte di testo marcata deve essere interpretata ed eventualmente trattata» [4]. Codificare un testo significa, detto più semplicemente, aggiungere dei tag che permettano di esplicitare sia elementi strutturali che elementi di layout del documento, in modo tale che la macchina possa riconoscerne il contenuto [5].

Anche se parte del processo di marcatura in ARACNE è automatizzato, in prima battuta è stato necessario definire uno schema base per l’XML da incorporare all’interno del software, che assecondasse la tipologia di documento da sottoporre a trattamento informatico. Il modello epistolare presenta infatti una serie di peculiarità di tipo paratestuale, contenutistico, retorico, il cui contenuto informativo, nel contesto di un’edizione critica di tipo digitale, deve essere registrato ed evidenziato puntualmente.

Documenti epistolari e schema TEI-XML: l’annotazione dei modelli del FM in ARACNE

Ciascun testo annotato secondo lo schema TEI si compone di due elementi: un <teiHeader> e un <text>. Il <teiHeader>, l’intestazione, cioè, di un testo codificato in TEI, racchiude i metadati del documento elettronico relativi alla descrizione bibliografica del testo e della fonte di riferimento, la tipologia e le modalità della codifica. In ARACNE, l’inserimento dei dati relativi al <teiHeader> è possibile attraverso una procedura interamente automatizzata: la raccolta di queste informazioni, cioè, avviene semplicemente completando le voci relative all’interno di una maschera predisposta a tale scopo. Il sistema procede, poi, ad attribuire autonomamente a esse dei tag specifici.

Elemento obbligatorio nel <teiHeader> è <fileDesc> (file description), che consente una descrizione bibliografica sia del documento elettronico che della fonte dalla quale è stato ricavato. Esso può articolarsi in più sotto elementi, dei quali tre sono a loro volta obbligatori: <titleStmt> (titolo del documento), <publicationStmt> (informazioni relative a casa editrice, luogo e data di pubblicazione), e <sourceDesc> (descrizione della fonte).

In ARACNE, tutte le informazioni raccolte sotto l’etichetta <publicationStmt> sono stabilite a monte, sicché non sarà necessario reintrodurle a ogni nuovo inserimento.

Per quanto riguarda l’etichetta <titleStmt>, invece, ARACNE consente un inserimento semplificato per i tag <title>, relativo al nome del documento, che, nel nostro caso, equivarrà alla rubrica di apertura di ciascun modello, e <author>, che sarà ovviamente Bartolomeo Miniatore.

I campi dedicati agli editori critici, annotati sotto il tag <resp>, sono invece completati in automatico dal programma.

Venendo al tag associato alla descrizione della fonte, vale a dire <sourceDesc> (source description), si dovranno aggiungere manualmente, all’interno di una maschera di inserimento predisposta in ARACNE a tale scopo, dettagli circa il codice (<bibl type=“source”>), il cronologico del modello all’interno della raccolta (<msDesc>), e le carte del manoscritto che lo trasmettono (<physDesc>). È inoltre ancora possibile aggiungere una breve sintesi del componimento (<summary>), marcato all’interno di questo campo con il tag <p> (paragraph).

Per quanto riguarda il secondo degli elementi obbligatori di un documento annotato secondo lo schema TEI, e cioè, come si è visto in principio, il TEI <text>, l’associazione dei tag alle relative parti del testo sarà, invece, parzialmente manuale, anche se risulterà facilitato in ARACNE da un prototipo di schema che comprende l’utilizzo di alcuni tra i marcatori più diffusi, quali, ad esempio: <p>, <dateline>, <date>, <geogName>, <list>, <orgName>, <persName>, <placeName>, <roleName> e <span> [6]. Infatti, aprendo il tag attraverso il simbolo della parentesi uncinata (“<”), il software restituisce in automatico «la lista dei marcatori utilizzabili in quel contesto, degli attributi ammessi per il marcatore scelto e, in caso di attributi a campo fisso, una lista dei valori utilizzabili» [7].

Il corpo del testo del modello da editare (<body>) è stato suddiviso in una serie di sezioni (<div>) corrispondenti alle parti canoniche dell’epistola: rubrica (<div type=“rubrica”>), salutatio (<div type=“salutatio”/>), inscriptio (<div type=“inscriptio”/>), exordium (<div type=“exordium”>), narratio (<div type=“narratio”>), petitio (<div type=“petitio”>), conclusio (<div type=“conclusio”/>), datatio (<div type=“datatio”/>), nota (<div type=“nota”/>).

L’epistola è stata inoltre suddivisa in ulteriori sottoparagrafi numerati (es. <p n=“1”>, ai quali si è dato risalto attraverso il tag <hi rend=“bold”> che consente infatti di marcare in grassetto il cronologico di tale sezione; in corsivo, invece, si è resa la rubrica, ricorrendo, per questa operazione, al al tag <hi rend=“italic”>. Il tag <hi> (highlight) è infatti un marcatore utilizzato per indicare una parola o una frase graficamente distinta dal testo circostante, mentre l’attributo <rend=“”> ne caratterizza, invece la resa testuale.

Infine, se marcati adeguatamente, ARACNE è in grado di creare in automatico degli indici statici di nomi, luoghi e ruoli menzionati nel testo, estraendo dai modelli gli elementi annotati con i seguenti tag: <persName>, <roleName>, <placeName>.

Note

[1] Cfr. C. Amendola, Editoria universitaria, open access e nuove frontiere del lavoro umanistico cit.

[2] A. Cosco, Aracne versione 1.0. Manuale di installazione e uso, disponibile in rete al sito < https://www.academia.edu/39310473/Aracne_1_0>.

[3] F. Tomasi, Rappresentare e conservare, in L’umanista digitale, a c. di T. Numerico, D. Fieramonte, F. Tomasi, Bologna 2010, pp. 119-164: 130.

[4] G. Crupi, Biblioteca digitale, in Biblioteche e biblioteconomia: principi e questioni, a c. di G. Solimine e P. G. Weston, Roma 2015, pp. 373-417: 395.

[5] F. Tomasi, Rappresentare e conservare cit., p. 130.

[6] A. Cosco, Aracne versione 1.0 cit., p. 10.

[7] Ibidem.

Report abuse