Aiucd 2013 Conference – Padova, December 11-12, 2013
L’Open Philology Project dell’Università di Lipsia. Per una filologia “sostenibile” in un mondo globale
Monica Berti, Giuseppe Celano, Gregory R. Crane, Emily Franzini, Greta Franzini
L’Open Philology Project (OPP) dell’Università di Lipsia aspira a riaffermare il ruolo e il valore della filologia nel senso più ampio del termine. Due secoli fa, nella sua fondamentale opera di ripensamento degli studi classici, il filologo tedesco August Böckh definiva la filologia come universae antiquitatis cognitio historica et philosophica. Prendendo spunto da questa affermazione, s’intende recuperare il significato originario della parola greca philologia, la quale denota lo studio più vasto ed esaustivo possibile delle testimonianze linguistiche al fine di promuovere una conoscenza approfondita dell’esperienza umana. Nel caso specifico, l’obiettivo dell’OPP è quello di concentrare l’attenzione sul greco e sul latino per quattro motivi: 1) sono già disponibili in rete collezioni e strumenti dedicati a queste lingue; 2) esistono comunità di utenti particolarmente numerose (circa 35.000 utenti al mese accedono alle collezioni di fonti greche e latine della Perseus Digital Library); 3) il progetto ha sede in Europa, il cui patrimonio culturale costituisce un bacino naturale per la creazione, lo sviluppo e la distribuzione di materiali pertinenti all’antichità greco-latina; 4) la città di Lipsia vanta una tradizione editoriale e libraria di prim’ordine nel campo della filologia classica – basti pensare alle edizioni critiche di testi greci e latini pubblicate dalla casa editrice Teubner – e si pone dunque come spazio privilegiato per la ridefinizione della filologia nell’ambito degli studi di informatica umanistica.
L’OPP è stato concepito con la speranza di creare un modello applicabile anche allo studio di altre lingue storiche. Più in particolare, esso ha tre obiettivi diversi ma strettamente connessi tra loro: 1) la creazione di una collezione di risorse linguistiche leggibili dalla macchina, le quali siano aperte, estensibili e riutilizzabili; 2) lo sviluppo di manuali dinamici basati su corpora annotati, che permettano di personalizzare il vocabolario e la grammatica dei testi esistenti e coinvolgere gli studiosi e gli studenti a produrre nuove annotazioni in maniera collaborativa; 3) la promozione di nuove forme di pubblicazione, che possono consistere sia in annotazioni individuali argomentate che in edizioni tradizionali integrate con dati elaborabili dalla macchina.
Questi obiettivi sono definiti attraverso le tre componenti dell’OPP:
1. Open Greek and Latin Project
L’Open Greek and Latin Project (OGL) si sta attualmente dedicando alla raccolta e alla scannerizzazione di edizioni di testi classici al fine di realizzare la più grande biblioteca digitale in materia, contribuendo nel contempo all’arricchimento di Google Books. In questo ambito l’OGL riveste anche un ruolo di consulenza sulla legge europea sul diritto d’autore, dato che redige una lista di edizioni europee che Google Books può digitalizzare e offre dunque una tutela contro eventuali cause legali.
Tale raccolta, che è open source e open access, fornisce anzitutto immagini ricercabili di edizioni di testi classici libere dai vincoli del copyright, le quali sono corredate di traduzioni multilingue e codificate secondo lo standard TEI XML (subset EpiDoc). L’obiettivo, infatti, è quello di promuovere lo scambio di dati con altri progetti di respiro internazionale. Più in particolare, l’architettura dell’OGL è concepita per gestire e mettere a disposizione degli utenti edizioni e traduzioni diverse per ogni opera classica prodotta dall’antichità greco-latina, coprendo un arco di tempo che va dall’epoca arcaica al 600 d.C. Questa caratteristica distingue l’OGL dalla maggior parte dei corpora esistenti (i quali prevedono generalmente un’unica edizione per opera) e costituisce un presupposto imprescindibile sul quale fondare edizioni digitali che siano realmente critiche e multitestuali. Per poter realizzare questo obiettivo, l’OGL ha avviato collaborazioni con istituzioni accademiche di altri paesi, tra i quali la Bulgaria (progetti Romulus Bulgaricus e Theseus), la Croazia (Università di Zagabria, Dipartimento di Filologia Classica), la Georgia (Ivane Javakhishvili Tbilisi State University) e il Regno Unito (progetto Hestia). Tale iniziativa vorrebbe naturalmente estendersi anche ad altri paesi europei e primariamente all’Italia, sperando di spostarsi anche su zone meno esplorate come l’Est Europeo e il Medio Oriente.
Lo sforzo intrapreso dall’OGL comporta l’uso di tecnologie OCR al fine di arricchire un corpus potenzialmente già esistente, che sia aperto e sufficientemente ampio da includere i circa 100.000.000 di parole prodotte dai primordi della classicità sino al VII secolo d.C. Vista la natura pubblica e aperta del progetto OGL, il workflow dell’OCR è stato progettato con interfacce che permettono agli utenti di partecipare al lavoro di digitalizzazione, come sta avvenendo mediante il coinvolgimento degli studenti del corso di filologia digitale organizzato presso l’Università di Lipsia (Overview of Digital Philology). Sviluppato sulla base dell’Oracle Grid Engine, il workflow consiste di tre componenti principali: 1) un nucleo (core) intercambiabile di uno dei tre motori OCR (Gamera, Tesseract, OCRopus); 2) un livello di ottimizzazione sviluppato da Bruce Robertson e Federico Boschetti; 3) un modulo per allineare l’output dell’OCR a edizioni conosciute e consentire correzioni semi-automatiche. ll processo computazionale di tale workflow è integrato con un sistema di pianificazione e notifica che fornisce una visione sequenziale del progresso dei lavori dell’OGL e facilita i contributi esterni, per esempio da parte di ricercatori e studenti e di tutti coloro che sono interessati all’iniziativa.
I dati prodotti da questo processo vengono codificati secondo le specifiche EpiDoc, le quali forniscono un tipo di marcatura standardizzata, ma non ristretta, e compatibile con i testi dell’OGL. Tale codifica viene realizzata in parallelo alla conversione in EpiDoc dei file della Perseus DL. La possibilità di disporre dei testi della Perseus DL e dell’OGL in formato EpiDoc faciliterà lo scambio e il collegamento dei dati con le collezioni di documenti epigrafici e papirologici che sono già stati codificati in questo modo e con tutte quelle altre banche dati che sono attualmente in fase di conversione, come per esempio EAGLE (Europeana Network of Ancient Greek and Latin Epigraphy).
2. Historical Languages e-Learning Project
La seconda componente dell’OPP è rappresentata dall’Historical Languages e-Learning Project, il cui obiettivo è quello di realizzare un sistema per l’apprendimento delle lingue storiche in ambiente digitale. Questo sistema privilegia la personalizzazione computazionale della grammatica e del vocabolario del corpus di riferimento, così come degli interessi specifici degli studenti o delle classi.
Motore del progetto è l’annotazione morfosintattica. I testi greci e latini sono annotati automaticamente per la morfologia utilizzando il tagger Morpheus, il quale restituisce un testo con l’analisi morfologica di ogni parola. Nel caso di più analisi possibili, spetta all’annotatore decidere quella corretta sulla base del contesto. L’annotazione morfologica costituisce la base per quella sintattica, la quale è eseguita manualmente. Attraverso l’interfaccia grafica offerta da Alpheios, l’annotatore costruisce un albero sintattico secondo delle guidelines che si ispirano a quelle adottate per la Prague Dependency Treebank 2.0.
La treebank del greco antico e del latino conta circa 400.000 parole. Al momento è in corso una revisione tesa ad arricchire l’annotazione con l’aggiunta di glosse secondo lo schema delle Leipzig Glossing Rules, al fine di promuovere un tipo di analisi standard della morfologia di ogni parola. L’annotazione, inoltre, conterrà riferimenti alla grammatica greca dello Smyth per coniugare il sapere della grammatica tradizionale con quello della Functional Generative Description della Scuola di Praga.
3. Open Access Publishing
Uno degli obiettivi principali dell’OPP consiste nella creazione di un nuovo modello di edizioni scientifiche native digitali. Tale obiettivo è attualmente perseguito mediante l’implementazione di Perseids, che è una piattaforma collaborativa della Perseus DL sviluppata mediante la personalizzazione di risorse open source create per annotare fonti classiche codificate secondo lo standard TEI XML. Perseids è un ambiente condiviso dove gli utenti possono editare, tradurre e commentare diverse tipologie di fonti antiche, comprese le iscrizioni e i manoscritti. L’obiettivo di Perseids è duplice, perché mira sia alla pubblicazione di edizioni scientifiche che allo sviluppo di risorse didattiche per gli studenti dei corsi universitari:
1) Per quanto riguarda la comunità scientifica, uno dei principali modelli di pubblicazione all’interno di Perseids è il Fragmentary Texts Editor (FTE), che ha la funzione di produrre annotazioni complesse concernenti opere conservate solo attraverso citazioni e riusi in testi coevi o posteriori. A tal fine Perseids utilizza diversi metodi di in-line e stand-off markup combinando lo standard TEI XML e la CTS/CITE Architecture con altri data model, quali l’Open Annotation Collaboration (OAC), il Systematic Assertion Model (SAM) e il W3C Provenance Model. Parallelamente al Fragmentary Texts Editor, la cattedra di informatica umanistica dell’Università di Lipsia sta avviando il Leipzig Open Fragmentary Texts Series (LOFTS), il cui obiettivo è la realizzazione di nuove edizioni native digitali di autori frammentari. Il progetto è supportato dal Perseus Project e avrà come sede di pubblicazione il Center for Hellenic Studies. Il primo sforzo nell’ambito di questo progetto è la digitalizzazione dei cinque volumi dei Fragmenta Historicorum Graecorum pubblicati dal Müller tra il 1841 e il 1870, i quali costituiscono la prima opera monumentale di raccolta dei frammenti degli storici greci e rappresentano un ottimo punto di partenza per contribuire alla realizzazione di edizioni digitali in materia.
2) I risultati che Perseids mira a produrre non riguardano soltanto gli studiosi ma anche gli studenti, i quali hanno l’opportunità di lavorare direttamente sui documenti originali e contribuire ai risultati della comunità scientifica. Questo tipo di attività è svolto in parallelo presso la Tufts University e l’Università di Lipsia, la quale ha avviato una serie di corsi di filologia digitale. Attraverso questi corsi gli studenti apprendono come trattare diverse forme di organizzazione del sapere scientifico sviluppate dalla cultura della stampa, come le edizioni critiche, i lessici, le enciclopedie, i commentari, gli indici e le grammatiche. Gli studenti hanno inoltre l’opportunità di concentrarsi su temi particolarmente complessi, come l’annotazione linguistica delle fonti storiche, la rappresentazione delle fonti frammentarie e dei riusi testuali, o l’allineamento linguistico dei testi.
Open Data Revenue Models e Open Philology Publishing
A supporto dell’attività scientifica sopra descritta, l’OPP sta sviluppando un business plan per creare strategie che permettano di sostenere economicamente il progetto e renderlo in futuro autonomo da investimenti esterni. Dato che l’OPP è per definizione basato su un modello di accesso libero e gratuito, la parte più complessa consiste nello sviluppare modelli che consentano il sostenimento di una piattaforma di apprendimento aperta e gratuita tramite l’aggiunta di servizi sofisticati a pagamento. Il principio base è quello di creare un’alternativa all’attuale monopolio della produzione del sapere, la cui fruizione è molto costosa per l’utente, favorendo un accesso gratuito, il quale sia però arricchito di servizi addizionali a basso costo per apprendere, analizzare e contribuire ad una massa di dati complessi in costante crescita. Il progetto intende fornire strumenti destinati a studiosi e studenti, oltre che alle scuole e in generale al pubblico interessato. I servizi offerti copriranno diverse aree, dall’open publishing, ai servizi informatici per l’eLearning, ai libri di testo interattivi, ai sistemi di valutazione e di ePortfolio.
Un esempio interessante è costituito dalle pubblicazioni di articoli scientifici: invece di costringere l’utente a pagare contributi onerosi per la pubblicazione di un saggio, l’OPP proporrebbe lo stesso servizio ad un prezzo più basso rateizzabile, offrendo inoltre un abbonamento mensile con accesso ad uno spazio personalizzato online, dove l’utente può consultare la cronologia del proprio percorso di lavoro, i propri articoli, le annotazioni e i contributi personali alla piattaforma aperta.