Παρασκευή, 31 Δεκεμβρίου 2010

TLG: Ο Θησαυρός της Ελληνικής Γλώσσας ψηφιοποιημένος

Thesaurus Linguae Graecae: Συνέντευξη της Μαρίας Παντελιά στη City Press

Η συνέντευξη της Μαρίας Παντελιά στην Αγάθα Ζαρακοβίτου δημοσιεύτηκε στην εφημερίδα City Press της Πέμπτης 2 Ιουλίου (σελ. 20). Ευχαριστώ τον tsioutsiou για την επισήμανση και την Αλεξάνδρα για τη δακτυλογράφηση.

Η Αθηναία που κρατά το κλειδί του θησαυρού
Συνέντευξη στην Αγάθα Ζαρακοβίτου

Φύλακας μιας ανεπανάληπτης «κιβωτού» της Ελληνικής Γραμματείας, που πλέον «διαχέεται» σε όλο το Διαδίκτυο, η κυρία Μαρία Παντελιά δραστηριοποιείται κυριολεκτικά στην άλλη άκρη του πλανήτη.

Πρόκειται για μια βέρα Αθηναία, που μεγάλωσε στην οδό 3ης Σεπτεμβρίου και αποφοίτησε από το Αρσάκειο. Όμως, εδώ και 27 χρόνια ζει στην Καλιφόρνια, όπου εργάζεται ως Καθηγήτρια Κλασικών Σπουδών στο Πανεπιστήμιο της πόλης Irvine. Από το 1996, διευθύνει το πρόγραμμα Thesaurus Linguae Graecae (TLG), του «Θησαυρού της Ελληνικής Γλώσσας», που επιτρέπει με τη βοήθεια της πληροφορικής τον εντοπισμό οποιασδήποτε εμφάνισης κάθε λέξης της ελληνικής γλώσσας μέσα στα συμφραζόμενα. Η κ. Παντελιά μίλησε αποκλειστικά στο ΑΘΗΝΑ984FreePress, με την ευκαιρία της συμμετοχής της στο 2ο Συνέδριο του Δήμου Αθηναίων, «Η Ελλάδα στον κόσμο, Βυζαντινές Σπουδές», το οποίο συγκέντρωσε επιστήμονες από όλο τον κόσμο.



— Τι ακριβώς είναι το TLG;

— Είναι ένα πρόγραμμα ψηφιοποίησης όλων των ελληνικών κειμένων που έχουν διασωθεί από την αρχαιότητα μέχρι σήμερα. Ξεκίνησε το 1972, σε μία εποχή που οι φιλόλογοι δεν ήξεραν καν τη χρήση της ηλεκτρικής γραφομηχανής. Η Marianne McDonald, φοιτήτρια τότε στο Πανεπιστήμιο της Καλιφόρνιας, διέθεσε για τον σκοπόν αυτόν ένα εκατομμύριο δολάρια, ποσό αστρονομικό για εκείνη την εποχή, και έτσι δημιουργήθηκε το Ινστιτούτο και άρχισε το συγκεκριμένο πρόγραμμα. Σήμερα, έχουμε ψηφιοποιήσει όλα τα κείμενα από τον Όμηρο μέχρι την Άλωση της Κωνσταντινουπόλεως τον 15ο αιώνα και πλέον συνεχίζουμε με κείμενα που ξεπερνούν αυτό το χρονικό όριο. Το 60% των κειμένων που έχουμε είναι απ’ τη Βυζαντινή περίοδο. Υπάρχουν πολλά κενά γιατί από εκείνη την περίοδο δεν διαθέτουμε πολλές έγκριτες εκδόσεις. Και αυτό ακριβώς επισημάνθηκε στο 2ο Συνέδριο του Δήμου Αθηναίων.

— Πώς έφθασε η Marianne McDonald να εμπνευσθεί και να εμψυχώσει αυτό το φιλόδοξο σχέδιο;

— Είναι η κόρη του ιδρυτή της εταιρείας Zenith. Ήθελε να γράψει τη διατριβή της με θέμα «Όροι ευτυχίας στον Ευριπίδη». Υπήρξαν, στο παρελθόν, στο εξωτερικό —και κυρίως στην Ευρώπη— πολλές αποτυχημένες προσπάθειες καταγραφής των εκατομμυρίων λέξεων της ελληνικής γλώσσας. Έτσι, το 1972 η Marianne McDonald σκέφτηκε ότι με τα κομπιούτερ που υπήρχαν εκείνη την εποχή —που δεν ήταν τα micro computer που γνωρίζουμε εμείς σήμερα— θα μπορούσε να γίνει καλύτερα η καταγραφή των κειμένων. Μία άλλη ευτυχής συγκυρία ήταν ότι ο πρώτος Διευθυντής του Κέντρου, που ήταν καθηγητής Κλασικών Σπουδών, υπήρξε συμφοιτητής του David Packard, του γιου του συνιδρυτή της εταιρείας Hewlett-Packard, και μέσω αυτής της προσωπικής τους γνωριμίας, τον έπεισε να ασχοληθεί με το πρόγραμμα.

Τροποποίησε, λοιπόν, έναν υπολογιστή που είχε ήδη η εταιρεία, τον HP-1000, για να μπορεί να διαβάζει ελληνικά. Και αυτό ήταν κάτι το πρωτοποριακό και απίστευτο συγχρόνως για την εποχή, γιατί τότε οι υπολογιστές δεν μπορούσαν να «διαβάσουν» ελληνικά! Επίσης, δημιούργησε μια σειρά προγραμμάτων, τα οποία είχαν τη δυνατότητα να επεξεργάζονται την ελληνική γλώσσα.
Έφτιαξε στην ουσία έναν κώδικα που επέτρεπε στο πρόγραμμα να καταγράφει τα κείμενα με λατινικούς χαρακτήρες και αυτοί κατόπιν να μετατρέπονται σε ελληνικούς. Αυτός ήταν ο λεγόμενος «Κώδικας Β», ο οποίος χρησιμοποιείται ακόμα και σήμερα.

Το 1985, με τη βοήθεια του ιδίου, το TLG κυκλοφόρησε τον πρώτο ψηφιακό δίσκο στην ιστορία των υπολογιστών που δεν περιείχε μουσική. Περιείχε ελληνικά κείμενα! Εκτός απ’ αυτό, δημιούργησε έναν μικρό υπολογιστή — λένε μάλιστα ότι τον έφτιαξε στο γκαράζ του σπιτιού του— ο οποίος είχε τη δυνατότητα να διαβάζει τα συγκεκριμένα CD του TLG. Οπότε, τα πανεπιστήμια μπορούσαν να αγοράσουν αυτό το κομπιούτερ, αλλά και το CD, και έτσι να έχουν πρόσβαση σε όλα τα κείμενα που είχε ψηφιοποιήσει το Ερευνητικό μας Κέντρο. Τότε, ήταν περίπου 50 εκατομμύρια ελληνικές λέξεις. Τώρα πια δεν βγάζουμε CD, καθώς όλο το υλικό βρίσκεται στο Διαδίκτυο, στη διεύθυνση www.tlg.uci.edu. Έχουμε τώρα 105 εκατομμύρια ελληνικές λέξεις*, 3.962 συγγραφείς και περίπου 15.000 κείμενα.

— Πόσα άτομα βρίσκονται πίσω από αυτή την προσπάθεια;

— Έχουμε οκτώ ερευνητές και προγραμματιστές. Η ψηφιοποίηση γίνεται στην Κίνα. Στέλνουμε μέσω ταχυδρομείου τα βιβλία και οι Κινέζοι, που δεν ξέρουν ελληνικά, καταγράφουν τα κείμενα. Όταν ξεκίνησε το πρόγραμμα έστειλαν δείγματα στην Κορέα, στις Φιλιππίνες και στην Ελλάδα, για να δουν ποιος θα κάνει τα περισσότερα λάθη. Οι Έλληνες έκαναν τα περισσότερα, γιατί διάβαζαν τα κείμενα, θεωρούσαν ότι κάτι δεν ήταν σωστό και το διόρθωναν. Είχαν άποψη για τα κείμενα, ενώ οι άλλοι δεν είχαν, απλώς έγραφαν ό,τι έβλεπαν. Γι’ αυτό και τα τελευταία 20 χρόνια, η πληκτρολόγηση γίνεται στην Κίνα. Επίσης ιδιαίτερο ενδιαφέρον παρουσιάζει το γεγονός ότι η δακτυλογράφηση γίνεται στα λατινικά και, όταν εμείς παίρνουμε τα κείμενα, τα μετατρέπουμε στα ελληνικά.

— Πώς είναι να ζει μια Αθηναία επί τόσα πολλά χρόνια στην Αμερική;

— Η Καλιφόρνια μου θυμίζει πολύ τη χώρα μας. Υπάρχει εκεί μεγάλη ελληνική κοινότητα. Ο καιρός και το φυσικό περιβάλλον της μοιάζει πολύ με της Αθήνας, αλλά από την άποψη της κουλτούρας τα πράγματα είναι εντελώς διαφορετικά. Είναι μάλλον φανερό πως μετά από τόσα χρόνια στην Αμερική νιώθω πιο άνετα εκεί.

— Πώς βλέπετε σήμερα την Αθήνα; Πόσο πολύ έχει αλλάξει;

— Όταν ήμουν φοιτήτρια, η Αθήνα ήταν μια κάπως διαφορετική πόλη, οι ανθρώπινες σχέσεις πολύ πιο στενές. Παρόλο όμως που σήμερα η Αθήνα έχει εξελιχτεί σε μια μεγαλούπολη, δεν μπορώ να βρω ιδιαίτερες αλλαγές.

* 105 εκατομμύρια ελληνικές λέξεις σημαίνει ότι το σύνολο των έργων που έχει καταγράψει το TLG περιέχει 105.000.000 λέξεις, όπως το κείμενο της συνέντευξης έχει συνολικά 693 λέξεις ή το συνολικό έργο του Σέξπιρ 884.647 λέξεις.

ΠΗΓΗ: http://www.lexilogia.gr/forum/showthread.php?t=4017

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου