You are on page 1of 14

Μηχανική μετάφραση: Μια

συγκριτική προσέγγιση

Δ. Δελμαδώρου, Θ. Καλογερόπουλος,
Β. Καλφαδοπούλου, Μ. Μουρούτσου
Μ.Π. ΤΕΧΝΟΓΛΩΣΣΙΑ , ΕΚΠΑ & ΕΜΠ
Τι είναι μηχανική μετάφραση;
Με τον όρο Μηχανική Μετάφραση (ΜΜ) εννοούμε την
υπηρεσία εκείνη που μετατρέπει ένα κείμενο από μία
γλώσσα σε μία άλλη. Το αποτέλεσμα μιας μηχανικής
μετάφρασης μπορεί να εξυπηρετεί έναν από τους
ακόλουθους τέσσερις σκοπούς (Hutchins:1999):
1. Άμεση αναπαραγωγή του κειμένου, δηλαδή η διάδοση της
πληροφορίας.
2. Απλή μεταφορά του μηνύματος του κειμένου, δηλαδή η
αφομοίωση της πληροφορίας.
3. Άμεση και ταχεία ανταλλαγή πληροφορίας.
4. Πρόσβαση στην πληροφορία μέσω ενσωμάτωσης σε
μηχανές αναζήτησης και ανάκτησης πληροφοριών σε
πολυγλωσσικά συστήματα.
Το πείραμα
Το πείραμά μας ήταν να συγκρίνουμε το αποτέλεσμα από τις
πλατφόρμες μηχανικής μετάφρασης στο γλωσσικό ζεύγος
Αγγλικά προς Ελληνικά. Οι διαδυκτιακές πλατφόρμες που
επιλέξαμε ήταν:

Επιλέξαμε την έκδοση Systran που διατίθεται στο εμπόριο αντί


για την έκδοση που χρησιμοποιεί η ΕΕ διότι συνεπεία
δικαστικής απόφασης (General Court Decision – 16 December
2010) δεν διατίθεται πλέον η διεπαφή για το κοινό.
Περαιτέρω κριτήρια επιλογής
• Επιπλέον λόγοι της επιλογής αυτής ήταν ότι δεν ήταν εφικτό
να εξετάσουμε τις πλατφόρμες εκ των έσω, δηλαδή
κοιτώντας τα συστατικά τους στοιχεία όπως τα μορφολογικά
λεξικά, τα λεξικά ορολογίας και όποια σώματα κειμένων
χρησιμοποιούνταν για την εκμάθηση μηχανής (πνευματικά
δικαιώματα και αποκλεισμός από την πρόσβαση σε πηγαίο
κώδικα).

• Από την άλλη οι εφαρμογές ανοικτού κώδικα δεν


περιλάμβαναν τα Ελληνικά άρα δεν ήταν εφικτή η χρήση
εργαλείων αυτόματης αξιολόγησης. Η μόνη πλατφόρμα που
περιλαμβάνει Ελληνικά είναι η Moses αλλά η φύση της
(τοπική εφαρμογή) την καθιστούσε ανόμοια με τις
διαδικτυακές πλατφόρμες.
Η κλίμακα αξιολόγησης
• Χρησιμοποιήσαμε τη μέθοδο BLEU που βασίζεται στη
σύγκριση της μετάφρασης από την πλατφόρμα μηχανικής
μετάφρασης με αντίστοιχη μετάφραση από έναν
επαγγελματία μεταφραστή (Papineni et al.:2002).

• Στην περίπτωσή μας η βαθμολόγηση έγινε με αυτόματο


τρόπο από τα μέλη της ομάδας μας χρησιμοποιώντας την
κλίμακα 1 ως 4 όπου το 4 αντιπροσωπεύει την τέλεια
απόδοση του κείμενου – πηγής. Αντίθετα το 1
αντιπροσωπεύει μη αποδεκτή μετάφραση, το 2 δυνητικά
αποδεκτή μετάφραση και το 3 μια αποδεκτή μετάφραση.
Κείμενα
Κατά την αρχική μας αναζήτηση για κείμενα / θεματικούς τομείς
αποκλείσαμε αμέσως τα λογοτεχνικά, μια και είναι γνωστό ότι
στο επίπεδο που έχει φτάσει η μηχανική μετάφραση δεν
πρόκειται να μπορέσουμε να έχουμε ικανοποιητικά
αποτελέσματα.
Για το λόγο αυτό αποφασίσαμε να χρησιμοποιήσουμε 4 ειδών
διαφορετικά κείμενα: ένα άρθρο από εφημερίδα που
αναφέρεται σε οικονομικά γεγονότα, ένα κείμενο για
ευρωπαϊκά θέματα, ένα θέμα από αθλητική εφημερίδα και
τέλος ένα τεχνικό κείμενο ιατρικής φύσεως. Τα κείμενα
επιλέχθηκαν ώστε να έχουν παρόμοιο αριθμό λέξεων, περίπου
200.
Σφάλματα – επισημάνσεις
• Σφάλματα κεφαλαιοποίησης, η μηχανή ακουλουθει την κεφαλοποιηση του κείμενου –
πηγής.
• Γραμματικά σφάλματα, τα οποία οφείλονται στην έλλειψη βασικών κανόνων γραμματικής.
Υπάρχουν αρκετά λάθη λόγω εσφαλμένης επιλογής πτώσης. Αυτά με τη σειρά τους
δημιουργούν πρόβλημα στη σύνταξη και συνεπώς νοηματική ασάφεια.
• Προβλήματα ορολογίας. Δε διαθέτουν τα κατάλληλα λεξικά ορολογίας, ή διαθέτουν ελλιπή
λεξικά ορολογίας, με αποτέλεσμα να μην είναι σε θέση να αναγνωρίζουν όλους τους όρους.
• Εκείνο που μας κάνει εντύπωση όμως είναι ότι το Google στο σύμπλοκο coronary dilation
catheter μεταφράζει το dilation σωστά αλλά μόνο σε αυτή την περίπτωση. Θα μπορούσαμε
λοιπόν να πούμε ότι τα λεξικά ορολογίας ή ευρύτερα τα ειδικά λεξικά έχουν λανθασμένη
προτεραιότητα κατά την εκτέλεση των λεξικών ρουτινών.
• Άλλο κοινό σφάλμα ήταν η γενικότερη ασυμφωνία είτε στο γένος, είτε στην πτώση ανάμεσα
στα επίθετα με συνοδευτικό ουσιαστικό, όπως και στα σύμπλοκα που θα έπρεπε να είχαν
την ίδια πτώση, π.χ. γενική + γενική.
• Παρατηρήθηκε επίσης η χρήση ουσιαστικών αντί των επιθετικών προσδιορισμών με πάλι
κλιτική ασυμφωνία όπως και υπερβολική χρήση του οριστικού άρθρου.
• Η προσέγγιση των «άγνωστων λέξεων» σε κάθε πλατφόρμα είχε και διαφορετική
αντιμετώπιση: Το Google μεταφράζει τα πάντα, δεν είχε λέξεις που να μην υπήρχαν στο
γενικό του λεξικό. Το Systran επέλεξε να μεταγράψει τις άγνωστες λέξεις.
Σφάλματα – επισημάνσεις
• Όσον αφορά τη χρήση της αθλητικής ορολογίας συγκριτικά, το Google translate
λειτούργησε αρκετά ικανοποιητικά. Είχε βέβαια κάποιες αστοχίες, αλλά σε γενικές
γραμμές το αποτέλεσμα που παρουσίασε σε επίπεδο αθλητικής ορολογίας ήταν
αρκετά ικανοποιητικό. Το Systran και το Bing είχαν εμφανείς αδυναμίες στη
μετάφραση λέξεων με αθλητικό περιεχόμενο, αν και το δεύτερο εμφάνισε κάποια
αποτελέσματα σωστά τα οποία από τη συνολική του εικόνα δεν αναμενόταν να τα
εμφανίσει.
• Από αυτά μπορούμε να συμπεράνουμε ότι τα προγράμματα που συνεργάζονται για
την απόδοση της μετάφρασης στα Bing και Systran (μετάβασης, ρουτίνες,
γραμματικής-μορφολογικής ανάλυσης και αναδιάταξης) σε πολλές περιπτώσεις δε
λειτούργησαν ικανοποιητικά. Αντιθέτως, το Google Translate τα απέδωσε καλύτερα
ίσως γιατί η συγκεκριμένη πλατφόρμα παρέχει τη δυνατότητα να «σώζει» τις
διορθώσεις που κάνει ο χρήστης και να τις χρησιμοποιεί σε επόμενη ανάλογη
περίπτωση που θα συναντήσει και έτσι μπορούμε να πούμε ότι αφήνει περιθώρια
βελτιστοποίησης της λειτουργίας της.
• Στα ιατρικά κείμενα και οι τρεις πλατφόρμες αποτυγχάνουν στην διατύπωση των
κειμένων όπως αυτά προορίζονται για ειδικό ή γενικό αναγνωστικό κοινό.
• Αποτυγχάνουν σε καίρια ορολογία που ένα ειδικό λεξικό ορολογίας θα είχε βρει
αμέσως. Παραδείγματα: over the wire, dilation, liquid path.
Ποσοτικά - Ευρωπαϊκό κείμενο
Μέσος όρος για
• Google = 3
• Bing = 2
• SYSTRAN = 2
Ποσοτικά - Αθλητικό κείμενο
Μέσος όρος για
• Google = 2,67
• Systran=1,78
• Bing = 2
Ποσοτικά – Οικονομικό κείμενο
Μέσος όρος για
• Google = 2,63
• Systran
• Bing = 2,25
Ποσοτικά – Ιατρικό κείμενο
Μέσος όρος για
• Google = 1,7
• Systran = 1,8
• Bing = 1,5
Συνολική σύγκριση
• Έκδηλη έλλειψη φυσικότητας.
• Δυσκαμψία στην έκφραση τέτοια ώστε να δίνει την εντύπωση ότι το
κείμενο αυτό σίγουρα δεν ήταν πρωτογενές.
• Ένας γενικός μέσος όρος από όλα τα κείμενα ήταν Google 2,5, Systran
1,95 και Bing 1,94 (με στρογγυλοποίηση στα δύο πρώτα δεκαδικά ψηφία).
• Σε ποσοστιαία κατανομή μόνο δύο πλατφόρμες καταφέρνουν να έχουν
έστω και ένα μικρό ποσοστό «Ιδανικών» μεταφράσεων:
Προτάσεις για το μέλλον
• Διασπορά των κοινών πόρων (λεξικά ορολογίας, σώματα κειμένων, κτλ)
• Διασπορά λογισμικού, π.χ. λογισμικά επισήμανσης και επισημείωσης κ.ά. (Wilkins:2008, κεφ. 15).
• Συνεργασία πρώτα σε «τοπικό»/ εθνικό επίπεδο, δηλαδή μονογλωσσικά σε κάθε χώρα και μετά να
οργανωθεί κατά μπλοκ χωρών.
• Εκμετάλλευση του πληθοπορισμού (crowdsourcing) για διόρθωση συγκρίσιμων σωμάτων
κειμένων ή διόρθωση των αποτελεσμάτων της μηχανικής μετάφρασης.
• Σύνταξη κειμένων σε απλά Αγγλικά (Plain English / Multinational Customized English)
• Η χρήση της ορολογίας θα πρέπει να γίνει με συνέπεια σε όλο το κείμενο
• Να χρησιμοποιείται απλοποιημένη ή ειδική σύνταξη στο κείμενο πηγή (βλ. Elliston:1979). Με τον
τρόπο αυτό αποφεύγονται οι αμφισημίες και γίνεται ευκολότερη η ταυτόχρονη παραγωγή
κειμένων σε πολλές γλώσσες.
• Να δοθεί μεγαλύτερη έμφαση στις γλώσσες με λιγοστούς γλωσσικούς πόρους όπως τα Ελληνικά,
τα Ρουμάνικα, τα Βουλγάρικα κτλ.
• Ανάπτυξη λεξικών πόρων για την αναγνώριση ονοματικών οντοτήτων όπως πρόσωπα,
εγκαταστάσεις, τοποθεσίες κτλ.
• Σύνδεση βάσεων δεδομένων λεξιλογίου με τις πλατφόρμες, όπως JRCnames, Geonames,
Wikipedia, κ.αλ. Έτσι θα υπάρχει συνεχής ανανέωση τόσο σε ονόματα (προσώπων, τοποθεσιών
κτλ) όσο και η χρήση σου ως triggers για την εύρεση νέων οντοτήτων.

You might also like