You are on page 1of 15

Μηχανική μετάφραση: Μια

συγκριτική προσέγγιση

Δ. Δελμαδώρου, Θ. Καλογερόπουλος,
Β. Καλφαδοπούλου, Μ. Μουρούτσου
Μ.Π. ΤΕΧΝΟΓΛΩΣΣΙΑ , ΕΚΠΑ & ΕΜΠ
Τι είναι μηχανική μετάφραση;

Με τον όρο Μηχανική Μετάφραση (ΜΜ): υπηρεσία εκείνη που


μετατρέπει ένα κείμενο από μία γλώσσα σε μία άλλη
εξυπηρετώντας έναν από τους ακόλουθους τέσσερις σκοπούς
(Hutchins:1999):

1.Άμεση αναπαραγωγή του κειμένου (διάδοση πληροφορίας).


2.Απλή μεταφορά του μηνύματος (αφομοίωση πληροφορίας).
3.Άμεση και ταχεία ανταλλαγή πληροφορίας.
4.Ενσωμάτωση σε μηχανές αναζήτησης και ανάκτησης
πληροφοριών σε πολυγλωσσικά συστήματα (πρόσβαση στην
πληροφορία).
Το πείραμα
Το πείραμά μας ήταν να συγκρίνουμε το αποτέλεσμα από τις
πλατφόρμες μηχανικής μετάφρασης στο γλωσσικό ζεύγος
Αγγλικά προς Ελληνικά. Οι διαδικτυακές πλατφόρμες που
επιλέξαμε ήταν:

Επιλέξαμε την έκδοση Systran που διατίθεται στο εμπόριο αντί


για την έκδοση που χρησιμοποιεί η ΕΕ διότι συνεπεία
δικαστικής απόφασης (General Court Decision – 16 December
2010) δεν διατίθεται πλέον η διεπαφή για το κοινό.
Περαιτέρω κριτήρια επιλογής
• Επιπλέον λόγοι της επιλογής αυτής ήταν ότι δεν ήταν εφικτό
να εξετάσουμε τις πλατφόρμες εκ των έσω, δηλαδή
μορφολογικά λεξικά, τα λεξικά ορολογίας και όποια σώματα
κειμένων.

• Από την άλλη οι εφαρμογές ανοικτού κώδικα δεν


περιλάμβαναν τα Ελληνικά άρα δεν ήταν εφικτή η χρήση
εργαλείων αυτόματης αξιολόγησης. Η μόνη πλατφόρμα που
περιλαμβάνει Ελληνικά είναι η Moses αλλά η φύση της
(τοπική εφαρμογή) την καθιστούσε ανόμοια με τις
διαδικτυακές πλατφόρμες.
Η κλίμακα αξιολόγησης
• Χρησιμοποιήσαμε τη μέθοδο BLEU που βασίζεται στη
σύγκριση της μετάφρασης από την πλατφόρμα μηχανικής
μετάφρασης με αντίστοιχη μετάφραση από έναν
επαγγελματία μεταφραστή (Papineni et al.:2002).

• Η βαθμολόγηση έγινε με αυτόματο τρόπο από τα μέλη της


ομάδας μας χρησιμοποιώντας την κλίμακα 1 ως 4:
1=μη αποδεκτή μετάφραση
2= δυνητικά αποδεκτή μετάφραση
3= μια αποδεκτή μετάφραση, και,
4= τέλεια απόδοση του κείμενου – πηγής.
Κείμενα

Κατά την αναζήτηση για κείμενα / θεματικούς τομείς


αποκλείσαμε αμέσως τα λογοτεχνικά.

Αποφασίσαμε να χρησιμοποιήσουμε:
– άρθρο για οικονομικά γεγονότα,
– άρθρο για ευρωπαϊκά θέματα,
– άρθρο για αθλητικά θέματα
– τεχνικό ιατρικό κείμενο.

Τα κείμενα επιλέχθηκαν ώστε να έχουν παρόμοιο αριθμό


λέξεων, περίπου 200.
Σφάλματα – επισημάνσεις
• Σφάλματα κεφαλαιοποίησης, Γραμματικά σφάλματα. Υπερβολική χρήση του οριστικού
άρθρου. Εσφαλμένη επιλογή πτώσης.

• Προβλήματα ορολογίας. Δε διαθέτουν τα κατάλληλα λεξικά ορολογίας, ή διαθέτουν ελλιπή


λεξικά ορολογίας, με αποτέλεσμα να μην είναι σε θέση να αναγνωρίζουν όλους τους όρους.
Επίσης τα λεξικά ορολογίας ή ευρύτερα τα ειδικά λεξικά έχουν λανθασμένη προτεραιότητα
κατά την εκτέλεση των λεξικών ρουτινών.

• Η προσέγγιση των «άγνωστων λέξεων» είχε και διαφορετική αντιμετώπιση: Το Google


μεταφράζει τα πάντα, δεν είχε λέξεις που να μην υπήρχαν στο γενικό του λεξικό. Το Systran
επέλεξε να μεταγράψει τις άγνωστες λέξεις. Το Bing τις άφηνε στα Αγγλικά.

• Στα ιατρικά κείμενα και οι τρεις πλατφόρμες αποτυγχάνουν στην διατύπωση των κειμένων
όπως αυτά προορίζονται για ειδικό ή γενικό αναγνωστικό κοινό. Αποτυγχάνουν σε καίρια
ορολογία που ένα ειδικό λεξικό ορολογίας θα είχε βρει αμέσως. Παραδείγματα: over the
wire, dilation, liquid path.
Σφάλματα – επισημάνσεις

• Όσον αφορά τη χρήση της αθλητικής ορολογίας συγκριτικά, το Google translate


λειτούργησε αρκετά ικανοποιητικά. Το Systran και το Bing είχαν εμφανείς αδυναμίες
στη μετάφραση λέξεων με αθλητικό περιεχόμενο.

• Από αυτά μπορούμε να συμπεράνουμε ότι τα προγράμματα που συνεργάζονται για


την απόδοση της μετάφρασης στα Bing και Systran (μετάβασης, ρουτίνες,
γραμματικής-μορφολογικής ανάλυσης και αναδιάταξης) σε πολλές περιπτώσεις δε
λειτούργησαν ικανοποιητικά. Αντιθέτως, το Google Translate τα απέδωσε καλύτερα
ίσως γιατί η συγκεκριμένη πλατφόρμα παρέχει τη δυνατότητα να «σώζει» τις
διορθώσεις που κάνει ο χρήστης και να τις χρησιμοποιεί σε επόμενη ανάλογη
περίπτωση που θα τις συναντήσει.
Ποσοτικά - Ευρωπαϊκό κείμενο
Μέσος όρος για
• Google = 3
• Bing = 2
• SYSTRAN = 2
Ποσοτικά - Αθλητικό κείμενο
Μέσος όρος για
• Google = 2,67
• Systran=1,78
• Bing = 2
Ποσοτικά – Οικονομικό κείμενο
Μέσος όρος για
• Google = 2,63
• Systran = 2,25
• Bing = 2,25
Ποσοτικά – Ιατρικό κείμενο
Μέσος όρος για
• Google = 1,7
• Systran = 1,8
• Bing = 1,5
Συνολική σύγκριση
• Έκδηλη έλλειψη φυσικότητας.
• Δυσκαμψία στην έκφραση, τέτοια ώστε να δίνει την εντύπωση ότι το
κείμενο αυτό σίγουρα δεν ήταν πρωτογενές.
• Ένας γενικός μέσος όρος από όλα τα κείμενα ήταν Google 2,5, Systran
1,95 και Bing 1,94 (στρογγυλοποίηση στα δύο πρώτα δεκαδικά ψηφία).
• Σε ποσοστιαία κατανομή μόνο δύο πλατφόρμες καταφέρνουν να έχουν
έστω και ένα μικρό ποσοστό «Ιδανικών» μεταφράσεων:
Προτάσεις για το μέλλον

• Διασπορά των κοινών πόρων (λεξικά ορολογίας, σώματα κειμένων, κτλ)

• Συνεργασία πρώτα σε «τοπικό»/ εθνικό επίπεδο, δηλαδή μονογλωσσικά σε


κάθε χώρα και μετά να οργανωθεί κατά μπλοκ χωρών.

• Εκμετάλλευση του πληθοπορισμού (crowdsourcing) για διόρθωση


συγκρίσιμων σωμάτων κειμένων ή διόρθωση των αποτελεσμάτων της
μηχανικής μετάφρασης.

• Σύνταξη κειμένων σε απλά Αγγλικά (Plain English / Multinational Customized


English).
Προτάσεις για το μέλλον
• Να δοθεί μεγαλύτερη έμφαση στις γλώσσες με λιγοστούς γλωσσικούς
πόρους όπως τα Ελληνικά, τα Ρουμάνικα, τα Βουλγάρικα κτλ.

• Ανάπτυξη λεξικών πόρων για την αναγνώριση ονοματικών οντοτήτων


όπως πρόσωπα, εγκαταστάσεις, τοποθεσίες κτλ.

• Σύνδεση βάσεων δεδομένων λεξιλογίου με τις πλατφόρμες, όπως


JRCnames, Geonames, Wikipedia, κ.αλ.

• Η χρήση της ορολογίας θα πρέπει να γίνει με συνέπεια σε όλο το κείμενο.

You might also like