Professional Documents
Culture Documents
PLan-V Presentation Imerida Patra 27 May
PLan-V Presentation Imerida Patra 27 May
Γλωσσικές τεχνολογίες
για την υποστήριξη ατόμων
με διαταραχές επικοινωνίας
Πέπη Σταμούλη
Συνεργαζόμενη ερευνήτρια
Ινστιτούτο Επεξεργασίας του Λόγου - ΙΕΛ
2
Γλωσσικές τεχνολογίες
Βασικές εφαρμογές
Αυτόματη μετάφραση
Διαλογικά συστήματα και ψηφιακοί βοηθοί, ικανοί να κατανοήσουν και να
αποκριθούν σε ερωτήσεις, γραπτά ή προφορικά
Φωνητικοί βοηθοί, φωνητικός χειρισμός συσκευών
Ανάκτηση ακριβούς και σχετικής πληροφορίας (μηχανές αναζήτησης)
Αυτόματη ταξινόμηση κειμένων (π.χ. ανίχνευση ανεπιθύμητης αλληλογραφίας,
αναγνώριση συγγραφέα, ανίχνευση θετικής ή αρνητικής γνώμης για πρόσωπα
και διάφορα θέματα στα κοινωνικά δίκτυα κ.λπ.)
Παραγωγή φυσικής γλώσσας (natural language generation), π.χ. ChatGPT
7
Πεδία εφαρμογής
Οι γλωσσικές τεχνολογίες
στην πλατφόρμα PLan-V
Η συμβολή του ΙΕΛ:
Ανάπτυξη συστήματος για την αυτόματη αξιολόγηση της βαρύτητας του
γλωσσικού ελλείμματος
Έμφαση στην αφασία, ως έναν από τους πιο σύνθετους τύπους διαταραχών λόγου και ομιλίας,
καθώς επηρεάζει τόσο την κατανόηση όσο και την παραγωγή σε διαφορετικούς τομείς
Οι γλωσσικές τεχνολογίες
στην πλατφόρμα PLan-V: Οφέλη
Λογοθεραπευτής
Αρχική αυτόματη αξιολόγηση της βαρύτητας της διαταραχής και των επιμέρους χαρακτηριστικών
του αυθόρμητου λόγου - baseline για την παρακολούθηση της πορείας της παρέμβασης.
Δεν απαιτείται η συμμετοχή του στη βαθμολόγηση ασκήσεων παραγωγής, ωστόσο έχει τη
δυνατότητα να ελέγξει και να διορθώσει το αποτέλεσμα της αυτόματης βαθμολόγησης.
Ασθενής
Αυτόματη ανατροφοδότηση σε ασκήσεις όχι μόνο κατανόησης αλλά και παραγωγής λόγου
Φιλική, οικεία διεπαφή, ενισχύεται η εμπλοκή του στην εκτέλεση των ασκήσεων, καλύτερη
κατανόηση των οδηγιών, διευκολύνεται η προσβασιμότητα στο περιεχόμενο
13
01 02 03 04
Διαδικτυακή εφαρμογή:
Δοκιμασίες
Ιστορία του εγκεφαλικού (stroke story)
Η άρνηση της Ομπρέλας (“Refused umbrella”):
Παραγωγή ιστορίας με βάση σειρά 6 εικόνων
Η διάσωση της Γάτας (“Cat rescue”): Παραγωγή ιστορίας
με βάση μία εικόνα
Το Πάρτι: Παραγωγή ιστορίας με βάση σειρά 6 εικόνων
Το Δαχτυλίδι: Επαναφήγηση πρωτότυπης
ηχογραφημένης ιστορίας με υποστήριξη 5 εικόνων
Ο Λαγός και η Χελώνα: Επαναφήγηση γνωστής
ηχογραφημένης ιστορίας, χωρίς οπτική υποστήριξη
Σταχτοπούτα: Αφήγηση του γνωστού παραμυθιού
17
Διαδικτυακή εφαρμογή:
Τεχνικά χαρακτηριστικά
Απαιτεί σύνδεση στο internet
Ενσωματώνει όλες τις οδηγίες σε γραπτή και
προφορική μορφή
Ενσωματωμένη δυνατότητα ηχογράφησης
Εξαιρετική ποιότητα ήχου, ανεξάρτητη από την
ταχύτητα του δικτύου
Αποθήκευση δεδομένων ανά ασθενή, δοκιμασία
και συνεδρία, σε ασφαλή βάση
Εύκολη πρόσβαση στα δεδομένα
19
Voice
Recording
24
Cross-lingual aphasia
classification
Μεγάλου όγκου δεδομένα προφορικού λόγου από άτομα με αφασία για την
εκπαίδευση μοντέλου ταξινόμησης είναι δύσκολο να αποκτηθούν για λιγότερο
ομιλούμενες γλώσσες, όπως τα Ελληνικά.
Για την εκπαίδευση του μοντέλου ταξινόμησης σε βαθμούς βαρύτητας
αξιοποιήσαμε δεδομένα από γλώσσες με πλούσιους γλωσσικούς πόρους, όπως
τα Αγγλικά.
Χρησιμοποιήσαμε τον περιορισμένο όγκο δεδομένων που συλλέχθηκαν στα
Ελληνικά για την προσαρμογή και την αξιολόγηση του μοντέλου.
25
Cross-lingual aphasia
detection
Η δουλειά μας παρουσιάστηκε στο συνέδριο INTERSPEECH
2022 με εφαρμογή στην αυτόματη ανίχνευση αφασίας
(aphasia vs. typical).
Αναπτύχθηκε μια End-to-End ροή εργασιών για την
ανίχνευση αφασίας, χρησιμοποιώντας διαγλωσσικά
(language-agnostic) χαρακτηριστικά.
Η εκπαίδευση του μοντέλου πραγματοποιήθηκε στα
Αγγλικά.
Επιτεύχθηκε ανίχνευση αφασίας στα Ελληνικά με 95%
ακρίβεια, όταν χρησιμοποιήθηκαν οι χειρωνακτικές
μεταγραφές και με 80% ακρίβεια χωρίς χειρωνακτικές
μεταγραφές, μόνο με αυτόματη αναγνώριση φωνής.
26
Για την αξιολόγηση του συστήματος, παράχθηκε αυτόματα ένα σύνολο λέξεων-
παραλλαγών των λέξεων-στόχων (π.χ. άρχοντας/άχροντας), οι οποίες περιείχαν
φωνολογικά λάθη. Το σύνολο των λέξεων-παραλλαγών συγκροτήθηκε βάσει μιας
λίστας των πιο κοινών φωνολογικών λαθών που εμφανίζονται σε άτομα με
αφασία. Η λίστα αυτή καταρτίστηκε σε συνεργασία με λογοπαθολόγους του ΤΛΘ.
Οι διαφορετικές φωνολογικές παραλλαγές των λέξεων-στόχων εκφωνήθηκαν από
διαφορετικούς ομιλητές και τα δεδομένα που συλλέχθηκαν αποτέλεσαν τα
δεδομένα αξιολόγησης της ακρίβειας του συστήματος.
30
Μεθοδολογία συστήματος
οπτικοακουστικής σύνθεσης
Υιοθετήθηκε η προσέγγιση
MakeItTalk *
Είσοδος: ένα ηχητικό αρχείο και
μια εικόνα προσώπου
(φωτογραφία ή σκίτσο)
Έξοδος: Συγχρονισμένη κινούμενη
εικόνα ομιλούσας φιγούρας
33
Μεθοδολογία συστήματος
οπτικοακουστικής σύνθεσης: μια πιο
προσεκτική ματιά
Εξαγωγή οροσήμων προσώπου
(περιοχή ματιών, μύτης, στόματος)
Εξαγωγή αναπαραστάσεων του
ηχητικού περιεχομένου
Πρόβλεψη μετατοπίσεων
ορόσημων προσώπου από το
ηχητικό περιεχόμενο
Απόδοση των προβλεφθέντων
ορόσημων πίσω στο avatar
34
Βασίλης Κατσούρος, Ερευνητής Νάσος Κατσαμάνης, Ερευνητής Β΄ Σπυριδούλα Βαρλοκώστα, Καθηγήτρια ΕΚΠΑ
Α΄, Διευθυντής ΙΕΛ Συνεργαζόμενο μέλος ΔΕΠ
Δημήτρης Μαστρογιαννόπουλος, MSc Κοσμάς Παληός, MSc Μάνος Πλίτσης, Υπ. Διδάκτορας ΕΚΠΑ, Συνεργαζόμενος Πέπη Σταμούλη, PhD
Συνεργαζόμενος ερευνητής Συνεργαζόμενος ερευνητής ερευνητής Συνεργαζόμενη ερευνήτρια
36
Επιστημονικός Υπεύθυνος ΙΕΛ Αναπληρωτής ΕΥ ΙΕΛ- Τεχνικός Υπεύθυνος Προδιαγραφές επιλογής και αξιολόγησης ασθενών,
προδιαγραφές συλλογής δεδομένων
Ανάπτυξη ομιλούσας φιγούρας Ασκήσεις ομιλίας, συγκρότηση Ηχοληψία, επεξεργασία Εφαρμογή επισκόπησης αποτελεσμάτων
εικονικού βοηθού βάσης φωνολογικών λαθών ηχητικών καταγραφών αξιολόγησης βαρύτητας αφασίας
Εφαρμογή συλλογής δεδομένων προφορικού Εφαρμογή αυτόματης αξιολόγησης Ανάπτυξη μοντέλου ταξινόμησης Συντονισμός ομάδας, σχεδιασμός εφαρμογών,
λόγου παραγωγής λέξης βαρύτητας αφασίας προδιαγραφές συλλογής δεδομένων, συγκρότηση
dataset προφορικού λόγου, ποιοτικός έλεγχος
Σας ευχαριστούμε!