Professional Documents
Culture Documents
2 - Методичні вказівки до виконання практичної роботи
2 - Методичні вказівки до виконання практичної роботи
етапів процесу
розпізнавання
природної
мови
1
Для загального розуміння скористаємось визначенням, поданим у Вікіпедії.
Розпізнавання мовлення (англ. speech recognition) або мовлення-у-текст (англ.
speech to text (STT))— процес перетворення мовленнєвого сигналу в текстовий потік.
Не варто плутати із визначенням розпізнавання мови, оскільки «розпізнати мову»
безпосередньо означає лише дати відповідь на питання, до якої мови належить
сегмент мовленнєвого сигналу. Часто використовується у наборі технологій, що
дають змогу керувати комп'ютером, використовуючи людський голос, вводити
інформацію голосом, диктувати, транскрибувати (стенографувати) фонограми.
Для набуття базових знань та навичок використання інформаційних
технологій для автоматизації розпізнавання мовлення використовуватимемо
додатки для транскрибування тексту, також бажаючі матимуть змогу удосконалити
отримані вміння для визначення рівня подібності природномовних текстів.
1. Транскрибування мовлення
Уточнимо поле вживання терміну: якщо вживаємо термін «транскрибування
тексту» – то йдеться про наукову систему запису мови для відбиття звукового
складу, синонім – транскрипція.
В інформаційних технологіях, транскрибування – процес перетворення
мовлення у електронний текст, термінами-аналогами є оцифровування мовлення,
диджиталізація мовлення. Надалі про транскрибування йтиметься в контексті
інформаційних технологій.
2
та транскрибувати текст. Якщо вже використовуєте зручні Вам додатки для
транскрибування, опустіть цей пункт та переходьте до розділу «Де взяти текст?».
На рис. 1 подано знімок екрану з першим онлайн-розпізнавачем мови, який
отримано у пошуку в Google з текстом пошуку «транскрибування онлайн». Такий
ресурс вимагає реєстрації, але обіцяє бути безкоштовним.
4
Рис. 4. Головний екран Рис. 5. Транскрибований Рис. 6. Копіювання тексту
додатку для текст
транскрибування
3. Де взяти текст?
Текст, що надиктовуємо – це опис певного зображення. У формі вільного
оповідання описати те, що, на вашу думку, відбувається на картині (тобто в даний
момент), розповісти, що, на вашу думку, сприяло виникненню даній ситуації (що її
породило); передбачити, що станеться в подальшому; розповісти про почуття та
переживання зображених осіб; описати думки людей.
Об’єм тексту – 10+ повних речень.
Зображення є у внс Зображення для опису (ПР2)
5
4. Опрацювання оцифрованого мовлення
Транскрибований текст вносимо у Microsoft Word. Текст потрібно виправити,
якщо під час транскрибування були неточності розпізнавання мовлення.
Для тексту засобами Microsoft Word обчислюємо частотність службових слів -
прийменників, сполучників й часток. Освіжити знання про ці частини мови можна за
посиланнями
https://zno.if.ua/?p=2716
https://zno.if.ua/?p=2718
https://zno.if.ua/?p=2722
7
Рис. 9. Обчислена частотність появи службових слів
Результати обчислень варто візуалізувати. Для візуалізації скористатись
онлайн-ресурсом RAWGraphs 2.0 (https://app.rawgraphs.io/).
Дані можна вносити безпосередньо з Microsoft Excel чи Microsoft Word –
скопіювати таблицю повністю із заголовками і внести у відповідне місце ресурсу
(рис. 10, 11). Пам’ятайте, що для вказаного ресурсу дробові чисельні дані вносять
з крапкою як розділювача цілої і дробової частини.
8
Рис. 10. Вікно ресурсу для візуалізації rawgraphs
9
Зверніть увагу на позначення заголовків стовпців у внесеній таблиці:
# – чисельні дані;
Аа – текстові дані.
Після внесення даних можна обрати довільний тип діаграми (рис. 12).
10
Рис. 13. Алювіальна діаграма (налаштування – на рис. 15)
11
Рис. 15. Налаштування для діаграми 13
12
Рис. 17. Діаграма типу Sunburst diagram
13
5. Дослідження «подібності» авторських стилів
Порівняємо авторський стиль студента та іншого автора. Для цього
порівняємо статистичні характеристики тексту студента з відповідними
статистичними характеристиками творів інших авторів. Порівняння здійснимо із
використанням кореляційного аналізу.
Кореляційний аналіз
Кореляційний аналіз — це двовимірний статистичний метод вимірювання
сили лінійного зв’язку між двома змінними та обчислення їх зв’язку. Простіше
кажучи, кореляційний аналіз обчислює величину зміни однієї змінної через зміну
іншої. Висока кореляція вказує на сильний зв’язок між змінними, тоді як низька
кореляція означає, що змінні слабко залежать одна від одної. За допомогою
кореляційного аналізу можна визначити зв'язки, закономірності, значущі зв'язки та
тенденції між двома змінними або наборами даних.
Коефіцієнт кореляції
Коефіцієнт кореляції — це числове значення, яке вказує на тип кореляції, тобто
статистичний зв’язок між двома змінними. Значення коефіцієнта кореляції (rs)
коливається від + 1 до - 1 з точки зору сили зв'язку між змінними. Чим ближче
значення коефіцієнта кореляції наближається до 0, тим слабкіше зв'язок між двома
змінними. Напрямок зв'язку позначається знаком коефіцієнта кореляції; знак +
вказує на пряму залежність, а знак - на зворотну залежність.
Приклади кореляцій
Кореляція між двома змінними може бути як позитивною кореляцією, так і
негативною кореляцією або відсутність кореляції. Давайте розглянемо приклади
кожного з цих трьох типів:
14
Позитивна кореляція: Позитивна кореляція між двома змінними означає, що
обидві змінні рухаються в одному напрямку. Збільшення однієї змінної призводить
до збільшення іншої змінної і навпаки. Наприклад, якщо ви проводите більше часу
на біговій доріжці, ви спалюєте більше калорій.
Негативна кореляція: Від’ємна кореляція між двома змінними означає, що
змінні рухаються в протилежних напрямках. Збільшення однієї змінної призводить
до зменшення іншої змінної і навпаки. Наприклад, якщо збільшити швидкість
транспортного засобу, час, необхідний для того, щоб дістатися до місця
призначення, буде зменшуватися.
Слабка/нульова кореляція: Немає кореляції, якщо одна змінна не впливає на
іншу. Наприклад, не існує кореляції між кількістю років навчання в школі та кількістю
літер у її імені.
Для дослідження «подібності» авторського стилю викладач створює групи з 5
студентів – для бажаючих. Кожен зі студентів отримує текст, для якого обчислює
частотність появи службових слів. Статистичні дані зводять у спільну таблицю –
наприклад, як Таблиця 1. Зауважте, що випадки, відсутність певних службових слів
в уривку певного автора – це значуща інформація!
Структуровані дані кожен зі студентів команди повинен порівняти з
обчисленнями, зробленими раніше.
Засобами Microsoft Excel обчислюємо коефіцієнт кореляції для кожної групи
службових частин мови. У Інтернеті є коротке відео про обчислення коефіцієнта
кореляції, наприклад, https://www.youtube.com/watch?v=-LWbiddoIvk. Зауважте –
якщо маєте англомовну версію Microsoft Excel, то йдеться про функцію CORREL.
15
Таблиця 1. Результати обчислень частоти службових слів
із, з, зі прийменник 1 41 5 7 31 27
в, у прийменник 2 90 34 4 80 27
до прийменник 1 1 0 5 11 0
з-за прийменник 0 2 0 0 1 0
крім прийменник 0 7 1 2 0 0
по прийменник 0 12 4 0 4 5
і, й сполучник 14 109 77 29 69 78
але сполучник 1 0 0 1 12 7
що сполучник 1 0 3 12 4 0
щоб сполучник 3 8 1 8 0 8
та сполучник 2 7 21 3 4 15
як сполучник 0 0 0 0 6 0
проте сполучник 0 7 0 0 0 1
би, б частка 1 0 0 5 0 2
не частка 2 19 0 40 0 11
просто частка 0 8 1 2 4 0
ж частка 0 12 1 0 0 0
16
Приклад результати обчислень – на рис. 19.
17
6. Ілюстрування звіту про виконання практичної роботи
У звіт про виконання практичної роботи подати:
• Скрін надиктованого тексту.
• Скрін адаптованого тексту – у Microsoft Word.
• Таблицю частот та частотності службових слів у Microsoft Word чи у Microsoft
Excel.
• Візуалізацію отриманих результатів.
Завдання «з зірочкою»
• Зведену таблицю частот та частотності службових слів у текстах команди з
обчисленими коефіцієнтами кореляції – і висновок про рівень подібності
авторського стилю студента зі стилями інших авторів.
7. Література
Математична лінґвістика. [Книга 1. Квантитативна лінґвістика] : навч. посібник
/ [В. В. Пасічник, Ю. М. Щербина, В. А. Висоцька, Т. В. Шестакевич] // Серія
«Комп’ютинґ». – Львів : «Новий світ -2000», 2012. — 359 с.
Вимоги до оформлення звітів про виконання практичних робіт
Звіт про виконання практичної роботи потрібно оформити єдиним пдф-файлом
та подати викладачеві в обумовлений спосіб. На титульній сторінці вказати назву
курсу, тему виконаної роботи та її номер, групи та прізвища студента.
18
19