You are on page 1of 81

Основи прикладної лінгвістики

Лектор: Олена Петрівна Левченко,


доктор філол. наук, професор,
завкафедри прикладної лінгвістики,
olena.p.levchenko@lpnu.ua,
4 корпус, 131
КОМП’ЮТЕРНІ ЗАСОБИ
АНАЛІЗУ МОВИ
В основі роботи більшості сучасних комп’ютерних програм перебувають
дані, які надсилають, опрацьовують і аналізують. За даними фірми Cisco
кількість доступних даних у мережі вже перевищила zettabyte й
продовжує зростати. Частина згаданих даних (близько 60 відсотків)- це
фільми та інший вміст
.
Зетаба́йт (Збайт, Зб; англ. zettabyte) — кратна одиниця
вимірювання кількості інформації, що дорівнює 270стандартним (8-
бітним) байтам або 1024 ексабайтам. Назва «Зетаба́йт» використовується
для вказування об'єму пам'яті в різних електронних пристроях.

Людство щорічно використовує 9,57 зетаба́йт інформації.

На кожну людину генерується 3,18 терабайтів на рік.

До кінця 2016-го року річний світовий IP-трафік мережі інтернет досягне


1.1 ЗБ.
• Сьогодні використовують термін великі дані
(Big data). Цей термін запропонував Gartner.
Згаданий вчений запропонував і дефініцію
великих даних як „3V”:
• Volume (великий обсяг даних),
• Velocity (велика швидкість зміни даних) i
• Variety (велика різнорідність).
• Згодом цю дефініцію доповнили четвертим
V:
• Value (оцінювання даних – їх аналіз і оцінка).
Хто зацікавлений в аналізі великих даних?

• наука (наприклад, опрацювання даних нагромаджених під час


експериментів);
• суспільні медіа, зокрема Facebook чи Twitter;
• маркетинг (дані про клієнтів, профілювання реклами, які
пристосовують до профілю користувача, що пропонує,
наприклад, система AdWords фірми Google;
• охорона здоров’я для уточнення, наприклад, методів
дослідження;
• відновлювані джерела енергії;
• промисловість (використання алгоритмів для аналізу різних
даних, що стосуються виробництва, а також логістики)
[Nawojczyk, 2016].
Для графематичного аналізу мови, наприклад, призначено такі
програми:

• АОТ, Lemmatizer, FreeLing, Stanford CoreNLP,


Apache OpenNLP, Twitter NLP and Part-of-
Speech Tagger, NLTK, TextBlob, MBSP, Pattern,
Greeb, natural, Solarix, tokenizer, AskNet
Пакет FreeLing -
це функціонал для аналізу тексту з урахуванням специфіки мови. FreeLing дає змогу
користувачеві аналізувати текстову інформацію з командного рядка.
Основні можливості FreeLing:
1. Роззначення тексту (токенізація).
2. Виокремлення речень.
3. Морфологічний аналіз.
4. Визначення складників слів.
5. Ймовірнісне визначення частини мови невідомого слова (hmm tagger).
6. Виявлення й визначення іменної групи.
7. Класифікація іменної групи.
8. Побудова дерева залежностей (слів у реченні).
9. Визначення займенників (займенникових словоформ)
10. Нормалізація і визначення дат, чисел, процентних відношень, валюти і фізичних
величин (швидкість, вага, температура, густина тощо).
11. Визначення частини мови (ймовірнісне).

Програма підтримує мови: іспанську, каталонську, італійську, англійську, валлійську,


португальську, російську тощо (http://nlp.lsi.upc.edu/freeling/).
Stanford CoreNLP (Natural language software)

• Надає набір технологічних інструментів для аналізу


природної мови.
• Програма дає змогу отримати базові форми слів,
визначити частини мови, зокрема назви компаній,
людей тощо, нормалізувати дати, години та числові
величини, роззначити структуру речень з точки зору
фраз і синтаксичних залежностей, вказати які іменні
фрази стосуються одних і тих самих сутностей, вказують
на почуття, виявити конкретні або відкриті відносини
між згаданими сутностями, виявити цитати людей
тощо [https://stanfordnlp.github.io/CoreNLP/].
Мета Stanford CoreNLP

• полягає в тому, щоб легко застосувати низку


інструментів лінгвістичного аналізу до фрагмента тексту.

• CoreNLP розроблений так, щоб бути надзвичайно


гнучким та розширюваним. За допомогою однієї дії
можна змінити інструменти.
• Stanford CoreNLP об'єднує безліч інструментів, зокрема
тег частини мови (the part-of-speech (POS) tagger),
ідентифікатор названого об'єкта (the named entity
recognizer (NER)), парсер, сентимент-аналізатор тощо
[https://stanfordnlp.github.io/CoreNLP/].
https://stanfordnlp.github.io/CoreNLP/
Фоносемантичний аналіз ВААЛ

• Фоносемантика (англ. phonosemantics), фонестезія 
(англ. phonesthesia), або звуковий символізм (англ. sound
symbolism) — це галузь лінгвістики, що вивчає
звукообразотворчу систему мови, вплив звуків на значення
вимовлених слів, а також на настанови носіїв мови до слів, які
породжуються на неусвідомленому рівні. Фоносемантичний
аналіз дає змогу зробити висновок про те як певне слово
сприймають носії мови на підсвідомому рівні, оскільки звукова
(фонетична) форма слова істотно впливає на значення.
Початок розвитку сягає 70-80-х років XX ст. під впливом праць
А.П. Журавльова "Фонетичне значення" (М., 1974), "Звук і
смисл" (М., 1981; М., 1991). На основі експериментальних
даних з опорою на психометричний метод вивчення
символічного значення звуків мови вчений виявив символіку
звукових одиниць.
• Описи фонетичного символізму з’являються
на початку ХХ століття.
• Ida Kurcz у книзі «Психолінгвістика» зазначає:
Фонетична символіка є явищем, де певним
звукам мови надається певний сенс. Значення
звуку (...) є основною функцією мови. Говорячи
про фонетичну символіку, ми маємо на увазі,
насправді, важливість таких звуків, які за
лінгвістичною конвенцією, відомі
користувачеві мови, не мають значення.
Кілька років тому під керівництвом
професора Willa Lebena із Стенфордського
університету було проведено тест на асоціації
приголосних із деякими психічними
властивостями. Респонденти відповіли на ряд
запитань щодо потенційних найменувань для
трьох нових продуктів, таких як седан,
ноутбук і таблетка від головного болю.
Ось деякі результати:

• [p], [t], [k] властива більша конотація швидкості, ніж


[b], [d], [g], наприклад Pavil звучить швидше, ніж
Bavil;
• [p], [k] конотують малість краще, ніж [b], [g],
наприклад: Kortan здається меншим, ніж Gortan;
• [b],[p],[d] конотують надійність краще, ніж [v],[f],[z],
[s], наприклад: Bazia здається „надійнішим”, ніж
Vazia.
• Виявилося, що продукт може бути оцінюваний, як
швидший, більший, навіть солідніший. Це залежить
від звуку, на який починається та чи інша назва
[Hatalska, 2002].
• Інші дослідники, порівнявши 200
найпопулярніших марок, довели, що марки,
назви яких починаються вибухові приголосні
[p, b, t, d, k, g], мали більший успіх.
• Vanden Bergh довів, що 93 назви перші у
списку починаються вибуховим
приголосним, натомість 42 назви
закінчуються таким приголосним. 172 назви
містить один вибуховий звук: Kodak, Prozac,
Burger King, Coca-Cola, Pizza Hut, Compaq czy
Toyota [Hatalska, 2002].
Система ВААЛ (з 1992 р.), дає змогу прогнозувати неусвідомлювану дію текстів на
масову аудиторію, аналізувати тексти з погляду такої дії, складати текст із
заданим вектором впливу, виявляти особистісно-психологічні якості авторів
тексту, проводити поглиблений контент-аналіз тексту тощо.
Автори програми вважають, що її ділянками можливого використання є:
• Створення текстів виступів з попередньо заданими характеристиками впливу
на потенційну аудиторію;
• Активне формування емоційного ставлення до політичного діяча з боку різних
соціальних груп;
• створення емоційно забарвлених рекламних статей; пошук найвдаліших назв
та торгових марок;
• психо- та гіпнотерапія; неявне психологічне тестування та експрес-діагностика;
• створення легких в засвоєнні навчальних матеріалів;
• наукові дослідження в ділянці психолінгвістики та суміжних з нею дисциплінах;
• журналістика та інші сфери діяльності, що використовують як інструмент
СЛОВО;
• соціологічні та соціолінгвістичні дослідження;
• інформаційні війни; контент-аналіз текстів; моніторинг ЗМІ [ВААЛ].
• Система дає змогу: оцінювати неусвідомлюваний емоційний вплив
фонетичної структури текстів і окремих слів на підсвідомості
людини; генерувати слова з заданими фоносемантичними
характеристиками; оцінити неусвідомлюваний емоційний вплив
фонетичної структури текстів на підсвідомість людини; задавати
характеристики бажаного впливу та цілеспрямовано коректувати
тексти за вибраними параметрами в цілях досягнення необхідного
ефекту впливу; оцінити звуко-колірні характеристики слоїв і текстів;
здійснювати словниковий аналіз тексту; здійснювати повноцінний
контент-аналіз тексту за великою кількістю спеціально зібраних
вбудованих категорій та категорій, заданих самим користувачем;
виокремлювати теми і здійснювати на основі цього автоматичну
категоризації; здійснювати емоційно-лексичний аналіз текстів;
налаштовуватися на різні соціальні та професійні групи людей, які
можуть бути виділені за використовуваною ними лексикою;
здійснювати вторинний аналіз даних шляхом їх візуалізації,
факторного та кореляційного аналізу [ВААЛ].
Hotel Viktoria
Ursus (продуцент тракторів)
Lublin
Plaza
Морфологічний аналіз:

• АОТ, Snowball, Stemka, pymorphy, Myaso,


Eureka Engine, ISPRAS API Texterra,
pymystem3, phpmorphy, Pullenti SDK,
FreeLing, NLTK, TextBlob, MBSP, Pattern,
natural, MAnalyzer, hunpos, SVMTool, Twitter
NLP and Part-of-Speech Tagger, Stanford
Log-linear Part-Of-Speech Tagger, mystem,
TreeTagger, TnT, Морфер, RCO, AskNet,
Solarix, ОРФО, STARLING, mystem-scala,
zamgi
https://open.xerox.com/Services/fst-nlp-tools/Consume/Part%20of
%20Speech%20Tagging%20(Standard)-178
Синтаксичний аналіз, парсинг (англ. parsing):

• АОТ, ISPRAS API Texterra, MaltParser,


MSTParser, Link Grammar Parser, AGFL, NLTK,
MBSP, Pattern, Solarix, ABBYY Compreno,
AskNet, DictaScope, The Stanford Parser, ZPar,
mate-tools
MaltParser

• MaltParser - інструмент для роботи з


деревами залежностей.
• Дає змогу побудувати модель по
роззначеному корпусу і будувати дерева
для нових даних, ґрунтуючись на ній.
Реалізує кілька алгоритмів побудови дерев.
За твердженнями авторів, "досяг передових
показників на деяких мовах".
https://nlpub.ru/MaltParser
ABBYY Compreno - це

• унікальна технологія аналізу і розуміння


текстів на природній мові. На відміну від
систем, заснованих на статистиці і
правилах, ABBYY Compreno виконує повний
семантико-синтаксичний аналіз тексту,
створює його універсальне уявлення,
витягує сутності, події і зв'язки між ними
[https://www.abbyy.com/ru-
ru/isearch/compreno/].
Етапи роботи ABBYY Compreno
• 1 етап. Лексико-морфологічний аналіз. На цьому етапі вихідний текст
ділиться на абзаци, речення і слова, технологія визначає частини мови і
морфологічні ознаки слів (рід, число, відмінок тощо).
• 2 етап. Синтаксичний аналіз. Технологія виокремлює речення в тексті,
визначає їх структуру і зв'язки між словами в реченні.
• 3 етап. Семантичний аналіз. ABBYY Compreno визначає значення
кожного слова, будує семантичну структуру речення на основі зав’язків,
які були встановлені на попередньому етапі.
• 4 етап. Прагматичний рівень аналізу. На цьому етапі накладається
прагматичний шар аналізу тексту, застосовуються онтології (термінологія
для конкретної предметної галузі аналізу) і правила вилучення
потрібних об'єктів. Результатом аналізу є універсальне представлення
інформації, що дає змогу структурувати контент в потрібному
замовникові вигляді. ABBYY Compreno дає змогу ефективно вирішувати
завдання клієнта, пов'язані з аналізом і витяганням важливих фактів,
інтелектуальним пошуком і класифікацією інформації
[https://www.abbyy.com/ru-ru/isearch/compreno/].
ABBYY Compreno має низку можливостей.
Зокрема, визначення значення багатозначних
слів. У процесі аналізу тексту ABBYY Compreno
виявляє омоніми і вирішує проблему їх
багатозначності на основі аналізу контексту.
Це дає змогу істотно підвищувати
релевантність результатів пошукової видачі, а
також точність виявлення конкретних об'єктів
в текстах [https://www.abbyy.com/ru-
ru/isearch/compreno/].
ABBYY Compreno відновлює пропущені слова в
тексті. Чимало мов дають змогу опускати різні слова
в тексті, без яких людина і так може зрозуміти, про
що йде мова, виходячи з контексту.
Завдяки аналізу змісту тексту, а не окремих слів,
ABBYY Compreno також «розуміє» контекст і
відновлює пропущені слова, важливі для
подальшого аналізу або пошуку:
• ABBYY Compreno аналізує складні лінгвістичні зв’язки між
словами. Виявлення зв'язків між словами відіграє важливу
роль в пошукових і текстово-аналітичних задачах. Завдяки
повному семантико-синтаксичному аналізу, технологія здатна
врахувати безліч особливостей природної мови, які часто є
перешкодою для якісного визначення відношень у текстах.
ABBYY Compreno визначить відношення між
взаємопов'язаними словами навіть у багаторядкових
складносурядних реченнях зі складними зворотами.
Завдяки аналізу синтаксичних і семантичних
зв'язків, ABBYY Compreno дає змогу
визначати, як пов'язані слова і займенники,
що замінюють їх (визначення анафоричних
зв'язків):
Ця програма містить низку модулів:

• ABBYY InfoExtractor SDK. Рішення, яке з високою точністю


витягує важливу для бізнесу інформацію з неструктурованих
текстових ресурсів, дозволяючи оптимізувати бізнес-процеси
організації та підвищувати її конкурентоспроможність.
• ABBYY Intelligent Search SDK. Рішення для інтелектуального
пошуку інформації в масивах неструктурованих ресурсів.
• ABBYY Smart Classifier SDK. Потужний інструмент для
класифікації документів, який дає змогу організаціям
автоматично розподіляти потік вхідних документів,
моментально знаходити або архівувати інформацію в різних
корпоративних системах [https://www.abbyy.com/ru-
ru/isearch/compreno/].
Програма Textrazor (
https://www.textrazor.com/demo)
Перевірка орфографії:

• GNU Aspell, Hunspell, Pattern, Spellah, Yandex


speller, ОРФО Speller, ОРФО Grammar
Checker
Перевірка граматики:

• LanguageTool
Конкордансери

• Конкордансер – це комп’ютерна програма,


яка автоматично конструює конкорданси.
Конкорданси дають дані для пам’яті
перекладів, які застосовуються під час
комп’ютернодопоміжного перекладу, що є
першим кроком у машинному перекладі.
Open source
• GlossaNet - online press watch & linguistic search engine
• KH Coder - quantitative content analysis and text mining software
• myCAT - concordancer
• NoSketch Engine - corpus management system
• KonText - corpus management system
• Unitex/GramLab - corpus processing suite
• #Lancsbox - software package with several text analysis tools
Freeware
• AdTAT - concordancing tool
• AntConc - corpus analysis toolkit for concordancing and text analysis
• CorpusEye - online corpus search interface
• Linguistic Toolbox - concordancer with integrated part-of-speech tagger
• PowerConc - concordancer
• Reverso Context - online search engine and mobile application for translators
• TranslatorBank - text analysis software for translators and interpreters
Commercial
• ApSIC Xbench - quality assurance and terminology management package
• MonoConc - concordance software
• Sketch Engine - corpus manager and analysis software
• WordSmith - linguistic software package
Ключові слова – характерні для певного тексти (автора,
стилю, жанру тощо) вислови. Список ключових слів отримують за
допомогою порівняння частотності слів у тексті з їхньою
загальною частотністю. Словам, яким властива «підвищена»
частотність, це – ключові слова.

Поняття ключових слів використовують під час аналізу стилю й


поетики текстів чи авторів, а також в комп’ютерній лінгвістиці.
Такі слова можуть слугувати ключем під час пошуку інформації в
інтернеті чи на сторінці сайту.

Згаданий термін запровадив 1954 році французький семіотик і


мовознавець Pierre Guiraud.
 
Kea, Maui, Tesuck, TextMF, natural, Content Analyzer, AskNet,
TextAnalyst, AlchemyAPI, Семантическое зеркало, Extractor,
TerMine
Програма SEOtool
http://seotool.by/analiz/seo/keywordstext.php
• Ключові слова виокремлено програмою SEOtool з
Statement by the President at the General Debate of the
70th Session of the United Nations General Assembly (
http://
www.president.gov.ua/en/news/vistup-prezidenta-ukrayini-na-zagalnih-debatah-70-yi-sesiyi-3
6057
): ukraine, its, international, security, russian, rights,
russia, has, president, country, state, peace, human,
against, aggression, council, military, donbas.
• Ключові слова виокремлено програмою Open Text
Summarizer із вищезгаданого тексту: ukraine, un,
international, rights, state.
• Ключові слова виокремлено програмою Open Text
Summarizer із пісні «Гей, Соколи!»: дзвін, гей, жаль,
козак.
Автоматичне реферування 
(англ. Automatic Text Summarization) — це
створення коротких викладок матеріалів, анотацій або
дайджестів, тобто отримання найважливіших відомостей
з одного або з декількох документів та генерація на їх
основі лаконічних та інформаційно насичених звітів.
Існують два напрямки автоматичного
реферування — квазіреферування та коротке викладення
змісту.
 
Open Text Summarizer, SweSum, Content Analyzer, Tesuck,
Extractor
• Анотацію пісні «Гей, соколи» створено програмою
Open Text Summarizer (https://www.splitbrain.org/services/ots):
Гей, десь там, де чорні води, Сів на коня козак молодий.
Дзвін, дзвін, дзвін, дзвіночку, Мій степовий дзвін, дзвін,
дзвін. Жаль, жаль за милою, За рідною стороною.

• Анотацію пісні «Hotel California» створено програмою


Autosummarizer (http://autosummarizer.com/index.php):
My head grew heavy and my sight grew dim Her mind is
Tiffany-twisted, she got the Mercedes bends She got a lot of
pretty, pretty boys, that she calls friends How they dance in
the courtyard, sweet summer sweat Some dance to
remember, some dance to forget. 
• Анотацію пісні уривку з наукової статті створено програмою Open Text
Summarizer (https://www.splitbrain.org/services/ots ):
Серед значущих недоліків гендерних студій у лінгвістиці дослідники
називають такі: інтенціоналізм, приписування чиннику статі
омнірелевантності (гіперболізація), ігнорування ролі контексту,
недооцінка якісних методів дослідження, гіперболізація в дитячому і
підлітковому віці гендерно специфічних стратегій і тактик поведінки.
використання, наприклад, як фактологічної бази дослідження лише
фразеологічного матеріалу, зафіксованого відповідними словниками,
що відображає певний етап розвитку уявлень лінгвоспільноти, інакше
кажучи, неврахування динаміки системи.

• Анотацію пісні «Jeszcze w zielone gramy» створено програмою


Autosummarizer (http://autosummarizer.com/index.php ):
Jeszcze w zielone gramy, jeszcze nie umieramy Jeszcze zimowe smiecie na
ogniskach wiosny spłoną Jeszcze w zielone gramy, jeszcze wzrok nam się pali
Jeszcze się nam pokłonią ci, co palcem wygrażali My możemy być w kłopocie,
ale na rozpaczy dnie 
Тематична класифікація:

• Maui, Eureka Engine, TextMF, Семантическое


зеркало, AlchemyAPI, zamgi
• MALLET – пакет, базований на мові програмування Java, для
статистичного опрацювання природної мови, класифікації
документів, кластеризації, тематичного моделювання,
вилучення інформації та інших додатків для машинного
навчання в текст [http://mallet.cs.umass.edu/].
• MALLET містить складні інструменти для класифікації
документів: ефективні процедури для перетворення тексту на
"функції", широкий спектр алгоритмів.
• Крім класифікації, MALLET містить інструменти для позначення
послідовності для таких додатків, як вилучення названого
об'єкта з тексту.
• Тематичні моделі корисні для аналізу великих колекцій
нероззначених текстів.
• Крім складних додатків для машинного навчання, MALLET
містить процедури перетворення текстових документів у
числові репрезентації, які потім можуть бути ефективно
опрацьовані.
Тематичне моделювання:

• MALLET, BigARTM, Gensim, Weka, Insider


Розпізнавання іменованих сутностей (Named-entity recognition)

• FreeLing, OpenCalais, AlchemyAPI, Eureka


Engine, ISPRAS API Texterra, DBPedia Spotlight
, Yahoo! Content Analysis, CiceroLite, Stanford
NER, Apache cTAKES, TextMF, PullEnti,
LingPipe, Томита-парсер, TEXToCAT, RCO Fact
Extractor SDK, OntosMiner, X-Files, AskNet,
ABBYY Intelligent Tagger, NetOwl Extractor,
ИАС "АРИОН", МетаФраз, DictaScope
Tokenizer, XANALYS Indexer, Rosette, Natasha
Calais
Завдяки передовій маркетинговій онтології, пов'язаній з продуктами
компанії Thomson Reuters, Thomson Reuters Open Calais™ пропонує
найпростіший та найточніший спосіб позначити людей, місця, компанії,
факти та події у вмісті для підвищення його цінності, доступності та
сумісності.
Розробники зазначають, що вони використовують алгоритми
опрацювання природних мов (NLP) та алгоритми машинного навчання.
Для користувача цей процес досить простий: треба завантажити
неструктурований текст у механізм вилучення (новинні статті, публікації
в блозі тощо), щоб перевірити ваш текст та знайти:
• об'єкти (Entities): (компанії, люди, місця, продукти тощо);
• відносини: (Джон Доу працює для Acme Corp.);
• факти: (Джон Доу - 42-річний чоловічий фінансовий директор);
• події: (Джейн Доу була призначена членом правління Acme Corp.);
• теми: (історія про злиття і поглинання у фармацевтичній галузі).
• Open Calais опрацьовує інформацію, отриману з тексту,
і повертає семантичні метадані у форматі RDF. Ось лише
деякі з багатьох переваг:
• Контекстна навігація. Визначте найбільш актуальні
компанії, людей та галузі.
• Більше цілеспрямованих новин: отримайте
надзвичайно релевантні, орієнтовані новини для
компаній та галузей, які цікавлять.
• Швидке опрацювання: в середньому знадобиться
близько двох секунд для опрацювання новинної статті
значного обсягу.
• Більший інтелект: виходить далеко за межі класичної
ідентифікації особи та повертає відповідні факти та події,
приховані в тексті
http://www.opencalais.com/about-open-calais/
MER - Minimal Entity Recognizer
• Існує демоверсія Minimal Named-Entity
Recognizer (MER).
• MER - це інструмент, який дає будь-який
лексикон, і будь-який вхідний текст повертає
список термінів, розпізнаних у тексті, зокрема
точне їхнє розташування (анотації).
• Цей проект розроблено у LaSIGE, Faculdade de
Ciências, Університеті Лісабону, Португалії,
Франсіско Куто, Андре Ламуріас та Луїс Кампос.
• http://labs.fc.ul.pt/mer/
Розпізнавання відношень (Extracting Relations):

 
• Serelex, ReVerb, RCO, AskNet, AlchemyAPI,
OpenCalais, Томита-парсер, OntosMiner,
NetOwl Extractor
Програма Textrazor
(https://www.textrazor.com/demo)
Аналіз тональності, емоційний аналіз тексту (Sentiment
analysis):
• Емоційний аналіз тексту (сентимент-аналіз, англ. Sentiment
analysis, англ. Opinion mining) — клас методів контент-
аналізу в комп'ютерній лінгвістиці, призначений для
автоматизованого виявлення в текстах емоційно
забарвленої лексики і емоційної оцінки авторів (думок) щодо
об'єктів, мова про які йде в тексті.
• Тональність — це емоційне ставлення автора висловлювання до
деякого об'єкта (об'єкта реального світу, події, процесу або їх
властивостей / атрибутів), виражене в тексті. Емоційний складник,
виражений на рівні лексеми або комунікативного фрагмента,
називають лексичною тональністю (або лексичним сентиментом).
Тональність всього тексту загалом можна визначити як функцію (в
найпростішому випадку суму) лексичних тональностей складників
його одиниць (речень) і правил їх поєднання
• У сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше
використовують одномірний емотивний простір: позитив чи негатив (добре або
погано). Однак відомі успішні випадки використання і багатовимірних просторів .
• Основним завданням в аналізі тональності є класифікація полярності певного
документа, тобто визначити, чи виражена думка в документі або реченні є
позитивною, негативною або нейтральною.
• Емоційний складник не завжди можна однозначно визначити, тобто документ може
містити ознаки як позитивної, так і негативної оцінки. Було здійснено спроби визначати
тональність документів за певними шкалами. У випадку використання такої методики
спочатку фрагмент неструктурованого тексту досліджують за допомогою інструментів
та алгоритмів опрацювання природної мови, а потім виокремлені з цього тексту
об'єкти та терміни аналізують з метою розуміння значення цих слів .
• Це завдання зазвичай визначається як віднесення даного тексту в один з двох класів:
суб'єктивний або об'єктивний. Ця проблема іноді може бути більш складною, ніж
класифікація полярності: суб'єктивність слів і фраз може залежати від контексту, а
об'єктивний документ може містити в собі суб'єктивні речення (наприклад, новинна
стаття, цитує думки людей)..
• Також визначають суб'єктивність/об'єктивність тексту. Іншими словами класифікують
тексти (як правило, речення) на об'єктивні або суб'єктивні. Суб'єктивність слів і
висловів залежить від їхнього контексту, а об'єктивний документ може містити
суб'єктивні речення (наприклад, стаття новин з цитуванням думок людей).
• Наявні підходи до аналізу тональності можна згрупувати за трьома
основними категоріями: технологіями на основі знань (knowledge-
based techniques), статистичними методами та гібридними
підходами. Технології на основі знань, класифікують текст за
категоріями впливу, ґрунтуючись на наявності однозначних схожих
слів, таких як щасливий, сумний, страшний та нудний .
• Статистичні методи впливають на елементи машинного навчання,
такі як латентний семантичний аналіз, підтримка векторних машин,
"мішок слів" та семантична орієнтація - точкова взаємна інформація (
latent semantic analysis, support vector machines, "bag of words"
and Semantic Orientation) .
• Під час використання складніших методів намагаються виявити носія
настроїв (тобто людину, яка підтримує цей афективний стан) та ціль
(тобто об'єкт, про який йдеться) .
• Щоб зрозуміти контекст і отримати характеристику, про яку говорить
оратор, використовують граматичні відношення слів. Граматичні
залежності відношень отримують шляхом глибокого розбору тексту.
• Sentimental, Eureka Engine, ISPRAS API
Texterra, TextBlob, Pattern, SentiStrength,
Аналитический курьер, DictaScope, RCO,
AlchemyAPI, Sentiment140, ConveyAPI,
BrandSpotter, RussianSentimentAnalyzer, Fuxi
API, NetOwl Extractor, zamgi
Hotel Viсtoria (Lublin)

• The staff were very patient and helpful, especially at


the reception desk. The hotel was open 24 hours
which was very useful for our purpose. The
housekeeping staff were very adaptable so we didn't
feel rushed or forced to leave the room. The rooms
were small, but everything was functional and
useful. There was some noise from a function on the
weekend, but it wasn't too bad. Overall, I think the
hotel was better than expected from a 3 star. Thanks
to all who made the stay so comfortable
http://text-processing.com/demo/sentiment/
Аналіз тональності пісні «I Hate U, I Love U»,
Conor Maynard, Samantha Harvey
Інформаційний пошук:

• Apache Lucene Core, Apache Solr, AskNet


Search, elasticsearch, Bobo, Picky, Whoosh,
Sphinx, Xapian, PostgreSQL Full Text Search
Машинний переклад:

• Apertium, Moses, Sinuhe,  ABBYY Aligner, Deja


Vu , OmegaT, STAR Transit
• SYSTRAN, Trados, Wordfast
• Trados - система автоматизованого перекладу, спочатку (з 1992 року)
розроблена німецькою компанією Trados GmbH. Є одним зі світових
лідерів в класі систем Translation Memory (TM, Пам'ять перекладів).
• Система Trados складається з модулів, призначених для перекладу текстів
різного формату: документів Microsoft Word, презентацій PowerPoint,
текстів у форматі HTML і інших метаданих, документів FrameMaker,
InterLeaf і ін., А також для ведення термінологічних баз даних (модуль
MultiTerm). Остання версія системи, випущена незалежною компанією
Trados - 7.0. Остання версія Trados на сьогоднішній день - SDL Trados Studio
2017.
• Концепція Translation Memory передбачає виявлення в перекладному
тексті фрагментів, переклади яких вже є в базі даних перекладів, і за
рахунок цього скорочення обсягу роботи перекладача. Фрагменти, що
залишилися не перекладеним, передаються далі для ручної обробки
перекладачеві або системі машинного перекладу (Machine Translation,
MT). Перекладач на цьому етапі може виділити знову перекладені
фрагменти і занести нові пари паралельних текстів на двох мовах в базу
даних. Така схема найкраще працює в разі однотипних текстів, де
повторюваність словосполук досить висока, тобто в разі різного роду
інструкцій для користувачів, технічних описів.
Основні модулі
• Translator's Workbench - модуль роботи з базами даних пам'яті
перекладів TM (створення, обслуговування, імпорту, експорту).
Створення документів перекладу і їх редагування виконується в окремих
модулях.
• Панель Trados в Microsoft Word - модуль для перекладу документів в
Microsoft Word.
• TagEditor - модуль для перекладу документів в форматі PowerPoint,
Excel, HTML, XML і т.ін.
• WinAlign - модуль для створення пам'яті перекладів на основі раніше
перекладених двомовних текстів.
• S-Tagger - модуль для перекладу документів в форматі FrameMaker і
InterLeaf.
• T-Window - модуль для перекладу тексту з буфера обміну.
• MultiTerm - модуль для ведення глосаріїв.
• ExtraTerm - модуль для автоматичного пошуку термінологічних
кандидатів в тексті і створення глосаріїв на їх основі.
Інтегровані пакети:

• GATE, Apache UIMA, Apache OpenNLP,


SharpNLP, NLTK, spaCy, TextBlob, Treat,
Linguistics, NooJ, Stanford NLP, MinorThird,
Grammatical Framework, libschwa, natural,
LingPipe, T-LAB, MeTA, Eureka Engine, zamgi
Електронні словники:

• Wikipedia, Мультитран, ForceMem, ABBYY


Lingvo
Антиплагіат
• Multilingual Plagiarism Checker
https://www.plagramme.com/?
gclid=EAIaIQobChMIyqP-
nqPN1wIVlR0YCh1huw7bEAAYAiAAEgIo5vD_
BwE
Синтез мовлення
Синтез мовлення (СМ) —
перетворення друкарського тексту у мовний сигнал
(в широкому сенсі — відновлення форми мовного
сигналу за його параметрами.
Комп'ютерна система, що здійснює синтез мови,
називається синтезатором мови, (СМ) та може бути
побудованою на базі програмного чи апаратного
рішення.
Система що спроможна виконувати конвертування
нормального друкованого тексту у аудіо у
реальному часі називається текст-у-мовлення
(ТУМ) (англ. text-to-speech, TTS).
Українські СМ Докладніше: 
Порівняння синтезаторів української мови
До середини 2016 року, існувало 4 напівпрофесійні TTS системи з підтримкою
української мови:
• Розмовлялка (2 голоси: Анатоль/Стьопа (чоловічий голос) та Руся (жіночий
голос)),
• CyberMova/VymovaPlus/VymovaPro (4 голоси: Наталка (жіночий) та Опанас,
Дмитро, Слава (усі - чоловічі голоси) та
• UkrVox (1 голос: Ігор Мурашко (чоловічий голос)).
• У 2016 з'явилася TTS система української мови Google Text-to-Speech на веб-
сайті Google Translate.
• 5 квітня 2017 офіційний застосунок Google Text-to-Speech для Android також
увімкнув підтримку української мови разом з оновленням до версії 3.11.12.
• Наприкінці 2016 р. стали доступними одразу кілька версій україномовного
синтезатора Анатоль (програміст Ольга Яковлева, спеціалісти Соціально-
реабілітаційного центру незрячих Харкова). Голос для синтезатора надав
відомий артист, диктор Харківського державного радіо Анатолій Подорожко.
Синтезатор працює під ОС Windows та Android.
Розпізнавання мовлення (англ. speech recognition)
або мо́влення-у-те́кст (англ. speech to text (STT))—

• процес перетворення мовленнєвого сигналу в текстовий


потік. Не варто плутати із визначенням розпізнавання
мови, оскільки «розпізнати мову» безпосередньо означає
лише дати відповідь на питання, до якої мови належить
сегмент мовленнєвого сигналу. Часто використовується у
наборі технологій, що дають змогу керувати комп'ютером,
використовуючи людський голос, вводити інформацію
голосом, диктувати, транскрибувати (стенографувати)
фонограми.
• Перший пристрій для розпізнавання усної мови з'явився
в 1952 році, він міг розпізнавати вимовлені людиною
цифри.  В 1964 році на ярмарку комп'ютерних технологій у
Нью-Йорку було представлено пристрій IBM Shoebox.
Система запитань і відповідей —

• тип сайтів, що дозволяє користувачам ставити запитання або


відповідати на вже поставлені.
• У такий спосіб формується соціальна мережа, учасником якої
може зазвичай стати кожен. Часто користувачі можуть
голосувати за відповіді, виокремлюючи, на їхню думку,
правильну. У деяких системах питань і відповідей активні
користувачі, чиї відповіді отримують велику кількість голосів,
отримують статус експертів, що допомагає новачкам оцінити
компетентність отриманих відповідей.
• Системи запитань і відповідей є яскравими представниками 
Web 2.0, оскільки їх наповненням займаються безпосередньо
користувачі (user-generated content).
Free online Wordcloud generator
https://www.wordclouds.com/

You might also like