Комп програм лінг 25

КОМП’ЮТЕРНІ ЗАСОБИ
АНАЛІЗУ МОВИ
В основі роботи більшості сучасних комп’ютерних програм перебувають
дані, які надсилають, опрацьовують і аналізують. За даними фірми Cisco
кількість доступних даних у мережі вже перевищила zettabyte й
продовжує зростати. Частина згаданих даних (близько 60 відсотків)- це
фільми та інший вміст
.
Зетаба́йт (Збайт, Зб; англ. zettabyte) — кратна одиниця
вимірювання кількості інформації, що дорівнює 270стандартним (8-
бітним) байтам або 1024 ексабайтам. Назва «Зетаба́йт» використовується
для вказування об'єму пам'яті в різних електронних пристроях.
Людство щорічно використовує 9,57 зетаба́йт інформації.
На кожну працюючу людину генерується 3,18 терабайтів на рік.
До кінця 2016-го року річний світовий IP-трафік мережі інтернет досягне

1.1 ЗБ.
• Сьогодні використовують термін великі дані
(Big data). Цей термін запропонував Gartner.
Згаданий вчений запропонував і дефініцію
великих даних як „3V”:
• Volume (великий обсяг даних),
• Velocity (велика швидкість зміни даних) i
• Variety (велика різнорідність).
• Згодом цю дефініцію доповнили четвертим
V:
• Value (оцінювання даних – їх аналіз і оцінка).
Хто зацікавлений в аналізі великих даних?
• наука (наприклад, опрацювання даних нагромаджених під час

експериментів);
• суспільні медіа, зокрема Facebook чи Twitter;
• маркетинг (дані про клієнтів, профілювання реклами, які
пристосовують до профілю користувача, що пропонує,
наприклад, система AdWords фірми Google;
• охорона здоров’я для уточнення, наприклад, методів
дослідження;
• відновлювані джерела енергії;
• промисловість (використання алгоритмів для аналізу різних
даних, що стосуються виробництва, а також логістики)
[Nawojczyk, 2016].
Для графематичного аналізу мови, наприклад, призначено такі
програми:
• АОТ, Lemmatizer, FreeLing, Stanford CoreNLP,

Apache OpenNLP, Twitter NLP and Part-of-
Speech Tagger, NLTK, TextBlob, MBSP, Pattern,
Greeb, natural, Solarix, tokenizer, AskNet
Пакет FreeLing -
це функціонал для аналізу тексту з урахуванням специфіки мови. FreeLing дає змогу
користувачеві аналізувати текстову інформацію з командного рядка.
Основні можливості FreeLing:
1. Роззначення тексту (токенізація).
2. Виокремлення речень.
3. Морфологічний аналіз.
4. Визначення складників слів.
5. Ймовірнісне визначення частини мови невідомого слова (hmm tagger).
6. Виявлення й визначення іменної групи.
7. Класифікація іменної групи.
8. Побудова дерева залежностей (слів у реченні).
9. Визначення займенників (займенникових словоформ)
10. Нормалізація і визначення дат, чисел, процентних відношень, валюти і фізичних
величин (швидкість, вага, температура, густина тощо).
11. Визначення частини мови (ймовірнісне).
Програма підтримує мови: іспанську, каталонську, італійську, англійську, валлійську,

португальську, російську тощо (http://nlp.lsi.upc.edu/freeling/).
Stanford CoreNLP (Natural language software)
• Надає набір технологічних інструментів для аналізу

природної мови.
• Програма дає змогу отримати базові форми слів,
визначити частини мови, зокрема назви компаній,
людей тощо, нормалізувати дати, години та числові
величини, роззначити структуру речень з точки зору
фраз і синтаксичних залежностей, вказати які іменні
фрази відносяться до одних і тих самих сутностей,
вказують на почуття, виявити конкретні або відкриті
відносини між згаданими сутностями, виявити цитати
людей тощо [https://stanfordnlp.github.io/CoreNLP/].
Мета Stanford CoreNLP
• полягає в тому, щоб легко застосувати низку

інструментів лінгвістичного аналізу до фрагмента тексту.
• CoreNLP розроблений так, щоб бути надзвичайно

гнучким та розширюваним. За допомогою однієї дії
можна змінити інструменти.
• Stanford CoreNLP об'єднує безліч інструментів, зокрема
тег частини мови (the part-of-speech (POS) tagger),
ідентифікатор названого об'єкта (the named entity
recognizer (NER)), парсер, сентимент-аналізатор тощо
[https://stanfordnlp.github.io/CoreNLP/].
https://stanfordnlp.github.io/CoreNLP/
Фоносемантичний аналіз ВААЛ
• Фоносемантика (англ. phonosemantics), фонестезія
(англ. phonesthesia), або звуковий символізм (англ. sound
symbolism) — це галузь лінгвістики, що вивчає
звукообразотворчу систему мови, вплив звуків на значення
вимовлених слів, а також на настанови носіїв мови до слів, які
породжуються на неусвідомленому рівні. Фоносемантичний
аналіз дає змогу зробити висновок про те як певне слово
сприймають носії мови на підсвідомому рівні, оскільки звукова
(фонетична) форма слова істотно впливає на значення.
Початок розвитку сягає 70-80-х років XX ст. під впливом праць
А.П. Журавльова "Фонетичне значення" (М., 1974), "Звук і
смисл" (М., 1981; М., 1991). На основі експериментальних
даних з опорою на психометричний метод вивчення
символічного значення звуків мови вчений виявив символіку
звукових одиниць.
• Описи фонетичного символізму з’являються
на початку ХХ століття.
• Ida Kurcz у книзі «Психолінгвістика» зазначає:
Фонетична символіка є явищем, де певним
звукам мови надається певний сенс. Значення
звуку (...) є основною функцією мови. Говорячи
про фонетичну символіку, ми маємо на увазі,
насправді, важливість таких звуків, які за
лінгвістичною конвенцією, відомі
користувачеві мови, не мають значення.
Кілька років тому під керівництвом
професора Willa Lebena із Стенфордського
університету було проведено тест на асоціації
приголосних із деякими психічними
властивостями. Респонденти відповіли на ряд
запитань щодо потенційних найменувань для
трьох нових продуктів, таких як седан,
ноутбук і таблетка від головного болю.
Ось деякі результати:
• [p], [t], [k] властива більша конотація швидкості, ніж

[b], [d], [g], наприклад Pavil звучить швидше, ніж
Bavil;
• [p], [k] конотують малість краще, ніж [b], [g],
наприклад: Kortan здається меншим, ніж Gortan;
• [b],[p],[d] конотують надійність краще, ніж [v],[f],[z],
[s], наприклад: Bazia здається „надійнішим”, ніж
Vazia.
• Виявилося, що продукт може бути оцінюваний, як
швидший, більший, навіть солідніший. Це залежить
від звуку, на який починається та чи інша назва
[Hatalska, 2002].
• Інші дослідники, порівнявши 200
найпопулярніших марок, довели, що марки,
назви яких починаються вибухові приголосні
[p, b, t, d, k, g], мали більший успіх.
• Vanden Bergh довів, що 93 назви перші у
списку починаються вибуховим
приголосним, натомість 42 назви
закінчуються таким приголосним. 172 назви
містить один вибуховий звук: Kodak, Prozac,
Burger King, Coca-Cola, Pizza Hut, Compaq czy
Toyota [Hatalska, 2002].
Система ВААЛ (з 1992 р.), дає змогу прогнозувати неусвідомлювану дію текстів на
масову аудиторію, аналізувати тексти з погляду такої дії, складати текст із
заданим вектором впливу, виявляти особистісно-психологічні якості авторів
тексту, проводити поглиблений контент-аналіз тексту тощо.
Автори програми вважають, що її ділянками можливого використання є:
• Створення текстів виступів з попередньо заданими характеристиками впливу
на потенційну аудиторію;
• Активне формування емоційного ставлення до політичного діяча з боку різних
соціальних груп;
• створення емоційно забарвлених рекламних статей; пошук найвдаліших назв
та торгових марок;
• психо- та гіпнотерапія; неявне психологічне тестування та експрес-діагностика;
• створення легких в засвоєнні навчальних матеріалів;
• наукові дослідження в ділянці психолінгвістики та суміжних з нею дисциплінах;
• журналістика та інші сфери діяльності, що використовують як інструмент
СЛОВО;
• соціологічні та соціолінгвістичні дослідження;
• інформаційні війни; контент-аналіз текстів; моніторинг ЗМІ [ВААЛ].
• Система дає змогу: оцінювати неусвідомлюваний емоційний вплив
фонетичної структури текстів і окремих слів на підсвідомості
людини; генерувати слова з заданими фоносемантичними
характеристиками; оцінити неусвідомлюваний емоційний вплив
фонетичної структури текстів на підсвідомість людини; задавати
характеристики бажаного впливу та цілеспрямовано коректувати
тексти за вибраними параметрами в цілях досягнення необхідного
ефекту впливу; оцінити звуко-колірні характеристики слоїв і текстів;
здійснювати словниковий аналіз тексту; здійснювати повноцінний
контент-аналіз тексту за великою кількістю спеціально зібраних
вбудованих категорій та категорій, заданих самим користувачем;
виокремлювати теми і здійснювати на основі цього автоматичну
категоризації; здійснювати емоційно-лексичний аналіз текстів;
налаштовуватися на різні соціальні та професійні групи людей, які
можуть бути виділені за використовуваною ними лексикою;
здійснювати вторинний аналіз даних шляхом їх візуалізації,
факторного та кореляційного аналізу [ВААЛ].
Hotel Viktoria
Ursus (продуцент тракторів)
Lublin
Plaza
Морфологічний аналіз:
• АОТ, Snowball, Stemka, pymorphy, Myaso,

Eureka Engine, ISPRAS API Texterra, pymystem3
, phpmorphy, Pullenti SDK, FreeLing, NLTK,
TextBlob, MBSP, Pattern, natural, MAnalyzer,
hunpos, SVMTool, Twitter NLP and
Part-of-Speech Tagger, Stanford Log-linear
Part-Of-Speech Tagger, RussianMorphology,
RussianPOSTagger, mystem, TreeTagger, TnT,
Морфер, RCO, AskNet, Solarix, ОРФО,
STARLING, mystem-scala, zamgi
Морфер (http://morpher.ru/Description.aspx)
http://goldlit.ru/component/slog?words=%D0%BF%D0%B0%D0%BB%D1%8F
%D1%89%D0%B8%D0%B9
https://open.xerox.com/Services/fst-nlp-tools/Consume/Part%20of
%20Speech%20Tagging%20(Standard)-178
Синтаксичний аналіз, парсинг (англ. parsing):
• АОТ, ISPRAS API Texterra, MaltParser,

MSTParser, Link Grammar Parser, AGFL, NLTK,
MBSP, Pattern, Solarix, ABBYY Compreno,
AskNet, DictaScope, ЭТАП-3,
Синтактико-Семантический Анализ Русского
Языка, The Stanford Parser, ZPar, mate-tools
MaltParser
• MaltParser - інструмент для роботи з

деревами залежностей.
• Дає змогу побудувати модель по
роззначеному корпусу і будувати дерева
для нових даних, ґрунтуючись на ній.
Реалізує кілька алгоритмів побудови дерев.
За твердженнями авторів, "досяг передових
показників на деяких мовах".
https://nlpub.ru/MaltParser
ABBYY Compreno - це
• унікальна технологія аналізу і розуміння

текстів на природній мові. На відміну від
систем, заснованих на статистиці і
правилах, ABBYY Compreno виконує повний
семантико-синтаксичний аналіз тексту,
створює його універсальне уявлення,
витягує сутності, події і зв'язки між ними
[https://www.abbyy.com/ru-
ru/isearch/compreno/].
Етапи роботи ABBYY Compreno
Етапи роботи ABBYY Compreno
• 1 етап. Лексико-морфологічний аналіз. На цьому етапі вихідний текст
ділиться на абзаци, речення і слова, технологія визначає частини мови і
морфологічні ознаки слів (рід, число, відмінок тощо).
• 2 етап. Синтаксичний аналіз. Технологія виокремлює речення в тексті,
визначає їх структуру і зв'язки між словами в реченні.
• 3 етап. Семантичний аналіз. ABBYY Compreno визначає значення
кожного слова, будує семантичну структуру речення на основі зав’язків,
які були встановлені на попередньому етапі.
• 4 етап. Прагматичний рівень аналізу. На цьому етапі накладається
прагматичний шар аналізу тексту, застосовуються онтології (термінологія
для конкретної предметної галузі аналізу) і правила вилучення
потрібних об'єктів. Результатом аналізу є універсальне представлення
інформації, що дає змогу структурувати контент в потрібному
замовникові вигляді. ABBYY Compreno дає змогу ефективно вирішувати
завдання клієнта, пов'язані з аналізом і витяганням важливих фактів,
інтелектуальним пошуком і класифікацією інформації
[https://www.abbyy.com/ru-ru/isearch/compreno/].
ABBYY Compreno має низку можливостей.
Зокрема, визначення значення багатозначних
слів. У процесі аналізу тексту ABBYY Compreno
виявляє омоніми і вирішує проблему їх
багатозначності на основі аналізу контексту.
Це дає змогу істотно підвищувати
релевантність результатів пошукової видачі, а
також точність виявлення конкретних об'єктів
в текстах [https://www.abbyy.com/ru-
ABBYY Compreno відновлює пропущені слова в
тексті. Чимало мов дають змогу опускати різні слова
в тексті, без яких людина і так може зрозуміти, про
що йде мова, виходячи з контексту.
Завдяки аналізу змісту тексту, а не окремих слів,
ABBYY Compreno також «розуміє» контекст і
відновлює пропущені слова, важливі для
подальшого аналізу або пошуку:
• ABBYY Compreno аналізує складні лінгвістичні зв’язки між
словами. Виявлення зв'язків між словами відіграє важливу
роль в пошукових і текстово-аналітичних задачах. Завдяки
повному семантико-синтаксичному аналізу, технологія здатна
врахувати безліч особливостей природної мови, які часто є
перешкодою для якісного визначення відношень у текстах.
ABBYY Compreno визначить відношення між
взаємопов'язаними словами навіть у багаторядкових
складносурядних реченнях зі складними зворотами.
Завдяки аналізу синтаксичних і семантичних
зв'язків, ABBYY Compreno дає змогу
визначати, як пов'язані слова і займенники,
що замінюють їх (визначення анафоричних
зв'язків):
Ця програма містить низку модулів:
• ABBYY InfoExtractor SDK. Рішення, яке з високою точністю

витягує важливу для бізнесу інформацію з неструктурованих
текстових ресурсів, дозволяючи оптимізувати бізнес-процеси
організації та підвищувати її конкурентоспроможність.
• ABBYY Intelligent Search SDK. Рішення для інтелектуального
пошуку інформації в масивах неструктурованих ресурсів.
• ABBYY Smart Classifier SDK. Потужний інструмент для
класифікації документів, який дає змогу організаціям
автоматично розподіляти потік вхідних документів,
моментально знаходити або архівувати інформацію в різних
корпоративних системах [https://www.abbyy.com/ru-
Програма Textrazor (
https://www.textrazor.com/demo)
Перевірка орфографії:
• GNU Aspell, Hunspell, Pattern, Spellah, Yandex

speller, ОРФО Speller, ОРФО Grammar
Checker, Орфограммка
Перевірка граматики:
• LanguageTool
Конкордансери
• Конкордансер – це комп’ютерна програма,

яка автоматично конструює конкорданси.
Конкорданси дають дані для пам’яті
перекладів, які застосовуються під час
комп’ютернодопоміжного перекладу, що є
першим кроком у машинному перекладі.
Open source
• GlossaNet - online press watch & linguistic search engine
• KH Coder - quantitative content analysis and text mining software
• myCAT - concordancer
• NoSketch Engine - corpus management system
• KonText - corpus management system
• Unitex/GramLab - corpus processing suite
• #Lancsbox - software package with several text analysis tools
Freeware
• AdTAT - concordancing tool
• AntConc - corpus analysis toolkit for concordancing and text analysis
• CorpusEye - online corpus search interface
• Linguistic Toolbox - concordancer with integrated part-of-speech tagger
• PowerConc - concordancer
• Reverso Context - online search engine and mobile application for translators
• TranslatorBank - text analysis software for translators and interpreters
Commercial
• ApSIC Xbench - quality assurance and terminology management package
• MonoConc - concordance software
• Sketch Engine - corpus manager and analysis software
• WordSmith - linguistic software package
Ключові слова – характерні для певного тексти (автора,
стилю, жанру тощо) вислови. Список ключових слів отримують за
допомогою порівняння частотності слів у тексті з їхньою
загальною частотністю. Словам, яким властива «підвищена»
частотність, це – ключові слова.
Поняття ключових слів використовують під час аналізу стилю й

поетики текстів чи авторів, а також в комп’ютерній лінгвістиці.
Такі слова можуть слугувати ключем під час пошуку інформації в
інтернеті чи на сторінці сайту.
Згаданий термін запровадив 1954 році французький семіотик і

мовознавець Pierre Guiraud.

Kea, Maui, Tesuck, TextMF, natural, Content Analyzer, AskNet,
TextAnalyst, AlchemyAPI, Семантическое зеркало, Extractor,
TerMine
Програма SEOtool
http://seotool.by/analiz/seo/keywordstext.php
• Ключові слова виокремлено програмою SEOtool з
Statement by the President at the General Debate of the
70th Session of the United Nations General Assembly (
http://
www.president.gov.ua/en/news/vistup-prezidenta-ukrayini-na-zagalnih-debatah-70-yi-sesiyi-3
6057
): ukraine, its, international, security, russian, rights,
russia, has, president, country, state, peace, human,
against, aggression, council, military, donbas.
• Ключові слова виокремлено програмою Open Text
Summarizer із вищезгаданого тексту: ukraine, un,
international, rights, state.
• Ключові слова виокремлено програмою Open Text
Summarizer із пісні «Гей, Соколи!»: дзвін, гей, жаль,
козак.
Автоматичне реферування
(англ. Automatic Text Summarization) — це
створення коротких викладок матеріалів, анотацій або
дайджестів, тобто отримання найважливіших відомостей
з одного або з декількох документів та генерація на їх
основі лаконічних та інформаційно насичених звітів.
Існують два напрямки автоматичного
реферування — квазіреферування та коротке викладення
змісту.

Open Text Summarizer, SweSum, Content Analyzer, Tesuck,
Extractor
• Анотацію пісні «Гей, соколи» створено програмою
Open Text Summarizer (https://www.splitbrain.org/services/ots):
Гей, десь там, де чорні води, Сів на коня козак молодий.
Дзвін, дзвін, дзвін, дзвіночку, Мій степовий дзвін, дзвін,
дзвін. Жаль, жаль за милою, За рідною стороною.
• Анотацію пісні «Hotel California» створено програмою

Autosummarizer (http://autosummarizer.com/index.php):
My head grew heavy and my sight grew dim Her mind is
Tiffany-twisted, she got the Mercedes bends She got a lot of
pretty, pretty boys, that she calls friends How they dance in
the courtyard, sweet summer sweat Some dance to
remember, some dance to forget.
• Анотацію пісні уривку з наукової статті створено програмою Open Text
Summarizer (https://www.splitbrain.org/services/ots ):
Серед значущих недоліків гендерних студій у лінгвістиці дослідники
називають такі: інтенціоналізм, приписування чиннику статі
омнірелевантності (гіперболізація), ігнорування ролі контексту,
недооцінка якісних методів дослідження, гіперболізація в дитячому і
підлітковому віці гендерно специфічних стратегій і тактик поведінки.
використання, наприклад, як фактологічної бази дослідження лише
фразеологічного матеріалу, зафіксованого відповідними словниками,
що відображає певний етап розвитку уявлень лінгвоспільноти, інакше
кажучи, неврахування динаміки системи.
• Анотацію пісні «Jeszcze w zielone gramy» створено програмою

Autosummarizer (http://autosummarizer.com/index.php ):
Jeszcze w zielone gramy, jeszcze nie umieramy Jeszcze zimowe smiecie na
ogniskach wiosny spłoną Jeszcze w zielone gramy, jeszcze wzrok nam się pali
Jeszcze się nam pokłonią ci, co palcem wygrażali My możemy być w kłopocie,
ale na rozpaczy dnie
Тематична класифікація:
• Maui, Eureka Engine, TextMF, Семантическое

зеркало, AlchemyAPI, zamgi
«Семантическое зеркало»
• проводить лінгвістичний аналіз текстових документів. Програма
розбиває текст на слова і цитати, виявляє й нормалізує ключові
терміни (слова, словосполуки й цитати), проводить аналіз
семантичних зв'язків між знайденими термінами
[https://www.ashmanov.com/tech-i-services/semantic/].
• Тематичну рубрику визначають за фактом входження в текст
термінів, заздалегідь приписаних до цієї рубрики. При цьому
враховують безліч різних чинників: кількість входжень термінів в
текст, вагу термінів, поєднання з іншими термінами, які можуть
збільшувати або зменшувати вагу терміна, місце розташування
термінів (наприклад, терміни в заголовку важливіші), обсяг тексту
тощо [https://www.ashmanov.com/tech-i-services/semantic/].
• «Семантическое зеркало» може присвоїти тексту відразу кілька
рубрик. Обчислені ваги рубрик у відсотках доступні користувачам,
ваги показують, які з рубрик відповідають тексту в найбільшою
мірою [https://www.ashmanov.com/tech-i-services/semantic/].
• MALLET – пакет, базований на мові програмування Java, для
статистичного опрацювання природної мови, класифікації документів,
кластеризації, тематичного моделювання, вилучення інформації та
інших додатків для машинного навчання в текст [http://mallet.cs.umass.edu/].
• MALLET містить складні інструменти для класифікації документів:
ефективні процедури для перетворення тексту на "функції", широкий
спектр алгоритмів (у тому числі Найєв Байес Naïve Bayes, Maximum
Entropy Максимальна ентропія та Decision Trees Рішення дерев), а
також код для оцінювання ефективності класифікатора за допомогою
декількох часто використовуваних показників.
• Крім класифікації, MALLET містить інструменти для позначення
послідовності для таких додатків, як вилучення названого об'єкта з
тексту.
• Тематичні моделі корисні для аналізу великих колекцій
нероззначених текстів.
• Крім складних додатків для машинного навчання, MALLET містить
процедури перетворення текстових документів у числові
репрезентації, які потім можуть бути ефективно опрацьовані.
Тематичне моделювання:
• MALLET, BigARTM, Gensim, Weka, Insider

• BigARTM - це інструмент створення тематичних моделей на основі
нової техніки, називаної адитовною регуляцією тематичних моделей
(Additive Regularization Topic Models). Цей метод ефективно будує
багатоцільові моделі, додаючи до критерію оптимізації зважені
(weighted) суми регуляризаторів.
• BigARTM ніколи не зберігає всю текстову колекцію в основній пам'яті.
Замість цього колекція ділиться на дрібні шматки, які називаються
"партіями", і BigARTM завжди завантажує в пам'ять обмежену
кількість партій у будь-який час.
• BigARTM може одночасно опрацьовувати кілька «партій», і в такий
спосіб істотно покращувати продуктивність багатоядерних машин.
Бібліотека розміщує всі обчислення в декількох потоках за допомогою
одного процесу, що дає змогу ефективно використовувати загальну
пам'ять для потоків додатків.
• Розширюваний API. BigARTM поставляється з API в Python, але його
можна легко розширити для всіх інших мов, які мають реалізацію
буферів Google Protocol.
• https://bigartm.readthedocs.io/en/stable/intro.html
Розпізнавання іменованих сутностей (Named-entity recognition)
• FreeLing, OpenCalais, AlchemyAPI, Eureka

Engine, ISPRAS API Texterra, DBPedia Spotlight
, Yahoo! Content Analysis, CiceroLite, Stanford
NER, Apache cTAKES, TextMF, PullEnti,
LingPipe, Томита-парсер, TEXToCAT, RCO Fact
Extractor SDK, OntosMiner, X-Files, AskNet,
ABBYY Intelligent Tagger, NetOwl Extractor,
ИАС "АРИОН", МетаФраз, DictaScope
Tokenizer, XANALYS Indexer, Rosette, Natasha
Calais
Завдяки передовій маркетинговій онтології, пов'язаній з продуктами
компанії Thomson Reuters, Thomson Reuters Open Calais™ пропонує
найпростіший та найточніший спосіб позначити людей, місця, компанії,
факти та події у вмісті для підвищення його цінності, доступності та
сумісності.
Розробники зазначають, що вони використовують алгоритми
опрацювання природних мов (NLP) та алгоритми машинного навчання.
Для користувача цей процес досить простий: треба завантажити
неструктурований текст у механізм вилучення (новинні статті, публікації
в блозі тощо), щоб перевірити ваш текст та знайти:
• об'єкти (Entities): (компанії, люди, місця, продукти тощо);
• відносини: (Джон Доу працює для Acme Corp.);
• факти: (Джон Доу - 42-річний чоловічий фінансовий директор);
• події: (Джейн Доу була призначена членом правління Acme Corp.);
• теми: (історія про злиття і поглинання у фармацевтичній галузі).
• Open Calais опрацьовує інформацію, отриману з тексту,
і повертає семантичні метадані у форматі RDF. Ось лише
деякі з багатьох переваг:
• Контекстна навігація. Визначте найбільш актуальні
компанії, людей та галузі.
• Більше цілеспрямованих новин: отримайте
надзвичайно релевантні, орієнтовані новини для
компаній та галузей, які цікавлять.
• Швидке опрацювання: в середньому знадобиться
близько двох секунд для опрацювання новинної статті
значного обсягу.
• Більший інтелект: виходить далеко за межі класичної
ідентифікації особи та повертає відповідні факти та події,
приховані в тексті
http://www.opencalais.com/about-open-calais/
MER - Minimal Entity Recognizer
• Існує демоверсія Minimal Named-Entity
Recognizer (MER).
• MER - це інструмент, який дає будь-який
лексикон, і будь-який вхідний текст повертає
список термінів, розпізнаних у тексті, зокрема
точне їхнє розташування (анотації).
• Цей проект розроблено у LaSIGE, Faculdade de
Ciências, Університеті Лісабону, Португалії,
Франсіско Куто, Андре Ламуріас та Луїс Кампос.
• http://labs.fc.ul.pt/mer/
Розпізнавання відношень (Extracting Relations):

• Serelex, ReVerb, RCO, AskNet, AlchemyAPI,
OpenCalais, Томита-парсер, OntosMiner,
NetOwl Extractor
Програма Textrazor
(https://www.textrazor.com/demo)
Аналіз тональності, емоційний аналіз тексту (Sentiment
analysis):
• Емоційний аналіз тексту (сентимент-аналіз, англ. Sentiment
analysis, англ. Opinion mining) — клас методів контент-
аналізу в комп'ютерній лінгвістиці, призначений для
автоматизованого виявлення в текстах емоційно
забарвленої лексики і емоційної оцінки авторів (думок) щодо
об'єктів, мова про які йде в тексті.
• Тональність — це емоційне ставлення автора висловлювання до
деякого об'єкта (об'єкта реального світу, події, процесу або їх
властивостей / атрибутів), виражене в тексті. Емоційний складник,
виражений на рівні лексеми або комунікативного фрагмента,
називають лексичною тональністю (або лексичним сентиментом).
Тональність всього тексту загалом можна визначити як функцію (в
найпростішому випадку суму) лексичних тональностей складників
його одиниць (речень) і правил їх поєднання
• У сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше
використовують одномірний емотивний простір: позитив чи негатив (добре або погано).
Однак відомі успішні випадки використання і багатовимірних просторів .
• Основним завданням в аналізі тональності є класифікація полярності певного документа,
тобто визначити, чи виражена думка в документі або реченні є позитивною, негативною або
нейтральною.
• Емоційний складник не завжди можна однозначно визначити, тобто документ може містити
ознаки як позитивної, так і негативної оцінки. Було здійснено спроби визначати тональність
документів за певними шкалами. У випадку використання такої методики спочатку фрагмент
неструктурованого тексту досліджують за допомогою інструментів та алгоритмів
опрацювання природної мови, а потім виокремлені з цього тексту об'єкти та терміни
аналізують з метою розуміння значення цих слів .
• Це завдання зазвичай визначається як віднесення даного тексту в один з двох класів:
суб'єктивний або об'єктивний. Ця проблема іноді може бути більш складною, ніж
класифікація полярності: суб'єктивність слів і фраз може залежати від контексту, а
об'єктивний документ може містити в собі суб'єктивні пропозиції (наприклад, новинна стаття,
цитує думки людей). Більш того, як згадував Су, результати більшою мірою залежать від
визначення суб'єктивності, вживаючийся в рамках анотації текстів. Як би те ні було, Панг
показав, що видалення об'єктивних пропозицій з документа перед класифікацією полярності
допомогло підвищити точність результатів.
• Також визначають суб'єктивність/об'єктивність тексту. Іншими словами класифікують тексти
(як правило, речення) на об'єктивні або суб'єктивні. Суб'єктивність слів і висловів залежить
від їхнього контексту, а об'єктивний документ може містити суб'єктивні речення (наприклад,
стаття новин з цитуванням думок людей).
• Наявні підходи до аналізу тональності можна згрупувати за трьома
основними категоріями: технологіями на основі знань (knowledge-
based techniques), статистичними методами та гібридними
підходами. Технології на основі знань, класифікують текст за
категоріями впливу, ґрунтуючись на наявності однозначних схожих
слів, таких як щасливий, сумний, страшний та нудний .
• Статистичні методи впливають на елементи машинного навчання,
такі як латентний семантичний аналіз, підтримка векторних машин,
"мішок слів" та семантична орієнтація - точкова взаємна інформація (
latent semantic analysis, support vector machines, "bag of words"
and Semantic Orientation) .
• Під час використання складніших методів намагаються виявити носія
настроїв (тобто людину, яка підтримує цей афективний стан) та ціль
(тобто об'єкт, про який йдеться) .
• Щоб зрозуміти контекст і отримати характеристику, про яку говорить
оратор, використовують граматичні відношення слів. Граматичні
залежності відношень отримують шляхом глибокого розбору тексту.
• Sentimental, Eureka Engine, ISPRAS API
Texterra, TextBlob, Pattern, SentiStrength,
Аналитический курьер, DictaScope, RCO,
AlchemyAPI, Sentiment140, ConveyAPI,
BrandSpotter, RussianSentimentAnalyzer, Fuxi
API, NetOwl Extractor, zamgi
Hotel Viсtoria (Lublin)
• The staff were very patient and helpful, especially at

the reception desk. The hotel was open 24 hours
which was very useful for our purpose. The
housekeeping staff were very adaptable so we didn't
feel rushed or forced to leave the room. The rooms
were small, but everything was functional and
useful. There was some noise from a function on the
weekend, but it wasn't too bad. Overall, I think the
hotel was better than expected from a 3 star. Thanks
to all who made the stay so comfortable
http://text-processing.com/demo/sentiment/
Аналіз тональності пісні «I Hate U, I Love U»,
Conor Maynard, Samantha Harvey
Інформаційний пошук:
• Apache Lucene Core, Apache Solr, AskNet

Search, elasticsearch, Bobo, Picky, Whoosh,
Sphinx, Xapian, PostgreSQL Full Text Search
Машинний переклад:
• Apertium, Moses, Sinuhe, ABBYY Aligner, Deja

Vu , OmegaT, STAR Transit
• SYSTRAN, Trados, Wordfast
• Trados - система автоматизованого перекладу, спочатку (з 1992 року)
розроблена німецькою компанією Trados GmbH. Є одним зі світових
лідерів в класі систем Translation Memory (TM, Пам'ять перекладів).
• Система Trados складається з модулів, призначених для перекладу текстів
різного формату: документів Microsoft Word, презентацій PowerPoint,
текстів у форматі HTML і інших метаданих, документів FrameMaker,
InterLeaf і ін., А також для ведення термінологічних баз даних (модуль
MultiTerm). Остання версія системи, випущена незалежною компанією
Trados - 7.0. Остання версія Trados на сьогоднішній день - SDL Trados Studio
2017.
• Концепція Translation Memory передбачає виявлення в перекладному
тексті фрагментів, переклади яких вже є в базі даних перекладів, і за
рахунок цього скорочення обсягу роботи перекладача. Фрагменти, що
залишилися не перекладеним, передаються далі для ручної обробки
перекладачеві або системі машинного перекладу (Machine Translation,
MT). Перекладач на цьому етапі може виділити знову перекладені
фрагменти і занести нові пари паралельних текстів на двох мовах в базу
даних. Така схема найкраще працює в разі однотипних текстів, де
повторюваність словосполук досить висока, тобто в разі різного роду
інструкцій для користувачів, технічних описів.
Основні модулі
• Translator's Workbench - модуль роботи з базами даних пам'яті
перекладів TM (створення, обслуговування, імпорту, експорту).
Створення документів перекладу і їх редагування виконується в окремих
модулях.
• Панель Trados в Microsoft Word - модуль для перекладу документів в
Microsoft Word.
• TagEditor - модуль для перекладу документів в форматі PowerPoint,
Excel, HTML, XML і т.ін.
• WinAlign - модуль для створення пам'яті перекладів на основі раніше
перекладених двомовних текстів.
• S-Tagger - модуль для перекладу документів в форматі FrameMaker і
InterLeaf.
• T-Window - модуль для перекладу тексту з буфера обміну.
• MultiTerm - модуль для ведення глосаріїв.
• ExtraTerm - модуль для автоматичного пошуку термінологічних
кандидатів в тексті і створення глосаріїв на їх основі.
Інтегровані пакети:
• GATE, Apache UIMA, Apache OpenNLP,

SharpNLP, NLTK, spaCy, TextBlob, Treat,
Linguistics, NooJ, Stanford NLP, MinorThird,
Grammatical Framework, libschwa, natural,
LingPipe, T-LAB, MeTA, Eureka Engine, zamgi
Електронні словники:
• Wikipedia, Мультитран, ForceMem, ABBYY

Lingvo
Антиплагіат
• Multilingual Plagiarism Checker
https://www.plagramme.com/?
gclid=EAIaIQobChMIyqP-
nqPN1wIVlR0YCh1huw7bEAAYAiAAEgIo5vD_
BwE
Синтез мовлення
Синтез мовлення (СМ) — перетворення друкарського тексту у мовний сигнал (в широкому
сенсі — відновлення форми мовного сигналу за його параметрами.
Комп'ютерна система, що здійснює синтез мови, називається синтезатором мови, (СМ) та
може бути побудованою на базі програмного чи апаратного рішення.
Система що спроможна виконувати конвертування нормального друкованого тексту у аудіо
у реальному часі називається текст-у-мовлення (ТУМ) (англ. text-to-speech, TTS).
Ще в Х столітті Герберту Аврілакському приписували володіння мистецтвом виготовлення
терафіма — мертвої голови, що говорить. Зроблена з бронзи, ця голова словами «так і ні»
відповідала на питання будь-кого, хто до неї звертався. В середині століття монах-
домініканець Альберт фон Больштедт й англійський філософ-природодослідник Роджер
Бекон також намагалися створювати перші зразки голів, що «говорять».
В кінці XVIII століття данський учений Крістіан Кратценштейн створив модель мовного
тракту людини, здатну вимовляти п'ять довгих голосних звуків (а, е, і, о, у). Модель була
системою акустичних резонаторів різної форми, що видавали голосні звуки за допомогою
вібруючих язичків.
У 1778 австрійський учений Вольфганг фон Кампелен доповнив модель Кратценштейна
моделями язика й губ та представив акустичну-механічну машину, що говорить, здатну
відтворювати певні звуки і їх комбінації. Шиплячі і свистячі видувалися за допомогою
спеціального міха з ручним управлінням. У 1837 учений Чарльз Уїтстоун представив
покращений варіант машини, здатний відтворювати голосні і більшість приголосних звуків.
А в 1846 році Джозеф Фабер продемонстрував свій euphonia, орган, що говорить. В ньому
В кінці XIX століття відомий учений Олександр Белл створив
власну механічну модель, що «говорить», дуже схожу за
конструкцією з машиною Уїтстоуна.
У 1930-х роках працівник Bell Labs Гомер Дадлі, працюючи над
проблемою збільшення передавальної здатності у телефонії,
розробив вокодер (скорочено від англ. voice —
голос, англ. coder — кодувальник) — керований за допомогою
клавіатури електронний аналізатор і синтезатор мови. Ідея
Дадлі полягала в аналізуванні голосового сигналу, розбору його
на частини і пересинтезація у менш вимогливу до пропускної
спроможності лінію. Вдосконалений варіант вокодера Дадлі,
VODER, був представлений на Нью-Йорській всесвітній виставці
1939 року
Перші системи синтезу мови на базі обчислювальної техніки
почали з'являтися в кінці 1950-х років, а перший синтезатор
«текст-мова» був створений в 1968.
Способи синтезу мови:
параметричний синтез;
конкатенативний, або синтез компіляції (компілятивний);
синтез за правилами.
Параметричний синтез
Параметричний синтез мови є кінцевою операцією в вокодерних системах, де мовний сигнал
представляється набором невеликого числа параметрів, що безперервно змінюються.
Параметричний синтез доцільно застосовувати в тих випадках, коли набір повідомлень
обмежений і змінюється не дуже часто. Перевагою такого способу є можливість записати мову
для будь-якої мови і будь-якого диктора. Якість параметричного синтезу може бути дуже
високою (залежно від ступеня стиснення інформації в параметричному уявленні). Проте
параметричний синтез не може застосовуватися для довільних, заздалегідь не заданих
повідомлень.
Компіляційний синтез
Компіляційний синтез зводиться до складання повідомлення із заздалегідь записаного
словника початкових елементів синтезу. Розмір елементів синтезу не менше слова. Очевидно,
що зміст повідомлень, що синтезуються, фіксується обсягом словника. Як правило, число
одиниць словника не перевищує декількох сотень слів. Основна проблема в компілятивному
синтезі — обсяги пам'яті для зберігання словника. У зв'язку з цим використовуються
різноманітні методи стиснення/кодування мовного сигналу. Компілятивний синтез має
широке практичне застосування. За кордоном різноманітні пристрої (від військових літаків до
побутових пристроїв) оснащуються системами мовної відповіді. У нашій країні системи мовної
відповіді до недавнього часу використовували переважно в галузі військової техніки, зараз їх
застосовують у довідкових службах операторів стільниковому зв'язку при отриманні
Повний синтез мови за правилами
Повний синтез мови за правилами (або синтез за друкарським текстом) забезпечує управління всіма
параметрами мовного сигналу і може генерувати мову за заздалегідь невідомим текстом. В цьому разі
параметри, отримані при аналізі мовного сигналу, зберігаються в пам'яті так само, як і правила з'єднання
звуків в слова і фрази. Синтез реалізується шляхом моделювання мовного тракту, застосування аналогової
або цифрової техніки. Причому в процесі синтезування значення параметрів і правила з'єднання фонем
вводять послідовно через певний часовий інтервал, наприклад 5-10 мс. Метод синтезу мови за друкарським
текстом (синтез за правилами) базується на запрограмованому знанні акустичних і лінгвістичних обмежень і
не використовує безпосередньо елементів людської мови.
У системах, заснованих на цьому способі синтезу, є два підходи.
Перший підхід направлений на побудову моделі мовотворчої системи людини, він відомий під
назвою артикуляторного синтеза.
Другий підхід — формантний синтез за правилами.
Розбірливість і натуральність таких синтезаторів може бути доведена до величин, порівнянних з
характеристиками природної мови.
Синтез мови за правилами з використанням попередньо запам'ятованих відрізків природної мови, — це
різновид синтезу мови за правилами, яка набула поширення у зв'язку з появою можливостей маніпулювання
мовним сигналом в оцифрованій формі. Залежно від розміру початкових елементів синтезу виділяються такі
види синтезу: мікросегментний (мікрохвильовий); алофонічний; дифонний; напівскладовий; складовий;
синтез з одиниць довільного розміру.
Використовують напівсклади — сегменти, що містять половину приголосного і половину суміжного з ним
голосного. При цьому можна синтезувати мову за заздалегідь не заданим текстом, але важко управляти
інтонаційними характеристиками. Якість такого синтезу не відповідає якості природної мови, оскільки на
границях зшивання дифонів часто виникають спотворення. Компіляція мови із заздалегідь записаних
словоформ також не вирішує проблеми високоякісного синтезу довільних повідомлень, оскільки акустичні і
просодичні (тривалість і інтонація) характеристики слів змінюються залежно від типу фрази і місця слова у
фразі. Це положення не міняється навіть при використанні великих обсягів пам'яті для зберігання
словоформ.
Українські СМ Докладніше:
Порівняння синтезаторів української мови
До середини 2016 року, існувало 4 напівпрофесійні TTS системи з підтримкою
української мови:
• Розмовлялка (2 голоси: Анатоль/Стьопа (чоловічий голос) та Руся (жіночий
голос)),
• CyberMova/VymovaPlus/VymovaPro (4 голоси: Наталка (жіночий) та Опанас,
Дмитро, Слава (усі - чоловічі голоси) та
• UkrVox (1 голос: Ігор Мурашко (чоловічий голос)).
• У 2016 з'явилася TTS система української мови Google Text-to-Speech на веб-
сайті Google Translate.
• 5 квітня 2017 офіційний застосунок Google Text-to-Speech для Android також
увімкнув підтримку української мови разом з оновленням до версії 3.11.12.
• Наприкінці 2016 р. стали доступними одразу кілька версій україномовного
синтезатора Анатоль (програміст Ольга Яковлева, спеціалісти Соціально-
реабілітаційного центру незрячих Харкова). Голос для синтезатора надав
відомий артист, диктор Харківського державного радіо Анатолій Подорожко.
Синтезатор працює під ОС Windows та Android.
Розпізнавання мовлення (англ. speech recognition)
або мо́влення-у-те́кст (англ. speech to text (STT))—
• процес перетворення мовленнєвого сигналу в текстовий

потік. Не варто плутати із визначенням розпізнавання
мови, оскільки «розпізнати мову» безпосередньо означає
лише дати відповідь на питання, до якої мови належить
сегмент мовленнєвого сигналу. Часто використовується у
наборі технологій, що дають змогу керувати комп'ютером,
використовуючи людський голос, вводити інформацію
голосом, диктувати, транскрибувати (стенографувати)
фонограми.
• Перший пристрій для розпізнавання усної мови з'явився
в 1952 році, він міг розпізнавати вимовлені людиною
цифри. В 1964 році на ярмарку комп'ютерних технологій у
Нью-Йорку було представлено пристрій IBM Shoebox.
• Комерційні програми з розпізнавання мовлення з'явилися на початку дев'яностих
років. Зазвичай їх використовують люди, які через травми рук не в змозі набирати
велику кількість тексту. Ці програми (наприклад, Dragon Naturally Speaking,
VoiceNavigator) переводять голос користувача в текст, таким чином, розвантажуючи
його руки.
• Microsoft Voice Command, дозволяє працювати з багатьма прикладними програмами

за допомогою голосу. Наприклад, можна включити відтворення музики в плеєрі або
створити новий документ.
• У комп'ютерах Apple Macintosh у налаштуваннях системи є вбудована функція
Speech, що здатна аналізувати команди користувача при натисканні певної клавіші,
або якщо команді користувача передує ключове слово.
• Speereo Voice Translator — голосовий перекладач. SVT здатна розпізнавати фрази,
вимовлені англійською мовою, і «промовляти» у відповідь переклад однією з
вибраних мов.
• Для української мови відома розробка розпізнавання мовлення[2], яка дає змогу
вводити текст голосом. Ця система працює зі словником понад 100 тисяч слів. Її
можна завантажити та використовувати для диктування текстів середньої складності.
• Інтелектуальні мовні прикладні програми, що дозволяють автоматично синтезувати і
розпізнавати усну мову, є наступним етапом розвитку інтерактивних голосових
систем IVR.
Система запитань і відповідей —
• тип сайтів, що дозволяє користувачам ставити запитання або

відповідати на вже поставлені.
• У такий спосіб формується соціальна мережа, учасником якої
може зазвичай стати кожен. Часто користувачі можуть
голосувати за відповіді, виокремлюючи, на їхню думку,
правильну. У деяких системах питань і відповідей активні
користувачі, чиї відповіді отримують велику кількість голосів,
отримують статус експертів, що допомагає новачкам оцінити
компетентність отриманих відповідей.
• Системи запитань і відповідей є яскравими представниками
Web 2.0, оскільки їх наповненням займаються безпосередньо
користувачі (user-generated content).
Free online Wordcloud generator
https://www.wordclouds.com/

Комп програм лінг 25

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Комп програм лінг 25

Uploaded by

Copyright:

Available Formats

КОМП’ЮТЕРНІ ЗАСОБИ

Людство щорічно використовує 9,57 зетаба́йт інформації.

На кожну працюючу людину генерується 3,18 терабайтів на рік.

До кінця 2016-го року річний світовий IP-трафік мережі інтернет досягне

• наука (наприклад, опрацювання даних нагромаджених під час

• АОТ, Lemmatizer, FreeLing, Stanford CoreNLP,

Програма підтримує мови: іспанську, каталонську, італійську, англійську, валлійську,

• Надає набір технологічних інструментів для аналізу

• полягає в тому, щоб легко застосувати низку

• CoreNLP розроблений так, щоб бути надзвичайно

• [p], [t], [k] властива більша конотація швидкості, ніж

• АОТ, Snowball, Stemka, pymorphy, Myaso,

• АОТ, ISPRAS API Texterra, MaltParser,

• MaltParser - інструмент для роботи з

• унікальна технологія аналізу і розуміння

• ABBYY InfoExtractor SDK. Рішення, яке з високою точністю

• GNU Aspell, Hunspell, Pattern, Spellah, Yandex

• Конкордансер – це комп’ютерна програма,

Поняття ключових слів використовують під час аналізу стилю й

Згаданий термін запровадив 1954 році французький семіотик і

• Анотацію пісні «Hotel California» створено програмою

• Анотацію пісні «Jeszcze w zielone gramy» створено програмою

• Maui, Eureka Engine, TextMF, Семантическое

• MALLET, BigARTM, Gensim, Weka, Insider

• FreeLing, OpenCalais, AlchemyAPI, Eureka

• The staff were very patient and helpful, especially at

• Apache Lucene Core, Apache Solr, AskNet

• Apertium, Moses, Sinuhe, ABBYY Aligner, Deja

• GATE, Apache UIMA, Apache OpenNLP,

• Wikipedia, Мультитран, ForceMem, ABBYY

• процес перетворення мовленнєвого сигналу в текстовий

• Microsoft Voice Command, дозволяє працювати з багатьма прикладними програмами

• тип сайтів, що дозволяє користувачам ставити запитання або

You might also like