Professional Documents
Culture Documents
Комп програм лінг 25
Комп програм лінг 25
АНАЛІЗУ МОВИ
В основі роботи більшості сучасних комп’ютерних програм перебувають
дані, які надсилають, опрацьовують і аналізують. За даними фірми Cisco
кількість доступних даних у мережі вже перевищила zettabyte й
продовжує зростати. Частина згаданих даних (близько 60 відсотків)- це
фільми та інший вміст
.
Зетаба́йт (Збайт, Зб; англ. zettabyte) — кратна одиниця
вимірювання кількості інформації, що дорівнює 270стандартним (8-
бітним) байтам або 1024 ексабайтам. Назва «Зетаба́йт» використовується
для вказування об'єму пам'яті в різних електронних пристроях.
• Фоносемантика (англ. phonosemantics), фонестезія
(англ. phonesthesia), або звуковий символізм (англ. sound
symbolism) — це галузь лінгвістики, що вивчає
звукообразотворчу систему мови, вплив звуків на значення
вимовлених слів, а також на настанови носіїв мови до слів, які
породжуються на неусвідомленому рівні. Фоносемантичний
аналіз дає змогу зробити висновок про те як певне слово
сприймають носії мови на підсвідомому рівні, оскільки звукова
(фонетична) форма слова істотно впливає на значення.
Початок розвитку сягає 70-80-х років XX ст. під впливом праць
А.П. Журавльова "Фонетичне значення" (М., 1974), "Звук і
смисл" (М., 1981; М., 1991). На основі експериментальних
даних з опорою на психометричний метод вивчення
символічного значення звуків мови вчений виявив символіку
звукових одиниць.
• Описи фонетичного символізму з’являються
на початку ХХ століття.
• Ida Kurcz у книзі «Психолінгвістика» зазначає:
Фонетична символіка є явищем, де певним
звукам мови надається певний сенс. Значення
звуку (...) є основною функцією мови. Говорячи
про фонетичну символіку, ми маємо на увазі,
насправді, важливість таких звуків, які за
лінгвістичною конвенцією, відомі
користувачеві мови, не мають значення.
Кілька років тому під керівництвом
професора Willa Lebena із Стенфордського
університету було проведено тест на асоціації
приголосних із деякими психічними
властивостями. Респонденти відповіли на ряд
запитань щодо потенційних найменувань для
трьох нових продуктів, таких як седан,
ноутбук і таблетка від головного болю.
Ось деякі результати:
• LanguageTool
Конкордансери
• Serelex, ReVerb, RCO, AskNet, AlchemyAPI,
OpenCalais, Томита-парсер, OntosMiner,
NetOwl Extractor
Програма Textrazor
(https://www.textrazor.com/demo)
Аналіз тональності, емоційний аналіз тексту (Sentiment
analysis):
• Емоційний аналіз тексту (сентимент-аналіз, англ. Sentiment
analysis, англ. Opinion mining) — клас методів контент-
аналізу в комп'ютерній лінгвістиці, призначений для
автоматизованого виявлення в текстах емоційно
забарвленої лексики і емоційної оцінки авторів (думок) щодо
об'єктів, мова про які йде в тексті.
• Тональність — це емоційне ставлення автора висловлювання до
деякого об'єкта (об'єкта реального світу, події, процесу або їх
властивостей / атрибутів), виражене в тексті. Емоційний складник,
виражений на рівні лексеми або комунікативного фрагмента,
називають лексичною тональністю (або лексичним сентиментом).
Тональність всього тексту загалом можна визначити як функцію (в
найпростішому випадку суму) лексичних тональностей складників
його одиниць (речень) і правил їх поєднання
• У сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше
використовують одномірний емотивний простір: позитив чи негатив (добре або погано).
Однак відомі успішні випадки використання і багатовимірних просторів .
• Основним завданням в аналізі тональності є класифікація полярності певного документа,
тобто визначити, чи виражена думка в документі або реченні є позитивною, негативною або
нейтральною.
• Емоційний складник не завжди можна однозначно визначити, тобто документ може містити
ознаки як позитивної, так і негативної оцінки. Було здійснено спроби визначати тональність
документів за певними шкалами. У випадку використання такої методики спочатку фрагмент
неструктурованого тексту досліджують за допомогою інструментів та алгоритмів
опрацювання природної мови, а потім виокремлені з цього тексту об'єкти та терміни
аналізують з метою розуміння значення цих слів .
• Це завдання зазвичай визначається як віднесення даного тексту в один з двох класів:
суб'єктивний або об'єктивний. Ця проблема іноді може бути більш складною, ніж
класифікація полярності: суб'єктивність слів і фраз може залежати від контексту, а
об'єктивний документ може містити в собі суб'єктивні пропозиції (наприклад, новинна стаття,
цитує думки людей). Більш того, як згадував Су, результати більшою мірою залежать від
визначення суб'єктивності, вживаючийся в рамках анотації текстів. Як би те ні було, Панг
показав, що видалення об'єктивних пропозицій з документа перед класифікацією полярності
допомогло підвищити точність результатів.
• Також визначають суб'єктивність/об'єктивність тексту. Іншими словами класифікують тексти
(як правило, речення) на об'єктивні або суб'єктивні. Суб'єктивність слів і висловів залежить
від їхнього контексту, а об'єктивний документ може містити суб'єктивні речення (наприклад,
стаття новин з цитуванням думок людей).
• Наявні підходи до аналізу тональності можна згрупувати за трьома
основними категоріями: технологіями на основі знань (knowledge-
based techniques), статистичними методами та гібридними
підходами. Технології на основі знань, класифікують текст за
категоріями впливу, ґрунтуючись на наявності однозначних схожих
слів, таких як щасливий, сумний, страшний та нудний .
• Статистичні методи впливають на елементи машинного навчання,
такі як латентний семантичний аналіз, підтримка векторних машин,
"мішок слів" та семантична орієнтація - точкова взаємна інформація (
latent semantic analysis, support vector machines, "bag of words"
and Semantic Orientation) .
• Під час використання складніших методів намагаються виявити носія
настроїв (тобто людину, яка підтримує цей афективний стан) та ціль
(тобто об'єкт, про який йдеться) .
• Щоб зрозуміти контекст і отримати характеристику, про яку говорить
оратор, використовують граматичні відношення слів. Граматичні
залежності відношень отримують шляхом глибокого розбору тексту.
• Sentimental, Eureka Engine, ISPRAS API
Texterra, TextBlob, Pattern, SentiStrength,
Аналитический курьер, DictaScope, RCO,
AlchemyAPI, Sentiment140, ConveyAPI,
BrandSpotter, RussianSentimentAnalyzer, Fuxi
API, NetOwl Extractor, zamgi
Hotel Viсtoria (Lublin)