You are on page 1of 3

УДК 004.

912
Кожушан М. Г., Кунгурцев О. Б.
Національний університет «Одеська політехніка»,
Одеса, Україна

ФІЛЬТРАЦІЯ ТЛУМАЧЕНЬ ТЕРМІНІВ В ЕЛЕКТРОННОМУ СЛОВНИКУ

Виникнення електронних словників спричинило скорочення часу на пошук


інформації в порівнянні з паперовими словниками. Завдяки їм можна розв’язати проблему
великого обсягу словника, забезпечити одночасний пошук не тільки за назвою
словникової статті, але і по всьому змісту. Результатами пошуку є велика кількість
тлумачень, фільтрація яких проводиться вручну, значно збільшуючи час, що витрачається
на пошук необхідного.
Використання комп'ютерної лексикографії [1] допоможе вибрати релевантні
тлумачення, що відповідають інтересам користувача, значно підвищивши продуктивність
праці спеціаліста.
Метою роботи є скорочення часу на пошук тлумачення терміна, що відповідає
досліджуваній предметній області (ПО) користувача. Задля реалізації зазначеної мети у
роботі необхідно вирішити такі завдання:
 створити математичну модель словникової статті електронного словника;
 розробити алгоритм фільтрації тлумачень термінів;
 провести апробацію результатів фільтрації.
Уявимо математичну модель словникової статті. Кожна стаття є кортежем:
(1)
де tr – термін; Ti − тлумачення терміна.
Тлумачення терміна можна зобразити у вигляді множини дефініцій:
(2)
де – дефініція, один з варіантів тлумачення;
n – кількість варіантів тлумачення;
Так само дефініцію представимо у вигляді:
(3)
де – текст дефініції; – предметна область використання.
Безліч пошукових термінів представимо у вигляді:
(4)
У роботі [2] розглянуто методику аналізу ПО за допомогою лексико-статистичного
аналізу дефініцій та введених термінів для пошуку. Невелика кількість пошукових
термінів ускладнює подібний аналіз та не фільтрує результати пошуку. Для розв’язання
цієї проблеми запропоновано алгоритм фільтрації (рис. 1).
На вхід надходить результат пошуку у словнику - словникова стаття, дефініції якої
будуть проходити фільтрацію. Далі кроки алгоритму залежать від знання користувачем
теми, до якої належить термін. Якщо користувач вказав тему або набір термінів, що її
характеризують, множина (4) розширюється на набір введених слів.
Перед фільтрацією необхідно
попередньо підготувати дані. Розглянемо
етапи обробки пошукових термінів:
 Графематичний аналіз –
вилучення лексичних одиниць.
 Морфологічний аналіз – виділення
лексичної одиниці, що несе основне
семантичне значення (приведення до
словникової форми).
 Доповнення синонімічними
термінами, у яких єдиний варіант
тлумачення.
Потім, у разі введення теми або
множини термінів, переходимо до лексико-
статичного аналізу [2]:
1. Підрахунок кількості пошукових
термінів в дефініціях;
2. Сортування дефініцій за кількістю
пошукових термінів;
3. Відкидання тлумачень з
найменшою кількістю.
В іншому випадку переходимо до
кластеризації дефініцій за допомогою
латентно-семантичного аналізу [3].
В результаті застосування алгоритму
користувач отримує кластеризований список
дефініцій за тематиками або відфільтровані
за досліджуваною ПО дефініції введених
термінів.
 Проведено апробацію алгоритму на
125-ти термінах у 4-х словниках. Час пошуку
скоротився на 17%, відсоток коректно
визначених тлумачень від загальної кількості
пошукових термінів становить 74%.
Внаслідок застосування
запропонованих методів час пошуку було
скорочено, результати пошуку локалізовані
під пошуковий запит.

ПЕРЕЛІК ДЖЕРЕЛ ПОСИЛАННЯ


Рисунок 1 - Алгоритм фільтрації 1. Марчук Ю.М. Комп'ютерна
тлумачень лінгвістика АСТ, Схід-Захід, 2007.-141 C.
2. K
ungurtsev Alexey B., Novikova N., Kozhushan M., Automation of searching for terms in the
explanatory dictionary. 2020. DOI: 10.15276/opu.3.62.2020.11
3. Latent semantic analysis. URL: https://en.wikipedia.org/wiki/Latent_semantic
analysis

You might also like