You are on page 1of 42

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ ТЕХНІЧНИЙ УНІВЕРСИТЕТ “ХАРКІВСЬКИЙ


ПОЛІТЕХНІЧНИЙ ІНСТИТУТ”

СУТЯГІН ОЛЕКСАНДР ОЛЕКСАНДРОВИЧ

АНАЛІЗ ТА ВИВЧЕННЯ МЕТОДІВ ЗАБЕЗПЕЧЕННЯ ПОВНОТИ ТА


ДОСТОВІРНОСТІ ІНФОРМАЦІЇ ДЛЯ ОБҐРУНТУВАННЯ
ПРИЙНЯТТЯ ЕФЕКТИВНИХ УПРАВЛІНСЬКИХ РІШЕНЬ В
СОЦІОТЕХНІЧНИХ СИСТЕМАХ

121 - Комп’ютерні науки

Виконав: Сутягін О.О.


Перевірив: д.т.н. ПІІТУ Чередніченко О.Ю.

Харків - 2022

1
ЗМІСТ

1 АНАЛІЗ УПРАВЛІННЯ СКЛАДНИМИ СОЦІОТЕХНІЧНИМИ


СИСТЕМАМИ. ПОСТАНОВКА ЗАДАЧ ДОСЛІДЖЕННЯ ................................ 6
1.1 Аналіз існуючих підходів до управління складними соціотехнічними
системами............................................................................................................... 6
1.2 Організація процесів збору інформації для вирішення задач управління11
1.3 Постановка задач дослідження .................................................................... 19
2 АНАЛІЗ РЕАЛІЗАЦІЇ СИСТЕМИ МОНІТОРИНГУ АКТУАЛЬНИХ
ДАНИХ .................................................................................................................... 21
2.1 Аналіз застосування інформаційних технологій до реалізації системи
моніторингу актуальних даних .......................................................................... 21
2.2 Підходи до пошуку та групування інформації ........................................... 30
ВИСНОВКИ ............................................................................................................ 38
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ .............................................................. 39

2
ВСТУП

Актуальність теми. Будь-яка соціотехнічна система, яка функціонує в


умовах конкурентної ринкової економіки, є відкритою системою. Вона
здійснює управління в умовах зовнішнього середовища, взаємодіє зі
споживачами, постачальниками, конкурентами, державними та громадськими
інститутами. Це обумовлює необхідність узгодження виконання задач
управління з поведінкою зацікавлених сторін та соціальної відповідальності
за результати своєї діяльності. Тому проблема підвищення ефективності
управління в соціотехнічних системах перетворилася у глобальну економічну,
соціальну та політичну задачу, яка потребує вирішення.

Сучасні складні соціотехнічні системи використовують різноманітні


засоби збору даних для прийняття раціональних управлінських рішень.
Однак, існуючі системи збору даних не забезпечують в повній мірі
актуальність інформації, що призводить до ризиків прийняття невірних
рішень та незворотних наслідків. Це обумовлює необхідність дослідження
проблеми управління соціотехнічними системами як комплексу завдань
постановки цілей, створення розподіленої системи збору актуальних даних,
регулярного їх моніторингу та оцінювання на основі єдиного теоретико-
методологічного підходу шляхом розробки відповідних прикладних
інформаційних технологій та програмних продуктів.

Проведений аналіз існуючих підходів до управління складними


системами визначив низку проблем, які потребують вирішення. По-перше,
складність соціотехнічних систем та процесів, що в них протікають, вимагає
залучення великих обсягів даних, які є гетерогенними, неформалізованими,
нечіткими та суперечливими. Це обумовлює необхідність досліджень у
напрямку вдосконалення існуючих та пошуку нових інформаційних
технологій, заснованих на інтелектуалізації інформації для цілей управління.
По-друге, як показав аналіз, існуючі підходи фокусуються на інформації, яка

3
збирається в самій системі. При цьому дані, які видобуто із зовнішніх джерел,
залучаються не в повній мірі для виконання завдань управління. Це
призводить до необхідності дослідження ефективності використання
зовнішньої інформації для управління, зокрема створення сучасних систем
моніторингу даних.

На сьогодні існуючі системи моніторингу не повною мірою


відповідають цілям постійного оновлення даних, які фактично збираються в
самій системі. Головним недоліком такого підходу є обмеженість джерел
даних, тому що не приділяється уваги даним, які знаходяться у зовнішньому
середовищі, що може привести до можливих ризиків в управлінні. Крім цього,
результати управління соціотехнічною системою через неповноту джерел
інформації можуть бути помилковими. Використання джерел зовнішнього
середовища системи сумісно з джерелами, які є у самій системі, забезпечить
ефективність управлінських рішень за рахунок повноти та об’єктивності
інформації.

Таким чином, виникає складна наукова проблема, яку необхідно


вирішити для розв’язування протиріччя між прагненням прийняття
ефективних управлінських рішень менеджментом складних соціотехнічних
систем та відсутністю методологічних основ моніторингу актуальних даних в
розподіленому інформаційному просторі за допомогою інтелектуальної
технології, використання якої забезпечить обґрунтованість та ефективність
виконання завдань управління в соціотехнічних системах.

Мета і задачі дослідження. Метою реферату є аналіз та вивчення


методів забезпечення повноти та достовірності інформації для обґрунтування
прийняття ефективних управлінських рішень в соціотехнічних системах
шляхом розробки і використання інтелектуальних технологій пошуку, збору
та видобування даних у розподіленому інформаційному середовищі.

Відповідно до зазначеної мети поставлено такі задачі.

4
1. Провести аналіз сучасних систем організаційного управління.

2. Визначити особливості управління в соціотехнічних системах.

3. Визначити можливості сучасних інформаційних технологій для


моніторингу актуальних даних.

Об’єктом дослідження є процеси пошуку, збору та видобування


актуальних даних у розподіленому інформаційному просторі для вирішення
задач управління в соціотехнічних системах.

Предметом дослідження є моделі, методи та інтелектуальна


інформаційна технологія моніторингу актуальних даних в задачах управління.

Методи досліджень базуються на використанні методів системного


аналізу; теорії ієрархічних систем; теорії інтелекту; методів штучного
інтелекту.

5
1 АНАЛІЗ УПРАВЛІННЯ СКЛАДНИМИ СОЦІОТЕХНІЧНИМИ

СИСТЕМАМИ. ПОСТАНОВКА ЗАДАЧ ДОСЛІДЖЕННЯ

1.1 Аналіз існуючих підходів до управління складними

соціотехнічними системами
Ефективність як необхідний фактор підвищення рівня життя глибоко
вкоренилася у промислово розвинутих країнах з ринковою економікою. Будь-
яка складна система, яка функціонує в умовах конкурентної ринкової
економіки, є відкритою системою. Вона функціонує у зовнішньому
середовищі, взаємодіє зі споживачами, постачальниками, конкурентами,
державними та громадськими інститутами. Це обумовлює необхідність
узгодження поведінки з усіма зацікавленими сторонами та соціальної
відповідальності за результати своєї діяльності. Тому проблема ефективності
перетворилася у глобальну економічну, соціальну, політичну, технічну
задачу, яка потребує вирішення.

Теоретичною основою для вирішення задач управління розвитком


складних систем є: загальна теорія систем, системний аналіз і методи
оптимізації. Часто задачі управління у складних системах вирішуються на
основі ідеології програмно-цільового планування [1]. Основним принципом
програмно-цільового планування є принцип планування від кінцевої мети до
засобів, аж до програми конкретних робіт, що забезпечують досягнення
поставленої мети [2]. Можна простежити та виділити окремі стадії рівнів
розвитку концепцій управління та їх основну направленість. Усі ці моделі
являють собою різні варіанти реалізації управління за цілями, та кожна з них
має свою направленість і особливості застосування (табл. 1.1).

Таблиця 1.1 – Розвиток моделей управління підприємством

6
Модель Основна направленість
Система планування, Розробка окремих цілей та задач у рамках
програмування та досягнення основної мети
бюджетування (1960–1970-ті
роки)
Управління за цілями (1975– Розробка окремих цілей та задач у рамках
1980-ті роки) досягнення основної мети
Стратегічне планування (1980– Постановка цілей та задач на перспективу
ті роки)
Вимір ефективності, пошук Розробка заходів для вирішення
ефективних прикладів поставлених задач та підвищення
реалізації процесів – ефективності процесів
бенчмаркінг (кінець 1970-х
років)
Всеохоплююче управління Контроль та оцінка якості, моніторинг
якістю, загальний менеджмент реалізації заходів за параметром якості
якості (1980–1990-ті роки – процесів та (або) результатом
наш час);
Реінжиніринг бізнес-процесів Постановка задач, розробка заходів
(1990 роки)

Як показав проведений аналіз, складність об’єкту управління, з одного


боку, та розширення цілей та завдань управління, з іншого, – призвели до
появи низки нових концепцій управління, які спираються на систему
вимірювання та оцінювання ефективності та якості управління. Головною
проблемою цих підходів є неформалізований, суб’єктивний характер системи
показників. Це обумовлює необхідність досліджень у напрямку
систематизації та узагальнення існуючих підходів до управління складними
системами з метою забезпечення системи управління повною, достовірною,
цінною, актуальною інформацією щодо результатів управління, поточного

7
стану та можливих змін як всередині складної системи, так й у зовнішньому
оточенні.

Відповідно до поставленої проблеми, розглянемо розвиток наукової


думки в галузі управління складними системами як закономірний процес,
обумовлений об’єктивною реальністю ускладнення об’єкту управління, а
також підвищенням вимог до якості інформації, що необхідна для управління.

Загально відомо, що сучасна теорія управління складними системами


бере свій початок з класичної теорії регулювання, а саме з розробки
регулятора Уатта [3]. Відповідно можна стверджувати, що першим етапом
управління є завдання забезпечення стійкості функціонування об’єкту
управління. Далі підходи до управління, які розглядають відносно простий
об’єкт, який можна досліджувати класичними методами, та для управління
яким використовується лише інформація про зміну значень його параметрів за
умов відомої аналітичної функції визначення вихідних параметрів, будемо
класифікувати як управління першого рівня.

Сучасні дослідження регулювання зі зворотним зв’язком направлені на


розробку підходів управління у реальному часі з визначенням великої
кількості контрольованих параметрів, сфокусовані на перехідних процесах
динамічних систем. Такі підходи управління, які розглядають складні
динамічні об’єкти як замкнуті системи, класифікуються як управління другого
рівня.

Зазвичай теза про складність та відкритий характер сучасних систем


управління не потребує доказів. Взаємодія об’єкту управління із зовнішнім
середовищем є важливою складовою для управління третього рівня.
Головною особливістю методів та підходів цього рівня є стохастична
постановка класичної задачі регулювання [4], тобто врахування випадкових
впливів зовнішнього середовища на формування значень контрольованих
параметрів об’єкту управління.

8
Управління четвертого рівня – це, безумовно, кібернетичний підхід [5].
Кібернетика, як наука про загальні закони одержання, зберігання, передавання
й перетворення інформації у складних системах управління, сформувала
загальні принципи створення систем управління і систем для автоматизації.

Складність об’єктів управління обумовила розвиток кібернетичного


підходу у різноманітних напрямках прикладної науки. Сьогодні цей підхід
також не втрачає своєї актуальності. Не зважаючи на це, можна відмітити, що
методи управління четвертого рівня фокусуються на об’єктах управління,
зосереджені на принципово новому погляді (порівняно з попередніми
рівнями) на завдання управління складною системою, але переважно
базуються на інформації про об’єкт управління, або про зовнішню середу, але
тільки з погляду керованого об’єкту.

Управлінням п’ятого рівня пропонуємо вважати адаптивну методологію


управління [6], яка концентрує увагу на динаміці не тільки об’єкту
управління, а також і на постійній зміні зовнішнього середовища. Сучасні
підходи управління на основі цілей є типовими представниками управління
п’ятого рівня.

Розглянуті сучасні концепції управління на основі вимірювання


досягнень, загалом як і концепція стратегічного управління, базуються на
необхідності вивченні зовнішнього середовища керованої системи,
дослідженні закономірностей у зовнішньому оточенні, прогнозуванні
параметрів, що є передумовою формування управляючих рішень.
Узагальнюючи ці підходи, введемо поняття управління шостого рівня як
методологію проактивного управління [7]. Важливою особливістю цих
методів є високий ступінь врахування інформації з зовнішнього середовища,
зокрема цілеспрямований збір даних про зовнішнє оточення складної системи.
Але ця інформація відображає лише середовище, в якому функціонує складна
динамічна система. При цьому управління здійснюється на основі інформації,
яка збирається в середині контуру управління. Методологія формування

9
управляючих впливів відповідає управлінням п’ятого та четвертого рівнів, але
з урахуванням активної складової зовнішнього середовища.

Проведений аналіз існуючих підходів до управління складними


системами дозволив провести класифікацію типів систем управління та
відокремити систему управління, яка характеризується високим ступенем
обліку інформації із зовнішнього середовища (рис. 1.1).

Однак ця інформація відображає тільки середовище, в якому працює


система, а управління засноване на інформації, яка збирається всередині.

Проведене дослідження визначило низку питань, які потребують


вирішення. По-перше, складність систем та процесів, що в них протікають, та
залучення великих обсягів даних обумовлюють необхідність досліджень у
напрямку вдосконалення існуючих та пошуку нових інформаційних
технологій переробки інформації для цілей управління. По-друге, вирішення
завдань забезпечення ефективного управління сучасними складними
системами призводить до необхідності дослідження можливостей
використання зовнішньої інформації для цілей управління, зокрема залучення
зовнішніх джерел до системи моніторингу.

10
Рисунок 1.1 – Класифікація задач управління в складних соціотехнічних
системах

1.2 Організація процесів збору інформації для вирішення

задач управління
Моніторинг розглядається як процес безперервного збору даних щодо
досліджуваного об’єкту за певними індикаторами, що забезпечує усіх
зацікавлених осіб показниками досягнення цілей функціонування даного
об’єкту [8]. Моніторинг завжди супроводжується оцінюванням. Оцінювання –
це процес отримання оцінок результатів функціонування системи та
визначення їхньої відповідності поставленим цілям [9]. Ці два процеси
розглядаються як єдине ціле, оскільки вони взаємопов’язані та є складовою
циклу управління.

Визначення показників для моніторингу та оцінювання передбачає


узгодження короткострокових та довгострокових цілей та результатів, що є
цікавими для менеджменту. Ключові індикатори, за якими здійснюється

11
моніторинг результатів, мають погоджуватись із керівництвом підприємства.
Етап моніторингу результатів передбачає визначення джерел даних та методів
збору даних. На першій ітерації визначаються поточні значення показників,
які у подальшому спостерігаються із плином часу. Оцінювання результатів
діяльності на основі зібраних даних надає керівництву пояснення того, чому
поставлені цілі були або не були досягненні та у якій мірі. На етапі
використання результатів моніторингу та оцінювання проводиться аналіз
результатів та відбувається коректування плану подальших дій. Окрім цього,
певні зусилля необхідні для підтримки безперервної роботи системи
моніторингу та оцінювання.

Виділяють два підходи до побудови систем моніторингу: підхід,


сфокусований на реалізації, та підхід, заснований на результатах [8]. Дані, які
збираються в процесі моніторингу, повинні забезпечити систему управління
інформацією щодо досягнення поставлених цілей. Ці дані мають відповідати
критеріям точності, повноти, релевантності та своєчасності. Головна різниця
між двома підходами до моніторингу полягає у цільовому орієнтирі. У
першому підході оцінка досягнення цілі базується на індикаторах, які
асоціюються з виходами, а в другому підході – на індикаторах, які
відображають результати.

Традиційно процеси моніторингу та оцінювання будуються


сфокусованими на реалізації досліджуваного процесу, тобто розглядається,
наскільки добре виконується проект. Такий підхід надає інформацію про
адміністративні та виконавчі проблеми. Протягом моніторингу та оцінювання,
сфокусованих на реалізації, основна увага приділяється проміжним виходам
досліджуваного процесу та вимірюванню необхідних для його реалізації
зусиль. При цьому результати процесу, як такі, залишаються поза увагою.
Саме цей аспект лежить в основі моніторингу та оцінюванні, орієнтованому
на результати [10]. У цьому випадку управління зацікавлене не тільки у
поточних виходах процесу, що розглядається, а у тому, які наслідки вони

12
матимуть в цілому. Цей підхід успішно використовуються фінансовими та
координаційними організаціями, такими як: Програмою розвитку ООН,
Світовим банком та його регіональними агенціями для моніторингу та
оцінювання бізнес-проектів та програм [11].

При такому моніторингу та оцінюванні передбачається збір та аналіз


даних про стан системи та зовнішнього середовища для того, щоб порівняти,
наскільки добре вона функціонує відповідно до очікуваних результатів.
Моніторинг та оцінювання, орієнтовані на результат, надають інформацію
стосовно проблем ефективності розвитку системи. Цей підхід дозволяє
аналізувати наближення системи до бажаних результатів. В цілому можна
зробити висновок про те, що задачею моніторингу та оцінювання,
орієнтованих на результат, є встановлення того, наскільки успішно проект
(програма) реалізуються відносно очікуваних результатів. Такі моніторинг та
оцінювання є потужним засобом для вимірювання результатів та
використання отриманої інформації в якості зворотного зв’язку під час
прийняття рішень.

Проблема організації збору, обробки та аналізу інформації, є в даний


час однією з найбільш актуальних і невирішених проблем. Використання
інформаційних комп’ютерних систем робить цей процес більш ефективним.

В даний час під підтримкою прийняття рішень розуміють процес


розпізнавання ситуації для прийняття оптимального рішення і визначення
мети, планування і генерації способів її реалізації, формування варіанту з
використанням експертних знань і методів математичного програмування,
моделювання наслідків прийнятих рішень для їх оцінки. Як рішення
розглядається варіант тієї чи іншої дії, а вирішення ситуації для прийняття
оптимального рішення – знаходження варіанту рішення із застосуванням
системи підтримки прийняття рішень (СППР), налаштованої на предметну
область [12]. Для реалізації СППР використовують інформаційні технології,
які забезпечують процес прийняття рішення на всіх його етапах.

13
На практиці часто постає завдання комплексного моніторингу стану
бізнес-системи для правильного визначення ситуації та прийняття вірних
рішень [13]. В цьому випадку необхідно одночасно слідкувати за усіма
показниками стану бізнес-системи. Система, яка б могла виконувати таке
завдання, повинна мати відповідне програмне, апаратне та інформаційне
забезпечення. Існує глобальна проблема моніторингу стану бізнес-системи,
адже забезпечення повної інформації та чіткого плану координації дій у разі
виникнення критичної ситуації є неможливим [14].

В даний час в програмах моніторингу крім традиційного "ручного"


відбору, зроблений упор на збір даних з використанням електронних
вимірювальних пристроїв дистанційного спостереження в режимі реального
часу. Використання електронних вимірювальних пристроїв дистанційного
спостереження проводять використовуючи підключення до базової станції або
через телеметричну мережу, або через наземні лінії, стільникові телефонні
мережі або інші телеметричні системи. Перевагою дистанційного
спостереження є те, що в одній базі для зберігання і аналізу можуть
використовуватися багато каналів даних. Це різко підвищує оперативність
реагування при досягненні порогових рівнів контрольованих показників,
наприклад, на окремих ділянках контролю. Такий підхід дозволяє за даними
моніторингу ужити негайних дій, якщо граничний рівень перевищено [15].

Бурхливий розвиток мережевих технологій, у тому числі і мережі


Інтернет призводить до значного збільшення доступних інформаційних
ресурсів і обсягів переданої інформації. Найчастіше це різнорідна, слабо
структурована і надлишкова інформація, що володіє високою динамікою
оновлення. Необхідність ефективного використання цього колосального і
динамічно-мінливого обсягу інформації обумовлює актуальність і значимість
досліджень у галузі інформаційного пошуку. Часто важлива інформація
розділена на частини і розподілена у формі Web-ресурсів та/або ресурсів
локальних мереж. Пошукові машини повертають в якості результату

14
впорядковані списки посилань, найчастіше, тих, що зовсім не відображають
або відображають в дуже малому ступені семантичні зв'язки між
документами. Люди, які професійно займаються аналізом інформації (знань),
значну частину свого робочого часу витрачають на її пошук, перегляд,
з'ясування питання про взаємозв'язок документів один з одним і перебування
в них частин, що відображають елементи загальної структури предметної
області. Тільки після з'ясування питання про деталі і відмінностях частин
інформації вони можуть приступити до виконання своєї основної роботи -
формуванню відносини між документами для отримання нового знання.

Інформаційний пошук фокусує увагу на співвідношенні між запитом


користувача та інформацією, яка зберігається в базі даних [16]. З іншого боку,
використання взаємозв'язків між відібраними частинами інформації дозволяє
об'єднувати в єдиний контекст інформацію, яка в іншому випадку є
незалежною. Як показує досвід користувачів, використання неявних структур
допомагає в більш ефективному управлінні та використанні інформації.
Більшість користувачів, ініціюючи пошук, не мають можливості
сформулювати комплексний і точний запит. При такому підході пошук
починають з дуже простого запиту, який складається з одного або двох
пошукових елементів, щоб упевнитися в наявності інформації. Потім пошук
можна продовжити, покращуючи запит для отримання релевантного
документа.

Підключення до пошуку інформації широких мас населення докорінно


вплинула на розвиток інформаційно-пошукових систем (ІПС) [17]. Так,
основні пошукові алгоритми залишаються незмінними. У той же час
небезкорисливе бажання власників відомих пошукових машин залучити
якомога більше різноманітних користувачів призводить до нових проблем. Всі
основні технологічні проблеми інтернету, які ми зараз бачимо і часто
відчуваємо на собі, мають своєю причиною те, що коли ці технології

15
розроблялися, ніхто з розробників не уявляв собі, що інтернет стане
глобальної інформаційної середовищем.

Словникові ІПС здатні видавати списки документів, що містять


мільйони посилань. Навіть просто переглянути такі списки неможливо, та й
не потрібно. Було б зручно мати можливість поставити формальні критерії
(хоча б відносної) важливості документів з тим, щоб найбільш потрібні
документи потрапляли в початок списку. Всі розробники ІПС в даний час
приділяють основну увагу саме алгоритмом ранжирування отриманих
посилань. Найбільш часто використовуваними критеріями при ранжируванні
в пошукових машинах інтернету є:

1) наявність слів із запиту в документі, їх кількість, близькість до


початку документа, близькість один до одного;

2) наявність слів із запиту в заголовках і короткий зміст документів


(заголовки повинні бути спеціально відформатовані);

3) кількість посилань на даний документ з інших документів;

4) «респектабельність» документів.

З одного боку, як видно, з критеріїв ранжирування, реальний критерій


релевантності документа - наявність слів із запиту не так сильно впливає на
його ранг в результатах пошуку. З іншого боку, використання синтетичних
критеріїв дає можливість маніпулювання результатами обчислень рангу
сторінки, з чим і борються всі ІПС. Така ситуація веде до зниження якості
пошуку, оскільки потенційно більш корисні документи неминуче
відтісняються своїми «оптимізованими» конкурентами в кінець списку.
Кількість інформації доступної через мережу Інтернет постійно зростає. На
жаль, вилучення корисного вмісту з цієї величезної кількості даних
залишається відкритим питанням. Відсутність стандартних моделей даних і
структур змушує розробників створювати рішення з нуля.

16
Видобуток знань є важливим завданням у багатьох компаніях і
дослідницьких проектах, які вимагають даних, розміщених в Інтернеті, щоб
зберігати їх, аналізувати або продавати третім особам [18]. Це завдання
вимагає розуміння макета даних і того, що потрібно витягти. У деяких
випадках використання описів метаданих або моделей даних може допомогти
зрозуміти структуру даних. На жаль, ця інформація недоступна в більшості
випадків.

Фігура експерта все ще потрібна в багатьох ситуаціях, коли розробники


не мають правильних фундаментальних знань. Це змушує розробників
витрачати дорогоцінний час, поглинаючи знання експерта. В інших
напрямках є багатообіцяючі рішення, що використовують методи машинного
навчання. Проте підвищення точності вимагає збільшення складності
системи, що неможливо реалізувати в багатьох проектах [19].

Крім технічних труднощів вище зазначених елементів, найскладнішим


завданням є отримання знань у експерта. Можна вважати експерта наріжним
каменем усього процесу. Ця робота підходить до проблеми вилучення веб-
знань з використанням експертно-орієнтованої методології. Дотримуючись
цієї ідеї, вся задача вилучення знань повинна бути розроблена навколо
експерта і його знань. Від збору даних до вилучення знань фахівця допомагає
набір інструментів, які допомагають йому у цьому процесі з мінімальним
втручанням розробників.

Збір фактографічної інформації працює експертно-орієнтованим чином.


Експерт може управляти повним конвеєром, який включає в себе
відображення, заповнення бази даних і перевірку аналізованого контенту. Ця
операція повторюється (рис. 1.2), поки експерт не буде задоволений
результатами. Беручи існуючу обхідну колекцію документів, експерт виконує
початкове зіставлення з використанням компонента вилучення знань. Це
початкове зіставлення використовується компонентом розбору і заповнює
цільову базу даних. Перевірка змісту в базі даних дозволить експерту

17
визначити можливі покращення в її зіставленні. Ітеративно виправляючи
відображення і аналізуючи / заповнюючи базу даних, експерт (або інший
оператор) може вирішити, коли якість цільової бази даних буде достатньо
хорошою.

Рисунок 1.2 – Експериментальний цикл роботи

Користувачеві можуть допомогти машинні рішення, що полегшують


роботу експерта. Ітеративний характер даного рішення може здаватися
повторюваним і навіть неможливим. Однак досвід показує, що експерти з
глибоким розумінням даних працюють ітеративно, щоб визначити
відображення даних. Ітеративний підхід слідує природній процедурі проб і
помилок з багатьма періодичними завданнями, такими як пошук ключів, що
описують певне значення і їх еквівалент в цільової базі даних. Данна система
надає експерту інструменти абстракції, які приховують деталі реалізації для
експертів і мінімізують взаємодія з розробниками. В ідеальному сценарії
використання сценарій експерт міг би визначити повний трубопровід без
втручання розробників.

18
1.3 Постановка задач дослідження
В сучасній науково-практичній літературі відокремлене поняття
соціотехнічної системи. Концепція соціотехнічних систем ґрунтується на ідеї
взаємодії людини і машини. В ряду сучасних інтерпретацій соціотехнічних
систем значний інтерес представляє модель, яка розглядає технологію як
сполучну ланку у відносинах «людина-машина», тобто між соціальною і
технічною системою. У такій моделі точно визначена роль технології як
практичного застосування знань і використання певних методів у виробничій
діяльності. Таким чином, рішення проблем соціотехнічного проектування
лежить у площині загальної теорії систем.

Моніторинг даних з відкритих джерел або інтернет-розвідка – це


процедури збору і обробки інформації, що проводяться з метою підтримки
прийняття управлінських рішень, підвищення конкурентоспроможності
комерційних організацій з відкритих джерел в мережі Інтернет. В англомовній
літературі це прийнято називати розвідкою з відкритих джерел (Open Sources
Intelligence). Інформація може бути отримана з офіційних джерел, ЗМІ,
оголошень, реклами, внутрішньофірмових, банківських, урядових звітів, баз
даних, від експертів, шляхом аналізу або спеціальної обробки даних, текстів
за прямими або непрямими ознаками. При цьому кількість різнорідних
відомостей, які необхідно переробити, щоб отримати необхідні знання
величезне, що визначає необхідність розробки спеціалізованих інформаційних
технологій. Інтернет-розвідка є особливим видом інформаційно-аналітичної
роботи, що дозволяє збирати різнобічну бізнес-інформацію.

Основні завдання інтернет-розвідки полягають в знаходженні і


узагальненні інформації про конкурентів, ринки, товари, бізнес-тенденції та
операціях. Сучасні відкриті мережеві ресурси, веб-сайти, соціальні мережі
перетворюється в даний час в основне джерело і ефективний інструмент для
інтернет-розвідки. Вони дозволяють в режимі реального часу не тільки

19
відслідковувати дії компаній-конкурентів, але і виявляти останні тенденції
щодо необхідної тематики.

Моніторинг актуальних даних – це процедури збору і обробки


інформації, що проводяться з метою підтримки прийняття управлінських
рішень, підвищення конкурентоспроможності організацій з внутрішніх
інформаційних джерел організації та відкритих джерел в мережі Інтернет.
Інформація може бути отримана з офіційних джерел, ЗМІ, оголошень,
реклами, внутрішньофірмових, банківських, урядових звітів, баз даних, від
експертів, шляхом аналізу або спеціальної обробки даних, текстів за прямими
або непрямими ознаками. Моніторинг актуальних даних є особливим видом
інформаційно-аналітичної роботи, що дозволяє збирати різнобічну бізнес-
інформацію та використовувати її для цілей управління. В роботі показано,
що вирішення задачі підтримки прийняття рішень в системах управління
обумовлює визначення великого та малого кіл прийняття рішень та розглядає
моніторинг як самостійну задачу прийняття рішень.

Таким чином, в роботі визначено актуальну науково-прикладну


проблему, яку необхідно вирішити для розв’язування протиріччя між
прагненням прийняття ефективних управлінських рішень менеджментом
соціотехнічних систем та відсутністю методологічних основ моніторингу
актуальних даних в розподіленому інформаційному просторі за допомогою
розробки методів, моделей та інформаційної технології моніторингу
актуальних даних, використання яких забезпечить обґрунтованість та
ефективність виконання завдань управління в соціотехнічних системах.

Об’єктом дослідження є процеси пошуку, збору та видобування


актуальних даних у розподіленому інформаційному просторі для вирішення
задач управління в соціотехнічних системах.

Предметом дослідження є моделі, методи та інтелектуальна


інформаційна технологія моніторингу актуальних даних в задачах управління.

20
Метою наукової роботи є забезпечення повноти та достовірності
інформації для обґрунтування прийняття ефективних управлінських рішень в
соціотехнічних системах шляхом розробки і використання інтелектуальних
технологій пошуку, збору та видобування даних у розподіленому
інформаційному середовищі.

Відповідно до зазначеної мети поставлено такі задачі.

1. Провести аналіз сучасних систем організаційного управління.

2. Визначити особливості управління в соціотехнічних системах.

3. Визначити можливості сучасних інформаційних технологій для


моніторингу актуальних даних.

Отже проведено аналіз літературних джерел та аналітичний огляд


існуючих моделей та методів збору бізнес-інформації для підтримки процесу
прийняття рішень, проаналізовані їх недоліки та переваги. Діяльність
більшості підприємств базується на значному архіві електронної
документації. Ця документація створюється на основі функціонування та
являє собою бізнес-інформацію. Проведено аналіз задачі ефективного
управління підприємством в умовах неповноти інформації.

2 АНАЛІЗ РЕАЛІЗАЦІЇ СИСТЕМИ МОНІТОРИНГУ АКТУАЛЬНИХ

ДАНИХ

2.1 Аналіз застосування інформаційних технологій до

реалізації системи моніторингу актуальних даних


Сканування веб-сторінок є першим кроком в процесі збору даних.
Елементи, що підлягають обходу, можуть відрізнятися в залежності від
джерела даних. У спрощеному сценарії можна припустити, що даний продукт
націлені на сканування веб-сторінок. Як сканувати ці веб-сторінки залежить
21
від дизайну джерела даних. У деяких випадках сторінки легко доступні через
один URL-адресу або можуть бути отримані після виконання форми пошуку.
Можливі сценарії:

− Ідентифікація по загальнодоступному ідентифікатору. У цьому


випадку кожен елемент, що підлягає обходу, унікально ідентифікується URL-
адресою, який містить унікальний ідентифікатор. Якщо генерація
ідентифікаторів відома, можна статично генерувати список можливих URL-
адрес для запиту.
− Ідентифікація по невідомому ідентифікатору. Як і в попередньому
сценарії. Однак, як генеруються ідентифікатори, невідомо. В цьому випадку
ідентифікатори повинні бути спочатку витягнуті з самого веб-сайту, а потім
використані для створення кінцевого URL-адреси, що підлягає обходу.
− Динамічні URL. Багато платформ розподіляють контент за
динамічними URL-адресами. Це робить неможливим статично генерувати
список адрес для вивчення. Цей сценарій має на увазі початкову навігацію,
яка запитує веб-платформу URL-адреси, а потім генеруючі унікальні URL-
адреси, які можуть ідентифікувати ці елементи, щоб гарантувати їх
унікальність в архівній системі.

Як згадувалося раніше, складно розробити спільне рішення для


сканування, яке може бути корисно в усіх сценаріях [20]. Це пов'язано з тим,
що на багатьох платформах знаходиться велика кількість коду Javascript в
поєднанні з обміном повідомленнями AJAX.

В даний час існує велика кількість доступних веб-сканерів в проектах з


відкритим вихідним кодом. Один з них – проект Apache Nutch [21], який
пропонує повну структуру для розробки розподілених і масштабованих
сканерів, які легко можуть бути пов'язані з іншими рішеннями з середовища
Apache. Однак для рішень меншого масштабу більш прийнятні інші каркаси,
такі як Scrapy [22]. Scrapy дозволяє визначати паралельні сканері за

22
допомогою Python і надає розробнику структуру, яка управляє одночасними
запитами і спрощує підключення до додатків на основі Django.

Для обробки сторінок з використанням Javascript найбільш поширеним


підходом є використання драйвера Selenium. Цей драйвер дозволяє
підключати велику кількість браузерів, таких як Firefox або Chrome, за
допомогою сканера і емулювати поведінка користувача, що виконує кліки,
або введення тексту поверх поточної сторінки.

Процес отримання даних з веб-ресурсів, який, як правило, має більше


практичну складову ніж теоретичну – це Web Mining. Основна мета якого – це
збір даних (парсинг) з подальшим збереженням в потрібному форматі.
Фактично, завдання зводиться до написання HTML парсеров, і як раз про це
поговоримо більш детально. Існує кілька поширених підходів до вилучення
даних:

1. Аналіз DOM дерева, використання XPath.

2. Парсинг рядків.

3. Використання регулярних виразів.

4. XML парсинг.

5. Візуальний підхід.

Розглянемо всі підходи більш детально. Аналіз DOM дерева,


використання XPath ґрунтується на аналізі DOM дерева. Використовуючи цей
підхід, дані можна отримати безпосередньо за ідентифікатором, імені або
інших атрибутів елемента дерева (таким елементом може служити параграф,
таблиця, блок і т.д.). Крім того, якщо елемент не позначений будь-яким
ідентифікатором, то до нього можна дістатися по якомусь унікальному шляху,
спускаючись вниз по DOM дереву або пройтися по колекції однотипних
елементів.

23
Цей підхід можна використовувати разом з бібліотекою
Microsoft.mshtml, яка, по суті. є головним елементом в Internet Explorer. Data
Extracting SDK використовує Microsoft.mshtml для аналізу DOM дерева, але є
«надбудовою» над бібліотекою для зручності роботи.

Наступним еволюційним етапом аналізу DOM дерева є використання


XPath, тобто шляхів, які широко використовуються при парсінгу XML даних.
Суть даного підходу в тому, щоб за допомогою деякого простого синтаксису
описувати шлях до елементу без необхідності поступового руху вниз по DOM
дереву. Даний підхід використовує усіма відома бібліотека jQuery і бібліотека
HtmlAgilityPack.

Парсинг рядків. Незважаючи на те, що цей підхід не можна


застосовувати для написання серйозних парсерів, слід звернути увагу на
нього. Іноді дані відображаються за допомогою деякого шаблону (наприклад,
таблиця характеристик мобільного телефону), коли значення параметрів
стандартні, а змінюються лише їх значення. У такому випадку дані можуть
бути отримані без аналізу DOM дерева, а шляхом парсинга рядків, наприклад,
як це зроблено в Data Extracting SDK. Використання набору методів для
аналізу рядків іноді (частіше – простих шаблонних випадках) більш
ефективний ніж аналіз DOM дерева або XPath.

Регулярні вирази і парсинг XML необхідно використовуватися тільки


для отримання даних, які мають строгий формат – електронні адреси,
телефони і т.д., в рідкісних випадках – адреси, шаблонні дані. Ще одним
неефективним підходом є розглядати HTML як XML дані. Причина в тому,
що HTML рідко буває дійсним, тобто таким, що його можна розглядати як
XML дані. Бібліотеки, які реалізували такий підхід, більше часу приділяли
перетворенню HTML в XML і вже потім безпосередньо парсингу даних.

В даний момент візуальний підхід знаходиться на початковій стадії


розвитку. Суть підходу в тому, щоб користувач міг без використання

24
програмного мови або API «налаштувати» систему для отримання потрібних
даних будь-якої складності і вкладеності. Методи аналізу веб-сторінок на
рівні інформаційних блоків.

Вимірювання визначається як процес отримання інформації про


кількісні характеристики властивостей об’єктів і явищ дослідним шляхом
[169, 170]. Кількісні значення показників дозволяють керівництву приймати
обґрунтовані рішення. Отримані поточні значення можуть бути порівняні із
минулими значеннями та із цільовими значеннями, що дозволяє
прослідкувати їхню динаміку та скорегувати траєкторію розвитку складної
системи. Задача моніторингу та вимірювання здійснюється по відношенню до
всіх напрямків його діяльності. Традиційно використовуються переважно
внутрішні джерела даних, для яких характерний певний ступінь
суб’єктивізму. Джерелами даних для моніторингу можуть служити офіційні
звіти та документація структурних підрозділів, а також інформація, отримана
від співробітників та споживачів.

Рідкіше використовується інформація із зовнішніх джерел. Найчастіше


до такої можна віднести рейтинги або звіти, які регулярно публікуються
громадськими організаціями та державними установами. Проте, отримані із
рейтингів дані не є в повній мірі корисними з точки зору управління, оскільки
найчастіше методика отримання значень показників лишається закритою.

Окрім наведених традиційних джерел даних, можна говорити про те, що


результати діяльності підприємства як соціальної системи знаходять своє
відображення у веб-просторі як у зовнішньому середовищі. Доступ до таких
даних є відкритим, проте вони практично не використовуються для
моніторингу показників ефективності та якості. Незважаючи на те, які дані
використовуються для моніторингу, на сьогодні практично відсутня оцінка
якості результатів моніторингу. У процесі збору даних та їхнього аналізу, як
правило, поза увагою лишаються оцінки якості отриманих результатів, що

25
ставить під сумнів точність та надійність даних, які планується
використовувати для управління.

В умовах, коли кількість об'єктів величезна, природним бажанням


користувача є бачити досить короткий список рубрик, під які потрапляють всі
повернуті документи. Користуючись цими рубриками, користувач істотно
звужує межі пошуку. Основні вимоги, що пред'являються до рубрик, це те, що
вони повинні містити семантично близькі за якоюсь ознакою документи та ця
ознака має бути зведена до назви рубрики. Як приклад системи покликаної
структурувати цю величезну кількість інформації, з мережі Інтернет, можуть
виступати системи електронного навчання e-learning. Вони спрямовані на
пошук та надання найбільш релевантних джерел інформації і формування з
цієї інформації курсів навчання. Інформаційно-пошукова система – це
комплекс програмних засобів, що забезпечують виборчий відбір за заданими
ознаками документів, збережених в електронному (цифрованому) вигляді.

Пошукові системи зазвичай складаються з трьох компонент:

- агент (павук або кроулер), який переміщається по Мережі і збирає


інформацію;

- база даних, яка містить всю інформацію, що збирається агентами;

- пошуковий механізм, який люди використовують як інтерфейс для


взаємодії з базою даних.

Загальна архітектура пошукових систем схематично представлена на


рис. 2.1. Серед базових елементів пошукової архітектури слід виділити такі:

26
Рисунок 2.1 – Архітектура пошукових систем

- User client - це програма перегляду конкретного інформаційного


ресурсу. В даний час найбільш популярні мультипротокольні програми типу
Netscape Navigator. Така програма забезпечує перегляд документів World
Wide Web, Gopher, Wais, FTP-архівів, поштових списків розсилки і груп новин
Usenet. У свою чергу всі ці інформаційні ресурси є об'єктом пошуку
інформаційно-пошукової системи.

- User interface - інтерфейс користувача - це не просто програма


перегляду. У випадку інформаційно-пошукової системи під цим
словосполученням розуміють і спосіб спілкування користувача з пошуковим
апаратом системи, тобто з системою формування запитів і переглядів
результатів пошуку. Перегляд результатів пошуку та інформаційних ресурсів
мережі - це зовсім різні речі, на яких зупинимося трохи пізніше.

27
- Search engine - пошукова машина служить для трансляції запиту
користувача, який готується на інформаційно-пошуковій мові (ІПМ), у
формальний запит системи, пошуку посилань на інформаційні ресурси
Мережі і видачі результатів цього пошуку користувачеві.

- Index database - індекс - це основний масив даних інформаційно-


пошукової системи. Він служить для пошуку адреси інформаційного ресурсу.
Архітектура індексу влаштована таким чином, щоб пошук відбувався
максимально швидко і при цьому можна було б оцінити цінність кожного із
знайдених інформаційних ресурсів мережі.

- Queries - запити користувача зберігаються в його особистій базі даних.


На налагодження кожного запиту йде досить багато часу, і тому надзвичайно
важливо зберігати запити, на які система дає хороші відповіді.

- Index robot - робот - індексировщик служить для сканування Internet і


підтримки бази даних індексу в актуальному стані. Ця програма є основним
джерелом інформації про стан інформаційних ресурсів мережі.

Агенти – найбільш "інтелектуальні" з пошукових засобів. Вони можуть


робити більше, ніж просто шукати: вони можуть виконувати навіть транзакції
від Вашого імені. Вже зараз вони можуть шукати сайти специфічної тематики
і повертати списки cайтів, відсортованих за їх відвідуваності. Агенти можуть
обробляти вміст документів, знаходити та індексувати інші види ресурсів, не
лише сторінки. Вони можуть також бути запрограмовані для витягання
інформації з вже існуючих баз даних. Незалежно від інформації, яку агенти
індексують, вони передають її назад базі даних пошукового механізму.

Агенти витягують і індексують різні види інформації. Деякі, наприклад,


індексують кожне окреме слово у зустрічаючому документі, в той час як інші
індексують тільки найбільш важливих 100 слів у кожному, індексують розмір
документу і кількість слів у ньому, назву, заголовки і підзаголовки і так далі.
Вид побудованого індексу визначає, який пошук може бути зроблений

28
пошуковим механізмом і як отримана інформація буде інтерпретована.
Агенти можуть також переміщатися по Інтернет і знаходити інформацію,
після чого поміщати її в базу даних пошукового механізму. Адміністратори
пошукових систем можуть визначити, які сайти або типи сайтів агенти
повинні відвідати і проіндексовати . Проіндексована інформація відсилається
базі даних пошукового механізму .

Щоб визначити порядок, в якому список документів буде показаний,


база даних застосовує алгоритм ранжування. В ідеальному випадку,
документи, найбільш релевантні запиту користувача будуть поміщені
першими в списку. Різні пошукові системи використовують різні алгоритми
ранжирування, проте основні принципи визначення релевантності наступні:

Кількість слів запиту в текстовому вмісті документу (тобто в html-коді).

Теги, в яких ці слова розташовуються.

Місцезнаходження шуканих слів у документі.

Питома вага слів, відносно яких визначається релевантність, у загальній


кількості слів документа.

Для прикладу приведемо опис однієї з пошукових систем, яка


користується найбільшою популярністю. Google здійснює пошук за
документами на більш ніж 35 мовах, у тому числі українською. В даний час
багато порталів та спеціалізованих сайтів надають послуги пошуку інформації
в Інтернеті на базі Google, що робить завдання успішного позиціонування
сайтів в Google ще більш важливою. Google проводить переіндексацію своєї
пошукової бази приблизно раз на чотири тижні. Під час цього удосконалення,
неофіційно званого Google dance, відбувається оновлення бази на основі
інформації, зібраної роботами за час, що минув з попереднього
удосконалення, і перерахунок значень PageRank документів. Також існує
певна кількість документів з досить великим значенням PageRank ,
інформація про які в пошуковій базі оновлюється щодня, проте значення

29
PageRank перераховується тільки під час Google dance. Не дивлячись на те,
що в пошуковику мається форма для безкоштовного додавання сторінки в
базу, Google вважає за краще сам знаходити нові документи по посиланнях з
вже відомих і не буде індексувати додану через форму сторінку, якщо в його
базі не знайдеться жодної сторінки, що посилається на неї [23].

2.2 Підходи до пошуку та групування інформації


Сучасна задача пошуку інформації складається з: пошуку необхідної
користувачам інформації, її сортування та вилучення. Для пошуку інформації
використовуються інформаційно-пошукові системи. Для сортування
класифікація або кластерізація. А для вилучення цієї інформації стандарти
документів та засоби DataМining.

У найбільш загальному випадку задача групування параметрів полягає у


знаходженні для заданої їх сукупності таких груп, що зв'язок між
параметрами, які входять в одну групу, більше зв'язку між параметрами з
різних груп. Кількість груп в таких завданнях найчастіше передбачається
заданим, хоча іноді воно визначається в процесі вирішення. Щоб виявилася
можливою оцінка ступеня зв'язку між параметрами, необхідна наявність
таблиці спостережень, причому ми будемо обмежуватися випадком, коли
результати вимірювання значень ці установки не залежать від стану
досліджуваного об'єкта в моменти попередніх спостережень. Загальною
вимогою до методики збору даних для вирішення завдання угруповання
параметрів, є фіксація значень всіх параметрів в один і той же момент [24], а
якщо це неможливо, то за час встановлення значень параметрів стан об'єкта
не повинна зазнавати змін. Аналогічно ставиться завдання класифікації
об'єктів (спостережень). У цьому випадку на однорідні класи (кластери,
таксони) розбивається сукупність досліджуваних об'єктів, кожен з яких
задається багатовимірним наглядом, тобто набором значень параметрів
(ознак), що характеризують об'єкти.

30
Незважаючи на широке застосування методів угруповання параметрів і
класифікації об'єктів (кластерного аналізу) загальноприйнятого визначення
груп і класів немає. Серед більшості розробників цих методів існує інтуїтивне
розуміння того, що елементи однієї групи (або одного класу) повинні бути
ближче один до одного, ніж до інших елементів, однак особливості цього
відношення явно не називаються.

Постановка завдань угруповання параметрів і класифікації


спостережень мають безсумнівним подібністю. Різниця зводиться, в
основному, до методики встановлення відносини близькості між
розглянутими елементами (параметрами або об'єктами): в одному випадку
говорять про зв'язок між елементами, а в іншому про близькість в прямому
сенсі цього слова або про подібність. Тому розроблені методи класифікації
спостережень можуть бути застосовані і при угрупованні параметрів, в
зв'язку, з чим розглянемо як одні, так і інші методи [24]. При цьому особливе
місце займають завдання, в яких параметри є якісними.

При розгляді та аналізі угруповання параметрів і класифікації


спостережень будемо виходити із загальноприйнятої їх класифікації на
неієрархічні методи, відносячи до неієрархічні і ті методи, в яких формування
груп здійснюється послідовно з автоматичним встановленням їх кількості.
Методи, в яких перегляд кожного з елементів, що групуються, здійснюється
тільки один раз, будемо називати однократними.

Досить поширеними є методи, засновані на використанні еталонів, в


якості яких, при класифікації об'єктів найчастіше виступають центри тяжкості
класів в просторі параметрів. Одним з перших серед подібних методів є
алгоритм, описаний в роботі [25] і забезпечує послідовне формування класів.
Подібним з наведеним вище алгоритмом є так званий метод Середній Його
відмінність полягає в тому, що в ньому на початковому етапі береться
об'єктів, які декларуються центрами класів, і далі кожен з решти об'єктів
включається в той клас, до центру якого він ближче. Очевидно, початковий

31
вибір центрів класів і порядок послідующого перегляду елементів істотно
впливають на одержуване рішення.

Розвитком методу середніх є метод, який отримав назву ISODATA [26].


Він полягає в тому, що, маючи центрами класів, розміщують всі об'єкти по
класах відповідно до внутрікласової критерієм мінімальності. Після
віднесення всіх елементів центри переглядаються, і процес повторюється до
тих пір, поки не припиниться поліпшення критерію. Є ряд алгоритмів, в
основу яких покладені ідеї методів середніх і ISODATA. При розбитті
множини об'єктів на класи виходять з випадково сформованого набору ядр з
заданим числом елементів в кожному з них. Отримання розбиття
здійснюється віднесенням елементів до тих чи інших класах залежно від їх
зв'язку з елементами ядр класів. Після того, як всі елементи будуть
класифіковані, для кожного класу формується нове ядро за допомогою вибору
заданого числа елементів, найбільш пов'язаних з усіма елементами класу.
Процедура повторюється до тих пір, поки не припиниться поліпшення
обраного критерію оптимальності. Існують методи, в яких задається форма
класів об'єктів в просторі параметрів.

Характерною рисою всіх методів, що виходить від ідей факторного


аналізу, є оцінка ступеня зв'язку між параметрами за допомогою коефіцієнта
кореляції, що знижує достовірність отриманих з їх допомогою результатів,
оскільки коефіцієнт кореляції оцінює лінійні статистичні зв'язку, в той час як
в реальних умовах мають місце і зв'язку нелінійного характеру.

Завдання угруповання параметрів може вирішуватися на графах в


припущенні, що вершини графа відповідають параметрам, а ребра
навантажені вагами, рівними значеннями показника ступеня зв'язку між
параметрами. У кореляційної матриці, яка оцінює ступінь зв'язку між
параметрами, елементи по модулю менші деякого порогового значення
замінюються нулями, а решта - одиницями. В результаті виходить матриця
суміжності графа, число компонент зв'язності якого (названих кореляційними

32
плеядами) і їх типологія характеризують структуру кореляційних зв'язків між
параметрами. Переймаючись різними граничними значеннями, можна знайти
такий поріг, при якому граф стає незв'язним. Компоненти зв'язності будуть
характеризувати розбиття множини параметрів. Хоча метод кореляційних
плеяд і дозволяє автоматично встановити кількість груп, можливість його
застосування обмежується необхідністю завдання порогового значення
ступеня зв'язку.

Ще один підхід до класифікації із застосуванням методів теорії графів


реалізований за допомогою алгоритмів, заснованих на побудові найкоротшого
незамкнутого шляху між точками-об'єктами в просторі параметрів або
точками-параметрами в просторі спостережень [27]. Ідея методу полягає в
переборі всіх варіантів розриву найкоротшого незамкнутого шляху з
відшукання варіанту, що забезпечує екстремум деяким критерієм якості.
Аналогічні передумови закладені в методі, що складається в побудові дерева,
що є мінімальним покриттям початкової множини точок.

Як це вже зазначалося вище, для вирішення даної задачі найчастіше


використовуються або алгоритми, максимізує відстань між класами, або
алгоритми, що максимізують, кореляційні зв'язки всередині груп. Досить
широке застосування отримав метод потенційних функцій. У цьому методі
вводиться міра близькості точки до кінцевого безлічі точок як усереднена по
всіх елементах цієї множини сума значень деякої функції, що залежить від
відстані між що розглядається точкою і елементом безлічі і спадна у міру його
збільшення. Аналогічно вводиться міра близькості між двома групами, а саме,
як усереднена за елементами однієї групи сума заходів близькості цих
елементів до другої групи.

Якщо кожному параметру поставити у відповідність цілочисельну


змінну, значення якої визначаються номером групи, що містить параметр, то
розглянута задача зведеться до задачі цілочисельного програмування.
Запропонований в роботі [28] алгоритм вирішення задачі за методом гілок і

33
меж ґрунтується на припущенні, що можуть бути отримані нижні і верхні
оцінки значення критерію якості угруповання для всіх часткових
класифікацій, що представляють собою розміщення перших елементів,
кількість яких дорівнює кількості груп. Це є істотним тижнів залишком
методу, оскільки такі оцінки часто обчислити неможливо. Крім того, багато
завдань цілочисельного програмування великої розмірності неможливо
вирішити за доступний для огляду час.

На закінчення відзначимо, що іноді потрібно проводити як угруповання


параметрів, так і класифікацію об'єктів. При вирішенні подібних завдань
можливе застосування послідовних алгоритмів, в яких на першому етапі
виділяються групи близьких параметрів, а на другому - класи близьких
об'єктів (або навпаки), або паралельних алгоритмів, заснованих на
апроксимації матриці спостережень невеликим числом підматриць, які в
загальному випадку можуть перетинатися. Паралельні алгоритми базуються
на введенні деяких функціоналів, які характеризують ступінь наближення
матриці даних системою підматриць. Оскільки сфера застосування цих
методів обмежена, їх розгляд проводитися не буде.

Серед методів і алгоритмів класифікації виділяють сукупність методів,


характерною рисою яких є наступне: якщо розглянути динаміку зміни груп,
одержуваних на різних ітераціях, то буде сформовано дерево, коренем якого є
безліч всіх класифікуються параметрів (або об'єктів), а всі інші вершини
представляють собою різні групи. Подібні методи, звані ієрархічними, ділять
на дві сукупності – розділювальні и агломератові (об'єднувальні). Для перших
з них характерно те, що при їх застосуванні число груп від ітерації до ітерації
збільшується за рахунок поділу деяких груп, отриманих на попередній ітерації
[29]. Користуються більшою популярністю в практичних застосуваннях
агломератові методи відрізняються тим, що в них відбувається об'єднання
груп, причому формування дерева найчастіше не відбувається, так як завжди
потрібне отримання більш однієї групи.

34
У методі найближчого сусіда, часто званому методі одиночного зв'язку,
зв'язок між групами оцінюється відстанню між їхніми найближчими сусідами.
Суть агломератовому алгоритму угруповання методом найближчого сусіда в
тому, що, починаючи з одноелементних груп, отримують необхідне їх
кількість шляхом послідовного об'єднання тих з них, відстань між якими
найменша. На кожному етапі об'єднуються дві групи. На відміну від методу
одиночного зв'язку, в методі самого далекого сусіда, інакше званому методі
повного зв'язку, відстань між двома групами визначається за самим
віддаленим їх елементам. Використовуючи той же алгоритм, що і в методі
одиночного зв'язку, можна отримати класи у вигляді гіперсфери. Відмінність
методу середнього зв'язку від двох названих вище полягає в тому, що про
відстані між групами судять по відстані між їх центрами тяжкості (середніми).

Всі названі вище агломератові методи своїм джерелом, мабуть, мають


метод, в основу якого покладена вимога мінімізації суми відстаней між
елементами, що належать виділеним групам, відносно центрів відповідних
груп. У цьому алгоритмі, також починаючому свою роботу з одноелементних
груп, на кожній ітерації відбувається послідовне об'єднання таких двох груп,
для яких досягається мінімум різниці відстаней об'єднаної групи і тих що
об'єднуються [29]. При групуванні по -діаметру [30] використовується
функція близькості між двома об'єктами, що дорівнює нулю при їх збігу і
приймаюча тим більші значення, чим більшою мірою вони видалені. В цьому
випадку використовується звичайна процедура агломератизації ієрархічної
класифікації з об'єднанням двох класів, що володіють мінімальним -
діаметром, під яким розуміється мінімальне значення функції близькості між
об’єктами 𝑂𝑖Oi, 𝑂𝑗Oj вихідної множини, що володіє наступною властивістю: для
будь-яких двох об'єктів, що належать об'єднанню, існує послідовність, що
містить в якості крайніх елементів ці об'єкти, з елемента вихідної множини
така, що функція близькості між будь-якими сусідніми в цій послідовності
об'єктами не перевищує функції близькості для об'єктів 𝑂𝑖Oi, 𝑂𝑗Oj. Групування

35
по -діаметру дозволяє домогтися компромісу між методами одиночного і
повного зв'язку, узагальнюючи їх і забезпечуючи в окремих випадках рішення
задачі згідно з кожною з цих процедур. Подібним є метод, заснований на
використанні узагальнених -клік, так як -діаметр і поняття -досяжності в
-кліках фактично збігаються. Однак оскільки кількість клік в графі зростає
експоненціально від числа вершин [Р3], методи угрупування по -діаметру і
-кліках орієнтовані на рішення -повних задач, хоча вони можуть бути і
досить ефективними.

Порівняльну характеристику обчислювальної складності найбільш


поширених методів наведено в табл. 2.1. Порівняння підходів до групування
за формою кластерів, вихідними даними та результатами наведено у табл. 2.2.

Таблиця 2.1 – Обчислювальна складність алгоритмів

Алгоритм кластеризації Обчислювальна складність

ієрархічний O(n2)

k-середніх O(nkl), де k – число кластерів, l –


число ітерацій
c-середніх

Виділення зв'язкових компонент залежить від алгоритму

Мінімального покриваючого дерева O(n2 log n)

Пошарова кластеризація O(max(n, m)), где m < n(n-1)/2

36
Таблиця 2.2 – Порівняння алгоритмів

Алгоритм Форма Вхідні данні Результати


кластеризації кластерів
ієрархічний Довільна Число кластерів Бінарне дерево кластерів
або поріг відстані
для усічення
ієрархії
k-середніх Гіперсфера число кластерів Центри кластерів
c-середніх Гіперсфера Число кластерів, Центри кластерів,
ступінь нечіткості матриця приналежності
Виділення Довільна Поріг відстані R Деревоподібна структура
зв'язкових кластерів
компонент
Мінімального Довільна Число кластерів Деревоподібна структура
покриваючого або поріг відстані кластерів
дерева для видалення
ребер
Пошарова Довільна Послідовність Деревоподібна структура
кластеризація порогів відстані кластерів з різними
рівнями ієрархії

В результаті аналітичного огляду було виявлено, що існуючі підходи до


збору та переробки бізнес-інформації розглядають інформацію загалом як

37
головний елемент будь-якої з функцій управління, що потребує скорочення
часу на прийняття управлінських рішень та підвищення актуальності
інформації в системах прийняття рішень.

ВИСНОВКИ
Отримані під час дослідження результати можуть допомогти вирішити
важливу науково-прикладну проблему формування методологічних основ та
інформаційної технології моніторингу актуальних даних в системах
управління, які на основі інтеграції інформації із внутрішніх та зовнішніх
джерел даних дозволяють оцінити результативність управління в
соціотехнічних системах за рахунок повноти та достовірності даних.
Проведені в науковій роботі дослідження надали можливість отримати
наступні наукові результати.

1. Проведено аналіз існуючих підходів, методів, моделей та


інформаційних технологій управління в розподілених організаційних
структурах та динамічних середовищах, який показав необхідність
удосконалення методологічних основ моніторингу актуальних даних.

2. Проаналізовано сучасні методи моніторингу даних для управління


компаніями.

38
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ

1. Поспелов Г. С., Ириков В. А. Программно-целевое планирование и


управление. Москва : Сов. радио, 1976. 440 с.
2. Поспелов Г. С., Вен В. Л., Солодов В. М. и др. Проблемы программно-
целевого планирования и управления. Москва : Наука, 1981. 464 с.
3. Бех Ю. В., Слєпцов А. І. Філософські проблеми сучасного управління
складними системами: ідеї, принципи і моделі : монографія / Мін-во
освіти і науки, молоді і спорту ; Нац. пед. ун-т імені М. П. Драгоманова.
Київ : Вид-во НПУ імені М. П. Драгоманова, 2012. 405 с.
4. Тынкевич М. А. Экономико-математические методы (исследование
операций) : учеб. пос. 2-е испр. и доп. Кемерово, 2000. 177с.
5. Бодянский Е. В., Шафроненко А. Ю. Рандомизированная модификация
метода оптимизации на основе кошачьих стай. Системи обробки
інформації. 2018. № 1, С. 142−147
6. Kusek J. Z., Rist R. C. Ten Steps to a Results-Based Monitoring and
Evaluation System: a Handbook for Development Practitioners. Washington,
DC : The World Bank, 2004. 248 p
7. Павлов А. А., Теленик С. Ф. Информационные технологии и
алгоритмизация в управлении. Киев : Техніка, 2002. 344 с.

39
8. Юрчук Н. П. Система моніторингу в управлінні IT-проектами.
Ефективна економіка. 2018. №4. URL: http://www.economy.
nayka.com.ua/pdf/4_2018/58.pdf/.
9. Чередниченко О. Ю., Янголенко О. В. Подход к оценке ключевых
показателей эффективности и качества на основе информационной
системы мониторинга и измерения. Информационные системы в
управлении, образовании, промышленности : монография / под. ред. В.
С. Пономаренко. Харків : Издатель Рожко С. Г., 2016. С. 506–519.
10. Галіцин В. К., Суслов О. П., Самченко Н. К. Системи моніторингу :
навч. посіб. Київ : КНЕУ, 2015. 408с.
11. Armitage D., Berkes F., Doubleday N. Adaptive Co-Management:
Collaboration, Learning, and Multi-Level Governance (Sustainability & the
Environment). Vancouver : UBC Press, 2008.
12. Cherednichenko O., Yanholenko O., Iakovleva O. Web-Based Monitoring
and Evaluation. Research Activity Assessment Case Study. SCIECONF 2013 :
Proc. in Scientific Conference, (10-14 June, 2013). Zilina: EDIS Publishing
Institution of the University of Zilina, 2013. P. 455−458.
13. Саати Т. Л. Принятие решений при зависимостях и обратных связях.
Аналитические сети. Москва : Либроком, 2011. 360 с.
14. Чередніченко О. Ю., Янголенко О. В. Розробка інформаційно-
пошукової системи ідентифікації та вимірювання результатів
діяльності. Системи обробки інформації. 2016. № 4(141). С. 197−203.
15. Ткаченко В. В., Чередніченко О. Ю. Методичні основи побудови
системи підтримки прийняття рішень у надзвичайних ситуаціях.
Інформаційні технології : сучасний стан та перспективи : монографія /
за заг. ред. В. С. Пономаренка. Харків : ТОВ «ДІСА ПЛЮС», 2018. С.
149–163.
16. Партико В. Теорія масової інформації та комунікації. Львів : Афіша,
2008. 292 с.

40
17. Сухий О. Л., Міленін В. М., Тарадайнік В. М. Алгоритми пошуку в
інформаційних системах : метод. рекомендації. Київ, 2015. 70 с.
18. Sven Casteleyn, Florian Daniel, Peter Dolog, Maristella Matera. Engineering
Web Applications. Springer, 2009. 349 p.
19. Cherednichenko Olga, Vovk Maryna, Yanholenko Olha, Yakovleva Olena.
Towards the Technology of Employers’ Requirements Collection
Development. Integrated Computer Systems in Mechanical Engineering :
Synergetic Engineering: processing Scientific and Technical Conference,
Kharkiv, Ukraine, 2019 Nov. 28-30. Integrated Computer Technologies in
Mechanical Engineering, Springer International Publishing, 2020. P.
228−239. DOI: https://doi.org10.1007978-3-030-37618-5.
20. Шабанов-Кушнаренко С. Ю. Компараторная идентификация процессов
многомерной количественной оценки. Саарбрюккен, Германия :
Palmarium Academic Publishing, 2015. 217 с.
21. Guha R. V., Brickley Dan, Macbeth Steve. Schema.org: Evolution of
structured data on the web. Commun. ACM. 2016. № 59(2). P. 44–51.
22. Scrapy A Fast and Powerful Scraping and Web Crawling Framework. URL:
https://scrapy.org.
23. Allemang D., Hendler J. Semantic Web for the Working Ontologist:
Effective Modeling in RDFS and OWL. Morgan Kaufmann, 2008. 352 p.
24. Айвазян С. А., Мхитарян В. С. Прикладная статистики. Основы
эконометрики : в 2-х т. 2-е изд. Москва : ЮНИТИ-ДАНА, 2001. Т. 1 :
Теория вероятностей и математическая статистика. 656 с.
25. Wooldridge M. J. An introduction to multiagent systems. John Wiley &
Sons, LTD, 2009. 461 p.
26. Manning C. D., Raghavan P., Schütze H. An Introduction to Information
Retrieval. Cambridge, England : Cambridge University Press, 2009. 544 p.
27. Поспелов Г. С., Ириков В. А. Программно-целевое планирование и
управление. Москва : Сов. радио, 1976. 440 с.

41
28. Саати Т., Кернс К. Аналитическое планирование. Организация систем.
Москва : Радио и связь, 1991. 224 с
29. Andrew Carlson, Justin Betteridge, Bryan Kisiel, Burr Settles, Estevam R.
Hruschka Jr., Tom M. Mitchell. Toward an architecture for never-ending
language learning. AAAI. AAAI Press, 2010.

42

You might also like