Звіт антиплагіат

Имя пользователя: ID проверки:
Ірина Бистрова 1013335654
Дата проверки: Тип проверки:

20.12.2022 14:26:50 EET Doc vs Internet + Library
Дата отчета: ID пользователя:

20.12.2022 14:29:50 EET 100008344
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія програмного забезпечення 2022
Количество страниц: 75 Количество слов: 10288 Количество символов: 77670 Размер файла: 19.79 MB ID файла: 1013095534
Обнаружены модификации текста (могут влиять на процент совпадений)
5.2%
Совпадения
Наибольшее совпадение: 1.08% c источником из Библиотеки (ID файла: 1009664465)
3.49% Источники из Интернета 141 ............................................................................................................................................

Страница 77
3.14% Источники из Библиотеки 228 ..........................................................................................................................................

Страница 78
0% Цитат
Исключение цитат выключено
Исключение списка библиографических ссылок выключено
0% Исключений
Нет исключенных источников
Модификации
Обнаружены модификации текста. Подробная информация доступна в онлайн-отчете.
Замененные символы 21
25
Подозрительное форматирование
страниц
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЧЕРНІГІВСЬКА ПОЛІТЕХНІКА»
Навчально-науковий інститут інформаційних технологій
Кафедра інформаційних технологій та програмної інженерії
Допущено до захисту
Завідувач кафедри
Білоус Ірина Володимирівна
(прізвище, ім’я, по батькові)
"____" 202__р.
КВАЛІФІКАЦІЙНА РОБОТА
Програмний додаток для визначення дезінформації в медіа

(назва роботи)
121 - Інженерія програмного забезпечення

(шифр і назва спеціальності, освітньої програми)
____________________________________________________________________
(галузь знань)
Виконавець:
студент гр. МПІ-211
Завада Я. В. _____________
(прізвище, ім’я, по батькові,) (підпис)
Керівник:
Професор, доктор технічних наук
(посада) (науковий ступінь, вчене звання)
Дорош М. С. _____________
(прізвище, ім’я, по батькові,) (підпис)
Чернігів 2022
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Источники на этой странице: 1, 3-6, 8-11, 13-17, 19-20, 23-26, 30-32, 34, 38, 60
Страница 1 из 78
2
Я, Завада Яна Валеріївна, підтверджую, що дана робота є моєю власною
письмовою роботою, оформленою з дотриманням цінностей та принципів етики і
академічної доброчесності відповідно до Кодексу академічної доброчесності
Національного університету «Чернігівська політехніка». Я не використовував/ла
жодних джерел, крім процитованих, на які надано посилання в роботі.
____________________ ___________________
Дата Підпис
Источники на этой странице: 2-4, 6-9, 11, 13-14, 16, 24, 29-30, 42
МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ ЧЕРНІГІВСЬКИЙ

НАЦІОНАЛЬНИЙ ТЕХНОЛОГІЧНИЙ УНІВЕРСИТЕТ
Навчально-науковий інститут інформаційних технологій

Кафедра інформаційних технологій та програмної інженерії
ЗАТВЕРДЖУЮ:
Завідувач кафедри
Білоус Ірина Володимирівна

"____" 202 р.
ІНДИВІДУАЛЬНЕ ЗАВДАННЯ
НА ВИПУСКНУ КВАЛІФІКАЦІЙНУ РОБОТУ (ПРОЕКТ) ЗДОБУВАЧА

ВИЩОЇ ОСВІТИ
Завада Яна Валеріївна

Тема роботи: “Програмний додаток для визначення дезінформації в медіа”
Тему затверджено наказом ректора від ""

202_р. №
1. Зміст розрахунково-пояснювальної записки

- Аналіз предметної області
- Постановка задачі та методи дослідження
- Моделювання програмного додатку
- Реалізація програмного додатку
Источники на этой странице: 1-11, 15, 17, 20-26, 29, 32, 40, 42
4
2. Календарний план
№ Назва етапів роботи Термін виконання Примітки
1. Узгодження тематики з науковим

керівником
2. Вивчення проблематики
3. Пошук та вивчення літератури
4. Написання першого розділу дипломної
роботи
5. Написання другого розділу дипломної
роботи
6. Визначення інструментів для розробки

власної методики
7. Розробка методики та написання

програмної частини
8. Проходження переддипломної
практики
9. Аналіз результатів
10. Написання третього розділу проекту
11. Передзахист проекту
12. Підготовка графічної частини

дипломної роботи
13. Захист дипломної роботи
Завдання підготував:
керівник Дорош Марія Сергіївна
(підпис) (прізвище, ім’я, по батькові)
«_ » ____________202 р.
Завдання одержав:
Источники на этой странице: 1-3, 5-9, 11, 21-23, 29, 31

5
здобувач вищої освіти Завада Яна Валеріївна
(підпис) (прізвище, ім’я, по батькові)
«_ » ____________202 р.
6
ТЕХНІЧНЕ ЗАВДАННЯ
на виконання кваліфікаційної роботи здобувача ВО гр. МПІ-211
Завади Я. В.
Тема роботи: “Програмний додаток для визначення дезінформації в

медіа”
Необхідно розробити програмний додаток для визначення дезінформації в

медіа. Програмний додаток має виконувати наступні функції:
- первинна обробка текстів новин;
- ініціація нейронної мережі;
- оцінка точності моделі;
- класифікація тверджень;
- візуалізація результату.
Програма буде реалізована в середовищі Anaconda з використання мови
програмування Python з встановленими бібліотеками. NumPy надає підтримку
великих багатовимірних масивів і матриць, разом з великою бібліотекою
високорівневих математичних функцій для операцій з цими масивами, NLTK набір
бібліотек і програм для символьної та статистичної обробки природної мови для
англійської мови, Matplotlib для візуалізації даних двовимірною 2D графікою,
Seaborn для візуалізації статистичних даних, Pandas для візуалізації.
Обсяг текстової та графічної документації:

Робота обсягом 70 с. формату А4.
Передбачувана трудомісткість роботи – 410 чол-годин.
Планові терміни по етапах
Передзахист з повним поданням чистових роздруківок текстів та
ілюстративного матеріалу «___» ________ 20__ р.
Плановий термін захисту роботи
Робота планується до захисту на засіданні ЕК «__» ________ 20__ р.
Керівник роботи Дорош М. С.
Источники на этой странице: 1-4, 6-10, 15, 17-19, 21, 28

7
Дата видачі завдання «__» ________ 20__ р.
8
РЕФЕРАТ
Обсяг магістерської роботи складає 71 сторінок, зокрема 31 ілюстрацій,

лістингів та 25 джерела інформації.
Метою даної кваліфікаційної роботи є розробка системи визначення
неправдивої інформації у медіа за допомогою моделей та систем штучного інтелекту.
Об'єктом дослідження є моделі, методи та системи визначення фейкової
інформації у засобах масової інформації.
Предметом дослідження є алгоритми та технології машинного навчання з
використанням нейронних мереж для визначення достовірності інформації.
Методами дослідження є – методи обробки текстових даних та типи
нейронних мереж.
Реалізація програмного забезпечення виконувалась з використанням мови
програмування Python за підтримки низки бібліотек. У роботі виконано
моделювання роботи програмного додатку за допомогою структурно-
функціонального аналізу, побудовано та навчено нейронну мережу для класифікації
тверджень та розроблено програмний додаток.
Результати представлені у вигляді таблиць та ілюстрацій, що демонструють
правильність вибору методів збору та визначення наявності дезінформації.
Результати роботи можуть бути використані для подальшої розробки системи
аналізу тексту новин та публікацій у засобах масової інформації.
Ключові слова: ДЕЗІНФОРМАЦІЯ, МЕДІА, НЕЙРОННА МЕРЕЖА,

ТОЧНІСТЬ МОДЕЛІ, КЛАСИФІКАЦІЯ ТВЕРДЖЕНЬ, ОБРОБКА ПРИРОДНОЇ
МОВИ
9
ANNOTATION
The volume of the master's thesis is 71 pages, including 31 illustrations, listings

and 25 sources of information.
The purpose of this qualification work is to develop a system for identifying false
information in the media using artificial intelligence models and systems.
The object of the study is models, methods and systems for identifying fake
information in mass media.
The subject of research is algorithms and technologies of machine learning using
neural networks to determine the reliability of information.
Research methods are text data processing methods and types of neural networks.
The software was implemented using the Python programming language with the
support of a number of libraries. In the work, the software application was modeled using
structural-functional analysis, a neural network was built and trained for the classification
of statements, and the software application was developed.
The results are presented in the form of tables and illustrations that demonstrate the
correctness of the choice of methods of collection and determination of the presence of
misinformation.
The results of the work can be used for the further development of a system for
analyzing the text of news and publications in mass media.
Keywords: DISINFORMATION, MEDIA, NEURAL NETWORK, MODEL

ACCURACY, STATEMENT CLASSIFICATION, NATURAL LANGUAGE
PROCESSING
Источники на этой странице: 41, 53, 57

10
ЗМІСТ
Вступ 9
1. Аналіз предметної області 10
1.1. Актуальність обраної теми 10
1.2. Фактори посилення резонансу дезінформації 12
1.3. Засоби боротьби з дезінформацією 17
1.4. Аналіз існуючих програмних рішень 20
Висновки до розділу 1 26
2. Обгрунтування засобів реалізації 27
2.1. Обгрунтування мови програмування для реалізації 27
2.2. Обгрунтування бібліотеки для NLP 30
2.3. Налаштування інфраструктури проекту 32
2.4. Опис вимог до програмного додатку 34
2.5. Методи обробки тексту та алгоритм класифікації дезінформації 37
3. Реалізація системи визначення дезінформації у медіа 46
3.1. Налаштування середовища реалізації проекту 46
3.2. Попередня обробка даних 48
3.3. Приклад реалізації 68
Висновки 74
Список використаних джерел 75
Источники на этой странице: 50

11
Вступ
Серед політиків, менеджерів і академічних дослідників зростає занепокоєння

щодо ролі, яку соціальні мережі відіграють у поширенні дезінформації, яку широко
називають «фейковими новинами». До останніх подій в Україні основна увага
приділялася вивченню наслідків дезінформації в соціальних мережах для
маркетингу та споживачів. Однак, на сьогоднішній день дослідження все більше
зосереджуються на наслідках фейкових новин для політичних та військових подій в
Україні. Враховуючи ключову роль соціальних мереж як комунікаційної платформи,
існує прогалина в нашому розумінні фейкових новин через призму звичайних
споживачів такої інформації, хоча сьогодні вона містить все більше спеціалізованих
військових та політичних термінів. Ми усуваємо цю прогалину шляхом проведення
міждисциплінарного систематичного огляду відповідної літератури в кращому
випадку, або збираємо інформацію від таких самих як ми “професіоналів” в даних
галузях. Феномен фейкових новин включає в себе основні 5 елементів: процес
розповсюдження, особливості каналу поширення, результати, сфабрикована
легітимність і ставлення [1].
В нашій роботі ми розглядаємо можливості розширення інструментів для
визначення достовірності інформації, розміщеної у різних відкритих засобах масової
інформації. Такі рішення повинні бути доступні для кожного, прості у використанні
та видавати результат з високою точністю.
Інтернет-інформація дуже різноманітна, охоплює велику кількість тем, що
ускладнює це завдання. Правдивість і намір будь-якого твердження часто не можуть
бути оцінені тільки комп’ютерами, тому зусилля також повинні залежати від
співпраці між людьми та технологіями.
Останніми роками, щоб допомогти онлайн-користувачам визначити корисну та
цінну інформацію, було проведено широке дослідження щодо створення ефективної
та автоматичної системи для виявлення фейкових новин в Інтернеті. Однак
виявлення достовірної соціальної інформації з мільйонів повідомлень є складним
завданням через неоднорідний і динамічний характер соціальної комунікації в
Інтернеті.
12
Виходячи з вищезазначеного, метою даної роботи є розробка системи
визначення неправдивої інформації у медіа за допомогою моделей та систем
штучного інтелекту.
Об’єктом дослідження є моделі, методи та системи визначення фейкової
інформації у засобах масової інформації.
Предметом дослідження є алгоритми та технології машинного навчання з
використанням нейронних мереж для визначення достовірності інформації.
Для досягнення поставленої мети необхідно вирішити такі задачі:
- виконати аналіз існуючих методів та технологій визначення
достовірності інформації;
- зробити аналіз існуючих систем визначення достовірності інформації з
різних джерел;
- виконати проектування системи визначення дезінформації в медіа;
- провести обґрунтування методів та алгоритмів визначення дезінформації
в медіа;
- розробити систему;
- виконати оцінку точності моделі.
Источники на этой странице: 2, 44, 48, 52

13
1. Аналіз предметної області
1.1. Актуальність обраної теми
Величезний вплив соціальних медіа безпомилковий. У Facebook щодня

завантажується приблизно 300 мільйонів нових фотографій, а щосекунди
надсилається шість тисяч твітів. Найпопулярніші канали YouTube отримують понад
14 мільярдів переглядів щотижня, а додаток для обміну повідомленнями Telegram
має понад 500 мільйонів користувачів.
За минулий рік в Україні збільшилась кількість користувачів соцмереж - з 60%
громадян України у 2021 році до 76.6% у липні 2022. Через розгортання
повномасштабного вторгнення значна частина українського населення почала
використовувати соціальні мережі як джерело інформації. Telegram -
найпопулярніша платформа, яку обрали 66% користувачів, а на другому та третьому
місці стоять YouTube (61%) та Facebook (58%). На даний момент в YouTube
зареєстровано більше 28 млн українських користувачів, Instagram налічує більше
16,1 млн, Facebook - 15,45 млн. TikTok використовують понад 10,55 млн українців
[2]. Наглядно дані наведені на рис. 1.1.
*Кількість користувачів віком від 18 років.

Джерело [2]
Рис. 1.1 - Українські користувачі у соцмережах 2022
14
Як ми бачимо з рис. 1.1 YouTube лідирує за кількістю українських
користувачів, тому приведемо топ десять YouTube каналів, які несуть новинний та
політичний контент в за версією socialblade.com у таблиці 1.1.
Топ-10 YouTube каналів на тему новин та політики в Україні

Таблиця 1.1
Місце в Назва каналу Завантаження Підписки Перегляди

рейтингу
1 24 Канал 185,991 3.83M 4,036,531,3
66
2 Юрий Подоляка 1,312 3.12M 573,882,53
0
3 Фабрика новин 18,855 2.82M 2,460,805,6
02
4 Телеканал Прямий 70,367 2.15M 1,724,077,2
20
5 УНІАН 19,151 2.18M 1,676,849,0
49
6 ГРОШІ 12,208 1.59M 1,479,357,5
32
7 Корупція.Інфо 30,371 1.47M 1,935,549,9
04
8 FREEДOM 31,173 690K 360,338,16
6
9 Новини.LIVE 16,747 658K 427,218,76
6
10 5 канал 111,384 1.45M 1,266,745,5
73
Джерело [3]
На другому місці ми можемо побачити канал “Юрий Подоляка”, автор якого є
досить спірною персоною у своїх поглядах щодо України і заставляє сумніватись
понад 3 млн. своїх підписників.
15
Платформи соціальних мереж об’єднують людей між суспільствами,
полегшуючи обмін інформацією способами, які неможливо було уявити лише два
десятиліття тому. Маніпуляції платформами соціальних мереж також широко
поширилися, і такі платформи використовувалися для сприяння нестабільності,
поширення політичних конфліктів і закликів до насильства. Дослідники вважають,
що організовані кампанії з дезінформації в соціальних мережах діють принаймні у
81 країні, і ця тенденція продовжує зростати щороку, завдяки значній кількості спроб
маніпулювання державами та приватними корпораціями [4].
Ми стверджуємо, що широке коло учасників, пов’язаних із спільнотою
запобігання нестабільності та жорстокості, має враховувати нові проблеми, пов’язані
з дезінформацією в соціальних мережах (SMM), і ми надаємо рекомендації щодо
цього. Проста, але тривожна правда стикається з різними професіями, чия робота
пов’язана із запобіганням жорстокості: дезінформація може швидко змінюватися між
темами, але лише кілька наративів повинні закріпитися, щоб підірвати довіру до
фактів і стандартів доказів. Користуючись перевагами щільних, розгалужених
соціальних взаємозв’язків на платформах соціальних медіа, інфлюенсери можуть
висувати численні неправди, звинувачення та змови та спостерігати, які наративи
закріплюються. Як дедалі більша частина сучасного конфлікту, зловмисники —
іноземні чи національні державні персони, напівдержавні групи чи недержавні
суб’єкти — визначають, коли, де та як часто атакувати. Захисники, до яких належать
цільові уряди, організації громадянського суспільства, технологічні корпорації,
засоби масової інформації та інші, мають визначити, на чому зосередитись та як
реагувати. Кількість, швидкість і зростаюча витонченість дезінформації створюють
серйозні проблеми для зацікавлених сторін у сфері нестабільності та запобігання
злочинам.
1.2. Фактори посилення резонансу дезінформації
SММ може підвищити ризик жорстокості в різних політичних умовах, від

репресивних/авторитарних (Китай, М’янма, Венесуела, Росія тощо) до напів
демократичних (Філіппіни, Індія, Індонезія тощо). SММ також використовувала у
16
країнах, які історично мали сильні демократичні інституції, включаючи Сполучені
Штати та Великобританію, частково через брак довіри до інституцій та внутрішніх
політичних впливів. Контекстуальні відмінності відіграють значну роль, оскільки ці
відмінності корелюють з іншими пом’якшуючими інституційними та суспільними
факторами, які допомагають зменшити помітність насильницького SММ із
зростанням громадянських свобод. У цьому розділі обговорюються три ключові
кластери факторів, які впливають на резонанс SMM: 1) соціально-політичні
розбіжності, 2) індивідуальна та групова психологічна динаміка та 3) екосистема
соціальних медіа [4].
Соціально-політичні розбіжності
Соціально-політична розбіжність є ключовим фактором підвищення
ймовірності внутрішньополітичної нестабільності, включаючи звірства. До них
належать значна соціальна та політична поляризація, антидемократичні або
ослаблені демократичні режими, а також серйозні кризи управління чи безпеки.
Сувора соціальна та політична поляризація означає посилення розбіжностей у
групі та поза групою та послаблення процесів соціалізації, які інакше могли б
зменшити напруженість. Це відбувається через поширення дегуманізуючих
дискурсів та формальної та неофіційної політики та практик. Це також посилює
сприйняті нормативні відмінності між групами: сторонні групи розглядаються як
загроза інтересам, цілям, безпеці або виживанню внутрішньої групи. У крайньому
випадку така поляризація може дедалі більше проявлятися через насильницьку
поведінку, включаючи напади на опоненти. Дезінформація черпає поляризацію та
посилює її, підкреслюючи підсилювальний характер динаміки радикалізації.
Тип режиму також має значення. Авторитарні та напівавторитарні уряди
набагато частіше використовують дезінформацію для нападу на опонентів,
замовчування інакомислення та формування суспільного дискурсу. Однак SMD
(Social Media Disinformation) і SMM також були ефективними в різних контекстах
«відступу від демократії»: демократії, де верховенство права застосовується
нерівномірно, вільна преса піддається нападам або маргіналізується, а популістські
лідери все більше не стримуються конституційними чи правовими перевірками
(наприклад, в Угорщині, Туреччині та США). Незважаючи на те, що дезінформація
17
може надходити з багатьох джерел, включаючи громадянське суспільство,
критичним моментом є те, що в умовах послаблення правових та інституційних
обмежень виконавчої влади соціальні медіа можуть стати потужною платформою
для дезінформації та дезінформації, яка вчиняється спеціально державними
органами влади або їх довіреними особами.
Глибокі кризи управління чи безпеки є особливо сприятливим середовищем
для SMM. Ці кризи можуть включати ймовірність або початок збройного конфлікту
чи колективного насильства, передачу повноважень, яка викликає серйозні
суперечки (наприклад, вибори, що викликають вкрай розбіжності, перевороти),
конституційні кризи або введення надзвичайного режиму. Кризи посилюють
політичні ставки, роблячи соціальні медіа «ще одним фронтом у наративній війні».
У цьому контексті загальної дезінформації тривалі кампанії дезінформації
державами та їхніми довіреними особами можуть створити додаткову
нестабільність. SMD, що спонсорується державою, часто є внутрішньою мішенню,
але SMD все більше стає частиною зовнішньополітичних кампаній дестабілізації та
тиску, як це видно з російської дезінформації в різних контекстах від України до
Сполучених Штатів. Коротше кажучи, іноземна участь посилює фактори
нестабільності, зазначені вище.
18
Рис. 1.2 - Довіра до деяких суспільних інститутів, % опитаних

Джерело [5]
Ці соціально-політичні фактори сприяють недовірі між громадянами та
офіційними джерелами, а також між громадянами, збільшуючи потенційний вплив
дезінформації соціальних медіа на тих, хто почувається соціально, політично чи
економічно відчуженим.
Психологічна динаміка
Три широкі категорії психологічної динаміки збільшують групову та
індивідуальну сприйнятливість до дезінформації в соціальних мережах: 1)
приналежність, 2) зрозумілість і 3) упередженість підтвердження (схильність
інтерпретувати нові докази як підтвердження своїх існуючих переконань або теорій).
Перша категорія стосується природної потреби соціальної приналежності та
безпеки через членство в групі. Дослідження показують, що люди мають потужну
психологічну потребу спілкуватися з іншими, знаходячи власну гідність через
спільноту. Участь у соціальних мережах безпосередньо впливає на цю потребу: вона
може задовольнити, принаймні частково, потребу в приналежності, об’єднуючи
однодумців і зміцнення психологічного благополуччя. Відповідно, людям, активно
19
залученим до певної онлайн-спільноти, може бути важко критикувати домінуючі
наративи, особливо якщо інформація надходить із надійного чи відомого джерела.
Виклик домінуючим позиціям може спричинити критику, приниження або навіть
виключення.
Щоб зробити складний, здавалося б, небезпечний світ зрозумілим, люди часто
роблять висновок про чіткі причинно-наслідкові зв’язки, мотивації та відносини там,
де їх не існує. Хоча це звичайна психологічна евристика, умови підвищеної
нестабільності роблять це особливо небезпечним. Дезінформація може замінити
складні або заплутані політичні явища редукційними історіями про добро проти зла
і нас проти них. Ці епістемологічні скорочення, які відмовляються від складного
аналізу та часто виключають критичний аналіз власних припущень і уподобань,
посилюються в соціальних мережах, які зміцнюють наші погляди на світ.
Останнім психологічним фактором є упередженість підтвердження, тенденція
вказувати на інформацію, яка підтверджує вже існуючі переконання, одночасно
відкидаючи суперечливу інформацію. Соціальні медіа посилюють цю
упередженість; дослідження показують, що люди в Інтернеті тяжіють до тих джерел
новин, які підтверджують їхні погляди, і відходять від суперечливих джерел. Крім
того, ефективні кампанії з дезінформації посилюють ці упередження, створюючи
політичні розбіжності між групою та поза групою. Дослідження показують, що
користувачі соціальних медіа з більшою ймовірністю діляться неперевіреними
історіями, ніж публікують виправлення, коли історії виявляються неправдивими або
фальсифікованими.
Ця психологічна динаміка стає особливо важливою в контексті ризику
жорстокості, де вже відбувається постійна моральна переорієнтація з пасивно
дозволеного націлювання на активну користь. SММ може створити сприйняття
широко поширеної суспільної підтримки.
1.3. Засоби боротьби з дезінформацією
Координація з трьома ключовими гравцями є ключовою у боротьбі з

дезінформацією: технологічними компаніями, громадянським суспільством і
20
фактчекерами, а також академічними установами. Крім того, стратегічна комунікація
є одним із ключових інструментів у боротьбі з дезінформацією та потребує
широкого підходу. Кампанії з дезінформації часто не обмежуються
розповсюдженням неправдивих новин, а часто спрямовані на створення зловмисної
історії. Звідси тісний зв’язок між боротьбою з дезінформацією та стратегічною
комунікацією, публічною дипломатією та цифровою комунікацією.
Європейська Рада у червні 2018 року доручила представнику ЄС із
закордонних справ і політики безпеки та Європейській Комісії представити до
грудня 2018 року, у співпраці з державами-членами та відповідно до висновків
Європейської Ради від березня 2015 року, План дій для скоординована реакція на
дезінформацію. Цей План дій було представлено та схвалено Європейською Радою
13 та 14 грудня 2018 року [6].
Що стосується змісту, то створення системи швидкого оповіщення (RAS) з
національними контактними пунктами в березні 2019 року для забезпечення
миттєвого попередження про дезінформаційні кампанії через спеціальну
технологічну інфраструктуру та для обміну інформацією між державами-членами та
Союзом заслуговує на увагу через свій практичний характер. Ця система забезпечує
необхідну координацію між європейськими партнерами та полегшує як моніторинг
мереж для виявлення кампаній і дій з дезінформації, так і, зрештою, розробку
спільних заходів у разі необхідності.
НАТО також активно бореться з дезінформацією. Ключовим елементом
комунікаційної стратегії є боротьба з дезінформацією в контексті нових гібридних
загроз. У зв’язку з цим були запущені програми для аналізу інформаційного
простору, такі як «Setting the Record Straight», щоб виявити тенденції дезінформації
та мати можливість швидко реагувати та розробляти конкретний контент.
У 2020 році Міністерством культури України було представлено законопроект,
в якому йдеться про кримінальну та адміністративну відповідальність за поширення
дезінформації та запровадження поняття “індекс довіри до ЗМІ” (рис. 1.3) [7].
21
Рис. 1.3 - Інфографіка станом на 28.01.2020

Влада України також оперативно реагує на виклики сьогодення. 26 березня
2022 року Президент України Володимир Зеленський підписав закон про те, що
поширення будь-якої інформації стосовно Збройних сил України під час воєнного
або надзвичайного стану несе за собою притягнення до кримінальної
відповідальності, що є одним із засобів боротьби з поширенням недостовірної
інформації [8].
До популярних методів виявлення дезінформації можна віднести: аналіз
заголовків, аналіз тексту, виявлення позиції, аналіз метаданих та фактчекінг.
Аналіз заголовків.
Суть даного методу полягає у тому, що формується єдина база з заголовками
новин та класифікується за правдивістю. Надалі виявляється закономірність у
заголовках деяких категорій і навчається на їх базі математична модель. Недоліком
такого методу можна розглядати наскільки важко класифікувати всі статті по
заголовкам, оскільки заголовки можуть нести не всю сутність новини, або
використовувати літературні обороти для привернення уваги читача.
Аналіз тексту.
Цей підхід вже є більш коректним, хоча і має схожість з попереднім.
Збільшення точності даного методу полягає у тому, що збільшується об’єм тексту,
22
який аналізується. Недолік такого методу нічим не відрізняється від попереднього.
Аналіз тексту конкретної новини бере до уваги різні особливості тексту, включає ці
ознаки у класифікаційні моделі, наприклад, Дерево рішень, Логістична регресія,
Метод опорних векторів, оцінює результати, обирає модель, яка має найбільшу
точність.
Виявлення позиції.
Є декілька варіантів реалізації такого методу, але його суть полягає у
передбаченні оцінки погляду двох уривків тексту щодо певної теми, розкритої у
новині та використанні емоційного аналізу фрагменту тексту або порівняння
заголовку і тексту. Останні випадок має декілька виходів - текст підтверджує
заголовок; текст суперечить заголовку; текст розкриває тему заголовку; текст не має
відношення до заголовку. Основуючись на висновки можна виробити гіпотезу про
наявність дезінформації.
Аналіз метаданих.
Існує багато досліджень [9, 10], які доводять, що є певні закономірності у
метаінформації новин, які були класифіковані, як фейкові. Щоб аналізувати
метадані, можуть бути використані деякі характеристики - час опублікування, місце
розташування, джерело новини тощо. Коли виявляється така закономірність,
навчається на її базі математична модель, є ймовірність створити автоматизований
інструмент класифікація деякої точності.
Фактчекінг.
Даний метод автоматизує людську ручну класифікацію новин, яка бере за
основу перевірку фактів на наявність дезінформації, які наявні у новині, мануально
підтверджується або навпаки спростовуються факти. Недоліком даного підходу
виступає те, що використовувати великий обсяг ресурсів звичайний розробник не
має змоги через його недоступність.
Проаналізувавши низку методів та підходів для виявлення дезінформації у
новинах, ми вирішили в рамках цієї магістерської роботи розглянути та використати
алгоритм лексичного аналізу на наявність дезінформації, оскільки такий метод може
забезпечити досить високу точність класифікації, яка досягає 99% [11].
23
1.4. Аналіз існуючих програмних рішень
Adblock Plus — це розширення для браузера та програма, яка блокує рекламу та

веб-сайти за допомогою списків фільтрації. Інструмент автоматично додає в білий
список рекламу, яка відповідає стандартам «прийнятної реклами», тому реклама
може уникнути блокування на цій платформі, дотримуючись цих стандартів.
Користувачі можуть відмовитися навіть від цих оголошень, налаштувавши
параметри за умовчанням. Інструмент, який спочатку був блокувальником реклами,
все більше сприймає себе як спосіб для користувачів захистити себе не лише від
шкідливої реклами, але й від інших шкідливих сайтів, у тому числі тих, які
поширюють дезінформацію.
Рис. 1.4 - Приклад роботи розширення Adblock Plus на Chrome

Bad News
Цей інструмент призначений для того, щоб користувачі могли зрозуміти методи,
задіяні в розповсюдженні дезінформації. Ця гра наражає гравців на тактику
фейкових новин, яка використовується проти них, ставлячи їх у позицію новинного
барона фейкових новин. Гравці виграють, публікуючи заголовки, які приваблюють
найбільшу кількість підписників.
24
Рис. 1.5 - Приклад роботи Bad News

Bot Sentinel — це безкоштовна платформа, розроблена для виявлення та
відстеження троль-ботів і ненадійних облікових записів Twitter. Bot Sentinel
використовує машинне навчання та штучний інтелект, щоб вивчати облікові записи
Twitter, класифікувати їх як надійні чи ненадійні та ідентифікувати ботів. Потім він
зберігає ці облікові записи в базі даних для щоденного відстеження кожного
облікового запису. Розробники використовують зібрані дані, щоб досліджувати
вплив ботів та їхньої пропаганди на дискурс, а також шукати способи протидії
поширенню ботів та інформації, яку вони поширюють. Класифікація ненадійних
облікових записів виконується вручну. Під час перевірки вони переглядають сотні
твітів і ретвітів. Якщо обліковий запис має велику кількість підписників і високий
відсоток оманливих та/або фактично невірних твітів, вони можуть класифікувати
цей обліковий запис як ненадійний. Ця платформа для відстеження ботів не
пов’язана з RAND; ним володіє та керує Bot Sentinel Inc.
25
Рис. 1.6 - Приклад Bot Sentinel

Botometer — це веб-програма, яка використовує машинне навчання для
класифікації облікових записів Twitter як ботів або людей, дивлячись на
характеристики профілю, зокрема друзів, структуру соціальної мережі, часову
активність, мову та настрої. Botometer виводить загальну оцінку бота (0-5) разом із
кількома іншими оцінками, які визначають ймовірність того, що обліковий запис є
ботом.
Рис. 1.7 - Приклад роботи Botometer

BotSlayer — це розширення для браузера, яке допомагає відстежувати та
виявляти потенційні маніпуляції інформацією, що поширюється в Twitter. BotSlayer
26
використовує алгоритм виявлення для ідентифікації хештегів, посилань, облікових
записів і медіа, які скоординовано поширюються ймовірними ботами. Користувачі
можуть переглядати/досліджувати твіти та облікові записи, пов’язані з таким
розширенням, у Twitter або шукати пов’язаний вміст.
Капітан Факт
CaptainFact — це веб-набір інструментів, призначених для спільної перевірки
вмісту в Інтернеті. Він містить розширення для веб-переглядача, яке забезпечує
накладання відео на інтернет-відео з джерелами та контекстною інформацією, а
також піктограми, що показують достовірність на основі голосів користувачів. Він
також має «дебатну платформу», яка дозволяє обговорювати конкретні питання.
Хоча наразі вони зосереджені на відео, вони розробляють інструмент для надання
подібного накладення на статті.
Рис. 1.8 - Капітан Факт

ClaimBuster — це онлайн-автоматизований інструмент для перевірки фактів у
реальному часі, розроблений Техаським університетом в Арлінгтоні. Інструмент
покладається на обробку природної мови та навчання під наглядом (на основі набору
даних, закодованого людиною), щоб ідентифікувати фактичну та неправдиву
інформацію. Також є програма для Slack.
27
Climate Feedback — це веб-інструмент анотування вмісту, який дозволяє вченим
коментувати статті, щоб надати додатковий контекст і привернути увагу до
неточностей. Результатом процесу є оцінка довіри.
FakerFact — це інструмент штучного інтелекту, який оцінює призначення та
характеристики інформації. Рейтинги включають розклад, публіцистику, вікі, думку,
сатиру. Інструмент не оцінює статтю як правдиву чи неправдиву, а надає оцінку її
мети та об’єктивності.
Hamilton 2.0 — це веб-панель, яка надає інформацію про російську пропаганду
та дезінформацію в режимі реального часу в Інтернеті. Це робиться шляхом
відстеження сотень пов’язаних з Росією облікових записів Twitter, пов’язаних із
впливом на інформацію в Сполучених Штатах і Європі. Інструмент забезпечує
аналіз наративів і тем, які просуваються російським урядом і державними медіа в
Twitter, YouTube, на телебаченні та на державних веб-сайтах новин.
28
Висновки до розділу 1
В даному розділі була проаналізована предметна область дослідження, а саме

розповсюдження дезінформації в медіа. Кожен пункт був детально описаний та
опрацьований.
Ми підтвердили актуальність обраної теми шляхом приведення статистичної
інформації щодо використання медіа. На даний час кількість платформ для
розміщення новин, зокрема тих, що містять дезінформацію, зростає в геометричній
прогресії, але, на жаль, не всі користувачі здатні відрізнити фейк від правди.
Серед факторів посилення поширення фейкових новин було розглянуто такі, як
соціально-політичні розбіжності, що розхитують ситуацію в державі та можуть
спричинити конфлікти між групами населення, в яких однією із методів боротьби є
дезінформація, та психологічний фактор, через який реакція індивіда на
дезінформацію може варіювати.
Дезінформація - поширене явище не тільки в Україні, а і в усьому світі. Інші
країни застосовують всі можливі засоби для боротьби з розповсюдженням
неправдивої інформації, зокрема створення планів дій, розробка програм, висунення
законопроектів.
У кінці розділу були проаналізовані існуючі програмні рішення для боротьби з
дезінформацією, які застосовують різні методи. Серед них були представлені
розширення для браузерів, веб-платформи, онлайн-ігри, веб-інструменти та панелі і
інші платформи.

29
2. Обгрунтування засобів реалізації
Вимоги до ПЗ:
- Операційна система: Windows 7/8/9/10
- Мова програмування: Python
- ІСР: Jupyter Lab
- Інструменти: Anaconda
2.1. Обгрунтування мови програмування для реалізації
Python — це інтерпретована динамічна мова програмування високого рівня

загального призначення. Його структура дизайну зосереджена на зручності читання
коду разом із значущим використанням значних відступів. Порівняно з Java і C, мова
програмування Python вимагає менше кроків. Конструкція його мови та його
цільовий підхід до об’єкта допомагає програмістам писати логічні та чіткі коди для
малих та великомасштабних проектів.
Переваги Python
- Простий у використанні та вивченні:
Для початківців Python простий у використанні. Це мова програмування високого
рівня, а її синтаксис схожий на англійську мову. Ці причини роблять мову легкою
для вивчення та адаптації. Порівняно з Java і C, у Python те саме завдання можна
виконати за допомогою меншої кількості рядків коду. Завдяки легкому освоєнню
принципи Python можна виконувати швидше порівняно з іншими мовами.
- Підвищення продуктивності:
Python є дуже продуктивною мовою. Проста природа Python допомагає розробникам
зосередитися на вирішенні проблем у ньому. Щоб зрозуміти синтаксис і поведінку
мови програмування, користувачам не потрібно витрачати години, тому виконується
більше роботи.
- Гнучкість:
Ця мова є дуже гнучкою, і тому вона дозволяє користувачеві пробувати нові речі.
Користувачі можуть розробляти нові види програм, використовуючи мову
30
програмування Python. Мова не обмежує користувача спробувати щось інше. Інші
мови програмування не надають такої гнучкості та свободи, тому Python є кращим у
цих питаннях.
- Велика бібліотека:
Python надає користувачеві величезну бібліотеку. Стандартна бібліотека Python
величезна, і майже кожна функція, яку потрібно виконати, доступна в її бібліотеці.
Це тому, що він має величезну підтримку спільноти та корпоративного спонсорства.
Під час роботи з Python користувачі не використовують зовнішні бібліотеки.
- Спільнота підтримки:
Мова Python була створена багато років тому, і тому вона має зрілу спільноту, яка
може підтримувати будь-який тип розробника, починаючи від рівня початківців до
рівня експертів. Для мови програмування Python доступно достатньо посібників,
підручників та документації, які допомагають розробникам швидше та краще
зрозуміти мову. Завдяки спільноті підтримки Python швидко розвивається порівняно
з іншими мовами.
Недоліки Python
- Швидкість:
Порівняно з Java або C швидкість Python нижча. Python — це інтерпретована мова,
яка динамічно типізується. Для виконання коду кожен рядок коду має бути чітко
впорядкований, оскільки мова інтерпретується. Це займає багато часу, а отже,
уповільнює процес виконання. Динамічна структура Python також уповільнює його
швидкість, тому що під час виконання коду необхідно виконати зайву роботу. Тому у
тих випадках, коли потрібне швидке прискорення, Python використовується не дуже
часто.
- Споживання пам'яті:
Python має дуже високе споживання пам'яті. Це тому, що він гнучкий до типів даних.
Він використовує великий обсяг пам'яті. Python не є гарним вибором для завдань, де
користувач хоче оптимізувати пам’ять, тобто це мова, яка потребує інтенсивного
використання пам’яті.
- Доступ до бази даних:
31
Python забезпечує просте програмування. Однак, коли він взаємодіє з базою даних,
виникають деякі проблеми. У порівнянні з такими технологіями, як JDBC і ODBC,
які є досить відомими, рівень доступу до бази даних мови програмування Python є
примітивним і недостатньо розвиненим. Великі підприємства, яким зазвичай
потрібна плавна взаємодія зі складними застарілими даними, не віддають перевагу
використанню Python.
Оскільки мова Python динамічно типізована, тип даних змінної може бути змінений
у будь-який час. Тому його потрібно тестувати частіше, а також є помилки в мові,
яка відображається під час виконання.
- Простота:
Python є простою та легкою у використанні мовою програмування, що також є
недоліком мови. Користувачі Python настільки звикають до його легкого синтаксису
та великої бібліотеки, що стикаються з проблемами під час вивчення інших мов
програмування. Деякі користувачі також вважають, що коди Java непотрібні через їх
складність. Тому Python має дуже вразливий характер, і користувачі починають
сприймати все легковажно. Порівняння переваг та недоліків мови програмування
Python наведено в таблиці 2.1.
Таблиця порівняння переваг і недоліків Python

Таблиця 2.1
Переваги Недоліки
Його легко освоїти та Через елементарне програмування
використовувати, і він має велику користувачі стикаються з
бібліотеку. труднощами під час роботи з іншими
мовами програмування.
Python підвищує продуктивність. Python — це мова, яка потребує
багато часу. Має низьку швидкість
виконання.
Він дуже гнучкий. Є багато проблем із дизайном мови,
яка відображається лише під час
виконання.
Джерело [12]
32
2.2. Обгрунтування бібліотеки для NLP
Natural Language Toolkit (NLTK) [13] — одна з найповніших бібліотек NLP і

найвідомішу бібліотеку NLP Python. NLTK найбільш популярна в освіті та наукових
дослідженнях. Вона привела до багатьох проривів у аналізі тексту. Вона має багато
попередньо підготовлених моделей і корпусів, які допомагають нам дуже легко
аналізувати речі. Це чудова бібліотека, коли вам потрібна певна комбінація
алгоритмів.
Функціональні можливості NLTK - токенізація, POS, NER, класифікація, аналіз
настроїв, доступ до корпусів.
Переваги:
- найвідоміша та повна бібліотека NLP із багатьма 3-ми розширеннями
- підтримує найбільшу кількість мов порівняно з іншими бібліотеками
Недоліки:
- важко вивчити та використовувати
- повільна
- тільки розбиває текст на речення, без аналізу семантичної структури
- немає моделей нейронної мережі
NumPy (Numerical Python) [14] — це бібліотека Python з відкритим кодом, яка
використовується майже в усіх галузях науки та техніки. Це універсальний стандарт
для роботи з числовими даними в Python, і він лежить в основі наукових екосистем
Python і PyData. Серед користувачів NumPy — усі, від початківців програмістів до
досвідчених дослідників, які проводять найсучасніші наукові та промислові
дослідження та розробки. API NumPy широко використовується в Pandas, SciPy,
Matplotlib, scikit-learn, scikit-image та більшості інших наукових і наукових пакетів
Python.
Переваги:
- Споживає менше пам’яті.
- Швидка порівняно з List Python.
- Зручна у використанні.
33
NumPy — це корисна бібліотека з багатим функціоналом для роботи з масивами
числових даних. Крім того, реалізація пропонує пам’ять і ефективність виконання,
яка часто наближається до скомпільованого коду, а також служить форматом обміну
для багатьох існуючих бібліотек.
Pandas [15] — це інсталяція з відкритим кодом для мови програмування Python і
бібліотека Python, ліцензована на яку пропонуються високопродуктивні інструменти
аналізу даних і прості у використанні структури даних для мови програмування
Python.
Переваги:
- Відмінне представлення даних.
- Менше програмування, більше роботи.
- Ефективна обробка величезних даних.
- Широкий набір функцій.
- Створена для Python.
- Гнучкість даних і легке налаштування.
Недоліки:
- Складний синтаксис, який не завжди відповідає Python.
- Погана документація.
- Погана сумісність 3D матриці.
Seaborn [16] — це бібліотека, надана Python, яка в основному допомагає
візуалізувати дані та зробити їх більш зручними для користувача. За допомогою
бібліотеки ми можемо побудувати наші дані та зробити їх графічне представлення.
Всередині цієї бібліотеки використовується matplotlib. Це також робить ефективним
створення привабливих та більш інформативних графічних зображень наших даних.
Ця бібліотека інтегрована зі структурою даних panda.
Переваги:
- Гарна візуалізація даних.
- Легко переключатись між варіантами візуалізації даних.
- Можливість створення більш інтерактивних графіків.
Недоліки:
- Одразу не встановлений в Python.
34
Matplotlib [17] — це кросплатформна бібліотека візуалізації даних і графічного
побудови для Python і його числового розширення NumPy. Таким чином, він
пропонує життєздатну альтернативу MATLAB з відкритим кодом. Розробники також
можуть використовувати API matplotlib (інтерфейси прикладного програмування)
для вбудовування графіків у програми GUI.
Переваги:
- Забезпечує простий спосіб доступу до великих обсягів даних.
- Гнучка і підтримує різні форми представлення даних.
- Проста навігація.
- Забезпечує доступність, надаючи високоякісні зображення.
- Потужний інструмент із численними додатками.
- Корисно для створення розширених візуалізацій.
- Може працювати на різних платформах.
- Полегшує аналіз даних.
2.3. Налаштування інфраструктури проекту
Розробка програмного додатку відбувалася за допомогою середовища Anaсonda.

Anaconda [18] — це дистрибутив Python. Найважливішим компонентом Anaconda є
conda, менеджер пакетів Anaconda.
Conda є саме пакетним менеджером. По суті, це альтернатива pip, власному
менеджеру пакунків Python, який попередньо встановлений у більшості сучасних
версій Python*
Pip поставляється з попередньо встановленим Python 2.7.9+ і Python 3.4+.
Оскільки conda є лише альтернативою pip, є причини як для, так і проти
використання conda замість pip. З огляду на це, давайте подивимося на плюси та
мінуси conda.
Однією з переваг conda є те, що conda може керувати віртуальними
середовищами, тоді як pip не може. Це справді не так вже й важко, оскільки
інструмент venv, який також керує віртуальними середовищами, попередньо
35
встановлений у всіх сучасних версіях Python, а також є рекомендованим способом
керування віртуальними середовищами.
Починаючи з версії Python 3.5, документи офіційно рекомендують venv для
керування середовищами.
Єдина перевага conda полягає в тому, що ви можете встановлювати пакети та
керувати своїми середовищами в одному інструменті — conda, тоді як з pip вам
потрібно використовувати зовнішню утиліту, як-от venv, для керування вашими
середовищами.
Ще одна перевага Anaconda полягає в тому, що ви можете використовувати так
звану Anaconda Navigator, яка є програмою з графічним інтерфейсом користувача
для запуску популярних програм для програмування або завдань, пов’язаних із
наукою про дані, наприклад VSCode, Jupyter або RStudio. Ви також можете керувати
своїми середовищами conda в Anaconda Navigator.
Третя перевага Anaconda полягає в тому, що за умовчанням conda постачається
з великою кількістю попередньо встановлених пакетів машинного навчання. Conda
поставляється з NumPy, Matplotlib, Pandas, Scikit-Learn та багатьма іншими готовими
продуктами. Це означає, що вам не потрібно встановлювати ці пакунки вручну;
натомість ви можете просто встановити Anaconda і бути готовим до роботи над
своїм наступним проектом з обробки даних або машинного навчання. Якщо ви не
хочете мати всі ці додаткові утиліти та пакети, ви можете просто встановити
Miniconda, яка є мінімалістичною версією Anaconda, яка поставляється без Anaconda
Navigator і не попередньо встановлює таку кількість пакетів у вашу систему.
Також виділимо недоліки. По-перше, оскільки pip є менеджером пакунків за
замовчуванням для Python і більше людей використовують такі інструменти, як venv
або virtualenv через conda, ви, швидше за все, знайдете рішення для помилок, з
якими ви зіткнетеся, у StackOverflow, оскільки ширше коло людей використовує pip
over conda.
Останнім аспектом, який часто не помічають, є те, що pip є набагато міцнішим.
Це означає, що ви можете зіткнутися з помилками з conda, яких ви ніколи не
зустріли б з pip. Тепер більшу частину часу conda працюватиме нормально, але ви
36
можете просто опинитися в ситуації з дійсно неприємною проблемою та не
матимете приємного рішення. Отже, з точки зору надійності, pip є переможцем.
Jupyter — це спосіб інтерактивного запуску коду (зазвичай Python)
безпосередньо у браузері. Можна розділити код на кілька сегментів, додати уцінку та
відобразити цифри всередині коду. Це робиться за допомогою так званих
«блокнотів» (.ipynb-файлів), де зберігаються код+текст+малюнки+інше.
2.4. Опис вимог до програмного додатку
Збір вимог є однією з найважливіших частин будь-якого проекту та додає

цінність проекту на багатьох рівнях. Коли справа доходить до менших бюджетів,
стислих термінів і обмежених обсягів, точне документування всіх вимог проекту
стає вирішальним. Зібрати вимоги легше сказати, ніж зробити, як правило, це сфера,
якій приділяють набагато менше уваги, ніж потрібно. Багато проектів починаються з
основних списків вимог лише для того, щоб з’ясувати, що багато потреб клієнтів,
можливо, не були повністю зрозумілі та реалізовані. Статистика показує, що понад
70% невдалих проектів є результатом відсутності ефективного збору вимог.
Ось деякі аспекти, які слід враховувати, коли починається збір вимог:
- Таймлайн: це передбачає оцінку загальної тривалості та графіку проекту. Це
може допомогти вам ефективно спланувати його вимоги протягом усього
проекту, гарантуючи, що ви будете підготовлені протягом усього проекту.
- Люди: подумайте, кого ви хочете включити до проекту та якими можуть бути
їхні різні ролі. Спробуйте визначити їхні індивідуальні вимоги, а також те, як
вони можуть співпрацювати з усією командою.
- Цілі: раннє визначення основних цілей може допомогти вам визначити вимоги
до проекту та переконатися, що проект конкретно зосереджений на виконанні
цих цілей.
Першочергові функціональні вимоги для реалізації програмного застосунку:
1. Система має зчитувати дані та попередньо оброблювати.
2. Система має класифікувати дані згідно з алгоритмом.
3. Система має навчати модель використовуючи train set.
37
4. Система дає змогу користувачу аналізувати будь-який об’єм тексту на
наявність дезінформації англійською мовою.
5. Система видає результат аналізу новини "It's a True News" або "It's a Fake
News" у разі виявлення дезінформації.
User Story “Перевірка тексту на наявність дезінформації” - описує процес
перевірки тексту новини на правдивість. (рис. 1)
1. Користувач знаходить новину, яку треба перевірити.
2. Користувач виділяє уривок або всю новину, яку треба перевірити.
3. Користувач відкриває програмний додаток.
4. Користувач активує поле вводу тексту.
5. Користувач вставляє текст для аналізу.
6. Користувач нажимає кнопку “Почати” і отримує результат.
Програмний додаток для визначення

наявності дезінформації у новині
Автоматично
скопіювати
виділений
текст на
Проаналізу<<include>>
сторінці
вати
новину на
наявність
дезінформа
ції <<include>> Вставити
текст у Поле
Користувач вводу вручну
Рис. 2.1 - User story “Перевірка тексту на наявність дезінформації”
Першочергові нефункціональні вимоги для реалізації програмного застосунку:

1. Текст новини має бути первинно оброблений.
2. Текст новини має бути векторизований.
3. Точність класифікації новин як фейкових або ні повинна складати не менше,
ніж 80%.
38
4. Запит повинен опрацьовуватись максимально 10 секунд.
Діаграма діяльності — це, в основному, блок-схема, яка відображає потік від
однієї діяльності до іншої. Діяльність можна описати як роботу системи.
Потік керування переходить від однієї операції до іншої. Цей потік може бути
послідовним, розгалуженим або одночасним. Діаграми діяльності стосуються всіх
типів керування потоком за допомогою різних елементів, таких як fork, join тощо.
Скопійований Так
Вставити текст
текст
Ні Первинна
обробка тексту
Вибір
Ініціація
новини
нейронної
мережі
Одержання
результату з
нейромережі
Оцінка
точності моделі
Класифікація
тверджень
Візуалізація
результату
Рис. 2.2 Діаграма діяльності модулю визначення наявності дезінформації

Результатом діяльності модулю визначення наявності дезінформації є
класифіковані твердження та оцінка точності моделі.
Источники на этой странице: 35, 37, 39

39
2.5. Методи обробки тексту та алгоритм класифікації дезінформації
Грунтуючись на дослідженні про підхід виявлення аномалій в потоках

текстових даних [19] первинна обробка тексту застосовується для збільшення
коректності обчислення схожості новин. Етапами обробки тексту є:
- приведення тексту до нижнього регістру;
- stemming;
- лематизація;
- видалення stop-слів;
- нормалізація.
Ознайомимось з кожним із етапів попередньої обробки тексту детальніше.
Приведення слів тексту до нижнього регістру - одна із простих і ефективних
форм попередньої обробки тексту. Даний метод є ефективним для більшості задач,
пов’язаних з обробкою тексту та проблемами NLP та може допомогти в тих
ситуаціях, коли вибірка даних не дуже велика і виправдовує очікуваний результат.
Stemming [20] - це процес приведення слів (наприклад, демократією) до їх
кореневої форми (наприклад, демократ). Власне “корінь” в даному випадку може
виступати не звичайним кореневим словом, а лиш канонічною формою його
початкового слова.
Трапляється так, що алгоритми лематизації можуть мати стохастичні
властивості, наприклад, частина мови визначається без врахування контексту, у
якому слова були вжиті у реченні. Враховуючи цей факт, перевага надається
найбільш вірогідній частині мови для цих слів, і, як результат, - імовірність помилок
використовуючи stemming збільшується.
Лематизація, як і stemming, має на меті приведення слова до кореневої форми,
але існує різниця, яка заключається в тому, що лематизація намагається більш
коректно це зробити - замість звичайного відсікання закінчення, вона перетворює
слово у його фактичний корінь.
Видалення stop-слів. Цей етап заключається в тому, щоб видалити всі слова,
які не несуть і не мають змістовного характеру. До таких слів можна віднести:
- Сполучники (і, але, коли, що, ніби, для того щоб, тому що).
40
- Займенники (я, ти, ми, він, вона, воно, вони, що, який, все, те, вам, весь).
- Прийменники (з, в, під, з-під, для, до, без, по, на).
- Частки (не, б, ж, ні, все, так).
- Вигуки (ого, алло, ой).
- Цифри і числівники (3, 4, 5, три, чотири, п’ять, шостий, десятий тощо).
- Розділові знаки та спеціальні символи (., - _ = + /!;:%? *).
- Вступні та вставні слова (на мою думку, я вважаю, на жаль, на щастя).
- Одиночні літери (а, б, в).
- Деякі прислівники (якийсь, раніше, далі, якось).
- Слова-підсилювачі (мінімально, сильно, дуже, найбільш).
- Деякі іменники, дієслова, прислівники.
При процесі нормалізації ми прибираємо з текстів граматичну інформацію,
наприклад, відмінки іменників, часи дієслів, рід, дієприкметники тощо.
Алгоритм класифікації дезінформації
Щоб класифікувати дезінформацію в потоці текстових даних, ми застосовуємо

аналіз тональності попередньо обробленого тексту (Sentiment analysis), першим
етапом якого є класифікація текстів за сентиментом [21]. Мета алгоритму -
визначити до якого класу належить досліджуваний текст: позитивний чи негативний.
Отримавши клас тексту, ми відкидаємо ту частину текстів, які не несуть негативні
елементи, і робимо висновок, що вони не поширюють дезінформацію. Після
первинної обробки маємо побудувати набір ознак, який основується на моделі Bag-
of-words та метрики TF-IDF. Bag-of-words [22] - представлення слів по відношенню
до їх частоти у тексті. Bag-of-words має схожість з JSON, що має список слів як
ключі та частота слів як значення. У тексті, який несе дезінформацію, домінують
одиничні слова та n-грами (з семантичної точки зору це послідовність складів,
звуків, букв або слів), тому завдяки такому підходу можна перевірити чи
використовуються такі слова у тексті та зробити висновок - матеріал містить фейк
або ні.
41
На відміну від простого bag-of-words, який працює з поширеними словами та
встановлює їх частоту, за допомогою TF-IDF можна подолати таку неефективність
шляхом зниження частоти слів, які багато вживаються в досліджуваному матеріалі.
Таким чином забезпечується краще подання частоти трансформованих слів у
документах. Підхід bag-of-words є обмеженим, бо не враховує будь-яку інформацію
про контекст, у якому ті слова були вживані.
TF-IDF [23] (TF - term frequency, IDF - inverse document frequency) -
статистичний показник, який дає оцінку важливості словам враховуючи контекст
документу. Даний показник може бути використаний у вирішенні задач з аналізу
тексту та при інформаційному пошуку.
TF (term frequency - частота слова) - показник, який використовується для
вимірювання скільки разів термін присутній у документі та розраховується
відношенням кількості вживання цього слова до загальної кількості слів у документі,
оцінюючи наскільки важливе слово в рамках досліджуваного документу ��.
ni
TF= ❑
, (2.1)
∑ ❑n k
k
де ni - кількість вживань слова, для якого розраховується показник частоти,

❑
∑ ❑n - загальна кількість слів у документі.

k
k
IDF (inverse document frequency - обернена частота документа) - показник,

який призначає меншу питому вагу часто вживаним словам та збільшує для менш
вживаних у документі.
|D|❑
IDF=log
|( i ∋ ti )| ,
d
(2.2)
де |D| - кількість документів в наборі,

|( d i ∋t i )| - кількість документів, в яких є слово ti , при ni ≠ 0.
Основа логарифму може бути будь-якою тому, що при зміні основи змінюється
вага кожного слова на постійний множник, а саме співвідношення ваги залишається
незмінним. Показник TF-IDF є простим добутком показників TF та IDF.
TF − IDF= TF × IDF (2.3)
42
TF-IDF визначає значимість кожного слова у тексті при визначенні
характерних елементів використання дезінформації у потоках текстових даних.
Однак, необхідно дізнатись чи наявна дезінформація в тексті. Даний алгоритм,
використовуючи статистичні показники, які є результатом розрахунку TF-IDF, може
спрогнозувати чи відповідає певне слово правдивій або неправдивій новині.
Після того, як ми отримали набір ознак, ми класифікуємо текст за
сентиментом. Найбільш поширеним алгоритмом, який виконує дану класифікацію,
виступає gradient boosting [24] - це система прискорення машинного навчання, що
представляє собою дерево рішень для великих і складних даних. Він ґрунтується на
припущенні, що наступна можлива модель мінімізує грубу помилку передбачення,
якщо з'єднати її з попереднім набором моделей. Дерева рішень використовуються
для найкращих прогнозів. На рис. 2.3 можна побачити загальний алгоритм
класифікації.
Приведення слів до
нижнього регістру
Stemming
Збір новин Лематизація
Видалення stop-слів
Нормалізація
Первинна
обробка
тексту
новин
Bag-of-
TF-IDF
words
Gradient
boosting
Визначення класу
тексту
Фактчекінг
Результат: вихідний
клас новин
Рис. 2.3 - Процес класифікації тексту для визначення дезінформації
43
Наївні методи Байєса [25] — це набір контрольованих алгоритмів навчання,
заснованих на застосуванні теореми Байєса з «наївним» припущенням про умовну
незалежність між кожною парою ознак, заданою значенням змінної класу.
GaussianNB реалізує алгоритм Gaussian Naive Bayes для класифікації.
Вірогідність ознак вважається Гаусовою:
x i∨ y
2
1 −( xi −μ y )
¿= exp( ), (2.4)
√ 2σ y
2
π σ
2
2 y
¿
P¿
де x i - залежний вектор ознаки;
y - змінна класу;
μy і σ❑y - оцінюються з використанням максимальної ймовірності.
MultinomialNB реалізує наївний алгоритм Байєса для мультиноміально
розподілених даних і є одним із двох класичних наївних варіантів Байєса, які
використовуються в класифікації тексту (де дані зазвичай представлені як кількість
векторів слів, хоча також відомо, що вектори tf-idf добре працюють на практиці).
Розподіл параметризовано векторами θ y =(θ y 1 , ......, θ yn ) для кожного класу y , де
n кількість ознак (у класифікації тексту — розмір словникового запасу) і θ yi —
x
ймовірність появи ознаки у вибірці P(¿¿ i∨ y ) , що належить до класу y .
¿
Параметри θ y оцінюються за згладженою версією максимальної
правдоподібності, тобто підрахунком відносної частоти:
N +α
^
θ yi = yi (2.5)
N y + αn
BernoulliNB реалізує наївні алгоритми навчання та класифікації Байєса для

даних, які розподіляються відповідно до багатовимірних розподілів Бернуллі; тобто
може бути кілька ознак, але кожна з них вважається двійковою (Бернуллі, булевою)
змінною. Таким чином, цей клас вимагає, щоб зразки були представлені як двійкові
вектори ознак; якщо отримати будь-який інший тип даних, примірник BernoulliNB
може двійковувати свій вхід (залежно від параметра двійкового).
Вирішальне правило для Бернуллі наївного Байєса базується на:;
44
x i∨ y
¿=P (xi =1∨ y )x i +(1−P(x i=1∨ y ))( 1−x i) (2.6)
¿
P¿
яке відрізняється від правила мультиноміального NB тим, що воно явно карає
за відсутність ознаки, яка є індикатором для класу, де мультиноміальний варіант
просто ігнорував би невиникаючу функцію.
У випадку класифікації тексту для навчання та використання цього
класифікатора можна використовувати вектори входження слів (а не вектори
підрахунку слів). BernoulliNB може працювати краще з деякими наборами даних,
особливо з коротшими документами. Бажано оцінити обидві моделі, якщо дозволяє
час.
Набір даних, який був використаний для навчання нейронної мережі, було
завантажено з платформи Kaggle. Kaggle - платформа для змагань з аналітики та
передбачувального моделювання, в рамках якого статистики та добувачі даних
конкурують у створенні найкращих моделі для прогнозування та опису даних,
запропонованих компаніями або користувачами. Цей краудсорсинговий підхід
ґрунтується на тому, що є безліч стратегій, які можуть бути застосовані до будь-якого
завдання з передбачувального моделювання, і наперед не відомо, яка методика або
аналітичний підхід буде найбільш ефективним.
Отримані дані у форматі csv, найпоширеніший формат імпорту та експорту
електронних таблиць і баз даних.
Набір даних містить такі поля - ідентифікатор, заголовок новини, автор
новини, текст новини та присвоєно значення “1”, якщо новина містить
дезінформацію, “0” якщо новина правдива.

45
Рис.2.4. - Вхідний набір даних для класифікації тверджень

У результаті ми одержали набір даних, який може бути використаний для
бінарної класифікації тверджень.
46
У даному розділі було обґрунтовано засоби, за допомогою яких була здійснена

реалізація програмного додатку для визначення дезінформації в медіа.
Для вибору мови програмування було проведено дослідження та виявлено переваги
та недоліки мови Python, яке показало, що саме Python - найкращий варіант, який
максимально задовольняє вимоги до розробки програмного забезпечення.
Проаналізувавши можливості бібліотек на основі офіційної документації
та відгуки від розробників та користувачів, була обрана низка бібліотек
бібліотека таких, як NumPy, NLTK, Matplotlib, Seaborn, Pandas, так як з ними
легко працювати, також вони мають широкий спектр можливостей, які необхідні
для реалізації програмного додатку.
Середовище Anaconda використано для розробки через зручність
встановлення середовища та зрозумілість інтерфейсу, що для нас було в
пріоритеті при виборі.
Також був проведений аналіз вимог та зроблена постановка задачі на
реалізацію системи.
Були зрівняні існуючі методи обробки тексту, такі як приведення тексту до
нижнього регістру, stemming, лематизація, видалення stop-слів, нормалізація та
розглянутий алгоритм класифікації дезінформації.

47
3. Реалізація системи визначення дезінформації у медіа
3.1. Налаштування середовища реалізації проекту
У середовищі Python 3 встановлено багато корисних аналітичних бібліотек.

Numpy встановлено для розрахунків пов’язаних з лінійною алгеброю. Pandas
відповідає за обробку даних, введення/виведення файлу CSV. Seaborn - бібліотека
для створення статистичних графіків. Matplolib.pyplot встановлено для візуалізації
даних двовимірною графікою. Для керування попередженнями імпортували
warnings:
Файли вхідних даних доступні лише для читання в каталозі

"E:\diploma\input/":
Використовуємо функцію «filterwarnings()», щоб ігнорувати всі попередження,

встановивши «ignore» як параметр:
Завантажуємо набір даних з файлу у форматі csv:
48
Рис. 3.1 - Приклад даних для навчання

Ми будемо використовувати лише стовпці заголовка та автора для нашого
прогнозу:
Рис. 3.2 - Систематизовані дані для навчання

3.2. Попередня обробка даних
Очищуємо дані та для початку перевіряємо на наявність нульових значень:
49
Немає заголовку у 558 випадках, немає інформації про автора новини у 1957.
Відкидаємо нульові значення:
Перевіряємо на наявність продубльованих значень:
Кількість продубльованих значень - 164, які необхідно видалити:
Об’єднуємо дві колонки, який містять інформацію про заголовок новини та

автора, і створюємо нову колонку “Контент”:
50
Рисунок 3.3 - Таблиця результатів з новим стовпцем “Контент”
Попередня обробка даних складається з таких кроків:

1. Приведення до малого регістру;
2. Токенізація;
3. Видалення stop-слів;
4. Видалення розділових знаків;
5. Stemming.
Імпортувати необхідні бібліотеки для попередньої обробки. NLTK
встановлюємо для символьної та статистичної обробки для англійської мови. String
імпортуємо для загальних операцій з рядками. Stopwords імпортуємо з NLTK для
видалення stop-слів. PorterStemmer імпортуємо з NLTK для процесу створення
морфологічних варіантів кореня/основи слова:
51
Функція перетворення всього тексту:
Приводимо текст до нижнього регістру:
Розбираємо на лексеми текст за допомогою токенізації:
Видаляємо stop-слова:
Видаляємо пунктуацію:
Отримуємо лише буквено-цифрові значення та застосувати стеммінг до цих

слів:
52
Застосуємо цю функцію перетворення до нашого створеного стовпця
“Контент”:
Видаляємо назву автора та старий стовпець “Контент”:
Рисунок 3.4 - Таблиця результатів з попередньо обробленими текстами

Тепер створимо нові стовпці, наприклад, кількість символів, кількість слів:
53
Рисунок 3.4 - Таблиця результатів з попередньо обробленими текстами та

інформацією про кількість слів та знаків
Проаналізуємо дані та почнемо з підрахунку кількості правдивих новин, яким

присвоєно значення “0”, і новин, які містять дезінформацію, зі значенням “1”:
Дивлячись на результати зображені на рисунку 3.5, можна зробити висновок,

що наші дані збалансовані.
Рис. 3.5 - Діаграма з кількістю фейкових на правдивих новин з набору даних

Статистична інформація для правдивих новин:
54
Рис. 3.6 - Статистична інформація для правдивих новин

Статистична інформація для фейкових новин:
Рис. 3.7 - Статистична інформація для фейкових новин

Створюємо гістограму для слів притаманних для фейкових і правдивих новин:
55
Рис. 3.7 - Кількість слів притаманних для фейкових і правдивих новин

Створюємо Wordcloud правдивих і фейкових новин відповідно і аналізуємо,
які слова часто вживаються в обох типах новин. Для цього спочатку встановлюємо
Wordcloud:
!pip install wordcloud

Requirement already satisfied: wordcloud in
e:\diploma\envs\fakenews\lib\site-packages (1.8.2.2)
Requirement already satisfied: numpy>=1.6.1 in
e:\diploma\envs\fakenews\lib\site-packages (from wordcloud) (1.21.5)
Requirement already satisfied: pillow in e:\diploma\envs\fakenews\lib\site-

packages (from wordcloud) (9.2.0)
Requirement already satisfied: matplotlib in
e:\diploma\envs\fakenews\lib\site-packages (from wordcloud) (3.6.2)
Requirement already satisfied: kiwisolver>=1.0.1 in
e:\diploma\envs\fakenews\lib\site-packages (from matplotlib->wordcloud) (1.4.2)
Requirement already satisfied: packaging>=20.0 in
e:\diploma\envs\fakenews\lib\site-packages (from matplotlib->wordcloud) (21.3)
Requirement already satisfied: python-dateutil>=2.7 in

56
Requirement already satisfied: pyparsing>=2.2.1 in

Requirement already satisfied: cycler>=0.10 in
e:\diploma\envs\fakenews\lib\site-packages (from matplotlib->wordcloud)

(0.11.0)
Requirement already satisfied: contourpy>=1.0.1 in
Requirement already satisfied: fonttools>=4.22.0 in
e:\diploma\envs\fakenews\lib\site-packages (from matplotlib->wordcloud)
(4.25.0)
Requirement already satisfied: six>=1.5 in
e:\diploma\envs\fakenews\lib\site-packages (from python-dateutil>=2.7-

>matplotlib->wordcloud) (1.16.0)
Імпортуємо WordCloud:
Створюємо об’єкт WordCloud:
Створюємо WordCloud для правдивих новин:

57
Рис. 3.8 - WordCloud для правдивих новин

Створюємо WordCloud для новин, які містять дезінформацію:
58
Рис. 3.9 - WordCloud для фейкових новин

З рисунків 3.8 і 3.9 ми можемо чітко побачити, які слова найчастіше
використовуються в правдивих і фейкових новинах.
Тепер підрахуємо кількість певних слів. Для цього імпортуємо Counter,
підклас dict для підрахунку хешованих об’єктів, з Сollections, яка реалізує
спеціалізовані контейнерні типи даних, що є альтернативою вбудованим
контейнерам загального призначення:
Створюємо список слів для правдивих новин:
Створюємо DataFrame для списку слів для правдивих новин:
59
Тепер побудуємо стовпчасту діаграму для 20 найбільш вживаних слів у
правдивих новинах:
Рис. 3.10 - 20 найбільш вживаних слів у правдивих новинах

Створюємо список слів для фейкових новин:
Створюємо DataFrame для списку слів для фейкових новин:
60
Тепер побудуємо стовпчасту діаграму для 20 найбільш вживаних слів у
новинах, які містять дезінформацію:
Рис. 3.11 - 20 найбільш вживаних слів у фейкових новинах

У машинному навчанні розділення даних зазвичай виконується, щоб уникнути
перенавчання. Це випадок, коли модель машинного навчання надто добре відповідає
навчальним даним і не може надійно підібрати додаткові дані. Вихідні дані в моделі
машинного навчання зазвичай розбиваються на три або чотири набори:
Функція train_test_split Sklearn допомагає нам створювати наші навчальні та

тестові дані. Це пов’язано з тим, що зазвичай навчальні та тестові дані надходять із
61
одного вихідного набору даних. Щоб отримати дані для побудови моделі, ми
починаємо з одного набору даних, а потім розділяємо його на два набори даних:
навчальний і тестовий:
Тепер зробимо векторизацію попередньо обробленого тексту новин за

допомогою техніки bag-of-words. CountVectorizer виконує завдання токенізації та
підрахунку, тоді як TfidfTransformer нормалізує дані. TfidfVectorizer, з іншого боку,
виконує всі три операції, тим самим спрощуючи процес обробки природної мови:
Створюємо об'єкт CountVectorizer:
Перетворюємо X_train і Y_train на вектори:
Імпортуємо необхідні моделі:

Support Vector Classifier, метою лінійного класифікатора опорних векторів є
підгонка до даних, які ми надали, повертаючи гіперплощину «найкращого підходу»,
яка ділить або класифікує наші дані. Звідти, після отримання гіперплощини, ми
62
можемо передати деякі функції своєму класифікатору, щоб побачити, який
«передбачений» клас.
LogisticRegression – це алгоритм класифікації машинного навчання, який
використовується для прогнозування ймовірності категоріальної залежної змінної. У
логістичній регресії залежна змінна є двійковою змінною, яка містить дані,
закодовані як 1 (так, успіх тощо) або 0 (ні, невдача тощо).
MultinomialNB - багатономіальний наївний класифікатор Байєса підходить для
класифікації з дискретними ознаками (наприклад, кількість слів для класифікації
тексту). Мультиноміальний розподіл зазвичай потребує цілочисельної кількості
ознак. Однак на практиці дробові підрахунки, такі як tf-idf, також можуть
працювати.
Класифікатор Gaussian Naive Bayes передбачає, що дані з кожної мітки взяті з
простого розподілу Гауса.
BernoulliNB приймає функції лише як двійкові значення, як-от істина чи
хибність, так чи ні, успіх чи невдача, 0 чи 1 тощо.
GridSearchCV — це функція, яка допомагає циклічно переглядати попередньо
визначені гіперпараметри та адаптувати модель до навчального набору.
ShuffleSplit буде випадковим чином відбирати весь набір даних під час кожної
ітерації, щоб створити набір для навчання та набір для тестування. Параметри
test_size і train_size контролюють, наскільки великий тестовий і навчальний тестовий
набір має бути для кожної ітерації.
Сross_val_score неодноразово розбиває дані на набір для навчання та

тестування, навчає оцінювача за допомогою набору для навчання та обчислює
оцінки на основі набору для тестування для кожної ітерації перехресної перевірки.
RandomForestClassifier - це метаоцінювач, який підходить для ряду
класифікаторів дерева рішень на різні підвибірки набору даних і використовує
усереднення для підвищення точності прогнозування та контролю за перепідгонкою.
63
Сonfusion_matriх є такою, що C i, j дорівнює кількості спостережень, які, як
відомо, є в групі та передбачувано будуть у групі. Таким чином, у двійковій

класифікації кількість справжніх негативних результатів дорівнює C 0, 0, хибних
негативних результатів — C 1, 0, справжніх позитивних результатів — C 1, 1, а
хибних позитивних — C 0, 1.
Аccuracy_score - оцінка класифікації точності. У класифікації з кількома
мітками ця функція обчислює точність підмножини: набір міток, передбачений для
зразка, має точно відповідати відповідному набору міток у y_true.
Precision_score - це співвідношення tp / (tp + fp), де tp — кількість справжніх
спрацьовувань, а fp — кількість хибних спрацьовувань. Точність – це інтуїтивно
зрозуміла здатність класифікатора не позначати як позитивний зразок, який є
негативним. Найкраще значення – 1, а найгірше – 0.
Функція пошуку найкращої моделі та параметрів цієї моделі:
64
Оцінка моделі та її найкращі параметри:
65
Рис. 3.12 - Результати оцінки моделі
66
Логістична регресія дає нам найкращий результат з усіх моделей (табл. 3.1).
Оцінка моделі за різними класифікаторами

Таблиця 3.1
Класифікатори Score Train_data Test_data
accuracy_score 0.999862 0.991172

LogisticRegressio
n precision_score 1.000000 0.989075

MultinomialNB
precision_score 0.994148 0.987663

BernoulliNB

GaussianNB
Отже, ми збираємося використовувати тут логістичну регресію. Будуємо

фінальну модель:
67
3.3. Приклад реалізації

Для перевірки працеспроможності програмного додатку для визначення
дезінформації в медіа оберемо новини з різних джерел та власне перевіримо їх на
правдивість.
Першу новину беремо з авторитетного новинного сайту CNN.com (рис. 3.13),
копіюємо її текст, вставляємо в predict_news та отримуємо “It's a True News”, що
свідчить про те, що новина є правдивою.
68
Рис. 3.13 - Приклад правдивої новини з авторитетного сайту новин CNN.com
Рис. 3.14 - Перевірка новини на правдивість
Другу новину візьмемо з телеграм-каналу “Владимир Рогов”, який є

сумнівним джерелом (рис. 3.15), та спочатку перекладемо на англійську мову,
оскільки наша модель направлена на оцінку новин тільки цією мовою.
69
Рис. 3.15 - Приклад фейкової новини з телеграм-каналу “Владимир Рогов”

Отримуємо “It's a Fake News”, що свідчить про те, що новина є дезінформативною
(рис. 3.16).
70
Рис. 3.16 - Перевірка новини на правдивість

Для підтвердження того, що дана новина містить дезінформацію можна
звернутись до stopfake.org - освітньої платформи, заснованої Могилянською школою
журналістики. Мета даної платформи - запровадити в Україні високі стандарти
журналістської освіти, підвищити рівень медіаграмотності, інформувати про
небезпеку пропаганди та поширення неправдивої інформації (фейків) у медіа (рис.
3.17).
71
Рис. 3.17 - Підтвердження наявності дезінформації у новині на сайті
stopfake.org
В останньому розділі ми перейшли до самої реалізації програмного додатку

для визначення дезінформації в медіа.
По-перше, ми встановили середовище для розробки програмного продукту та
описали важливість кожного компонента. Надалі працювали з набором даних, які
вміщував інформацію стосовно новин, та систематизували дані для навчання
нейромережі.
По-друге, ми займались попередньою обробкою текстів новин, яка складається
з декількох етапів. Після обробки тексту ми визначили які слова притаманні
фейковим новинам, а які правдивим, вивели отримані дані на графіки на хмари слів.
Потім побудували власне модель та провели оцінку її точності. Найкращий результат
показала лінійна регресія.
По-третє, навели приклад роботи програмного додатку, обравши дві новини -
правдиву і фейкову. Після перевірки на правдивість чи наявність дезінформації наша
модель показала коректний результат.
72
Висновки
Через стрімкий розвиток мережі Інтернет та великий потік інформації

дезінформація в медіа розповсюджується з великою швидкістю. Вона має
негативний вплив на окремих користувачів та суспільство в цілому. Виявлення
фейкових новин, у даний час, є актуальною проблемою, яка на даний момент не має
конкретного алгоритму розв‘язання.
Даний програмний додаток був розроблений у рамках кваліфікаційної роботи.
На початку роботи було визначено мету та сформовано основні задачі, котрі
необхідно було вирішити. Було проведено аналіз предметної області та огляд
основних методів, що використовуються при обробці текстів.
У якості методу реалізації задачі було обрано метод нейромережевої
класифікації. Сформовано набір даних для класифікації.
Побудовано згорткову нейронну мережу, проведено обчислювальні
експерименти з вибору її параметрів.
Під час виконання роботи було проведено моделювання роботи програмного
додатку, за допомогою діаграми діяльності.
Результатом роботи є програмний додаток визначення дезінформації в медіа.
Даний додаток протестовано на прикладі новин, взятих з різних джерел. Він
допомагає визначити чи містить новина написана, або перекладена англійською
мовою дезінформацію.

73
Список використаних джерел
1. Giandomenico Di Domenico, Jason Sit, Alessio Ishizaka, Daniel Nunan, Fake

news, social media and marketing: A systematic review, Journal of Business
Research, Volume 124, 2021, Pages 329-341, ISSN 0148-2963,
https://doi.org/10.1016/j.jbusres.2020.11.037 .
(https://www.sciencedirect.com/science/article/pii/S0148296320307852)
2. Дослідження Global Logic, 2022. Електронний
ресурс:https://www.globallogic.com/ua/about/news/social-networks-and-
opportunitites/
3. Електронний ресурс: https://socialblade.com/youtube/top/country/ua
4. Дезінформація в соціальних мережах і запобігання політичній нестабільності
та масовим злочинам, Крістіна Хук • Ернесто Вердеха, Human Rights & IHL,
July 7, 2022
5. Електронний ресурс: https://razumkov.org.ua/sotsiologiia/pres-relizy
6. Aktionsplan gegen Desinformation, Brüssel, den 5.12.2018. URL:
https://www.eeas.europa.eu/sites/default/files/aktionsplan_gegen_desinformation.pd
f
7. Електронний ресурс:
https://www.slovoidilo.ua/2020/01/28/infografika/suspilstvo/zakonoproekt-pro-
dezinformacziyu-peredbachena-kryminalna-ta-administratyvna-vidpovidalnist
8. Закон України “Про внесення змін до Кримінального кодексу України щодо
забезпечення протидії несанкціонованому поширенню інформації”. URL:
http://www.golos.com.ua/documents/z-2160-ix.pdf
9. The University of Texas at Austin “ Reading Metadata To Combat Disinformation
And Fake News Campaigns”, Jan. 22, 2019. URL:
https://www.ischool.utexas.edu/news/reading-metadata-combat-disinformation-and-
fake-news-campaigns
10.Torabi Asr, F., & Taboada, M. (2019). Big Data and quality data for fake news and
misinformation detection. Big Data & Society, 6(1).
https://doi.org/10.1177/2053951719843310
Источники на этой странице: 5, 43, 46, 51, 55-56

74
11. Електронний ресурс: https://www.kaggle.com/code/utsavtalwar/fake-news-
detection-99-48-accuracy/notebook
12.Керівництво з роботи Python. URL: https://docs.python.org/3/tutorial/index.html
13.Керівництво з роботи NLTK. URL: https://www.nltk.org/
14.Керівництво з роботи NumPy. URL: https://numpy.org/doc/stable/v
15. Керівництво з роботи Pandas. URL:
https://pandas.pydata.org/docs/getting_started/index.html
16.Керівництво з роботи Seaborn. URL:
https://seaborn.pydata.org/tutorial/introduction
17.Керівництво з роботи Matplotlip. URL:
https://matplotlib.org/stable/tutorials/index.html
18. Електронний ресурс: https://www.anaconda.com/products/distribution
19.Ю.О. Олійник, О.Є. Афанасьєва, Г.Д. Аршакян “ПІДХІД ДО ВИЯВЛЕННЯ
АНОМАЛІЙ В ПОТОКАХ ТЕКСТОВИХ ДАНИХ” «Системнітехнології» 2
(127) 2020 «System technologies»ISSN 1562-9945 ISSN 2707-7977 DOI
10.34185/1562-9945-2-127-2020-10 УДК 004.8. URL:
https://app.amanote.com/v4.0.26/research/note-taking?
resourceId=35_33XMBKQvf0Bhi0hcB
20.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to
Information Retrieval, Cambridge University Press. 2008. URL:
https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-
1.html
21.https://ela.kpi.ua/bitstream/123456789/23912/1/Shypik_magistr.pdf
22. Yin Zhang, Rong Jin, Zhi-Hua Zhou “Understanding Bag-of-Words Model: A
Statistical Framework”. URL:
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/ijmlc10.pdf
23.Shahzad Qaiser, Ramsha Ali “Text Mining: Use of TF-IDF to Examine the
Relevance of Words to Documents “ International Journal of Computer Applications
(0975 – 8887) Volume 181 – No.1, July 2018. URL:
https://www.ijcaonline.org/archives/volume181/number1/qaiser-2018-ijca-
917395.pdf
Источники на этой странице: 27, 33, 36, 47

75
24.Wallstreetmojo Team, Dheeraj Vaidya, CFA, FRM “Gradient Boosting”. URL:
https://www.wallstreetmojo.com/gradient-boosting/
25.Scikit-learn. Machine Learning in Python. URL: https://scikit-
learn.org/stable/modules/naive_bayes.html
Совпадения Совпадения Цитаты Ссылки

T текст A Подмена символов Комментарии

Совпадения
Источники из Интернета 141
12 https://uk.wikipedia.org/wiki/Kaggle 0.61%
13 https://ua-referat.com/uploaded/startup-marketing/index1.html 0.54%
19 http://ir.stu.cn.ua/bitstream/handle/123456789/23452/1.pdf?sequence=1 0.36%
20 https://kpi.stu.cn.ua/wp-content/uploads/2020/12/vb6.1_admbd-1.pdf 0.33%
25 http://ir.stu.cn.ua/bitstream/handle/123456789/21471/%D0%B9%D0%BE%D0%B2%D0%B5%D0%BD%D0%BA%D0%BE-%D1%… 0.2%
28 https://mf.khadi.kharkov.ua/fileadmin/F-MECHANIC/%D0%9A%D0%BE%D0%BC%D0%BF_%D1%8E%D1%82%D0%B5%D1%80%…
2 источника 0.17%
32 https://stu.cn.ua/vstup-do-universytetu/speczialnosti-i-osvitni-programy/osvitnij-stupin-bakalavr 2 источника 0.16%
33 http://library.nuft.edu.ua/inform/konf2.pdf 5 источников 0.16%
35 https://dou.ua/forums/topic/40575 0.14%
36 https://stackoverflow.com/questions/24647400/what-is-the-best-stemming-method-in-python 3 источника 0.13%
37 https://openarchive.nure.ua/bitstream/document/17735/1/2021_M_ST_Murenchenko_PE.pdf 0.12%
40 http://ir.stu.cn.ua/bitstream/handle/123456789/19616/%D0%9B%D1%83%D0%BA_%D1%8F%D0%BD%D1%87%D0%B5%D0%…
30 источников 0.12%
41 http://www.zhu.edu.ua/journal_cpu/index.php/der_sc/issue/download/31/4 19 источников 0.11%
43 https://da.naiau.kiev.ua/assets/files/onp/081/22.pdf 30 источников 0.1%
44 http://lib.kart.edu.ua/bitstream/123456789/5857/1/dis_Bobrytskiy.pdf 0.1%
45 https://qiita.com/plumfield56/items/ac4c0b289b5fe36e3b37 0.1%
46 https://www.problecon.com/export_pdf/problems-of-economy-2022-3_0-pages-52_61.pdf 0.09%
47 https://github.com/harshraj2hr/Anomaly-Detection 0.09%
50 http://erpub.chnpu.edu.ua:8080/jspui/bitstream/123456789/7181/1/%D0%9F%D0%B5%D0%B4%D0%B0%D0%B3%D0%BE%D… 0.09%
52 https://www.institut-zerna.com/library/repozitariy/docs/kochmarovskiy/kochmarovskiy-dis.pdf 23 источника 0.08%
53 http://ku-khsac.in.ua/article/download/136523/133551 2 источника 0.08%
54 https://archer.chnu.edu.ua/bitstream/handle/123456789/4224/econ_2022_124.pdf?isAllowed=y&sequence=1 7 источников 0.08%
55 https://nubip.edu.ua/sites/default/files/u145/aref_zibceva.pdf 0.08%
56 https://otherreferats.allbest.ru/law/01356897_0.html 0.08%
57 https://repub.eur.nl/pub/9453/060621_Hagemans_Marloes_proefschrift.pdf 0.08%
58 https://ela.kpi.ua/bitstream/123456789/46103/1/Yakimiv_magistr.pdf 2 источника 0.08%
59 https://stackoom.com/question/3X304 0.08%
Источники из Библиотеки 228
1 Бабак М.С._диплом_магістр_121-Інженерія програмного забезпечення_2021 ID файла: 1009664465 39 Источник…

Учебно 1.08%
2 Бойко В.О._диплом_магістр_121«Інженерія програмного забезпечення»_2021 ID файла: 1009664570 Учебн…

41 Источник 1.06%
3 Веремей З.М._диплом_магістр_121_Інженерія програмного забезпечення_2021 Учеб… 1.06%

ID файла: 100966990811 Источник
4 Федоров В.В._диплом_магістр_121-Інженерія програмного забезпечення_2021 Учеб… 1.04%

ID файла: 100970970510 Источник
5 Козаченко К.Ю.Магістр.121Програмна інженерія.2022 ID файла: 1013085544 Учебное заведение: Chernihi …

6 Плакса Р.С._диплом_магістр_121_2021 ID файла: 1009716005 Учебное заведение: Chernihiv National 10

Univers …
Источник 1.01%
7 Лещенко Владислав Станіславович_дипплом_магістр_121-інженерія програмного забезпечення_2021 ID ф… 0.92%
8 Нікітенко_Максим_Олександрович_диплом_магістр_МПІп-201_2021 ID файла: 1009669909 Источник… 0.88%

Учебное 2заведе
9 ЗеленийОлександрВалерійович_диплом_магістр_121_2021 ID файла: 1009688367 Учебное заведение: Che… 0.76%
10 Зетченко В.С. - Диплом Магістр - 121 ІПЗ 2022 ID файла: 1013085821 Учебное заведение: Chernihiv National …
11 Значков К.Ю.-Задорожний В.І.-магістр-ЗМПУА-201, 073 «Менеджмент» 2021 ID файла: 1009507158 Учебно… 0.64%
14 Мохонько О.В._магістр_ЗМПУА-201, 073 «Менеджмент» 2021 ID файла: 1009507187 Учебное заведение: Che… 0.52%
15 Єрмоленко О.П. - Диплом - Магістр - 121 Програмна Інженерія - 2022 ID файла: 1013075176 Учебное завед… 0.52%
16 Шоха Марина Віталіївна ID файла: 1008191678 Учебное заведение: Chernihiv National University of Technol … 0.49%
17 Тарасов Диплом_v3 (2) ID файла: 1008218356 Учебное заведение: Chernihiv National University of Technology
18 Ломонос М. В. - Диплом - Магістр - 121 Інженерія програмного забезпечення - 2022 ID файла: 1013087101 У … 0.37%
21 Філон ПІ-161 Дипломна робота ID файла: 1008218366 Учебное заведение: Chernihiv National University of T… 0.3%
22 Неділько К.А. диплом магістр. 201 Агрономія.2022 ID файла: 1013088834 Учебное заведение: Chernihiv Na… 0.27%
23 Єдомаха А.В._ВКР спец. 281 «Публічне управління та адміністрування» 2021 ID файла: 1009467134 Учебно… 0.25%
24 Онопрієнко А. В. диплом магістр 072 Фінанси, банківська справа та страхування 2022 рік Источник… 0.25%
ID файла:101013062
26 Приход В. Р.–ФК-201–Кафедра ФБСС-2021 ID файла: 1007709404 Учебное заведение: Chernihiv National Un… 0.19%
27 MODS2022_paper_30 ID файла: 1012478062 Учебное заведение: Chernihiv National University of Technology 0.18%
29 Стародубець А.О, ВКР, магістр, 072 ФБСС, 2021 ID файла: 1009717239 Учебное заведение: Chernihiv Nation… 0.16%
30 Карнаушенко Ю. В. Диплом Магістр 073 Менеджмент 2022 ID файла: 1013085812 Che… 0.16%
2 Источник
Учебное заведение:
31 ГущаІ.А._Магістр_ХТ_2курс,2021 ID файла: 1009709515 Учебное заведение: Chernihiv National University of T…

34 Кузьменко Д.К. Диплом Магістр 123 Комп'ютерна інженерія 2022 ID файла: 1013062123 Учебное заведен… 0.15%
38 Зурман Анастасія Андріївна ID файла: 1007925834 Учебное заведение: Chernihiv National University
29 of Tech… 0.12%
Источник
39 Філатов М. І. Диплом Магістр 123 - Комп'ютерна інженерія МКІ-211 - 2022 ID файла: 1013053406 Учебное з… 0.12%
42 Позня Є.О. Диплом Магістр 072- Фінанси,банківська справа та страхування. 2022 ID файла: 1013031912 Уч … 0.11%
2 Источник
48 Семенов О.В._диплом магістра_123 –Комп’ютерна інженерія_2022 ID файла: 1013094378 Учебное заведен… 0.09%
49 Овчаренко В.О._магістр_071 Облік і оподаткування_2021 ID файла: 1009701091 Учебное заведение: Cherni… 0.09%
51 Терновський Р. О. дипломна робота 152 Метрологія та інформаційно-вимірювальна техніка 2022 Источник… 0.08%
ID5 файла
60 Шевантаєва А. В. ВКР магістр193 –Геодезія та землеустрій_2022 ID файла: 1013074559 …

4 Источник
Учебное заведени 0.08%

Звіт антиплагіат

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Звіт антиплагіат

Uploaded by

Copyright:

Available Formats

Имя пользователя: ID проверки:

Ірина Бистрова 1013335654

Дата проверки: Тип проверки:

Дата отчета: ID пользователя:

Название файла: Завада Я. В. диплом_магістр 121 - Інженерія програмного забезпечення 2022

Обнаружены модификации текста (могут влиять на процент совпадений)

3.49% Источники из Интернета 141 ............................................................................................................................................

3.14% Источники из Библиотеки 228 ..........................................................................................................................................

Исключение списка библиографических ссылок выключено

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

Програмний додаток для визначення дезінформації в медіа

121 - Інженерія програмного забезпечення

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ ЧЕРНІГІВСЬКИЙ

Навчально-науковий інститут інформаційних технологій

Білоус Ірина Володимирівна

НА ВИПУСКНУ КВАЛІФІКАЦІЙНУ РОБОТУ (ПРОЕКТ) ЗДОБУВАЧА

Завада Яна Валеріївна

Тема роботи: “Програмний додаток для визначення дезінформації в медіа”

Тему затверджено наказом ректора від ""

1. Зміст розрахунково-пояснювальної записки

№ Назва етапів роботи Термін виконання Примітки

1. Узгодження тематики з науковим

6. Визначення інструментів для розробки

7. Розробка методики та написання

10. Написання третього розділу проекту

11. Передзахист проекту

12. Підготовка графічної частини

керівник Дорош Марія Сергіївна

(підпис) (прізвище, ім’я, по батькові)

Источники на этой странице: 1-3, 5-9, 11, 21-23, 29, 31

(підпис) (прізвище, ім’я, по батькові)

Тема роботи: “Програмний додаток для визначення дезінформації в

Необхідно розробити програмний додаток для визначення дезінформації в

Обсяг текстової та графічної документації:

Источники на этой странице: 1-4, 6-10, 15, 17-19, 21, 28

Обсяг магістерської роботи складає 71 сторінок, зокрема 31 ілюстрацій,

Ключові слова: ДЕЗІНФОРМАЦІЯ, МЕДІА, НЕЙРОННА МЕРЕЖА,

The volume of the master's thesis is 71 pages, including 31 illustrations, listings

Keywords: DISINFORMATION, MEDIA, NEURAL NETWORK, MODEL

Источники на этой странице: 41, 53, 57

Источники на этой странице: 50

Серед політиків, менеджерів і академічних дослідників зростає занепокоєння

Источники на этой странице: 2, 44, 48, 52

1.1. Актуальність обраної теми

Величезний вплив соціальних медіа безпомилковий. У Facebook щодня

*Кількість користувачів віком від 18 років.

Топ-10 YouTube каналів на тему новин та політики в Україні

Місце в Назва каналу Завантаження Підписки Перегляди

1.2. Фактори посилення резонансу дезінформації

SММ може підвищити ризик жорстокості в різних політичних умовах, від

Рис. 1.2 - Довіра до деяких суспільних інститутів, % опитаних

1.3. Засоби боротьби з дезінформацією

Координація з трьома ключовими гравцями є ключовою у боротьбі з

Рис. 1.3 - Інфографіка станом на 28.01.2020

Adblock Plus — це розширення для браузера та програма, яка блокує рекламу та

Рис. 1.4 - Приклад роботи розширення Adblock Plus на Chrome

Рис. 1.5 - Приклад роботи Bad News

Рис. 1.6 - Приклад Bot Sentinel

Рис. 1.7 - Приклад роботи Botometer

Рис. 1.8 - Капітан Факт

В даному розділі була проаналізована предметна область дослідження, а саме

Источники на этой странице: 49

2.1. Обгрунтування мови програмування для реалізації

Python — це інтерпретована динамічна мова програмування високого рівня