Professional Documents
Culture Documents
Звіт антиплагіат
Звіт антиплагіат
Количество страниц: 75 Количество слов: 10288 Количество символов: 77670 Размер файла: 19.79 MB ID файла: 1013095534
5.2%
Совпадения
Наибольшее совпадение: 1.08% c источником из Библиотеки (ID файла: 1009664465)
0% Цитат
Исключение цитат выключено
0% Исключений
Нет исключенных источников
Модификации
Обнаружены модификации текста. Подробная информация доступна в онлайн-отчете.
Замененные символы 21
25
Подозрительное форматирование
страниц
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
Допущено до захисту
Завідувач кафедри
Білоус Ірина Володимирівна
(прізвище, ім’я, по батькові)
"____" 202__р.
КВАЛІФІКАЦІЙНА РОБОТА
Виконавець:
студент гр. МПІ-211
Завада Я. В. _____________
(прізвище, ім’я, по батькові,) (підпис)
Керівник:
Професор, доктор технічних наук
(посада) (науковий ступінь, вчене звання)
Дорош М. С. _____________
(прізвище, ім’я, по батькові,) (підпис)
Чернігів 2022
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Источники на этой странице: 1, 3-6, 8-11, 13-17, 19-20, 23-26, 30-32, 34, 38, 60
Страница 1 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
2
Я, Завада Яна Валеріївна, підтверджую, що дана робота є моєю власною
письмовою роботою, оформленою з дотриманням цінностей та принципів етики і
академічної доброчесності відповідно до Кодексу академічної доброчесності
Національного університету «Чернігівська політехніка». Я не використовував/ла
жодних джерел, крім процитованих, на які надано посилання в роботі.
____________________ ___________________
Дата Підпис
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Источники на этой странице: 2-4, 6-9, 11, 13-14, 16, 24, 29-30, 42
Страница 2 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
ЗАТВЕРДЖУЮ:
Завідувач кафедри
"____" 202 р.
ІНДИВІДУАЛЬНЕ ЗАВДАННЯ
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Источники на этой странице: 1-11, 15, 17, 20-26, 29, 32, 40, 42
Страница 3 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
4
2. Календарний план
Завдання підготував:
«_ » ____________202 р.
Завдання одержав:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
5
здобувач вищої освіти Завада Яна Валеріївна
«_ » ____________202 р.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 5 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
6
ТЕХНІЧНЕ ЗАВДАННЯ
на виконання кваліфікаційної роботи здобувача ВО гр. МПІ-211
Завади Я. В.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
7
Дата видачі завдання «__» ________ 20__ р.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 7 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
8
РЕФЕРАТ
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 8 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
9
ANNOTATION
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
10
ЗМІСТ
Вступ 9
1. Аналіз предметної області 10
1.1. Актуальність обраної теми 10
1.2. Фактори посилення резонансу дезінформації 12
1.3. Засоби боротьби з дезінформацією 17
1.4. Аналіз існуючих програмних рішень 20
Висновки до розділу 1 26
2. Обгрунтування засобів реалізації 27
2.1. Обгрунтування мови програмування для реалізації 27
2.2. Обгрунтування бібліотеки для NLP 30
2.3. Налаштування інфраструктури проекту 32
2.4. Опис вимог до програмного додатку 34
2.5. Методи обробки тексту та алгоритм класифікації дезінформації 37
Висновки до розділу 2 45
3. Реалізація системи визначення дезінформації у медіа 46
3.1. Налаштування середовища реалізації проекту 46
3.2. Попередня обробка даних 48
3.3. Приклад реалізації 68
Висновки до розділу 3 73
Висновки 74
Список використаних джерел 75
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
11
Вступ
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 11 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
12
Виходячи з вищезазначеного, метою даної роботи є розробка системи
визначення неправдивої інформації у медіа за допомогою моделей та систем
штучного інтелекту.
Об’єктом дослідження є моделі, методи та системи визначення фейкової
інформації у засобах масової інформації.
Предметом дослідження є алгоритми та технології машинного навчання з
використанням нейронних мереж для визначення достовірності інформації.
Для досягнення поставленої мети необхідно вирішити такі задачі:
- виконати аналіз існуючих методів та технологій визначення
достовірності інформації;
- зробити аналіз існуючих систем визначення достовірності інформації з
різних джерел;
- виконати проектування системи визначення дезінформації в медіа;
- провести обґрунтування методів та алгоритмів визначення дезінформації
в медіа;
- розробити систему;
- виконати оцінку точності моделі.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
13
1. Аналіз предметної області
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 13 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
14
Як ми бачимо з рис. 1.1 YouTube лідирує за кількістю українських
користувачів, тому приведемо топ десять YouTube каналів, які несуть новинний та
політичний контент в за версією socialblade.com у таблиці 1.1.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 14 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
15
Платформи соціальних мереж об’єднують людей між суспільствами,
полегшуючи обмін інформацією способами, які неможливо було уявити лише два
десятиліття тому. Маніпуляції платформами соціальних мереж також широко
поширилися, і такі платформи використовувалися для сприяння нестабільності,
поширення політичних конфліктів і закликів до насильства. Дослідники вважають,
що організовані кампанії з дезінформації в соціальних мережах діють принаймні у
81 країні, і ця тенденція продовжує зростати щороку, завдяки значній кількості спроб
маніпулювання державами та приватними корпораціями [4].
Ми стверджуємо, що широке коло учасників, пов’язаних із спільнотою
запобігання нестабільності та жорстокості, має враховувати нові проблеми, пов’язані
з дезінформацією в соціальних мережах (SMM), і ми надаємо рекомендації щодо
цього. Проста, але тривожна правда стикається з різними професіями, чия робота
пов’язана із запобіганням жорстокості: дезінформація може швидко змінюватися між
темами, але лише кілька наративів повинні закріпитися, щоб підірвати довіру до
фактів і стандартів доказів. Користуючись перевагами щільних, розгалужених
соціальних взаємозв’язків на платформах соціальних медіа, інфлюенсери можуть
висувати численні неправди, звинувачення та змови та спостерігати, які наративи
закріплюються. Як дедалі більша частина сучасного конфлікту, зловмисники —
іноземні чи національні державні персони, напівдержавні групи чи недержавні
суб’єкти — визначають, коли, де та як часто атакувати. Захисники, до яких належать
цільові уряди, організації громадянського суспільства, технологічні корпорації,
засоби масової інформації та інші, мають визначити, на чому зосередитись та як
реагувати. Кількість, швидкість і зростаюча витонченість дезінформації створюють
серйозні проблеми для зацікавлених сторін у сфері нестабільності та запобігання
злочинам.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 15 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
16
країнах, які історично мали сильні демократичні інституції, включаючи Сполучені
Штати та Великобританію, частково через брак довіри до інституцій та внутрішніх
політичних впливів. Контекстуальні відмінності відіграють значну роль, оскільки ці
відмінності корелюють з іншими пом’якшуючими інституційними та суспільними
факторами, які допомагають зменшити помітність насильницького SММ із
зростанням громадянських свобод. У цьому розділі обговорюються три ключові
кластери факторів, які впливають на резонанс SMM: 1) соціально-політичні
розбіжності, 2) індивідуальна та групова психологічна динаміка та 3) екосистема
соціальних медіа [4].
Соціально-політичні розбіжності
Соціально-політична розбіжність є ключовим фактором підвищення
ймовірності внутрішньополітичної нестабільності, включаючи звірства. До них
належать значна соціальна та політична поляризація, антидемократичні або
ослаблені демократичні режими, а також серйозні кризи управління чи безпеки.
Сувора соціальна та політична поляризація означає посилення розбіжностей у
групі та поза групою та послаблення процесів соціалізації, які інакше могли б
зменшити напруженість. Це відбувається через поширення дегуманізуючих
дискурсів та формальної та неофіційної політики та практик. Це також посилює
сприйняті нормативні відмінності між групами: сторонні групи розглядаються як
загроза інтересам, цілям, безпеці або виживанню внутрішньої групи. У крайньому
випадку така поляризація може дедалі більше проявлятися через насильницьку
поведінку, включаючи напади на опоненти. Дезінформація черпає поляризацію та
посилює її, підкреслюючи підсилювальний характер динаміки радикалізації.
Тип режиму також має значення. Авторитарні та напівавторитарні уряди
набагато частіше використовують дезінформацію для нападу на опонентів,
замовчування інакомислення та формування суспільного дискурсу. Однак SMD
(Social Media Disinformation) і SMM також були ефективними в різних контекстах
«відступу від демократії»: демократії, де верховенство права застосовується
нерівномірно, вільна преса піддається нападам або маргіналізується, а популістські
лідери все більше не стримуються конституційними чи правовими перевірками
(наприклад, в Угорщині, Туреччині та США). Незважаючи на те, що дезінформація
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 16 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
17
може надходити з багатьох джерел, включаючи громадянське суспільство,
критичним моментом є те, що в умовах послаблення правових та інституційних
обмежень виконавчої влади соціальні медіа можуть стати потужною платформою
для дезінформації та дезінформації, яка вчиняється спеціально державними
органами влади або їх довіреними особами.
Глибокі кризи управління чи безпеки є особливо сприятливим середовищем
для SMM. Ці кризи можуть включати ймовірність або початок збройного конфлікту
чи колективного насильства, передачу повноважень, яка викликає серйозні
суперечки (наприклад, вибори, що викликають вкрай розбіжності, перевороти),
конституційні кризи або введення надзвичайного режиму. Кризи посилюють
політичні ставки, роблячи соціальні медіа «ще одним фронтом у наративній війні».
У цьому контексті загальної дезінформації тривалі кампанії дезінформації
державами та їхніми довіреними особами можуть створити додаткову
нестабільність. SMD, що спонсорується державою, часто є внутрішньою мішенню,
але SMD все більше стає частиною зовнішньополітичних кампаній дестабілізації та
тиску, як це видно з російської дезінформації в різних контекстах від України до
Сполучених Штатів. Коротше кажучи, іноземна участь посилює фактори
нестабільності, зазначені вище.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 17 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
18
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 18 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
19
залученим до певної онлайн-спільноти, може бути важко критикувати домінуючі
наративи, особливо якщо інформація надходить із надійного чи відомого джерела.
Виклик домінуючим позиціям може спричинити критику, приниження або навіть
виключення.
Щоб зробити складний, здавалося б, небезпечний світ зрозумілим, люди часто
роблять висновок про чіткі причинно-наслідкові зв’язки, мотивації та відносини там,
де їх не існує. Хоча це звичайна психологічна евристика, умови підвищеної
нестабільності роблять це особливо небезпечним. Дезінформація може замінити
складні або заплутані політичні явища редукційними історіями про добро проти зла
і нас проти них. Ці епістемологічні скорочення, які відмовляються від складного
аналізу та часто виключають критичний аналіз власних припущень і уподобань,
посилюються в соціальних мережах, які зміцнюють наші погляди на світ.
Останнім психологічним фактором є упередженість підтвердження, тенденція
вказувати на інформацію, яка підтверджує вже існуючі переконання, одночасно
відкидаючи суперечливу інформацію. Соціальні медіа посилюють цю
упередженість; дослідження показують, що люди в Інтернеті тяжіють до тих джерел
новин, які підтверджують їхні погляди, і відходять від суперечливих джерел. Крім
того, ефективні кампанії з дезінформації посилюють ці упередження, створюючи
політичні розбіжності між групою та поза групою. Дослідження показують, що
користувачі соціальних медіа з більшою ймовірністю діляться неперевіреними
історіями, ніж публікують виправлення, коли історії виявляються неправдивими або
фальсифікованими.
Ця психологічна динаміка стає особливо важливою в контексті ризику
жорстокості, де вже відбувається постійна моральна переорієнтація з пасивно
дозволеного націлювання на активну користь. SММ може створити сприйняття
широко поширеної суспільної підтримки.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 19 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
20
фактчекерами, а також академічними установами. Крім того, стратегічна комунікація
є одним із ключових інструментів у боротьбі з дезінформацією та потребує
широкого підходу. Кампанії з дезінформації часто не обмежуються
розповсюдженням неправдивих новин, а часто спрямовані на створення зловмисної
історії. Звідси тісний зв’язок між боротьбою з дезінформацією та стратегічною
комунікацією, публічною дипломатією та цифровою комунікацією.
Європейська Рада у червні 2018 року доручила представнику ЄС із
закордонних справ і політики безпеки та Європейській Комісії представити до
грудня 2018 року, у співпраці з державами-членами та відповідно до висновків
Європейської Ради від березня 2015 року, План дій для скоординована реакція на
дезінформацію. Цей План дій було представлено та схвалено Європейською Радою
13 та 14 грудня 2018 року [6].
Що стосується змісту, то створення системи швидкого оповіщення (RAS) з
національними контактними пунктами в березні 2019 року для забезпечення
миттєвого попередження про дезінформаційні кампанії через спеціальну
технологічну інфраструктуру та для обміну інформацією між державами-членами та
Союзом заслуговує на увагу через свій практичний характер. Ця система забезпечує
необхідну координацію між європейськими партнерами та полегшує як моніторинг
мереж для виявлення кампаній і дій з дезінформації, так і, зрештою, розробку
спільних заходів у разі необхідності.
НАТО також активно бореться з дезінформацією. Ключовим елементом
комунікаційної стратегії є боротьба з дезінформацією в контексті нових гібридних
загроз. У зв’язку з цим були запущені програми для аналізу інформаційного
простору, такі як «Setting the Record Straight», щоб виявити тенденції дезінформації
та мати можливість швидко реагувати та розробляти конкретний контент.
У 2020 році Міністерством культури України було представлено законопроект,
в якому йдеться про кримінальну та адміністративну відповідальність за поширення
дезінформації та запровадження поняття “індекс довіри до ЗМІ” (рис. 1.3) [7].
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 20 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
21
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 21 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
22
який аналізується. Недолік такого методу нічим не відрізняється від попереднього.
Аналіз тексту конкретної новини бере до уваги різні особливості тексту, включає ці
ознаки у класифікаційні моделі, наприклад, Дерево рішень, Логістична регресія,
Метод опорних векторів, оцінює результати, обирає модель, яка має найбільшу
точність.
Виявлення позиції.
Є декілька варіантів реалізації такого методу, але його суть полягає у
передбаченні оцінки погляду двох уривків тексту щодо певної теми, розкритої у
новині та використанні емоційного аналізу фрагменту тексту або порівняння
заголовку і тексту. Останні випадок має декілька виходів - текст підтверджує
заголовок; текст суперечить заголовку; текст розкриває тему заголовку; текст не має
відношення до заголовку. Основуючись на висновки можна виробити гіпотезу про
наявність дезінформації.
Аналіз метаданих.
Існує багато досліджень [9, 10], які доводять, що є певні закономірності у
метаінформації новин, які були класифіковані, як фейкові. Щоб аналізувати
метадані, можуть бути використані деякі характеристики - час опублікування, місце
розташування, джерело новини тощо. Коли виявляється така закономірність,
навчається на її базі математична модель, є ймовірність створити автоматизований
інструмент класифікація деякої точності.
Фактчекінг.
Даний метод автоматизує людську ручну класифікацію новин, яка бере за
основу перевірку фактів на наявність дезінформації, які наявні у новині, мануально
підтверджується або навпаки спростовуються факти. Недоліком даного підходу
виступає те, що використовувати великий обсяг ресурсів звичайний розробник не
має змоги через його недоступність.
Проаналізувавши низку методів та підходів для виявлення дезінформації у
новинах, ми вирішили в рамках цієї магістерської роботи розглянути та використати
алгоритм лексичного аналізу на наявність дезінформації, оскільки такий метод може
забезпечити досить високу точність класифікації, яка досягає 99% [11].
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 22 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
23
1.4. Аналіз існуючих програмних рішень
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 23 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
24
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 24 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
25
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 25 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
26
використовує алгоритм виявлення для ідентифікації хештегів, посилань, облікових
записів і медіа, які скоординовано поширюються ймовірними ботами. Користувачі
можуть переглядати/досліджувати твіти та облікові записи, пов’язані з таким
розширенням, у Twitter або шукати пов’язаний вміст.
Капітан Факт
CaptainFact — це веб-набір інструментів, призначених для спільної перевірки
вмісту в Інтернеті. Він містить розширення для веб-переглядача, яке забезпечує
накладання відео на інтернет-відео з джерелами та контекстною інформацією, а
також піктограми, що показують достовірність на основі голосів користувачів. Він
також має «дебатну платформу», яка дозволяє обговорювати конкретні питання.
Хоча наразі вони зосереджені на відео, вони розробляють інструмент для надання
подібного накладення на статті.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 26 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
27
Climate Feedback — це веб-інструмент анотування вмісту, який дозволяє вченим
коментувати статті, щоб надати додатковий контекст і привернути увагу до
неточностей. Результатом процесу є оцінка довіри.
FakerFact — це інструмент штучного інтелекту, який оцінює призначення та
характеристики інформації. Рейтинги включають розклад, публіцистику, вікі, думку,
сатиру. Інструмент не оцінює статтю як правдиву чи неправдиву, а надає оцінку її
мети та об’єктивності.
Hamilton 2.0 — це веб-панель, яка надає інформацію про російську пропаганду
та дезінформацію в режимі реального часу в Інтернеті. Це робиться шляхом
відстеження сотень пов’язаних з Росією облікових записів Twitter, пов’язаних із
впливом на інформацію в Сполучених Штатах і Європі. Інструмент забезпечує
аналіз наративів і тем, які просуваються російським урядом і державними медіа в
Twitter, YouTube, на телебаченні та на державних веб-сайтах новин.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 27 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
28
Висновки до розділу 1
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
29
2. Обгрунтування засобів реалізації
Вимоги до ПЗ:
- Операційна система: Windows 7/8/9/10
- Мова програмування: Python
- ІСР: Jupyter Lab
- Інструменти: Anaconda
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 29 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
30
програмування Python. Мова не обмежує користувача спробувати щось інше. Інші
мови програмування не надають такої гнучкості та свободи, тому Python є кращим у
цих питаннях.
- Велика бібліотека:
Python надає користувачеві величезну бібліотеку. Стандартна бібліотека Python
величезна, і майже кожна функція, яку потрібно виконати, доступна в її бібліотеці.
Це тому, що він має величезну підтримку спільноти та корпоративного спонсорства.
Під час роботи з Python користувачі не використовують зовнішні бібліотеки.
- Спільнота підтримки:
Мова Python була створена багато років тому, і тому вона має зрілу спільноту, яка
може підтримувати будь-який тип розробника, починаючи від рівня початківців до
рівня експертів. Для мови програмування Python доступно достатньо посібників,
підручників та документації, які допомагають розробникам швидше та краще
зрозуміти мову. Завдяки спільноті підтримки Python швидко розвивається порівняно
з іншими мовами.
Недоліки Python
- Швидкість:
Порівняно з Java або C швидкість Python нижча. Python — це інтерпретована мова,
яка динамічно типізується. Для виконання коду кожен рядок коду має бути чітко
впорядкований, оскільки мова інтерпретується. Це займає багато часу, а отже,
уповільнює процес виконання. Динамічна структура Python також уповільнює його
швидкість, тому що під час виконання коду необхідно виконати зайву роботу. Тому у
тих випадках, коли потрібне швидке прискорення, Python використовується не дуже
часто.
- Споживання пам'яті:
Python має дуже високе споживання пам'яті. Це тому, що він гнучкий до типів даних.
Він використовує великий обсяг пам'яті. Python не є гарним вибором для завдань, де
користувач хоче оптимізувати пам’ять, тобто це мова, яка потребує інтенсивного
використання пам’яті.
- Доступ до бази даних:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 30 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
31
Python забезпечує просте програмування. Однак, коли він взаємодіє з базою даних,
виникають деякі проблеми. У порівнянні з такими технологіями, як JDBC і ODBC,
які є досить відомими, рівень доступу до бази даних мови програмування Python є
примітивним і недостатньо розвиненим. Великі підприємства, яким зазвичай
потрібна плавна взаємодія зі складними застарілими даними, не віддають перевагу
використанню Python.
Оскільки мова Python динамічно типізована, тип даних змінної може бути змінений
у будь-який час. Тому його потрібно тестувати частіше, а також є помилки в мові,
яка відображається під час виконання.
- Простота:
Python є простою та легкою у використанні мовою програмування, що також є
недоліком мови. Користувачі Python настільки звикають до його легкого синтаксису
та великої бібліотеки, що стикаються з проблемами під час вивчення інших мов
програмування. Деякі користувачі також вважають, що коди Java непотрібні через їх
складність. Тому Python має дуже вразливий характер, і користувачі починають
сприймати все легковажно. Порівняння переваг та недоліків мови програмування
Python наведено в таблиці 2.1.
Переваги Недоліки
Його легко освоїти та Через елементарне програмування
використовувати, і він має велику користувачі стикаються з
бібліотеку. труднощами під час роботи з іншими
мовами програмування.
Python підвищує продуктивність. Python — це мова, яка потребує
багато часу. Має низьку швидкість
виконання.
Він дуже гнучкий. Є багато проблем із дизайном мови,
яка відображається лише під час
виконання.
Джерело [12]
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 31 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
32
2.2. Обгрунтування бібліотеки для NLP
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 32 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
33
NumPy — це корисна бібліотека з багатим функціоналом для роботи з масивами
числових даних. Крім того, реалізація пропонує пам’ять і ефективність виконання,
яка часто наближається до скомпільованого коду, а також служить форматом обміну
для багатьох існуючих бібліотек.
Pandas [15] — це інсталяція з відкритим кодом для мови програмування Python і
бібліотека Python, ліцензована на яку пропонуються високопродуктивні інструменти
аналізу даних і прості у використанні структури даних для мови програмування
Python.
Переваги:
- Відмінне представлення даних.
- Менше програмування, більше роботи.
- Ефективна обробка величезних даних.
- Широкий набір функцій.
- Створена для Python.
- Гнучкість даних і легке налаштування.
Недоліки:
- Складний синтаксис, який не завжди відповідає Python.
- Погана документація.
- Погана сумісність 3D матриці.
Seaborn [16] — це бібліотека, надана Python, яка в основному допомагає
візуалізувати дані та зробити їх більш зручними для користувача. За допомогою
бібліотеки ми можемо побудувати наші дані та зробити їх графічне представлення.
Всередині цієї бібліотеки використовується matplotlib. Це також робить ефективним
створення привабливих та більш інформативних графічних зображень наших даних.
Ця бібліотека інтегрована зі структурою даних panda.
Переваги:
- Гарна візуалізація даних.
- Легко переключатись між варіантами візуалізації даних.
- Можливість створення більш інтерактивних графіків.
Недоліки:
- Одразу не встановлений в Python.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 33 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
34
Matplotlib [17] — це кросплатформна бібліотека візуалізації даних і графічного
побудови для Python і його числового розширення NumPy. Таким чином, він
пропонує життєздатну альтернативу MATLAB з відкритим кодом. Розробники також
можуть використовувати API matplotlib (інтерфейси прикладного програмування)
для вбудовування графіків у програми GUI.
Переваги:
- Забезпечує простий спосіб доступу до великих обсягів даних.
- Гнучка і підтримує різні форми представлення даних.
- Проста навігація.
- Забезпечує доступність, надаючи високоякісні зображення.
- Потужний інструмент із численними додатками.
- Корисно для створення розширених візуалізацій.
- Може працювати на різних платформах.
- Полегшує аналіз даних.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 34 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
35
встановлений у всіх сучасних версіях Python, а також є рекомендованим способом
керування віртуальними середовищами.
Починаючи з версії Python 3.5, документи офіційно рекомендують venv для
керування середовищами.
Єдина перевага conda полягає в тому, що ви можете встановлювати пакети та
керувати своїми середовищами в одному інструменті — conda, тоді як з pip вам
потрібно використовувати зовнішню утиліту, як-от venv, для керування вашими
середовищами.
Ще одна перевага Anaconda полягає в тому, що ви можете використовувати так
звану Anaconda Navigator, яка є програмою з графічним інтерфейсом користувача
для запуску популярних програм для програмування або завдань, пов’язаних із
наукою про дані, наприклад VSCode, Jupyter або RStudio. Ви також можете керувати
своїми середовищами conda в Anaconda Navigator.
Третя перевага Anaconda полягає в тому, що за умовчанням conda постачається
з великою кількістю попередньо встановлених пакетів машинного навчання. Conda
поставляється з NumPy, Matplotlib, Pandas, Scikit-Learn та багатьма іншими готовими
продуктами. Це означає, що вам не потрібно встановлювати ці пакунки вручну;
натомість ви можете просто встановити Anaconda і бути готовим до роботи над
своїм наступним проектом з обробки даних або машинного навчання. Якщо ви не
хочете мати всі ці додаткові утиліти та пакети, ви можете просто встановити
Miniconda, яка є мінімалістичною версією Anaconda, яка поставляється без Anaconda
Navigator і не попередньо встановлює таку кількість пакетів у вашу систему.
Також виділимо недоліки. По-перше, оскільки pip є менеджером пакунків за
замовчуванням для Python і більше людей використовують такі інструменти, як venv
або virtualenv через conda, ви, швидше за все, знайдете рішення для помилок, з
якими ви зіткнетеся, у StackOverflow, оскільки ширше коло людей використовує pip
over conda.
Останнім аспектом, який часто не помічають, є те, що pip є набагато міцнішим.
Це означає, що ви можете зіткнутися з помилками з conda, яких ви ніколи не
зустріли б з pip. Тепер більшу частину часу conda працюватиме нормально, але ви
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 35 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
36
можете просто опинитися в ситуації з дійсно неприємною проблемою та не
матимете приємного рішення. Отже, з точки зору надійності, pip є переможцем.
Jupyter — це спосіб інтерактивного запуску коду (зазвичай Python)
безпосередньо у браузері. Можна розділити код на кілька сегментів, додати уцінку та
відобразити цифри всередині коду. Це робиться за допомогою так званих
«блокнотів» (.ipynb-файлів), де зберігаються код+текст+малюнки+інше.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 36 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
37
4. Система дає змогу користувачу аналізувати будь-який об’єм тексту на
наявність дезінформації англійською мовою.
5. Система видає результат аналізу новини "It's a True News" або "It's a Fake
News" у разі виявлення дезінформації.
User Story “Перевірка тексту на наявність дезінформації” - описує процес
перевірки тексту новини на правдивість. (рис. 1)
1. Користувач знаходить новину, яку треба перевірити.
2. Користувач виділяє уривок або всю новину, яку треба перевірити.
3. Користувач відкриває програмний додаток.
4. Користувач активує поле вводу тексту.
5. Користувач вставляє текст для аналізу.
6. Користувач нажимає кнопку “Почати” і отримує результат.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 37 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
38
4. Запит повинен опрацьовуватись максимально 10 секунд.
Діаграма діяльності — це, в основному, блок-схема, яка відображає потік від
однієї діяльності до іншої. Діяльність можна описати як роботу системи.
Потік керування переходить від однієї операції до іншої. Цей потік може бути
послідовним, розгалуженим або одночасним. Діаграми діяльності стосуються всіх
типів керування потоком за допомогою різних елементів, таких як fork, join тощо.
Скопійований Так
Вставити текст
текст
Ні Первинна
обробка тексту
Вибір
Ініціація
новини
нейронної
мережі
Одержання
результату з
нейромережі
Оцінка
точності моделі
Класифікація
тверджень
Візуалізація
результату
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
39
2.5. Методи обробки тексту та алгоритм класифікації дезінформації
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 39 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
40
- Займенники (я, ти, ми, він, вона, воно, вони, що, який, все, те, вам, весь).
- Прийменники (з, в, під, з-під, для, до, без, по, на).
- Частки (не, б, ж, ні, все, так).
- Вигуки (ого, алло, ой).
- Цифри і числівники (3, 4, 5, три, чотири, п’ять, шостий, десятий тощо).
- Розділові знаки та спеціальні символи (., - _ = + /!;:%? *).
- Вступні та вставні слова (на мою думку, я вважаю, на жаль, на щастя).
- Одиночні літери (а, б, в).
- Деякі прислівники (якийсь, раніше, далі, якось).
- Слова-підсилювачі (мінімально, сильно, дуже, найбільш).
- Деякі іменники, дієслова, прислівники.
При процесі нормалізації ми прибираємо з текстів граматичну інформацію,
наприклад, відмінки іменників, часи дієслів, рід, дієприкметники тощо.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 40 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
41
На відміну від простого bag-of-words, який працює з поширеними словами та
встановлює їх частоту, за допомогою TF-IDF можна подолати таку неефективність
шляхом зниження частоти слів, які багато вживаються в досліджуваному матеріалі.
Таким чином забезпечується краще подання частоти трансформованих слів у
документах. Підхід bag-of-words є обмеженим, бо не враховує будь-яку інформацію
про контекст, у якому ті слова були вживані.
TF-IDF [23] (TF - term frequency, IDF - inverse document frequency) -
статистичний показник, який дає оцінку важливості словам враховуючи контекст
документу. Даний показник може бути використаний у вирішенні задач з аналізу
тексту та при інформаційному пошуку.
TF (term frequency - частота слова) - показник, який використовується для
вимірювання скільки разів термін присутній у документі та розраховується
відношенням кількості вживання цього слова до загальної кількості слів у документі,
оцінюючи наскільки важливе слово в рамках досліджуваного документу ��.
ni
TF= ❑
, (2.1)
∑ ❑n k
k
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 41 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
42
TF-IDF визначає значимість кожного слова у тексті при визначенні
характерних елементів використання дезінформації у потоках текстових даних.
Однак, необхідно дізнатись чи наявна дезінформація в тексті. Даний алгоритм,
використовуючи статистичні показники, які є результатом розрахунку TF-IDF, може
спрогнозувати чи відповідає певне слово правдивій або неправдивій новині.
Після того, як ми отримали набір ознак, ми класифікуємо текст за
сентиментом. Найбільш поширеним алгоритмом, який виконує дану класифікацію,
виступає gradient boosting [24] - це система прискорення машинного навчання, що
представляє собою дерево рішень для великих і складних даних. Він ґрунтується на
припущенні, що наступна можлива модель мінімізує грубу помилку передбачення,
якщо з'єднати її з попереднім набором моделей. Дерева рішень використовуються
для найкращих прогнозів. На рис. 2.3 можна побачити загальний алгоритм
класифікації.
Приведення слів до
нижнього регістру
Stemming
Збір новин Лематизація
Видалення stop-слів
Нормалізація
Первинна
обробка
тексту
новин
Bag-of-
TF-IDF
words
Gradient
boosting
Визначення класу
тексту
Фактчекінг
Результат: вихідний
клас новин
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 42 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
43
Наївні методи Байєса [25] — це набір контрольованих алгоритмів навчання,
заснованих на застосуванні теореми Байєса з «наївним» припущенням про умовну
незалежність між кожною парою ознак, заданою значенням змінної класу.
GaussianNB реалізує алгоритм Gaussian Naive Bayes для класифікації.
Вірогідність ознак вважається Гаусовою:
x i∨ y
2
1 −( xi −μ y )
¿= exp( ), (2.4)
√ 2σ y
2
π σ
2
2 y
¿
P¿
де x i - залежний вектор ознаки;
y - змінна класу;
μy і σ❑y - оцінюються з використанням максимальної ймовірності.
MultinomialNB реалізує наївний алгоритм Байєса для мультиноміально
розподілених даних і є одним із двох класичних наївних варіантів Байєса, які
використовуються в класифікації тексту (де дані зазвичай представлені як кількість
векторів слів, хоча також відомо, що вектори tf-idf добре працюють на практиці).
Розподіл параметризовано векторами θ y =(θ y 1 , ......, θ yn ) для кожного класу y , де
n кількість ознак (у класифікації тексту — розмір словникового запасу) і θ yi —
x
ймовірність появи ознаки у вибірці P(¿¿ i∨ y ) , що належить до класу y .
¿
Параметри θ y оцінюються за згладженою версією максимальної
правдоподібності, тобто підрахунком відносної частоти:
N +α
^
θ yi = yi (2.5)
N y + αn
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 43 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
44
x i∨ y
¿=P (xi =1∨ y )x i +(1−P(x i=1∨ y ))( 1−x i) (2.6)
¿
P¿
яке відрізняється від правила мультиноміального NB тим, що воно явно карає
за відсутність ознаки, яка є індикатором для класу, де мультиноміальний варіант
просто ігнорував би невиникаючу функцію.
У випадку класифікації тексту для навчання та використання цього
класифікатора можна використовувати вектори входження слів (а не вектори
підрахунку слів). BernoulliNB може працювати краще з деякими наборами даних,
особливо з коротшими документами. Бажано оцінити обидві моделі, якщо дозволяє
час.
Набір даних, який був використаний для навчання нейронної мережі, було
завантажено з платформи Kaggle. Kaggle - платформа для змагань з аналітики та
передбачувального моделювання, в рамках якого статистики та добувачі даних
конкурують у створенні найкращих моделі для прогнозування та опису даних,
запропонованих компаніями або користувачами. Цей краудсорсинговий підхід
ґрунтується на тому, що є безліч стратегій, які можуть бути застосовані до будь-якого
завдання з передбачувального моделювання, і наперед не відомо, яка методика або
аналітичний підхід буде найбільш ефективним.
Отримані дані у форматі csv, найпоширеніший формат імпорту та експорту
електронних таблиць і баз даних.
Набір даних містить такі поля - ідентифікатор, заголовок новини, автор
новини, текст новини та присвоєно значення “1”, якщо новина містить
дезінформацію, “0” якщо новина правдива.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
45
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 45 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
46
Висновки до розділу 2
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
47
3. Реалізація системи визначення дезінформації у медіа
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 47 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
48
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 48 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
49
Немає заголовку у 558 випадках, немає інформації про автора новини у 1957.
Відкидаємо нульові значення:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 49 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
50
Рисунок 3.3 - Таблиця результатів з новим стовпцем “Контент”
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 50 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
51
Функція перетворення всього тексту:
Видаляємо stop-слова:
Видаляємо пунктуацію:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 51 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
52
Застосуємо цю функцію перетворення до нашого створеного стовпця
“Контент”:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 52 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
53
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 53 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
54
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 54 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
55
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
56
e:\diploma\envs\fakenews\lib\site-packages (from matplotlib->wordcloud) (2.8.2)
Імпортуємо WordCloud:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
57
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 57 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
58
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 58 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
59
Тепер побудуємо стовпчасту діаграму для 20 найбільш вживаних слів у
правдивих новинах:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 59 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
60
Тепер побудуємо стовпчасту діаграму для 20 найбільш вживаних слів у
навчальним даним і не може надійно підібрати додаткові дані. Вихідні дані в моделі
машинного навчання зазвичай розбиваються на три або чотири набори:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 60 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
61
одного вихідного набору даних. Щоб отримати дані для побудови моделі, ми
починаємо з одного набору даних, а потім розділяємо його на два набори даних:
навчальний і тестовий:
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 61 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
62
можемо передати деякі функції своєму класифікатору, щоб побачити, який
«передбачений» клас.
LogisticRegression – це алгоритм класифікації машинного навчання, який
використовується для прогнозування ймовірності категоріальної залежної змінної. У
логістичній регресії залежна змінна є двійковою змінною, яка містить дані,
закодовані як 1 (так, успіх тощо) або 0 (ні, невдача тощо).
MultinomialNB - багатономіальний наївний класифікатор Байєса підходить для
класифікації з дискретними ознаками (наприклад, кількість слів для класифікації
тексту). Мультиноміальний розподіл зазвичай потребує цілочисельної кількості
ознак. Однак на практиці дробові підрахунки, такі як tf-idf, також можуть
працювати.
Класифікатор Gaussian Naive Bayes передбачає, що дані з кожної мітки взяті з
простого розподілу Гауса.
BernoulliNB приймає функції лише як двійкові значення, як-от істина чи
хибність, так чи ні, успіх чи невдача, 0 чи 1 тощо.
GridSearchCV — це функція, яка допомагає циклічно переглядати попередньо
визначені гіперпараметри та адаптувати модель до навчального набору.
ShuffleSplit буде випадковим чином відбирати весь набір даних під час кожної
ітерації, щоб створити набір для навчання та набір для тестування. Параметри
test_size і train_size контролюють, наскільки великий тестовий і навчальний тестовий
набір має бути для кожної ітерації.
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 62 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
63
Сonfusion_matriх є такою, що C i, j дорівнює кількості спостережень, які, як
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 63 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
64
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 64 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
65
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 65 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
66
Логістична регресія дає нам найкращий результат з усіх моделей (табл. 3.1).
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 66 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
67
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 67 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
68
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 68 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
69
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 69 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
70
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 70 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
71
Рис. 3.17 - Підтвердження наявності дезінформації у новині на сайті
stopfake.org
Висновки до розділу 3
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
Страница 71 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
72
Висновки
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
73
Список використаних джерел
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
74
11. Електронний ресурс: https://www.kaggle.com/code/utsavtalwar/fake-news-
detection-99-48-accuracy/notebook
12.Керівництво з роботи Python. URL: https://docs.python.org/3/tutorial/index.html
13.Керівництво з роботи NLTK. URL: https://www.nltk.org/
14.Керівництво з роботи NumPy. URL: https://numpy.org/doc/stable/v
15. Керівництво з роботи Pandas. URL:
https://pandas.pydata.org/docs/getting_started/index.html
16.Керівництво з роботи Seaborn. URL:
https://seaborn.pydata.org/tutorial/introduction
17.Керівництво з роботи Matplotlip. URL:
https://matplotlib.org/stable/tutorials/index.html
18. Електронний ресурс: https://www.anaconda.com/products/distribution
19.Ю.О. Олійник, О.Є. Афанасьєва, Г.Д. Аршакян “ПІДХІД ДО ВИЯВЛЕННЯ
АНОМАЛІЙ В ПОТОКАХ ТЕКСТОВИХ ДАНИХ” «Системнітехнології» 2
(127) 2020 «System technologies»ISSN 1562-9945 ISSN 2707-7977 DOI
10.34185/1562-9945-2-127-2020-10 УДК 004.8. URL:
https://app.amanote.com/v4.0.26/research/note-taking?
resourceId=35_33XMBKQvf0Bhi0hcB
20.Christopher D. Manning, Prabhakar Raghavan and Hinrich Schütze, Introduction to
Information Retrieval, Cambridge University Press. 2008. URL:
https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-
1.html
21.https://ela.kpi.ua/bitstream/123456789/23912/1/Shypik_magistr.pdf
22. Yin Zhang, Rong Jin, Zhi-Hua Zhou “Understanding Bag-of-Words Model: A
Statistical Framework”. URL:
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/ijmlc10.pdf
23.Shahzad Qaiser, Ramsha Ali “Text Mining: Use of TF-IDF to Examine the
Relevance of Words to Documents “ International Journal of Computer Applications
(0975 – 8887) Volume 181 – No.1, July 2018. URL:
https://www.ijcaonline.org/archives/volume181/number1/qaiser-2018-ijca-
917395.pdf
Исключенный
Совпадения Цитаты Ссылки T текст A Подмена символов Комментарии
75
24.Wallstreetmojo Team, Dheeraj Vaidya, CFA, FRM “Gradient Boosting”. URL:
https://www.wallstreetmojo.com/gradient-boosting/
25.Scikit-learn. Machine Learning in Python. URL: https://scikit-
learn.org/stable/modules/naive_bayes.html
Совпадения
Источники из Интернета 141
12 https://uk.wikipedia.org/wiki/Kaggle 0.61%
13 https://ua-referat.com/uploaded/startup-marketing/index1.html 0.54%
19 http://ir.stu.cn.ua/bitstream/handle/123456789/23452/1.pdf?sequence=1 0.36%
20 https://kpi.stu.cn.ua/wp-content/uploads/2020/12/vb6.1_admbd-1.pdf 0.33%
25 http://ir.stu.cn.ua/bitstream/handle/123456789/21471/%D0%B9%D0%BE%D0%B2%D0%B5%D0%BD%D0%BA%D0%BE-%D1%… 0.2%
28 https://mf.khadi.kharkov.ua/fileadmin/F-MECHANIC/%D0%9A%D0%BE%D0%BC%D0%BF_%D1%8E%D1%82%D0%B5%D1%80%…
2 источника 0.17%
35 https://dou.ua/forums/topic/40575 0.14%
37 https://openarchive.nure.ua/bitstream/document/17735/1/2021_M_ST_Murenchenko_PE.pdf 0.12%
40 http://ir.stu.cn.ua/bitstream/handle/123456789/19616/%D0%9B%D1%83%D0%BA_%D1%8F%D0%BD%D1%87%D0%B5%D0%…
30 источников 0.12%
44 http://lib.kart.edu.ua/bitstream/123456789/5857/1/dis_Bobrytskiy.pdf 0.1%
45 https://qiita.com/plumfield56/items/ac4c0b289b5fe36e3b37 0.1%
46 https://www.problecon.com/export_pdf/problems-of-economy-2022-3_0-pages-52_61.pdf 0.09%
47 https://github.com/harshraj2hr/Anomaly-Detection 0.09%
50 http://erpub.chnpu.edu.ua:8080/jspui/bitstream/123456789/7181/1/%D0%9F%D0%B5%D0%B4%D0%B0%D0%B3%D0%BE%D… 0.09%
Страница 76 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
55 https://nubip.edu.ua/sites/default/files/u145/aref_zibceva.pdf 0.08%
56 https://otherreferats.allbest.ru/law/01356897_0.html 0.08%
57 https://repub.eur.nl/pub/9453/060621_Hagemans_Marloes_proefschrift.pdf 0.08%
59 https://stackoom.com/question/3X304 0.08%
10 Зетченко В.С. - Диплом Магістр - 121 ІПЗ 2022 ID файла: 1013085821 Учебное заведение: Chernihiv National …
2 Источник 0.67%
11 Значков К.Ю.-Задорожний В.І.-магістр-ЗМПУА-201, 073 «Менеджмент» 2021 ID файла: 1009507158 Учебно… 0.64%
14 Мохонько О.В._магістр_ЗМПУА-201, 073 «Менеджмент» 2021 ID файла: 1009507187 Учебное заведение: Che… 0.52%
15 Єрмоленко О.П. - Диплом - Магістр - 121 Програмна Інженерія - 2022 ID файла: 1013075176 Учебное завед… 0.52%
16 Шоха Марина Віталіївна ID файла: 1008191678 Учебное заведение: Chernihiv National University of Technol … 0.49%
17 Тарасов Диплом_v3 (2) ID файла: 1008218356 Учебное заведение: Chernihiv National University of Technology
29 Источник 0.4%
18 Ломонос М. В. - Диплом - Магістр - 121 Інженерія програмного забезпечення - 2022 ID файла: 1013087101 У … 0.37%
Страница 77 из 78
Название файла: Завада Я. В. диплом_магістр 121 - Інженерія п… ID файла: 1013095534
21 Філон ПІ-161 Дипломна робота ID файла: 1008218366 Учебное заведение: Chernihiv National University of T… 0.3%
22 Неділько К.А. диплом магістр. 201 Агрономія.2022 ID файла: 1013088834 Учебное заведение: Chernihiv Na… 0.27%
23 Єдомаха А.В._ВКР спец. 281 «Публічне управління та адміністрування» 2021 ID файла: 1009467134 Учебно… 0.25%
24 Онопрієнко А. В. диплом магістр 072 Фінанси, банківська справа та страхування 2022 рік Источник… 0.25%
ID файла:101013062
26 Приход В. Р.–ФК-201–Кафедра ФБСС-2021 ID файла: 1007709404 Учебное заведение: Chernihiv National Un… 0.19%
27 MODS2022_paper_30 ID файла: 1012478062 Учебное заведение: Chernihiv National University of Technology 0.18%
29 Стародубець А.О, ВКР, магістр, 072 ФБСС, 2021 ID файла: 1009717239 Учебное заведение: Chernihiv Nation… 0.16%
30 Карнаушенко Ю. В. Диплом Магістр 073 Менеджмент 2022 ID файла: 1013085812 Che… 0.16%
2 Источник
Учебное заведение:
34 Кузьменко Д.К. Диплом Магістр 123 Комп'ютерна інженерія 2022 ID файла: 1013062123 Учебное заведен… 0.15%
38 Зурман Анастасія Андріївна ID файла: 1007925834 Учебное заведение: Chernihiv National University
29 of Tech… 0.12%
Источник
39 Філатов М. І. Диплом Магістр 123 - Комп'ютерна інженерія МКІ-211 - 2022 ID файла: 1013053406 Учебное з… 0.12%
42 Позня Є.О. Диплом Магістр 072- Фінанси,банківська справа та страхування. 2022 ID файла: 1013031912 Уч … 0.11%
2 Источник
48 Семенов О.В._диплом магістра_123 –Комп’ютерна інженерія_2022 ID файла: 1013094378 Учебное заведен… 0.09%
49 Овчаренко В.О._магістр_071 Облік і оподаткування_2021 ID файла: 1009701091 Учебное заведение: Cherni… 0.09%
51 Терновський Р. О. дипломна робота 152 Метрологія та інформаційно-вимірювальна техніка 2022 Источник… 0.08%
ID5 файла
Страница 78 из 78