Л1-1 - Великі дані та BigData Основи. Основи

Великі дані Big Data
Вперше термін Big Data з'явився в пресі в 2008 році, коли редактор журналу Nature
Кліффорд Лінч випустив статтю на тему розвитку майбутнього науки за допомогою
технологій роботи з великою кількістю даних. До 2009 року цей термін розглядався лише з
точки зору наукового аналізу, але після виходу ще кількох статей преса стала широко
використовувати поняття Big Data - і продовжує використовувати його на даний час.
У 2010 році стали з'являтися перші спроби вирішити зростаючу проблему великих даних.
Були випущені програмні продукти, дія яких була направлена на те, щоб мінімізувати ризики
при використанні величезних інформаційних масивів.
З 2011 року великими даними зацікавилися такі великі компанії, як Microsoft, Oracle, EMC і
IBM - вони стали першими використовувати напрацювання Big Data в своїх стратегіях
розвитку, причому досить успішно.
Google Trends (https://trends.google.com/) показує активний зріст вживання терміну Big Data
починаючи з 2008 року до жовтня 2018 року:
Людство щодня генерує 2,5 млрд гігабайтів даних. За даними компанії IBS:
до 2003 року у світі накопичено 5 ексабайт даних (1 ЕБ = 1 млрд. гігабайтів).

до 2008 року цей обсяг зріс до 0,18 зеттабайт (1 ЗБ = 1024 ексабайта),
до 2011 року - до 1,76 зеттабайт,
до 2013 року - до 4,4 зеттабайт.
У травні 2018 року кількість глобальних даних перевищило 16,5 зеттабайт.
До 2020 року, за прогнозами, людство сформує 40-44 зеттабайт інформації,
До 2025 року збільшиться в 10 разів.
Практично в будь-якій сфері людського життя безперервно накопичуються велика кількість

даних. Сюди входить будь-яка галузь, що пов'язана або з людськими взаємодіями, або з
обчисленнями. Це і соціальні медіа, і медицина, і банківська сфера, а також системи
пристроїв, які отримують численні результати щоденних обчислень. Наприклад, астрономічні
спостереження, метеорологічні відомості і інформація з пристроїв зондування Землі.
Значну частину даних генерують звичайні споживачі. Серед цієї інформації: твітів, репостів,
відео є така, яку багато компаній використовують для розвитку сервісів. Компанії знайшли
застосування великим даними в маркетингу для оцінки бажань клієнтів. Big Data
використовується в медицині для діагностики, в банківському середовищі для складання
персоналізованих пропозицій, в автомобільній сфері, допомагаючи водіям швидше досягати
точки призначення.
Ілон Маск та його компанія Tesla використовують big data рішення для автономних
автомобілів. Маск пішов іншим шляхом, ніж Google, які керують автомобілями за допомогою
десятків супутників:
 В кожен проданий автомобіль ставиться комп'ютер, який збирає всю інформацію: про
водія, стилі його водіння, дорогах навколо, рух інших автомобілів. Обсяг таких даних
сягає 20-30 ГБ на годину.
 Інформація за супутниковим зв'язком передається до центрального комп'ютера, який

займається обробкою цих даних.
 На основі оброблених big data будується модель безпілотного автомобіля.
Якщо у Google справи просуваються важче і їх автомобілі весь час потрапляють в аварії, то у
Маска, за рахунок того що йде робота з big data, справи йдуть набагато краще, адже тестові
моделі показують дуже непогані результати.
Інший приклад, стосується статистики Google, яка також заснована на big data. Перед тим як
медики оголошують про початок епідемії захворювання, в цьому регіоні істотно зростає
кількість пошукових запитів про лікування даного захворювання. Таким чином, правильне
вивчення даних та їх аналіз може сформувати прогнози і передбачити початок епідемії (і,
відповідно, її запобігання) значно швидше, ніж висновок офіційних органів і їх дії.
Великі дані (Big data) - серія підходів, інструментів та методів обробки величезних обсягів
структурованих і неструктурованих даних для отримання результатів, прийнятних для
людини; ефективних в умовах безперервного накопичення та розподілу по численних вузлах
обчислювальної мережі. Такі підходи стали альтернативою для традиційних систем
управління базами даних і рішень класу Business Intelligence.
Business intelligence (скорочено BI) - позначення комп'ютерних методів та інструментів для

організацій, що забезпечують переведення ділової інформації у форму, що придатна для бізнес-
аналізу, а також засоби для масової роботи з такою обробленої інформацією.
Метою BI є інтерпретація великої кількості даних, загострюючи увагу лише на ключових факторах
ефективності, моделюючи результат різних варіантів дій, відстежуючи результати прийняття рішень.
BI підтримує багато бізнес-рішень - від операційних до стратегічних. Основні операційні рішення
містять позиціонування продукту або ціни. Стратегічні бізнес-рішення містять пріоритети, цілі і
напрямки в найширшому сенсі.
BI найбільш ефективний, коли він об'єднує дані, що отримані з ринку, на якому працює компанія
(зовнішні дані), з даними від джерел всередині компанії, такі як фінансові та виробничі (внутрішні
дані). У поєднанні зовнішні і внутрішні дані надають для аналітика повнішу картину бізнесу, або
«структуровані дані», які не можна отримати тільки від одного з цих джерел.
Власне Big Data - це комплекс технологій по роботі з інформацією, яка має такі властивості:
 Значний обсяг даних. Робота з об'ємом від 100 Гбайт.
 Велика кількість джерел інформації. Якщо в традиційному BI кількість джерел є

невеликою і більшість з них є внутрішніми, то Big Data може мати справу з десятками,
а то й тисячами, зовнішніх джерел.
 Неструктурована інформація. Реляційні бази даних, а в подальшому сховища, є

відмінним інструментом для пошуку серед структурованої інформації. Але що робити
з інформацією, для якої немає спеціального визначення? Можна, звичайно, кожен раз
створювати нові «визначення», чим і займаються фахівці з підтримки систем BI.
Однак підхід Big Data пропонує принципово інше рішення: пошук на основі патернів,
що в свою чергу передбачає структуру зберігання інформації, відмінну від реляційної
 Швидкоплинна інформація. Зберігати все, навіть відфільтровані на вході дані, стає

все дорожче, адже технології зберігання дешевшають повільніше, ніж з'являються
нові джерела даних. У зв'язку з цим на рівні підприємства потрібно чітко визначити,
скільки часу повинні зберігатися ті чи інші дані. Якісь дані можуть бути затребувані в
організації протягом багатьох років, а інші стануть непотрібними вже через пару
годин, коли аналітики візьмуть з них все, що потрібно.
Big Data вирішує подібні завдання з традиційними інструментами BI, тільки в більш широкому
контексті в частині обсягу, джерел, структури і розподілу даних. В результаті Big Data і BI
серйозно відрізняються на технологічному рівні.
Характеристика Традиційний BI Big Data
Інфраструктура Єдине корпоративне сховище Сховище може перебувати в

зберігання розподіленій файловій системи
Процесінг Формат даних підлаштовується Функції процесінгу адаптуються під

під вимоги функцій процесінгу різні формати даних
Формат даних Структурована інформація Структурована, слабко

структурована, неструктурована
інформацією
Часовий акцент Історична інформація Робота з максимально свіжими

даними
Процедури Витягування, передача та Застосовується масова паралельна

обробка даних відбуваються обробка даних (Massively Parallel
переважно послідовно, Processing - MPP)
відповідно до чітко визначених
процедур
Об’єм інформації Від гігабайта до терабайт Від петабайта до ексабайт
Модель Вертикальна модель Горизонтальна модель

зберігання та
обробки
інформації
Взаємозв’язок Сильний Слабкий

даних
Для великих даних виділяють традиційні визначальні характеристики «V»:
1. Volume (Обсяг) - величина фізичного обсягу.
2. Velocity (Швидкість) - швидкість обробки даних для отримання результатів.
3. Variety (Неструктурованість) - можливість одночасно обробляти різні типи даних.
4. Value (Цінність) - інформація повинна бути корисною і потрібною в теоретичному або

практичному плані, що буде виправдовувати витрати на її зберігання і обробку.
5. Veracity (Достовірність) – оброблення правдивих, актуальних даних.

Джерелом даних, для яких необхідні методи роботи з великими даними можуть бути:
 Статистика поведінки користувачів в Інтернеті.
 Профілі, дії та оточення користувачів соціальних мереж.
 Інформація про транзакції всіх клієнтів банку.
 Інформація про всі покупки у великій мережі магазинів.
 Оцифровані книги в Державній Бібліотеці.
 GPS-сигнали від автомобілів для транспортної компанії.
 Інформація з систем стеження в режимі реального часу.
Телебачення і радіомовлення, бази дзвінків операторів мобільного зв'язку - взаємодія кожної

конкретної людини з ними є мінімальною, але в сукупності ця інформація стає великими
даними.
Технології великих даних стали потрібними для науково-дослідницької діяльності, комерції,

сфери державного управління – там, де потрібно впровадження ефективних систем
зберігання і маніпулювання інформацією.
ВНЗ почали проводити вивчення великих даних в якості окремого предмета вже з 2013 року -
тепер проблемами в цій сфері займаються не лише науки про дані, а й інженерія разом з
обчислювальними предметами.
Кількість джерел даних стрімко зростає, і відповідно технології їх обробки стають все більш
затребуваними.
Основні напрямки технологій обробки великих даних
Технологія обробки Big Data збігається до трьох основних напрямків, які, в свою чергу,
вирішують 3 типи завдань:
1. Зберігання і управління величезними обсягами даних - їх розміри сягають сотень

терабайт і петабайт, що не дозволяє ефективно використовувати реляційні бази
даних.
2. Організація неструктурованої інформації. Дані представлені як тексти, зображення,

відео та інші типи інформації.
3. Аналіз Big Data (Big Data Analytics) - оброблення неструктурованої інформації,

створення аналітичних звітів, витягування корисної інформації.
Фах спеціалістів в широкому сенсі можна розділити на дві категорії:
 Big Data Engineering. Проектування і розгортання систем, над якими повинні

виконуватися обчислення.
 Big Data Analytics (Scientist). Розширені обчислення та аналіз даних.
Ці поля є взаємозалежними, але відрізняються один від одного.
Big Data Engineering займається розробкою каркаса, збору і зберігання даних, а також
робить відповідні дані доступними для різних споживчих і внутрішніх додатків.
У вас гарні навички програмування і ви розумієте, як комп'ютери взаємодіють через інтернет,

але у вас немає інтересу до математики та статистики. В цьому випадку вам більше підійде
Big Data Engineering.
Big Data Analytics - середовище використання великих обсягів даних з готових систем,
розроблених Big data engineering. Аналіз великих даних містить аналіз тенденцій,
закономірностей і розробку різних систем класифікації та прогнозування. Після виконання
певних дій Data Analytics (Scientist) інтерпретує результати.
Якщо ви добре розбираєтеся в програмуванні, вирішуєте складні завдання з вищої

математики, розумієте, що таке теорія ймовірностей, математичний аналіз, комбінаторики,
тоді вам підійде Big Data Analytics.
Архітектура Big Data

Будь-яке рішення Big Data направлено на реалізацію конкретного завдання і є унікальним.
Однак незалежно від того, побудовано чи рішення на безкоштовних компонентах або на
покупних технологіях, його архітектура буде виглядати однаково - приблизно так:
Рис. 1. Архітектура Big Data
Джерела даних
Інформація може потрапляти до системи зберігання Big Data з різних внутрішніх і зовнішніх
джерел. Джерела можуть відрізнятися за типами, обсягами і швидкостям надання даних. За
допомогою технологічного стека Big Data вхідні дані консолідуються в великі набори даних
(big data sets), що також називають озерами даних (data lakes).
Можна виділити дві основні категорії джерел даних:
Старого покоління - до них відносяться традиційні види стандартів і протоколів. Всі вони
характеризуються досить високою щільністю корисної інформації, наприклад:
 HTTP веб-сервіси
 Реляційні бази даних
 Плоскі файли
 XML
Нового покоління - це, як правило, «сирі» типи даних, отримання та активне застосування
яких стало можливо лише в останні роки. На відміну від старого покоління дані нового
покоління відрізняються великою різноманітністю, об'ємом і швидкістю надходження. Частка
інформації, на основі якої приймаються будь-які рішення, в даних нового покоління значно
менше і становить, зазвичай, не більше 10%. Прикладом даних нового покоління можуть
бути:
 Дані, що надходять безперервним потоком з різних пристроїв.

 Записи з колл-центрів, в тому числі отримані шляхом розпізнавання голосу.
 Дані з GPS пристроїв, які вимагають високу швидкість обробки.
 Повідомлення і різного роду контент з соціальних мереж.
Підсистема фільтрації
Підсистема фільтрації (Ingestion Layer), служить брамою для величезної кількості даних, що
потрапляють в систему Big Data з різних джерел. Основне призначення підсистеми
фільтрації - відокремити сміття від релевантної інформації і, тим самим, підготувати дані для
подальшої обробки всередині платформи Big Data.
Схему роботи підсистеми фільтрації представлено на рисунку 2.
Рис 2. Підсистема фільтрації
Обробка даних в підсистемі фільтрації передбачає виконання наступних процедур:
 Ідентифікація відомих форматів даних або призначення форматів за замовчуванням

для неструктурованих даних.
 Фільтрація вхідної інформації на предмет релевантності для даної організації.

Релевантність оцінюється на підставі системи управління даними (Master Data
Management).
 Валідація та аналіз даних.
 Зменшення шуму включає очищення даних і мінімізацію різних похибок.
 Трансформація передбачає за необхідності розділення наборів даних на складові,

зведення даних, денормалізація і підсумовування.
 Стиснення даних зменшує розмір даних без втрати результатів попереднього аналізу.
 Інтеграція забезпечує вивантаження відфільтрованої інформації на рівень зберігання

Hadoop.
Рівень зберігання
Технології Big Data передбачають високий ступінь розподілу даних на рівні зберігання.
Розподілена система зберігання не лише забезпечує відмовостійкість, а й дозволяє
розпаралелити обробку даних, що вкрай важливо при роботі з обсягами Big Data.
Ключовою технологією зберігання в світі Big Data є Hadoop. Hadoop є програмне

середовище з відкритим вихідним кодом, яка забезпечує розподілене зберігання великих
обсягів даних (в масштабі петабайт) на недорогих комп'ютерах. За допомогою Hadoop
додатки Big Data взаємодіють з вузлами зберігання без безпосереднього звернення до
фізичних серверів.
Hadoop складається з двох основних компонентів:
 Розподілена і у високому ступені масштабована файлова система HDFS (Hadoop

Distributed File System).
 Підсистема MapReduce на рівні додатків, яка забезпечує обробку запитів в пакетному

режимі.
HDFS побудована за принципом однократного запису і багаторазового читання (write-once-

read-many) і має блокову структуру, в кожному блоці якої можна зберігати файл або частину
файлу. Слід зазначити, що до файлів HDFS можна звернутися безпосередньо, як це
робиться в традиційних файлових системах. Для ефективної роботи в HDFS потрібно
розробляти досить складні спеціальні програми.
Для зберігання даних, структурованих під певну область (наприклад, під документи), в
системах Big Data застосовують так звані NoSQL (Not only SQL) СУБД. Виділяють чотири
основні класи NoSQL СУБД:
 Бази даних з доступом до значення за ключем (key-value) відносяться до

найпростішого типу NoSQL СУБД і можуть зберігати об'єкти будь-яких типів.
 Бази даних на основі стовпців надають інструмент для індексування

неструктурованої інформації і служить в основному в веб-додатках. Прикладом такої
СУБД є Hbase.
 Документо-орієнтована СУБД дозволяє зберігати ієрархічні структури даних.

Наприклад, СУБД MongoDB зберігає об'єкти в форматі JSON.
 Бази даних графів використовуються в ситуації, коли важливі не стільки самі дані,
скільки зв'язки між ними. Цей клас NoSQL СУБД може застосовуватися в мережному
моделюванні, а також при створенні сервісів рекомендацій.
Фізичний рівень
Фізичний рівень представляє інфраструктуру для роботи рівня зберігання. Інфраструктура

Big Data масштабується горизонтально, що з одного боку забезпечує високу надійність, а з
іншого боку - дешевизну щодо традиційних вертикально інтегрованих рішень.
Високий ступінь горизонтальної інтеграції передбачає застосування архітектури без поділу

ресурсів (share-nothing architecture), коли вузли не мають спільних ресурсів і не конфліктують
за них. У системах Big Data це досягається за рахунок того, що дані і функції для управління
ними знаходяться на одному вузлі.
Рівень додатків
Рівень додатків, який також називають рівнем платформи, регулює доступ до даних і керує
запитами. Ключовою технологією на даному рівні є MapReduce.
MapReduce є технологією для пакетного виконання процедур з обробки великих обсягів

даних. Незалежно від конкретної реалізації типове рішення MapReduce працює так:
 при надходженні запиту на обробку даних з боку клієнтського додатку функція Map
розділяє вихідні дані на частини і розподіляє їх по вузлах системи з врахуванням
вимог до балансування і відмово стійкості.
 в міру завершення завдань на вузлах функція Reduce отримує результат обробки з

кожної частини і об'єднує всі результати в один, який і повертає до клієнтського
додатка.
На рівні додатків можуть застосовуватися такі інструменти:
 Hive. Сховище даних, реалізоване під Hadoop. Hive має sql-подібний інтерфейс і може
робити агрегацію для великих обсягів.
 Pig. Скриптова мова програмування, за допомогою якої можна розробляти завдання

для MapReduce більш ефективно, ніж на мові Java. Слід зазначити, що Pig
призначений для обробки великих наборів даних і на малих обсягах від нього не
варто чекати хороших результатів.
 HBase. NoSQL СУБД, що реалізована на основі стовпців. На відміну від аналогів

HBase найбільш адаптована для роботи в Hadoop.
 Sqoop. Інструмент на базі командного рядка, що призначений для перенесення

великих обсягів даних з неструктурованого сховища в структуроване (наприклад, в
реляційну СУБД).
 ZooKeeper. Координатор для різних екземплярів Hadoop. Він забезпечує

синхронізацію і захист від збоїв для вузлів системи.
Рівень моніторингу та інформаційної безпеки
Щоб звести до мінімуму час простою для компонентів Big Data і всієї системи в цілому,
необхідна система моніторингу, що реалізована за принципом автономності кожного зі своїх
компонент. Найбільшою популярністю в середовищі Big Data користуються системи
моніторингу з відкритим кодом Ganglia і Nagios.
Що стосується безпеки, то організація ефективної системи захисту в розподіленій системі Big

Data є набагато складнішим завданням, ніж в традиційних системах. Основна складність
полягає у відстеженні всієї системи цілком, коли логи формуються на багатьох вузлах, а
формування кінцевого результату відбувається без будь-якої можливості перевірки з боку
користувача.
Як мінімальні заходи безпеки рекомендується застосовувати:

 Перевірку достовірності при зверненні до вузлів системи.
 Захищений зв'язок між вузлами.
 Шифрування файлів в сховищі.
 Сервіс довірених сертифікатів.
 Розподілене логування на всіх рівнях архітектури.
Технології Big Data
Бази даних NoSQL
Це термін, що використовується для позначення високопродуктивних нереляційних баз

даних. Бази даних NoSQL набули широкого поширення в зв'язку з простотою експлуатації,
можливістю масштабування, високою доступністю і гнучкістю.
Модель розподілених обчислень MapReduce
Модель представлено компанією Google, яка використовується для паралельних обчислень

над дуже великими (до кількох петабайт) наборами даних в комп'ютерних кластерах.
MapReduce - це фреймворк для обчислення деяких наборів розподілених задач з

використанням великої кількості комп'ютерів (ноди), що утворюють кластер. Робота
MapReduce складається з двох кроків: Map і Reduce, названих так за аналогією з
однойменними функціями вищого порядку, map і reduce.
 На Map-кроці відбувається попередня обробка вхідних даних. Для цього один з

комп'ютерів (званий головним вузлом - Master Node) отримує вхідні дані задачі,
розділяє їх на частини і передає до інших комп'ютерів (робочих вузлів - Worker Node)
для попередньої обробки.
 На Reduce-кроці відбувається згортка попередньо оброблених даних. Головний

вузол отримує відповіді від робочих вузлів і на їх основі формує результат - рішення
задачі, яка спочатку формулювалася.
MapReduce дозволяє розподілено здійснювати операції попередньої обробки і згортки.

Операції попередньої обробки працюють незалежно одна від одної і можуть проводитися
паралельно. Аналогічно, багато робочих вузлів можуть здійснювати згортку - для цього
необхідно щоб всі результати попередньої обробки з одним конкретним значенням ключа
оброблялися одним робочим вузлом в один момент часу.
MapReduce застосовують до великих обсягів даних, які можуть оброблятися великою

кількістю серверів, наприклад, сортування петабайта даних займе лише кілька годин.
Паралелізм надає можливості відновлення після часткових збоїв серверів: якщо в робочому
вузлі виникає збій, то його робота може бути передана до іншого робочого вузла.
Набір утиліт, бібліотек і фреймворк Hadoop
Вільно розповсюджуваний проект для розробки і виконання розподілених програм, що

працюють на кластерах з сотень і тисяч вузлів. Використовується для реалізації пошукових і
тематичних механізмів багатьох високонавантажених веб-сайтів, в тому числі, для Yahoo! і
Facebook. Проект фонду Apache Software Foundation розроблено на Java в рамках
обчислювальної парадигми MapReduce, згідно з якою додаток поділяється на велику
кількість однакових елементарних завдань, що виконуються на вузлах кластера та
природним чином зводяться до кінцевого результату.
Проект складається з чотирьох модулів
 Hadoop Common - набір інфраструктурних програмних бібліотек і утиліт, що

використовуються для інших модулів і споріднених проектів.
 HDFS - розподілена файлова система.
 YARN - система для планування завдань і управління кластером.
 Hadoop MapReduce - платформа програмування і виконання розподілених

MapReduce-обчислень.
Hadoop вважається однією з основоположних технологій Big Data, навколо якої утворилася
ціла екосистема з пов'язаних проектів і технологій, багато з яких розвивалися спочатку в
рамках проекту, а згодом стали самостійними.
Мова програмування R
R - це реалізація мови S з відкритим вихідним кодом, що представляє собою середовище

програмування для аналізу даних і для роботи з графікою. R - мова, що орієнтована на
статистику. Її можна розглядати як конкурента для таких аналітичних систем, як SAS
Analytics, StatSoft STATISTICA або Minitab.
 R - це потужна скриптова мова і підтримує Perl-подібні регулярні вирази для обробки

тексту.
 R - лідер напрямку. Багато нових розробок в області статистики спочатку з'являються

як пакети для платформи R ( "R-пакети") і лише потім приходять на комерційні
платформи.
 R органічно інтегрується з системами публікації документів, що дозволяє вбудовувати

статистичні результати і графіку з середовища R в документи публікаційної якості.
 R поширюється вільно.
Апаратні рішення.
Техніки та методи аналізу обробки великих даних Big data:
Big Data - це вирішення проблем і альтернатива традиційним системам управління даними.
 Методи класу або глибинний аналіз (Data Mining). Дані методи досить численні,
але їх об'єднує одне: математичний інструментарій в сукупності з досягненнями зі
сфери інформаційних технологій.
 Краудсорсінг. Дана методика дозволяє отримувати дані одночасно з кількох джерел,

причому кількість останніх є практично необмеженою.
 А / В-тестування. Зі всього обсягу даних вибирається контрольна сукупність
елементів, яку по черзі порівнюють з іншими подібними групами, де було змінено
один з елементів. Проведення подібних тестів допомагає визначити, коливання якого
з параметрів покращують цільовий показник. Завдяки обсягам даних можна
проводити величезну кількість ітерацій, з кожною з них наближаючись до
максимально достовірного результату.
 Прогнозна аналітика. Фахівці в цій галузі намагаються заздалегідь передбачити і

розпланувати то, як буде вести себе підконтрольний об'єкт, щоб прийняти найбільш
вигідне в цій ситуації рішення.
 Машинне навчання (штучний інтелект). Ґрунтується на емпіричному аналізі

інформації і подальшій побудові алгоритмів самонавчання систем.
 Мережний аналіз. Найбільш поширений метод для дослідження соціальних мереж -

після отримання статистичних даних аналізуються вузли, що створені в мережі, тобто
взаємодії між окремими користувачами і їх спільнотами.
 Змішування і інтеграція даних.
 Імітаційне моделювання.
 Просторовий аналіз.
 Статистичний аналіз.
 Візуалізація аналітичних даних.
Як використовувати систему Big Data
Ефективні рішення в області роботи з великими даними для самих різних напрямків
діяльності здійснюються завдяки багатьом комбінаціям програмного і апаратного
забезпечення. Важливе значення Big Data - можливість застосовувати нові інструменти з
тими, які вже використовуються в цій сфері.
Для роботи з Big Data важлива певна послідовність:
 Проведення збору даних.
 Структурування інформації. З цією метою використовуються інструменти для

структурування (Dashboards).
 Створення інсайтів і контекстів, на підставі яких формуються рекомендації для

прийняття рішень. В силу високих витрат на збір даних, основне завдання - це
визначити мету використання отриманих відомостей.
Приклад.
Рекламні агентства можуть використати у телекомунікаційних компаній сукупну

інформацію про місцезнаходження клієнтів. Такий підхід забезпечить таргетовану
рекламу. Ця ж інформація може бути застосована і в інших сферах, пов'язаних з
наданням та продажем послуг і товарів. Отримана таким чином інформація може
виявитися ключовою в ухваленні рішення про відкриття магазину в конкретній
місцевості.
Ще одна потенційна область застосування Big Data - збір інформації про кількість
відвідувачів різних заходів.
Приклад. Мобільні оператори завжди знають основну інформацію про своїх

абонентів: їх розташування, сімейний стан тощо. Організатори футбольних матчів
заздалегідь не можуть знати точне число тих, хто прийде на матч. Такі відомості
можна отримати від операторів мобільного зв'язку: де знаходяться потенційні
відвідувачі за певний період часу - місяць, тиждень, день - до матчу. В організаторів
з'являється можливість спланувати локацію заходів в залежності від уподобань
цільової аудиторії.
Big Data надає незрівнянні переваги для банківського сектора, де можна скористатися
обробленими даними для того, щоб виявити недобросовісних власників карток.
Приклад. При заяві власника картки про її втраті або крадіжці банк має можливість
відстежити місце розташування карти, по якій проводиться розрахунок, і мобільного
телефону власника, щоб упевнитися в правдивості інформації. Таким чином,
представник банку має можливість побачити, що платіжна карта і мобільний телефон
власника знаходяться в одній зоні. А значить - карту використовує власник.
Завдяки перевагам подібного роду використання інформації дає компаніям багато нових
можливостей, а ринок Big Data продовжує розвиватися.
Застосування технологій великих даних в маркетингу та бізнесі:
 Можна значно швидше створювати нові проекти, які стануть затребуваними серед
покупців.
 Допомога у співвіднесенні вимог клієнта з існуючим або проектованим сервісом і

таким чином підкоригувати їх.
 Методи великих даних дозволяють оцінити ступінь поточної задоволеності всіх

користувачів і кожного окремо від певного продукту.
 Впровадження програм лояльності клієнтів.
 Ефективне залучення цільової аудиторії в Інтернеті.
Компоненти рішення Big Data
Сучасне Big Data рішення складається з декількох блоків, які потребують спільної роботи
команд з різними компетенціями та інтеграції набору Open-source і пропрієтарних
програмних компонентів:
1. Технічне рішення по збору, зберіганню і обробки великих обсягів даних, позначене на

схемі як Big Data Tools. Таке рішення, як правило, будується на основі стека Hadoop, так як
він представляє хороший баланс між вартістю, надійністю і функціональністю.
2. Високий рівень аналіз даних з використанням методів науки про дані (Data Science) і
алгоритмів машинного навчання
3. Візуалізація великих даних, а також створення інтерактивних звітів для керівництва
компанії, співробітників і клієнтів (Business Intelligence). При цьому використовується
аналітична платформа повинна бути сумісна зі стеком Hadoop
Поетапне використання Big Data
Етап 1. Технологічне впровадження компанії в стратегічний проект.
До завдань технічних фахівців входить попереднє опрацювання концепції розвитку компанії:

аналіз напрямків, яким це найбільше необхідно.
Для визначення завдань проекту проводиться розмова з замовниками, в результаті чого

аналізуються необхідні ресурси. Паралельно організація приймає рішення про віддачу всіх
завдань повністю на аутсорсинг або про створення гібридної команди, що складається з
фахівців цієї і будь-яких інших організацій.
За статистикою значна кількість компаній користуються саме такою схемою: наявність

команди експертів всередині,що контролюють якість виконання робіт та формування руху, і
зовнішні фахівці, що реалізують безпосередню перевірку гіпотез про розвиток цього
напрямку.
Етап 2. Пошук інженера-аналітика даних.
Керівник відповідає за розвиток проекту та формує команду для проекту разом з HR-
службою.
В першу чергу такий команді необхідний інженер-аналітик даних, він же Data Scientist, який
буде займатися формуванням гіпотез і аналізом масиву інформації. Знайдені кореляції
будуть в майбутньому використовуватися для створення нової продукції і сервісів.
В кожній серйозній компанії зобов'язаний перебувати фахівець такого профілю, в іншому
випадку втрачається фокус проекту. Інженер-аналітик в сукупності: розробник, аналітик і
бізнес-аналітик. Він повинен володіти комунікабельністю для показу результатів своєї
діяльності і багажем знань та вмінь для детального роз'яснення своїх думок.
Етап 3. Створення команди для розвитку.
При розгляді глибокої аналітики, наприклад, інноваційного розвитку компанії, потрібні

менеджер для створення і розвитку бізнес-аналітики.
 Інженер-аналітик займається побудовою і перевіркою гіпотез для успішного розвитку

взятого вектора.
 Керівнику необхідно організовувати розвиток нового напряму бізнесу, створювати

нові продукти і погоджувати їх із замовниками. В його обов'язки, крім цього, входить
розрахунок бізнес-кейсів.
 Менеджер з розвитку зобов'язаний тісно взаємодіяти зі всіма фахівцями. Інженер-

аналітик і менеджер з бізнес-розвитку з'ясовують потреби та можливості аналізу Big
Data за допомогою зустрічей зі співробітниками, що відповідають за різноманітні
ділянки проекту. Після аналізу ситуації, менеджер створює кейси, завдяки яким
компанія буде приймати рішення про подальший розвиток напрямку, сервісу або
продукції.
Аналітичні платформи для роботи з Big data
Big Data Analytics Tutorial (https://www.tutorialspoint.com/big_data_analytics/)
Навчальний посібник, що підготовлений для професіоналів програмного забезпечення, які

прагнуть вивчити основи аналізу великих даних і мають попередній досвід з обробки
величезних обсягів необроблених даних на організаційному рівні. Завдяки цьому
навчальному посібнику можна розробити міні-проект, який забезпечить виявлення реальної
проблеми та способи її вирішення за допомогою Big Data Analytics. Файли цього проекту
знаходяться за посиланням: http://www.tools.tutorialspoint.com/bda/
IBM Analytics (https://www.ibm.com/analytics/ru/ru/)
IBM Analytics надає комплексне портфоліо прогнозно-аналітичних інформаційних технологій

для роботи з великими даними і аналітикою, які стануть основою бізнесу. Програмне
забезпечення для бізнес-аналітики від IBM дозволить використовувати дані, щоб знаходити
відповіді на найскладніші бізнес-питання, розкривати закономірності і впроваджувати
передові ідеї.
Data Lake and Analytics Factory (https://bull.com/ru/data-lake-and-analytics-

factory/)
Система зберігання даних і аналітики: Data Lake and Analytics Factory на базі серверів Bullion
для підвищення продуктивності бізнесу, виробничої ефективності і стимулу розвитку бізнесу
за рахунок аналізу корпоративних даних. Це унікальне рішення легко інтегрувати, воно
пропонує великий набір інструментів для поглибленої аналітики на відкритій архітектури
потужного сервера Bullion, що масштабується і є доступним на ринку.
Microsoft Cortana Intelligence Suite (https://www.microsoft.com/ru-ru/cloud-
platform/cortana-intelligence)
Cortana Intelligence Suite - це набір повнофункціональних сервісів Business Intelligence (BI),

Big Data та Advanced Analytics від Microsoft у Azure Cloud, який надає змогу підприємствам
перетворювати дані в інтелектуальні дії.
Cortana Intelligence Suite входить до загальної екосистеми Data Analytics дозволяє обробляти
дані з різних джерел даних, перетворювати дані, застосовувати розширені аналітичні методи
(Data Mining, Machine Learning тощо), а також витягувати дієву статистику, яка надає змогу
бізнесу приймати розумні та своєчасні дії. Дані можуть бути видобуті з різних джерел даних,
включаючи програми, файли, журнали, пристрої та давачі, а також різні системи Big Data та
Internet of Things (IoT) та доставляти їх до програм, автоматизованих систем та осіб, які
приймають інтелектуальні рішення та дії.
Yandex Data Factory (https://yandexdatafactory.com/ru/)
Yandex Data Factory (YDF) - міжнародний B2B-підрозділ компанії Яндекс, який

спеціалізується на аналізі великих даних та застосуванні технологій машинного навчання
для вирішення задач промисловості. YDF допомагає своїм клієнтам підвищити операційну
ефективність за рахунок технологій штучного інтелекту. Рішення YDF засновані на
технологіях машинного навчання та аналізу великих даних, таких як розпізнавання образів і
речей, глибинні нейронні мережі та ін.
PROMT Analyzer (http://www.promt.ru/corporate/big_data/)
PROMT Analyzer - морфологічний аналізатор Big Data, рішення в області штучного інтелекту
для роботи з великими даними в інформаційно-аналітичних системах. Інструмент
призначений для пошуку, витягування, узагальнення та структуризації інформації з
практично будь-якого текстового контенту в різних мовах як у корпоративних системах, так і в
зовнішніх джерелах. Він аналізує тексти або документи, виділяє в них сутності (персоналі,
організації, географічні назви, геополітичні сутності та ін.), а також визначає чи
співвідносяться з цією сутністю дії, дати та місця здійснення дій, формує цілісний образ
документа. PROMT Analyzer дозволяє вирішити найрізноманітніші завдання: аналіз
внутрішніх ресурсів компанії (системи документообігу), аналіз зовнішніх ресурсів (медіа,
блогсфера та пр.), аналіз даних, отриманих з закритих джерел, для оцінки критичності
ситуацій, аналізу діяльності об'єкта з прив'язкою до географії, а також оптимізація пошукових
систем і служб підтримки.
Проблеми систем Big Data
Питання про зберігання великих обсягів інформації пов'язане з необхідністю організації

певних умов, тобто зі створенням простору і можливостей.
Що стосується швидкості, то вона пов'язана не стільки з уповільненням і гальмуванням при

використанні застарілих методів обробки, скільки з інтерактивністю: результат тим
продуктивніше, чим швидше відбувається процес обробки інформації.
Проблема неструктурованості виходить з роздільності джерел, їх формату і якості. Для

успішного об'єднання і обробки Big Data потрібна робота з їх підготовки, аналітичні
інструменти або системи.
Великий вплив робить і межа «кількості» даних. Визначити обсяг досить складно, а
виходячи з цього - проблематично прорахувати, які потрібні фінансові вкладення і необхідні
технології. Проте, для певних величин, наприклад, терабайт, на сьогоднішній день успішно
застосовуються нові методи обробки, які постійно вдосконалюються.
Відсутність загальноприйнятих принципів роботи з Big Data - ще одна проблема, яка

ускладнюється вищезгаданою неоднорідністю потоків. Для вирішення цієї проблеми
створюються нові методи аналізу Big Data.
Складнощі також викликають підбір даних для аналізу і алгоритм дій. На сьогоднішній
день немає чіткого розуміння того, які дані несуть цінну інформацію і вимагають аналітики
Big Data, а які можна не брати до уваги. Також, на ринку недостатньо професіоналів, які
впораються з глибинним аналізом, сформують звіт про рішення задачі і, відповідно,
принесуть прибуток.
Моральна сторона питання: чи відрізняється збір даних без відома користувача від грубого
вторгнення в приватне життя? Збір даних покращує якість життя: наприклад, безперервний
збір даних в системах Google і Facebook допомагає компаніям покращувати свої сервіси в
залежності від потреб споживачів.
Системи цих сервісів відзначають кожен клік користувача, його місце розташування і
відвідувані ресурси, всі повідомлення і покупки. Це надає можливість демонстрації реклами,
виходячи з поведінки користувача. Якщо користувач не надавав своєї згоди на збір даних,
тоді таких зручностей не буде.
З цього випливає наступна проблема: наскільки безпечно зберігається інформація?

Наприклад, відомості про потенційних покупців, історія їх покупок і переходів на різні сайти
може допомогти вирішити багато бізнес-завдань, але чи є платформа, якою користуються
покупці, безпечною. На сьогоднішній день жодне сховище даних - навіть сервери військових
служб - не захищені від атак хакерів в достатній мірі.

Л1-1 - Великі дані та BigData Основи. Основи

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Л1-1 - Великі дані та BigData Основи. Основи

Uploaded by

Copyright:

Available Formats

Великі дані Big Data

до 2003 року у світі накопичено 5 ексабайт даних (1 ЕБ = 1 млрд. гігабайтів).

Практично в будь-якій сфері людського життя безперервно накопичуються велика кількість

 Інформація за супутниковим зв'язком передається до центрального комп'ютера, який

 На основі оброблених big data будується модель безпілотного автомобіля.

Business intelligence (скорочено BI) - позначення комп'ютерних методів та інструментів для

 Значний обсяг даних. Робота з об'ємом від 100 Гбайт.

 Велика кількість джерел інформації. Якщо в традиційному BI кількість джерел є

 Неструктурована інформація. Реляційні бази даних, а в подальшому сховища, є

 Швидкоплинна інформація. Зберігати все, навіть відфільтровані на вході дані, стає

Характеристика Традиційний BI Big Data

Інфраструктура Єдине корпоративне сховище Сховище може перебувати в

Процесінг Формат даних підлаштовується Функції процесінгу адаптуються під

Формат даних Структурована інформація Структурована, слабко

Часовий акцент Історична інформація Робота з максимально свіжими

Процедури Витягування, передача та Застосовується масова паралельна

Об’єм інформації Від гігабайта до терабайт Від петабайта до ексабайт

Модель Вертикальна модель Горизонтальна модель

Взаємозв’язок Сильний Слабкий

Для великих даних виділяють традиційні визначальні характеристики «V»:

1. Volume (Обсяг) - величина фізичного обсягу.

2. Velocity (Швидкість) - швидкість обробки даних для отримання результатів.

3. Variety (Неструктурованість) - можливість одночасно обробляти різні типи даних.

4. Value (Цінність) - інформація повинна бути корисною і потрібною в теоретичному або

5. Veracity (Достовірність) – оброблення правдивих, актуальних даних.

 Статистика поведінки користувачів в Інтернеті.

 Профілі, дії та оточення користувачів соціальних мереж.

 Інформація про транзакції всіх клієнтів банку.

 Інформація про всі покупки у великій мережі магазинів.

 Оцифровані книги в Державній Бібліотеці.

 GPS-сигнали від автомобілів для транспортної компанії.

 Інформація з систем стеження в режимі реального часу.

Телебачення і радіомовлення, бази дзвінків операторів мобільного зв'язку - взаємодія кожної

Технології великих даних стали потрібними для науково-дослідницької діяльності, комерції,

Основні напрямки технологій обробки великих даних

1. Зберігання і управління величезними обсягами даних - їх розміри сягають сотень

2. Організація неструктурованої інформації. Дані представлені як тексти, зображення,

3. Аналіз Big Data (Big Data Analytics) - оброблення неструктурованої інформації,

 Big Data Engineering. Проектування і розгортання систем, над якими повинні

 Big Data Analytics (Scientist). Розширені обчислення та аналіз даних.

Ці поля є взаємозалежними, але відрізняються один від одного.

У вас гарні навички програмування і ви розумієте, як комп'ютери взаємодіють через інтернет,

Якщо ви добре розбираєтеся в програмуванні, вирішуєте складні завдання з вищої

Архітектура Big Data

Можна виділити дві основні категорії джерел даних:

 Реляційні бази даних

 Дані, що надходять безперервним потоком з різних пристроїв.

 Дані з GPS пристроїв, які вимагають високу швидкість обробки.

 Повідомлення і різного роду контент з соціальних мереж.

Схему роботи підсистеми фільтрації представлено на рисунку 2.

Рис 2. Підсистема фільтрації

Обробка даних в підсистемі фільтрації передбачає виконання наступних процедур:

 Ідентифікація відомих форматів даних або призначення форматів за замовчуванням

 Фільтрація вхідної інформації на предмет релевантності для даної організації.

 Валідація та аналіз даних.

 Зменшення шуму включає очищення даних і мінімізацію різних похибок.

 Трансформація передбачає за необхідності розділення наборів даних на складові,

 Інтеграція забезпечує вивантаження відфільтрованої інформації на рівень зберігання

Ключовою технологією зберігання в світі Big Data є Hadoop. Hadoop є програмне

Hadoop складається з двох основних компонентів:

 Розподілена і у високому ступені масштабована файлова система HDFS (Hadoop

 Підсистема MapReduce на рівні додатків, яка забезпечує обробку запитів в пакетному

HDFS побудована за принципом однократного запису і багаторазового читання (write-once-