Professional Documents
Culture Documents
Л1-1 - Великі дані та BigData Основи. Основи
Л1-1 - Великі дані та BigData Основи. Основи
Вперше термін Big Data з'явився в пресі в 2008 році, коли редактор журналу Nature
Кліффорд Лінч випустив статтю на тему розвитку майбутнього науки за допомогою
технологій роботи з великою кількістю даних. До 2009 року цей термін розглядався лише з
точки зору наукового аналізу, але після виходу ще кількох статей преса стала широко
використовувати поняття Big Data - і продовжує використовувати його на даний час.
У 2010 році стали з'являтися перші спроби вирішити зростаючу проблему великих даних.
Були випущені програмні продукти, дія яких була направлена на те, щоб мінімізувати ризики
при використанні величезних інформаційних масивів.
З 2011 року великими даними зацікавилися такі великі компанії, як Microsoft, Oracle, EMC і
IBM - вони стали першими використовувати напрацювання Big Data в своїх стратегіях
розвитку, причому досить успішно.
Google Trends (https://trends.google.com/) показує активний зріст вживання терміну Big Data
починаючи з 2008 року до жовтня 2018 року:
Людство щодня генерує 2,5 млрд гігабайтів даних. За даними компанії IBS:
Значну частину даних генерують звичайні споживачі. Серед цієї інформації: твітів, репостів,
відео є така, яку багато компаній використовують для розвитку сервісів. Компанії знайшли
застосування великим даними в маркетингу для оцінки бажань клієнтів. Big Data
використовується в медицині для діагностики, в банківському середовищі для складання
персоналізованих пропозицій, в автомобільній сфері, допомагаючи водіям швидше досягати
точки призначення.
Ілон Маск та його компанія Tesla використовують big data рішення для автономних
автомобілів. Маск пішов іншим шляхом, ніж Google, які керують автомобілями за допомогою
десятків супутників:
В кожен проданий автомобіль ставиться комп'ютер, який збирає всю інформацію: про
водія, стилі його водіння, дорогах навколо, рух інших автомобілів. Обсяг таких даних
сягає 20-30 ГБ на годину.
Якщо у Google справи просуваються важче і їх автомобілі весь час потрапляють в аварії, то у
Маска, за рахунок того що йде робота з big data, справи йдуть набагато краще, адже тестові
моделі показують дуже непогані результати.
Інший приклад, стосується статистики Google, яка також заснована на big data. Перед тим як
медики оголошують про початок епідемії захворювання, в цьому регіоні істотно зростає
кількість пошукових запитів про лікування даного захворювання. Таким чином, правильне
вивчення даних та їх аналіз може сформувати прогнози і передбачити початок епідемії (і,
відповідно, її запобігання) значно швидше, ніж висновок офіційних органів і їх дії.
Великі дані (Big data) - серія підходів, інструментів та методів обробки величезних обсягів
структурованих і неструктурованих даних для отримання результатів, прийнятних для
людини; ефективних в умовах безперервного накопичення та розподілу по численних вузлах
обчислювальної мережі. Такі підходи стали альтернативою для традиційних систем
управління базами даних і рішень класу Business Intelligence.
Метою BI є інтерпретація великої кількості даних, загострюючи увагу лише на ключових факторах
ефективності, моделюючи результат різних варіантів дій, відстежуючи результати прийняття рішень.
BI підтримує багато бізнес-рішень - від операційних до стратегічних. Основні операційні рішення
містять позиціонування продукту або ціни. Стратегічні бізнес-рішення містять пріоритети, цілі і
напрямки в найширшому сенсі.
BI найбільш ефективний, коли він об'єднує дані, що отримані з ринку, на якому працює компанія
(зовнішні дані), з даними від джерел всередині компанії, такі як фінансові та виробничі (внутрішні
дані). У поєднанні зовнішні і внутрішні дані надають для аналітика повнішу картину бізнесу, або
«структуровані дані», які не можна отримати тільки від одного з цих джерел.
Власне Big Data - це комплекс технологій по роботі з інформацією, яка має такі властивості:
Big Data вирішує подібні завдання з традиційними інструментами BI, тільки в більш широкому
контексті в частині обсягу, джерел, структури і розподілу даних. В результаті Big Data і BI
серйозно відрізняються на технологічному рівні.
ВНЗ почали проводити вивчення великих даних в якості окремого предмета вже з 2013 року -
тепер проблемами в цій сфері займаються не лише науки про дані, а й інженерія разом з
обчислювальними предметами.
Кількість джерел даних стрімко зростає, і відповідно технології їх обробки стають все більш
затребуваними.
Технологія обробки Big Data збігається до трьох основних напрямків, які, в свою чергу,
вирішують 3 типи завдань:
Big Data Engineering займається розробкою каркаса, збору і зберігання даних, а також
робить відповідні дані доступними для різних споживчих і внутрішніх додатків.
Big Data Analytics - середовище використання великих обсягів даних з готових систем,
розроблених Big data engineering. Аналіз великих даних містить аналіз тенденцій,
закономірностей і розробку різних систем класифікації та прогнозування. Після виконання
певних дій Data Analytics (Scientist) інтерпретує результати.
Джерела даних
Інформація може потрапляти до системи зберігання Big Data з різних внутрішніх і зовнішніх
джерел. Джерела можуть відрізнятися за типами, обсягами і швидкостям надання даних. За
допомогою технологічного стека Big Data вхідні дані консолідуються в великі набори даних
(big data sets), що також називають озерами даних (data lakes).
Старого покоління - до них відносяться традиційні види стандартів і протоколів. Всі вони
характеризуються досить високою щільністю корисної інформації, наприклад:
HTTP веб-сервіси
Плоскі файли
XML
Нового покоління - це, як правило, «сирі» типи даних, отримання та активне застосування
яких стало можливо лише в останні роки. На відміну від старого покоління дані нового
покоління відрізняються великою різноманітністю, об'ємом і швидкістю надходження. Частка
інформації, на основі якої приймаються будь-які рішення, в даних нового покоління значно
менше і становить, зазвичай, не більше 10%. Прикладом даних нового покоління можуть
бути:
Підсистема фільтрації
Підсистема фільтрації (Ingestion Layer), служить брамою для величезної кількості даних, що
потрапляють в систему Big Data з різних джерел. Основне призначення підсистеми
фільтрації - відокремити сміття від релевантної інформації і, тим самим, підготувати дані для
подальшої обробки всередині платформи Big Data.
Стиснення даних зменшує розмір даних без втрати результатів попереднього аналізу.
Технології Big Data передбачають високий ступінь розподілу даних на рівні зберігання.
Розподілена система зберігання не лише забезпечує відмовостійкість, а й дозволяє
розпаралелити обробку даних, що вкрай важливо при роботі з обсягами Big Data.
Для зберігання даних, структурованих під певну область (наприклад, під документи), в
системах Big Data застосовують так звані NoSQL (Not only SQL) СУБД. Виділяють чотири
основні класи NoSQL СУБД:
Бази даних графів використовуються в ситуації, коли важливі не стільки самі дані,
скільки зв'язки між ними. Цей клас NoSQL СУБД може застосовуватися в мережному
моделюванні, а також при створенні сервісів рекомендацій.
Фізичний рівень
Рівень додатків
Рівень додатків, який також називають рівнем платформи, регулює доступ до даних і керує
запитами. Ключовою технологією на даному рівні є MapReduce.
при надходженні запиту на обробку даних з боку клієнтського додатку функція Map
розділяє вихідні дані на частини і розподіляє їх по вузлах системи з врахуванням
вимог до балансування і відмово стійкості.
Hive. Сховище даних, реалізоване під Hadoop. Hive має sql-подібний інтерфейс і може
робити агрегацію для великих обсягів.
Щоб звести до мінімуму час простою для компонентів Big Data і всієї системи в цілому,
необхідна система моніторингу, що реалізована за принципом автономності кожного зі своїх
компонент. Найбільшою популярністю в середовищі Big Data користуються системи
моніторингу з відкритим кодом Ganglia і Nagios.
Hadoop вважається однією з основоположних технологій Big Data, навколо якої утворилася
ціла екосистема з пов'язаних проектів і технологій, багато з яких розвивалися спочатку в
рамках проекту, а згодом стали самостійними.
Мова програмування R
R поширюється вільно.
Апаратні рішення.
Методи класу або глибинний аналіз (Data Mining). Дані методи досить численні,
але їх об'єднує одне: математичний інструментарій в сукупності з досягненнями зі
сфери інформаційних технологій.
Імітаційне моделювання.
Просторовий аналіз.
Статистичний аналіз.
Ефективні рішення в області роботи з великими даними для самих різних напрямків
діяльності здійснюються завдяки багатьом комбінаціям програмного і апаратного
забезпечення. Важливе значення Big Data - можливість застосовувати нові інструменти з
тими, які вже використовуються в цій сфері.
Приклад.
Ще одна потенційна область застосування Big Data - збір інформації про кількість
відвідувачів різних заходів.
Big Data надає незрівнянні переваги для банківського сектора, де можна скористатися
обробленими даними для того, щоб виявити недобросовісних власників карток.
Приклад. При заяві власника картки про її втраті або крадіжці банк має можливість
відстежити місце розташування карти, по якій проводиться розрахунок, і мобільного
телефону власника, щоб упевнитися в правдивості інформації. Таким чином,
представник банку має можливість побачити, що платіжна карта і мобільний телефон
власника знаходяться в одній зоні. А значить - карту використовує власник.
Завдяки перевагам подібного роду використання інформації дає компаніям багато нових
можливостей, а ринок Big Data продовжує розвиватися.
Можна значно швидше створювати нові проекти, які стануть затребуваними серед
покупців.
Сучасне Big Data рішення складається з декількох блоків, які потребують спільної роботи
команд з різними компетенціями та інтеграції набору Open-source і пропрієтарних
програмних компонентів:
2. Високий рівень аналіз даних з використанням методів науки про дані (Data Science) і
алгоритмів машинного навчання
3. Візуалізація великих даних, а також створення інтерактивних звітів для керівництва
компанії, співробітників і клієнтів (Business Intelligence). При цьому використовується
аналітична платформа повинна бути сумісна зі стеком Hadoop
Керівник відповідає за розвиток проекту та формує команду для проекту разом з HR-
службою.
В першу чергу такий команді необхідний інженер-аналітик даних, він же Data Scientist, який
буде займатися формуванням гіпотез і аналізом масиву інформації. Знайдені кореляції
будуть в майбутньому використовуватися для створення нової продукції і сервісів.
В кожній серйозній компанії зобов'язаний перебувати фахівець такого профілю, в іншому
випадку втрачається фокус проекту. Інженер-аналітик в сукупності: розробник, аналітик і
бізнес-аналітик. Він повинен володіти комунікабельністю для показу результатів своєї
діяльності і багажем знань та вмінь для детального роз'яснення своїх думок.
Система зберігання даних і аналітики: Data Lake and Analytics Factory на базі серверів Bullion
для підвищення продуктивності бізнесу, виробничої ефективності і стимулу розвитку бізнесу
за рахунок аналізу корпоративних даних. Це унікальне рішення легко інтегрувати, воно
пропонує великий набір інструментів для поглибленої аналітики на відкритій архітектури
потужного сервера Bullion, що масштабується і є доступним на ринку.
Microsoft Cortana Intelligence Suite (https://www.microsoft.com/ru-ru/cloud-
platform/cortana-intelligence)
Cortana Intelligence Suite входить до загальної екосистеми Data Analytics дозволяє обробляти
дані з різних джерел даних, перетворювати дані, застосовувати розширені аналітичні методи
(Data Mining, Machine Learning тощо), а також витягувати дієву статистику, яка надає змогу
бізнесу приймати розумні та своєчасні дії. Дані можуть бути видобуті з різних джерел даних,
включаючи програми, файли, журнали, пристрої та давачі, а також різні системи Big Data та
Internet of Things (IoT) та доставляти їх до програм, автоматизованих систем та осіб, які
приймають інтелектуальні рішення та дії.
PROMT Analyzer - морфологічний аналізатор Big Data, рішення в області штучного інтелекту
для роботи з великими даними в інформаційно-аналітичних системах. Інструмент
призначений для пошуку, витягування, узагальнення та структуризації інформації з
практично будь-якого текстового контенту в різних мовах як у корпоративних системах, так і в
зовнішніх джерелах. Він аналізує тексти або документи, виділяє в них сутності (персоналі,
організації, географічні назви, геополітичні сутності та ін.), а також визначає чи
співвідносяться з цією сутністю дії, дати та місця здійснення дій, формує цілісний образ
документа. PROMT Analyzer дозволяє вирішити найрізноманітніші завдання: аналіз
внутрішніх ресурсів компанії (системи документообігу), аналіз зовнішніх ресурсів (медіа,
блогсфера та пр.), аналіз даних, отриманих з закритих джерел, для оцінки критичності
ситуацій, аналізу діяльності об'єкта з прив'язкою до географії, а також оптимізація пошукових
систем і служб підтримки.
Складнощі також викликають підбір даних для аналізу і алгоритм дій. На сьогоднішній
день немає чіткого розуміння того, які дані несуть цінну інформацію і вимагають аналітики
Big Data, а які можна не брати до уваги. Також, на ринку недостатньо професіоналів, які
впораються з глибинним аналізом, сформують звіт про рішення задачі і, відповідно,
принесуть прибуток.
Моральна сторона питання: чи відрізняється збір даних без відома користувача від грубого
вторгнення в приватне життя? Збір даних покращує якість життя: наприклад, безперервний
збір даних в системах Google і Facebook допомагає компаніям покращувати свої сервіси в
залежності від потреб споживачів.
Системи цих сервісів відзначають кожен клік користувача, його місце розташування і
відвідувані ресурси, всі повідомлення і покупки. Це надає можливість демонстрації реклами,
виходячи з поведінки користувача. Якщо користувач не надавав своєї згоди на збір даних,
тоді таких зручностей не буде.