You are on page 1of 12

1

Основи роботи з аналітичною платформою SAS Viya.


Робота з наборами даних, створення бібліотек, типи ролей та
призначення вимірів змінних аналітичного процесу.

Автор; к.т.н. Олександр Терентьєв


e-mail: o.terentiev@gmail.com
м.т. +38-066-995-05-35

Оглавление
Скорочення. ................................................................................................................................................. 2
Багато-хмарна архітектура системи SAS Viya. ........................................................................................... 3
Архітектура платформи SAS Viya. ............................................................................................................... 4
Архітектура SAS Cloud Analytic Services. ..................................................................................................... 7

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


2
Скорочення.

CAS – Cloud Analytic Services.


ETL – Extract, Transform and Loading.
MPP – massively parallel processing.
SMP – symmetric multi-processing.
ULN – Unbreakable Linux Network.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


3
Багато-хмарна архітектура системи SAS Viya.

Рис. 1 Багато-хмарна архітектура системи SAS Viya.

SAS Cloud Analytic Services (CAS) – це сервер, що представляє собою


хмарне середовище, що поєднує апаратне та програмне забезпечення, для
управління даними та аналітичною обробкою на базі програмного
забезпечення SAS. Сервер може працювати на одній машині або у вигляді
розподіленого серверу на декількох машинах. Розподілений сервер
складається з одного контролера та одного або декількох робочих машин. Ця
архітектура часто називається архітектурою масової паралельної обробки.
Для обох режимів сервер є багатопотоковим для високоефективної аналітики.
Розподілений сервер має рівень зв'язку, який підтримує
відмовостійкість. Розподілений сервер може продовжувати обробку запитів
навіть після втрати підключення до деяких вузлів. Комунікаційний рівень
також дозволяє видаляти або додавати вузли з сервера під час його роботи.
Один із принципів проектування сервера – це вирішення проблем із
обробкою великих таблиць даних, що перевищують об'єм пам'яті
середовища. Для реалізації цього принципу дані на сервері обробляються
блоками.
Коли це потрібно, сервер кешує блоки даних на диск. Саме ця функція
дозволяє серверу ефективно керувати пам'яттю, обробляти великі обсяги
даних та залишатися чутливими до запитів.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


4
Програмне забезпечення SAS Viya було розроблено для вирішення
складних аналітичних проблем. Це рішення використовує переваги
розподіленої платформи, завантаження даних у пам'ять позбавляє від
необхідності завантажувати дані кілька разів під час ітеративної обробки,
завдяки чому побудова аналітичних моделей вимірюється секундами або
хвилинами, а не годинами, що дозволяє швидше, ніж будь-коли, знаходити
рішення складних проблем із обробки великих масивів даних.
Платформа використовує інтерактивні інтерфейси для задач
машинного навчання, що складають частину веб-середовища програмування.
Ці інтерфейси дозволяють користувачам налаштувати моделі машинного
навчання, а асоційований код SAS автоматично генерується для подальшого
запуску пакетів та автоматизації, а також дозволяє користувачам змінювати
параметри та конфігурації моделей. Користувачі також можуть ділитися
джерелами даних та фрагментами коду для покращення співпраці між
працівниками в рамках аналітичного проекту. SAS Viya дозволяє
користувачам швидко розгортати прогнозні моделі, автоматично генеруючи
скорінговий код.

Архітектура платформи SAS Viya.

Рис. 2 Архітектура платформи SAS Viya.

В основі SAS Viya лежить SAS Cloud Analytic Services (CAS), система
розподіленої аналітики, що розгортається в пам’яті хмарного серверу. Він
використовує масштабовані, високопродуктивні багатопотокові алгоритми

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


5
для швидкого проведення аналітичної обробки даних в пам'яті будь-якого
розміру. CAS призначений для роботи в одномашинній, симетричній
конфігурації багатообробної (SMP) або в мультимашинній, масово
паралельній обробці (MPP), показано на рисунку вище. Таким чином, CAS
підтримує безліч конфігурацій платформи та інфраструктури. CAS може
бути реалізований як у локальних, так і в хмарних розгортаннях.
CAS також має комунікаційний шар, який підтримує відмовостійкість.
Коли CAS працює в конфігурації MPP, він може продовжувати обробку
запитів навіть після втрати підключення до деяких вузлів. Цей рівень зв'язку
також дозволяє видаляти або додавати вузли під час роботи сервера.
Контролер CAS – це одна з двох ролей, яку можна призначити хосту
для Cloud Analytic Services. Для обох серверних архітектур (розподіленої та
одномашинної) одному з комп’ютерів призначена роль контролера. Коли
сервер запускається, запускається процес контролера, що приймає з'єднання
від користувача.
Коли сервер працює в режимі масової паралельної обробки (MPP),
окрім контролера, на сервері також працює кілька машин, що виконують
роль робочого CAS-сервісу.
Для доступу та завантаження даних, користувач повинен створити та
налаштувати з'єднувачі даних для Cloud Analytic Services. Відповідні
конектори даних (SAS CAS Data Connector) містять інформацію щодо місця
зберігання даних, їх специфікацію, тип драйверу (Oracle або SAS), схему
розташування.
SAS Studio надає користувачу можливість використовувати
спеціалізоване середовище програмування для розробки та запуску програм
на сервері.
SAS Workspace Server дозволяє клієнтським програмам отримувати
доступ до бібліотек SAS, виконувати аналітичні задачі за допомогою мови
програмування SAS та зберігати результати. Кожен процес роботи сервера
робочої області належить користувачу, що зробив запит до серверу.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


6
SAS Viya містить різноманітні мікросервіси. Мікросервіс – це сервіси,
що працюють у своєму процесі та обмінюються запитами HTTP.
Для розгортання SAS Viya 3.4 операційна система повинна бути
зареєстрована в мережі Red Hat або Oracle Unbreakable Linux Network (ULN).

SAS Visual Analytics Applications


SAS Drive
SAS Report Viewer
SAS Visual Analytics
SAS Visual Analytics App

SAS Visual Statistics

SAS Theme Designer

SAS Cloud Analytic Services


SAS Environment Manager (CAS) SAS Data Studio
SAS Visual Data Mining
and Machine Learning

8
C o p yri gh t © SA S In sti tu te In c. A l l ri gh ts reserved .

Рис. 3 Екосистема додатків візуальної аналітики в SAS.

SAS Drive – інтерфейс для спільного доступу, організації та обміну


даними та інформацією.
Report Viewer – система відображення звітів у веб-браузері.
Visual Analytics – система інтерактивної візуалізації даних та побудови
інтерактивних запитів.
Cloud Analytic Services (CAS) – хмарний сервер для керування даними
та аналітичної обробки.
SAS Data Studio – система підготовки даних та ETL-перетворення.
Environment Manager – система керування середовищем SAS Viya за
допомогою загальної інформаційної панелі (користувачі, конфігурації,
авторизація тощо).
Theme Designer – система побудови шаблонів програм та звітів
користувача.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


7
Visual Analytics App – система звітності для перегляду на планшетах
та мобільних пристроях.
Add-on Products – системи SAS Visual Statistics, SAS Visual Data
Mining та Machine Learning.
Система підтримує можливості роботи з машинами факторизації,
лісами рішень, посилення слабких класифікаторів, нейронними мережами та
машинами опорних векторів, при наявності відповідних ліцензій.
Model Studio – це інтегроване, візуальне середовище, яке містить набір
аналітичних інструментів для полегшення аналізу даних та прогнозування.
Інструменти, що підтримуються в Model Studio, розроблені з метою
використання переваг програмування SAS Viya та середовища хмарної
обробки. Вони допомагають доставляти та обмінюватися результати аналізу.
Model Studio об’єднані в єдиний інтерфейс та містить наступні утиліти:
 SAS Visual Forecasting.
 SAS Visual Data Mining and Machine Learning in Model Studio.
 SAS Visual Text Analytics.

Архітектура SAS Cloud Analytic Services.

Рис. 4 Архітектура SAS Cloud Analytic Services.

Розподілений сервер. Розподілений сервер використовує кілька машин


для масової паралельної обробки (MPP). На малюнку вище зображена

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


8
топологія сервера для розподіленого сервера. З декількох машин, що
використовуються, одна машина виконує функції контролера, а інші машини
– це робочі, для обробки даних. Клієнтські програми зв’язуються з
контролером, а контролер координує обробку, яка виконується робочими
вузлами. Одна або кілька машин позначаються робочими вузлами. Кожен
робочий вузол виконує аналіз даних по рядках даних, що знаходяться в
пам'яті на вузлі. Сервер масштабується горизонтально. Якщо час обробки
неприпустимо довгий через великі обсяги даних, більше робочих машин
може бути додано в якості робочих машин для розподілу навантаження.
Розподілені сервери стійкі до технічних відказів. Якщо зв’язок із робочим
вузлом втрачається, інший робочий вузол використовує копію даних для
завершення аналізу даних. По можливості розподілені сервери паралельно
завантажують дані в пам'ять. Це забезпечує максимально швидке
завантаження даних.

Рис. 5 Архітектура серверу з однієї машини.

Сервер з однієї машини. На рисунку вище зображена топологія


сервера для випадку однієї машини. Єдина машина позначена як контролер.
Оскільки немає робочих вузлів, вузол контролера виконує аналіз даних по
рядках даних, що знаходяться в пам'яті. Одна машина використовує кілька
процесорів і потоків для прискорення аналізу даних. Цю архітектуру часто
називають симетричною багатопотоковою обробкою (SMP). Усі аналітичні
функції в пам'яті розподіленого сервера доступні для сервера одномашинного

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


9
зв'язку. Одномашинні сервери не можуть завантажувати дані в пам'ять
паралельно з будь-якого джерела даних.

Рис. 6 Структура сесії SAS Cloud Analytic Services.

У хмарних аналітичних службах SAS сеанси використовуються для


того, щоб клієнти могли обмінюватися із сервером запитами. При вході в
додаток SAS Studio, використовуються оператори CAS для створення сеансу,
щоб підключитися до хмарних аналітичних служб SAS CAS. На рисунку
вище наведена схема сеансу для розподіленої системи.
Контролер сеансу керує підключеннями користувача та стежить за
станом сеансу. Процеси робочого сеансу в кожній робочій машині очікують
запитів від контролера сеансу. Після запуску сеансових процесів користувач
підключається до сеансу. Кожен користувач може встановити одне з'єднання
з сеансом. Кілька користвуачів можуть підключитися до одного сеансу.
Сеанс ідентифікується назвою сесії та UUID. Після підключення до сеансу,
можна створювати такі ресурси, як аліаси на біблиотеки SAS, CAS, таблиці
та формати. Робоча сесія виконує запити послідовно. Доки запит
обробляється, наступні запити стоять у черзі до завершення поточного
запиту. Для кожного запиту результати повертаються користувачу, який
зробив запит.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


10
Зазвичай користувач припиняє сеанс, коли він більше не потрібен. Для
збереження системних ресурсів одиночний сеанс автоматично припиняється,
якщо підключення з клієнтом не встановлено протягом тайм-ауту (60 секунд
за замовчуванням).

Панель навігації Робоча область

Рис. 7 Загальний інтерфейс системи SAS Studio.

SAS Studio – це середовище програмування для розробки та


завантаження програм на сервер. Інтерфейс SAS Studio розділений на дві
області: (1) панель навігації та (2) робочу зону. На панелі навігації
розташовані елементи типових задача аналізу, підключення файлів та
бібліотек. Робоча область призначена для побудови технологічних
аналітичних процесів.
Задачі – це графічний інтерфейс користувача, на основі побудованих
технологічних процесів генерується код SAS. Кожна задача дозволяє вибрати
набір даних та необхідні змінні. Також можна налаштувати різні функції та
модифікувати код.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


11

Рис. 8 Скріншот вікна програми SAS Drive, з відповідними кнопками


навігації.

SAS Drive – це єдиний програмний інтерфейс платформи SAS Viya, що


призначений для перегляду, впорядкування даних з однієї бібліотеки. Для
завантаження SAS Drive використовується стандартний Інтернет-браузер, в
якому для відображення вікна входу, треба ввести URL-адресу (наприклад,
https://prod.host.com/SASDrive).
SAS Drive розташований у меню «Програми» у верхньому лівому куті,
та містить наступні елементи інтерфейсу:
1. Меню додатків.
2. Кнопка створення нового елемента.
3. Зона швидкого доступу.
4. Папки та фільтри.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021


12
5. Відміна дії та повторна дія. Натисніть та утримуйте будь-яку
піктограму, щоб відобразити список дій.
6. інформаційні повідомлення, довідка, налаштування та вихід.
7. Меню для створення посилань, ярликів та керування вкладками.
8. Кнопка виклику інформаційної панелі.
9. Вкладки «Підсумок та коментарі».
10. Панель системи.

Автор: к.т.н. Олександр Терентьєв o.terentiev@gmail.com Київ-2021

You might also like