You are on page 1of 20

JAK SZYBKO PORADZI SOBIE Z BIG DATA CZYLI WIZUALIZACJA I ZAAWANSOWANA ANALIZA DANYCH W OPARCIU O IN-MEMORY GRID

ADAM BARTOS, PIOTR BOROWIK SAS POLSKA

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

BIG DATA

ANALITYKA BIZNESOWA

Optymalizacja Modele_Predykcyjne Prognozowanie Analizy Statystyczne Analityka Tekstowa

Alerty OLAP Raporty Ad Hoc Standard Reporty

REAKTYWNA

ANALITYKA

PROAKTYWNA

DUE
C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

WIELKO DANYCH

BIG DATA

CASE 1. ZARZDZANIE RYZYKIEM

Zagadnienie Metody

Transakcje midzybankowe Podejmowanie decyzji przez Brokerw wymaga analizy ryzyka w wielu wymiarach Wymaga uwzgldnienia m.in. biecych informacji (Reuters, Bloomberg)

VaR Stress Testy Analizy scenariuszowe

Potrzeba
C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

Efektywnie wycenia portfele i identyfikowa wpyw czynnikw rynkowych na wskaniki ryzyka oraz przeprowadza stres-testy w czasie rzeczywistym

CASE 1. ZARZDZANIE RYZYKIEM W WERSJI HIGH PERFORMANCE

Problem biznesowy

Wielko danych/analiza

Tradycyjne podejcie Od 11 do 20 godzin 167 godzin (tydzie)

Podejcie SAS HP Krcej ni 54 sekundy 84 sekundy

Wyliczenie PD Wyliczenie ekspozycji na ryzyko kredytowe dla caego Banku Wykonanie stress testw na potrzeby ryzyka kredytowego oraz wyliczenie wartoci naraonej na ryzyko VaR Wycena ad-hoc portfela instrumentw finansowych

1 miliard rekordw Analiza regresji

Dziesitki milionw rekordw klienckich Analiza regresji portfel 250 tysicy pozycji 12 horyzontw czasowych

18 godzin

2 minuty 40 sekund

83 tysice pozycji w instrumentach pochodnych 100 tysicy symulowanych stanw rynkowych 200,000 symulacji 100,000 instrumentw

18 godzin

Krcej ni 10 minut

Wycena portfela za pomoc zewntrznej biblioteki wycen FINCAD (obligacje, FX forward, opcje walutowe, transakcje wymiany walutowej swap, instrumenty rynku pieninego)

Kilkadziesit godzin przelicze

Krcej ni 30 minut

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

CASE 2. OPTYMALIZACJA W MARKETINGU

Zagadnienie

Optymalizacja dziaa marketingowych

Metody

Programowanie liniowe i cakowitoliczbowe

Potrzeba

Decyzje co do najlepszego doboru kanau, oferty/kampanii, Szybka analiza scenariuszy (zmieniajce si ograniczeniach, kosztach, )

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

CASE 2. OPTYMALIZACJA W MARKETINGU WERSJA HIGH PERMORMANCE

Single Machine 15 mln klientw 900 ofert 10 kanaw

SAS High Performance Marketing Optimization

05:45:17

00:01:21

135 mld decyzji

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

BIG DATA = NOWY SUROWIEC

BIG DATA = NEW DATA


Social Media Voice of Customer Dane geolokalizacyjne Dane WWW, Clickstream

Potencjalne udoskonalone metody


Oceny ryzyka aplikacyjnego Wyboru Next Best Offer Detekcji fraudw Analizy sentymentu .

Wyzwania

Wicej danych Wzrost liczby modeli analitycznych Mniej czasu na ich tworzenie i konserwacj

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

POTRZEBA BARDZIEJ EFEKTYWNYCH PROCESW W OBSZARZE ANALITYKI

EKSPLORACJA I PRZYGOTOWANIE DANYCH

ANALITYCZNY CYKL YCIA


OCENA I UYCIE PRODUKCYJNE BUDOWA MODELI

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

CASE 1. MODELOWANIE ANALITYCZNE WERSJA HIGH-PERFORMANCE

Standardowy Proces Data Mining


High Performance Data Mining


Model z jednym algorytmem Sie Neuronowa Wykonanie 7 iteracji Sieci zajmuje ~5 hours (ok. 1.4 iteracje na godzin) Jeden analityk moe stworzy jeden model w cigu dnia Niska produktywno Model lift na poziomie 1.6%

Model z wieloma algorytmami OPRCZ Sieci (SVM, Regresja Logistic, ) Wykonanie wza Sieci Neuronowej: 5000 iteracji w 70 minut (ok. 71.4 iteracji na MINUT) Jeden analityk moe zbudowa 10 modeli dziennie (szacujc ostronie 30 minut na model) Wysoka produktywno Model lift na poziomie 2.5%

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

WYBRANE METODY ANALITYCZNE WERSJA HIGH PERFORMANCE

Predictive Analytics & Data Mining

Text Mining

Optimization

Econometrics Time Series

Binary target & continuous no. predictions Linear & NonLinear modeling Complex relationships Tree-based Classification

Parsing largescale text collections Extract entities Auto. stemming & synonym detection Topic discovery

Local search optimization Large-scale linear & mixed integer problems

Probability of an event(s) Severity of random event(s)

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

JAK BIG DATA WPYWA NA BI ?

wiat raportw i dashboardw Monitorowanie efektywnoci procesw Ustalone miary, KPI, alerty Ustalona cieka dla informacji Odpowiedzi na predefiniowane pytania Znane dane (nasze wasne?)


RAPORT

Co?

BI

ODKRYCIE

Dlaczego?

wiat analiz Pytania Ad-hoc Praca interaktywna Eksploracja wizualna Odkrywanie wiedzy przy pomocy metod analitycznych Nieznane, nowe dane

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

The Greatest Value Of A Picture Is When It Forces Us To Notice What We Never Expected To See.
John W. Tukey, Exploratory Data Analysis 1977

ZOBACZMY JAK TO DZIAA NA YWO

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

KTO ZA TYM STOI ??


CZYLI TAJEMNICZY IN-MEMORY GRID

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

BEHIND THE BIG DATA BIG COSTS SCENES CZYLI COMMODITY HARDWARE

POJEDYNCZY BLADE w architekturze Sandy Bridge


2 INTEL chips, kady 8 rdzeni =16 rdzeni

32 niezalene wtki (hyperthreaded CPU)

256GB RAM w kadym 2x600GB HDD = 1,2 TB przestrzeni dyskowej

CHASSIS z 8 serwerami BLADE


128 CPUs (256 niezalene wtki) 2 TB RAM Ok 5,4 TB przestrzeni dyskowej

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

BEHIND THE SCENES

ARCHITEKTURA Z SILNIKIEM ANALITYCZNYM IN-MEMORY

.
MPI
Compute

MPI Compute Compute

MPI Compute

SERWER ANALITYCZNY IN-MEMORY

SAS Client Process


DATA ON DISK DATA ON DISK DATA ON DISK DATA ON DISK

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

AHA A CO Z KLASYCZNYM BI?

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

IN-MEMORY BEZ GRID CZYLI SAS VISUAL ANALYTICS W WERSJI SMP

RAPORTY I DASHBOARDY
Raportowanie masowe OLAP KPI Alerty

MOBILE BI
Dostp on-line i off-line Wsppraca Bezpieczestwo

EKSPLORACJA DANYCH
Analizy Ad-hoc Wizualizacja danych Wizualizacja analityczna

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

PODSUMOWANIE
ANALITYKA A BIG DATA

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

SAS IS A LEADER IN THE FORRESTER BIG DATA PREDICTIVE ANALYTICS SOLUTIONS WAVE

The Forrester Wave: Big Data Predictive Analytics Solutions, Q1 2013, Forrester Research, Inc., January 3, 2013. The Forrester Wave is copyrighted by Forrester Research, Inc. Forrester and Forrester Wave are trademarks of Forrester Research, Inc. The Forrester Wave is a graphical representation of Forrester's call on a market and is plotted using a detailed spreadsheet with exposed scores, weightings, and comments. Forrester does not endorse any vendor, product, or service depicted in the Forrester Wave. Information is based on best available resources. Opinions reflect judgment at the time and are subject to change.

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

DZIKUJEMY ZA UWAG

C op yr i g h t 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .

www.SAS.com

You might also like