You are on page 1of 43

Can Big Data Bring Us Big Value?

Ho Tu Bao
Japan Advanced Institute of Science and Technology (JAIST)

Outline

Big Data, what is it?
Research & Development on Big Data

Big Data in Viet Nam?
2

Three emerging IT technologies
Smart devices, cloud computing, big data

Điện toán đám mây

Thiết bị thông minh
TGĐ TG Bình “lời giải hạ tầng sẽ dựa trên công nghệ di động, Điện toán đám mây và Dữ liệu lớn” CTO NL Phương: “Dòng chảy của FPT là CNTT là hạ tầng của hạ tầng với các mái chèo là Mobility, Cloud Computing, Big Data…”.

3

Big data là gì?
Big data nói đến các tập dữ liệu RẤT LỚN và PHỨC tới mức các kỹ thuật IT truyền thống không xử lý nổi.

TẠP

Volume:

Lớn từ mức Terabytes đến Petabytes (1015 bytes) cả Zetabytes (1018 bytes) Sự phức tạp của dữ liệu với nhiều cấu trúc khác nhau, từ dữ liệu quan hệ, đến logs, văn bản thô…

Variety: Velocity: Veracity:

Dòng chuyển động của các lượng dữ liệu rất lớn Tính tin cậy, độ chính xác, tính đúng đắn của dữ liệu.

Từ máy móc: Thiết bị công nghiệp. …. dữ liệu chế tạo và phân bố. 86400 hours of video to YouTube  Large Hadron Collider generates 40 terabytes/sec   Nhiều loại khác Amazon. web logs… Từ giao dịch kinh doanh: ID và giá cả sản phẩm. Each day: 230M tweets. thanh toán. 2.7B comments to FB.Where does big data come from?  Từ các phương tiện xã hội: Nhìn thấu (insights) được hành vi và ý kiến của khách hàng của công ty. US pizza chain Domino's: 1 million customers per day 5 . các sensors và dụng cụ giám sát.com: $10B in sales in Q3 2011.

máy bay… có hàng trăm nghìn sensors  sự phức tạp của việc tổ hợp dữ liệu các sensors này tạo ra?  Dòng dữ liệu của tất cả các sensors là lớn mặc dù kích thước của tập dữ liệu là không lớn (một giờ bay: 100.   MIKE2.0 6 . Tập dữ liệu to nhưng không lớn  Số hệ thống dù tăng lên và tạo ra những lượng rất nhiều dữ liệu đơn giản. Dữ liệu lớn nhưng lại nhỏ  Lò hạt nhân.000 sensors x 60 minutes x 60 seconds x 8 bytes  nhỏ hơn 3GB).Big data can be very small Not all large datasets are big  Big liên quan tới độ phức tạp lớn hơn là kích thước lớn.

8 triệu của Romney.000 cuae Romeny. Obama có gần 27 triệu followers so với 1. mua sắm ở đâu. Thậm chí biết cả mẹ bạn lần trước bầu cho ai… Obama có 16 triệu Twitter followers so với 500. Họ biết bạn đọc gì. Twitter và nhiều nguồn online khác. 7 .Big data chases election 2012 undecided voters From data mining to online organizing. một chiến dịch không mệt mỏi nhằm tạo ra một cơ sở dữ liệu chứa tiểu sử riÊng của các cử tri tiềm năng. bạn bè là ai. More than 150 techies are quietly peeling back the layers of your life. Với Facebook. làm việc gì. Qua Facebook.

IBM dùng Cognos để cung cấp toàn bộ phân tích dịch vụ. và thay vào đó đầu tư hàng tỷ đôla để xây dựng và nhằm đạt được uy tín (credentials). http://dawn. Đối với các kinh doanh thương mại lớn ( largecommercial ventures).Big data.  IBM’s past: Chế tạo servers. IBM’s today: Loại bỏ một số thiết bị phần cứng như laptops. desktop computers. laptops. big opportunity Một số công ty rất lớn nổi tiếng về chế tạo chủ yếu phần cứng trong quá khứ về hiện đang dần thay đổi thành các công ty cung cấp dịch vụ.   IBM đầu tư hàng tỷ đôla dùng SPSS trong thị trường phân tích kinh doanh để giành được (capture) thị phần bán lẻ. và thiết bị cho hạ tầng cơ sở.com/2012/07/25/big-data-big-analytics-big-opportunity/ 25July 2012 8 . big analytics. cố gắng tạo dựng vị trí dẫn đầu trong phân tích kinh doanh. chẳng hạn như phân tích kinh doanh (business analytics) .

Google’s Cloud Storage and BigQuery Google hiểu rất rõ quản lý và xử lý thế nào các lượng dữ liệu khổng lồ ở mức lớn hơn hầu hết các công ty khác có thể làm. Google xây dựng công nghệ riêng của mình cho việc phân tích nhanh và tương tác những lượng dữ liệu khổng lồ: BigQuery (nối với Tableau). Cloud Storage.com/insights/2012/11/visualanalytics-brings-big-data-in-googles-cloud-to-life/   Google Data Center 9 .wired. http://www.

Các ưu thế cạnh tranh (Competitiveness advantages).Turning big data into value  Phân tích dữ liệu lớn cho phép các tổ chức giải quyết các bài toán phức tạp trước kia không thể làm được  ra các quyết định và hành động tốt hơn.   Cung cấp những hiểu biết sâu (insights) về các hành vi phức tạp của xã hội con người. etc. Đột phá (breakthrough) trong khoa học. Data-driven approach to science Carefully designed data-generating experiment Analyze and test Inductive reasoning hypotheses by computation Generation of hypotheses   Data analytics Data driven XYZ 10 .

2011-October 10.Big data inquiries October 19. 15. 2012 by industry by enterprise by region Source: Forbes and Gartner. 2012 11 . Oct.

BIG DATA TORRENT BIG DATA VALUE Source: McKinsey Global Institute 12 .

Gartner prediction on big data IT to spend $232B on Big Data over 5 years 13 .

Outline Big Data. what is it? Research & Development on Big Data Big Data in Viet Nam? 14 .

Data management: Store. Efficient is doing things right .Key concepts  Big data (either data or technologies) 1. Big size: Volume 2. compare. analyze. Data analytics: Search. Complex: Variety (heterogeneous) . Veracity (data quality)  Technologies for Big data 1. Cannot fit the data into the memory for computation 2. compress. transfer big data 2. Velocity (dynamics). visual analytics  Key challenges 1. Lack effective and efficient methods for complex data Effective is doing right thing.

Web group 16 .A framework of big data Visual Analytics Data Analytics Data Management Source: WAMDM.

CBL Abduction.Development of machine learning Symbolic concept induction Multi strategy learning Successful applications IR & ranking Data mining MIML Active & online learning Transfer learning Kernel methods Minsky criticism NN. GA. Analogy Sparse learning Pattern Recognition emerged Revival of non-symbolic learning ILP Bayesian methods PAC learning Math discovery AM Neural modeling Rote learning Semi-supervised learning Deep learning Experimental comparisons Supervised learning Unsupervised learning Reinforcement learning Dimensionality reduction Probabilistic graphical models Statistical learning Ensemble methods Nonparametric Bayesian Structured prediction 1941 1950 1949 1960 1956 1970 1958 1968 1980 1970 ICML (1982) 1972 1990 1982 1986 2000 PAKDD (1997) 1990 19972010 ACML (2009) ECML (1989) KDD (1995) enthusiasm dark age renaissance maturity fast development 18 . EBL.

 Sparsity and sparse modeling Many interesting problems are high dimensional. the relevant information is effectively low dimensional. Using a small number of variables to model (sparse modeling). If necessary.Sparse and Convex Methods  Convexity Convex problems (minimizing convex functions over convex sets) can be solved quickly. . But often. approximate the problem with a convex problem.

1996) where sparsity meets convexity.  Lasso regresion (Tibshirani. (chọn và tạo ra một tập nhỏ các biến có khả năng dự đoán cao từ dữ liệu nhiều chiều).Sparse modeling Selection and construction of a small set of highly predictive variables in high-dimensional datasets. 20  . Sparvexity (the marriage of sparsity and convexity) is one of the biggest developments in statistics and machine learning.

Sparse modeling: Beyond Lasso S&P 500: Graphical Lasso vs. Lafferty clecture 2012) 21 . Parallel Lasso (VIASM.

Dimensionality reduction The process of reducing the number of random variables under consideration. and can be divided into feature selection and feature extraction. 22 . (quá trình rút gọn số biến ngẫu nhiên đang quan tâm. gồm lựa chọn biến và tạo biến mới).

Probability Theory + Graph Theory MINVOLSET PULMEMBOLUS INTUBATION KINKEDTUBE VENTMACH DISCONNECT Two key tasks PAP SHUNT VENTLUNG PRESS MINOVL FIO2 VENTALV VENITUBE Learning: The structure and parameters of the model Inference: Use observed variables to computer the posterior distributions of other variables? ANAPHYLAXIS PVSAT ARTCO2 TPR SAO2 INSUFFANESTH EXPCO2 HYPOVOLEMIA LVFAILURE CATECHOL LVEDVOLUME STROEVOLUME HISTORY ERRBLOWOUTPUT HR ERRCAUTER CVP PCWP CO HRBP HREKG HRSAT BP Monitoring Intensive-Care Patients 23 . (Mô tả và biểu diễn các hệ thống phức tạp bằng các quan hệ xác suất giữa các biến ngẫu nhiên (biến hiện và ẩn).Probabilistic graphical models A way of describing/representing a reality by probabilistic relationships between random variables (observed and unobserved ones).

ML for life sciences 24 .Graphical models Instances of graphical models Probabilistic models Naïve Bayes classifier Graphical models LDA Directed Bayes nets Mixture models Undirected MRFs DBNs Kalman filter model Conditional random fields MaxEnt Hidden Markov Model (HMM) Murphy.

2003 . M. where a topic is a probability distribution over words. D. Ng. A.. Hidden variables. 25  Blei.. Jordan.Probabilistic graphical models Topic models: Roadmap to text meaning documents topics documents words words C topics F Q Normalized cooccurrence matrix  Key idea: documents are mixtures of latent topics. Latent Dirichlet Allocation. JMLR. and statistical inference are the foundation of probabilistic modeling of topics. generative processes..

dense  How fast can the models learn? x 10 3 FSTM 2.5 1 0.000 documents).Fully sparse topic model FSTM  D θ Z w N β K Topic model: sparse vs. Our sparse topic model allows dealing with big text data (millions documents and thousands topics) that current dense topic models cannot do (reducing the storage from AP 3 x 10 4 KOS 5 4 3 2 1 0 x 10 4 gro  Learning time (s) Learning time (s) 2 1.5 PLSA 2.3 Mb for 350.3 Gb to 33. dense How fast can the models infer? AP 100 100 #topics: thousand & hundreds Linear vs. and a document is mixtures of latent topics). 0 50 100 50 100 Number of topics Number of topics Number of topics Sparse vs.5 1 0.5 4 Topic modeling is the key approach to automate the text meaning (idea: a topic is a set of words with a probability distribution.5 0 0 LDA STC 2 1.5 0 0 50 100 Learning time (s) 23. non linear Inference time Grolier 2000 KOS Inference time (s) 80 Inference time (s) 80 60 40 20 0 Inference time (s) 1500 60 40 20 0 Sparse topic representation Sparse document representation 0 50 100 100 times smaller 350 times smaller 1000 500 0 50 100 0 0 50 100 Storage 700 times smaller Number of topics Number of topics Number of topics Khoat Than and Tu Bao Ho. 26 . papers in ECML 2012 and ACML 2012.

…) Health and Human Services: Disease Control & Prevention Food and Drug Administration (FDA) National Aeronautics & Space Administration (NASA) National Institutes of Health (NIH) National Science Foundation (NSF): Core techniques and technologies for advancing big data S&E.       www.Big data across the federal government 29 March 2012. Energy: High performance storage system to manage petabytes of data. mathematics for analysis of petascale data (machine learning. Rutgers & Perdue Univ.gov/OSTP 27 . 6 departments  Defense: Autonomous systems (250M$/year)  Homeland security: COE on visualization and data analytics (from natural disaster to terrorist incidents).WhiteHouse. Retrieved 26 Sep 2012 84 different big data programs. statistics.

A Sociometric System for Long-Tail Science Data Collections 3. and Domain Specific Languages for High-Throughput DNA Sequencing 7. Genomes Galore .2013) 1.Core Techniques. Analytical Approaches to Massive Data Computation with Applications to Genomics 5. A Formal Foundation for Big Data Management 4. Scalable Algorithms and Applications 8.2012. Discovery and Social Analytics for Large-Scale Scientific Literature. Eliminating the Data Ingestion Bottleneck in Big-Data Applications 2. Libraries.NSF 8 projects on Big Data (Call: 3. Distribution-based machine learning for high dimensional datasets 6. 28 . Do: 1.2012. Big Tensor Mining: Theory. DataBridge . Selection: 10.

International collaboration on big data 29 .

JST: CREST call for projects Next generation application platform core technologies for big data Next generation core technologies for big data .

the status at release. All 40 national university hospitals operate an EMR system. >50K cases.5% of 825 major hospitals (with at least 400 beds) has EMRs. Chiba: Pioneer in EMR.  Discharge summary: The clinical notes written by the discharging physician or dentist at the time of releasing a patient from the hospital or clinic. Japan: In 2009.Electronic medical record (EMR)  Electronic medical record (EMR) is a computerized medical record created in an organization that delivers care. such as a hospital or physician's office.  . 62. and the postdischarge expectations and instructions. outlining the course of treatment.

Part 2 Develop new and effective methods for incorporating the preprocessed EMRs data with other data sources and new learning methods to mine those big data for medical problems. Part 1 Develop new and effective methods for pre-process different types of data in EMRs into certain ready-to-use (intermediate) forms.EMR’s Framework Goal: Create a framework for using EMRs in health care and medicine research. .

000 cases will be used in this study. (c) multiple-kernel matching. topic-based similarity. ontology-based similarity. etc. Several matching methods will be considered: (a) k-nearest neighbors. etc. (b) multi-label classification matching. Luke’s Hospital): Nearly 50. Expert System   . Experiment on the ERMs of three hospitals (Chiba University Hospital.EMR’s matching  Develop a new similarity measure for preprocessed: density-based similarity. multiple kernels similarity. Saga University Hospital and St. string-based similarity.

DNA… in Drugbank. PROMISCUOUS… and literature. Predicting side-effects of single drug by multi-view learning and multi-label classification. social networks  Highly heterogeneous. enzyme. KEGG „drug. Predicting side-effects of poly drug by network reconstruction and link analysis: Regression-based learning structures of graphical models. • • . SIDER. link prediction ….Predicting drug side-effects • Drug Side Effect Target Protein EMRs data + data on biological factors leading to side-effects (interaction of protein.

We use multiple linear regression with LASSO regularized least-squares and least-angle techniques solve the sparse approximation problem on the space of structural and physical properties of materials. Ho et al.   Dam.” Materials Genome Initiatives (launched in the US in 2012) An optimal structure model of materials and its physical properties. 2013 . results in a series of optimizing processes and strong multivariate correlations (difficult to uncover).Materials Design  “… to shorten the materials development cycle from its current 1020 years to 2 or 3 years..

Outline Big Data. what is it? Research & Development on Big Data Big Data in Viet Nam? 36 .

New paradigm of science and big data Science Computational Science DataIntensive Science Experimentation Theory Jim Gray (1944-2007) CACM. 2010 CACM. Sep. 2010 Computational science (using math and computation to do work in other sciences) vs. Computer science (making hardware and software for computation) 37 . Dec.

thường gắn với các siêu máy tính để giải quyết các bài toán phức tạp trong phân tích và thiết kế kỹ thuật cũng như với các hiện tượng tự nhiên. phân tích dữ liệu Hạ tầng cơ sở (siêu máy tính) CSE: việc phát triển và ứng dụng các mô hình tính toán và mô phỏng. Source: PITAC report and SIAM Mathematics Computer Science CSE Science & Engineering 38 .Computational science (CS) Computational science and engineering (CSE) Ba thành phần của khoa học tính toán:    Mô hình và mô phỏng Khoa học máy tính: mạng.

560640 processors.9 peteflops.Competition on supercomputers Nov. 17.56 petaflops.59 petaflops.51 petaflops. 18432 processors. 88128 processors June 2012: SuperMUC. Nov. 2010: China Tianhe-1A 2. 2012: Cray’s Titan computer. 23552 processors June 2012: Japan’s K computer. 39 . 2. Europe fastest. 10.

Lessons learned from Japan’s K computer Started 21 application programs at the beginning of the K computer project. Japan national key project. 1 billion USD (2007-2012) .

soil erosion. flood forecasting. ảnh hưởng của biến đổi khí hậu (river flow. ocean simulation... nhà máy thuỷ điện. hệ thống ngân hàng… CSE trong quốc phòng..) Đánh giá sự cố rủi ro của các hệ thống lớn như các lò hạt nhân. 41   ..Some national-level problems  Phòng chống thảm hoạ thiên nhiên. xã hội.

y-sinh: mô hình và dự đoán sự phát tán bệnh. chống bệnh sốt rét… Khoa học và công nghệ vật liệu: Phát triển các mô hình vật liệu nhiều tỷ lệ (multiscale) để từ hiểu các cấu trúc nano đến các ứng dụng kỹ thuật chế các vật liệu nano.Scientific breakthroughs  Khoa học về sự sống. dự đoán và mô phỏng các kịch bản và phương án kinh tế. Future work SHIFT IN MEDICINE RESEARCH  Molecular medicine is essentially based on learning from omics data SHIFT IN MEDICINE RESEARCH  Tài chính tính toán: quản lý rủi ro trong đầu tư và thị trường. Black–Scholes European Call Option Pricing Surface 42 .

Relationship of human and computer Creating Knowledge. Supporting Human Activities Business Process Innovation Productivity Improvement Computer Centric Network Centric Source: Fujitsu Scope of ICT Usage Human Centric Network ・Internet ・PC 1990 ・Ubiquities terminals ・Mobile network 2010 2000 ・Cloud computing ・Sensor technology 2020 Copyright 2011 FUJITSU LIMITED .

Take home message  Big data and computational science and technology (CSE) are emerging technology and field that impact the future. Big opportunities but also big challenges. and are the key technology for big data analytics. Each of different contexts of big data needs its most appropriate solution.     Why and how these in Viet Nam? Thanks 44 . Machine learning & data mining have been fast changing with statistics. No universal powerful method.