BÁO CÁO QUÁ TRÌNH TÌM HIỂU CHỦ ĐỀ

 Giáo Viên Hướng Dẫn : ĐỖ HỮU TUẤN Nhóm 4. Lớp: D5.DTVT1 1. 2. 3. 4. 5. 6. 7. 8. 9. Lê Thị Mai. Nguyễn Văn Hùng. Nguyễn Quốc Quân. Hoàng Văn Lâm. Bế Minh Tuấn . Nguyễn Văn Khoái. Nguyễn Văn Hưng. Nguyễn Thị Thủy. Nguyễn Văn Tiến Lâm .

Company Logo

IV: DATA MINING

TOPIC 1: Study The Matlab To Tutorial And Statistics Toolbox In Matlab. ( Hướng dẫn sử dụng matlab và nghiên cứu phân tích, thống kê hộp công cụ trong Matlab).

Company Logo

thống kê hộp công cụ trong Matlab). Statistics Toolbox in Matlab(Phân tích.1 Itroduction to Matlab(giới thiệu về Matlab). Company Logo 2 2 3 . The Matlab To Tutorial(hướng dẫn sưƱ dụng 3 Matlab).

Tiếp theo là phân tích tần số: Xử lý ảnh đen trắng Company Logo .

Sau khi lọc nhiễu Company Logo .

Vd2.xử lý ảnh đen trắng Company Logo .

Đưa ra những kết luận dựa trên số liệu. và 4. Tóm tắt thông tin nhằm hỗ trợ quá trình tìm hiểu về một vấn đề hoặc đối tượng nào đó 3.Thống kê là gì? 1. Ước lượng hiện tại hoặc dự báo tương lai Company Logo .Thu thập dữ liệu và thiết kế các nghiên cứu định lượng 2.

hỗ trợ thực hiện nhiệm vụ thống kê chung từ các hệ số ngẫu nhiên để phù hợp với việc thiết kế của thí nghiệm và kiểm soat qua trình thống kê. các công cụ tương tác . Statistics toolbox là một bộ sưu tập các công cụ của Matlab được xây dựng trên môi trường máy tính số.Đồ họa.  Bao gồm 2 loại công cụ: .Khả năng xây dựng khối và chức năng thống kê .

Statistical Plots (Thống kê plots).1. Descriptive Statistics (mô tả thống kê). Probability Distributions (Xác suất phân phối). Multivariate Statistics(thống kê đa biến) Company Logo .CÁC TÍNH NĂNG GỒM: Cluster analysis (phân tích nhom) Linear & Nonlinear Models (Mô hình tuyến tính & phi tuyến). Hypothesis Tests (giả thuyết thử nghiệm).

). and Weibull. Chức năng phân phối tích lũy (cdf) 3. Poisson. Thống kê Toolbox hỗ trợ 20 hàm phân bố xác suất(beta. Hàm mật độ xác suất (pdf) 2. Đó là: 1.. gamma. exponential. binomial.1. Đối với mỗi phân phối có các chức năng liên quan. Tạo ra số ngẫu nhiên Company Logo .Probability Distributions (hàm phân phối xác suất). normal. uniform.

hàm mật độ tích lũy (cdf) giồng như hàm pdf nhưng nó là 1 hàm liên tục Company Logo . Hàm mật độ xác suất (pdf) có một ý nghĩa khác nhau tùy thuộc vào việc phân phối là rời rạc hay liên tục. o Đối với phân phối liên tục khả năng quan sát bất kỳ giá trị cụ thể là số không. 2.1. o Đối với phân phối rời rạc. Hàm mật độ xác suất (pdf). Để có được xác suất bạn phải tích hợp pdf trên một khoảng thời gian quan tâm. pdf là khả năng quan sát được một kết quả cụ thể.

 Ví dụ hàm phân phối Poisson là một phân phối xác suất rời rạc(Hàm này dùng để mô tả các biên số ít xảy ra ví dụ số người mắc ung thư trong 1 dân số) k là số lần xuất hiện của một sự kiện λ là giá trị kì vọng xuất hiện của sự kiện trong một khoảng cho sẵn. Vi dụ: Company Logo .

 Vi dụ hàm Hoặc ta gõ lệnh >>disttool Nó sẽ hiển thị các hàm phân phối trên cửa sổ Sau đó ta thay đổi các thông số Company Logo .

Company Logo . mỗi có thành viên là càng giống nhau càng tốt.Cluster Analysis(phân tích cụm)  Thống kê Toolbox cung cấp chức năng cho phép bạn phân chia một tập hợp các đối tượng thành nhiều nhóm nhỏ. Quá trình này được gọi là phân tích cụm.  Những đặc điểm của các đối tượng trong cùng một nhóm là tương tự còn các đặc tính của các đối tượng trong các cụm khác nhau là khác nhau.

 Nó là một nhiệm vụ chính của thăm dò khai thác dữ liệu . là một kỹ thuật phổ biến cho thống kê phân tích dữ liệu được sử dụng trong nhiều lĩnh vực. tìm kiếm thông tin . và sinh học Company Logo . bao gồm cả máy học . nhận dạng mẫu. phân tích hình ảnh .

 K-phân vùng  Phân nhóm là tập hợp các phần tử có nét tương tự nhau.Không giống như các phân nhóm phân cấp.  K(phân vùng)-có nghĩa là clustering là một phương pháp phân vùng. k có nghĩa là clustering hoạt động trên những quan sát thực tế (chứ không phải là tập hợp lớn các biện pháp đồng dạng) Company Logo . Có 2 loại :  Clustering phân nhóm.

2 đt 2: 2.3541 2.5.9155 1. Y = pdist (X) Y= Columns 1 through 5 2.4 2.hãy xem xét một tập hợp dữ liệu.4 1. 4.0414 2.5 X = [1 2. 2 đt 4: 4.5 đt 5: 4.0000 3. y tọa độ.5] Sau đấy ta tính khoảng cách.2.0414 3.5.5000 2.2 2.5 đt 3: 2. có năm đối tượng đó mỗi đối tượng là một tập hợp của x. đt 1: 1.5.0000 Company Logo .5495 Columns 6 through 10 3. X. 2. Vd :về phân nhóm theo bậc .0616 1. 1.0616 2.5 4.

Bước 2:Lập bảng khoảng cách Ta có. bước 3:Dùng lệnh liên kết Ta có Company Logo .

 Hình dưới đây minh họa bằng đồ thị các nhóm liên kết cách các đối tượng vào một hệ thống các cụm. Company Logo .

Sau đó ta dùng lệnh dendrogram( Z) để tạo cây phân nhóm Company Logo .

Linear & Nonlinear Models (Mô hình tuyến tính & phi tuyến. Mô hình hóa sử dụng hàm tuyến tính (bậc 1) co dang y= xβ+ε  MATLAB sử dụng mô hình tuyến tính để giải quyết vấn đề hồi quy và phân tích phương sai (ANOVA) ` Company Logo .  Linear(mô hình tuyến tính): Phân tích hồi quy tuyến tính là một phương pháp phân tích quan hệ giữa biến phụ thuộc Y với một hay nhiều biến độc lập X.

để xác định xem nhóm này thực sự khác nhau trong các đặc tính đo Company Logo . Có nghĩa là.One-Way Analysis of Variance (ANOVA)  Phan tich phuong sai tuyen tinh Y(x)= aX+b  Mục đích của một chiều ANOVA là để tìm hiểu xem dữ liệu từ nhiều nhóm có một ý nghĩa chung.

 Thông số mô hình thường không liên quan đến bất kỳ cơ chế sản xuất dữ liệu. Company Logo . bởi vì họ chỉ dựa vào dữ liệu quan sát.  Để tăng độ chính xác của một mô hình tuyến tính trong phạm vi quan sát.Nonlinear Models(phi tuyến tính)  Mô hình mô tả trong mô hình hồi quy tuyến tính thường được gọi là mô hình thực nghiệm.

'b').3938 1.1704 0.9790 1.1359 1. title('Input data'). hold off.8990 1. h = plot(t.3946 0.2211 0. plot(t.1370 .0343 .1:2)'.3903 0. 0.5173 1. y = [5.6856 0..Vi dụ:về mô hinh phi tuyến tính : >> t = (0:.3459 0.5639 2.6100 0.5474 0..5392 0.. hold on. 0..y.8955 3.8435 0.'ro').0096 1.2636]'. ylim([0 6]) >> Company Logo .y.

 Kết quả: Company Logo .

Descriptive Statistics(mô tả thống kê)  Thống kê mô tả được sử dụng để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu thực nghiệm qua các cách thức khác nhau  là 1 phương pháp cơ bản của mô tả dữ liệu  Biểu diễn dữ liệu bằng đồ họa trong đó các đồ thị mô tả dữ liệu hoặc giúp so sánh dữ liệu.  Biểu diễn dữ liệu thành các bảng số liệu tóm tắt về dữ liệu.  Thống kê tóm tắt (dưới dạng các giá trị thống kê đơn nhất) mô tả dữ liệu Company Logo .

themegallery.com .CÁM ƠN CÁC BẠN VÀ THẦY ĐÃ THEO DĨ  ww.

Sign up to vote on this title
UsefulNot useful