SPSS Su Dung

CHƯƠNG I.

MỘT SỐ LÝ THUYẾT THỐNG KÊ CƠ BẢN Các tham số thống kê đo lường độ tập trung hay hội tụ của dữ liệu (central tendency measurement) - Giá trị trung bình (Mean): Là giá trị trung bình số học của một biến, được tính bằng tổng các giá trị quan sát chia cho số quan sát. Đây là dạng công cụ thường được dùng cho dạng đo khoảng cách và tỷ lệ. Giá trị trung bình có đặc điểm là chịu sự tác động của các giá trị ở mỗi quan sát, do đó đây là thang đo nhạy cảm nhất đối với sự thay đổi của các giá trị quan sát. Giá trị trung bình được tính bằng công thức sau:

- Trung vị (Median): Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá trị trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẵn) của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây là dạng công cụ thống kê thường được dùng để đo lường mức độ tập trung của dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởng của các giá trị đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối với dữ liệu có sự chênh lệch lớn về giá trị ở hay đầu mút của dãy phân phối. - Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo, dạng này thường được dùng đối với dạng dữ liệu thang biểu danh. Giống như trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối. Các tham số thống kê đo lường mức độ phân tán của dữ liệu (Dispersion) Khảo sát hai nhóm các con số sau:: Nhóm 1: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 Nhóm 2: 4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8 Ta thấy số kích thước mẫu của hai nhóm này bằng nhau, các giá trị đo lường mức độ tập trung của dữ liệu như mean, media, mode đều bằng nhau và bằng 6. Tuy nhiên hai dữ liệu này hoàn toàn khác nhau. Nhóm 1 các dữ liệu biến đổi nhiều hơn nhóm 2, điều này có nghĩa các giá trị trong

nhóm 1 phân tán hơn, các giá trị quan sát nằm xa giá trị trung bình của mẫu hơn là nhóm 2. Đo lường độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu. Có một số công cụ đo lường độ phân tán của dữ liệu như: - Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó. Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan sát đối với giá trị trung bình của các quan sát đó. Người ta dùng phương sai để đo lường tính đại diện của giá trị trung bình tương ứng, các tham số trung bình có phương sai tương ứng càng lớn thì giá trị thông tin hay tính đại diện của giá trị trung bình đó càng nhỏ. Phương sai của mẫu được tính bằng công thức sau:

- Độ lệch chuẩn (Standard deviation): Một công cụ khác dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung bình của nó. Độ lệch chuẩn chính bằng căn bậc hai của phương sai. Vì phương sai là trung bình của các bình phương sai lệch của các giá trị quan sát từ giá trị trung bình, việc khảo sát phương sai thường cho các giá trị rất lớn, do đó sử dụng phương sai sẽ gặp khó khăn trong việc diễn giải kết quả. Sử dụng độ lệch chuẩn sẽ giúp dễ dàng cho việc diễn giải do các kết quả sai biệt đưa ra sát với dữ liệu gốc hơn. - Khoảng biến thiên (Range): Là khoảng cách giữa giá trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất. - Sai số trung bình mẫu (Standard Error of Mean): Được dùng để đo lường sự khác biệt về giá trị trung bình của mẫu nghiên cứu này so với mẫu nghiên cứu khác trong điều kiện có cùng phân phối. Nó có thể được dùng để so sánh giá trị trung bình quan sát với một giá trị ban đầu nào đó (giả thuyết). Và ta có thể kết luận hai giá trị này là khác nhau nếu tỷ số về sự khác biệt đối với standard error of mean nằm ngoài khoảng (-2,+2). Công thức tính sai số trung bình mẫu:

Khoảng ước lượng (Confident interval) Là một ước lượng xác định khoảng giá trị đặc trưng của tổng thể có thể rơi vào. Dựa vào dữ liệu mẫu, với một độ tin cậy cho trước ta có thể xác định được giá trị đại diện cho đám đông có thể nằm trong một khoảng ước lượng nào đó. Ví dụ gọi x là mức thu nhập trung bình của đám đông cần ước lượng. Với độ tin cậy của khoảng sát nghiên cứu là 95% (nghĩa là các ước lượng sẽ luôn có một lượng sai số chấp nhận là 5%). Dựa vào mẫu quan sát ta có thể xác định được hai giá trị về thu nhập là a và b sao cho xác suất để thu nhập trung bình đám đông x rơi vào khoảng a và b (a, b) là 95%. Lúc này ta có thể diễn giải rằng với độ chính xác là 95% (hay chấp nhận 5% sai số) ta biết được thu nhập trung bình của đám đông nghiên cứu nằm trong khoảng (a, b). Công thức tính khoảng ước lượng:

Hoặc:

E= p ± t,n-1 Sp

Với p là tỷ lệ % tần suất xuất hiện của một giá trị quan sát Kiểm nghiệm giả thuyết (Hypothesis testing) Bên cạnh việc ước lượng các đặc trưng của tổng thể, các dữ liệu mẫu thu thập được còn được dùng để đánh giá xem một giả thuyết nào đó về tổng thể là đúng hay sai. Ta gọi đó là kiểm nghiệm giả thuyết. Nói cách khác kiểm nghiệm giả thuyết là dựa vào các thông tin mẫu để đưa ra kết luận bác bỏ hay chấp nhận về giả thuyết của tổng thể Ví dụ: Sau một thời gian thực hiện các chương trình, biện pháp marketing (quảng cáo, khuyến mãi,…) công ty muốn đánh giá xem thị phần, doanh

Giả thuyết đã hình thành được gọi là giả thuyết H0 được xem như đúng cho đến khi ta có đủ căn cứ để kết luận khác hơn. màu sắc.Hàng (Row): Đại diện cho một trường hợp quan sát (người trả lời). Màn hình quản lý dữ liệu (data view): Là nơi lưu trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu bao gồm cột. Mỗi hàng chứa đựng tất cả những câu trả lời (thông tin) của một đối tượng nghiên cứu . hay các kiểu dáng. một màu sắc nào đó.Cột (Column): Đại diện cho biến quan sát. Thông tin được xử lý là thông tin định lượng (có ý nghĩa về mặt thống kê) Phần mềm SPSS có tất cả 4 dạng màn hình: 1. Phương pháp kiểm nghiệm giả thuyết sẽ giúp giải quyết nhưng yêu cầu này Để kiểm nghiệm giả thuyết ta phải xây dựng giả thuyết. Ta phỏng vấn bao nhiêu người (tùy thuộc vào kích thước mẫu) thì ta sẽ có bấy nhiêu hàng. Một số giả thuyết thường gặp trong phân tích: Lên trên (top) CHƯƠNG 2: GIỚI THIỆU VỀ PHẦN MỂM SPSS Là phần mềm chuyên dụng xử lý thông tin sơ cấp (thông tin được thu thập trực tiếp từ đối tượng nghiên cứu (người trả lời bảng câu hỏi) thông qua một bảng câu hỏi được thiết kế sẳn. Nếu giả thuyết H0 không đúng thì phải có một giả thuyết nào đó khác H0 gọi là H1 là đúng. mùi vị khác nhau về sản phẩm cuả công ty. hay có đạt được mục tiêu đề ra không. màu sắc khác nhau đều được ưa thích như nhau. Họ thích đặc biệt một kiểu dáng nào đó.số có gì thay đổi so với trước không. hàng và các ô giao nhau giữa cột và hàng . Mỗi cột sẽ chứa đựng tất cả các câu trả lời trong một câu hỏi được thiết kế trong bảng câu hỏi . Hoặc công ty muốn tìm hiểu xem sở thích của người tiêu dùng về kiểu dáng.

Trong màn hình này mỗi hàng trên màn hình quản lý một biến.. . 4. để loại bỏ các biến này ta cần khai báo nó như là giá trị khuyết (user missing). Số lượng con số sau dấu phẩy được hiễn thị (Decimals) .Số lượng con số hiễn thị cho giá trị (Width): Giá trị dạng số được phép hiễn thị bao nhiêu con số. tên biến này sẽ được hiễn thị trên đầu mỗi cột trong màn hình dữ liệu . giữa) .Loại biến (type): Thể hiện dạng dữ liệu thể hiện trong biến. Dạng số.Ô giao nhau giữa cột và hàng (cell): Chứa đựng một kết quả trả lời tương ứng với câu hỏi cần khảo sát (biến) và một đối tượng trả lời cụ thể (trường hợp quan sát) 2.Giá trị khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá trị chỉ mang tính chất quản lý. và được lưu giữ dưới một tập tin khác (có đuôi là .SPO).Giá trị trong biến (Values): Cho phép khai báo các giá trị trong biến với ý nghĩa cụ thể (nhãn giá trị) . và mỗi cột thể hiện các thông số liên quan đến biến đó . không có ý nghĩa phân tích. trái.Dạng thang đo (measures): Hiễn thị dạng thang đo của giá trị trong biến 3.Nhãn của biến (label): Tên biến chỉ được thể hiện tóm tắc bằng ký hiệu. nhãn của biến cho phép nêu rõ hơn về ý nghĩa của biến. Màn hình này cho phép ta xem và lưu giữ các kết quả phân tích. Kích thướt cột (columns): Cho phép khai báo độ rộng của cột Ví trí (align): Vị trí hiễn thị các giá trị trong cột (phải. các kết quả này sẽ được truy xuất ra một màn hình. Màn hình hiễn thị kết quả (output): Các phép phân tích thống kê sẽ cho ra các kết quả như bảng biểu. đồi thị và các kết quả kiểm nghiệm.Tên biến (name): Là tên đại diện cho biến. Màn hình cú pháp (syntax): . SPSS mặc định giá trị khuyến (system missing) là một dấu chấm và tự động loại bỏ các giá trị này ra khỏi các phân tích thống kê. Màn hình quản lý biến (variables view): Là nơi quản lý các biến cùng với các thông số liên quan đến biến. và dạng chuỗi .

Sử dụng công cụ bảng phân bổ tần xuất ngoài việc để đếm số lần xuất hiện của từng giá trị riêng biệt. Tuy nhiên điều quan trọng là xác định xem các giá trị vượt trội đó có phải là giá trị lỗi hay không hay do sự bất thường trong mẫu nghiên cứu: . Do đó gần như là nhiệm vụ đầu tiên của người phân tích dữ liệu là phải tiến hành kiểm tra dữ liệu nhằm xác định ra các lỗi trong dữ liệu đồng thời kiểm tra xem tính tương thích của dữ liệu như thế nào so với những giả thuyết được yêu cầu cho các phân tích thống kê sau này. Đối với các biến dạng biểu danh (nominal) hoặc thứ tự (ordinal) sử dụng công cụ bảng chéo ta có thế xác định được những sự kết hợp phi lý giữa hai hoặc nhiều biến. một số xuất hiện do lỗi nhập máy. Ngoài ra công cụ này còn cho phép ta nhận ra được các giá trị khuyết (Missing values) nhưng lại xuất hiện như là một giá trị hợp lệ (Valid value) . Các cú pháp được lưu trữ sẽ được sử dụng lại mà không cần thao tác các lệnh phân tích lại. 5. Trong những cuộc nghiên cứu qui mô lớn. Khái quát về phân tích dữ liệu 5. lỗi mã hóa. tất cả những lỗi này thường dẫn đến những khác thường hoặc tính đại diện kém của dữ liệu thu thập.  Xác định những giá trị vượt trội (Outliers) và các giá trị lỗi (Roque values) Có nhiều cách để xác định ra các giá trị vợt trội và giá trị lỗi. hoặc do các lỗi về chọn mẫu và chất lượng phỏng vấn. công việc kiểm tra dữ liệu đôi khi còn tốn nhiều công sức và thời gian hơn cả việc phân tích và tóm tắc dữ liệu. Kiểm tra dữ liệu (Data Screening) Một thực tế luôn luôn gặp phải đối với những người làm công tác phân tích và xử lý số liệu là hầu như không lúc nào mà không gặp những vấn đề đối với dữ liệu trong tay họ. nó còn giúp ta tìm ra các giá trị lỗi hoặc các giá trị mã hóa sai sót hoặc không mong đợi (ví dụ như biến giới tính chỉ có hai giá trị mã hóa 1 và 2 tương ứng với giới tính nam và nữ do đó khi khảo sát ta sẽ phát hiện ra các giá trị khác với giá trị mã hóa 1 và 2).1.Màn hình này cho phép ta xem và lưu trữ những cú pháp của một lệnh phân tích.Đôi khi việc xác định các giá trị vượt trội có thể được xác định một cách tốt hơn khi ta khảo sát hai hay nhiều biến cùng một lúc. ví dụ như một người chưa bao giờ .

Ví dụ ta kiểm nghiệm thu nhập trung bình (biến thu nhập) theo hai nhóm giới tinh là nam và giới tính là nữ (biến giới tính sử dụng để chia các giá trị quan sát trong biến thu nhập thành hai nhóm) . Việc sử dụng dạng nào tùy thuộc vào vấn đề ta đang tiến hành so sánh cái gì . 5. Với giả thuyết ban đầu H0 cho rằng giá trị trung bình của hai nhóm này là bằng nhau. cặp mẫu và hai mẫu ngẫu nhiên độc lập Ta có ba dạng kiểm nghiệm t cho việc so sánh các giá trị trung bình của mẫu. Tuy nhiên trước khi bắt tay vào việc mô tả dữ liệu (đo lường độ tập trung hay phân tán.tiêu dùng sản phẩm A nhưng lại tham gia đưa ra những ý kiến mức độ thỏa mãn trong tiêu dùng sản phẩm A. đặc biệt đối với biến định danh mọi sự so sánh hơn kém giữa các giá trị trong biến đều vô nghĩa.Sử dụng kiểm nghiệm t cho hai mẫu ngẫu nhiên độc lập (Independent Samples T Test) là phương pháp nhằm mục đích kiểm nghiệm so sánh giá trị trung bình của một biến riêng biệt theo một nhóm có khác biệt hay không đối với giá trị trung bình của biến riêng biệt đó theo một nhóm khác. và thống kê cung cấp cho ta các công cụ như kiểm nghiệm t (T-Test) hay kiểm nghiệm Z (Z-test)  Kiểm nghiệm t cho một mẫu.3. mối quan hệ giữa các biến …). Ngược lại các biến định lượng như thang đo khoảng cách và thang đo tỷ lệ (Interval và Ratio) thì mọi sự so sánh hay tính toán số học đề có ý nghĩa phân tích thống kê 5. Thống kê mô tả (Descriptive Statistics) Đây có thể được xem là phần cốt lõi và thường gặp nhất trong việc phân tích và xử lý số liệu. cần thiết phải nắm được loại biến đang khảo sát (loại thang đo của biến) hay nói cách khác ta phải nắm được ý nghĩa của các giá trị trong biến Đối với biến định danh hoặc thứ tự (nominal và ordinal) các phép tính toán số học như giá trị trung bình không có ý nghĩa thống kê. tỷ lệ %.2. Kiểm nghiệm các so sánh trung bình mẫu (Tests for Comparing Means) Trong phân tích thống kê người ta thường sử dụng các phép kiểm nghiệm kiểm nghiệm các giả thuyết về giá trị trung bình của các biến định lượng.

ta sử dụng kiểm nghiệm Chi-bình phương để kiểm nghiệm giả thuyết ban đầu cho rằng hai biến thể hiện trong bảng chéo (biến cột và biến hàng) là không có mối quan hệ với nhau (độc lập với nhau). 5.Công cụ kiểm nghiệm t cho cặp mẫu (Paired-Samples T Test) được sử dụng để kiểm nghiệm có hay không giá trị trung bình của các khác biệt giữa các cặp quan sát là khác giá trị 0..Trong kiểm nghiệm tương quan giữa các biến ta sử dụng kiểm nghiệm F kiểm nghiệm giả thuyết ban đầu cho rằng giữa các biến đang khảo sát không có tương quan với nhau (hệ số tương quan R = 0) Lên trên (top) CHƯƠNG 3: CHUẨN BỊ DỮ LIỆU 1.Trong kiểm nghiệm mối quan hệ giữa hai biến. Với giả thuyết ban đầu H0 cho rằng giá trị trung bình các khác biệt này là bằng 0.Công cụ kiểm nghiệm t một mẫu (One-Sample T Test) để kiểm nghiệm có hay không giá trị trung bình của một biến là khác biệt với một giá trị giả định từ trước. Phương pháp phân tích này khảo sát sự biến thiên giữa các trung bình mẫu trong mối liên hệ với sự phân táng của các quan sát trong từng mỗi nhóm. Ví dụ như kiểm nghiệm sự khác biệt về điểm thi môn học của hai nhóm sinh viên có tham gia và không có tham gia chương trình phụ đạo ngoài giờ. . Với giả thuyết ban đầu H0 cho rằng các giá trị trung bình này là bằng nhau.4. Với giả thuyết ban đầu H 0 cho rằng giá trị trung bình kiểm nghiệm là bằng với giá trị giả thuyết đưa ra  Phân tích phương sai một chiều (One-Way ANOVA) Phân tích phương sai là một dạng mở rộng của phương pháp kiểm nghiệm t hai mẫu ngẫu nhiên độc lập (Independent-Samples T Test). và được sử dụng để kiểm nghiệm cho nhiều hơn hai nhóm. . Kiểm tra và hiệu đính dữ liệu Đây là bước kiểm tra chất lượng thông tin trong bảng câu hỏi nhằm bảo đảm không có bảng câu hỏi nào thiếu hoặc chứa đựng những thông tin sai . Kiểm nghiệm các mối quan hệ (Testing Relationships) Kiểm nghiệm mối quan hệ giữa hai biến và kiểm nghiệm mối tương quan với cường độ tương quan và chiều của tương quan giữa các biến trong cơ sờ dữ liệu .

do yêu cầu nghiên cứu sẽ có những đường dẫn. rà soát lại bản câu hỏi là nhằm mục đích kiểm tra. .Loại bỏ toàn bộ bản câu hỏi 2.Tính đầy đủ của một câu trả lời và của một bảng câu hỏi: Một bảng câu hỏi chỉ có giá trị nếu như tất cả những câu hỏi theo yêu cầu đều được trả lời đầy đủ. Tính logic của câu trả lời còn phụ thuộc vào sự kết dính và liên hệ lẫn nhau giữa các câu hỏi trong một bảng câu hỏi (đôi khi một câu trả lời là có ý nghĩa nếu đứng riêng một mình nó những lại vô nghĩa nếu kết hợp so sánh với các câu trả lời trước hoặc sau nó). sửa chửa và thông báo kịp thời cho người thu thập dữ liệu tránh những sai sót tiếp theo. một giá trị nghiên cứu nhất định. đặc biệt là các câu hỏi chấm điểm.Suy luận từ các câu trả lời khác . Mã hoá dữ liệu . Người kiểm tra phải bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi & từng câu trả lời trong bảng câu hỏi. câu hỏi mở và các câu hỏi mang tính logic. ta có thể lựa chọn cách xử lý như sau tùy thuộc vào mức độ sai sót cụ thể: . do đó thiếu một câu trả lời nào đó cho một câu hỏi cụ thể nào đó sẽ làm mất đi giá trị của bảng câu hỏi đó. Kiểm tra tính logic của bảng câu hỏi cho phép nhà nghiên cứu loại bỏ những câu trả lời thừa. do đó tính chân thực và hợp lý của câu trả lời cũng quyết định đến giá trị của câu trả lời và của bảng câu hỏi. cũng như kịp thời bổ xung những phần thiếu trong bảng câu hỏi. bước này cần thiết được thực hiện trước khi tiến hành mã hóa và nhập dữ liệu vào máy tính. Mỗi câu hỏi trong bảng câu hỏi đều có một ý nghĩa. những điều kiện đễ người trả lời hoặc có thể trả lời tất cả các câu hỏi hoặc có thể bỏ qua một vài câu hỏi nào đó.Trả về cho bộ phận thu thập dữ liệu để làm sáng tỏ vấn đề . phát hiện. Quá trình kiểm tra. Để xử lý các lỗi trong kiểm tra và hiệu đính.sót theo yêu cầu thiết kế ban đầu.Tính hợp lý và xác thực của các câu trả lời: Một câu trả lời đầy đủ chưa hẳn là câu trả lời có giá trị. . Thông thường bước này nhàn nghiên cứu sẽ tiến hành kiểm tra những đặc tính sau của bảng câu hỏi: .Tính logic của các câu trả lời: Đôi khi trong bảng câu hỏi.

người trả lời chỉ việc lựa chọn câu trả lời nào phù hợp nhất với ý kiến của mình. Mục đích của mã hóa là tạo nhãn cho các câu trả lời. xác định loại câu trả lời cho những câu hỏi tương ứng. . Các bảng câu hỏi nhận về thường có những câu trả lời rất khác nhau và rất đa dạng. các câu trả lời được liệt kê và tiến hành nhóm các câu trả lời theo những nhóm đặc trưng (có cùng ý nghĩa) .Mã hoá: Trong bảng câu hỏi ngoài những câu hỏi đóng nêu ở trên.Cuối cùng. tóm tắc và phân tích sau này. Khái niệm về biến và các giá trị trong biến Biến là tập hợp những trả lời cho một câu hỏi. Những câu trả lời này có thể thu thập từ một mẫu các bảng câu hỏi đã hoàn tất. một giá trị. còn những câu hỏi mở. là những câu hỏi mà người trả lời tự do đưa ra câu trả lời theo suy nghĩ và diễn giãi của chính họ. Do đó công việc mã hóa những câu trả lời này thì cần thiết cho quá trình kiểm tra. từng mẫu đại diện với các giá trị đại diện tương ứng nhằm làm cho quá trình tóm tắc. những nhóm câu trả lời này được gán cho một nhãn hiệu.Là quá trình chuyển dịch câu trả lời thực của người trả lời vào từng nhóm. thừơng là bằng các con số. thường là một con số cụ thể Lên trên (top) CHƯƠNG 4: ĐỊNH BIẾN VÀ NHẬP DỮ LIỆU 1.Tiền mã hóa: Là việc mã hóa cho các câu hỏi đóng. nhập liệu.Đầu tiên. ở giai đoạn thiết kế bảng câu hỏi. thường là 25% trên tổng số bảng câu hỏi . Tiền trình mã hóa có thể được tiến hành như sau: . do đó việc mã hóa cho các câu hỏi này thường được tiến hành từ trước. phân tích và nhập liệu được dễ dàng và hiệu quả hơn. Có hai dạng mã hóa: . Có hai loại biến như sau:  Phân loại biến theo số lượng câu trả lời: Biến một trả lời: Biến dành cho câu hỏi có một trả lời .Bước tiếp theo là xây dựng một danh sách liệt kê các câu trả lời. Mã hóa còn giúp giảm thiểu số lượng các câu trả lời bằng cách nhóm các câu trả lời vào những nhóm có cùng ý nghĩa. Do đặc điểm của các loại câu hỏi này là nhà nghiên cứu đã có sẵn các câu trả lời từ trước.

do đó biến chứa đựng câu trả lời của câu hỏi 1 là biến một trả lời.V Có thể thấy đối với câu hỏi 1. bạn biết được những nhãn hiệu nào trong danh sách liệt kê dưới đây Nhãn hiệu Ericson Motorola Nokia Siemens Panasonic …. ta gọi biến đó là biến nhiều trả lời.V. Trong khi xem xét câu hỏi 2.Câu hỏi 2: Nói đến điện thoại di động.  Phân loại biến theo kiểu dữ liệu: code 1 2 3 4 5 .Câu hỏi 1: Hãy cho biết bạn ở nhóm tuổi nào trong số những nhóm tuổi sau: Nhóm tuổi Dưới 18 19 đến 30 31 đến 40 41 đến 50 Trên 50 2 3 4 5 code 1 . do đó phải có nhiều biến chứa đựng các trả lời có thể có. người trả lời chỉ có thể đưa ra một câu trả lời duy nhất về tuổi của mình.Biến nhiều trả lời: Các biến dành cho nhiều câu trả lời có thể có trong một câu hỏi nhiều trả lời Ví dụ như trong bảng câu hỏi có hai câu hỏi sau: . người trả lời có thể nêu ra nhiều nhãn hiệu mà họ có biết qua..

Ngoài ra việc xác định ra tỷ số chênh lệch giữa các giá trị là có thể thức hiện do ở thang đo này điểm 0 được xác định một cách có ý nghĩa. đối với biến định tính ta không thể sử dụng các phép toán (cộng. Việc xác định dạng biến theo cách này cho phép ta lựa chọn được tham số thống kê tương thích để phân tích. trừ. Từ bốn dạng thang đo trên ta phân ra hai loại biến. Biến định tính là biến chứa các giá trị quan sát ở dạng thang đo biểu danh và thứ tự.Thang đó khoảng cách (Internal Scale): Giống như đặc tính của thang đo thứ tự. Đối với loại thang biểu danh các giá trị số được sử dụng như là ký số nhận dạng và không có giá trị về một thứ tự cao thấp và và độ lớn giữa các con số . ngược lại biến định lượng cho phép ta thao tác các phép toán trên các giá trị mà nó đại diện. Để xác định được biến là định lượng hay định tính đói hỏi phải xác định các giá trị trong biến thuộc dạng thang đo nào trong bốn dạng thang đó sau: . .Thang đo tỷ lệ (ratio): Đây là thang đo có đủ các đặc tính thứ tự và khoảng cách. nhưng không diễn tả được độ lớn giữa vị trí cao thấp giữa các con số. chia) để tính toán các giá trị trên biến đó. nhân. các giá trị quan sát có ý nghĩa khác biệt nhau. Còn biến định lượng là biến chứa các giá trị có dạng thang đo khoảng cách và tỷ lệ. . Tóm lại thang đó thứ tự bao gồm cả thông tin về biểu danh đồng thời cung cấp luôn mối quan hệ theo thứ tự giữa các giá trị nhưng không đo được khoảng cách giữa các giá trị đó.Thang đo thứ tự (Ordinal Scale): Trong dạng thang đo này dữ liệu được xắp xếp các giá trị quan sát theo một thứ tự cao thấp nhất định. Tuy nhiên do thang đo khoảng cách không xác định được điểm 0 chung (giống như thang đo nhiệt độ) do đó ta chỉ có thể nói giá trị này lớn hơn giá trị kia bao nhiêu đơn vị nhưng không thể kết luận giá trị này lớn hơn giá trị kia bao nhiêu lần. . tuy nhiên đối với thang đó khoảng cách cho phép ta đo được khoảng cách giữa các giá trị.Có hai loại biến chính là biến định tính và biến định lượng.Thang đo định danh (Nominal Scale): Trong dạng thang đo này các con số được sử dụng đơn thuần như một giá trị xác định sự khác biệt cho các câu trả lời.

q4a. ta phải tiến hành định biến cho dữ liệu. dạng ngày (Date) hoặc dạng . thông thường nên đặt theo thứ tự câu hỏi trong bảng câu hỏi như q1. Để các con số này có thể nhập vào máy tính và có thể quản lý cũng như có ý nghĩa trong SPSS. (*). Sau khi được mã hóa các dữ liệu sẽ được đại diện bằng những con số và các con số này có ý nghĩa khác nhau tùy theo câu trả lời thu thập được. WITH - Hình 4-1 Định ra kiểu biến (Type): Có các dạng biến sau có thể định dạng. (?). Dạng tiền tệ.  Tên biến không được qua 8 ký tự  Không được chứa khoảng trắng và các ký tự đặc biệt như (!).2.  Các từ khóa sau đây không được dùng làm tên biến: ALL. AND. EQ. BY OR. GT. Công việc định biến này có thể được thực hiện trước khi tiến hành nhập dữ liệu vào trong máy Mục đích của việc đình biến là gán nhãn và các thông số cho các biến và gán ý nghĩa cho các giá trị trong biến. NE. Phương pháp định biến trên SPSS (Define Variable) Định biến trong màn hình quản lý biến (variables view). Tên biến bị hạn chế về số ký tự hiển thị. GE. TO. LT. …Có một số qui ước sau đây phải tuân theo khi khai báo tên biến:  Bắt đầu bằng một chử cái và không bắt đầu bằng dấu chấm(.).Gán tên cho biến (Name): Ta gõ tên biến cần khai báo vào cột đầu tiên trong màn hình Variables view (Nếu ta không gõ tên biến vào thì SPSS sẽ mặc định tên biến này là Var000001). LE. Tên biến được khai báo này sẽ hiển thị trên đầu các cột trong màn hình Data view. Qui trình định biến này bao gồm các bước sau: . do đó cần thiết phải khai báo ngắn gọn và dễ gợi nhớ. NOT. q3. Dạng con số (numeric).

mà ta sẽ định loại biến cho biến. hàng triệu. - . Hiễn thị ngày. dollar và các kiểu tiền tệ khác. Ngoài ra phần này cũng cho phép ta định dạng các dạng số được hiễn thị khác nhau (Xem hình 4-1) Tùy thuộc vào yêu cầu của dữ liệu. hàng trăm. công cụ này giúp ta hiểu được ý nghĩa của biến đang khảo sát dễ dàng hơn trong quá trình phân tích. Nhưng để cho quá trình đọc và phân tích các kết quả nghiên cứu dễ dàng hơn ta phải gán các con số này các ý nghĩa như nó mà nó đang đại diện. SPSS mặc định loại biến là kiểu số (numeric). Xác định số lượng con số hiễn thị cho giá trị (Width) và số lượng con số sau dấu phẩy hiển thị (Decimals): Khai báo bề rộng của con số (hàng đơn vị. công cụ định lại nhãn cho giá trị cho phép ta thực hiện điều này (Xem hình 4-2): Gán nhãn của giá trị (value lables) có ba thao tác: o Gán một nhãn mới: • Nhập giá trị vào hộp thoại Value . - Hình 4-2 Định tên cho các giá trị trong biến (Value lables): Trong quá trình mã hóa dữ liệu ta đã gán các giá trị trong biến thành các con số đại diện. …) trong ô Width. cách hiễn thị theo các ký hiệu khoa học (Scientific notation). Và khai báo số con số thập phân sau dầu phẩy trong ô Decimal.chuỗi (String). ngoài ra còn có thể khai báo các kiểu hiễn thị số khác nhau như kiểu số có dấu phẩy (Comma) hay dấu chấm (Dot) ngăn cách giữa các khoảng cách hàng ngàn của con số.Gán nhãn cho biến (Variable Label): Đặt tên nhãn cho biến một cách đầy đủ hơn. tên biến này sẽ hiễn thị ý nghĩa của biến trên các kết quả phân tích trong màn hình kết quả (output). cuối cùng là cách hiễn thị dạng chuổi.

(Xem hình 4-3) SPSS mặc định là không có khai báo giá trị khuyết. Có ba cách để khai báo các giá trị khuyết (1) hai báo bằng 3 giá trị rời rạc (Discrete missing values) (2) Khai báo một chuổi liên tục các giá trị (Range of missing values) .• • • • • • Nhập nhãn của giá trị vào hộp thoại Value Label An nút Add để xác định nhãn đó Di vệt sáng đến nhãn cần sửa đổi Nhập tên nhãn mới. Trong quá trình phân tích để loại bỏ tất cả các trường hợp này ra khỏi các xử lý thống ke. Ví dụ trong câu hỏi về thu nhập. sẽ có một số trường hợp từ chối trả lời tương ứng với giá trị mã hóa là 99. ấn nút Change để thay đổi Di vệt sáng đến nhãn cần loại bỏ An nút Remove để loại bỏ o Sữa đổi một nhãn: o Loại bỏ một nhãn: Hình 4-3 Định nghĩa các giá trị khuyết (Missing Values): Được dùng để định ra các giá trị cụ thể cho các giá trị mà ta muốn loại bỏ ra khỏi các phân tích và xử lý thống kê sau này hay còn gọi là các giá trị khuyết. ta phải tiến hành khai báo giá trị 99 là giá trị khuyết trong phần giá trị khuyết (Missing values).

Mn hình ny thể hiện ra một ma trận thông tin bao gồm: cột v hng. trái. tn biến v số hiệu hng được hiện ở gĩc tri của cửa sổ. l phần giao nhau giữa cột v hng. Phần ny đ được đề cập chi tiết trong phần định biến.G gi trị cần nhập vo khung đ chọn. Lên trên (top) . nhằm bảo đảm tính tương thích cho việc phn tích sau ny. giữa) . Thơng thường cc kiểu biến được khai bo l dạng chuổi (ngắn tối đa 8 ký tự) hoặc dạng số.Định ra dạng thang đo mà biến thể hiện (measurement): Tùy thuộc vào dạng thang đo được sử dụng trong biến mà ta khai báo trong công cụ measurement.Định kích cỡ cho cột (Colum format): Định ra chiều rộng của cột đang khai báo biến . ….Chọn ơ cần nhập dữ liệu. chú ý khai báo scale được dùng chung cho dạng thang đo khoảng cách và thang đo tỷ lệ. Nhập dữ liệu Dữ liệu cần nhập sẽ được nhập vo trong mn hình Data views. Để định nghĩa các giá trị vô nghĩa và các giá trị trống là giá trị khuyết ta phải nhập vào một khoảng trống vào trông ô định ra các giá trị khuyết riêng biệt . Việc khái báo này chỉ mang tính chất quản lý không ảnh hưởng đến kết quả phân tích 3. . v ơ giao nhau giữa cột v hng.Khai bo tn biến chứa đựng thơng tin cần nhập vo thanh bn trn mỗi cột (tn mặc định của cc cột ny trong SPSS l var00001.Định ra vị trí hiễn thị các giá trị (align): Vị trí hiển thị các giá trị trong cột (phải. Ta cũng cĩ thể nhập liệu từ cc phần mềm khc như Excel. Fox. … v sau đĩ chuyển vo trong SPSS. var0000x). (Xem hình 2-1) Dữ liệu được nhập theo trình tự sau: . Ch ý khi nhập dữ liệu phải bảo đảm đng với kiểu biến đ được định nghĩa. Toàn bộ các giá trị vô dụng hoặc trống đều được xem là có nghĩa. gi trị ny được hiện trong thanh sữa đổi (cell editor) nằm ở trn cửa sổ.(3) Khai báo một chuổi các giá trị khuyết và một giá trị khuyết riêng biệt (Rang plus one discrete missing value) Đối với dữ liệu dạng chuỗi. Ơ cần nhập sẽ cĩ khung viền chung quanh bo cho người nhập biết đĩ l ơ đang hoạt động. .

Tivi và tạp chí. SPSS cung cấp cho ta hai loại Recode là Recode trên cùng một biến (Recode into same variables) và recode vào biến khác (Recode into different variable). Trên đài HTV7. Tuổi Trẻ.CHƯƠNG 5: CÁC PHÉP BIẾN ĐỔI VÀ THAO TÁC TRÊN TẬP DỮ LIỆU 1. Ví dụ đối với câu hỏi nguồn gốc nhận biết quảng cáo của sản phẩm X. … Có thể ban đầu các nguồn quảng cáo được mã hóa một cách riêng biệt. Tạp Chí và Tivi. Công cụ Recode cho phép ta định lại các giá trị riêng biệt về nguồn quảng cáo ban đầu thành ba nguồn quảng cáo chung là Báo. Phương pháp này được thực hiện qua các bước sau: . Mã hóa lại trên cùng một biến (Recode into same variables) Recode trên cùng một biến là mã hóa lại những giá trị trong một biến hiện hữu thành những giá trị mới và các giá trị mới này sẽ nằm ngay trong biến hiện hữu và thay thế các giá trị củ trên biến đó. Tuy nhiên do nhu cầu xử lý sau này. Trên đài VTV3. người trả lời có thể trả lời cụ thể trên báo Sài Gòn. Khi sử dụng công cụ này ta sẽ mất đi các giá trị đã khai báo ban đầu trong biến mà ta thực hiện lệnh Recode. Tạp chí Sức Khỏe và Đời sống. 1. người nghiên cứu muốn nhóm các giá trị được mã hóa riêng biệt này thành ba loại nguồn quảng cáo chính là Báo. Mã hóa lại (Recode) Recode là công cụ dùng để mã hóa lại các giá trị trong một biến thành các giá trị mã hóa mới phù hợp với đòi hỏi của quá trình phân tích dữ liệu.1. do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến). Chú ý các giá trị vừa được tạo ra chưa có nhãn.

Nhấn thanh Add để lưu sự chuyển đổi này. một dãy các giá trị(Range). Các giá trị chuyển đổi có thể sửa chữa hoặc loại bỏ bằng cách di chuyển vệt tối đến biểu thức thể hiện sự chuyển đổi trong hộp . Giá trị cũ này có thể là một giá trị đơn lẻ(Value). Ta có hộp thoại như hình 5-1: Hình 5-2 Chuyển các biến cần mã hóa lại sang hộp thoại variables. một giá trị khuyết mặc định hay giá trị khuyết khai báo (System-missing or User-missing). hoặc toàn bộ các giá trị nào đó trong biến (All other values). Ta có hộp thoại Old and New values như hình 5-2: Old value dùng để khai báo giá trị cũ cần chuyển đổi.Hình 5-1 Chọn transform/recode từ thanh menu chính. Ở đây ta lựa chọn Recode into same variable để tiến hành định lại giá trị của biến trên cùng một biến. nhấn thanh Old and New Values để chuyển các giá trị củ cần thay đổi thành các giá trị mới. New value dùng để khai báo giá trị mới sẽ thay thế cho giá trị củ tương ứng.

2. Hộp thoại If Cases như hình 5-3: .Trong hộp thoại If Cases.HCM (có giá trị mã hóa là 2) ta khai báo biểu thức điều kiện như sau kvuc = 2. Lúc này phép định lại giá trị của biến nói trên chỉ được thực hiện đối với các quan sát nào thỏa mãn được biểu thức điều kiện được thể hiện trong hộp thoại điều kiện này. ta có thể dùng công cụ if để định ra các điều kiện cho lệnh recode. mặc định là không có điều kiện nào cả. Ví dụ chỉ thực hiện lệnh recode đối với những trường hợp quan sát ở khu vực (biến kvuc) TP. 1. ở đây hiển thị là Include all cases. Hình 5-3 Nếu việc định lại giá trị của các giá trị của biến có một số điều kiện kèm theo. Mã hóa lại vào một biến khác (Recode into different variables) . Chuyển tên biến cần định lại các giá trị vào hộp thoại bên phải. Chọn lệnh include if case satisfies conditionđể xác định các điều kiện trong việc định lại giá trị của biến.thoại Old->New và nhấn thanh Change cho sự thay đổi hoặc Remove để loại bỏ. phép định lại giá trị của biến được thực hiện cho tất cả các quan sát.

Chú ý các giá trị vừa được tạo ra chưa có nhãn. Công cụ này có ưa điểm là ta vừa tạo ra được một biến mới với các giá trị được mã hóa theo cách mới nhưng đồng thời vẫn giữa được biến gốc với các giá trị mã hóa ban đầu. Công cụ tự động mã hóa lại (Automatic Recode) .Các công cụ If và Old and New Values cũng có ý nghĩa và thao tác tương tự như trường hợp định lại giá trị cho cùng một biến. Khai báo tên biến mới và nhãn biến mới sẽ chứa các giá trị vừa được mã hóa lại trong hộp thoại Output variable. đã được đề cập ở phần trên. Trong khi với phương pháp mã hóa lại dữ liệu trên cùng một biến. Nhấn thanh change để xác nhận sự khái báo này. . các giá trị mã hóa mới sẽ chồng lên các giá trị cũ và ta đã mất đi các giá trị mã hóa ban đầu trên biến đó. 2.Chuyển tên biến cần định lại giá trị vào trong hộp thoại variables. do đó sau khi thực hiện lệnh ta phải tiến hành khai báo nhãn cho giá trị (đã đề cập trong phần khai báo biến).Hình 5-4 Trong trường hợp định lại các giá trị hiện tại của một biến thành các giá trị mới trong một biến mới ta sẽ lựa chọntransform/recode/into different variable và ta có hộp thoại như hình 5-4: Sử dụng phương pháp recode vào một biến mới máy tính sẽ tự động tạo ra một biến mới trên cơ sở dữ liệu để chứa các giá trị mới vừa được tạo ra. đồng thời ta cũng vẫn lưu giữ được biến củ với các giá trị mã hóa củ trên cơ sở dữ liệu. Việc mã hóa lại các giá trị vào trong một biến mới được thực hiện qua các bước sau: .

Các thao tác thống kê trong SPSS lúc này chỉ thực hiện trên các trường hợp được lựa chọn. Đối với cách Recode này các giá trị nguyên thủy (quận 1. Deleted cho phép loại bỏ toàn bộ các trường hợp không được chọn ra khỏi dữ liệu. Tân Bình. Quận 2.Là phương pháp mã hóa tự động các giá trị dạng chuổi sang dạng số vào trong một biến mới. Do đó sau khi thực hiện việc phân tích trên các trường hợp được lựa chọn. Trong phần Unselected Cases cho biết trạng thái của các trường hợp không được lựa chọn. Bên phải hộp thoại liệt kê các dạng lựa chọn. Quận 1. Ví dụ khi ban đầu ta nhập dữ liệu địa bàn nghiên cứu (quận) như Bình Thạnh. Select Cases tạo ra một biến lọc (FILTER_$). ta cần trả dữ liệu lại trạng thái ban đầu (kh6ng có lựa chọn các trường hợp) bằng cách chọn All Cases trong phần Select của hộp thoại Select Cases. quận 2 là 2. Lựa chọn All Cases là trạng thái lựa chọn mặc định và ở trạng thái này có ý nghĩa là toàn bộ các trường hợp quan sát đang được lựa chọn. Quận Tân Bình là 19. Các giá trị dạng chuổi được mã hóa theo thứ tự alphabe. Ta có thể recode các giá trị này thành các giá trị số như 1. Ta cũng có thể dùng phương pháp này để lựa chọn một mẫu ngẫu nhiên các trường hợp quan sát từ tổng thể dữ liệu. …) sẽ được sữ dụng như là nhãn của giá trị đã được recode trong biến mới được tạo ra từ lệnh Automatic Recode. Để thực hiện lệnh lựa chọn các quan sát này ta chọn Data/select casestừ menu ta sẽ có hộp thoại như hình 5-5: Trong hộp thoại Select Cases các biến được liệt kê ở bên trái hộp thoại. Biến mới này sẽ chứa các con số nguyên liên tục. 3. … ở dạng chuổi. . Chú ý sau khi thực hiện việc chọn lựa các trường hợp. quận 2. 3 một các tự động bằng công cụ Automatic Recode. với các trường hợp được chọn có giá trị 1 và các trường hợp không được chọn có giá trị 0. mỗi con số nguyên trong biến mới sẽ đại diện cho các giá trị dạng chuổi giống nhau . Lựa chọn các quan sát (Select Cases) Công cụ Select Cases đưa ra một vài phương pháp cho phép ta lựa chọn ra những nhóm nhỏ các trường hợp quan sát dựa trên tiêu chuẩn hay điều kiện cụ thể. 2. như Quận 1 được chuyển thành 1. Và mỗi con số nguyên này sẽ đại diện cho từng địa bàn nghiên cứu. …. Filtered chỉ ra các trường hợp không được chọn vẫn được giữ lại trong tập tin nhưng sẽ bị loại trừ ra mọi phân tích thống kê.

Lúc đó các trường hợp nào thỏa mãn điều kiện Gtinh=1 sẽ được lựa chọn. … . Nếu kết quả của biều thức điều kiện là đúng. các hằng số. Hiễn thị biểu thức điều kiện như sau Gtinh=1.Hình 5-5 Để nhận biết được các trường hợp nào được chọn hoặc không được chọn ta có thể nhìn vào các giá trị trong biếnFILTER_$. Với các trường hợp không được lựa chọn sẽ có một gạch chéo trong thanh số thứ tự hàng bên trái màn hình (Xem hình 20).Lựa chọn công cụ If conditions are satisfied (xem hình 5-6) cho phép ta lựa chọn các trường hợp dựa trên các biểu thức điều kiện. Nếu kết quả này là sai hoặc thiếu thì các trường hợp đó không được chọn. các trường hợp được chọn có giá trị 1 và những trường hợp không được chọn có giá trị 0. các con số. Có thể dùng công cụ Sort Cases để xắp xếp theo thứ tự các trường hợp được chọn hay không được chọn (Sort cases theo biến FILTER_$). Hoặc ta có thể nhìn vào màn hình Data để phân biệt các trường hợp. Ta tiến hành chọn các trường hợp là Nam bằng cách chọn biến giới tính trong hộp bên trái và chuyển sang hộp bên phải. Ví dụ đối với biến giới tính (GTinh)có hai giá trị là Nam: 1 và Nữ: 2. trường hợp đó được lựa chọn. các hàm số. Để tiến hành chọn lựa các trường hợp ta có thể dùng các cách sau: . các toán tử. Các biểu thức điều kiện có thể bao gồm tên biến. Một biểu thức điều kiện cho ta các giá trị đúng hoặc sai của các trường hợp.

Hình 5-6 - Công cụ random sample of cases (hình 5-7) cho phép chúng ta lựa chọn một mẫu ngẫu nhiên dựa trên một tỷ lệ phần trăm hoặc một số chính xác các trường hợp sẽ lựa chọn. - Công cụ Base range (hình 5-8) cho phép lựa chọn các trưòng hợp theo số thứ tự hàng hiễn thị bên trái màn hình dữ liệu của SPSS

Hình 5-7

Hình 5-8

4. Tách tập dữ liệu (Split File) Công cụ Split File cho phép tách dữ liệu trong tập dữ liệu đang quan sát thành những nhóm nhỏ riêng biệt và sau khi thực hiện lệnh Split file này các phân tích xử lý thống kê sẽ cho ta các kết quả thống kê đã được thực hiện riêng biệt theo từng nhóm nhỏ dữ liệu này.

Hình 5-9 Để thực hiện lệnh này ta chọn Data/Split File từ menu ta có hộp thoại như hình 5-9. Việc phân tách này dựa trên việc phân dữ liệu thành những nhóm tương đương với các giá trị trong biến được lựa chọn để tiến hành phân nhóm. Được sử dụng cho việc phân tích dựa trên những giá trị của một hay nhiều biến đã được phân nhóm. Nếu ta lựa chọn việc phân tách dựa trên nhiều biến, dữ liệu sẽ được nhóm theo thứ tự biến được khai báo trong hộp thoại Groups Based On list. - Chọn Compare groups: Các dữ liệu phân tích sẽ được tách theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị trong hộp Groups Based On list), và việc tách này mang tính chất so sánh do đó khi tiến hành phân tích dữ liệu các phân tích dựa trên sự phân tách này những vẫn được thể hiện trên cùng một bảng. - Chọn Organize output by groups: Các dữ liệu phân tích sẽ được tách theo các giá trị của biến được lựa chọn để tách dữ liệu (hiễn thị trong hộp Groups Based On list), và việc tách này mang tính chất tổ chức lại dữ liệu thành những nhóm nhỏ do đó khi tiến

hành phân tích dữ liệu các phân tích dựa trên sự phân tách và được thể hiện một các riêng biệt giữa các nhóm phân tách Chú ý sau ki tiến hành phân tích trên sự phân tách, để trở lại trạng thái bình thường của dữ liệu đòi hỏi phải bỏ đi lệnh tách dữ liệu vừa đưa ra bằng cách chọn phần Analyze all cases, do not create groups trong hộp thoại Slipt Files 5. Công cụ tính toán giữa các biến (Compute) Công cụ compute được dùng để tính toán giữa các giá trị trong các biến và kết quả sẽ được lưu giữ trong một biến mới hoặc là một biến khác sẳn có hoặc biến chứa đựng giá trị đang tính toán.

Hình 5-10 Để thực hiện công cụ này ta truy xuất công cụ compute variable từ transform trên thanh menu ta có hộp thoại như hình 5-10: - Target variable chứa đựng tên biến sẽ nhận giá trị được tính. Ta có thể khái báo kiểu và gán nhãn cho các giá trị của biến bằng cách nhấn vào thanh Type&lable. Ô Numeric Expression chứa đựng các biểu thức số được dùng để tính giá trị cho biến đích (biến chứa đựng giá trị mới, biểu thức này có thể dùng tên các biến sẵn có, các hằng, các toán tử và các hàm số. Chúng ta co thể soạn các biểu thức tính toán vào thẵng ôNumeric Expression, và có thể sử dụng các công cụ được hiển thị trong hộp thoại như các phiếm (+), (-), Function,…

Công cụ đếm (Count) Hình 5-11 Công cụ này được dùng để tạo ra một biến mới chứa kết quả số lần xuất hiện (số đếm) của một giá trị hay nhiều giá trị được chỉ định ra trong danh sách các biến được chọn trong ơ variables trong mỗi trường hợp. đã được đề cập ở phần trên. Từ menus ta chọnTransform/count để có được hộp thoại như hình 5-11 Một biến mới sẽ được tạo ra khi ta thực hiện thủ tục Count gọi là biến đích (Taget variable) sẽ chứa đựng giá trị cộng dồn mỗi khi gặp được giá trị cần đếm trong một hoặc nhiều biến đã được khai báo trước trong hộp thoại Numeric variables.. Hình 5-12 .Công cụ if dùng để định ra những điều kiện cần thiết kèm theo trong tính toán nếu có. được sử dụng giống nhứ giống như công cụ if trong hộp thoại recode. 6.

Đà Nẵng. loại biến và số lượng biến trong cả ba khu vực trước khi nhập 3 file này lại với nhau. và ta phải tiến hành lưu và khai báo tên mới) sẽ được tạo ra chứa các dữ liệu trong cả hai tập dữ liệu vừa được hợp lại với nhau. hoặc những giá trị rỗng (System missing) hoặc là một dãy các giá trị (range). Chú ý phải thống nhất về các tên biến. Cả hai đều tạo ra một tập dữ liệu mới có thể chứa tất cả các quan sát được hợp lại hoặc tất cả các biến đưọc hợp tùy theo ta chọn Add Cases hay Add Variables 7. Sau khi khai báo giá trị cần đếm ta dùng thanh Add để xác nhận giá trị cần đếm vào trong hộp thoại Values to count. Sử dụngChange hoặc Remove để thay thế hoặc loại bỏ giá trị cần đếm (giá trị đã được đánh dấu bằng vết đen).Giá trị cần đếm sẽ được định rõ trong phần Define values (hình 5-12). Công cụ If dùng để xác định các điều kiện nếu có khi thực hiện lệnh Count (giống như công cụ if trong phần recode đã đưọc đề cập ở trên). Công cụ này rất thích hợp cho việc hợp nhất dữ liệu nghiên cứu ở các khu vực khác nhau. Trong trường hợp hai tập dữ liệu hợp với nhau nhưng có các biến khác nhau (khác nhau về tên biến hoặc loại biến) thì sau khi hợp tập dữ liệu mới sẽ tự động loại bỏ các biến khác nhau này. với điều kiện tập dữ liệu đó phải chứa các biến giống như biến trong tập dữ liệu đang hoạt động.1. Giá trị khai báo để đếm có thể là những giá trị cụ thể nàu đó (Value). Thêm vào các quan sát (Add Cases) Công cụ Add Cases cho phép ta hợp dữ liệu trong tập dữ liệu đang hoạt động với dữ liệu trong một tập dữ liệu bên ngoài. ví dụ như một cuộc khảo sát được tiến hành ở ba khu vực Hà Nội. chỉnh sửa cho ba khu vực riêng biệt.HCM. . Hoặc hợp các biến mới trong tập dữ liệu bên ngoài vào tập dữ liệu đang hoạt động. Tuy nhiên sau đó ta có thể tiến hành hợp dữ liệu ở ba khu vực này vào một tập dữ liệu thống nhất để tiến hành phân tích và xử lý. Sau khi thao tác. ta có thể sẽ bị mất dữ liệu chứa trong các biến bị loại bỏ này. dữ liệu thu thập về sẽ được nhập. và TP. một tập dữ liệu mới (chưa được khai báo tên. Hợp nhất các tập dữ liệu (Merge files) SPSS cho phép ta hợp các dữ liệu quan sát từ trong một tập dữ liệu bên ngoài vào tập dữ liệu đang sử dụng. 7.

Nhấn Open để xác nhận việc lựa chọn này Hình 5-14 Sau khi lựa chọn xong tập dữ sẽ được kết hợp. Những biến được liệt kê trong hộp .Hình 5-13 Chọn Data/Merge Files/Adds Cases (Xem hình 5-13) Hộp thoại Read File cho phép ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt động (working file). ta sẽ có một hộp thoại mới như hình 5-14:  Unpaired Variables: liệt kê các biến không giống nhau giữa hai tập dữ liệu đang được tiến hành hợp nhất lại. Các biến này được ký hiệu khác nhau với ký hiệu (*) đại diện cho các biến trong tập dữ liệu đang hoạt động và (+) đại diện cho các biến trong tập dữ liệu được truy xuất từ bên ngoài. các biến không giống nhau này sẽ bị loại ra và không có trong tập dữ liệu mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu.

2. Hoặc ta có thể dùng công cụ Rename để khai báo lại tên biến hoặc kiểu biến cho giống nhau. điều này đồng nghĩa ta bị mất dữ liệu sau khi hợp nhất. nhưng khác nhau về biến (khai báo tên biến khác với tập tin đang được sử dụng).thoại Unpaired Variables là những biến có những đặc điểm như sau: Hai biến có tên biến được khai báo khác nhau Những biến có dạng dữ liệu khác nhau . quá trình này sẽ tạo ra một tập dữ liệu mới chứa cùng các quan sát nhưng tập hợp tất cả các biến khác nhau trong hai tập dữ liệu ban đầu. Bằng cách đánh dấu các biến đó (trong ô variables in new data working file) và chuyển sang ô Unpaired Variables 1.Cả hai biến biến cùng là dạng chuổi nhưng lai không bằng nhau về số ký tự trong chuổi. Thêm vào các biến (Add Variables) Công cụ Add Variables cho phép hợp nhất dữ liệu trong tập tin đang hoạt động với một tập tin bên ngoài với điều kiện tập tin bên ngoài này phải chứa đựng cùng các quan sát với tập tin đang sử dụng. Ví dụ như nghiên cứu về mức độ ảnh hưởng của một chương trình quảng cáo. Các biến này sẽ được hợp lại với nhau bằng cánh đánh dấu hai biến đó (trong hộp thoại Unpaired Variables) và nhấn thanh Pair. Cac biến này như đã nói sẽ bị loại bỏ ra khỏi tập dữ liệu vừa hợp nhất. Toàn bộ các biến trong hai tập tin ban đầu thỏa mãn các điều kiện giống nhau về tên và loại dữ liệu (số hoặc chuổi) sẽ được liệt kê vào hộp thoại này Chúng ta cũng có thể loại bỏ những biến mà chúng ta không muốn có trong tập dữ liệu hợp nhất. do đó cần phải khắc phục sai sót này để bảo đảm tính đầy đủ của dữ liệu sau khi hợp nhất. Công cụ này thích hợp với các cuộc nghiên cứu được chia làm nhiều giai đoạn. người ta thường nghiên cứu một số đối tượng người trả lời về .  Hộp thoại Variables in New Working Data File liệt kê các biến sẽ có trong tập tin mới được tạo ra từ việc hợp nhất hai tập dữ liệu ban đầu. lúc đó dữ liệu trong hai biến này sẽ được hợp nhất và được chứa đựng trong biến lấy tên biến giống như tên biến trong tập tin đang hoạt động.

.sản phẩm xắp được quảng cáo trước khi tung chương trình quảng cáo đó ra thị trường.Các biến có tên giống nhau trong tập tin đang hoạt động vào tập tin bên ngoài sẽ bị loại trừ khỏi tập tin mới được tạo.Thông thường ta dùng một hay nhiều biến khóa để bảo đảm các trường hợp khớp với nhau (thường sử dụng biến ID chứa số bảng câu hỏi). Hình 5-15 Từ tập dữ liệu đang thao tác ta mở công cụ Data/Merge Files/Adds Variables từ menu. Để thực hiện công việc này cần chú ý những điểm sau: .Các quan sát (Cases) trong cả hai tập tin cần hợp nhất biến phải được xắp xếp theo cùng một thứ tự. Phân tích thống kê đòi hỏi một số so sánh (như Paired-sample t test) các ý kiến của những người tiêu dùng này trước và sau khi có chương trình quảng cáo. gọi là Pre-test. Sau đó sẽ tiến hành một cuộc nghiên cứu nữa trên đúng các đối tượng đó sau khi chương trình quảng cáo đã được tung ra thị trường. . SPSS sẽ truy suất hộp thoạiAdd Variables: Read File để ta lựa chọn tập dữ liệu sẽ được hợp với tập dữ liệu đang hoạt . Chú ý các bảng câu hỏi của đối tượng nghiên cứu trong lần phỏng vấn trước phải giống với số bảng câu hỏi dùng để phóng vấn chính đối tượng đó trong lần sau. thông thường thứ tự này được quản lý bằng một tập tin chứa các giá trị là số bảng câu hỏi. ta gọi là Post-test. Khi loại bỏ bảng câu hỏi nào của lần phỏng vấn trước hoặc sau ta phải loại bỏ luôn bảng câu hỏi đó trước khi tiến hành hợp nhất. Điều phải bảo đảm trước khi tiến hành hợp nhất biến giữa hai tập dữ liệu này là ta phải xắp xếp dữ liệu trong hai biến khóa của hai tập dữ liệu theo thứ tự từ nhỏ đến lớn.

Nếu muốn các biến giống tên nhau này có trong tập dữ liệu mới ta phải tiến hành rename nó lại và chuyển nó sang hộp thoại chứa các biến sẽ có trong tập tin mới (New Working Data File) .Xem hình 5-13). . Biến khóa dựa vào đó các quan sát giống nhau được xác định. Kiểm tra dữ liệu (Explore) Công việc đầu tiên rất quan trọng và cần phải thực hiện một cách cẩn thận trước khi đi vào các bước mô tả hay các phân tích thông kê phức tạp sau này là tiến hành xem xét dữ liệu một cách cẩn thận. Lên trên (top) CHƯƠNG 6: XỬ LÝ VÀ PHÂN TÍCH DỮ LIỆU 1. Các trường hợp không thỏa mãn với biến khóa thì vẫn bao hàm trong tập dữ liệu mới nhưng sẽ không được hợp với các trường hợp trong tập tin khác. Biến trong tập tin đang hoạt động được ký hiệu là (*). và những biến trong tập tin bên ngoài là(+).Excluded Variables liệt kê các biến sẽ bị loại trừ ra khỏi biến mới hợp thành. Chú ý biến khóa này phải có cùng tên ở các hai tập tin cần hợp nhất. SPSS sẽ truy suất cho ta hộp thoại như hình 5-15. Sau khi lựa chọn được tập dữ liệu sẽ hợp biến với tập dữ liệu đang hoạt động. ta có ba cách hiễn thị dữ liệu như sau Biểu đồ Histogram Sơ đồ cành và lá Stem-and-leaf plot Sơ đồ hộp Boxplot .động.Nhận dạng dữ liệu để tìm phương pháp phân tích thích hợp và chuẩn bị cho việc kiểm tra giả thuyết Để nhận dạng và phát hiện sai sót trong dữ liệu. Những biến này là những biến có tên biến giống nhau. Những trường hợp này chỉ chứa đựng giá trị riêng biệt của tập dữ liệu mà nó bao hàm từ trước (trước khi tiến hành hợp nhất) và các trường hợp này sẽ có giá trị khuyết trong các biến chứa đựng trong tập tin thứ hai mà ta sẽ hợp nhất.Key Variables. SPSS cung cấp cho công cụ Explore để xem xét và kiểm tra dữ liệu: Phát hiện các sai sót . Nhấn Open để xác nhận việc lựa chọn này (giống như trường hợp Adds Cases .

Để giảm thiểu những ảnh hưởng của các giá trị bất thường (quá lớn hoặc quá bé).Để ước lượng các giã định được dùng cho việc kiểm nghiệm các giả thuyết. Hampel.Kiểm tra K-S Lilliefors: Kiểm tra tính chuẩn tắc của tổng thể. Turkey. Dựa vào trọng số này ta ước lượng lại giá trị trung bình cho dữ liệu. biến này sẽ được đưa vào trong ô label cases by. Một cách làm khác là gán các trọng số khác nhau cho các giá trị quan sát tùy theo khoảng cách của nó đến giá trị trung bình. ta dùng các phép kiểm tra sau: Kiểm tra levene: Kiểm tra tính đồng đều của phương sai . càng xa trọng số càng nhỏ. Các trong số này gọi là M-estimators. chọn trên menu Statistic/Summarize/Explore… để mở hộp thoại Explore như Hình 6-1: Hình 6-1 Các biến trong tập dữ liệu xuất hiện trong hộp bên trái. Chọn một hay nhiều biến đưa vào ô Depende nt list. xem dữ liệu có được lấy từ một phân bố chuẩn hay không Chúng ta thường dùng giá trị trung bình số học để ước lượng độ hội tụ của dữ liệu. Khi đó gia trị trung bình được gọi là giá trị trung bình giãn lược (Timmed-mean). và Andrew. Có thể lần ra các quan sát này bằng cách gán nhãn cho nó bằng gía trị của một biến nào đó. Ví dụ như kiểm tra biến mức độ đánh giá nói chung dựa vào biến nhãn hiệu đang sử dụng. . Có 4 loại trọng số là Huber. Chúng ta cũng có thể tách các quan sát thành các nhóm nhỏ riêng biệt để kiểm tra dựa vào các giá trị của các biến kiểm soát sẽ được đưa vào ôFactor List. người ta thường loại bỏ các giá trị lớn nhất và các giá trị nhỏ nhất (Outliers) theo cùng một tỷ lệ nào đó. các biến cần quan sát sẽ được liệt kê rong ô này. Tuy nhiên vì giá trị trung bình bị ảnh hưởng bởi tất cả các giá trị quan sát. Để kiểm tra dữ liệu.

tính đồng đều của phương sai .Outliers: Hiễn thị các quan sát có 5 giá trị nhỏ nhất và 5 giá trị lớn nhất. các bách phân vị trung bình theo 4 loại trọng số .Ví dụ muốn biết những giá trị di thường trong biến mức độ đánh giá nói chung theo nhãn hiệu TV đang dùng. SPSS mặc định là hiễn thị cả hai Sử dụng công cụ Statistics cho phép ta lựa chọn các thống kê hiễn thị như hộp thoại Hình 6-2: Hình 6-2 . trung vị. cho phép chúng ta chọn cách hiễn thị kết quả. giá trị nhỏ nhất. các phép kiểm tra về phân phối chuẩn. lớn nhất. để lựa chọn hiễn thị dạng đồ thị (Histogram). Lúc này nếu có các giá trị dị thường ta dễ dàng lần ra nó bằng số bảng câu hỏi kèm theo Ô Display. trung bình giãn lược. hoặc đồ thị (Plot). gọi làExtreme Values Percentiles: Hiển thị các giá trí bách vị phân M-estimators: Hiễn thị các giá trị Hình 6-3 Sử dụng công cụ Plots (Hình 6-3). các tham sô thống kê (Statistic). Ta gán nhãn cho các quan sát này bằng các giá trị trong biến số bảng câu hỏi.Descriptives: Cho phép ta hiển thị các giá trị thống kê như giá trị trung bình. biểu đồ chỉnh tắc. khoảng biến thiên. khoảng tin cậy.

Đồng thời cung cấp một kiểm nghiệm thống kê Kolmogorov-Smirnov statistic. Trong phạm vi của hiễn thị. Kiểm nghiệm cho ta kết quả Sig. nhỏ hơn mức ý nghĩa (0.  Kiểm nghiệm Kolmogorov-Smirnov (Lilliefors) Kiểm nghiệm Lilliefors là một dạng kiểm nghiệm Kolmogorov-Smirnov. Để thực hiện phép thống kê Levene đòi hỏi phải có khai báo biến điều khiển trong khuôn Factor lists.  Kiểm nghiệm Levene Trước khi đi vào các kiểm nghiệm trung bình ta cần phải tham khảo một kiểm nghiệm khác mà kết quả của nó là rất quan trọng cho các kiểm nghiệm trung bình sau này. Kiểm nghiệm Levene là phép kiểm nghiệm tính đồng nhất của phương sai.Boxplots: Điều kiện để hiễn thị của Boxplots là ta phải đang quan sát nhiều hơn một biến phụ thuộc (hiễn thị trong ô dependent list). với mức tin cậy Lilliefors dùng để kiểm nghiện tính chuẩn của phân phối mẫu đang quan sát.Spread vs. nhỏ hơn mức tin cậy (5%) ta kết luận .05) là kết quả bác bỏ giả thuyết phân phối mẫu là phân phối chuẩn.Descriptive: Cho phép lựa chọn hiển thị dạng đồ thị Histogram hay dạng cành lá (stem-and-leaf plots) . Level with Levene Test. Cho phép chúng ta kiểm tra tính đồng đều của phương sai giữa các mẫu trong dữ liệu gốc hay dữ liệu đã được biến đổi. .Normality plots with tests.. Một kiểm nghiệm khác là thống kê Shapiro-Wilk được sử dụng cho mẫu có kích cỡ nhỏ hơn hoặc bằng 50 mẫu. boxplots được đưa ra lần lượt cho mỗi biến phụ thuộc . Dependents together đưa ra một hiển thị riêng biệt theo mỗi nhóm được phân theo các giá trị trong biến điều khiển. o Factor levels together đưa ra một hiển thị riêng biệt cho mỗi biến phụ thuộc. Boxplots được hiển thị cho mỗi một nhóm được phân ra theo giá trị của biến điều khiển (factor variable). Ở đây ta kiểm nghiệm giả thuyết cho rằng phương sai của giữa các mẫu quan sát là bằng nhau. Thồng thường ta thường làm việc trên dữ liệu gốc do đó lựa chọn Untransformed trong khung Spread vs Level with Levene test. Đưa ra các dạng đồ thị về phân phối chuẩn. dùng để kiểm nghiệm tính chuẩn tắc của một mẫu hay hai mẫu. Trong phạm vi một hiển thị. Với giá trị sig. Phép kiểm nghiệp Shapiro-Wilk chỉ dùng trong những trường hợp số mẫu nhỏ hơn 40.

phần trăm tích lũy. đây cũng là một công cụ hữu ích để ta khảo sát dữ liệu tìm lỗi cho dữ liệu. Chú ý trong một số kiểm nghiệm như ANOVA. phân phối dữ liệu (distribution). 2. … Đòi hỏi phải kiểm nghiệm thông kê Levene trước để xác định tinh cân bằng hay không cân bằng của các phương sai mẫu. những giá trị mã hóa bất thường do sai sót việc nhập liệu hay mã hóa Để tiến hành lập bảng đơn ta chọn cụ Statistic/sumarize/frequencies ta có hộp thoại như Hình 6-4: công Hình 6-4 . Ngoài ra nó còn cung cấp cho ta các phép đo lường thông kê như độ tập trung (central tendency measurement). kiểm nghiệm t. Lập bảng phân bố tần suất cho biến một trả lời (Frequencies) Công cụ Frequencies sử dụng các tham số thống kê để mô tả cho nhiều loại biến. Chúng ta có thể khảo sát dữ liệu thông qua các công cụ như: Tần suất xuất hiện. Kết quả này sẽ ảnh hưởng đến việc lựa chọn các kiểm nghiệm trung bình khác (Kiểm nghiệp trung bình với phương sai mẫu bằng nhau hoặc kiểm nghiệm trung bình với phương sai mẫu không bằng nhau). những giá trị bất thường (quá lớn hay quá nhỏ) có thể làm sai lệch kết quả phân tích thống kê. tứ phân vị (Quartiles) và các bách phân vị (percentiles). phần trăm.không chấp nhận giả thuyết cho rằng phương sai mẫu thì bằng nhau. Lập bảng này ngoài việc tóm tắt dữ liệu. nó còn giúp ta phát hiện những sai sót trong dữ liệu như. độ phân tán (dispersion).

Sử dụng thanh Add để xác nhận số thứ tự phân vị cần quan sát. o Hoặc ta có thể chia dữ liệu theo các phần bằng nhau cụ thể bằng cách gõ số phần muốn chia vào công cụ cuts points for equal groups. theo thứ tự tăng dần hoặc giãm dần. Hình 6-5 Công cụ statistics để truy suất hộp thoại như Hình 6-5. và công cụ Format được sử dụng định ra kiểu hiển thị của dữ liệu. sử dụng thanh Remove và Change để loại bỏ hoặc thay đổi sự xác nhận ban đầu. o Hoặc ta có thể xem giá trị ở phân nhánh cụ thể nào đó từ công cụ percentile(s).Chuyển biến cần mô tả sang hộp thoại variable(s. Trong hộp thoại statistics này sẽ bao gồm các công cụ để đo lường các giá trị thống kê của dữ liệu như vị trí tương đối của các nhóm giá trị hay còn gọi là các phân vị. o Ta có công cụ phân nhánh dữ liệu thành 4 phần bằng nhau gọi là tứ phân vị (quartiles). . Công cụ Charts được dùng để vẽ đồ thị cho dữ liệu. những đặc tính về phân phối của dữ liệu (Distribution) . ta có thể lựa chọn nhiều biến cần quan sát cùng một lúc. mật độ tập trung và phân tán của dữ liệu. điều lưu ý là dữ liệu cần quan sát đã được xắp xếp thep thứ tự từ thấp đến cao.Giá trị bách phân vị (percentile values): Được dùng để xác định các ranh giới tương đối của các nhóm từ mẫu quan sát.

Ví dụ như đối với biến chứa các câu trả lời trực tiếp về số tuổi của người trả lời trong một cuộc khảo sát dân số (tuổi người trả lời được ghi trực tiếp từ 18 – 89 tuổi) ta có thể dùng công cụ phân vị dữ liệu để phân các độ tuổi này thành các nhóm nhỏ.Đặc tính phân phối (Distribution): Có hai đại lượng đo lường những đặc tính của sự phân phối dữ liệu là (1) Hệ số đối xứng Skewness (Cs) cho ta biết dạng phân phối của các giá trị quan sát Standard Error of Skewness có thể được sử dụng để kiểm nghiệm tính phân phối chuẩn.Cs > 0: Các quan sát tập trung chủ yếu vào các giá trị nhỏ nhất . Một giá trị dương lớn của Statndard error cho thấy nhánh của phân phối này dài qua bên phải và ngược lại một trị âm chỉ ra nhánh của phân phối này dài qua bên trái . Một giá trị dương lớn của Statndard error cho ta biết hai nhánh của phân phối này dài hơn nhánh của phân phối chuẩn và ngược lại một trị âm chỉ ra hai nhánh của phân phối ngắn hơn phân phối chuần . .Cc > 0: Cho thấy xu hướng tạp trung mạnh của các quan sát xung quanh giá trị trung bình Cc < 0: Cho thấy đường cong có dạng hẹp hơn. 3. Một phân phối Kurtosis không được xem là phân phối chuẩn khi Statndard error của nó nhỏ hơn –2 hoặc lớn hơn 2.Cs = 0: Các quan sát được phân phối một các đối xứng xung quanh giá trị trung bình . Lúc đó tuổi của người trả lời sẽ được phân thành 4 phần sao cho mỗi nhóm tuổi được phân chiếm 25% số lần xuất hiện (tần suất xuất hiện). Lập bảng mô tả (Descriptive) . Standard Error of Kurtosis có thể được sử dụng để kiểm nghiệm tính phân phối chuẩn. Một phân phối Skewness không được xem là phân phối chuẩn khi Statndard error của nó nhỏ hơn –2 hoặc lớn hơn 2. ví dụ như ta phân các độ tuổi này bằng phương pháp tứ phân vị (quartiles).Cs < 0: Các quan sát tập trung chủ yếu vào các giá trị lớn nhất (2) Hệ số tập trung Kurtosis (Cc) dùng để so sánh đường cong quan sát với dạng đường cong phân phối chuẩn.

giá trị tối thiểu. và mô tả sự phân tán của dữ liệu thông qua phương sai và độ lệch chuẩn. Lập bảng nhiều chiều cho các biến một trả lời (Crosstabs) . Chuyển các biến cần tóm tắc vào hộp thoại variables và nhấp thanh options để lựa chọn các thông số thống kê cần mô tả. như giá trị trung bình–mean. phương sai và độ lệch chuẩn. giá trị tối đa.… (Hình 6-7) 4.Hình 6-6 Sử dụng Statisticts\Summaries\Descriptives để mở hộp thoại mô tả thống kê như Hình 6-6 Hình 6-7 Đây là một dạng công cụ khác có thể được dùng để tóm tắc dữ liệu và chỉ cho phép thao tác trên dạng dữ liệu định lượng (thang đo khoảng cách và tỷ lệ). Được dùng để thể hiện xu hướng tập trung của dữ liệu (central tendency) thông qua giá trị trung bình của các giá trị trong biến (mean).

Chọn các biến hàng đưa váo hộp Row(s) và các biến cột đưa vào hộp Column(s). Các biến trong tập dữ liệu được hiển thị bên hộp bên trái. Cấu trúc của bảng và loại dữ liệu (loại thang đó) sẽ quyết định loại công cụ nào được sử dụng để đo lường. Có thể thêm tối đa 8 biến điều khiển. %row và %column cũng như %total tuỳ thuộc vào yêu cầu nghiên cứu.Hình 6-8 Bảng nhiều chiều là dạng bảng chéo thể hiện tần suất xuất hiện của một biến này trong mối quan hệ với một hay nhiều biến khác. Chọn trên menuStatistics/Summaries/Crosstabs để mở hộp thoại như Hình 6-8. Ngoài việc thể hiện mối liên hệ giữa các biến. dùng các thanh Next và previous để di chuyển giữa các biến điều khiển này. Bảng nhiều chiều còn giúp ta phát hiện những sai sót trong dữ liệu từ việc phát hiện ra những mối quan hệ vô lý và bất thường giữa hai biến. Ngoài ra. Thông thường biến phụ thuộc hay biến cần quan sát thường được đưa và hàng (rows) và biến độc lập hay biến kiểm soát được đưa và cột (columns). Mỗi lớp điều khiển sẽ chia bảng chéo thành nhiều nhóm nhỏ hơn. Mỗi bảng chéo riêng biệt sẽ được tạo ra ứng với mỗi giá trị của mỗi biến điều khiển. Việc lựa chọn các phân tích theo các tỷ lệ phần trăm. Các công . chúng ta có thể đưa thêm vào bảng chéo các lớp biến điều khiển (layer) để tạo ra các bảng biến chéo nhiều chiều. Việc đưa vào các biến điều khiển này cho phép ta xem xét các mối quan hệ mà lúc ban đầu không thể thấy ngay. Bảng chéo còn cung cấp nhiều loại kiểm nghiệm thống kê và đo lường mối quan hệ và tương quan giữa các biến trong bảng.

cụ thống kê sẽ cho ra các kết quả riêng biết đối với từng giá trị của biến điều khiển. Phương pháp exact hoặc Monte Carlo về độ tin cậy luôn luôn cho ta kết quả đáng tin cậy mà không cần quan tâm đến kích cở mẫu. hoặc kích cỡ mẫu phải đủ lớn (n>=30) .Dữ liệu sử dụng có phân phối chuẩn. Nếu ta sử dụng phương pháp exact hoặc mote carlo để xác định tính độ tin cậy thì cần chú ý các điểm sau: . Công cụ Exact cung cấp cho chúng ta hai phương pháp để tính ra mức độ tin cậy cho các phép kiểm nghiệm sử dụng trong bảng chéo. % cột. % Total. Hình 6-9 Đối với trường hợp dữ liệu không gặp được những yêu cầu như trên.Không tồn tại tần suất mong muốn nào của bất kỳ giá trị nào trong bảng chéo nhỏ hơn 5. phân phối của các quan sát cũng như sự cân bằng của dữ liệu (cân bằng về số lượng các giá trị khác nhau trong biến). SPSS mặc định là sử dụng phương pháp tiệm cận thông thường (Asymptotic). Công cụ Cells trong hộp thoại cho phép ta tính toán các hệ số đo lường mối quan hệ giữa các biến đó như % hàng. hoặc các phép thử phi tham số (nonparametric). Chọn công cụ Exact trong hộp thoại Crosstabs ta có hộp thoại con như Hình 6-9. Hai phương pháp này bao gồm phương pháp Exact và phương pháp Monte Carlo được sử dụng như công cụ để thu được những kết quả chính xác trong trường hợp dữ liệu của chúng ta không đáp ứng được những giả thuyết cần thiết cho một kết quả đáng tin cậy khi sử dụng phương pháp tiệm cận tiêu chuẩn (Standard asymptonic) phương pháp mà kèm theo nó dữ liệu của chúng ta đòi hỏi phải thoả mãn những điều kiện sau: .

cũng như đo lường các mối quan hệ đó.. nhập vào thời gian giới hạn tối đa cho việc tính toán cho mỗi phép thử. .Là một công cụ thông kê sử dụng để kiểm nghiệp giả thuyết cho rằng các biến trong hàng và cột thì độc lập với nhau (H 0). cách tốt hơn nên sử dụng là Moten Carlo.Nếu ta lựa chọn phương pháp Monte Carlo. likelihood-ratio chi-square. Hình 6-10 Công cụ Statistics cho phép ta tính các kiểm nghiệm giả thuyết về tính độc lập của các biến. và mối liên hệ giữa các các biến. cũng như không chỉ ra hướng thuận hay nghịch của mối quan hệ này (nếu có quan hệ). hệ số tương quan. Phương pháp kiểm nghiệm này chỉ cho ta biết được liệu một biến này có quan hệ hay không với một biến khác. kiểm nghiệp Chi-square sẽ cho ra các kết quả kiểm nghiệp như sau: Pearson chi-square. . Sử dụng phương pháp cho ta kết quả nhanh hơn phương pháp exact. (Xem Hình 6-10)  Các kiểm nghiệm thống kê – kiểm nghiệm mối quan hệ và tương quan giữa các biến sử dụng trong bảng chéo  Kiểm nghiệp Chi-square: . and linear-by-linear .Nếu lựa chọn phương pháp Exact. tuy nhiên phương pháp kiểm nghiệp này không chỉ ra cường độ của mối quan hệ giữa hai biến mạnh hay yếu (nếu có quan hệ). Nếu một phép kiểm nghiệm vượt quá thời gian giới hạn tối đa 30 phút. gỏ khoảng tin cậy mong muốn vào công cụ Confidence level. đồng thời cho biết kích cở mẫu được sữ dụng.Để kiểm nghiệp tính độc lập giữa hai biến cột và hàng.

Và xác suất để đối tượng quan sát là Nam giới là 452/923. Ví dụ ta có xác suất một đối tượng quan sát là thất nghiệp là 35/923.Theo định nghĩa hai biến trong bảng là độc lập với nhau nếu như xác suất sao cho một trường hợp quan sát(case) rơi vào một trường hợp cụ thể (ví dụ như giới tính là Nam và đang thất nghiệp) là được tạo ra từ các xác suất biên (xác suất cột và xác suất hàng). Do hai biến là độc lập.018 x 923). người ta sử dụng phân phối ngẫu nhiên Chi bình phương (χ 2) với tham số thống kê Pearson chi bình .association chi-square mỗi cái sẽ được sử dụng trong những trường hợp cụ thể . Xác suất này sẽ được sử dụng để ước lượng (estimate) số lượng các trường hợp quan sát mong đợi trong từng phần giao nhau giữa hai biến trên bảng chéo dưới điều kiện hai biến là độc lập với nhau. Do đó để tính toán được số lượng quan sát mong đợi là Nam giới và thất nghiệp ta chỉ việc nhân xác suất vừa tìm được với tổng số mẫu quan sát (0. (Xem bảng phía chéo phía dưới) Để kiểm nghiệm tính độc lập giữa hai biến. theo lý thuyết xác suất để một trường hợp quan sát vừa là Nam giới vừa là Thất nghiệp thì xác suất trong trường hợp này phải là (452/923) x (35/923) và bằng 0.018.

phần trăm giới hạn này là 0%) - Nếu không thỏa mãn các điều kiện trên ta phải tiến hành loại bỏ bớt các giá trị trong một biến mà dữ liệu giao nhau của nó là không đáng kể (quá nhỏ) .Để kiểm nghiệm tính độc lập giữa hai biến cột và hàng trong bảng chéo. Hoặc sử dụng giá trị P (P-value hay Asymtotic Significance) so sánh với mức ý nghĩa (Significance level) thường là = 0. kiểm nghiệp Chi-square sẽ cho ra các kết quả kiểm nghiệp khác nhau như sau: Pearson chi-square. và linear-by-linear association chi-square.Thông thường để xác định mối quan hệ giữa hai biến trong bảng chéo. o Không vượt quá 20% lượng ô giao nhau giữa hai biến đang khảo sát trong bảng chéo có giá trị nhỏ hơn 5 (đối với bảng 2x2-bảng mà mỗi biến trong bảng chéo chỉ có hai giá trị. likelihood-ratio chi-square. số mẫu nghiên cứu. .phương để tiến hành so sánh số lượng các trường hợp quan sát được với số lượng các trường hợp mong đợi bằng công thức sau: . ta có thể kết luận bác bỏ H0 khi p-value nhỏ hơn hoặc bằng mức ý nghĩa và ngược lại chấp nhận H0 khi p-value lớn hơn mức ý nghĩa.Khi kết quả thống kê Chi bình phương (χ 2) đủ lớn (Dựa vào lý thuyết phân phối Chi bình phương với độ tin cậy xác định.Tuy nhiên để việc kiểm nghiệm này là đáng tin cậy thì các số liệu trong bảng chéo giữa hai biến đang khảo sát phải thỏa mãn một số điều kiện nhất định sau: o Không tồn tại ở bất kỳ ô giao nhau giữa hai biến có giá trị mong đợi nhỏ hơn 1. việc sử dụng chỉ số nào để kiểm nghiệm tích độc lập giữa hai biến phụ thuộc vào số lượng cột và hàng trong bảng. . tần suất xuất hiện mong muốn của một giá trị trong biến trong . bật tự do-degree of freedom là df=(r-1)(c-1)) ta có thể kết luận bác bỏ giả thuyết độc lập giữa hai biến (H0).05 tương ứng với 95% độ tin cậy. kích cở mẫu là n.

Sig. o Sử dụng chỉ số Fisher’s exact test khi mà số mẫu nghiên cứu và các giá trị mong đợi nhỏ. nhỏ hơn mức ý nghĩa và ngược lại.Đối với kiểm nghiệm Chi-square ta chỉ có thể xác định giữa hai biến có hay không tồn tại một mối quan hệ.Dùng để đo lường mối tương quan giữa hai biến thứ tư hoặc khoảng cách.  Correlation: .điều kiện của biến khác. thông thường ta sẽ sử dụng chỉ số này khi mẫu trong bảng nhỏ hơn hoặc bằng 20 hoặc tần suất xuất hiện mong muốn trong một phần giao nhau giữa hai biến trong bảng (cell) nhỏ hơn 5. Tuy nhiên để đo lường cường độ của các mối quan hệ này đòi hỏi các công cụ thống kê khác sẽ được đề cập sau đây. o Hoặc ta có thể dùng chỉ số Linear-by-linear association khi mà các biến trong bảng là biến định lượng. ta dùng các chỉ số Yate’s corrected chi-square hay còn gọi là Continuity Correction đánh giá mối tương quan giữa hai biến trong bảng. Việc đo lường mối tương quan giữa hai biến thứ tự này chủ yếu dự vào hai hệ số Spearman’s correlation coefficient rho và Pearson correlation coefficient. dạng đo lường của các biến trong bảng (dạng thang đo). Đây là chỉ số thống kê để đo lường với mức ý nghĩa (thường là 5%) nhằm đưa ra kết luận phản bát hay chấp nhận giả thuyết ban đầu (Hai biến là độc lập với nhau).Để kết luận mối liên hệ giữa hai biến là độc lập hay phụ thuộc vào nhau (có hay không có tương quan) người ta dựa vào Asymptotic Significance với số mẫu đủ lớn hoặc phân phối là phân phối chuẩn. Ta có thể kết luận giữa hai biến tồn tại một mối quan hệ với nhau khi mà Asym. . . o Đối với dạng bảng chéo có hai cột và hai dòng (2X2 tables) – mỗi biến trong bảng chỉ có hai giá trị. Trong đó: . Ta có: o Dựa vào các hệ số Pearson Chi-square và Likelihood Ratio ta có thể kiểm nghiệp mối liên hệ giữa hai biến mà không cần quan tâm đến số lượng hàng và cột trong bảng.

.Để đo lường mối quan hệ giữa hai biến biểu danh. Là các đo lường không dựa vào giá trị Chi-square để tính toán.điều này tương đương với giả thuyết độc lập giữa hai biến. với giá trị 0 chỉ ra không có mối quan hệ giữa các biến. Ta sẽ từ chối giả thuyết này . .Ngoài ra còn có các hệ số đo lường trực tiếp như Lambda (symmetric and asymmetric lambdas and Goodman and Kruskal’s tau). . và Uncertainty coefficient.o Spearman’s rho được dùng để đo lường mối quan hệ giữa hai biến thứ tự (các biến này hầu hết đều được xắp xếp từ thấp nhất đến cao nhất). và không quan tâm đến tính đối xứng của phân phối chuẩn. hay hai biến không có môí quan hệ với nhau.  Một số đo lường mối tương quan khác giữa hai biến • Giữa hai biến định danh: . dấu cộng hoặc trừ chỉ ra hương tương quan giữa các biến (thuận hay nghịch).Phi: Chỉ dùng cho dạng bảng 2x2 tables. Do đó người ta sử dụng các thông số này để kiểm nghiệm giả thuyết cho rằng các hệ số này đều bằng 0 . Sử dụng các hệ số Phi (coefficient) và Crawsmr’s V. hệ số phi coefficient này biến thiên từ -1 đến +1.Cramer's V và Contingency coefficient (hệ số ngẫu hiên): Được sử dụng cho bảng mà số cột và hàng là bất kỳ. giá trị tuyệt đối của chỉ số này cho biết cường độ tương quan giữa hai biến. giá trị kiểm nghiệm biến thiên từ 0 đến 1. Ở đây các hệ số này sẽ bằng 0 nếu và chỉ nếu hệ số Pearson chi bình phương bằng 0. giá trị này càng lớn mối tương quan càng mạnh. o Khi các biến trong bảng là các biến định lượng ta sử dụng hệ số Pearson correlation coefficient để đo lường mối quan hệ tuyến tính giữa các biến này. Do đó hệ số này ngoài khả năng chỉ ra mối quan hệ và cường độ của mối quan hệ nó còn chỉ ra hướng của mối quan hệ đó . Các giá trị của hệ số này cũng biến thiên từ 0 đế 1 và được dùng để đo lường khả năng dự báo của một biến (biến độc lập) đối với một biến khác . Contingency coefficient để đo lường nếu dựa vào kết quả kiểm nghiệm Chibình phương.Các giá trị của hệ số tương quan biến thiên từ –1 đến 1. .

Hệ số Asymptotic Std. Ta có hai phương pháp tính như sau: (1) Relative risk: Biến sự kiện Yes Yes No a c No b d Tỷ lệ rủi ro Tỷ lệ rủi ro risk tương đối Relative risk a/(a+b) a(c+d) c/(c+d) c(a+b) . Các kết quả này được dùng để kiểm nghiệm giả thuyết cho rằng các tỷ lệ giữa các giá trị trong hai biến này là ngang bằng nhau (ví dụ như tỷ lệ người nam đi bảo tàng thì ngang bằng với tỷ lệ người nữ đi bảo tàng). Error có thể được dùng để định ra khoảng tin cậy (95%) cho các tham số đo lường (Value +(-) 2*Asymptotic std. Thông thường một trong hai đặc tính đó xuất hiện trước (ví dụ như biến chứa đặc tính có hút thuốc hay không) và sau đó là sẽ dẫn đến một đặc tính khác xuất hiện theo sau (ví dụ biến chứa đặc tính có bị bệnh lao phổi hay không).(biến phụ thuộc).Để đo lường mối tương quan giữa hai biến cho loại bảng này người ta có thể sử dụng các kết quả thống kê Yates’ corrected chi – bình phương và Fisher’s exact test.Ngoài phương pháp trên ta còn có thể sử dụng phương pháp odds ratio và relative risk để đo lường mối liên hệ giữa hai đặc tính.Việc lựa chọn biến nào là biến độc lập và biến nào là biến phụ thuộc tùy thuộc vào vấn đề cụ thể mà ta đang khảo sát . Với giá trị 0 nhận được có ý nghĩa rằng những kiến thức về biến độc lập không giúp ích gì cho việc dự báo những khả năng xảy ra của biến phụ thuộc. Error) • Sử dụng Odds Ratio cho bảng hai cột hai hàng (2x2 tables) . và giá trị 1 cho biết khi ta biết được những thông tin về biến độc lập thì nó sẽ giúp ta xác định được một cách hoàn hảo các khả năng xảy ra cho biến phụ thuộc. . . tương tự với các kết quả thống kê chi – bình phương khác ta sẽ từ chối giả thuyết H0 khi p-value nhỏ hơn mức tin cậy. Ta gọi biến chứa đặc tính xuất hiện trước là biến nhân tố (factor) và biến theo sau là biến sự kiện (event).

Nếu giá trị 1 không nằm trong khoảng tin cậy 95% ta từ chối giả thuyết H0. bởi vì kiểm nghiệm cho ta kết quả chấp nhận giả thuyết hai tỉ lệ odds hoặc relative của hai giá trị là như nhau . Và để kiểm nghiệm giã thuyết ban đầu cho rằng các tỷ số này là như nhau (H0) .từ chối hay chấp nhận ta dựa vào khoảng tin cậy (95%) xem xem giá trị 1 có nằm trong khoảng tin cậy đó hay không. Nếu giá trị 1 nằm trong khoảng tin cậy 95%.Phương pháp này bắt đầu với biến nhân tố và theo sau đó ta đếm số mỗi sự kiện xuất hiện trong mỗi nhóm nhân tố. . Tỷ lệ rủi ro được tính riêng biệt cho từng nhóm nhân tố và tỷ lệ rủi ro tương ứng là tỷ số giũa hai tỷ lệ rủi ro của từng nhóm nhân tố (2) Odds ratio: Biến nhân tố Yes No Yes a c No b d odds a/b c/d Tỷ lệ odds ad cb Phương pháp này bắt đầu với biến sự kiện.Cả hai phương pháp này đều có cách kiểm nghiệp kết quả giống nhau. Với một sự kiện (ví dụ bị bệnh lao phổi) thì tỷ lệ giữa người hút thuốc đối với người không hút thuốc là bao nhiêu. và sự kiện cần quan tâm luôn luôn nằm ở cột thứ nhất. Còn đối với phương pháp Relative risk bất cứ cột nào cũng có thể đại diện cho sự kiện cần quan tâm (SPSS sẽ đưa ra các kết quả khác nhau để ước lượng cho mỗi cái • Dùng Kappa để đo lường sự đồng ý giữa hai biến trong một bảng có cùng số lượng hàng và cột .Chú ý phương pháp Odds ratio luôn luôn lấy tỷ số odd ở hàng thứ nhất chia cho hàng thứ hai. và có thể xem giá trị trong ô (value) là tỷ số diễn giải. Sau đó ta lập tỷ lệ các odds này. Cả Tỷ lệ Odds và relative risk đều nhận giá trị 1 khi các tỷ lệ này là giống nhau. không cần quan tâm đến các giá trị trong cột value. gọi là odd.

Khi các biến trong bảng là các biến định lượng ta sử dụng hệ số Pearson correlation coefficient để đo lường mối quan hệ tuyến tính giữa các biến này.Kappa dùng để đo lường mức độ đồng ý giữa những đo lường của hai nhóm đánh giá đối với cùng một tiêu chí nào đó. dấu cộng hoặc trừ chỉ ra hương tương quan giữa các biến (thuận hay nghịch). Sử dụng hệ số Eta. giá trị biến thiên từ –1 đến 1. Trong đó Spearman’s rho được dùng để đo lường mối quan hệ giữa hai biến thứ tự (các biến này hầu hết đều được xắp xếp từ thấp nhất đến cao nhất). • Đo lường mối tương quan giữa các biến thứ tự và biến định lượng (1) Nominal by Interval: Dùng đo lường mối tương quan giữa biến biểu danh và biến định lượng trong bảng chéo. Các giá trị của hệ số tương quan biến thiên từ –1 đến 1. (3) Ordinal: Dùng đo lường mối tương quan giữa các biến trong bảng chéo trong đó các biến ở cột và dòng là các biến thứ tự.Hoặc ta dùng p-value để kiểm nghiệm giả thuyết ban đầu H0 cho rằng các giá trị đo lường này là bằng không. Lập bảng cho biến nhiều trả lời . giá trị biến thiên từ –1 đến 1. (3) Kendall's tau-b và Kendall's tau-c: Đo lường các mối quan hệ phi tham số giữa hai biến thứ tự. bao gồm các hệ số sau: (1) Somers' d: Đo lường mối tương quan phi đối xứng giữa hai biến thứ tự. giá trị 0 chỉ ra sự đồng ý chỉ là một sự ngẫu hiên. giá trị này càng lớn mối tương quan càng mạnh. biến thiên từ –1 đế 1 Phần này có thể xem thêm ví dụ trong phần phụ lục 5. Kappa chỉ thích ứng với những bảng mà các biến được sử dụng trong bảng có cùng số giá trị trong biến.. (2) Gamma: Đo lường mối tương quan đối xứng giữa hai biến thứ tự. (2) Correlation: Dùng để đo lường mối tương quan giữa hai biến thứ tư hoặc khoảng cách. giá trị tuyệt đối của chỉ số này cho biết cường độ tương quan giữa hai biến. Việc đo lường mối tương quan giữa hai biến thứ tự này chủ yếu dự vào hai hệ số Spearman’s correlation coefficient rhovà Pearson correlation coefficient. Giá trị 1 chỉ ra sự hoàn toàn đồng ý giữa hai nhóm.

Hình 6-11 Để tiến hành gộp các biến sơ cấp này ta chọn menu Statistics/Multiple Response/Define sets… để mở hộp thoạiDefine Multiple Response Sets như Hình 6-11. dãy giá trị mã hóa (Range … Through) xác định khoảng biến thiên cho các giá trị trong . Do đó khi tiến hành phân tích câu hỏi nhận biết sản phẩm này ta phải tiến hành gộp các biến sơ cấp thành một biến gộp chứa đựng tất cả các nhãn hiệu được liệt kê. Biến gộp chứa đựng toàn bộ các giá trị trong các biến sơ cấp của một câu hỏi nhiều trả lời. người tra lời có thể liệt kê ra nhiều nhãn hiệu mà họ biết. Tuy nhiên khi xử lý ta không thể xử lý riêng biệt các biến này. Sau đó trong các phân tích thống kê liên quan đến câu hỏi nhiều trả lời. ta phải chọn tất cả 10 biến này từ hộp thoại Set Definition và chuyển sang hộp thoại Variable in Set.1. Ví dụ như câu hỏi về nhận biết sản phẩm. Sau đó chỉ định cách mã hóa các biến đó (dichotomy hay category). chúng ta phải gộp các biến sơ cấp này thành một biến gộp chứa các biến sơ cấp. đây là các biến sơ cấp. ví dụ ta có 10 biến đơn chứa đựng các nhãn hiệu được nhận biết.5. chúng ta sẽ dùng biến gộp này thay thế cho tất cả các biến sơ cấp. những biến này gọi là biến sơ cấp. vì nó không đại diện đầy đủ cho tất cả các nhãn hiệu được nhận biết. do đó ta phải khai báo đủ lượng biến để chứa đựng các nhãn hiệu được liệt kê từ người trả lời. Chọn tất cả những biến sơ cấp liên quan đến một câu hỏi nhiều trả lời ở hộp thoại Set Definition bên trái chuyển sang hộp thoại Variables in Set bên phải. Định nghĩa nhóm biến nhiều trả lời (define multi response sets) Trong câu hỏi nhiều trả lời sẽ bao gồm nhiều biến chứa đựng các trả lời có thể có. Do đó để xử lý.

và chúng ta nhập giá trị cần đếm vào hộp Counted Value. Sau khi tiến hành khai báo biến gộp xong mọi sử lý phân tích các biến nhiều trả lời sẽ được tiến hành trên các biến gộp đã được khai báo trong Multi Response Sets. ta sử dụng các tên nhóm đa biến đã được định nghĩa bằng công cụ Define Multi Response Sets đã được đề cập ở phần trên sau đó vào Statistics\Multiple response và chọn Frequencies hoặc Crosstabs tùy theo nhu cầu lập bảng một chiều hay đa chiều. Lập bảng cho biến nhiều trả lời Để tiến hành lập bảng cho các biến nhiều trả lời. 5. Kết quả chỉ hiễn thị duy nhất giá trị đếm vừa khai báo .2. có thể là bảng một chiều. . xác định tên và gán nhãn cho biến gộp. Tuy nhiên trong các công cụ Frequencies và Crosstabs sử dụng cho biến nhiều trả lời chỉ mô tả tần suất xuất hiện của các giá trị trong biến gộp và các tỷ lệ % nhưng không có các phương pháp kiểm nghiệm thống kê kèm theo. Để loại bỏ và sữa đổi việc định nghĩa một nhóm biến đa trả lời nào đó ta di chuyển vệt sáng đến tên nhóm đó và nhấn thanh remove để loại bỏ và thanh Change để thay đổi.Category: Mỗi biến sơ cấp có nhiều hơn hai giá trị. chúng ta có thể chọn một hay hai mục sau đây tùy theo phương pháp mã hóa: . bảng nhiều chiều hoặc các bảng biểu mô tả thống kê tùy theo yêu cầu của vấn đề nghiên cứu. Trong khung Variable Are Code As. và chúng ta nhập các giá trị nhỏ nhất và lớn nhất của dãy giá trị mã hóa vào các ô Range và thourgh (nên khai báo một khoảng cách càng rộng càng tốt) Chúng ta đặt tên cho nhóm đa biến (tối đa 7 ký tự) và nhãn (tối đa 40 ký tự) vào các hộp Name và Label. Sau đó ấn thanh Add để đưa tên nhóm vừa xác định vào hộp Multi Response Sets.Dichotomies: Đây là trạng thái mặc định. Custom Table Ngoài ra khi chúng ta tiến hành lập bảng mô tả thống kê cho kết quả cuối cùng của vấn đề nghiên cứu có thể dùng các công cụ trong statistics\custom table để tạo ra các bảng biểu. Lưu ý là tên của các nhóm đa biến chỉ được sử dụng trong các thủ tục xử lý biến nhiều trả lời mà thôi.biến gộp. 6.

. hoặc các biến được kiểm nghiệm trung bình đòi hỏi phải là các biến định lượng và phân phối phải là phân phối ngẫu nhiên hay mẫu nghiên cứu phải đủ lớn.Dạng bảng đa biến (Multiple response tables): Giống như basic tables thể hiện tần suất xuất hiện và bảng chéo. ta sử dụng kiểm nghiệm t mẫu độc lập (Independent-sapmles t test). Tuy nhiên ngoài việc truy suất các giá trị đếm.Bảng biểu thể hiện tần số xuất hiện (Tables of frequencies): Cho phép chúng ta tạo ra những bảng biểu thể hiện tần số xuất hiện của một hay nhiều biến đơn . Với các trường hợp trên.Các loại bảng này cho phép ta tạo ra các bảng biểu đẹp hơn. tỷ lệ phần trăm thì nó không cung cấp thêm cho ta phương pháp kiểm nghiệm thống kê nào khác kèm theo . ta có thể dùng ANOVA một chiều (One-way ANOVA). Nếu so sánh giá trị trung bình của một nhóm các trường hợp quan sát với một nhóm quan sát khác.Dạng bảng biểu tổng hợp (General tables): Giống như bảng biểu cơ bản và đa trả lời. Tuy nhiên với những trường hợp biến quan sát là biến định lượng (nhưng là biến thang đó thứ tự) hoặc số lượng mẫu không đủ lớn hoặc không thỏa mãn điều kiện phân phối chuẩn ta có . 7. tuy nhiên dạng bảng biểu này cho phép ta xây dựng bảng biểu cho các câu trả lời đa biến .Dạng bảng biểu cơ bản (Basic tables): Thể hiện các dữ liệu nghiên cứu theo dạng bảng chéo (cross-tabulation) giữa hai biến hoặc giữa một biến và một nhóm các biến. So sánh các giá trị trung bình Có nhiều phép kiểm nghiệp được sử dụng trong SPSS: Nếu so sánh giá trị trung bình của mẫu với một giá trị cố định nào đó ta sử dụng phép kiểm nghiệm t một mẫu (One-sample t test). Để so sánh giá trị trung bình của hai biến được khảo sát từ cùng một mẫu ta sử dụng kiểm nghiệp t theo từng cặp mẫu (Pairedsamples t test). Hoặc với trường hợp ta có nhiều hơn hai mẫu độc lập cần kiểm nghiệm trung bình. tuy nhiên ở dạng bảng biểu này cho phép người phân tích thể hiện mối liên hệ giữa một biến với nhiều biến khác trên cùng một bảng. Các dữ liệu được thể hiện dưới dạng bảng chéo.

Từ Menus. Các biến phụ thuộc trong bảng Means phải là biến định lượng và các biến độc lập thường là các biến định danh. Như mean và stadard deviation thì dựa trên lý thuyết phân phối chuẩn và thích hợp cho các biến định lượng với phân phối đối xứng. vàrange thì thích hợp cho các biến định lượng mà ta không biết liệu nó có thoả mãn các điều kiện về phân phối chuẩn hay không. ta có hộp thoại như hình 6-12. Các đại lượng thống kê được sử dụng tùy thuộc vào dạng dữ liệu. Means Công cụ Means dùng để tính toán các giá trị trung bình và đưa các tham số thống kê liên quan cho một biến phụ thuộc trong phạm vi các nhóm của một hay nhiều biến độc lập. Ta có thể lựa chọn ANOVA và eta để thực hiện việc phân tích sự biến thiên một chiều cho mỗi biến độc lập. Ví dụ ta có thể đo lường mức độ đánh giá trung bình về một show quảng cáo của ba nhóm tiêu dùng khác nhau. Di chuyển vệt đen đến biến chứa đựng các giá trị định lượng mà ta cần quan sát giá trị trung đó trong . công nhân. Công cụ này sẽ cho ta một bảng chéo thể hiện sự đánh giá của ba nhóm người này về show quảng cáo được xem. Các đại lương khác như Media. Có thể chọn một hay nhiều biến phụ thuộc. Eta và eta bình phương cho phép đo lường các mối tương quan. và các kiểm nghiệm tuyến tính. eta.thể tiến hành kiểm nghiệp bằng công cụ Wilcoxon signed rank test trong kiểm nghiệm phi tham số 7.1. Hình 6-12 Để thực hiện công cu này ta chọn Compare Means/Means…. sinh viên và công chức. Ta có thể lựa chọn các công cụ kèm theo như phân tích ANOVA một chiều.

với giả thuyết ban đầu cho rằng giá trị trung bình cần kiểm nghiệm thì bằng với một con số cụ thể nào đó. Cho phép ta lựa chọn các đại lượng thống kê cần khảo sát và ANOVA. là biến mà dựa váo các giá trị trong nó mà ta phân chia các gia tri trung bình của biến phụ thuộc thành những nhóm nhỏ. lúc này các kết quả và đại lượng thống kê được thể hiện trên chung một bảng Hình 6-13 Công cụ Options (Hình 6-13).Lựa chọn một hoặc nhiều biến độc lập. sử dụng mủi tên chuyển biến đã chọn vào hộp thoại dependent list. Ví dụ một nhà nghiên cứu có thể kiểm định có hay không sự khác biệt giữa chỉ số IQ trung bình của một nhóm sinh viên với chỉ số cụ thể là 100 ở độ tinh cậy là 95%. Kiểm nghiệp t-một mẫu Phương pháp kiểm nghiệp một mẫu được dùng để kiểm định có hay không sự khác biệt của giá trị trung bình của một biến đơn với một giá trị cụ thể. mỗi biến độc lập trong một lớp. Eta.Lựa chọn biến độc lập theo lớp.2.phạm vi các nhóm trong biến độc lập. . Phương . Lúc này các kết quả cũng như các đại lượng thống kê kèm theo sẽ được thể hiện trên các bản riêng biệt cho mỗi biến độc lập . Có hai cách để lựa chọn biến độc lập. và Eta bình phương (sẽ được đề cập chi tiếc về ý nghĩa ở phần sau) 7.

vấn đề ở đây là ta loại bỏ các giá trị khuyết đó trong kiểm nghiệm hay bao hàm luôn tất cả. Đặc điểm là kích thương mẫu luôn thay đổi. Ta sẽ loại bỏ giả thuyết ban đầu khi kiểm nghiệm chó ta chỉ số Sig. Mỗi kiểm nghiệm T sử dụng toàn bộ các trường hợp (cases) chứa đựng giá trị có ý nghĩa đối với biến được kiểm nghiệm. Từ Menus ta chọn Compare Mean\One-Sample T Test… ta có hộp thoại như Hình 6-14 Lựa chọn biến cần so sánh bằng cách di chuyển vệt đen và chuyển đến vào hộp thoại Test Variable(s). mặc định là 95% và cách xử lý đối với các giá trị khuyết. Hình 6-15 . nhỏ hơn mức tinh cậy (0.05). Khi kiểm nghiệp các biến ta sẽ gặp một vài giá trị khuyết trong các biến đó.Exclude cases analysis by analysis. nhập giá trị cần so sánh vào hộp thoại Test Value. .pháp kiểm nghiệm này dùng cho biến dạng thang đo khoảng cách hay tỉ lệ. Chọn công cụ Options (hình 6-15) để xác định độ tin cậy cho kiểm nghiệm.

chứ không phải do các yếu tố khác. …) của hai nhóm độc lập nghĩa là các phản ứng thu được của nhóm này không bị ảnh hưởng bởi nhóm kia và ngoài các tác nhân cần đánh giá cần phải chú ý đến các tác động khác có thể làm thay đổi sự phản ứng thu nhận được giữa hai nhóm. nhóm đã xem qua chương trình quảng cáo và nhóm chưa xem qua chương trình quảng cáo để đánh giá mức độ ưa thích của sản phẩm đã được quảng cáo. Ở đây ngoài công cụ thử là việc xem quảng cáo hoặc không xem. hoặc kích thước mẫu phải đủ lớn để được xem là xấp xỉ phân phối chuẩn.05) . Các dữ liệu cần so sánh nằm trong cùng một biến định lượng. 7.Exclude cases listwise. Mỗi kiểm nghiệm T sử dụng chỉ những trường hợp có giá trị đối với toàn bộ tất cả các biến được sử dụng trong bất kỳ kiểm nghiệm T test nào. nhỏ hơn mức ý nghĩa (thường là 0. Để so sánh ta tiến hành nhóm các giá trị thành hai nhóm để tiến hành so sánh. trình độ. dạng dữ liệu là dạng thang đo khoảng cách hoặc tỷ lệ. Kiểm nghiệp t hai mẫu độc lập Kiểm nghiệp này dùng cho hai mẫu độc lập. các chủ thể cần kiểm nghiệm phải được ấn định một cách ngẫu nhiên cho hai nhóm dữ liệu cần nghiên cứu sao cho bất kỳ một khác biệt nào từ kết quả nghiên cứu là do sự tác động của chính nhóm thử đó. Giả thuyết ban đầu cần kiểm nghiệm là giá trị trung bình của một biến nào đó thì bằng nhau giữa hai nhóm mẫu và chúng ta sẽ từ chối giả thuyết này khi mà chỉ số Sig. thu nhập. nhà nghiên cứu phải bảo đảm không tồn tại yếu tố nào đáng kể tác động đến sự đánh giá về sản phẩm. chi tiêu. Ví dụ như ta không thể dùng phương pháp này để so sánh thu nhập của nam và nữ bởi vì thu nhập còn bị ảnh hướng lớn bời trình độ học vấn và nghề nghiệp. … Tóm lại để đánh giá giá trị trung bình (về đánh giá sự ưa thích. Đối với dạng kiểm nghiệm này. sự tiêu dùng.3. như giới tính. Hoặc để đánh giá tác động của một chương trình quảng cáo ta lựa chọn ra hai nhóm khách hàng độc lập. Kích thước mẫu luôn không đổi Điều kiện để tiến hành một kiểm nghiệm t một mẫu đòi hỏi dữ liệu phải đáp ứng giả định sau: dữ liệu phải là phân phối chuẩn.

sinh viên năm hai: 2. Hình 6-17 Di chuyển vệt tối đến biến dùng để định ra các nhóm cần so sánh với nhau (thường là biến định danh) di chuyển vào hộp thoại Gouping variable. Di chuyển vệt tối vào biến định lượng mà ta cần so sánh giá trị trung bình. như hình 6-17.Hình 6-16 Để thực hiện việc so sánh này ta vào Compare means\Independent sample t-test…. Có hai cánh định nhóm so sánh: . Ta có thể chọn nhiều biến định lượng để so sánh.Sử dụng con số cụ thể. Công cụ Define Groups… cho phép ta định ra hai nhóm cần so sánh với nhau. sinh viên năm ba: 3. sinh viên năm cuối: 4. ví dụ so sánh thời gian tự học của hai nhóm sinh viên năm nhất và sinh viên năm cuối nằm trong biến loại sinh viên với 4 nhóm sinh viên đựợc mã hóa như sau sinh viên năm nhất: 1. Ta nhập giá trị 1 vào Group 1 và nhận giá trị 4 vào group 2. Lúc đó thời gian tự học trung bình sẽ . nhập hai giá trị đại diện cho hai nhóm cần so sánh trong biến vào ô group 1 và group 2. Từ Menus ta được hộp thoại như hình 6-16. chọn bằng cách nhấn nút mũi tên để chuyển biến định lượng đó vào hộp thoại Test variable(s).

các quan sát phải độc lập. được lấy ngẫu nhiên từ tổng thể có phân phối chuẩn với phương sai đám đông bằng nhau . các quan sát phải độc lập. được lấy ngẫu nhiên từ tổng thể có phân phối chuẩn. . và toàn bộ các trường hợp có giá trị mã hóa lớn hơn hoặc bằng giá trị trong Cut point sẽ tạo ra một nhóm khác. Các giả định phải được thỏa mãn khi dùng kiểm nghiệm t cho hai mẫu độc lập: .Đối với kiểm nghiệm t cho hai mẫu có phương sai không bằng nhau.Đối với kiểm nghiệm t cho hai mẫu có phương sai bằng nhau (có thể kiểm định giả định này bằng thống kêLevene). Toàn bộ các trường hợp có giá trị (con số mã hóa) nhỏ hơn giá trị được nhập vào trong cut point sẽ định ra một nhóm. sinh viên hai năm đầu (sinh viên năm thứ nhất và sinh viên năm thứ hai) và nhóm sinh viên hai năm cuối (sinh viên năm ba và sinh viên năm cuối) và sẽ tiến hành so sánh số thời gian tự học trung bình trên hai nhóm sinh viên này. Ví dụ ta muốn so sánh thời gian tự học của sinh viên hai năm đầu và sinh viên hai năm cuối. ta nhập giá trị 3 (là giá trị mã hóa của nhóm sinh viên năm thứ ba) và cut point lúc đó ta tạo được hai nhóm sinh viên bao gồm. Công thức tính t: Với phương sai hợp nhất Với phương sai riêng biệt Với: .được so sánh giữa hai nhóm sinh viên năm nhất và sinh viên năm cuối. nhập giá tri phân cách các giá trị trong biến thành hai nhóm.Cách thứ hai là sử dụng Cut point. Đối với công cụ Options có thao tác và ý nghĩa giống công cụ Options đã đề cập trong phần Kiểm nghiệp t một mẫu đã đề cập ở phần trước.

Với xi: Giá trị trung bình của nhóm i ni: Số các quan sát trong nhóm i Si: Phương sai mẫu trong nhóm i Bật tự do trong kiểmnghiệm phương sai hợp nhất bằng df= (n1 + n2 – 2) Bật tự do trong kiểmnghiệm phương sai riêng biệt bằng: 7. Ví dụ ta khảo sát sự ưa thích của hai loại nước hoa chuẩn bị tung ra thị trường. Giả thuyết ban đầu được đưa ra là giá trị trung bình của các khác biệt là bằng 0. Kết quả kiểm nghiệp trên cùng một nhóm mẫu sẽ cho những thông tin xác thực hơn về sự ưa thích của mùi vị hai loại nước hoa này. dữ liệu dạng thang đó khoảng cách hoặc tỷ lệ. đồng thời tập trung vào sự khác biệt tư nhiên của hai loại nước hoa này. Kiểm nghiệm t theo từng cặp mẫu Đây là dạng kiểm nghiệp dùng cho hai biến trong cùng một mẫu có liên hệ với nhau. Và ta sẽ loại bỏ giả thuyết này trong trường hợp kiểm nghiệm cho kết quả Sig.4. Nếu ta tiến hành so .05) Lợi điểm của việc sử dụng kiểm nghiệm T theo từng cặp là ta loại trừ được những yếu tố tác động bên ngoài vào nhóm thử. nhỏ hơn mức ý nghĩa (0. Nó tính toán sự khác biệt giữa các giá trị của hai biến cho mỗi trường hợp và kiểm nghiệm xem giá trị trung bình các khác biệt có khác 0 hay không.

Các khác biệt từ giá trị trung bình của hai mẫu phải là phân phối chuẩn hoặc số lượng mẫu đủ lớn để xấp xỉ là phân phối chuẩn. Điều kiện yêu cầu cho loại kiểm nghiệm này là kích cở hai mẫu so sánh phải bằng nhau. Các giả định phải được thỏa mãn khi dùng kiểm nghiệm cặp mẫu là các quan sát ở mỗi cặp phải được thực hiện trong cùng một điều kiện. Cho biết liệu hai biến này có tương quan với nhau hay không. độ tương quan và chiều tương quan (thể hiện ở bảng Paired samples correlation). về kinh nghiệm cũng như các yếu tô bên ngoài khác. Phương pháp này kiểm nghiệm giả thuyết cho rằng sự khác biệt giữa hai trung bình mẫu là bằng không. Phương sai của mỗi biến là ngang bằng hoặc không ngang bằng (có thể kiểm nghiệm qua phép kiểm nghiệm phương sai Levene). di chuyển biến cần quan sát vào hộp thoại Paired Variables bằng nút mũi tên. Để thực hiện việc so sánh này ta vào Compare means\Paired-samples ttest…. Paired-samples t test còn cho ta kết quả về mối tương quan giữa hai biến đang quan sát. về nhận thức. Ta từ chối giả thuyết này khi mức ý nghĩa của ta (significante) là nhỏ hơn mức ý nghĩa (thường là 5%). Phương pháp này thích ứng cho việc kiểm nghiệm sản phẩm. Các quang sát cho mỗi bên so sánh phải được thực hiện trong cùng những điều kiện giống nhau. Từ Menus ta được hộp thoại như hình 6-17: Hình 6-17 Chọn hai biến ta cần so sánh bằng cách di chuyển vệt đen đến lần lược hai biến cần quan sát. Những .sánh giữa hai nhóm mẫu độc lập với nhau sẽ cho ra những kết quả khác biệt do những tác nhân khác với bản thân sự khác biệt của hai loại nước hoa này như sự khác biệt về con người.

5. Ở đây ta đề cập đến phân tích phương sai một yếu tố là trường hợp chỉ có một yếu tố (biến kiểm soát) được xem xét nhằm xác định ảnh hưởng của nó đến một yếu tố khác. . Đối với kiểm nghiệm cặp. SPSS sẽ tính toán giá trị khác biệt giữa hai bến trong từng quan sát và tiến hành kiểm nghiệm giá trị trung bình các khác biệt đó có bằng 0 hay không Trong kiểm nghiệm hai mẫu độc lập đã đề cập ở phần trước SPSS chia các giá trị của một biến đơn thành hai nhóm dựa trên một biến kiểm soát và sau đó tiến hành so sánh trung bình trong biến đơn giữa hai nhóm đó với nhau. Phân tích phương sai một chiều (One way ANOVA) Các phép so sánh đề cập ở phần trên chỉ cho phép ta so sánh trung bình hai tổng thể dựa trên mẫu từng cặp phối hợp hoặc hai mẫu độc lập. Yếu tố được xem xét ảnh hưởng được dùng để phân loại các quan sát thành các nhóm nhỏ khác nhau. Trong phần này phương pháp kiểm định sẽ mở rộng cho trường hợp so sánh trung bình của nhiều tổng thể được xây dựng trên việc xem xét các biến thiên (phương sai) của các giá trị quan sát trong nội bộ từng nhóm (mẫu) và giữa các nhóm (mẫu) với nhau.khác biệt giá trị trung bình phải có phân phối chuẩn. Đối với kiểm nghiệm t các cặp mẫu. hay nói cách khác kiểm nghiệm xem có hay không trung bình của các giá trị khác biệt giữa hai biến trên mỗi trường hợp quan sát là khác 0 Để tiến hành kiểm nghiệm t theo cặp đòi hỏi hai biến trong kiểm nghiệm phải bằng nhau về số lượng mẫu quan sát và có cùng kiểu đo lường và đơn vị đo lường Công thức tin giá trị kiểm nghiệm t theo cặp được tính như sau: Trung bình các sai biệt giữa hai biến kiểm nghiệm t = Với SD: Độ lệch tiêu chuẩn của các sai biệt n : Số lượng các quan sát (mẫu) Lên trên (top) 8. Phương sai của mỗi biến có thể ngang bằng hoặc không. giá trị trung bình các giá trị trong hai biến được so sánh với nhau. Kiểm nghiệm loại này được sử dụng để kiểm nghiệm xem trung bình của hai đo lường là khác biệt hay ngang bằng nhau.

vậy phân tích phương sai nghe như là một sai sót. các sai số là độc lập với nhau. …. đặc biệt trong mối quan hệ với sự biến thiên của nội bộ từng nhóm. nk quan sát được chọn ngẫu nhiên độc lậo từ k tổng thể (n1.Một cách tổng quát. có phương sai bằng nhau. sẽ bị từ chối. Tuy nhiên việc phân tích phương sai ở đây dựa trên thông số thống kê F. µ k là các trung bình của k tổng thể. Gọi µ 1. Ta có thể mô tả các quan sát của k nhóm như sau: Nhóm 1 X11 X12 … X1n1 2 X21 X22 … X2n2 … … … … … K XK1 XK2 … XKnK Với giả định các tổng thể có phân phối chuẩn. n2. nk có thể khác nhau về kích thước). Và nếu ta quan sát việc phân tích phương sai một yếu tố cho hai nhóm thì kết quả thống kê F tính được sẽ chính bằng bình phương kết quả thống kê t trong kiểm nghiệm t cho hai mẫu độc lập  Các bước phân tích phương sai một yếu tố để kiểm nghiệm sự ngang bằng giữa các giá trị trung bình của k tổng thể Phân tích phương sai một yếu tố để kiểm nghiệm giả thuyết H0: µ 1 = µ 2 = … = µ k được tiến hành thông qua các bước sau: . phân tích phương sai một yếu tố kiểm nghiệm giả thuyết ban đầu như sau: H0: µ 1 = µ 2 = … = µ k. giả sử ta có k nhóm (mẫu) n1. …. với F là tỷ số giữa biến thiên giữa trung bình các nhóm trên biến thiên giữa các quan sát trong nội bộ nhóm: Biến thiên giữa trung bình các nhóm F= Biến thiên giữa các giá trị quan sát trong nội bộ nhóm Nếu các giá trị trung bình của các nhóm khác biệt nhau nhiều. Ta thấy ở đây là việc so sánh giữa các giá trị trung bình. giá trị F thu được sẽ lớn và khi đó giả thuyết H0: µ 1 = µ 2 = … = µ k. µ 2. xij là quan sát thứ j của nhóm thứ i. …. n2.

Đại lượng thể hiện sự biến thiên giữa các nhóm (between-groups sum of squares) được tính bằng công thức: SSG thể hiện sự biến thiên do sự khác nhau giữa các nhóm.Bước 1: Tính giá trị trung bình xi cho từng nhóm và x chung cho tất cả các nhóm Hoặc Bước 2: Tính các đại lượng thể hiện sự biến thiên trong nội bộ từng nhóm (SSW) và giữa các nhóm (SSG) Gọi SS là đại lượng thể hiện sự biến thiên trong nội bộ từng nhóm. ta có: Ta có tổng cộng các biến thiên trong nội bộ từng nhóm là: Nói một cách đơn giản SSW là tổng bình phương các chênh lệch giữa từng quan sát với trung bình của nhóm mà quan sát đó thuộc về (withingroups sum of squares). SSW là những biến thiên không do yếu tố kiểm soát (yếu tố dùng để phân chia các nhóm) gây ra. tức là biến thiên do yếu tố kiểm soát gây ra Gọi STT là tổng bình phương các chênh lệch giữa từng quan sát với trung bình của tất cả các quan sát ta có: Đã chứng mính được rằng SST = SSW + SSG và công thức này chính là cơ sở của phương pháp phân tích phương sai một yếu tố với biến thiên .

n-k.05). khi các trung bình của k tổng thể không bằng nhau. Mức độ lớn hơn bao nhiêu thì được xem là “đủ lớn” (tuỳ thuộc vào độ tin cậy) để ta có thể bác bỏ H0. do vậy tỷ số MSG/MSW sẽ lớn hơn 1.của các quan sát so với giá trị trung bình là tổng cộng của biến thiên được giải thích bởi yếu tố kiểm soát (SSG) và biến thiên do các yếu tố khác ngoài yếu tố kiểm soát là SSW Bước 3: Tính các ước lượng cho phương sai chung của k tổng thể. tương ứng với tỷ số F=MSG/MSW lớn hơn Fk-1. Nếu H0 đúng. với Fk-1. Ngược lại. ta có: SSW MSW= n-k (Within-groups mean square) SSG MSG= (Between-groups mean square) k-1 Tỷ số này được dùng để kiểm nghiệm giả thuyết H0. thì MSG lớn hơn MSW. ∝. n-k. ∝ có phân phối F với k-1 và n-k bật tự do tương ứng ở tử và mẫu số. . bằng cách cia SSW và SSG cho số bật tự do tương ứng. Bước 4 với việc tính ra gia trị kiểm định F sẽ lý giải điều này Bước 4: Tính giá trị kiểm định F: MSG F= MSW Ta sẽ bác bỏ H0 ở mức ý nghĩa ∝ (thường là 0. nghĩa là trung bình của k tổng thể bằng nhau thì tỷ số MSG/MSW sẽ gần với giá trị 1. nếu giá trị p-value nhỏ hơn mức ý nghĩa. MSW và MSG.

Kết quả phân tích phương sai một yếu tố thường được thể hiện dưới dạng bảng sau: Tổng các Bật tự do Trung bình các chệnh lệch chênh lệch bình (Variance) (df) bình phươngphương Phương sai (Sum of squares) SSG (Mean square) k-1 Biến thiên Giá trị kiểm định P-value Sig. tổng thể nào có trung bình lơn hơn hoặc nhỏ hơn. Kiểm nghiệm Pairwise multiple comparisons kiểm nghiệm sự khác biệt giữa các cặp giá trị trung bình và đưa ra một ma trận đánh dấu hoa thị chỉ những nhóm giá trị trung bình có khác biệt đáng kể ở mức độ tin cậy là 5% . hiển nhiên nảy sinh câu hỏi tiếp theo là trung bình những tổng thể nào là khác nhau. Để trả lời các câu hỏi này SPSS cung cấp các kiểm nghiệm post hoc range và pairwise multiple comparisons có thể quyết định được những giá trị trung bình nào là khác biệt. Giữa các nhóm (Between Groups) Trong nội bộ nhóm (Within Groups) Tổng công (Total) MSG=SSG/k-1 F=MSG/MSW SSW n-k MSW=SSW/n-k SST n-1  So sánh từng cặp trung bình tổng thể Một khi đã quyết định được sự khác biệt tồn tại giữa các giá trị trung bìnhbác bỏ H0. Range tests xác định ra những nhóm giá trị trung bình đồng nhất không tồn tại sự khác biệt giữa các giá trị trung bình này.

Đầu tiên tiến hành kiểm nghiệm có hay không toàn bộ các giá trị trung bình là ngang bằng nhau hay không. Các kiểm nghiệm khác sẽ được tham khảo sau đây loại bỏ được yếu điểm này bằng cách điều chỉnh độ tin cậy cho một so sánh nhiều thành phần. Gabriel.Đối với giả thuyết cân bằng về phương sai được chấp nhận (thông qua kiểm nghiệm Levene) ta có các phương pháp kiểm nghiệm thống kê sau để so sánh các trung bình mẫu: . Yếu điểm của phương pháp này là nó không chỉnh lý độ tin cậy cho tương thích với việc kiểm nghiệm cho nhiều so sánh cùng một lúc. Khi tiến hành kiểm nghiệm một số lượng lớn các cặp trung bình Tukey’s honestly significant difference test sẽ có tác động mạnh hơn là Bonferroni test. . Do đó dẫn đến độ tin cậy không cao.The least significant difference (LSD) là phép kiểm nghiệm tương đương với việc sử dụng phương pháp kiểm nghiệm t riêng biệt cho toàn bộ các cặp trong biến. để tìm ra những nhóm nào thật sự khác biệt và không khác biệt về giá trị trung bình. Kiểm nghiệm Sidak’s t test cũng được sử dụng tương tư như phương phápBonferroni tuy nhiên nó cung cấp những giới hạn chặt chẻ hơn. hoặc ta có thể lựa chọn nhóm đâu tiêu làm nhóm kiểm soát. and Welsch (R-E-G-W) đưa ra hai bước kiểm nghiệm.Phương pháp kiểm nghiệp Bonferroni và Tukey’s honestly significant difference thì được sử dụng cho hầu hết các kiểm nghiệm so sánh đa bội. Thông thường mặc định nhóm mẫu cuối cùng làm nhóm kiển soát. Einot. Và ngược lại Bonferroni thì thích hợp hơn cho các kiểm nghiệm có số lượng cặp so sánh ít.Hochberg’s GT2 thì giống như Tukey’s honestly significant difference test nhưng thông thường Tukey’s test có tác dụng tốt hơn. lúc đó các giá trị trung bình của các nhóm tong biến độc lập sẽ được so sánh với giá trị trung bình của nhóm đầu tiên hoặc nhóm sau cùng của biến độc lập . Gabriel’s pairwise comparisons test thì giống như Hochberg’s GT2 nhưng nó thường được sử dụng hơn khi kích cở giữa các mẫu kiểm nghiệm có sự sai biệt lớn . Nếu toàn bộ các giá trị trung bình là không ngang bằng nhau sau đó bước thứ hai sẽ kiểm nghiệm sự khác biệt giữa các nhóm nhỏ với nhau.Phương pháp kiểm nghiệm Dunnett’s pairwise thì được dùng để so sánh các giá trị trung bình của các mẫu với một gía trị trung bình cụ thể được lấy từ trong tập các mẫu so sánh. . Tuy nhiên việc kiểm nghiệm này không nên thực hiện đối với trường hợp kích cở mẫu trong các nhóm không ngang bằng nhau .Ryan.

Ví dụ như trong nông nghiệp người ta muốn biết ngũ cốc sẽ phát triển như thế nào khi sử dụng các loại phân bón khác nhau. Dunnett’s T3.Thông thường khi kích thước mẫu không ngang bằng giữa các nhóm. Dunnett’s C. Để kiểm nghiệm điều này người ta dùng ANOVA đề kiểm nghiệm tốc độ phát triển trung bình (có thể là trong lượng ngũ cốc thu hoạch.. số lượng trái trung bình thu hoạch được. Chú ý nếu ta kiểm nghiệp theo từng cặp lần lượt bằng phương pháp kiểm nghiệm t hai mẫu mỗi lần kiểm nghiệm độ sai lệch sẽ là 5% (tuỳ thuộc vào mức tin cậy mà ta mong muốn). Student-Newman-Keuls (S-NK). nó đòi hỏi một sự khác biệt lớn giữa các giá trị trung bình quan sát được để bảo đảm tính thật sự khác biệt của phép kiểm nghiệm Đối với trường hợp giả thuyết về sự cân bằng phương sai giữa các mẫu không được chấp nhận ta sẽ sử dụng các phương pháp kiểm nghiệm sau để tiến hành so sánh giá trị trung bình giữa các nhóm:Tamhane’s T2. chiều cao của cây. . không chỉ là so sánh giữa các cặp. Nhà nghiên cứu muốn biết liệu tất cả các loại phân bón trên thì có ảnh hưởng ngang bằng đến sự phát triển của ngu cốc hay một vài loại phân bón sẽ có tác dụng tốt hơn một vài loại khác. and Tukey’s b cũng tương tự tuy nhiên nó ít khi được sử dụng như các phương pháp trên.Phương pháp kiểm nghiệm Scheffé cho phép sự kết hợp tuyến tính của những giá trị trung bình sẽ được kiểm nghiệm. nếu số lượng mẫu bằng 2 ta có thể dùng một phương pháp tương đối đơn giãn hơn là kiểm nghiệm t hai mẫu như đã đề cập ở phần trên.Kiểm nghiệm Waller-Duncan t được sử dụng khi kích thước mẫu là không bằng nhau . Do đó ANOVA sẽ cho phep1 ta kiểm nghiệm tất cả các mẫu trong cùng một mức độ sai sót là 5% và kiểm nghiệm trong một lần . Chính vì vậy kết quả của kiểm nghiệm Scheffé thì thường thận trọng hơn các phương pháp kiểm nghiệm khác . ANOVA thông thường kiểm nghiệm trên một số lượng mẫu lớn hơn hai. Do đó khi kiểm nghiệm tất cả các cặp mẫu lần lượt tỷ lệ sai sót sẽ tăng lên theo mỗi lần. …) đây chính là các giá trị trung bình được sử dụng trong thống kê. Bonferroni và Scheffé là hai phương pháp kiểm nghiệm được lựa chọn hơn là phương pháp Tukey .Games-Howell.Duncan’s multiple range test. ANOVA được sử dụng rộng rãi trong thực tế bởi vì ta sẽ gặp rất nhiều trường hợp đòi hỏi ta phải kiểm nghiệm nhiều mẫu trong cùng một lúc.

Chú ý công ty loại trừ những nhóm khách hành vừa tiêu dùng nhiều loại coffee khác nhau. Tuy hiên trước khi thực hiện quyết định này còn có một cân nhắc là liệu loại bỏ mặt hàng Coffee Brazil thì có làm giảm doanh số của công ty hay không.03/pound. Nhóm khách hàng chuyên tiêu dùng Coffee Colombia và nhóm khách hàng tiêu dùng Coffee Châu Phi (đây là 3 loại Coffee được tiêu dùng chủ yếu của công ty).40 một pound (0. . Vì vậy công ty thuê một công ty nghiên cứu Marketing tiến hành kiểm nghiệm thông kê về sự ưa thích mùi vị coffee của khách hành tiêu dùng Coffee trên thị trường. Trong một năm giá của hạt coffee trội xụt từ $1. Để tạo ra một sự ổn định cho hoạt động của mình một nhà phân phối Coffee muốn loại bỏ mặt hàng Coffee Brazil ra khỏi cơ cấu hàng hóa của mình. và do nghiên cứu về mùi vị nên đòi hỏi chọn những khách hàng có gu tiêu dùng riêng biệt.Để thực hiện kiểm nghiệm ANOVA. Người ta xác định sự bất ổn về giá coffee này là do tình hình hoạt động của bản thân các nhà chế biến và phân phối coffee và một yếu tố khác rất quan trọng là vấn đề hạn hán ở Brazil. dữ liệu đòi hỏi phải thỏa mãn một số giả thuyết sau: Các mẫu kiểm nghiệm phải độc lập và mang tính ngẫu nhiên . do đó thị trường coffee rất nhạy cảm với những biến chuyển về thời tiết (nguy cơ hạn hán) ở Brazil.Các mẫu sử dụng trong kiểm nghiệm phải có phân phối chuẩn hoặc kích thước mẫu đủ lớn để được xem là gần như phân phối chuẩn. Nếu như các mẫu nghiên cứu của ta không thỏa mãn điều kiện trên ta có thể dùng phép kiểm nghiệm phi tham số (nonparametric) như như phép kiểm nghiệm Kruskal-Wallis Ví dụ minh họa: Các nhà chế biến và phân phôí Coffee ở thị trường Hoa Kỳ đang đối mặt với một tình hình bất ổn về giá của hạt Coffee. Công ty tiến hành khảo sát dựa trên ba nhóm khách hàng được lựa chọn ngẫu nhiên bao gồm nhóm khách hàng chuyên tiêu dùng Coffee Brazil.50/pound rồi sau đó lại tụt xuống $2. bởi vì Brazil sản xuất ra 30% sản lượng coffee trên thế giới. Ở đây công ty muốn xác định xem liệu có sự khác biệt về sự mức độ ưa thích đối với ba loại coffee (Sẽ cho khách hành thử ba loại coffee và khảo sát sự đánh .373 kg) lên $2. để bảo đảm tính độc lập của các mẫu được chọn.Phương sai của các mẫu thì phải ngang bằng nhau (có thể kiểm nghiệp điều này bằng phép kiểm nghiệm phương sai Levene.

Range tests xác định ra những nhóm giá trị trung bình đồng nhất không tồn tại sự khác biệt giữa các giá trị trung bình này. Chúng ta cần phải xác định hướng và độ lớn của các khác biệt này bằng cách lần lượt so sánh sự khác biệt giữa các mẫu với nhau (người tiêu dùng coffee brazil có thể thích coffee comlombia hơn coffe châu Phi. Sau đó dùng phương pháp kiểm nghiệp Post Hoc để xác định những khác biệt của từng nhóm khách hàng về loại coffee đã thử. Phân tích phương sai (ANOVA) được dùng để kiểm nghiệm giả thuyết cho rằng tất cả các giá trị trung bình đều ngang bằng nhau. Dựa vào kết quả phân tích ANOVA sẽ cho ta biết liệu mức độ ưa thích trung bình của ba nhóm khách hàng trên là giống nhau hay khác nhau đối với từng loại coffee. Ta phải xác định tiếp sự khác biệt như thế nào giữa các mẫu kiểm nghiệm. Tuy nhiên khi ta loại bỏ giã thuyết về sự ngang bằng giữa các nhóm. Để xác định sự khác biệt giữa các giá trị trung bình chúng ta có thể muốn biết những giá trị trung bình nào là khác biệt. người tiêu dùng có thể chuyển sang coffee comlobia hoặc châu Phi một cách dễ dàng). Sau khi dùng ANOVA khảo sát sự khác biệt giữa các mẫu. Nếu ta có đủ cơ sở để kết luận là không có sự khác biệt giữa các mẫu. Kỷ thuật này là một dạng mở rộng của kiểm nghiệm T hai mẫu. trong khi mức độ ưa thích coffee châu Phi thì thấp hơn do đó để giảm thiểu sự mất doanh số bán coffee brazil khi loại bỏ mặt hàng công ty nên tăng lượng coffee comlombia tiêu thụ trên thị trường) các công cụ thống kê trong kiểm nghiệp Post Hoc cho phép ta thực hiện công việc này. Một khi đã quyết định được sự khác biệt tồn tại giữa các giá trị trung bình.giá về mức độ ưa thích của ba loại Coffee) hay có sự khác nhau và khác nhau này như thế nào ở bao loại Coffe và ở ba nhóm khách hàng. Ta có thể kết thúc công việc (việc loại bỏ coffee brazil không gây ảnh hưởng đến doanh số. Phân tích phương sai một chiều là tiến trình phân tích phương sai một chiều cho một biến định lượng phụ thuộc với một yếu tồ đơn lẻ hay còn gọi là biến độc lập. các kiểm nghiệm post hoc range vàpairwise multiple comparisons có thể quyết định được những giá trị trung bình nào là khác biệt. hoặc người tiêu dùng coffee brazil đánh giá coffee brazil ngang bằng với coffee colombia. Kiểm nghiệm Pairwise multiple comparisons kiểm nghiệm sự khác biệt giữa các cặp giá trị trung bình và đưa ra một ma trận đánh dấu hoa thị chỉ những nhóm giá trị trung bình có khác biệt đáng kể ở mức độ tin cậy là 5% .

Gabriel.The least significant difference (LSD) là phép kiểm nghiệm tương đương với việc sử dụng phương pháp kiểm nghiệm t riêng biệt cho toàn bộ các cặp trong biến. lúc đó các giá trị trung bình của các nhóm tong biến độc lập sẽ được so sánh với giá trị trung bình của nhóm đầu tiên hoặc nhóm sau cùng của biến độc lập. Nếu toàn bộ các giá trị trung bình là không ngang bằng nhau sau đó bước thứ hai sẽ kiểm nghiệm sự khác biệt giữa các nhóm nhỏ với nhau. . . Tuy nhiên việc kiểm nghiệm này không nên thực hiện đối với trường hợp kích cở mẫu trong các nhóm không ngang bằng nhau. hoặc ta có thể lựa chọn nhóm đâu tiêu làm nhóm kiểm soát. . .Hochberg’s GT2 thì giống như Tukey’s honestly significant difference test nhưng thông thường Tukey’s test có tác dụng tốt hơn. Và ngược lại Bonferroni thì thích hợp hơn cho các kiểm nghiệm có số lượng cặp so sánh ít.Đối với giả thuyết cân bằng về phương sai được chấp nhận (thông qua kiểm nghiệm Levene) ta có các phương pháp kiểm nghiệm thống kê sau để so sánh các trung bình mẫu: . Đầu tiên tiến hành kiểm nghiệm có hay không toàn bộ các giá trị trung bình là ngang bằng nhau hay không. and Welsch (R-E-G-W) đưa ra hai bước kiểm nghiệm. để tìm ra những nhóm nào thật sự khác biệt và không khác biệt về giá trị trung bình. Einot. Khi tiến hành kiểm nghiệm một số lượng lớn các cặp trung bình Tukey’s honestly significant difference test sẽ có tác động mạnh hơn là Bonferroni test. Do đó dẫn đến độ tin cậy không cao.Ryan. Yếu điểm của phương pháp này là nó không chỉnh lý độ tin cậy cho tương thich với việc kiểm nghiệm cho nhiều so sánh cùng một lúc.Phương pháp kiểm nghiệm Dunnett’s pairwise thì được dùng để so sánh các giá trị trung bình của các mẫu với một gía trị trung bình cụ thể được lấy từ trong tập các mẫu so sánh. Thông thường mặc định nhóm mẫu cuối cùng làm nhóm kiển soát. Các kiểm nghiệm khác sẽ được tham khảo sau đây loại bỏ được yếu điểm này bằng cách điều chỉnh độ tin cậy cho một so sánh nhiều thành phần.Phương pháp kiểm nghiệp Bonferroni và Tukey’s honestly significant difference thì được sử dụng cho hầu hết các kiểm nghiệm so sánh đa bội. Gabriel’s pairwise comparisons test thì giống như Hochberg’s GT2 nhưng nó thường được sử dụng hơn khi kích cở giữa các mẫu kiểm nghiệm có sự sai biệt lớn . Kiểm nghiệm Sidak’s t test cũng được sử dụng tương tư như phương phápBonferroni tuy nhiên nó cung cấp những giới hạn chặt chẻ hơn.

. Biến kiểm soát này cho phép ta phân các giá trị trung bình theo từng nhóm để kiểm nghiệm.Duncan’s multiple range test. Student-Newman-Keuls (S-N-K). . Thao tác đến đây cho phép ta đưa ra kết luận liệu các trung bình của các nhóm có bằng nhau hay không. . Dunnett’s T3. Đối với trường hợp giả thuyết về sự cân bằng phương sai giữa các mẫu không được chấp nhận ta sẽ sử dụng các phương pháp kiểm nghiệm sau để tiến hành so sánh giá trị trung bình giữa các nhóm:Tamhane’s T2..Games-Howell. nó đòi hỏi một sự khác biệt lớn giữa các giá trị trung bình quan sát được để bảo đảm tính thật sự khác biệt của phép kiểm nghiệm. Để thực hiện phép kiểm nghiệm ANOVA ta vào Comapre means\OneWay ANOVA… từ thanh menus để truy xuất ra hộp thoại như hình 6-18. Bonferroni và Scheffé là hai phương pháp kiểm nghiệm được lựa chọn hơn là phương pháp Tukey. Chính vì vậy kết quả của kiểm nghiệm Scheffé thì thường thận trọng hơn các phương pháp kiểm nghiệm khác .Thông thường khi kích thước mẫu không ngang bằng giữa các nhóm. .Kiểm nghiệm Waller-Duncan t được sử dụng khi kích thước mẫu là không bằng nhau. and Tukey’s b cũng tương tự tuy nhiên nó ít khi được sử dụng như các phương pháp trên. không chỉ là so sánh giữa các cặp. chuyển sang hộp thoại Dependent List. Lựa biến kiểm soát tức là biến độc lập (yêu cầu phải có ba giá trị trở lên trong biến kiểm soát này) chuyển biến kiểm soát vào hộp thoại Factor.Phương pháp kiểm nghiệm Scheffé cho phép sự kết hợp tuyến tính của những giá trị trung bình sẽ được kiểm nghiệm. Dunnett’s C. Di chuyển vệt tối đến các biến định lượng cần so sánh.

.Hình 6-18 Hình 6-19 Để tiến hành kiểm nghiệp so sánh sự khác biệt giữa các nhóm với nhau ta lựa chọn công cụ Post Hoc ta có được hộp thoại như hình 6-19 và lựa chọn các phương pháp kiểm nghiệm thích hợp.Exclude cases analysis by analysis: Những trường hợp có giá trị khuyết ở trong biến phụ thuộc và cả biến kiểm soát sẽ không . công cụ để tính hệ số thống kê Levene để kiểm nghiệm sự ngang bằng về phương sai giữa các nhóm (việc tính toán này quyết định đến sự lưa chon phương pháp kiểm nghiệp trong phần Post Hoc. Hình 6-20 Lựa chọn công cụ Options cho ta hộp thoại như hình 6-20. Để xác định loại loại thông kê mô tả (Descriptive) và tính đồng nhất của phương sai. Công cụ Means Plot dùng để hiển thị đồ thị về giá tri trung bình của các nhóm. Công cụ Missing Values dùng để kiểm soát giá trị khuyết.

được đưa vào trong kiểm nghiệm. . ngẫu nhiên và được lấy ra từ một tổng thể phân phối chuẩn .Trong tổng thể các phương sai của các mẫu dữ liệu phải bằng nhau (điều này sẽ được kiểm nghiệm qua thông kê Levene’s homogeneity-of-variance.Các mẫu dữ liệu phải độc lập. Những trường hợp có giá trị khuyết Cases trong biến điều khiển hoặc bất kỳ biến phụ thuộc nào được đưa ra hoặc không đưa ra kiểm nghiệm đều bị loại trừ ra khỏi quá trình kiểm nghiệm phân tích . Ngoài ra những trường hợp có giá trị quan sát nằm bên ngoài chuổi đã xác định cho biến kiểm soát cũng không được sử dụng . Các giả định phải được thỏa mãn khi dùng phân tích ANOVA một chiều .Exclude cases listwise.

Sign up to vote on this title
UsefulNot useful