Bài Tập Thống kê Chương 9 - Kiểm nghiệm Chi Square với dữ kiện định tính (K47 2022) - Tài liệu tham khảo | Đại học Hoa Sen
Bài Tập Thống kê Chương 9 - Kiểm nghiệm Chi Square với dữ kiện định tính (K47 2022) - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả
Preview text:
HP Thống Kê Ứng Dụng Trong Nghiên Cứu Khoa Học Xã Hội (3TC)
SV TLHGD K47 (năm 1), Khoa Tâm Lý học, ĐHSP TP HCM
GV phụ trách: ThS. Lý Minh Tiên
Ngày gửi bài: 30/05/2022
KIẾN THỨC Ầ
C N NHỚ & BÀI TẬP RÈN LUYỆN CHƯƠNG 9
KIỂM NGHIỆM CHI BÌNH PHƯƠNG VỚI DỮ KIỆN ĐỊNH TÍNH
Tóm tắt kiến thức
Khi dùng các thang đo định danh, thứ tự, dữ kiện thu được là định tính, thường
là Tần số (frequency), Loại (category). Tỉ lệ % được dùng khi so sánh khác biệt giữa các
quan sát được hoặc giữa các nhóm người trả lời. Thí dụ:
+ Số người (hoặc tỉ lệ %) trúng tuyển sau một kỳ thi.
+ Số người trả lời tán thành, phân vân, phản đối với nội dung một c âu hỏi.
+ Đánh giá cơ sở vật chất ở 1 trường học → các mức phân loại: Tốt, Vừa, Kém.
+ Tỉ lệ % học sinh: Giỏi, Khá, Trung bình, Yếu, Kém ở một khối lớp.
+ Hỏi về sở thích một sự kiện, một sản phẩm, vv .. Các mức trả lời: Đặc biệt yêu thích, Có
yêu thích, Không yêu thích, Hoàn toàn không thích.
Để phân tích những dữ kiện định tính như kể trên, kiểm nghiệm Chi bình
phương (2 ) là thích hợp.
Khi dùng Chi bình phương trong việc kiểm nghiệm giả thuyết, cần lưu ý rằng giả
thuyết được kiểm nghiệm là xem các dân số có khác biệt nhau hay không về tần số
của biến đang được quan sát hay đo lường. Cụ thể là so sánh các tần số quan sát f0
(ký hiệu là O) với tần số kỳ vọng fe (ký hiệu là E), trong đó fe được tính dựa trên xác
suất chọn một mức trả lời là theo quy tắc ngẫu nhiên.
Các giả thuyết H0 và H1 có dạng tổng quát là: H0 : E = O và H1 : E O
A. Các bước thực hiện một kiểm nghiệm 2
Kiểm nghiệm 2 được thực hiện theo các bước sau:
(1) Lập các giả thuyết H0, H1.
(tùy theo nội dung nghiên cứu)
(2) Chọn mức ý nghĩa . (như đã học)
(3) Lập bảng tương quan:
Bảng có thể 1 hàng nhiều cột hoặc bảng pxq (với p > 1 hàng, q ≥2 cột), số ô
tương ứng với số mức chia ở dữ kiện, trong mỗi ô ghi tần số fo quan sát trong thực tế tại mức đó.
(4) Tính các tần số mong đợi fe từng ô tương ứng với các fo quan sát.
* Bảng 1 hàng, số ô ≥ 2: Trị số fe từng ô = tổng fo các ô/ số ô.
* Bảng pxq: Trị số fe (ôij) = (Tổng fo hàng i x Tổng fo cột j)/Tổng các fo
(5) Tính 2 cho từng ô theo công thức:
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 1 (𝑓𝑜−𝑓𝑒)2 𝜒2 (tại ô hàng i cột j) 𝑖𝑗 = 𝑓𝑒
sau đó tính 2 toàn thể là tổng các 2 từng ô, tính từ ô thứ nhất đến ô cuối cùng. 𝜒2
2 (từ ô đầu tiên đến ô cuối)
𝑡𝑜𝑡𝑎𝑙 = ∑ 𝜒𝑖𝑗
(6) Tính độ tự do df
* Bảng 1 hàng, df = số ô -1.
* Bảng pxq: df = (h – 1) x (c – 1).
(7) Tra bảng 2 với mức ý nghĩa và độ tự do df để tìm trị số giới hạn của 2.
Đọc bảng 2 . Bảng có 2 chiều, nên dùng kiểm nghiệm 2 đuôi. Hàng ứng với độ tự do df.
Cột ứng với mức ý nghĩa .
Đọc trị số 2 tại vị trí giao của cột và hàng df.
(8) Đối chiếu trị số 2 đã tính với trị số đọc ở bảng 2 . Kết luận.
Nếu 𝜒2 ≥ 𝜒2 : Bác bỏ H 𝛼 0, chấp nhận H1.
Nếu 𝜒2 < 𝜒2 : Chấp nhận H0. 𝛼
B. Một số ứng dụng dùng kiểm nghiệm Chi bình phương
I. So sánh các tần số (h ặ
o c tỉ lệ %) quan sát ở một mẫu
Thí dụ: Tần số vắng mặt trong 5 buổi học ở một mẫu ngẫu nhiên 100 người như sau: Ngày Thứ Hai Thứ Ba Thứ Tư Thứ Năm Thứ Sáu Số người vắng 27 19 22 20 12
Hãy dùng mức ý nghĩa = 0.01 để kiểm chứng một phát biểu cho rằng “Sự vắng mặt xảy
ra trong 5 ngày với tần số bằng nhau”. Bài giải:
1. Các giả thuyết:
H0: Các tần số vắng mặt (hay tỉ lệ % vắng mặt) xảy ra trong 5 ngày là bằng nhau.
H1: Các tần số vắng mặt (hay tỉ lệ % vắng mặt) xảy ra trong 5 ngày là khác biệt nhau.
2. Mức ý nghĩa: = 0.01
3. Bảng tương quan: Ngày Thứ Hai Thứ ba Thứ Tư Thứ Năm Thứ Sáu * fo (quan sát) 27 19 22 20 12 * fe (H0 là đúng) 20 20 20 20 20
4. Tần số mong đợi fe từng ô = N/ số ô = 100/5 = 20 (dựa trên giả thuyết H0 là đúng) .
5. Tính 2 cho từng ô và tổng của 5 ô: 2 2 2 ô1 = (27 – 20) /20 = 2.45
2 ô2 = (19 – 20) /20 = 0.05 2 2 2 ô3 = (22 – 20) /20 = 0.2
2 ô4 = (20 – 20) /20 = 0 2 2 ô5 = (12 – 20) /20 = 3.2
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 2
Tổng các Chi-BP của 5 ô = 5.9.
6. Tính độ tự do: df = 5 -1 = 4.
7. Trị số tới hạn của 2
Tra bảng Chi bình phương với df = 4 và = 0.01 → 2 = 13.28. 0.01
8. Quyết định: Vì 2 = 5.9 < 13.28 nên chấp nhận H0.
Kết luận: Các tần số vắng mặt xảy ra trong 5 ngày là không có khác biệt.
II. So sánh các tần số (hoặc tỉ lệ %) ở nhiều mẫu
Thí dụ: Người ta thăm dò trên 2 mẫu giáo viên Nam và Nữ về một biện pháp kỷ luật đã
đưa ra áp dụng thì thấy trong số 108 nam GV có 26 người không tán thành, 17 không ý
kiến và 65 tán thành; trong số 106 nữ GV có 59 không tán thành, 20 không ý kiến và 27
tán thành. Hỏi rằng, có sự khác biệt về thái độ nói trên giữa GV nam và GV nữ hay không? Chọn = 0.01. Bài giải:
1. Các giả thuyết:
H0 : Không có sự khác biệt về biểu hiện thái độ giữa Nam và Nữ với biện pháp kỷ luật.
H1 : Có sự khác biệt ý nghĩa về biểu hiện thái độ giữa Nam và Nữ.
2. Mức ý nghĩa = 0.01
3. Bảng tương quan (ghi tần số quan sát) Nhóm GV Phản đối Không YK Đồng ý Tổng hàng Nam 26 17 65 108 Nữ 59 20 27 106 Tổng cột 85 37 92 214
4. Tần số kỳ vọng từng ô: 108 8 x 5 106 8 x 5 Ô11 = = 4 . 2 897 Ô21 = = 42.103 214 214 108 3 x 7 106 3 x 7 Ô12 = = 1 . 8 673 Ô22 = = 1 . 8 327 214 214 108 9 x 2 106 9 x 2 Ô13 = = 46.429 Ô23 = = 4 . 5 570 214 214
5. Tính 2 từng ô :
Tại Ô11 : 2 = (26 – 42.897)2 /42.897 = 6.65 Tại Ô 2
12 : 2 = (17 – 18.673) /18.673 = 0.149 Tại Ô 2
13 : 2 = (65 – 46.429) /46.429 = 7.428 Tại Ô 2
21 : 2 = (59 – 42.103) /42.103 = 6.781 Tại Ô 2
22 : 2 = (20 – 18.327) /18.327 = 0.153 Tại Ô 2
23 : 2 = (27 – 45.570) /45.570 = 7.567
Suy ra trị số Chi-bình phương toàn thể =
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 3
6.65 + 0.149 + 7.428 + 6.781 + 0.153 + 7.567 = 28.728
6. Độ tự do = (h – 1) (c – 1) = (2-1) (3-1) = 2
7. Đọc bảng 2 với df = 2 và = 0.01 ta được trị số tới hạn của 2 = 9.21.
8. Quyết định: Vì 2 = 28.728 > 9.21 nên bác bỏ H0 và chấp nhận H1.
Kết luận: Có sự khác biệt ý nghĩa ở mức xác suất = 0.01 giữa các tỉ lệ % tán thành,
không ý kiến, không tán thành của Nam và Nữ giáo viên đối với biện pháp kỷ luật đã áp dụng.
Bình luận: Quan sát các tỉ lệ % trong những ô trên bảng, ta thấy Nam GV tán thành nhiều
hơn Nữ GV (65/108 = 60,2% so với 27/106 = 25,5%), còn Nữ GV phản đối nhiều hơn
Nam GV (59/106 = 55,7% so với 26/108 = 24,1%).
3. Khảo sát sự tương quan:
Chi bình phương cũng dùng để khảo sát sự tương quan. Dưới đây là 2 thí dụ dùng
Chi-BP để kiểm nghiệm mức độ tương quan với dữ kiện định danh (phân loại).
Nếu kết quả kiểm nghiệm 2 cho kết luận là có tương quan, mức độ tương quan
được tính bằng hệ số tương quan nhị phương C (contingency) theo công thức: 2 C = 2 + N
Thí dụ 1: Nhiều người tin rằng hút thuốc là có hại sức khỏe. Trong một nghiên cứu trên
mẫu 1000 đàn ông chết ở độ tuổi 45 – 60, dữ kiện nguyên nhân chết được ghi lại trong
bảng cùng với thói quen hút thuốc của họ. Nguyên nhân chết Người chết Tổng Ung thư Bệnh tim Khác Có hút thuốc 135 310 205 650 Không hút thuốc 55 155 140 350 Tổng = 190 465 345 1000
Chọn mức ý nghĩa = 0.05, hãy kiểm chứng giả thuyết cho rằng “nguyên nhân chết
không có mối liên hệ với thói quen hút thuốc”. Bài giải:
1. Các giả thuyết:
H0 : Nguyên nhân chết không có liên hệ với thói quen hút thuốc.
H1 : Nguyên nhân chết có liên hệ với thói quen hút thuốc.
2. Mức ý nghĩa = 0.05
3. Bảng tương quan (có ghi tần số quan sát và tần số kỳ vọng) Nguyên nhân chết Người chết Tổng Ung thư Bệnh tim Khác fo = 135 fo = 310 fo = 205 Có hút thuốc 650 fe = 123.5 fe = 302.25 fe = 224.25
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 4 fo = 55 fo = 155 fo =140 Không hút thuốc 350 fe = 66.50 fe = 162.75 fe = 120.75 Tổng = 190 465 345 1000
4. Tần số kỳ vọng từng ô:
Tính theo công thức fe (ôij) = (Tổng fo hàng * Tổng fo cột)/ Tổng toàn thể 5. Tính 2 :
2 = 1.0709 + 0.1987 + 1.6525 + 1.9887 + 0.3690 + 3.0688 = 8.349.
6. Độ tự do = (h – 1) (c – 1) = (2-1) (3-1) = 2
7. Đọc bảng 2 với df = 2 và = 0.05 ta được trị số tới hạn của 2 = 5.99.
8. Quyết định: Vì 2 = 8.349 > 5.99 nên bác bỏ H0 và chấp nhận H1.
Kết luận: Ở mức xác suất = 0.05, nguyên nhân chết v
à việc hút thuốc là có liên hệ.
(Nói thêm: Trị số 2 = 8.349 không lớn nên nếu chọn mức ý nghĩa = 0.01 thì trị số tới hạn 2
(0.01) = 9.21 → Không bác bỏ được H0, tức nguyên nhân chết c
độ lập với việc hút thu c ố . Trong
trường hợp này nếu tính hệ số tương quan nhị phương C thì C = 0.091, cho thấy mối liên ệ h
giữa nguyên nhân chết và hút thuốc là rất yếu).
Thí dụ 2: Một nghiên cứu khảo sát trên 191 giáo viên ở 4 trường THPT trả lời về nhiều
biện pháp quản lý đang áp dụng trong trường THPT. Trong mỗi biện pháp, người nghiên
cứu yêu cầu các giáo viên đánh giá cả hai: về Mức độ thực hiện (có 2 mức trả lời: Thực
hiện, Không thực hiện) và về Mức độ cần thiết (có 3 mức: Rất cần thiết, Cần thiết, Không cần thiết).
Dưới đây trích kết quả tần số trả lời biện pháp B1 trong nhóm biện pháp B:
Nâng cao năng lực chuyên môn, nghiệp vụ cho giáo viên.
Bảng tương quan (Thực hiện * Mức độ cần thiết) ở biện pháp B1
Biện pháp B1 (Mức độ cần thiết) Tổng Rất cần thiết Cần thiết Không cần thiết Biện pháp Thực hiện 107 54 8 169 B1 Không thực hiện 5 5 12 22 Tổng = 112 59 20 191
Thực hiện các bước tính Chi-Square giống như phần trên, kết quả 2 = 52.13.
Trị số này là rất lớn so với trị số tới hạn (2 = 13.82 với df = 2, xác suất = 0.001).
Kết luận: Có tương quan giữa các mức độ thực hiện với các mức độ cần thiết ở biện pháp B1.
Hệ số tương quan nhị phương tính được trong trường hợp này là C = 0.463 (cho
thấy mức độ tương quan l à Trung bình).
Bài tập rèn luyện
Bài 1: Có 3 sản phẩm mới được giới thiệu ở cửa hàng thực phẩm. Một mẫu ngẫu nhiên
khách hàng được chọn trong một ngày, kết quả ghi được bên dưới. Hãy dùng mức ý nghĩa
= 0.05, kiểm chứng giả thuyết cho rằng thực tế số lượng khách hàng chọn sản phẩm là
bằng nhau ở 3 sản phẩm. Sản phẩm Sản phẩm 1 Sản phẩm 2 Sản phẩm 3 Tổng
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 5 Số người chọn 18 19 16 53
Bài 2: Trong số các mặt hàng bị lỗi sản xuất, 300 sản phẩm được chọn ngẫu nhiên và được
xác định theo dây chuyền sản xuất làm ra sản phẩm đó. Kết quả ghi được trong bảng dưới. Dây chuyền sản xuất A B C D E Tổng Số lỗi 68 62 57 49 64 300
Chọn mức ý nghĩa = 0.05, kiểm chứng giả thuyết cho rằng những khuyết điểm
của sản phẩm được phân bố bằng nhau ở 5 dây chuyền sản xuất.
Bài 3: Bảng dưới ghi lại tần số trả lời của nhóm đối chứng và nhóm thực nghiệm về một
câu hỏi liên quan biến số thực nghiệm X được áp dụng với nhóm thực nghiệm. Các ý kiến trả lời Tổng Tán thành
Không tán thành Không ý kiến Nhóm đối chứng 38 16 11 65 Nhóm thực nghiệm 43 17 10 70 Tổng = 81 33 21 135
Chọn mức ý nghĩa = 0.05, kiểm chứng giả thuyết cho rằng không có khác biệt về
ý kiến tán thành, không tán thành, không ý kiến ở hai nhóm người nói trên.
Bài 4: Một nghiên cứu được thực hiện để xác định tính hấp dẫn của một sản phẩm X có bị
ảnh hưởng bởi khu vực địa lý hay không? Các dữ kiện được thu thập ở 3 khu vực Bắc,
Trung, Nam như bên dưới. Dùng mức ý nghĩa = 0.01 để kiểm chứng giả thuyết cho rằng
ý kiến của người tiêu dùng đối với sản phẩm là khác biệt nhau theo khu vực địa lý. Các ý kiến trả lời Khu vực Tổng Thích Không thích Không ý kiến Miền Bắc 30 15 15 60 Miền Trung 10 30 20 60 Miền Nam 40 60 15 115 Tổng = 80 105 50 235
Bài 5: Một nghiên cứu được thực hiện để xác định tỉ lệ hút thuốc của những người thuộc
các nhóm tuổi khác nhau. Dữ kiện mẫu được thu thập quy về 4 nhóm tuổi như bảng dưới
(có sử dụng các biên giới liên tục là 19.5, 24.5, 34.5, 44.5, 64.5). Nhóm tuổi (năm) Đặc tính 20 - 24 25 - 34 35 - 44 45 - 64 Có hút thuốc 18 15 17 15 Không hút thuốc 32 35 33 35
Chọn mức ý nghĩa = 0.05, hãy kiểm chứng giả thuyết cho rằng việc hút thuốc độc lập
với 4 nhóm tuổi trong danh sách trên.
Thầy Lý Minh Tiên. Bài tập Thống kê Chương 9. Kiểm nghiệm Chi-Square với dữ kiện định tính (gửi K47, 5/2022) Trang 6