-
Thông tin
-
Hỏi đáp
Bài giảng Xác suất thống kê Toán Kinh Tế 2 | Đại học Lâm Nghiệp
Bài giảng Xác suất thống kê Toán Kinh Tế 2 | Đại học Lâm Nghiệp với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần. Mời bạn đọc đón xem!
Môn: Toán Kinh Tế 2
2 tài liệu
Trường: Đại học Lâm nghiệp
158 tài liệu
Thông tin:
Tác giả:
Preview text:
TS. PHẠM QUANG KHOÁI (chủ biên)
THS. VŨ NGỌC TRÌU, THS. NGUYỄN THỊ VÂN HÕA
THS. ĐẶNG THỊ NGỌC ÁNH BÀI GIẢNG
XÁC SUẤT THỐNG KÊ
TRƢỜNG ĐẠI HỌC LÂM NGHIỆP - 2017 LỜI NÓI ĐẦU
Xác suất thống kê là môn học đƣợc giảng dạy cho các lớp hầu hết ngành
học ở Trƣờng Đại học Lâm nghiệp. Đặc biệt là hệ đào tạo Tín chỉ với thời lƣợng
3 tín chỉ. Do vậy cần có tài liệu học tập phù hợp với chƣơng trình của môn học
để cho sinh viên có thể tự học.
Chúng tôi biên soạn bài giảng này dựa trên chƣơng trình môn học nhằm
đáp ứng nhu cầu học tập của sinh viên. Bài giảng do các giảng viên thuộc Bộ
môn Toán, Khoa Cơ điện và Công trình biên soạn theo trình tự khoa học, chặt
trẽ. Mỗi phần đều có ví dụ minh họa liên quan đến thực tế để tạo hứng thú cho
ngƣời học. Cuối mỗi chƣơng đều có bài tập để củng cố và nâng cao kiến thức môn học.
Sau đây là nội dung chính của bài giảng:
Chƣơng 1 Biến cố ngẫu nhiên và phép tính xác suất
Chƣơng 2 Biến ngẫu nhiên
Chƣơng 3 Mẫu thống kê và thống kê mô tả
Chƣơng 4 Ƣớc lƣợng tham số
Chƣơng 5 Kiểm định giả thuyết thống kê
Chƣơng 6 Sơ lƣợc về lý thuyết tƣơng quan và hồi quy tuyến tính
Chƣơng 7 Phân tích phƣơng sai
Mặc dù đã cố gắng nhƣng cuốn sách khó tránh khỏi những khiếm khuyết.
Chúng tôi mong nhận đƣợc những góp ý quý báu của độc giả.
Hà Nội, tháng 11 năm 2017 Các tác giả 3 Chƣơng 1
BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT
1.1. Các khái niệm mở đầu
1.1.1. Phép thử ngẫu nhiên
Phép thử ngẫu nhiên (hay gọi tắt là phép thử) là một hành động hay một thí
nghiệm hoặc một quan sát mà kết quả của nó không thể dự báo trƣớc đƣợc. Ví dụ 1:
Một vật đƣợc thả từ trên cao chắc chắn sẽ rơi xuống đất;
Mặt trời mọc ở hƣớng Đông và lặn ở hƣớng Tây;
Nƣớc đóng băng ở điều kiện nhiệt độ dƣới 00C và áp suất 1 atm…
Đó là hiện tƣợng diễn ra có tính quy luật, tất định.
=> Những hành động này không phải là phép thử ngẫu nhiên. Ví dụ 2:
Gieo 1 đồng xu cân đối và đồng chất;
Gieo 1 con xúc xắc cân đối và đồng chất;
Rút 1 quân bài từ bộ bài tú lơ khơ.
=> Những hành động này là các phép thử ngẫu nhiên.
1.1.2. Không gian mẫu
Khi thực hiện một phép thử ngẫu nhiên, ta không thể dự báo trƣớc đƣợc kết
quả tuy vậy ta có thể liệt kê đƣợc cụ thể hoặc biểu diễn đƣợc tất cả các kết quả
có thể xảy ra của phép thử ngẫu nhiên.
Tập hợp tất cả các kết quả của một phép thử ngẫu nhiên đƣợc gọi là không
gian mẫu của phép thử đó. Kí hiệu là .
Mỗi phần tử của không gian mẫu cũng tức là mỗi kết quả của phép thử
ngẫu nhiên đƣợc gọi là một phần tử mẫu.
Ta có dạng bài tập tìm không gian mẫu của một phép thử. Ví dụ 3:
Tìm không gian mẫu cho phép thử gieo 1 lần một con xúc xắc cân đối và đồng chất.
Các trƣờng hợp có thể xảy ra: Xúc xắc xuất hiện mặt 1 chấm, 2 chấm, 3 chấm,
4 chấm, 5 chấm, 6 chấm. Hay ta viết dƣới dạng tập hợp: 1,2,3,4,5, 6 . 5
Ví dụ 4: Tìm không gian mẫu cho phép thử gieo liên tiếp 1 con xúc xắc cân
đối và đồng chất cho tới khi xuất hiện mặt 6 chấm thì dừng lại.
Các kết quả có thể có của phép thử này là 1 lần, 2 lần, 3 lần…
Hay ta viết dƣới dạng tập hợp số lần gieo là các số nguyên dƣơng {1, 2, 3…}.
Ví dụ 5: Tìm không gian mẫu cho phép thử đo thời gian sống của một con chip điện tử.
Các kết quả có thể của phép thử là số thực không âm.
Có 2 loại không gian mẫu:
- Không gian mẫu rời rạc: Gồm một số hữu hạn (ví dụ 1) hay vô hạn đếm
đƣợc (ví dụ 2) các phần tử mẫu;
- Không gian mẫu liên tục: Gồm một số vô hạn không đếm đƣợc các phần tử mẫu (ví dụ 3).
Tƣơng ứng với các loại không gian mẫu này ta sẽ có các khái niệm biến
ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục sẽ học ở chƣơng sau.
Chú ý rằng một phép thử có thể có nhiều không gian mẫu khác nhau tùy
thuộc vào việc quan sát của chúng ta.
1.1.3. Biến cố
Xét một phép thử. Chẳng hạn gieo một đồng xu trên một mặt phẳng. Các
kết quả có thể xảy ra là: “Xuất hiện mặt sấp” hoặc “xuất hiện mặt ngửa”. Việc
“xuất hiện mặt sấp” hay “xuất hiện mặt ngửa” là một sự kiện gắn với phép thử
phép thử. Ta có khái niệm biến cố:
Một sự kiện có thể xảy ra hay không tùy thuộc vào kết quả của phép thử
đƣợc gọi là một biến cố của phép thử đó.
Kí hiệu biến cố bằng các chữ cái in hoa A, B, C…
Những kết quả làm cho biến cố xảy ra đƣợc gọi là kết quả thuận lợi của biến cố đó. 6
Nhƣ vậy, ta cũng có thể nói biến cố A là một tập con của không gian mẫu
bao gồm các kết quả thuận lợi cho A.
Ví dụ 6: Xét phép thử tung một con xúc xắc cân đối và đồng chất. Gọi A là
biến cố “Mặt trên của con xúc xắc xuất hiện số chấm lẻ”.
=> Các kết quả thuận lợi của biến cố A là 1 chấm, 3 chấm, 5 chấm và các
kết quả này nằm trong không gian mẫu của phép thử.
* Cách cho biến cố:
Ngƣời ta có thể cho biến cố dƣới dạng 1 mệnh đề hoặc 1 tập hợp.
Lưu ý: Một mệnh đề phải có đầy đủ chủ ngữ và vị ngữ.
Mọi biến cố đều có thể biểu diễn dƣới dạng các tập hợp, thƣờng ở dƣới
dạng liệt kê và có thể dùng sơ đồ Venn để minh họa.
Hình 1: Sơ đồ Venn của một biến cố A trong không gian mẫu Ω
(Tính theo tỉ lệ diện tích, xác suất của A xấp xỉ bằng 0,2)
* Phân loại biến cố:
- Biến cố sơ cấp: Là biến cố không thể phân tích đƣợc nữa.
Ví dụ 7: Tung một đồng tiền, biến cố đồng tiền xuất hiện mặt sấp hoặc mặt
ngửa là các biến cố sơ cấp.
Vì vậy không gian mẫu còn đƣợc gọi là không gian các biến cố sơ cấp.
- Biến cố không thể: Là biến cố không bao giờ xảy ra khi thực hiệp phép
thử. Biến cố không thể đồng nhất với tập rỗng của không gian mẫu.
Ví dụ 8: Tung 1 con xúc xắc, gọi U là biến cố “Xúc xắc xuất hiện mặt có 7 chấm”.
Khi đó U là biến cố không thể.
- Biến cố chắc chắn: Là biến cố luôn xảy ra khi thực hiện phép thử. Biến cố
chắc chắn đồng nhất với tập không gian mẫu Ω. 7
Ví dụ 9: Tung 1 con xúc xắc, gọi S là biến cố “Xúc xắc xuất hiện số chấm
nhỏ hơn hoặc bằng 6” => S là biến cố chắc chắn.
- Biến cố ngẫu nhiên: Là biến cố có thể xảy ra hoặc không xảy ra khi thực hiện phép thử.
Ví dụ 10: Gieo 1 con xúc xắc cân đối và đồng chất. Gọi A là biến cố con
xúc xắc xuất hiện chấm chẵn.
=> Các kết quả thuận lợi có thể xảy ra là A = {2,4,6}.
1.1.4. Quan hệ giữa các biến cố
Trong lý thuyết xác suất, ngƣời ta xét các quan hệ sau đây của các biến cố:
Quan hệ kéo theo: Biến cố A gọi là kéo theo biến cố B nếu khi A xảy ra
thì B cũng xảy ra. Kí hiệu A B.
Quan hệ tương đương: Hai biến cố A và B đƣợc gọi là tƣơng đƣơng nếu
A B và B A . Kí hiệu A = B.
Phép hợp: Hợp của 2 biến cố A và B là một biến cố xảy ra nếu ít nhất
một trong hai biến cố trên xảy ra. Kí hiệu là A B . n
Hợp của một dãy hữu hạn biến cố là biến cố . Biến cố 1 A , 2 A ,...,A n i 1
này xảy ra khi có ít nhất một trong các biến cố Ai xảy ra.
Phép giao: Giao của hai biến cố A và B là một biến cố xảy ra khi cả hai
biến cố trên xảy ra. Kí hiệu: A B hay AB. n
Giao của một dãy hữu hạn n biến cố là biến cố . Biến cố 1 A , 2 A ,...,A n i 1
này xảy ra khi tất cả các biến cố Ai c ùng xảy ra.
Quan hệ đối lập: Biến cố đối của biến cố A là biến cố xảy ra khi và chỉ
khi A không xảy ra. Kí hiệu là A.
Quan hệ xung khắc: Hai biến cố A và B đƣợc gọi là xung khắc với nhau
nếu chúng không đồng thời xảy ra trong một phép thử. Kí hiệu AB .
Hiệu của hai biến cố: Hiệu của biến cố A và biến cố B là một biến cố 8
xảy ra khi A xảy ra nhƣng B không xảy ra. Kí hiệu A\B.
Ta có bảng so sánh giữa lý thuyết tập hợp và lý thuyết xác suất nhƣ sau:
Lý thuyết tập hợp
Lý thuyết xác suất
Mô tả bằng hình vẽ
- là không gian các biến cố Tập
sơ cấp (không gian mẫu).
- là biến cố chắc chắn. Tập rỗng
là biến cố không thể. A B
x A B nghĩa là:
Biến cố A kéo theo biến cố B. x A thì x B
A B là hợp của hai tập hợp. A B là biến cố ít nhất một
x A B nghĩa là:
trong hai biến cố A hoặc B x A hoặc x B xảy ra.
A B là giao của hai tập hợp A B (hoặc kí hiệu là AB) là
x A B nghĩa là:
biến cố cả hai biến cố A và B x A và x B cùng xảy ra.
A B thì A và B là hai A B biến cố xung khắc.
A \ B là hiệu của hai tập hợp A \ B là hiệu của hai biến cố,
x A \ B nghĩa là: tức là A xảy ra nhƣng B x A và x B không xảy ra.
A \ A là biến cố đối của A \ A
biến cố A, tức là A xảy ra nếu A không xảy ra.
Nguyên lý xác suất lớn, xác suất nhỏ:
Qua thực nghiệm và quan sát thực tế, ngƣời ta thấy rằng các biến cố có xác
suất nhỏ sẽ không xảy ra khi ta chỉ thực hiện một phép thử hay một vài phép
thử. Từ đó ta thừa nhận nguyên lý sau đây, gọi là “Nguyên lý xác suất nhỏ”: Nếu
một biến cố có xác suất rất nhỏ t ì
h thực tế có thể cho rằng biến cố đó sẽ không
xảy ra trong một lần thực hiện phép thử.
Ví dụ: Mỗi chiếc máy bay đều có một xác suất rất nhỏ bị xảy ra tai nạn. 9
Nhƣng trên thực tế ta vẫn không từ chối đi máy bay vì tin tƣởng rằng trong
chuyến bay ta đi biến cố máy bay bị rơi không xảy ra.
Việc quy định một mức xác suất thế nào đƣợc gọi là nhỏ sẽ phụ thuộc vào
từng bài toán cụ thể. Chẳng hạn nếu xác suất để máy bay rơi là 0,01 thì xác suất
đó chƣa thể đƣợc coi là nhỏ. Nhƣng nếu xác suất một chuyến tàu khởi hành
chậm là 0,01 thì có thể chấp nhận là nhỏ. Mức xác suất nhỏ này đƣợc gọi là mức
ý nghĩa. Nếu là mức ý nghĩa thì số 1 đƣợc gọi là độ tin cậy.
Khi dựa trên nguyên lý xác suất nhỏ ta có thể phát biểu “Biến cố A có xác
suất nhỏ (tức là P(A) ) sẽ không xảy ra trên thực tế” thì độ tin cậy của phát biểu trên là .
Tƣơng tự nhƣ vậy, ta có thể đƣa ra “Nguyên lý xác suất lớn”: Nếu biến cố
A có xác suất gần bằng 1 thì trên thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử. BÀI TẬP
Bài 1: Cho 3 biến cố A, B, C. Hãy biểu diễn các biến cố sau theo A, B, C.
a) Cả 3 biến cố trên đều xảy ra.
b) Cả 3 biến cố trên đều không xảy ra. c) Chỉ có A xảy ra.
d) A, B xảy ra nhƣng C không xảy ra.
e) Có ít nhất 2 biến cố xảy ra.
f) Có đúng 2 biến cố xảy ra.
g) Có ít nhất một biến cố xảy ra.
Bài 2: Gieo hai con xúc xắc cân đối và đồng chất.
a) Xây dựng không gian mẫu.
b) Xác định các biến cố sau:
A: “Tổng số chấm xuất hiện trên hai con xúc sắc là một số chẵn”.
B: “Ít nhất một con xúc xắc xuất hiện mặt một chấm”.
C: “Tổng số chấm xuất hiện trên hai con xúc xắc bằng 5”.
c) Miêu tả các biến cố A ,
B B C, AB và ABC.
Bài 3: Gieo một đồng xu hai lần. Hãy mô tả không gian mẫu (Không gian
các biến cố sơ cấp). Mô tả biến cố: 10
A: Mặt sấp xuất hiện ít nhất một lần.
B: Lần gieo thứ hai xuất hiện mặt sấp.
Bài 4: Gieo một lần một con xúc xắc cân đối và đồng chất. Mô tả không
gian các biến cố sơ cấp. Mô tả biến cố A: Mặt trên con xúc xắc xuất hiện số chấm chia hết cho 3.
Bài 5: Gieo một đồng xu sau đó gieo một con xúc xắc. Mô tả không gian các biến cố sơ cấp.
Bài 6: Gieo liên tiếp 1 đồng xu đến khi xuất hiện mặt ngửa thì dừng. Mô tả
không gian các biến cố sơ cấp.
Bài 7: Một xạ thủ bắn ba lần, mỗi lần một viên đạn vào cùng một mục tiêu.
Gọi Ai là biến cố viên đạn thứ i trúng mục tiêu, i = 1, 2, 3. Hãy biểu diễn các biến cố sau theo Ai.
a) Cả ba viên đạn đều trúng mục tiêu.
b) Không có viên đạn nào trúng mục tiêu.
c) Có đúng 1 viên đạn trúng mục tiêu.
d) Có ít nhất hai viên đạn trúng mục tiêu.
Bài 8: Hãy mô tả biến cố đối của các biến cố sau đây:
A: Xuất hiện hai mặt ngửa khi gieo một đồng xu cân đối và đồng chất hai lần.
B: Cả ba viên đạn đều trúng đích khi bắn độc lập ba lần, mỗi lần một viên
đạn vào một mục tiêu.
C: Có ít nhất một viên đạn trúng đích khi bắn độc lập ba lần, mỗi lần một
viên đạn vào một mục tiêu.
Bài 9: Bắn độc lập bốn viên đạn vào mục tiêu. Gọi Ai là biến cố viên đạn
thứ i trúng mục tiêu (i = 1, 2, 3, 4). Hãy biểu diễn các biến cố sau theo Ai và iA :
a) Có đúng một viên trúng mục tiêu.
b) Có ít nhất hai viên trúng mục tiêu.
c) Có ít nhất một viên trúng mục tiêu.
Bài 10: Gieo một con xúc xắc cân đối và đồng chất hai lần. Mô tả không
gian các biến cố sơ cấp. Mô tả biến cố: 11
A: Tổng số chấm xuất hiện ở mặt trên con xúc xắc là 8.
B: Mặt 6 chấm xuất hiện ít nhất một lần.
1.2. Các định nghĩa về xác suất
1.2.1. Định nghĩa xác suất cổ điển
Xét một phép thử. Giả sử không gian mẫu của phép thử đó gồm n (hữu
hạn) trƣờng hợp đồng khả năng. Nếu biến cố A liên quan đến phép thử gồm có m
m trƣờng hợp thuận lợi thì tỷ số
đƣợc gọi là xác suất của biến cố A. n m Kí hiệu: P(A) = . n
Các bƣớc để tính xác suất của một biến cố theo định nghĩa cổ điển nếu xem
biến cố A nhƣ là tập con của không gian mẫu thì:
+ Xác định không gian mẫu , rồi tính số phần tử n( ) của ;
+ Xác định các trƣờng hợp thuận lợi của biến cố A, rồi tính số trƣờng hợp
thuận lợi để xảy ra biến cố A là n(A); ( n ) A
+ Tính P(A) theo công thứcP(A) . ( n )
Phƣơng pháp tính số phần tử của không gian mẫu và số trƣờng hợp thuận lợi của biến cố A.
1.2.1.1. Phương pháp liệt kê các phần tử
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Tìm xác suất để:
a) Mặt trên của con xúc xắc xuất hiện một chấm.
b) Mặt trên của con xúc xắc có số chấm chẵn.
c) Mặt trên của con xúc xắc có số chấm nhỏ hơn 7.
d) Mặt trên của con xúc xắc xuất hiện 7 chấm.
Giải:
a) Gọi A là biến cố mặt trên của con xúc xắc có một chấm. Khi đó:
- Không gian mẫu gồm 6 trƣờng hợp => Số phần tử của không gian mẫu là n( ) = 6;
- Các kết quả thuận lợi của biến cố A có một trƣờng hợp. 1 P(A) = . 6 12
b) Gọi B là biến cố mặt trên của con xúc xắc có số chấm chẵn. Khi đó:
- Không gian mẫu gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố B là 3 trƣờng hợp {2, 4, 6}. 3 P(A) = . 6
c) Gọi C là biến cố mặt trên của con xúc xắc xuất hiện số chấm nhỏ hơn 7. Khi đó:
- Không gian mẫu gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố C là 6 trƣờng hợp (bằng số trƣờng hợp
thuận lợi của không gian mẫu). 6 P(A) = 1. 6
d) Gọi D là biến cố mặt trên của con xúc xắc xuất hiện 7 chấm. Khi đó:
- Không gian mẫu gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố D là 0 (không có mặt 7 chấm). 0 P(A) = 0 . 6
1.2.1.2. Phương pháp dùng quy tắc đếm
Nhắc lại: Số cách lấy k phần tử từ n phần tử không quan tâm đến thứ tự là kn C . Quy tắc cộng:
Giả sử để thực hiện một công việc A ta có k phƣơng án thực hiện:
- Phƣơng án 1 có n1 cách hoàn thành;
- Phƣơng án 2 có n2 cách hoàn thành; …
- Phƣơng án k có nk cách hoàn thành.
Khi đó số cách thực hiện công việc A là n1 + n2 +…+ nk. Quy tắc nhân:
Giả sử để thực hiện một công việc A ta phải thực hiện qua k giai đoạn khác nhau:
- Giai đoạn 1 có n1 cách hoàn thành;
- Giai đoạn 2 có n2 cách hoàn thành; 13 …
- Giai đoạn k có nk cách hoàn thành.
Khi đó số cách thực hiện công việc A là n1.n2…nk. Nhận xét:
Điều quan trọng ở đây là làm sao khi đọc đề bài chúng ta biết đƣợc phải
sử dụng quy tắc cộng hay quy tắc nhân. Thông thƣờng, nếu một bài toán mà
công việc có thể giải quyết theo nhiều phƣơng án hay có nhiều trƣờng hợp xảy
ra thì ta thƣờng dùng quy tắc cộng, còn nếu bài toán mà công việc đƣợc thực
hiện bằng những công việc nhỏ liên tiếp, nhiều công đoạn hay là trƣờng hợp nhỏ
này liên kết với trƣờng hợp nhỏ kia thì ta thƣờng dùng quy tắc nhân.
Trong nhiều trƣờng hợp chúng ta cần kết hợp cả hai quy tắc để giải bài toán.
Ví dụ 2: Chọn ngẫu nhiên 3 quân bài trong một bộ bài tú lơ khơ gồm 52
quân. Tính xác suất để trong 3 quân chọn ra đó:
a) Có đúng một quân bài mầu đỏ.
b) Có ít nhất một quân át.
Giải:
Số phần tử của không gian mẫu là số cách chọn ngẫu nhiên 3 quân bài
trong một bộ bài tú lơ khơ 52 quân => Số phần tử của không gian mẫu là 3 ( n ) . 5 C 2 22510
a) Gọi A là biến cố trong 3 quân bài chọn ra có đúng một quân bài mầu đỏ.
Để A xảy ra ta phải thực hiện 2 giai đoạn:
- Giai đoạn 1: Lấy ra 2 quân bài khác màu đỏ trong số 26 quân bài khác
màu đỏ của bộ bài => Có 2 C cách lấy. 26
- Giai đoạn 2: Lấy ra 1 quân bài màu đỏ trong số 26 quân bài màu đỏ của bộ bài => Có 12 C cách lấy. 6
Áp dụng công thức nhân xác suất, số trƣờng hợp thuận lợi của biến cố A là 2 1 n(A) 2 C 6 2 C 6= 325. n A Vậy xác suất P(A) ( ) 325 0,0147 . ( n ) 22150
b) Gọi B là biến cố trong 3 quân bài chọn ra có ít nhất một quân át.
Để B xảy ra ta có các phƣơng án (cách) thực hiện: 14
Phƣơng án 1: Có 1 quân át và 2 quân khác át => Số cách chọn ra 1 quân át
trong 4 quân át của bộ bài là 14
C , số cách chọn 2 quân còn lại trong 48 quân bài khác át là 2
C => Tổng số cách thực hiện phƣơng án 1 là 1 2 48 4 C 4 C . 8
Phƣơng án 2: Có 2 quân át và 1 quân khác át. Lập luận tƣơng tự phƣơng án
1 ta có số cách thực hiện phƣơng án 2 là 2 1 4 C 4 C . 8
Phƣơng án 3: Có 3 quân át. Lập luận tƣơng tự nhƣ trên ta có số cách thực hiện phƣơng án 3 là 3 0 4 C 4 C 8 .
Áp dụng công thức cộng ta tính đƣợc số trƣờng hợp thuận lợi của biến cố B là 1 2 288 4 C 4 C + 2 1 8 4 C 4 C + 3 0 8 4 C 4 C = 4512 + + 4 = 4804. 8 n(B) 4804 P(B) 0,217 . ( n ) 22150
Tính chất của xác suất:
1. Nếu A là biến cố bất kỳ thì 0 P( ) A 1;
2. Xác suất của biến cố chắc chắn là P( ) 1;
3. Xác suất của biến cố không thể là P() 0 ;
4. Nếu A là biến cố đối của biến cố A thì P( ) A 1 P( ) A ;
5. Nếu A B thì P( ) A P(B);
6. Nếu A và B là hai biến cố bất kỳ thì (
P A\ B) P(A) P(AB). Ƣu điểm:
- Để tìm xác suất của biến cố ta không phải thực hiện phép thử (phép thử chỉ cần giả định);
- Xác suất của biến cố tìm đƣợc chính xác. Nhƣợc điểm:
- Các kết quả của phép thử phải đồng khả năng;
- Số trƣờng hợp đồng khả năng phải hữu hạn.
1.2.2. Định nghĩa xác suất thống kê
Trong các phép thử ngẫu nhiên, khi số kết quả có thể là vô hạn hoặc kết
quả có thể là hữu hạn nhƣng không đồng khả năng thì cách tính xác suất theo cổ
điển không áp dụng đƣợc, ngƣời ta định nghĩa xác suất theo tần suất. Chẳng hạn
khi gieo một con xúc xắc không cân đối thì các trƣờng hợp của phép thử không
đồng khả năng. Vì vậy, không thể dùng định nghĩa xác suất cổ điển ở trên.
Khái niệm tần suất: Giả sử trong thực tế ta đã lặp đi lặp lại nhiều lần một 15
phép thử trong những điều kiện giống hệt nhau. Nếu trong n lần thực hiện phép k
thử đó biến cố A xuất hiện k lần thì tỷ số f (A) n
đƣợc gọi là tần suất xuất n hiện biến cố A.
Định nghĩa thống kê của xác suất: Ngƣời ta nhận thấy khi số phép thử tăng
lên vô hạn thì fn(A) luôn dần tới một giới hạn xác định. Giới hạn đó gọi là xác suất của biến cố A.
Nhƣ vậy: P(A) lim f (A). n n
Trong thực tế ta không thể tiến hành phép thử vô hạn lần, do đó với n đủ
lớn ta có thể dùng tần suất thay cho xác suất. k
Tức là: P(A) fn (A) . n
Ƣu điểm: Định nghĩa thống kê về xác suất có ƣu điểm lớn là nó không đòi
hỏi những điều kiện áp dụng nhƣ đối với định nghĩa cổ điển. Nó hoàn toàn dựa
trên các quan sát thực tế để làm cơ sở kết luận về xác suất xảy ra của một biến cố.
Ví dụ 3: Để nghiên cứu khả năng xuất hiện mặt sấp khi tung một đồng xu,
ngƣời ta tiến hành tung một đồng xu nhiều lần (đồng xu không cần cân đối đồng
chất nhƣng các lần tung phải giống nhau) và thu đƣợc kết quả sau đây: Ng-êi lµm Sè lÇn xuÊt hiÖn k Sè lÇn tung (n) TÇn suÊt thÝ nghiÖm mÆt sÊp (k) n Buffon 4040 2048 0,5069 Pearson 12000 6019 0,5016 Pearson 24000 12012 0,5005
Qua ví dụ trên ta thấy khi số phép thử tăng lên thì tần suất xuất hiện mặt
sấp dao động quanh giá trị 0,5. Điều này cho phép ta hy vọng rằng khi số phép
thử tăng lên vô hạn thì tần suất xuất hiện mặt sấp hội tụ về 0,5.
Chú ý: Từ định nghĩa này trong thống kê ngƣời ta hay dùng khái niệm tỷ lệ
thay cho xác suất. Chẳng hạn tỷ lệ hạt thóc nảy mầm trong cùng một điều kiện
về môi trƣờng là 60% nghĩa là khi chọn một hạt thóc ngẫu nhiên thì xác suất của
biến cố A hạt thóc nảy mầm là 0,6 hay P(A) = 0,6.
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm)
Các định nghĩa cổ điển và thống kê của xác suất có nhiều hạn chế để xây 16
dựng đƣợc một lý thuyết tổng quát. Khái niệm cổ điển không dùng đƣợc trong
trƣờng hợp không xây dựng đƣợc một hệ thống đầy đủ các sự kiện đồng khả
năng. Khái niệm tần suất của định nghĩa theo thống kê chỉ là một giá trị xấp xỉ
để đánh giá xác suất, số quan sát đòi hỏi lớn.
Vì vậy, ngƣời ta đã xây dựng định nghĩa xác suất theo hệ tiên đề. Cách xác
định xác suất theo tiên đề sẽ chứa trong nó các định nghĩa cổ điển và thống kê
của xác suất nhƣ là các trƣờng hợp riêng.
Bản chất tiên đề khi xây dựng một lý thuyết toán học nào đó là không quan
tâm với việc định nghĩa các đối tƣợng của lý thuyết đó, mà chỉ quan tâm tới mối
quan hệ giữa các đối tƣợng đó. Các đối tƣợng đó có thể có bản chất khác nhau,
miễn là cùng tuân theo bộ các quy tắc xác định, đƣợc gọi là hệ tiên đề.
Xét một phép thử ngẫu nhiên và là tập hợp tất cả các kết quả của phép
thử. Một tập con của đƣợc gọi là một biến cố. Một họ nào đó các tập con
của đƣợc gọi là một - đại số các biến cố nếu: i) , ; ii) Nếu A thì ( \ ) A ; iii) Nếu A
1, A2… là một dãy các tập hợp của họ thì hợp cũng n1 thuộc .
Ta gọi xác suất trên - đại số là một hàm số P biến mỗi biến cố A
thành một số P(A) thuộc đoạn [0, 1]. Ta viết: P : [0,1] A
Và P(A) thỏa mãn 3 tiên đề sau: 1) A , 0 P( ) A 1; 2) P( ) 1, P( ) 0;
3) Nếu A1, A2… là một dãy các biến cố thuộc đôi một xung khắc với nhau thì: ( P P A P 1 A A2 ...) ( 1) (A2) ... 17 BÀI TẬP
Bài 1: Gieo đồng thời hai con xúc xắc cân đối và đồng chất. Tính xác suất của biến cố:
- Tổng số chấm xuất hiện là 7.
- Tổng số chấm xuất hiện là 8.
- Số chấm xuất hiện hơn kém nhau 2.
Bài 2: Trong một lô N sản phẩm có n sản phẩm đạt tiêu chuẩn. Lấy ngẫu
nhiên từ lô đó m sản phẩm. Tìm xác suất để trong m sản phẩm lấy ra đó có k sản
phẩm đạt tiêu chuẩn ( n N,m N, k min(m,n)).
Bài 3: Một công ty cần tuyển hai nhân viên. Có 6 ngƣời nộp đơn trong đó
có 4 nữ và 2 nam. Giả sử rằng khả năng trúng tuyển của 6 ngƣời là nhƣ nhau.
a) Tính xác suất để hai ngƣời trúng tuyển đều là nam.
b) Tính xác suất để hai ngƣời trúng tuyển đều là nữ.
c) Tính xác suất để có ít nhất một nữ trúng tuyển.
Bài 4: Trên một giá sách có 15 quyển sách, trong đó có 5 quyển văn nghệ. Lấy
ngẫu nhiên từ đó ba quyển. Tìm xác suất sao cho có ít nhất một quyển văn nghệ.
Bài 5: Một lô sản phẩm có 16 sản phẩm loại I, 4 sản phẩm loại II. Lấy ngẫu
nhiên từ lô đó 2 sản phẩm. Tính xác suất để đƣợc ít nhất một sản phẩm loại I.
Bài 6: Để kiểm tra một lô hàng gồm 100 sản phẩm ngƣời ta lấy ngẫu nhiên
từ đó 10 sản phẩm để kiểm tra. Nếu cả 10 sản phẩm đều tốt thì sẽ nhận cả lô.
Trong trƣờng hợp ngƣợc lại thì sẽ kiểm tra toàn bộ. Tính xác suất sao cho trong
lô sản phẩm chứa 10 sản phẩm xấu nhƣng lại đƣợc nhận.
Bài 7: Một lô sản phẩm gồm 10 sản phẩm tốt và 2 sản phẩm xấu. Lấy
ngẫu nhiên lần lƣợt không hoàn lại từ lô hàng hai sản phẩm để kiểm tra. Tính xác suất để:
a) Cả hai sản phẩm đƣợc kiểm tra đều tốt.
b) Có ít nhất một sản phẩm tốt trong hai sản phẩm đó.
1.3. Các công thức tính xác suất
1.3.1. Công thức cộng xác suất
Công thức cộng xác suất cho 2 biến cố:
Cho A và B là hai biến cố bất kỳ, khi đó:
P(A B) ( P )
A P(B) P(A ) B 18
- Nếu A và B là hai biến cố xung khắc ( AB ) thì: ( P A ) B ( P ) A ( P ) B
- Nếu B A ta có: 1 ( P A ) A ( P ) A P( ) A .
Ví dụ 1: Một lớp học có 20 học sinh trong đó có 10 học sinh giỏi toán, 8 học
sinh giỏi văn và 6 học sinh giỏi cả toán và văn. Chọn ngẫu nhiên một học sinh.
a) Tính xác suất để học sinh này giỏi ít nhất một môn.
b) Tính xác suất để học sinh này không giỏi môn nào cả.
Giải: 10
Gọi A là biến cố chọn đƣợc học sinh giỏi toán => P( ) A 0,5. 20
A là biến cố chọn đƣợc học sinh không giỏi toán.
Gọi B là biến cố chọn đƣợc học sinh giỏi văn 8 => P(B) 0,4. 20
B là biến cố chọn đƣợc học sinh không giỏi văn.
Khi đó AB là biến cố học sinh giỏi cả hai môn 6 => ( P ) AB 0,3 . 20
a) Biến cố học sinh đƣợc chọn giỏi ít nhất một môn là C A B . ( P C) ( P A ) B ( P ) A ( P )
B P(AB) 0,5 0,4 0,3 0,6
b) Biến cố học sinh chọn đƣợc không giỏi môn nào là D A B .
=> Biến cố đối của biến cố D là biến cố C chọn đƣợc học sinh giỏi ít nhất một môn toán hoặc văn. ( P ) D 1 (
P C) 1 0,6 0,4
Nhận thấy P(AB) = 0,3 0 => A, B không xung khắc.
Tƣơng tự với P(BC), P(AC) cũng khác 0 nên kết luận các biến cố A, B, C
không xung khắc với nhau từng đôi một.
Mở rộng công thức cộng xác suất:
Cho A, B, C là 3 biến cố bất kỳ, khi đó: (
P ABC) P(A) P(B) P(C) P(AB) P(BC) P(AC) P(ABC)
* Nếu 3 biến A, B, C là đôi một xung khắc thì ta có: (
P ABC) P(A) P(B) P(C)
* Nếu có n biến cố Ai ( i = 1, 2..., n) là đôi một xung khắc thì:
P( A A A P A P A P A 1 2 ... ) ( 1) ( 2) ... ( ) n n 19
Ví dụ 2: Khảo sát về mức độ quan tâm của ngƣời dân trong một khu phố
đối với 3 tờ báo A, B, C, ngƣời ta thu đƣợc số liệu sau:
Có 20% ngƣời dân xem báo A; 15% ngƣời dân xem báo B; 10% ngƣời dân xem báo C;
Có 5% ngƣời dân xem A và B; 3% ngƣời dân xem B và C; 4% ngƣời dân xem A và C;
Có 2% ngƣời dân xem cả A, B và C.
a) Tính xác suất để ngƣời dân xem ít nhất một tờ báo nào đó.
b) Tính xác suất để ngƣời dân không xem bất kỳ tờ báo nào. Giải:
Gọi A, B, C lần lƣợt là các biến cố ngƣời dân xem báo A, B, C. Từ đó ta có:
P(A) = 0,2; P(B) = 0,15; P(C) = 0,1;
P(AB) = 0,05; P(BC) = 0,03; P(AC) = 0,04; P(ABC) = 0,02.
a) Gọi D là biến cố “ngƣời dân xem ít nhất một tờ báo” => D = A B C . ( P D) (
P A B C) ( P ) A ( P ) B ( P C) ( P A ) B ( P BC) ( P AC) ( P ABC)
0,2 0,15 0,1 0,05 0,03 0,04 0,02 0,35 35%
b) Gọi E là biến cố “ngƣời dân không xem tờ báo nào” => E ABC .
Từ giả thiết bài toán ta không thể trực tiếp đƣợc E, vì vậy ta phải sử dụng
biến cố đối của E chính là biến cố D. ( P E) 1 ( P )
D 10,35 0,65 65%
Mở rộng công thức cho n biến cố A1, A2…, An: n n n 1 P( A ) ( P A ) ( P A A ) (
P A A A ) ... (1) ( i i i j i j k P 1 A A2 ...A ) n i 1 i 1 i j
i j k
1.3.2. Công thức nhân xác suất
a. Khái niệm về xác suất có điều kiện
Cho A và B là hai biến cố bất kỳ thỏa mãn P(A) > 0. Xác suất có điều kiện
của biến cố B với điều kiện biến cố A đã xảy ra (gọi là xác suất của B với điều
kiện A), kí hiệu là P(B|A) đƣợc định nghĩa nhƣ sau: P(AB) P(B | A) P(A)
Tƣơng tự nếu P(B) > 0, ta có xác suất của A với điều kiện B: 20 P(AB) P (A | B) P (B)
* Nhận xét: P(B | A) 1 P(B| A).
Ví dụ 3: Lớp Toán có 96 sinh viên, trong đó có 46 nam và 50 nữ. Trong
một kỳ thi có 22 sinh viên đạt điểm giỏi (trong đó có 12 nam và 10 nữ). Chọn
ngẫu nhiên một sinh viên trong lớp.
a) Tính xác suất để chọn đƣợc sinh viên đạt điểm giỏi.
b) Tính lại xác suất để chọn đƣợc sinh viên đạt điểm giỏi biết rằng sinh viên đó là nữ. Giải:
Gọi A là biến cố “chọn đƣợc sinh viên đạt điểm giỏi”. 22 a) P(A) = 0,229 96
b) B là biến cố “sinh viên đƣợc chọn là nữ”, ta cần tính P(A|B). 10 50 Ta có: P(AB) = ; P(B) = 96 96 ( P ) AB 10 96 P(A | B) . 0,2 P(B) 96 50
b. Công thức nhân xác suất cho 2 biến cố
Từ công thức xác suất có điều kiện ta suy ra công thức nhân xác suất của hai biến cố là: P(AB) (
P A | B) P(B) P(B | A) P(A)
Ví dụ 4: Trong một hộp kín có 20 nắp bia Tiger, trong đó có 2 nắp ghi
“Chúc mừng bạn đã trúng thƣởng xe BMW”. Bạn đƣợc chọn lên rút thăm lần lƣợt
hai nắp bia (rút không hoàn lại). Tính xác suất để cả hai nắp đều trúng thƣởng. Giải:
Gọi A là biến cố “nắp bia rút đƣợc lần đầu là nắp có thƣởng”.
Gọi B là biến cố “nắp bia rút đƣợc lần hai là nắp có thƣởng”. Ta cần tính P(AB). 2 1 Ta có: P(A) = và P(B|A) = 20 19
Áp dụng công thức nhân: P(AB) = P(A)P(B|A) = 2 1 1 . 0,0053 20 19 190 21
Khái niệm sự độc lập của hai biến cố:
Hai biến cố A và B đƣợc gọi là độc lập với nhau trong một phép thử nếu
biến cố A có xảy ra hay không cũng không ảnh hƣởng đến khả năng xảy ra của
biến cố B và ngƣợc lại.
Các phát biểu sau là tƣơng đƣơng:
i) Hai biến cố A và B là độc lập với nhau P(AB) = P(A)P(B).
ii) Hai biến cố A và B là độc lập với nhau P(A|B) = P(A) hoặc P(B|A) = P(B).
Ví dụ 5: Trong bình c
ó 4 quả cầu trắng và 5 quả cầu xanh.
Lấy ngẫu nhiên từ trong bình r
a 1 quả cầu. Gọi A là biến cố “lấy đƣợc quả
cầu xanh”. Hiển nhiên P(A) = 5/9.
Quả cầu lấy ra đƣợc bỏ lại vào bình v
à tiếp tục lấy 1 quả cầu. Gọi B là biến
cố “lần thứ 2 lấy đƣợc quả cầu xanh”, khi đó P(B) = 5/9.
Rõ ràng xác suất của biến cố B không thay đổi khi biến cố A xảy ra hay
không xảy ra và ngƣợc lại. Vậy hai biến c
ố A và B độc lập nhau. * Chú ý:
Nếu A và B độc lập với nhau thì A và B, A và B , A và B cũng độc lập với nhau.
* Mở rộng công thức nhân xác suất cho nhiều biến cố:
Cho 3 biến cố A, B, C, khi đó: (
P ABC) P(A)P(B | A)P(C | AB).
Khái niệm về một dãy biến cố độc lập:
Một dãy n biến cố A1, A2,…, An đƣợc gọi là độc lập với nhau (hay độc lập
trong toàn bộ) nếu mỗi biến cố độc lập với tích bất kỳ của các biến cố còn lại. Khi đó: P( 1 A 2 A ...A ) P( 1 A )P( 2 A )...P(A ) n n .
Ví dụ 6: Một xí nghiệp có 3 ô tô hoạt động độc lập. Xác suất để trong một
ngày các ô tô bị hỏng lần lƣợt là 0,1; 0,15 và 0,2. Tìm xác suất để trong một ngày có: a) Cả 3 ô tô bị hỏng.
b) Có ít nhất một ô tô bị hỏng. Giải:
Gọi A,B,C lần lƣợt là các biến cố trong một ngày ô tô thứ nhất, thứ hai và thứ ba bị hỏng.
P(A) = 0,1; P(B) = 0,15; P(C) = 0,2 22
a) Gọi D là biến cố có đúng một ô tô bị hỏng, ta sẽ biểu diễn biến cố D
thông qua các biến cố A, B
, C nhƣ sau: D ABC . Vì các biến cố ,
A B,C độc lập nên áp dụng công thức nhân xác suất ta đƣợc: ( P ) D P( )
A P(B)P(C) 0,1.0,15.0,2 0,003
b) Gọi E là biến cố có ít nhất một ô tô bị hỏng trong ngày, ta sẽ biểu diễn
biến cố E thông qua các biến cố A, B ,C :
E A B C khi đó E AB C
Cách 1: Vì các biến cố ,
A B,C độc lập, áp dụng công thức nhân xác suất: ( P E) 1 ( P E) 1 (
P A)P(B)P(C) 1 0,9.0,85.0,8 0,388
Cách 2: Tính trực tiếp bằng công thức cộng xác suất cho 3 biến cố:
P(E) P(A B C)
P(A) P(B) P(C) P(AB) P(BC) P(AC) P(ABC) 0,388
* Các biến cố A, B, C độc lập nhƣng không xung khắc với nhau (Vì P(AB)
≠ 0) nên không thể tính ( P E) ( P ) A ( P )
B P(C) . Nhận xét:
Hai biến cố A và B xung khắc với nhau thì chƣa chắc A và B là hai biến cố
độc lập và ngƣợc lại, hai biến cố A và B là độc lập với nhau thì chƣa chắc A và B xung khắc với nhau.
Ví dụ 7: Tung 2 đồng xu cân đối và đồng chất lên một mặt phẳng.
Gọi A là biến cố “Có đúng một đồng xu xuất hiện mặt sấp” => P(A) = 2/4.
B là biến cố “Cả hai đồng xu xuất hiện mặt sấp” => P(B) = 1/4.
Ta thấy A và B là hai biến cố xung khắc nhƣng không độc lập vì P(AB) P(A)P(B). BÀI TẬP
Bài 1: Cho A và B là các biến cố sao cho: 1 3 5
P(A) , P(A B) , P(B) 2 4 8 Tìm ( P AB),P( B A ),P(A ) B ,P(B\ A) . Giải: 5 3
Ta có: P(B) 1 P(B) 1 8 8 23
Theo công thức cộng xác suất: ( P A ) B P( )
A P(B) ( P A ) B 1 ( P ) AB ( P ) A ( P ) B ( P A ) B 8 1 ( P A )
B P(A ) B 1 ( P A ) B 4 1 ( P A )
B P(A ) B 1 ( P A ) B 4 1 (B
P \ A) P(B) P(AB) 4 1
Bài 2: Cho A và B là các biến cố với 3 1
P(A) , P(B) , P(AB) = . 8 2 4 Tìm: a) P(A B). b) P( ) A , ( P ) B . c) P(A )
B , P(A )
B , P(B \ )
A , P(A| ) B . 2 1
Bài 3: Cho A và B là các biến cố với 3
P(A B) , P(A) và ( P A ) B . 4 3 4 Tìm P(A), P(B) và P(A\B) .
Bài 4: Hệ thống báo cháy gồm một chuông và một đèn tín hiệu. Xác suất
để khi có cháy chuông hỏng là 0,1; đèn hỏng là 0,05; cả hai thiết bị đều hỏng là
0,01. Tính xác suất để khi có cháy cả hai thiết bị đều hoạt động.
Bài 5: Một lớp sinh viên có 50% học tiếng Anh, 40% học tiếng Pháp, 30%
học tiếng Đức, 10% học tiếng Anh và tiếng Pháp, 15% học tiếng Anh và tiếng
Đức, 10% học Pháp và tiếng Đức, 5% học cả ba thứ tiếng. Tìm xác suất để khi
chọn ngẫu nhiên một sinh viên của lớp đó thì ngƣời đó học ít nhất một trong ba ngoại ngữ kể trên.
Bài 6: Cho A, B là hai biến cố bất kỳ, chứng minh:
a) P(A B) 1 P( ) A ( P B) ( P A ) B . b) ( P ) A ( P A )
B P(B) ( P ). BA Giải: a) (
P A B) P(A B) 1 P(A B) 1 ( P ) A ( P B) ( P AB). b) Xét: 24
VT P(A) P(AB)
P(A) P(A B) P(A) 1 P(A ) B
P(A) 1 P(A) P(B) P(AB) 1 ( P ) B ( P A ) B ( P ) B ( P B ) A VP
Bài 7: Một ngƣời chuẩn bị đấu thầu hai dự án A và B (A đấu thầu trƣớc B).
Ngƣời đó có khả năng trúng thầu dự án A là 70%. Nếu trúng thầu dự án A thì
khả năng trúng thầu dự án B là 90%. Nếu không trúng thầu dự án A thì khả năng
trúng thầu dự án B còn 50%. Tìm khả năng của ngƣời đó:
a) Trúng thầu cả hai dự án.
b) Chỉ trúng thầu một dự án. Giải:
Gọi A là biến cố ngƣời đó trúng thầu dự án A.
B là biến cố ngƣời đó trúng thầu dự án B.
Từ giả thiết: P(A) = 0,7; P(B|A) = 0,9; P(B| A) 0,5.
a) Biến cố trúng thầu cả hai dự án là AB: ( P AB) (
P B| A)P(A) 0,9.0,7 0,63
b) Biến cố chỉ trúng thầu một dự án là: AB A . B
Vì AB và AB là hai biến cố xung khắc nên áp dụng công thức cộng xác suất.
P(AB AB) P(AB) P(AB)
P(B | A)P(A) P(B | ) A P( ) A
(1 P(B | A))P(A) P(B | ) A P( ) A 0,1.0,7 0,5.0,3 0,22
Bài 8: Một ngƣời chuẩn bị tham dự lấy phiếu tín nhiệm vào một chức vụ,
bắt buộc phải qua hai vùng, ở vùng I khả năng đủ tín nhiệm là 60%. Nếu đủ ở
vùng I thì khả năng đủ tín nhiệm ở vùng II là 85%, nếu không đủ ở vùng I thì
khả năng đủ tín nhiệm ở vùng II là 30%. Tìm khả năng của ngƣời đó:
a) Đủ tín nhiệm ở cả hai vùng.
b) Chỉ đủ tín nhiệm ở một vùng.
Bài 9: Một ngƣời có nguyện vọng thi vào hai trƣờng đại học. Đợt I thi vào
trƣờng A, khả năng đỗ là 90%. Nếu đợt I ngƣời đó thi đỗ thì khả năng thi đỗ đợt 25
hai vào trƣờng B là 99%, ngƣợc lại nếu đợt I thi trƣợt thì khả năng thi đỗ lần hai
chỉ còn là 50%. Tính xác suất ngƣời đó chỉ thi đỗ một trƣờng.
Bài 10: Một ngƣời đi mua hàng với xác suất chọn đƣợc hàng tốt là 0,9.
Nếu lần trƣớc chọn đƣợc hàng xấu thì xác suất chọn đƣợc hàng tốt lần sau là
95%, còn nếu lần trƣớc ngƣời đó chọn đƣợc hàng tốt thì không có kinh nghiệm
gì khi mua lần sau. Ngƣời đó mua hàng hai lần, mỗi lần một sản phẩm. Tìm xác
suất để có một lần mua phải hàng xấu.
Bài 11: Cho A và B là các biến cố độc lập. Chứng minh rằng:
a) A và B độc lập.
b) A và B độc lập.
c) A vàB độc lập.
Giải:
Theo giả thiết A và B là các biến cố độc lập nên P(A|B) = P(A) hoặc
P(B|A) = P(B) hoặc P(AB) = P(A)P(B).
a) Để chứng minh A và B độc lập ta cần chứng minh P(A B ) = P(A)P(B ). Thật vậy: P(A )
B P(A)P(B | A) P(A)(1 P(B | A)) P(A)(1 P(B)) P(A)P(B) b) Tƣơng tự trên: (
P A B) P(B)P( A | B) P(B)(1 P(A | B)) P(B)(1 P(A)) P(B)P( ) A
c) Tƣơng tự trên, ta xét: (
P AB) P(B)P( A| B) P(B)(1 P(A | B)) P(B)(1 P(A)) P(B)P( ) A
(Vì A và B độc lập (theo cmt) nên có P(A | B) = P(A)). 26
Bài 12: Chứng minh rằng nếu A, B, C là ba biến cố độc lập thì A và B C
là hai biến cố độc lập. Giải: Ta cần chứng minh ( P (
A BC)) P(A)P(BC) .
Từ giả thiết A,B,C độc lập ta có: P(AB) = P(A)P(B); P(AC) = P(A)P(C); P(ABC) = P(A)P(BC). Xét:
P(A(B C)) P(AB A C)
P(AB) P(AC) P(AB.AC)
P(A)P(B) P(A)P(C) P(ABC)
P(A)P(B) P(A)P(C) P(A)P(BC)
P(A)(P(B) P(C) P(BC)) P(A)P(BC)
Bài 13: Hai xạ thủ mỗi ngƣời bắn một viên đạn vào cùng một bia. Xác suất
trúng đích của ngƣời thứ nhất là 0,9 và của ngƣời thứ hai là 0,7. Tính các xác suất của biến cố:
a) Có đúng một phát trúng.
b) Cả hai phát đều trúng.
c) Có ít nhất một phát trúng. Giải:
Gọi A là biến cố ngƣời thứ nhất bắn trúng bia.
B là biến cố ngƣời thứ hai bắn trúng bia.
Theo giả thiết: P(A) = 0,9; P(B) = 0,7.
a) Biến cố có đúng một phát trúng là biến cố AB A . B
Các biến A và B là độc lập và các biến cố AB và AB xung khắc với nhau nên ta có:
P(AB AB) P(AB) P(A B) P(A) P( ) B ( P ) A P(B)
0,9.0,3 0,1.0,7 0,34
b) Biến cố cả hai phát đều trúng đích là AB.
P(AB) = P(A)P(B) = 0,9.0,7 = 0,63
c) Biến cố có ít nhất một phát trúng là A . B 27 ( P A ) B ( P ) A P( ) B ( P ) AB
0,9 0,7 0,63 0,97
Bài 14: Ba ngƣời mỗi ngƣời độc lập bắn một viên vào mục tiêu với xác
suất trúng tƣơng ứng là 0,6; 0,8; 0,7. Tính xác suất:
a) Chỉ có ngƣời thứ hai bắn trúng.
b) Có đúng một ngƣời bắn trúng.
c) Có ít nhất một ngƣời bắn trúng.
d) Cả ba ngƣời cùng bắn trúng.
e) Có đúng hai ngƣời bắn trúng.
f) Có ít nhất hai ngƣời bắn trúng.
g) Có không quá hai ngƣời bắn trúng.
Bài 15: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất
một lần trúng đích là 0,875. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 16: Bắn độc lập ba viên đạn vào cùng một bia. Xác suất trúng đích của
viên thứ nhất, viên thứ hai, viên thứ ba lần lƣợt là 0,4; 0,5; 0,7.
a) Tìm xác suất sao cho trong ba viên có đúng một viên trúng đích.
b) Tìm xác suất để có ít nhất một viên trúng đích.
Bài 17: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất
một lần trúng đích là 0,936. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 18: Một máy tính điện tử gồm n bộ phận hoạt động độc lập. Xác suất
hỏng trong khoảng thời gian t của bộ phận thứ k bằng pk (k = 1, 2... n). Nếu ít
nhất một bộ phận hỏng thì máy sẽ ngừng làm việc. Tính xác suất để máy ngừng
làm việc trong khoảng thời gian t. Giải:
Gọi Ak là biến cố bộ phận thứ k hỏng trong khoảng thời gian t. => P(A ) k = pk (k = 1, 2... n).
Gọi B là biến cố để máy ngừng làm việc: (
P B) 1 P( A A A 1) P( 2)...P( ) n 1 (1 p 1)(1 p 2)...(1 p ) k n 1 (1 p ) i i 1 28
Bài 19: Ở một cơ quan có ba chiếc xe ô tô hoạt động độc lập. Khả năng có
sự cố của mỗi ô tô tƣơng ứng là 0,15; 0,2; 0,1.
a) Tìm khả năng cả ba ô tô cùng bị hỏng.
b) Tìm khả năng có ít nhất một chiếc hoạt động đƣợc.
c) Tìm khả năng cả ba ô tô cùng hoạt động đƣợc.
d) Tìm khả năng có không quá hai ô tô bị hỏng.
Bài 20: Một chi tiết đƣợc gia công một cách độc lập qua ba công đoạn nối
tiếp với nhau và chất lƣợng chi tiết chỉ đƣợc kiểm tra sau khi đã đƣợc gia công
xong. Xác suất gây ra khiếm khuyết cho chi tiết ở các công đoạn tƣơng ứng là
0,2; 0,15; 0,1. Tìm xác suất để sau khi gia công chi tiết. a) Có khiếm khuyết.
b) Bị ít nhất hai khiếm khuyết.
c) Bị cả ba khiếm khuyết.
d) Không bị khiếm khuyết nào.
e) Bị không quá một khiếm khuyết.
1.4. Công thức Bernoulli
1.4.1. Dãy phép thử Bernoulli
Khái niệm dãy phép thử Bernoulli: Xét một dãy các phép thử độc lập.
Các phép thử này đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử chỉ có hai kết quả: A và ; A
- Xác suất P(A) = p(0 < p < 1) không đổi cho mọi phép thử.
Giá trị p đƣợc gọi là xác suất thành công trong mỗi lần thử.
Chú ý: Dãy phép thử độc lập là dãy các phép thử mà kết quả của phép thử
này không làm ảnh hƣởng tới kết quả của phép thử khác.
Công thức này mang tên nhà toán học ngƣời Thụy Sĩ Jacob Bernoulli (còn
đƣợc biết đến với tên James hoặc Jacques) (1654 – 1705).
Ví dụ 1: Gieo một đồng xu cân đối và đồng chất 5 lần => Đó là dãy 5 phép thử Bernoulli.
Ví dụ 2: Một ngƣời bắn độc lập lần lƣợt 10 viên đạn vào bia => Đó là dãy 10 phép thử Bernoulli.
1.4.2. Công thức Bernoulli
Xác suất để trong n lần thực hiện phép thử, biến cố A xảy ra đúng k lần (0 k )
n với xác suất mỗi lần A xảy ra là p (0 < p <1). Đƣợc ký hiệu là 29
Pn(k,p) và cho bởi công thức sau: k k n-k Pn(k,p) = C np (1- p)
Công thức trên đƣợc gọi là công thức Bernoulli.
Chứng minh công thức Bernoulli:
Gọi B là biến cố trong n lần thực hiện phép thử biến cố A xảy ra đúng k
lần. Ta biểu diễn biến cố B là tích của các biến cố A và A nhƣ sau: B AAAA . A ..AAA n
Lƣu ý là vị trí của các biến cố A và A xuất hiện trong dãy trên là ngẫu
nhiên, các biến cố A và A là độc lập với nhau.
Ta có số cách xếp k vị trí cho A trong n vị trí trên là kn C . Từ đó: ( P ) k
B C P( ) A ( P ) A ...P( ) A ( P ) A ...P( ) A ( P ) k k
A C p (1 )n k n n p k nk
Ví dụ 3: Xác suất để một cây con sống sót sau khi mắc một loại sâu bệnh
hiếm thấy là 0,4. Nếu biết rằng có 8 cây con mắc loại sâu bệnh này, tìm xác suất để trong 8 cây đó:
a) Có đúng 1 cây sống sót.
b) Có đúng 3 cây sống sót.
Biết rằng khả năng sống sót của mỗi cây là độc lập với nhau. Giải:
Đây là dãy các phép thử Bernoulli với n = 8 và p = 0,4.
a) Xác suất để có 1 cây sống sót là: 1 7 8 P (1;0,4) 8 C (0,4)(0,6) 0,0896
b) Xác suất để có 3 cây sống sót là: 3 3 5 P C 8 (3;0, 4) 8 (0, 4) (0,6) 0, 279
Mở rộng bài toán: Tính xác suất để trong n lần thực hiện phép thử:
i) Biến cố A xảy ra từ k1 đến k2 lần.
ii) A xảy ra ít nhất 1 lần.
iii) Tìm số lần biến cố A xảy ra có khả năng nhất.
iv) Tìm số lần thực hiện phép thử tối thiểu để thỏa mãn điều kiện nào đó. 30
Giải quyết bài toán:
Sử dụng công thức Bernoulli đã xây dựng ở trên và các quy tắc đếm, ta dễ
dàng chứng minh đƣợc các công thức sau:
i) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là:
P (k k k P k P k P k 1 2) ( 1) ( 1 1) .... ( 2) n n n n
ii) Xác suất để biến cố A xảy ra ít nhất một lần là:
P (1 k n) 1 P (0) 1 (1 p)n n n
iii) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn:
(n 1) p 1 k 0 (n 1) p
k0 (n 1) p
Số nguyên k0 ở trên đƣợc gọi là giá trị chắc chắn nhất của số thành công
hay giá trị có khả năng xảy ra lớn nhất. Pn(k0, p) là số hạng trung tâm của phân
bố nhị thức mà ta sẽ học ở chƣơng sau.
iv) Phƣơng pháp giải sẽ đƣợc xét trong từng bài toán cụ thể.
Ví dụ 3: Một xạ thủ bắn lần lƣợt 6 viên đạn vào một mục tiêu với xác suất
trúng trong mỗi lần bắn là 0,8. Tìm xác suất sao cho:
a) Có đúng 2 viên trúng mục tiêu.
b) Có không quá 2 viên trúng mục tiêu.
c) Có ít nhất 1 viên trúng mục tiêu.
d) Tìm số viên trúng mục tiêu có khả năng nhất.
e) Phải bắn bao nhiêu lần để xác suất có ít nhất 1 viên trúng mục tiêu là 90%? Giải:
Dãy phép thử ở đây là dãy phép thử Bernoulli với n = 6 và p = 0,8.
a) Áp dụng công thức Bernoulli: P (k; p) P (k) k k n k n n n C p q
Xác suất có đúng 2 viên trúng mục tiêu là: 2 2 4 P P C 6 (2;0,8) 6 (2) 6 (0,8) (0, 2) 0,01536
b) Xác suất có không quá 2 viên trúng mục tiêu là: 0 0 6 1 5 2 2 4 P k P P P C C C 6(0 2) 6(0) 6 (1) 6(2) 6 0,8 .0, 2 60,8.0, 2 6 0,8 .0, 2 0,01696
c) Xác suất có ít nhất 1 viên trúng mục tiêu là: 6 6 P (1 k 6) 1 (1 0,8) 1 0,000064 0,999936
d) Số viên trúng có khả năng nhất là k0 thỏa mãn: 31 7.0,8 1 0
k 7.0,8 4,6 0 k 5,6 0 k 5
e) Gọi n0 là số lần bắn để xác suất có ít nhất 1 viên trúng mục tiêu là 0,9. Vậy 0 n 0 1 (1 ) 0,9 (1 )n p p 0,1.
Với p = 0,8 thay vào trên ta đƣợc n log0,1 0 (1 0,8) 0,1 n 0 . log0,2
Ví dụ 4: Tín hiệu thông tin đƣợc phát đi 3 lần độc lập nhau. Xác suất thu
đƣợc tín hiệu ở mỗi lần là 0,4.
a) Tìm xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần.
b) Tìm xác suất để nguồn thu nhận đƣợc thông tin đó.
c) Nếu muốn xác suất thu đƣợc tin 0,9 thì phải phát đi ít nhất bao nhiêu lần? Giải:
Có thể xem mỗi lần phát tin là một phép thử Bernoulli với mục đích thành
công của phép thử là nguồn thu nhận đƣợc tin. Theo giả thiết xác suất thành
công p của mỗi lần thử là 0,4.
a) Xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần là: 2 2 3 P (2,0,4) 3 C (0, 4) (0,6) 0, 288
b) Xác suất để nguồn thu nhận đƣợc thông tin là xác suất để có ít nhất 1 lần
nguồn thu nhận đƣợc thông tin. 3 3 3
P (1 k 3) 1 3
P (0) 1 (1 p) 1 (0,6) 0,784
c) Xác suất để nguồn thu nhận đƣợc thông tin khi phát đi n lần là:
P (1 k n) 1 P (0) 1 (1 p)n 1 (0,6)n n n Để n n : n P k n log(0,1) (1 ) 0,9 1 0,6 0,9 0,6 0,1 n 4,504. log(0,6)
Vì n nguyên dƣơng nên ta chọn n = 5. BÀI TẬP
Bài 1: Xác suất nảy mầm của mỗi hạt giống là 0,4. Ngƣời ta gieo các hạt
giống vào các hốc, mỗi hốc 4 hạt. Tính xác suất để mỗi hốc có ít nhất một hạt nảy mầm. Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Xác suất để mỗi hốc có ít nhất một hạt nảy mầm là: 4 4 4 P (1 k 4) 1 (1 p) 1 (0,6) 0,8704
Bài 2: Một lô hàng chứa rất nhiều sản phẩm với tỷ lệ phế phẩm là p = 0,02. 32
Cần phải lấy một mẫu với cỡ mẫu bằng bao nhiêu sao cho xác suất để có ít nhất
một phế phẩm trong mẫu đó không bé hơn 0,95? Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Gọi n là số sản phẩm cần lấy. A là biến cố có ít nhất một phế phẩm trong n sản phẩm lấy ra. ( P )
A P (1 k )
n 1 (1 p)n 1 (0,98)n n Để: P A n n log(0,05) ( ) 0,95 1 0,98 0,95
0,98 0, 05 n n 148 log(0,98)
Vậy số hạt giống cần lấy là n = 148.
Bài 3: Tỷ lệ học sinh trong trƣờng bị cận thị là 1%. Hỏi cần lấy một mẫu
cỡ bao nhiêu (chọn bao nhiêu học sinh) để trong mẫu đó có ít nhất một học sinh
bị cận thị với xác suất không bé hơn 0,95?
Bài 4: Bắn độc lập 14 viên đạn vào một mục tiêu. Xác suất trúng đích của
mỗi viên đạn bằng 0,2. Mục tiêu bị phá hủy hoàn toàn nếu có ít nhất hai viên
đạn trúng mục tiêu. Tìm xác suất để mục tiêu bị phá hủy hoàn toàn.
Bài 5: Một nữ công nhân quản lý 12 máy dệt. Xác suất để mỗi máy dệt
trong khoảng thời gian T cần đến sự chăm sóc của nữ công nhân bằng 1/3. Tính xác suất để:
a) Trong khoảng thời gian T có 4 máy cần đến sự chăm sóc của nữ công nhân.
b) Trong khoảng thời gian T số máy cần đến sự chăm sóc của nữ công nhân
không bé hơn 3, không lớn hơn 6.
Bài 6: Phải gieo 2 đồng xu bao nhiêu lần để với xác suất không nhỏ hơn
0,99 có thể tin rằng có ít nhất một lần đƣợc cả hai mặt sấp.
1.5. Công thức xác suất đầy đủ và công thức Bayes
1.5.1. Giới thiệu khái niệm nhóm đầy đủ
Dãy n biến cố B1, B2, …, Bn lập thành một nhóm đầy đủ các biến cố nếu nó
thỏa mãn các điều kiện sau đây:
- Hợp của chúng là biến cố chắc chắn, tức là:
- Các biến cố đó đôi một xung khắc, tức là: 33 B B ,
i ;j ,i j 1, n i j
Một số ví dụ về nhóm đầy đủ:
Ví dụ 1: Trong 1 thùng thóc chỉ có 2 loại thóc là thóc đã nảy mầm và thóc
chƣa nảy mầm. Lấy ngẫu nhiên 1 hạt thóc trong thùng.
Gọi A là biến cố “Hạt thóc lấy ra là thóc đã nảy mầm”.
Gọi B là biến cố “Hạt thóc lấy ra là thóc chƣa nảy mầm”.
Nhóm các biến cố A, B tạo thành nhóm đầy đủ các biến cố.
Ví dụ 2: Một ngƣời bắn 3 viên đạn vào bia. Bi là biến cố “Sau 3 lần bắn có
đúng i viên trúng vào bia”, i = 0, 1, 2, 3.
Nhóm các biến cố B1, B2, B3 không tạo thành nhóm đầy đủ các biến cố.
Nhóm các biến cố B0, B1, B2, B3 tạo thành nhóm đầy đủ các biến cố.
1.5.2. Công thức xác suất đầy đủ và công thức Bayes
Giả sử B1, B2, …, Bn là một nhóm đầy đủ các biến cố. Xét biến cố A sao cho
A xảy ra khi và chỉ khi một trong các biến cố B1, B2, …, Bn xảy ra. Đặt: Ta có: A AS (
A B B ... B ) AB AB ... AB 1 2 n 1 2 n
Vì các Bi xung khắc từng đôi nên các ABi cũng xung khắc từng đôi (i = 1,…, n) : n ( P ) A ( P ABi) i1
Công thức xác suất đầy đủ: n
P(A) P(A | B )P(B ) i i i
Tiếp tục áp dụng công thức nhân xác suất: P(AB )
P(A| B )P(B ) P(B | A) k k k k P(A) P(A)
Thay công thức tính P(A) ở trên ta đƣợc công thức Bayes: ( P A| B ) ( P B ) P(B | A) k k k n
P(A | B P B i ) ( i ) i
Công thức Bayes (mang tên Thomas Bayes, 1702 - 1761, một linh mục 34
đồng thời là ngƣời có những nghiên cứu về xác suất).
Ví dụ 3: Có 2 hộp đựng sản phẩm, hộp thứ nhất có 10 sản phẩm trong đó
có 9 sản phẩm màu trắng và 1 sản phẩm màu đen, hộp thứ 2 có 20 sản phẩm
trong đó có 18 sản phẩm màu trắng và 2 sản phẩm màu đen. Từ hộp thứ nhất lấy
ngẫu nhiên ra 1 sản phẩm bỏ sang hộp thứ 2. Tìm xác suất để lấy ngẫu nhiên
một sản phẩm từ hộp thứ 2 đƣợc sản phẩm màu trắng. Giải:
Gọi A là biến cố “Sản phẩm lấy từ hộp thứ 2 là sản phẩm màu trắng”.
Biến cố A xảy ra đồng thời với một trong hai biến cố sau:
B1: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu trắng”.
B2: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu đen”.
Khi đó (B1, B2) tạo thành nhóm biến cố đầy đủ.
Áp dụng công thức xác suất đầy đủ ta có: 9 19 1 18 ( P ) A ( P B ) ( P A| B ) (
P B )P(A| B ) 0,9 1 1 2 2 10 21 10 21
Ví dụ 4: Tỷ lệ ngƣời dân nghiện thuốc lá là 30%, biết rằng tỷ lệ ngƣời viêm
phổi trong số ngƣời nghiện thuốc lá là 60%, còn tỷ lệ ngƣời viêm phổi trong số
ngƣời không hút thuốc là 40%.
a. Chọn ngẫu nhiên 1 ngƣời. Tính xác suất để ngƣời đó bị viêm phổi.
b. Chọn ngẫu nhiên 1 ngƣời, biết rằng ngƣời đó viêm phổi. Tính xác suất
ngƣời đó nghiện thuốc lá. Giải:
Gọi A là biến cố “Chọn ra một ngƣời bị viêm phổi”.
Gọi B1 là biến cố “Ngƣời đƣợc chọn ra là ngƣời nghiện thuốc”.
Gọi B2 là biến cố “Ngƣời đƣợc chọn ra là ngƣời không nghiện thuốc”.
Nhóm biến cố đầy đủ ở đây là {B1, B2}.
Ta có: P(B1) = 0,3; P(B2) = 0,7 P(A|B1) = 0,6, P(A|B2) = 0,4
a) Áp dụng công thức xác suất đầy đủ:
P(A) = 0,3.0,6 + 0,7.0,4 = 0,46
b) Áp dụng công thức Bayes: 35
P(A| B )P(B ) 0,3.0,6 1 1
P(B | A) 0,39 1 P(A) 0, 46 Nhận xét:
Ngƣời ta thƣờng áp dụng công thức xác suất đầy đủ khi phép thử có nhiều hơn 1 bƣớc thử.
Mấu chốt để giải bài toán là phải thành lập đƣợc nhóm biến cố đầy đủ,
thông thƣờng ngƣời ta lấy nhóm biến cố đầy đủ là các kết quả có thể có của bƣớc thứ nhất.
Nhóm biến cố đầy đủ không duy nhất, để tính xác suất của biến cố A có thể
dựa vào nhóm đầy đủ này hoặc nhóm đầy đủ khác, miễn là quan hệ giữa A và
nhóm đầy đủ phải thỏa mãn: A xảy ra khi và chỉ khi 1 trong các biến cố của
nhóm đầy đủ phải xảy ra.
Khi nào dùng công thức xác suất đầy đủ và khi nào dùng công thức Bayes?
Công thức xác suất đầy đủ giúp ta tính xác suất của 1 biến cố A thông qua 1
nhóm các giả thiết đầy đủ B1, B2, …, Bn. Công thức Bayes thì ngƣợc lại, giúp ta
tính xác suất xảy ra của các giả thiết B1, B2, …, Bn khi biến cố A xảy ra.
Ý nghĩa của công thức Bayes:
- B1, B2, …, Bn thƣờng đƣợc gọi là các giả thuyết;
- Các P(B1), P(B2), …, P(Bn) đƣợc xác định trƣớc khi phép thử đƣợc tiến
hành gọi là các xác suất tiên nghiệm;
- Các xác suất P(B1|A), P(B2|A), …, P(Bn|A) gọi là các xác suất hậu nghiệm
(đƣợc xác định sau khi phép thử đã tiến hành và biến cố A đã xảy ra).
Công thức Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau
khi đã biết kết quả của phép thử. Vì vậy, công thức Bayes còn đƣợc gọi là công
thức xác suất hậu nghiệm.
Mô tả một áp dụng bằng sơ đồ chẩn đoán bệnh:
Giả sử tại 1 bệnh viện nào đó các bệnh nhân mắc một trong n bệnh B1, B2, …, Bn.
Ta kí hiệu A là tập các triệu chứng có ở bệnh nhân. Khi đó các xác suất
P(B1), P(B2), …, P(Bn) và P(A|B1), P(A|B2), …, P(A|Bn) có thể đƣợc tính dựa
trên số liệu thống kê của các năm trƣớc. Cụ thể:
P(Bi) bằng tần suất bệnh Bi trong số những bệnh nhân của bệnh viện đó.
P(A|Bi) bằng tần suất thấy tập hợp dấu hiệu A ở những bệnh nhân bị bệnh Bi ở bệnh viện.
Áp dụng công thức Bayes cho ta xác suất chuẩn đoán bệnh Bi khi thấy các triệu chứng A. 36 BÀI TẬP
Bài 1: Tại một phòng khám bệnh chuyên khoa, trong số những ngƣời đến
khám có 80% mắc bệnh. Phòng khám dùng một dụng cụ chuyên dụng để chuẩn
đoán bệnh. Nếu có bệnh thì thiết bị cho kết quả dƣơng tính với xác suất 0,8. Nếu
không có bệnh thì cho kết quả dƣơng tính với xác suất 0,3.
a) Tính xác suất để một ngƣời đến khám bệnh cho kết quả dƣơng tính.
b) Giả sử một ngƣời đến khám bệnh và máy cho kết quả dƣơng tính. Tính
xác suất để ngƣời đó có bệnh; không có bệnh. Giải:
a) Gọi B1 là biến cố ngƣời đến khám có bệnh.
B2 là biến cố ngƣời đến khám không có bệnh.
A là biến cố thiết bị cho kết quả dƣơng tính.
Khi đó B1, B2 lập thành một hệ đầy đủ các biến cố. Theo giả thiết:
P(B1) = 0,8; P(B2) = 0,2; P(A|B1) = 0,8; P(A|B2) = 0,3
Theo công thức xác suất đầy đủ ta có:
P(A) = P(A|B1)P(B1) + P(A|B2)P(B ) 2 = 0,8.0,8 + 0,2.0,3 = 0,7 b) Theo công thức Bayes: ( P A| B P A 1) ( 1) 0,64 P( 1 B | A) 0,91 P( ) A 0,7 ( P A| 2 B ) ( P 2 B ) 0,06 P(B A 2 | ) 0,086 P(A) 0,7
Bài 2: Tiến hành thử phản ứng thuốc trên 100 ngƣời trong đó có 50 ngƣời
khỏe và 50 ngƣời yếu. Tỷ lệ phản ứng dƣơng tính trong số ngƣời khỏe là 0,05
còn trong số ngƣời yếu là 0,8. Chọn ngẫu nhiên một ngƣời trong số đó:
a) Tính xác suất để ngƣời đó có phản ứng dƣơng tính.
b) Giả sử ngƣời đó có phản ứng dƣơng tính. Tìm xác suất để ngƣời đó là
ngƣời khỏe; ngƣời yếu.
Bài 3: Đem kiểm tra một lô hàng gồm các sản phẩm do hai xí nghiệp I và
II sản xuất. Sản phẩm của xí nghiệp I chiếm 45%, xí nghiệp II chiếm 55%. Tỷ lệ
sản xuất ra phế phẩm của xí nghiệp I là 2%, xí nghiệp II là 2,5%. Biết rằng sản
phẩm đem kiểm tra là phế phẩm. Khả năng sản phẩm đó do xí nghiệp nào sản xuất ra nhiều nhất?
Bài 4: Hai nhà máy cùng sản xuất một loại sản phẩm. Tỷ lệ phế phẩm của
nhà máy I là 0,03; của nhà máy II là 0,02. Từ một kho gồm 2/3 sản phẩm của
nhà máy I và 1/3 của nhà máy II ta lấy ra một sản phẩm 37
a) Tính xác suất để sản phẩm lấy ra đó là tốt
b) Giả sử sản phẩm lấy ra là tốt. Tính xác suất để sản phẩm đó thuộc ô I, lô II.
Bài 5: Có 14 xạ thủ: 5 ngƣời bắn trúng đích với xác suất 0,8, 7 ngƣời bắn
trúng đích với xác suất 0,6 và 2 ngƣời bắn trúng đích với xác suất 0,5. Chọn
ngẫu nhiên một ngƣời cho bắn một phát nhƣng không trúng. Ngƣời đó có khả
năng thuộc nhóm nào nhất?
Bài 6: Có 10 hộp bi trong đó có 4 hộp loại I mỗi hộp chứa 3 bi trắng 5 bi
đỏ; 3 hộp loại II mỗi hộp chứa 4 bi trắng và 6 bi đỏ; 3 hộp loại III mỗi hộp chứa 2 bi trắng và 5 bi đỏ.
a) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi. Tính xác suất để đƣợc bi đỏ.
b) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi thì đƣợc bi trắng.
Tìm xác suất để bi đó đƣợc lấy từ hộp loại I; loại II; loại III.
Bài 7*: Một xạ thủ bắn vào một mục tiêu ba viên đạn độc lập với nhau. Xác
suất trúng đích của mỗi viên đạn là 0,4. Mục tiêu bị phá hủy với xác suất 0,2 nếu
có 1 viên trúng đích; với xác suất 0,5 nếu có hai viên trúng đích và 0,8 nếu có ba
viên trúng đích. Tìm xác suất để mục tiêu bị phá hủy.
Bài 8: Một lô hạt giống đƣợc thu gom từ ba nguồn khác nhau. Nguồn I
chiếm ½ số hạt của lô; nguồn II chiếm 1/3 số hạt của lô; còn lại là nguồn III. Tỷ
lệ hạt nảy mầm đối với các hạt thuộc các nguồn tƣơng ứng là 90%; 80%; 70%.
a) Tính tỷ lệ nảy mầm chung của cả lô hạt giống.
b) Lấy ngẫu nhiên từ lô ra một hạt gặp hạt không nảy mầm. Thử đoán xem
hạt đó từ nguồn nào? Vì sao?
Bài 9: Có hai hộp đựng các mẫu hàng xuất khẩu. Hộp thứ nhất đựng 10
mẫu trong đó có 6 mẫu loại A và 4 mẫu loại B. Hộp thứ hai đựng 10 mẫu trong
đó có 3 mẫu loại A và 7 mẫu loại B.
a) Giả sử xác suất lựa chọn các hộp lần lƣợt là 0,55 và 0,45. Chọn ngẫu
nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu. Tính xác suất để mẫu lấy ra là loại A.
b) Chọn ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu thì đƣợc
mẫu loại A. Hỏi mẫu đó có khả năng thuộc loại nào?
Bài 10: Trong một thùng kín thứ nhất có 10 viên bi gồm 8 bi trắng và 2 bi
đen; trong thùng kín thứ hai có 20 viên bi trong đó có 4 trắng và 16 đen. Lấy
ngẫu nhiên từ mỗi thùng một viên bi và sau đó lại lấy ngẫu nhiên một trong hai
viên đó. Tính xác suất để lấy đƣợc bi trắng. 38 TÓM TẮT CHƢƠNG I
1. Định nghĩa cổ điển về xác suất: m
Xác suất của biến cố A là P(A) = . n Trong đó:
+ m là số trƣờng hợp thuận lợi đối với A;
+ n là số trƣờng hợp đồng khả năng (số các trƣờng hợp có thể xảy ra).
2. Định nghĩa thống kê về xác suất: P k
(A) lim f (A) n
, trong đó tỷ số f (A) n
đƣợc gọi là tần suất xuất hiện n n biến cố A.
3. “Nguyên lý xác suất nhỏ”: Nếu một biến cố có xác suất rất nhỏ thì thực
tế có thể cho rằng biến cố đó sẽ không xảy ra trong một lần thực hiện phép thử.
4. “Nguyên lý xác suất lớn”: Nếu biến cố A có xác suất gần bằng 1 thì trên
thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử.
5. Quan hệ của các biến cố:
Lý thuyết tập hợp
Lý thuyết xác suất
- là không gian các biến cố sơ cấp Tập (không gian mẫu).
- là biến cố chắc chắn. Tập rỗng
là biến cố không thể. A B
Biến cố A kéo theo biến cố B.
x A B nghĩa là x A thì x B
A B là hợp của hai tập hợp.
A Blà biến cố ít nhất một trong hai
x A B nghĩa là x A hoặc x B biến cố A hoặc B xảy ra.
A B là giao của hai tập hợp
A B(hoặc kí hiệu là AB) là biến cố cả
x A B nghĩa là x A và x B
hai biến cố A và B cùng xảy ra.
A B thì A và B là hai biến cố A B xung khắc.
A \ B là hiệu của hai tập hợp
A \ Blà hiệu của hai biến cố: A xảy ra
x A \ B nghĩa là x A và x B nhƣng B không xảy ra.
A S \ A là biến cố đối của biến cố A,
A S \ A
tức là A xảy ra nếu A không xảy ra. 39 6. Công thức cộng:
Trƣờng hợp tổng quát: ( P A ) B ( P ) A ( P )
B P(A ) B . Trƣờng hợp xung khắc: ( P A ) B ( P ) A ( P ) B .
Nếu B A ta có: 1 ( P A ) A ( P ) A P( ) A . 7. Công thức nhân: P
Xác suất của B với điều kiện A đã xảy ra là (AB) P(A | B) . P(B)
Công thức nhân trong trƣờng hợp tổng quát: ( P AB) (
P A | B)P(B) P(B | A)P(A)
Nếu A và B độc lập thì P(AB) = P(A)P(B).
Nếu A và B độc lập với nhau thì A và B, A và B , A và B cũng độc lập với nhau.
8. Công thức xác suất đầy đủ: n
P(A) P(A | B )P(B ) i i i
9. Công thức Bayes (CT hậu nghiệm): ( P A| B ) ( P B ) P(B | A) k k k n
P(A | B P B i ) ( i ) i 10. Công thức Bernoulli:
Các phép thử đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử có hai kết quả: A và A ;
- Xác suất P(A) = p không đổi cho mọi phép thử.
i) Xác suất để biến cố A xảy ra đúng k lần trong n phép thử là:
P (k; p) P (k) k k n k C p q ;q 1 n n n p
ii) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là:
P (k k k P k P k P k 1 2 ) ( 1) ( 1 1) .... ( 2 ) n n n n
iii) Xác suất để biến cố A xảy ra ít nhất một lần là:
P (1 k n) 1 P (0) 1 (1 p)n n n
iv) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn:
(n 1) p 1 k n p 0 ( 1) 40 Chƣơng 2 BIẾN NGẪU NHIÊN
2.1. Khái niệm biến ngẫu nhiên
2.1.1. Khái niệm
Khi tiến hành một phép thử ngẫu nhiên, các kết quả của phép thử thƣờng là
các đặc trƣng định tính (biến cố ngẫu nhiên). Tuy nhiên, trong nhiều phép thử
mỗi một kết quả của phép thử thƣờng đƣợc gán tƣơng ứng với một giá trị định lƣợng nào đó.
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Kí hiệu A1, A2, A3, A4,
A5, A6 lần lƣợt là biến cố “mặt 1 chấm xuất hiện”, “mặt 2 chấm xuất hiện”...
“mặt 6 chấm xuất hiện”.
Thay vì xét các biến cố nhƣ trên, ta xét đại lƣợng X là số chấm xuất hiện
khi gieo con xúc xắc. Khi đó X có thể nhận các giá trị 1, 2, 3, 4, 5, 6 một cách ngẫu nhiên.
a) Khái niệm: Biến ngẫu nhiên là đại lƣợng nhận giá trị thực tùy thuộc vào
kết quả của phép thử ngẫu nhiên.
Ta thƣờng dùng các chữ cái X, Y, Z,... để kí hiệu các biến ngẫu nhiên và
các chữ cái thƣờng x, y, z hoặc xi, yi, zi,... để chỉ các giá trị cụ thể mà biến ngẫu nhiên đó nhận.
Nhƣ vậy, đối với biến ngẫu nhiên ngƣời ta chỉ quan tâm xem nó nhận
một giá trị nào đó hoặc nhận giá trị trong một khoảng nào đó với xác suất bằng bao nhiêu. b) Ví dụ
Ví dụ 2: Gieo đồng thời hai con xúc xắc. Gọi X là tổng số chấm xuất hiện ở hai mặt trên.
=> X là biến ngẫu nhiên nhận một trong các giá trị: {2, 3, 4, 5, 6, ... , 11, 12}.
Ví dụ 3: Một ngƣời bắn vào bia cho tới khi trúng mục tiêu thì dừng. Gọi Y
là số viên đạn cần dùng.
=> Y là biến ngẫu nhiên nhận các giá trị: 1, 2, 3, ..., n,.. .
Ví dụ 4: Gọi Z là thời gian sống của một con chíp điện tử.
=> Z là biến ngẫu nhiên nhận các giá trị thực 0 Z . 41
2.1.2. Phân loại
Ngƣời ta phân các biến ngẫu nhiên thành hai loại: biến ngẫu nhiên rời rạc
và biến ngẫu nhiên liên tục.
- Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà các giá trị nó có thể nhận là
tập hữu hạn hoặc vô hạn đếm đƣợc (ví dụ 2, ví dụ 3).
- Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà các giá trị của nó có thể
nhận là tất cả mọi điểm trong khoảng (a; b) nào đó, a có thể bằng và b có thể bằng (ví dụ 4).
2.2. Luật phân phối xác suất
2.2.1. Hàm phân phối xác suất a) Định nghĩa
Hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu F(x), đƣợc xác định theo công thức: F(x) = P(X < x), x R
Nhƣ vậy, tại một điểm x bất kỳ, hàm F(x) chính là xác suất để biến ngẫu
nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x. b) Tính chất
Hàm phân phối của biến ngẫu nhiên có các tính chất sau: 1. 0 F(x) 1.
2. Hàm phân phối là hàm đơn điệu không giảm, nghĩa là nếu x x 1 2 thì
F( 1x) F( 2 x ) . 3. (
P a X b) F(b) F(a) .
4. Hàm phân phối là hàm liên tục bên trái, nghĩa là lim F (x) F (a) . x a
5. lim F (x) 0 và lim F(x) 1 . x x
Ví dụ 1: Cho biến ngẫu nhiên liên tục X có hàm phân phối F(x) nhƣ sau: F(x) = a + b.arctanx Tìm a và b. Giải:
lim F(x) 0 Từ điều kiện : x lim F(x) 1 x 42 Ta có hệ phƣơng trình: 1
lim (a barctan x) 0 a b 0 a x 2 2
lim (a barctan x) 1 1 x a b 1 b 2
2.2.2. Bảng phân phối xác suất
Giả sử X là biến ngẫu nhiên rời rạc nhận các giá trị có thể xi với xác suất
tƣơng ứng là pi (P{X=xi} = pi); pi >0, i = 1, 2... Ta có thể biểu diễn dƣới dạng bảng nhƣ sau: X x1 x2 ... xn ... P p1 p2 ... pn ... với p 1. i i
Bảng trên đƣợc gọi là bảng phân phối xác suất (hay phân phối xác suất) của biến ngẫu nhiên X.
Ví dụ 2: Gieo một con xúc xắc cân đối và đồng chất. Ký hiệu X là số chấm
thu đƣợc trên con xúc xắc.
a) Tìm phân phối xác suất của X.
b) Viết hàm phân phối của X. c) Tìm ( P 2 X 5); ( P 2 X 5). Giải:
a) Vì X là biến ngẫu nhiên rời rạc nên để tìm phân phối xác suất của X
nghĩa là ta phải xây dựng bảng phân phối xác suất.
- Các giá trị mà X có thể nhận: X = {1, 2, 3, 4, 5, 6}.
- Tìm xác suất để X lần lƣợt nhận các giá trị trên:
P(X = 1) = 1/6; P(X = 2) = 1/6; P(X = 3) = 1/6;
P(X = 4) = 1/6; P(X = 5) = 1/6 ; P(X = 6) = 1/6.
- Kiểm tra điều kiện P(X = 1) + P(X = 2) + …. + P(X = 6) = 1.
Vậy phân phối của X là một bảng có dạng: X 1 2 3 4 5 6 P 1 1 1 1 1 1 6 6 6 6 6 6 43
b) Tìm hàm phân phối của X dựa vào định nghĩa ở trên:
F (x) P(X x) P(X ix ) i p x x x x i i
+ Với x < 1 thì F(x) = P(X < x) = P(X < 1) = 0.
+ Với 1 x 2 thì F(x) = P(X < x) = P(X =1) = 1/6.
+ Với 2 x 3 thì F(x) = P(X < x) = P(X =1) + P(X = 2) = 2/6. ......
Xét tƣơng tự ta có kết quả sau: 0 khi x 1 1 1/ 6
khi 1 x 2 5/6 4/6 2 / 6
khi 2 x 3 3/6 F (x) 3 / 6
khi 3 x 4 2/6 4 / 6
khi 4 x 5 1/6 5 / 6
khi 5 x 6 1 2 3 4 5 6 1 khi x 6
c) Cách 1: Sử dụng tính chất của hàm phân phối: 4 1 3 1 (2
P X 5) F(5) F(2) 6 6 6 2 3 1 2 1 (2
P X 5) P(2 X 5) (
P X 2) 6 6 6 3
Cách 2: Tính trực tiếp từ bảng phân phối:
2 X 5 X {2, 3, 4}. Vậy P(2 X 5 ) = P(X=2)+P(X=3)+P(X=4).
2 X 5 X {3, 4}. Vậy P( 2 X 5) = P(X=3)+P(X=4).
Tổng quát: Hàm phân phối xác suất của biến ngẫu nhiên rời rạc có phân
phối xác suất pi = P(X = xi), i = 1, 2, ...n đƣợc cho bởi công thức: 0 khi x 1 x 1 p khi 1 x x x2
F (x) p p
x x x 1 2 khi 2 3 ...... 1 khi x n x
Nhận xét: Hàm phân phối của biến ngẫu nhiên rời rạc X là hàm bậc thang,
không giảm, gián đoạn tại các điểm có thể có của X, độ lớn của bƣớc nhảy tại xi là pi. 44
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục
Đối với biến ngẫu nhiên liên tục X, xác suất để X nhận một giá trị cụ thể
nào đó luôn luôn bằng không: P{X = a} = 0. Thành thử ta quan tâm đến xác suất
để X rơi vào một khoảng (a, b) nào đó, chứ không quan tâm tới xác suất để X
nhận một giá trị cụ thể nhƣ trong trƣờng hợp biến rời rạc.
Phân phối xác suất của biến ngẫu nhiên liên tục X đƣợc xác định bởi một
hàm f(x) gọi là hàm mật độ xác suất. a) Định nghĩa
Giả sử X là biến ngẫu nhiên liên tục có hàm phân phối F(x). Nếu hàm F(x)
khả vi thì đạo hàm của F(x) đƣợc gọi là hàm mật độ xác suất của X, ký hiệu f(x): F( )
x f (x)
b) Tính chất của hàm mật độ x
i. F(x) = f (u)du, x R .
ii. f (x) 0.
iii. f (x)dx 1. b
iv. P(a X < b) = F(b) - F(a) = f (x)dx. a Chú ý: b
P(a X b) = P(a < X b) = P(a < X < b) = P(a X < b) = F(b) - F(a) = f (x)dx. a Nhận xét:
i) Giá trị của hàm F(x) bằng diện tích hình phẳng giới hạn bởi đồ thị của
hàm mật độ f(x), trục hoành và đƣờng thẳng song song với trục tung có hoành độ là x. 45
ii) Các diện tích dƣới đƣờng cong mật độ xác suất là các xác suất: b
P(a X b) S f (x)dx a Mô tả bằng hình học:
Ví dụ 3: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng: 3 2 x khi x [ 0,2] f ( ) x 8 0 khi x[0,2]
Tìm hàm phân phối của X. Giải: x x
+ Nếu x < 0: F(x) = f ( )
u du 0.du 0. + Nếu0 x 2 : x 0 x x 3 2 3 3 x 3 3
F (x) f (u)du f (u)du f (u)du 0 u du u x 0 | 0 0 8 24 24 + Nếu x > 2: x 0 2 x
F (x) f (u)du f (u)du f (u)du f (u)du 1 0 2 0 khi x 0 Vậy 3 3 F(x) x
khi 0 x 2 24 1 khi x 2
Ví dụ 4: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng: 1 khi x 1 2 f ( ) x x 0 khi x 1
Tìm hàm phân phối của X. 46 Giải: x x
+ Nếu x < 1: F(x) = f ( )
u du 0.du 0. + Nếu x 1: x 1 x x 1 1 x 1 x 1
F (x) f (u)du f (u)du f (u)du 0
du | 1 1 2 1 1 u u x x x 1 khi x 1
Vậy F(x) x . 0 khi x 1
Ví dụ 5: Cho hàm phân phối của biến ngẫu nhiên liên tục X nhƣ sau: 1 F( )
x a cosx; x R
Tìm hàm mật độ của X. Giải: Từ định nghĩa ta có 1 : f(x) = F’(x) = sin ; x x R
Một số phân phối xác suất phổ biến đối với biến ngẫu nhiên liên tục:
1. Phân phối đều: Hàm mật độ xác suất của phân phối đều: 1 khi x a,b f ( )
x b a 0 khi x ,ab
2. Phân phối chuẩn: Hàm mật độ xác suất của phân phối chuẩn: 2 (x a ) 1 2 2 f ( ) x e 2 47
2.3. Các số đặc trƣng của biến ngẫu nhiên
Đối với một biến ngẫu nhiên nếu đã xác định đƣợc luật phân phối xác suất
của nó thì xem nhƣ ta đã nắm đƣợc toàn bộ thông tin về biến ngẫu nhiên đó. Tuy
nhiên trong thực tế, nhiều bài toán chỉ cần đòi hỏi khảo sát những đặc trƣng cơ
bản của biến ngẫu nhiên.
Các tham số đặc trƣng của biến ngẫu nhiên đƣợc phân loại nhƣ sau:
- Các tham số đặc trƣng cho vị trí trung tâm, giá trị trung bình của biến
ngẫu nhiên: kỳ vọng toán (expected value), trung vị (median), mốt (mode).. ;.
- Các tham số đặc trƣng cho độ phân tán của biến ngẫu nhiên: phƣơng
sai, độ lệch chuẩn, hệ số biến thiên, giá trị tới hạn, mômen (moment)...;
- Các tham số đặc trƣng cho dạng phân phối xác suất; hệ số bất đối
xứng (skewness), hệ số nhọn (kurtosis).. .
2.3.1. Kỳ vọng toán
a) Định nghĩa 1 (Kỳ vọng của biến ngẫu nhiên rời rạc)
Giả sử phân phối xác suất của biến ngẫu nhiên X là: X x1 x2 ... xn … P p1 p2 ... pn …
Nếu tổng ix ip , khi đó kỳ vọng toán của biến ngẫu nhiên X, ký i1
hiệu là E(X) đƣợc định nghĩa nhƣ sau:
E (X ) xipi i 1
Ví dụ 1: Cho biến ngẫu nhiên X với phân phối xác suất: X -1 1 1 3 P 4 4 Giải: 1 3 1 ( E X) ( 1 ) 1. 4 4 2
Ví dụ 2: Chọn ngẫu nhiên 3 viên bi từ 1 túi có 6 bi đen và 4 bi trắng.
Gọi X là số bi trắng trong 3 bi vừa chọn. Tìm bảng phân bố của X và tính kỳ vọng của X. 48 Giải:
Từ giả thiết, ta dễ dàng tính đƣợc bảng phân bố xác suất của X nhƣ sau: X 0 1 2 3 3 0 C C 2 1 C C 1 2 C C 0 3 C C P 6 4 5 15 9 1 6 4 6 4 6 4 3 C 30 3 C 30 3 C 30 3 C 30 10 10 10 10 Khi đó: 5 15 9 1 ( E X) 0. 1. 2. 3. 1,2 30 30 30 30
b) Định nghĩa 2 (Kỳ vọng của biến ngẫu nhiên liên tục)
Biến ngẫu nhiên liên tục X có hàm mật độ là f(x) và nếu x f (x)dx
thì kỳ vọng toán của biến ngẫu nhiên X, ký hiệu là E(X) đƣợc định nghĩa nhƣ sau:
E(X ) x f (x)dx
Ví dụ 3: Tuổi thọ của 1 loài côn trùng nào đó là một biến ngẫu nhiên X có hàm mật độ nhƣ sau: 2 khi x[1,4] 3 f ( ) x x 0 khi x [1, 4]
Tìm kỳ vọng của biến ngẫu nhiên X. Giải: Ta có: 1 4 4 2
E(X ) xf (x)dx xf (x)dx xf (x)dx xf (x)dx 0 . x dx 0 3 1 4 1 x 4 4 2 2 3 dx 2 1 x x 1 2
c) Ý nghĩa của kỳ vọng toán
Kỳ vọng của một biến ngẫu nhiên là giá trị trung bình (theo nghĩa xác suất)
mà biến ngẫu nhiên đó nhận. Nó phản ánh giá trị trung tâm của phân phối xác
suất với khối lƣợng 1. Chính vì vậy mà ngƣời ta hay dùng kỳ vọng để xác định vị trí của phân phối. 49
Khái niệm kỳ vọng đƣợc áp dụng rộng rãi trong nhiều lĩnh vực. Trong kinh
doanh và quản lý, kỳ vọng đƣợc ứng dụng dƣới dạng lợi nhuận kỳ vọng hay doanh số kỳ vọng.
d) Tính chất của kỳ vọng
1. E(C) = C với mọi hằng số C.
2. E(CX) = CE(X) với mọi hằng số C.
3. E(X + Y) = E(X) + E(Y); E(X – Y) = E(X) – E(Y). 4. E(X C) = E(X) C.
5. Nếu X và Y là hai biến ngẫu nhiên độc lập và E(X), E(Y) tồn tại thì: E(XY) = E(X).E(Y)
6. Nếu Y (X ) , với ( X ) là một hàm số xác định nào đó, khi đó E(Y)
đƣợc xác định theo các trƣờng hợp sau:
- Nếu X là biến ngẫu nhiên rời rạc thì: ( E Y) ( x )p i i i
- Nếu X là biến ngẫu nhiên liên tục và có hàm mật độ f(x) thì: E(Y ) ( x)f(x)dx
2.3.2. Phương sai a) Định nghĩa
Phƣơng sai của biến ngẫu nhiên X, ký hiệu là D(X) đƣợc xác định bởi công thức: 2 (
D X ) E(X EX) Hay: 2 2 (
D X ) E(X ) (EX)
Phƣơng sai hay độ lệch bình phƣơng trung bình của biến ngẫu nhiên X là
đại lƣợng đo sự phân tán bình phƣơng trung bình của X xung quanh giá trị trung bình E(X).
Đại lƣợng D(X ) đƣợc gọi là độ lệch tiêu chuẩn (hay sai tiêu chuẩn).
Ví dụ 4: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 2. Ta có: 2 2 5 2 15 2 9 2 1 E(X ) 0 . 1 . 2 . 3 . 2 30 30 30 30
D(X) = E(X2) – (EX)2 = 2 – 1,22 = 0,56 50
Ví dụ 5: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 3. 1 4 4 2 2 2 2 2 2 2
E(X ) x f (x)dx x f (x)dx x f (x)dx x f (x)dx 0 x . dx 0 3 1 4 1 x 4 2 4
dx 2ln x 2ln 4 4ln 2 1 1 x 2 2 2 3
D(X ) E(X ) E (X ) 4ln 2 2
Ví dụ 6: Cho hai biến ngẫu nhiên X, Y độc lập và có phân phối tƣơng ứng là: X 0 1 P 0,5 0,5 Y -2 0 2 P 1/6 2/3 1/6
Tính D(X), D(Y), E(XY), D(X + Y). Giải:
E(X) = 0 0,5 + 1 0,5 = 0,5
E(X2) = 02 0,5 + 12 0,5 = 0,5 D(X) = E(X2) - (EX)2 = 0,25
Tƣơng tự: E(Y) = 0; E(Y2) = 4/3; D(Y) = 4/3.
Vì X và Y độc lập nên E(XY) = E(X). E(Y) = 0,5 0 = 0. 1 4 19
D(X Y ) D(X ) D(Y ) . 4 3 12
b) Ý nghĩa của phương sai
Phƣơng sai của biến ngẫu nhiên X là một số không âm dùng để đo mức độ
phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên X xung quanh tâm
E(X) của nó. D(X) nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. D(X) càng
lớn thì độ phân tán càng cao.
Trong kỹ thuật phƣơng sai đặc trƣng cho mức độ phân tán của các chi tiết
gia công hay sai số của thiết bị. Trong quản lý và kinh doanh thì phƣơng sai đặc
trƣng cho mức độ rủi ro của các quyết định.
c) Tính chất của phương sai
1. D(C) = 0 với mọi hằng số C.
2. D(CX) = C2D(X) với mọi hằng số C. 51
3. Nếu X và Y là 2 biến ngẫu nhiên độc lập và có D(X), D(Y) thì: D(X Y) = D(X) + D(Y) Chú ý: 1. 2
D(X ) (x EX ) i i
p nếu X có phân phối rời rạc. i 2. 2
D(X ) (x E(X )) f (x)dx nếu X có phân phối liên tục với hàm mật độ f(x).
2.3.3. Một số đặc trưng khác a) Mod Ký hiệu: xmod
Định nghĩa: Mode (Mốt) của biến ngẫu nhiên X là giá trị mà biến ngẫu
nhiên X nhận với xác suất lớn nhất. Cụ thể:
- Nếu X là biến ngẫu nhiên rời rạc thì xmod là giá trị của X mà tại đó xác
suất P(X = Xmod) là lớn nhất. Nghĩa là: X có phân bố: X x1 x2 ... xn.. P p1 p2 ... pn...
Thì x0 = xmod p(X = x0) = max{p1, p2,... }
- Nếu X là biến ngẫu nhiên liên tục thì xmod là giá trị mà tại đó hàm mật độ
xác suất của X đạt cực đại.
Nghĩa là: X có hàm mật độ là f(x) thì c = xmod f(c) = max{f(x) : x R . }
* Chú ý: Một biến ngẫu nhiên không phải chỉ có duy nhất một Mod.
b) Trung vị (Median)
Định nghĩa: Trung vị của biến ngẫu nhiên X, ký hiệu là xMe là số thỏa mãn: 1
P(X xMe) P(X xMe) 2
Nếu X là biến ngẫu nhiên liên tục và hàm phân phối xác suất F(x) liên tục
thì xMe là nghiệm của phƣơng trình F(x) = 1/2.
Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối: X x1 x2 ... xn.. P p1 p2 ... pn... 52
thì xMe đƣợc xác định nhƣ sau:
Tính Ti = p1 + p2 + ... + pi. 1
x x x x khiT T 0 , 0 ,i i 1 i i 1 2 xMe 1 ix 1 khi i T i T 1 2
Nhận xét: Trung vị là điểm phân chia phân phối xác suất thành hai phần bằng nhau.
Ví dụ 1: Tìm trung vị và Mod của biến ngẫu nhiên rời rạc có bảng phân bố xác suất nhƣ sau: X 20 21 22 23 24 P 0,3 0,25 0,18 0,14 0,13
Dễ thấy xMod = 20 (Vì P(X=20) = 0,3 là lớn nhất).
Để tìm xMe, ta tính: T1 = p1 = 0,3; T2 = p1 + p2 = 0,55 >1/ . 2 Vậy xMe = x2 = 21.
Ví dụ 2: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm phân phối. 0 khi x 0 2
F (x) x khi 0 x 1 1 khi x 1 x 2 = ½ với
Me là nghiệm của phƣơng trình F(x)=1/2 x 0 x 1. 1 1 Vậy x =
(vì 0 x 1 nên loại nghiệm x = - ). 2 2
xMod là giá trị mà tại đó f(x) đạt lớn nhất.
Ta cần tìm hàm mật độ f(x) từ F(x). 0 khi x 0 2x khi x 0,1 2
F (x) x khi 0 x 1 f (x) 0 khi x 0, 1 1 khi x 1
Vậy f(x) đạt max tại x = 1 hay xMod = 1.
Ví dụ 3: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm mật độ: 0 khi x 0, 1 f(x) 2 khi x 0, 1 53 Ta thấy ngay xmod = 1.
Để tìm xme ta cần xây dựng hàm phân phối F(x). 0 khi x 0 0 khi x 0 x x
F(x) 2du khi x 0,1 F(x) 2du khi x 0,1 0 1 khi x 1 1 khi x 1 0 khi x 0
F(x) 2x khi x 0, 1 1 khi x 1
F(xme) = 1/2 tƣơng đƣơng với 2xme = 1/2 hay xme = ¼.
c) Hệ số bất đối xứng
Nếu biến ngẫu nhiên X có kỳ vọng , phƣơng sai 2 thì tỷ số 3 E(X )
đƣợc gọi là hệ số bất đối xứng. 3 d) Hệ số nhọn
Nếu biến ngẫu nhiên X có kỳ vọng , phƣơng sai 2 thì tỷ số 4 E (X )
3 đƣợc gọi là hệ số nhọn. 4
2.4. Một vài quy luật phân phối xác suất thƣờng gặp
2.4.1. Phân phối chuẩn
a) Định nghĩa phân phối chuẩn: Biến ngẫu nhiên X đƣợc gọi là có phân
phối chuẩn với hai tham số µ và 2
nếu hàm mật độ của nó có dạng: 2 ( ) a 1 2 2 f ( ) x e , x R 2 Ký hiệu: X N(µ; 2 ) hoặc X N(µ; 2 ).
Đồ thị của hàm f(x):
- Đồ thị của hàm f(x) là đƣờng cong hình chuông đối xứng qua đƣờng x =
µ và đạt giá trị cực đại tại điểm x = µ. Vì vậy giá trị Mod(X) = µ.
- Tiệm cận với trục hoành khi x . 54
- Diện tích giới hạn bởi đồ thị và trục hoành bằng 1. 2
Kỳ vọng và phƣơng sai: Nếu X 2
N(µ; ) thì E(X) = a và D(X) = .
DX đƣợc gọi là độ lệch chuẩn.
Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí
trung tâm trong các kết luận thống kê sau này. Trong thực tế có nhiều biến ngẫu
nhiên tuân theo quy luật chuẩn hoặc tiệm cận chuẩn chẳng hạn nhƣ trọng lƣợng,
chiều cao của một nhóm ngƣời nào đó, điểm thi của các thí sinh, lực chịu đựng
của một thanh sắt, các sai số đo đạc, độ bền dẻo của máy móc, khối lƣợng, kích
thƣớc của các sản phẩm, năng suất cây giống, mức lãi suất của công ty, nhu cầu
tiêu thụ của một mặt hàng nào đó…
b) Phân phối chuẩn tắc X Nếu X N(µ; 2
), ta đổi biến Z .
Khi đó Z có phân phối chuẩn N(0,1) với kỳ vọng bằng 0 và phƣơng sai
bằng 1 gọi là có phân phối chuẩn tắc (hay phân phối tiêu chuẩn). X
Phép đổi biển Z
đƣợc gọi là phép chuẩn hóa.
Hàm mật độ của biến ngẫu nhiên có phân phối chuẩn tắc là: 2 x 1 2 ( ) x e 2 55 2 u x
Hàm phân phối của N(0,1) là: 1 2 ( ) x e d , u x R . 2
Đồ thị của hàm mật độ của phân phối chuẩn tắc N(0,1) nhƣ sau:
Ngƣời ta đã xây dựng sẵn bảng các giá trị của hàm (x) và (x) . Trong
các bài tập cần lƣu ý đƣa về phân phối chuẩn tắc để tính toán.
Tính xác suất theo phân phối chuẩn: 1. ( ) x 1 ( ) x , x . R 2. Nếu Z N(0;1) thì:
P(Z ) ( ) ( P Z ) 1 ( )
P( Z ) ( ) ( ) 3. Nếu X N(µ; 2 ), với µ và 2 đã biết. X
Tìm P( X ) ta đổi biến Z
, Khi đó Z có phân phối chuẩn dạng N(0,1) nên:
X (
P X ) ( P ) X (
P X ) P P Z
P(X ) 1 P X 1
Từ công thức trên, suy ra xác suất của sự sai lệch giữa biến ngẫu nhiên có phân phối chuẩn N(a; 2
) và kỳ vọng µ của nó đƣợc xác định nhƣ sau: P
| X | 2 1 56
Nếu chọn = thì P(|X - µ| <) = 2(1) – 1 = 0,6826.
Nếu chọn = 2 thì P(|X - µ| <) = 2(2) – 1 = 0,9546.
Nếu chọn = 3 thì P(|X - µ| <) = 2(3) – 1 = 0,9974.
Quy tắc 2: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và 2
thì có đến 95,46% giá trị của X sẽ nằm trong khoảng (µ - 2 ; µ + 2).
Quy tắc 3: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và 2
thì hầu nhƣ chắc chắn X nhận các giá trị trong khoảng (µ - 3 ; µ + 3).
Ví dụ 1: Giả sử X có phân phối chuẩn N(2100; 2002). Tính: a) P(X > 2400). b) P(1700 < X < 2200).
c) Xác định a để P( X > a) = 0,03. Giải:
Từ giả thiết ta có µ = 2100 và 200. 2400 2100
a) P(X 2400) 1 ( ) 1 (
1,5) 1 0,9332 0,0668 200 b) 2200 2100 1700 2100
P(1700 X 2200) ( ) (
) (0,5) (2) 0,6688 200 200 a 2100 a 2100 c) ( P X ) a 1 ( ) 0,03 ( ) 0,97 200 200 a Tra bảng ta đƣợc 2100 ( 1,881) 0,97
1,881 a 2476,2. 200
Ví dụ 2: Chiều cao của phụ nữ Việt Nam là biến ngẫu nhiên có phân phối
chuẩn N(155; 2,52). Tính tỷ lệ phụ nữ có chiều cao trên 160 cm. Giải:
Gọi X là chiều cao của phụ nữ Việt Nam. 160 155
P(X 160) 1 P(X 160) 1 ( ) 0,228 2,5
Vậy tỷ lệ phụ nữ Việt Nam có chiều cao trên 160 cm là 22,8%. 57
2.4.2. Phân phối nhị thức
a) Định nghĩa: Biến ngẫu nhiên X đƣợc gọi là có phân phối nhị thức với
tham số (n, p) (trong đó n N và 0 < p < 1) nếu: P (X k ) k k n k n C p q
; q 1 p, k 0,..., . n Kí hiệu: X B( ; n p) .
Nhận xét: Chúng ta đã xét dãy phép thử độc lập và công thức Bernoulli.
Nếu thực hiện n phép thử độc lập, trong mỗi phép thử biến cố A xuất hiện với
xác suất p không đổi thì biến ngẫu nhiên X chỉ số lần xuất hiện biến cố A trong
n phép thử có phân phối nhị thức.
Một số công thức tính xác suất của phân phối nhị thức: ( P X k) k k n k n C p q
là xác suất để biến cố A xảy ra đúng k lần. ( 1) 1 n P X
q là xác suất để biến cố A xảy ra ít nhất một lần. k2
P(k X k P X k là xác suất để biến cố A xảy ra từ k 1 2 ) ( ) 1 đến k2 lần. k 1 k
Ví dụ 3: Bắn 5 phát súng độc lập vào 1 bia, xác suất trúng của mỗi phát là
0,8. Tính các xác suất sau: a) Có đúng 3 phát trúng.
b) Có từ 3 phát trúng trở lên.
c) Có ít nhất một phát trúng. 58 Giải:
Gọi X là số viên đạn trúng bia, X có phân phối nhị thức B(5; 0,8). a) 3 3 2 3 3 2 ( P X 3) 5 C p q 5 C (0,8) (0,2)
b) P(3 X 5) P(X 3) P(X 4) P(X 5) c) 5
P(X 1) 1 P(X 1) 1 P(X 0) 1 (0, 2)
b) Kỳ vọng, phương sai, mod
Nếu X B(n, p) thì E(X) = np; DX = np(1 - p) = npq. Số có khả năng nhất:
- Nếu np + p - 1 là số nguyên thì modX = np + p - 1 và np + p;
- Nếu np + p - 1 là số thập phân thì modX chính là phần nguyên của np + p - 1.
c) Xấp xỉ phân phối nhị thức bằng phân phối chuẩn
Phân phối nhị thức là một phân phối rời rạc có đồ thị là các đƣờng thẳng
gấp khúc nhƣ hình trên. Phân phối chuẩn sẽ là một xấp xỉ tốt đối với phân phối
nhị thức khi các số liệu của phân phối nhị thức tạo nên một đƣờng gấp khúc có
hình dáng gần giống với một quả chuông (dáng đồ thị của phân phối chuẩn).
Giả sử X B(n, p). Khi n lớn và p không quá gần 0 hoặc 1, X có phân phối
xấp xỉ chuẩn N(np; npq). 1 k np
P(X k ) npq npq k np
P(X k ) npq k 2 np 1 k np P(k 1 X k2) npq npq
Nhận xét: Ngƣời ta thấy rằng xấp xỉ là tốt khi np và nq lớn hơn 5 hoặc khi npq lớn hơn 20.
Ví dụ 4: Gieo 3200 lần một đồng xu cân đối và đồng chất. Gọi X là số lần
xuất hiện mặt sấp trong 3200 lần gieo đó.
a) Tìm số lần xuất hiện mặt sấp có khả năng nhất. Tính xác suất tƣơng ứng.
b) Tính xác suất P(5 2 1600 X 10 2 1600) . 59 Giải:
Gọi A là biến cố xuất hiện mặt sấp khi gieo 1 lần một đồng xu cân đối và
đồng chất: P(A) = 0,5 = p = 1 - p.
Theo giả thiết n = 3200 nên (n + 1)p – 1 = 1599,5 => Số lần xuất hiện mặt
sấp có khả năng nhất là 1600 với xác suất tƣơng ứng:
Cách 1: Dùng phân phối nhị thức 1600 1600 1600 P(X 1600) 3 C 200.(0,5) .(0,5) .
Cách 2: Dùng xấp xỉ phân phối chuẩn. 1 1600 3200.0,5 1 ( P X 1600) ( ) .(0) 3200.0,5.0,5 3200.0,5.0,5 3200.0,5.0,5 0,39894 0,014 20 2
160010 2 3200.0,5
1600 5 2 3200.0,5
P(5 2 1600 X 1600 10 2) 3200.0,5.0,5 3200.0,5.0,5 ( 0,5) (
0,25) 0,6915 0,5987 0,0928
2.4.3. Phân phối Poisson a) Định nghĩa
Biến ngẫu nhiên X đƣợc gọi là có phân phối Poisson với tham số > 0 nếu
X nhận các giá trị nguyên không âm 0, 1, 2... với xác suất tƣơng ứng: k (
P X k) e
; (k 0, 1, 2...) k! Kí hiệu:P().
b) Kỳ vọng, phương sai
Nếu X P() thì E(X) = ; D(X) = ; Mod (X) = .
Trong thực tế, với một số giả thiết thích hợp thì các biến ngẫu nhiên
Poisson là các quá trình đếm sau:
- Số cuộc gọi đến một tổng đài;
- Số khách hàng đến một điểm giao dịch; - S
ố xe cộ đi qua một ngã tƣ...
Trong một khoảng thời gian xác định nào đó sẽ có phân phối Poisson với
tham số là tốc độ trung bình diễn ra trong khoảng thời gian này. 60
Ví dụ 5: Ở một tổng đài điện thoại, các cuộc gọi đến một cách ngẫu nhiên,
độc lập và trung bình có 2 cuộc gọi trong 1 phút. Cho trƣớc X là số cuộc gọi đến
tổng đài trong khoảng thời gian t phút là biến ngẫu nhiên có phân phối Poisson.
Tìm xác suất để có đúng 5 cuộc gọi đến trong 2 phút (Đặt là biến cố A). Giải:
Theo giả thiết trung bình có 2 cuộc gọi trong 1 phút vậy trong 2 phút trung
bình có 4 cuộc gọi. Lúc này số cuộc gọi X trong 2 phút là biến ngẫu nhiên có
phân phối Poisson với tham số = 4.
Ta cần tính P(X = 5). Áp dụng công thức: k 5
P(X k ) e với k =5 và = 4 ta đƣợc 4 4 P(X 5) e 0,156 k ! 5!
2.4.4. Phân phối khi bình phương
Định nghĩa: Biến ngẫu nhiên X đƣợc gọi là có phân phối khi bình phƣơng ( 2
) với n bậc tự do nếu hàm mật độ của nó có dạng: 1 n /2 1 x /2 x e khi x 0 / n 2 f ( ) x 2 ( n / 2) . 0 khi x 0
Trong đó: Hàm gamma là hàm thuộc lớp các hàm đặc biệt và đƣợc định nghĩa nhƣ sau: x u 1 ( )
u e x d , x (
u 1) u ( ) u 0 ( 1) 1; ( 1/ 2) . Kí hiệu: 2 X
Định lý: Nếu X1, X2, …, Xn là các biến ngẫu nhiên độc lập có cùng phân
phối chuẩn tắc N(0, 1) thì: n 2 2 2 2 2
Xi X X X 1 2 ... n n i 1 Phân phối 2 do Karl Pearson đƣa ra. 61
Giá trị tới hạn khi bình phƣơng n bậc tự do mức , với (0, 1) kí hiệu 2 2 2 ( )
n đƣợc định nghĩa nhƣ sau: P( (n)) .
Bảng các giá trị tới hạn 2 (n) đƣợc tính sẵn.
2.4.5. Phân phối Student
Định nghĩa: Biến ngẫu nhiên T đƣợc gọi là có phân phối Student với n bậc
tự do nếu hàm mật độ của nó có dạng: n1 n 1 2 2 2 t f(t) t R n n 1 , / 2 n
Định lý: Nếu X, X1, X2…, Xn là các biến ngẫu nhiên độc lập có phân phối X N(0, 1) thì T
có phân phối Student với n bậc tự do. 1 n 2 Xi n i 1
Hoặc phát biểu: Nếu Z N(0, 1) và V 2
n và Z và V độc lập thì Z T T(n) . V / n 62
Giả sử biến ngẫu nhiên T có bậc tự do k cho trƣớc, với (0, 1) , ta tìm đƣợc hằng số ( ) n t , ( / 2) n t thỏa mãn: P(T t ( )) n P(| T | t ( / 2)) n k 20; 0,05; 2
t 0(0,05) 1,725; 2t0(0,025) 2,086
Bảng các giá trị tới hạn ( ) n
t đã đƣợc tính sẵn.
Nhận xét: Hàm mật độ là hàm chẵn nên đồ thị đối xứng qua trục tung. Khi
số bậc tự do tăng lên, phân phối Student hội tụ rất nhanh về phân bố chuẩn tắc
N(0, 1). Do đó khi n đủ lớn (n 30) có thể dùng phân bố chuẩn tắc thay cho
phân phối Student. Tuy nhiên khi n nhỏ (n < 30) việc thay thế nhƣ trên sẽ gặp sai số lớn.
2.4.6. Phân phối Fisher (Phân phối F)
Định nghĩa: Biến ngẫu nhiên F đƣợc gọi là có phân phối Fisher với (n1, n2)
bậc tự do nếu hàm mật độ của nó có dạng: n n 1 2 n 1 n 2 n1 n1n 2 1 2 2 2 2 2 n n u (n n u) khi u 0 1 1 2 1 ( ) n n f u 1 2 2 2 0 khi u 0
Định lý: Nếu (X1, X2,…, Xm) và (Y ,1 Y ,2…, Yn) là các biến ngẫu nhiên độc m 2 n X i
lập có phân phối N(0, 1) thì i 1 F
có phân phối Fisher với (n,m) bậc tự do. n 2 m Yi i 1
Tính xác suất theo phân phối Fisher:
Giả sử biến ngẫu nhiên F có bậc tự do (k1, k2) cho trƣớc, với 0,01 hoặc
0,05 ta tìm đƣợc (bằng cách tra bảng) hằng số F thỏa mãn: P(F > F ) = .
2.5. Sơ lƣợc về biến ngẫu nhiên hai chiều (Đọc thêm)
Trong nhiều bài toán thực tế chúng ta phải xét một cách đồng thời một hệ
gồm n biến ngẫu nhiên X1, X2, …, Xn. Khi đó về mặt toán học ta có thể coi hệ
này là một biến ngẫu nhiên n - chiều X (X X X hay còn gọi là một véc 1 , 2 ,..., ) n
tơ ngẫu nhiên n – chiều với các thành phần 1
X , X2,...,Xn. 63
Tuy nhiên, trong nội dung này chúng ta chỉ xét biến ngẫu nhiên hai chiều
hay còn gọi là véc tơ ngẫu nhiên (X, Y).
2.5.1. Phân phối đồng thời
Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc X và Y có
dạng sau: (đƣợc gọi là bảng phân bố xác suất đồng thời của X và Y). Y X y1 y2 … yj ... yn x … … 1 p11 p12 p1j p1n x … … 2 P21 P22 p2j p2n … x … … i pi1 pi2 pij pin … x … … m pm1 pm2 pmj pmn
Chú ý rằng p 1 ij . Trong đó p {
P X x , Y y }; i 1,..., ; m j 1,...,n. ij i j
Ví dụ 1: Gieo 3 đồng xu cân đối và đồng chất A, B, C.
Gọi X là số mặt ngửa của đồng xu A và B.
Y là số mặt ngửa của cả ba đồng xu A, B và C.
Hãy lập bảng phân phối xác suất đồng thời của X và Y. Giải:
Ta có X(Ω) = {0, 1, 2} và Y(Ω) = {0, 1, 2, 3}.
Chúng ta có 8 kết quả đồng khả năng của việc gieo 3 đồng xu và giá trị của
X và Y tƣơng ứng với mỗi kết quả đó: A B C X Y N N N 2 3 N N S 2 2 N S N 1 2 N S S 1 1 S N N 1 1 S N S 1 2 S S N 0 1 S S S 0 0 64
Vậy bảng phân bố xác suất đồng thời của X và Y là: Y 0 1 2 3 X 0 1/8 1/8 0 0 1 0 2/8 2/8 0 2 0 0 1/8 1/8
Nếu biết phân bố đồng thời của X và Y ta có thể tìm đƣợc phân bố của X và Y. Thật vậy: n n
P(X x ) P{X x ,Y y } i i j pij j 1 j 1 m m
P(Y y ) {
P X x ,Y y } j i j pij i 1 i 1
Nhƣ vậy cộng các dòng trong bảng ta đƣợc phân bố xác suất của X (đƣợc
gọi là quy luật biên duyên của X) và cộng các cột trong bảng ta đƣợc phân bố
xác suất của Y (đƣợc gọi là quy luật biên duyên của Y).
Chẳng hạn trong ví dụ trên ta có phân bố xác suất của X là: X 0 1 2 P 2 4 2 8 8 8
Cộng các cột ta có phân bố xác suất của Y là: Y 0 1 2 3 1 3 3 1 P 8 8 8 8
Hàm phân bố biến ngẫu nhiên hai chiều (X, Y) đƣợc xác định bởi: F( , x y) { P X , x Y } y
Hàm mật độ. Nếu hàm phân phối F(x, y) liên tục và có đạo hàm chéo cấp 2 hai liên tục thì hàm F x y : ( , ) f ( , x ) y
đƣợc gọi là hàm mật độ đồng thời của x y
véc tơ ngẫu nhiên (X, Y).
Xác suất để véc tơ ngẫu nhiên (X, Y) thuộc vào miền D đƣợc tính bằng tích phân kép f ( , x ) y dxd . y D
Trong phạm vi của bài giảng chúng ta không đi sâu vào chi tiết vấn đề này. 65
2.5.2. Phân phối có điều kiện
Xét biến ngẫu nhiên hai chiều (X, Y). Nếu ở kết quả của phép thử Y lấy giá
trị yj thì xác suất để X lấy giá trị xi (khi Y = yj) đƣợc gọi là xác suất có điều kiện { P x | y } i
j . Tƣơng tự, nếu ở kết quả của phép thử X lấy giá trị xi thì xác suất để Y
lấy giá trị yj (khi X = xi) đƣợc gọi là xác suất có điều kiện { P y | x } j i .
Theo công thức nhân xác suất ta có: {
P X=x ,Y y } i j i p j { P xi | y } j { P Y y } j p j {
P X=x ,Y y } i j pij { P y | x } j i { P X x } i i p
Nếu (X, Y) là véc tơ ngẫu nhiên liên tục có hàm mật độ f(x, y) thì quy luật
có điều kiện của X biết Y = y và quy luật có điều kiện của Y khi biết X = x đƣợc
xác định bởi các hàm mật độ: f (x, y) f x y g ( , ) (x | y)
; h(y | x) f2 (y) 1 f (x) Trong đó: f x f y
1( ), 2( ) là các hàm mật độ biên duyên của X và Y.
Hai biến ngẫu nhiên độc lập.
Hai biến ngẫu nhiên X và Y là độc lập nếu luật phân phối có điều kiện của
một biến bằng luật phân phối không điều kiện của nó. { P x | y } ( P X = x ) i j i Tƣơng tự { P y | x } ( P Y = y ). j i j
Nhƣ vậy nếu X và Y độc lập ta có ipj i
p pj .
Với cặp (X, Y) liên tục thì: f x y f x f y ( , ) 1( ). 2( ) .
2.5.3. Kỳ vọng có điều kiện
Kỳ vọng có điều kiện của biến ngẫu nhiên rời rạc Y với điều kiện X = xi đƣợc xác định bởi:
E(Y | X ix) yjP(yj | ix) j
Nếu Y là biến ngẫu nhiên liên tục thì:
E(Y | X x ) y ( h y | ) i x dy 66
Ví dụ 2: Với bảng phân phối xác suất: Y y p X 1 = 0 y2 = 1 y3 = 2 y4 = 3 i x1 = 0 1/8 1/8 0 0 1/4 x2 = 1 0 2/8 2/8 0 1/2 x3 = 2 0 0 1/8 1/8 1/4 pj 1/8 3/8 3/8 1/8 Thì: 1 p 1 1 1 1 { P Y 1 y | X 1 x } : 1 p 8 4 2 p12 1 1 1 {
P Y y | X x } : 2 1 1 p 8 4 2 p13 1 {
P Y y X x 3 | 1} 0 : 0 p1 4 1 p 4 1 { P Y y X x 4 | 1} 0 : 0 p1 4 1 1 1 { E Y | X 1 x } 0. 1. 2.0 3.0 2 2 2 67 BÀI TẬP
Bài 1: Trong một lô hàng gồm 10 sản phẩm trong đó có 7 sản phẩm loại
A và 3 sản phẩm loại B. Lấy ngẫu nhiên cùng một lúc 3 sản phẩm để kiểm tra
chất lƣợng. Gọi X là số sản phẩm loại A gặp khi kiểm tra. Tìm phân phối xác suất của X.
Bài 2: Bắn ba viên đạn vào một mục tiêu một cách độc lập. Xác suất trúng
đích của từng viên lần lƣợt là 0,6; 0,4 và 0,5. Gọi X là số viên đạn không trúng
mục tiêu. Tìm phân phối xác suất của X.
Bài 3: Giả sử chiều cao X của trẻ em có phân phối chuẩn N(1,3; 0,01).
Tính xác suất để trẻ em có chiều cao nằm trong khoảng (1,2; 1,4).
Bài 4: Chiều cao của một loại cây gỗ đến tuổi khai thác là một biến ngẫu
nhiên liên tục X có phân phối chuẩn với chiều cao trung bình là 20 m và độ lệch
chuẩn là 2,5 m. Cây đạt tiêu chuẩn khai thác là cây có chiều cao tối thiểu là 15
m. Hãy tính tỷ lệ cây đạt tiêu chuẩn khai thác.
Bài 5: Cho biến ngẫu nhiên liên tục X có hàm mật độ: 1
a x 1 x 2 f ( ) x 3 0 x [1; 2] a) Chứng minh a = 1 . 2 b) Tìm P(X > 1,8). c) Tính E(X).
Bài 6: Cho biến ngẫu nhiên X có hàm mật độ:
kx khi x [0; 5] f ( ) x 0 khi x[0; 5] a) Chứng minh k = 2/25.
b) Tìm hàm phân phối xác suất của X.
c) Chứng minh các xác suất để X thuộc các khoảng 1 < X ≤ 2; 2 < X ≤ 3;
3 < X ≤ 4; 4 < X ≤ 5 có tỷ lệ 3 : 5 : 7 : 9.
Bài 7: Cho biến ngẫu nhiên X có hàm mật độ xác suất: 2 a
(3x - x ) khi x [ 0; 3] f ( ) x 0 khi x [0; 3] 68 a) Tìm hệ số a.
b) Vẽ đồ thị hàm mật độ f(x).
c) Tìm xác suất để X thuộc vào khoảng (1, 2).
Bài 8: Cho biến ngẫu nhiên X có hàm mật độ: 1 khi x (-a; a) 2 2 f ( )
x a x 0 khi x (-a; a) Tìm E(X), D(X).
a) Viết bảng phân phối của X.
b) Tìm hàm phân phối xác suất F(x).
Bài 9: Biến ngẫu nhiên X có hàm phân phối: 2 x 2 F (x) 2 1
e khi x 0 0 khi x 0
Tìm hàm mật độ xác suất, Median, Mốt. a
Bài 10: Cho f ( ) x , x (- , ) 2 1 x
a) Tìm a để f(x) là hàm mật độ. b) Tìm P(0 < X < 1).
c) Tìm hàm phân phối xác suất F(x). 69 Chƣơng 3
MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ
3.1. Một vài khái niệm cơ bản
Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tƣợng
ngẫu nhiên có tính chất số lớn trên cơ sở thu thập và xử lý số liệu thống kê các
kết quả quan sát về những hiện tƣợng ngẫu nhiên này.
Nếu ta thu thập đƣợc tất cả số liệu liên quan đến đối tƣợng cần nghiên cứu
thì ta có thể biết đƣợc đối tƣợng này. Tuy nhiên, trong thực tế điều đó không thể
thực hiện đƣợc vì những khó khăn chính sau:
- Quy mô của tập hợp cần nghiên cứu quá lớn nên việc nghiên cứu toàn bộ
đòi hỏi nhiều chi phí về vật chất và thời gian, có thể không kiểm soát đƣợc dẫn
đến bị chồng chéo hoặc bỏ sót;
- Trong nhiều trƣờng hợp không thể nắm đƣợc toàn bộ các phần tử của tập
hợp cần nghiên cứu, do đó không thể tiến hành toàn bộ;
- Có thể trong quá trình điều tra sẽ phá hủy đối tƣợng nghiên cứu.
Vì vậy, ngƣời ta thƣờng sử dụng phƣơng pháp nghiên cứu bằng mẫu. Đây
là một trong những phƣơng pháp quan trọng của lý thuyết thống kê.
Trong chƣơng này, chúng ta sẽ tìm hiểu những vấn đề cơ bản của lý thuyết thống kê toán học :
- Các phƣơng pháp trình bày mẫu và các đặc trƣng của mẫu;
- Lý thuyết về ƣớc lƣợng;
- Lý thuyết kiểm định giả thiết thống kê.
3.1.1. Tổng thể và mẫu
Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu định tính hay
định lƣợng nào đó đƣợc gọi là tổng thể (hay tập hợp chính). Các dấu hiệu này
đƣợc gọi là dấu hiệu quan sát (hay tiêu thức nghiên cứu).
Mỗi phần tử của tổng thể đƣợc gọi là một cá thể.
Chẳng hạn một doanh nghiệp muốn nghiên cứu các khách hàng của mình
về dấu hiệu định tính có thể là mức độ hài lòng của khách hàng đối với sản
phẩm/dịch vụ nào đó của doanh nghiệp, còn dấu hiệu định lƣợng là số lƣợng sản
phẩm của doanh nghiệp tiêu thụ trong tháng/quý. 70
Nếu dấu hiệu nghiên cứu có tính định lƣợng, nghĩa là đƣợc thể hiện bằng
cách cho tƣơng ứng mỗi cá thể của tổng thể nhận một giá trị thực nào đó thì ta
có thể xem dấu hiệu X này là một biến ngẫu nhiên xác định trên tổng thể.
Mẫu là một tập con nào đó của tổng thể. Việc chọn ra từ tổng thể một mẫu
đƣợc gọi là phép lấy mẫu. Số phần tử của mẫu đƣợc gọi là cỡ mẫu.
Ta nói rằng một mẫu là mẫu ngẫu nhiên nếu trong phép lấy mẫu đó mỗi
cá thể của tổng thể đƣợc chọn một cách độc lập và có khả năng đƣợc chọn nhƣ nhau.
Giả sử các cá thể của tổng thể đƣợc nghiên cứu thông qua dấu hiệu X.
Với mẫu ngẫu nhiên kích thƣớc n (có n phần tử), gọi Xi là dấu hiệu X của
phần tử thứ i của mẫu (i = 1, 2,..., n). Bằng cách đồng nhất mẫu ngẫu nhiên với
các dấu hiệu nghiên cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên nhƣ sau:
Mẫu ngẫu nhiên kích thƣớc n là một dãy gồm n biến ngẫu nhiên X1, X2,…,
Xn độc lập cùng phân phối với X. Kí hiệu X = (X1, X2,…, Xn).
Thực hiện một phép thử đối với mẫu ngẫu nhiên X chính là thực hiện một
phép thử đối với mỗi thành phần của mẫu. Giả sử Xi nhận giá trị xi (i = 1, 2,…,
n), khi đó các giá trị x1, x2,…, xn tạo thành một giá trị của mẫu ngẫu nhiên hay
bộ n giá trị quan sát của mẫu ngẫu nhiên. Kí hiệu: x = (x1, x2,…, xn).
3.1.2. Các phương pháp trình bày mẫu
Giả sử ta có mẫu ngẫu nhiên cỡ n gồm các giá trị quan sát (x1, x2,…, xn).
a) Bảng phân bố thực nghiệm
Trong trƣờng hợp mẫu nhỏ và các giá trị tƣơng đối rời rạc ta có thể trình
bày mẫu dƣới dạng bảng gọi là bảng phân phối thực nghiệm. Nếu trong n giá trị
của mẫu có đúng k giá trị phân biệt x1, x2,…, xk (k < n), ta gộp các giá trị giống
nhau lại và đếm số lần xuất hiện giá trị đó trong mẫu thu đƣợc kết quả: x1 xuất hiện m1 lần x2 xuất hiện m2 lần … xk xuất hiện mk lần 71 k Với i m 1 m 2 m ... k m . n i 1
Khi đó mi đƣợc gọi là tần số của xi.
fi = mi đƣợc gọi là tần suất của xi
Ta có bảng phân bố tần số thực nghiệm nhƣ sau: xi x1 x2 ... xk mi (tần số) m1 m2 ... mk
Bảng phân bố tần suất thực nghiệm nhƣ sau: xi x1 x2 ... xk fi (tần suất) f1 f2 ... fk k
if f f f 1 2 ... 1 k i1
Ví dụ 1: Lấy một mẫu ngẫu nhiên có kích thƣớc 120 ta có bảng phân bố
thực nghiệm tần số và tần suất nhƣ sau: X/xi 31 34 35 36 38 40 42 44 mi 10 20 30 15 10 10 5 20 120 fi 2/24 4/24 6/24 3/24 2/24 2/24 1/24 4/24 1
Từ bảng phân bố thực nghiệm trên ta có biểu diễn hình học của mẫu. Trên
hệ trục tọa độ đặt các điểm có tọa độ (xi, mi) hay (xi, fi), i = 1, 2,…, k.
Lần lƣợt nối các điểm đó với nhau bằng các đoạn thẳng ta đƣợc đa giác tần số (tần suất).
Nối các điểm đó tƣơng ứng với (xi, 0) ta đƣợc biểu đồ tần số (tần suất) hình gậy.
Ví dụ 2: Vẽ đa giác tần số của mẫu ngẫu nhiên X đƣợc cho dƣới dạng bảng nhƣ sau: xi 114 115 116 117 118 119 mi 21 57 111 78 45 18 72 - Đa giác tần số: 114 115 116 117 118 119 - Đa giác tần suất: 114 115 116 117 118 119
b) Bảng phân bố ghép lớp
Trƣờng hợp mẫu có kích thƣớc lớn hoặc khi các giá trị tƣơng đối nhiều và
gần nhau ta thƣờng phân số liệu thành lớp (khoảng). Các khoảng này lập nên
một phân hoạch miền giá trị của biến X. Ngƣời ta thƣờng phân lớp sao cho mỗi
số liệu mẫu rơi vào đúng một lớp.
Có thể có nhiều cách chia lớp khác nhau. Ngoài ra độ rộng của mỗi lớp
không nhất thiết phải bằng nhau nhƣng thông thƣờng ngƣời ta hay lấy bằng nhau để dễ so sánh. 73
Ví dụ 3: Một mẫu về chiều cao của 400 cây đƣợc trình bày trong bảng phân bố ghép lớp nhƣ sau: Khoảng chiều cao Tần số Tần suất [4,5-9,5) 18 0,045 9,5-11,5 58 0,145 11,5-13,5 62 0,155 13,5-16,5 72 0,18 16,5-19,5 57 0,1425 19,5-22,5 42 0,105 22,5-26,5 36 0,09 26,5-36,5 55 0,025 Tổng 400 1
Tổ chức đồ: Trên hệ trục tọa độ, dựng các hình chữ nhật vuông góc với
trục hoành, diện tích bằng tần số (hay tần suất) còn chiều rộng là độ rộng tƣơng
ứng của lớp đó ta đƣợc tổ chức đồ tần số (tần suất).
Ví dụ 4: Tổ chức đồ tần số cho mẫu ngẫu nhiên cho trong ví dụ trên nhƣ sau: 80 70 72 60 62 58 57 50 55 40 42 36 30 20 18 10 0 [4.5-9.5) 9.5-11.5 11.5-13.5 13.5-16.5 16.5-19.5 19.5-22.5 22.5-26.5 26.5-36.5
Nhận xét: Diện tích giới hạn bởi tổ chức đồ tần số ở trên chính bằng tần số
xuất hiện. Chẳng hạn số cây có chiều cao nằm trong khoảng từ (12, 25] là diện
tích của tổ chức đồ đƣợc giới hạn bởi đƣờng thẳng x = 12 và x = 25 và bằng:
(13,5 12).31 (16,5 13,5).24 (19,5 16,5).19 (22,5 19,5).14 (25 22,5).9 240
Vậy có 240 cây có chiều cao từ 12 m đến 25 m. 74
Ví dụ 5: Vẽ tổ chức đồ tần số cho mẫu ngẫu nhiên X cho dƣới dạng bảng
phân bố ghép lớp nhƣ sau: Các lớp Tần số Tần suất [20,25) 3 0.1 [25,30) 6 0.2 [30,35) 5 0.166667 [35,40) 4 0.133333 [40,45) 4 0.133333 [45,50) 4 0.133333 [50,55) 2 0.066667 [55,60) 1 0.033333 [60,65) 1 0.033333 Ta đƣợc:
- Tổ chức đồ tần số: Tần số 7 6 5 4 3 2 1 0 [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)
- Tổ chức đồ tần suất: 0.25 0.2 0.2 0.15 0.166667 0.133333 0.133333 0.133333 0.1 0.1 0.05 0.066667 0.033333 0.033333 0 [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65) 75
3.1.3. Hàm phân phối thực nghiệm
Với mẫu ngẫu nhiên cỡ n các quan sát về biến ngẫu nhiên X cho bởi bảng
phân bố thực nghiệm, hàm phân phối thực nghiệm (hàm phân phối mẫu) của X,
ký hiệu là Fn(X) là hàm xác định bởi công thức: m F ( ) x f , n i x R n xi x
Trong đó mx là số các quan sát xi < x.
Nếu mẫu cho dƣới dạng bảng phân phối ghép lớp thì ta tính tần số cộng m dồn x
m tại các đầu mút của mỗi lớp rồi nối các điểm i lại với nhau ta x x , i i n
đƣợc hình ảnh hàm phân phối thực nghiệm.
Với mỗi giá trị của n ta đƣợc một hàm phân phối thực nghiệm. Khi n
các hàm phân phối thực nghiệm tiến dần tới hàm phân phối lý thuyết cần tìm (là
xấp xỉ của hàm phân phối lý thuyết).
3.2. Các số đặc trƣng mẫu
Một thống kê của mẫu là một hàm của các biến ngẫu nhiên thành phần của
mẫu. Thống kê của mẫu ngẫu nhiên X = (X1, X2,..., Xn) cũng là một biến ngẫu
nhiên tuân theo một quy luật phân bố xác suất nhất định và có các tham số đặc
trƣng nhƣ kỳ vọng E(X), phƣơng sai D(X)… Mặt khác, khi mẫu ngẫu nhiên
nhận một giá trị cụ thể x = (x1, x2,…, xn) thì X cũng nhận một giá trị cụ thể.
3.2.1. Kỳ vọng mẫu, phương sai mẫu
a. Kỳ vọng mẫu
Kỳ vọng mẫu (trung bình mẫu) của mẫu ngẫu nhiên X = (X1, X2,..., Xn)
đƣợc định nghĩa và ký hiệu là: 1 n X Xi n i1 b. Phương sai mẫu
- Phƣơng sai mẫu chƣa chỉnh lý: 76 2 n i x n n *2 1 S X i X 2 1 2 i 1 Xi n i 1 ni 1 n
- Phƣơng sai mẫu đã chỉnh lý: n x i n n 2 1 S X i X 2 1 2 i 1 Xi n 1 i 1 n 1 i 1 n
Ý nghĩa của kỳ vọng mẫu và phương sai mẫu:
Kỳ vọng mẫu hay trung bình mẫu là số đặc trƣng về vị trí trung tâm của
mẫu (xu thế các số liệu mẫu tập trung quanh một con số nào đó), có thể dùng để
thay thế cho toàn bộ các số liệu mẫu.
Phƣơng sai mẫu đặc trƣng cho độ phân tán của các số liệu mẫu so với kỳ vọng mẫu X .
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu
Với mẫu ngẫu nhiên cỡ n đƣợc cho dƣới dạng bảng phân phối thực nghiệm. Ta lập bảng tính sau: xi x1 x2 ... xk Tổng mi m1 m2 ... mk n mixi m1x1 m2x2 … mkxk (*) m 2 2 2 2 ixi m1x1 m2x2 … mkxk (**)
Từ bảng tính trên ta tính đƣợc trung bình mẫu và phƣơng sai mẫu theo công thức. 1 n 1 k
X ix i m ix n i 1 n i 1 n i x n k 2 1 S i x X 2 1 2 i 1 i m i x n 1 i 1 n 1 i 1 n 77
Ví dụ 1: Tính trung bình mẫu và phƣơng sai mẫu của biến ngẫu nhiên X
với các giá trị quan sát đƣợc cho dƣới bảng sau: 7,6 8,8 9,3 9,7 10,6 11 11,8 11,9 12,3
Từ giả thiết ta lập bảng: xi 7,6 8,8 9,3 9,7 10,6 11 11,8 11,9 12,3 101,9 x 2 i
57,76 77,44 86,49 94,09 112,36 121 139,24 141,61 151,29 1060 Kỳ vọng mẫu: 1 X .101,9 10,19 10 Phƣơng sai mẫu: 2 1 2
S {1060 10.10,19 } 2,4043 9 n
Phƣơng sai mẫu chƣa chỉnh lý: *2 1 2 9 S S .2,4043 2,1639 n 10 Chú ý:
1. Nếu các giá trị của mẫu cụ thể đƣợc cho dƣới dạng bảng phân bố ghép
lớp với các khoảng với điểm đầu là a và điểm cuối là b thì xi đƣợc lấy bằng trung bình cộng của a và b.
2. Đổi biến: Nếu các giá trị của mẫu cụ thể xi không gọn (quá lớn hoặc quá
bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi biến: i x c i u h
Trong đó c và h đƣợc chọn một cách hợp lý sao cho 2 u, u
S tính dễ dàng hơn.
Thông thƣờng c là giá trị mẫu ứng với tần số lớn nhất và h là khoảng cách
(đều nhau) giữa các giá trị mẫu. Sau đó, ta tính 2
u, Su từ bảng số liệu mới, sau đó tính lại 2
X , SX theo công thức: 2 2 2
X hu c, S h .S . X u
3.2.3. Các đặc trưng khác
Ngoài kỳ vọng mẫu, phƣơng sai mẫu ta còn có các đặc trƣng khác:
a. Mode mẫu (KH là Mo)
- Nếu mẫu cho dƣới dạng bảng phân bố tần số thì mode là giá trị của mẫu
ứng với tần số lớn nhất. 78
- Nếu mẫu cho dƣới dạng bảng phân bố ghép lớp thì khoảng mode là
khoảng có tần số lớn nhất.
Ví dụ 2: Một cửa hàng muốn dự trữ hàng hóa đáp ứng nhu cầu của ngƣời
mua thì phải tìm hiểu loại hàng nào khách hàng hay hỏi mua nhất.
Thống kê số ngƣời mắc bệnh theo độ tuổi thì độ tuổi có nhiều ngƣời mắc
bệnh thƣờng đƣợc quan tâm hơn là độ tuổi trung bình mắc bệnh. b. Median (KH là Me)
Trung vị hay median của mẫu là số có tính chất:
Số các giá trị mẫu ≤ Me bằng số giá trị mẫu ≥ Me. Cách tìm trung vị:
- Nếu mẫu gồm các giá trị phân biệt, sắp xếp theo thứ tự tăng dần x1 < x2 < … < xn thì: 1
+ Me xn nếu n chẵn /2 xn/2 1 ; 2 + Me x nếu n lẻ (n 1 )/2 .
- Nếu mẫu cho dƣới dạng bảng phân lớp:
Bƣớc 1: Tìm khoảng trung vị là tìm khoảng thứ k với k là chỉ số bé nhất
thỏa mãn: m1 + m2 + … + mk ≥ n/2.
Bƣớc 2: Tìm đƣờng x = Me chia đôi diện tích của tổ chức đồ tần số. Me là trung vị cần tìm.
3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu
Trƣờng hợp biến ngẫu nhiên gốc X tuân theo quy luật phân phối chuẩn.
Định lý 1: Cho biến ngẫu nhiên X có phân phối chuẩn 2
N(a, ) , (X1, X2,…,
Xn) là mẫu ngẫu nhiên cỡ n rút ra từ X. Khi đó: 2
a) X có phân phối chuẩn N a, . n 2 (n 1)S b) có phân phối 2
với (n-1) bậc tự do. 2 X a n c) ( )
có phân phối Student với (n-1) bậc tự do. S
Định lý 2: Cho (X1, X2,…, Xn) và (Y1, Y2,…, Ym) là các mẫu ngẫu nhiên 79
độc lập rút ra từ các biến ngẫu nhiên X có phân phối chuẩn 2 N(a và Y có 1, 1 ) phân phối chuẩn 2 N(a
tƣơng ứng. Khi đó: 2, 2 ) 2 2 S / a) Biến ngẫu nhiên 1 1 F
có phân phối Fisher với (n-1, m-1) bậc tự do. 2 2 S 2 / 2 2 2
b) X Y có phân phối chuẩn 1 2 N( 1 a a2, ) . n n 1 2 BÀI TẬP
Bài 1: Cho dãy số liệu: 47 45 41 34 20 26 38 53 45 38 31 20 43 44 27 22 29 45 55 42 29 32 27 37 61 30 35 33 27 43 50 a) Tính số trung vị.
b) Nhóm các số liệu thành lớp có độ dài 5 (lấy lớp đầu là [20; 25)), vẽ tổ chức đồ tần số.
c) Tính trung bình và phƣơng sai mẫu theo lớp và theo mẫu ban đầu.
Bài 2: Năng suất một loại cây trồng trên 36 thửa đất là:
19,2 17,7 20,0 21,1 21,5 18,5 20,6 19,3 19,0 18,2 17,1
19,2 19,1 15,2 19,5 17,3 16,3 19,6 17,5 19,1 19,7 16,0
16,7 16,4 20,8 19,3 16,0 17,4 15,3 17,2 17,6 11,5 11,4 16,1 17,8 20,0
a) Phân các số liệu trên thành lớp có độ dài 1,5 (lớp đầu tiên từ [11 –
12,5)). Vẽ tổ chức đồ tần suất.
b) Tính kỳ vọng và phƣơng sai mẫu.
Bài 3: Gặt ngẫu nhiên 20 thửa ruộng ngƣời ta thu đƣợc năng suất X (tính
theo tạ/ha) của một loại lúa nhƣ sau: 10,25 21,50 27,80 29,00 13,50 19,50 24,00 35,00 18,00 24,75 23,75 32,00 16,50 22,00 26,00 22,50 15,50 23,50 29,75 21,50 80
a) Lập bảng phân phối ghép lớp với lớp đầu [10 - 15)
b) Tính phƣơng sai mẫu theo mẫu ban đầu và theo mẫu ghép lớp.
Bài 4: Cho bảng số liệu sau: Khoảng 0-10 10-20 20-30 30-50 50-70 70-100
Tần số 7 20 15 20 10 9
Tính trung bình mẫu, khoảng mode và số trung vị.
Bài 5: Tính trung bình mẫu và độ lệch tiêu chuẩn mẫu từ bảng số liệu sau: xi 114 115 116 117 118 119 mi 21 57 111 78 45 18 81 Chƣơng 4 ƢỚC LƢỢNG THAM SỐ
4.1. Ƣớc lƣợng điểm
Xét một tổng thể đƣợc đặc trƣng bởi một biến ngẫu nhiên X nào đó. Thông
thƣờng dạng phân phối của X đã biết nhƣng còn phụ thuộc một vài tham số
nào đó chƣa biết mà ta đang quan tâm.
Bài toán đặt ra là: Căn cứ vào các giá trị mẫu x1, x2,…, xn về X để tìm một ƣớc lƣợng cho .
Ví dụ 1: Giả sử X có phân phối chuẩn 2 N( , ).
- Nếu a chƣa biết thì = µ.
- Nếu cả hai tham số µ và 2 chƣa biết thì 2 (, ) .
Trong chƣơng này ta sẽ tìm hiểu ba loại ƣớc lƣợng: - Ƣớc lƣợng điểm;
- Ƣớc lƣợng hợp lý cực đại; - Ƣớc lƣợng khoảng.
Phƣơng pháp ƣớc lƣợng điểm chủ trƣơng dùng một giá trị để thay cho giá
trị của tham số chƣa biết của tổng thể. Thông thƣờng giá trị đƣợc chọn này là
giá trị cụ thể của một biến ngẫu nhiên ˆ nào đó của mẫu.
4.1.1. Khái niệm ước lượng điểm và tính chất 4.1.1.1. Khái niệm
Với mẫu ngẫu nhiên X = (X1, X2,…, Xn), thống kê ƣớc lƣợng cho tham số có dạng công thức: ˆ T( 1 X ,X2,..., X ) n
Lúc này, với một mẫu cụ thể x = (x1, x2,…, xn) ta tính đƣợc giá trị cụ thể của biến ngẫu nhiên ˆ T
. Giá trị cụ thể này đƣợc gọi là ƣớc lƣợng 1 (x ,x2,...,x ) n điểm cho tham số .
Chú ý: Ƣớc lƣợng điểm ˆ T( X X 1, X2,..., )
n chỉ phụ thuộc vào các quan
sát x1, x2,…, xn và không phụ thuộc vào tham số . 82
Ví dụ 2: Cho X là biến ngẫu nhiên có phân phối chuẩn 2
N(; ). Giả sử
(X1, X2,…, Xn) là mẫu ngẫu nhiên về X: 1
- Đại lƣợng X ( 1 X X2 ... X )
n là ƣớc lƣợng điểm của kỳ vọng µ của n biến ngẫu nhiên X; 1 n 1 n - Đại lƣợng 2 2 S (X X ) i hoặc *2 2 S
(X X ) là ƣớc lƣợng n i 1i 1 ni 1 điểm của phƣơng sai 2
của biến ngẫu nhiên X. 4.1.1.2. Tính chất
Nhƣ vậy, một ƣớc lƣợng ˆ
T là một hàm của n biến ngẫu nhiên. Giá trị
của ƣớc lƣợng cũng thay đổi từ mẫu quan sát này đến mẫu quan sát khác.
Nghĩa là, với cùng một mẫu ngẫu nhiên ta có thể xây dựng nhiều thống kê ˆ
khác nhau để ƣớc lƣợng cho tham số . Vì vậy ta cần lựa chọn thống kê tốt
nhất để ƣớc lƣợng cho tham số dựa vào các tính chất sau:
a) Tính không chệch
Định nghĩa: Ƣớc lƣợng ˆ
đƣợc gọi là ƣớc lƣợng không chệch của tham số nếu ˆ E . Nếu ˆ E thì ˆ
đƣợc gọi là ƣớc lƣợng chệch của .
Ví dụ 3: Ta chứng minh đƣợc: 1 - X ( 1 X X2 ... X )
n là ƣớc lƣợng không chệch của kỳ vọng µ; n 1 n - 2 2 S (X X ) i
là ƣớc lƣợng không chệch của phƣơng sai 2 n ; 1i 1 1 n - *2 2 S (X X ) i
là ƣớc lƣợng chệch của phƣơng sai 2 n . 1i1 b) Tính vững
Định nghĩa: Ƣớc lƣợng ˆ
đƣợc gọi là ƣớc lƣợng vững của tham số nếu
với mọi 0 cho trƣớc tùy ý ta có: ˆ
lim P | | 1 n ( ˆ
hội tụ theo xác suất tới ). 83 Ví dụ 1 4 : X ( 1 X 2 X ... n
X ) là ƣớc lƣợng vững của kỳ vọng µ. n
c) Tính hiệu quả
Định nghĩa: Ƣớc lƣợng ˆ
đƣợc gọi là ƣớc lƣợng hiệu quả của tham số nếu ˆ
là ƣớc lƣợng không chệch và có phƣơng sai nhỏ nhất trong lớp các ƣớc lƣợng không chệch. 1
Ví dụ 5: X ( 1 X X2 ... X )
n là ƣớc lƣợng hiệu quả của kỳ vọng µ. n
4.1.2. Phương pháp ước lượng hợp lý cực đại
Cho biến ngẫu nhiên X có phân phối f (X, ) với dạng của f đã biết, nhƣng
chƣa biết. Để ƣớc lƣợng ta lấy mẫu ngẫu nhiên (X1, X2, …, Xn) và lập hàm: ( L ) f ( 1 X , )f(X2, )...f(X , ), n (1)
L() gọi là hàm hợp lý của mẫu, nó phụ thuộc vào X1, X2,…, Xn và
nhƣng coi X1, X2,…, Xn là hằng số đã biết và là biến. Vấn đề đặt ra là tìm ˆ (X X X sao cho: 1, 2 ,..., ) n L ˆ(X
1, X 2,..., X ) L( ) n (2)
Điều kiện (2) ở trên tƣơng đƣơng với: L ˆ ln ( 1
X , X2 ,..., X ) lnL( ) n (3) Đặt ( ) ln (
L ) , khi đó điều kiện (3) tƣơng đƣơng với: ˆ (4) Ƣớc lƣợng ˆ (
xác định bởi điều kiện trên gọi là ước lượng 1
X , X2,..., X ) n
hợp lý cực đại của .
Nếu khả vi theo thì tại ˆ (X X X ta có: 1, 2,..., ) n 0 (5)
Phƣơng trình (5) này đƣợc gọi là phương trình hợp lý và mọi nghiệm của
nó nếu thỏa mãn điều kiện (3) hoặc (4) đều là ƣớc lƣợng hợp lý cực đại của .
Ví dụ 1: Cho biến ngẫu nhiên X có phân phối chuẩn 2
N( ,3 ) với a chƣa
biết và cho (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ƣớc lƣợng hợp lý cực đại của µ. 84
Giải:
Theo giả thiết X có phân phối chuẩn 2
N ( ,3 ) nên có hàm mật độ là: 2 ( x ) 1 18 f ( ) x e 3 2
Từ đó, ta có hàm hợp lý là: 2 2 2 ( x ) ( x ) (x ) 1 2 n 1 18 1 18 1 18 ( L 1 x , 2
x ,..., x , ) e . e ... n e 3 2 3 2 3 2 n 2 ( x ) i n i 1 1 18 e 3 2 1 1 n 2 ln L nln (x ) () i 3 2 18 i 1
Ta tìm đƣợc ƣớc lƣợng cho µ từ phƣơng trình: () 1 n n 1 n 0 (x )
0 (x ) 0 i i xi 9 i 1 i 1 n i 1
Hay X là ƣớc lƣợng hợp lý cực đại cần tìm. Ghi chú:
Trƣờng hợp X là biến ngẫu nhiên rời rạc, ta cũng định nghĩa tƣơng tự nhƣ
trên về khái niệm ƣớc lƣợng hợp lý cực đại.
Khái niệm ƣớc lƣợng hợp lý cực đại định nghĩa theo (3) hoặc (4) thực chất
là dựa trên quan điểm “giá trị của trong thực tế là giá trị ứng với xác suất xảy
ra lớn nhất” (vì vậy nó là hợp lý nhất).
Ví dụ 2: Cho biến ngẫu nhiên X có phân phối xác suất nhƣ sau: X 1 0 P 1
Với (0,1) và (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ƣớc lƣợng hợp lý cực đại cho . Giải:
Từ bảng phân phối trên ta rút ra hàm mật độ cho biến ngẫu nhiên X là: xi 1
f ( x ,) (1 ) xi i 85 Với xi = 0 hoặc xi = 1.
Ta có hàm hợp lý cực đại của là: ( ) ln x 1 (1 ) x x 1 1 1 2 x2 (1 ) .. x 1 . n
(1 ) xn n x x
( ) ln i 1 (1 ) i i 1 Xét: x 1 ln (1 ) x i
i x ln (1 x )ln(1 ) i i
ln f (x , ) i
x (1 x ) i i i x 1 (1 )
Ƣớc lƣợng hợp lý cực đại cho là nghiệm của phƣơng trình: n x d ( ) x 1 i n n i i 1 k 0 0
x n 0 i d i 1 (1 ) (1 ) i 1 n n
Trong đó, k là số lần xi = 1 (i =1,.., n) trong số n giá trị (x1, x2, …, xn).
4.2. Ƣớc lƣợng khoảng
Các phƣơng pháp ƣớc lƣợng điểm nói trên có nhƣợc điểm là khi kích thƣớc
mẫu bé thì ƣớc lƣợng điểm có thể sai lệch rất nhiều so với giá trị của tham số
cần ƣớc lƣợng. Mặt khác phƣơng pháp trên cũng không thể đánh giá đƣợc khả
năng mắc sai lầm khi ƣớc lƣợng là bao nhiêu. Do đó, khi kích thƣớc mẫu bé
ngƣời ta thƣờng dùng phƣơng pháp ƣớc lƣợng khoảng tin cậy . Độ tin cậy là gì?
Khi ta ƣớc lƣợng cho tham số X thuộc khoảng nào đó thì xác suất để X
thuộc khoảng giá trị ấy đƣợc gọi là độ tin cậy.
Nghĩa là từ mẫu ngẫu nhiên tìm khoảng (a, b) chứa tham số với xác suất
đủ lớn cho trƣớc ( đƣợc gọi là độ tin cậy).
Khái niệm về khoảng tin cậy: Cho mẫu ngẫu nhiên (x1, x2,…,xn) về X.
Khoảng (a; b) có hai đầu mút là hai thống kê a = a(x1, x2,…, xn) và b = b(x1, x nếu:
2,…, xn) gọi là khoảng tin cậy của tham số với độ tin cậy
P(a b)
Trong thực tế, thƣờng yêu cầu độ tin cậy khá lớn, khi đó theo nguyên lý xác
suất lớn thì biến cố { a b} hầu nhƣ chắc chắn sẽ xảy ra trong một phép thử. 86 b a Khi đó
đƣợc gọi là độ chính xác của ƣớc lƣợng. 2
Nhƣ vậy, với cùng một độ tin cậy thì khoảng tin cậy càng hẹp thì ƣớc lƣợng càng chính xác.
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn
Giả sử biến ngẫu nhiên X có phân phối chuẩn 2
N( , ) nhƣng chƣa biết tham
số µ của nó. Từ tổng thể rút ra một mẫu ngẫu nhiên X = (x1, x2,…, xn) kích thƣớc n.
Ta cần ƣớc lƣợng khoảng cho µ với độ tin cậy trong các trƣờng hợp sau.
4.2.1.1. Trường hợp phương sai 2 đã biết
Theo định nghĩa của ƣớc lƣợng khoảng, ta cần tìm sao cho:
P X X hay P X 2
Theo giả thiết X ~ N ;
áp dụng công thức tính xác suất theo phân n phối chuẩn ta có: n P X 2 1 n 1 Suy ra . 2 Đặt
n u /2 u/2 . n Trong đó u 1 1 1
α/2 đƣợc tìm từ điều kiện u /2 1 . 2 2 2
Nhƣ vậy, khoảng tin cậy của tham số a với độ tin cậy có dạng:
X ; X
Trong đó, độ chính xác của ƣớc lƣợng là u/2
, với 1 ; và u n /2
đƣợc tìm từ điều kiện (u /2) 1 . 2
Kết luận, khoảng ƣớc lƣợng của
µ là: X u /2 ; X u/2 . n n 87
Một số giá trị u/2 thƣờng gặp:
90% 0,1 (u /2 ) 0,95 u /2 1,64
95% 0,05 ( u /2 ) 0,975 u /2 1,96
98% 0,02 (u /2) 0,99 u /2 2,32
99% 0,01 (u /2 ) 0,995 u /2 2,57
Ví dụ 1: Chiều cao của một loại gỗ quý là một biến ngẫu nhiên X phân bố
theo quy luật chuẩn với độ lệch tiêu chuẩn 1 cm. Đo thử 25 cây loại này ta tính
đƣợc chiều cao trung bình là X 196,4 cm.
Với độ tin cậy 95%, hãy tìm khoảng tin cậy của chiều cao trung bình của loại cây trên. Giải:
Gọi X là biến ngẫu nhiên về chiều cao của loại gỗ quý. Theo giả thiết X có
phân phối chuẩn với 1.
Từ mẫu đã cho ta đã có: X 196,4 (u /2 ) 1 0,975 u /2 1,96. 2
Độ chính xác của ƣớc lƣợng là: 1 u /2 1,96. 0,392. n 25
Vậy ta có khoảng ƣớc lƣợng của chiều cao trung bình a là: 1 1 X u X u /2 ; /2 196,4 1,96. ; 196, 4 1,96. 197,008; 196,79 2 n n 25 25
4.2.1.2. Trường hợp phương sai 2
chưa biết
Trong nhiều bài toán thực tế, ta không biết trƣớc phƣơng sai 2 của biến
ngẫu nhiên gốc X của tổng thể. Ta có thể dùng phƣơng sai mẫu S2 (tính toán
đƣợc từ mẫu) để thay thế phƣơng sai 2
(Vì S2 là ƣớc lƣợng vững không chệch của 2 ). Biến ngẫu nhiên X T
có phân phối Student với (n-1) bậc tự do. Theo S / n
phân phối Student, ta tìm đƣợc t /2(n 1) thỏa mãn:
P | T | t n
P T t n /2( 1) | | /2( 1) 88
Khoảng ƣớc lƣợng cho kỳ vọng a là: S S X t /2 (n 1) ; X t/2(n 1) n n S
với độ chính xác t n /2( 1) . n
Trong đó tα/2(n-1) tra từ bảng phân phối Student với (n-1) bậc tự do, mức ý nghĩa /2.
Chú ý: Khi cỡ mẫu n > 30, phân phối Student tiệm cận phân phối chuẩn
nên có thể sử dụng u/2thay cho t /2(n 1).
Ví dụ 2: Năng suất của một loại giống mới là biến ngẫu nhiên X có phân phối chuẩn 2
N( , ). Tiến hành gieo thử hạt giống mới này tại 16 vƣờn thí
nghiệm và thu đƣợc kết quả nhƣ sau: 19,2
18,7 22,4 20,3 16,8 25,1 17,0 15,8 21,0
18,6 23,7 24,1 23,4 19,8 21,7 18,9
Với độ tin cậy 95%. Hãy tìm khoảng tin cậy cho năng suất trung bình của loại giống trên. Giải:
Từ mẫu đã cho ta tính đƣợc: X 20,406 và S = 3,038.
Tra bảng phân phối Student ta đƣợc t0,025(15) = 2,13.
Ta có khoảng ƣớc lƣợng của năng suất trung bình a là: S S X t / 2(n 1) ; X t/2(n 1) n n 3,038 3, 038 20,406 2,13. ; 20,406 2,13. 18,79; 20,02 16 16
Ví dụ 3: Chiều cao của cây con tại một vƣờn ƣơm là một biến ngẫu nhiên X có phân phối chuẩn 2
N( , ). Ngƣời ta tiến hành đo ngẫu nhiên 200 cây con
tại vƣờn và thu đƣợc kết quả sau: Chiều cao 19,7 18,9 20,2 23 22,5 19,5 Số cây con 10 15 35 75 55 10 89
Dựa vào kết quả này hãy tìm khoảng ƣớc lƣợng cho chiều cao trung bình?
Với mức ý nghĩa 0,05. Giải:
Từ mẫu trên, ta tính đƣợc:
X 21,725 và S = 2,244
Vì cỡ mẫu n = 200 nên ta có thể sử dụng u /2thay cho t /2(n 1) u = 0,975 => u =1,96 /2 1 / 2 /2
Vậy khoảng ƣớc lƣợng cần tìm là: S S 2, 244 2, 244 X u /2 ; X u /2 21,725 1,96. ; 21,725 1,96. n n 200 200 21, 414; 22,036
Bảng tóm tắt các công thức cần nhớ:
Độ chính xác
Khoảng tin cậy 2 đã biết u /2 X u ; X u n /2 / 2 n n 2 chưa biết và n S t S S /2(n 1) X t /2 (n 1) ; X t/2(n 1) 30 n n n 2 chưa biết và n S S S u /2 X u /2 ; X u/2 > 30 n n n
4.2.2. Khoảng tin cậy cho xác suất
Giả sử trong một tổng thể, mỗi cá thể mang hoặc không mang dấu hiệu A
nào đó. Gọi p (chƣa biết) là tỷ lệ cá thể có dấu hiệu A trong tổng thể. Lấy một
mẫu quan sát ngẫu nhiên cỡ n từ tổng thể.
Bài toán đặt ra là căn cứ trên các giá trị thu đƣợc từ mẫu, hãy ƣớc lƣợng giá trị của p.
Gọi X là số cá thể có dấu hiệu A trong mẫu. Ta có ƣớc lƣợng không chệch X
cho p là tần suất f . n pq
Khi n lớn thì f có phân phối xấp xỉ phân phối chuẩn N ( p,
) với q 1 p . n 90
Vì p chƣa biết nên phƣơng sai D(f) cũng chƣa biết.
Mặt khác, tần suất mẫu f là ƣớc lƣợng vững, không chệch và hiệu quả cho
tần suất p của tổng thể nên với n đủ lớn, thỏa mãn điều kiện nf>10 và n(1-f)>10 p p f f ta có thể xấp xỉ (1 ) (1 ) D( f ) . n n
Gọi là độ chính xác của ƣớc lƣợng.
Khi đó: P f p 2 1 f (1 f ) n
Để P f p 2 1
f (1 f ) n f f Đặt (1 ) u /2 u/2 f (1 f ) n n Với u 1 1
/2 đƣợc xác định từ điều kiện u ( /2) 1 1 2 2 2
Từ đó ta có khoảng tin cậy cho tỷ lệ là:
f f f (1 f ) f (1 f ) ; f u f u /2 ; /2 n n
Ví dụ 4: Trong đợt vận động bầu cử tổng thống ở một nƣớc, ngƣời ta
phỏng vấn ngẫu nhiên 1600 cử tri và thấy trong số đó có 960 ngƣời sẽ bỏ phiếu
cho ứng cử viên A. Với độ tin cậy 99%, hãy ƣớc lƣợng khoảng tin cậy cho tỷ lệ
số phiếu bầu cho ứng cử viên A? Giải:
Gọi p là tỷ lệ số phiếu sẽ bầu cho ứng cử viên A.
Với mẫu cụ thể cho ở trên, ta có : 960 f 0,6 1600
Kiểm tra điều kiện nf = 960 >10 và n(1-f) = 640 >10 thấy thỏa mãn: 1 1 (u /2 ) 1 1 0,995 u /2 1,96 2 2 2 91
Vậy độ chính xác của ƣớc lƣợng là: f (1 f ) 0, 6.0, 4 u /2 1,96 0, 024 n 1600
Vậy khoảng tin cậy cho tỷ lệ là (0,6 0,024; 0,6 0,024) tức là (0,576; 0,624).
4.2.3. Khoảng tin cậy cho phương sai Bài toán: Giả sử 2
X N(, ) . Lấy đƣợc mẫu kích thƣớc n về X. Cho trƣớc độ tin cậy .
Cần ƣớc lƣợng khoảng cho 2 .
Giải pháp: Từ mẫu thu đƣợc, ta tính đƣợc phƣơng sai mẫu S2 và đại lƣợng n 2 2 1 S
có phân phối khi bình phƣơng với n – 1 bậc tự do. 2
Nhƣ vậy, với độ tin cậy đã cho, ta tìm đƣợc hai giá trị 2 và 2 thỏa mãn: 1 2
P n 2 S 2 2 2 2 1 2
P 1 2 1 2 2 n 2 1 S n 2 2 1 S P 2 2 2 1 n 2 1 S n 2 S
Vậy khoảng ƣớc lƣợng cho 2 với độ tin cậy 1 là: ; . 2 2 2 1 Trong đó hai giá trị 2 1 và 2
2 tìm đƣợc bằng cách tra bảng phân phối khi
bình phƣơng với n-1 bậc tự do từ điều kiện: P 2 2 1 2 2 P 2 2 1 P 2 2 1 1 1 2 2
Ví dụ 5: Kích thƣớc của một chi tiết máy là một biến ngẫu nhiên có phân
bố chuẩn. Trong một mẫu gồm 30 chi tiết đƣợc kiểm tra ta tính đƣợc X = 0,47;
S = 0,032. Tìm khoảng tin cậy 95% cho phƣ n
ơ g sai của kích thƣớc toàn bộ các chi tiết máy. Giải:
Tra bảng phân phối khi bình phƣ n ơ g với 29 bậc tự do: 2 2 0,975 (29) 16,047; 0,25(29) 45,722 92
Khoảng ƣớc lƣợng cho phƣơng sai: 2 2 29.0,032 29.0,032 ; 45, 722 16,047
4.3. Bài toán xác định cỡ mẫu
Với độ tin cậy cho trƣớc, ta thấy kích thƣớc mẫu càng lớn thì khoảng tin
cậy càng hẹp. Tuy nhiên, kích thƣớc mẫu càng lớn thì càng mất nhiều thời gian
và công sức. Bài toán đặt ra là cần chọn kích thƣớc mẫu tối thiểu là bao nhiêu để
đạt đƣợc độ chính xác mong muốn.
4.3.1. Trường hợp ước lượng cho giá trị trung bình
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện: 2 u /2 n u /2 n Hay: 2 S S u /2 n u /2 n
Chú ý: Trong công thức thứ hai, ngƣời ta thƣờng lấy sơ bộ một mẫu có
kích thƣớc khoảng 30 để ƣớc lƣợng cho phƣơng sai. Vì vậy, cỡ mẫu tối thiểu sử
dụng đƣợc khi kết quả n > 30.
Ví dụ 6: Ngƣời ta muốn xây dựng khoảng tin cậy 95% với độ chính xác là
2 (dặm) cho vận tốc trung bình của ô tô trên đƣờng cao tốc. Một mẫu điều tra sơ
bộ cho ta S = 9. Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu? Giải:
α = 1 – 0,95 = 0,05 u(0,025) = 1,96.
Cỡ mẫu n thỏa mãn điều kiện: 2 9 n 1,96 77,79 2
Nhƣ vậy, cần phải lấy mẫu với kích thƣớc tối thiểu là 78.
4.3.2. Trường hợp ước lượng cho tỷ lệ
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện: 2 f (1 f ) u /2 u n f f /2 (1 ) n 93
với f là ƣớc lƣợng điểm cho p. Hoặc nếu f chƣa biết, ta sử dụng bất đẳng thức: 2 f (1 f ) 1 u /2 n n 2 2
Chú ý: Nếu p gần 0,5 thì hai phƣơng pháp cho kết quả gần nhƣ nhau. Nếu
p gần 0 hoặc 1 thì hai phƣơng pháp cho kết quả rất khác nhau. Nên sử dụng theo cách thứ nhất.
Ví dụ 7: Một nhà nông học muốn ƣớc lƣợng tỷ lệ nảy mầm của một loại
hạt giống với độ tin cậy 99%, sai số không quá 0,02.
a) Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu?
b) Nếu nhà nông học đó lấy mẫu với kích thƣớc 1000, thấy có 640 hạt nảy
mầm. Hỏi với yêu cầu nhƣ trên thì cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu? Giải:
a) α = 1 – 0,99 = 0,01 u 0,005 = 2,38. 2 2 u /2 2,58 n 4160,25 2 2.0,02 640 b) f 0,64 1000 2 2 u /2 2,58 n f (1 f ) 0, 64.0,36 3834,08 0,02 BÀI TẬP
Bài 1: Điều tra 200 mảnh ruộng, mỗi mảnh 4 m2 ta đƣợc: Sản lƣợng (kg) 1,02 1,08 1,14 1,20 1,26 1,32 Số mảnh 10 15 35 75 55 10
a) Hãy tính năng suất trung bình (tạ/ha).
b) Ƣớc lƣợng khoảng tin cậy của năng suất toàn vùng với độ tin cậy 95%.
Giả thiết sản lƣợng là biến ngẫu nhiên có phân phối chuẩn. 94
Bài 2: Các kết quả đo độ dài một đoạn thẳng (theo m) không chứa sai số hệ
thống đƣợc cho trong bảng: Kết quả 114 115 116 117 118 Số lần đo 2 5 8 4 3 Với độ tin cậy 95%.
a) Hãy tìm khoảng tin cậy của độ dài đoạn thẳng cần đo.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,3 thì cần phải đo ít
nhất bao nhiêu đoạn thẳng?
Bài 3: Hãy ƣớc lƣợng kỳ vọng và phƣơng sai của một tổng thể có quy luật
phân phối chuẩn với độ tin cậy 98% dựa theo kết quả của mẫu: 3,1 3,3 2,9 3,0 3,2 2,8 2,7 3,2 3,2 2,9 3,0 2,9 3,1 2,8 2,9 3,1 3,3 2,9 3,1 3,2 3,0 3,1
Bài 4: Để xác định tỷ lệ phế phẩm trong một lô sản phẩm ngƣời ta rút ra
một mẫu gồm 500 sản phẩm đem kiểm tra và thấy có 50 phế phẩm. Hãy ƣớc
lƣợng tỷ lệ phế phẩm trong lô với độ tin cậy = 99%.
Bài 5: Trên cơ sở 100 lần thực nghiệm, ngƣời ta thấy rằng thời gian trung
bình để sản xuất 1 chi tiết máy là 5,5 giây và sai tiêu chuẩn là 1,7 giây. Giả sử
thời gian để sản xuất xong 1 chi tiết máy là biến ngẫu nhiên có phân phối chuẩn 2
N( , ). Hãy tìm khoảng tin cậy của và 2
với độ tin cậy 90%.
Bài 6: Điều tra ngẫu nhiên 180 ngƣời ta thấy có 162 ngƣời hoàn thành định
mức công việc. Với độ tin cậy 95%.
a) Hãy ƣớc lƣợng tỷ lệ hoàn thành định mức chung của toàn nhà máy.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,03 thì cần phải điều
tra ít nhất bao nhiêu ngƣời?
Bài 7: Một phƣơng pháp điều trị mới đang đƣợc xem xét để đánh giá tính
hiệu quả của nó. Một chỉ tiêu đánh giá là số ngày trung bình từ lúc điều trị
cho đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân đƣợc
theo dõi và đánh số ngày điều trị cho tới khi khỏi bệnh đƣợc ghi lại nhƣ sau: 4 4 3 8 5 6 7 12 5 3 8
Tìm khoảng tin cậy 95% cho số ngày trung bình . 95
Bài 8: Tìm các khoảng tin cậy 90%, 95% và 98% cho giá trị trung bình dựa trên các mẫu sau:
a) n 100, X 250, S 80. )
b n 64, X 250, S 80.
Bài 9: Một công ty lớn muốn ƣớc lƣợng trung bình một ngày một thƣ ký
phải đánh máy bao nhiêu trang giấy. Một mẫu gồm 50 thƣ ký đƣợc chọn ngẫu
nhiên cho thấy số trang trung bình mà họ đánh máy là 32 với độ lệch tiêu chuẩn
là 6. Tìm khoảng tin cậy 99% cho số trang trung bình mà một thƣ ký của công ty
đánh máy trong một ngày.
Bài 10: Một nhà sƣu tập tem khảo giá chiếc tem A trong 9 cửa hàng thì thấy
giá trung bình là 17 (nghìn đồng) với độ lệch tiêu chuẩn là 3 (nghìn đồng). Tìm
khoảng tin cậy 90% cho giá của chiếc tem này trong tất cả các cửa hàng bán tem.
Bài 11: Cơ quan cảnh sát giao thông kiểm tra hệ thống phanh của 40 chiếc
xe tải trên quốc lộ. Họ phát hiện 14 xe tải có phanh chƣa đảm bảo an toàn.
a) Tìm khoảng tin cậy 95% cho tỷ lệ xe tải có phanh chƣa đảm bảo an toàn.
b) Tìm khoảng tin cậy 98% cho tỷ lệ xe tải có phanh đảm bảo an toàn.
Bài 12: Từ một tập hợp chính có quy luật chuẩn N(µ; 2) kết quả lấy mẫu n = 10 thu đƣợc nhƣ sau: 51 48 56 57 44 52 54 60 46 47
Tìm khoảng tin cậy cho µ và 2 với độ tin cậy 90%. 96 Chƣơng 5
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
5.1. Đặt vấn đề
Trong các hoạt động thực tiễn, ta thƣờng đặt ra và giải quyết nhiều bài toán
mà ta sẽ gọi là bài toán kiểm định giải thuyết. Sau đây là một số ví dụ.
Trên truyền thông, ta bắt gặp nhiều tuyên bố của các nhà quản lí. Chẳng
hạn, một trƣờng đại học tuyên bố tỉ lệ sinh viên có việc làm đúng ngành đƣợc
đào tạo của trƣờng này sau khi tốt nghiệp là trên 80%. Một ngƣời nghi ngờ
thông tin trên và muốn kiểm chứng lại khẳng định đó. Câu hỏi là phƣơng pháp
nào giải quyết đƣợc vấn đề trên?
Trong nông nghiệp, khi đƣa vào trồng thử nghiệm một giống lúa mới trên
một địa phƣơng. Biết rằng năng suất trung bình sau khi thu hoạch của giống lúa
mới trên các thửa ruộng đƣợc trồng thử nghiệm là 6,0 tấn/ha. Năng suất lúa
trung bình của giống lúa truyền thống là 5,5 tấn/ha. Câu hỏi đặt ra là năng suất
trung bình của giống lúa mới có cao hơn giống lúa truyền thống hay không? Từ
thông tin thu đƣợc (từ mẫu), có phƣơng pháp nào trả lời câu hỏi trên không và
nếu có thì cách thức giải quyết nhƣ thế nào?
Trong lâm nghiệp, ngƣời ta nhận thấy rằng sinh trƣởng của cây rừng có vẻ
nhƣ chịu ảnh hƣởng của yếu tố vị trí cây mọc (đƣợc trồng). Giả sử, ta xét trên một
quả đồi và ta chia vị trí mà cây mọc (đƣợc trồng) thành ba mức: chân đồi, sƣờn
đồi và đỉnh đồi. Sinh trƣởng của cây đƣợc xếp hạng: sinh trƣởng kém, sinh trƣởng
trung bình và sinh trƣởng tốt. Có thể có một số câu hỏi đƣợc đặt ra nhƣ sau:
Câu hỏi 1: Có ảnh hƣởng thực sự của yếu tố vị trí đối với sinh trƣởng của cây hay không?
Câu hỏi 2: Có sự khác biệt nào về sinh trƣởng khi vị trí cây ở các mức khác
nhau không? Nói nôm na, khi các điều kiện khác xấp xỉ nhau thì cây mọc hoặc
đƣợc trồng ở các vị trí đỉnh đồi, sƣờn đồi và chân đồi sinh trƣởng nói chung của nó có khác biệt không?
Phƣơng pháp thống kê giúp ta trả lời một cách “hợp lí” các câu hỏi ở dạng
trên từ dữ liệu có đƣợc. Khi đó, các yếu tố mà thực tế đang quan tâm đƣợc xét
nhƣ là các biến ngẫu nhiên với phân phối, tham số chƣa biết. 97
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết
Cho X là một biến ngẫu nhiên có phân phối là mẫu về X.
Định nghĩa 1: Giả thuyết là một khẳng định về phân phối hay về tham số
chƣa biết của biến ngẫu nhiên, thông thƣờng ta kí hiệu là H hoặc .
Định nghĩa 2: Đối thuyết là khẳng định về phân phối hay tham số của biến
ngẫu nhiên nhƣng trái ngƣợc với giả thuyết đƣợc nêu, kí hiệu là K hoặc . Ví dụ 1:
Giả thuyết H: Biến ngẫu nhiên X có phân phối chuẩn tắc.
Đối thuyết K: Biến ngẫu nhiên X không có phân phối chuẩn tắc.
Đây là giả thuyết đặt ra đối với phân phối chƣa biết của biến, tức là ta đang
ngờ rằng biến có phân phối chuẩn tắc.
Ví dụ 2: Giả sử , biến X có phân phối chuẩn và phƣơng sai
đã biết, kì vọng là tham số chƣa biết. Ta có thể đặt ra các giả
thuyết và đối thuyết tƣơng ứng với nhƣ sau: Giả thuyết : Đối thuyết
Đối thuyết có thể đƣợc thay bằng các đối thuyết hoặc .
Bài toán đặt ra nhƣ sau: Ta quan tâm tới biến ngẫu nhiên X có phân phối
chƣa biết. Có hai khẳng định trái ngƣợc nhau về biến X là giả thuyết và đối
thuyết. Với dữ liệu thu đƣợc về X (mẫu ngẫu nhiên), ta phải quyết định lựa chọn
một trong hai khẳng định đó theo một cách “hợp lí nhất”.
Phƣơng pháp chung giải bài toán kiểm định giả thuyết:
Để giải bài toán kiểm định giả thuyết, ngƣời ta làm nhƣ sau:
Dựa trên mẫu ngẫu nhiên thu đƣợc về X, ngƣời ta xây dựng
tiêu chuẩn kiểm định (test thống kê) T là hàm của mẫu, tức là .
Nói đơn giản, tiêu chuẩn T đo sự sai khác giữa giả thuyết đặt ra và thực tế quan sát đƣợc về X.
Ta sẽ đƣa ra quyết định chấp nhận hay bác bỏ giả thuyết dựa vào tiêu chuẩn
T một cách “hợp lí”. Thông thƣờng, nếu có sự khác biệt lớn hay T nhận giá trị
lớn ta sẽ bác bỏ giả thuyết. Nếu T nhận giá trị nhỏ thì ta sẽ chấp nhận giả thuyết,
tức là, sự sai khác không đáng kể (sai do yếu tố ngẫu nhiên - lấy mẫu). 98
Vì ta không có toàn bộ thông tin về biến X nên quyết định mà ta đƣa ra dựa
trên tiêu chuẩn T hoàn toàn có thể dẫn tới sai lầm. Có hai sai lầm có thể mắc phải nhƣ sau:
a) Sai lầm loại 1: Giả thuyết sai nhƣng ta lại chấp nhận nó.
b) Sai lầm loại 2: Giả thuyết đúng nhƣng ta lại bác bỏ nó.
Một cách tự nhiên, ta cố gắng tìm một tiêu chuẩn sao cho khi đƣa ra quyết
định dựa trên nó thì khả năng mắc hai sai lầm trên là nhỏ nhất. Tuy nhiên, ngƣời
ta chứng minh đƣợc rằng một tiêu chuẩn nhƣ vậy là không tồn tại. Trong tình
huống này, ngƣời ta xử lí nhƣ sau:
Ta khống chế xác suất mắc sai lầm loại 1 nhỏ hơn một mức đã ấn định
trước (thường nhỏ) và tìm một tiêu chuẩn cực tiểu xác suất mắc sai lầm loại 2.
May mắn thay, một tiêu chuẩn nhƣ vậy luôn tồn tại.
Nguyên tắc đƣa ra quyết định: Ngƣời ta đƣa ra quyết định dựa trên
“nguyên lí xác suất nhỏ”.
Nguyên lí xác suất nhỏ: Nếu một biến cố có xác suất nhỏ thì nó sẽ không
xảy ra trong một hoặc một vài lần thực hiện phép thử.
Đến đây, bài toán kiểm định giả thuyết đƣợc giải quyết bằng phƣơng pháp phản chứng nhƣ sau:
Giả sử, giả thuyết đặt ra là đúng, khi ấy tiêu chuẩn T có một phân phối hoàn
toàn xác định. Dựa vào phân phối này, ta tìm một miền S thỏa mãn
| . Miền S đƣợc gọi là miền tiêu chuẩn hay miền bác bỏ giả thuyết.
Từ dữ liệu thực tế có đƣợc, ta tính ra giá trị của T và đối chiếu giá trị của T
với miền tiêu chuẩn. Nếu thì ta sẽ bác bỏ giả thuyết. Nếu ngƣợc lại, ta
chấp nhận giả thuyết. Đó là lời giải của bài toán kiểm định giả thuyết.
Cơ sở của quyết định trên đƣợc giải thích: Nếu giả thuyết là đúng đắn thì S
là miền có xác suất nhỏ (vì đƣợc chọn nhỏ). Do đó, biến cố có xác suất
nhỏ. Một biến cố có xác suất nhỏ phải không xảy ra trong một hoặc một vài lần
lấy mẫu mới là hợp lí. Do đó, nếu trong lần đầu lấy mẫu, ta thấy rằng T rơi vào
miền S, điều này mâu thuẫn với nguyên lí xác suất nhỏ và quyết định ta đƣa ra là
bác bỏ giả thuyết. Khả năng phạm sai lầm loại 1 khi chọn quyết định này nhỏ hơn hoặc bằng . 99 Chú ý:
Phƣơng pháp giải trên đƣợc gọi là phƣơng pháp kiểm định truyền thống.
Một phƣơng pháp khác thƣờng đƣợc dùng trong các phần mềm thống kê là
phƣơng pháp P - value (P - giá trị).
Tiêu chuẩn T là một biến ngẫu nhiên. Ta đƣa ra quyết định dựa trên T hay
chính dựa trên mẫu (những bằng chứng thu thập đƣợc). Nếu hai mẫu khác nhau
có thể dẫn tới hai quyết định trái ngƣợc nhau. Xác suất m c
ắ sai lầm loại 1 đƣợc ƣu tiên khống chế vì ngƣời ta cho rằng sai
lầm này nghiêm trọng hơn nếu phạm phải.
Xác suất mắc sai lầm loại 2 chƣa đƣợc xác định. Do vậy, quyết định bác bỏ
giả thuyết nói chung “an toàn” hơn quyết định chấp nhận giả thuyết vì nhỏ và đã biết.
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng
Cho X là biến ngẫu nhiên và là mẫu ngẫu nhiên thu đƣợc về biến X.
Bài toán kiểm định: Với mức cho trƣớc, kiểm định các giả thuyết sau:
Bài toán 1: Giả thuyết / Đối thuyết .
Bài toán 2: Giả thuyết / Đối thuyết .
Bài toán 3: Giả thuyết / Đối thuyết .
Bài toán 1 đƣợc gọi là bài toán kiểm định hai phía, bài toán 2 và bài toán 3
đƣợc gọi là bài toán kiểm định một phía.
Ta giải các bài toán trên trong ba trƣờng hợp sau:
Trƣờng hợp 1: và đã biết, là tham số chƣa biết.
Lời giải bài toán 1: {
Tiêu chuẩn kiểm định: √
Giả sử, đúng, tức là . Ngƣời ta chứng minh đƣợc rằng tiêu
chuẩn T có phân phối chuẩn tắc.
Với cho trƣớc, ta tìm một số thỏa mãn (| | ) . 100 Ta có: (| | ) (| | ) ( )
Vì tiêu chuẩn U có phân phối chuẩn tắc nên: ( ) ( ) ( ) ( ) Do đó, ta có ( )
. Từ đây, tra bảng phân phối chuẩn tắc ta sẽ
tìm đƣợc giá trị cụ thể của .
Đặt {| | }. Đây chính là miền có xác suất nhỏ hơn hoặc bằng .
Nhƣ vậy, với việc xác định đƣợc phân phối của U và mức ý nghĩa cho
trƣớc, ta luôn xác định đƣợc miền tiêu chuẩn hay bác bỏ giả thuyết.
Từ mẫu ngẫu nhiên thu đƣợc về biến X, tính giá trị của tiêu chuẩn U. Sau đó, ta so sánh | | với .
Kết luận: Nếu | | thì ta bác bỏ giả thuyết
gƣợc lại, ta chấp nhận . N giả thuyết.
Ví dụ 1: Một ngƣời khẳng định năng suất trung bình của giống lúa A là 6,0
tấn/ha. Tuy nhiên, khi trồng loại lúa này trên 100 thửa ruộng thì thấy rằng năng
suất trung bình 6,5 tấn/ha. Giả sử, năng suất lúa A có phân phối chuẩn với
phƣơng sai là 4. Với mức ý nghĩa 5%, khẳng định đƣa ra có đáng tin không?
Giải:
Gọi X là năng suất của lúa A. Theo giả thiết, .
Bài toán đặt ra: với mức ý nghĩa , kiểm định giả thuyết: {
Với , tra ngƣợc bảng phân phối chuẩn tắc tại mức 0,975 ta tìm đƣợc giá trị .
Từ mẫu và giả thiết, ta có . Do đó, giá trị của tiêu chuẩn kiểm định là: √ √
Ta có | | . Nhƣ vậy, mẫu điều tra đƣợc rơi vào miền bác bỏ
giả thuyết. Kết luận đƣa ra là bác bỏ giả thuyết, tức là năng suất trung bình của
lúa A khác 6,0 tấn/ha hay khẳng định đƣa ra chƣa hợp lí. 101 Lời giải bài toán 2:
Với cách làm hoàn toàn tƣơng tự, bài toán 2 đƣợc giải nhƣ sau: Tiêu chuẩn kiểm định: √
Với mức cho trƣớc, ta tìm một số thỏa mãn: .
Nếu giả thuyết đúng ngƣời ta chứng minh đƣợc tiêu chuẩn U có phân phối
chuẩn tắc. Do đó, ta có:
Mặt khác, . Tra bảng phân phối chuẩn tắc ta
nhận đƣợc giá trị của .
Đặt đây chính là miền bác bỏ giả thuyết của bài toán 2.
Từ mẫu quan sát đƣợc, tính giá trị của tiêu chuẩn U.
Kết luận: Nếu giá trị của tiêu chuẩn U rơi vào miền ta sẽ bác bỏ .
Nếu ngƣợc lại, ta chấp nhận nó.
Ví dụ 2: Tiêu chuẩn khai thác gỗ keo Tai Tƣợng của một nhà máy là đƣờng
kính 1m30 phải từ 30 cm trở lên. Tại một lâm trƣờng trồng loại keo này, khi đo
đƣờng kính 1m30 của 50 cây thì đƣờng kính trung bình là 32 cm. Giả sử, đƣờng
kính có phân phối chuẩn với phƣơng sai là 25 cm. Loại keo của lâm trƣờng này
đã đạt tiêu chuẩn khai thác chƣa, với mức 10%?
Giải:
Gọi X là đƣờng kính cây keo. Ta có . Bài toán đặt ra: { Tiêu chuẩn kiểm định: √ Với , ta có .
Với mẫu thu đƣợc, giá trị của tiêu chuẩn kiểm định là: √ √ 102 Kết luận:
Vì nên ta bác bỏ giả thuyết, tức là đƣờng kính trung bình
của cây keo Tai Tƣợng tại lâm trƣờng đƣợc khảo sát lớn hơn 30 cm.
Bài toán 3 đƣợc giải quyết tƣơng tự nhƣ Bài toán 1 và Bài toán 2 với cùng tiêu chuẩn kiểm định.
Miền bác bỏ giả thuyết đƣợc xác định nhƣ sau: Ta tìm số thỏa mãn
. Dựa vào phân phối chuẩn tắc của tiêu chuẩn kiểm định miền bác bỏ giả thuyết là:
Trong đó, đƣợc tra từ bảng phân phối chuẩn tắc với mức .
Trƣờng hợp 2: là tham số cần kiểm định và chƣa biết, cỡ mẫu nhỏ (n < 30).
Ta vẫn xét ba bài toán kiểm định giả thuyết: Bài toán 1; Bài toán 2 và Bài toán 3 với cùng mức . Lời giải bài toán 1:
Ta phát biểu lại bài toán 1: {
Tiêu chuẩn kiểm định đƣợc sử dụng: √ √
Trong đó, là ƣớc lƣợng không chệch, vững và hiệu quả cho ; là phƣơng sai mẫu.
Ta chứng minh đƣợc rằng khi đúng thì tiêu chuẩn T có phân phối
Student với bậc tự do là n-1. Do vậy, miền bác bỏ giả thuyết đƣợc tìm nhƣ sau:
Với cho trƣớc, ta tìm số thỏa mãn (| | ) .
Vì T có phân phối Student với n-1 bậc tự do nên chính là phân vị mức
của phân phối này. Vậy miền bác bỏ là : { | | } 103
Trong đó, đƣợc tra ở bảng phân phối Student n-1 bậc tự do và mức .
Từ mẫu quan sát đƣợc, tính hoặc và giá trị của tiêu chuẩn T: √ √ - So sánh | | với .
- Kết luận: Nếu | |
thì ta bác bỏ giả thuyết, ngƣợc lại ta tạm
thời chấp nhận giả thuyết đặt ra.
Ví dụ 3: Nhiệt độ tháng 6 đo đƣợc tại một địa phƣơng ở nhiều điểm quan
trắc khác nhau là: 25; 26; 28; 34; 37; 39; 34; 30; 26; 36; 38; 39 và 35 (thang đo độ
C). Giả sử, nhiệt độ là biến có phân phối chuẩn. Với mức 5% có thể khẳng định
rằng nhiệt độ trung bình trên địa phƣơng này vào tháng 6 là 350C không?
Giải:
Gọi X là nhiệt độ tại địa phƣơng đó. Ta có . Bài toán đặt ra: {
Từ mẫu ta tính đƣợc: Và √ √
Tra bảng phân phối Student bậc tự do 12 mức 2,5% Ta đƣợc . Vậy | | .
Ta chấp nhận giả thuyết, tức là, có thể coi nhiệt độ trung bình vào tháng 6
tại địa phƣơng này là 350C. Ở ví dụ này, ta thấy rằng mặc dù trung bình mẫu và
giả thuyết chêch lệch khá lớn 2,10C nhƣng giả thuyết không bị bác bỏ là vì cỡ
mẫu nhỏ và độ lệch mẫu lớn.
Tƣơng tự nhƣ trong trƣờng hợp 1, Bài toán 2 và Bài toán 3 có miền bác bỏ
giả thuyết lần lƣợt là: 104
Trong đó, đƣợc tra ở bảng phân phối Student n-1 bậc tự do, mức .
Trƣờng hợp 3: Cỡ mẫu lớn (n > 30), trong trƣờng hợp này, ta không cần
giả thiết về tính chuẩn của biến.
Trong trƣờng hợp này, ta ƣớc lƣợng phƣơng sai chƣa biết của biến từ mẫu
là Sau đó, thay và giải ba bài toán kiểm định giả thuyết nhƣ trƣờng
hợp 1. Điều này đạt đƣợc vì tiêu chuẩn √ có phân phối xấp xỉ phân
phối chuẩn tắc khi cỡ mẫu đủ lớn. Ngƣời ta thƣờng chọn cỡ mẫu n > 30 đƣợc
cho là mẫu lớn vì khi cỡ mẫu lớn hơn 30 thì sai số khi xấp xỉ khá nhỏ. Ví dụ:
Ví dụ 4: Chiều cao của một số sinh viên đo đƣợc cho ở bảng sau:
Chiều cao (m) 1,40-1,50 1,50-1,55 1,55-1,60 1,60-1,65 1,65-1,70 1,70-1,80 Số sinh viên 7 25 30 34 18 10
Với mức 5%, có thể khẳng định chiều cao trung bình của sinh viên lớn hơn 1,55 m đƣợc không?
Giải:
Gọi X là chiều cao sinh viên. Bài toán kiểm định là: {
Dựa vào mẫu ta tính đƣợc: Và √ √
Với mức , tra bảng phân phối chuẩn tắc, ta đƣợc .
Vì nên ta bác bỏ giả thuyết, tức là chiều cao trung bình
của sinh viên lớn hơn 1,55 m.
5.3.2. Kiểm định cho xác suất hay tỉ lệ
Bài toán: Giả sử, tỉ lệ cá thể mang đặc tính A trong tổng thể đang quan tâm
là p (chƣa biết). Khi quan sát n cá thể trong tổng thể này thì thấy rằng có k cá thể
mang đặc tính A. Từ dữ liệu có đƣợc và với mức ý nghĩa cho trƣớc, hãy kiểm
định các giả thuyết sau:
Bài toán 1: Giả thuyết / đối thuyết . 105
Bài toán 2: Giả thuyết / đối thuyết .
Bài toán 3: Giả thuyết / đối thuyết .
Ở đây ta chỉ giải chi tiết bài toán 1. Bài toán 2 và bài toán 3 giải một cách hoàn toàn tƣơng tự.
Ta xây dựng biến ngẫu nhiên từ phép thử: Đặt {
Khi đó, thông tin thu đƣợc là mẫu . Tần suất bắt gặp cá thể mang đặc tính A là:
Nhƣ vậy, tần suất f là một biến ngẫu nhiên.
Tiêu chuẩn kiểm định đƣợc chọn là: √ √
Ngƣời ta chứng minh đƣợc rằng khi giả thuyết đúng và thì ( √ ) do đó, .
Với mức ý nghĩa cho trƣớc, ta tìm số a mãn thỏ (| | ) .
Vì T có phân phối chuẩn tắc nên đƣợc xác định bằng cách tra bảng phân
phối chuẩn tắc tại mức .
Miền bác bỏ giả thuyết là: {| | }
Dựa vào mẫu, ta tính f và tính giá trị của tiêu chuẩn kiểm định U. So sánh | | với .
Kết luận: Nếu | | thì ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Với cách làm tƣơng tự, miền bác bỏ giả thuyết của bài toán 2 và bài toán 3 là:
Ví dụ 1: Một đơn vị cung cấp cây giống khẳng định tỉ lệ cây sống sau khi
trồng trong điều kiện bình thƣờng là 90%. Công ty A mua 500 cây của đơn vị
này trồng và thấy rằng có 430 cây sống. Với mức ý nghĩa 5%, tuyên bố của đơn
vị cung cấp cây giống có đáng tin không? 106
Giải:
Gọi p là tỉ lệ cây sống sau khi trồng. Bài toán đặt ra: { Từ mẫu ta tính đƣợc: Và: √ √
Với mức ý nghĩa 5%, tra bảng phân phối chuẩn tắc ta đƣợc .
Vì | | nên ta bác bỏ giả thuyết, tức là tỉ lệ cây sống không
phải là 90% nhƣ tuyên bố. Ở đây, tần suất bắt gặp cây sống chỉ là 0,86 nên nhiều
khả năng nhà sản xuất đã tuyên bố trội lên chất lƣợng sản phẩm của mình.
5.3.3. Kiểm định cho phương sai
Cho chƣa biết. là một mẫu về X. Với mức
ý nghĩa , hãy kiểm định giả thuyết: Bài toán 1: Giả thuyết / đối thuyết . Bài toán 2: Giả thuyết / đối thuyết . Bài toán 1: Giả thuyết / đối thuyết .
Lời giải toán bài toán 1:
Tiêu chuẩn kiểm định:
Khi đúng ngƣời ta chứng minh đƣợc rằng tiêu chuẩn có phân phối
khi bình phƣơng với n-1 bậc tự do.
Ta sẽ bác bỏ giả thuyết khi tiêu chuẩn nhận giá trị “cách xa” về hai
phía. Với mức ý nghĩa cho trƣớc, ta tìm hai giá trị và thỏa mãn: ( ) ( ) 107
Do tiêu chuẩn có phân phối khi bình phƣơng n - 1 bậc tự do nên và chính là phân vị mức và của phân phối này.
Ta tra đƣợc các giá trị này từ bảng phân phối khi bình phƣơng.
Nhƣ vậy, miền bác bỏ giả thuyết là: { }
Dựa vào mẫu quan sát đƣợc, tính giá trị của .
Kết luận: Nếu giá trị của rơi vào miền thì ta bác bỏ giả thuyết.
Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Bài toán 2 và Bài toán 3 đƣợc giải một cách tƣợng tự bằng việc vẫn dùng
tiêu chuẩn nhƣng miền bác bỏ đƣợc xác định nhƣ sau:
Đối với bài toán 2, tìm số sao cho ( ) .
Miền bác bỏ giả thuyết là:
Đối với Bài toán 3, tìm số sao cho ( ) .
Miền bác bỏ giả thuyết là:
Ví dụ 1: Một kĩ sƣ đo đƣờng kính của 25 chi tiết máy và tính đƣợc
Biết rằng nếu độ biến động về đƣờng kính của chi tiết máy lớn hơn
0,2 thì dây truyền này phải điều chỉnh lại. Với mức 5% dây truyền này có phải điều chỉnh lại không?
Giải: Bài toán: { ) Tiêu chuẩn kiểm định:
Tra bảng phân phối khi bình phƣơng 24 bậc tự do với mức 5%, ta có . 108 Nhƣ vậy,
. Do đó, ta bác bỏ giả thuyết ,
có nghĩa rằng dây truyền này phải đƣợc điều chỉnh lại.
5.4. Bài toán so sánh các tham số
5.4.1. So sánh hai giá trị trung bình
Trong thực tế, ta thƣờng xuyên phải so sánh hai hay nhiều đại lƣợng với
nhau. Trong thống kê, ta cũng có các công cụ giúp giải quyết vấn đề này dựa
trên những bằng chứng thu đƣợc về các đại lƣợng quan tâm.
Bài này sẽ so sánh giá trị trung bình của hai biến ngẫu nhiên dựa trên hai
mẫu độc lập và hai biến đƣợc giả thiết là có phân phối chuẩn hoặc cỡ mẫu lớn.
Cho X và Y là hai biến ngẫu nhiên, và là hai mẫu về X và Y.
Bài toán đặt ra nhƣ sau: Với mức ý nghĩa cho trƣớc, kiểm định giả thuyết sau:
Bài toán 1: Giả thuyết / đối thuyết .
Bài toán 2: Giả thuyết / đối thuyết .
Bài toán 3: Giả thuyết / đối thuyết .
Ta giải ba bài toán trên trong các trƣờng hợp sau:
Trƣờng hợp 1: Các biến đƣợc giả thiết có phân phối chuẩn và phƣơng sai đã biết, tức là và với đã biết. Lời giải bài toán 1:
Tiêu chuẩn kiểm định: √
Nếu giả thuyết đúng thì tiêu chuẩn U có phân phối chuẩn tắc.
Với mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn : (| | )
Vì nên tra bảng phân phối chuẩn tắc tại mức , ta tìm
đƣợc giá trị này. Do vậy, miền bác bỏ giả thuyết của bài toán là: {| | }
Dựa vào mẫu, tính và tiêu chuẩn U: √ 109 So sánh | | với .
Kết luận: Nếu | | ta bác bỏ giả thuyết
. Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Một cách tƣợng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trƣờng hợp 2: Các biến đƣợc giả thiết có phân phối chuẩn và phƣơng sai
chƣa biết, cỡ mẫu nhỏ, tức là và với chƣa
biết và n < 30 hoặc m < 30. a) Mặc dù
chưa biết nhưng ta giả thiết chúng bằng nhau. Ta vẫn xét
ba bài toán kiểm định giả thuyết đã nêu Lời giải bài toán 1:
Ta ƣớc lƣợng phƣơng sai chung: Tiêu chuẩn kiểm định: √
Giả sử, giả thuyết đúng, ngƣời ta chứng minh đƣợc rằng tiêu chuẩn T có
phân phối Student với bậc tự do.
Với mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn: (| | )
Vì tiêu chuẩn T có phân phối chuẩn tắc nên là phân vị mức
của phân phối Student với bậc tự do. Miền bác bỏ giả thuyết của bài toán là: {| | } - Dựa vào mẫu, tính
và giá trị tiêu chuẩn T. 110 - So sánh | | với . - Kết luận: Nếu | |
ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận nó.
Một cách tƣơng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trong đó, đƣợc tra ở bảng phân phối Student với bậc tự do mức .
a. Phương sai của hai biến khác nhau, tức là (đọc thêm)
Ta vẫn xét ba bài toán kiểm định đã nêu.
- Tiêu chuẩn kiểm định: √
Khi giả thuyết đúng, tiêu chuẩn T có phân phối xấp xỉ Student với bậc tự
do đƣợc ƣớc lƣợng là phần nguyên của: ( ) ( ) ( )
Dựa vào phân phối này, ta sẽ đƣa ra đƣợc miền bác bỏ giả thuyết.
Trƣờng hợp 3: Phƣơng sai của biến chƣa biết và mẫu có kích thƣớc lớn
, trong trƣờng hợp này có thể bỏ qua tính chuẩn của biến.
Đối với trƣờng hợp này, ta tìm ƣớc lƣợng không chệch cho phƣơng sai của biến X và
cho phƣơng sai của biến Y. Sau đó, thay bằng và bằng
và giải các bài toàn kiểm định giả thuyết nhƣ trƣờng hợp 1.
Ví dụ 1: Khảo sát chiều cao của 28 cây keo và 29 cây Lát Hoa giống đƣợc
ƣơm trồng với các điều kiện khá giống nhau, ta đƣợc kết quả: Chiều cao trung
bình và phƣơng sai mẫu của các cây keo và cây Lát Hoa lần lƣợt là 0,75 m với
phƣơng sai 0,25 và 0,5 m với phƣơng sai 0,2. Với mức ý nghĩa 5%, có thể nói
rằng chiều cao của cây keo lớn hơn cây Lát Hoa không? Giả thiết, chiều cao cây có phân phối chuẩn. 111 Giải:
Gọi X và Y lần lƣợt là chiều cao của cây Keo và cây Lát Hoa. Theo giả thiết: và với chƣa biết. Ta có: Bài toán đặt ra: { Phƣơng sai chung: Tiêu chuẩn kiểm định: √
Tra bảng phân phối Student 55 bậc tự do mức 5%, ta có
Nhƣ vậy, T = 2,08 > nên ta bác bỏ giả thuyết, nghĩa là chiều cao
của cây keo là lớn hơn.
5.4.2. Bài toán so sánh hai tỉ lệ (xác suất)
Giả sử, ta quan tâm tới tỉ lệ cá thể mang đặc tính A nào đó ở hai tổng thể.
Trong tổng thể 1, tỉ lệ cá thể mang đặc tính A là (chƣa biết). Tỉ lệ này ở tổng
thể 2 là (chƣa biết). Khi điều tra cá thể ở tổng thể 1 thấy rằng có cá thể
mang đặc tính A. Điều tra cá thể ở tổng thể 2 có cá thế mang đặc tính A.
Bài toán đặt ra: Với mức cho trƣớc, hãy kiểm định giả thuyết:
Bài toán 1: Giả thuyết / đối thuyết .
Bài toán 2: Giả thuyết / đối thuyết .
Bài toán 3: Giả thuyết / đối thuyết . Lời giải bài toán 1:
- Ta ƣớc lƣợng tần suất chung (tần suất bắt gặp cá thể mang đặc tính A ở cả
tổng thể 1 và tổng thể 2): Tiêu chuẩn kiểm định: √ ( ) 112
Ta chứng minh đƣợc rằng khi giả thuyết đúng và thì
tiêu chuẩn T có phân phối chuẩn tắc.
Với mức cho trƣớc, miền bác bỏ giả thuyết là: {| | }
Trong đó, đƣợc xác định bằng cách tra ngƣợc bảng chuẩn tắc tại mức ( ).
- Từ mẫu thu đƣợc, tính và tiêu chuẩn U. - So sánh | | với .
- Kết luận: Nếu | | ta bác bỏ giả thuyết. Nếu ngƣợc lại, ta chấp nhận giả thuyết đó.
Với cách làm tƣợng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trong đó, đƣợc xác định bằng cách tra ngƣợc bảng phân phối chuẩn tắc tại mức .
Ví dụ 1: Khi hỏi 150 sinh viên nam và 200 sinh viên nữ về quan điểm đối
với bộ phim A, ngƣời ta thấy rằng có 50 sinh viên nam và 150 sinh viên nữ thích
bộ phim đó. Với mức ý nghĩa 5%, có thể khẳng định có sự khác biệt về tỉ lệ
thích phim A ở hai nhóm nam và nữ đƣợc không? Giải:
Gọi lần lƣợt là tỉ lệ thích phim A ở nhóm sinh viên nam và nữ. Bài toán: { Các tần suất: Tiêu chuẩn kiểm định: √ ( ) √
Tra bảng phân phối chuẩn ở mức 0,025 ta có 113
Vậy | | nên ta bác bỏ , tức là có sự khác biệt rõ ràng về tỉ
lệ thích phim A ở hai nhóm nam và nữ.
5.4.3. Bài toán so sánh hai phương sai Cho hai biến ngẫu nhiên và . Hai mẫu ngẫu
nhiên về X và là mẫu về Y.
Với mức ý nghĩa cho trƣớc, kiểm định giả thuyết sau: Bài toán 1: / . Bài toán 2: / . Bài toán 3: / .
Lời giải bài toán 1:
Từ mẫu tìm ƣớc lƣợng không chệch cho là và . Lập tỉ số:
Khi giả thuyết H0 đúng thì F có phân phối Fisher với bậc tự do.
Miền bác bỏ giả thuyết của bài toán này là: { } ( ) ( )
Bài toán 2 và Bài toán 3 đƣợc giải tƣơng tự với miền bác bỏ giả thuyết lần lƣợt là: { } { }
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu)
Trong thực tế, ta thƣờng nghiên cứu nhiều biến ngẫu nhiên đồng thời. Việc
phát hiện ra các biến có mối quan hệ với nhau hay không là một vấn đề rất quan
trọng. Trong bài này, ta sẽ trình bày cách thức giải quyết vấn đề trên với hai dấu
hiệu (biến ngẫu nhiên) có thể là dấu hiệu định lƣợng hay định tính.
Xét hai dấu hiệu A và B. Dấu hiệu A đƣợc chia thành r mức .
Dấu hiệu B đƣợc chia thành k mức . 114
Dữ liệu điều tra đƣợc từ các cá thể cho ở bảng sau (bảng liên hiệp các dấu hiệu): B A … … … … … … … … …
Trong đó, là số cá thể mang đồng thời đặc tính và .
Bài toán đặt ra là hãy kiểm định sự độc lập của hai dấu hiệu trên với mức ý nghĩa cho trƣớc . Giải:
Đầu tiên, ta lập bảng tính sau đây: B A … Tổng … … … … … … … … … Tổng … n
Trong bảng này, là tổng hàng i. Đây chính là tổng số cá thể mang đặc
tính trong mẫu. là tổng cột i. Đây là tổng số cá thể mang đặc tính
Tổng hàng hoặc cột cuối cùng là cỡ mẫu n.
Nếu A và B là hai dấu hiệu độc lập với nhau thì: ( ) ( )
Ta chƣa biết các xác suất này nhƣng ta sẽ ƣớc lƣợng chúng từ mẫu.
Tần suất xuất hiện là ƣớc lƣợng cho xác suất xuất hiện : .
Tần suất xuất hiện là ƣớc lƣợng cho xác suất xuất hiện : .
Giả sử A và B độc lập thì xác suất bắt gặp một cá thể mang đồng thời đặc tính và đƣợc ƣơc lƣợng là: 115
Và do đó tần số cá thể mang đặc tính tính và là:
Nhƣ vậy, nếu A và B độc lập thì số các thể mang đồng thời đặc tính và
đƣợc ƣớc lƣợng là . Tuy nhiên, thực tế chỉ quan sát đƣợc số cá thể này là
. Một cách hình thức ta sẽ tìm một tiêu chuẩn để so sánh hai tần số này và
dựa trên nó để đƣa ra quyết định. Tiêu chuẩn kiểm định: ( ∑ )
Ngƣời ta chứng minh đƣợc rằng nếu A và B độc lập thì có phân phối
khi bình phƣơng với bậc tự do.
Do đó, ta bác bỏ giả thuyết nếu ( )
Ví dụ 1: Nghiên cứu ảnh hƣởng của thành phần thức ăn của mẹ (X) đối với
giới tính của trẻ (Y) ta có kết quả sau:
X Thiếu vitamin Đủ vitamin Y Trai 111 145 Gái 125 78
Với mức ý nghĩa 5%, có thể nói rằng thành phần thức ăn độc lập với giới tính không. Giải:
Các tính toán trong bảng sau:
X Thiếu vitamin Đủ vitamin Tổng Y Trai 111 (131,6) 145 (124,4) 256 Gái 125 (104,4) 78 (98,7) 203 Tổng 236 223 459 Tiêu chuẩn kiểm định: = 10,7 9 116
Tra bảng phân phối khi bình phƣơng 1 bậc tự do, ta có . Nhƣ vậy,
nên ta bác bỏ giả thuyết, tức là có vẻ nhƣ
chế độ ăn có ảnh hƣởng tới giới tính của trẻ. BÀI TẬP
Bài 1: Một vƣờn ƣơm cây con phi lao có chiều cao trung bình chƣa xác
định. Theo hợp đồng ký kết giữa ngƣời sản xuất cây con và lâm trƣờng: Chỉ khi
nào chiều cao trung bình cây con đạt đƣợc trên 1 m mới đem trồng. Qua điều tra
25 cây thì chiều cao trung bình thu đƣợc là 1,1 m.
Hỏi vƣờn cây con đó đã đem trồng đƣợc chƣa? Biết rằng sự biến động
chiều cao cây con trong giai đoạn vƣờn ƣơm là m và luật phân bố chiều cao có dạng chuẩn.
Bài 2: Đo chiều cao của 38 sinh viên đƣợc chon ngẫu nhiên từ một trƣờng
đại học. Số liệu thu đƣợc cho ở bảng sau: Chiều cao (m)
1,45 1,55 1,57 1,60 1,65 1,70 1,75 Số sinh viên 3 6 5 11 7 4 2
Giả sử, chiều cao của sinh viên là biến ngẫu nhiên có phân phối chuẩn.
a) Cho biết phƣơng sai là , với mức ý nghĩa 5%, có thể nói rằng
chiều cao trung bình của sinh viên lớn hơn 1,60 m đƣợc không?
b) Với mức ý nghĩa 10%, có thể khẳng định chiều cao trung bình của sinh
viên lớn hơn 1,55 m đƣợc không?
Bài 3: Năng suất trung bình của 25 mảnh ruộng trồng lúa A là 6,0 tấn/ha.
Với mức 5%, có thể khẳng định đƣợc năng suất trung bình của loại lúa A này là
6,5 tấn/ha đƣợc không? Giả sử năng suất lúa có phân phối chuẩn.
Bài 4: Một mẫu có kích thƣớc n = 25 đƣợc rút ra từ một tổng thể có phân
phối chuẩn với phƣơng sai là 64. Với mức ý nghĩa 5% hãy kiểm định giả thiết
trung bình tổng thể là 52. Biết rằng trung bình mẫu tìm đƣợc là 55,4.
Bài 5: Một công ty khẳng định rằng tỉ lệ sản phẩm đạt tiêu chuẩn là 98%.
Tuy nhiên, khi kiểm tra 250 sản phẩm của công ty này thì thấy rằng có 33 sản
phẩm không đạt tiêu chuẩn. Với mức ý nghĩa 5%, tuyên bố của công ty trên có đáng tin không? 117
Bài 6: Tiến hành 100 phép thử một cách độc lập và thấy rằng có 14 lần
xuất hiện biến cố A. Gọi p là xác suất xuất hiện biến cố A. Hãy giải các bài toán
kiểm định giả thiết sau với mức ý nghĩa 5%. H : p 0,2 a) 0 H p 1 : 0, 2 H : p 0,2 b) 0 H p 1 : 0, 2
Bài 7: Một kho hạt giống có tỷ lệ nảy mầm xác định là p = 0,9. Ngẫu nhiên
thiết bị bị hỏng làm thay đổi điều kiện bên trong của kho. Tỷ lệ nảy mầm của hạt
giống còn giữ nguyên không? Biết rằng khi kiểm tra 200 hạt giống thì có 140
hạt nảy mầm, với 10% .
Bài 8: Trong một đàn gia súc kiểm tra 805 con có 80 con mắc bệnh A.
Trong một đàn khác kiểm tra 2756 con có 357 con mắc bệnh A. Có thể coi tỷ lệ
mắc bệnh ở cả hai đàn là nhƣ nhau không? Với mức ý nghĩa 5% .
Bài 9: Một lâm trƣờng thí nghiệm nghiên cứu sinh trƣởng về chiều cao của
lim trồng dƣới tán và trồng thuần loài kết quả nhƣ sau:
Quan sát 100 cây lim trồng dƣới tán có chiều cao bình quân là 4,73 m và sai tiêu chuẩn là 0,786 m
Quan sát 100 cây lim trồng thuần loài có chiều cao bình quân là 4,43 m và
sai tiêu chuẩn là 0,866 m.
Hỏi lim trồng theo 2 phƣơng pháp trên có khác nhau cơ bản về sinh trƣởng
chiều cao hay không? Với mức ý nghĩa 5% .
Bài 10: Trong một khu rừng ngƣời ta dự định phân thành hai khối. Giả sử
rằng phân bố trữ lƣợng gỗ trên các ô có tính ngẫu nhiên và luật phân bố của nó
có dạng chuẩn. Ở khối thứ nhất ngƣời ta điều tra 36 ô, trữ lƣợng gỗ bình quân là
12,04 m3, sai tiêu chuẩn là 7,7 m3. Ở khối thứ hai quan sát 36 ô, trữ lƣợng gỗ
bình quân là 17 m3, sai tiêu chuẩn là 7,36 m3. Hãy so sánh trữ lƣợng gỗ trung
bình trên 2 khối có bằng nhau hay không? Với mức ý nghĩa 5%
Bài 11: Kiểm tra hàm lƣợng nicotin trong hai loại thuốc lá A và B ở một
bao thuốc, kết quả nhƣ sau: loại A: 24; 21; 26; 27 ;20; 22; 28 và loại B: 22; 25;
21; 21; 20. (Đơn vị miligam). Với mức ý nghĩa 5%, có thể khẳng định hàm
lƣợng nicotin trong hai loại thuốc trên là nhƣ nhau hay không? Giả sử, hàm
lƣợng nicotin có phân phối chuẩn. 118
Bài 12: Lấy hai mẫu độc lập từ hai tổng thể X và Y có phân phối chuẩn ta đƣợc:
a) Với mức 5%, hãy kiểm định sự bằng nhau giữa phƣơng sai của biến X và Y.
b) Với mức 10%, có thể khẳng định giá trị trung bình của biến X và Y là bằng nhau đƣợc không?
Bài 13: Để đánh giá một phƣơng pháp điều trị mới, ngƣời ta điều trị 46
ngƣời theo phƣơng pháp mới thấy khỏi 38 ngƣời, điều trị 47 ngƣời theo phƣơng
pháp cũ thấy khỏi 33 ngƣời. Có thể coi phƣơng pháp mới đã có tác dụng rõ rệt
không? 5% .
Bài 14: Cho 2 mẫu độc lập: Mẫu 1: xi 3,4 3,5 3,7 3,9 ni 2 3 4 1 Mẫu 2: yi 3,2 3,4 3,6 ni 2 2 8
Với mức ý nghĩa 5%, kiểm định giả thiết H0: E(X) = E(Y) và đối thiết H1: EX EY .
Bài 15: Hai phƣơng pháp phân tích hàm lƣợng mùn trong đất cho kết quả sau:
Phƣơng pháp 1: 27,5 27 27,3 27,6 27,8
Phƣơng pháp 2: 27,9 27,2 26,5 26,3 27 27,4 27,3 26,8
Hai phƣơng pháp đó có cùng độ chính xác không? Với 1%
Bài 16: Hai máy cùng gia công một loại chi tiết. Ngƣời ta muốn kiểm tra
xem 2 máy này có độ chính xác nhƣ nhau hay không? Để làm điểu đó ngƣời ta
lấy ngẫu nhiên từ mỗi máy 7 chi tiết đem đo và thu đƣợc kết quả sau:
Máy A: 135 138 136 140 138 135 139
Máy B: 140 135 140 138 135 138 140
Với mức ý nghĩa 5% có thể cho rằng hai máy có độ chính xác nhƣ nhau
hay không? Biết kích thƣớc chi tiết có phân phối chuẩn. 119
Bài 17: Số liệu điều tra về ảnh hƣởng của hoàn cảnh kinh tế gia đình đối
với chỉ số thông minh của trẻ đƣợc cho ở bảng sau. Chỉ số thông minh đƣợc chia thành 3 mức: Giàu 57 123 138 Nghèo 65 98 76
Với mức 5%, có thể khẳng định hoàn cảnh kinh tế của gia đình trẻ có ảnh
hƣởng tới chỉ số thông minh của trẻ em hay không?
Bài 18: Quan sát một mẫu 3200 ngƣời về màu mắt và màu tóc ta đƣợc kết quả sau: Vàng Nâu Đen Hung Xanh lam 872 380 90 22 Xanh nâu 500 815 488 33
Có thể coi màu mắt và màu tóc là các đặc tính độc lập hay không? Lấy 5%. 120 Chƣơng 6
SƠ LƢỢC VỀ LÝ THUYẾT TƢƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH
6.1. Phân tích tƣơng quan tuyến tính
Khi xét hai biến ngẫu nhiên X và Y, ta cần biết chúng có quan hệ với nhau
hay độc lập với nhau. Nếu chúng có quan hệ với nhau thì cần xác định mức độ
của mối quan hệ đó (mạnh hay yếu). Đại lƣợng cho biết mức độ quan hệ giữa
hai biến ngẫu nhiên X và Y đƣợc gọi là hệ số tƣơng quan của hai biến X và Y.
6.1.1. Định nghĩa
Hệ số tƣơng quan của hai đại lƣợng ngẫu nhiên X và Y, ký hiệu (X ,Y)
đƣợc xác định bởi công thức: E
X E(X)Y E(Y) (X ,Y )
D(X )D(Y )
6.1.2. Tính chất a) 1
(X,Y) 1.
b) Nếu (X ,Y ) 1 thì X và Y phụ thuộc tuyến tính, tức là có hai số a và b
để Y = aX + b hoặc hai số c và d để X = cY + d.
Ngƣời ta quy ƣớc rằng:
- Nếu 0,7 1: Ta nói các biến X và Y có tƣơng quan tuyến tính mạnh;
- Nếu 0,3 0,7 : Ta nói các biến X và Y có tƣơng quan trung bình;
- Nếu 0,3 thì sự tƣơng quan giữa chúng là yếu.
6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên
Nếu X và Y độc lập thì (X ,Y) = 0. Ngƣợc lại chƣa chắc đúng.
6.1.4. Hệ số tương quan mẫu
Ngƣời ta quan sát các biến ngẫu nhiên X và Y thu đƣợc kết quả thực nghiệm nhƣ sau: x x …. 1 x2 xn y y … 1 y2 yn 121
Khi đó, ta tính đƣợc hệ số tƣơng quan mẫu r bởi công thức: n
ix x iy y i 1 r , n
x x2 n i
yi y2 i 1 i 1 n n ix iy Trong đó: i1 i1 x ; y n n
Hoặc r cũng đƣợc xác định bằng công thức: n n
xi yi n i 1 i 1 ix iy i1 n r 2 2 n n n n 2 1 2 1
xi xi
yi yi i 1 n i 1 i 1 n i 1 Đặt: n n x i y i n i 1 i 1 X
Q Y ix iy i 1 n 2 n n 2 1
QX ix i x i 1 n i 1 2 n n 2 1 Y Q iy i y i 1 n i 1
Thay vào công thức trên ta đƣợc QXY r . Q X Y Q
Ví dụ 1: Tính hệ số tƣơng quan mẫu của 2 biến X và Y với mẫu đƣợc cho trong bảng sau: x 9,9 10,2 11.0 11,6 11,8 12,5 12,8 13,5 14,3 14,4 y 10,7 10,8 12,1 12,5 12,2 12,8 12,4 11,8 11,8 12,6 122 Giải:
Ta lập bảng tính: TT x 2 y y 2 x xy 1 9,9 10,7 98,01 114,49 105,93 2 10,2 10,8 104,04 116,64 110,16 3 11 12,1 121 146,41 133,1 4 11,6 12,5 134,56 156,25 145 5 11,8 12,2 139,24 148,84 143,96 6 12,5 12,8 156,25 163,84 160 7 12,8 12,4 163,84 153,76 158,72 8 13,5 11,8 182,25 139,24 159,3 9 14,3 11,8 204,49 139,24 168,74 10 14,4 12,6 207,36 158,76 181,44 Tổng 122 119,7 1511,04 1437,47 1466,35 Từ đó ta có: n 10 n n n n n x 122 i ; y 119,7 i ; 2 x 1511,04 i ; 2 y 1437,47 i ; x y 1466,35 i i i1 i1 i1 i1 i1 n n x i y i n i 1 i 1 122.119, 7 Q x y 1466,35 6,01 XY i i i 1 n 10 2 n n 2 1 1 2 Q x x 1511,04 .122 22,64 X i i i1 n i1 10 2 n n 2 1 1 2 Q y y 1437,47 .119,7 4,66 Y i i i 1 n i 1 10 Hệ số tƣơng quan mẫu: Q 6,01 XY r 0,59. Q Q 22,64 4,66 X Y
6.2. Phân tích hồi quy tuyến tính 6.2.1. Mô hình
Phân tích hồi quy là phƣơng pháp dùng để dự đoán, ƣớc lƣợng giá trị của
một biến (đƣợc gọi là biến phụ thuộc, biến đƣợc giải thích) theo giá trị của một
hay nhiều biến khác (đƣợc gọi là biến độc lập, biến giải thích). Ta đi xét trƣờng
hợp có một biến giải thích. Giả sử Y là một đại lƣợng ngẫu nhiên phụ thuộc vào
biến X theo phƣơng trình: 123
Y X 0 1 (1)
Y đƣợc gọi là biến phụ thuộc, biến đƣợc giải thích hay biến đáp ứng (response).
X đƣợc gọi là biến độc lập, hay biến giải thích.
là sai số hay phần dƣ của mô hình, là đại lƣợng đặc trƣng cho những ảnh
hƣởng ngẫu nhiên đối với Y . Giả sử có phân phối chuẩn với giá trị trung bình bằng 0 và phƣơng sai 2
D( ) . Các tham số (chƣa biết) của mô hình hồi quy
tuyến tính bao gồm 0, 1 và 2 .
Phƣơng trình đƣờng thẳng y 0
1x gọi là phương trình hồi quy tuyến
tính lý thuyết. Hệ số
1 đƣợc gọi là độ dốc (slope), hệ số 0 đƣợc gọi là hằng số hồi quy. Giả sử (x y x y x y 1, 1),( 2, 2),...,( , ) n
n là các giá trị quan sát của các biến X , Y ,
hay còn gọi là dữ liệu. Khi đó mô hình đƣợc viết lại nhƣ sau:
y (2) 0 1x , i 1, 2,..., i i i n Trong đó:
- Các giá trị xi đã biết và không ngẫu nhiên; - Các tham số
0, 1 của mô hình là chƣa biết;
- i là các biến ngẫu nhiên độc lập, cùng phân phối chuẩn 2 N(0, ) ;
- yi là các quan sát của một biến ngẫu nhiên Y.
Các giả thiết trên đƣợc gọi là các giả thiết của mô hình hồi quy.
Bài toán đặt ra là hãy ƣớc lƣợng các tham số của 0, 1 và 2 của mô hình
hồi quy dựa trên mẫu quan sát (x y x y
x y . Trƣớc hết, ta đi ƣớc 1, 1),( 2, 2),...,( , ) n n lƣợng
0 và 1 từ dữ liệu bằng phƣơng pháp bình phƣơng cực tiểu.
6.2.2. Ước lượng bình phương cực tiểu
Từ các phƣơng trình (2), ta tìm
0 và 1 sao cho tổng bình phƣơng sai số: n n 2 (
l y x 0, 1) i ( i 0 1 )
i 2 đạt giá trị nhỏ nhất. i 1 i 1 Ta có hệ phƣơng trình: l ( 0, 1) 0 0 n x y 0 1 (1) i i 2 l( 0, 1) 0 xi 1 x x y (2) 0 i i i 1 124
y 1 x (1) i i 0 n
y x Thế vào (2) : i 1 i 2 ix 1 i x i x i y n ix iy xiyi n 1 xi2 2 ix n xi yi ix iy Vậy X Q n Y b
, và a y bx là các giá trị ƣớc lƣợng của 2 Q x 2 X i xi n 1 và 0 .
Khi đó, đƣờng thẳng có phƣơng trình y a bx đƣợc gọi là đường thẳng hồi quy.
Phƣơng trình y a bx đƣợc gọi là phương trình hồi quy tuyến tính thực
nghiệm của Y đối với X . Nó đƣợc dùng để dự báo giá trị trung bình của Y khi
biết giá trị của X . Khi X x thì ˆy a bx gọi là giá trị dự báo bởi đƣờng hồi
quy tuyến tính thực nghiệm .
Từ dữ liệu ban đầu ( 1x, 1 y ),( 2 x , 2
y ),...,( x , y ) n
n ta có các giá trị dự báo theo
phƣơng trình hồi quy ˆiy a b ix,i 1, 2,..., n , và các sai số (phần dƣ) tƣơng
ứng là ˆ y ˆ i i i
y . Sai số ˆi là sự sai khác giữa giá trị quan sát yi và giá trị dự
báo ˆiy dựa theo đƣờng thẳng hồi quy.
Một số tính chất của đƣờng thẳng hồi quy:
- Nếu x tăng lên m đơn vị thì: y a ( b x ) m
m = a + bx + mb = y + mb
+ Nếu b > 0 thì ta nói y tăng lên mb đơn vị.
+ Nếu b < 0 thì ta nói y giảm đi m|b| đơn vị.
- Đƣờng thẳng hồi quy đi qua điểm (x, y) : y a bx .
- Giá trị trung bình của các giá trị dự báo theo đƣờng thẳng hồi quy ˆiy bằng
giá trị trung bình của các quan sát yi : ˆiy iy . 1 n
- Giá trị trung bình của các sai số ˆ
i bằng 0: ˆ (y ˆy ) 0 i i . n i1 125 n n
- Tổng bình phƣơng sai số: 2 ˆ
i y ˆ i i y 2 . i1 i1
Ví dụ 2: Để đánh giá trữ lƣợng gỗ của cây trong một khu rừng, ngƣời ta đo
thiết diện ngang, X ( )
m , của cây ở độ cao 1,3 m và thể tích, 3
Y (m ) , của 8 cây
thu đƣợc số liệu nhƣ sau: x
0,005 0,011 0,020 0,031 0,045 0,061 0,08 0,101 y
0,020 0,054 0,128 0,320 0,530 0,750 1,100 1,450
a) Tính hệ số tƣơng quan mẫu r.
b) Hãy lập phƣơng trình đƣờng hồi quy tuyến tính thực nghiệm của thể tích
đối với thiết diện của cây. Giải:
a) Các tính toán đƣợc thể hiện trong bảng: TT x y 2 x 2 y xy 1 0,005 0,02 0,000025 0,0004 0,0001 2 0,011 0,054 0,000121 0,00292 0,00059 3 0,02 0,128 0,0004 0,01638 0,00256 4 0,031 0,32 0,000961 0,1024 0,00992 5 0,045 0,53 0,002025 0,2809 0,02385 6 0,061 0,75 0,003721 0,5625 0,04575 7 0,08 1,1 0,0064 1,21 0,088 8 0,101 1,45 0,010201 2,1025 0,14645 Tổng 0,354 4,352 0,023854 4,278 0,31722 Ta có: n = 8
ix =0,354, iy = 4,352, 2 i x = 0,02385, 2 i y = 4,278, xiyi = 0,31722, 1
Qxy = 0,317 - .0,354. 4,352 = 0,12465, 8 Qx = 0,00819, 126 Qy = 1,9105
Vậy hệ số tƣơng quan mẫu: Q 0,12465 r = xy 0,9965 x Q y ×Q 0,00819 1,9105
b) Viết phƣơng trình đƣờng hồi quy tuyến tính của Y theo X y = a + bx với Q b = xy = 15,22 Qx
a = y b x = - 0,129
Vậy phƣơng trình hồi quy tuyến tính thực nghiệm của Y theo X :
y = - 0,129 + 15,22x BÀI TẬP
Bài 1: Theo dõi mức độ đầu tƣ X (trệu đồng) và lợi nhuận Y (triệu đồng)
của 10 xí nghiệp khác nhau trong cùng một ngành ngƣời ta thu đƣợc bảng số liệu sau đây: x 1 1 2 3 3 5 6 7 8 y 2,3 2,5 2,6 3 3,1 3,5 3,7 4,5 5
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 2: Theo dõi mức thu nhập X (triệu đồng/năm) và giá trị của chiếc
điện thoại di động Y (triệu đồng) của nhân viên công ty A ta thu đƣợc bảng số liệu sau: x 15 18 22 23 28 30 33 33 y 1 0,7 2,6 0,6 3 7,8 3,8 4,8
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 3: Tìm hiểu mức tiêu dùng bia trong một tháng Y (lít) và thu nhập X
(triệu đồng/tháng) của 8 ngƣời ta thu đƣợc bảng số liệu sau đây: 127 x 1,6 2 3,5 3 5 6,5 7 8 y 2,5 2,6 3 3,2 3,5 4 4 4,5
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 4: Thí nghiệm về loại loại phân bón X (tạ/ha) và năng suất lúa Y
(tạ/ha) ta thu đƣợc kết quả sau: x 2,5 2,6 2,7 2,8 2,9 3 3,1 3,2 y 45 47 47 48 52 54 55 54
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X. 128 Chƣơng 7
PHÂN TÍCH PHƢƠNG SAI
Phƣơng pháp hồi quy tƣơng quan chủ yếu nghiên cứu mối liên hệ tƣơng
quan giữa các biến định lƣợng hoặc đã lƣợng hóa. Phƣơng pháp phân tích
phƣơng sai (hay còn viết tắt là ANOVA) mà chúng ta sẽ trình bày trong chƣơng
này cho phép nghiên cứu mối liên hệ giữa tiêu chí nguyên nhân định tính với
tiêu chí kết quả định lượng.
Mục đích bài toán:
Xem xét 1 hoặc 2 nguyên nhân (mặt định tính) có ảnh hƣởng hay không
ảnh hƣởng đến kết quả (mặt định lƣợng).
Nếu ta chỉ xem xét 1 nguyên nhân tác động tới một kết quả, trƣờng hợp
này dẫn đến bài toán phân tích phƣơng sai 01 nhân tố.
Nếu xét 2 nguyên nhân tác động tới cùng một kết quả, trƣờng hợp này dẫn
đến bài toán phân tích phƣơng sai 02 nhân tố.
Phương pháp nghiên cứu:
Chia tổng thể nghiên cứu thành k nhóm theo nguyên nhân;
Đặt giả thuyết H l
0 à giá trị trung bình của k nhóm bằng nhau;
H 0 : 1 2 ... k
Xét bài toán kiểm định giả thuyết H0 với đối thuyết H1 là tồn tại ít nhất
một cặp giá trị trung bình khác nhau (mức ý nghĩa cho trƣớc).
Điều kiện bác bỏ H :
F F k 1,n k 0 Giá trị kiểm định . Trong đó
F k 1,n k
đƣợc tra từ bảng phân phối Fisher.
Kết quả bài toán dẫn đến 2 trƣờng hợp:
Bác bỏ H0: Tức là i ,j : . i j
Khi đó, kết luận là tiêu chí nguyên nhân có ảnh hƣởng đến kết quả (vì giá
trị trung bình của các nhóm xét trên cùng một nguyên nhân có sự khác nhau). Có
thể tiến hành tiếp tục Phân tích sâu ANOVA nhằm xác định các nhóm có trung bình khác nhau. 129 Chấp nhận H 0: Tức là H 0 : 1 2 ... . k
Trong trƣờng hợp này tiêu chí nguyên nhân không ảnh hƣởng đến kết quả
(Vì giá trị trung bình của các nhóm xét trên cùng một nguyên nhân không có sự khác nhau). Tư duy phương pháp:
Phƣơng pháp đƣa ra các tính toán dựa trên nhận xét sau: Có hai loại chênh
lệch khác nhau trong bài toán phân tích phƣơng sai. Thứ nhất là sự chênh lệch
về kết quả giữa các nhóm, phần này do ảnh hƣởng của tiêu chí nguyên nhân
nghiên cứu. Thứ hai là chênh lệch trong nội bộ các nhóm, phần này do các nguyên nhân khác gây ra.
Từ đó, phƣơng pháp phân tích phƣơng sai sẽ thực hiện theo ý tƣởng:
- Sử dụng phƣơng sai để đo sự chênh lệch (phƣơng sai) giữa các nhóm với
nhau, và đo sự chênh lệch trong chính nội bộ các nhóm theo tiêu chí nghiên cứu;
- Giá trị kiểm định F là tỷ lệ của phƣơng sai giữa các nhóm và phƣơng sai
trong nội bộ các nhóm. Nhƣ vậy, F càng lớn thì ảnh hƣởng của tiêu chí nguyên
nhân càng lớn, các trị số trung bình càng khác nhau.
7.1. Phân tích phƣơng sai một nhân tố (One -Way Analysis of Variance)
7.1.1. Trường hợp các nhóm có phân phối chuẩn và phương sai bằng nhau
Giả sử nhân tố mà chúng ta đang xét đƣợc chia thành k mức X1, X2,…, Xk và
các biến Xj(j = 1, 2,…, k) đều có phân phối chuẩn với phƣơng sai bằng nhau.
Số liệu của bài toán trong trƣờng hợp tổng quát cho trong bảng sau: X1 X2 … Xk x11 x12 … x1k x21 x22 … x2k … … … … n x x 1 … … 1 n k k x 2 2 n
Chú ý: Số hàng ứng với từng cột ở bảng trên có thể khác nhau. Ta lần lƣợt kí hiệu:
- Số hàng từ cột 1 đến cột k lần lƣợt là n1, n2,…, nk.; 130
- Tổng các giá trị mẫu theo từng cột từ cột 1 đến cột k là T1, T2,…, Tk.
Yêu cầu đặt ra là xét xem có sự khác nhau về trung bình số liệu theo từng
nhóm hay không với mức ý nghĩa cho trƣớc.
Xét bài toán kiểm định giả thuyết: H 0 : 1 2 ... . k Kí hiệu:
1) Tổng bình phƣơng chung (biến động chung): bậc tự do n-1. k ni
x x 2 2 2 T Q ij i x j i 1 j 1 i , j n
2) Tổng bình phƣơng do nhân tố (biến động do nhân tố): bậc tự do k-1. k T T T T
Q in ix 2 2 2 2 2 1 2 k x 1 ... i 1 n n n n 1 2 k
3) Tổng bình phƣơng do sai số (biến động do sai số): bậc tự do n-k. 2 2 2 2 T T T 1 2
Q x 2 ij ... k i , j 1 n n2 nk
Q Q Q Q Q Q 1 2 2 1
Tính phƣơng sai bằng cách lấy biến động chia cho bậc tự do tƣơng ứng. Khi đó ta có: Q
o Phƣơng sai do nhân tố: 2 1 1 S . k 1 Q o Phƣơng sai do sai số: 2 2 S 2 . n k o Test thống kê: 2 S1 F 2 S2 Kết luận: - Nếu F
thì bác bỏ H0, tức là trung bình theo các nhóm (
F ) k 1,n k
có sự khác nhau hay yếu tố nguyên nhân có ảnh hƣởng đến kết quả. - Nếu F
thì chấp nhận H0, tức là trung bình theo các (
F ) k 1,n k
nhóm không có sự khác nhau hay yếu tố nguyên nhân không ảnh hƣởng đến kết quả. 131
Ta có bảng ANOVA tóm tắt các kết quả tính toán nhƣ sau: Nguồn
Biến động Bậc tự do Phương sai Tỷ số F
Tỷ số tra bảng Nhân tố Q1 k-1 2 S 1 2 S1 F ( F ) k 1, n k 2 S Sai số Q S 2 2 n-k 2 2 Tổng Q n-1
Ví dụ 1: Trƣờng phổ thông cơ sở A mời 3 giáo viên bồi dƣỡng cho 100 học
sinh dự thi học sinh giỏi tin học. Sau một thời gian ôn tập, chọn mẫu 12 học sinh
trong 100 học sinh trên thi thử với kết quả theo bảng sau (thang điểm 100). Với
mức ý nghĩa 5% hãy kiểm định xem điểm thi của học sinh theo học 3 giáo viên
trên có khác nhau không? Số liệu về điểm thi của học sinh đƣợc cho trong bảng dƣới đây.
Giả thiết điểm thi của học sinh tuân theo luật phân phối chuẩn.
Điểm của học sinh (x ) ij GV A GV B GV C 79 71 83 86 77 69 93 81 71 83 77 Giải:
Trong bài toán này yếu tố nguyên nhân là giáo viên (định tính) và kết quả
là điểm thi của học sinh (định lƣợng) theo các giáo viên đó. Nhƣ vậy, theo đề
bài ta thấy số nhóm theo nguyên nhân là k =3 (Vì quan sát 3 giáo viên A, B, C).
Gọi lần lƣợt là điểm trung bình của học sinh theo 3 giáo viên. 1, 2, 3
Xét bài toán kiểm định giả thuyết: H 0 : 1 2 3.
H1: Có ít nhất một cặp i
và j khác nhau. 132
Để thuận tiện trong tính toán, ta lập bảng tính nhƣ sau:
Điểm của học sinh (x ) Chung ij GV A GV B GV C các nhóm 79 71 83 86 77 69 93 81 71 83 77
Số mẫu quan sát (ni) n1 = 3 n2 = 4 n3 = 4 n = 11 ni
Tổng theo cột: Ti xij 258 312 300 T = 870 j 1 Trung bình mẫu T : i 870 i x x 1 x 86 2 x 78 3 x 75 79,091 i n 12
Áp dụng các công thức ở trên vào ví dụ ta tính đƣợc: 2 870 C 68809,091 11 2 2 2 2 2 2
Q 79 71 83 86 ... 83 77 76800 69513 68809,091 703,909 2 2 2 2 2 2 T T T 1 2 k 258 312 300 1 Q ... C
C 69024 68809,091 214,909 1 n 2 n k n 3 4 4
Q2 = 703,909 – 214,909 = 489 2 1 Q 214,909 S 1 107,4545 k 1 3 1 2 2 Q 489 S 2 61,125 n k 11 3 2 S1 107,4545 F 1,758 2 S 61,125 2
Tra bảng phân phối F(2,8)(0,05) = 4,459. 133 Ta có bảng ANOVA nhƣ sau:
Nguồn Biến động Bậc tự do Phương sai Tỷ số F ( F ) k 1,n k Q1 k-1 2 S 2 S Nhân tố 1 1 F 214,909 2 2 107,4545 S2 (
F ) k 1,n k Q n-k 2 1,758 2 S = 4,459 Sai số 2 489 8 61,125 Q n-1 Tổng 703,909 10
Vậy F < F(0,05) (2; 8), nên chấp nhận giả thuyết H0, nghĩa là với độ tin cậy
95% thì điểm thi theo 3 giáo viên nhƣ nhau. Hay yếu tố giáo viên không ảnh
hƣởng tới kết quả điểm thi của học sinh.
7.1.2. Trường hợp các nhóm có phân phối bất kỳ (Đọc thêm)
Trong trƣờng hợp này ta phải sử dụng phƣơng pháp kiểm định phi tham số.
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n1, n2, ..., nk quan
sát từ k tổng thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL -
WALLIS bằng cách xếp hạng các quan sát mẫu. Mặc dù số quan sát của các
mẫu là khác nhau nhƣng khi xếp hạng thì đƣợc sắp xếp một cách liên tục từ nhỏ
đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng cách dùng
số trung bình cộng các hạng của chúng để chia đều.
Ðặt n = n1 + n2 + ... + nk là tổng các quan sát thuộc các mẫu, và R1, R2,...,
Rk là tổng của các hạng đƣợc xếp theo thứ tự của k
mẫu. Kiểm định giả thuyết ở
mức ý nghĩa cho trƣờng hợp này là:
H0: Trung bình của k tổng thể đều bằng nhau.
Ở đây ta sử dụng biến W thay cho tỉ số F trong phần tính toán giá trị kiểm định.
Tra bảng phân phối khi bình phƣơng để so sánh, và giả thuyết H0 bị bác bỏ khi: 2 W 1 ( ) k 134
Ví dụ 2: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình
trên tháng (đơn vị 1000 đồng) của một sản phẩm điện tử ở 3 cửa hàng khác nhau
A, B, C. Số liệu của chỉ tiêu trên đƣợc thu nhập trong 7 tháng cho cửa hàng A, 7
tháng cho cửa hàng B và 6 tháng cho cửa hàng C nhƣ trong bảng sau: Cửa hàng A B C 22,2 24,6 22,7 19,9 23,1 21,9 20,3 22,0 23,3 21,4 23,5 24,1 21,2 23,6 22,1 21,0 22,1 23,4 20,3 23,5 Tổng: 146,3 162,4 137,5
Giả thuyết chi phí bán hàng có phân phối tùy ý. Hãy kiểm định xem chi phí
bán hàng theo các cửa hàng có khác nhau hay không với mức ý nghĩa 0,5%. Giải:
Trong ví dụ này, ta lập bảng xếp hạng cho 3 cửa hàng nhƣ trong bảng sau:
Bảng dữ liệu: Xếp hạng liên tục các dữ liệu ở ba cửa hàng (Đơn vị 1000 đồng).
Trong cách xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng là 19,9 (ngàn
đồng) đƣợc xếp hạng 1, tƣơng tự hạng đƣợc xếp cho đến chi phí lớn nhất là 24,6
(ngàn đồng) đƣợc xếp hạng 20. Những chi phí trùng nhau sẽ có hạng bằng nhau,
chẳng hạn nhƣ có hai chi phí là 20,3 (ngàn đồng) trong cửa hàng A, hạng thứ tự của
chúng là 2 và 3. Vì vậy, hai giá trị 20,3 có hạng bằng nhau và bằng (2+3)/2 = 2,5. 135
Từ bảng tính, ta có giá trị kiểm định: = 11,10.
Ở đây chúng ta có bậc tự do (k -1) = 2 và nếu kiểm định ở mức ý nghĩa
0,5% khi tra bảng phân phối khi bình phƣơng ta tìm đƣợc: 2 2 2 ( ) 2 (0,005) 10,6
Bởi vì W = 11,10 >10,6 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,5% nghĩa
là chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng không bằng nhau.
7.2. Phân tích phương sai hai nhân tố (Đọc thêm) (Two -Way Analysis of Variance)
Phân tích phƣơng sai hai nhân tố là xét đến hai yếu tố (hai nguyên nhân)
ảnh hƣởng đến hiện tƣợng nghiên cứu. Ví dụ: Trong phân tích phƣơng sai một
chiều ở trên cho ta biết kết quả học tập trung bình của học sinh do 3 giáo viên
dạy là khác nhau mà chƣa nghiên cứu đến hoàn cảnh gia đình của từng học sinh.
Phân tích phƣơng sai hai nhân tố sẽ có ý nghĩa trong trƣờng hợp này.
7.2.1. Trường hợp các nhân tố không tương tác
Ta xét bài toán tổng quát: Phân tích đánh giá sự ảnh hƣởng của 2 nhân tố
(yếu tố) A và B trên các giá trị quan sát xij.
Giả thiết: Nhân tố A có n mức a1, a2,…, an (Nhân tố hàng)
Nhân tố B có m mức b1, b2,…, bm (Nhân tố cột)
Cho bảng quan sát mẫu nhƣ sau: B b1 b2 … bm A a1 x11 x12 … x1m a2 x21 x22 … x2m … an xn1 xn2 … xnm Giả thuyết H0:
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau;
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng. 136 Các bƣớc tính toán: B n n b … b
T x 2 x A 1 b2 m i* ij ij j1 j 1 n a 2 x 1 x11 x12 … x1m T1* 1j j 1 n a 2 x 2 x21 x22 … x2m T2* 2j j1 … n a 2 x n xn1 xn2 … xnm Tn* nj j1 m T x T x * j ij T*1 T*2 … T*m ij i1 i, j m m m m 2 x x x 2 x 2 x ij 2 i1 2 i2 … im ij i 1 i1 i 1 i 1 i, j Lập bảng ANOVA:
Tổng bình phương
Trung bình bình Nguồn Bậc tự do F (SS) phương 2 T SSA MSA Yếu tố A i * 2 i T SSA n -1 MSA A F m m .n n 1 MSE 2 * T j SSB MSB Yếu tố B 2 j T SSB m -1 MSB F B n m 1 MSE . m n SSE = SST – SSA SSE Sai số (n-1)(m-1) MSE – SS B (n1)(m1) 2 T Tổng 2
SST x ij n.m -1 ,i j . m n Kết luận:
Nếu F F (n 1 ),(n 1 )(m 1 ) (1 ) A
thì bác bỏ giả thuyết H0 cho rằng trung bình
của tổng thể theo chỉ tiêu hàng thì bằng nhau. Nếu
thì bác bỏ giả thuyết H cho rằng trung bình (m 1),(n 1)(m 1) (1 ) B F F 0
của tổng thể theo chỉ tiêu cột thì bằng nhau. 137
Ví dụ 1: Chiết suất chất X từ một loại dƣợc liệu bằng 3 phƣơng pháp và 5
loại dung môi, ta có kết quả:
PP chiết suất(B) b Dung môi(A) 1 b2 b3 a1 120 60 60 a2 120 70 50 a3 130 60 50 a4 150 70 60 a5 110 75 54
Xét ảnh hƣởng của phƣơng pháp chiết suất và dung môi đến kết quả chiết
suất chất X với mức ý nghĩa 0,01. Giải:
Đặt giả thuyết H0:
- Chiết suất trung bình của 3 phƣơng pháp là nhƣ nhau;
- Chiết suất trung bình từ 5 loại dung môi là nhƣ nhau;
- Nhân tố phƣơng pháp và dung môi không có sự tƣơng tác với nhau. Lập bảng tính:
PP chiết suất(B) b 2 x Dung môi(A) 1 b2 b3 Ti* ij i, j a1 120 60 60 240 a2 120 70 50 240 a3 130 60 50 240 a 150 70 60 280 4 a5 110 75 54 239 T*j 630 335 274 T = 1239 2 x 2 ij 80300 22625 15116 i x j 118041 i, j i, j Tính: 2 2 2 T 1239
SST x ij 118041 155699, 6 i , j . m n 5.3 2 Ti* 2 2 T 308321 1239 i SSA 432,2667 m . m n 3 5.3 138 2 T*j 2 2 j T 584201 1239 SSB 14498,8 n m.n 5 5.3
SSE = SST - SSA- SSB = 768,5333 Lập bảng ANOVA: Tổng bình phƣơng Trung bình bình Nguồn Bậc tự do F (SS) phƣơng Yếu tố SSA 432,2667 4 MSA 108,0667 1,1249 A A F Yếu tố B SSB 14498,8 2 MSB 7249,4 74,4622 B F Sai số SSE = 768,5333 8 MSE 96,0667 Tổng SST 155699,6 14 Kết luận:
FA < F4,8(0,99) = 7,006 => Chấp nhận giả thuyết trung bình chiết suất của 5 loại
dung môi là nhƣ nhau hay nói dung môi không ảnh hƣởng đến kết quả chiết suất.
FB > F2,8(0,99) = 8,649 => Bác bỏ giả thuyết trung bình chiết suất của 3
phƣơng pháp nhƣ nhau, nghĩa là phƣơng pháp có ảnh hƣởng đến kết quả chiết suất.
7.2.2. Trường hợp các nhân tố có tương tác
Tƣơng tự nhƣ bài toán phân tích phƣơng sai hai nhân tố không tƣơng tác ở
trên, nhƣng ở đây khác là mỗi mức (ai, bj) có sự lặp lại r lần thí nghiệm và ta cần
khảo sát thêm sự tƣơng tác FAB g
iữa 2 nhân tố A và B.
Cho bảng quan sát mẫu nhƣ sau: B A b … 1 b2 bm x111 x121 x1m1 a x x x 1 112 … 122 … … 1m2 … x11r x12r x1mr x211 x221 x2m1 a x212 x222 x2m2 2 … … … … x 21r x22r x2mr … xn11 xn21 xnm1 a x x x n n12 … n22 … … nm2 … xn1r xn2r xnmr 139 Giả thuyết H0:
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau;
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng.
Các bƣớc tính toán:Tính tổng hàng i T T x **
ixjk , tổng cột *j* ijk . ,j k i,k B b … b A 1 b2 m Ti** x111 x121 x1m1 x x x 1* T * 1j x k a 112 122 1m2 k 1 … j, … … … x11r x12r x1mr x211 x221 x2m1 x x x 2 T ** 2 x jk a 212 222 2m2 2 … j,k … … … x21r x22r x2mr … xn11 xn21 xnm1 x x x n* T * nj x k a n12 n22 nm2 k n … j, … … … xn1r xn2r xnmr T x T x T *1* i1k T x T x ijk *j* *2* i 2k *m* imk i,k i,k i,k i, j,k Cần tính: 2 x 2 2 T 2 T ij ; k T . i**; *j*; ij* i, j,k i j i, j Suy ra: T SST xijk x 2 2 2 i x jk i , j ,k i, j,k nmr 2 T x x i** 2 2 i T SSA mr i ** i mr nmr 2 * T j*
x x 2 2 j T SSB nr * j* i nr nmr 140 2 2 2 T T T
x x x x ij* *j* i** 2 2 , i j j i T SSAB r ij* i** * j* i r nr mr nmr 2 xij* 2 i , j
SSE SST SSA SSB SSAB x ijk i, j,k r Bảng ANOVA: Tổng bình
Trung bình bình Nguồn Bậc tự do F phương (SS) phương SSA MSA Yếu tố A SSA n -1 MSA F n A 1 MSE SSB MSB Yếu tố B SSB m -1 MSB F m B 1 MSE Tƣơng tác (n-1)(m- SSAB MSAB MSAB F SSAB (n 1)(m 1) AB MSE AB 1) SSE = SST – SSA SSE Sai số nm(r-1) MSE – SSB – SSAB nm(r 1) 2 T Tổng 2
SST x ij nmr -1 ,i j . m n
Nếu F F
thì bác bỏ giả thuyết cho rằng trung bình (n 1 ),nm(r 1 ) (1 ) A H0
của tổng thể theo chỉ tiêu hàng thì bằng nhau. Nếu (m 1),nm(r 1) (1 ) B F F
thì bác bỏ giả thuyết H0 cho rằng trung bình
của tổng thể theo chỉ tiêu cột thì bằng nhau. Nếu F ( F n 1 )(m 1 ),nm(r 1 ) (1 ) AB
thì bác bỏ giả thuyết H0 cho rằng không
có sự tƣơng tác giữa nhân tố hàng và nhân tố cột.
Ví dụ 2: Hàm lƣợng saponin (mg) của cùng một loại dƣợc liệu đƣợc thu hái
trong 2 mùa (khô và mƣa; trong mỗi mùa lấy mẫu 3 lần: đầu mùa, giữa mùa,
cuối mùa) và từ 3 miền (Nam, Trung, Bắc
) thu đƣợc kết quả sau: 141 Miền Mùa Thời điểm Nam Trung Bắc Đầu mùa 2,4 2,1 3,2 Khô Giữa mùa 2,4 2,2 3,2 Cuối mùa 2,5 2,2 3,4 Đầu mùa 2,5 2,2 3,4 Mƣa Giữa mùa 2,5 2,3 3,5 Cuối mùa 2,6 2,3 3,6
Hãy cho biết hàm lƣợng Saponin có khác nhau theo mùa hay miền không?
Nếu có thì 2 yếu tố mùa và miền có sự tƣ n
ơ g tác với nhau hay không? = 0,05. Giải: Miền Nam Trung Bắc T Mùa i** 2,4 2,1 2,2 Khô 2,4 2,2 2,3 7,3 6,5 6,8 20,6 2,5 2,2 2,3 2,5 3,2 3,4 Mƣa 2,5 3,2 3,5 7,6 9,8 10,4 27,8 2,6 3,4 3,5 T*j* 14,9 16,3 17,2 T = 48,4 : Tính: 2 x ij 134, 64 k ,i j,k 2 2 2 T i** 20, 6 27,8 1197,2 i 2 2 2 * T j* 20,6 27,8 783,54 j 2 2 2 2 2 2 2 T ij* 7,3 7,6 6,5 6,8 9,8 10,4 403,74 ,i j T2 = 48,42 = 2342,56 142 T SST xijk x 2 2 2 2342,56 x ij k 134,64 4, 4978 ,i ,jk ,i ,j k nmr 18 2 T T SSA mr xi x i** 2 2 i 1197, 2 2342,56 ** 2,88 i mr nmr 9 18 2 T*j*
SSB nr x x 2 2 j T 783,54 2342,56 * j* 0, 448 i nr nmr 6 18 2 xij* 2 ,i j 2 403, 74
SSE SST SSA SSB SSAB x ij 134, 64 0,06 k i , j ,k r 3
SSAB = SST – SSA – SSB – SSAB = 4,4978 – 2,88 – 0,448 – 0,06 = 1,1098 Bảng ANOVA:
Tổng bình phƣơng Bậc Trung bình bình Nguồn F (SS) tự do phƣơng Yếu tố SSA 2,88 1 MSA =2,88 FA = 576 A(Mùa) n 1 SSB Yếu tố MSB = 0,448 2 m 1 F B(Miền) B = 44,8 0,224 Tƣơng tác AB SSAB = 1,1098 2 MSAB = 0,5549 F 110,98 AB Sai số SSE = 0,06 12 MSE = 0,005 Tổng SST = 4,4978 17 Kết luận:
FA > F1;12(0,95) = 4,7472 => Bác bỏ giả thuyết hàm lƣợng Saponin giống nhau theo mùa.
FB > F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết hàm lƣợng Saponin giống nhau theo miền.
FAB > F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết nhân tố mùa và miền
không có tƣơng tác với nhau. 143 BÀI TẬP
Bài 1: Điều tra số liệu về đƣờng kính thân cây (m )
m của một loại cây lâm
nghiệp đƣợc trồng ở ba vùng khác nhau đƣợc kết quả sau: Vùng 1: 7,5 6,8 7 ,1 7,5 6,8 6,6 7,8 Vùng 2: 5,8 5,6 6 ,1 6,0 5,7 Vùng 3: 6,1 6,3 6 ,5 6,4 6,5 6,3
Hỏi đƣờng kính thân cây có khác nhau theo vùng hay không? Với mức ý nghĩa 5%.
Bài 2: So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, ngƣời ta đƣợc kết quả tăng trọng (kg) nhƣ s au: A: 1,0 1,2 1,4 1,1 0,8 0,6 B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8 C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2
Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với mức ý nghĩa là 0,01.
Bài 3: Một nghiên cứu đƣợc thực hiện nhằm xem xét năng suất lúa trung
bình của 3 giống lúa. Kết quả thu thập qua 4 năm nhƣ sau: Năm A B C 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76
Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không? Với 0,01 .
Bài 4: So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách
chia 20 bệnh nhân thành 4 nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên.
Kết quả mức độ giảm đau là: A: 82 89 77 72 92 B: 80 70 72 90 68 C: 77 69 67 65 57 D: 65 75 67 55 63
Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không với 0,05 ? 144
TÀI LIỆU THAM KHẢO
1. Đào Hữu Hồ (2007). Xác suất thống kê. Nhà xuất bản Đại học Quốc gia, Hà Nội.
2. Nguyễn Văn Hữu, Nguyễn Hữu Dƣ (2003). Phân tích thống kê và dự
báo. Nhà xuất bản Đại học Quốc gia, Hà Nội.
3. Tống Đình Quỳ (2007). Giáo trình xác suất thống kê. Nhà xuất bản Bách Khoa, Hà Nội.
4. Đặng Hùng Thắng (2008). Mở đầu về lý thuyết xác suất và ứng dụng (tái
bản lần thứ 3). Nhà xuất bản Giáo dục.
5. Đặng Hùng Thắng (2009). Thống kê và ứng dụng. Nhà xuất bản Giáo dục.
6. D.R. Anderson, D.J. Sweeney, T.A. Williams (1994). Introduction to
Statistics Concepts and Applications. Third edition, West Publishing Company.
7. Pierre Lafaye de Micheaux, Rémy Drouilhet, Benoît Liquet (2011). Le
logiciel R - Maîtriser le langage Effectuer des analyses statistiques. Nhà xuất bản Springer. 145 MỤC LỤC
Chƣơng 1. BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT ............. 5
1.1. Các khái niệm mở đầu ..................................................................................... 5
1.1.1. Phép thử ngẫu nhiên ........................................................................................... 5
1.1.2. Không gian mẫu .................................................................................................. 5
1.1.3. Biến cố ................................................................................................................. 6
1.1.4. Quan hệ giữa các biến cố ................................................................................... 8
1.2. Các định nghĩa về xác suất ........................................................................... 12
1.2.1. Định nghĩa xác suất cổ điển .............................................................................. 12
1.2.2. Định nghĩa xác suất thống kê ............................................................................ 15
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm).............................................. 16
1.3. Các công thức tính xác suất .......................................................................... 18
1.3.1. Công thức cộng xác suất ................................................................................... 18
1.3.2. Công thức nhân xác suất ................................................................................... 20
1.4. Công thức Bernoulli ..................................................................................... 29
1.4.1. Dãy phép thử Bernoulli ..................................................................................... 29
1.4.2. Công thức Bernoulli .......................................................................................... 29
1.5. Công thức xác suất đầy đủ và công thức Bayes ........................................... 33
1.5.1. Giới thiệu khái niệm nhóm đầy đủ .................................................................... 33
1.5.2. Công thức xác suất đầy đủ và công thức Bayes .............................................. 34
TÓM TẮT CHƢƠNG I ....................................................................................... 39
Chƣơng 2. BIẾN NGẪU NHIÊN ..................................................................... 41
2.1. Khái niệm biến ngẫu nhiên ........................................................................... 41
2.1.1. Khái niệm ........................................................................................................... 41
2.1.2. Phân loại ............................................................................................................ 42
2.2. Luật phân phối xác suất ................................................................................ 42
2.2.1. Hàm phân phối xác suất .................................................................................... 42
2.2.2. Bảng phân phối xác suất ................................................................................... 43 146
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục ........................................... 45
2.3. Các số đặc trƣng của biến ngẫu nhiên .......................................................... 48
2.3.1. Kỳ vọng toán ...................................................................................................... 48 2.3.2. Phư n
ơ g sai ......................................................................................................... 50
2.3.3. Một số đặc trưng khác ...................................................................................... 52
2.4. Một vài quy luật phân phối xác suất thƣờng gặp ......................................... 54
2.4.1. Phân phối chuẩn ............................................................................................... 54
2.4.2. Phân phối nhị thức ............................................................................................ 58
2.4.3. Phân phối Poisson ............................................................................................ 60
2.4.4. Phân phối khi bình phương .............................................................................. 61
2.4.5. Phân phối Student ............................................................................................. 62
2.4.6. Phân phối Fisher (Phân phối F) ...................................................................... 63
2.5. Sơ lƣợc về biến ngẫu nhiên hai chiều (Đọc thêm) ....................................... 63
2.5.1. Phân phối đồng thời.......................................................................................... 64
2.5.2. Phân phối có điều kiện ..................................................................................... 66
2.5.3. Kỳ vọng có điều kiện ......................................................................................... 66
Chƣơng 3. MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ ............................. 70
3.1. Một vài khái niệm cơ bản ............................................................................. 70
3.1.1. Tổng thể và mẫu ................................................................................................ 70
3.1.2. Các phương pháp trình bày mẫu ..................................................................... 71
3.1.3. Hàm phân phối thực nghiệm ............................................................................ 76
3.2. Các số đặc trƣng mẫu ................................................................................... 76
3.2.1. Kỳ vọng mẫu, phương sai mẫu ......................................................................... 76
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu .................. 77
3.2.3. Các đặc trưng khác ........................................................................................... 78
3.2.4. Phân phối của kỳ vọng mẫu và phư n
ơ g sai mẫu ............................................ 79
Chƣơng 4. ƢỚC LƢỢNG THAM SỐ ............................................................. 82
4.1. Ƣớc lƣợng điểm .......................................................................................... .82
4.1.1. Khái niệm ước lượng điểm và tính chất .......................................................... 82 147 4.1.2. Phƣ n
ơ g pháp ƣớc lƣợng hợp lý cực đại ........................................................... 84
4.2. Ƣớc lƣợng khoảng ........................................................................................ 86
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn ..... 87
4.2.2. Khoảng tin cậy cho xác suất ............................................................................. 90
4.2.3. Khoảng tin cậy cho phương sai ........................................................................ 92
4.3. Bài toán xác định cỡ mẫu ............................................................................. 93
4.3.1. Trường hợp ước lượng cho giá trị trung bình ................................................. 93
4.3.2. Trường hợp ước lượng cho tỷ lệ ....................................................................... 93
Chƣơng 5. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ .................................. 97
5.1. Đặt vấn đề ..................................................................................................... 97
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết ................ 98
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp ............................................ 100
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng ..................................................... 100
5.3.2. Kiểm định cho xác suất hay tỉ lệ ..................................................................... 105
5.3.3. Kiểm định cho phương sai .............................................................................. 107
5.4. Bài toán so sánh các tham số ...................................................................... 109
5.4.1. So sánh hai giá trị trung bình ......................................................................... 109
5.4.2. Bài toán so sánh hai tỉ lệ (xác suất) ............................................................... 112
5.4.3. Bài toán so sánh hai phương sai .................................................................... 114
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu) ................. 114
Chƣơng 6. SƠ LƢỢC VỀ LÝ THUYẾT TƢ N
Ơ G QUAN VÀ HỒI QUY 121
TUYẾN TÍNH .................................................................................................. 121
6.1. Phân tích tƣơng quan tuyến tính ................................................................. 121
6.1.1. Định nghĩa ........................................................................................................ 121
6.1.2. Tính chất ........................................................................................................... 121
6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên ................................................. 121 6.1.4. Hệ số tư n
ơ g quan mẫu .................................................................................... 121
6.2.1. Mô hình ............................................................................................................. 123
6.2.2. Ước lượng bình phương cực tiểu .................................................................... 124 148
Chƣơng 7. PHÂN TÍCH PHƢ N
Ơ G SAI ....................................................... 129
7.1. Phân tích phƣơng sai một nhân tố (One -Way Analysis of Variance) ........... 130
7.2. Phân tích phƣơng sai hai nhân tố (Đọc thêm) (Two -Way Analysis of Variance) 136
7.2.1. Trường hợp các nhân tố không tương tác ............................................... 136
7.2.2. Trường hợp các nhân tố có tương tác ..................................................... 139
TÀI LIỆU THAM KHẢO .............................................................................. 145
MỤC LỤC ........................................................................................................ 146 149 PHỤ LỤC 150