Bài giảng Xác suất thống kê | Đại học Lâm Nghiệp

Bài giảng Xác suất thống kê | Đại học Lâm Nghiệp được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!

TS. PHẠM QUANG KHOÁI (chủ biên)
THS. VŨ NGỌC TRÌU, THS. NGUYỄN THỊ VÂN HÕA
THS. ĐẶNG THỊ NGỌC ÁNH
BÀI GIẢNG
XÁC SUẤT THỐNG KÊ
TRƢỜNG ĐẠI HỌC LÂM NGHIỆP - 2017
2
LỜI NÓI ĐẦU
Xác suất thống môn học đƣợc giảng dạy cho các lớp hầu hết ngành
học ở Trƣờng Đại học Lâm nghiệp. Đặc biệt là hệ đào tạo Tín chỉ với thời lƣợng
3 tín chỉ. Do vậy cần tài liệu học tập phù hợp với chƣơng trình của môn học
để cho sinh viên có thể tự học.
Chúng tôi biên soạn bài giảng này dựa trên chƣơng trình môn học nhằm
đáp ứng nhu cầu học tập của sinh viên. Bài giảng do các giảng viên thuộc Bộ
môn Toán, Khoa điện Công trình biên soạn theo trình tự khoa học, chặt
trẽ. Mỗi phần đều dụ minh họa liên quan đến thực tế để tạo hứng thú cho
ngƣời học. Cuối mỗi chƣơng đều bài tập để củng cố nâng cao kiến thức
môn học.
Sau đây là nội dung chính của bài giảng:
Chƣơng 1 Biến cố ngẫu nhiên và phép tính xác suất
Chƣơng 2 Biến ngẫu nhiên
Chƣơng 3 Mẫu thống kê và thống kê mô tả
Chƣơng 4 Ƣớc lƣợng tham số
Chƣơng 5 Kiểm định giả thuyết thống kê
Chƣơng 6 Sơ lƣợc về lý thuyết tƣơng quan và hồi quy tuyến tính
Chƣơng 7 Phân tích phƣơng sai
Mặc dù đã cố gắng nhƣng cuốn sách khó tránh khỏi những khiếm khuyết.
Chúng tôi mong nhận đƣợc những góp ý quý báu của độc giả.
Hà Nội, tháng 11 năm 2017
Các tác giả
3
Chƣơng 1
BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT
1.1. Các khái niệm mở đầu
1.1.1. Phép thử ngẫu nhiên
Phép thử ngẫu nhiên (hay gọi tắt là phép thử) là một hành động hay một thí
nghiệm hoặc một quan sát mà kết quả của nó không thể dự báo trƣớc đƣợc.
Ví dụ 1:
Một vật đƣợc thả từ trên cao chắc chắn sẽ rơi xuống đất;
Mặt trời mọc ở hƣớng Đông và lặn ở hƣớng Tây;
Nƣớc đóng băng ở điều kiện nhiệt độ dƣới 0 C và áp suất 1
0
atm…
Đó là hiện tƣợng diễn ra có tính quy luật, tất định.
=> Những hành động này không phải là phép thử ngẫu nhiên.
Ví dụ 2:
Gieo 1 đồng xu cân đối và đồng chất;
Gieo 1 con xúc xắc cân đối và đồng chất;
Rút 1 quân bài từ bộ bài tú lơ khơ.
=> Những hành động này là các phép thử ngẫu nhiên.
1.1.2. Không gian mẫu
Khi thực hiện một phép thử ngẫu nhiên, ta không thể dự báo trƣớc đƣợc kết
quả tuy vậy ta thể liệt đƣợc cụ thể hoặc biểu diễn đƣợc tất cả các kết quả
có thể xảy ra của phép thử ngẫu nhiên.
Tập hợp tất cả các kết quả của một phép thử ngẫu nhiên đƣợc gọi không
gian mẫu của phép thử đó. Kí hiệu là
.
Mỗi phần tử của không gian mẫu
cũng tức mỗi kết quả của phép thử
ngẫu nhiên đƣợc gọi là một phần tử mẫu.
Ta có dạng bài tập tìm không gian mẫu của một phép thử.
Ví dụ 3:
Tìm không gian mẫu cho phép thử gieo 1 lần một con xúc xắc cân đối
đồng chất.
Các trƣờng hợp có thể xảy ra: Xúc xắc xuất hiện mặt 1 chấm, 2 chấm, 3 chấm,
4 chấm, 5 chấm, 6 chấm. Hay ta viếtới dạng tập hợp:
1,2,3,4,5,6
.
4
Ví dụ 4: Tìm không gian mẫu cho phép thử gieo liên tiếp 1 con xúc xắc cân
đối và đồng chất cho tới khi xuất hiện mặt 6 chấm thì dừng lại.
Các kết quả có thể có của phép thử này là 1 lần, 2 lần, 3 lần…
Hay ta viết dƣới dạng tập hợp số lần gieo là c số nguyên dƣơng {1, 2, 3…}.
Ví dụ 5: Tìm không gian mẫu cho phép thử đo thời gian sống của một con
chip điện tử.
Các kết quả có thể của phép thử là số thực không âm.
Có 2 loại không gian mẫu:
- Không gian mẫu rời rạc: Gồm một số hữu hạn (ví dụ 1) hay vô hạn đếm
đƣợc (ví dụ 2) các phần tử mẫu;
- Không gian mẫu liên tục: Gồm một số vô hạn không đếm đƣợc các phần
tử mẫu (ví dụ 3) .
Tƣơng ứng với các loại không gian mẫu này ta sẽ các khái niệm biến
ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục sẽ học ở chƣơng sau.
Chú ý rằng một phép thử thể có nhiều không gian mẫu khác nhau tùy
thuộc vào việc quan sát của chúng ta.
1.1.3. Biến cố
Xét một phép thử. Chẳng hạn gieo một đồng xu trên một mặt phẳng. Các
kết quả thể xảy ra : “Xuất hiện mặt sấp” hoặc “xuất hiện mặt ngửa”. Việc là
“xuất hiện mặt sấp” hay “xuất hiện mặt ngửa” một sự kiện gắn với phép thử là
phép thử. Ta có khái niệm biến cố:
Một sự kiện thể xảy ra hay không tùy thuộc vào kết quả của phép thử
đƣợc gọi là một của phép thử đó.biến cố
Kí hiệu biến cố bằng các chữ cái in hoa A, B, C…
Những kết quả làm cho biến cố xảy ra đƣợc gọi của kết quả thuận lợi
biến cố đó.
5
Nhƣ vậy ta ng thể nói biến cố A một tập con của không gian mẫu ,
bao gồm các kết quả thuận lợi cho A.
Ví dụ 6: Xét phép thử tung một con xúc xắc cân đối và đồng chất. Gọi A là
biến cố “Mặt trên của con xúc xắc xuất hiện số chấm lẻ”.
=> Các kết quả thuận lợi của biến cố A 1 chấm, 3 chấm, 5 chấm các
kết quả này nằm trong không gian mẫu của phép thử.
* Cách cho biến cố:
Ngƣời ta có thể cho biến cố dƣới dạng 1 mệnh đề hoặc 1 tập hợp.
Lưu ý: Một mệnh đề phải có đầy đủ chủ ngữ và vị ngữ.
Mọi biến cố đều thể biểu diễn dƣới dạng các tập hợp, thƣờng dƣới
dạng liệt kê và có thể dùng sơ đồ Venn để minh họa.
Hình 1: Sơ đồ Venn của một biến cố A trong không gian mẫu Ω
(Tính theo tỉ lệ diện tích, xác suất của A xấp xỉ bằng 0,2)
* Phân loại biến cố:
- Biến cố sơ cấp: Là biến cố không thể phân tích đƣợc nữa.
Ví dụ 7: Tung một đồng tiền, biến cố đồng tiền xuất hiện mặt sấp hoặc mặt
ngửa là các biến cố sơ cấp.
Vì vậy không gian mẫu còn đƣợc gọi là không gian các biến cố sơ cấp.
- Biến cố không thể: Là biến cố không bao giờ xảy ra khi thực hiệp phép
thử. Biến cố không thể đồng nhất với tập rỗng của không gian mẫu .
dụ 8: Tung 1 conc xắc, gọi U là biến cố “Xúc xắc xuất hiện mặt
7 chấm”.
Khi đó U là biến cố không thể.
- Biến cố chắc chắn: Là biến cố luôn xảy ra khi thực hiện phép thử. Biến cố
chắc chắn đồng nhất với tập không gian mẫu .
Ví dụ 9: Tung 1 con xúc xắc, gọi S là biến cố “Xúc xắc xuất hiện số chấm
6
nhỏ hơn hoặc bằng 6” => S là biến cố chắc chắn.
- Biến cố ngẫu nhiên: Là biến cố thể xảy ra hoặc không xảy ra khi thực
hiện phép thử.
dụ 10: Gieo 1 con xúc xắc cân đối đồng chất. Gọi A biến cố con
xúc xắc xuất hiện chấm chẵn.
=> Các kết quả thuận lợi có thể xảy ra là A = {2,4,6}.
1.1.4. Quan hệ giữa các biến cố
Trong lý thuyết xác suất, ngƣời ta xét các quan hệ sau đây của các biến cố:
Quan hệ kéo theo: Biến cố A gọikéo theo biến cố B nếu khi A xảy ra
thì B cũng xảy ra. Kí hiệu
A B
.
Quan hệ tương đương: Hai biến cố A và B đƣợc gọitƣơng đƣơng nếu
A B
B A
. Kí hiệu A = B.
Phép hợp: Hợp của 2 biến cố A B một biến cố xảy ra nếu ít nhất
một trong hai biến cố trên xảy ra. Kí hiệu là
A B
.
Hợp của một dãy hữu hạn biến cố
1 2
, ,...,
n
A A A
biến cố
. Biến cố
này xảy ra khi có ít nhất một trong các biến cố xảy ra.A
i
Phép giao: Giao của hai biến cố A B là một biến cố xảy ra khi cả hai
biến cố trên xảy ra. Kí hiệu:
A B
hay AB.
Giao của một dãy hữu hạn n biến c
1 2
, ,...,
n
A A A
là biến cố
. Biến cố
này xảy ra khi tất cả các biến cố cùng xảy ra.A
i
Quan hệ đối lập: Biến cố đối của biến cố A biến cố xảy ra khi chỉ
khi A không xảy ra. Kí hiệu là
A
.
Quan hệ xung khắc: Hai biến cố A và B đƣợc gọi là xung khắc với nhau
nếu chúng không đồng thời xảy ra trong một phép thử. Kí hiệu
AB
.
Hiệu của hai biến cố: Hiệu của biến cố A biến cố B một biến cố
xảy ra khi A xảy ra nhƣng B không xảy ra. Kí hiệu A\B.
7
Ta có bảng so sánh giữa lý thuyết tập hợp và lý thuyết xác suất nhƣ sau:
Lý thuy t t p h p ế
Lý thuy t xác suế t
Mô t b ng hình v
Tp
-
không gian các bi n c ế
sơ cấp (không gian m . u)
-
là bi n c c ch n. ế ch
Tp rng
là bi n c không th . ế
A B
x
A B
nghĩa là:
x A
thì
x B
Biến c A kéo theo bi n c B. ế
A B
là h p c a hai t p h p.
x
A B
nghĩa là:
x A
hoc
x B
A B
bi n c ít nh t mế t
trong hai bi n c A ho c B ế
xy ra.
A B
là giao c a hai t p h p
x
A B
nghĩa là:
x A
x B
A B
(hoc hi u AB)
biế ến c c hai bi n c A B
cùng x y ra.
A B
A B
thì A B hai
biến c xung kh c.
là hi u c a hai t p h p
x
nghĩa là:
x A
x B
là hi u c a hai bi ến c ,
tc A xảy ra nhƣng B
không x y ra.
\A A
\A A
bi n c i cế đố a
biế n c A, t c là
A
x y ra n ếu
A không x y ra.
Nguyên lý xác sut ln, xác su t nh :
Qua th m và quan sát th c t i ta th y r ng các bi n c xác c nghi ế, ngƣờ ế
sut nh s không xy ra khi ta ch thc hi n m t phép th hay m t vài phép
th. T a nhđó ta thừ ận nguyên lý sau đây, gọi là “Nguyên lý xác suất nhỏ”: Nếu
mt biến c xác su t r t nh ì th c t th cho r ng bi n c không th ế ế đó sẽ
xy ra trong l n th c himt n phép th .
d: M i chi ếc máy bay đu mt xác sut rt nh b xy ra tai nn.
Nhƣng trên thự ối đi máy bay tin tƣởc tế ta vn không t ch ng rng trong
chuyến bay ta đi biến c máy bay b y ra. rơi không xả
8
Việc quy định mt mc xác su t th c g i nh s thu c vào ế nào đƣợ ph
tng bài toán c th. Ch n n u xác sung h ế ất để máy bay rơi là 0,01 thì xác suất
đó chƣa thể ỏ. Nhƣng nế đƣợc coi nh u xác sut mt chuyến tàu khi hành
ch chm là 0,01 thì có th p nh n là nh. M c xác sut nh c gnày đƣợ i là m c
ý nghĩa. Nếu
là mức ý nghĩa thì số
1
c gđƣợ ọi là độ tin cy.
Khi d a trên nguyên lý xác su t nh ta có th phát bi ểu “Biến c A có xác
sut nh (tc
(A)P
) s không x y ra trên th c t tin c y c a phát ế” thì đ
biu trên là
.
Tƣơng tự nhƣ vậ đƣa ra “Nguyên lý xác suấ ớn”: Nế y, ta th t l u biến c
A xác su t g n b ng 1 thì trên th c t th cho r ng bi n c x y ra ế ế đó s
trong mt phép th .
BÀI TẬP
Bài 1: Cho 3 biến cố A, B, C. Hãy biểu diễn các biến cố sau theo A, B, C.
a) C 3 biến c trên đều xy ra.
b) Cả 3 biến cố trên đều không xảy ra.
c) Chỉ có A xảy ra.
d) A, B xảy ra nhƣng C không xảy ra.
e) Có ít nhất 2 biến cố xảy ra.
f) Có đúng 2 biến cố xảy ra.
g) Có ít nhất một biến cố xảy ra.
Bài 2: Gieo hai con xúc xắc cân đối và đồng chất.
a) Xây d ng không gian m u.
b) Xác định các biến cố sau:
A: “Tổng số chấm xuất hiện trên hai con xúc sắc là một số chẵn”.
B: “Ít nhất một con xúc xắc xuất hiện mặt một chấm”.
C: “Tổng số chấm xuất hiện trên hai con xúc xắc bằng 5”.
c) Miêu tả các biến cố
, ,A B B C AB
và ABC.
Bài 3: Gieo một đồng xu hai lần. Hãy tả không gian mẫu (Không gian
các biến cố sơ cấp). Mô tả biến cố:
A: Mặt sấp xuất hiện ít nhất một lần.
B: Lần gieo thứ hai xuất hiện mặt sấp.
Bài 4: Gieo một lần một con xúc xắc cân đối đồng chất. tả không
9
gian các biến cố cấp. tả biến cố A: Mặt trên con xúc ắc xuất hiện số x
chấm chia hết cho 3.
Bài 5: Gieo một đồng xu sau đó gieo một con xúc xắc. tả không gian
các biến cố sơ cấp.
Bài 6: Gieo liên tiếp 1 đồng xu đến khi xuất hiện mặt ngửa thì dừng. Mô tả
không gian các biến cố sơ cấp.
Bài 7: Một xạ thủ bắn ba lần, mỗi lần một viên đạn vào cùng một mục tiêu .
Gọi A biến cố viên đạn thứ i trúng mục tiêu, i Hãy biểu diễn các
i
= 31, 2, .
biến cố sau theo A
i
.
a) Cả ba viên đạn đều trúng mục tiêu.
b) Không có viên đạn nào trúng mục tiêu.
c) Có đúng 1 viên đạn trúng mục tiêu.
d) Có ít nhất hai viên đạn trúng mục tiêu.
Bài 8: Hãy mô tả biến cố đối của các biến cố sau đây:
A: Xuất hiện hai mặt ngửa khi gieo một đồng xun đối đồng chất hai lần.
B: Cả ba viên đạn đều trúng đích khi bắn độc lập ba lần, mỗi lần một viên
đạn vào một mục tiêu.
C: ít nhất một viên đạn trúng đích khi bắn độc lập ba lần, mỗi lần một
viên đạn vào một mục tiêu.
Bài 9: Bắn độc lập bốn viên đạn vào mục tiêu. Gọi A biến cố viên đạn
i
thứ trúng mục tiêui ( = i 1, 2, 3, 4). Hãy biểu diễn các biến cố sau theo A
i
i
A
:
a) Có đúng một viên trúng mục tiêu.
b) Có ít nhất hai viên trúng mục tiêu.
c) Có ít nhất một viên trúng mục tiêu.
Bài 10: Gieo một con xúc xắc cân đối đồng chất hai lần. tả không
gian các biến cố sơ cấp. Mô tả biến cố:
A: Tổng số chấm xuất hiện ở mặt trên con xúc xắc là 8.
B: Mặt 6 chấm xuất hiện ít nhất một lần.
1.2. Các định nghĩa về xác suất
10
1.2.1. Định nghĩa xác suất cổ điển
Xét một phép thử. Giả sử không gian mẫu của phép thử đó gồm n (hữu
hạn) trƣờng hợp đồng khả năng. Nếu biến cố A liên quan đến phép thử gồm
m trƣờng hợp thuận lợi thì tỷ số
m
n
đƣợc gọi là xác suất của biến cố A.
Kí hiệu: P(A) =
m
n
.
Các bƣớc để tính xác suất của một biến cố theo định nghĩa cổ điển nếu xem
biến cố A nhƣ là tập con của không gian mẫu
thì:
+ Xác định không n mẫu gia
, rồi tính số phần tử n(
) của
;
+ Xác định các trƣờng hợp thuận lợi của biến cố A, rồi tính số trƣờng hợp
thuận lợi để xảy ra biến cố A là n(A);
+ Tính P(A) theo công thức
( )
(A)
( )
n A
P
n
.
Phƣơng pháp tính số phần tử của không gian mẫu số trƣờng hợp thuận
lợi của biến cố A.
1.2.1.1. Phương pháp liệt kê các phần tử
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Tìm xác suất để:
a) Mặt trên của con xúc xắc xuất hiện một chấm .
b) Mặt trên của con xúc xắc có số chấm chẵn.
c) Mặt trên của con xúc xắc có số chấm nhỏ hơn 7.
d) Mặt trên của con xúc xắc xuất hiện 7 chấm.
G :iải
a) Gọi A là biến cố mặt trên của con xúc xắc có một chấm.
Khi đó:
- Không gian mẫu
gồm 6 trƣờng hợp Số phần tử của không gian mẫu =>
là n(
) = 6;
- Các kết quả thuận lợi của biến cố A có một trƣờng hợp.
P(A) =
1
6
.
b) Gọi B là biến cố mặt trên của con xúc xắc có số chấm chẵn .
Khi đó:
- Không gian mẫu
; gồm 6 trƣờng hợp
- Các kết quả thuận lợi của biến cố B là 3 trƣờng hợp {2, 4, 6}.
11
P(A) =
3
6
.
c) Gọi C là biến cố mặt trên của con xúc xắc xuất hiện số chấm nhỏ hơn 7.
Khi đó:
- Không gian mẫu
; gồm 6 trƣờng hợp
- Các kết quả thuận lợi của biến cố C 6 trƣờng hợp (bằng số trƣờng hợp
thuận lợi của không gian mẫu).
P(A) =
.
d) Gọi D là biến cố mặt trên của con xúc xắc xuất hiện 7 chấm.
Khi đó:
- Không gian mẫu
; gồm 6 trƣờng hợp
- Các kết quả thuận lợi của biến cố D là 0 (không có mặt 7 chấm) .
P(A) =
.
1.2.1.2. Phương pháp dùng quy tắc đếm
Nhắc lại: Số cách lấy k phần ttừ n phần tkhông quan tâm đến thứ tự là
k
n
C
.
Quy tắc cộng:
Giả sử để thực hiện một công việc A ta có k thực hiện:phƣơng án
- Phƣơng án 1 có n
1
cách hoàn thành;
- Phƣơng án 2 có n
2
cách hoàn thành;
- Phƣơng án k có n
k
cách hoàn thành.
Khi đó số cách thực hiện công việc A là n +…+ n
1
+ n
2 k
.
Quy tắc nhân:
Giả sử để thực hiện một công việc A ta phải thực hiện qua k giai đoạn
khác nhau:
- Giai đoạn 1 có n
1
cách hoàn thành;
- Giai đoạn 2 có n
2
cách hoàn thành;
- Giai đoạn k có n
k
cách hoàn thành .
Khi đó số cách thực hiện công việc A là n
1
.n
2
…n
k
.
Nhận xét:
12
Điều quan trọng đây là làm sao khi đọc đề bài chúng ta biết đƣợc phải
sử dụng quy tắc cộng hay quy tắc nhân. Thông thƣờng, nếu một bài toán
công việc thể giải quyết theo nhiều phƣơng án hay nhiều trƣờng hợp xảy
ra thì ta thƣờng dùng quy tắc cộng, còn nếu bài toán công việc đƣợc thực
hiện bằng những công việc nhỏ liên tiếp, nhiều công đoạn hay là trƣờng hợp nhỏ
này liên kết với trƣờng hợp nhỏ kia thì ta thƣờng dùng quy tắc nhân.
Trong nhiều trƣờng hợp chúng ta cần kết hợp cả hai quy tắc để giải bài toán.
dụ 2: Chọn ngẫu nhiên 3 quân bài trong một bộ bài khơ gồm 52
quân. Tính xác suất để trong 3 quân chọn ra đó:
a) Có đúng một quân bài mầu đỏ.
b) Có ít nhất một quân át.
G :iải
Số phần tử của không gian mẫu số cách chọn ngẫu nhiên 3 quân bài
trong một bộ bài khơ 52 quân => Số phần tử của không gian mẫu
3
52
( ) 22510n C
.
a) Gọi A là biến cố trong 3 quân bài chọn ra có đúng một quân bài mầu đỏ.
Để A xảy ra ta phải thực hiện giai đoạn2 :
- Giai đoạn 1: Lấy ra 2 quân bài khác màu đỏ trong số 26 quân bài khác
màu đỏ của bộ bài => Có
2
26
C
. cách lấy
- Giai đoạn 2: Lấy ra 1 quân bài màu đỏ trong s26 quân bài màu đỏ của
bộ bài => Có
1
26
C
cách lấy.
Áp dụng công thức nhân xác suất, số trƣờng hợp thuận lợi của biến cố A
2 1
26 26
(A)n C C
= 325.
Vậy xác suất P(A)
( ) 325
0,0147
( ) 22150
n A
n
.
b) Gọi B là biến cố trong 3 quân bài chọn ra có ít nhất một quân át .
Để B xảy ra ta có các phƣơng án (cách) thực hiện:
Phƣơng án 1: Có 1 quân át và 2 quân khác át => Số cách chọn ra 1 quân át
trong 4 quân át của bộ bài
1
4
C
, số cách chọn 2 quân còn lại trong 48 quân bài
khác át là
2
48
C
=> Tổng số cách thực hiện phƣơng án 1 là
1 2
4 48
C C
.
13
Phƣơng án 2: Có 2 quân át và 1 quân khác át. Lập luận tƣơng tự phƣơng án
1 ta có số cách thực hiện phƣơng án 2 là
2 1
4 48
C C
.
Phƣơng án 3: 3 quân át. Lập luận tƣơng tự nhƣ trên ta số cách thực
hiện phƣơng án 3 là
3 0
4 48
C C
.
Áp dụng công thức cộng ta tính đƣợc số trƣờng hợp thuận lợi của biến cố B
1 2
4 48
C C
+
2 1
4 48
C C
+
3 0
4 48
C C
= 4512 + + 4 = 4804. 288
P(B)
( ) 4804
0,217
( ) 22150
n B
n
.
Tính chất của xác suất:
1. Nếu A là biến cố bất kỳ thì
0 ( ) 1;P A
2. Xác suất của biến cố chắc chắn là
( ) 1;P
3. Xác suất của biến cố không thể là
P( ) 0
;
4. Nếu
A
là biến cố đối của biến cố A thì
P( ) 1 ( )A P A
;
5. Nếu
A B
thì
( ) P(B)P A
;
6. Nếu A và B là hai biến cố bất kỳ thì
(A\ B) P(A) P(AB).P
Ƣu điểm:
- Để tìm xác suất của biến cố ta không phải thực hiện phép thử (phép thử
chỉ cần giả định);
- Xác suất của biến cố tìm đƣợc chính xác.
Nhƣợc điểm:
- Các kết quả của phép thử phải đồng khả năng;
- Số trƣờng hợp đồng khả năng phải hữu hạn.
1.2.2. Định nghĩa xác suất thống kê
Trong các phép thử ngẫu nhiên, khi số kết quả thể hạn hoặc kết
quả có thể là hữu hạn nhƣng không đồng khả năng uất theo cổ thì cách tính xác s
điển không áp dụng đƣợc, ngƣời ta định nghĩa xác suất theo tần suất. Chẳng hạn
khi gieo một con xúc xắc không cân đối thì các trƣờng hợp của phép thử không
đồng khả năng ì vậy không thể dùng định nghĩa xác suất cổ điển ở trên.. V ,
Khái niệm tần suất: Giả sử trong thực tế ta đã lặp đi lặp lại nhiều lần một
phép thử trong những điều kiện giống hệt nhau. Nếu trong n lần thực hiện phép
thử đó biến cố A xuất hiện k lần thì tỷ số
(A)
n
k
f
n
đƣợc gọi tần suất xuất
14
hiện biến cố A.
Định nghĩa thống kê của xác suất: Ngƣời ta nhận thấy khi số phép thử tăng
lên hạn thì f (A) luôn dần tới một giới hạn xác định. Giới hạn đó gọi xác
n
suất của biến cố A.
Nhƣ vậy:
( ) lim (A).
n
n
P A f

Trong thực tế ta không thể tiến hành phép thử hạn lần, do đó với n đủ
lớn ta có thể dùng tần suất thay cho xác suất.
Tức là:
( ) (A) .
n
k
P A f
n
Ƣu điểm: Định nghĩa thống về xác suất có ƣu điểm lớn không đòi
hỏi những điều kiện áp dụng nhƣ đối với định nghĩa cổ điển. hoàn toàn dựa
trên các quan sát thực tế để làm cơ sở kết luận về xác suất xảy ra của một biến cố.
Ví dụ 3: Để nghiên cứu khả năng xuất hiện mặt sấp khi tung một đồng xu,
ngƣời ta tiến hành tung một đồng xu nhiều lần (đồng xu không cần cân đối đồng
chất nhƣng các lần tung phải giống nhau) và thu đƣợc kết quả sau đây:
Ng-êi lµm
thÝ nghiÖm
Sè lÇn tung (n)
Sè lÇn xuÊt hiÖn
mÆt sÊp (k)
TÇn suÊt
k
n
Buffon
Pearson
Pearson
4040
12000
24000
2048
6019
12012
0,5069
0,5016
0,5005
Qua dụ trên ta thấy khi số phép thử tăng lên thì tần suất xuất hiện mặt
sấp dao động quanh giá trị 0,5. Điều này cho phép ta hy vọng rằng khi số phép
thử tăng lên vô hạn thì tần suất xuất hiện mặt sấp hội tụ về 0,5.
Chú ý: Từ định nghĩa này trong thống kê ngƣời ta hay khái niệm dùng tỷ lệ
thay cho xác suất. Chẳng hạn tỷ lệ hạt thóc nảy mầm trong cùng một điều kiện
về môi trƣờng là 60% nghĩa là khi chọn một hạt thóc ngẫu nhiên thì xác suất của
biến cố A hạt thóc nảy mầm là 0,6 hay P(A) = 0,6.
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm)
Các định nghĩa cổ điển thống của xác suất nhiều hạn chế để xây
dựng đƣợc một thuyết tổng quát. Khái niệm cổ điển không dùng đƣợc trong
trƣờng hợp không xây dựng đƣợc một hệ thống đầy đủ các sự kiện đồng khả
năng. Khái niệm tần suất của định nghĩa theo thống chỉ một giá trị xấp xỉ
15
để đánh giá xác suất, số quan sát đòi hỏi lớn.
Vì vậy ngƣời ta đã xây dựng định nghĩa xác suất theo hệ tiên đề. Các, h xác
định xác suất theo tiên đề sẽ chứa trong các định nghĩa cổ điển thống
của xác suất nhƣ là các trƣờng hợp riêng.
Bản chất tiên đề khi xây dựng một lý thuyết toán học nào đó là không quan
tâm với việc định nghĩa các đối tƣợng của lý thuyết đó, mà chỉ quan tâm tới mối
quan hệ giữa các đối tƣợng đó. Các đối tƣợng đó có thể bản chất khác nhau,
miễn là cùng tuân theo bộ các quy tắc xác định, đƣợc gọi là hệ tiên đề.
Xét một phép thử ngẫu nhiên và
tập hợp tất cả các kết quả của phép
thử. Một tập con của
đƣợc gọi một biến cố. Một họ
nào đó các tập con
của
đƣợc gọi là một
- đại số các biến cố nếu:
i)
,
;
ii) Nếu
A
thì
( \ )A
;
iii) Nếu một dãy các tập hợp của họ A
1
, A
2
thì hợp
1
n
A
cũng
thuộc
.
Ta gọi xác suất trên
- đại số
một hàm số P biến mỗi biến cố
thành một số P thuộc đoạn [0,(A) 1]. Ta viết:
: [0,1]P
A
P(A) thỏa mãn 3 tiên đề sau:
1)
, 0 ( ) 1A P A
;
2)
( ) 1, ( ) 0P P
;
3) Nếu A một dãy các biến cố thuộc
1
, A
2
đôi một xung khắc với
nhau thì:
1 2 1 2
(A A ...) ( ) (A ) ...P P A P
BÀI TẬP
Bài 1: Gieo đồng thời hai con xúc xắc cân đối đồng chất. Tính xác suất
của biến cố:
- Tổng số chấm xuất hiện là 7.
- Tổng số chấm . xuất hiện là 8
- Số chấm xuất hiện hơn kém nhau 2.
16
Bài 2: Trong một N sản phẩm n sản phẩm đạt tiêu chuẩn. Lấy ngẫu
nhiên từ lô đó m sản phẩm. Tìm xác suất để trong m sản phẩm lấy ra đó có k sản
phẩm đạt tiêu chuẩn (
, , min(m,n)n N m N k
).
Bài 3: Một công ty cần tuyển hai nhân viên. 6 ngƣời nộp đơn trong đó
có 4 nữ và 2 nam. Giả sử rằng khả năng trúng tuyển của 6 ngƣời là nhƣ nhau.
a) Tính xác suất để hai ngƣời trúng tuyển đều là nam.
b) Tính xác suất để hai ngƣời trúng tuyển đều là nữ.
c) Tính xác suất để có ít nhất một nữ trúng tuyển.
Bài 4: Tn một giá sách có 15 quyểnch, trong đó có 5 quyển văn nghệ. Lấy
ngẫu nhiên tđó ba quyển. Tìmc suất sao cho có ít nhất một quyển văn nghệ.
Bài 5: Một lô sản phẩm có 16 sản phẩm loại I, 4 sản phẩm loại II. Lấy ngẫu
nhiên từ lô đó 2 sản phẩm. Tính xác suất để đƣợc ít nhất một sản phẩm loại I.
Bài 6: Để kiểm tra một lô hàng gồm 100 sản phẩm ngƣời ta lấy ngẫu nhiên
từ đó 10 sản phẩm để kiểm tra. Nếu cả 10 sản phẩm đều tốt thì sẽ nhận cả .
Trong trƣờng hợp ngƣợc lại thì sẽ kiểm tra toàn bộ. Tính xác suất sao cho trong
lô sản phẩm chứa 10 sản phẩm xấu nhƣng lại đƣợc nhận.
Bài 7: Một sản phẩm gồm 10 sản phẩm tốt 2 sản phẩm xấu. Lấy
ngẫu nhiên lần lƣợt không hoàn lại từ hàng hai sản phẩm để kiểm tra. Tính
xác suất đ:
a) Cả hai sản phẩm đƣợc kiểm tra đều tốt.
b) Có ít nhất một sản phẩm tốt trong hai sản phẩm đó.
1.3. Các công thức tính xác suất
1.3.1. Công thức cộng xác suất
Công thức cộng xác suất cho 2 biến cố :
Cho A và B là hai biến cố bất kỳ, khi đó:
( ) ( ) ( ) ( )P A B P A P B P AB
- Nếu A và B là hai biến cố xung khắc (
AB
) thì:
( ) ( ) ( )P A B P A P B
- Nếu
B A
ta có:
1 ( ) ( ) ( )P A A P A P A
.
Ví dụ 1: Một lớp học có 20 học sinh trong đó có 10 học sinh giỏi toán, 8 học
sinh giỏi văn và 6 học sinh giỏi cả toán và văn. Chọn ngẫu nhiên một học sinh.
a) Tính xác suất để học sinh này giỏi ít nhất một môn.
b) Tính xác suất để học sinh này không giỏi môn nào cả.
17
Giải:
Gọi A là biến cố chọn đƣợc học sinh giỏi toán =>
10
( ) 0,5
20
P A
.
A
là biến cố chọn đƣợc học sinh không giỏi toán.
Gọi B là biến cố chọn đƣợc học sinh giỏi văn =>
8
( ) 0,4
20
P B
.
B
là biến cố chọn đƣợc học sinh không giỏi văn.
Khi đó AB là biến cố học sinh giỏi cả hai môn =>
6
( ) 0,3
20
P AB
.
a) Biến cố học sinh đƣợc chọn giỏi ít nhất mt môn là
C A B
.
( ) ( ) ( ) ( ) ( ) 0,5 0,4 0,3 0,6P C P A B P A P B P AB
b) Biến cố học sinh chọn đƣợc không giỏi môn nào là
D A B
.
=> Biến cố đối của biến cố D biến cố C chọn đƣợc học sinh giỏi ít nhất
một môn toán hoặc văn.
( ) 1 ( ) 1 0,6 0,4P D P C
Nhận thấy P(AB) = 0,3
0 => A, B không xung khắc.
Tƣơng tự với P(BC), P(AC) cũng khác 0 nên kết luận các biến cố A, B, C
không xung khắc với nhau từng đôi một.
Mở rộng công thức cộng xác suất:
Cho A, B, C là 3 biến cố bất kỳ, khi đó:
(A B C) P(A) P(B) P(C) P(AB) P(BC) P(AC) P(ABC)P
* Nếu 3 biến A, B, C là đôi một xung khắc thì ta có:
(A B C) P(A) P(B) P(C)P
* Nếu có n biến cố A n) là đôi một xung khắc thì:
i
( i = 1, 2...,
1 2 1 2
P( ... ) ( ) ( ) ... ( )
n n
A A A P A P A P A
dụ 2: Khảo sát về mức độ quan tâm của ngƣời dân trong một khu phố
đối với 3 tờ báo A, B, C, ngƣời ta thu đƣợc số liệu sau:
Có 20% ngƣời dân xem báo A; 15% ngƣời dân xem báo B; 10% ngƣời dân
xem báo C;
5% ngƣời dân xem A B; 3% ngƣời dân xem B C; 4% ngƣời dân
xem A và C;
Có 2% ngƣời dân xem cả A, B và C.
a) Tính xác suất để ngƣời dân xem ít nhất một tờ báo nào đó.
18
b) Tính xác suất để ngƣời dân không xem bất kỳ tờ báo nào.
Giải:
Gọi A, B, C lần lƣợt là các biến cố ngƣời dân xem báo A, B, C.
Từ đó ta có:
P(A) = 0,2; P(B) = 0,15; P(C) = 0,1;
P(AB) = 0,05; P(BC) = 0,03; P(AC) = 0,04; P(ABC) = 0,02.
a) Gọi D là biến cố “ngƣời dân xem ít nhất một tờ báo” => D =
A B C
.
(D) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( )
0,2 0,15 0,1 0,05 0,03 0,04 0,02
0,35 35%
P P A B C
P A P B P C P AB P BC P AC P ABC
b) Gọi E là biến cố “ngƣời dân không xem tờ báo nào” =>
E ABC
.
Từ giả thiết bài toán ta không thể trực tiếp đƣợc E, vậy ta phải sử dụng
biến cố đối của E chính là biến cố D.
(E) 1 ( ) 1 0,35 0,65 65%P P D
Mở rộng công thức cho n biến cố A
1
, A
2
…, A :
n
1
1 2
1 1
P( ) (A ) (A A ) (A A A ) ... ( 1) (A A ...A )
n n
n
i i i j i j k n
i i i j i j k
A P P P P
1.3.2. Công thức nhân xác suất
a. Khái niệm về xác suất có điều kiện
Cho A và B là hai biến cố bất kỳ thỏa mãn P(A) 0. Xác suất có điều kiện >
của biến cố B với điều kiện biến cố A đã xảy ra (gọi là xác suất của B với điều
kiện A), kí hiệu là P(B|A) đƣợc định nghĩa nhƣ sau:
(AB)
(B | A)
(A)
P
P
P
Tƣơng tự nếu P(B) 0, ta có xác suất của A với điều kiện B: >
(AB)
(A | B)
(B)
P
P
P
* Nhận xét:
( | A) 1 P(B| A)P B
.
dụ 3: Lớp Toán 96 sinh viên, trong đó 46 nam 50 nữ. Trong
một kỳ thi 22 sinh viên đạt điểm giỏi (trong đó 12 nam 10 nữ). Chọn
ngẫu nhiên một sinh viên trong lớp.
a) Tính xác suất để chọn đƣợc sinh viên đạt điểm giỏi.
b) Tính lại xác suất để chọn đƣợc sinh viên đạt điểm giỏi biết rằng sinh
19
viên đó là nữ.
Giải:
Gọi A là biến cố “chọn đƣợc sinh viên đạt điểm giỏi”.
a) P(A) =
22
0,229
96
b) B là biến cố “sinh viên đƣợc chọn là nữ”, ta cần tính P(A|B).
Ta có: P(AB) =
10
96
; P(B) =
50
96
( ) 10 96
(A | B) . 0,2
(B) 96 50
P AB
P
P
b. Công thức nhân xác suất cho 2 biến cố
Từ ng thức xác suất điều kiện ta suy ra công thức nhân xác suất của
hai biến cố là:
(AB) (A | B)P(B) P(B | A)P(A)P P
dụ 4: Trong một hộp n 20 nắp bia Tiger, trong đó 2 nắp ghi
“Chúc mừng bạn đã trúng thƣởng xe BMW”. Bạn đƣợc chọn lên rút thăm lần lƣợt
hai nắp bia (rút không hoàn lại). Tính xác suất để cả hai nắp đều trúng thƣởng.
Giải:
Gọi A là biến cố “nắp bia rút đƣợc lần đầu là nắp có thƣởng”.
Gọi B là biến cố “nắp bia rút đƣợc lần hai là nắp có thƣởng”.
Ta cần tính P(AB).
Ta có: P(A) =
2
20
và P(B|A) =
1
19
Áp dụng công thức nhân: P(AB) = P(A)P(B|A) =
2 1 1
. 0,0053
20 19 190
Khái niệm sự độc lập của hai biến cố:
Hai biến cố A B đƣợc gọi độc lập với nhau trong một phép thử nếu
biến cố A có xảy ra hay không cũng không ảnh hƣởng đến khả năng xảy ra của
biến cố B và ngƣợc lại.
Các phát biểu sau là tƣơng đƣơng:
i) Hai biến cố A và B là độc lập với nhau
P(AB) = P(A)P(B).
ii) Hai biến cố A và B độc lập với nhau
P(A|B) = P(A) hoặc P(B|A)
= P(B).
5:dụ Trong bình 4 quả cầu trắng quả cầu 5 xanh.
Lấy ngẫu quả cầu. Gọi biến nhiên từ trong bình 1 ra A là cố lấy đƣợc quả
20
cầu xanh. Hiển nhiên P(A) = 5/9.
Quả cầu lấy đƣợc ra bỏ lại vào bình và tiếp tục lấy 1 quả cầu. Gọi B biến
cố lần 2 xanhthứ lấy đƣợc quả cầu , khi P(B) = 5/9. đó
ràng xác B không thay khi A hay suất của biến cố đổi biến cố xảy ra
không xảy ra ngƣợc lại. Vậy hai A B nhau. biến cố độc lập
* Chú ý:
Nếu A và B độc lập với nhau thì
A
và B, A và
B
,
A
và
B
cũng độc lập
với nhau.
* Mở rộng công thức nhân xác suất cho nhiều biến cố:
Cho 3 biến cố A, B, C, khi đó:
(ABC) P(A) P(B | A)P(C| AB)P
.
Khái niệm về một dãy biến cố độc lập:
Một dãy n biến cố A đƣợc gọi là độc lập với nhau (hay độc lập
1
, A
2
,…, A
n
trong toàn bộ) nếu mỗi biến cố độc lập với tích bất kỳ của các biến cố còn lại.
Khi đó:
1 2 1 2
(A A ...A ) P(A )P(A )...P(A )
n n
P
.
Ví dụ 6: Một nghiệp 3 ô tô hoạt động độc lập. Xác suất để trong một
ngày các ô bị hỏng lần lƣợt 0,1; 0,15 và 0,2. Tìm xác suất để trong một
ngày có:
a) Cả 3 ô tô bị hỏng.
b) Có ít nhất một ô tô bị hỏng.
Giải:
Gọi A,B,C lần lƣợt các biến cố trong một ngày ô tô thứ nhất, thứ hai
thứ ba bị hỏng.
P(A) = 0,1; P(B) = 0,15; P(C) = 0,2
a) Gọi D biến cố đúng một ô bị hỏng, ta sẽ biểu diễn biến cố D
thông qua các biến cố A, C nhƣ sau: B,
D ABC
.
các biến cố
, ,A B C
độc lập nên áp dụng công thức nhân xác suất ta
đƣợc:
( ) ( ) ( ) ( ) 0,1.0,15.0,2 0,003P D P A P B P C
b) Gọi E biến cố ít nhất một ô bị hỏng trong ngày, ta sẽ biểu diễn
biến cố E thông qua các biến cố A, B, C:
E A B C
khi đó
E AB C
Cách 1: Vì các biến cố
, ,A B C
độc lập, áp dụng công thức nhân xác suất:
21
( ) 1 ( ) 1 (A)P(B)P(C) 1 0,9.0,85.0,8 0,388P E P E P
Cách 2: Tính trực tiếp bằng công thức cộng xác suất cho 3 biến cố:
(E) ( )
( ) ( ) ( ) ( ) ( ) ( ) ( ) 0,388
P P A B C
P A P B P C P AB P BC P AC P ABC
* Các biến cố A, C độc lập nhƣng không xung khắc với nhau (Vì P(AB) B,
0) nên không thể tính
( ) ( ) ( ) ( )P E P A P B P C
.
Nhận xét:
Hai biến cố A và B xung khắc với nhau thì chƣa chắc A và B là hai biến cố
độc lập và ngƣợc lại, hai biến cố A và B là độc lập với nhau thì chƣa chắc A và
B xung khắc với nhau.
Ví dụ 7: Tung 2 đồng xu cân đối và đồng chất lên một mặt phẳng.
Gọi A là biến cố “Có đúng một đồng xu xuất hiện mặt sấp” => P(A) = 2/4.
B là biến cố “Cả hai đồng xu xuất hiện mặt sấp” => P(B) = 1/4.
Ta thấy A B hai biến cố xung khắc nhƣng không độc lập P(AB)
P(A)P(B).
BÀI TẬP
Bài 1: Cho A và B là các biến cố sao cho:
1 3 5
( ) , P(A B) , (B)
2 4 8
P A P
Tìm
(AB),P( B),P( ),P(B\ A)P A A B
.
Giải:
Ta có:
5 3
( ) 1 ( ) 1
8 8
P B P B
Theo công thức cộng xác suất:
( ) ( ) ( ) ( )P A B P A P B P AB
1
( ) ( ) ( ) ( )
8
P AB P A P B P A B
1
( ) ( ) 1 ( )
4
P AB P A B P A B
1
( ) ( ) 1 ( )
4
P A B P AB P AB
1
(B\ A) P(B) P(AB)
4
P
22
Bài 2: Cho A và B là các biến cố với
3 1
( ) , ( )
8 2
P A P B
, P(AB) =
1
4
.
Tìm:
a)
(A B).P
b)
( ), ( ).P A P B
c)
( ), ( ), ( \ ), ( | ).P AB P A B P B A P A B
i 3: Cho A B là các biến cố với
3
( )
4
P A B
,
2
( )
3
P A
và
1
( ) .
4
P AB
Tìm P(A), P(B) và P(A\ B).
Bài 4: Hệ thống báo cháy gồm một chuông một đèn tín hiệu. Xác suất
để khi có cháy chuông hỏng là 0, đèn hỏng 0 cả hai thiết bị đều hỏng 1; ,05;
0,01. Tính xác suất để khi có cháy cả hai thiết bị đều hoạt động.
Bài 5: Một lớp sinh viên có 50% học tiếng Anh, 40% học tiếng Pháp, 30%
học tiếng Đức, 10% học tiếng Anh tiếng Pháp, 15% học tiếng Anh tiế ng
Đức, 10% học Pháp và tiếng Đức, 5% học cả ba thứ tiếng. Tìm xác suất để khi
chọn ngẫu nhiên một sinh viên của lớp đó thì ngƣời đó học ít nhất một trong ba
ngoại ngữ kể trên.
Bài 6: Cho A, B là hai biến cố bất kỳ, chứng minh:
a)
( ) 1 ( ) ( ) ( ).P A B P A P B P AB
b)
( ) ( ) ( ) ( ).P A P AB P B P BA
Giải:
a)
( ) (A B) 1 (A B) 1 ( ) ( ) ( ).P A B P P P A P B P AB
b) Xét:
( ) ( )
( ) ( )
P(A) 1 P(A )
P(A) 1 P(A) P( ) ( )
1 ( ) ( ) ( ) ( )
VT P A P AB
P A P A B
B
B P AB
P B P AB P B P BA VP
Bài 7: Một ngƣời chuẩn bị đấu thầu hai dự án A và B (A đấu thầu trƣớc B).
Ngƣời đó khả năng trúng thầu dự án A là 70%. Nếu trúng thầ dự án A thì u
khả năng trúng thầu dự án B là 90%. Nếu không trúng thầu dự án A thì khả năng
trúng thầu dự án B còn 50%. Tìm khả năng của ngƣời đó:
a) Trúng thầu cả hai dự án.
b) Chỉ trúng thầu một dự án.
23
Giải:
Gọi A là biến cố ngƣời đó trúng thầu dự án A.
B là biến cố ngƣời đó trúng thầu dự án B.
Từ giả thiết: P(A) = 0,7; P(B|A) = 0,9;
(B| A) 0,5.P
a) Biến cố trúng thầu cả hai dự án là AB:
(AB) (B | A) P(A) 0,9.0,7 0,63P P
b) Biến cố chỉ trúng thầu một dự án là:
.AB AB
AB
AB
hai biến cố xung khắc nên áp dụng công thức cộng xác suất.
( ) ( ) P( )
P( | A)P(A) P(B | ) P( )
(1 P(B | A))P(A) P(B | )P( )
0,1.0,7 0,5.0,3
0,22
P AB AB P AB AB
B A A
A A
Bài 8: Một ngƣời chuẩn bị tham dự lấy phiếu tín nhiệm vào một chức vụ,
bắt buộc phải qua hai vùng, vùng I khả năng đủ tín nhiệm 60%. Nếu đủ
vùng I thì khả năng đủ tín nhiệm vùng II 85%, nếu không đủ vùng I thì
khả năng đủ tín nhiệm ở vùng II là 30%. Tìm khả năng của ngƣời đó:
a) Đủ tín nhiệm ở cả hai vùng.
b) Chỉ đủ tín nhiệm ở một vùng.
Bài 9: Một ngƣời có nguyện vọng thi vào hai trƣờng đại học. Đợt I thi vào
trƣờng A, khả năng đỗ là 90%. Nếu đợt I ngƣời đó thi đỗ thì khả năng thi đỗ đợt
hai vào trƣờng B là 99%, ngƣợc lại nếu đợt I thi trƣợt thì khả năng thi đỗ lần hai
chỉ còn là 50%. Tính xác suất ngƣời đó chỉ thi đỗ một trƣờng.
Bài 10: Một ngƣời đi mua hàng với xác suất chọn đƣợc hàng tốt 0,9.
Nếu lần trƣớc chọn đƣợc hàng xấu thì xác suất chọn đƣợc hàng tốt lần sau
95%, còn nếu lần trƣớc ngƣời đó chọn đƣợc hàng tốt thì không kinh nghiệm
gì khi mua lần sau. Ngƣời đó mua hàng hai lần, mỗi lần một sản phẩm. Tìm xác
suất để có một lần mua phải hàng xấu.
Bài 11: Cho A và B là các biến cố độc lập. Chứng minh rằng:
a) A và
B
. độc lập
b)
A
và B độc lập.
24
c)
A
B
độc lập.
Giải:
Theo giả thiết A B c biến cố độc lập nên P(A|B) = P(A) hoặc
P(B|A) = P(B) hoặc P(AB) = P(A)P(B).
a) Để chứng minh A và
B
độc lập ta cần chứng minh P(A
B
) = P(A)P(
B
).
Thật vậy:
(A ) P(A) P( | A)
P(A)(1 P(B | A))
P(A)(1 P(B))
P(A)P(B)
P B B
b) : Tƣơng tự trên
(A B) P(B) P( | B)
P(B)(1 P(A | B))
P(B)(1 P(A))
P(B)P( )
P A
A
c) Tƣơng tự trên, ta xét:
(AB) P(B)P( | B)
P(B)(1 P(A | B))
P(B)(1 P(A))
P(B) P( )
P A
A
(Vì A và
B
độc lập (theo cmt) nên có
P(A | B)
= P(A)).
Bài 12: Chứng minh rằng nếu A, B, C là ba biến cố độc lập thì A và
B C
là hai biến cố độc lập.
Giải:
Ta cần chứng minh
( (B C)) P(A) P(B C)P A
.
Từ giả thiết A,B,C độc lập ta có: P(AB) = P(A)P(B); P(AC) = P(A)P(C);
P(ABC) = P(A)P(BC).
Xét:
25
( (B C)) P(AB C)
P(AB) P(AC) P(AB.AC)
P(A)P(B) P(A)P(C) P(ABC)
P(A)P(B) P(A)P(C) P(A) P(BC)
P(A)(P(B) P(C) P(BC))
P(A)P(B C)
P A A
Bài 13: Hai xạ thủ mỗi ngƣời bắn một viên đạn vào cùng một bia. Xác suất
trúng đích của ngƣời thứ nhất 0,9 của ngƣời thứ hai 0,7. Tính các xác
suất của biến cố:
a) Có đúng một phát trúng.
b) Cả hai phát đều trúng.
c) Có ít nhất một phát trúng.
Giải:
Gọi A là biến cố ngƣời thứ nhất bắn trúng bia .
B là biến cố ngƣời thứ hai bắn trúng bia.
Theo giả thiết: P(A) = 0,9; P(B) = 0,7.
a) Biến cố có đúng một phát trúng là biến cố
.AB AB
Các biến A B độc lập các biến cố
AB
AB
xung khắc với nhau
nên ta có:
( ) (A ) P( B)
P(A) P( ) ( )P(B)
0,9.0,3 0,1.0,7 0,34
P AB AB P B A
B P A
b) Biến cố cả hai phát đều trúng đích là AB.
P(AB) = P(A)P(B) = 0,9.0,7 = 0,63
c) Biến cố có ít nhất một phát trúng là
.A B
( ) ( ) ( ) ( )
0,9 0,7 0,63 0,97
P A B P A P B P AB
Bài 14: Ba ngƣời mỗi ngƣời độc lập bắn một viên vào mục tiêu với xác
suất trúng tƣơng ứng là 0,6; 0,8; 0,7. Tính xác suất:
a) Chỉ có ngƣời thứ hai bắn trúng.
b) Có đúng một ngƣời bắn trúng.
c) Có ít nhất một ngƣời bắn trúng.
26
d) Cả ba ngƣời cùng bắn trúng.
e) Có đúng hai ngƣời bắn trúng.
f) Có ít nhất hai ngƣời bắn trúng.
g) Có không quá hai ngƣời bắn trúng.
Bài 15: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để ít nhất
một lần trúng đích là 0,875. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 16: Bắn độc lập ba viên đạn vào cùng một bia. Xác suất trúng đích của
viên thứ nhất, viên thứ hai, viên thứ ba lần lƣợt là 0,4; 0,5; 0,7.
a) Tìm xác suất sao cho trong ba viên có đúng một viên trúng đích.
b) Tìm xác suất để có ít nhất một viên trúng đích.
Bài 17: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để ít nhất
một lần trúng đích là 0,936. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 18: Một máy tính điện tử gồm n bộ phận hoạt động độc lập. Xác suất
hỏng trong khoảng thời gian t của bộ phận thứ k bằng n). Nếu ít p = 2...
k
(k 1,
nhất một bộ phận hỏng thì máy sẽ ngừng làm việc. Tính xác suất để máy ngừng
làm việc trong khoảng thời gian t.
Giải:
Gọi A là biến cố bộ phận thứ k hỏng trong khoảng thời gian t
k
.
=> P(A ) = p = 2... .
k k
(k 1, n)
Gọi B là biến cố để máy ngừng làm việc:
1 2
1 2
1
(B) 1 P( )P( )...P( )
1 (1 p )(1 p )...(1 p )
1 (1 )
n
k
n
i
i
P A A A
p
Bài 19: một cơ quan có ba chiếc xe ô tô hoạt động độc lập. Khả năng có
sự cố của mỗi ô tô tƣơng ứng là 0,15; 0,2; 0,1.
a) Tìm khả năng cả ba ô tô cùng bị hỏng.
b) Tìm khả năng có ít nhất một chiếc hoạt động đƣợc.
c) Tìm khả năng cả ba ô tô cùng hoạt động đƣợc .
d) Tìm khả năng có không quá hai ô tô bị hỏng.
Bài 20: Một chi tiết đƣợc gia công một cách độc lập qua ba công đoạn nối
tiếp với nhau chất lƣợng chi tiết chỉ đƣợc kiểm tra sau khi đã đƣợc gia công
27
xong. Xác suất gây ra khiếm khuyết cho chi tiết các công đoạn tƣơng ứng
0,2; 0,15; 0,1. Tìm xác suất để sau khi gia công chi tiết.
a) Có khiếm khuyết.
b) Bị ít nhất hai khiếm khuyết.
c) Bị cả ba khiếm khuyết.
d) Không bị khiếm khuyết nào.
e) Bị không quá một khiếm khuyết.
1.4. Bernoulli Công thức
1.4.1. Dãy phép thử Bernoulli
Khái niệm dãy phép thử Bernoulli: Xét một dãy các phép thử độc lập.
Các phép thử này đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử chỉ có hai kết quả: A và
;A
- Xác suất P(A) = p(0 < p < 1) không đổi cho mi phép thử.
Giá trị đƣợc gọi là xác suất thành công trong mỗi lần thử.p
Chú ý: Dãy phép thử độc lập dãy các phép thử mà kết quả của phép thử
này không làm ảnh hƣởng tới kết quả của phép thử khác.
Công thức này mang tên nhà toán học ngƣời Thụy Sĩ Jacob Bernoulli (còn
đƣợc biết đến với tên James hoặc Jacques) (1654 1705).
Ví dụ 1: Gieo một đồng xu cân đối và đồng chất 5 lần => Đó là dãy 5 phép
thử Bernoulli.
Ví dụ 2: Một ngƣời bắn độc lập lần lƣợt 10 viên đạn vào bia => Đó dãy
10 phép thử Bernoulli.
1.4.2. Công thức Bernoulli
Xác suất để trong n lần thực hiện phép thử, biến cố A xảy ra đúng k lần
(0 )k n
với xác suất mỗi lần A xảy ra p . Đƣợc hiệu (0 < p <1)
P
n
(k,p) và cho bởi công thức sau:
k k n-k
n n
P (k,p) = C p (1-p)
Công thức trên đƣợc gọi là công thức Bernoulli.
Chứng minh công thức Bernoulli:
Gọi B biến cố trong n lần thực hiện phép thử biến cố A xảy ra đúng k
lần. Ta biểu diễn biến cố B là tích của các biến cố A và
A
nhƣ sau:
28
...AA
n
B AAAA A A
Lƣu ý vị trí của các biến cố A và
A
xuất hiện trong dãy trên ngẫu
nhiên, các biến cố A và
A
là độc lập với nhau.
Ta có số cách xếp k vị trí cho A trong n vị trí trên là
k
n
C
.
Từ đó:
( ) ( ) ( )...P( ) ( )...P( ) ( ) (1 )
k k k n k
n n
k n k
P B C P A P A A P A A P A C p p
dụ 3: Xác suất để một cây con sống sót sau khi mắc một loại sâu bệnh
hiếm thấy là 0,4. Nếu biết rằng có 8 cây con mắc loại sâu bệnh này, tìm xác suất
để trong 8 cây đó:
a) Có đúng 1 cây sống sót.
b) Có đúng 3 cây sống sót.
Biết rằng khả năng sống sót của mỗi cây là độc lập với nhau.
Giải:
Đây là dãy các phép thử Bernoulli với n = 8 và p = 0,4.
a) Xác suất để có 1 cây sống sót là:
1 7
8 8
(1;0,4) (0,4)(0,6) 0,0896P C
b) Xác suất để có 3 cây sống sót là:
3 3 5
8 8
(3;0,4) (0,4) (0,6) 0, 279P C
Mở rộng bài toán: Tính xác suất để trong n lần thực hiện phép thử:
i) Biến cố A xảy ra từ k đến k
1
2
lần.
ii) A xảy ra ít nhất 1 lần.
iii) Tìm số lần biến cố A xảy ra có khả năng nhất .
iv) Tìm số lần thực hiện phép thử tối thiểu để thỏa mãn điều kiện nào đó.
Giải quyết bài toán:
Sử dụng công thức Bernoulli đã xây dựng trên các quy tắc đếm, ta dễ
dàng chứng minh đƣợc các công thức sau:
i) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là :
1 2 1 1 2
( ) ( ) ( 1) .... ( )
n n n n
P k k k P k P k P k
ii) Xác suất để biến cố A xảy ra ít nhất một lần là:
29
(1 ) 1 (0) 1 (1 p)
n
n n
P k n P
iii) Số lần A xảy ra có khả năng nhất là số nguyên k thỏa mãn:
0
0 0
( 1) 1 ( 1) ( 1)n p k n p k n p
Số nguyên k trên đƣợc gọi giá trị chắc chắn nhất của số thành công
0
hay giá trị khả năng xảy ra lớn nhất. P p) là số hạng trung tâm của phân
n
(k
0
,
bố nhị thức mà ta sẽ học ở chƣơng sau.
iv) Phƣơng pháp giải sẽ đƣợc xét trong từng bài toán cụ thể.
Ví dụ 3: Một xạ thủ bắn lần lƣợt 6 viên đạn vào một mục tiêu với xác suất
trúng trong mỗi lần bắn là 0,8. Tìm xác suất sao cho:
a) Có đúng 2 viên trúng mục tiêu.
b) Có không quá 2 viên trúng mục tiêu.
c) Có ít nhất 1 viên trúng mục tiêu.
d) Tìm số viên trúng mục tiêu có khả năng nhất.
e) Phải bắn bao nhiêu lần đểc suất có ít nhất 1 viên trúng mục tiêu là 90%?
Giải:
Dãy phép thử ở đây là dãy phép thử Bernoulli với n = 6 và p = 0,8.
a) Áp dụng công thức Bernoulli:
( ; ) ( )
k k n k
n n n
P k p P k C p q
Xác suất có đúng 2 viên trúng mục tiêu là:
2 2 4
6 6 6
(2;0,8) (2) (0,8) (0,2) 0,01536P P C
b) Xác suất có không quá 2 viên trúng mục tiêu là:
0 0 6 1 5 2 2 4
6 6 6 6 6 6 6
(0 2) (0) (1) (2) 0,8 .0,2 0,8.0,2 0,8 .0,2
0,01696
P k P P P C C C
c) Xác suất có ít nhất 1 viên trúng mục tiêu là:
6
6
(1 6) 1 (1 0,8) 1 0,000064 0,999936P k
d) Số viên trúng có khả năng nhất là k thỏa mãn:
0
0 0 0
7.0,8 1 7.0,8 4,6 5,6 5k k k
e) Gọi n là số lần bắn để xác suất có ít nhất 1 viên trúng mục tiêu là 0,9
0
.
Vậy
0 0
1 (1 ) 0,9 (1 ) 0,1
n n
p p
.
Với p = 0,8 thay vào trên ta đƣợc
0
0
log0,1
(1 0,8) 0,1
log0,2
n
n
.
dụ 4: Tín hiệu thông tin đƣợc phát đi 3 lần độc lập nhau. Xác suất thu
đƣợc tín hiệu ở mỗi lần là 0,4.
30
a) Tìm xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần.
b) Tìm xác suất để nguồn thu nhận đƣợc thông tin đó.
c) Nếu muốn c suất thu đƣợc tin
0,9 thì phải phát đi ít nhất bao nhu lần?
Giải:
thể xem mỗi lần phát tin một phép thử Bernoulli với mục đích thành
công của phép thử nguồn thu nhận đƣợc tin. Theo giả thiết xác suất thành
công p của mỗi lần thử là 0,4.
a) Xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần là:
2 2
3 3
(2,0,4) C (0, 4) (0,6) 0,288P
b) Xác suất để nguồn thu nhận đƣợc thông tin là xác suất để có ít nhất 1 lần
nguồn thu nhận đƣợc thông tin.
3 3
3 3
(1 3) 1 (0) 1 (1 p) 1 (0,6) 0,784P k P
c) Xác suất để nguồn thu nhận đƣợc thông tin khi phát đi n lần là:
(1 ) 1 (0) 1 (1 p) 1 (0,6)
n n
n n
P k n P
Để:
log(0,1)
(1 ) 0,9 1 0,6 0,9 0,6 0,1 4,504.
log(0,6)
n n
n
P k n n
Vì n nguyên dƣơng nên ta chọn n = 5.
BÀI TẬP
Bài 1: Xác suất nảy mầm của mỗi hạt giống 0,4. Ngƣời ta gieo các hạt
giống vào các hốc, mỗi hốc 4 hạt. Tính xác suất để mỗi hốc ít nhất một hạt
nảy mầm.
Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Xác suất để mỗi hốc có ít nhất một hạt nảy mầm là:
4 4
4
(1 4) 1 (1 p) 1 (0,6) 0,8704P k
Bài 2: Một lô hàng chứa rất nhiều sản phẩm với tỷ lệ phế phẩm là p = 0,02.
Cần phải lấy một mẫu với cỡ mẫu bằng bao nhiêu sao cho xác suất để có ít nhất
một phế phẩm trong mẫu đó không bé hơn 0,95?
Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Gọi n là số sản phẩm cần lấy. A là biến cố có ít nhất một phế phẩm trong n
sản phẩm lấy ra.
31
( ) (1 ) 1 (1 p) 1 (0,98)
n n
n
P A P k n
Để:
log(0,05)
( ) 0,95 1 0,98 0,95 0,98 0,05 148
log(0,98)
n n
P A n n
Vậy số hạt giống cần lấy n = 148.
Bài 3: Tỷ lệ học sinh trong trƣờng bị cận thị 1%. Hỏi cần lấy một mẫu
cỡ bao nhiêu (chọn bao nhiêu học sinh) để trong mẫu đó có ít nhất một học sinh
bị cận thị với xác suất không bé hơn 0,95?
Bài 4: Bắn độc lập 14 viên đạn vào một mục tiêu. Xác suất trúng đích của
mỗi viên đạn bằng 0,2. Mục tiêu bị phá hủy hoàn toàn nếu ít nhất hai viên
đạn trúng mục tiêu. Tìm xác suất để mục tiêu bị phá hủy hoàn toàn.
Bài 5: Một nữ công nhân quản 12 máy dệt. Xác suất để mỗi máy dệt
trong khoảng thời gian T cần đến sự chăm sóc của nữ công nhân bằng 1/3. Tính
xác suất để:
a) Trong khoảng thời gian T có 4 máy cần đến sự chămc của nữ công nn.
b) Trong khoảng thời gian T số máy cần đến sự chăm sóc của nữ công nhân
không bé hơn 3, không lớn hơn 6.
Bài 6: Phải gieo 2 đồng xu bao nhiêu lần đvới xác suất không nhỏ hơn
0,99 có thể tin rằng có ít nhất một lần đƣợc cả hai mặt sấp.
1.5. Công thức xác suất đầy đủ và công thức Bayes
1.5.1. Giới thiệu khái niệm nhóm đầy đủ
Dãy n biến cố B
1
, B
2,
…, B
n
lập thành một nhóm đầy đủ các biến cố nếu nó
thỏa mãn các điều kiện sau đây:
- Hợp của chúng là biến cố chắc chắn, tức là:
- Các biến cố đó đôi một xung khắc, tức là:
Một số ví dụ về nhóm đầy đủ:
Ví dụ 1: Trong 1 thùng thóc chỉ 2 loại thóc thóc đã nảy mầm thóc
chƣa nảy mầm. Lấy ngẫu nhiên 1 hạt thóc trong thùng.
Gọi là biến cố “Hạt thóc lấy ra là thóc đã nảy mầm”A .
Gọi là biến cố “Hạt thóc lấy ra là thóc chƣa nảy mầm”B .
1
n
i
, ; , 1,
i j
B B i j i j n
32
Nhóm các biến cố thành nhóm đầy đủ các biến cố.A, B tạo
Ví dụ 2: Một ngƣời bắn 3 viên đạn vào bia. là biến cố “Sau 3 lần bắn B
i
đúng viên trúng vào bia”, i i = 0, 1, 2, 3.
Nhóm các biến cố không tạo thành nhóm đầy đủ các biến cố.B
1
, B , B
2 3
Nhóm các biến cố B tạo thành nhóm đầy đủ các biến cố
0
, B
1
, B , B
2 3
.
1.5.2. Công thứ ất đầy đủc xác su và công th c Bayes
Giả sử là một nhóm đầy đủ các biến cố. Xét biến cố B
1
, B
2,
…, B
n
A sao cho
A xảy ra khi và chỉ khi một trong các biến cố B
1
, B
2,
…, B
n
xảy ra.
Đặt:
Ta có:
các B
i
xung khắc từng đôi nên các AB
i
cũng xung khắc từng đôi (i =
1,…, n):
Công thức xác suất đầy đủ:
Tiếp tục áp dụng công thức nhân xác suất:
Thay công thức tính P(A) ở trên ta đƣợc công thức Bayes :
Công thức Bayes 1761, một linh mục (mang tên Thomas Bayes, 1702 -
đồng thời là ngƣời có những nghiên cứu về xác suất).
dụ 3: 2 hộp đựng sản phẩm, hộp thứ nhất 10 sản phẩm trong đó
9 sản phẩm màu trắng 1 sản phẩm màu đen, hộp thứ 2 20 sản phẩm
trong đó có 18 sản phẩm màu trắng và 2 sản phẩm màu đen. Từ hộp thứ nhất lấy
ngẫu nhiên ra 1 sản phẩm bỏ sang hộp thứ 2. Tìm xác suất để lấy ngẫu nhiên
một sản phẩm từ hộp thứ 2 đƣợc sản phẩm màu trắng.
1
n
i
1 2 1 2
AS ( ... ) ...
n n
A A B B B AB AB AB
1
( ) ( )
n
i
i
P A P AB
( ) ( | ) ( )
n
i i
i
P A P A B P B
( ) ( | ) ( )
( | )
( ) ( )
k k k
k
P AB P A B P B
P B A
P A P A
( | ) ( )
( | )
( | ) ( )
k k
k
n
i i
i
P A B P B
P B A
P A B P B
33
Giải:
Gọi A là biến cố “Sản phẩm lấy từ hộp thứ 2 là sản phẩm màu trắng”.
Biến cố xảy ra đồng thời với một trong hai biến cố sau:A
B
1
: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu trắng”.
B
2
: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu đen”.
Khi đó tạo thành nhóm biến cố đầy đủ. (B
1
, B
2
)
Áp dụng công thức xác suất đầy đủ ta có:
Ví dụ 4: Tỷ lệ ngƣời dân nghiện thuốc lá là 30%, biết rằng tỷ lệ ngƣời viêm
phổi trong số ngƣời nghiện thuốc lá 60%, còn tỷ lệ ngƣời viêm phổi trong số
ngƣời không hút thuốc là 40%.
a. Chọn ngẫu nhiên 1 ngƣời. ính xác suất để ngƣời đó bị viêm phổi T .
b. TChọn ngẫu nhiên 1 ngƣời, biết rằng ngƣời đó viêm phổi. ính xác suất
ngƣời đó nghiện thuốc lá.
Giải:
Gọi A là biến cố “Chọn ra một ngƣời bị viêm phổi”.
Gọi B là biến cố “Ngƣời đƣợc chọn ra là ngƣời nghiện thuốc”
1
.
Gọi B là biến cố “Ngƣời đƣợc chọn ra là ngƣời không nghiện thuốc”
2
.
Nhóm biến cố đầy đủ ở đây là {B
1
, B
2
}.
Ta có: P(B ) = 0,3; P(B ) = 0,7
1 2
P(A|B ) = 0,6, P(A|B ) = 0,4
1 2
a) Áp dụng công thức xác suất đầy đủ:
P(A) = 0,3.0,6 + 0,7.0,4 = 0,46
b) Áp dụng công thức Bayes:
Nhận xét:
Ngƣời ta thƣờng áp dụng công thức xác suất đầy đủ khi phép thử có nhiều
hơn 1 bƣớc thử.
Mấu chốt để giải bài toán phải thành lập đƣợc nhóm biến cố đầy đủ,
thông thƣờng ngƣời ta lấy nhóm biến cố đầy đủ các kết quả thể có của
1 1 2 2
9 19 1 18
( ) ( ) ( | ) ( ) ( | ) 0,9
10 21 10 21
P A P B P A B P B P A B
1 1
1
( | ) ( ) 0,3.0,6
( | ) 0,39
( ) 0,46
P A B P B
P B A
P A
34
bƣớc thứ nhất.
Nhóm biến cố đầy đủ không duy nhất, để tính xác suất của biến cố có thể A
dựa vào nhóm đầy đủ này hoặc nhóm đầy đủ khác, miễn quan hệ giữa A
nhóm đầy đủ phải thỏa mãn xảy ra khi chỉ khi 1 trong các biến cố của : A
nhóm đầy đủ phải xảy ra.
Khi nào dùng công thức xác suất đầy đủ và khi nào dùng công thức Bayes?
Công thức xác suất đầy đủ giúp ta tính xác suất của 1 biến cố A thông qua 1
nhóm các giả thiết đầy đủ B
1,
B
2 n
, …, B . Công thức Bayes thì ngƣợc lại, giúp ta
tính xác suất xảy ra của các giả thiết khi biến cố A xảy ra.B
1,
B
2
, …, B
n
Ý nghĩa của công thức Bayes:
- B
1
, B
2
, …, B
n
thƣờng đƣợc gọi là các giả thuyết;
- Các P(B
1
), P(B
2
), …, P(B
n
) đƣợc xác định trƣớc khi phép thử đƣợc tiến
hành gọi là các xác suất tiên nghiệm;
- Các xác suất gọi là các xác suất hậu nghiệm P(B |A)
1
|A), P(B
2
|A), …, P(B
n
(đƣợc xác định sau khi phép thử đã tiến hành và biến cố đã xảy ra)A .
Công thức Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau
khi đã biết kết quả của phép thử. Vì vậy công thức Bayes còn đƣợc gọi là công ,
thức xác suất hậu nghiệm.
Mô tả một áp dụng bằng sơ đồ chẩn đoán bệnh:
Giả sử tại 1 bệnh viện o đó các bệnh nhân mắc một trong n bệnh B
1,
B
2
,, B
n
.
Ta hiệu tập các triệu chứng bệnh nhân. Khi đó các xác suất A
P(B P(A|B
1
), P(B
2
), …, P(B
n
)
1
), P(A|B
2
), …, P(A|B
n
) thể đƣợc tính dựa
trên số liệu thống kê của các năm trƣớc. Cụ thể:
P(B
i
) bằng tần suất bệnh trong số những bệnh nhân của bệnh viện đóB
i
.
P(A|B A
i
) bằng tần suất thấy tập hợp dấu hiệu những bệnh nhân bị bệnh
B
i
ở bệnh viện.
Áp dụng công thức Bayes cho ta xác suất chuẩn đoán bệnh khi thấy các B
i
triệu chứng A.
BÀI TẬP
Bài 1: Tại một phòng khám bệnh chuyên khoa, trong số những ngƣời đến
khám có 80% mắc bệnh. Phòng khám dùng một dụng cụ chuyên dụng để chuẩn
đoán bệnh. Nếu có bệnh thì thiết bị cho kết quả dƣơng tính với xác suất 0,8. Nếu
không có bệnh thì cho kết quả dƣơng tính với xác suất 0,3.
a) Tính xác suất để một ngƣời đến khám bệnh cho kết quả dƣơng tính.
b) Giả sử một ngƣời đến khám bệnh máy cho kết quả dƣơng tính. Tính
xác suất để ngƣời đó có bệnh; không có bệnh.
35
Giải:
a) Gọi B là biến cố ngƣời đến khám có bệnh
1
.
B
2
là biến cố ngƣời đến khám không có bệnh.
A là biến cố thiết bị cho kết quả dƣơng tính.
Khi đó B lập thành một hệ đầy đủ các biến cố. Theo giả thiết
1
, B
2
:
P(B
1
) = 0,8; P(B ) = 0,2; P(A|B ) = 0,8; P(A|B ) = 0,3
2 1 2
Theo công thức xác suất đầy đủ ta có:
P(A) = P(A|B
1
)P(B
1
) + P(A|B ) = 0,8.0,8 + 0,2.0,3 = 0,7
2
)P(B
2
b) Theo công thức Bayes:
1 1
1
( | ) ( ) 0,64
( | ) 0,91
( ) 0,7
P A B P A
P B A
P A
2 2
2
( | ) ( ) 0,06
( | ) 0,086
( ) 0,7
P A B P B
P B A
P A
Bài 2: Tiến hành thử phản ứng thuốc trên 100 ngƣời trong đó 50 ngƣời
khỏe 50 ngƣời yếu. Tỷ lệ phản ứng dƣơng tính trong số ngƣời khỏe 0,05
còn trong số ngƣời yếu là 0,8. Chọn ngẫu nhiên một ngƣời trong số đó:
a) Tính xác suất để ngƣời đó có phản ứng dƣơng tính.
b) Giả sử ngƣời đó phản ứng dƣơng tính. m xác suất để ngƣời đó
ngƣời khỏe; ngƣời yếu.
Bài 3: Đem kiểm tra một hàng gồm các sản phẩm do hai nghiệp I
II sản xuất. Sản phẩm của xí nghiệp I chiếm 45%, xí nghiệp II chiếm 55%. Tỷ lệ
sản xuất ra phế phẩm của nghiệp I 2%, nghiệp II 2,5%. Biết rằng sản
phẩm đem kiểm tra phế phẩm. Khả năng sản phẩm đó do nghiệp nào sản
xuất ra nhiều nhất?
Bài 4: Hai nhà máy cùng sản xuất một loại sản phẩm. Tỷ lệ phế phẩm của
nhà máy I 0,03; của nhà máy II 0,02. Từ một kho gồm 2/3 sản phẩm của
nhà máy I và 1/3 của nhà máy II ta lấy ra một sản phẩm
a) Tính xác suất để sản phẩm lấy ra đó là tốt
b) Giả sử sản phẩm lấy ra là tốt. Tính xác suất để sản phẩm đó thuộc ô I,II.
Bài 5: 14 xạ thủ: 5 ngƣời bắn trúng đích với xác suất 0,8, 7 ngƣời bắn
trúng đích với xác suất 0,6 2 ngƣời bắn trúng đích với xác suất 0,5. Chọn
ngẫu nhiên một ngƣời cho bắn một phát nhƣng không trúng. Ngƣời đó khả
năng thuộc nhóm nào nhất?
Bài 6: 10 hộp bi trong đó 4 hộp loại I mỗi hộp chứa 3 bi trắng 5 bi
đỏ; 3 hộp loại II mỗi hộp chứa 4 bi trắng và 6 bi đỏ; hộp loại III mỗi hộp chứa 3
36
2 bi trắng và 5 bi đỏ.
a) Lấy ngẫu nhiên một hộp từ đó lấy ngẫu nhiên 1 bi. Tính xác suất để
đƣợc bi đỏ.
b) Lấy ngẫu nhiên một hộp từ đó lấy ngẫu nhiên 1 bi thì đƣợc bi trắng.
Tìm xác suất để bi đó đƣợc lấy từ hộp loại I; loại II; loại III.
Bài 7
*
: Một xạ thủ bắn vào một mục tiêu ba viên đạn độc lập với nhau. Xác
suất trúng đích của mỗi viên đạn là 0,4. Mục tiêu bị phá hủy với xác suất 0,2 nếu
có 1 viên trúng đích; với xác suất 0,5 nếu có hai viên trúng đích và 0,8 nếu có ba
viên trúng đích. Tìm xác suất để mục tiêu bị phá hủy.
Bài 8: Một hạt giống đƣợc thu gom từ ba nguồn khác nhau. Nguồn I
chiếm ½ số hạt của lô; nguồn II chiếm 1/3 số hạt của lô; còn lại là nguồn III. Tỷ
lệ hạt nảy mầm đối với các hạt thuộc các nguồn tƣơng ứng là 90%; 80%; 70%.
a) Tính tỷ lệ nảy mầm chung của cả lô hạt giống.
b) Lấy ngẫu nhiên từ lô ra một hạt gặp hạt không nảy mầm. Thử đoán xem
hạt đó từ nguồn nào? Vì sao?
Bài 9: hai hộp đựng các mẫu hàng xuất khẩu. Hộp thứ nhất đựng 10
mẫu trong đó 6 mẫu loại A 4 mẫu loại B. Hộp thứ hai đựng 10 mẫu trong
đó có 3 mẫu loại A và 7 mẫu loại B.
a) Giả sử xác suất lựa chọn các hộp lần ợt 0,55 0,45. Chọn ngẫu
nhiên một hộp từ đó lấy ngẫu nhiên một mẫu. Tính xác suất để mẫu lấy ra
loại A.
b) Chọn ngẫu nhiên một hộp từ đó lấy ngẫu nhiên mt mẫu thì đƣợc
mẫu loại A. Hỏi mẫu đó có khả năng thuộc loại nào?
Bài 10: Trong một thùng kín thứ nhất 10 viên bi gồm 8 bi trắng và 2 bi
đen; trong thùng kín thứ hai 20 viên bi trong đó 4 trắng 16 đen. Lấy
ngẫu nhiên từ mỗi thùng một viên bi sau đó lại lấy ngẫu nhiên một trong hai
viên đó. Tính xác suất để lấy đƣợc bi trắng.
TÓM TẮT CHƢƠNG I
1. Định nghĩa cổ điển về xác suất:
Xác suất của biến cố A là P(A) =
.
m
n
Trong đó:
+ m là số trƣờng hợp thuận lợi đối với A;
+ n là số trƣờng hợp đồng khả năng (số các trƣờng hợp có thể xảy ra).
2. Định nghĩa thống kê về xác suất:
37
( ) lim (A)
n
n
P A f

, trong đó tỷ số
(A)
n
k
f
n
đƣợc gọi tần suất xuất hiện
biến cố A.
3. “Nguyên lý xác suấ ỏ”: t nh Nếu m t bi n cế xác su t r t nh thì thc
tế có th cho r ng bi n c không x y ra trong m t l n th c hi n phép th . ế đó sẽ
4. “Nguyên lý xác suấ ớn”: Nết l u biến c A xác sut gn bng 1 thì trên
thc tế có th cho r ng bi n c ế đó sẽ xy ra trong m t phép th .
5. Quan hệ của các biến cố:
Lý thuy t t p h p ế
Lý thuy t xác suế t
Tp
-
là không gian các bi n c ế sơ cấp
(không gian mu).
-
là bi n c c ch n. ế ch
Tp rng
là bi n c không th . ế
A B
x
A B
nghĩa là
x A
thì
x B
Biến c A kéo theo bi n c B. ế
A B
là h p c a hai t p h p.
x
A B
nghĩa là
x A
hoc
x B
A B
là bi n c ít nh t m t trong hai ế
biến c A ho c B x y ra.
A B
là giao c a hai t p h p
x
A B
nghĩa là
x A
x B
A B
(hoc kí hiu là AB) là bi n c c ế
hai bi n c A và B cùng x y ra. ế
A B
A B
thì A và B là hai bi n c ế
xung kh c.
\A B
là hi u c a hai t p h p
x
nghĩa là
x A
x B
\A B
là hi u c a hai bi n c ế : A xy ra
nhƣng B không xảy ra.
\A S A
\A S A
là bi n c i cế đố a biến c A,
tc là
A
x y ra n u A không x y ra. ế
6. Công thức cộng:
Trƣờng hợp tổng quát:
( ) ( ) ( ) ( )P A B P A P B P AB
.
Trƣờng hợp xung khắc:
( ) ( ) ( )P A B P A P B
.
Nếu
B A
ta có:
1 ( ) ( ) ( )P A A P A P A
.
7. Công thức nhân:
Xác suất của B với điều kiện A đã xảy ra là
(AB)
(A | B) .
(B)
P
P
P
38
Công thức nhân trong trƣờng hợp tổng quát:
(AB) (A | B)P(B) P(B| A) P(A)P P
Nếu A và B độc lập thì P(AB) = P(A)P(B).
Nếu A và B độc lập với nhau thì
A
và B, A và
B
,
A
và
B
cũng độc lập
với nhau.
8. Công thức xác suất đầy đủ:
9. Công thức Bayes (CT hậu nghiệm) :
10. Công thức Bernoulli:
Các phép thử đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử có hai kết quả: A và
A
;
- Xác suất P(A) = p không đổi cho mọi phép thử.
i) Xác suất để biến cố A xảy ra đúng k lần trong n phép thử là:
( ; ) ( ) ; 1
k k n k
n n n
P k p P k C p q q p
ii) Xác suất để biến cố A xảy ra từ k đến k lần là
1
2
:
1 2 1 1 2
( ) ( ) ( 1) .... ( )
n n n n
P k k k P k P k P k
iii) Xác suất để biến cố A xảy ra ít nhất một lần là:
(1 ) 1 (0) 1 (1 p)
n
n n
P k n P
iv) Số lần A xảy ra có khả năng nhất là số nguyên k thỏa mãn:
0
0
( 1) 1 ( 1)n p k n p
Chƣơng 2
BIẾN NGẪU NHIÊN
2.1. Khái niệm biến ngẫu nhiên
2.1.1. Khái niệm
Khi tiến hành một , các kết quả của phép thử thƣờng là phép thử ngẫu nhiên
các đặc trƣng định tính (biến cố ngẫu nhiên). Tuy nhiên trong nhiều phép thử ,
mỗi một kết quả của phép thử thƣờng đƣợc gán tƣơng ứng với một gtrị định
( ) ( | ) ( )
n
i i
i
P A P A B P B
( | ) ( )
( | )
( | ) ( )
k k
k
n
i i
i
P A B P B
P B A
P A B P B
39
lƣợng nào đó.
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Kí hiệu A
1
, A , A ,
2,
A
3 4
A
5
, A
6
lần lƣợt biến cố “mặt 1 chấm xuất hiện”, “mặt 2 chấm xuất hiện”...
“mặt 6 chấm xuất hiện”.
Thay xét các biến cố nhƣ trên, ta xét đại lƣợng X số chấm xuất hiện
khi gieo con xúc xắc. Khi đó X thể nhận các giá trị 1, 2, 3, 4, 5, 6 một cách
ngẫu nhiên.
a) Khái niệm: Biến ngẫu nhiên là đại lƣợng nhận giá trị thực tùy thuộc vào
kết quả của phép thử ngẫu nhiên.
Ta thƣờng dùng các chcái X, Y, Z,... đhiệu các biến ngẫu nhiên
các chữ cái thƣờng x, y, z hoặc x
i
, y
i i
, z ,... để chỉ các giá trị cụ thể mà biến ngẫu
nhiên đó nhận.
Nhƣ vậy đối với biến ngẫu nhiên ngƣời ta chquan m xem nhận ,
một giá trị nào đó hoặc nhận g trtrong một khoảng nào đó với xác suất
bằng bao nhiêu.
b) Ví dụ
Ví dụ 2: Gieo đồng thời hai con xúc xắc. Gọi X là tổng số chấm xuất hiện ở
hai mặt trên.
=> X là biến ngẫu nhiên nhận một trong các gtrị: {2, 3, 4, 5, 6, ...., 11, 12}.
Ví dụ 3: Một ngƣời bắn vào bia cho tới khi trúng mục tiêu thì dừng. Gọi Y
là số viên đạn cần dùng.
=> Y là biến ngẫu nhiên nhận các giá trị: 1, 2, 3, ..., n, ...
Ví dụ 4: Gọi Z là thời gian sống của một con chíp điện tử.
=> Z là biến ngẫu nhiên nhận các giá trị thực
0 Z 
.
2.1.2. Phân loại
Ngƣời ta phân các biến ngẫu nhiên thành hai loại: biến ngẫu nhiên rời rạc
và biến ngẫu nhiên liên tục.
- Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà các giá trị nó có thể nhận là
tập hữu hạn hoặc vô hạn đếm đƣợc ( í dụ í dụ v 2, v 3).
- Biến ngẫu nhiên liên tục biến ngẫu nhiên các giá trị của thể
nhận là tất cả mọi điểm trong khoảng (a; b) nào đó, a có thể bằng

và b có thể
bằng

(v í dụ 4).
40
2.2. Luật phân phối xác suất
2.2.1. Hàm phân phối xác suất
a) Định nghĩa
Hàm phân phối xác suất của biến ngẫu nhiên X, hiệu F(x), đƣợc xác
định theo công thức:
F(x) = P(X < x),
x R
Nhƣ vậy tại một điểm x bất kỳ, hàm F(x) chính xác suất để biến ngẫu ,
nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x.
b) Tính chất
Hàm phân phối của biến ngẫu nhiên có các tính chất sau:
1.
0 (x) 1F
.
2. Hàm phân phối hàm đơn điệu không giảm, nghĩa nếu
1 2
x x
thì
1 2
( ) ( )F x F x
.
3.
(a X ) (b) (a)P b F F
.
4. Hàm phân phối là hàm liên tục bên trái, nghĩa là
lim ( ) ( )
x a
F x F a
.
5.
lim ( ) 0
x
F x

lim ( ) 1
x
F x

.
Ví dụ 1: Cho biến ngẫu nhiên liên tục X có hàm phân phối F(x) nhƣ sau:
F(x) = a + b.arctanx
Tìm a và b.
Giải:
Từ điều kiện:
lim ( ) 0
lim ( ) 1
x
x
F x
F x


Ta có hệ phƣơng trình:
1
lim ( arctan ) 0 0
2
2
1
lim ( arctan ) 1
1
2
x
x
aa b x a b
a b x
b
a b


2.2.2. Bảng phân phối xác suất
Giả sử X biến ngẫu nhiên rời rạc nhận các giá trị thể với xác suất x
i
tƣơng ứng ... Ta thể biểu diễn dƣới dạng p
i
( } = ); 0, = 1, 2P X=x{
i
p
i
p
i
> i
41
bảng nhƣ sau:
X
x
1
x
2
... x
n
...
P
p
1
p
2
... p
n
...
với
1.
i
i
p
Bảng trên đƣợc gọi là bảng phân phối xác suất (hay phân phối xác suất) của
biến ngẫu nhiên X.
Ví dụ 2: Gieo một con xúc xắc cân đối và đồng chất. Ký hiệu X là số chấm
thu đƣợc trên con xúc xắc.
a) Tìm phân phối xác suất của X.
b) Viết hàm phân phối của X.
c) Tìm
(2 X 5); (2 X 5).P P
Giải:
a) X biến ngẫu nhiên rời rạc nên để tìm phân phối xác suất của X
nghĩa là ta phải xây dựng bảng phân phối xác suất.
- Các giá trị mà X có thể nhận: X = {1, 2, 3, 4, 5, 6}.
- Tìm xác suất để X lần lƣợt nhận các giá trị trên:
P(X = 1) = 1/6; P(X = 2) = 1/6; P(X = 3) = 1/6;
P(X = 4) = 1/6; P(X = 5) = 1/6 ; P(X = 6) = 1/6.
- Kiểm tra điều kiện P(X = 1) + P(X = 2) + …. + P(X = 6) = 1.
Vậy phân phối của X là một bảng có dạng:
X
1
2
3
4
5
6
P
1
6
1
6
1
6
1
6
1
6
1
6
b) Tìm hàm phân phối của X dựa vào định nghĩa ở trên:
( ) ( ) ( )
i i
x x x x
i i
F x P X x P X x p
+ Với x < 1 thì F(x) = P(X < x) = P(X < 1) = 0.
+ Với
1 2x
thì F(x) = P(X < x) = P(X =1) = 1/6.
+ Với
2 3x
thì F(x) = P(X < x) = P(X =1) + P(X = 2) = 2/6.
......
42
Xét tƣơng tự ta có kết quả sau:
0 1
1/ 6 1 2
2 / 6 2 3
( )
3 / 6 3 4
4 / 6 4 5
5 / 6 5 6
1 6
khi x
khi x
khi x
F x
khi x
khi x
khi x
khi x
c) Cách 1: Sử dụng tính chất của hàm phân phối:
4 1 3 1
(2 5) (5) (2)
6 6 6 2
P X F F
3 1 2 1
(2 5) (2 5) ( 2)
6 6 6 3
P X P X P X
Cách 2: Tính trực tiếp từ bảng phân phối:
2 5 {2, 3, 4}.X X
Vậy P(
2 5X
) = P(X=2)+P(X=3)+P(X=4).
2 5 {3, 4}X X
. Vậy P(
2 5X
) = P(X=3)+P(X=4).
Tổng quát: Hàm phân phối xác suất của biến ngẫu nhiên rời rạc phân
phối xác suất p
i
= P(X = x
i
), i = 1, 2, ... n đƣợc cho bởi công thức:
1
1 1 2
1 2 2 3
0 khi
khi
khi( )
......
1 khi
n
x x
p x x x
p p x x xF x
x x
Nhận xét: Hàm phân phối của biến ngẫu nhiên rời rạc X m bậc thang,
không giảm, gián đoạn tại các điểm có thể có của X, độ lớn của bƣớc nhảy tại x
i
p
i
.
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục
Đối với biến ngẫu nhiên liên tục X, xác suất để X nhận một giá trị cụ thể
nào đó luôn luôn bằng không: P{X = a} = 0. Thành thử ta quan tâm đến xác suất
để X rơi vào một khoảng (a, b) nào đó, chứ không quan tâm tới xác suất để X
nhận một giá trị cụ thể nhƣ trong trƣờng hợp biến rời rạc.
Phân phối xác suất của biến ngẫu nhiên liên tục X đƣợc xác định bởi một
hàm f(x) gọi là hàm mật độ xác suất.
1
2
3
4
5
6
1/6
2/6
3/6
4/6
5/6
1
43
a) Định nghĩa
Giả sử X là biến ngẫu nhiên liên tục hàm phân phối F(x). Nếu hàm F(x)
khả vi thì đạo hàm của F(x) đƣợc gọi là hàm mật độ xác suất của X, ký hiệu f(x):
( ) ( )F x f x
b) Tính chất của hàm mật độ
i. F(x) =
( ) , .
x
f u du x R

ii.
( ) 0.f x
iii.
( ) 1.f x dx


iv. P(a
X < b) = F(b) - F(a) =
( ) .
b
a
f x dx
Chú ý :
P(a
X
b) = P(a < X
b) = P(a < X < b) = P(a
X < b) = F(b) - F(a) =
(x) .
b
a
f dx
Nhận xét:
i) Giá trị của hàm F(x) bằng diện tích hình phẳng giới hạn bởi đồ thị của
hàm mật độ f(x), trục hoành và đƣờng thẳng song song với trục tung hoành
độ là x.
ii) Các diện tích dƣới đƣờng cong mật độ xác suất là các xác suất:
( ) ( )
b
a
P a X b S f x dx
Mô tả bằng hình học:
44
Ví dụ 3: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng:
2
3
[0,2]
( )
8
0 [0,2]
x khi x
f x
khi x
Tìm hàm phân phối của X.
Giải:
+ Nếu x < 0: F(x) =
( ) 0. 0.
x x
f u du du
 
+ Nếu
0 2x
:
0
2 3 3
0
0 0
3 3 3
( ) ( ) ( ) ( ) 0
|
8 24 24
x x x
x
F x f u du f u du f u du u du u x
 
+ Nếu x > 2:
0 2
0 2
( ) ( ) ( ) ( ) ( ) 1
x x
F x f u du f u du f u du f u du
 
Vậy
3
0 0
3
F( )
0 2
24
1 2
khi x
x
x khi x
khi x
Ví dụ 4: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng:
2
1
1
( )
0 1
khi x
f x
x
khi x
Tìm hàm phân phối của X.
Giải:
+ Nếu x < 1: F(x) =
( ) 0. 0.
x x
f u du du
 
+ Nếu x
1:
45
1
1
2
1 1
1 1 1 1
( ) ( ) ( ) ( ) 0 1|
x x x
x
x
F x f u du f u du f u du du
u x x
u
 
Vậy
1
1
F( )
0 1
x
khi x
x
x
khi x
.
Ví dụ 5: Cho hàm phân phối của biến ngẫu nhiên liên tục X nhƣ sau:
1
( ) cos ;F x a x x R
Tìm hàm mật độ của X.
Giải:
Từ định nghĩa ta có
: f(x) = F
(x) =
1
sin ;x x R
Một số phân phối xác suất phổ biến đối với biến ngẫu nhiên liên tục:
1. Phân phối đều: Hàm mật độ xác suất của phân phối đều:
1
,b
( )
0 ,b
khi x a
b af x
khi x a
2. Phân phối chuẩn: Hàm mật độ xác suất của phân phối chuẩn:
2
( )
2
2
1
( )
2
x a
f x e
2.3. Các số đặc trƣng của biến ngẫu nhiên
Đối với một biến ngẫu nhiên nếu đã xác định đƣợc luật phân phối xác suất
của nó thì xem nhƣ ta đã nắm đƣợc toàn bộ thông tin về biến ngẫu nhiên đó. Tuy
nhiên trong thực tế, nhiều bài toán chỉ cần đòi hỏi khảo sát những đặc trƣng
bản của biến ngẫu nhiên.
46
Các tham số đặc trƣng của biến ngẫu nhiên đƣợc phân loại nhƣ sau:
- Các tham số đặc trƣng cho vị trí trung tâm, giá trị trung bình của biến
ngẫu nhiên: kỳ vọng toán (expected value), (trung vị median), mốt ( ; mode)...
- Các tham số đặc trƣng cho độ phân tán của biến ngẫu nhiên: phƣơng
sai, độ lệch chuẩn hệ số biế giá trị tới hạn, n thiên, , mômen ( )...; moment
- Các tham số đặc trƣng cho dạng phân phối xác suất; hệ số bất đối
xứng ( skewness), hệ số nhọn ( kurtosis)...
2.3.1. Kỳ vọng toán
a) Định nghĩa 1 (Kỳ vọng của biến ngẫu nhiên rời rạc)
Giả sử phân phối xác suất của biến ngẫu nhiên X là:
X
x
1
x
2
... x
n
P
p
1
p
2
... p
n
Nếu tổng
1
i i
i
x p

, khi đó kỳ vọng toán của biến ngẫu nhiên X,
hiệu là E(X) đƣợc định nghĩa nhƣ sau:
1
( )
i i
i
E X x p
Ví dụ 1: Cho biến ngẫu nhiên X với phân phối xác suất:
X
-1
1
P
1
4
3
4
Giải:
1 3 1
( ) ( 1) 1.
4 4 2
E X
d2: Chọn ngẫu nhn 3 vn bi t1 túi 6 bi đen và 4 bi trắng.
Gọi X sbi trắng trong 3 bi vừa chọn. Tìm bảng phân bố của X tính k
vọng của X.
Giải:
Từ giả thiết, ta dễ dàng tính đƣợc bảng phân bố xác suất của X nhƣ sau:
X
0
1
2
3
47
P
3 0
6 4
3
10
5
30
C C
C
2 1
6 4
3
10
15
30
C C
C
1 2
6 4
3
10
9
30
C C
C
0 3
6 4
3
10
1
30
C C
C
Khi đó:
5 15 9 1
( ) 0. 1. 2. 3. 1,2
30 30 30 30
E X
b) Định nghĩa 2 (Kỳ vọng của biến ngẫu nhiên liên tục)
Biến ngẫu nhiên liên tục X hàm mật độ f(x) nếu
( )x f x dx



thì kỳ vọng toán của biến ngẫu nhiên X,hiệu là E(X) đƣợc định nghĩa nhƣ sau:
( ) ( )E X xf x dx


Ví dụ 3: Tuổi thọ của 1 loài côn trùng nào đó là một biến ngẫu nhiên X có
hàm mật độ nhƣ sau:
3
2
[1,4]
( )
0 [1, 4]
khi x
f x
x
khi x
m kỳ vọng của biến ngẫu nhiên X.
Giải:
Ta có:
1 4 4
3
1 4 1
4
4
2
1
1
2
( ) ( ) ( ) ( ) ( ) 0 . 0
2 2 3
2
E X xf x dx xf x dx xf x dx xf x dx x dx
x
dx
x
x
 
 
c) Ý nghĩa của kỳ vọng toán
Kỳ vọng của một biến ngẫu nhiên là giá trị trung bình (theo nghĩa xác suất)
biến ngẫu nhiên đó nhận. phản ánh giá trị trung tâm của phân phối xác
suất với khối lƣợng 1. Chính vì vậy ngƣời ta hay dùng kỳ vọng để xác định
vị trí của phân phối.
Khái niệm kỳ vọng đƣợc áp dụng rộng rãi trong nhiều lĩnh vực. Trong kinh
doanh quản lý, kỳ vọng đƣợc ứng dụng dƣới dạng lợi nhuận kỳ vọng hay
doanh số kỳ vọng.
d) Tính chất của kỳ vọng
48
1. E(C) = C với mọi hằng số C.
2. E(CX) = CE(X) với mọi hằng số C.
3. E(X + Y) = E(X) + E(Y); E(X Y) = E(X) E(Y).
4. E(X
C) = E(X)
C.
5. Nếu X và Y là hai biến ngẫu nhiên độc lập và E(X), E(Y) tồn tại thì:
E(XY) = E(X).E(Y)
6. Nếu
( )Y X
, với
( )X
một hàm số xác định nào đó, khi đó E(Y)
đƣợc xác định theo các trƣờng hợp sau:
- Nếu X là biến ngẫu nhiên rời rạc thì:
( ) (x )p
i i
i
E Y
- Nếu X là biến ngẫu nhiên liên tục và có hàm mật độ f(x) thì:
( ) (x)f(x)dxE Y


2.3.2. Phương sai
a) Định nghĩa
Pơng sai của biến ngẫu nhn X, ký hiệu là D(X) đƣợc xác đnh bởi ng thức:
Hay:
Phƣơng sai hay độ lệch bình phƣơng trung bình của biến ngẫu nhiên X là
đại lƣợng đo sự phân tán bình phƣơng trung bình của X xung quanh giá trị trung
bình E(X).
Đại lƣợng
( )D X
đƣợc gọi là độ lệch tiêu chuẩn (hay sai tiêu chuẩn).
Ví dụ 4: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 2.
Ta có:
2 2 2 2 2
5 15 9 1
( ) 0 . 1 . 2 . 3 . 2
30 30 30 30
E X
D(X) = E(X
2
) (EX) = 2
2
1,22 = 0,56
Ví dụ 5: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 3.
2
( ) ( EX)D X E X
2 2
( ) ( ) (EX)D X E X
49
1 4 4
2 2 2 2 2 2
3
1 4 1
4
4
1
1
2
( ) ( ) ( ) ( ) ( ) 0 . 0
2
2ln 2ln 4 4ln2
E X x f x dx x f x dx x f x dx x f x dx x dx
x
dx x
x
 
 
2
2 2
3
( ) ( ) ( ) 4ln 2
2
D X E X E X
Ví dụ 6: Cho hai biến ngẫu nhiên X, Y độc lập và có phân phối tƣơng ứng là:
X
0
1
P
0,5
0,5
Y
-2
0
2
P
1/6
2/3
1/6
Tính D(X), D(Y), E(XY), D(X + Y).
Giải:
E(X) = 0
0,5 + 1
0,5 = 0,5
E(X
2
) = 0
2
0,5 + 1
2
0,5 = 0,5
D(X) = E(X
2 2
) - (EX) = 0,25
T
ƣơng tự: E(Y) = 0; E(Y
2
) = 4/3; D(Y) = 4/3.
Vì X và Y độc lập nên E(XY) = E(X). E(Y) = 0,5
0 = 0.
1 4 19
( ) ( ) ( )
4 3 12
D X Y D X D Y
.
b) Ý nghĩa của phương sai
Phƣơng sai của biến ngẫu nhiên X là một số không âm dùng để đo mức độ
phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên X xung quanh tâm
E(X) của nó. D(X) nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. D(X) càng
lớn thì độ phân tán càng cao.
Trong kỹ thuật phƣơng sai đặc trƣng cho mức độ phân tán của các chi tiết
gia công hay sai số của thiết bị. Trong quản lý và kinh doanh thì phƣơng sai đặc
trƣng cho mức độ rủi ro của các quyết định.
c) Tính chất của phương sai
1. D(C) = 0 với mọi hằng số C.
2. D(CX) = C
2
D(X) với mọi hằng số C.
3. Nếu X và Y là 2 biến ngẫu nhiên độc lập và có D(X), D(Y) thì:
50
D(X Y) = D(X) + D(Y)
Chú ý:
1.
2
( ) ( )
i i
i
D X x EX p
nếu X có phân phối rời rạc.
2.
2
( ) ( ( )) ( )D X x E X f x dx


nếu X phân phối liên tục với hàm
mật độ f(x).
2.3.3. Một số đặc trưng khác
a) Mod
Ký hiệu: x
mod
Định nghĩa: Mode (Mốt) của biến ngẫu nhiên X giá trị biến ngẫu
nhiên X nhận với xác suất lớn nhất. Cụ thể:
- Nếu X biến ngẫu nhiên rời rạc thì x
mod
giá trị của X tại đó xác
suất P(X = X
mod
) là lớn nhất.
Nghĩa là: X có phân bố:
X
x
1
x
2
... x
n
..
P
p
1
p
2
... p
n
...
Thì x = x
0 mod
p(X = x ) = max{p , p
0 1 2
,...}
- Nếu X là biến ngẫu nhiên liên tục thì x
mod
là giá trị mà tại đó hàm mật độ
xác suất của X đạt cực đại.
Nghĩa là: X có hàm mật độ là f(x) thì c = x
mod
f(c) = max{f(x) : x
. R}
* Chú ý: Một biến ngẫu nhiên không phải chỉ có duy nhất . một Mod
b) Trung vị (Median)
Định nghĩa: Trung vị của biến ngẫu nhiên X, ký hiệu là x là số thỏa mãn:
Me
1
(X ) (X )
2
Me Me
P x P x
Nếu X là biến ngẫu nhiên liên tục và hàm phân phối xác suất F(x) liên tục
thì x
Me
là nghiệm của phƣơng trình F(x) = 1/2.
Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối:
X
x
1
x
2
... x
n
..
P
p
1
p
2
... p
n
...
thì x
Me
đƣợc xác định nhƣ sau:
Tính T = p + p + ... + p .
i 1 2 i
51
0 0 1 1
1 1
1
, ,
2
1
2
i i i i
Me
i i i
x x x x khiT T
x
x khiT T
Nhận xét: Trung vị điểm phân chia phân phối xác suất thành hai phần
bằng nhau.
Ví dụ 1: Tìm trung vị và Mod của biến ngẫu nhiên rời rạc có bảng phân bố
xác suất nhƣ sau:
X
20
21
22
23
24
P
0,3
0,25
0,18
0,14
0,13
Dễ thấy x = 20 (Vì P(X=20) = 0,3 là lớn nhất)
Mod
.
Để tìm x
Me
, ta tính: T = p = 0,3; T = p + p = 0,55 > .
1 1 2 1 2
1/2
Vậy x
Me
= x = 21.
2
Ví dụ 2: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm phân phối.
2
0 khi 0
( ) khi 0 1
1 khi 1
x
F x x x
x
x
Me
là nghiệm của phƣơng trình F(x)=1/2
x
2
= ½ với
0 1x
.
Vậy x =
1
2
(vì
0 1x
nên loại nghiệm x = -
1
2
).
x
Mod
là giá trị mà tại đó f(x) đạt lớn nhất.
Ta cần tìm hàm mật độ f(x) từ F(x).
2
0 khi 0
2 khi 0,1
( ) khi 0 1 ( )
0 khi 0,1
1 khi 1
x
x x
F x x x f x
x
x
Vậy f(x) đạt max tại x = 1 hay x = 1.
Mod
Ví dụ 3: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm mật độ:
0 khi 0,1
f( )
2 khi 0,1
x
x
x
Ta thấy ngay x
mod
= 1.
Để tìm x ta cần xây dựng hàm phân phối F(x)
me
.
52
0
0 khi 0 0 khi 0
F( ) 2 khi 0,1 F( ) 2 khi 0,1
1 khi 1 1 khi 1
x x
x x
x du x x du x
x x

0 khi 0
F( ) 2 khi 0,1
1 khi 1
x
x x x
x
F(x
me
) = 1/2 tƣơng đƣơng với 2x
me
hay x = 1/2
me
= ¼.
c) Hệ số bất đối xứng
Nếu biến ngẫu nhiên X kỳ vọng
, phƣơng sai
2
thì tỷ số
3
3
(X )E
đƣợc gọi là hệ số bất đối xứng.
d) Hệ số nhọn
Nếu biến ngẫu nhiên X kỳ vọng
, phƣơng sai
2
thì tỷ số
4
4
(X )
3
E
đƣợc gọi là hệ số nhọn.
2.4. Một vài quy luật phân phối xác suất thƣờng gặp
2.4.1. Phân phối chuẩn
a) Định nghĩa phân phối chuẩn: Biến ngẫu nhiên X đƣợc gọi phân
phối chuẩn với hai tham số µ
2
nếu hàm mật độ của nó có dạng:
2
( )
2
2
1
( ) ,
2
a
f x e x R
Ký hiệu: X
N(µ;
2
) hoặc X N(µ;
2
).
Đồ thị của hàm f(x):
- Đồ thị của hàm f(x) đƣờng cong hình chuông đối xứng qua đƣờng x =
µ và đạt giá trị cực đại tại điểm x = . Vì vậy giá trị Mod(X)µ = µ.
- Tiệm cận với trục hoành khi
x 
.
- Diện tích giới hạn bởi đồ thị và trục hoành bằng 1.
53
Kỳ vọng và phƣơng sai: Nếu X
N(µ;
2
) thì E(X) = a và D(X) =
2
.
DX
đƣợc gọi là độ lệch chuẩn.
Phân phối chuẩn chiếm vị trí quan trọng trong thuyết xác suất, vị trí
trung tâm trong các kết luận thống kê sau này. Trong thực tế có nhiều biến ngẫu
nhiên tuân theo quy luật chuẩn hoặc tiệm cận chuẩn chẳng hạn nhƣ trọng lƣợng,
chiều cao của một nhóm ngƣời nào đó, điểm thi của các thí sinh, lực chịu đựng
của một thanh sắt, các sai số đo đạc, độ bền dẻo của máy móc, khối lƣợng, kích
thƣớc của các sản phẩm, năng suất cây giống, mức lãi suất của công ty, nhu cầu
tiêu thụ của một mặt hàng nào đó…
b) Phân phối chuẩn tắc
Nếu X
N(µ;
2
), ta đổi biến
X
Z
.
Khi đó Z phân phối chuẩn N(0,1) với kỳ vọng bằng 0 phƣơng sai
bằng 1 gọi là có phân phối chuẩn tắc (hay phân phối tiêu chuẩn).
Phép đổi biển
X
Z
đƣợc gọi là phép chuẩn hóa.
Hàm mật độ của biến ngẫu nhiên có phân phối chuẩn tắc là:
2
2
1
( )
2
x
x e
Hàm phân phối của N(0,1) là:
2
2
1
( ) ,
2
u
x
x e du x R

.
54
Đồ thị của hàm mật độ của phân phối chuẩn tắc N(0,1) nhƣ sau:
Ngƣời ta đã xây dựng sẵn bảng các giá trị của hàm
(x)
. Trong
các bài tập cần lƣu ý đƣa về phân phối chuẩn tắc để tính toán.
Tính xác suất theo phân phối chuẩn:
1.
( ) 1 ( ), .x x x R
2. Nếu Z N(0;1) thì:
( ) ( )P Z
( ) 1 ( )P Z
( ) ( ) ( )P Z
3. Nếu X
N(µ;
2
), với µ
2
đã biết.
Tìm P(
X
) ta đổi biến
X
Z
, Khi đó Z phân phối chuẩn
dạng N(0,1) nên:
( ) ( )
X
P X P
( )
X
P X P P Z
( ) 1 1P X P X
Từ công thức trên, suy ra xác suất của sự sai lệch giữa biến ngẫu nhiên
phân phối chuẩn N(a;
2
) và kỳ vọng của nó đƣợc xác định nhƣ sau: µ
| | 2 1P X
Nếu chọn thì P(|X - µ| < ) = 2 (1) 1 = 0,6826. =
Nếu chọn = 2 thì P(|X - µ| < ) = 2 (2) 1 = 0,9546.
Nếu chọn = 3 thì P(|X - µ| < ) = 2 (3) 1 = 0,9974.
55
Quy tắc 2
: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ
2
thì có đến 95,46% giá trị của X sẽ nằm trong khoảng (µ - 2 µ + 2 ; ).
Quy tắc 3
: µ Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số
2
thì hầu nhƣ chắc chắn X nhận các giá trị trong khoảng (µ - 3 µ + 3 ). ;
Ví dụ 1
: Giả sử X có phân phối chuẩn N(2100; 200 ). Tính:
2
a) P(X > 2400).
b) P(1700 < X < 2200).
c) Xác định a để P( X > a) = 0,03.
Giải:
Từ giả thiết ta có µ = 2100 và
200
.
a)
2400 2100
(X 2400) 1 ( ) 1 (1,5) 1 0,9332 0,0668
200
P
b)
2200 2100 1700 2100
(1700 X 2200) ( ) ( ) (0,5) ( 2) 0,6688
200 200
P
c)
2100 2100
(X ) 1 ( ) 0,03 ( ) 0,97
200 200
a a
P a
Tra bảng ta đƣợc
2100
(1,881) 0,97 1,881 2476,2
200
a
a
.
dụ 2: Chiều cao của phụ nữ Việt Nam biến ngẫu nhiên phân phối
chuẩn N(155;
2,5
2
). Tính tỷ lệ phụ nữ có chiều cao trên 160 cm.
Giải:
Gọi X là chiều cao của phụ nữ Việt Nam.
160 155
( 160) 1 ( 160) 1 ( ) 0,228
2,5
P X P X
Vậy tỷ lệ phụ nữ Việt Nam có chiều cao trên 160 cm là 22,8%.
2.4.2. Phân phối nhị thức
a) Định nghĩa: Biến ngẫu nhiên X đƣợc gọi phân phối nhị thức với
tham số (n, p) (trong đó n
N và 0 < p < 1) nếu:
56
( ) ; 1 , 0,..., .
k k n k
n
P X k C p q q p k n
Kí hiệu:
( ; )X B n p
.
Nhận xét: Chúng ta đã xét dãy phép thử độc lập công thức Bernoulli.
Nếu thực hiện n phép thử độc lập, trong mỗi phép thử biến cố A xuất hiện với
xác suất p không đổi thì biến ngẫu nhiên X chỉ số lần xuất hiện biến cố A trong
n phép thử có phân phối nhị thức.
Một số công thức tính xác suất của phân phối nhị thức:
( )
k k n k
n
P X k C p q
là xác suất để biến cố A xảy ra đúng k lần.
( 1) 1
n
P X q
là xác suất để biến cố A xảy ra ít nhất một lần.
2
1 2
1
( ) ( )
k
k k
P k X k P X k
c suất để biến cố A xảy ra từ k
1
đến k
2
lần.
Ví dụ 3: Bắn 5 phát súng độc lập vào 1 bia, xác suất trúng của mỗi phát
0,8. Tính các xác suất sau:
a) Có đúng 3 phát trúng.
b) Có từ 3 phát trúng trở lên.
c) Có ít nhất một phát trúng.
Giải:
Gọi X là số viên đạn trúng bia, X có phân phối nhị thức B(5; 0,8).
a)
3 3 2 3 3 2
5 5
( 3) (0,8) (0,2)P X C p q C
b)
(3 5) (X 3) P(X 4) P(X 5)P X P
57
c)
5
( 1) 1 (X 1) 1 P(X 0) 1 (0,2)P X P
b) Kỳ vọng, phương sai, mod
Nếu X
B(n, p) thì E(X) = np; DX = np(1 - = npq. p)
Số có khả năng nhất:
- + p - Nếu np 1 là số nguyên thì modX = np + p - 1 và np + p;
- Nếu np + p - 1 là sthập pn thì modX chính phần nguyên của np + p - 1.
c) Xấp xỉ phân phối nhị thức bằng phân phối chuẩn
Phân phối nhị thức một phân phối rời rạc đồ thị các đƣờng thẳng
gấp khúc nhƣ hình trên. Phân phối chuẩn sẽ mt xấp xỉ tốt đối với phân phối
nhị thức khi các số liệu của phân phối nhị thức tạo nên một đƣờng gấp khúc
hình dáng gần giống với một quả chuông (dáng đồ thị của phân phối chuẩn).
Giả sử X
B(n, p). Khi n lớn và p không quá gần 0 hoặc 1, X có phân phối
xấp xỉ chuẩn N(np; npq).
1
( )
k np
P X k
npq npq
( )
k np
P X k
npq
2 1
1 2
( )
k np k np
P k X k
npq npq
Nhận xét: Ngƣời ta thấy rằng xấp xỉ là tốt khi np và nq lớn hơn 5 hoặc khi
npq lớn hơn 20.
Ví dụ 4: Gieo 3200 lần một đồng xu cân đối đồng chất. Gọi X số lần
xuất hiện mặt sấp trong 3200 lần gieo đó.
a) Tìm số lần xuất hiện mặt sấp có khả năng nhất. Tính xác suất tƣơng ứng.
b) Tính xác suất
(5 2 1600 X 10 2 1600)P
.
Giải:
Gọi A biến cố xuất hiện mặt sấp khi gieo 1 lần một đồng xu cân đối
đồng chất: P(A) = 0,5 = p = 1 - p.
Theo giả 1 = 1599,5 => Số lần xuất hiện mặt thiết n = 3200 nên (n + 1)p
sấp có khả năng nhất là 1600 với xác suất tƣơng ứng:
58
Cách 1: Dùng phân phối nhị thức
1600 1600 1600
3200
(X 1600) .(0,5) .(0,5)P C
.
Cách 2: Dùng xấp xỉ phân phối chuẩn.
1 1600 3200.0,5 1
(X 1600) ( ) . (0)
3200.0,5.0,5 3200.0,5.0,5 3200.0,5.0,5
0,39894
0,014
20 2
P
1600 10 2 3200.0,5 1600 5 2 3200.0,5
(5 2 1600 1600 10 2)
3200.0,5.0,5 3200.0,5.0,5
(0,5) (0,25) 0,6915 0,5987 0,0928
P X
2.4.3. Phân phối Poisson
a) Định nghĩa
Biến ngẫu nhiên X đƣợc gọi là có phân phối Poisson với tham số
> 0 nếu
X nhận các giá trị nguyên không âm 0, 1, 2... với xác suất tƣơng ứng:
( ) ; ( 0, 1, 2...)
!
k
P X k e k
k
Kí hiệu:
( ).P
b) Kỳ vọng, phương sai
Nếu
( )X P
thì E(X) =
; D(X) =
; Mod (X) =
.
Trong thực tế, với một số giả thiết thích hợp thì các biến ngẫu nhiên
Poisson là các quá trình đếm sau:
- Số cuộc gọi đến một tổng đài;
- Số khách hàng đến một điểm giao dịch;
- Số xe cộ đi qua một ngã tƣ...
Trong một khoảng thời gian xác định nào đó sphân phối Poisson với
tham số
là tốc độ trung bình diễn ra trong khoảng thời gian này.
Ví dụ 5: một tổng đài điện thoại, các cuộc gọi đến một cách ngẫu nhiên,
độc lập và trung bình có 2 cuộc gọi trong 1 phút. Cho trƣớc X là số cuộc gọi đến
tổng đài trong khoảng thời gian t phút là biến ngẫu nhiên có phân phối Poisson.
Tìm xác suất để có đúng 5 cuộc gọi đến trong 2 phút (Đặt là biến cố A).
Giải:
Theo giả thiết trung bình có 2 cuộc gọi trong 1 phút vậy trong 2 phút trung
59
bình 4 cuộc gọi. Lúc này số cuộc gọi X trong 2 phút biến ngẫu nhiên
phân phối Poisson với tham số
= 4.
Ta cần tính P(X = 5). Áp dụng công thức:
( )
!
k
P X k e
k
với k =5 và
= 4 ta đƣợc
5
4
4
( 5) 0,156
5!
P X e
2.4.4. Phân phối khi bình phương
Định nghĩa: Biến ngẫu nhiên X đƣợc gọi phân phối khi bình phƣơng
(
2
) với n bậc tự do nếu hàm mật độ của nó có dạng:
/2 1 /2
/2
1
0
2 ( / 2)
( ) .
0 0
n x
n
x e khi x
n
f x
khi x
Trong đó: Hàm gamma hàm thuộc lớp các hàm đặc biệt đƣợc định
nghĩa nhƣ sau:
1
0
( ) , ( 1) ( )
(1) 1; (1/ 2) .
x u
u e x dx u u u
Kí hiệu:
2
X
Định lý: Nếu X …, X các biến ngẫu nhiên độc lập cùng phân
1
, X
2,
n
phối chuẩn tắc N(0, 1) thì:
2 2 2 2 2
1 2
1
...
n
i n n
i
X X X X
Phân phối
2
do Karl Pearson đƣa ra.
60
Giá trị tới hạn khi bình phƣơng n bậc tự do mức
, với
(0, 1)
hiệu
2
( )n
đƣợc định nghĩa nhƣ sau:
2 2
( (n))P
.
Bảng các giá trị tới hạn
2
( )n
đƣợc tính sẵn.
2.4.5. Phân phối Student
Định nghĩa: Biến ngẫu nhiên T đƣợc gọi phân phối Student với n bậc
tự do nếu hàm mật độ của nó có dạng:
1
2
2
1
2
f( ) 1 ,
/ 2
n
n
t
t t R
n
n n
Định lý: Nếu X, X …, X các biến ngẫu nhiên độc lập có phân phối
1
, X
2 n
N(0, 1) thì
2
1
1
n
i
i
X
T
X
n
có phân phối Student với n bậc tự do.
Hoặc phát biểu: Nếu Z
N(0, 1) V
2
n
Z V độc lập thì
(n)
/
Z
T T
V n
.
Giả sử biến ngẫu nhiên T bậc tự do k cho trƣớc, với
(0, 1)
, ta tìm
đƣợc hằng số
,
( / 2)
n
t
thỏa mãn:
(T t ( ))
n
P
(| T | t ( / 2))
n
P
20 20
20; 0,05; (0,05) 1,725; (0,025) 2,086k t t
Bảng các giá trị tới hạn
đã đƣợc tính sẵn.
61
Nhận xét: Hàm mật độ là hàm chẵn nên đồ thị đối xứng qua trục tung. Khi
số bậc tự do tăng lên, phân phối Student hội tụ rất nhanh về phân bố chuẩn tắc
N(0, 1). Do đó khi n đlớn (n
30) thể dùng phân bố chuẩn tắc thay cho
phân phối Student. Tuy nhiên khi n nhỏ (n < 30) việc thay thế nhƣ trên sẽ gặp
sai số lớn.
2.4.6. Phân phối Fisher (Phân phối F)
Định nghĩa: Biến ngẫu nhiên F đƣợc gọi là có phân phối Fisher với (n
1
, n
2
)
bậc tự do nếu hàm mật độ của nó có dạng:
1 2
1 2
1 1 2
1
2 2
2 2
2 1
1 1
1 2
2
( ) 0
( )
2 2
0 0
n n
n n n
n n
n n u n n u khi u
n n
f u
khi u
Định lý: Nếu (X
1
, X
2
,…, X
m
) và , Y(Y
1 2
,…, Y ) là các biến ngẫu nhiên độc
n
lập có phân phối N(0, 1) thì
2
1
2
1
m
i
i
n
i
i
n X
F
m Y
có phân phối Fisher với (n,m) bậc tự do.
Tính xác suất theo phân phối Fisher:
Giả sử biến ngẫu nhiên F có bậc tự do (k ) cho trƣớc, với
1
, k
2
0,01
hoặc
0,05 ta tìm đƣợc (bằng cách tra bảng) hằng số
F
thỏa mãn: P(F >
F
) =
.
2.5. Sơ lƣợc về biến ngẫu nhiên hai chiều (Đọc thêm)
Trong nhiều bài toán thực tế chúng ta phải xét một cách đồng thời một hệ
gồm n biến ngẫu nhiên X , …, X . Khi đó về mặt toán học ta thể coi hệ
1
, X
2 n
này một biến ngẫu nhiên n chiều -
1 2
( , ,..., )
n
X X X X
hay còn gọi một véc
tơ ngẫu nhiên n – chiều với các thành phần
1 2
, ,...,
n
X X X
.
Tuy nhiên, trong nội dung này chúng ta chỉ xét biến ngẫu nhiên hai chiều
hay còn gọi là véc tơ ngẫu nhiên (X, Y).
2.5.1. Phân phối đồng thời
Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc X Y
dạng sau đƣợc gọi là bảng phân bố xác suất đồng thời của X và Y: ( ).
Y
X
y
1
y
2
y
j
...
y
n
62
x
1
p
11
p
12
p
1j
p
1n
x
2
P
21
P
22
p
2j
p
2n
x
i
p
i1
p
i2
p
ij
p
in
x
m
p
m1
p
m2
p
mj
p
mn
Chú ý rằng
1
ij
p
.
Trong đó
{ , }; 1,..., ; 1,..., .
ij i j
p P X x Y y i m j n
Ví dụ 1: Gieo 3 đồng xu cân đối và đồng chất A, B, C.
Gọi X là số mặt ngửa của đồng xu A và B.
Y là số mặt ngửa của cả ba đồng xu A, B và C.
Hãy lập bảng phân phối xác suất đồng thời của X và Y.
Giải:
Ta có X(Ω) = {0, 1, 2} và Y(Ω) = {0, 1, 2, 3}.
Chúng ta có 8 kết quả đồng khả năng của việc gieo 3 đồng xu và giá trị của
X và Y tƣơng ứng với mỗi kết quả đó:
A
B
C
X
Y
N
N
N
2
3
N
N
S
2
2
N
S
N
1
2
N
S
S
1
1
S
N
N
1
1
S
N
S
1
2
S
S
N
0
1
S
S
S
0
0
Vậy bảng phân bố xác suất đồng thời của X và Y là:
Y
X
0
1
2
3
0
1/8
1/8
0
0
1
0
2/8
2/8
0
2
0
0
1/8
1/8
Nếu biết phân bố đồng thời của X Y ta thể tìm đƣợc phân bố của X
63
và Y. Thật vậy:
1 1
( ) { , }
n n
i i j ij
j j
P X x P X x Y y p
1 1
( ) { , }
m m
j i j ij
i i
P Y y P X x Y y p
Nhƣ vậy cộng các dòng trong bảng ta đƣợc phân bố xác suất của X (đƣợc
gọi quy luật biên duyên của X) và cộng các cột trong bảng ta đƣợc phân bố
xác suất của Y (đƣợc gọi là quy luật biên duyên của Y).
Chẳng hạn trong ví dụ trên ta có phân bố xác suất của X là:
X
0
1
2
P
2
8
4
8
2
8
Cộng các cột ta có phân bố xác suất của Y là:
Y
0
1
2
3
P
1
8
3
8
3
8
1
8
Hàm phân bố biến ngẫu nhiên hai chiều (X, Y) đƣợc xác định bởi:
( , ) { , }F x y P X x Y y
Hàm mật độ. Nếu hàm phân phối F(x, y) liên tục và đạo hàm chéo cấp
hai liên tục thì hàm:
2
( , )
( , )
F x y
f x y
x y
đƣợc gọi hàm mật độ đồng thời của
véc tơ ngẫu nhiên (X, Y).
Xác suất để véc tơ ngẫu nhiên (X, Y) thuộc vào miền D đƣợc tính bằng tích
phân kép
( , ) .
D
f x y dxdy

Trong phạm vi của bài giảng chúng ta không đi sâu vào chi tiết vấn đề này.
2.5.2. Phân phối có điều kiện
Xét biến ngẫu nhiên hai chiều (X, Y). Nếu ở kết quả của phép thử Y lấy giá
trị y thì xác suất để X lấy giá trị x ) đƣợc gọi là xác suất có điều kiện
j
i
(khi Y = y
j
{ | }
i j
P x y
. Tƣơng tự nếu ở kết quả của phép thử X lấy giá trị x thì xác suất để Y ,
i
lấy giá trị y
j i
(khi X = x ) đƣợc gọi là xác suất có điều kiện
{ | }
j i
P y x
.
Theo công thức nhân xác suất ta có:
64
{X= , }
{ | }
{ }
i j ij
i j
j j
P x Y y p
P x y
P Y y p
{X= , }
{ | }
{ }
i j ij
j i
i i
P x Y y p
P y x
P X x p
Nếu (X, Y) véc tơ ngẫu nhiên liên tục có hàm mật độ f(x, y) thì quy luật
có điều kiện của X biết Y = y và quy luật có điều kiện của Y khi biết X = x đƣợc
xác định bởi các hàm mật độ:
2
( , )
( | ) ;
( )
f x y
g x y
f y
1
( , )
( | )
( )
f x y
h y x
f x
Trong đó:
1 2
( ), ( )f x f y
là các hàm mật độ biên duyên của X và Y.
Hai biến ngẫu nhiên độc lập.
Hai biến ngẫu nhiên X Y là độc lập nếu luật phân phối có điều kiện của
một biến bằng luật phân phối không điều kiện của nó.
{ | } (X = )
i j i
P x y P x
Tƣơng tự
{ | } (Y = ).
j i j
P y x P y
Nhƣ vậy nếu X và Y độc lập ta
ij i j
p p p
.
Với cặp (X, Y) liên tục thì:
1 2
( , ) ( ). ( )f x y f x f y
.
2.5.3. Kỳ vọng có điều kiện
Kỳ vọng điều kiện của biến ngẫu nhiên rời rạc Y với điều kiện X = x
i
đƣợc xác định bởi:
( | ) ( | )
i j j i
j
E Y X x y P y x
Nếu Y là biến ngẫu nhiên liên tục thì:
( | ) ( | )
i
E Y X x yh y x dy


Ví dụ 2: Với bảng phân phối xác suất:
Y
X
y
1
= 0
y
2
= 1
y
3
= 2
y
4
= 3
i
p
x
1
= 0
1/8
1/8
0
0
1/4
x
2
= 1
0
2/8
2/8
0
1/2
x
3
= 2
0
0
1/8
1/8
1/4
j
p
1/8
3/8
3/8
1/8
65
Thì:
11
1 1
1
1 1 1
{ | } :
8 4 2
p
P Y y X x
p
12
2 1
1
1 1 1
{ | } :
8 4 2
p
P Y y X x
p
13
3 1
1
1
{ | } 0 : 0
4
p
P Y y X x
p
14
4 1
1
1
{ | } 0: 0
4
p
P Y y X x
p
1
1 1 1
{ | } 0. 1. 2.0 3.0
2 2 2
E Y X x
BÀI TẬP
Bài 1: Trong một hàng gồm 10 sản phẩm trong đó 7 sản phẩm loại
A và 3 sản phẩm loại B. Lấy ngẫu nhiênng một lúc 3 sản phẩm để kiểm tra
chất ợng. Gọi X số sản phẩm loại A gặp khi kiểm tra. Tìm phân phối xác
suất của X.
Bài 2: Bắn ba viên đạn vào một mục tiêu một cách độc lập. Xác suất trúng
đích của từng viên lần lƣợt 0,6; 0,4 và 0,5. Gọi X số viên đạn không trúng
mục tiêu. Tìm phân phối xác suất của X.
Bài 3: Giả sử chiều cao X của trẻ em phân phối chuẩn N(1,3; 0,01).
Tính xác suất để trẻ em có chiều cao nằm trong khoảng (1,2; 1,4).
Bài 4: Chiều cao của một loại cây gỗ đến tuổi khai thác một biến ngẫu
nhiên liên tục X có phân phối chuẩn với chiều cao trun m và độ lệch g bình là 20
chuẩn 2,5 m. Cây đạt tiêu chuẩn khai thác cây chiều cao tối thiểu 15
m. Hãy tính tỷ lệ cây đạt tiêu chuẩn khai thác.
Bài 5: Cho biến ngẫu nhiên liên tục X có hàm mật độ:
1
1 2
3
( )
0 [1; 2]
a x x
f x
x
a) Chứng minh a =
1
2
.
66
b) Tìm P(X > 1,8).
c) Tính E(X).
Bài 6: Cho biến ngẫu nhiên X có hàm mật độ:
khi [ 0; 5]
( )
0 khi [0; 5]
kx x
f x
x
a) Chứng minh k = 2/25.
b) Tìm hàm phân phối xác suất của X.
c) Chứng minh các xác suất để X thuộc các khoảng 1 < X ≤ 2 2 < X ≤ 3; ;
3 ; < X ≤ 4 4 < X ≤ 5 có tỷ lệ 3 : 5 : 7 : 9.
Bài 7: Cho biến ngẫu nhiên X có hàm mật độ xác suất:
2
(3 - ) khi [0; 3]
( )
0 khi x [0; 3]
a x x x
f x
a) Tìm hệ số a.
b) Vẽ đồ thị hàm mật độ f(x).
c) Tìm xác suất để X thuộc vào khoảng (1, 2).
Bài 8: Cho biến ngẫu nhiên X có hàm mật độ:
2 2
1
khi x (-a; a)
( )
0 khi x (-a; a)
f x
a x
Tìm E(X), D(X).
a) Viết bảng phân phối của X.
b) Tìm hàm phân phối xác suất F(x) .
Bài 9: Biến ngẫu nhiên X có hàm phân phối:
2
2
2
( )
1 khi x 0
0 khi x 0
x
F x
e
Tìm hàm mật độ xác suất, Median, Mốt.
Bài 10: Cho
2
( ) , x (- , )
1
a
f x
x
a) Tìm a để f(x) là hàm mật độ.
b) Tìm P(0 < X < . 1)
c) Tìm hàm phân phối xác suất F(x).
67
Chƣơng 3
MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ
3.1. Một vài khái niệm cơ bản
Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tƣợng
ngẫu nhiên tính chất số lớn trên sở thu thập xử số liệu thống các
kết quả quan sát về những hiện tƣợng ngẫu nhiên này.
Nếu ta thu th c t t c sập đƣợ liệu liên quan đến đối tƣợng cn nghiên cu
thì ta có th ng này. Tuy nhiên, trong th c t biết đƣợc đối tƣợ ế điều đó không thể
thc hiện đƣợ ững khó khăn chính sau:c vì nh
- Quy mô c a t p h p c n nghiên c u quá l n nên vi c nghiên c u toàn b
đòi hỏi nhiu chi phí v vt cht và thi gian, th không ki ểm soát đƣợc dn
đế n b ch ng chéo ho c b sót;
- Trong nhi u ng h p không th n c toàn b các ph n t c a t trƣờ ắm đƣợ p
hp c n nghiên c ứu, do đó không thể tiến hành toàn b ;
- Có th trong quá trình điều tra s phá h ng nghiên c ủy đối tƣợ u.
v y, ng s d u b ng m ngƣời ta thƣờ ụng phƣơng pháp nghiên cứ ẫu. Đây
là m t trong nh ững phƣơng pháp quan trọng ca lý thuyết th ng kê.
Trong chƣơng này ấn đ cơ b, chúng ta s tìm hiu nhng v n ca lý thuyết
thng kê toán h c:
- Các phƣơng pháp trình bày mẫu và các đặc trƣng của mu;
- Lý thuy t v ế ƣớc lƣợng;
- Lý thuy t kiế ểm định gi thiết thng kê.
3.1.1. Tổng thể và mẫu
Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu định tính hay
định lƣợng nào đó đƣợc gọi tổng thể (hay tập hợp chính). Các dấu hiệu này
đƣợc gọi là dấu hiệu quan sát (hay tiêu thức nghiên cứu).
Mỗi phần tử của tổng thể đƣợc gọi là một cá thể.
Chẳng hạn một doanh nghiệp muốn nghiên cứu các khách hàng của mình
về dấu hiệu định tính thể mức độ hài lòng của khách ng đối với sản
phẩm/dịch vụ nào đó của doanh nghiệp, còn dấu hiệu định lƣợng là số lƣợng sản
phẩm của doanh nghiệp tiêu thụ trong tháng/quý.
Nếu dấu hiệu nghiên cứu tính định lƣợng, nghĩa đƣợc thể hiện bằng
68
cách cho tƣơng ứng mỗi thể của tổng thể nhận một giá trị thực nào đó thì ta
có thể xem dấu hiệu X này là một biến ngẫu nhiên xác định trên tổng thể.
Mẫu là một tập con nào đó của tổng thể. Việc chọn ra từ tổng thể một mẫu
đƣợc gọi là phép lấy mẫu. Số phần tử của mẫu đƣợc gọi là cỡ mẫu.
Ta nói rằng một mẫu là nếu trong pp lấy mẫu đó mỗi mẫu ngẫu nhiên
th của tổng th đƣợc chọn một ch độc lập và khả ng đƣợc chọn
nhƣ nhau.
Giả sử các cá thể của tổng thể đƣợc nghiên cứu thông qua dấu hiệu X.
Với mẫu ngẫu nhiên kích thƣớc n (có n phần tử), gọi X dấu hiệu X của
i
phần tử thứ i của mẫu (i n). Bằng cách đồng nhất mẫu ngẫu nhiên với = 2,..1, .,
các dấu hiệu nghiên cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên nhƣ sau:
Mẫu ngẫu nhiên kích thƣớc n là một dãy gồm n biến ngẫu nhiên X …,
1
, X
2
,
X
n
độc lập cùng phân phối với X. Kí hiệu X = (X …, X
1
, X
2
,
n
).
Thực hiện một phép thử đối với mẫu ngẫu nhiên X chính thực hiện một
phép thử đối với mỗi thành phần của mẫu. Giả sử X nhận giá trị x
i
i
(i = 1, 2,…,
n), khi đó các giá trị x ,…, x tạo thành một giá trị của mẫu ngẫu nhiên hay
1
, x
2 n
bộ n giá trị quan sát của mẫu ngẫu nhiên. Kí hiệu: x = (x ,…, x
1
, x
2 n
).
3.1.2. Các phương pháp trình bày mẫu
Giả sử ta có mẫu ngẫu nhiên cỡ n gồm các giá trị quan sát (x ,…, x
1
, x
2 n
).
a) Bảng phân bố thực nghiệm
Trong trƣờng hợp mẫu nhỏ các giá trị tƣơng đối rời rạc ta thể trình
bày mẫu dƣới dạng bảng gọi là bảng phân phối thực nghiệm. Nếu trong n giá trị
của mẫu đúng k giá trị phân biệt x ,…, x n), ta gộp các giá trị giống
1
, x
2 k
(k <
nhau lại và đếm số lần xuất hiện giá trị đó trong mẫu thu đƣợc kết quả:
x
1
xuất hiện m
1
lần
x
2
xuất hiện m
2
lần
x
k
xuất hiện m
k
lần
69
Với
1 2
1
... .
k
i k
i
m m m m n
Khi đó mi đƣợc gọi là tần số của xi .
f
i
= m
i
đƣợc gọi là tần suất của x
i
Ta có bảng phân bố tần số thực nghiệm nhƣ sau:
x
i
x
1
x
2
...
x
k
m
i
(tần số)
m
1
m
2
...
m
k
Bảng phân bố tần suất thực nghiệm nhƣ sau:
xi
x1
x2
...
xk
fi (tần suất)
f1
f2
...
fk
1 2
1
... 1
k
i k
i
f f f f
dụ 1: Lấy một mẫu ngẫu nhiên kích thƣớc 120 ta bảng phân bố
thực nghiệm tần số và tần suất nhƣ sau:
X/xi
31
34
35
36
38
40
42
44
mi
10
20
30
15
10
10
5
20
120
fi
2/24
4/24
6/24
3/24
2/24
2/24
1/24
4/24
1
Từ bảng phân bố thực nghiệm trên ta biểu diễn hình học của mẫu. Trên
hệ trục tọa độ đặt các điểm có tọa độ (x
i
, m , f
i
) hay (x
i i
), i = 1, 2,, k.
Lần lƣợt nối các điểm đó với nhau bằng các đoạn thẳng ta đƣợc đa giác tần
số (tần suất).
Nối các điểm đó ơngng với (x
i
, 0) ta đƣợc biểu đồ tần số (tn suất) nh gậy.
Ví dụ 2: Vẽ đa giác tần số của mẫu ngẫu nhiên X đƣợc cho dƣới dạng bảng
nhƣ sau:
x
i
114
115
116
117
118
119
m
i
21
57
111
78
45
18
70
- Đa giác tần số:
- Đa giác tần suất:
b) Bảng phân bố ghép lớp
Trƣờng hợp mẫu có kích thƣớc lớn hoặc khi các giá trị tƣơng đối nhiều và
gần nhau ta thƣờng phân số liệu thành lớp (khoảng). Các khoảng này lập nên
một phân hoạch miền giá trị của biến X. Ngƣời ta thƣờng phân lớp sao cho mỗi
số liệu mẫu rơi vào đúng một lớp.
thể nhiều cách chia lớp khác nhau. Ngoài ra độ rộng của mỗi lớp
không nhất thiết phải bằng nhau nhƣng thông thƣờng ngƣời ta hay lấy bằng
nhau để dễ so sánh.
Ví dụ 3: Một mẫu về chiều cao của 400 cây đƣợc trình bày trong bảng phân
114
115
116
117
118
119
114
115
116
117
118
119
71
bố ghép lớp nhƣ sau:
Khoảng chiều cao
Tần số
Tần suất
[4,5-9,5)
9,5-11,5
11,5-13,5
13,5-16,5
16,5-19,5
19,5-22,5
22,5-26,5
26,5-36,5
18
58
62
72
57
42
36
55
0,045
0,145
0,155
0,18
0,1425
0,105
0,09
0,025
Tổng
400
1
Tổ chức đồ: Trên hệ trục tọa độ, dựng các hình chnhật vuông góc với
trục hoành, diện tích bằng tần số (hay tần suất) còn chiều rộng là độ rộng tƣơng
ứng của lớp đó ta đƣợc tổ chức đồ tần số (tần suất).
Ví dụ 4: Tổ chức đồ tần số cho mẫu ngẫu nhiên cho trong ví dụ trên nhƣ sau:
Nhận xét: Diện tích giới hạn bởi tổ chức đồ tần số ở trên chính bằng tần số
xuất hiện. Chẳng hạn số cây chiều cao nằm trong khoảng từ (12, 25] diện
tích của tổ chức đồ đƣợc giới hạn bởi đƣờng thẳng x = 12 và x = 25 và bằng:
(13,5 12).31 (16,5 13,5).24 (19,5 16,5).19 (22,5 19,5).14 (25 22,5).9 240
Vậy có 240 cây có chiều cao từ 12 m đến 25 m.
dụ 5: Vẽ tổ chức đồ tần số cho mẫu ngẫu nhiên X cho dƣới dạng bảng
phân bố ghép lớp nhƣ sau:
18
58
62
72
57
42
36
55
0
10
20
30
40
50
60
70
80
[4.5-9.5) 9.5-11.5 11.5-13.5 13.5-16.5 16.5-19.5 19.5-22.5 22.5-26.5 26.5-36.5
72
Các lớp
Tần số
Tần suất
[20,25)
3
0.1
[25,30)
6
0.2
[30,35)
5
0.166667
[35,40)
4
0.133333
[40,45)
4
0.133333
[45,50)
4
0.133333
[50,55)
2
0.066667
[55,60)
1
0.033333
[60,65)
1
0.033333
Ta đƣợc:
- Tổ chức đồ tần số:
- Tổ chức đồ tần suất:
3.1.3. Hàm phân phối thực nghiệm
Vi m u ng u nhiên c n các quan sát v n ng u nhiên X cho b i b biế ng
phân b c nghi m, hàm phân ph i th c nghi m (hàm phân ph i m u) c a X, th
0
1
2
3
4
5
6
7
[20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)
Tần số
0.1
0.2
0.166667
0.133333 0.133333 0.133333
0.066667
0.033333 0.033333
0
0.05
0.1
0.15
0.2
0.25
[20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)
73
ký hiu là F
n
(X) là hàm xác định bi công th c:
( ) ,
n i
x x
i
m
F x f
n
x
R
Trong đó m
x
là s các quan sát x < x.
i
Nếu m i d ng bẫu cho dƣớ ng phân ph i ghép l p tta tính t n s c ng
dn
x
i
m
tại các đầu mút của mỗi lớp rồi nối các điểm
,
x
i
i
m
x
n
lại với nhau ta
đƣợc hình ảnh hàm phân phối thực nghiệm.
Vi m i giá tr c c m t hàm phân ph i thủa n ta đƣợ c nghi m. Khi
n 
các hàm phân phối thực nghiệm tiến dần tới hàm phân phối lý thuyết cần tìm (là
xấp xỉ của hàm phân phối lý thuyết).
3.2. Các số đặc trƣng mẫu
Một thống của mẫu là một hàm của các biến ngẫu nhiên thành phần của
mẫu. Thống của mẫu ngẫu nhiên X = ( ) cũng một biến ngẫu X
1
, X
2
,..., X
n
nhiên tuân theo một quy luật phân bố xác suất nhất định các tham số đặc
trƣng nhƣ kỳ vọng E(X), phƣơng sai D(X)… Mặt khác, khi mẫu ngẫu nhiên
nhận một giá trị cụ thể x = (x ,…, x
1
, x
2 n
) thì X cũng nhận một giá trị cụ thể.
3.2.1. Kỳ vọng mẫu, phương sai mẫu
a. Kỳ vọng mẫu
Kỳ vọng mẫu (trung bình mẫu) của mẫu ngẫu nhiên X = (X
1
, X
2
,..., X
n
)
đƣợc định nghĩa và ký hiệu là:
1
1
n
i
i
X X
n
b. Phương sai mẫu
- Phƣơng sai mẫu chƣa chỉnh lý:
2
2
1
*2 2
1 1
1 1
n
i
n n
i
i i
i i
x
S X X X
n n n
- Phƣơng sai mẫu đã chỉnh lý:
74
2
1
2 2
1 1
1 1
1 1
n
i
n n
i
i i
i i
x
S X X X
n n n
Ý nghĩa của kỳ vọng mẫu và phương sai mẫu:
Kỳ vọng mẫu hay trung bình mẫu số đặc trƣng về vị trí trung tâm của
mẫu (xu thế các số liệu mẫu tập trung quanh một con số nào đó), có thể dùng để
thay thế cho toàn bộ các số liệu mẫu.
Phƣơng sai mẫu đặc trƣng cho độ phân tán của các số liệu mẫu so với kỳ
vọng mẫu
X
.
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu
Với mẫu ngẫu nhiên cỡ n đƣợc cho dƣới dạng bảng phân phối thực nghiệm.
Ta lập bảng tính sau:
x
i
x
1
x
2
...
x
k
Tổng
m
i
m
1
m
2
...
m
k
n
m
i
x
i
m
1
x
1
m
2
x
2
m
k
x
k
(*)
m
i
x
i
2
m
1
x
1
2
m
2
x
2
2
m
k
x
k
2
(**)
T bng tính trên ta nh đƣc trung bình mu và phƣơng sai mu theo công thc.
1 1
1 1
n k
i i i
i i
X x m x
n n
2
1
2 2
1 1
1 1
1 1
n
i
n k
i
i i i
i i
x
S x X m x
n n n
dụ 1: Tính trung bình mẫu phƣơng sai mẫu của biến ngẫu nhiên X
với các giá trị quan sát đƣợc cho dƣới bảng sau:
7,6
8,8
9,3
9,7
10,6
11
11,8
11,9
12,3
Từ giả thiết ta lập bảng:
x
i
7,6
8,8
9,3
9,7
10,6
11
11,8
11,9
12,3
101,9
75
x
i
2
57,76
77,44
86,49
94,09
112,36
121
139,24
141,61
151,29
1060
Kỳ vọng mẫu:
1
.101,9 10,19
10
X
Phƣơng sai mẫu:
2 2
1
{1060 10.10,19 } 2,4043
9
S
Phƣơng sai mẫu chƣa chỉnh lý:
*2 2
1 9
.2,4043 2,1639
10
n
S S
n
Chú ý:
1. Nếu các giá trị của mẫu cụ thể đƣợc cho dƣới dạng bảng phân bố ghép
lớp với các khoảng với điểm đầu là a và điểm cuối là b thì x đƣợc lấy bằng trung
i
bình cộng của a và b.
2. Đổi biến: Nếu các giá trị của mẫu cụ thể x không gọn (quá lớn hoặc quá
i
bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi biến:
i
i
x c
u
h
Trong đó c và h đƣợc chọn một cách hợp sao cho
2
,
u
u S
tính dễ dàng hơn.
Thông thƣờng c là giá trị mẫu ứng với tần số lớn nhất h khoảng cách
(đều nhau) giữa các giá trị mẫu.
Sau đó, ta tính
2
,
u
u S
từ bảng số liệu mới, sau đó tính lại
2
,
X
X S
theo công
thức:
2 2 2
, . .
X u
X hu c S h S
3.2.3. Các đặc trưng khác
Ngoài kỳ vọng mẫu, phƣơng sai mẫu ta còn có các đặc trƣng khác:
a. Mode mẫu (KH là Mo)
- Nếu mẫu cho dƣới dạng bảng phân bố tần số thì mode giá trị của mẫu
ứng với tần số lớn nhất.
- Nếu mẫu cho dƣới dạng bảng phân bố ghép lớp thì khoảng mode
khoảng có tần số lớn nhất.
dụ 2: Một cửa hàng muốn dự trữ hàng hóa đáp ứng nhu cầu của ngƣời
mua thì phải tìm hiểu loại h ng nào khách hàng hay hỏi mua nhất.à
Thống kê số ngƣời mắc bệnh theo độ tuổi tđộ tuổi nhiều ngƣời mắc
bệnh thƣờng đƣợc quan tâm hơn là độ tuổi trung bình mắc bệnh.
76
b. Median (KH là Me)
Trung vị hay median của mẫu là số có tính chất:
Số các giá trị mẫu ≤ Me bằng số giá trị mẫu ≥ Me.
Cách tìm trung vị:
- Nếu mẫu gồm các giá trị phân biệt, sắp xếp theo thứ tự tăng dần x
1
< x <
2
< x thì:
n
+
/2 /2 1
1
2
n n
Me x x
; nếu n chẵn
+
( 1)/ 2n
Me x
. nếu n lẻ
- Nếu mẫu cho dƣới dạng bảng phân lớp:
Bƣớc 1: Tìm khoảng trung vị tìm khoảng thứ k với k chỉ số nhất
thỏa mãn: m
1 2
+ m + … + m ≥ n/2
k
.
Bƣớc 2: Tìm đƣờng x = Me chia đôi diện tích của tổ chức đồ tần số. Me
trung vị cần tìm.
3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu
Trƣờng hợp biến ngẫu nhiên gốc X tuân theo quy luật phân phối chuẩn.
Định lý 1: Cho biến ngẫu nhiên X có phân phối chuẩn
2
(a, )N
, (X
1
, X
2
,…,
X
n
) là mẫu ngẫu nhiên cỡ n rút ra từ X. Khi đó:
a)
X
có phân phối chuẩn
2
a,N
n
.
b)
2
2
( 1)n S
có phân phối
2
với (n 1) bậc tự do- .
c)
( )X a n
S
có phân phối Student với (n 1) bậc tự do- .
Định 2: Cho (X , X ) (Y , Y
1 2
,…, X
n 1 2
,…, Y
m
) các mẫu ngẫu nhiên
độc lập rút ra từ các biến ngẫu nhiên X phân phối chuẩn
2
1 1
( , )N a
Y
phân phối chuẩn
2
2 2
(a , )N
tƣơng ứng. Khi đó:
a) Biến ngẫu nhiên
2 2
1 1
2 2
2 2
/
/
S
F
S
phân phối Fisher với (n-1, m-1) bậc tự do.
77
b)
X Y
có phân phối chuẩn
2 2
1 2
1 2
1 2
(a a , )N
n n
.
BÀI TẬP
Bài 1: Cho dãy số liệu:
47 45 41 34 20 26 38 53 45 38 31 20
43 44 27 22 29 45 55 42 29 32 27 37
61 30 35 33 27 43 50
a) Tính số trung vị.
b) Nhóm các số liệu thành lớp độ dài 5 (lấy lớp đầu [20; 25)), vtổ
chức đồ tần số.
c) Tính trung bình và phƣơng sai mẫu theo lớp và theo mẫu ban đầu.
Bài 2: Năng suất một loại cây trồng trên 36 thửa đất là:
19,2 17,7 20,0 21,1 21,5 18,5 20,6 19,3 19,0 18,2 17,1
19,2 19,1 15,2 19,5 17,3 16,3 19,6 17,5 19,1 19,7 16,0
16,7 16,4 20,8 19,3 16,0 17,4 15,3 17,2 17,6 11,5 11,4
16,1 17,8 20,0
a) Phân các số liệu trên thành lớp độ dài 1,5 (lớp đầu tiên t [11
12,5)). Vẽ tổ chức đồ tần suất.
b) Tính kỳ vọng và phƣơng sai mẫu.
Bài 3: Gặt ngẫu nhiên 20 thửa ruộng ngƣời ta thu đƣợc năng suất X (tính
theo tạ/ha) của một loại lúa nhƣ sau:
10,25
21,50
27,80
29,00
13,50
19,50
24,00
35,00
18,00
24,75
23,75
32,00
16,50
22,00
26,00
22,50
15,50
23,50
29,75
21,50
a) Lập bảng phân phối ghép lớp với lớp đầu [10 - 15)
b) Tính phƣơng sai mẫu theo mẫu ban đầu và theo mẫu ghép lớp.
Bài 4: Cho b ng s u sau: li
Khong
0-10
10-20
20-30
30-50
50-70
70-100
78
Tn s
7
20
15
20
10
9
Tính trung bình mẫu, khoảng mode và số trung vị.
Bài 5: Tính trung bình mẫu và độ lệch tiêu chuẩn mẫu từ bảng số liệu sau:
x
i
114
115
116
117
118
119
m
i
21
57
111
78
45
18
79
Chƣơng 4
ƢỚC LƢỢNG THAM SỐ
4.1. Ƣớc lƣợng điểm
Xét một tổng thể đƣợc đặc trƣng bởi một biến ngẫu nhiên X nào đó. Thông
thƣờng dạng phân phối của X đã biết nhƣng còn phụ thuộc một vài tham số
nào đó chƣa biết mà ta đang quan tâm.
Bài toán , xđặt ra là: Căn cứ vào các giá trị mẫu x
1 2
,…, x
n
về X để tìm một
ƣớc lƣợng cho
.
Ví dụ 1: Giả sử X có phân phối chuẩn
2
( , )N
.
- Nếu a chƣa biết thì
µ. =
- Nếu cả hai tham số µ
2
chƣa biết thì
2
( , )
.
Trong chƣơng này ta sẽ tìm hiểu ba loại ƣớc lƣợng:
- Ƣớc lƣợng điểm;
- Ƣớc lƣợng hợp lý cực đại;
- Ƣớc lƣợng khoảng.
Phƣơng pháp ƣớc lƣợng điểm chủ trƣơng một giá trị để thay cho giá dùng
trị của tham số
chƣa biết của tổng thể. Thông thƣờng giá trị đƣợc chọn này
giá trị cụ thể của một biến ngẫu nhiên
ˆ
nào đó của mẫu.
4.1.1. Khái niệm ước lượng điểm và tính chất
4.1.1.1. Khái niệm
Với mẫu ngẫu nhiên X = (X ,…, X ), thống kê ƣớc lƣợng cho tham s
1
, X
2 n
có dạng công thức:
1 2
ˆ
( ,X ,..., )
n
T X X
Lúc này, với một mẫu cụ thể x = (x ,…, x ) ta tính đƣợc giá trị cụ thể
1
, x
2 n
của biến ngẫu nhiên
1 2
ˆ
(x , x ,..., x )
n
T
. Giá trị cụ thể này đƣợc gọi là ƣớc lƣợng
điểm cho tham số
.
Chú ý: Ƣớc lƣợng điểm
1 2
ˆ
( ,X ,..., )
n
T X X
chỉ phụ thuộc vào các quan
sát x , x
1 2
,…, x và không phụ thuộc vào tham số
n
.
dụ 2: Cho X biến ngẫu nhiên phân phối chuẩn
2
( ; )N
. Giả sử
80
(X
1
, X
2
,…, X
n
) là mẫu ngẫu nhiên về X:
- Đại lƣợng
1 2
1
( ... )
n
X X X X
n
là ƣớc lƣợng điểm của kỳ vọng của µ
biến ngẫu nhiên X;
- Đại lƣợng
2 2
1
1
( )
1
n
i
i
S X X
n
hoặc
*2 2
1
1
( )
n
i
i
S X X
n
ƣớc lƣợng
điểm của phƣơng sai
2
của biến ngẫu nhiên X.
4.1.1.2. Tính chất
Nhƣ vậy, một ƣớc lƣợng
ˆ
T
một hàm của n biến ngẫu nhiên. Giá trị
của ƣớc lƣợng cũng đổi từ mẫu quan sát này đến mẫu quan sát khác.thay
Nghĩa là, với cùng một mẫu ngẫu nhiên ta thể xây dựng nhiều thống
ˆ
khác nhau để ƣớc lƣợng cho tham số
. vậy ta cần lựa chọn thống tốt
nhất để ƣớc lƣợng cho tham số
dựa vào các tính chất sau:
a) Tính không chệch
Định nga: Ƣớc lƣợng
ˆ
đƣợc gọi là ƣớc lƣợng kng chệch của tham số
nếu
ˆ
E
.
Nếu
ˆ
E
thì
ˆ
đƣợc gọi là ƣớc lƣợng chệch của
.
Ví dụ 3: Ta chứng minh đƣợc:
-
1 2
1
( ... )
n
X X X X
n
là ƣớc lƣợng không chệch của kỳ vọng µ;
-
2 2
1
1
( )
1
n
i
i
S X X
n
là ƣớc lƣợng không chệch của phƣơng sai
2
;
-
*2 2
1
1
( )
1
n
i
i
S X X
n
là ƣớc lƣợng chệch của phƣơng sai
2
.
b) Tính vững
Định nghĩa: Ƣớc lƣợng
ˆ
đƣợc gọi là ƣớc lƣợng vững của tham số
nếu
với mọi
0
cho trƣớc tùy ý ta có:
ˆ
lim | | 1
n
P

(
ˆ
hội tụ theo xác suất tới
).
81
Ví dụ 4 :
1 2
1
( ... )
n
X X X X
n
là ƣớc lƣợng vững của kỳ vọng µ.
c) Tính hiệu quả
Định nghĩa: Ƣớc lƣợng
ˆ
đƣợc gọi ƣớc lƣợng hiệu quả của tham s
nếu
ˆ
ƣớc lƣợng không chệch phƣơng sai nhỏ nhất trong lớp các ƣớc
lƣợng không chệch.
Ví dụ 5:
1 2
1
( ... )
n
X X X X
n
là ƣớc lƣợng hiệu quả của kỳ vọng µ.
4.1.2. Phương pháp ước lượng hợp lý cực đại
Cho bi n ng u nhiên X có phân phế i
(X, )f
với dạng của f đã biết, nhƣng
chƣa biết. Để ƣớc lƣợng
ta lấy mu ngu nhiên (X
1
, X
2
, …, X
n
) và lp hàm:
1 2
( ) (X , )f(X , )...f(X , ),
n
L f
(1)
gọi hàm hợp của mẫu, phụ thuộc vào …, XX ,
1
, X
2 n
nhƣng coi …, X đã biếX ,
1
, X
2 n
hng s t và
biến. Vấn đề đặt ra tìm
1 2
ˆ
( , ,..., )
n
X X X
sao cho:
1 2
ˆ
( , ,..., ) ( )
n
L X X X L
(2)
Điều kiện (2) ở trên tƣơng đƣơng với:
1 2
ˆ
ln ( , ,..., ) ln ( )
n
L X X X L
(3)
Đặt
( ) ln ( )L
, khi đó điều kiện (3) tƣơng đƣơng với:
ˆ
(4)
Ƣớc lƣợng
1 2
ˆ
( , ,..., )
n
X X X
xác định bởi điều kiện trên gọi ước lượng
hợp lý cực đại của
.
Nếu
khả vi theo
thì tại
1 2
ˆ
( , ,..., )
n
X X X
ta có:
0

(5)
Phƣơng trình (5) này đƣợc gọi mọi nghiệm của phương trình hợp
nó nếu thỏa mãn điều kiện (3) hoặc (4) đều là ƣớc lƣợng hợp lý cực đại của
.
dụ 1: Cho biến ngẫu nhiên X phân phối chuẩn
2
( ,3 )N
với a chƣa
biết và cho …, x(x
1
, x
2
,
n
) mu c n c ng hủa X. Hãy tìm ƣớc lƣợ p cực đại
ca µ.
82
Gii:
Theo giả thiết X có phân phối chuẩn
2
( ,3 )N
nên có hàm mật độ là:
2
( )
18
1
( )
3 2
x
f x e
Từ đó, ta có hàm hợp lý là:
22 2
( )( ) ( )
1 2
18 18 18
1 2
2
( )
1
18
1 1 1
( , ,..., , ) . ...
3 2 3 2 3 2
1
3 2
xx x
n
n
n
x
i
n
i
L x x x e e e
e
2
1
1 1
ln ln (x ) ( )
18
3 2
n
i
i
L n
Ta tìm đƣợc ƣớc lƣợng cho từ phƣơng trình:µ
1 1 1
( )
1 1
0 ( ) 0 ( ) 0
9
n n n
i i i
i i i
x x x
n
Hay
X
là ƣớc lƣợng hợp lý cực đại cần tìm.
Ghi chú:
Trƣờ ế ng h p X bi n ng u nhiên ri rạc, ta cũng định nghĩa tƣơng tự nhƣ
trên v khái ni ệm ƣớc lƣợ ực đạng hp lý c i.
Khái ni ng h p lý c c (4) th c chệm ƣớc lƣợ ực đại định nghĩa theo (3) ho t
là d cựa trên quan điểm “giá trị a
trong thực tế giá trị ứng với xác suất xảy
ra lớn nhất” (vì vậy nó là hợp lý nhất).
Ví dụ 2: Cho biến ngẫu nhiên X có phân phối xác suất nhƣ sau:
X
1
0
P
1
Với
(0,1)
) là m(x
1
, x
2
,…, x
n
u c n ca X. Hãy tìm ƣớc lƣợng hợp lý
cực đại cho
.
Giải:
Từ bảng phân phối trên ta rút ra hàm mật độ cho biến ngẫu nhiên X là:
1
( , ) (1 )
x x
i i
i
f x
83
Với x = 0 hoặc x
i
i
= 1.
Ta có hàm hợp lý cực đại của
là:
11 1
1 1 2 2
1
1
( ) ln (1 ) (1 ) ... (1 )
( ) ln (1 )
x xx x x x
n n
n
x x
i i
i
Xét:
1
ln (1 ) ln (1 )ln(1 )
ln ( , )
(1 )
1 (1 )
x x
i i
i i
i
i i i
x x
f x
x x x
Ƣớc lƣợng hợp lý cực đại cho
là nghiệm của phƣơng trình:
1
1 1
( )
1
0 0 0
(1 ) (1 )
n
i
n n
i i
i
i i
x
d
x k
x n
d n n
Trong đó, k là số lần x
i
= 1 ( =1,.., i n) trong số n giá trị , …, x(x
1
, x
2 n
).
4.2. Ƣớc lƣợng khoảng
Các phƣơng pháp ƣớc lƣợng điể nhƣợc điểm là khi kích thƣớm nói trên có c
mẫu thì ƣớc lƣợng điểm th sai l ch r t nhi u so v i giá tr c a tham s
cần ƣớc lƣợ ặt khác phƣơng pháp trên cũng không thểng. M đánh giá đƣợc kh
năng mắ ầm khi ƣớc lƣợng bao nhiêu. Do đó khi kích thƣớc sai l , c mu
ngƣời ta thƣờng dùng phƣơng pháp ƣớc lƣợng kho ng tin c y.
tin c y là gì? Độ
Khi ta ƣớc lƣợ ảng nào đó thì xác suất đểng cho tham s X thuc kho X
thuc kho ng giá tr ấy đƣợc gi là độ tin cy.
Nghĩa là từ mu ngu nhiên tìm kho ng (a, b) ch a tham s
với xác suất
đủ lớn cho trƣớc (
đƣợc gọi là độ tin cậy).
Khái niệm về khoảng tin cậy: Cho mẫu ngẫu nhiên (x ) về X.
1
, x
2
,…,x
n
Khoảng (a; b) hai đầu mút hai thống a = a(x …, x
1
, x
2
,
n
) b = b(x
1
,
x
2
,…, x
n
) gọi là khoảng tin cậy của tham số
với độ tin cậy nếu:
(a b)P
Trong thực tế, tờng yêu cầu độ tin cậy
khá lớn, khi đó theo nguyên lý xác
suất ln thì biến cố {
a b
} hầu nhƣ chắc chn sẽ xảy ra trong một phép thử.
84
Khi đó
2
b a
đƣợc gọi là độ chính xác của ƣớc lƣợng.
Nhƣ vậy, với cùng một đ tin cậy thì khoảng tin cậy càng hẹp thì ƣớc
lƣợng càng chính xác.
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn
Giả sử biến ngẫu nhiên X phân phối chuẩn
2
( , )N
nhƣng chƣa biết tham
số µ của nó. Từ tổng thể rút ra một mẫu ngẫu nhiên X = , x(x
1 2
,…, x
n
) kích thƣớc n.
Ta cần ƣớc lƣợng khoảng cho với độ tin cậy µ
trongc trƣờng hợp sau.
4.2.1.1. Trường hợp phương sai
2
đã biết
Theo định nghĩa của ƣớc lƣợng khoảng, ta cần tìm
sao cho:
P X X
hay
P X
Theo giả thiết
2
~ ;X N
n
áp dụng công thức tính xác suất theo phân
phối chuẩn ta có:
2 1
n
P X
Suy ra
1
.
2
n
Đặt
/2 /2
.
n
u u
n
Trong đó u đƣợc tìm từ điều kiện
α/2
/2
1 1 1
1
2 2 2
u
.
Nhƣ vậy, khoảng tin cậy của tham số a với độ tin cậy
có dạng:
;X X
Trong đó, độ chính xác của ƣớc lƣợng
/2
u
n
, với
1 ;
/2
u
đƣợc tìm từ điều kiện
/2
(u ) 1
2
.
Kết luận, khoảng ƣớc lƣợng của µ là:
/2 /2
;X u X u
n n
.
85
Một số giá trị
/2
u
thƣờng gặp:
/2 /2
90% 0,1 (u ) 0,95 u 1,64
/2 /2
95% 0,05 (u ) 0,975 u 1,96
/2 /2
98% 0,02 (u ) 0,99 u 2,32
/2 /2
99% 0,01 (u ) 0,995 u 2,57
Ví dụ 1: Chiều cao của một loại gỗ quý là một biến ngẫu nhiên X phân bố
theo quy luật chuẩn với độ lệch tiêu chuẩn 1 cm. Đo thử 25 cây loại này ta tính
đƣợc chiều cao trung bình là
196,4X cm
.
Với độ tin cậy 95%, hãy tìm khoảng tin cậy của chiều cao trung bình của
loại cây trên.
Giải:
Gọi X là biến ngẫu nhiên về chiều cao của loại gỗ quý. Theo giả thiết X có
phân phối chuẩn với
1
.
Từ mẫu đã cho ta đã có:
196,4X
/2 /2
(u ) 1 0,975 u 1,96.
2
Độ chính xác của ƣớc lƣợng là:
/2
1
1,96. 0,392.
25
u
n
Vậy ta có khoảng ƣớc lƣợng của chiều cao trung bình a là:
/2 /2
1 1
; 196,4 1,96. ; 196,4 1,96. 197,008; 196,792
25 25
X u X u
n n
4.2.1.2. Trường hợp phương sai
2
chưa biết
Trong nhiều bài toán thực tế, ta không biết trƣớc phƣơng sai
2
của biến
ngẫu nhiên gốc X của tổng thể. Ta thể dùng phƣơng sai mẫu
S
2
(tính toán
đƣợc từ mẫu) để thay thế phƣơng sai
2
(Vì S
2
là ƣớc lƣợng vững không chệch
của
2
).
Biến ngẫu nhiên
/
X
T
S n
phân phối Student với (n-1) bậc tự do. Theo
phân phối Student, ta tìm đƣợc
/2
( 1)t n
thỏa mãn:
/2 /2
| | ( 1) | | ( 1)P T t n P T t n
86
Khoảng ƣớc lƣợng cho kỳ vọng a :
/2 /2
( 1) ; ( 1)
S S
X t n X t n
n n
với độ chính xác
/2
( 1) .
S
t n
n
Trong đó t ) tra từ bảng phân phối Student với (n 1) bậc tự do, mức ý
α/2
(n-1 -
nghĩa /2.
Chú ý: Khi cỡ mẫu n > 30, phân phối Student tiệm cận phân phối chuẩn
nên có thể sử dụng
/2
u
thay cho
/2
( 1).t n
dụ 2: Năng suất của một loại giống mới biến ngẫu nhiên X phân
phối chuẩn
2
( , )N
. Tiến hành gieo thử hạt giống mới này tại 16 vƣờn thí
nghiệm và thu đƣợc kết quả nhƣ sau:
19,2 18,7 22,4 20,3 16,8 25,1 17,0 15,8
21,0 18,6 23,7 24,1 23,4 19,8 21,7 18,9
Với độ tin cậy 95%. Hãy tìm khoảng tin cậy cho năng suất trung bình của
loại giống trên.
Giải:
Từ mẫu đã cho ta tính đƣợc:
20,406X
và S = 3,038.
Tra bảng phân phối Student ta đƣợc t
0,025
(15) = 2,13.
Ta có khoảng ƣớc lƣợng của năng suất trung bình a là:
/2 /2
( 1) ; ( 1)
3,038 3,038
20,406 2,13. ; 20,406 2,13. 18,79; 20,02
16 16
S S
X t n X t n
n n
dụ 3: Chiều cao của cây con tại một vƣờn ƣơm một biến ngẫu nhiên
X phân phối chuẩn
2
( , )N
. Ngƣời ta tiến hành đo ngẫu nhiên 200 cây con
tại vƣờn và thu đƣợc kết quả sau:
Chiều cao
19,7
18,9
20,2
23
22,5
19,5
Số cây con
10
15
35
75
55
10
87
Dựa vào kết quả này hãy tìm khoảng ƣớc lƣợng cho chiều cao trung bình ?
Với mức ý nghĩa
0,05
.
Giải:
Từ mẫu trên, ta tính đƣợc:
21,725X
và S = 2,244
Vì cỡ mẫu n = 200 nên ta có thể sử dụng
/2
u
thay cho
/2
( 1)t n
/2
1 / 2u
= 0,975 =>
/2
u
=1,96
Vậy khoảng ƣớc lƣợng cần tìm là:
/2 /2
2,244 2,244
; 21,725 1,96. ;21,725 1,96.
200 200
21,414;22,036
S S
X u X u
n n
Bảng tóm tắt các công thức cần nhớ:
Độ chính xác
Khoảng tin cậy
2
đã biết
/2
u
n
/2 /2
;X u X u
n n
2
chưa biết và n
30
/2
( 1)
S
t n
n
/2 /2
( 1) ; ( 1)
S S
X t n X t n
n n
2
chưa biết và n
> 30
/2
S
u
n
/2 /2
;
S S
X u X u
n n
4.2.2. Khoảng tin cậy cho xác suất
Giả sử trong một tổng thể, mỗi thể mang hoặc không mang dấu hiệu A
nào đó. Gọi p (chƣa biết) là tỷ lệ thể dấu hiệu A trong tổng thể. Lấy một
mẫu quan sát ngẫu nhiên cỡ n từ tổng thể.
Bài toán đặt ra là căn cứ trên các giá trị thu đƣợc từ mẫu, hãy ƣớc lƣợng giá
trị của p.
Gọi X là số cá thể có dấu hiệu A trong mẫu. Ta có ƣớc lƣợng không chệch
cho p là tần suất
X
f
n
.
Khi n lớn thì có phân phối xấp xỉ phân phối chuẩn f
( , )
pq
N p
n
với
1q p
.
88
p chƣa biết nên phƣơng sai cũng chƣa biết. D(f)
Mặt khác, tần suất mẫu ƣớc lƣợng vững, không chệch hiệu quả cho f
tần suất của tổng thể nên với n đủ lớn, thỏa mãn điều kiện p nf>10n(1-f)>10
ta có thể xấp xỉ
(1 ) (1 )
( )
p p f f
D f
n n
.
Gọi
là độ chính xác của ƣớc lƣợng.
Khi đó:
2 1
(1 )
P f p
f f
n
Để
2 1
(1 )
P f p
f f
n
Đặt
/2 /2
(1 )
(1 )
f f
u u
n
f f
n
Với
/2
u
đƣợc xác định từ điều kiện
/2
1 1
( ) 1 1
2 2 2
u
Từ đó ta có khoảng tin cậy cho tỷ lệ là:
/2 /2
(1 ) (1 )
; ;
f f f f
f f f u f u
n n
dụ 4: Trong đợt vận động bầu cử tổng thống một nƣớc, ngƣời ta
phỏng vấn ngẫu nhiên 1600 cử tri thấy trong số đó có 960 ngƣời sẽ bỏ phiếu
cho ứng cử viên A. Với độ tin cậy 99%, hãy ƣớc lƣợng khoảng tin cậy cho tỷ lệ
số phiếu bầu cho ứng cử viên A?
Giải:
Gọi p là tỷ lệ số phiếu sẽ bầu cho ứng cử viên A.
Với mẫu cụ thể cho ở trên, ta có :
960
0,6
1600
f
Kiểm tra điều kiện nf = 960 >10 = 640 >10 n(1-f) thấy thỏa mãn:
/2 /2
1 1
( ) 1 1 0,995
2 2 2
u u

1,96
89
Vậy độ chính xác của ƣớc lƣợng là:
/2
(1 ) 0,6.0,4
1,96 0,024
1600
f f
u
n
Vậy khoảng tin cậy cho tỷ l
(0,6 0,024; 0,6 0,024)
tức (0,576; 0,624).
4.2.3. Khoảng tin cậy cho phương sai
Bài toán: Giả sử
2
( , )X N
. Lấy đƣợc mẫu kích thƣớc n về X. Cho trƣớc
độ tin cậy
.
Cần ƣớc lƣợng khoảng cho
2
.
Giải pháp: Từ mẫu thu đƣợc, ta tính đƣợc phƣơng sai mẫu đại lƣợng
S
2
2
2
2
1n S
có phân phối khi bình phƣơng với n – 1 bậc tự do.
Nhƣ vậy, với độ tin cậy
đã cho, ta tìm đƣợc hai giá trị
2
1
2
2
thỏa
mãn:
2
2 2 2 2 2
1 2 1 2
2
1n S
P P
2 2
2
2 2
2 1
1 1n S n S
P
Vậy khoảng ƣớc lƣợng cho
2
với độ tin cậy
là:
2 2
2 2
2 1
1 1
;
n S n S
.
Trong đó hai giá trị
2
1
2
2
tìm đƣợc bằng cách tra bảng phân phối khi
bình phƣơng với n 1 bậc tự do từ điều kiện:-
2 2
2
2 2 2 2
1 1
1
2
1 1
2 2
P
P P
dụ 5: Kích thƣớc của một chi tiết máy một biến ngẫu nhiên phân
bố chuẩn. Trong một mẫu gồm 30 chi tiết đƣợc kiểm tra ta tính đƣợc
X
= 0,47;
S = 0,032. Tìm kho ng tin c y 95% cho ph ng sai ƣơ của kích thƣớc toàn bộ các
chi tiết máy.
Giải:
Tra b ng phân ph i khi bình ph ng v i 29 b c t ƣơ do:
90
2 2
0,975 0,25
(29) 16,047; (29) 45, 722
Khoảng ƣớc lƣợng cho phƣơng sai:
2 2
29.0,032 29.0,032
;
45,722 16,047
4.3. Bài toán xác định cỡ mẫu
Với độ tin cậy cho trƣớc, ta thấy kích thƣớc mẫu càng lớn thì khoảng tin
cậy càng hẹp. Tuy nhiên kích thƣớc mẫu càng lớn thì càng mất nhiều thời gian ,
và công sức. Bài toán đặt ra là cần chọn kích thƣớc mẫu tối thiểu là bao nhiêu để
đạt đƣợc độ chính xác mong muốn.
4.3.1. Trường hợp ước lượng cho giá trị trung bình
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện:
2
/2 /2
u n u
n
Hay:
2
/2 /2
S S
u n u
n
Chú ý: Trong công thức thứ hai, ngƣời ta thƣờng lấy bộ một mẫu
kích thƣớc khoảng 30 để ƣớc lƣợng cho phƣơng sai. Vì vậy cỡ mẫu tối thiểu sử ,
dụng đƣợc khi kết quả n > 30.
Ví dụ 6: Ngƣời ta muốn xây dựng khoảng tin cậy 95% với độ chính xác
2 (dặm) cho vận tốc trung bình của ô tô trên đƣờng cao tốc. Một mẫu điều tra sơ
bộ cho ta S = 9. Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu?
Giải:
α = 1 – 0,95 = 0,05 u(0,025) = 1,96.
Cỡ mẫu n thỏa mãn điều kiện:
2
9
1,96 77,79
2
n
Nhƣ vậy, cần phải lấy mẫu với kích thƣớc tối thiểu là 78.
4.3.2. Trường hợp ước lượng cho tỷ lệ
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện:
91
2
/2
/2
(1 )
(1 )
uf f
u n f f
n
với f ƣớc lƣợng điểm cho p. Hoặc nếu f chƣa biết, ta sử dụng bất đẳng thức:
2
/2
(1 ) 1
2 2
uf f
n
n
Chú ý: Nếu p gần 0,5 thì hai phƣơng pháp cho kết quả gần nhƣ nhau. Nếu
p gần 0 hoặc 1 thì hai phƣơng pháp cho kết quả rất khác nhau. Nên sử dụng theo
cách thứ nhất.
dụ 7: Một nhà nông học muốn ƣớc lƣợng tỷ lệ nảy mầm của một loại
hạt giống với độ tin cậy 99%, sai số không quá 0,02.
a) Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu?
b) Nếu nhà nông học đó lấy mẫu với kích thƣớc 1000, thấy có 640 hạt nảy
mầm. Hỏi với yêu cầu nhƣ trên tcần phải lấy mẫu với ch thƣớc tối thiểu
bao nhiêu?
Giải:
a) α = 1 – 0,99 = 0,01 u = 2,38.
0,005
2
2
/2
2,58
4160,25
2 2.0,02
u
n
b)
640
0,64
1000
f
2
2
/2
2,58
(1 ) 0,64.0,36 3834,08
0,02
u
n f f
BÀI TẬP
Bài 1:
Điều tra 200 mảnh ruộng, mỗi mảnh 4 m
2
ta đƣợc:
Sản lƣợng (kg)
1,02 1,08 1,14 1,20 1,26 1,32
Số mảnh
10 15 35 75 55 10
a) Hãy tính năng suất trung bình (tạ/ha).
b) Ƣớc lƣợng khoảng tin cậy của năng suất toàn vùng với độ tin cậy 95%.
92
Giả thiết sản lƣợng là biến ngẫu nhiên có phân phối chuẩn.
Bài 2: Các kết quả đo độ dài một đoạn thẳng (theo m) không chứa sai số hệ
thống đƣợc cho trong bảng:
Kết quả
114 115 116 117 118
Số lần đo
2 5 8 4 3
Với độ tin cậy 95%.
a) Hãy tìm khoảng tin cậy của độ dài đoạn thẳng cần đo.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,3 tcần phải đo ít
nhất bao nhiêu đoạn thẳng?
Bài 3: Hãy ƣớc lƣợng kỳ vọng và phƣơng sai của một tổng thể quy luật
phân phối chuẩn với độ tin cậy 98% dựa theo kết quả của mẫu:
3,1 3,3 2,9 3,0 3,2 2,8 2,7 3,2 3,2 2,9 3,0 2,9
3,1 2,8 2,9 3,1 3,3 2,9 3,1 3,2 3,0 3,1
Bài 4: Để xác định tỷ lệ phế phẩm trong một sản phẩm ngƣời ta rút ra
một mẫu gồm 500 sản phẩm đem kiểm tra thấy 50 phế phẩm. Hãy ƣớc
lƣợng tỷ lệ phế phẩm trong lô với độ tin cậy = 99%.
Bài 5: Trên sở 100 lần thực nghiệm, ngƣời ta thấy rằng thời gian trung
bình để sản xuất 1 chi tiết máy 5,5 giây và sai tiêu chuẩn 1,7 giây. Giả sử
thời gian để sản xuất xong 1 chi tiết máy là biến ngẫu nhiên có phân phối chuẩn
2
( , )N
. Hãy tìm khoảng tin cậy của
2
với độ tin cậy 90%.
Bài 6: Điều tra ngẫu nhiên 180 ngƣời ta thấy có 162 ngƣời hoàn thành định
mức công việc. Với độ tin cậy 95%.
a) Hãy ƣớc lƣợng tỷ lệ hoàn thành định mức chung của toàn nhà máy.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,03 thì cần phải điều
tra ít nhất bao nhiêu ngƣời?
Bài 7: Một phƣơng pháp điều trị mới đang đƣợc xem xét để đánh giá tính
hiệu quả của . Một chỉ tiêu đánh giá số ngày trung bình
từ lúc điều trị
cho đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân đƣợc
theo dõi và đánh số ngày điều trị cho tới khi khỏi bệnh đƣợc ghi lại nhƣ sau:
4 4 3 8 5 6 7 5 3 8 12
93
Tìm khoảng tin cậy 95% cho số ngày trung bình
.
Bài 8: Tìm các khoảng tin cậy 90%, 95% và 98% cho giá trị trung bình dựa
trên các mẫu sau:
) 100, 250, 80.a n X S
) 64, 250, 80.b n X S
Bài 9: Một công ty lớn muốn ƣớc lƣợng trung bình một ngày một thƣ
phải đánh máy bao nhiêu trang giấy. Một mẫu gồm 50 tđƣợc chọn ngẫu
nhiên cho thấy số trang trung bình mà họ đánh máy là 32 với độ lệch tiêu chuẩn
là 6. Tìm khoảng tin cậy 99% cho số trang trung bình mà một thƣ ký của công ty
đánh máy trong một ngày.
Bài 10: Một nhà sƣu tập tem khảo giá chiếc tem A trong 9 cửa hàng thì thấy
giá trung bình 17 (nghìn đồng) với độ lệch tiêu chuẩn 3 (nghìn đồng). Tìm
khoảng tin cậy 90% cho giá của chiếc tem này trong tất cả các cửa hàng bán tem.
Bài 11: quan cảnh sát giao thông kiểm tra hệ thống phanh của 40 chiếc
xe tải trên quốc lộ. Họ phát hiện 14 xe tải có phanh chƣa đảm bảo an toàn.
a) Tìm khoảng tin cậy 95% cho tỷ lệ xe tải có phanh chƣa đảm bảo an toàn.
b) Tìm khoảng tin cậy 98% cho tỷ lệ xe tải có phanh đảm bảo an toàn.
Bài 12: Từ một tập hợp chính có quy luật chuẩn N( kết quả lấy mẫu nµ;
2
)
= 10 thu đƣợc nhƣ sau:
51 48 56 57 44 52 54 60 46 47
Tìm khoảng tin cậy với độ tin cậy 90%.cho µ
2
94
Chƣơng 5
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
5.1. Đặt vấn đề
Trong các hoạt động thực tiễn, ta thƣờng đặt ra và giải quyết nhiều bài toán
mà ta sẽ gọi là bài toán kiểm định giải thuyết. Sau đây là một số ví dụ.
Trên truyền thông, ta bắt gặp nhiều tuyên bố của các nhà quản lí. Chẳng
hạn, một trƣờng đại học tuyên bố tỉ lệ sinh viên việc làm đúng ngành đƣợc
đào tạo của trƣờng này sau khi tốt nghiệp trên 80%. Một ngƣời nghi ngờ
thông tin trên muốn kiểm chứng lại khẳng định đó. Câu hỏi phƣơng pháp
nào giải quyết đƣợc vấn đề trên?
Trong nông nghiệp, khi đƣa vào trồng thử nghiệm một giống lúa mới trên
một địa phƣơng. Biết rằng năng suất trung bình sau khi thu hoạch của giống lúa
mới trên các thửa ruộng đƣợc trồng thử nghiệm 6,0 tấn/ha. Năng suất lúa
trung bình của giống lúa truyền thống 5,5 tấn/ha. Câu hỏi đặt ra năng suất
trung bình của giống lúa mới cao hơn giống lúa truyền thống hay không? Từ
thông tin thu đƣợc (từ mẫu), phƣơng pháp nào trả lời câu hỏi trên không
nếu có thì cách thức giải quyết nhƣ thế nào?
Trong lâm nghiệp, ngƣời ta nhận thấy rằng sinh trƣởng của cây rừng vẻ
nhƣ chịu ảnh hƣởng của yếu tố vị trí cây mọc (đƣợc trồng). Giả sử, ta xét trên một
quả đồi ta chia vị trí mà cây mọc (đƣợc trồng) thành ba mức: chân đồi, sƣờn
đồi và đỉnh đồi. Sinh trƣởng của cây đƣợc xếp hạng: sinh trƣởng kém, sinh trƣởng
trung bình và sinh trƣởng tốt. Có thể có một số câu hỏi đƣợc đặt ra nhƣ sau:
Câu hỏi 1: ảnh hƣởng thực sự của yếu tố vị trí đối với sinh trƣởng của
cây hay không?
Câu hỏi 2: Có sự khác biệt nào về sinh trƣởng khi vị trí cây ở các mức khác
nhau không? Nói nôm na, khi các điều kiện khác xấp xỉ nhau thì cây mọc hoặc
đƣợc trồng ở các vị trí đỉnh đồi, sƣờn đồi và chân đồi sinh trƣởng nói chung của
nó có khác biệt không?
Phƣơng pháp thống giúp ta trả lời một cách “hợp lí” các câu hỏi ở dạng
trên từ dữ liệu đƣợc. Khi đó, các yếu tố thực tế đang quan tâm đƣợc xét
nhƣ là các biến ngẫu nhiên với phân phối, tham số chƣa biết.
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết
95
Cho X là m t bi n ng u nhiên có phân ph
ế i
mẫu về X.
Định nghĩa 1: Giả thuyết một khẳng định về phân phối hay về tham số
chƣa biết của biến ngẫu nhiên, thông thƣờng ta kí hiệu là H hoặc
.
Định nghĩa 2: Đối thuyết là khẳng định về phân phối hay tham số của biến
ngẫu nhiên nhƣng trái ngƣợc với giả thuyết đƣợc nêu, kí hiệu là K hoặc
.
Ví dụ 1:
Giả thuyết H: Biến ngẫu nhiên X có phân phối chuẩn tắc.
Đối thuyết K: Biến ngẫu nhiên X không có phân phối chuẩn tắc.
Đây là giả thuyết đặt ra đối với phân phối chƣa biết của biến, tức là ta đang
ngờ rằng biến có phân phối chuẩn tắc.
d 2 : Gi s , biến X phân phối chuẩn phƣơng sai
đã biết, vng tham s t. Ta th t ra các gi chƣa biế đặ
thuyết và đối thuy ng vết tƣơng ứ i nhƣ sau:
Giả thuyế
t
:
Đối thuyết
Đối thuyết
thể đƣợc thay bằng các đối thuyết
hoặc
.
Bài toán đặt ra nhƣ sau: Ta quan tâm tới biến ngẫu nhiên X có phân phối
chƣa biết. hai khẳng định trái ngƣợc nhau về biến X giả thuyết đối
thuyết. Với dữ liệu thu đƣợc về X (mẫu ngẫu nhiên), ta phải quyết định lựa chọn
một trong hai khẳng định đó theo một cách “hợp lí nhất”.
Phƣơng pháp chung giải bài toán kiểm định giả thuyết:
Để giải bài toán kiểm định giả thuyết, ngƣời ta làm nhƣ sau:
Dựa tn mẫu ngẫu nhiên
thu đƣợc về X, ngƣời ta xây dựng
tiêu chuẩn kiểm định (test thống kê) T hàm của mẫu, tức là
.
Nói đơn giản, tiêu chuẩn T đo sự sai khác giữa giả thuyết đặt ra thực tế quan
sát đƣợc về X.
Ta sẽ đƣa ra quyết định chấp nhận hay bác bỏ giả thuyết dựa vào tiêu chuẩn
T một cách “hợp lí”. Thông thƣờng, nếu sự khác biệt lớn hay T nhận giá trị
lớn ta sẽ bác bỏ giả thuyết. Nếu T nhận giá trị nhỏ thì ta sẽ chấp nhận giả thuyết,
tức là, sự sai khác không đáng kể (sai do yếu tố ngẫu nhiên lấy mẫu). -
Vì ta không có toàn bộ thông tin về biến X nên quyết định mà ta đƣa ra dựa
96
trên tiêu chuẩn T hoàn toàn thể dẫn tới sai lầm. hai sai lầm thể mắc
phải nhƣ sau:
a) Sai lầm loại 1: Giả thuyết sai nhƣng ta lại chấp nhận nó.
b) Sai lầm loại 2: Giả thuyết đúng nhƣng ta lại bác bỏ nó.
Một cách tự nhiên, ta cố gắng tìm một tiêu chuẩn sao cho khi đƣa ra quyết
định dựa trên nó thì khả năng mắc hai sai lầm trên là nhỏ nhất. Tuy nhiên, ngƣời
ta chứng minh đƣợc rằng một tiêu chuẩn nhƣ vậy không tồn tại. Trong tình
huống này, ngƣời ta xử lí nhƣ sau:
Ta khống chế xác suất mắc sai lầm loại 1 nhỏ đã ấn đn mt mc nh
trước (thường nhỏ) và tìm một tiêu chuẩn cực tiểu xác suất mắc sai lầm loại 2.
May mắn thay, một tiêu chuẩn nhƣ vậy luôn tồn tại.
Nguyên tắc đƣa ra quyết định: Ngƣời ta đƣa ra quyết định dựa trên
“nguyên lí xác suất nhỏ”.
Nguyên lí xác suất nhỏ: Nếu mt biến cố có xác suất nhỏ thì nó sẽ không
xảy ra trong một hoặc một vài lần thực hiện phép thử.
Đến đây, bài toán kiểm định giả thuyết đƣợc giải quyết bằng phƣơng pháp
phản chứng nhƣ sau:
Giả sử, giả thuyết đặt ra là đúng, khi ấy tiêu chun T có mt phân phi hoàn
toàn xác định. Da vào phân phi này, ta tìm mt min S tha mãn
|
. Miền S đƣợc gọi là miền tiêu chuẩn hay miền bác bỏ giả thuyết.
Từ dữ liệu thực tế có đƣợc, ta tính ra giá trị của T và đối chiếu giá trị của T
với thì ta sẽ bác bỏ giả thuyết. Nếu ngƣợc lại, ta min tiêu chun. Nếu
chấp nhận giả thuyết. Đó là lời giải của bài toán kiểm định giả thuyết.
Cơ sở ết định trên đƣợ ết là đúng đắ ca quy c gii thích: Nếu gi thuy n thì S
là mi n có xác su t nh (vì c ch n nh n c đƣợ ỏ). Do đó, biế xác suất
nhỏ. Một biến cố có xác suất nhỏ phải không xảy ra trong một hoặc một vài lần
lấy mẫu mới là hợp lí. Do đó, nếu trong lần đầu lấy mẫu, ta thấy rằng T rơi vào
miền S, điều này mâu thuẫn với nguyên lí xác suất nhỏ ết định ta đƣa ra là và quy
bác b thuy t. Kh m sai l m lo i 1 khi ch n quy nh này nh gi ế năng phạ ết đị
hơn hoặc bng .
Chú ý:
97
Phƣơng pháp giải trên đƣợc gọi phƣơng pháp kiểm định truyền thống.
Một phƣơng pháp khác thƣờng đƣợc dùng trong các phần mềm thống
phƣơng pháp P giá trị). - value (P -
Tiêu chuẩn T là một biến ngẫu nhiên. Ta đƣa ra quyết định dựa trên T hay
chính dựa trên mẫu (những bằng chứng thu thập đƣợc). Nếu hai mẫu khác nhau
có thể dẫn tới hai quyết định trái ngƣợc nhau.
Xác suất c sai lầm loại 1 đƣợc ƣu tiên khống chế vì ngƣời ta cho rằng sai mắ
lầm này nghiêm trọng hơn nếu phạm phải.
Xác su t m c sai l m lo nh. Do v y, quy nh bác b ại 2 chƣa đƣợc xác đị ết đị
gi thuy nh ch p nh thuy t ết nói chung “an toàn” hơn quyết đị n gi ế nhỏ
đã biết.
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng
Cho X biến ngẫu nhiên và
mẫu ngẫu nhiên thu đƣợc
về biến X.
Bài toán kiểm định: V i m c cho trƣớc, kiểm định các giả thuyết sau:
Bài toán 1
: Giả thuyết
/ Đối thuyết
.
Bài toán 2
: Giả thuyết
/ Đối thuyết
.
Bài toán 3
: Giả thuyết
/ Đối thuyết
.
Bài toán 1 đƣợc gọi là bài toán kiểm định hai phía, bài toán 2 và bài toán 3
đƣợc gọi là bài toán kiểm định một phía.
Ta giải các bài toán trên trong ba trƣờng hợp sau:
Trƣờng hp 1:
t, đã biế là tham số chƣa biết.
Lời giải bài toán 1:
{
Tiêu chu n ki
ểm định:
Giả sử,
đúng, tức
. Ngƣời ta chứng minh đƣợc rằng tiêu
chuẩn T có phân phối chuẩn tắc.
V
i cho trƣớc, ta tìm một số
tha mãn (
|
|
) .
Ta có:
98
(
|
|
) (
|
|
) (
)
Vì tiêu chuẩn U có phân phối chuẩn tắc nên:
(
) (
) (
) (
)
Do đó, ta
(
)
. Từ đây, tra bảng phân phối chuẩn tắc ta sẽ
tìm đƣợc giá trị cụ thể của
.
Đặt
{
|
|
}
. Đây chính là miền có xác su t nh hơn hoặc bng .
Nhƣ vậ ệc xác định đƣợy, vi vi c phân phi ca U mức ý nghĩa cho
trƣớc, ta luôn xác định đƣợc miền tiêu chuẩn hay bác bỏ giả thuyết.
Từ mẫu ngẫu nhiên thu đƣợc về biến X, tính giá trị của tiêu chuẩn U. Sau
đó, ta so sánh với | |
.
Kết luận: Nếu thì ta bác bỏ giả thuyết gƣợc lại, ta chấp nhận
|
|
. N
giả thuyết.
Ví dụ 1: Một ngƣời khẳng định năng suất trung bình của giống lúa A là 6,0
tấn/ha. Tuy nhiên, khi trồng loại lúa này trên 100 thửa ruộng thì thấy rằng năng
suất trung bình 6,5 tấn/ha. Giả sử, năng suất lúa A phân phối chuẩn với
phƣơng sai là 4. Với mức ý nghĩa 5%, khẳng định đƣa ra có đáng tin không?
Giải:
Gọi X là năng suất ca lúa A. Theo gi thi t, . ế
Bài toán đặt ra: vi mức ý nghĩa , kiểm định giả thuyết :
{
Vi , tra ngƣợc bảng phân phối chuẩn tắc tại mức 0,975 ta tìm
đƣợc giá trị
.
Từ mẫu giả thiết, ta
. Do đó, giá trị của tiêu chuẩn
kiểm định là:
Ta
|
|
. Nhƣ vậy, mẫu điều tra đƣợc rơi vào miền bác bỏ
giả thuyết. Kết luận đƣa ra bác bỏ giả thuyết, tức năng suất trung bình của
lúa A khác 6,0 tấn/ha hay khẳng định đƣa ra chƣa hợp lí.
Lời giải bài toán 2:
99
Với cách làm hoàn toàn tƣơng tự, bài toán 2 đƣợc giải nhƣ sau:
Tiêu chuẩn kiểm định:
V
i mc cho trƣớc, ta tìm m t s a mãn: th
.
Nếu giả thuyết đúng ngƣời ta chứng minh đƣợc tiêu chuẩn U phân phối
chuẩn tắc. Do đó, ta có :
M
t khác,
. Tra bảng phân phối chuẩn tắc ta
nhận đƣợc giá trị của
.
Đặt
đây chính là miền bác bỏ giả thuyết của bài toán 2.
Từ mẫu quan sát đƣợc, tính giá trị của tiêu chuẩn U.
Kết luận
: Nếu giá trị của tiêu chuẩn U rơi vào miền
ta sẽ bác bỏ
.
Nếu ngƣợc lại, ta chấp nhận nó.
Ví dụ 2: Tiêu chuẩn khai thác gỗ keo Tai Tƣợng của một nhà máy là đƣờng
kính 1m30 phải từ 30 cm trở lên. Tại một lâm trƣờng trồng loại keo này, khi đo
đƣờng kính 1m30 của 50 cây thì đƣờng kính trung bình là 32 cm. Giả sử, đƣờng
kính có phân phối chuẩn với phƣơng sai là 25 cm. Loại keo của lâm trƣờng này
đã đạt tiêu chuẩn khai thác chƣa, với mức 10%?
Giải:
Gọi X là đƣờng kính cây keo. Ta có .
Bài toán đặt ra:
{
Tiêu chuẩn kiểm định:
Vi , ta có
.
Với mẫu thu đƣợc, giá trị của tiêu chuẩn kiểm định là:
Kết luận:
100
nên ta bác bỏ giả thuyết, tức là đƣờng kính trung bình
của cây keo Tai Tƣợng tại lâm trƣờng đƣợc khảo sát lớn hơn 30 cm.
Bài toán 3 đƣợc giải quyết tƣơng tự nhƣ Bài toán 1 và Bài toán 2 với cùng
tiêu chuẩn kiểm định.
Miền bác bỏ giả thuyết đƣợc xác định nhƣ sau: a tìm số T
tha mãn
. Dựa vào phân phối chuẩn tắc của tiêu chuẩn kiểm định miền
bác bỏ giả thuyết là:
Trong đó,
đƣợc tra từ bảng phân phối chuẩn tắc với mức .
Trƣờ
ng hp 2:
tham số cần kiểm định
chƣa biết,
cỡ mẫu nhỏ (n < 30).
Ta v n xét ba bài toán ki nh gi thuy t: Bài toán 1; Bài toán 2 Bài ểm đị ế
toán 3 v i cùng m c .
Lời giải bài toán 1:
Ta phát biểu lại bài toán 1:
{
Tiêu chuẩn kiểm định đƣợc sử dụng:
Trong đó, ƣớc lƣợng không chệch, vững hiệu quả cho
;
phƣơng sai mẫu.
Ta chứng minh đƣợc rằng khi
đúng thì tiêu chuẩn T phân phối
Student với bậc tự do là n 1. Do vậy, miền bác bỏ giả thuyết đƣợc tìm nhƣ sau- :
Vi cho trƣớc, ta tìm số
tha mãn (
|
|
)
.
Vì T có phân phối Student với n 1 bậc tự do nên -
chính là phân vị mức
của phân phối này. Vậy miền bác bỏ
:
{
|
|
}
Trong đó,
đƣợc tra bảng phân phối Student n 1 bậc tự do -
101
mức
.
Từ mẫu quan sát đƣợc, tính
hoặc
và giá trị của tiêu chuẩn T:
- So sánh | | với
.
-
Kết luận: Nếu
|
|
thì ta bác bỏ giả thuyết, ngƣợc lại ta tạm
thời chấp nhận giả thuyết đặt ra.
dụ 3: Nhiệt độ tháng 6 đo đƣợc tại một địa phƣơng nhiều điểm quan
trắc khác nhau là: 25; 26; 28; 34; 37; 39; 34; 30; 26; 36; 38; 39 và 35 (thang đo độ
C). Giả sử, nhiệt độ biến phân phối chuẩn. Với mức 5% thể khẳng định
rằng nhiệt độ trung bình trên địa phƣơng này vào tháng 6 là
35
0
C không?
Giải:
Gi X là nhiệt độ ại địa phƣơng đó. t Ta có .
Bài toán đặt ra:
{
Từ mẫu ta tính đƣợc:
Tra bảng phân phố Student bậc tự do 12 mức 2,5%i
T
a đƣợc
.
Vậy
|
|
.
Ta chấp nhận giả thuyết, tức là, thể coi nhiệt độ trung bình vào tháng 6
tại địa phƣơng này 35 C. Ở ví dụ này, ta thấy rằng mặc trung bình mẫu và
0
giả
thuyết chêch lệch khá lớn 2,1 C nhƣng giả thuyết không bị bác bỏ cỡ
0
mẫu nhỏ và độ lệch mẫu lớn.
Tƣơng tự nhƣ trong trƣờng hợp 1, Bài toán 2 và Bài toán 3 có miền bác bỏ
giả thuyết lần lƣợt là:
T
rong đó,
đƣợc tra b ng phân phi Student n-1 b c t do, mc .
102
Trƣờng hợp 3: C > , ta mẫu lớn (n 30), trong trƣờng hợp này không cần
giả thiết về tính chuẩn của biến.
Trong trƣờng hợp này, ta ƣớc lƣợng phƣơng sai chƣa biết của biến từ mẫu
và gi i ba bài toán ki nh gi thuy
Sau đó, thay
ểm đị ết nhƣ trƣờng
h
ợp 1. Điu n này c tiêu chuđạt đƣợ
phân phối xấp xỉ phân
phối chuẩn tắc khi cỡ mẫu đủ lớn. Ngƣời ta thƣờng chọn cỡ mẫu 30 đƣợc n >
cho là mẫu lớn vì khi cỡ mẫu lớn hơn 30 thì sai số khi xấp xỉ khá nhỏ.
Ví dụ:
Ví dụ 4: Chiều cao của một số sinh viên đo đƣợc cho ở bảng sau:
Chiều cao (m)
1,40-1,50
1,50-1,55
1,55-1,60
1,60-1,65
1,65-1,70
1,70-1,80
Số sinh viên
7
25
30
34
18
10
Với mức 5%, có thể khẳng định chiều cao trung bình của sinh viên lớn hơn
1,55 m đƣợc không?
Giải:
Gọi X là chiều cao sinh viên. Bài toán kiểm định là:
{
Dựa vào mẫu ta tính đƣợc:
V
i mc , tra b ng phân ph i chu n t ắc, ta đƣợc
.
nên ta bác bỏ giả thuyết, tức là chiều cao trung bình
của sinh viên lớn hơn 1,55 m.
5.3.2. Kiểm định cho xác suất hay tỉ lệ
Bài toán: Gi s , t l cá th c tính A trong t ng th mang đặ đang quan tâm
là p (chƣa biết). Khi quan sát n cá th trong t ng th này thì th y r ng có k cá th
mang đặ ệu có đƣợ ức ý nghĩa cho trƣớc, hãy kiểm c tính A. T d li c và vi m
định các giả thuyết sau:
i toán 1: Giả thuyết
/ đối thuyết
.
Bài toán 2
: Giả thuyết
/ đối thuyết
.
103
Bài toán 3
: Giả thuyết
/ đối thuyết
.
đây ta chỉ giải chi tiết ài toán 3 giải một cách bài toán 1. Bài toán 2 b
hoàn toàn t . ƣơng tự
Ta xây dựng biến ngẫu nhiên từ phép thử:
Đặt
{
Khi đó, thông tin thu đƣợc mẫu
. Tần suất bắt gặp thể
mang đặc tính A là:
Nhƣ vậy, tần suất f là một biến ngẫu nhiên.
Tiêu chuẩn kiểm định đƣợc chọn là:
Ngƣờ
i ta chứng minh đƣợ ết đúng c rng khi gi thuy
thì (
) . do đó,
V
i m a mãn ức ý nghĩa cho trƣớc, ta tìm số
th (
|
|
) .
T phân phối chuẩn tắc nên đƣợc xác định bằng cách tra bảng phân
phối chuẩn tắc tại mức
.
Miền bác bỏ giả thuyết
là:
{
|
|
}
Dựa vào mẫu, ta tính f và tính giá trị của tiêu chuẩn kiểm định U.
So sánh . | | với
Kết luận
: Nếu thì ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận
|
|
giả thuyết đặt ra.
Với cách làm tƣơng tự, miền bác bgiả thuyết của bài toán 2 bài toán 3 :
dụ 1: Một đơn vị cung cấp cây giống khẳng định tỉ lệ cây sống sau khi
trồng trong điều kiện bình thƣờng là 90%. Công ty A mua 500 cây của đơn vị
này trồng và thấy rằng430 cây sống. Với mức ý nghĩa 5%, tuyên bố của đơn
vị cung cấp cây giống có đáng tin không?
Giải:
104
Gọi p là tỉ lệ cây sống sau khi trồng. Bài toán đặt ra :
{
Từ mẫu ta tính đƣợc:
Và:
Với mức ý nghĩa 5%, tra bảng phân phối chuẩn tắc ta đƣợc
.
|
|
nên ta bác bỏ giả thuyết, tức tỉ lệ cây sống không
phải là 90% nhƣ tuyên bố. Ở đây, tần suất bắt gặp cây sống chỉ là 0,86 nên nhiều
khả năng nhà sản xuất đã tuyên bố trội lên chất lƣợng sản phẩm của mình.
5.3.3. Kiểm định cho phương sai
Cho
chƣa biết.
m t m u v X. V i m c
ý nghĩa , hãy kiểm định giả thuyết :
Bài toán 1:
Giả thuyết
/ đối thuyết
.
Bài toán 2
: Giả thuyết
/ đối thuyết
.
Bài toán 1
: Giả thuyết
/ đối thuyết
.
Lời giải toán bài toán 1:
Tiêu chuẩn kiểm định:
Khi
đúng ngƣời ta chứng minh đƣợc rằng tiêu chuẩn phân phối
khi bình phƣơng với n 1 bậc tự do.
-
Ta sẽ bác bỏ giả thuyết khi tiêu chuẩn nhận giá trị “cách xa”
v hai
phía. V i m ức ý nghĩa cho trƣớc, ta tìm hai giá trị
thỏa mãn:
(
)
(
)
Do tiêu chuẩn phân phối hi bình phƣơng 1 bậc tự do nên
k n -
105
chính phân vmức
của phân phối này.
Ta tra đƣợc các giá trị này từ bảng phân phối khi bình phƣơng.
Nhƣ vậy, miền bác bỏ giả thuyết là:
{
}
Dựa vào mẫu quan sát đƣợc, tính giá trị của .
Kết luận: Nếu giá trị của rơi vào miền
thì ta bác bỏ giả thuyết.
Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Bài toán 2 Bài toán 3 đƣợc giải một cách tƣợng tự bằng việc vẫn dùng
tiêu chuẩn
nhƣng miền bác bỏ
sau: đƣợc xác định nhƣ
Đối với bài toán 2, tìm số
sao cho (
)
.
Miền bác bỏ giả thuyết là:
Đối với Bài toán 3, tìm số
sao cho (
)
.
Miền bác bỏ giả thuyết là:
dụ 1: Một kĩ đo đƣờng kính ca 25 chi tiết máy tính đƣợc
Biết rằng nếu độ biến động về đƣờng kính của chi tiết máy lớn hơn
0,2 thì dây truyền này phải điều chỉnh lại. Với mức 5% dây truyền này phải
điều chỉnh lại không?
Giải:
Bài toán:
{
)
Tiêu chuẩn kiểm định:
Tra bảng phân phối hi bình phƣơng 24 bậc tự do với mức 5%, ta k
.
Nhƣ vậy,
. Do đó, ta bác bỏ giả thuyết
,
106
có nghĩa rằng dây truyền này phải đƣợc điều chỉnh lại.
5.4. Bài toán so sánh các tham số
5.4.1. So sánh hai giá trị trung bình
Trong thực tế, ta thƣờng xuyên phải so sánh hai hay nhiều đại lƣợng với
nhau. Trong thống kê, ta cũng các công cụ giúp giải quyết vấn đề này dựa
trên những bằng chứng thu đƣợc về các đại lƣợng quan tâm.
Bài này sẽ so sánh giá trị trung bình của hai biến ngẫu nhiên dựa trên hai
mẫu độc lập và hai biến đƣợc giả thiết là có phân phối chuẩn hoặc cỡ mẫu lớn.
Cho X Y là hai biến ngẫu nhiên,
hai
mẫu về X và Y.
Bài toán đặt ra n sau: Vi mc ý nga cho trƣớc, kiểm định githuyết sau:
Bài toán 1
: Giả thuyết
/ đối thuyết
.
Bài toán 2
: Giả thuyết
/ đối thuyết
.
Bài toán 3
: Giả thuyết
/ đối thuyết
.
Ta giải ba bài toán trên trong các trƣờng hợp sau:
Trƣờng hp 1: Các bi c gi thiến đƣợ ết phân phi chuẩn và phƣơng sai
đã biết, tc là
với
đã biết.
Lời giải bài toán 1:
Tiêu chuẩn kiểm định:
Nếu giả thuyết
đúng thì tiêu chuẩn U có phân phối chuẩn tắc.
Vi mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn
:
(
|
|
)
nên tra b ng phân ph i chu n t c t i m , ta tìm c
đƣợc giá trị này. Do vậy, miền bác bỏ giả thuyết của bài toán là:
{
|
|
}
Dựa vào mẫu, tính
: và tiêu chuẩn U
So sánh
|
|
. với
107
Kết luận
: Nếu ta bác bỏ giả thuyết
|
|
. Ngƣợc lại, ta chấp nhận
giả thuyết đặt ra.
Một cách tƣợng tự, miền bác bỏ giả thuyết của ài toán 3 lần Bài toán 2 và B
lƣợt là:
Trƣờng hợp 2: Các biến đƣợc giả thiết phân phối chuẩn và phƣơng sai
chƣa biết, c mu nh, t c
với
chƣa
biết và n 30 hoặc m < < 30.
a) Mặc dù
chưa biết nhưng ta giả thiết chúng bằng nhau. Ta vẫn xét
ba bài toán kiểm định giả thuyết đã nêu
Lời giải bài toán 1:
Ta ƣớc lƣợng phƣơng sai chung:
Tiêu chuẩn kiểm định:
Giả sử, giả thuyết
i ta ch c r ng tiêu chu n T có đúng, ngƣờ ứng minh đƣợ
phân ph i Student v i bậc tự do.
Vi mức ý nghĩa cho trƣớc, ta tìm số
: thỏa mãn
(
|
|
)
Vì tiêu chuẩn T có phân phối chuẩn tắc nên
là phân vị mức
c a phân ph i Student v i bậc tự do. Miền bác bỏ giả thuyết của
bài toán là:
{
|
|
}
- Dựa vào mẫu, tính
và giá trị tiêu chuẩn T.
-
So sánh
|
|
với
.
108
-
Kết luận Nếu :
|
|
ta bác bỏ giả thuyết. Ngƣợc lại, ta
chấp nhận nó.
Một cách tƣơng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần
lƣợt là:
T
rong đó,
đƣợc tra b ng phân ph i Student v i
b c t do m c .
a. Phương sai của hai biến khác nhau, tức là
(đọc thêm)
Ta vẫn xét ba bài toán kiểm định đã nêu.
- Tiêu chuẩn kiểm định:
Khi giả thuyết đúng, tiêu chuẩn T phân phối xấp xỉ Student với bậc tự
do đƣợc ƣớc lƣợng là phần nguyên của:
(
)
(
)
(
)
Dựa vào phân phối này, ta sẽ đƣa ra đƣợc miền bác bỏ giả thuyết.
Trƣờng hợp 3: Phƣơng sai của biến chƣa biết và mẫu kích thƣớc ln
, trong trƣờng hợp này có thể bỏ qua tính chuẩn của biến.
Đối với trƣờng hợp này, ta tìm ƣớc lƣợng không chệch
cho phƣơng sai
của biến X
cho phƣơng sai của biến Y. Sau đó, thay
bằng
bằng
và giải các bài toàn kiểm định giả thuyết nhƣ trƣờng hợp 1.
Ví dụ 1: Khảo sát chiều cao của 28 cây keo 29 cây Lát Hoa giống đƣợc
ƣơm trồng với các điều kiện khá giống nhau, ta đƣợc kết quả: Chiều cao trung
bình phƣơng sai mẫu của các cây keo cây Lát Hoa lần lƣợt 0,75 m với
phƣơng sai 0,25 0,5 m với phƣơng sai 0,2. Với mức ý nghĩa 5%, thể nói
rằng chiều cao của cây keo lớn hơn cây Lát Hoa không? Giả thiết, chiều cao cây
có phân phối chuẩn.
Giải:
109
Gọi X và Y lần lƣợt là chiều cao của cây Keo và cây Lát Hoa.
Theo gi thi ết:
với
chƣa biết.
Ta có:
Bài toán đặt ra:
{
Phƣơng sai chung:
Tiêu chuẩn kiểm định:
Tra bảng phân phối Student 55 bậc tự do mức 5%, ta có
Nhƣ vậy, T
= 2, >08
nên ta bác bỏ giả thuyết, nghĩa chiều cao
của cây keo là lớn hơn.
5.4.2. Bài toán so sánh hai tỉ lệ (xác suất)
Giả sử, ta quan tâm tới tỉ lệ thể mang đặc tính A nào đó hai tổng thể.
Trong tổng thể 1, tỉ lệ thể mang đặc tính A
(chƣa biết). Tỉ lệ này tổng
thể 2 là
(chƣa biết). Khi điều tra
cá thể ở tổng thể 1 thấy rằng
cá thể
mang đặc tính A. Điều tra cá thể ở tổng thể 2 có cá thế mang đặc tính A.
Bài toán đặt ra: Vi m c cho trƣớc, hãy kiểm định giả thuyết:
Bài toán 1
: Giả thuyết
/ đối thuyết
.
Bài toán 2
: Giả thuyết
/ đối thuyết
.
Bài toán 3
: Giả thuyết
/ đối thuyết
.
Lời giải bài toán 1:
- Ta ƣớc lƣợng tần suất chung (tần suất bắt gặp cá thể mang đặc tính A ở cả
tổng thể 1 và tổng thể 2):
Tiêu chuẩn kiểm định:
(
)
Ta ch
ng minh đƣc rng khi gi thuyết đúng
thì
110
tiêu chuẩn T có phân phối chuẩn tắc.
Vi mc cho trƣớc, miền bác bỏ giả thuyết là:
{
|
|
}
Trong đó, đƣợc xác định bằng cách tra ngƣợc bảng chuẩn tắc tại mức
(
).
-
Từ mẫu thu đƣợc, tính
và tiêu chuẩn U.
-
So sánh
|
|
. với
-
Kết luận: Nếu ta bác bỏ giả thuyết. Nếu ngƣợc lại, ta chấp
|
|
nhận giả thuyết đó.
Với cách làm tƣợng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3
lần lƣợt là:
T
rong đó, ợc xác đị ằng cách tra ngƣợ
đƣ nh b c bng phân phi chun
tc t i m c .
Ví dụ 1: Khi hỏi 150 sinh viên nam 200 sinh viên nữ về quan điểm đối
với bộ phim A, ngƣời ta thấy rằng có 50 sinh viên nam và 150 sinh viên nữ thích
bộ phim đó. Với mức ý nghĩa 5%, thể khẳng định sự khác biệt về tỉ lệ
thích phim A ở hai nhóm nam và nữ đƣợc không?
Giải:
Gọi
lần lƣợt là tỉ lệ thích phim A ở nhóm sinh viên nam và nữ.
Bài toán:
{
Các tần suất:
Tiêu chuẩn kiểm định:
(
)
Tra bảng phân phối chuẩn ở mức 0,025 ta có
Vậy nên ta bác bỏ
|
|
, tức sự khác biệt ràng về tỉ
111
lệ thích phim A ở hai nhóm nam và nữ.
5.4.3. Bài toán so sánh hai phương sai
Cho hai bi n ng u nhiên ế
. Hai mẫu ngẫu
nhiên
về X và
là mẫu về Y.
Vi mức ý nghĩa cho trƣớc, kiểm định giả thuyết sau:
Bài toán 1:
/
.
Bài toán 2:
/
.
Bài toán 3:
/
.
Lời giải bài toán 1:
Từ mẫu tìm ƣớc lƣợng không chệch cho là
.
Lập tỉ số:
Khi gi thuyết H
0
đúng thì F có phân phi Fisher vi bậc tự do.
Miền bác bỏ giả thuyết của bài toán này :
{
(
)
(
)
}
Bài toán 2 và Bài toán 3 đƣợc giải tƣơng tự với miền bác bỏ giả thuyết lần
lƣợt là:
{
}
{
}
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu)
Trong thực tế, ta thƣờng nghiên cứu nhiều biến ngẫu nhiên đồng thời. Việc
phát hiện ra các biến có mối quan hệ với nhau hay không là một vấn đề rất quan
trọng. Trong bài này, ta sẽ trình bày cách thức giải quyết vấn đề trên với hai dấu
hiệu (biến ngẫu nhiên) có thể là dấu hiệu định lƣợng hay định tính.
Xét hai dấu hiệu A B. Dấu hiệu A đƣợc chia thành r mức
.
Dấu hiệu B đƣợc chia thành k mức
.
Dliệu điều tra đƣc tcác thcho bảng sau (bảng liên hiệp các du hiệu):
112
B
A
Trong đó,
là số cá thể mang đồng thời đặc tính
.
Bài t ra là hãy nh s c l p c a hai d u hi u trên v i m c ý toán đặ kiểm đị độ
nghĩa cho trƣớc .
Giải:
Đầu tiên, ta lập bảng tính sau đây:
B
A
Tng
Tổng
n
Trong bảng này, tổng hàng i. Đây chính tổng số thể mang đặc
tính
trong mẫu.
tổng cột i. Đây là tổng số thể mang đặc tính
Tổng hàng hoặc cột cuối cùng là cỡ mẫu n.
Nếu A và B là hai dấu hiệu độc lập với nhau thì:
(
)
(
)
Ta chƣa biết các xác suất này nhƣng ta sẽ ƣớc lƣợng chúng từ mẫu.
Tần suất xuất hiện là ƣớc lƣợng cho xác suất xuất hiện
:
.
Tần suất xuất hiện
là ƣớc lƣợng cho xác suất xuất hiện
:
.
Giả sử A B độc lập thì xác suất bắt gặp một thể mang đồng thời đặc
tính
đƣợc ƣơc lƣợng là:
Và do đó tần số cá thể mang đặc tính tính
là:
113
Nhƣ vậy, nếu A B độc lập thì số các thể mang đồng thời đặc tính
đƣợc ƣớc lƣợng là
. Tuy nhiên, thực tế chỉ quan sát đƣợc số thể này
. Một cách hình thức ta sẽ tìm một tiêu chuẩn để so sánh hai tần số này
dựa trên nó để đƣa ra quyết định.
Tiêu chuẩn kiểm định:
(
)
Ngƣời ta chứng minh đƣợc rằng nếu A B độc lập thì phân phối
k
hi bình phƣơng với bậc tự do.
Do đó, ta bác bỏ giả thuyết nếu
(
)
Ví dụ 1: Nghiên cứu ảnh hƣởng của thành phần thức ăn của mẹ (X) đối với
giới tính của trẻ (Y) ta có kết quả sau:
X
Y
Thiếu vitamin
Đủ vitamin
Trai
111
145
Gái
125
78
Với mức ý nghĩa 5%, thể nói rằng thành phần thức ăn độc lập với giới
tính không.
Giải:
Các tính toán trong bảng sau:
X
Y
Thiếu vitamin
Đủ vitamin
Tổng
Trai
111 (131,6)
145 (124,4)
256
Gái
125 (104,4)
78 (98,7)
203
Tổng
236
223
459
Tiêu chuẩn kiểm định:
= 10,79
Tra bảng phân phối khi bình phƣơng 1 bậc tự do, ta có
.
114
Nhƣ vậy,
nên ta bác bỏ giả thuyết, tức là vẻ nhƣ
chế độ ăn có ảnh hƣởng tới giới tính của trẻ.
BÀI TẬP
Bài 1: Một vƣờn ƣơm cây con phi lao chiều cao trung bình chƣa xác
định. Theo hợp đồng ký kết giữa ngƣời sản xuất cây con và lâm trƣờng: Chỉ khi
nào chiều cao trung bình cây con đạt đƣợc trên 1 m mới đem trồng. Qua điều tra
25 cây thì chiều cao trung bình thu đƣợc là 1,1 m.
Hỏi vƣờn cây con đó đã đem trồng đƣợc chƣa? Biế ến đột rng s bi ng
chiều cao cây con trong giai đoạn vƣờn ƣơm là luật phân bố chiều m
cao có dạng chuẩn.
Bài 2: Đo chiều cao của 38 sinh viên đƣợc chon ngẫu nhiên từ một trƣờng
đại học. Số liệu thu đƣợc cho ở bảng sau:
Chiều cao (m)
1,45
1,55
1,57
1,60
1,65
1,70
1,75
Số sinh viên
3
6
5
11
7
4
2
Giả sử, chiều cao của sinh viên là biến ngẫu nhiên có phân phối chuẩn.
a) Cho biết phƣơng sai là , với mức ý nghĩa 5%, có thể nói rằng
chiều cao trung bình của sinh viên lớn hơn 1,60 m đƣợc không?
b) Với mức ý nghĩa 10%, thể khẳng định chiều cao trung bình của sinh
viên lớn hơn 1,55 m đƣợc không?
Bài 3: Năng suất trung bình của 25 mảnh ruộng trồng lúa A 6,0 tấn/ha.
Với mức 5%, có thể khẳng định đƣợc năng suất trung bình của loại lúa A này là
6,5 tấn/ha đƣợc không? Giả sử năng suất lúa có phân phối chuẩn.
Bài 4: Một mẫu kích thƣớc n = 25 đƣợc rút ra từ một tổng thể phân
phối chuẩn với phƣơng sai 64. Với mức ý nghĩa 5% hãy kiểm định giả thiết
trung bình tổng thể là 52. Biết rằng trung bình mẫu tìm đƣợc là 55,4.
Bài 5: Một công ty khẳng định rằng tỉ lệ sản phẩm đạt tiêu chuẩn 98%.
Tuy nhiên, khi kiểm tra 250 sản phẩm của công ty này thì thấy rằng 33 sản
phẩm không đạt tiêu chuẩn. Với mức ý nghĩa 5%, tuyên bố của công ty trên có
đáng tin không?
Bài 6: Tiến hành 100 phép th m c l p th y r ng 14 l ột cách độ n
xut hi n bi n c A. G i p là xác su t xu t hi n bi n c A. Hãy gi i các bài toán ế ế
115
kiểm định gi thi t sau v i m ế ức ý nghĩa 5%.
a)
0
1
: 0,2
: 0,2
H p
H p
b)
0
1
: 0,2
: 0, 2
H p
H p
Bài 7: Mt kho h t gi ng có t l n y m nh là p = 0,9. Ng u nhiên m xác đị
thiết b b h ỏng làm thay đổi điều kin bên trong ca kho. T l n y m m c a h t
ging còn gi nguyên không? Biết rng khi ki m tra 200 h t gi ng thì 140
ht n y m m, vi
10%
.
Bài 8: Trong một đàn gia súc kiểm tra 805 con 80 con mc bnh A.
Trong m m tra 2756 con có 357 con m c b nh A. Có th coi t l ột đàn khác kiể
mc bnh c hai đàn là nhƣ nhau không? Vớ ức ý nghĩa i m
5%
.
Bài 9: Một lâm trƣờng thí nghim nghiên c ng v chi u cao cứu sinh trƣở a
lim tr i tán và ng thu n loài k t qu ồng dƣớ tr ế nhƣ sau:
Quan sát 100 cây lim tr i tán chi cao bình quân 4,73 m và ồng dƣớ u
sai tiêu chu n là 0,786 m
Quan sát 100 cây lim tr ng thu n loài chi u cao bình quân 4,43 m
sai tiêu chu n là 0,866 m.
Hi lim tr n vồng theo 2 phƣơng pháp trên có khác nhau cơ b sinh trƣởng
chiu cao hay không? V i m c ý nghĩa
5%
.
Bài 10: Trong mt khu r i ta d nh phân thành hai kh i. Giừng ngƣờ đị s
rng phân b tr lƣợng g trên các ô tính ng u nhiên và lu t phân b c a
có d ng chu n. i th u tra 36 ô, tr ng g bình quân là kh nhất ngƣời ta điề lƣợ
12,04 m
3
, sai tiêu chu n 7,7 m
3
. khi th hai quan sát 36 ô, tr lƣợng g
bình quân 17 m
3
, sai tiêu chu n 7,36 m
3
. Hãy so sánh tr ng g trung
bình trên 2 kh i có b ng nhau hay không? V i m ức ý nghĩa
5%
Bài 11: Kiểm tra hàm lƣợng nicotin trong hai loại thuốc A và B một
bao thuốc, kết quả nhƣ sau: loại A: 24; 21; 22; 28 và loại B: 22; 26; 20; 27; 25;
21; 21; 20. (Đơn vị miligam). Với mức ý nghĩa 5%, thể khẳng định hàm
lƣợng nicotin trong hai loại thuốc trên nhƣ nhau hay không? Giả sử, hàm
lƣợng nicotin có phân phối chuẩn.
Bài 12: Ly hai mẫu độc lp t hai tng th X Y có pn phi chuẩn ta đƣc:
116
a) Vi mc 5%, hãy kim định s bng nhau gia phƣơng sai của biến X và Y.
b) Vi m c 10%, th nh giá tr trung bình c a bi n X Y khẳng đị ế
bằng nhau đƣợc không?
Bài 13: Để đánh giá một phƣơng pháp điều trị mới, ngƣời ta điều trị 46
ngƣời theo phƣơng pháp mới thấy khỏi 38 ngƣời, điều trị 47 ngƣời theo phƣơng
pháp thấy khỏi 33 ngƣời. thể coi phƣơng pháp mới đã tác dụng rệt
không?
5%
.
Bài 14: Cho 2 mẫu độc lập:
Mu 1:
x
i
3,4
3,5
3,7
3,9
n
i
2
3
4
1
Mu 2:
y
i
3,2
3,4
3,6
n
i
2
2
8
Vi mức ý nghĩa 5%, kiểm đị : E(X) = E(Y) đốnh gi thiết H
0
i thiết H
1
:
EX EY
.
i 15: Hai phƣơng pháp phân tích hàmng mùn trong đt cho kết qu sau:
Phƣơng pháp 1: 27,5 27 27,3 27,6 27,8
Phƣơng pháp 2: 27,9 27,2 26,5 26,3 27 27,4 27,3 26,8
Hai phƣơng pháp đó có cùng độ chính xác không? Vi
1%
Bài 16: Hai máy cùng gia công một loại chi tiết. Ngƣời ta muốn kiểm tra
xem 2 máy này độ chính xác nhƣ nhau hay không? Để làm điểu đó ngƣời ta
lấy ngẫu nhiên từ mỗi máy 7 chi tiết đem đo và thu đƣợc kết quả sau:
Máy A: 135 138 136 140 138 135 139
Máy B: 140 5 140 138 135 138 140 13
Với mức ý nghĩa 5% thể cho rằng hai máy độ chính xác nnhau
hay không? Biết kích thƣớc chi tiết có phân phối chuẩn.
Bài 17: Số liệu điều tra về ảnh hƣởng của hoàn cảnh kinh tế gia đình đối
với chỉ số thông minh của trẻ đƣợc cho ở bả . Chỉ số thông minh đƣợc chia ng sau
117
thành 3 mức:
Giàu
57
123
138
Nghèo
65
98
76
Với mức 5%, thể khẳng định hoàn cảnh kinh tế của gia đình trẻ ảnh
hƣởng tới chỉ số thông minh của trẻ em hay không?
Bài 18: Quan sát m t m ẫu 3200 ngƣờ ắt màu tóc ta đƣợi v màu m c kết
qu sau:
Vàng
Nâu
Đen
Hung
Xanh lam
872
380
90
22
Xanh nâu
500
815
488
33
th coi màu m c l p hay không? L ắt màu tóc các đặc tính độ y
5%
.
118
C 6hƣơng
SƠ LƢỢC VỀ LÝ THUYẾT TƢƠNG QUAN VÀ HỒI QUY
TUYẾN TÍNH
6.1. Phân tích tƣơng quan tuyến tính
Khi xét hai biến ngẫu nhiên X và Y, ta cần biết chúng có quan hệ với nhau
hay độc lập với nhau. Nếu chúng quan hệ với nhau thì cần xác định mức độ
của mối quan hệ đó (mạnh hay yếu). Đại lƣợng cho biết mức độ quan hệ giữa
hai biến ngẫu nhiên X và Y đƣợc gọi là hệ số tƣơng quan của hai biến X và Y.
6.1.1. Định nghĩa
Hệ số tƣơng quan của hai đại lƣợng ngẫu nhiên X Y, hiệu
( , )X Y
đƣợc xác định bởi công thức:
( ) ( )
( , )
( ) ( )
E X E X Y E Y
X Y
D X D Y
6.1.2. Tính chất
a)
1 ( , ) 1.X Y
b) Nếu
( , ) 1X Y
thì X và Y phụ thuộc tuyến tính, tức là có hai số a và b
để Y = aX + b hoặc hai số c và d để X = cY + d.
Ngƣời ta quy ƣớc rằng:
- Nếu
0,7 1
: Ta nói các biến X và Y có tƣơng quan tuyến tính mạnh;
- Nếu
0,3 0,7
: Ta nói các biến X và Y có tƣơng quan trung bình;
- Nếu
0,3
thì sự tƣơng quan giữa chúng là yếu.
6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên
Nếu X và Y độc lập thì
( , )X Y
= 0. Ngƣợc lại chƣa chắc đúng.
6.1.4. Hệ số tương quan mẫu
Ngƣời ta quan sát các biến ngẫu nhiên X Y thu đƣợc kết quả thực
nghiệm nhƣ sau:
x
x
1
x
2
….
x
n
y
y
1
y
2
y
n
Khi đó, ta tính đƣợc hệ số tƣơng quan mẫu r bởi công thức:
119
1
2 2
1 1
,
n
i i
i
n n
i i
i i
x x y y
r
x x y y
Trong đó:
1 1
;
n n
i i
i i
x y
x y
n n
Hoặc r cũng đƣợc xác định bằng công thức:
1 1
1
2 2
2 2
1 1 1 1
1 1
n n
i i
n
i i
i i
i
n n n n
i i i i
i i i i
x y
x y
n
r
x x y y
n n
Đặt:
1 1
1
n n
i i
n
i i
XY i i
i
x y
Q x y
n
2
2
1 1
1
n n
X i i
i i
Q x x
n
2
2
1 1
1
n n
Y i i
i i
Q y y
n
Thay vào công thức trên ta đƣợc
XY
X Y
Q
r
Q Q
.
Ví dụ 1: Tính hệ số tƣơng quan mẫu của 2 biến X và Y với mẫu đƣợc cho
trong bảng sau:
x
9,9
10,2
11.0
11,6
11,8
12,5
12,8
13,5
14,3
14,4
y
10,7
10,8
12,1
12,5
12,2
12,8
12,4
11,8
11,8
12,6
Giải:
Ta lập bảng tính:
120
TT
x
y
2
x
2
y
xy
1
9,9
10,7
98,01
114,49
105,93
2
10,2
10,8
104,04
116,64
110,16
3
11
12,1
121
146,41
133,1
4
11,6
12,5
134,56
156,25
145
5
11,8
12,2
139,24
148,84
143,96
6
12,5
12,8
156,25
163,84
160
7
12,8
12,4
163,84
153,76
158,72
8
13,5
11,8
182,25
139,24
159,3
9
14,3
11,8
204,49
139,24
168,74
10
14,4
12,6
207,36
158,76
181,44
Tổng
122
119,7
1511,04
1437,47
1466,35
Từ đó ta có:
10n
1
122
n
i
i
x
;
1
119,7
n
i
i
y
;
2
1
1511, 04
n
i
i
x
;
2
1
1437,47
n
i
i
y
;
1
1466,35
n
i i
i
x y
1 1
1
122.119,7
1466,35 6,01
10
n n
i i
n
i i
XY i i
i
x y
Q x y
n
2
2 2
1 1
1 1
1511,04 .122 22,64
10
n n
X i i
i i
Q x x
n
2
2 2
1 1
1 1
1437,47 .119,7 4,66
10
n n
Y i i
i i
Q y y
n
Hệ số tƣơng quan mẫu:
6,01
0,59
22,64 4,66
XY
X Y
Q
r
Q Q
.
6.2. Phân tích hồi quy tuyến tính
6.2.1. Mô hình
Phân tích hồi quy phƣơng pháp dùng để dự đoán, ƣớc lƣợng giá trị của
một biến (đƣợc gọi là biến phụ thuộc, biến đƣợc giải thích) theo giá trị của một
hay nhiều biến khác (đƣợc gọi biến độc lập, biến giải thích). Ta đi xét trƣờng
hợp có một biến giải thích. Giả sử Y là một đại lƣợng ngẫu nhiên phụ thuộc vào
biến X theo phƣơng trình:
0 1
Y X
(1)
Y
đƣợc gọi biến phụ thuộc, biến đƣợc giải thích hay biến đáp ứng
121
(response).
X
đƣợc gọi là biến độc lập, hay biến giải thích.
là sai số hay phần dƣ của mô hình, là đại lƣợng đặc trƣng cho những ảnh
hƣởng ngẫu nhiên đối với
Y
. Giả sử
có phân phối chuẩn với giá trị trung bình
bằng 0 và phƣơng sai
2
( )D
. Các tham số (chƣa biết) của hình hồi quy
tuyến tính bao gồm
0 1
,
2
.
Phƣơng trình đƣờng thẳng
0 1
y x
gọi phương trình hồi quy tuyến
tính lý thuyết. Hệ số
1
đƣợc gọi là độ dốc (slope), hệ số
0
đƣợc gọi là hằng số
hồi quy.
Giả sử
1 1 2 2
( , ),( , ),...,( , )
n n
x y x y x y
là các giá trị quan sát của các biến
X
,
Y
,
hay còn gọi là dữ liệu. Khi đó mô hình đƣợc viết lại nhƣ sau:
0 1
, 1, 2,...,
i i i
y x i n
(2)
Trong đó:
- Các giá trị
i
x
đã biết và không ngẫu nhiên;
- Các tham số
0 1
,
của mô hình là chƣa biết;
-
i
là các biến ngẫu nhiên độc lập, cùng phân phối chuẩn
2
(0, )N
;
-
i
y
là các quan sát của một biến ngẫu nhiên
.Y
Các giả thiết trên đƣợc gọi là các giả thiết của mô hình hồi quy.
Bài toán đặt ra là hãy ƣớc lƣợng các tham số của
0 1
,
2
của mô hình
hồi quy dựa trên mẫu quan sát
1 1 2 2
( , ),( , ),...,( , )
n n
x y x y x y
. Trƣớc hết, ta đi ƣớc
lƣợng
0
1
từ dữ liệu bằng phƣơng pháp bình phƣơng cực tiểu.
6.2.2. Ước lượng bình phương cực tiểu
Từ các phƣơng trình (2), ta tìm
0
1
sao cho tổng bình phƣơng sai số:
2
2
0 1 0 1
1 1
( , ) ( )
n n
i i i
i i
l y x
đạt giá trị nhỏ nhất.
Ta có hệ phƣơng trình:
0 1
0 0 1
2
0 1
0 1
1
( , )
0
(1)
( , )
(2)
0
i i
i i i i
l
n x y
l
x x x y
1
0
(1)
i i
y x
n
122
Thế vào
(2)
:
2
1
1
i i
i i i i
y x
x x x y
n
1
2
2
i i
i i
i
i
x y
x y
n
x
x
n
Vậy
2
2
i i
i i
XY
X
i
i
x y
x y
Q
n
b
Q
x
x
n
,
a y bx
các giá trị ƣớc lƣợng của
1
0
.
Khi đó, đƣờng thẳng phƣơng trình
y a bx
đƣợc gọi đường thẳng
hồi quy.
Phƣơng trình
y a bx
đƣợc gọi phương trình hồi quy tuyến tính thực
nghiệm của
Y
đối với
X
. Nó đƣợc dùng để dự báo giá trị trung bình của
Y
khi
biết giá trị của
X
. Khi
X x
thì
ˆ
y a bx
gọi giá trị dự báo bởi đƣờng hồi
quy tuyến tính thực nghiệm .
Từ dữ liệu ban đầu
1 1 2 2
( , ),( , ),...,( , )
n n
x y x y x y
ta các giá trị dbáo theo
phƣơng trình hồi quy
ˆ
, 1, 2,...,
i i
y a bx i n
, các sai số (phần dƣ) tƣơng
ứng
ˆ
ˆ
i i i
y y
. Sai số
ˆ
i
sự sai khác giữa giá trị quan sát
i
y
giá trị dự
báo
ˆ
i
y
dựa theo đƣờng thẳng hồi quy.
Một số tính chất của đƣờng thẳng hồi quy:
- Nếu x tăng lên m đơn vị thì:
( )
m
y a b x m
= a + bx + mb y + mb =
+ Nếu b > 0 thì ta nói y tăng lên mb đơn vị.
+ Nếu b < 0 thì ta nói y giảm đi m|b| đơn vị.
- Đƣờng thẳng hồi quy đi qua điểm
( , )x y
:
y a bx
.
- Giá trị trung bình của các giá trị dự báo theo đƣờng thẳng hồi quy
ˆ
i
y
bằng
giá trị trung bình của các quan sát
i
y
:
ˆ
i i
y y
.
- Giá trị trung bình của các sai số
ˆ
i
ng 0:bằ
1
1
ˆ
ˆ
( ) 0
n
i i
i
y y
n
.
123
- Tổng bình phƣơng sai số:
2
2
1 1
ˆ
ˆ
n n
i i i
i i
y y
.
Ví dụ 2: Để đánh giá trữ lƣợng gỗ của cây trong một khu rừng, ngƣời ta đo
thiết diện ngang,
( )X m
, của cây độ cao 1,3 m thể tích,
3
( )Y m
, của 8 cây
thu đƣợc số liệu nhƣ sau:
x
0,005
0,011
0,020
0,031
0,045
0,061
0,08
0,101
y
0,020
0,054
0,128
0,320
0,530
0,750
1,100
1,450
a) Tính hệ số tƣơng quan mẫu r.
b) Hãy lập phƣơng trình đƣờng hồi quy tuyến tính thực nghiệm của thể tích
đối với thiết diện của cây.
Giải:
a) Các tính toán đƣợc thể hiện trong bảng:
TT
x
y
2
x
2
y
xy
1
0,005
0,02
0,000025
0,0004
0,0001
2
0,011
0,054
0,000121
0,00292
0,00059
3
0,02
0,128
0,0004
0,01638
0,00256
4
0,031
0,32
0,000961
0,1024
0,00992
5
0,045
0,53
0,002025
0,2809
0,02385
6
0,061
0,75
0,003721
0,5625
0,04575
7
0,08
1,1
0,0064
1,21
0,088
8
0,101
1,45
0,010201
2,1025
0,14645
Tổng
0,354
4,352
0,023854
4,278
0,31722
Ta có:
n = 8
i
x
=0,354,
i
y
= 4,352,
= 0,02385,
2
i
y
= 4,278,
i i
x y
= 0,31722,
Q
xy
= 0,317 -
1
8
.0,354. 4,352 = 0,12465,
Q
x
= 0,00819,
124
Q
y
= 1,9105
Vậy hệ số tƣơng quan mẫu:
r =
xy
x y
Q
0,12465
0,9965
Q ×Q 0,00819 1,9105
b) Viết phƣơng trình đƣờng hồi quy tuyến tính của
Y
theo
X
y = a + bx với
b =
xy
x
Q
Q
= 15,22
a =
y b x
= - 0,129
Vậy phƣơng trình hồi quy tuyến tính thực nghiệm của
Y
theo
:X
y
- 0,129 + 15,22=
x
BÀI TẬP
Bài 1: Theo dõi mức đđầu X (trệu đồng) lợi nhuận Y (triệu đồng)
của 10 nghiệp khác nhau trong cùng một ngành ngƣời ta thu đƣợc bảng số
liệu sau đây:
x
1
1
2
3
3
5
6
7
8
y
2,3
2,5
2,6
3
3,1
3,5
3,7
4,5
5
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 2: Theo i mức thu nhập X (triệu đồng/m) và g trcủa chiếc
điện thoại di động Y (triệu đồng) của nhân viên công ty A ta thu đƣợc bảng
số liệu sau:
x
15
18
22
23
28
30
33
33
y
1
0,7
2,6
0,6
3
7,8
3,8
4,8
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 3: Tìm hiểu mức tiêu dùng bia trong một tháng Y (lít) thu nhập X
(triệu đồng/tháng) của 8 ngƣời ta thu đƣợc bảng số liệu sau đây:
125
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 4: Thí nghiệm về loại loại phân bón X (tạ/ha) năng suất lúa Y
(tạ/ha) ta thu đƣợc kết quả sau:
x
2,5
2,6
2,7
2,8
2,9
3
3,1
3,2
y
45
47
47
48
52
54
55
54
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
x
1,6
2
3,5
3
5
6,5
7
8
y
2,5
2,6
3
3,2
3,5
4
4
4,5
126
Chƣơng 7
PHÂN TÍCH PHƢƠNG SAI
Phƣơng pháp hồi quy tƣơng quan chủ yếu nghiên cứu mối liên hệ tƣơng
quan giữa các biến định lƣợng hoặc đã lƣợng hóa. Phƣơng pháp phân tích
phƣơng sai (hay còn viết tắt là ANOVA) mà chúng ta sẽ trình bày trong chƣơng
này cho phép nghiên cứu mối liên hệ giữa với tiêu chí nguyên nhân định tính
tiêu chí kết quả định lượng.
Mục đích bài toán:
Xem xét 1 hoặc 2 nguyên nhân (mặt định tính) ảnh hƣởng hay không
ảnh hƣởng đến kết quả (mặt định lƣợng).
Nếu ta chỉ xem xét 1 nguyên nhân tác động tới một kết quả, trƣờng hợp
này dẫn đến bài toán phân tích phƣơng sai 01 nhân tố.
Nếu xét 2 nguyên nhân tác động tới cùng một kết quả, trƣờng hợp này dẫn
đến bài toán phân tích phƣơng sai 02 nhân tố.
Phương pháp nghiên cứu:
Chia tổng thể nghiên cứu thành k nhóm theo nguyên nhân;
Đặt giả thuyết giá trị trung bình của nhóm bằng nhau H
0
k ;
0 1 2
: ...
k
H
Xét bài toán kiểm định giả thuyết với đối thuyết tồn tại ít nhất H
0
H
1
một cặp giá trị trung bình khác (mức ý nghĩa cho trƣớc). nhau
Điều kiện bác bỏ H : Giá trị kiểm định
0
1,F F k n k
. Trong đó
1,F k n k
đƣợc tra từ bảng phân phối Fisher.
Kết quả bài toán dẫn đến 2 trƣờng hợp:
Bác bỏ H : Tức là
0
, : .
i j
i j
Khi đó, kết luận tiêu chí nguyên nhân đến kết quả (vì giá ảnh hƣởng
trị trung bình của các nhóm xét trên cùng một nguyên nhân có sự khác nhau). Có
thể tiến hành tiếp tục nhằm xác định các nhóm trung Phân ch sâu ANOVA
bình khác nhau.
Chấp nhận H : Tức là
0
0 1 2
: ... .
k
H
Trong trƣờng hợp này tiêu chí nguyên nhân kng ảnh hƣởng đến kết quả
127
(Vì giá trị trung bình của các nhóm xét trên cùng một nguyên nhân không có sự
khác nhau).
Tư duy phương pháp:
Phƣơng pháp đƣa ra các tính toán dựa trên nhận xét sau: hai loại chênh
lệch khác nhau trong bài toán phân tích phƣơng sai. Thứ nhất sự chênh lệch
về kết quả giữa các nhóm, phần này do ảnh hƣởng của tiêu chí nguyên nhân
nghiên cứu. Thứ hai chênh lệch trong nội bộ các nhóm, phần này do c
nguyên nhân khác gây ra.
Từ đó, phƣơng pháp phân tích phƣơng sai sẽ thực hiện theo ý tƣởng:
- Sử dụng phƣơng sai để đo sự chênh lệch (phƣơng sai) giữa các nhóm với
nhau, và đo sự chênh lệch trong chính nội bộ các nhóm theo tiêu chí nghiên cứu;
- Giá trị kiểm định F tỷ lệ của phƣơng sai giữa các nhóm phƣơng sai
trong nội bộ các nhóm. Nhƣ vậy, càng lớn thì ảnh hƣởng của tiêu chí nguyên F
nhân càng lớn, các trị số trung bình càng khác nhau.
7.1. Phân tích phƣơng sai một nhân tố (One -Way Analysis of Variance)
7.1.1. Trường hợp các nhóm có phân phối chuẩn và phương sai bằng nhau
Giả sử nhân tố mà chúng ta đang xét đƣợc chia thành mức k X
1
, X
2
,…, X
k
các biến X
j
(j = 1, 2,…, k) đều có phân phối chuẩn với phƣơng sai bằng nhau.
Số liệu của bài toán trong trƣờng hợp tổng quát cho trong bảng sau:
X
1
X
2
X
k
x
11
x
12
x
1k
x
21
x
22
x
2k
1
1
n
x
n k
k
x
2
2
n
x
Chú ý: Số hàng ứng với từng cột ở bảng trên thể khác nhau. Ta lần lƣợt
kí hiệu:
- Số hàng từ cột 1 đến cột lần lƣợt là k n
1
, n
2
,…, n
k
.;
- Tổng các giá trị mẫu theo từng cột từ cột 1 đến cột ,…, Tk là T
1
, T
2 k
.
Yêu cầu đặt ra xét xem có sự khác nhau về trung bình số liệu theo từng
128
nhóm hay không với mức ý nghĩa
cho trƣớc.
Xét bài toán kiểm định giả thuyết:
0 1 2
: ... .
k
H
Kí hiệu:
1) Tổng bình phƣơng chung (biến động chung): bậc tự do n-1.
2
2
2
ij ij
1 1 ,
n
k
i
i j i j
T
Q x x x
n
2) Tổng bình phƣơng do nhân tố (biến động do nhân tố): bậc tự do k-1.
2
2
2 2 2
1 2
1
1
1 2
...
k
k
i i
i
k
TT T T
Q n x x
n n n n
3) Tổng bình phƣơng do sai số (biến động do sai số): bậc tự do n-k.
22 2
2
1 2
2 ij
,
1 2
1 2 2 1
...
k
i j
k
TT T
Q x
n n n
Q Q Q Q Q Q
Tính phƣơng sai bằng cách lấy biến động chia cho bậc tự do tƣơng ứng.
Khi đó ta có:
o Phƣơng sai do nhân tố:
2
1
1
.
1
Q
S
k
o Phƣơng sai do sai số:
2
2
2
.
Q
S
n k
o Test thống kê:
2
1
2
2
S
F
S
Kết luận:
- Nếu
( )
1,F F k n k
thì bác bỏ , tức trung bình theo các nhóm H
0
có sự khác nhau hay yếu tố nguyên nhân có ảnh hƣởng đến kết quả.
- Nếu
( )
1,F F k n k
thì chấp nhận , tức trung bình theo các H
0
nhóm không sự khác nhau hay yếu tố nguyên nhâ ng ảnh hƣởng đến n khô
kết quả.
Ta có bảng ANOVA tóm tắt các kết quả tính toán nhƣ sau :
129
Nguồn
Biến động
Bậc tự do
Phương sai
Tỷ số F
Tỷ số tra bảng
Nhân tố
Q
1
k-1
2
1
S
2
1
2
2
S
F
S
( )
1,F k n k
Sai số
Q
2
n-k
2
2
S
Tổng
Q
n-1
Ví dụ 1: Trƣờng phổ thông cơ sở A mời 3 giáo viên bồi dƣỡng cho 100 học
sinh dự thi học sinh giỏi tin học. Sau một thời gian ôn tập, chọn mẫu 12 học sinh
trong 100 học sinh trên thi thử với kết quả theo bảng sau (thang điểm 100). Với
mức ý nghĩa 5% hãy kiểm định xem điểm thi của học sinh theo học 3 giáo viên
trên có khác nhau không? Số liệu về điểm thi của học sinh đƣợc cho trong bảng
dƣới đây.
Giả thiết điểm thi của học sinh tuân theo luật phân phối chuẩn.
Điểm của học sinh (x
ij
)
GV A
GV B
GV C
79
86
93
71
77
81
83
83
69
71
77
Giải:
Trong bài toán này yếu tố nguyên nhân giáo viên (định tính) kết quả
điểm thi của học sinh (định lƣợng) theo các giáo viên đó. Nhƣ vậy theo đề ,
bài ta thấy số nhóm theo nguyên nhân là k =3 (Vì quan sát 3 giáo viên A, B, C).
Gọi
1 2 3
, ,
lần lƣợt là điểm trung bình của học sinh theo 3 giáo viên.
Xét bài toán kiểm định giả thuyết:
0 1 2 3
H : .
H
1
: Có ít nhất một cặp
i
j
khác nhau.
Để thuận tiện trong tính toán, ta lập bảng tính nhƣ sau:
130
Điểm của học sinh (x
ij
)
Chung
các nhóm
GV A
GV B
GV C
79
86
93
71
77
81
83
83
69
71
77
Số mẫu quan sát ( ) n
i
n
1
= 3
n
2
= 4
n
3
= 4
n = 11
Tổng theo cột:
ij
1
n
i
i
j
T x
258
312
300
T = 870
Trung bình mẫu:
i
i
i
T
x
n
1
86x
2
78x
3
75x
870
79,091
12
x
Áp dụng các công thức ở trên vào ví dụ ta tính đƣợc:
2
870
68809,091
11
C
2 2 2 2 2 2
79 71 83 86 ... 83 77 76800 69513 68809,091 703,909Q
22 2 2 2 2
1 2
1
1 2
258 312 300
... 69024 68809,091 214,909
3 4 4
k
k
TT T
Q C C
n n n
Q
2
= 703,909 214,909 = 489
2
1
1
214,909
107,4545
1 3 1
Q
S
k
2
2
2
489
61,125
11 3
Q
S
n k
2
1
2
2
107,4545
1,758
61,125
S
F
S
Tra bảng phân phối F
(2,8)
(0,05) = 4,459.
Ta có bảng ANOVA nhƣ sau:
131
Nguồn
Biến động
Bậc tự do
Phương sai
Tỷ số F
( )
1,F k n k
Nhân tố
Q
1
214,909
k-1
2
2
1
S
107,4545
2
1
2
2
S
F
S
1,758
( )
1,F k n k
= 4,459
Sai số
Q
2
489
n-k
8
2
2
S
61,125
Tổng
Q
703,909
n-1
10
Vậy F < 8), nên chấp nhận giả thuyết , nghĩa với độ tin cậy F
(0,05)
(2; H
0
95% thì điểm thi theo 3 Hay yếu tố giáo viên không ảnh giáo viên nhƣ nhau.
hƣởng tới kết quả điểm thi của học sinh.
7.1.2. Trường hợp các nhóm có phân phối bất kỳ (Đọc thêm)
Trong trƣờng hợp này ta phải sử dụng phƣơng pháp kiểm định phi tham số.
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n
1
, n , ..., n
2 k
quan
sát từ tổng thể phân phối bất kỳ. Ta sử dụng kiểm định KRUSKALk -
WALLIS bằng cách xếp hạng các quan sát mẫu. Mặc số quan sát của các
mẫu là khác nhau nhƣng khi xếp hạng thì đƣợc sắp xếp một cách liên tục từ nhỏ
đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng cách dùng
số trung bình cộng các hạng của chúng để chia đều.
Ðặt n = n + n + ... + n
1 2 k
là tổng các quan sát thuộc các mẫu, R
1
, R ,...,
2
R
k
là tổng của các hạng đƣợc xếp theo thứ tự của k mẫu. Kiểm định giả thuyết ở
mức ý nghĩa
cho trƣờng hợp này là:
H
0
: Trung bình của tổng thể đều bằng nhau. k
đây ta sử dụng biến W thay cho tỉ sF trong phần nh tn giá trị kiểm định.
Tra bảng phân phối khi bình pơng để so nh, githuyết H
0
bị bác bỏ khi:
2
1
( )
k
W
Ví dụ 2: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình
trên tháng (đơn vị 1000 đồng) của một sản phẩm điện tử ở 3 cửa hàng khác nhau
132
A, B, C. Số liệu của chỉ tiêu trên đƣợc thu nhập trong 7 tháng cho cửa hàng A, 7
tháng cho cửa hàng B và 6 tháng cho cửa hàng C nhƣ trong bảng sau:
Cửa hàng
A
B
C
22,2
24,6
22,7
19,9
23,1
21,9
20,3
22,0
23,3
21,4
23,5
24,1
21,2
23,6
22,1
21,0
22,1
23,4
20,3
23,5
Tổng: 146,3
162,4
137,5
Giả thuyết chi phí bán hàng có phân phối tùy ý. Hãy kiểm định xem chi phí
bán hàng theo các cửa hàng có khác nhau hay không với mức ý nghĩa 0,5%.
Giải:
Trong ví dụ này, ta lập bảng xếp hạng cho 3 cửa hàng nhƣ trong bảng sau:
Bảng dữ liệu: Xếp hạng liên tục các dữ liệu ba cửa ng ơn vị 1000 đồng).
Trong ch xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng 19,9 (ngàn
đồng) đƣợc xếp hạng 1, tƣơng tự hạng đƣợc xếp cho đến chi phí lớn nhất 24,6
(ngàn đồng) đƣợc xếp hạng 20. Những chi phí trùng nhau sẽ hạng bằng nhau,
chẳng hạn nhƣ có hai chi phí là 20,3 (ngàn đồng) trong cửa ng A, hạng thứ tự của
chúng 2 và 3. Vì vậy, hai giá trị 20,3 hạng bằng nhaubằng (2+3)/2 = 2,5.
Từ bảng tính, ta có giá trị kiểm định:
133
= 11,10.
đây chúng ta bậc tự do ( 1) = 2 nếu kiểm định mức ý nghĩak -
0,5% khi tra bảng phân phối khi bình phƣơng ta tìm đƣợc:
2 2
2 2
( ) (0,005) 10,6
Bởi W = 11,10 >10,6 nên giả thuyết H
0
bịc bỏ ở mức ý nghĩa 0,5% nga
chi phí bánng trung bình/sản phẩm ba cửa ng không bằng nhau.
7.2. Phânch phương sai hai nhân tọc thêm) (Two -Way Analysis of Variance)
Phân tích phƣơng sai hai nhân tố xét đến hai yếu tố (hai nguyên nhân)
ảnh hƣởng đến hiện tƣợng nghiên cứu. dụ rong phân tích phƣơng sai một : T
chiều trên cho ta biết kết quả học tập trung bình của học sinh do 3 giáo viên
dạy là khác nhau mà chƣa nghiên cứu đến hoàn cảnh gia đình của từng học sinh.
Phân tích phƣơng sai hai nhân tố sẽ có ý nghĩa trong trƣờng hợp này.
7.2.1. Trường hợp các nhân tố không tương tác
Ta xét bài toán tổng quát: Phân tích đánh giá sự ảnh hƣởng của 2 nhân tố
(yếu tố) A và B trên các giá trị quan sát x
ij
.
Giả thiết: Nhân tố A có mức (Nhân tố hàng)n a
1
, a
2
,…, a
n
Nhân tố B có mức m b
1
, b
2
,…, b
m
(Nhân tố cột)
Cho bảng quan sát mẫu nhƣ sau:
B
A
b
1
b
2
b
m
a
1
x
11
x
12
x
1m
a
2
x
21
x
22
x
2m
a
n
x
n1
x
n2
x
nm
Giả thuyết : H
0
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau;
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng.
Các bƣớc tính toán:
134
B
A
b
1
b
2
b
m
* ij
1
n
i
j
T x
2
ij
1
n
j
x
a
1
x
11
x
12
x
1m
T
1*
2
1j
1
n
j
x
a
2
x
21
x
22
x
2m
T
2*
2
2j
1
n
j
x
a
n
x
n1
x
n2
x
nm
T
n*
2
nj
1
n
j
x
* ij
1
m
j
i
T x
T
*1
T
*2
T
*m
ij
,i j
T x
2
i1
1
m
i
x
2
i2
1
m
i
x
2
im
1
m
i
x
Lập bảng ANOVA:
Nguồn
Tổng bình phương
(SS)
Bậc tự do
Trung bình bình
phương
F
Yếu tố A
2
2
*
.
i
i
T
T
SSA
m m n
n -1
1
SSA
MSA
n
A
MSA
F
MSE
Yếu tố B
2
* j
2
.
j
T
T
SSB
n m n
m -1
1
SSB
MSB
m
B
MSB
F
MSE
Sai số
SSE = SST SSA
SSB
(n-1)(m-1)
(n 1)(m 1)
SSE
MSE
Tổng
2
2
ij
,
.
i j
T
SST x
m n
n.m -1
Kết luận:
Nếu
(n 1),(n 1)(m 1)
(1 )
A
F F
thì bác bỏ giả thuyết H
0
cho rằng trung bình
của tổng thể theo chỉ tiêu hàng thì bằng nhau.
Nếu
(m 1),(n 1)(m 1)
(1 )
B
F F
thì bác bỏ giả thuyết H
0
cho rằng trung bình
của tổng thể theo chỉ tiêu cột thì bằng nhau.
dụ 1: Chiết suất chất từ một loại dƣợc liệu bằng 3 phƣơng pháp 5 X
loại dung môi, ta có kết quả:
135
PP chiết suất(B)
Dung môi(A)
b
1
b
2
b
3
a
1
120
60
60
a
2
120
70
50
a
3
130
60
50
a
4
150
70
60
a
5
110
75
54
Xét ảnh hƣởng của phƣơng pháp chiết suất dung môi đến kết quả chiết
suất chất X với mức ý nghĩa 0,01.
Giải:
Đặt giả thuyết H
0
:
- Chiết suất trung bình của 3 phƣơng pháp là nhƣ nhau;
- Chiết suất trung bình từ 5 loại dung môi là nhƣ nhau;
- Nhân tố phƣơng pháp và dung môi không có sự tƣơng tác với nhau.
Lập bảng tính:
PP chiết suất(B)
Dung môi(A)
b
1
b
2
b
3
T
i*
a
1
120
60
60
240
a
2
120
70
50
240
a
3
130
60
50
240
a
4
150
70
60
280
a
5
110
75
54
239
T
*j
630
335
274
T 1239 =
80300
22625
15116
2
ij
,
118041
i j
x
Tính:
2 2
2
ij
,
1239
118041 155699,6
. 5.3
i j
T
SST x
m n
2
2 2
i*
308321 1239
432,2667
. 3 5.3
i
T
T
SSA
m m n
2
*j
2 2
584201 1239
14498,8
. 5 5.3
j
T
T
SSB
n m n
136
SSE = SST - SSA- SSB = 768,5333
Lập bảng ANOVA:
Nguồn
Tổng bình phƣơng
(SS)
Bậc tự do
Trung bình bình
phƣơng
F
Yếu tố
A
432,2667SSA
4
108,0667MSA
1,1249
A
F
Yếu tố B
14498,8SSB
2
7249,4MSB
74,4622
B
F
Sai số
SSE = 768,5333
8
96,0667MSE
Tổng
155699,6SST
14
Kết luận:
F
A
< F
4,8
(0,99) = 7,006 => Chấp nhận giả thuyết trung bình chiết suất của 5 loại
dung môi là nhƣ nhau hay nói dung môi không nh hƣởng đến kết quả chiết suất.
F
B
> F
2,8
(0,99) = 8,649 => Bác bỏ giả thuyết trung bình chiết suất của 3
phƣơng pháp nhƣ nhau, nghĩa là phƣơng pháp có ảnh hƣởng đến kết quchiết suất.
7.2.2. Trường hợp các nhân tố có tương tác
Tƣơng tự nhƣ bài toán phân tích phƣơng sai hai nhân tố không tƣơng tác ở
trên, nhƣng ở đây khác là mỗi mức có sự lặp lại lần thí nghiệm và ta cần (a
i
, b
j
) r
khảo sát thêm sự tƣơng tác giữa 2 nhân tố F
AB
A B.
Cho bảng quan sát mẫu nhƣ sau:
B
A
b
1
b
2
b
m
a
1
x
111
x
112
x
11r
x
121
x
122
x
12r
x
1m1
x
1m2
x
1mr
a
2
x
211
x
212
x
21r
x
221
x
222
x
22r
x
2m1
x
2m2
x
2mr
a
n
x
n11
x
n12
x
n1r
x
n21
x
n22
x
n2r
x
nm1
x
nm2
x
nmr
Giả thuyết H :
0
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau;
137
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng.
Các bƣớc tính toán:Tính tổng hàng
** ij
,
i k
j k
T x
, tổng cột
* j* ij
i,
k
k
T x
.
B
A
b
1
b
2
b
m
T
i**
a
1
x
111
x
112
x
11r
x
121
x
122
x
12r
x
1m1
x
1m2
x
1mr
1** 1j
j,
k
k
T x
a
2
x
211
x
212
x
21r
x
221
x
222
x
22r
x
2m1
x
2m2
x
2mr
2** 2j
j,
k
k
T x
a
n
x
n11
x
n12
x
n1r
x
n21
x
n22
x
n2r
x
nm1
x
nm2
x
nmr
n** nj
j,
k
k
T x
T
*j*
*1* 1
i,
i k
k
T x
*2* 2
i,
i k
k
T x
*m*
i,
imk
k
T x
i, j,
ijk
k
T x
Cần tính:
2
ij
i, j,
;
k
k
x
2
i**
i
;T
2
*j*
;
j
T
2
ij*
,
.
i j
T
Suy ra:
2
2
2
ij
, ,k , ,
ijk k
i j i j k
T
SST x x x
nmr
2
2
i**
2
**
i
i
i
T
T
SSA mr x x
mr nmr
2
*j*
2
2
* j*
j
i
T
T
SSB nr x x
nr nmr
2 2
2
ij* *j*
2
i**
2
,
ij* i** * j*
i j j
i
i
T T
T
T
SSAB r x x x x
r nr mr nmr
138
2
ij*
,
2
ij
, ,
i j
k
i j k
x
SSE SST SSA SSB SSAB x
r
Bảng ANOVA:
Nguồn
Tổng bình
phương (SS)
Bậc tự do
Trung bình bình
phương
F
Yếu tố A
SSA
n -1
1
SSA
MSA
n
A
MSA
F
MSE
Yếu tố B
SSB
m -1
1
SSB
MSB
m
B
MSB
F
MSE
Tƣơng tác
AB
SSAB
(n-1)(m-
1)
( 1)( 1)
SSAB
MSAB
n m
AB
MSAB
F
MSE
Sai số
SSE = SST SSA
SSB SSAB
nm(r-1)
( 1)
SSE
MSE
nm r
Tổng
2
2
ij
,
.
i j
T
SST x
m n
nmr -1
Nếu
(n 1),nm(r 1)
(1 )
A
F F
thì bác bỏ giả thuyết H
0
cho rằng trung bình
của tổng thể theo chỉ tiêu hàng thì bằng nhau.
Nếu
(m 1),nm(r 1)
(1 )
B
F F
thì bác bỏ giả thuyết H
0
cho rằng trung bình
của tổng thể theo chỉ tiêu cột thì bằng nhau.
Nếu
(n 1)(m 1),nm(r 1)
(1 )
AB
F F
thì bác bỏ giả thuyết H
0
cho rằng không
có sự tƣơng tác giữa nhân tố hàng và nhân tố cột.
Ví dụ 2: Hàm l ng saponin (mg) c a cùng mƣợ t loi d c li thu hái ƣợ u đƣợc
trong 2 mùa (khô m a; trong m i mùa l y m u 3 l u mùa, gi a mùa, ƣ n: đầ
cui mùa) và t 3 mi n (Nam, Trung, B thu c k t qu sau: c) đƣ ế
Mùa
Thời điểm
Miền
Nam
Trung
Bắc
139
Khô
Đầu mùa
Giữa mùa
Cuối mùa
2,4
2,4
2,5
2,1
2,2
2,2
3,2
3,2
3,4
Mƣa
Đầu mùa
Giữa mùa
Cuối mùa
2,5
2,5
2,6
2,2
2,3
2,3
3,4
3,5
3,6
Hãy cho bi t ng Saponin có khác nhau theo mùa hay mi n không? ế m lƣợ
Nếu có thì 2 y u t mùa và mi n có s t ng tác v i nhau hay không? = 0,05. ế ƣơ
Giải:
Miền
Mùa
Nam
Trung
Bắc
T
i**
Khô
2,4
2,4
2,5
7,3
2,1
2,2
2,2
6,5
2,2
2,3
2,3
6,8
20,6
Mƣa
2,5
2,5
2,6
7,6
3,2
3,2
3,4
9,8
3,4
3,5
3,5
10,4
27,8
T
*j*
14,9
16,3
17,2
T = 48,4
:
Tính:
2
ij
, j,k
134,64
k
i
x
2 2 2
i**
20,6 27,8 1197,2
i
T
2 2 2
*j*
20,6 27,8 783,54
j
T
2 2 2 2 2 2 2
ij*
,
7,3 7,6 6,5 6,8 9,8 10,4 403,74
i j
T
T
2
= 48,42 = 2342,56
2
2
2
ij
, ,k , ,
2342,56
134,64 4,4978
18
ijk k
i j i j k
T
SST x x x
nmr
140
2
2
i**
2
**
1197,2 2342,56
2,88
9 18
i
i
i
T
T
SSA mr x x
mr nmr
2
*j*
2
2
* j*
783,54 2342,56
0,448
6 18
j
i
T
T
SSB nr x x
nr nmr
2
ij*
,
2 2
ij
, ,
403,74
134,64 0,06
3
i j
k
i j k
x
SSE SST SSA SSB SSAB x
r
SSAB = SST SSA SSAB = 4,4978 2,88 SSB 0,448 0,06 = 1,1098
Bảng ANOVA:
Nguồn
Tổng bình phƣơng
(SS)
Bậc
tự do
Trung bình bình
phƣơng
F
Yếu tố
A(Mùa)
2,88
1
1
SSA
MSA
n
=2,88
F
A
= 576
Yếu tố
B(Miền)
0,448
2
1
SSB
MSB
m
=
0,224
F
B
= 44,8
Tƣơng tác AB
SSAB = 1,1098
2
MSAB = 0,5549
110,98
AB
F
Sai số
SSE = 0,06
12
MSE = 0,005
Tổng
SST = 4,4978
17
Kết luận:
F
A
> F (0,95) = 4,7472
1;12
=> Bác bỏ giả thuyết hàm lƣợng Saponin giống
nhau theo mùa.
F
B
> F
2;12
(0,95) = 3,8853 => Bác bỏ giả thuyết hàm lƣợng Saponin giống
nhau theo miền.
F
AB
> F
2;12
(0,95) = 3,8853 => Bác bỏ giả thuyết nhân tố mùa miền
không có tƣơng tác với nhau.
BÀI TẬP
Bài 1: Điều tra số liệu về đƣờng kính thân cây ( ) của một loại cây lâm mm
141
nghiệp đƣợc trồng ở ba vùng khác nhau đƣợc kết quả sau:
Vùng 1: 7,5 6,8 7,1 7,5 6,8 6,6 7,8
Vùng 2: 5,8 5,6 6,1 6,0 5,7
Vùng 3: 6,1 6,3 6,5 6,4 6,5 6,3
Hỏi đƣờng kính thân cây khác nhau theo vùng hay không? Với mức ý
nghĩa 5%.
Bài 2: So sánh 3 lo i thu c b A, B, C trên 3 nhóm, ng i ta c k t qu ƣờ đƣợ ế
tăng tr ng (kg) nh sau: ƣ
A: 1,0 1,2 1,4 1,1 0,8 0,6
B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8
C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2
Hãy so sánh kết qu tăng trng ca 3 loi thuc b trên vi mức ý nga 0,01.
Bài 3: M t nghiên c c th c hi n nh t lúa trung ứu đƣợ m xem xét năng suấ
bình c a 3 gi ng lúa. Kế t qu thu thập qua 4 năm nhƣ sau:
Năm A C B
1 65 69 75
2 74 72 70
3 64 68 78
4 83 78 76
Hãy cho bi t lúa trung bình c a 3 ng lúa khác nhau hay ết năng suấ gi
không? Với
0,01
.
Bài 4: So sánh hi u qu au c a 4 lo i thu c A, B, C, D b ng cách gim đ
chia 20 b nh nhân thành 4 nhóm, m i nhóm dùng m t lo i thu c gi au trên. m đ
Kết qu m độc gim đau là:
A: 82 89 77 72 92
B: 80 70 72 90 68
C: 77 69 67 65 57
D: 65 75 67 55 63
Hi hiu qu gim đau c a 4 lo i thu c có khác nhau không v i
0,05
?
142
TÀI LIỆU THAM KHẢO
1. Đào Hữu Hồ hà xuất bản Đại học Quốc gia, (2007). Xác suất thống . N
Hà Nội.
2. Nguyễn Văn Hữu, Nguyễn Hữu (2003). Phân tích thống dự
báo. Nhà xuất bản Đại học Quốc gia, Hà Nội.
3. Tống Đình Quỳ Nhà xuất bản (2007). Giáo trình xác suất thống kê. Bách
Khoa, Hà Nội.
4. Đặng Hùng Thắng (2008) (tái . Mở đầu về lý thuyết xác suất và ứng dụng
bản lần thứ 3) Nhà xuất bản Giáo dục..
5. Đặng Hùng Thắng (2009). Thốngvà ứng dụng. Nhà xuất bản Go dục.
6. D.R. Anderson, D.J. Sweeney, T.A. Williams (1994). Introduction to
Statistics Concepts and Applications. Third edition, West Publishing Company.
7. Pierre Lafaye de Micheaux Rémy Drouilhet Benoît Liquet , , (2011). Le
logiciel R - Maîtriser le langage Effectuer des analyses statistiques. Nhà xuất
bản Springer.
143
MỤC LỤC
Chƣơng 1. BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT ............. 3
1.1. Các khái niệm mở đầu ..................................................................................... 3
1.1.1. Phép thử ngẫu nhiên ...........................................................................................3
1.1.2. Không gian mẫu ..................................................................................................3
1.1.3. Biến c ..................................................................................................................4
1.1.4. Quan hệ giữa các biến cố ...................................................................................6
1.2. Các định nghĩa về xác suất ............................................................................. 9
1.2.1. Định nghĩa xác suất cđiển ............................................................................. 10
1.2.2. Định nghĩa xác suất thống ........................................................................... 13
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm) ............................................. 14
1.3. Các công thức tính xác suất.......................................................................... 16
1.3.1. Công thức cộng xác suất .................................................................................. 16
1.3.2. Công thức nhân xác suất .................................................................................. 18
1.4. Công thức Bernoulli ..................................................................................... 27
1.4.1. Dãy phép thử Bernoulli .................................................................................... 27
1.4.2. Công thức Bernoulli .......................................................................................... 27
1.5. Công thức xác suất đầy đủ và công thức Bayes ........................................... 31
1.5.1. Giới thiệu khái niệm nhóm đầy đủ ................................................................... 31
1.5.2. Công thức xác suất đầy đủ và ng thc Bayes .............................................. 32
TÓM TẮT CHƢƠNG I ....................................................................................... 36
Chƣơng 2. BIẾN NGẪU NHIÊN ..................................................................... 38
2.1. Khái niệm biến ngẫu nhiên .......................................................................... 38
2.1.1. Ki niệm ........................................................................................................... 38
2.1.2. Phân loại............................................................................................................ 39
2.2. Luật phân phối xác suất ................................................................................ 40
2.2.1. Hàm phân phối xác suất ................................................................................... 40
2.2.2. Bảng phân phối xác suất .................................................................................. 40
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục ........................................... 42
144
2.3. Các số đặc trƣng của biến ngẫu nhiên .......................................................... 45
2.3.1. Kvọng toán ...................................................................................................... 46
2.3.2. Ph ng sai ươ ......................................................................................................... 48
2.3.3. Một số đặc trưng khác ....................................................................................... 50
2.4. Một vài quy luật phân phối xác suất thƣờng gặp ......................................... 52
2.4.1. Phân phối chuẩn ................................................................................................ 52
2.4.2. Phân phối nhị thức ............................................................................................. 55
2.4.3. Phân phối Poisson ............................................................................................. 58
2.4.4. Phân phối khi nh phương ............................................................................... 59
2.4.5. Phân phối Student .............................................................................................. 60
2.4.6. Phân phối Fisher (Phân phối F) ....................................................................... 61
2.5. S lơ ƣợc về biến ngẫu nhiên hai chiều (Đọc thêm) ....................................... 61
2.5.1. Phân phối đồng thời .......................................................................................... 61
2.5.2. Phân phối có điều kiện ...................................................................................... 63
2.5.3. Kvọng có điều kiện .......................................................................................... 64
Chƣơng 3. MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ .............................. 67
3.1. Một vài khái niệm bản ............................................................................. 67
3.1.1. Tổng thể và mẫu ................................................................................................. 67
3.1.2. Các phương pháp trình bày mẫu ...................................................................... 68
3.1.3. Hàm phân phối thực nghiệm ............................................................................. 72
3.2. Các số đặc trƣng mẫu ................................................................................... 73
3.2.1. Kvọng mẫu, ph ng sai mẫuươ ......................................................................... 73
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu phương sai mẫu ................... 74
3.2.3. Các đặc trưng khác ............................................................................................ 75
3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu ............................................. 76
Chƣơng 4. ƢỚC LƢỢNG THAM SỐ ............................................................. 79
4.1. Ƣớc lƣợng điểm ............................................................................................ 79
4.1.1. Ki niệm ước ợng điểm tính chất ........................................................... 79
4.1.2. Phƣơng pháp ƣớc lƣợng hợpcực đại ........................................................... 81
145
4.2. Ƣớc lƣợng khoảng ........................................................................................ 83
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X phân phối chuẩn ..... 84
4.2.2. Khoảng tin cậy cho xác suất ............................................................................ 87
4.2.3. Khoảng tin cậy cho phương sai ....................................................................... 89
4.3. Bài toán xác định cỡ mẫu ............................................................................. 90
4.3.1. Trường hợp ước lượng cho gtrị trung bình ................................................. 90
4.3.2. Trường hợp ước lượng cho tlệ ...................................................................... 90
Chƣơng 5. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ .................................. 94
5.1. Đặt vấn đề ..................................................................................................... 94
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết ............... 94
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp ............................................. 97
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng ...................................................... 97
5.3.2. Kiểm định cho xác suất hay tỉ lệ .................................................................... 102
5.3.3. Kiểm định cho phương sai .............................................................................. 104
5.4. Bài toán so sánh các tham số ...................................................................... 106
5.4.1. So sánh hai giá trị trung bình ......................................................................... 106
5.4.2. Bài toán sonh hai tỉ lệ (xác suất) ............................................................... 109
5.4.3. i toán sonh hai phương sai ................................................................... 111
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu) ................ 111
Chƣơng 6. SƠ LƢỢC VỀ LÝ THUYẾT T NG QUAN VÀ HỒI QUYƢƠ 118
TUYẾN TÍNH .................................................................................................. 118
6.1. Phân tích tƣơng quan tuyến tính ................................................................ 118
6.1.1. Định nghĩa ....................................................................................................... 118
6.1.2. Tính chất .......................................................................................................... 118
6.1.3. Tu chuẩn độc lập của hai biến ngẫu nhiên ................................................ 118
6.1.4. Hsố t ng quan mẫuươ .................................................................................... 118
6.2.1. Mô hình ............................................................................................................ 120
6.2.2. Ước ợng bình phương cực tiểu ................................................................... 121
Chƣơng 7. PHÂN TÍCH PH NG SAI ƢƠ ....................................................... 126
146
7.1. Pn tích phƣơng sai một nhân tố (One -Way Analysis of Variance) ............ 127
7.2. Pn tích phƣơng sai hai nhân t (Đc tm) (Two -Way Analysis of Variance) 133
7.2.1. Trường hợp các nhân tố không tương tác ............................................... 133
7.2.2. Trường hợp các nhân tố có tương tác ..................................................... 136
TÀI LIỆU THAM KHẢO 142..............................................................................
MỤC LỤC ........................................................................................................ 143
147
PHỤ LỤC
| 1/147

Preview text:

TS. PHẠM QUANG KHOÁI (chủ biên)
THS. VŨ NGỌC TRÌU, THS. NGUYỄN THỊ VÂN HÕA
THS. ĐẶNG THỊ NGỌC ÁNH BÀI GIẢNG
XÁC SUẤT THỐNG KÊ
TRƢỜNG ĐẠI HỌC LÂM NGHIỆP - 2017 LỜI NÓI ĐẦU
Xác suất thống kê là môn học đƣợc giảng dạy cho các lớp hầu hết ngành
học ở Trƣờng Đại học Lâm nghiệp. Đặc biệt là hệ đào tạo Tín chỉ với thời lƣợng
3 tín chỉ. Do vậy cần có tài liệu học tập phù hợp với chƣơng trình của môn học
để cho sinh viên có thể tự học.
Chúng tôi biên soạn bài giảng này dựa trên chƣơng trình môn học nhằm
đáp ứng nhu cầu học tập của sinh viên. Bài giảng do các giảng viên thuộc Bộ
môn Toán, Khoa Cơ điện và Công trình biên soạn theo trình tự khoa học, chặt
trẽ. Mỗi phần đều có ví dụ minh họa liên quan đến thực tế để tạo hứng thú cho
ngƣời học. Cuối mỗi chƣơng đều có bài tập để củng cố và nâng cao kiến thức môn học.
Sau đây là nội dung chính của bài giảng:
Chƣơng 1 Biến cố ngẫu nhiên và phép tính xác suất
Chƣơng 2 Biến ngẫu nhiên
Chƣơng 3 Mẫu thống kê và thống kê mô tả
Chƣơng 4 Ƣớc lƣợng tham số
Chƣơng 5 Kiểm định giả thuyết thống kê
Chƣơng 6 Sơ lƣợc về lý thuyết tƣơng quan và hồi quy tuyến tính
Chƣơng 7 Phân tích phƣơng sai
Mặc dù đã cố gắng nhƣng cuốn sách khó tránh khỏi những khiếm khuyết.
Chúng tôi mong nhận đƣợc những góp ý quý báu của độc giả.
Hà Nội, tháng 11 năm 2017 Các tác giả 2 Chƣơng 1
BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT
1.1. Các khái niệm mở đầu
1.1.1. Phép thử ngẫu nhiên
Phép thử ngẫu nhiên (hay gọi tắt là phép thử) là một hành động hay một thí
nghiệm hoặc một quan sát mà kết quả của nó không thể dự báo trƣớc đƣợc. Ví dụ 1:
 Một vật đƣợc thả từ trên cao chắc chắn sẽ rơi xuống đất;
 Mặt trời mọc ở hƣớng Đông và lặn ở hƣớng Tây;
 Nƣớc đóng băng ở điều kiện nhiệt độ dƣới 00C và áp suất 1 atm…
Đó là hiện tƣợng diễn ra có tính quy luật, tất định.
=> Những hành động này không phải là phép thử ngẫu nhiên. Ví dụ 2:
 Gieo 1 đồng xu cân đối và đồng chất;
 Gieo 1 con xúc xắc cân đối và đồng chất;
 Rút 1 quân bài từ bộ bài tú lơ khơ.
=> Những hành động này là các phép thử ngẫu nhiên.
1.1.2. Không gian mẫu
Khi thực hiện một phép thử ngẫu nhiên, ta không thể dự báo trƣớc đƣợc kết
quả tuy vậy ta có thể liệt kê đƣợc cụ thể hoặc biểu diễn đƣợc tất cả các kết quả
có thể xảy ra của phép thử ngẫu nhiên.
Tập hợp tất cả các kết quả của một phép thử ngẫu nhiên đƣợc gọi là không
gian mẫu của phép thử đó. Kí hiệu là  .
Mỗi phần tử của không gian mẫu  cũng tức là mỗi kết quả của phép thử
ngẫu nhiên đƣợc gọi là một phần tử mẫu.
 Ta có dạng bài tập tìm không gian mẫu của một phép thử. Ví dụ 3:
Tìm không gian mẫu cho phép thử gieo 1 lần một con xúc xắc cân đối và đồng chất.
Các trƣờng hợp có thể xảy ra: Xúc xắc xuất hiện mặt 1 chấm, 2 chấm, 3 chấm,
4 chấm, 5 chấm, 6 chấm. Hay ta viết dƣới dạng tập hợp:   1, 2,3,4,5,  6 . 3
Ví dụ 4: Tìm không gian mẫu cho phép thử gieo liên tiếp 1 con xúc xắc cân
đối và đồng chất cho tới khi xuất hiện mặt 6 chấm thì dừng lại.
Các kết quả có thể có của phép thử này là 1 lần, 2 lần, 3 lần…
Hay ta viết dƣới dạng tập hợp số lần gieo là các số nguyên dƣơng {1, 2, 3…}.
Ví dụ 5: Tìm không gian mẫu cho phép thử đo thời gian sống của một con chip điện tử.
Các kết quả có thể của phép thử là số thực không âm.
 Có 2 loại không gian mẫu:
- Không gian mẫu rời rạc: Gồm một số hữu hạn (ví dụ 1) hay vô hạn đếm
đƣợc (ví dụ 2) các phần tử mẫu;
- Không gian mẫu liên tục: Gồm một số vô hạn không đếm đƣợc các phần tử mẫu (ví dụ 3).
Tƣơng ứng với các loại không gian mẫu này ta sẽ có các khái niệm biến
ngẫu nhiên rời rạc và biến ngẫu nhiên liên tục sẽ học ở chƣơng sau.
 Chú ý rằng một phép thử có thể có nhiều không gian mẫu khác nhau tùy
thuộc vào việc quan sát của chúng ta.
1.1.3. Biến cố
Xét một phép thử. Chẳng hạn gieo một đồng xu trên một mặt phẳng. Các
kết quả có thể xảy ra là: “Xuất hiện mặt sấp” hoặc “xuất hiện mặt ngửa”. Việc
“xuất hiện mặt sấp” hay “xuất hiện mặt ngửa” là một sự kiện gắn với phép thử
phép thử. Ta có khái niệm biến cố:
Một sự kiện có thể xảy ra hay không tùy thuộc vào kết quả của phép thử
đƣợc gọi là một biến cố của phép thử đó.
Kí hiệu biến cố bằng các chữ cái in hoa A, B, C…
Những kết quả làm cho biến cố xảy ra đƣợc gọi là kết quả thuận lợi của biến cố đó. 4
Nhƣ vậy, ta cũng có thể nói biến cố A là một tập con của không gian mẫu
bao gồm các kết quả thuận lợi cho A.
Ví dụ 6: Xét phép thử tung một con xúc xắc cân đối và đồng chất. Gọi A là
biến cố “Mặt trên của con xúc xắc xuất hiện số chấm lẻ”.
=> Các kết quả thuận lợi của biến cố A là 1 chấm, 3 chấm, 5 chấm và các
kết quả này nằm trong không gian mẫu của phép thử.
* Cách cho biến cố:
Ngƣời ta có thể cho biến cố dƣới dạng 1 mệnh đề hoặc 1 tập hợp.
Lưu ý: Một mệnh đề phải có đầy đủ chủ ngữ và vị ngữ.
Mọi biến cố đều có thể biểu diễn dƣới dạng các tập hợp, thƣờng ở dƣới
dạng liệt kê và có thể dùng sơ đồ Venn để minh họa.
Hình 1: Sơ đồ Venn của một biến cố A trong không gian mẫu Ω
(Tính theo tỉ lệ diện tích, xác suất của A xấp xỉ bằng 0,2)
* Phân loại biến cố:
- Biến cố sơ cấp: Là biến cố không thể phân tích đƣợc nữa.
Ví dụ 7: Tung một đồng tiền, biến cố đồng tiền xuất hiện mặt sấp hoặc mặt
ngửa là các biến cố sơ cấp.
Vì vậy không gian mẫu còn đƣợc gọi là không gian các biến cố sơ cấp.
- Biến cố không thể: Là biến cố không bao giờ xảy ra khi thực hiệp phép
thử. Biến cố không thể đồng nhất với tập rỗng của không gian mẫu.
Ví dụ 8: Tung 1 con xúc xắc, gọi U là biến cố “Xúc xắc xuất hiện mặt có 7 chấm”.
Khi đó U là biến cố không thể.
- Biến cố chắc chắn: Là biến cố luôn xảy ra khi thực hiện phép thử. Biến cố
chắc chắn đồng nhất với tập không gian mẫu Ω.
Ví dụ 9: Tung 1 con xúc xắc, gọi S là biến cố “Xúc xắc xuất hiện số chấm 5
nhỏ hơn hoặc bằng 6” => S là biến cố chắc chắn.
- Biến cố ngẫu nhiên: Là biến cố có thể xảy ra hoặc không xảy ra khi thực hiện phép thử.
Ví dụ 10: Gieo 1 con xúc xắc cân đối và đồng chất. Gọi A là biến cố con
xúc xắc xuất hiện chấm chẵn.
=> Các kết quả thuận lợi có thể xảy ra là A = {2,4,6}.
1.1.4. Quan hệ giữa các biến cố
Trong lý thuyết xác suất, ngƣời ta xét các quan hệ sau đây của các biến cố:
 Quan hệ kéo theo: Biến cố A gọi là kéo theo biến cố B nếu khi A xảy ra
thì B cũng xảy ra. Kí hiệu A B.
 Quan hệ tương đương: Hai biến cố A và B đƣợc gọi là tƣơng đƣơng nếu
A B B A . Kí hiệu A = B.
 Phép hợp: Hợp của 2 biến cố A và B là một biến cố xảy ra nếu ít nhất
một trong hai biến cố trên xảy ra. Kí hiệu là A B . n
Hợp của một dãy hữu hạn biến cố  là biến cố A . Biến cố 1 A , 2 A ,..., n A i 1 
này xảy ra khi có ít nhất một trong các biến cố Ai xảy ra.
Phép giao: Giao của hai biến cố A và B là một biến cố xảy ra khi cả hai
biến cố trên xảy ra. Kí hiệu: A B hay AB. n
Giao của một dãy hữu hạn n biến cố  là biến cố A . Biến cố 1 A , 2 A ,..., A n i 1 
này xảy ra khi tất cả các biến cố Ai c ùng xảy ra.
 Quan hệ đối lập: Biến cố đối của biến cố A là biến cố xảy ra khi và chỉ
khi A không xảy ra. Kí hiệu là A.
 Quan hệ xung khắc: Hai biến cố A và B đƣợc gọi là xung khắc với nhau
nếu chúng không đồng thời xảy ra trong một phép thử. Kí hiệu AB   .
 Hiệu của hai biến cố: Hiệu của biến cố A và biến cố B là một biến cố
xảy ra khi A xảy ra nhƣng B không xảy ra. Kí hiệu A\B. 6
Ta có bảng so sánh giữa lý thuyết tập hợp và lý thuyết xác suất nhƣ sau:
Lý thuyết tp hp
Lý thuyết xác sut
Mô t bng hình v
-  là không gian các biến cố Tập 
sơ cấp (không gian mẫu).
-  là biến cố chắc chắn. Tập rỗng 
 là biến cố không thể. A B
x  A B nghĩa là:
Biến cố A kéo theo biến cố B. x  A thì x  B
A B là hợp của hai tập hợp. A B là biến cố ít nhất một
x  A B nghĩa là:
trong hai biến cố A hoặc B x  A hoặc x  B xảy ra.
A B là giao của hai tập hợp A B (hoặc kí hiệu là AB) là
x  A B nghĩa là:
biến cố cả hai biến cố A và B x  A và x  B cùng xảy ra.
A B   thì A và B là hai A B   biến cố xung khắc.
A \ B là hiệu của hai tập hợp
A \ B là hiệu của hai biến cố,
x  A \ B nghĩa là: tức là A xảy ra nhƣng B x  A và x  B không xảy ra.
A   \ A là biến cố đối của A   \ A
biến cố A, tức là A xảy ra nếu A không xảy ra.
Nguyên lý xác sut ln, xác sut nh:
Qua thực nghiệm và quan sát thực tế, ngƣời ta thấy rằng các biến cố có xác
suất nhỏ sẽ không xảy ra khi ta chỉ thực hiện một phép thử hay một vài phép
thử. Từ đó ta thừa nhận nguyên lý sau đây, gọi là “Nguyên lý xác suất nhỏ”: Nếu
m
t biến c có xác sut rt nh t ì
h thc tế có th cho rng biến c đó sẽ không
xy ra trong mt ln thc hin phép th.
Ví d: Mỗi chiếc máy bay đều có một xác suất rất nhỏ bị xảy ra tai nạn.
Nhƣng trên thực tế ta vẫn không từ chối đi máy bay vì tin tƣởng rằng trong
chuyến bay ta đi biến cố máy bay bị rơi không xảy ra. 7
Việc quy định một mức xác suất thế nào đƣợc gọi là nhỏ sẽ phụ thuộc vào
từng bài toán cụ thể. Chẳng hạn nếu xác suất để máy bay rơi là 0,01 thì xác suất
đó chƣa thể đƣợc coi là nhỏ. Nhƣng nếu xác suất một chuyến tàu khởi hành
chậm là 0,01 thì có thể chấp nhận là nhỏ. Mức xác suất nhỏ này đƣợc gọi là mức
ý nghĩa. Nếu  là mức ý nghĩa thì số   1 
 đƣợc gọi là độ tin cậy.
Khi dựa trên nguyên lý xác suất nhỏ ta có thể phát biểu “Biến cố A có xác
suất nhỏ (tức là P(A)   ) sẽ không xảy ra trên thực tế” thì độ tin cậy của phát biểu trên là  .
Tƣơng tự nhƣ vậy, ta có thể đƣa ra “Nguyên lý xác suất lớn”: Nếu biến cố
A có xác suất gần bằng 1 thì trên thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử. BÀI TẬP
Bài 1: Cho 3 biến cố A, B, C. Hãy biểu diễn các biến cố sau theo A, B, C.
a) Cả 3 biến cố trên đều xảy ra.
b) Cả 3 biến cố trên đều không xảy ra. c) Chỉ có A xảy ra.
d) A, B xảy ra nhƣng C không xảy ra.
e) Có ít nhất 2 biến cố xảy ra.
f) Có đúng 2 biến cố xảy ra.
g) Có ít nhất một biến cố xảy ra.
Bài 2: Gieo hai con xúc xắc cân đối và đồng chất.
a) Xây dựng không gian mẫu.
b) Xác định các biến cố sau:
A: “Tổng số chấm xuất hiện trên hai con xúc sắc là một số chẵn”.
B: “Ít nhất một con xúc xắc xuất hiện mặt một chấm”.
C: “Tổng số chấm xuất hiện trên hai con xúc xắc bằng 5”.
c) Miêu tả các biến cố A  ,
B B C, AB và ABC.
Bài 3: Gieo một đồng xu hai lần. Hãy mô tả không gian mẫu (Không gian
các biến cố sơ cấp). Mô tả biến cố:
A: Mặt sấp xuất hiện ít nhất một lần.
B: Lần gieo thứ hai xuất hiện mặt sấp.
Bài 4: Gieo một lần một con xúc xắc cân đối và đồng chất. Mô tả không 8
gian các biến cố sơ cấp. Mô tả biến cố A: Mặt trên con xúc xắc xuất hiện số chấm chia hết cho 3.
Bài 5: Gieo một đồng xu sau đó gieo một con xúc xắc. Mô tả không gian các biến cố sơ cấp.
Bài 6: Gieo liên tiếp 1 đồng xu đến khi xuất hiện mặt ngửa thì dừng. Mô tả
không gian các biến cố sơ cấp.
Bài 7: Một xạ thủ bắn ba lần, mỗi lần một viên đạn vào cùng một mục tiêu.
Gọi Ai là biến cố viên đạn thứ i trúng mục tiêu, i = 1, 2, 3. Hãy biểu diễn các biến cố sau theo Ai.
a) Cả ba viên đạn đều trúng mục tiêu.
b) Không có viên đạn nào trúng mục tiêu.
c) Có đúng 1 viên đạn trúng mục tiêu.
d) Có ít nhất hai viên đạn trúng mục tiêu.
Bài 8: Hãy mô tả biến cố đối của các biến cố sau đây:
A: Xuất hiện hai mặt ngửa khi gieo một đồng xu cân đối và đồng chất hai lần.
B: Cả ba viên đạn đều trúng đích khi bắn độc lập ba lần, mỗi lần một viên
đạn vào một mục tiêu.
C: Có ít nhất một viên đạn trúng đích khi bắn độc lập ba lần, mỗi lần một
viên đạn vào một mục tiêu.
Bài 9: Bắn độc lập bốn viên đạn vào mục tiêu. Gọi Ai là biến cố viên đạn
thứ i trúng mục tiêu (i = 1, 2, 3, 4). Hãy biểu diễn các biến cố sau theo Ai và iA :
a) Có đúng một viên trúng mục tiêu.
b) Có ít nhất hai viên trúng mục tiêu.
c) Có ít nhất một viên trúng mục tiêu.
Bài 10: Gieo một con xúc xắc cân đối và đồng chất hai lần. Mô tả không
gian các biến cố sơ cấp. Mô tả biến cố:
A: Tổng số chấm xuất hiện ở mặt trên con xúc xắc là 8.
B: Mặt 6 chấm xuất hiện ít nhất một lần.
1.2. Các định nghĩa về xác suất 9
1.2.1. Định nghĩa xác suất cổ điển
Xét một phép thử. Giả sử không gian mẫu của phép thử đó gồm n (hữu
hạn) trƣờng hợp đồng khả năng. Nếu biến cố A liên quan đến phép thử gồm có
m trƣờng hợp thuận lợi thì tỷ số m đƣợc gọi là xác suất của biến cố A. n m Kí hiệu: P(A) = . n
Các bƣớc để tính xác suất của một biến cố theo định nghĩa cổ điển nếu xem
biến cố A nhƣ là tập con của không gian mẫu  thì:
+ Xác định không gian mẫu  , rồi tính số phần tử n( ) của  ;
+ Xác định các trƣờng hợp thuận lợi của biến cố A, rồi tính số trƣờng hợp
thuận lợi để xảy ra biến cố A là n(A); n A + Tính P(A) theo công thức ( ) P(A)  . ( n ) 
Phƣơng pháp tính số phần tử của không gian mẫu và số trƣờng hợp thuận lợi của biến cố A.
1.2.1.1. Phương pháp liệt kê các phần tử
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Tìm xác suất để:
a) Mặt trên của con xúc xắc xuất hiện một chấm.
b) Mặt trên của con xúc xắc có số chấm chẵn.
c) Mặt trên của con xúc xắc có số chấm nhỏ hơn 7.
d) Mặt trên của con xúc xắc xuất hiện 7 chấm.
Giải:
a) Gọi A là biến cố mặt trên của con xúc xắc có một chấm. Khi đó:
- Không gian mẫu  gồm 6 trƣờng hợp => Số phần tử của không gian mẫu  là n(  ) = 6;
- Các kết quả thuận lợi của biến cố A có một trƣờng hợp. 1  P(A) = . 6
b) Gọi B là biến cố mặt trên của con xúc xắc có số chấm chẵn. Khi đó:
- Không gian mẫu  gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố B là 3 trƣờng hợp {2, 4, 6}. 10 3  P(A) = . 6
c) Gọi C là biến cố mặt trên của con xúc xắc xuất hiện số chấm nhỏ hơn 7. Khi đó:
- Không gian mẫu  gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố C là 6 trƣờng hợp (bằng số trƣờng hợp
thuận lợi của không gian mẫu). 6  P(A) =  1. 6
d) Gọi D là biến cố mặt trên của con xúc xắc xuất hiện 7 chấm. Khi đó:
- Không gian mẫu  gồm 6 trƣờng hợp;
- Các kết quả thuận lợi của biến cố D là 0 (không có mặt 7 chấm). 0  P(A) =  0. 6
1.2.1.2. Phương pháp dùng quy tắc đếm
Nhắc lại: Số cách lấy k phần tử từ n phần tử không quan tâm đến thứ tự là kn C .  Quy tắc cộng:
Giả sử để thực hiện một công việc A ta có k phƣơng án thực hiện:
- Phƣơng án 1 có n1 cách hoàn thành;
- Phƣơng án 2 có n2 cách hoàn thành; …
- Phƣơng án k có nk cách hoàn thành.
Khi đó số cách thực hiện công việc A là n1 + n2 +…+ nk.  Quy tắc nhân:
Giả sử để thực hiện một công việc A ta phải thực hiện qua k giai đoạn khác nhau:
- Giai đoạn 1 có n1 cách hoàn thành;
- Giai đoạn 2 có n2 cách hoàn thành; …
- Giai đoạn k có nk cách hoàn thành.
Khi đó số cách thực hiện công việc A là n1.n2…nk. Nhận xét: 11
 Điều quan trọng ở đây là làm sao khi đọc đề bài chúng ta biết đƣợc phải
sử dụng quy tắc cộng hay quy tắc nhân. Thông thƣờng, nếu một bài toán mà
công việc có thể giải quyết theo nhiều phƣơng án hay có nhiều trƣờng hợp xảy
ra thì ta thƣờng dùng quy tắc cộng, còn nếu bài toán mà công việc đƣợc thực
hiện bằng những công việc nhỏ liên tiếp, nhiều công đoạn hay là trƣờng hợp nhỏ
này liên kết với trƣờng hợp nhỏ kia thì ta thƣờng dùng quy tắc nhân.
 Trong nhiều trƣờng hợp chúng ta cần kết hợp cả hai quy tắc để giải bài toán.
Ví dụ 2: Chọn ngẫu nhiên 3 quân bài trong một bộ bài tú lơ khơ gồm 52
quân. Tính xác suất để trong 3 quân chọn ra đó:
a) Có đúng một quân bài mầu đỏ.
b) Có ít nhất một quân át.
Giải:
Số phần tử của không gian mẫu là số cách chọn ngẫu nhiên 3 quân bài
trong một bộ bài tú lơ khơ 52 quân => Số phần tử của không gian mẫu là 3 n()  5 C 2  22510 .
a) Gọi A là biến cố trong 3 quân bài chọn ra có đúng một quân bài mầu đỏ.
Để A xảy ra ta phải thực hiện 2 giai đoạn:
- Giai đoạn 1: Lấy ra 2 quân bài khác màu đỏ trong số 26 quân bài khác
màu đỏ của bộ bài => Có 2 C cách lấy 26 .
- Giai đoạn 2: Lấy ra 1 quân bài màu đỏ trong số 26 quân bài màu đỏ của bộ bài => Có 1 C cách lấy 26 .
 Áp dụng công thức nhân xác suất, số trƣờng hợp thuận lợi của biến cố A là 2 1
n(A)  C C = 325. 26 26 ( n ) A 325 Vậy xác suất P(A)    0,0147. ( n ) 22150
b) Gọi B là biến cố trong 3 quân bài chọn ra có ít nhất một quân át.
Để B xảy ra ta có các phƣơng án (cách) thực hiện:
Phƣơng án 1: Có 1 quân át và 2 quân khác át => Số cách chọn ra 1 quân át
trong 4 quân át của bộ bài là 14
C , số cách chọn 2 quân còn lại trong 48 quân bài khác át là 2
C48 => Tổng số cách thực hiện phƣơng án 1 là 1 2 4 C 4 C 8 . 12
Phƣơng án 2: Có 2 quân át và 1 quân khác át. Lập luận tƣơng tự phƣơng án
1 ta có số cách thực hiện phƣơng án 2 là 2 1 C C . 4 48
Phƣơng án 3: Có 3 quân át. Lập luận tƣơng tự nhƣ trên ta có số cách thực hiện phƣơng án 3 là 3 0 C4C48 .
Áp dụng công thức cộng ta tính đƣợc số trƣờng hợp thuận lợi của biến cố B là 1 2 4 C 4 C 8 + 2 1 4 C 4 C 8 + 3 0
C4C48 = 4512 + 28 8 + 4 = 4804. ( n ) B 4804  P(B)    0,217 . n() 22150
Tính chất của xác suất:
1. Nếu A là biến cố bất kỳ thì 0  P( ) A 1;
2. Xác suất của biến cố chắc chắn là P( )  1;
3. Xác suất của biến cố không thể là P()  0 ;
4. Nếu A là biến cố đối của biến cố A thì P( ) A 1 ( P ) A ;
5. Nếu A B thì P( ) A  P(B) ;
6. Nếu A và B là hai biến cố bất kỳ thì P(A\ B)  P(A)  P(AB). Ƣu điểm:
- Để tìm xác suất của biến cố ta không phải thực hiện phép thử (phép thử chỉ cần giả định);
- Xác suất của biến cố tìm đƣợc chính xác. Nhƣợc điểm:
- Các kết quả của phép thử phải đồng khả năng;
- Số trƣờng hợp đồng khả năng phải hữu hạn.
1.2.2. Định nghĩa xác suất thống kê
Trong các phép thử ngẫu nhiên, khi số kết quả có thể là vô hạn hoặc kết
quả có thể là hữu hạn nhƣng không đồng khả năng thì cách tính xác suất theo cổ
điển không áp dụng đƣợc, ngƣời ta định nghĩa xác suất theo tần suất. Chẳng hạn
khi gieo một con xúc xắc không cân đối thì các trƣờng hợp của phép thử không
đồng khả năng. Vì vậy, không thể dùng định nghĩa xác suất cổ điển ở trên.
Khái niệm tần suất: Giả sử trong thực tế ta đã lặp đi lặp lại nhiều lần một
phép thử trong những điều kiện giống hệt nhau. Nếu trong n lần thực hiện phép k
thử đó biến cố A xuất hiện k lần thì tỷ số f (A) n
 đƣợc gọi là tần suất xuất n 13 hiện biến cố A.
Định nghĩa thống kê của xác suất: Ngƣời ta nhận thấy khi số phép thử tăng
lên vô hạn thì fn(A) luôn dần tới một giới hạn xác định. Giới hạn đó gọi là xác suất của biến cố A.
Nhƣ vậy: P(A)  lim f n(A). n
Trong thực tế ta không thể tiến hành phép thử vô hạn lần, do đó với n đủ
lớn ta có thể dùng tần suất thay cho xác suất. k Tức là: P( )
A f (A)  . n n
Ƣu điểm: Định nghĩa thống kê về xác suất có ƣu điểm lớn là nó không đòi
hỏi những điều kiện áp dụng nhƣ đối với định nghĩa cổ điển. Nó hoàn toàn dựa
trên các quan sát thực tế để làm cơ sở kết luận về xác suất xảy ra của một biến cố.
Ví dụ 3: Để nghiên cứu khả năng xuất hiện mặt sấp khi tung một đồng xu,
ngƣời ta tiến hành tung một đồng xu nhiều lần (đồng xu không cần cân đối đồng
chất nhƣng các lần tung phải giống nhau) và thu đƣợc kết quả sau đây: Ng-êi lµm Sè lÇn xuÊt hiÖn k Sè lÇn tung (n) TÇn suÊt thÝ nghiÖm mÆt sÊp (k) n Buffon 4040 2048 0,5069 Pearson 12000 6019 0,5016 Pearson 24000 12012 0,5005
Qua ví dụ trên ta thấy khi số phép thử tăng lên thì tần suất xuất hiện mặt
sấp dao động quanh giá trị 0,5. Điều này cho phép ta hy vọng rằng khi số phép
thử tăng lên vô hạn thì tần suất xuất hiện mặt sấp hội tụ về 0,5.
Chú ý: Từ định nghĩa này trong thống kê ngƣời ta hay dùng khái niệm tỷ lệ
thay cho xác suất. Chẳng hạn tỷ lệ hạt thóc nảy mầm trong cùng một điều kiện
về môi trƣờng là 60% nghĩa là khi chọn một hạt thóc ngẫu nhiên thì xác suất của
biến cố A hạt thóc nảy mầm là 0,6 hay P(A) = 0,6.
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm)
Các định nghĩa cổ điển và thống kê của xác suất có nhiều hạn chế để xây
dựng đƣợc một lý thuyết tổng quát. Khái niệm cổ điển không dùng đƣợc trong
trƣờng hợp không xây dựng đƣợc một hệ thống đầy đủ các sự kiện đồng khả
năng. Khái niệm tần suất của định nghĩa theo thống kê chỉ là một giá trị xấp xỉ 14
để đánh giá xác suất, số quan sát đòi hỏi lớn.
Vì vậy, ngƣời ta đã xây dựng định nghĩa xác suất theo hệ tiên đề. Cách xác
định xác suất theo tiên đề sẽ chứa trong nó các định nghĩa cổ điển và thống kê
của xác suất nhƣ là các trƣờng hợp riêng.
Bản chất tiên đề khi xây dựng một lý thuyết toán học nào đó là không quan
tâm với việc định nghĩa các đối tƣợng của lý thuyết đó, mà chỉ quan tâm tới mối
quan hệ giữa các đối tƣợng đó. Các đối tƣợng đó có thể có bản chất khác nhau,
miễn là cùng tuân theo bộ các quy tắc xác định, đƣợc gọi là hệ tiên đề.
Xét một phép thử ngẫu nhiên và  là tập hợp tất cả các kết quả của phép
thử. Một tập con của  đƣợc gọi là một biến cố. Một họ  nào đó các tập con
của  đƣợc gọi là một  - đại số các biến cố nếu: i)  ,  ;
ii) Nếu A thì ( \ ) A  ;  iii) Nếu A  A
1, A2… là một dãy các tập hợp của họ thì hợp cũng n 1  thuộc  .
Ta gọi xác suất trên  - đại số  là một hàm số P biến mỗi biến cố A  
thành một số P(A) thuộc đoạn [0, 1]. Ta viết: P :  [0,1] A
Và P(A) thỏa mãn 3 tiên đề sau:
1) A , 0  P( ) A  1;
2) P() 1, P()  0 ; 3) Nếu A 
1, A2… là một dãy các biến cố thuộc
đôi một xung khắc với nhau thì: P(    P A P  1 A A2 ...) ( 1) (A2) ... BÀI TẬP
Bài 1: Gieo đồng thời hai con xúc xắc cân đối và đồng chất. Tính xác suất của biến cố:
- Tổng số chấm xuất hiện là 7.
- Tổng số chấm xuất hiện là 8.
- Số chấm xuất hiện hơn kém nhau 2. 15
Bài 2: Trong một lô N sản phẩm có n sản phẩm đạt tiêu chuẩn. Lấy ngẫu
nhiên từ lô đó m sản phẩm. Tìm xác suất để trong m sản phẩm lấy ra đó có k sản
phẩm đạt tiêu chuẩn ( n N,m N,k  min(m,n) ).
Bài 3: Một công ty cần tuyển hai nhân viên. Có 6 ngƣời nộp đơn trong đó
có 4 nữ và 2 nam. Giả sử rằng khả năng trúng tuyển của 6 ngƣời là nhƣ nhau.
a) Tính xác suất để hai ngƣời trúng tuyển đều là nam.
b) Tính xác suất để hai ngƣời trúng tuyển đều là nữ.
c) Tính xác suất để có ít nhất một nữ trúng tuyển.
Bài 4: Trên một giá sách có 15 quyển sách, trong đó có 5 quyển văn nghệ. Lấy
ngẫu nhiên từ đó ba quyển. Tìm xác suất sao cho có ít nhất một quyển văn nghệ.
Bài 5: Một lô sản phẩm có 16 sản phẩm loại I, 4 sản phẩm loại II. Lấy ngẫu
nhiên từ lô đó 2 sản phẩm. Tính xác suất để đƣợc ít nhất một sản phẩm loại I.
Bài 6: Để kiểm tra một lô hàng gồm 100 sản phẩm ngƣời ta lấy ngẫu nhiên
từ đó 10 sản phẩm để kiểm tra. Nếu cả 10 sản phẩm đều tốt thì sẽ nhận cả lô.
Trong trƣờng hợp ngƣợc lại thì sẽ kiểm tra toàn bộ. Tính xác suất sao cho trong
lô sản phẩm chứa 10 sản phẩm xấu nhƣng lại đƣợc nhận.
Bài 7: Một lô sản phẩm gồm 10 sản phẩm tốt và 2 sản phẩm xấu. Lấy
ngẫu nhiên lần lƣợt không hoàn lại từ lô hàng hai sản phẩm để kiểm tra. Tính xác suất để:
a) Cả hai sản phẩm đƣợc kiểm tra đều tốt.
b) Có ít nhất một sản phẩm tốt trong hai sản phẩm đó.
1.3. Các công thức tính xác suất
1.3.1. Công thức cộng xác suất
Công thức cộng xác suất cho 2 biến cố:
Cho A và B là hai biến cố bất kỳ, khi đó:
P(A B)  P( )
A P(B)  P(AB)
- Nếu A và B là hai biến cố xung khắc ( AB  ) thì:
P(A B)  P( )
A P(B)
- Nếu B A ta có: 1  ( P A ) A P( ) A  ( P ) A .
Ví dụ 1: Một lớp học có 20 học sinh trong đó có 10 học sinh giỏi toán, 8 học
sinh giỏi văn và 6 học sinh giỏi cả toán và văn. Chọn ngẫu nhiên một học sinh.
a) Tính xác suất để học sinh này giỏi ít nhất một môn.
b) Tính xác suất để học sinh này không giỏi môn nào cả. 16
Giải:
Gọi A là biến cố chọn đƣợc học sinh giỏi toán => 10 P( ) A   0,5 . 20
A là biến cố chọn đƣợc học sinh không giỏi toán.
Gọi B là biến cố chọn đƣợc học sinh giỏi văn 8 =>P(B)   0,4 . 20
B là biến cố chọn đƣợc học sinh không giỏi văn.
Khi đó AB là biến cố học sinh giỏi cả hai môn 6 =>P(AB)   0,3 . 20
a) Biến cố học sinh đƣợc chọn giỏi ít nhất một môn là C A B . P(C)  (
P A B)  P( ) A P( ) B  (
P AB)  0,5  0,4  0,3  0,6
b) Biến cố học sinh chọn đƣợc không giỏi môn nào là D AB .
=> Biến cố đối của biến cố D là biến cố C chọn đƣợc học sinh giỏi ít nhất một môn toán hoặc văn.
P(D)  1 P(C) 1 0,6  0,4
Nhận thấy P(AB) = 0,3  0 => A, B không xung khắc.
Tƣơng tự với P(BC), P(AC) cũng khác 0 nên kết luận các biến cố A, B, C
không xung khắc với nhau từng đôi một.
Mở rộng công thức cộng xác suất:
Cho A, B, C là 3 biến cố bất kỳ, khi đó:
P(A BC)  P(A)  P(B)  P(C)  P(AB)  P(BC)  P(AC)  P(ABC)
* Nếu 3 biến A, B, C là đôi một xung khắc thì ta có:
P(A BC)  P(A)  P(B)  P(C)
* Nếu có n biến cố Ai ( i = 1, 2..., n) là đôi một xung khắc thì: P(        1 A 2 A ... A ) P( 1 A ) P( 2
A ) . . P(A ) n n
Ví dụ 2: Khảo sát về mức độ quan tâm của ngƣời dân trong một khu phố
đối với 3 tờ báo A, B, C, ngƣời ta thu đƣợc số liệu sau:
Có 20% ngƣời dân xem báo A; 15% ngƣời dân xem báo B; 10% ngƣời dân xem báo C;
Có 5% ngƣời dân xem A và B; 3% ngƣời dân xem B và C; 4% ngƣời dân xem A và C;
Có 2% ngƣời dân xem cả A, B và C.
a) Tính xác suất để ngƣời dân xem ít nhất một tờ báo nào đó. 17
b) Tính xác suất để ngƣời dân không xem bất kỳ tờ báo nào. Giải:
Gọi A, B, C lần lƣợt là các biến cố ngƣời dân xem báo A, B, C. Từ đó ta có:
P(A) = 0,2; P(B) = 0,15; P(C) = 0,1;
P(AB) = 0,05; P(BC) = 0,03; P(AC) = 0,04; P(ABC) = 0,02.
a) Gọi D là biến cố “ngƣời dân xem ít nhất một tờ báo” => D = A B C . (
P D)  P( AB C)  ( P ) A  ( P )
B P(C)  ( P A ) B  (
P BC)  P(AC)  ( P ABC)
 0,2  0,15  0,1 0,05  0,03  0,04  0,02  0,35  35%
b) Gọi E là biến cố “ngƣời dân không xem tờ báo nào” => E ABC .
Từ giả thiết bài toán ta không thể trực tiếp đƣợc E, vì vậy ta phải sử dụng
biến cố đối của E chính là biến cố D.
P(E) 1 P(D) 1 0,35  0,65  65%
Mở rộng công thức cho n biến cố A1, A2…, An: n n n1 P(  A )   ( P A )   ( P A A )   (
P A A A ) ...  ( 1  ) ( P A i i i j i j k 1A 2...A ) n i 1  i 1  ij
ijk
1.3.2. Công thức nhân xác suất
a. Khái niệm về xác suất có điều kiện
Cho A và B là hai biến cố bất kỳ thỏa mãn P(A) > 0. Xác suất có điều kiện
của biến cố B với điều kiện biến cố A đã xảy ra (gọi là xác suất của B với điều
kiện A), kí hiệu là P(B|A) đƣợc định nghĩa nhƣ sau: P(AB) P (B | A) P (A)
Tƣơng tự nếu P(B) > 0, ta có xác suất của A với điều kiện B: P(AB) P (A | B)  P (B)
* Nhận xét: P(B | A) 1P(B| A) .
Ví dụ 3: Lớp Toán có 96 sinh viên, trong đó có 46 nam và 50 nữ. Trong
một kỳ thi có 22 sinh viên đạt điểm giỏi (trong đó có 12 nam và 10 nữ). Chọn
ngẫu nhiên một sinh viên trong lớp.
a) Tính xác suất để chọn đƣợc sinh viên đạt điểm giỏi.
b) Tính lại xác suất để chọn đƣợc sinh viên đạt điểm giỏi biết rằng sinh 18 viên đó là nữ. Giải:
Gọi A là biến cố “chọn đƣợc sinh viên đạt điểm giỏi”. 22 a) P(A) =  0,229 96
b) B là biến cố “sinh viên đƣợc chọn là nữ”, ta cần tính P(A|B). 10 50 Ta có: P(AB) = ; P(B) = 96 96 ( P ) AB 10 96 P(A | B)   .  0,2 P (B) 96 50
b. Công thức nhân xác suất cho 2 biến cố
Từ công thức xác suất có điều kiện ta suy ra công thức nhân xác suất của hai biến cố là:
P(AB)  P(A | B)P(B)  P(B | A)P(A)
Ví dụ 4: Trong một hộp kín có 20 nắp bia Tiger, trong đó có 2 nắp ghi
“Chúc mừng bạn đã trúng thƣởng xe BMW”. Bạn đƣợc chọn lên rút thăm lần lƣợt
hai nắp bia (rút không hoàn lại). Tính xác suất để cả hai nắp đều trúng thƣởng. Giải:
Gọi A là biến cố “nắp bia rút đƣợc lần đầu là nắp có thƣởng”.
Gọi B là biến cố “nắp bia rút đƣợc lần hai là nắp có thƣởng”. Ta cần tính P(AB). 2 1 Ta có: P(A) = và P(B|A) = 20 19
Áp dụng công thức nhân: P(AB) = P(A)P(B|A) = 2 1 1 .   0,0053 20 19 190
 Khái niệm sự độc lập của hai biến cố:
Hai biến cố A và B đƣợc gọi là độc lập với nhau trong một phép thử nếu
biến cố A có xảy ra hay không cũng không ảnh hƣởng đến khả năng xảy ra của
biến cố B và ngƣợc lại.
Các phát biểu sau là tƣơng đƣơng:
i) Hai biến cố A và B là độc lập với nhau  P(AB) = P(A)P(B).
ii) Hai biến cố A và B là độc lập với nhau  P(A|B) = P(A) hoặc P(B|A) = P(B).
dụ 5: Trong bình c
ó 4 quả cầu trắng và 5 quả cầu xanh.
Lấy ngẫu nhiên từ trong bình r
a 1 quả cầu. Gọi A là biến cố “lấy đƣợc quả 19
cầu xanh”. Hiển nhiên P(A) = 5/9.
Quả cầu lấy ra đƣợc bỏ lại vào bình v
à tiếp tục lấy 1 quả cầu. Gọi B là biến
cố “lần thứ 2 lấ y đƣợc qu
ả cầu xanh”, khi đó P(B) = 5/9.
Rõ ràng xác suất của biến cố B không thay đổi khi biến cố A xảy ra hay
không xảy ra và ngƣợc lại. Vậy hai biến c
ố A và B độc lập nhau. * Chú ý:
Nếu A và B độc lập với nhau thì A và B, A và B , AB cũng độc lập với nhau.
* Mở rộng công thức nhân xác suất cho nhiều biến cố:
Cho 3 biến cố A, B, C, khi đó: 
P(ABC) P(A) P(B | A) P(C | AB).
 Khái niệm về một dãy biến cố độc lập:
Một dãy n biến cố A1, A2,…, An đƣợc gọi là độc lập với nhau (hay độc lập
trong toàn bộ) nếu mỗi biến cố độc lập với tích bất kỳ của các biến cố còn lại. Khi đó: P(  1 A 2 A ...A ) P( 1 A )P(A2)...P(A ) n n .
Ví dụ 6: Một xí nghiệp có 3 ô tô hoạt động độc lập. Xác suất để trong một
ngày các ô tô bị hỏng lần lƣợt là 0,1; 0,15 và 0,2. Tìm xác suất để trong một ngày có: a) Cả 3 ô tô bị hỏng.
b) Có ít nhất một ô tô bị hỏng. Giải:
Gọi A,B,C lần lƣợt là các biến cố trong một ngày ô tô thứ nhất, thứ hai và thứ ba bị hỏng.
P(A) = 0,1; P(B) = 0,15; P(C) = 0,2
a) Gọi D là biến cố có đúng một ô tô bị hỏng, ta sẽ biểu diễn biến cố D
thông qua các biến cố A, B
, C nhƣ sau: D ABC . Vì các biến cố ,
A B,C độc lập nên áp dụng công thức nhân xác suất ta đƣợc: P(D)  ( P ) A ( P ) B (
P C)  0,1.0,15.0,2  0,003
b) Gọi E là biến cố có ít nhất một ô tô bị hỏng trong ngày, ta sẽ biểu diễn
biến cố E thông qua các biến cố A, B ,C :
E A B C khi đó E ABC
Cách 1: Vì các biến cố , A ,
B C độc lập, áp dụng công thức nhân xác suất: 20 ( P E) 1 ( P E) 1 (
P A)P(B)P(C) 1 0,9.0,85.0,8  0,388
Cách 2: Tính trực tiếp bằng công thức cộng xác suất cho 3 biến cố:
P(E)  P(A B C )  ( P ) A  ( P )
B P(C) P(A ) B  (
P BC)  P(AC)  ( P ABC) 0,388
* Các biến cố A, B, C độc lập nhƣng không xung khắc với nhau (Vì P(AB)
≠ 0) nên không thể tính P(E)  P( )
A P(B)  P(C) . Nhận xét:
Hai biến cố A và B xung khắc với nhau thì chƣa chắc A và B là hai biến cố
độc lập và ngƣợc lại, hai biến cố A và B là độc lập với nhau thì chƣa chắc A và B xung khắc với nhau.
Ví dụ 7: Tung 2 đồng xu cân đối và đồng chất lên một mặt phẳng.
Gọi A là biến cố “Có đúng một đồng xu xuất hiện mặt sấp” => P(A) = 2/4.
B là biến cố “Cả hai đồng xu xuất hiện mặt sấp” => P(B) = 1/4.
Ta thấy A và B là hai biến cố xung khắc nhƣng không độc lập vì P(AB)  P(A)P(B). BÀI TẬP
Bài 1: Cho A và B là các biến cố sao cho: 1 3 5
P(A)  , P(A B)  , P(B)  2 4 8 Tìm P(AB),P( B A ),P(A ) B ,P(B\ A). Giải: 5 3
Ta có: P(B)  1 P(B)  1  8 8
Theo công thức cộng xác suất:
P(AB)  ( P )
A P(B)  P( ) AB 1
P (AB )  P (A) P (B ) P (A B ) 8 1
P(AB)  P(A B)  1 P(A B)  4 1
P(A B)  P(AB)  1 P(AB)  4 1
P(B\ A)  P(B) P(AB)  4 21 1
Bài 2: Cho A và B là các biến cố với 3 1
P (A ) , P (B ) , P(AB) = . 8 2 4 Tìm: a) P(A B).
b) P(A), P(B).
c) P(AB), P(A B), P(B \ )
A , P(A | B). 2 1
Bài 3: Cho A và B là các biến cố với 3
P(A B)  , P(A) 
P(AB)  . 4 3 4 Tìm P(A), P(B) và P(A\B) .
Bài 4: Hệ thống báo cháy gồm một chuông và một đèn tín hiệu. Xác suất
để khi có cháy chuông hỏng là 0,1; đèn hỏng là 0,05; cả hai thiết bị đều hỏng là
0,01. Tính xác suất để khi có cháy cả hai thiết bị đều hoạt động.
Bài 5: Một lớp sinh viên có 50% học tiếng Anh, 40% học tiếng Pháp, 30%
học tiếng Đức, 10% học tiếng Anh và tiếng Pháp, 15% học tiếng Anh và tiếng
Đức, 10% học Pháp và tiếng Đức, 5% học cả ba thứ tiếng. Tìm xác suất để khi
chọn ngẫu nhiên một sinh viên của lớp đó thì ngƣời đó học ít nhất một trong ba ngoại ngữ kể trên.
Bài 6: Cho A, B là hai biến cố bất kỳ, chứng minh:
a) P(A B) 1 ( P ) A P( )
B P(A ) B . b) ( P )
A P(AB)  ( P ) B  ( P B ) A . Giải:
a) P(A B)  (
P AB) 1 P(A B) 1 ( P ) A  ( P B)  ( P AB). b) Xét:
VT P(A)  P(AB)  P( ) A  ( P A  ) B
 P(A) 1 P(A B)  P(A) 1 P(A)  P( ) B  ( P A ) B 1  ( P ) B  ( P AB)  ( P ) B  ( P B ) A VP
Bài 7: Một ngƣời chuẩn bị đấu thầu hai dự án A và B (A đấu thầu trƣớc B).
Ngƣời đó có khả năng trúng thầu dự án A là 70%. Nếu trúng thầu dự án A thì
khả năng trúng thầu dự án B là 90%. Nếu không trúng thầu dự án A thì khả năng
trúng thầu dự án B còn 50%. Tìm khả năng của ngƣời đó:
a) Trúng thầu cả hai dự án.
b) Chỉ trúng thầu một dự án. 22 Giải:
Gọi A là biến cố ngƣời đó trúng thầu dự án A.
B là biến cố ngƣời đó trúng thầu dự án B.
Từ giả thiết: P(A) = 0,7; P(B|A) = 0,9; P(B| A)  0,5.
a) Biến cố trúng thầu cả hai dự án là AB:
P(AB)  P(B | A) P(A)  0,9.0,7  0,63
b) Biến cố chỉ trúng thầu một dự án là: AB A . B
AB AB là hai biến cố xung khắc nên áp dụng công thức cộng xác suất.
P(AB AB)  P(AB)  P(AB)
 P(B | A)P(A)  P(B | ) A P( ) A
 (1 P(B | A))P(A)  P(B | ) A P( ) A  0,1.0,7  0,5.0,3  0,22
Bài 8: Một ngƣời chuẩn bị tham dự lấy phiếu tín nhiệm vào một chức vụ,
bắt buộc phải qua hai vùng, ở vùng I khả năng đủ tín nhiệm là 60%. Nếu đủ ở
vùng I thì khả năng đủ tín nhiệm ở vùng II là 85%, nếu không đủ ở vùng I thì
khả năng đủ tín nhiệm ở vùng II là 30%. Tìm khả năng của ngƣời đó:
a) Đủ tín nhiệm ở cả hai vùng.
b) Chỉ đủ tín nhiệm ở một vùng.
Bài 9: Một ngƣời có nguyện vọng thi vào hai trƣờng đại học. Đợt I thi vào
trƣờng A, khả năng đỗ là 90%. Nếu đợt I ngƣời đó thi đỗ thì khả năng thi đỗ đợt
hai vào trƣờng B là 99%, ngƣợc lại nếu đợt I thi trƣợt thì khả năng thi đỗ lần hai
chỉ còn là 50%. Tính xác suất ngƣời đó chỉ thi đỗ một trƣờng.
Bài 10: Một ngƣời đi mua hàng với xác suất chọn đƣợc hàng tốt là 0,9.
Nếu lần trƣớc chọn đƣợc hàng xấu thì xác suất chọn đƣợc hàng tốt lần sau là
95%, còn nếu lần trƣớc ngƣời đó chọn đƣợc hàng tốt thì không có kinh nghiệm
gì khi mua lần sau. Ngƣời đó mua hàng hai lần, mỗi lần một sản phẩm. Tìm xác
suất để có một lần mua phải hàng xấu.
Bài 11: Cho A và B là các biến cố độc lập. Chứng minh rằng:
a) A và B độc lập.
b) A và B độc lập. 23
c) A B độc lập.
Giải:
Theo giả thiết A và B là các biến cố độc lập nên P(A|B) = P(A) hoặc
P(B|A) = P(B) hoặc P(AB) = P(A)P(B).
a) Để chứng minh A và B độc lập ta cần chứng minh P(A B ) = P(A)P(B ). Thật vậy:
P(A B)  P(A)P(B | A)  P(A)(1  P(B | A))  P(A)(1  P(B))  P(A)P(B) b) Tƣơng tự trên:
P(A B)  P(B) P( A| B)  P(B)(1  P(A | B))  P(B)(1  P(A))  P(B)P( ) A
c) Tƣơng tự trên, ta xét:
P(AB)  P(B)P( A| B)  P(B)(1 P(A | B))  P(B)(1 P(A))  P(B)P(A)
(Vì A và B độc lập (theo cmt) nên có P(A | B) = P(A)).
Bài 12: Chứng minh rằng nếu A, B, C là ba biến cố độc lập thì A và B C
là hai biến cố độc lập. Giải:
Ta cần chứng minh P( (
A B C))  P(A)P(B C) .
Từ giả thiết A,B,C độc lập ta có: P(AB) = P(A)P(B); P(AC) = P(A)P(C); P(ABC) = P(A)P(BC). Xét: 24
P(A(B C))  P(AB A C)
 P(AB)  P(AC)  P(AB.AC)
 P(A)P(B)  P(A)P(C)  P(ABC)
 P(A)P(B)  P(A)P(C)  P(A)P(BC)
 P(A)(P(B)  P(C)  P(BC))  P(A)P(B C)
Bài 13: Hai xạ thủ mỗi ngƣời bắn một viên đạn vào cùng một bia. Xác suất
trúng đích của ngƣời thứ nhất là 0,9 và của ngƣời thứ hai là 0,7. Tính các xác suất của biến cố:
a) Có đúng một phát trúng.
b) Cả hai phát đều trúng.
c) Có ít nhất một phát trúng. Giải:
Gọi A là biến cố ngƣời thứ nhất bắn trúng bia.
B là biến cố ngƣời thứ hai bắn trúng bia.
Theo giả thiết: P(A) = 0,9; P(B) = 0,7.
a) Biến cố có đúng một phát trúng là biến cố AB A . B
Các biến A và B là độc lập và các biến cố ABAB xung khắc với nhau nên ta có:
P(AB AB)  P(AB)  P(A B)  P(A) P( ) B  ( P ) A P(B)
 0,9.0,3  0,1.0,7  0,34
b) Biến cố cả hai phát đều trúng đích là AB.
P(AB) = P(A)P(B) = 0,9.0,7 = 0,63
c) Biến cố có ít nhất một phát trúng là A  . B
P(A B)  P(A)  P(B)  P(AB)
 0,9  0,7  0,63  0,97
Bài 14: Ba ngƣời mỗi ngƣời độc lập bắn một viên vào mục tiêu với xác
suất trúng tƣơng ứng là 0,6; 0,8; 0,7. Tính xác suất:
a) Chỉ có ngƣời thứ hai bắn trúng.
b) Có đúng một ngƣời bắn trúng.
c) Có ít nhất một ngƣời bắn trúng. 25
d) Cả ba ngƣời cùng bắn trúng.
e) Có đúng hai ngƣời bắn trúng.
f) Có ít nhất hai ngƣời bắn trúng.
g) Có không quá hai ngƣời bắn trúng.
Bài 15: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất
một lần trúng đích là 0,875. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 16: Bắn độc lập ba viên đạn vào cùng một bia. Xác suất trúng đích của
viên thứ nhất, viên thứ hai, viên thứ ba lần lƣợt là 0,4; 0,5; 0,7.
a) Tìm xác suất sao cho trong ba viên có đúng một viên trúng đích.
b) Tìm xác suất để có ít nhất một viên trúng đích.
Bài 17: Bắn ba viên đạn vào bia một cách độc lập. Xác suất để có ít nhất
một lần trúng đích là 0,936. Tìm xác suất bắn trúng bia trong một lần bắn.
Bài 18: Một máy tính điện tử gồm n bộ phận hoạt động độc lập. Xác suất
hỏng trong khoảng thời gian t của bộ phận thứ k bằng pk (k = 1, 2... n). Nếu ít
nhất một bộ phận hỏng thì máy sẽ ngừng làm việc. Tính xác suất để máy ngừng
làm việc trong khoảng thời gian t. Giải:
Gọi Ak là biến cố bộ phận thứ k hỏng trong khoảng thời gian t. => P(A ) k = pk (k = 1, 2... n).
Gọi B là biến cố để máy ngừng làm việc: ( P B) 1  P( 1 A )P( 2 A )...P( A ) n 1 (1    1 p )(1 p2)...(1 p ) k n 1   (1  p ) i i 1 
Bài 19: Ở một cơ quan có ba chiếc xe ô tô hoạt động độc lập. Khả năng có
sự cố của mỗi ô tô tƣơng ứng là 0,15; 0,2; 0,1.
a) Tìm khả năng cả ba ô tô cùng bị hỏng.
b) Tìm khả năng có ít nhất một chiếc hoạt động đƣợc.
c) Tìm khả năng cả ba ô tô cùng hoạt động đƣợc.
d) Tìm khả năng có không quá hai ô tô bị hỏng.
Bài 20: Một chi tiết đƣợc gia công một cách độc lập qua ba công đoạn nối
tiếp với nhau và chất lƣợng chi tiết chỉ đƣợc kiểm tra sau khi đã đƣợc gia công 26
xong. Xác suất gây ra khiếm khuyết cho chi tiết ở các công đoạn tƣơng ứng là
0,2; 0,15; 0,1. Tìm xác suất để sau khi gia công chi tiết. a) Có khiếm khuyết.
b) Bị ít nhất hai khiếm khuyết.
c) Bị cả ba khiếm khuyết.
d) Không bị khiếm khuyết nào.
e) Bị không quá một khiếm khuyết.
1.4. Công thức Bernoulli
1.4.1. Dãy phép thử Bernoulli
Khái niệm dãy phép thử Bernoulli: Xét một dãy các phép thử độc lập.
Các phép thử này đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử chỉ có hai kết quả: A và ; A
- Xác suất P(A) = p(0 < p < 1) không đổi cho mọi phép thử.
Giá trị p đƣợc gọi là xác suất thành công trong mỗi lần thử.
Chú ý: Dãy phép thử độc lập là dãy các phép thử mà kết quả của phép thử
này không làm ảnh hƣởng tới kết quả của phép thử khác.
Công thức này mang tên nhà toán học ngƣời Thụy Sĩ Jacob Bernoulli (còn
đƣợc biết đến với tên James hoặc Jacques) (1654 – 1705).
Ví dụ 1: Gieo một đồng xu cân đối và đồng chất 5 lần => Đó là dãy 5 phép thử Bernoulli.
Ví dụ 2: Một ngƣời bắn độc lập lần lƣợt 10 viên đạn vào bia => Đó là dãy 10 phép thử Bernoulli.
1.4.2. Công thức Bernoulli
Xác suất để trong n lần thực hiện phép thử, biến cố A xảy ra đúng k lần
(0  k n) với xác suất mỗi lần A xảy ra là p (0 < p <1). Đƣợc ký hiệu là
Pn(k,p) và cho bởi công thức sau: k k n-k n P (k,p) = Cnp (1-p)
Công thức trên đƣợc gọi là công thức Bernoulli.
Chứng minh công thức Bernoulli:
Gọi B là biến cố trong n lần thực hiện phép thử biến cố A xảy ra đúng k
lần. Ta biểu diễn biến cố B là tích của các biến cố A và A nhƣ sau: 27 B AAAA . A ..AAA n
Lƣu ý là vị trí của các biến cố A và A xuất hiện trong dãy trên là ngẫu
nhiên, các biến cố A và A là độc lập với nhau.
Ta có số cách xếp k vị trí cho A trong n vị trí trên là kn C . Từ đó:   P(B) kC P( ) A P( ) A ...P( ) A ( P ) A ...P( ) A P( ) k k
A   C p (1  )n k n n p    k nk
Ví dụ 3: Xác suất để một cây con sống sót sau khi mắc một loại sâu bệnh
hiếm thấy là 0,4. Nếu biết rằng có 8 cây con mắc loại sâu bệnh này, tìm xác suất để trong 8 cây đó:
a) Có đúng 1 cây sống sót.
b) Có đúng 3 cây sống sót.
Biết rằng khả năng sống sót của mỗi cây là độc lập với nhau. Giải:
Đây là dãy các phép thử Bernoulli với n = 8 và p = 0,4.
a) Xác suất để có 1 cây sống sót là: 1 7 8
P (1;0,4)  C8(0,4)(0,6)  0,0896
b) Xác suất để có 3 cây sống sót là: 3 3 5 PC  8 (3; 0, 4) 8 (0, 4) (0,6) 0, 279
Mở rộng bài toán: Tính xác suất để trong n lần thực hiện phép thử:
i) Biến cố A xảy ra từ k1 đến k2 lần.
ii) A xảy ra ít nhất 1 lần.
iii) Tìm số lần biến cố A xảy ra có khả năng nhất.
iv) Tìm số lần thực hiện phép thử tối thiểu để thỏa mãn điều kiện nào đó.
Giải quyết bài toán:
Sử dụng công thức Bernoulli đã xây dựng ở trên và các quy tắc đếm, ta dễ
dàng chứng minh đƣợc các công thức sau:
i) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là: n P (        1 k k k2 ) n P ( 1 k ) n P ( 1 k 1) .... n P (k2 )
ii) Xác suất để biến cố A xảy ra ít nhất một lần là: 28
P (1 k n)  1 P (0)  1 (1 p)n n n
iii) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn:
(n 1) p 1  k      0 (n 1) p
k0 (n 1) p
Số nguyên k0 ở trên đƣợc gọi là giá trị chắc chắn nhất của số thành công
hay giá trị có khả năng xảy ra lớn nhất. Pn(k0, p) là số hạng trung tâm của phân
bố nhị thức mà ta sẽ học ở chƣơng sau.
iv) Phƣơng pháp giải sẽ đƣợc xét trong từng bài toán cụ thể.
Ví dụ 3: Một xạ thủ bắn lần lƣợt 6 viên đạn vào một mục tiêu với xác suất
trúng trong mỗi lần bắn là 0,8. Tìm xác suất sao cho:
a) Có đúng 2 viên trúng mục tiêu.
b) Có không quá 2 viên trúng mục tiêu.
c) Có ít nhất 1 viên trúng mục tiêu.
d) Tìm số viên trúng mục tiêu có khả năng nhất.
e) Phải bắn bao nhiêu lần để xác suất có ít nhất 1 viên trúng mục tiêu là 90%? Giải:
Dãy phép thử ở đây là dãy phép thử Bernoulli với n = 6 và p = 0,8.
a) Áp dụng công thức Bernoulli: P (k; p) P (k) k k n k n n Cn p q   
Xác suất có đúng 2 viên trúng mục tiêu là: 2 2 4 PPC  6(2; 0,8) 6(2) 6 (0,8) (0, 2) 0,01536
b) Xác suất có không quá 2 viên trúng mục tiêu là: 0 0 6 1 5 2 2 4 Pk   PPPCCC 6(0 2) 6(0) 6(1) 6(2) 6 0,8 .0,2 6 0,8.0, 2 6 0,8 .0, 2  0,01696
c) Xác suất có ít nhất 1 viên trúng mục tiêu là: 6         6 P (1 k 6) 1 (1 0,8) 1 0,000064 0,999936
d) Số viên trúng có khả năng nhất là k0 thỏa mãn: 7.0,8 1  k    k   k  0 7.0,8 4,6 0 5,6 0 5
e) Gọi n0 là số lần bắn để xác suất có ít nhất 1 viên trúng mục tiêu là 0,9. Vậy 0 n 0 1  (1  )  0,9  (1  ) n p p  0,1. n log 0,1
Với p = 0,8 thay vào trên ta đƣợc 0 (1 0,8)  0,1   0 n . log0,2
Ví dụ 4: Tín hiệu thông tin đƣợc phát đi 3 lần độc lập nhau. Xác suất thu
đƣợc tín hiệu ở mỗi lần là 0,4. 29
a) Tìm xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần.
b) Tìm xác suất để nguồn thu nhận đƣợc thông tin đó.
c) Nếu muốn xác suất thu đƣợc tin  0,9 thì phải phát đi ít nhất bao nhiêu lần? Giải:
Có thể xem mỗi lần phát tin là một phép thử Bernoulli với mục đích thành
công của phép thử là nguồn thu nhận đƣợc tin. Theo giả thiết xác suất thành
công p của mỗi lần thử là 0,4.
a) Xác suất để nguồn thu nhận đƣợc thông tin đúng 2 lần là: 2 2 P   3 (2,0, 4) 3 C (0, 4) (0,6) 0,288
b) Xác suất để nguồn thu nhận đƣợc thông tin là xác suất để có ít nhất 1 lần
nguồn thu nhận đƣợc thông tin. 3 3 3
P (1  k  3)  1 3
P (0)  1 (1 p)  1 (0,6)  0,784
c) Xác suất để nguồn thu nhận đƣợc thông tin khi phát đi n lần là:
P (1  k n)  1 P (0) 1  (1 p)n  1 (0,6)n n n Để n n : n Pk n          log(0,1) (1 ) 0,9 1 0,6 0,9 0,6  0,1  n   4,504. log(0,6)
Vì n nguyên dƣơng nên ta chọn n = 5. BÀI TẬP
Bài 1: Xác suất nảy mầm của mỗi hạt giống là 0,4. Ngƣời ta gieo các hạt
giống vào các hốc, mỗi hốc 4 hạt. Tính xác suất để mỗi hốc có ít nhất một hạt nảy mầm. Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Xác suất để mỗi hốc có ít nhất một hạt nảy mầm là: 4 4         4 P (1 k 4) 1 (1 p) 1 (0,6) 0,8704
Bài 2: Một lô hàng chứa rất nhiều sản phẩm với tỷ lệ phế phẩm là p = 0,02.
Cần phải lấy một mẫu với cỡ mẫu bằng bao nhiêu sao cho xác suất để có ít nhất
một phế phẩm trong mẫu đó không bé hơn 0,95? Giải:
Phép thử này thỏa mãn là phép thử Bernoulli.
Gọi n là số sản phẩm cần lấy. A là biến cố có ít nhất một phế phẩm trong n sản phẩm lấy ra. 30
P(A)  P (1 k n)  1 (1 p)n  1 (0,98)n n Để: P A     n    n log(0,05) ( ) 0,95 1 0,98 0,95 0,98  0,05  n   n  148 log(0,98)
Vậy số hạt giống cần lấy là n = 148.
Bài 3: Tỷ lệ học sinh trong trƣờng bị cận thị là 1%. Hỏi cần lấy một mẫu
cỡ bao nhiêu (chọn bao nhiêu học sinh) để trong mẫu đó có ít nhất một học sinh
bị cận thị với xác suất không bé hơn 0,95?
Bài 4: Bắn độc lập 14 viên đạn vào một mục tiêu. Xác suất trúng đích của
mỗi viên đạn bằng 0,2. Mục tiêu bị phá hủy hoàn toàn nếu có ít nhất hai viên
đạn trúng mục tiêu. Tìm xác suất để mục tiêu bị phá hủy hoàn toàn.
Bài 5: Một nữ công nhân quản lý 12 máy dệt. Xác suất để mỗi máy dệt
trong khoảng thời gian T cần đến sự chăm sóc của nữ công nhân bằng 1/3. Tính xác suất để:
a) Trong khoảng thời gian T có 4 máy cần đến sự chăm sóc của nữ công nhân.
b) Trong khoảng thời gian T số máy cần đến sự chăm sóc của nữ công nhân
không bé hơn 3, không lớn hơn 6.
Bài 6: Phải gieo 2 đồng xu bao nhiêu lần để với xác suất không nhỏ hơn
0,99 có thể tin rằng có ít nhất một lần đƣợc cả hai mặt sấp.
1.5. Công thức xác suất đầy đủ và công thức Bayes
1.5.1. Giới thiệu khái niệm nhóm đầy đủ
Dãy n biến cố B1, B2, …, Bn lập thành một nhóm đầy đủ các biến cố nếu nó
thỏa mãn các điều kiện sau đây:
- Hợp của chúng là biến cố chắc chắn, tức là: n i 1 
- Các biến cố đó đôi một xung khắc, tức là: B B  ,
i  ;j ,i j 1, n i j
 Một số ví dụ về nhóm đầy đủ:
Ví dụ 1: Trong 1 thùng thóc chỉ có 2 loại thóc là thóc đã nảy mầm và thóc
chƣa nảy mầm. Lấy ngẫu nhiên 1 hạt thóc trong thùng.
Gọi A là biến cố “Hạt thóc lấy ra là thóc đã nảy mầm”.
Gọi B là biến cố “Hạt thóc lấy ra là thóc chƣa nảy mầm”. 31
Nhóm các biến cố A, B tạo thành nhóm đầy đủ các biến cố.
Ví dụ 2: Một ngƣời bắn 3 viên đạn vào bia. Bi là biến cố “Sau 3 lần bắn có
đúng i viên trúng vào bia”, i = 0, 1, 2, 3.
Nhóm các biến cố B1, B2, B3 không tạo thành nhóm đầy đủ các biến cố.
Nhóm các biến cố B0, B1, B2, B3 tạo thành nhóm đầy đủ các biến cố.
1.5.2. Công thức xác suất đầy đủ và công thc Bayes
Giả sử B1, B2, …, Bn là một nhóm đầy đủ các biến cố. Xét biến cố A sao cho
A xảy ra khi và chỉ khi một trong các biến cố B1, B2, …, Bn xảy ra. Đặt: n i 1  Ta có: A  AS  (
A B B ... B )  AB AB ... AB 1 2 n 1 2 n
Vì các Bi xung khắc từng đôi nên các ABi cũng xung khắc từng đôi (i = 1,…, n) : n ( P ) A   ( P ABi) i1
Công thức xác suất đầy đủ: n
P(A)  P(A | B P B i ) ( i) i
Tiếp tục áp dụng công thức nhân xác suất: P(AB )
P(A | B )P(B ) P(B | ) k k k A   k P( ) A P( ) A
Thay công thức tính P(A) ở trên ta đƣợc công thức Bayes: ( P A| B ) ( P B ) ( P B | ) k k A k n  ( P A| B P B i) ( i) i
Công thức Bayes (mang tên Thomas Bayes, 1702 - 1761, một linh mục
đồng thời là ngƣời có những nghiên cứu về xác suất).
Ví dụ 3: Có 2 hộp đựng sản phẩm, hộp thứ nhất có 10 sản phẩm trong đó
có 9 sản phẩm màu trắng và 1 sản phẩm màu đen, hộp thứ 2 có 20 sản phẩm
trong đó có 18 sản phẩm màu trắng và 2 sản phẩm màu đen. Từ hộp thứ nhất lấy
ngẫu nhiên ra 1 sản phẩm bỏ sang hộp thứ 2. Tìm xác suất để lấy ngẫu nhiên
một sản phẩm từ hộp thứ 2 đƣợc sản phẩm màu trắng. 32 Giải:
Gọi A là biến cố “Sản phẩm lấy từ hộp thứ 2 là sản phẩm màu trắng”.
Biến cố A xảy ra đồng thời với một trong hai biến cố sau:
B1: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu trắng”.
B2: “Sản phẩm bỏ từ hộp 1 sang hộp 2 là sản phẩm màu đen”.
Khi đó (B1, B2) tạo thành nhóm biến cố đầy đủ.
Áp dụng công thức xác suất đầy đủ ta có: 9 19 1 18 ( P ) A  ( P B ) ( P A| B )  ( P B ) ( P A| B )    0,9 1 1 2 2 10 21 10 21
Ví dụ 4: Tỷ lệ ngƣời dân nghiện thuốc lá là 30%, biết rằng tỷ lệ ngƣời viêm
phổi trong số ngƣời nghiện thuốc lá là 60%, còn tỷ lệ ngƣời viêm phổi trong số
ngƣời không hút thuốc là 40%.
a. Chọn ngẫu nhiên 1 ngƣời. Tính xác suất để ngƣời đó bị viêm phổi.
b. Chọn ngẫu nhiên 1 ngƣời, biết rằng ngƣời đó viêm phổi. Tính xác suất
ngƣời đó nghiện thuốc lá. Giải:
Gọi A là biến cố “Chọn ra một ngƣời bị viêm phổi”.
Gọi B1 là biến cố “Ngƣời đƣợc chọn ra là ngƣời nghiện thuốc”.
Gọi B2 là biến cố “Ngƣời đƣợc chọn ra là ngƣời không nghiện thuốc”.
Nhóm biến cố đầy đủ ở đây là {B1, B2}.
Ta có: P(B1) = 0,3; P(B2) = 0,7 P(A|B1) = 0,6, P(A|B2) = 0,4
a) Áp dụng công thức xác suất đầy đủ:
P(A) = 0,3.0,6 + 0,7.0,4 = 0,46
b) Áp dụng công thức Bayes:
P(A| B )P(B ) 0,3.0,6 1 1
P(B | A)    0,39 1 P(A) 0, 46  Nhận xét:
Ngƣời ta thƣờng áp dụng công thức xác suất đầy đủ khi phép thử có nhiều hơn 1 bƣớc thử.
Mấu chốt để giải bài toán là phải thành lập đƣợc nhóm biến cố đầy đủ,
thông thƣờng ngƣời ta lấy nhóm biến cố đầy đủ là các kết quả có thể có của 33 bƣớc thứ nhất.
Nhóm biến cố đầy đủ không duy nhất, để tính xác suất của biến cố A có thể
dựa vào nhóm đầy đủ này hoặc nhóm đầy đủ khác, miễn là quan hệ giữa A
nhóm đầy đủ phải thỏa mãn: A xảy ra khi và chỉ khi 1 trong các biến cố của
nhóm đầy đủ phải xảy ra.
Khi nào dùng công thức xác suất đầy đủ và khi nào dùng công thức Bayes?
Công thức xác suất đầy đủ giúp ta tính xác suất của 1 biến cố A thông qua 1
nhóm các giả thiết đầy đủ B1, B2, …, Bn. Công thức Bayes thì ngƣợc lại, giúp ta
tính xác suất xảy ra của các giả thiết B1, B2, …, B k
n hi biến cố A xảy ra.
 Ý nghĩa của công thức Bayes:
- B1, B2, …, Bn thƣờng đƣợc gọi là các giả thuyết;
- Các P(B1), P(B2), …, P(Bn) đƣợc xác định trƣớc khi phép thử đƣợc tiến
hành gọi là các xác suất tiên nghiệm;
- Các xác suất P(B1|A), P(B2|A), …, P(Bn|A) gọi là các xác suất hậu nghiệm
(đƣợc xác định sau khi phép thử đã tiến hành và biến cố A đã xảy ra).
Công thức Bayes cho phép đánh giá lại xác suất xảy ra các giả thuyết sau
khi đã biết kết quả của phép thử. Vì vậy, công thức Bayes còn đƣợc gọi là công
thức xác suất hậu nghiệm.
 Mô tả một áp dụng bằng sơ đồ chẩn đoán bệnh:
Giả sử tại 1 bệnh viện nào đó các bệnh nhân mắc một trong n bệnh B1, B2, …, Bn.
Ta kí hiệu A là tập các triệu chứng có ở bệnh nhân. Khi đó các xác suất
P(B1), P(B2), …, P(Bn) P(A|B1), P(A|B2), …, P(A|Bn) có thể đƣợc tính dựa
trên số liệu thống kê của các năm trƣớc. Cụ thể:
P(Bi) bằng tần suất bệnh Bi trong số những bệnh nhân của bệnh viện đó.
P(A|Bi) bằng tần suất thấy tập hợp dấu hiệu A ở những bệnh nhân bị bệnh Bi ở bệnh viện.
Áp dụng công thức Bayes cho ta xác suất chuẩn đoán bệnh Bi khi thấy các triệu chứng A. BÀI TẬP
Bài 1: Tại một phòng khám bệnh chuyên khoa, trong số những ngƣời đến
khám có 80% mắc bệnh. Phòng khám dùng một dụng cụ chuyên dụng để chuẩn
đoán bệnh. Nếu có bệnh thì thiết bị cho kết quả dƣơng tính với xác suất 0,8. Nếu
không có bệnh thì cho kết quả dƣơng tính với xác suất 0,3.
a) Tính xác suất để một ngƣời đến khám bệnh cho kết quả dƣơng tính.
b) Giả sử một ngƣời đến khám bệnh và máy cho kết quả dƣơng tính. Tính
xác suất để ngƣời đó có bệnh; không có bệnh. 34 Giải:
a) Gọi B1 là biến cố ngƣời đến khám có bệnh.
B2 là biến cố ngƣời đến khám không có bệnh.
A là biến cố thiết bị cho kết quả dƣơng tính.
Khi đó B1, B2 lập thành một hệ đầy đủ các biến cố. Theo giả thiết: P(B1) = 0,8; P(B )
2 = 0,2; P(A|B1) = 0,8; P(A|B2) = 0,3
Theo công thức xác suất đầy đủ ta có:
P(A) = P(A|B1)P(B1) + P(A|B2)P(B ) 2 = 0,8.0,8 + 0,2.0,3 = 0,7 b) Theo công thức Bayes:
P(A | B P A 1) ( 1) 0,64 P(B A    1 | ) 0,91 P(A) 0,7 ( P A| 2 B )P( 2 B ) 0,06 P(B A    2 | ) 0,086 P(A) 0,7
Bài 2: Tiến hành thử phản ứng thuốc trên 100 ngƣời trong đó có 50 ngƣời
khỏe và 50 ngƣời yếu. Tỷ lệ phản ứng dƣơng tính trong số ngƣời khỏe là 0,05
còn trong số ngƣời yếu là 0,8. Chọn ngẫu nhiên một ngƣời trong số đó:
a) Tính xác suất để ngƣời đó có phản ứng dƣơng tính.
b) Giả sử ngƣời đó có phản ứng dƣơng tính. Tìm xác suất để ngƣời đó là
ngƣời khỏe; ngƣời yếu.
Bài 3: Đem kiểm tra một lô hàng gồm các sản phẩm do hai xí nghiệp I và
II sản xuất. Sản phẩm của xí nghiệp I chiếm 45%, xí nghiệp II chiếm 55%. Tỷ lệ
sản xuất ra phế phẩm của xí nghiệp I là 2%, xí nghiệp II là 2,5%. Biết rằng sản
phẩm đem kiểm tra là phế phẩm. Khả năng sản phẩm đó do xí nghiệp nào sản xuất ra nhiều nhất?
Bài 4: Hai nhà máy cùng sản xuất một loại sản phẩm. Tỷ lệ phế phẩm của
nhà máy I là 0,03; của nhà máy II là 0,02. Từ một kho gồm 2/3 sản phẩm của
nhà máy I và 1/3 của nhà máy II ta lấy ra một sản phẩm
a) Tính xác suất để sản phẩm lấy ra đó là tốt
b) Giả sử sản phẩm lấy ra là tốt. Tính xác suất để sản phẩm đó thuộc ô I, lô II.
Bài 5: Có 14 xạ thủ: 5 ngƣời bắn trúng đích với xác suất 0,8, 7 ngƣời bắn
trúng đích với xác suất 0,6 và 2 ngƣời bắn trúng đích với xác suất 0,5. Chọn
ngẫu nhiên một ngƣời cho bắn một phát nhƣng không trúng. Ngƣời đó có khả
năng thuộc nhóm nào nhất?
Bài 6: Có 10 hộp bi trong đó có 4 hộp loại I mỗi hộp chứa 3 bi trắng 5 bi
đỏ; 3 hộp loại II mỗi hộp chứa 4 bi trắng và 6 bi đỏ; 3 hộp loại III mỗi hộp chứa 35 2 bi trắng và 5 bi đỏ.
a) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi. Tính xác suất để đƣợc bi đỏ.
b) Lấy ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên 1 bi thì đƣợc bi trắng.
Tìm xác suất để bi đó đƣợc lấy từ hộp loại I; loại II; loại III.
Bài 7*: Một xạ thủ bắn vào một mục tiêu ba viên đạn độc lập với nhau. Xác
suất trúng đích của mỗi viên đạn là 0,4. Mục tiêu bị phá hủy với xác suất 0,2 nếu
có 1 viên trúng đích; với xác suất 0,5 nếu có hai viên trúng đích và 0,8 nếu có ba
viên trúng đích. Tìm xác suất để mục tiêu bị phá hủy.
Bài 8: Một lô hạt giống đƣợc thu gom từ ba nguồn khác nhau. Nguồn I
chiếm ½ số hạt của lô; nguồn II chiếm 1/3 số hạt của lô; còn lại là nguồn III. Tỷ
lệ hạt nảy mầm đối với các hạt thuộc các nguồn tƣơng ứng là 90%; 80%; 70%.
a) Tính tỷ lệ nảy mầm chung của cả lô hạt giống.
b) Lấy ngẫu nhiên từ lô ra một hạt gặp hạt không nảy mầm. Thử đoán xem
hạt đó từ nguồn nào? Vì sao?
Bài 9: Có hai hộp đựng các mẫu hàng xuất khẩu. Hộp thứ nhất đựng 10
mẫu trong đó có 6 mẫu loại A và 4 mẫu loại B. Hộp thứ hai đựng 10 mẫu trong
đó có 3 mẫu loại A và 7 mẫu loại B.
a) Giả sử xác suất lựa chọn các hộp lần lƣợt là 0,55 và 0,45. Chọn ngẫu
nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu. Tính xác suất để mẫu lấy ra là loại A.
b) Chọn ngẫu nhiên một hộp và từ đó lấy ngẫu nhiên một mẫu thì đƣợc
mẫu loại A. Hỏi mẫu đó có khả năng thuộc loại nào?
Bài 10: Trong một thùng kín thứ nhất có 10 viên bi gồm 8 bi trắng và 2 bi
đen; trong thùng kín thứ hai có 20 viên bi trong đó có 4 trắng và 16 đen. Lấy
ngẫu nhiên từ mỗi thùng một viên bi và sau đó lại lấy ngẫu nhiên một trong hai
viên đó. Tính xác suất để lấy đƣợc bi trắng. TÓM TẮT CHƢƠNG I
1. Định nghĩa cổ điển về xác suất: m
Xác suất của biến cố A là P(A) = . n Trong đó:
+ m là số trƣờng hợp thuận lợi đối với A;
+ n là số trƣờng hợp đồng khả năng (số các trƣờng hợp có thể xảy ra).
2. Định nghĩa thống kê về xác suất: 36 P k
(A)  lim fn(A) , trong đó tỷ số f (A) n
 đƣợc gọi là tần suất xuất hiện n n biến cố A.
3. “Nguyên lý xác suất nhỏ”: Nếu một biến cố có xác suất rất nhỏ thì thực
tế có thể cho rằng biến cố đó sẽ không xảy ra trong một lần thực hiện phép thử.
4. “Nguyên lý xác suất lớn”: Nếu biến cố A có xác suất gần bằng 1 thì trên
thực tế có thể cho rằng biến cố đó sẽ xảy ra trong một phép thử.
5. Quan hệ của các biến cố:
Lý thuyết tp hp
Lý thuyết xác sut
-  là không gian các biến cố sơ cấp Tập  (không gian mẫu).
-  là biến cố chắc chắn. Tập rỗng 
 là biến cố không thể. A B
Biến cố A kéo theo biến cố B.
x  A B nghĩa là x  A thì x  B
A B là hợp của hai tập hợp.
A Blà biến cố ít nhất một trong hai
x  A B nghĩa là x  A hoặc x  B biến cố A hoặc B xảy ra.
A B là giao của hai tập hợp
A B(hoặc kí hiệu là AB) là biến cố cả
x  A B nghĩa là x  A và x  B
hai biến cố A và B cùng xảy ra.
A B   thì A và B là hai biến cố A B   xung khắc.
A \ B là hiệu của hai tập hợp
A \ Blà hiệu của hai biến cố: A xảy ra
x  A \ B nghĩa là x  A và x  B nhƣng B không xảy ra.
A S \ A là biến cố đối của biến cố A,
A S \ A
tức là A xảy ra nếu A không xảy ra. 6. Công thức cộng: Trƣờng hợp tổng quát:     P(A B) ( P ) A P(B) P( ) AB . Trƣờng hợp xung khắc:    P(A B) P( ) A P(B).
Nếu B A ta có: 1  ( P A ) A P( ) A  ( P ) A . 7. Công thức nhân: (A P B)
Xác suất của B với điều kiện A đã xảy ra là P(A | B)  . (B P ) 37
Công thức nhân trong trƣờng hợp tổng quát: P(AB)  (
P A | B)P(B)  P(B| A)P(A)
Nếu A và B độc lập thì P(AB) = P(A)P(B).
Nếu A và B độc lập với nhau thì A và B, A và B , AB cũng độc lập với nhau.
8. Công thức xác suất đầy đủ: n
P(A)  P(A | B )P(B ) i i i
9. Công thức Bayes (CT hậu nghiệm): ( P A| B ) ( P B ) ( P B | ) k k A k n  ( P A| B P B i) ( i) i 10. Công thức Bernoulli:
Các phép thử đƣợc gọi là dãy phép thử Bernoulli nếu thỏa mãn:
- Mỗi phép thử có hai kết quả: A và A;
- Xác suất P(A) = p không đổi cho mọi phép thử.
i) Xác suất để biến cố A xảy ra đúng k lần trong n phép thử là:
P (k; p) P (k) k k n k C p q    ;q  1 n n np
ii) Xác suất để biến cố A xảy ra từ k1 đến k2 lần là: P (        1 k k k2 ) P ( 1 k ) P ( 1 k 1) .... P (k2 ) n n n n
iii) Xác suất để biến cố A xảy ra ít nhất một lần là:
P (1 k n)  1 P (0)  1 (1 p)n n n
iv) Số lần A xảy ra có khả năng nhất là số nguyên k0 thỏa mãn:
(n 1) p 1    0 k (n 1) p Chƣơng 2 BIẾN NGẪU NHIÊN
2.1. Khái niệm biến ngẫu nhiên
2.1.1. Khái niệm
Khi tiến hành một phép thử ngẫu nhiên, các kết quả của phép thử thƣờng là
các đặc trƣng định tính (biến cố ngẫu nhiên). Tuy nhiên, trong nhiều phép thử
mỗi một kết quả của phép thử thƣờng đƣợc gán tƣơng ứng với một giá trị định 38 lƣợng nào đó.
Ví dụ 1: Gieo một con xúc xắc cân đối và đồng chất. Kí hiệu A1, A2, A3, A4,
A5, A6 lần lƣợt là biến cố “mặt 1 chấm xuất hiện”, “mặt 2 chấm xuất hiện”...
“mặt 6 chấm xuất hiện”.
Thay vì xét các biến cố nhƣ trên, ta xét đại lƣợng X là số chấm xuất hiện
khi gieo con xúc xắc. Khi đó X có thể nhận các giá trị 1, 2, 3, 4, 5, 6 một cách ngẫu nhiên.
a) Khái niệm: Biến ngẫu nhiên là đại lƣợng nhận giá trị thực tùy thuộc vào
kết quả của phép thử ngẫu nhiên.
Ta thƣờng dùng các chữ cái X, Y, Z,... để kí hiệu các biến ngẫu nhiên và
các chữ cái thƣờng x, y, z hoặc xi, yi, zi,... để chỉ các giá trị cụ thể mà biến ngẫu nhiên đó nhận.
Nhƣ vậy, đối với biến ngẫu nhiên ngƣời ta chỉ quan tâm xem nó nhận
một giá trị nào đó hoặc nhận giá trị trong một khoảng nào đó với xác suất bằng bao nhiêu. b) Ví dụ
Ví dụ 2: Gieo đồng thời hai con xúc xắc. Gọi X là tổng số chấm xuất hiện ở hai mặt trên.
=> X là biến ngẫu nhiên nhận một trong các giá trị: {2, 3, 4 ,5, 6, ...., 11, 12}.
Ví dụ 3: Một ngƣời bắn vào bia cho tới khi trúng mục tiêu thì dừng. Gọi Y
là số viên đạn cần dùng.
=> Y là biến ngẫu nhiên nhận các giá trị: 1, 2, 3, ..., n,.. .
Ví dụ 4: Gọi Z là thời gian sống của một con chíp điện tử.
=> Z là biến ngẫu nhiên nhận các giá trị thực 0  Z   .
2.1.2. Phân loại
Ngƣời ta phân các biến ngẫu nhiên thành hai loại: biến ngẫu nhiên rời rạc
và biến ngẫu nhiên liên tục.
- Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà các giá trị nó có thể nhận là
tập hữu hạn hoặc vô hạn đếm đƣợc (ví dụ 2, ví dụ 3).
- Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà các giá trị của nó có thể
nhận là tất cả mọi điểm trong khoảng (a; b) nào đó, a có thể bằng  và b có thể bằng  (ví dụ 4). 39
2.2. Luật phân phối xác suất
2.2.1. Hàm phân phối xác suất a) Định nghĩa
Hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu F(x), đƣợc xác định theo công thức: F(x) = P(X < x), x   R
Nhƣ vậy, tại một điểm x bất kỳ, hàm F(x) chính là xác suất để biến ngẫu
nhiên nhận giá trị nhỏ hơn x hoặc để biến ngẫu nhiên nhận giá trị bên trái x. b) Tính chất
Hàm phân phối của biến ngẫu nhiên có các tính chất sau: 1. 0  F(x) 1.
2. Hàm phân phối là hàm đơn điệu không giảm, nghĩa là nếu  1 x 2 x thì F(  1
x ) F( 2x ). 3. P(a  X  )
b F(b)  F(a) .
4. Hàm phân phối là hàm liên tục bên trái, nghĩa là lim F(x)  F(a) . x a  
5. lim F (x)  0 và lim F (x)  1 . x x
Ví dụ 1: Cho biến ngẫu nhiên liên tục X có hàm phân phối F(x) nhƣ sau: F(x) = a + b.arctanx Tìm a và b. Giải:
 lim F(x)  0 Từ điều kiện  : x  lim F(x) 1  x Ta có hệ phƣơng trình:    1
 lim (a barctan x)  0 a b  0 a    x  2  2     
lim (a b arctan x)  1  1    x a b 1 b   2  
2.2.2. Bảng phân phối xác suất
Giả sử X là biến ngẫu nhiên rời rạc nhận các giá trị có thể xi với xác suất
tƣơng ứng là pi (P{X=xi} = pi); pi >0, i = 1, 2... Ta có thể biểu diễn dƣới dạng 40 bảng nhƣ sau: X x1 x2 ... xn ... P p1 p2 ... pn ... với  p  1. i i
Bảng trên đƣợc gọi là bảng phân phối xác suất (hay phân phối xác suất) của biến ngẫu nhiên X.
Ví dụ 2: Gieo một con xúc xắc cân đối và đồng chất. Ký hiệu X là số chấm
thu đƣợc trên con xúc xắc.
a) Tìm phân phối xác suất của X.
b) Viết hàm phân phối của X.
c) Tìm P(2  X  5); P(2  X  5). Giải:
a) Vì X là biến ngẫu nhiên rời rạc nên để tìm phân phối xác suất của X
nghĩa là ta phải xây dựng bảng phân phối xác suất.
- Các giá trị mà X có thể nhận: X = {1, 2, 3, 4, 5, 6}.
- Tìm xác suất để X lần lƣợt nhận các giá trị trên:
P(X = 1) = 1/6; P(X = 2) = 1/6; P(X = 3) = 1/6;
P(X = 4) = 1/6; P(X = 5) = 1/6 ; P(X = 6) = 1/6.
- Kiểm tra điều kiện P(X = 1) + P(X = 2) + …. + P(X = 6) = 1.
Vậy phân phối của X là một bảng có dạng: X 1 2 3 4 5 6 P 1 1 1 1 1 1 6 6 6 6 6 6
b) Tìm hàm phân phối của X dựa vào định nghĩa ở trên:
F (x)  P(X x)   P(X x ) i   pi x x x x i i
+ Với x < 1 thì F(x) = P(X < x) = P(X < 1) = 0.
+ Với 1  x  2 thì F(x) = P(X < x) = P(X =1) = 1/6.
+ Với 2  x  3 thì F(x) = P(X < x) = P(X =1) + P(X = 2) = 2/6. ...... 41
Xét tƣơng tự ta có kết quả sau: 0  khi x 1 1 1/ 6 
khi 1  x  2 5/6  4/6 2 / 6
khi 2  x  3  3/6 F (x)  3  / 6
khi 3  x  4  2/6 4 / 6
khi 4  x  5  1/6 5  / 6 khi 5  x 6  1 2 3 4 5 6 1  khi x  6
c) Cách 1: Sử dụng tính chất của hàm phân phối: 4 1 3 1 (
P 2  X  5)  F(5)  F(2)     6 6 6 2 3 1 2 1 (
P 2  X  5)  P(2  X  5)  (
P X  2)     6 6 6 3
Cách 2: Tính trực tiếp từ bảng phân phối:
2  X  5  X  {2, 3, 4}. Vậy P(2  X  5) = P(X=2)+P(X=3)+P(X=4).
2  X  5  X  {3, 4}. Vậy P( 2  X  5) = P(X=3)+P(X=4).
 Tổng quát: Hàm phân phối xác suất của biến ngẫu nhiên rời rạc có phân
phối xác suất pi = P(X = xi), i = 1, 2, ...n đƣợc cho bởi công thức: 0 khi x  1 x    1 p khi 1 x x 2 x 
F (x)      1 p 2 p khi 2 x x 3 x .  ..... 1 khi x n x
Nhận xét: Hàm phân phối của biến ngẫu nhiên rời rạc X là hàm bậc thang,
không giảm, gián đoạn tại các điểm có thể có của X, độ lớn của bƣớc nhảy tại xi pi.
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục
Đối với biến ngẫu nhiên liên tục X, xác suất để X nhận một giá trị cụ thể
nào đó luôn luôn bằng không: P{X = a} = 0. Thành thử ta quan tâm đến xác suất
để X rơi vào một khoảng (a, b) nào đó, chứ không quan tâm tới xác suất để X
nhận một giá trị cụ thể nhƣ trong trƣờng hợp biến rời rạc.
Phân phối xác suất của biến ngẫu nhiên liên tục X đƣợc xác định bởi một
hàm f(x) gọi là hàm mật độ xác suất. 42 a) Định nghĩa
Giả sử X là biến ngẫu nhiên liên tục có hàm phân phối F(x). Nếu hàm F(x)
khả vi thì đạo hàm của F(x) đƣợc gọi là hàm mật độ xác suất của X, ký hiệu f(x):
F (x)  f (x)
b) Tính chất của hàm mật độ x
i. F(x) =  f (u)du, x R. 
ii. f (x)  0. 
iii.  f (x)dx 1.  b
iv. P(a  X < b) = F(b) - F(a) =  f ( ) x d . x a Chú ý: b
P(a  X  b) = P(a < X  b) = P(a < X < b) = P(a  X < b) = F(b) - F(a) =  f (x)dx. a Nhận xét:
i) Giá trị của hàm F(x) bằng diện tích hình phẳng giới hạn bởi đồ thị của
hàm mật độ f(x), trục hoành và đƣờng thẳng song song với trục tung có hoành độ là x.
ii) Các diện tích dƣới đƣờng cong mật độ xác suất là các xác suất: b
P(a X b)  S   f (x)dx a Mô tả bằng hình học: 43
Ví dụ 3: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng: 3 2  x khi x [0,2] f ( ) x  8 0  khi x  [0,2]
Tìm hàm phân phối của X. Giải: x x
+ Nếu x < 0: F(x) =  f( )
u du   0.du  0.   + Nếu0  x  2 : x 0 x x3 2 3 3 x 3 3
F (x)   f (u)du   f (u)du   f (u)du  0   u du u |  x 0   0 0 8 24 24 + Nếu x > 2: x 0 2 x
F (x)   f (u)du   f (u)du   f (u)du   f (u)du  1   0 2  0 khi x  0  Vậy  3 3 F(x)   x
khi 0  x  2 24 1 khi x 2
Ví dụ 4: Cho hàm mật độ của biến ngẫu nhiên liên tục X có dạng:  1  khi x  1 2 f ( ) x   x  0 khi x   1
Tìm hàm phân phối của X. Giải: x x
+ Nếu x < 1: F(x) =  f( )
u du   0.du  0.   + Nếu x  1: 44 x 1 x x 1 1 x 1 x 1
F (x)   f (u)du   f (u)du   f (u)du  0 
du   |    1 2 1   1 1 u u x xx 1   khi x 1
Vậy F(x)   x . 0  khi x   1
Ví dụ 5: Cho hàm phân phối của biến ngẫu nhiên liên tục X nhƣ sau: 1
F(x)  a  cosx; xR
Tìm hàm mật độ của X. Giải: 1
Từ định nghĩa ta có: f(x) = F’(x) =  sin ; x xR
Một số phân phối xác suất phổ biến đối với biến ngẫu nhiên liên tục:
1. Phân phối đều: Hàm mật độ xác suất của phân phối đều:  1  khi x   a,b f ( )
x  b a 0  khi x    ,ab
2. Phân phối chuẩn: Hàm mật độ xác suất của phân phối chuẩn: 2 (xa)  1 2 2 f ( ) x e   2
2.3. Các số đặc trƣng của biến ngẫu nhiên
Đối với một biến ngẫu nhiên nếu đã xác định đƣợc luật phân phối xác suất
của nó thì xem nhƣ ta đã nắm đƣợc toàn bộ thông tin về biến ngẫu nhiên đó. Tuy
nhiên trong thực tế, nhiều bài toán chỉ cần đòi hỏi khảo sát những đặc trƣng cơ
bản của biến ngẫu nhiên. 45
Các tham số đặc trƣng của biến ngẫu nhiên đƣợc phân loại nhƣ sau:
- Các tham số đặc trƣng cho vị trí trung tâm, giá trị trung bình của biến
ngẫu nhiên: kỳ vọng toán (expected value), trung vị (median), mốt (mode).. ;.
- Các tham số đặc trƣng cho độ phân tán của biến ngẫu nhiên: phƣơng
sai, độ lệch chuẩn, hệ số biến thiên, giá trị tới hạn, mômen (moment)...;
- Các tham số đặc trƣng cho dạng phân phối xác suất; hệ số bất đối
xứng (skewness), hệ số nhọn (kurtosis).. .
2.3.1. Kỳ vọng toán
a) Định nghĩa 1 (Kỳ vọng của biến ngẫu nhiên rời rạc)
Giả sử phân phối xác suất của biến ngẫu nhiên X là: X x1 x2 ... xn … P p1 p2 ... pn … 
Nếu tổng  ix ip  , khi đó kỳ vọng toán của biến ngẫu nhiên X, ký i1
hiệu là E(X) đƣợc định nghĩa nhƣ sau: 
E (X )   xipi i 1 
Ví dụ 1: Cho biến ngẫu nhiên X với phân phối xác suất: X -1 1 1 3 P 4 4 Giải: 1 3 1
E(X )  (1) 1.  4 4 2
Ví dụ 2: Chọn ngẫu nhiên 3 viên bi từ 1 túi có 6 bi đen và 4 bi trắng.
Gọi X là số bi trắng trong 3 bi vừa chọn. Tìm bảng phân bố của X và tính kỳ vọng của X. Giải:
Từ giả thiết, ta dễ dàng tính đƣợc bảng phân bố xác suất của X nhƣ sau: X 0 1 2 3 46 3 0 C C 5 2 1 C C 15 1 2 C C 9 0 3 C C 1 P 6 4  6 4  6 4  6 4  3 C 30 3 C 30 3 C 30 3 C 30 10 10 10 10 Khi đó: 5 15 9 1 E(X )  0. 1.  2.  3.  1,2 30 30 30 30
b) Định nghĩa 2 (Kỳ vọng của biến ngẫu nhiên liên tục) 
Biến ngẫu nhiên liên tục X có hàm mật độ là f(x) và nếu  x f (x)dx   
thì kỳ vọng toán của biến ngẫu nhiên X, ký hiệu là E(X) đƣợc định nghĩa nhƣ sau: 
E(X )   x f (x)dx 
Ví dụ 3: Tuổi thọ của 1 loài côn trùng nào đó là một biến ngẫu nhiên X có hàm mật độ nhƣ sau:  2  khi x [  1,4] 3 f ( ) x  x 0  khi x  [1, 4]
Tìm kỳ vọng của biến ngẫu nhiên X. Giải: Ta có:  1 4  4 2
E(X )   xf (x)dx   xf (x)dx   xf (x)dx   xf (x)dx  0   . x dx 0 3   1 4 1 x 4 4 2 2 3   dx   2 1 x x 1 2
c) Ý nghĩa của kỳ vọng toán
Kỳ vọng của một biến ngẫu nhiên là giá trị trung bình (theo nghĩa xác suất)
mà biến ngẫu nhiên đó nhận. Nó phản ánh giá trị trung tâm của phân phối xác
suất với khối lƣợng 1. Chính vì vậy mà ngƣời ta hay dùng kỳ vọng để xác định vị trí của phân phối.
Khái niệm kỳ vọng đƣợc áp dụng rộng rãi trong nhiều lĩnh vực. Trong kinh
doanh và quản lý, kỳ vọng đƣợc ứng dụng dƣới dạng lợi nhuận kỳ vọng hay doanh số kỳ vọng.
d) Tính chất của kỳ vọng 47
1. E(C) = C với mọi hằng số C.
2. E(CX) = CE(X) với mọi hằng số C.
3. E(X + Y) = E(X) + E(Y); E(X – Y) = E(X) – E(Y). 4. E(X  C) = E(X)  C.
5. Nếu X và Y là hai biến ngẫu nhiên độc lập và E(X), E(Y) tồn tại thì: E(XY) = E(X).E(Y) 6. Nếu Y  (
X ), với (X ) là một hàm số xác định nào đó, khi đó E(Y)
đƣợc xác định theo các trƣờng hợp sau:
- Nếu X là biến ngẫu nhiên rời rạc thì: ( E Y)    (x )p i i i
- Nếu X là biến ngẫu nhiên liên tục và có hàm mật độ f(x) thì: 
E(Y )   (x)f(x)dx 
2.3.2. Phương sai a) Định nghĩa
Phƣơng sai của biến ngẫu nhiên X, ký hiệu là D(X) đƣợc xác định bởi công thức: 2 (
D X )  E(X  EX) Hay: 2 2 (
D X )  E(X ) (EX)
Phƣơng sai hay độ lệch bình phƣơng trung bình của biến ngẫu nhiên X là
đại lƣợng đo sự phân tán bình phƣơng trung bình của X xung quanh giá trị trung bình E(X).
Đại lƣợng   D(X ) đƣợc gọi là độ lệch tiêu chuẩn (hay sai tiêu chuẩn).
Ví dụ 4: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 2. Ta có: 2 2 5 2 15 2 9 2 1 ( E X )  0 . 1 . 2 .  3 .  2 30 30 30 30
D(X) = E(X2) – (EX)2 = 2 – 1,22 = 0,56
Ví dụ 5: Tính phƣơng sai của biến ngẫu nhiên X cho trong ví dụ 3. 48  1 4  4 2 2 2 2 2 2 2
E(X )   x f (x)dx   x f (x)dx   x f (x)dx   x f (x)dx  0   x . dx 0 3   1 4 1 x 4 2 4
  dx  2ln x  2ln 4  4ln 2 1 1 x 2 2 2  3 
D(X )  E(X )  E (X )  4ln 2     2 
Ví dụ 6: Cho hai biến ngẫu nhiên X, Y độc lập và có phân phối tƣơng ứng là: X 0 1 P 0,5 0,5 Y -2 0 2 P 1/6 2/3 1/6
Tính D(X), D(Y), E(XY), D(X + Y). Giải:
E(X) = 0  0,5 + 1 0,5 = 0,5
E(X2) = 02 0,5 + 12 0,5 = 0,5 D(X) = E(X2 2 ) - (EX) = 0,25
Tƣơng tự: E(Y) = 0; E(Y2) = 4/3; D(Y) = 4/3.
Vì X và Y độc lập nên E(XY) = E(X). E(Y) = 0,5 0 = 0. 1 4 19
D(X Y )  D(X )  D(Y )    . 4 3 12
b) Ý nghĩa của phương sai
Phƣơng sai của biến ngẫu nhiên X là một số không âm dùng để đo mức độ
phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên X xung quanh tâm
E(X) của nó. D(X) nhỏ thì mức độ phân tán nhỏ, độ tập trung lớn. D(X) càng
lớn thì độ phân tán càng cao.
Trong kỹ thuật phƣơng sai đặc trƣng cho mức độ phân tán của các chi tiết
gia công hay sai số của thiết bị. Trong quản lý và kinh doanh thì phƣơng sai đặc
trƣng cho mức độ rủi ro của các quyết định.
c) Tính chất của phương sai
1. D(C) = 0 với mọi hằng số C.
2. D(CX) = C2D(X) với mọi hằng số C.
3. Nếu X và Y là 2 biến ngẫu nhiên độc lập và có D(X), D(Y) thì: 49 D(X Y) = D(X) + D(Y) Chú ý: 1. 2
D (X )   (x EX ) i
pi nếu X có phân phối rời rạc. i  2. 2
D(X )   (x E(X )) f (x)dx nếu X có phân phối liên tục với hàm  mật độ f(x).
2.3.3. Một số đặc trưng khác a) Mod Ký hiệu: xmod
Định nghĩa: Mode (Mốt) của biến ngẫu nhiên X là giá trị mà biến ngẫu
nhiên X nhận với xác suất lớn nhất. Cụ thể:
- Nếu X là biến ngẫu nhiên rời rạc thì xmod là giá trị của X mà tại đó xác
suất P(X = Xmod) là lớn nhất. Nghĩa là: X có phân bố: X x1 x2 ... xn.. P p1 p2 ... pn...
Thì x0 = xmod  p(X = x0) = max{p1, p2,... }
- Nếu X là biến ngẫu nhiên liên tục thì xmod là giá trị mà tại đó hàm mật độ
xác suất của X đạt cực đại.
Nghĩa là: X có hàm mật độ là f(x) thì c = xmod f(c) = max{f(x) : x  R . }
* Chú ý: Một biến ngẫu nhiên không phải chỉ có duy nhất một Mod.
b) Trung vị (Median)
Định nghĩa: Trung vị của biến ngẫu nhiên X, ký hiệu là xMe là số thỏa mãn: 1 (
P X  x )   P(X  x ) Me 2 Me
 Nếu X là biến ngẫu nhiên liên tục và hàm phân phối xác suất F(x) liên tục
thì xMe là nghiệm của phƣơng trình F(x) = 1/2.
 Nếu X là biến ngẫu nhiên rời rạc có bảng phân phối: X x1 x2 ... xn.. P p1 p2 ... pn...
thì xMe đƣợc xác định nhƣ sau:
Tính Ti = p1 + p2 + ... + pi. 50  1      0 x , 0 xx ,i ix 1   khi iT i T 1  2 xMe   1  ix   1 khii T i T 1  2 
Nhận xét: Trung vị là điểm phân chia phân phối xác suất thành hai phần bằng nhau.
Ví dụ 1: Tìm trung vị và Mod của biến ngẫu nhiên rời rạc có bảng phân bố xác suất nhƣ sau: X 20 21 22 23 24 P 0,3 0,25 0,18 0,14 0,13
Dễ thấy xMod = 20 (Vì P(X=20) = 0,3 là lớn nhất).
Để tìm xMe, ta tính: T1 = p1 = 0,3; T2 = p1 + p2 = 0,55 >1/2. Vậy xMe = x2 = 21.
Ví dụ 2: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm phân phối. 0 khi x  0  2
F (x)  x khi 0  x  1 1  khi x  1  x 2 = ½ với
Me là nghiệm của phƣơng trình F(x)=1/2  x 0  x  1. 1 1 Vậy x =
(vì 0  x  1 nên loại nghiệm x = - ). 2 2
xMod là giá trị mà tại đó f(x) đạt lớn nhất.
Ta cần tìm hàm mật độ f(x) từ F(x). 0 khi x  0  2x khi x   0,  1 2
F (x)  x khi 0  x  1 f (x)   0 khi x    0,  1 1 khi x  1 
Vậy f(x) đạt max tại x = 1 hay xMod = 1.
Ví dụ 3: Tìm trung vị và Mod của biến ngẫu nhiên liên tục có hàm mật độ: 0 khi x  0, 1 f( ) x   2 khi x  0,  1 Ta thấy ngay xmod = 1.
Để tìm xme ta cần xây dựng hàm phân phối F(x). 51 0  khi x  0 0  khi x  0   x x  
F(x)    2du khi x0,  1  F(x)  
 2du khi x0,  1    0 1  khi x  1 1  khi x    1 0 khi x 0 
 F(x)  2x khi x 0,  1 1 khi x  1 
F(xme) = 1/2 tƣơng đƣơng với 2xme = 1/2 hay xme = ¼.
c) Hệ số bất đối xứng
Nếu biến ngẫu nhiên X có kỳ vọng  , phƣơng sai 2  thì tỷ số 3 E (X )  
 đƣợc gọi là hệ số bất đối xứng. 3  d) Hệ số nhọn
Nếu biến ngẫu nhiên X có kỳ vọng  , phƣơng sai 2  thì tỷ số 4 E (X  )  
  3 đƣợc gọi là hệ số nhọn. 4 
2.4. Một vài quy luật phân phối xác suất thƣờng gặp
2.4.1. Phân phối chuẩn
a) Định nghĩa phân phối chuẩn: Biến ngẫu nhiên X đƣợc gọi là có phân
phối chuẩn với hai tham số µ và 2
 nếu hàm mật độ của nó có dạng: 2 ( a  ) 1  2 2 f ( ) x e  , x R  2 Ký hiệu: X N(µ; 2  ) hoặc X N(µ; 2  ).
 Đồ thị của hàm f(x):
- Đồ thị của hàm f(x) là đƣờng cong hình chuông đối xứng qua đƣờng x =
µ và đạt giá trị cực đại tại điểm x = µ. Vì vậy giá trị Mod(X) = µ.
- Tiệm cận với trục hoành khi x   .
- Diện tích giới hạn bởi đồ thị và trục hoành bằng 1. 52
 Kỳ vọng và phƣơng sai: Nếu X  2 2
N(µ; ) thì E(X) = a và D(X) =  .
DX   đƣợc gọi là độ lệch chuẩn.
Phân phối chuẩn chiếm vị trí quan trọng trong lý thuyết xác suất, là vị trí
trung tâm trong các kết luận thống kê sau này. Trong thực tế có nhiều biến ngẫu
nhiên tuân theo quy luật chuẩn hoặc tiệm cận chuẩn chẳng hạn nhƣ trọng lƣợng,
chiều cao của một nhóm ngƣời nào đó, điểm thi của các thí sinh, lực chịu đựng
của một thanh sắt, các sai số đo đạc, độ bền dẻo của máy móc, khối lƣợng, kích
thƣớc của các sản phẩm, năng suất cây giống, mức lãi suất của công ty, nhu cầu
tiêu thụ của một mặt hàng nào đó…
b) Phân phối chuẩn tắc X   Nếu X N(µ; 2
 ), ta đổi biến Z  . 
Khi đó Z có phân phối chuẩn N(0,1) với kỳ vọng bằng 0 và phƣơng sai
bằng 1 gọi là có phân phối chuẩn tắc (hay phân phối tiêu chuẩn). X  
Phép đổi biển Z
đƣợc gọi là phép chuẩn hóa. 
Hàm mật độ của biến ngẫu nhiên có phân phối chuẩn tắc là: 2 x 1   2 ( ) x e 2 2 u 1 x
Hàm phân phối của N(0,1) là:   2 (x)  e
du, x R . 2  53
Đồ thị của hàm mật độ của phân phối chuẩn tắc N(0,1) nhƣ sau:
Ngƣời ta đã xây dựng sẵn bảng các giá trị của hàm (x) và (x) . Trong
các bài tập cần lƣu ý đƣa về phân phối chuẩn tắc để tính toán.
Tính xác suất theo phân phối chuẩn:
1. (x)  1 (x), x  . R 2. Nếu Z  N(0;1) thì:
P(Z  )  (  )
P(Z  ) 1 ()
P(  Z  )  (  )  (  ) 3. Nếu X N(µ; 2  ), với µ và 2  đã biết. X  
Tìm P(  X   ) ta đổi biến Z
, Khi đó Z có phân phối chuẩn  dạng N(0,1) nên:
   X            (
P   X  )  ( P       )                   X                 (
P X )  P   P Z                       
P(X ) 1 PX   1      
Từ công thức trên, suy ra xác suất của sự sai lệch giữa biến ngẫu nhiên có phân phối chuẩn N(a; 2
 ) và kỳ vọng µ của nó đƣợc xác định nhƣ sau:   P 
| X   |    2  1     
Nếu chọn  =  thì P(|X - µ| <) = 2(1) – 1 = 0,6826.
Nếu chọn  = 2 thì P(|X - µ| <) = 2(2) – 1 = 0,9546.
Nếu chọn  = 3 thì P(|X - µ| <) = 2(3) – 1 = 0,9974. 54
Quy tắc 2: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và 2
 thì có đến 95,46% giá trị của X sẽ nằm trong khoảng (µ - 2 ; µ + 2).
Quy tắc 3: Nếu biến ngẫu nhiên X có phân phối chuẩn với hai tham số µ và 2
 thì hầu nhƣ chắc chắn X nhận các giá trị trong khoảng (µ - 3 ; µ + 3).
Ví dụ 1: Giả sử X có phân phối chuẩn N(2100; 2002). Tính: a) P(X > 2400). b) P(1700 < X < 2200).
c) Xác định a để P( X > a) = 0,03. Giải:
Từ giả thiết ta có µ = 2100 và   200 . 2400  2100
a) P(X  2400)  1 (
)  1 (1,5)  1 0,9332  0,0668 200 b) 2200 2100 1700 2100
P(1700  X  2200)  ( )  (  )  (0,5)  ( 2  )  0,6688 200 200 a  2100 a  2100 c) ( P X  ) a 1 ( )  0,03  ( )  0,97 200 200 a  Tra bảng ta đƣợc 2100 (1,881)  0,97 
 1,881 a  2476,2 . 200
Ví dụ 2: Chiều cao của phụ nữ Việt Nam là biến ngẫu nhiên có phân phối
chuẩn N(155; 2,52). Tính tỷ lệ phụ nữ có chiều cao trên 160 cm. Giải:
Gọi X là chiều cao của phụ nữ Việt Nam. 160 155
P(X 160) 1P(X 160) 1 (  )  0,228 2,5
Vậy tỷ lệ phụ nữ Việt Nam có chiều cao trên 160 cm là 22,8%.
2.4.2. Phân phối nhị thức
a) Định nghĩa: Biến ngẫu nhiên X đƣợc gọi là có phân phối nhị thức với
tham số (n, p) (trong đó n  N và 0 < p < 1) nếu: 55 ( P X k) k k nkC p q ; q  1 , p k  0,..., . n n Kí hiệu:  X B( ; n p).
Nhận xét: Chúng ta đã xét dãy phép thử độc lập và công thức Bernoulli.
Nếu thực hiện n phép thử độc lập, trong mỗi phép thử biến cố A xuất hiện với
xác suất p không đổi thì biến ngẫu nhiên X chỉ số lần xuất hiện biến cố A trong
n phép thử có phân phối nhị thức.
Một số công thức tính xác suất của phân phối nhị thức: ( P X k) k k n k n C p q   
là xác suất để biến cố A xảy ra đúng k lần. (  1) 1 n P X
q là xác suất để biến cố A xảy ra ít nhất một lần. k2 P(     
là xác suất để biến cố A xảy ra từ k 1 k X 2 k ) P( X k) 1 đến k2 lần. k  1 k
Ví dụ 3: Bắn 5 phát súng độc lập vào 1 bia, xác suất trúng của mỗi phát là
0,8. Tính các xác suất sau: a) Có đúng 3 phát trúng.
b) Có từ 3 phát trúng trở lên.
c) Có ít nhất một phát trúng. Giải:
Gọi X là số viên đạn trúng bia, X có phân phối nhị thức B(5; 0,8). a) 3 3 2 3 3 2
P(X  3)  C5p q C5(0,8) (0,2)
b) P(3  X  5)  P(X  3)  P(X  4)  P(X  5) 56 c) 5
P( X  1)  1 P(X  1)  1 P(X  0)  1 (0, 2)
b) Kỳ vọng, phương sai, mod
Nếu X  B(n, p) thì E(X) = np; DX = np(1 - p) = npq. Số có khả năng nhất:
- Nếu np + p - 1 là số nguyên thì modX = np + p - 1 và np + p;
- Nếu np + p - 1 là số thập phân thì modX chính là phần nguyên của np + p - 1.
c) Xấp xỉ phân phối nhị thức bằng phân phối chuẩn
Phân phối nhị thức là một phân phối rời rạc có đồ thị là các đƣờng thẳng
gấp khúc nhƣ hình trên. Phân phối chuẩn sẽ là một xấp xỉ tốt đối với phân phối
nhị thức khi các số liệu của phân phối nhị thức tạo nên một đƣờng gấp khúc có
hình dáng gần giống với một quả chuông (dáng đồ thị của phân phối chuẩn).
Giả sử X  B(n, p). Khi n lớn và p không quá gần 0 hoặc 1, X có phân phối
xấp xỉ chuẩn N(np; npq). 1  k np
P(X k )     npq npq     k np
P(X k )    npq     k np   k np  2 1
P(k X k      1 2 )    npq   npq     
Nhận xét: Ngƣời ta thấy rằng xấp xỉ là tốt khi np và nq lớn hơn 5 hoặc khi npq lớn hơn 20.
Ví dụ 4: Gieo 3200 lần một đồng xu cân đối và đồng chất. Gọi X là số lần
xuất hiện mặt sấp trong 3200 lần gieo đó.
a) Tìm số lần xuất hiện mặt sấp có khả năng nhất. Tính xác suất tƣơng ứng.
b) Tính xác suất P(5 2 1600  X 10 2 1600) . Giải:
Gọi A là biến cố xuất hiện mặt sấp khi gieo 1 lần một đồng xu cân đối và
đồng chất: P(A) = 0,5 = p = 1 - p.
Theo giả thiết n = 3200 nên (n + 1)p – 1 = 1599,5 => Số lần xuất hiện mặt
sấp có khả năng nhất là 1600 với xác suất tƣơng ứng: 57
Cách 1: Dùng phân phối nhị thức 1600 1600 1600 P(X  1600)  3 C 200.(0,5) .(0,5) .
Cách 2: Dùng xấp xỉ phân phối chuẩn. 1 1600  3200.0,5 1 P(X 1600)  ( )  .(0) 3200.0,5.0,5 3200.0,5.0,5 3200.0,5.0,5 0,39894   0,014 20 2 1600 1  0 2 3  200.0,5  1600 5 2 3  200.0,5 
P(5 2 1600  X 1600 1  0 2)        3200.0,5.0,5   3200.0,5.0,5   (  0,5)  (
 0,25)  0,6915 0,5987  0,0928
2.4.3. Phân phối Poisson a) Định nghĩa
Biến ngẫu nhiên X đƣợc gọi là có phân phối Poisson với tham số  > 0 nếu
X nhận các giá trị nguyên không âm 0, 1, 2... với xác suất tƣơng ứng: k (
P X k)  e  ; ( k  0, 1, 2...) k ! Kí hiệu: P().
b) Kỳ vọng, phương sai
Nếu X P() thì E(X) =  ; D(X) =  ; Mod (X) =  .
Trong thực tế, với một số giả thiết thích hợp thì các biến ngẫu nhiên
Poisson là các quá trình đếm sau:
- Số cuộc gọi đến một tổng đài;
- Số khách hàng đến một điểm giao dịch;
- Số xe cộ đi qua một ngã tƣ...
Trong một khoảng thời gian xác định nào đó sẽ có phân phối Poisson với
tham số  là tốc độ trung bình diễn ra trong khoảng thời gian này.
Ví dụ 5: Ở một tổng đài điện thoại, các cuộc gọi đến một cách ngẫu nhiên,
độc lập và trung bình có 2 cuộc gọi trong 1 phút. Cho trƣớc X là số cuộc gọi đến
tổng đài trong khoảng thời gian t phút là biến ngẫu nhiên có phân phối Poisson.
Tìm xác suất để có đúng 5 cuộc gọi đến trong 2 phút (Đặt là biến cố A). Giải:
Theo giả thiết trung bình có 2 cuộc gọi trong 1 phút vậy trong 2 phút trung 58
bình có 4 cuộc gọi. Lúc này số cuộc gọi X trong 2 phút là biến ngẫu nhiên có
phân phối Poisson với tham số  = 4.
Ta cần tính P(X = 5). Áp dụng công thức: k 5
P(X k )  e  với k =5 và  = 4 ta đƣợc 4 4 P(X 5) e    0,156 k ! 5!
2.4.4. Phân phối khi bình phương
Định nghĩa: Biến ngẫu nhiên X đƣợc gọi là có phân phối khi bình phƣơng ( 2
 ) với n bậc tự do nếu hàm mật độ của nó có dạng:  1 n /2 1  x /2 x e khi x  0  n /2 f ( ) x  2 (  n/ 2) . 0 khi x   0
Trong đó: Hàm gamma là hàm thuộc lớp các hàm đặc biệt và đƣợc định nghĩa nhƣ sau:  xu 1  (  )
u   e x d , x (  u 1  )  u (  ) u 0 (  1) 1; (  1/ 2)  . Kí hiệu: 2 X  
Định lý: Nếu X1, X2, …, Xn là các biến ngẫu nhiên độc lập có cùng phân
phối chuẩn tắc N(0, 1) thì: n 2 2 2 2 2  Xi       1 X X2 ... Xn n i1 Phân phối 2  do Karl Pearson đƣa ra. 59
Giá trị tới hạn khi bình phƣơng n bậc tự do mức  , với  (0, 1) kí hiệu 2  (n) 2 2 
đƣợc định nghĩa nhƣ sau:      P( (n))  .
Bảng các giá trị tới hạn 2 (n)   đƣợc tính sẵn.
2.4.5. Phân phối Student
Định nghĩa: Biến ngẫu nhiên T đƣợc gọi là có phân phối Student với n bậc
tự do nếu hàm mật độ của nó có dạng:  n 1 n 1      2   2  2  t f(t )      n  n  1 , t R / 2  n    
Định lý: Nếu X, X1, X2…, Xn là các biến ngẫu nhiên độc lập có phân phối X N(0, 1) thì T
có phân phối Student với n bậc tự do. 1 n 2  X i n i 1 
Hoặc phát biểu: Nếu Z  N(0, 1) và V 2
  n và Z và V độc lập thì Z T   T(n) . V / n
Giả sử biến ngẫu nhiên T có bậc tự do k cho trƣớc, với  (0, 1) , ta tìm đƣợc hằng số ( ) n t  , ( / 2) n t  thỏa mãn: ( P T t ( )) n   ( P | T | t ( / 2)) n  
k  20;   0,05; t   20(0, 05)
1,725; t20(0,025) 2,086
Bảng các giá trị tới hạn ( ) n
t  đã đƣợc tính sẵn. 60
Nhận xét: Hàm mật độ là hàm chẵn nên đồ thị đối xứng qua trục tung. Khi
số bậc tự do tăng lên, phân phối Student hội tụ rất nhanh về phân bố chuẩn tắc
N(0, 1). Do đó khi n đủ lớn (n  30) có thể dùng phân bố chuẩn tắc thay cho
phân phối Student. Tuy nhiên khi n nhỏ (n < 30) việc thay thế nhƣ trên sẽ gặp sai số lớn.
2.4.6. Phân phối Fisher (Phân phối F)
Định nghĩa: Biến ngẫu nhiên F đƣợc gọi là có phân phối Fisher với (n1, n2)
bậc tự do nếu hàm mật độ của nó có dạng:   n n  1 2     1 n 2 n 1 n 1 n  2 n 1  2    2 2 2 2  n n u n n u khi u   1 1 ( 2 1 ) 0 f ( ) u    1 n   2 n         2   2  0 khi u  0
Định lý: Nếu (X1, X2,…, Xm) và (Y ,1 Y2,…, Y )
n là các biến ngẫu nhiên độc m 2 n Xi
lập có phân phối N(0, 1) thì i 1 F  
có phân phối Fisher với (n,m) bậc tự do. n 2 m i Y i 1 
Tính xác suất theo phân phối Fisher:
Giả sử biến ngẫu nhiên F có bậc tự do (k1, k2) cho trƣớc, với   0,01 hoặc
0,05 ta tìm đƣợc (bằng cách tra bảng) hằng số F thỏa mãn: P(F >F ) = .
2.5. Sơ lƣợc về biến ngẫu nhiên hai chiều (Đọc thêm)
Trong nhiều bài toán thực tế chúng ta phải xét một cách đồng thời một hệ
gồm n biến ngẫu nhiên X1, X2, …, Xn. Khi đó về mặt toán học ta có thể coi hệ
này là một biến ngẫu nhiên n - chiều X  ( hay còn gọi là một véc 1
X , X2 ,..., X ) n
tơ ngẫu nhiên n – chiều với các thành phần X X X 1, 2 ,..., n .
Tuy nhiên, trong nội dung này chúng ta chỉ xét biến ngẫu nhiên hai chiều
hay còn gọi là véc tơ ngẫu nhiên (X, Y).
2.5.1. Phân phối đồng thời
Bảng phân phối xác suất của biến ngẫu nhiên hai chiều rời rạc X và Y có
dạng sau: (đƣợc gọi là bảng phân bố xác suất đồng thời của X và Y). Y X y1 y2 yj ... yn 61 x … … 1 p11 p12 p1j p1n x … … 2 P21 P22 p2j p2n … x … … i pi1 pi2 pij pin … x … … m pm1 pm2 pmj pmn Chú ý rằng  1 ij p  . Trong đó ipj  {
P X ix , Y yj}; i 1,..., ;
m j  1,...,n.
Ví dụ 1: Gieo 3 đồng xu cân đối và đồng chất A, B, C.
Gọi X là số mặt ngửa của đồng xu A và B.
Y là số mặt ngửa của cả ba đồng xu A, B và C.
Hãy lập bảng phân phối xác suất đồng thời của X và Y. Giải:
Ta có X(Ω) = {0, 1, 2} và Y(Ω) = {0, 1, 2, 3}.
Chúng ta có 8 kết quả đồng khả năng của việc gieo 3 đồng xu và giá trị của
X và Y tƣơng ứng với mỗi kết quả đó: A B C X Y N N N 2 3 N N S 2 2 N S N 1 2 N S S 1 1 S N N 1 1 S N S 1 2 S S N 0 1 S S S 0 0
Vậy bảng phân bố xác suất đồng thời của X và Y là: Y 0 1 2 3 X 0 1/8 1/8 0 0 1 0 2/8 2/8 0 2 0 0 1/8 1/8
Nếu biết phân bố đồng thời của X và Y ta có thể tìm đƣợc phân bố của X 62 và Y. Thật vậy: n n
P(X x )   {
P X x ,Y y } i i j   pij j1 j1 m m
P(Y y )   P{X x ,Y y }  j i jpij i 1  i 1 
Nhƣ vậy cộng các dòng trong bảng ta đƣợc phân bố xác suất của X (đƣợc
gọi là quy luật biên duyên của X) và cộng các cột trong bảng ta đƣợc phân bố
xác suất của Y (đƣợc gọi là quy luật biên duyên của Y).
Chẳng hạn trong ví dụ trên ta có phân bố xác suất của X là: X 0 1 2 P 2 4 2 8 8 8
Cộng các cột ta có phân bố xác suất của Y là: Y 0 1 2 3 P 1 3 3 1 8 8 8 8
Hàm phân bố biến ngẫu nhiên hai chiều (X, Y) đƣợc xác định bởi:
F(x, y)  {
P X x, Y  } y
Hàm mật độ. Nếu hàm phân phối F(x, y) liên tục và có đạo hàm chéo cấp 2 hai liên tục thì hàm  F x y : ( , ) f ( , x ) y
đƣợc gọi là hàm mật độ đồng thời của xy
véc tơ ngẫu nhiên (X, Y).
Xác suất để véc tơ ngẫu nhiên (X, Y) thuộc vào miền D đƣợc tính bằng tích phân kép  f ( , x ) y dx . dy D
Trong phạm vi của bài giảng chúng ta không đi sâu vào chi tiết vấn đề này.
2.5.2. Phân phối có điều kiện
Xét biến ngẫu nhiên hai chiều (X, Y). Nếu ở kết quả của phép thử Y lấy giá
trị yj thì xác suất để X lấy giá trị xi (khi Y = yj) đƣợc gọi là xác suất có điều kiện { P x | y } i
j . Tƣơng tự, nếu ở kết quả của phép thử X lấy giá trị xi thì xác suất để Y lấy giá trị y P y x
j (khi X = xi) đƣợc gọi là xác suất có điều kiện { | } j i .
Theo công thức nhân xác suất ta có: 63 {
P X=x ,Y y } i j i p j {
P xi | y }j   { P Y y } j pj
P{X=x ,Y y } i j pij { P y | x } j i   { P X x } i i p
Nếu (X, Y) là véc tơ ngẫu nhiên liên tục có hàm mật độ f(x, y) thì quy luật
có điều kiện của X biết Y = y và quy luật có điều kiện của Y khi biết X = x đƣợc
xác định bởi các hàm mật độ: f ( , x ) y f x y g ( , ) ( x | ) y
; h(y | x)  f y f x 2 ( ) 1( )
Trong đó: 1f(x), f2(y) là các hàm mật độ biên duyên của X và Y.
Hai biến ngẫu nhiên độc lập.
Hai biến ngẫu nhiên X và Y là độc lập nếu luật phân phối có điều kiện của
một biến bằng luật phân phối không điều kiện của nó. { P x | y }  ( P X = x ) i j i Tƣơng tự { P y | x }  ( P Y = y ). j i j
Nhƣ vậy nếu X và Y độc lập ta có ipj ippj .
Với cặp (X, Y) liên tục thì: f (x, y)  f ( ) x . f (y) 1 2 .
2.5.3. Kỳ vọng có điều kiện
Kỳ vọng có điều kiện của biến ngẫu nhiên rời rạc Y với điều kiện X = xi đƣợc xác định bởi:
E(Y | X x )   y P(y | x ) i j j i j
Nếu Y là biến ngẫu nhiên liên tục thì: 
E(Y | X x )   yh(y | x) i dy 
Ví dụ 2: Với bảng phân phối xác suất: Y y p X 1 = 0 y2 = 1 y3 = 2 y4 = 3 i x1 = 0 1/8 1/8 0 0 1/4 x2 = 1 0 2/8 2/8 0 1/2 x3 = 2 0 0 1/8 1/8 1/4 pj 1/8 3/8 3/8 1/8 64 Thì: p11 1 1 1 {
P Y y X x    1 | 1} : p1 8 4 2 1 p 2 1 1 1 { P Y      2 y | X 1 x } : 1 p 8 4 2  p13 1 {
P Y y X x    3 | 1} 0 : 0 p1 4 1 p 4 1 { P Y      4 y | X 1 x } 0 : 0 1 p 4  1 1 1 { E Y | X       1 x } 0. 1. 2.0 3.0 2 2 2 BÀI TẬP
Bài 1: Trong một lô hàng gồm 10 sản phẩm trong đó có 7 sản phẩm loại
A và 3 sản phẩm loại B. Lấy ngẫu nhiên cùng một lúc 3 sản phẩm để kiểm tra
chất lƣợng. Gọi X là số sản phẩm loại A gặp khi kiểm tra. Tìm phân phối xác suất của X.
Bài 2: Bắn ba viên đạn vào một mục tiêu một cách độc lập. Xác suất trúng
đích của từng viên lần lƣợt là 0,6; 0,4 và 0,5. Gọi X là số viên đạn không trúng
mục tiêu. Tìm phân phối xác suất của X.
Bài 3: Giả sử chiều cao X của trẻ em có phân phối chuẩn N(1,3; 0,01).
Tính xác suất để trẻ em có chiều cao nằm trong khoảng (1,2; 1,4).
Bài 4: Chiều cao của một loại cây gỗ đến tuổi khai thác là một biến ngẫu
nhiên liên tục X có phân phối chuẩn với chiều cao trung bình là 20 m và độ lệch
chuẩn là 2,5 m. Cây đạt tiêu chuẩn khai thác là cây có chiều cao tối thiểu là 15
m. Hãy tính tỷ lệ cây đạt tiêu chuẩn khai thác.
Bài 5: Cho biến ngẫu nhiên liên tục X có hàm mật độ:  1 a
x 1 x  2 f( ) x  3  0 x [1; 2]  a) Chứng minh a = 1 . 2 65 b) Tìm P(X > 1,8). c) Tính E(X).
Bài 6: Cho biến ngẫu nhiên X có hàm mật độ:
kx khi x [0; 5] f ( ) x   0 khi x  [ 0; 5] a) Chứng minh k = 2/25.
b) Tìm hàm phân phối xác suất của X.
c) Chứng minh các xác suất để X thuộc các khoảng 1 < X ≤ 2; 2 < X ≤ 3;
3 < X ≤ 4; 4 < X ≤ 5 có tỷ lệ 3 : 5 : 7 : 9.
Bài 7: Cho biến ngẫu nhiên X có hàm mật độ xác suất:  2  (
a 3x- x ) khi x [  0; 3] f ( ) x   0  khi x [  0; 3]  a) Tìm hệ số a.
b) Vẽ đồ thị hàm mật độ f(x).
c) Tìm xác suất để X thuộc vào khoảng (1, 2).
Bài 8: Cho biến ngẫu nhiên X có hàm mật độ:  1 khi x (-a; a)  2 2 f ( )
x   a x 0 khi x (-a; a)  Tìm E(X), D(X).
a) Viết bảng phân phối của X.
b) Tìm hàm phân phối xác suất F(x).
Bài 9: Biến ngẫu nhiên X có hàm phân phối: 2  x  2 F (x ) 2
1 e  khi x 0  0 khi x   0
Tìm hàm mật độ xác suất, Median, Mốt. a
Bài 10: Cho f ( ) x  , x (  - ,   )  2 1 x
a) Tìm a để f(x) là hàm mật độ. b) Tìm P(0 < X < 1).
c) Tìm hàm phân phối xác suất F(x). 66 Chƣơng 3
MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ
3.1. Một vài khái niệm cơ bản
Thống kê toán là bộ môn toán học nghiên cứu quy luật của các hiện tƣợng
ngẫu nhiên có tính chất số lớn trên cơ sở thu thập và xử lý số liệu thống kê các
kết quả quan sát về những hiện tƣợng ngẫu nhiên này.
Nếu ta thu thập đƣợc tất cả số liệu liên quan đến đối tƣợng cần nghiên cứu
thì ta có thể biết đƣợc đối tƣợng này. Tuy nhiên, trong thực tế điều đó không thể
thực hiện đƣợc vì những khó khăn chính sau:
- Quy mô của tập hợp cần nghiên cứu quá lớn nên việc nghiên cứu toàn bộ
đòi hỏi nhiều chi phí về vật chất và thời gian, có thể không kiểm soát đƣợc dẫn
đến bị chồng chéo hoặc bỏ sót;
- Trong nhiều trƣờng hợp không thể nắm đƣợc toàn bộ các phần tử của tập
hợp cần nghiên cứu, do đó không thể tiến hành toàn bộ;
- Có thể trong quá trình điều tra sẽ phá hủy đối tƣợng nghiên cứu.
Vì vậy, ngƣời ta thƣờng sử dụng phƣơng pháp nghiên cứu bằng mẫu. Đây
là một trong những phƣơng pháp quan trọng của lý thuyết thống kê.
Trong chƣơng này, chúng ta sẽ tìm hiểu những vấn đề cơ bản của lý thuyết thống kê toán học :
- Các phƣơng pháp trình bày mẫu và các đặc trƣng của mẫu;
- Lý thuyết về ƣớc lƣợng;
- Lý thuyết kiểm định giả thiết thống kê.
3.1.1. Tổng thể và mẫu
Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu định tính hay
định lƣợng nào đó đƣợc gọi là tổng thể (hay tập hợp chính). Các dấu hiệu này
đƣợc gọi là dấu hiệu quan sát (hay tiêu thức nghiên cứu).
Mỗi phần tử của tổng thể đƣợc gọi là một cá thể.
Chẳng hạn một doanh nghiệp muốn nghiên cứu các khách hàng của mình
về dấu hiệu định tính có thể là mức độ hài lòng của khách hàng đối với sản
phẩm/dịch vụ nào đó của doanh nghiệp, còn dấu hiệu định lƣợng là số lƣợng sản
phẩm của doanh nghiệp tiêu thụ trong tháng/quý.
Nếu dấu hiệu nghiên cứu có tính định lƣợng, nghĩa là đƣợc thể hiện bằng 67
cách cho tƣơng ứng mỗi cá thể của tổng thể nhận một giá trị thực nào đó thì ta
có thể xem dấu hiệu X này là một biến ngẫu nhiên xác định trên tổng thể.
Mẫu là một tập con nào đó của tổng thể. Việc chọn ra từ tổng thể một mẫu
đƣợc gọi là phép lấy mẫu. Số phần tử của mẫu đƣợc gọi là cỡ mẫu.
Ta nói rằng một mẫu là mẫu ngẫu nhiên nếu trong phép lấy mẫu đó mỗi
cá thể của tổng thể đƣợc chọn một cách độc lập và có khả năng đƣợc chọn nhƣ nhau.
Giả sử các cá thể của tổng thể đƣợc nghiên cứu thông qua dấu hiệu X.
Với mẫu ngẫu nhiên kích thƣớc n (có n phần tử), gọi Xi là dấu hiệu X của
phần tử thứ i của mẫu (i = 1, 2,..., n). Bằng cách đồng nhất mẫu ngẫu nhiên với
các dấu hiệu nghiên cứu của mẫu ta có định nghĩa về mẫu ngẫu nhiên nhƣ sau:
Mẫu ngẫu nhiên kích thƣớc n là một dãy gồm n biến ngẫu nhiên X1, X2,…,
Xn độc lập cùng phân phối với X. Kí hiệu X = (X1, X2,…, Xn).
Thực hiện một phép thử đối với mẫu ngẫu nhiên X chính là thực hiện một
phép thử đối với mỗi thành phần của mẫu. Giả sử Xi nhận giá trị xi (i = 1, 2,…,
n), khi đó các giá trị x1, x2,…, xn tạo thành một giá trị của mẫu ngẫu nhiên hay
bộ n giá trị quan sát của mẫu ngẫu nhiên. Kí hiệu: x = (x1, x2,…, xn).
3.1.2. Các phương pháp trình bày mẫu
Giả sử ta có mẫu ngẫu nhiên cỡ n gồm các giá trị quan sát (x1, x2,…, xn).
a) Bảng phân bố thực nghiệm
Trong trƣờng hợp mẫu nhỏ và các giá trị tƣơng đối rời rạc ta có thể trình
bày mẫu dƣới dạng bảng gọi là bảng phân phối thực nghiệm. Nếu trong n giá trị
của mẫu có đúng k giá trị phân biệt x1, x2,…, xk (k < n), ta gộp các giá trị giống
nhau lại và đếm số lần xuất hiện giá trị đó trong mẫu thu đƣợc kết quả: x1 xuất hiện m1 lần x2 xuất hiện m2 lần … xk xuất hiện mk lần 68 k Với  i m      1 m 2 m ... m . k n i1
Khi đó mi đƣợc gọi là tần số của xi.
fi = mi đƣợc gọi là tần suất của xi
Ta có bảng phân bố tần số thực nghiệm nhƣ sau: xi x1 x2 ... xk mi (tần số) m1 m2 ... mk
Bảng phân bố tần suất thực nghiệm nhƣ sau: xi x1 x2 ... xk fi (tần suất) f1 f2 ... fk k
if f f   f  1 2 ... k 1 i1
Ví dụ 1: Lấy một mẫu ngẫu nhiên có kích thƣớc 120 ta có bảng phân bố
thực nghiệm tần số và tần suất nhƣ sau: X/xi 31 34 35 36 38 40 42 44 mi 10 20 30 15 10 10 5 20 120 fi 2/24 4/24 6/24 3/24 2/24 2/24 1/24 4/24 1
Từ bảng phân bố thực nghiệm trên ta có biểu diễn hình học của mẫu. Trên
hệ trục tọa độ đặt các điểm có tọa độ (xi, mi) hay (xi, fi), i = 1, 2,…, k.
Lần lƣợt nối các điểm đó với nhau bằng các đoạn thẳng ta đƣợc đa giác tần số (tần suất).
Nối các điểm đó tƣơng ứng với (xi, 0) ta đƣợc biểu đồ tần số (tần suất) hình gậy.
Ví dụ 2: Vẽ đa giác tần số của mẫu ngẫu nhiên X đƣợc cho dƣới dạng bảng nhƣ sau: xi 114 115 116 117 118 119 mi 21 57 111 78 45 18 69 - Đa giác tần số: 114 115 116 117 118 119 - Đa giác tần suất: 114 115 116 117 118 119
b) Bảng phân bố ghép lớp
Trƣờng hợp mẫu có kích thƣớc lớn hoặc khi các giá trị tƣơng đối nhiều và
gần nhau ta thƣờng phân số liệu thành lớp (khoảng). Các khoảng này lập nên
một phân hoạch miền giá trị của biến X. Ngƣời ta thƣờng phân lớp sao cho mỗi
số liệu mẫu rơi vào đúng một lớp.
Có thể có nhiều cách chia lớp khác nhau. Ngoài ra độ rộng của mỗi lớp
không nhất thiết phải bằng nhau nhƣng thông thƣờng ngƣời ta hay lấy bằng nhau để dễ so sánh.
Ví dụ 3: Một mẫu về chiều cao của 400 cây đƣợc trình bày trong bảng phân 70 bố ghép lớp nhƣ sau: Khoảng chiều cao Tần số Tần suất [4,5-9,5) 18 0,045 9,5-11,5 58 0,145 11,5-13,5 62 0,155 13,5-16,5 72 0,18 16,5-19,5 57 0,1425 19,5-22,5 42 0,105 22,5-26,5 36 0,09 26,5-36,5 55 0,025 Tổng 400 1
 Tổ chức đồ: Trên hệ trục tọa độ, dựng các hình chữ nhật vuông góc với
trục hoành, diện tích bằng tần số (hay tần suất) còn chiều rộng là độ rộng tƣơng
ứng của lớp đó ta đƣợc tổ chức đồ tần số (tần suất).
Ví dụ 4: Tổ chức đồ tần số cho mẫu ngẫu nhiên cho trong ví dụ trên nhƣ sau: 80 70 72 60 62 58 57 50 55 40 42 30 36 20 18 10 0 [4.5-9.5) 9.5-11.5
11.5-13.5 13.5-16.5 16.5-19.5 19.5-22.5 22.5-26.5 26.5-36.5
Nhận xét: Diện tích giới hạn bởi tổ chức đồ tần số ở trên chính bằng tần số
xuất hiện. Chẳng hạn số cây có chiều cao nằm trong khoảng từ (12, 25] là diện
tích của tổ chức đồ đƣợc giới hạn bởi đƣờng thẳng x = 12 và x = 25 và bằng:
(13,5 12).31 (16,5 13,5).24  (19,5 16,5).19  (22,5 19,5).14  (25  22,5).9  240
Vậy có 240 cây có chiều cao từ 12 m đến 25 m.
Ví dụ 5: Vẽ tổ chức đồ tần số cho mẫu ngẫu nhiên X cho dƣới dạng bảng
phân bố ghép lớp nhƣ sau: 71 Các lớp Tần số Tần suất [20,25) 3 0.1 [25,30) 6 0.2 [30,35) 5 0.166667 [35,40) 4 0.133333 [40,45) 4 0.133333 [45,50) 4 0.133333 [50,55) 2 0.066667 [55,60) 1 0.033333 [60,65) 1 0.033333 Ta đƣợc:
- Tổ chức đồ tần số: Tần số 7 6 5 4 3 2 1 0
[20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)
- Tổ chức đồ tần suất: 0.25 0.2 0.2 0.15 0.166667 0.133333 0.133333 0.133333 0.1 0.1 0.05 0.066667 0.033333 0.033333 0 [20,25) [25,30) [30,35) [35,40) [40,45) [45,50) [50,55) [55,60) [60,65)
3.1.3. Hàm phân phối thực nghiệm
Với mẫu ngẫu nhiên cỡ n các quan sát về biến ngẫu nhiên X cho bởi bảng
phân bố thực nghiệm, hàm phân phối thực nghiệm (hàm phân phối mẫu) của X, 72
ký hiệu là Fn(X) là hàm xác định bởi công thức: m F (x)    f , n i x R n xi x
Trong đó mx là số các quan sát xi < x.
Nếu mẫu cho dƣới dạng bảng phân phối ghép lớp thì ta tính tần số cộng  mx  dồn i x
m tại các đầu mút của mỗi lớp rồi nối các điểm  x , lại với nhau ta i in  
đƣợc hình ảnh hàm phân phối thực nghiệm.
Với mỗi giá trị của n ta đƣợc một hàm phân phối thực nghiệm. Khi n  
các hàm phân phối thực nghiệm tiến dần tới hàm phân phối lý thuyết cần tìm (là
xấp xỉ của hàm phân phối lý thuyết).
3.2. Các số đặc trƣng mẫu
Một thống kê của mẫu là một hàm của các biến ngẫu nhiên thành phần của
mẫu. Thống kê của mẫu ngẫu nhiên X = (X1, X2,..., Xn) cũng là một biến ngẫu
nhiên tuân theo một quy luật phân bố xác suất nhất định và có các tham số đặc
trƣng nhƣ kỳ vọng E(X), phƣơng sai D(X)… Mặt khác, khi mẫu ngẫu nhiên
nhận một giá trị cụ thể x = (x1, x2,…, xn) thì X cũng nhận một giá trị cụ thể.
3.2.1. Kỳ vọng mẫu, phương sai mẫu
a. Kỳ vọng mẫu
Kỳ vọng mẫu (trung bình mẫu) của mẫu ngẫu nhiên X = (X1, X2,..., Xn)
đƣợc định nghĩa và ký hiệu là: 1 n X   i X n i1 b. Phương sai mẫu
- Phƣơng sai mẫu chƣa chỉnh lý: 2  n       xin n  *2 1     S   Xi X 2 1 2 i 1    X i   n i 1  n i  1  n     
- Phƣơng sai mẫu đã chỉnh lý: 73  n      xi n n   2 1     S   Xi X 2 1 2 i 1   Xi   n 1 i1 n 1 i1 n      
 Ý nghĩa của kỳ vọng mẫu và phương sai mẫu:
Kỳ vọng mẫu hay trung bình mẫu là số đặc trƣng về vị trí trung tâm của
mẫu (xu thế các số liệu mẫu tập trung quanh một con số nào đó), có thể dùng để
thay thế cho toàn bộ các số liệu mẫu.
Phƣơng sai mẫu đặc trƣng cho độ phân tán của các số liệu mẫu so với kỳ vọng mẫu X .
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu
Với mẫu ngẫu nhiên cỡ n đƣợc cho dƣới dạng bảng phân phối thực nghiệm. Ta lập bảng tính sau: xi x1 x2 ... xk Tổng mi m1 m2 ... mk n mixi m1x1 m2x2 … mkxk (*) m 2 2 2 2 ixi m1x1 m2x2 … mkxk (**)
Từ bảng tính trên ta tính đƣợc trung bình mẫu và phƣơng sai mẫu theo công thức. 1 n 1 k
X   ix   i m ix n i1 n i1  n       i x n k   2 1     S     i x X 2 1 2 i 1    m x   n 1 i i i 1  n 1 i 1  n      
Ví dụ 1: Tính trung bình mẫu và phƣơng sai mẫu của biến ngẫu nhiên X
với các giá trị quan sát đƣợc cho dƣới bảng sau: 7,6 8,8 9,3 9,7 10,6 11 11,8 11,9 12,3
Từ giả thiết ta lập bảng: xi 7,6 8,8 9,3 9,7 10,6 11 11,8 11,9 12,3 101,9 74 x 2 i
57,76 77,44 86,49 94,09 112,36 121 139,24 141,61 151,29 1060 Kỳ vọng mẫu: 1 X  .101,9  10,19 10 Phƣơng sai mẫu: 2 1 2
S  {1060 10.10,19 }  2,4043 9 n
Phƣơng sai mẫu chƣa chỉnh lý: *2 1 2 9 SS  .2, 4043  2,1639 n 10 Chú ý:
1. Nếu các giá trị của mẫu cụ thể đƣợc cho dƣới dạng bảng phân bố ghép
lớp với các khoảng với điểm đầu là a và điểm cuối là b thì xi đƣợc lấy bằng trung bình cộng của a và b.
2. Đổi biến: Nếu các giá trị của mẫu cụ thể xi không gọn (quá lớn hoặc quá
bé hoặc phân tán) ta có thể thu gọn mẫu bằng cách đổi biến: i x c i u h
Trong đó c và h đƣợc chọn một cách hợp lý sao cho 2 u, u
S tính dễ dàng hơn.
Thông thƣờng c là giá trị mẫu ứng với tần số lớn nhất và h là khoảng cách
(đều nhau) giữa các giá trị mẫu. Sau đó, ta tính 2 , u u
S từ bảng số liệu mới, sau đó tính lại 2
X , S X theo công thức: 2 2 2
X hu c, S h .S . X u
3.2.3. Các đặc trưng khác
Ngoài kỳ vọng mẫu, phƣơng sai mẫu ta còn có các đặc trƣng khác:
a. Mode mẫu (KH là Mo)
- Nếu mẫu cho dƣới dạng bảng phân bố tần số thì mode là giá trị của mẫu
ứng với tần số lớn nhất.
- Nếu mẫu cho dƣới dạng bảng phân bố ghép lớp thì khoảng mode là
khoảng có tần số lớn nhất.
Ví dụ 2: Một cửa hàng muốn dự trữ hàng hóa đáp ứng nhu cầu của ngƣời
mua thì phải tìm hiểu loại hàng nào khách hàng hay hỏi mua nhất.
Thống kê số ngƣời mắc bệnh theo độ tuổi thì độ tuổi có nhiều ngƣời mắc
bệnh thƣờng đƣợc quan tâm hơn là độ tuổi trung bình mắc bệnh. 75 b. Median (KH là Me)
Trung vị hay median của mẫu là số có tính chất:
Số các giá trị mẫu ≤ Me bằng số giá trị mẫu ≥ Me. Cách tìm trung vị:
- Nếu mẫu gồm các giá trị phân biệt, sắp xếp theo thứ tự tăng dần x1 < x2 < … < xn thì: 1
+ Me   xn x nếu n chẵn /2 n/21 ; 2 + Me  nếu n lẻ ( x n 1  )/2 .
- Nếu mẫu cho dƣới dạng bảng phân lớp:
Bƣớc 1: Tìm khoảng trung vị là tìm khoảng thứ k với k là chỉ số bé nhất
thỏa mãn: m1 + m2 + … + mk ≥ n/2.
Bƣớc 2: Tìm đƣờng x = Me chia đôi diện tích của tổ chức đồ tần số. Me là trung vị cần tìm.
3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu
Trƣờng hợp biến ngẫu nhiên gốc X tuân theo quy luật phân phối chuẩn.
Định lý 1: Cho biến ngẫu nhiên X có phân phối chuẩn 2
N (a, ) , (X1, X2,…,
Xn) là mẫu ngẫu nhiên cỡ n rút ra từ X. Khi đó: 2   
a) X có phân phối chuẩn N  a,   . n    2 (n  1)S b) có phân phối 2
 với (n-1) bậc tự do. 2  X a n c) ( )
có phân phối Student với (n-1) bậc tự do. S
Định lý 2: Cho (X1, X2,…, Xn) và (Y1, Y2,…, Ym) là các mẫu ngẫu nhiên
độc lập rút ra từ các biến ngẫu nhiên X có phân phối chuẩn 2 N (  và Y có 1 a , 1 ) phân phối chuẩn 2 N (a  tƣơng ứng. Khi đó 2 , 2 ) : 2 2 S /  a) Biến ngẫu nhiên 1 1 F
có phân phối Fisher với (n-1, m-1) bậc tự do. 2 2 S  2 / 2 76 2 2  
b) X Y có phân phối chuẩn 1 2 N (   1 a a2, ) . n n 1 2 BÀI TẬP
Bài 1: Cho dãy số liệu: 47 45 41 34 20 26 38 53 45 38 31 20 43 44 27 22 29 45 55 42 29 32 27 37 61 30 35 33 27 43 50 a) Tính số trung vị.
b) Nhóm các số liệu thành lớp có độ dài 5 (lấy lớp đầu là [20; 25)), vẽ tổ chức đồ tần số.
c) Tính trung bình và phƣơng sai mẫu theo lớp và theo mẫu ban đầu.
Bài 2: Năng suất một loại cây trồng trên 36 thửa đất là:
19,2 17,7 20,0 21,1 21,5 18,5 20,6 19,3 19,0 18,2 17,1
19,2 19,1 15,2 19,5 17,3 16,3 19,6 17,5 19,1 19,7 16,0
16,7 16,4 20,8 19,3 16,0 17,4 15,3 17,2 17,6 11,5 11,4 16,1 17,8 20,0
a) Phân các số liệu trên thành lớp có độ dài 1,5 (lớp đầu tiên từ [11 –
12,5)). Vẽ tổ chức đồ tần suất.
b) Tính kỳ vọng và phƣơng sai mẫu.
Bài 3: Gặt ngẫu nhiên 20 thửa ruộng ngƣời ta thu đƣợc năng suất X (tính
theo tạ/ha) của một loại lúa nhƣ sau: 10,25 21,50 27,80 29,00 13,50 19,50 24,00 35,00 18,00 24,75 23,75 32,00 16,50 22,00 26,00 22,50 15,50 23,50 29,75 21,50
a) Lập bảng phân phối ghép lớp với lớp đầu [10 - 15)
b) Tính phƣơng sai mẫu theo mẫu ban đầu và theo mẫu ghép lớp.
Bài 4: Cho bảng số liệu sau: Khong 0-10 10-20 20-30 30-50 50-70 70-100 77
Tn s 7 20 15 20 10 9
Tính trung bình mẫu, khoảng mode và số trung vị.
Bài 5: Tính trung bình mẫu và độ lệch tiêu chuẩn mẫu từ bảng số liệu sau: xi 114 115 116 117 118 119 mi 21 57 111 78 45 18 78 Chƣơng 4 ƢỚC LƢỢNG THAM SỐ
4.1. Ƣớc lƣợng điểm
Xét một tổng thể đƣợc đặc trƣng bởi một biến ngẫu nhiên X nào đó. Thông
thƣờng dạng phân phối của X đã biết nhƣng còn phụ thuộc một vài tham số 
nào đó chƣa biết mà ta đang quan tâm.
Bài toán đặt ra là: Căn cứ vào các giá trị mẫu x1, x2,…, xn về X để tìm một ƣớc lƣợng cho  .
Ví dụ 1: Giả sử X có phân phối chuẩn 2 N (, ) .
- Nếu a chƣa biết thì  = µ.
- Nếu cả hai tham số µ và 2  chƣa biết thì 2   ( , ) .
Trong chƣơng này ta sẽ tìm hiểu ba loại ƣớc lƣợng: - Ƣớc lƣợng điểm;
- Ƣớc lƣợng hợp lý cực đại; - Ƣớc lƣợng khoảng.
Phƣơng pháp ƣớc lƣợng điểm chủ trƣơng dùng một giá trị để thay cho giá
trị của tham số  chƣa biết của tổng thể. Thông thƣờng giá trị đƣợc chọn này là
giá trị cụ thể của một biến ngẫu nhiên ˆ  nào đó của mẫu.
4.1.1. Khái niệm ước lượng điểm và tính chất 4.1.1.1. Khái niệm
Với mẫu ngẫu nhiên X = (X1, X2,…, Xn), thống kê ƣớc lƣợng cho tham số  có dạng công thức: ˆ
  T( X1,X2,..., X ) n
Lúc này, với một mẫu cụ thể x = (x1, x2,…, xn) ta tính đƣợc giá trị cụ thể của biến ngẫu nhiên ˆ  T (
. Giá trị cụ thể này đƣợc gọi là ƣớc lƣợng 1 x , x2 ,..., x ) n điểm cho tham số  .
Chú ý: Ƣớc lƣợng điểm ˆ
  T( X1,X 2,..., X )
n chỉ phụ thuộc vào các quan
sát x1, x2,…, xn và không phụ thuộc vào tham số  .
Ví dụ 2: Cho X là biến ngẫu nhiên có phân phối chuẩn 2
N (; ) . Giả sử 79
(X1, X2,…, Xn) là mẫu ngẫu nhiên về X: 1
- Đại lƣợng X  (    1 X
X2 ... Xn) là ƣớc lƣợng điểm của kỳ vọng µ của n biến ngẫu nhiên X; 1 n 1 n - Đại lƣợng 2 2 S   (X X ) i hoặc *2 2 S
  (X X ) là ƣớc lƣợng n i 1i 1  ni 1  điểm của phƣơng sai 2
 của biến ngẫu nhiên X. 4.1.1.2. Tính chất
Nhƣ vậy, một ƣớc lƣợng ˆ
 T là một hàm của n biến ngẫu nhiên. Giá trị
của ƣớc lƣợng cũng thay đổi từ mẫu quan sát này đến mẫu quan sát khác.
Nghĩa là, với cùng một mẫu ngẫu nhiên ta có thể xây dựng nhiều thống kê ˆ
 khác nhau để ƣớc lƣợng cho tham số  . Vì vậy ta cần lựa chọn thống kê tốt
nhất để ƣớc lƣợng cho tham số  dựa vào các tính chất sau:
a) Tính không chệch
Định nghĩa: Ƣớc lƣợng ˆ
 đƣợc gọi là ƣớc lƣợng không chệch của tham số  nếu  ˆ E    . Nếu  ˆ
E    thì ˆ
 đƣợc gọi là ƣớc lƣợng chệch của  .
Ví dụ 3: Ta chứng minh đƣợc: 1
- X  ( X X   X
là ƣớc lƣợng không chệch của kỳ vọng 1 2 ... n ) µ; n 1 n - 2 2 S   (X X ) i
là ƣớc lƣợng không chệch của phƣơng sai 2 n  ; 1i1 1 n - *2 2 S   (X X ) i
là ƣớc lƣợng chệch của phƣơng sai 2 n  . 1i 1  b) Tính vững
Định nghĩa: Ƣớc lƣợng ˆ
 đƣợc gọi là ƣớc lƣợng vững của tham số  nếu
với mọi   0 cho trƣớc tùy ý ta có:  ˆ
lim P |   |   1 n   ( ˆ
 hội tụ theo xác suất tới  ). 80 Ví dụ 1
4 : X  ( X X   X 1 2 ...
n ) là ƣớc lƣợng vững của kỳ vọng µ. n
c) Tính hiệu quả
Định nghĩa: Ƣớc lƣợng ˆ
 đƣợc gọi là ƣớc lƣợng hiệu quả của tham số  nếu ˆ
 là ƣớc lƣợng không chệch và có phƣơng sai nhỏ nhất trong lớp các ƣớc lƣợng không chệch. Ví dụ 5 1
: X  ( X    1 X2 ... X )
n là ƣớc lƣợng hiệu quả của kỳ vọng µ . n
4.1.2. Phương pháp ước lượng hợp lý cực đại
Cho biến ngẫu nhiên X có phân phối f (X, ) với dạng của f đã biết, nhƣng 
chƣa biết. Để ƣớc lƣợng  ta lấy mẫu ngẫu nhiên (X1, X2, …, Xn) và lập hàm: ( L )   f (X      1, ) f(X 2, )...f(X , ), n (1)
L( ) gọi là hàm hợp lý của mẫu, nó phụ thuộc vào X1, X2,…, Xn và 
nhƣng coi X1, X2,…, Xn là hằng số đã biết và  là biến. Vấn đề đặt ra là tìm ˆ  ( 1
X , X2,..., X ) n sao cho: L  ˆ(X   
1, X 2,..., X ) L( ) n (2)
Điều kiện (2) ở trên tƣơng đƣơng với: L ˆ ln  (X X XL  1 , 2 ,..., ) ln  ( ) n  (3) Đặt ( )  ln ( L  
) , khi đó điều kiện (3) tƣơng đƣơng với:
  ˆ  (4) Ƣớc lƣợng ˆ  (
xác định bởi điều kiện trên gọi là ước lượng 1
X , X2,..., X ) n
hợp lý cực đại của  .
Nếu   khả vi theo  thì tại ˆ( 1
X , X2,..., X ) n ta có:  0 (5) 
Phƣơng trình (5) này đƣợc gọi là phương trình hợp lý và mọi nghiệm của
nó nếu thỏa mãn điều kiện (3) hoặc (4) đều là ƣớc lƣợng hợp lý cực đại của  .
Ví dụ 1: Cho biến ngẫu nhiên X có phân phối chuẩn 2
N (,3 ) với a chƣa
biết và cho (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ƣớc lƣợng hợp lý cực đại của µ. 81
Gii:
Theo giả thiết X có phân phối chuẩn 2
N (,3 ) nên có hàm mật độ là: 2 (x  ) 1  18 f ( ) x e 3 2
Từ đó, ta có hàm hợp lý là: 2 2 2 (x  ) (x  ) (x  ) 1 2 1  1  1 n  18 18 18 ( L   1 x , 2 x ,..., x , ) e . e ... n e 3 2 3 2 3 2 n 2  (x  ) i n i 1   1   18  e    3 2   1  1 n 2  ln L nln   (x  )   ( )   i   3 2  18 i1
Ta tìm đƣợc ƣớc lƣợng cho µ từ phƣơng trình:  () 1 n n 1 n
 0   ( x ) 0   ( x ) 0     x  9 i i i i 1  i 1  n i 1 
Hay   X là ƣớc lƣợng hợp lý cực đại cần tìm. Ghi chú:
Trƣờng hợp X là biến ngẫu nhiên rời rạc, ta cũng định nghĩa tƣơng tự nhƣ
trên về khái niệm ƣớc lƣợng hợp lý cực đại.
Khái niệm ƣớc lƣợng hợp lý cực đại định nghĩa theo (3) hoặc (4) thực chất
là dựa trên quan điểm “giá trị của  trong thực tế là giá trị ứng với xác suất xảy
ra lớn nhất” (vì vậy nó là hợp lý nhất).
Ví dụ 2: Cho biến ngẫu nhiên X có phân phối xác suất nhƣ sau: X 1 0 P  1 
Với   (0,1) và (x1, x2,…, xn) là mẫu cỡ n của X. Hãy tìm ƣớc lƣợng hợp lý cực đại cho  . Giải:
Từ bảng phân phối trên ta rút ra hàm mật độ cho biến ngẫu nhiên X là: x 1
f ( x , )  (1     ) x i i i 82 Với xi = 0 hoặc xi = 1.
Ta có hàm hợp lý cực đại của  là: () ln  x 1  (1 ) x   x 1 1 1 2  2
 (1 ) x ... x 1 n
 (1 ) xn         n
 ()   ln  x 1  (1) x i i i 1 Xét:  xi 1
ln  (1 )  xi   x ln  (1 x )ln(1 ) i i  l  n f (x , i   )  x (1 x ) i i i x          1  (1 )
Ƣớc lƣợng hợp lý cực đại cho  là nghiệm của phƣơng trình: n   x d () x   1 i n n i   i k 1  0    0 
x n  0   i     d  i1 (1  ) (1 ) i1  n n
Trong đó, k là số lần xi = 1 (i =1,.., n) trong số n giá trị (x1, x2, …, xn).
4.2. Ƣớc lƣợng khoảng
Các phƣơng pháp ƣớc lƣợng điểm nói trên có nhƣợc điểm là khi kích thƣớc
mẫu bé thì ƣớc lƣợng điểm có thể sai lệch rất nhiều so với giá trị của tham số
cần ƣớc lƣợng. Mặt khác phƣơng pháp trên cũng không thể đánh giá đƣợc khả
năng mắc sai lầm khi ƣớc lƣợng là bao nhiêu. Do đó, khi kích thƣớc mẫu bé
ngƣời ta thƣờng dùng phƣơng pháp ƣớc lƣợng khoảng tin cậy .  Độ tin cậy là gì?
Khi ta ƣớc lƣợng cho tham số X thuộc khoảng nào đó thì xác suất để X
thuộc khoảng giá trị ấy đƣợc gọi là độ tin cy.
Nghĩa là từ mẫu ngẫu nhiên tìm khoảng (a, b) chứa tham số  với xác suất
 đủ lớn cho trƣớc (  đƣợc gọi là độ tin cậy).
Khái niệm về khoảng tin cậy: Cho mẫu ngẫu nhiên (x1, x2,…,xn) về X.
Khoảng (a; b) có hai đầu mút là hai thống kê a = a(x1, x2,…, xn) và b = b(x1, x  nếu:
2,…, xn) gọi là khoảng tin cậy của tham số  với độ tin cậy
P(a    b)  
Trong thực tế, thƣờng yêu cầu độ tin cậy  khá lớn, khi đó theo nguyên lý xác
suất lớn thì biến cố { a    b} hầu nhƣ chắc chắn sẽ xảy ra trong một phép thử. 83 b a Khi đó  
đƣợc gọi là độ chính xác của ƣớc lƣợng. 2
Nhƣ vậy, với cùng một độ tin cậy thì khoảng tin cậy càng hẹp thì ƣớc lƣợng càng chính xác.
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn
Giả sử biến ngẫu nhiên X có phân phối chuẩn 2
N (, ) nhƣng chƣa biết tham
số µ của nó. Từ tổng thể rút ra một mẫu ngẫu nhiên X = (x ,
1 x2,…, xn) kích thƣớc n.
Ta cần ƣớc lƣợng khoảng cho µ với độ tin cậy  trong các trƣờng hợp sau.
4.2.1.1. Trường hợp phương sai 2  đã biết
Theo định nghĩa của ƣớc lƣợng khoảng, ta cần tìm  sao cho:
P X     X     hay P X     2   
Theo giả thiết X ~ N  ;  
áp dụng công thức tính xác suất theo phân n    phối chuẩn ta có:          n P X  2  1         n    1 Suy ra    .  2   Đặt  n   u   / 2  u/2 .  n      Trong đó u 1 1 1
α/2 đƣợc tìm từ điều kiện  u     /2  1 . 2 2 2
Nhƣ vậy, khoảng tin cậy của tham số a với độ tin cậy  có dạng:
X ; X  
Trong đó, độ chính xác của ƣớc lƣợng là   u , với u /2   1  ; và  n /2 
đƣợc tìm từ điều kiện (  u   /2 ) 1 . 2   
Kết luận, khoảng ƣớc lƣợng của 
µ là: X u   / 2 ; X u /2 .  n n  84
 Một số giá trị u/2 thƣờng gặp:
  90%   0,1 (u    /2 ) 0,95 u /2 1,64  
  95%   0,05 (u    /2 ) 0,975 u /2 1,96  
  98%   0,02 (u    /2 ) 0,99 u /2 2,32  
  99%   0,01 (u    /2 ) 0,995 u /2 2,57  
Ví dụ 1: Chiều cao của một loại gỗ quý là một biến ngẫu nhiên X phân bố
theo quy luật chuẩn với độ lệch tiêu chuẩn 1 cm. Đo thử 25 cây loại này ta tính
đƣợc chiều cao trung bình là X  196,4 cm.
Với độ tin cậy 95%, hãy tìm khoảng tin cậy của chiều cao trung bình của loại cây trên. Giải:
Gọi X là biến ngẫu nhiên về chiều cao của loại gỗ quý. Theo giả thiết X có
phân phối chuẩn với   1. 
Từ mẫu đã cho ta đã có: X 196,4 (  u      /2 ) 1 0,975 u/2 1,96. 2  1
Độ chính xác của ƣớc lƣợng là:   u   /2 1,96. 0,392. n 25
Vậy ta có khoảng ƣớc lƣợng của chiều cao trung bình a là:      1 1  X u X u       /2 ; /2 196,4 1,96. ; 196, 4 1,96. 197,008; 196,  792 n n       25 25 
4.2.1.2. Trường hợp phương sai 2
 chưa biết
Trong nhiều bài toán thực tế, ta không biết trƣớc phƣơng sai 2  của biến
ngẫu nhiên gốc X của tổng thể. Ta có thể dùng phƣơng sai mẫu S2 (tính toán
đƣợc từ mẫu) để thay thế phƣơng sai 2
 (Vì S2 là ƣớc lƣợng vững không chệch của 2  ). X  
Biến ngẫu nhiên T
có phân phối Student với (n-1) bậc tự do. Theo S / n
phân phối Student, ta tìm đƣợc t  /2(n 1) thỏa mãn:
P | T | t         /2 (n 1) 
P | T | t/2(n 1) 85
Khoảng ƣớc lƣợng cho kỳ vọng a là:  S S X t (n 1  ) ; X t (n 1  )   /2  /2   n n S
với độ chính xác   t n   /2( 1) . n
Trong đó tα/2(n-1) tra từ bảng phân phối Student với (n-1) bậc tự do, mức ý nghĩa /2.
Chú ý: Khi cỡ mẫu n > 30, phân phối Student tiệm cận phân phối chuẩn
nên có thể sử dụng ut n /2 thay cho   /2( 1).
Ví dụ 2: Năng suất của một loại giống mới là biến ngẫu nhiên X có phân phối chuẩn 2
N ( , ). Tiến hành gieo thử hạt giống mới này tại 16 vƣờn thí
nghiệm và thu đƣợc kết quả nhƣ sau: 19,2
18,7 22,4 20,3 16,8 25,1 17,0 15,8 21,0
18,6 23,7 24,1 23,4 19,8 21,7 18,9
Với độ tin cậy 95%. Hãy tìm khoảng tin cậy cho năng suất trung bình của loại giống trên. Giải:
Từ mẫu đã cho ta tính đƣợc: X  20,406 và S = 3,038.
Tra bảng phân phối Student ta đƣợc t0,025(15) = 2,13.
Ta có khoảng ƣớc lƣợng của năng suất trung bình a là:  S S X t n X t n   /2( 1) ;  /2( 1  )   n n   3,038 3, 038   20,406  2,13. ; 20, 406  2,13.    18,79; 20,02   16 16 
Ví dụ 3: Chiều cao của cây con tại một vƣờn ƣơm là một biến ngẫu nhiên X có phân phối chuẩn 2
N (, ) . Ngƣời ta tiến hành đo ngẫu nhiên 200 cây con
tại vƣờn và thu đƣợc kết quả sau: Chiều cao 19,7 18,9 20,2 23 22,5 19,5 Số cây con 10 15 35 75 55 10 86
Dựa vào kết quả này hãy tìm khoảng ƣớc lƣợng cho chiều cao trung bình?
Với mức ý nghĩa   0,05 . Giải:
Từ mẫu trên, ta tính đƣợc:
X  21,725 và S = 2,244
Vì cỡ mẫu n = 200 nên ta có thể sử dụng ut n /2 thay cho   /2( 1)  u   = 0,975 => u =1,96 / 2  1 / 2 /2
Vậy khoảng ƣớc lƣợng cần tìm là:  S S   2,244 2,244  X u X u      /2 ;  /2 21,725 1,96. ; 21, 725 1,96. n n       200 200    21, 414; 22, 036
Bảng tóm tắt các công thức cần nhớ:
Độ chính xác
Khoảng tin cậy      2  đã biết   u   /2 X u ; X u   n  /2  /2  n n  2  chưa biết và n S    S S t n        /2( 1) X t (n 1) ; X t (n 1)   / 2  /2   30 nn n  2  chưa biết và n S    S S u     /2 X u   /2 ; X u /2  > 30 nn n
4.2.2. Khoảng tin cậy cho xác suất
Giả sử trong một tổng thể, mỗi cá thể mang hoặc không mang dấu hiệu A
nào đó. Gọi p (chƣa biết) là tỷ lệ cá thể có dấu hiệu A trong tổng thể. Lấy một
mẫu quan sát ngẫu nhiên cỡ n từ tổng thể.
Bài toán đặt ra là căn cứ trên các giá trị thu đƣợc từ mẫu, hãy ƣớc lƣợng giá trị của p.
Gọi X là số cá thể có dấu hiệu A trong mẫu. Ta có ƣớc lƣợng không chệch X
cho p là tần suất f  . n pq
Khi n lớn thì f có phân phối xấp xỉ phân phối chuẩn N (p,
) với q  1 p . n 87
p chƣa biết nên phƣơng sai D(f) cũng chƣa biết.
Mặt khác, tần suất mẫu f là ƣớc lƣợng vững, không chệch và hiệu quả cho
tần suất p của tổng thể nên với n đủ lớn, thỏa mãn điều kiện nf>10n(1-f)>10 p p f f ta có thể xấp xỉ (1 ) (1 ) D( f )   . n n
Gọi  là độ chính xác của ƣớc lƣợng.     
Khi đó: P f p    2   1
f (1 f )   n        Để 
P f p       2   1 
f (1 f )     n   ff Đặt (1 ) u     u  /2  /2 f (1  f ) n n     Với u 1 1
/2 đƣợc xác định từ điều kiện       (u/2 ) 1 1 2 2 2
Từ đó ta có khoảng tin cậy cho tỷ lệ là:     
f   f    f (1 f ) f (1 f ) ;  f u   /2 ; f u/2  n n  
Ví dụ 4: Trong đợt vận động bầu cử tổng thống ở một nƣớc, ngƣời ta
phỏng vấn ngẫu nhiên 1600 cử tri và thấy trong số đó có 960 ngƣời sẽ bỏ phiếu
cho ứng cử viên A. Với độ tin cậy 99%, hãy ƣớc lƣợng khoảng tin cậy cho tỷ lệ
số phiếu bầu cho ứng cử viên A? Giải:
Gọi p là tỷ lệ số phiếu sẽ bầu cho ứng cử viên A.
Với mẫu cụ thể cho ở trên, ta có : 960 f   0,6 1600
Kiểm tra điều kiện nf = 960 >10n(1-f) = 640 >10 thấy thỏa mãn:  1   1   (u         /2 ) 1 1 0,995 u/2 1,96 2 2 2 88
Vậy độ chính xác của ƣớc lƣợng là: f (1 f ) 0,6.0, 4   u   /2 1,96 0, 024 n 1600
Vậy khoảng tin cậy cho tỷ lệ là (0,6  0,024; 0,6  0,024) tức là (0,576; 0,624).
4.2.3. Khoảng tin cậy cho phương sai Bài toán: Giả sử 2
X N ( , ). Lấy đƣợc mẫu kích thƣớc n về X. Cho trƣớc độ tin cậy  .
Cần ƣớc lƣợng khoảng cho 2  .
Giải pháp: Từ mẫu thu đƣợc, ta tính đƣợc phƣơng sai mẫu S2 và đại lƣợng n   2 2 1 S  
có phân phối khi bình phƣơng với n – 1 bậc tự do. 2 
Nhƣ vậy, với độ tin cậy  đã cho, ta tìm đƣợc hai giá trị 2   1 và 2 2 thỏa mãn:   
P       n  2 2 2 2 2 1 S 2           1 2 P 1 2  2      n  2 1 Sn  2 S    2 1  P       2 2    2 1   n  2 1 Sn  2 
Vậy khoảng ƣớc lƣợng cho 2  với độ tin cậy 1 S  là:  ;   . 2 2     2 1  Trong đó hai giá trị 2   1 và 2
2 tìm đƣợc bằng cách tra bảng phân phối khi
bình phƣơng với n-1 bậc tự do từ điều kiện:   P  2 2 1     2  2     P  2 2     1   P  2 2 1   1  1   2 2
Ví dụ 5: Kích thƣớc của một chi tiết máy là một biến ngẫu nhiên có phân
bố chuẩn. Trong một mẫu gồm 30 chi tiết đƣợc kiểm tra ta tính đƣợc X = 0,47;
S = 0,032. Tìm khoảng tin cậy 95% cho phƣ n
ơ g sai của kích thƣớc toàn bộ các chi tiết máy. Giải:
Tra bảng phân phối khi bình phƣ n ơ g với 29 bậc tự do: 89 2 2     0,975 (29) 16,047; 0,25(29) 45, 722
Khoảng ƣớc lƣợng cho phƣơng sai: 2 2  29.0,032 29.0,032   ;   45,722 16,047   
4.3. Bài toán xác định cỡ mẫu
Với độ tin cậy  cho trƣớc, ta thấy kích thƣớc mẫu càng lớn thì khoảng tin
cậy càng hẹp. Tuy nhiên, kích thƣớc mẫu càng lớn thì càng mất nhiều thời gian
và công sức. Bài toán đặt ra là cần chọn kích thƣớc mẫu tối thiểu là bao nhiêu để
đạt đƣợc độ chính xác mong muốn.
4.3.1. Trường hợp ước lượng cho giá trị trung bình
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện: 2    u
   n u   /2   /2 n     Hay: 2 SS u     /2 n u   /2 n    
Chú ý: Trong công thức thứ hai, ngƣời ta thƣờng lấy sơ bộ một mẫu có
kích thƣớc khoảng 30 để ƣớc lƣợng cho phƣơng sai. Vì vậy, cỡ mẫu tối thiểu sử
dụng đƣợc khi kết quả n > 30.
Ví dụ 6: Ngƣời ta muốn xây dựng khoảng tin cậy 95% với độ chính xác là
2 (dặm) cho vận tốc trung bình của ô tô trên đƣờng cao tốc. Một mẫu điều tra sơ
bộ cho ta S = 9. Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu? Giải:
α = 1 – 0,95 = 0,05  u(0,025) = 1,96.
Cỡ mẫu n thỏa mãn điều kiện: 2  9  n  1,96  77,79  2  
Nhƣ vậy, cần phải lấy mẫu với kích thƣớc tối thiểu là 78.
4.3.2. Trường hợp ước lượng cho tỷ lệ
Cỡ mẫu tối thiểu n là số nguyên nhỏ nhất thỏa mãn điều kiện: 90 2 f (1 f ) u/2    un f f  /2 (1 ) n     
với f là ƣớc lƣợng điểm cho p. Hoặc nếu f chƣa biết, ta sử dụng bất đẳng thức: 2 f (1 f ) 1 u/2    n n 2  2   
Chú ý: Nếu p gần 0,5 thì hai phƣơng pháp cho kết quả gần nhƣ nhau. Nếu
p gần 0 hoặc 1 thì hai phƣơng pháp cho kết quả rất khác nhau. Nên sử dụng theo cách thứ nhất.
Ví dụ 7: Một nhà nông học muốn ƣớc lƣợng tỷ lệ nảy mầm của một loại
hạt giống với độ tin cậy 99%, sai số không quá 0,02.
a) Hỏi cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu?
b) Nếu nhà nông học đó lấy mẫu với kích thƣớc 1000, thấy có 640 hạt nảy
mầm. Hỏi với yêu cầu nhƣ trên thì cần phải lấy mẫu với kích thƣớc tối thiểu là bao nhiêu? Giải:
a) α = 1 – 0,99 = 0,01  u0,005 = 2,38. 2 2 u  /2   2,58  n     4160,25   2     2.0,02 640 b) f   0,64 1000 2 2 u  /2   2,58  n f (1  f )  0,64.0,36  3834,08        0,02  BÀI TẬP
Bài 1: Điều tra 200 mảnh ruộng, mỗi mảnh 4 m2 ta đƣợc: Sản lƣợng (kg) 1,02 1,08 1,14 1,20 1,26 1,32 Số mảnh 10 15 35 75 55 10
a) Hãy tính năng suất trung bình (tạ/ha).
b) Ƣớc lƣợng khoảng tin cậy của năng suất toàn vùng với độ tin cậy 95%. 91
Giả thiết sản lƣợng là biến ngẫu nhiên có phân phối chuẩn.
Bài 2: Các kết quả đo độ dài một đoạn thẳng (theo m) không chứa sai số hệ
thống đƣợc cho trong bảng: Kết quả 114 115 116 117 118 Số lần đo 2 5 8 4 3 Với độ tin cậy 95%.
a) Hãy tìm khoảng tin cậy của độ dài đoạn thẳng cần đo.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,3 thì cần phải đo ít
nhất bao nhiêu đoạn thẳng?
Bài 3: Hãy ƣớc lƣợng kỳ vọng và phƣơng sai của một tổng thể có quy luật
phân phối chuẩn với độ tin cậy 98% dựa theo kết quả của mẫu: 3,1 3,3 2,9 3,0 3,2 2,8 2,7 3,2 3,2 2,9 3,0 2,9 3,1 2,8 2,9 3,1 3,3 2,9 3,1 3,2 3,0 3,1
Bài 4: Để xác định tỷ lệ phế phẩm trong một lô sản phẩm ngƣời ta rút ra
một mẫu gồm 500 sản phẩm đem kiểm tra và thấy có 50 phế phẩm. Hãy ƣớc
lƣợng tỷ lệ phế phẩm trong lô với độ tin cậy  = 99%.
Bài 5: Trên cơ sở 100 lần thực nghiệm, ngƣời ta thấy rằng thời gian trung
bình để sản xuất 1 chi tiết máy là 5,5 giây và sai tiêu chuẩn là 1,7 giây. Giả sử
thời gian để sản xuất xong 1 chi tiết máy là biến ngẫu nhiên có phân phối chuẩn 2
N (, ). Hãy tìm khoảng tin cậy của  và 2
 với độ tin cậy 90%.
Bài 6: Điều tra ngẫu nhiên 180 ngƣời ta thấy có 162 ngƣời hoàn thành định
mức công việc. Với độ tin cậy 95%.
a) Hãy ƣớc lƣợng tỷ lệ hoàn thành định mức chung của toàn nhà máy.
b) Nếu muốn ƣớc lƣợng với độ chính xác không quá 0,03 thì cần phải điều
tra ít nhất bao nhiêu ngƣời?
Bài 7: Một phƣơng pháp điều trị mới đang đƣợc xem xét để đánh giá tính
hiệu quả của nó. Một chỉ tiêu đánh giá là số ngày trung bình  từ lúc điều trị
cho đến lúc bệnh nhân khỏi bệnh. Một mẫu ngẫu nhiên gồm 11 bệnh nhân đƣợc
theo dõi và đánh số ngày điều trị cho tới khi khỏi bệnh đƣợc ghi lại nhƣ sau: 4 4 3 8 5 6 7 12 5 3 8 92
Tìm khoảng tin cậy 95% cho số ngày trung bình  .
Bài 8: Tìm các khoảng tin cậy 90%, 95% và 98% cho giá trị trung bình dựa trên các mẫu sau:
a) n  100, X  250, S  80.
b) n  64, X  250, S  80.
Bài 9: Một công ty lớn muốn ƣớc lƣợng trung bình một ngày một thƣ ký
phải đánh máy bao nhiêu trang giấy. Một mẫu gồm 50 thƣ ký đƣợc chọn ngẫu
nhiên cho thấy số trang trung bình mà họ đánh máy là 32 với độ lệch tiêu chuẩn
là 6. Tìm khoảng tin cậy 99% cho số trang trung bình mà một thƣ ký của công ty
đánh máy trong một ngày.
Bài 10: Một nhà sƣu tập tem khảo giá chiếc tem A trong 9 cửa hàng thì thấy
giá trung bình là 17 (nghìn đồng) với độ lệch tiêu chuẩn là 3 (nghìn đồng). Tìm
khoảng tin cậy 90% cho giá của chiếc tem này trong tất cả các cửa hàng bán tem.
Bài 11: Cơ quan cảnh sát giao thông kiểm tra hệ thống phanh của 40 chiếc
xe tải trên quốc lộ. Họ phát hiện 14 xe tải có phanh chƣa đảm bảo an toàn.
a) Tìm khoảng tin cậy 95% cho tỷ lệ xe tải có phanh chƣa đảm bảo an toàn.
b) Tìm khoảng tin cậy 98% cho tỷ lệ xe tải có phanh đảm bảo an toàn.
Bài 12: Từ một tập hợp chính có quy luật chuẩn N(µ; 2) kết quả lấy mẫu n = 10 thu đƣợc nhƣ sau: 51 48 56 57 44 52 54 60 46 47
Tìm khoảng tin cậy cho µ và 2 với độ tin cậy 90%. 93 Chƣơng 5
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
5.1. Đặt vấn đề
Trong các hoạt động thực tiễn, ta thƣờng đặt ra và giải quyết nhiều bài toán
mà ta sẽ gọi là bài toán kiểm định giải thuyết. Sau đây là một số ví dụ.
Trên truyền thông, ta bắt gặp nhiều tuyên bố của các nhà quản lí. Chẳng
hạn, một trƣờng đại học tuyên bố tỉ lệ sinh viên có việc làm đúng ngành đƣợc
đào tạo của trƣờng này sau khi tốt nghiệp là trên 80%. Một ngƣời nghi ngờ
thông tin trên và muốn kiểm chứng lại khẳng định đó. Câu hỏi là phƣơng pháp
nào giải quyết đƣợc vấn đề trên?
Trong nông nghiệp, khi đƣa vào trồng thử nghiệm một giống lúa mới trên
một địa phƣơng. Biết rằng năng suất trung bình sau khi thu hoạch của giống lúa
mới trên các thửa ruộng đƣợc trồng thử nghiệm là 6,0 tấn/ha. Năng suất lúa
trung bình của giống lúa truyền thống là 5,5 tấn/ha. Câu hỏi đặt ra là năng suất
trung bình của giống lúa mới có cao hơn giống lúa truyền thống hay không? Từ
thông tin thu đƣợc (từ mẫu), có phƣơng pháp nào trả lời câu hỏi trên không và
nếu có thì cách thức giải quyết nhƣ thế nào?
Trong lâm nghiệp, ngƣời ta nhận thấy rằng sinh trƣởng của cây rừng có vẻ
nhƣ chịu ảnh hƣởng của yếu tố vị trí cây mọc (đƣợc trồng). Giả sử, ta xét trên một
quả đồi và ta chia vị trí mà cây mọc (đƣợc trồng) thành ba mức: chân đồi, sƣờn
đồi và đỉnh đồi. Sinh trƣởng của cây đƣợc xếp hạng: sinh trƣởng kém, sinh trƣởng
trung bình và sinh trƣởng tốt. Có thể có một số câu hỏi đƣợc đặt ra nhƣ sau:
Câu hỏi 1: Có ảnh hƣởng thực sự của yếu tố vị trí đối với sinh trƣởng của cây hay không?
Câu hỏi 2: Có sự khác biệt nào về sinh trƣởng khi vị trí cây ở các mức khác
nhau không? Nói nôm na, khi các điều kiện khác xấp xỉ nhau thì cây mọc hoặc
đƣợc trồng ở các vị trí đỉnh đồi, sƣờn đồi và chân đồi sinh trƣởng nói chung của nó có khác biệt không?
Phƣơng pháp thống kê giúp ta trả lời một cách “hợp lí” các câu hỏi ở dạng
trên từ dữ liệu có đƣợc. Khi đó, các yếu tố mà thực tế đang quan tâm đƣợc xét
nhƣ là các biến ngẫu nhiên với phân phối, tham số chƣa biết.
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết 94
Cho X là một biến ngẫu nhiên có phân phối là mẫu về X.
Định nghĩa 1: Giả thuyết là một khẳng định về phân phối hay về tham số
chƣa biết của biến ngẫu nhiên, thông thƣờng ta kí hiệu là H hoặc .
Định nghĩa 2: Đối thuyết là khẳng định về phân phối hay tham số của biến
ngẫu nhiên nhƣng trái ngƣợc với giả thuyết đƣợc nêu, kí hiệu là K hoặc . Ví dụ 1:
Giả thuyết H: Biến ngẫu nhiên X có phân phối chuẩn tắc.
Đối thuyết K: Biến ngẫu nhiên X không có phân phối chuẩn tắc.
Đây là giả thuyết đặt ra đối với phân phối chƣa biết của biến, tức là ta đang
ngờ rằng biến có phân phối chuẩn tắc.
Ví d 2: Giả sử , biến X có phân phối chuẩn và phƣơng sai
đã biết, kì vọng là tham số chƣa biết. Ta có thể đặt ra các giả
thuyết và đối thuyết tƣơng ứng với nhƣ sau: Giả thuyết : Đối thuyết
Đối thuyết có thể đƣợc thay bằng các đối thuyết hoặc .
Bài toán đặt ra nhƣ sau: Ta quan tâm tới biến ngẫu nhiên X có phân phối
chƣa biết. Có hai khẳng định trái ngƣợc nhau về biến X là giả thuyết và đối
thuyết. Với dữ liệu thu đƣợc về X (mẫu ngẫu nhiên), ta phải quyết định lựa chọn
một trong hai khẳng định đó theo một cách “hợp lí nhất”.
Phƣơng pháp chung giải bài toán kiểm định giả thuyết:
Để giải bài toán kiểm định giả thuyết, ngƣời ta làm nhƣ sau:
Dựa trên mẫu ngẫu nhiên thu đƣợc về X, ngƣời ta xây dựng
tiêu chuẩn kiểm định (test thống kê) T là hàm của mẫu, tức là .
Nói đơn giản, tiêu chuẩn T đo sự sai khác giữa giả thuyết đặt ra và thực tế quan sát đƣợc về X.
Ta sẽ đƣa ra quyết định chấp nhận hay bác bỏ giả thuyết dựa vào tiêu chuẩn
T một cách “hợp lí”. Thông thƣờng, nếu có sự khác biệt lớn hay T nhận giá trị
lớn ta sẽ bác bỏ giả thuyết. Nếu T nhận giá trị nhỏ thì ta sẽ chấp nhận giả thuyết,
tức là, sự sai khác không đáng kể (sai do yếu tố ngẫu nhiên - lấy mẫu).
Vì ta không có toàn bộ thông tin về biến X nên quyết định mà ta đƣa ra dựa 95
trên tiêu chuẩn T hoàn toàn có thể dẫn tới sai lầm. Có hai sai lầm có thể mắc phải nhƣ sau:
a) Sai lầm loại 1: Giả thuyết sai nhƣng ta lại chấp nhận nó.
b) Sai lầm loại 2: Giả thuyết đúng nhƣng ta lại bác bỏ nó.
Một cách tự nhiên, ta cố gắng tìm một tiêu chuẩn sao cho khi đƣa ra quyết
định dựa trên nó thì khả năng mắc hai sai lầm trên là nhỏ nhất. Tuy nhiên, ngƣời
ta chứng minh đƣợc rằng một tiêu chuẩn nhƣ vậy là không tồn tại. Trong tình
huống này, ngƣời ta xử lí nhƣ sau:
Ta khống chế xác suất mắc sai lầm loại 1 nhỏ hơn mt mc đã ấn định
trước (thường nhỏ) và tìm một tiêu chuẩn cực tiểu xác suất mắc sai lầm loại 2.
May mắn thay, một tiêu chuẩn nhƣ vậy luôn tồn tại.
Nguyên tắc đƣa ra quyết định: Ngƣời ta đƣa ra quyết định dựa trên
“nguyên lí xác suất nhỏ”.
Nguyên lí xác suất nhỏ: Nếu một biến cố có xác suất nhỏ thì nó sẽ không
xảy ra trong một hoặc một vài lần thực hiện phép thử.
Đến đây, bài toán kiểm định giả thuyết đƣợc giải quyết bằng phƣơng pháp phản chứng nhƣ sau:
Giả sử, giả thuyết đặt ra là đúng, khi ấy tiêu chuẩn T có một phân phối hoàn
toàn xác định. Dựa vào phân phối này, ta tìm một miền S thỏa mãn
| . Miền S đƣợc gọi là miền tiêu chuẩn hay miền bác bỏ giả thuyết.
Từ dữ liệu thực tế có đƣợc, ta tính ra giá trị của T và đối chiếu giá trị của T
với miền tiêu chuẩn. Nếu thì ta sẽ bác bỏ giả thuyết. Nếu ngƣợc lại, ta
chấp nhận giả thuyết. Đó là lời giải của bài toán kiểm định giả thuyết.
Cơ sở của quyết định trên đƣợc giải thích: Nếu giả thuyết là đúng đắn thì S
là miền có xác suất nhỏ (vì đƣợc chọn nhỏ). Do đó, biến cố có xác suất
nhỏ. Một biến cố có xác suất nhỏ phải không xảy ra trong một hoặc một vài lần
lấy mẫu mới là hợp lí. Do đó, nếu trong lần đầu lấy mẫu, ta thấy rằng T rơi vào
miền S, điều này mâu thuẫn với nguyên lí xác suất nhỏ và quyết định ta đƣa ra là
bác bỏ giả thuyết. Khả năng phạm sai lầm loại 1 khi chọn quyết định này nhỏ hơn hoặc bằng . Chú ý: 96
Phƣơng pháp giải trên đƣợc gọi là phƣơng pháp kiểm định truyền thống.
Một phƣơng pháp khác thƣờng đƣợc dùng trong các phần mềm thống kê là
phƣơng pháp P - value (P - giá trị).
Tiêu chuẩn T là một biến ngẫu nhiên. Ta đƣa ra quyết định dựa trên T hay
chính dựa trên mẫu (những bằng chứng thu thập đƣợc). Nếu hai mẫu khác nhau
có thể dẫn tới hai quyết định trái ngƣợc nhau. Xác suất m c
ắ sai lầm loại 1 đƣợc ƣu tiên khống chế vì ngƣời ta cho rằng sai
lầm này nghiêm trọng hơn nếu phạm phải.
Xác suất mắc sai lầm loại 2 chƣa đƣợc xác định. Do vậy, quyết định bác bỏ
giả thuyết nói chung “an toàn” hơn quyết định chấp nhận giả thuyết vì nhỏ và đã biết.
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng
Cho X là biến ngẫu nhiên và là mẫu ngẫu nhiên thu đƣợc về biến X.
Bài toán kiểm định: Với mức cho trƣớc, kiểm định các giả thuyết sau:
Bài toán 1: Giả thuyết / Đối thuyết .
Bài toán 2: Giả thuyết / Đối thuyết .
Bài toán 3: Giả thuyết / Đối thuyết .
Bài toán 1 đƣợc gọi là bài toán kiểm định hai phía, bài toán 2 và bài toán 3
đƣợc gọi là bài toán kiểm định một phía.
Ta giải các bài toán trên trong ba trƣờng hợp sau:
Trƣờng hp 1: và đã biết, là tham số chƣa biết.
Lời giải bài toán 1: { Tiêu chuẩn kiểm định: √
Giả sử, đúng, tức là . Ngƣời ta chứng minh đƣợc rằng tiêu
chuẩn T có phân phối chuẩn tắc.
Với cho trƣớc, ta tìm một số thỏa mãn (| | ) . Ta có: 97 (| | ) (| | ) ( )
Vì tiêu chuẩn U có phân phối chuẩn tắc nên: ( ) ( ) ( ) ( ) Do đó, ta có ( )
. Từ đây, tra bảng phân phối chuẩn tắc ta sẽ
tìm đƣợc giá trị cụ thể của .
Đặt {| | }. Đây chính là miền có xác suất nhỏ hơn hoặc bằng .
Nhƣ vậy, với việc xác định đƣợc phân phối của U và mức ý nghĩa cho
trƣớc, ta luôn xác định đƣợc miền tiêu chuẩn hay bác bỏ giả thuyết.
Từ mẫu ngẫu nhiên thu đƣợc về biến X, tính giá trị của tiêu chuẩn U. Sau đó, ta so sánh | | với .
Kết luận: Nếu | | thì ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận giả thuyết.
Ví dụ 1: Một ngƣời khẳng định năng suất trung bình của giống lúa A là 6,0
tấn/ha. Tuy nhiên, khi trồng loại lúa này trên 100 thửa ruộng thì thấy rằng năng
suất trung bình 6,5 tấn/ha. Giả sử, năng suất lúa A có phân phối chuẩn với
phƣơng sai là 4. Với mức ý nghĩa 5%, khẳng định đƣa ra có đáng tin không?
Giải:
Gọi X là năng suất của lúa A. Theo giả thiết, .
Bài toán đặt ra: với mức ý nghĩa , kiểm định giả thuyết: {
Với , tra ngƣợc bảng phân phối chuẩn tắc tại mức 0,975 ta tìm đƣợc giá trị .
Từ mẫu và giả thiết, ta có . Do đó, giá trị của tiêu chuẩn kiểm định là: √ √
Ta có | | . Nhƣ vậy, mẫu điều tra đƣợc rơi vào miền bác bỏ
giả thuyết. Kết luận đƣa ra là bác bỏ giả thuyết, tức là năng suất trung bình của
lúa A khác 6,0 tấn/ha hay khẳng định đƣa ra chƣa hợp lí.
Lời giải bài toán 2: 98
Với cách làm hoàn toàn tƣơng tự, bài toán 2 đƣợc giải nhƣ sau: Tiêu chuẩn kiểm định: √
Với mức cho trƣớc, ta tìm một số thỏa mãn: .
Nếu giả thuyết đúng ngƣời ta chứng minh đƣợc tiêu chuẩn U có phân phối
chuẩn tắc. Do đó, ta có:
Mặt khác, . Tra bảng phân phối chuẩn tắc ta
nhận đƣợc giá trị của .
Đặt đây chính là miền bác bỏ giả thuyết của bài toán 2.
Từ mẫu quan sát đƣợc, tính giá trị của tiêu chuẩn U.
Kết luận: Nếu giá trị của tiêu chuẩn U rơi vào miền ta sẽ bác bỏ .
Nếu ngƣợc lại, ta chấp nhận nó.
Ví dụ 2: Tiêu chuẩn khai thác gỗ keo Tai Tƣợng của một nhà máy là đƣờng
kính 1m30 phải từ 30 cm trở lên. Tại một lâm trƣờng trồng loại keo này, khi đo
đƣờng kính 1m30 của 50 cây thì đƣờng kính trung bình là 32 cm. Giả sử, đƣờng
kính có phân phối chuẩn với phƣơng sai là 25 cm. Loại keo của lâm trƣờng này
đã đạt tiêu chuẩn khai thác chƣa, với mức 10%?
Giải:
Gọi X là đƣờng kính cây keo. Ta có . Bài toán đặt ra: { Tiêu chuẩn kiểm định: √ Với , ta có .
Với mẫu thu đƣợc, giá trị của tiêu chuẩn kiểm định là: √ √ Kết luận: 99
Vì nên ta bác bỏ giả thuyết, tức là đƣờng kính trung bình
của cây keo Tai Tƣợng tại lâm trƣờng đƣợc khảo sát lớn hơn 30 cm.
Bài toán 3 đƣợc giải quyết tƣơng tự nhƣ Bài toán 1 và Bài toán 2 với cùng tiêu chuẩn kiểm định.
Miền bác bỏ giả thuyết đƣợc xác định nhƣ sau: Ta tìm số thỏa mãn
. Dựa vào phân phối chuẩn tắc của tiêu chuẩn kiểm định miền bác bỏ giả thuyết là:
Trong đó, đƣợc tra từ bảng phân phối chuẩn tắc với mức .
Trƣờng hp 2: là tham số cần kiểm định và chƣa biết, cỡ mẫu nhỏ (n < 30).
Ta vẫn xét ba bài toán kiểm định giả thuyết: Bài toán 1; Bài toán 2 và Bài toán 3 với cùng mức . Lời giải bài toán 1:
Ta phát biểu lại bài toán 1: {
Tiêu chuẩn kiểm định đƣợc sử dụng: √ √
Trong đó, là ƣớc lƣợng không chệch, vững và hiệu quả cho ; là phƣơng sai mẫu.
Ta chứng minh đƣợc rằng khi đúng thì tiêu chuẩn T có phân phối
Student với bậc tự do là n-1. Do vậy, miền bác bỏ giả thuyết đƣợc tìm nhƣ sau:
Với cho trƣớc, ta tìm số thỏa mãn (| | ) .
Vì T có phân phối Student với n-1 bậc tự do nên chính là phân vị mức
của phân phối này. Vậy miền bác bỏ là : { | | }
Trong đó, đƣợc tra ở bảng phân phối Student n-1 bậc tự do và 100 mức .
Từ mẫu quan sát đƣợc, tính hoặc và giá trị của tiêu chuẩn T: √ √ - So sánh | | với .
- Kết luận: Nếu | |
thì ta bác bỏ giả thuyết, ngƣợc lại ta tạm
thời chấp nhận giả thuyết đặt ra.
Ví dụ 3: Nhiệt độ tháng 6 đo đƣợc tại một địa phƣơng ở nhiều điểm quan
trắc khác nhau là: 25; 26; 28; 34; 37; 39; 34; 30; 26; 36; 38; 39 và 35 (thang đo độ
C). Giả sử, nhiệt độ là biến có phân phối chuẩn. Với mức 5% có thể khẳng định
rằng nhiệt độ trung bình trên địa phƣơng này vào tháng 6 là 350C không?
Giải:
Gọi X là nhiệt độ tại địa phƣơng đó. Ta có . Bài toán đặt ra: { Từ mẫu ta tính đƣợc: Và √ √
Tra bảng phân phối Student bậc tự do 12 mức 2,5% Ta đƣợc . Vậy | | .
Ta chấp nhận giả thuyết, tức là, có thể coi nhiệt độ trung bình vào tháng 6
tại địa phƣơng này là 350C. Ở ví dụ này, ta thấy rằng mặc dù trung bình mẫu và
giả thuyết chêch lệch khá lớn 2,10C nhƣng giả thuyết không bị bác bỏ là vì cỡ
mẫu nhỏ và độ lệch mẫu lớn.
Tƣơng tự nhƣ trong trƣờng hợp 1, Bài toán 2 và Bài toán 3 có miền bác bỏ
giả thuyết lần lƣợt là:
Trong đó, đƣợc tra ở bảng phân phối Student n-1 bậc tự do, mức . 101
Trƣờng hợp 3: Cỡ mẫu lớn (n > 30), trong trƣờng hợp này, ta không cần
giả thiết về tính chuẩn của biến.
Trong trƣờng hợp này, ta ƣớc lƣợng phƣơng sai chƣa biết của biến từ mẫu
là Sau đó, thay và giải ba bài toán kiểm định giả thuyết nhƣ trƣờng
hợp 1. Điều này đạt đƣợc vì tiêu chuẩn
√ có phân phối xấp xỉ phân
phối chuẩn tắc khi cỡ mẫu đủ lớn. Ngƣời ta thƣờng chọn cỡ mẫu n > 30 đƣợc
cho là mẫu lớn vì khi cỡ mẫu lớn hơn 30 thì sai số khi xấp xỉ khá nhỏ. Ví dụ:
Ví dụ 4: Chiều cao của một số sinh viên đo đƣợc cho ở bảng sau:
Chiều cao (m) 1,40-1,50 1,50-1,55 1,55-1,60 1,60-1,65 1,65-1,70 1,70-1,80 Số sinh viên 7 25 30 34 18 10
Với mức 5%, có thể khẳng định chiều cao trung bình của sinh viên lớn hơn 1,55 m đƣợc không? Giải:
Gọi X là chiều cao sinh viên. Bài toán kiểm định là: {
Dựa vào mẫu ta tính đƣợc: Và √ √
Với mức , tra bảng phân phối chuẩn tắc, ta đƣợc .
Vì nên ta bác bỏ giả thuyết, tức là chiều cao trung bình
của sinh viên lớn hơn 1,55 m.
5.3.2. Kiểm định cho xác suất hay tỉ lệ
Bài toán: Giả sử, tỉ lệ cá thể mang đặc tính A trong tổng thể đang quan tâm
là p (chƣa biết). Khi quan sát n cá thể trong tổng thể này thì thấy rằng có k cá thể
mang đặc tính A. Từ dữ liệu có đƣợc và với mức ý nghĩa cho trƣớc, hãy kiểm
định các giả thuyết sau:
Bài toán 1: Giả thuyết / đối thuyết .
Bài toán 2: Giả thuyết / đối thuyết . 102
Bài toán 3: Giả thuyết / đối thuyết .
Ở đây ta chỉ giải chi tiết bài toán 1. Bài toán 2 và bài toán 3 giải một cách hoàn toàn tƣơng tự.
Ta xây dựng biến ngẫu nhiên từ phép thử: Đặt {
Khi đó, thông tin thu đƣợc là mẫu . Tần suất bắt gặp cá thể mang đặc tính A là:
Nhƣ vậy, tần suất f là một biến ngẫu nhiên.
Tiêu chuẩn kiểm định đƣợc chọn là: √ √
Ngƣời ta chứng minh đƣợc rằng khi giả thuyết đúng và thì ( √ ) do đó, .
Với mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn (| | ) .
Vì T có phân phối chuẩn tắc nên đƣợc xác định bằng cách tra bảng phân
phối chuẩn tắc tại mức .
Miền bác bỏ giả thuyết là: {| | }
Dựa vào mẫu, ta tính f và tính giá trị của tiêu chuẩn kiểm định U. So sánh | | với .
Kết luận: Nếu | | thì ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Với cách làm tƣơng tự, miền bác bỏ giả thuyết của bài toán 2 và bài toán 3 là:
Ví dụ 1: Một đơn vị cung cấp cây giống khẳng định tỉ lệ cây sống sau khi
trồng trong điều kiện bình thƣờng là 90%. Công ty A mua 500 cây của đơn vị
này trồng và thấy rằng có 430 cây sống. Với mức ý nghĩa 5%, tuyên bố của đơn
vị cung cấp cây giống có đáng tin không?
Giải: 103
Gọi p là tỉ lệ cây sống sau khi trồng. Bài toán đặt ra: { Từ mẫu ta tính đƣợc: Và: √ √
Với mức ý nghĩa 5%, tra bảng phân phối chuẩn tắc ta đƣợc .
Vì | | nên ta bác bỏ giả thuyết, tức là tỉ lệ cây sống không
phải là 90% nhƣ tuyên bố. Ở đây, tần suất bắt gặp cây sống chỉ là 0,86 nên nhiều
khả năng nhà sản xuất đã tuyên bố trội lên chất lƣợng sản phẩm của mình.
5.3.3. Kiểm định cho phương sai
Cho chƣa biết. là một mẫu về X. Với mức
ý nghĩa , hãy kiểm định giả thuyết: Bài toán 1: Giả thuyết / đối thuyết . Bài toán 2: Giả thuyết / đối thuyết . Bài toán 1: Giả thuyết / đối thuyết .
Lời giải toán bài toán 1:
Tiêu chuẩn kiểm định:
Khi đúng ngƣời ta chứng minh đƣợc rằng tiêu chuẩn có phân phối
khi bình phƣơng với n-1 bậc tự do.
Ta sẽ bác bỏ giả thuyết khi tiêu chuẩn nhận giá trị “cách xa” về hai
phía. Với mức ý nghĩa cho trƣớc, ta tìm hai giá trị và thỏa mãn: ( ) ( )
Do tiêu chuẩn có phân phối khi bình phƣơng n - 1 bậc tự do nên 104 và chính là phân vị mức và của phân phối này.
Ta tra đƣợc các giá trị này từ bảng phân phối khi bình phƣơng.
Nhƣ vậy, miền bác bỏ giả thuyết là: { }
Dựa vào mẫu quan sát đƣợc, tính giá trị của .
Kết luận: Nếu giá trị của rơi vào miền thì ta bác bỏ giả thuyết.
Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Bài toán 2 và Bài toán 3 đƣợc giải một cách tƣợng tự bằng việc vẫn dùng tiêu chuẩn đƣợc xác định nhƣ nhƣng miền bác bỏ sau:
Đối với bài toán 2, tìm số sao cho ( ) .
Miền bác bỏ giả thuyết là:
Đối với Bài toán 3, tìm số sao cho ( ) .
Miền bác bỏ giả thuyết là:
Ví dụ 1: Một kĩ sƣ đo đƣờng kính của 25 chi tiết máy và tính đƣợc
Biết rằng nếu độ biến động về đƣờng kính của chi tiết máy lớn hơn
0,2 thì dây truyền này phải điều chỉnh lại. Với mức 5% dây truyền này có phải điều chỉnh lại không?
Giải: Bài toán: { ) Tiêu chuẩn kiểm định:
Tra bảng phân phối khi bình phƣơng 24 bậc tự do với mức 5%, ta có . Nhƣ vậy,
. Do đó, ta bác bỏ giả thuyết , 105
có nghĩa rằng dây truyền này phải đƣợc điều chỉnh lại.
5.4. Bài toán so sánh các tham số
5.4.1. So sánh hai giá trị trung bình
Trong thực tế, ta thƣờng xuyên phải so sánh hai hay nhiều đại lƣợng với
nhau. Trong thống kê, ta cũng có các công cụ giúp giải quyết vấn đề này dựa
trên những bằng chứng thu đƣợc về các đại lƣợng quan tâm.
Bài này sẽ so sánh giá trị trung bình của hai biến ngẫu nhiên dựa trên hai
mẫu độc lập và hai biến đƣợc giả thiết là có phân phối chuẩn hoặc cỡ mẫu lớn.
Cho X và Y là hai biến ngẫu nhiên, và là hai mẫu về X và Y.
Bài toán đặt ra nhƣ sau: Với mức ý nghĩa cho trƣớc, kiểm định giả thuyết sau:
Bài toán 1: Giả thuyết / đối thuyết .
Bài toán 2: Giả thuyết / đối thuyết .
Bài toán 3: Giả thuyết / đối thuyết .
Ta giải ba bài toán trên trong các trƣờng hợp sau:
Trƣờng hp 1: Các biến đƣợc giả thiết có phân phối chuẩn và phƣơng sai đã biết, tức là và với đã biết. Lời giải bài toán 1:
Tiêu chuẩn kiểm định: √
Nếu giả thuyết đúng thì tiêu chuẩn U có phân phối chuẩn tắc.
Với mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn: (| | )
Vì nên tra bảng phân phối chuẩn tắc tại mức , ta tìm
đƣợc giá trị này. Do vậy, miền bác bỏ giả thuyết của bài toán là: {| | }
Dựa vào mẫu, tính và tiêu chuẩn U: √ So sánh | | với . 106
Kết luận: Nếu | | ta bác bỏ giả thuyết . Ngƣợc lại, ta chấp nhận giả thuyết đặt ra.
Một cách tƣợng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trƣờng hợp 2: Các biến đƣợc giả thiết có phân phối chuẩn và phƣơng sai
chƣa biết, cỡ mẫu nhỏ, tức là và với chƣa
biết và n < 30 hoặc m < 30. a) Mặc dù
chưa biết nhưng ta giả thiết chúng bằng nhau. Ta vẫn xét
ba bài toán kiểm định giả thuyết đã nêu Lời giải bài toán 1:
Ta ƣớc lƣợng phƣơng sai chung: Tiêu chuẩn kiểm định: √
Giả sử, giả thuyết đúng, ngƣời ta chứng minh đƣợc rằng tiêu chuẩn T có
phân phối Student với bậc tự do.
Với mức ý nghĩa cho trƣớc, ta tìm số thỏa mãn: (| | )
Vì tiêu chuẩn T có phân phối chuẩn tắc nên là phân vị mức
của phân phối Student với bậc tự do. Miền bác bỏ giả thuyết của bài toán là: {| | } - Dựa vào mẫu, tính
và giá trị tiêu chuẩn T. - So sánh | | với . 107 - Kết luận: Nếu | |
ta bác bỏ giả thuyết. Ngƣợc lại, ta chấp nhận nó.
Một cách tƣơng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trong đó, đƣợc tra ở bảng phân phối Student với bậc tự do mức .
a. Phương sai của hai biến khác nhau, tức là
(đọc thêm)
Ta vẫn xét ba bài toán kiểm định đã nêu.
- Tiêu chuẩn kiểm định: √
Khi giả thuyết đúng, tiêu chuẩn T có phân phối xấp xỉ Student với bậc tự
do đƣợc ƣớc lƣợng là phần nguyên của: ( ) ( ) ( )
Dựa vào phân phối này, ta sẽ đƣa ra đƣợc miền bác bỏ giả thuyết.
Trƣờng hợp 3: Phƣơng sai của biến chƣa biết và mẫu có kích thƣớc lớn
, trong trƣờng hợp này có thể bỏ qua tính chuẩn của biến.
Đối với trƣờng hợp này, ta tìm ƣớc lƣợng không chệch cho phƣơng sai của biến X và
cho phƣơng sai của biến Y. Sau đó, thay bằng và bằng
và giải các bài toàn kiểm định giả thuyết nhƣ trƣờng hợp 1.
Ví dụ 1: Khảo sát chiều cao của 28 cây keo và 29 cây Lát Hoa giống đƣợc
ƣơm trồng với các điều kiện khá giống nhau, ta đƣợc kết quả: Chiều cao trung
bình và phƣơng sai mẫu của các cây keo và cây Lát Hoa lần lƣợt là 0,75 m với
phƣơng sai 0,25 và 0,5 m với phƣơng sai 0,2. Với mức ý nghĩa 5%, có thể nói
rằng chiều cao của cây keo lớn hơn cây Lát Hoa không? Giả thiết, chiều cao cây có phân phối chuẩn. Giải: 108
Gọi X và Y lần lƣợt là chiều cao của cây Keo và cây Lát Hoa. Theo giả thiết: và với chƣa biết. Ta có: Bài toán đặt ra: { Phƣơng sai chung: Tiêu chuẩn kiểm định: √
Tra bảng phân phối Student 55 bậc tự do mức 5%, ta có
Nhƣ vậy, T = 2,08 > nên ta bác bỏ giả thuyết, nghĩa là chiều cao
của cây keo là lớn hơn.
5.4.2. Bài toán so sánh hai tỉ lệ (xác suất)
Giả sử, ta quan tâm tới tỉ lệ cá thể mang đặc tính A nào đó ở hai tổng thể.
Trong tổng thể 1, tỉ lệ cá thể mang đặc tính A là (chƣa biết). Tỉ lệ này ở tổng
thể 2 là (chƣa biết). Khi điều tra cá thể ở tổng thể 1 thấy rằng có cá thể
mang đặc tính A. Điều tra cá thể ở tổng thể 2 có cá thế mang đặc tính A.
Bài toán đặt ra: Với mức cho trƣớc, hãy kiểm định giả thuyết:
Bài toán 1: Giả thuyết / đối thuyết .
Bài toán 2: Giả thuyết / đối thuyết .
Bài toán 3: Giả thuyết / đối thuyết . Lời giải bài toán 1:
- Ta ƣớc lƣợng tần suất chung (tần suất bắt gặp cá thể mang đặc tính A ở cả
tổng thể 1 và tổng thể 2): Tiêu chuẩn kiểm định: √ ( )
Ta chứng minh đƣợc rằng khi giả thuyết đúng và thì 109
tiêu chuẩn T có phân phối chuẩn tắc.
Với mức cho trƣớc, miền bác bỏ giả thuyết là: {| | }
Trong đó, đƣợc xác định bằng cách tra ngƣợc bảng chuẩn tắc tại mức ( ).
- Từ mẫu thu đƣợc, tính và tiêu chuẩn U. - So sánh | | với .
- Kết luận: Nếu | | ta bác bỏ giả thuyết. Nếu ngƣợc lại, ta chấp nhận giả thuyết đó.
Với cách làm tƣợng tự, miền bác bỏ giả thuyết của Bài toán 2 và Bài toán 3 lần lƣợt là:
Trong đó, đƣợc xác định bằng cách tra ngƣợc bảng phân phối chuẩn tắc tại mức .
Ví dụ 1: Khi hỏi 150 sinh viên nam và 200 sinh viên nữ về quan điểm đối
với bộ phim A, ngƣời ta thấy rằng có 50 sinh viên nam và 150 sinh viên nữ thích
bộ phim đó. Với mức ý nghĩa 5%, có thể khẳng định có sự khác biệt về tỉ lệ
thích phim A ở hai nhóm nam và nữ đƣợc không?
Giải:
Gọi lần lƣợt là tỉ lệ thích phim A ở nhóm sinh viên nam và nữ. Bài toán: { Các tần suất: Tiêu chuẩn kiểm định: √ ( ) √
Tra bảng phân phối chuẩn ở mức 0,025 ta có
Vậy | | nên ta bác bỏ , tức là có sự khác biệt rõ ràng về tỉ 110
lệ thích phim A ở hai nhóm nam và nữ.
5.4.3. Bài toán so sánh hai phương sai Cho hai biến ngẫu nhiên và . Hai mẫu ngẫu
nhiên về X và là mẫu về Y.
Với mức ý nghĩa cho trƣớc, kiểm định giả thuyết sau: Bài toán 1: / . Bài toán 2: / . Bài toán 3: / .
Lời giải bài toán 1:
Từ mẫu tìm ƣớc lƣợng không chệch cho là và . Lập tỉ số:
Khi giả thuyết H0 đúng thì F có phân phối Fisher với bậc tự do.
Miền bác bỏ giả thuyết của bài toán này là: { } ( ) ( )
Bài toán 2 và Bài toán 3 đƣợc giải tƣơng tự với miền bác bỏ giả thuyết lần lƣợt là: { } { }
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu)
Trong thực tế, ta thƣờng nghiên cứu nhiều biến ngẫu nhiên đồng thời. Việc
phát hiện ra các biến có mối quan hệ với nhau hay không là một vấn đề rất quan
trọng. Trong bài này, ta sẽ trình bày cách thức giải quyết vấn đề trên với hai dấu
hiệu (biến ngẫu nhiên) có thể là dấu hiệu định lƣợng hay định tính.
Xét hai dấu hiệu A và B. Dấu hiệu A đƣợc chia thành r mức .
Dấu hiệu B đƣợc chia thành k mức .
Dữ liệu điều tra đƣợc từ các cá thể cho ở bảng sau (bảng liên hiệp các dấu hiệu): 111 B A … … … … … … … …
Trong đó, là số cá thể mang đồng thời đặc tính và .
Bài toán đặt ra là hãy kiểm định sự độc lập của hai dấu hiệu trên với mức ý nghĩa cho trƣớc . Giải:
Đầu tiên, ta lập bảng tính sau đây: B A Tng … … … … … … … … … Tổng … n
Trong bảng này, là tổng hàng i. Đây chính là tổng số cá thể mang đặc
tính trong mẫu. là tổng cột i. Đây là tổng số cá thể mang đặc tính
Tổng hàng hoặc cột cuối cùng là cỡ mẫu n.
Nếu A và B là hai dấu hiệu độc lập với nhau thì: ( ) ( )
Ta chƣa biết các xác suất này nhƣng ta sẽ ƣớc lƣợng chúng từ mẫu.
Tần suất xuất hiện là ƣớc lƣợng cho xác suất xuất hiện : .
Tần suất xuất hiện là ƣớc lƣợng cho xác suất xuất hiện : .
Giả sử A và B độc lập thì xác suất bắt gặp một cá thể mang đồng thời đặc
tính và đƣợc ƣơc lƣợng là:
Và do đó tần số cá thể mang đặc tính tính và là: 112
Nhƣ vậy, nếu A và B độc lập thì số các thể mang đồng thời đặc tính và
đƣợc ƣớc lƣợng là . Tuy nhiên, thực tế chỉ quan sát đƣợc số cá thể này là
. Một cách hình thức ta sẽ tìm một tiêu chuẩn để so sánh hai tần số này và
dựa trên nó để đƣa ra quyết định. Tiêu chuẩn kiểm định: ( ∑ )
Ngƣời ta chứng minh đƣợc rằng nếu A và B độc lập thì có phân phối
khi bình phƣơng với bậc tự do.
Do đó, ta bác bỏ giả thuyết nếu ( )
Ví dụ 1: Nghiên cứu ảnh hƣởng của thành phần thức ăn của mẹ (X) đối với
giới tính của trẻ (Y) ta có kết quả sau:
X Thiếu vitamin Đủ vitamin Y Trai 111 145 Gái 125 78
Với mức ý nghĩa 5%, có thể nói rằng thành phần thức ăn độc lập với giới tính không. Giải:
Các tính toán trong bảng sau:
X Thiếu vitamin Đủ vitamin Tổng Y Trai 111 (131,6) 145 (124,4) 256 Gái 125 (104,4) 78 (98,7) 203 Tổng 236 223 459 Tiêu chuẩn kiểm định: = 10,7 9
Tra bảng phân phối khi bình phƣơng 1 bậc tự do, ta có . 113 Nhƣ vậy,
nên ta bác bỏ giả thuyết, tức là có vẻ nhƣ
chế độ ăn có ảnh hƣởng tới giới tính của trẻ. BÀI TẬP
Bài 1: Một vƣờn ƣơm cây con phi lao có chiều cao trung bình chƣa xác
định. Theo hợp đồng ký kết giữa ngƣời sản xuất cây con và lâm trƣờng: Chỉ khi
nào chiều cao trung bình cây con đạt đƣợc trên 1 m mới đem trồng. Qua điều tra
25 cây thì chiều cao trung bình thu đƣợc là 1,1 m.
Hỏi vƣờn cây con đó đã đem trồng đƣợc chƣa? Biết rằng sự biến động
chiều cao cây con trong giai đoạn vƣờn ƣơm là m và luật phân bố chiều cao có dạng chuẩn.
Bài 2: Đo chiều cao của 38 sinh viên đƣợc chon ngẫu nhiên từ một trƣờng
đại học. Số liệu thu đƣợc cho ở bảng sau:
Chiều cao (m) 1,45 1,55 1,57 1,60 1,65 1,70 1,75 Số sinh viên 3 6 5 11 7 4 2
Giả sử, chiều cao của sinh viên là biến ngẫu nhiên có phân phối chuẩn.
a) Cho biết phƣơng sai là , với mức ý nghĩa 5%, có thể nói rằng
chiều cao trung bình của sinh viên lớn hơn 1,60 m đƣợc không?
b) Với mức ý nghĩa 10%, có thể khẳng định chiều cao trung bình của sinh
viên lớn hơn 1,55 m đƣợc không?
Bài 3: Năng suất trung bình của 25 mảnh ruộng trồng lúa A là 6,0 tấn/ha.
Với mức 5%, có thể khẳng định đƣợc năng suất trung bình của loại lúa A này là
6,5 tấn/ha đƣợc không? Giả sử năng suất lúa có phân phối chuẩn.
Bài 4: Một mẫu có kích thƣớc n = 25 đƣợc rút ra từ một tổng thể có phân
phối chuẩn với phƣơng sai là 64. Với mức ý nghĩa 5% hãy kiểm định giả thiết
trung bình tổng thể là 52. Biết rằng trung bình mẫu tìm đƣợc là 55,4.
Bài 5: Một công ty khẳng định rằng tỉ lệ sản phẩm đạt tiêu chuẩn là 98%.
Tuy nhiên, khi kiểm tra 250 sản phẩm của công ty này thì thấy rằng có 33 sản
phẩm không đạt tiêu chuẩn. Với mức ý nghĩa 5%, tuyên bố của công ty trên có đáng tin không?
Bài 6: Tiến hành 100 phép thử một cách độc lập và thấy rằng có 14 lần
xuất hiện biến cố A. Gọi p là xác suất xuất hiện biến cố A. Hãy giải các bài toán 114
kiểm định giả thiết sau với mức ý nghĩa 5%. H : p  0,2 a) 0 H p  1 : 0, 2 H : p  0,2 b) 0 H p  1 : 0, 2
Bài 7: Một kho hạt giống có tỷ lệ nảy mầm xác định là p = 0,9. Ngẫu nhiên
thiết bị bị hỏng làm thay đổi điều kiện bên trong của kho. Tỷ lệ nảy mầm của hạt
giống còn giữ nguyên không? Biết rằng khi kiểm tra 200 hạt giống thì có 140
hạt nảy mầm, với  10% .
Bài 8: Trong một đàn gia súc kiểm tra 805 con có 80 con mắc bệnh A.
Trong một đàn khác kiểm tra 2756 con có 357 con mắc bệnh A. Có thể coi tỷ lệ
mắc bệnh ở cả hai đàn là nhƣ nhau không? Với mức ý nghĩa  5% .
Bài 9: Một lâm trƣờng thí nghiệm nghiên cứu sinh trƣởng về chiều cao của
lim trồng dƣới tán và trồng thuần loài kết quả nhƣ sau:
Quan sát 100 cây lim trồng dƣới tán có chiều cao bình quân là 4,73 m và sai tiêu chuẩn là 0,786 m
Quan sát 100 cây lim trồng thuần loài có chiều cao bình quân là 4,43 m và
sai tiêu chuẩn là 0,866 m.
Hỏi lim trồng theo 2 phƣơng pháp trên có khác nhau cơ bản về sinh trƣởng
chiều cao hay không? Với mức ý nghĩa   5% .
Bài 10: Trong một khu rừng ngƣời ta dự định phân thành hai khối. Giả sử
rằng phân bố trữ lƣợng gỗ trên các ô có tính ngẫu nhiên và luật phân bố của nó
có dạng chuẩn. Ở khối thứ nhất ngƣời ta điều tra 36 ô, trữ lƣợng gỗ bình quân là
12,04 m3, sai tiêu chuẩn là 7,7 m3. Ở khối thứ hai quan sát 36 ô, trữ lƣợng gỗ
bình quân là 17 m3, sai tiêu chuẩn là 7,36 m3. Hãy so sánh trữ lƣợng gỗ trung
bình trên 2 khối có bằng nhau hay không? Với mức ý nghĩa   5%
Bài 11: Kiểm tra hàm lƣợng nicotin trong hai loại thuốc lá A và B ở một
bao thuốc, kết quả nhƣ sau: loại A: 24; 21; 26; 27 ;20; 22; 28 và loại B: 22; 25;
21; 21; 20. (Đơn vị miligam). Với mức ý nghĩa 5%, có thể khẳng định hàm
lƣợng nicotin trong hai loại thuốc trên là nhƣ nhau hay không? Giả sử, hàm
lƣợng nicotin có phân phối chuẩn.
Bài 12: Lấy hai mẫu độc lập từ hai tổng thể X và Y có phân phối chuẩn ta đƣợc: 115
a) Với mức 5%, hãy kiểm định sự bằng nhau giữa phƣơng sai của biến X và Y.
b) Với mức 10%, có thể khẳng định giá trị trung bình của biến X và Y là bằng nhau đƣợc không?
Bài 13: Để đánh giá một phƣơng pháp điều trị mới, ngƣời ta điều trị 46
ngƣời theo phƣơng pháp mới thấy khỏi 38 ngƣời, điều trị 47 ngƣời theo phƣơng
pháp cũ thấy khỏi 33 ngƣời. Có thể coi phƣơng pháp mới đã có tác dụng rõ rệt
không?   5% .
Bài 14: Cho 2 mẫu độc lập: Mẫu 1: xi 3,4 3,5 3,7 3,9 ni 2 3 4 1 Mẫu 2: yi 3,2 3,4 3,6 ni 2 2 8
Với mức ý nghĩa 5%, kiểm định giả thiết H0: E(X) = E(Y) và đối thiết H1: EX EY .
Bài 15: Hai phƣơng pháp phân tích hàm lƣợng mùn trong đất cho kết quả sau:
Phƣơng pháp 1: 27,5 27 27,3 27,6 27,8
Phƣơng pháp 2: 27,9 27,2 26,5 26,3 27 27,4 27,3 26,8
Hai phƣơng pháp đó có cùng độ chính xác không? Với   1%
Bài 16: Hai máy cùng gia công một loại chi tiết. Ngƣời ta muốn kiểm tra
xem 2 máy này có độ chính xác nhƣ nhau hay không? Để làm điểu đó ngƣời ta
lấy ngẫu nhiên từ mỗi máy 7 chi tiết đem đo và thu đƣợc kết quả sau:
Máy A: 135 138 136 140 138 135 139
Máy B: 140 135 140 138 135 138 140
Với mức ý nghĩa 5% có thể cho rằng hai máy có độ chính xác nhƣ nhau
hay không? Biết kích thƣớc chi tiết có phân phối chuẩn.
Bài 17: Số liệu điều tra về ảnh hƣởng của hoàn cảnh kinh tế gia đình đối
với chỉ số thông minh của trẻ đƣợc cho ở bảng sau. Chỉ số thông minh đƣợc chia 116 thành 3 mức: Giàu 57 123 138 Nghèo 65 98 76
Với mức 5%, có thể khẳng định hoàn cảnh kinh tế của gia đình trẻ có ảnh
hƣởng tới chỉ số thông minh của trẻ em hay không?
Bài 18: Quan sát một mẫu 3200 ngƣời về màu mắt và màu tóc ta đƣợc kết quả sau: Vàng Nâu Đen Hung Xanh lam 872 380 90 22 Xanh nâu 500 815 488 33
Có thể coi màu mắt và màu tóc là các đặc tính độc lập hay không? Lấy  5% . 117 Chƣơng 6
SƠ LƢỢC VỀ LÝ THUYẾT TƢƠNG QUAN VÀ HỒI QUY TUYẾN TÍNH
6.1. Phân tích tƣơng quan tuyến tính
Khi xét hai biến ngẫu nhiên X và Y, ta cần biết chúng có quan hệ với nhau
hay độc lập với nhau. Nếu chúng có quan hệ với nhau thì cần xác định mức độ
của mối quan hệ đó (mạnh hay yếu). Đại lƣợng cho biết mức độ quan hệ giữa
hai biến ngẫu nhiên X và Y đƣợc gọi là hệ số tƣơng quan của hai biến X và Y.
6.1.1. Định nghĩa
Hệ số tƣơng quan của hai đại lƣợng ngẫu nhiên X và Y, ký hiệu (X ,Y )
đƣợc xác định bởi công thức: E
X E(X )Y E(Y )    ( X ,Y )  ( D X )D(Y)
6.1.2. Tính chất a) 1   (  X,Y) 1. b) Nếu (
X,Y)  1 thì X và Y phụ thuộc tuyến tính, tức là có hai số a và b
để Y = aX + b hoặc hai số c và d để X = cY + d.
Ngƣời ta quy ƣớc rằng:
- Nếu 0,7   1 : Ta nói các biến X và Y có tƣơng quan tuyến tính mạnh;
- Nếu 0,3    0,7: Ta nói các biến X và Y có tƣơng quan trung bình;
- Nếu   0,3 thì sự tƣơng quan giữa chúng là yếu.
6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên
Nếu X và Y độc lập thì  (X ,Y) = 0. Ngƣợc lại chƣa chắc đúng.
6.1.4. Hệ số tương quan mẫu
Ngƣời ta quan sát các biến ngẫu nhiên X và Y thu đƣợc kết quả thực nghiệm nhƣ sau: x x …. 1 x2 xn y y … 1 y2 yn
Khi đó, ta tính đƣợc hệ số tƣơng quan mẫu r bởi công thức: 118 n
  ix x  i y y i 1 r  , n
 x x 2 n i   i y y 2 i 1  i 1  n nixiy Trong đó: i 1  i 1 x  ; y   n n
Hoặc r cũng đƣợc xác định bằng công thức: n n      i x   iy n
i1  i1   ix iy i1 n r  2 2  n n   n n  2 1   2 1  
 ix    ix   
iy    iy   i  1
n i1   i1
n i1       Đặt: n n     xiy  i n  i 1  i 1   X
Q Y   ix iy i 1  n 2 n n 2 1  
QX   ix    i x i 1  n i 1   2 n n 2 1   Y Q   iy    i y i 1  n i 1  
Thay vào công thức trên ta đƣợc QXY r  . X Q Y Q
Ví dụ 1: Tính hệ số tƣơng quan mẫu của 2 biến X và Y với mẫu đƣợc cho trong bảng sau: x 9,9 10,2 11.0 11,6 11,8 12,5 12,8 13,5 14,3 14,4 y 10,7 10,8 12,1 12,5 12,2 12,8 12,4 11,8 11,8 12,6 Giải:
Ta lập bảng tính: 119 2 TT x y y 2 x xy 1 9,9 10,7 98,01 114,49 105,93 2 10,2 10,8 104,04 116,64 110,16 3 11 12,1 121 146,41 133,1 4 11,6 12,5 134,56 156,25 145 5 11,8 12,2 139,24 148,84 143,96 6 12,5 12,8 156,25 163,84 160 7 12,8 12,4 163,84 153,76 158,72 8 13,5 11,8 182,25 139,24 159,3 9 14,3 11,8 204,49 139,24 168,74 10 14,4 12,6 207,36 158,76 181,44 Tổng 122 119,7 1511,04 1437,47 1466,35 Từ đó ta có: n  10 n n n n nx 122 i ;  y 119,7 i ; 2  x  1511,04 i ; 2  y  1437,47 i ;  x y  1466,35 i i i1 i 1  i1 i1 i1 n n     xiy  i n   i 1   i 1   122.119,7 Q   x y   1466,35   6,01 XY i i i 1  n 10 2 n n 2 1   1 2 Q   x   x  1511,04 .122  22,64 X ii i 1 n i1  10 2 n n 2 1   1 2 Q   y   y 1437,47  .119,7  4,66 Y ii i 1  ni 1   10 Hệ số tƣơng quan mẫu: X Q Y 6,01 r    0,59. Q Q 22,64 4,66 X Y
6.2. Phân tích hồi quy tuyến tính 6.2.1. Mô hình
Phân tích hồi quy là phƣơng pháp dùng để dự đoán, ƣớc lƣợng giá trị của
một biến (đƣợc gọi là biến phụ thuộc, biến đƣợc giải thích) theo giá trị của một
hay nhiều biến khác (đƣợc gọi là biến độc lập, biến giải thích). Ta đi xét trƣờng
hợp có một biến giải thích. Giả sử Y là một đại lƣợng ngẫu nhiên phụ thuộc vào
biến X theo phƣơng trình:
Y     X   0 1 (1)
Y đƣợc gọi là biến phụ thuộc, biến đƣợc giải thích hay biến đáp ứng 120 (response).
X đƣợc gọi là biến độc lập, hay biến giải thích.
 là sai số hay phần dƣ của mô hình, là đại lƣợng đặc trƣng cho những ảnh
hƣởng ngẫu nhiên đối với Y . Giả sử  có phân phối chuẩn với giá trị trung bình bằng 0 và phƣơng sai 2
D( )  . Các tham số (chƣa biết) của mô hình hồi quy
tuyến tính bao gồm   0 , 1 và 2  .
Phƣơng trình đƣờng thẳng y    0 1
x gọi là phương trình hồi quy tuyến
tính lý thuyết. Hệ số  
1 đƣợc gọi là độ dốc (slope), hệ số 0 đƣợc gọi là hằng số hồi quy.
Giả sử (x1, y1),(x2, y2),...,(x , y ) n
n là các giá trị quan sát của các biến X , Y ,
hay còn gọi là dữ liệu. Khi đó mô hình đƣợc viết lại nhƣ sau: y        (2) 0 1 x , i 1, 2,..., i i i n Trong đó:
- Các giá trị xi đã biết và không ngẫu nhiên; - Các tham số  
0 , 1 của mô hình là chƣa biết;
- i là các biến ngẫu nhiên độc lập, cùng phân phối chuẩn 2 N (0, ) ;
- iy là các quan sát của một biến ngẫu nhiên Y.
Các giả thiết trên đƣợc gọi là các giả thiết của mô hình hồi quy.
Bài toán đặt ra là hãy ƣớc lƣợng các tham số của   0 , 1 và 2  của mô hình
hồi quy dựa trên mẫu quan sát ( 1
x , y1),(x2, y2),...,(x , y ) n
n . Trƣớc hết, ta đi ƣớc lƣợng  
0 và 1 từ dữ liệu bằng phƣơng pháp bình phƣơng cực tiểu.
6.2.2. Ước lượng bình phương cực tiểu
Từ các phƣơng trình (2), ta tìm  
0 và 1 sao cho tổng bình phƣơng sai số: n n 2
l(       y     x 0 , 1) i  ( i 0 1 )
i 2 đạt giá trị nhỏ nhất. i 1  i 1  Ta có hệ phƣơng trình:  l  (  0, 1)  0     
n    x   y 0 0 1 (1) i i     2 l(   0, 1)  
  x   x  x y 0 i 1 i i i (2) 0     1
y  1 x (1) i i    0 n 121
  y    x  Thế vào (2) : i 1 i 2  x  
i    x   x y 1 i i in   ix iyxiyi n   1  ix 2 2  xi nxiyiix iy  Vậy n X Q Y b  
, và a y bx là các giá trị ƣớc lƣợng của x 2 Q 2 X ixi n   1 và 0 .
Khi đó, đƣờng thẳng có phƣơng trình y a bx đƣợc gọi là đường thẳng hồi quy.
Phƣơng trình y a bx đƣợc gọi là phương trình hồi quy tuyến tính thực
nghiệm của Y đối với X . Nó đƣợc dùng để dự báo giá trị trung bình của Y khi
biết giá trị của X . Khi X x thì ˆy a bx gọi là giá trị dự báo bởi đƣờng hồi
quy tuyến tính thực nghiệm .
Từ dữ liệu ban đầu (x y x y x y 1, 1),( 2, 2),...,( , ) n
n ta có các giá trị dự báo theo
phƣơng trình hồi quy ˆy a bx ,i  1, 2,..., i i
n, và các sai số (phần dƣ) tƣơng
ứng là ˆ  y  ˆ i i
yi. Sai số ˆi là sự sai khác giữa giá trị quan sát yi và giá trị dự
báo ˆiy dựa theo đƣờng thẳng hồi quy.
Một số tính chất của đƣờng thẳng hồi quy:
- Nếu x tăng lên m đơn vị thì:   (  ) m y
a b x m = a + bx + mb = y + mb
+ Nếu b > 0 thì ta nói y tăng lên mb đơn vị.
+ Nếu b < 0 thì ta nói y giảm đi m|b| đơn vị.
- Đƣờng thẳng hồi quy đi qua điểm (x, y) : y a bx .
- Giá trị trung bình của các giá trị dự báo theo đƣờng thẳng hồi quy ˆiy bằng
giá trị trung bình của các quan sát iy : ˆiy iy . 1 n
- Giá trị trung bình của các sai số ˆi
 bằng 0: ˆ   (y  ˆy )  0 i i . n i1 122 n n
- Tổng bình phƣơng sai số: 2
 ˆi   y  ˆ i yi2 . i 1  i 1 
Ví dụ 2: Để đánh giá trữ lƣợng gỗ của cây trong một khu rừng, ngƣời ta đo
thiết diện ngang, X (m) , của cây ở độ cao 1,3 m và thể tích, 3
Y (m ) , của 8 cây
thu đƣợc số liệu nhƣ sau: x
0,005 0,011 0,020 0,031 0,045 0,061 0,08 0,101 y
0,020 0,054 0,128 0,320 0,530 0,750 1,100 1,450
a) Tính hệ số tƣơng quan mẫu r.
b) Hãy lập phƣơng trình đƣờng hồi quy tuyến tính thực nghiệm của thể tích
đối với thiết diện của cây. Giải:
a) Các tính toán đƣợc thể hiện trong bảng: TT x y 2 x 2 y xy 1 0,005 0,02 0,000025 0,0004 0,0001 2 0,011 0,054 0,000121 0,00292 0,00059 3 0,02 0,128 0,0004 0,01638 0,00256 4 0,031 0,32 0,000961 0,1024 0,00992 5 0,045 0,53 0,002025 0,2809 0,02385 6 0,061 0,75 0,003721 0,5625 0,04575 7 0,08 1,1 0,0064 1,21 0,088 8 0,101 1,45 0,010201 2,1025 0,14645 Tổng 0,354 4,352 0,023854 4,278 0,31722 Ta có: n = 8
ix =0,354,  yi = 4,352, 2  xi = 0,02385, 2  yi = 4,278,  ix iy = 0,31722, 1
Qxy = 0,317 - .0,354. 4,352 = 0,12465, 8 Qx = 0,00819, 123 Qy = 1,9105
Vậy hệ số tƣơng quan mẫu: Q 0,12465 r = xy    0,9965  x Q × y Q 0,00819 1,9105
b) Viết phƣơng trình đƣờng hồi quy tuyến tính của Y theo X y = a + bx với Q b = xy = 15,22 Q x
a = y b x = - 0,129
Vậy phƣơng trình hồi quy tuyến tính thực nghiệm của Y theo X :
y = - 0,129 + 15,22x BÀI TẬP
Bài 1: Theo dõi mức độ đầu tƣ X (trệu đồng) và lợi nhuận Y (triệu đồng)
của 10 xí nghiệp khác nhau trong cùng một ngành ngƣời ta thu đƣợc bảng số liệu sau đây: x 1 1 2 3 3 5 6 7 8 y 2,3 2,5 2,6 3 3,1 3,5 3,7 4,5 5
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 2: Theo dõi mức thu nhập X (triệu đồng/năm) và giá trị của chiếc
điện thoại di động Y (triệu đồng) của nhân viên công ty A ta thu đƣợc bảng số liệu sau: x 15 18 22 23 28 30 33 33 y 1 0,7 2,6 0,6 3 7,8 3,8 4,8
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 3: Tìm hiểu mức tiêu dùng bia trong một tháng Y (lít) và thu nhập X
(triệu đồng/tháng) của 8 ngƣời ta thu đƣợc bảng số liệu sau đây: 124 x 1,6 2 3,5 3 5 6,5 7 8 y 2,5 2,6 3 3,2 3,5 4 4 4,5
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X.
Bài 4: Thí nghiệm về loại loại phân bón X (tạ/ha) và năng suất lúa Y
(tạ/ha) ta thu đƣợc kết quả sau: x 2,5 2,6 2,7 2,8 2,9 3 3,1 3,2 y 45 47 47 48 52 54 55 54
a) Hãy tìm hệ số tƣơng quan mẫu r.
b) Lập phƣơng trình hồi quy tuyến tính thực nghiệm của Y đối với X. 125 Chƣơng 7
PHÂN TÍCH PHƢƠNG SAI
Phƣơng pháp hồi quy tƣơng quan chủ yếu nghiên cứu mối liên hệ tƣơng
quan giữa các biến định lƣợng hoặc đã lƣợng hóa. Phƣơng pháp phân tích
phƣơng sai (hay còn viết tắt là ANOVA) mà chúng ta sẽ trình bày trong chƣơng
này cho phép nghiên cứu mối liên hệ giữa tiêu chí nguyên nhân định tính với
tiêu chí kết quả định lượng.
Mục đích bài toán:
Xem xét 1 hoặc 2 nguyên nhân (mặt định tính) có ảnh hƣởng hay không
ảnh hƣởng đến kết quả (mặt định lƣợng).
 Nếu ta chỉ xem xét 1 nguyên nhân tác động tới một kết quả, trƣờng hợp
này dẫn đến bài toán phân tích phƣơng sai 01 nhân tố.
 Nếu xét 2 nguyên nhân tác động tới cùng một kết quả, trƣờng hợp này dẫn
đến bài toán phân tích phƣơng sai 02 nhân tố.
Phương pháp nghiên cứu:
 Chia tổng thể nghiên cứu thành k nhóm theo nguyên nhân;
 Đặt giả thuyết H l
0 à giá trị trung bình của k nhóm bằng nhau;
H       0 : 1 2 ... k
 Xét bài toán kiểm định giả thuyết H0 với đối thuyết H1 là tồn tại ít nhất
một cặp giá trị trung bình khác nhau (mức ý nghĩa cho trƣớc).  Điều kiện bác bỏ H
F F k 1,nk  0: Giá trị kiểm định . Trong đó
F k 1,nk  đƣợc tra từ bảng phân phối Fisher.
Kết quả bài toán dẫn đến 2 trƣờng hợp:  Bác bỏ H  
0: Tức là i, j  :   . i j
Khi đó, kết luận là tiêu chí nguyên nhân có ảnh hƣởng đến kết quả (vì giá
trị trung bình của các nhóm xét trên cùng một nguyên nhân có sự khác nhau). Có
thể tiến hành tiếp tục Phân tích sâu ANOVA nhằm xác định các nhóm có trung bình khác nhau.  Chấp nhận H
H :    ...   . 0: Tức là 0 1 2 k
Trong trƣờng hợp này tiêu chí nguyên nhân không ảnh hƣởng đến kết quả 126
(Vì giá trị trung bình của các nhóm xét trên cùng một nguyên nhân không có sự khác nhau). Tư duy phương pháp:
Phƣơng pháp đƣa ra các tính toán dựa trên nhận xét sau: Có hai loại chênh
lệch khác nhau trong bài toán phân tích phƣơng sai. Thứ nhất là sự chênh lệch
về kết quả giữa các nhóm, phần này do ảnh hƣởng của tiêu chí nguyên nhân
nghiên cứu. Thứ hai là chênh lệch trong nội bộ các nhóm, phần này do các nguyên nhân khác gây ra.
Từ đó, phƣơng pháp phân tích phƣơng sai sẽ thực hiện theo ý tƣởng:
- Sử dụng phƣơng sai để đo sự chênh lệch (phƣơng sai) giữa các nhóm với
nhau, và đo sự chênh lệch trong chính nội bộ các nhóm theo tiêu chí nghiên cứu;
- Giá trị kiểm định F là tỷ lệ của phƣơng sai giữa các nhóm và phƣơng sai
trong nội bộ các nhóm. Nhƣ vậy, F càng lớn thì ảnh hƣởng của tiêu chí nguyên
nhân càng lớn, các trị số trung bình càng khác nhau.
7.1. Phân tích phƣơng sai một nhân tố (One -Way Analysis of Variance)
7.1.1. Trường hợp các nhóm có phân phối chuẩn và phương sai bằng nhau
Giả sử nhân tố mà chúng ta đang xét đƣợc chia thành k mức X1, X2,…, Xk
các biến Xj(j = 1, 2,…, k) đều có phân phối chuẩn với phƣơng sai bằng nhau.
Số liệu của bài toán trong trƣờng hợp tổng quát cho trong bảng sau: X1 X2 Xk x11 x12 x1k x21 x22 x2k x x 1 … … 1 n nkk 2 2 n x
Chú ý: Số hàng ứng với từng cột ở bảng trên có thể khác nhau. Ta lần lƣợt kí hiệu:
- Số hàng từ cột 1 đến cột k lần lƣợt là n1, n2,…, nk.;
- Tổng các giá trị mẫu theo từng cột từ cột 1 đến cột k là T1, T2,…, Tk.
Yêu cầu đặt ra là xét xem có sự khác nhau về trung bình số liệu theo từng 127
nhóm hay không với mức ý nghĩa  cho trƣớc.
Xét bài toán kiểm định giả thuyết: H       0 : 1 2 ... . k Kí hiệu:
1) Tổng bình phƣơng chung (biến động chung): bậc tự do n-1. k ni
    x   2 2 2 T Q    ij x i x j i 1  j 1  i, j n
2) Tổng bình phƣơng do nhân tố (biến động do nhân tố): bậc tự do k-1. k T T T T
Q   in ix  2 2 2 2 2 1 2 k      1 x ... i 1  1 n 2 n k n n
3) Tổng bình phƣơng do sai số (biến động do sai số): bậc tự do n-k. 2 2 2   2 T T T 1 2
Q   x      2 ij ... k    ,i j  1 n 2 n nk
Q Q Q Q Q Q 1 2 2 1
Tính phƣơng sai bằng cách lấy biến động chia cho bậc tự do tƣơng ứng. Khi đó ta có: Q
o Phƣơng sai do nhân tố: 2 1  1 S . k 1 o Phƣơng sai do sai số: 2 2 Q  2 S . n k o Test thống kê: 2 1 S F  2 2 S Kết luận: - Nếu F   
thì bác bỏ H0, tức là trung bình theo các nhóm (
F )  k 1,n k  
có sự khác nhau hay yếu tố nguyên nhân có ảnh hƣởng đến kết quả. - Nếu F   
thì chấp nhận H0, tức là trung bình theo các (
F ) k 1,n k
nhóm không có sự khác nhau hay yếu tố nguyên nhân không ảnh hƣởng đến kết quả.
Ta có bảng ANOVA tóm tắt các kết quả tính toán nhƣ sau: 128
Nguồn Biến động Bậc tự do Phương sai Tỷ số F
Tỷ số tra bảng Nhân tố Q1 k-1 2 S 2 1 1 S F (
F ) k 1,n k     2 S Sai số Q S 2 2 n-k 2 2 Tổng Q n-1
Ví dụ 1: Trƣờng phổ thông cơ sở A mời 3 giáo viên bồi dƣỡng cho 100 học
sinh dự thi học sinh giỏi tin học. Sau một thời gian ôn tập, chọn mẫu 12 học sinh
trong 100 học sinh trên thi thử với kết quả theo bảng sau (thang điểm 100). Với
mức ý nghĩa 5% hãy kiểm định xem điểm thi của học sinh theo học 3 giáo viên
trên có khác nhau không? Số liệu về điểm thi của học sinh đƣợc cho trong bảng dƣới đây.
Giả thiết điểm thi của học sinh tuân theo luật phân phối chuẩn.
Điểm của học sinh (x ) ij GV A GV B GV C 79 71 83 86 77 69 93 81 71 83 77 Giải:
Trong bài toán này yếu tố nguyên nhân là giáo viên (định tính) và kết quả
là điểm thi của học sinh (định lƣợng) theo các giáo viên đó. Nhƣ vậy, theo đề
bài ta thấy số nhóm theo nguyên nhân là k =3 (Vì quan sát 3 giáo viên A, B, C). Gọi  
1, 2 , 3 lần lƣợt là điểm trung bình của học sinh theo 3 giáo viên.
Xét bài toán kiểm định giả thuyết: H      0 : 1 2 3. H  
1: Có ít nhất một cặp i j khác nhau.
Để thuận tiện trong tính toán, ta lập bảng tính nhƣ sau: 129
Điểm của học sinh (x ) Chung ij GV A GV B GV C các nhóm 79 71 83 86 77 69 93 81 71 83 77
Số mẫu quan sát (ni) n1 = 3 n2 = 4 n3 = 4 n = 11 ni Tổng theo cột: i T   xij 258 312 300 T = 870 j 1  Trung bình mẫu T : i 870 i x x   1 x  86 2 x  78 3 x  75 79,091 i n 12
Áp dụng các công thức ở trên vào ví dụ ta tính đƣợc: 2 870 C   68809,091 11 2 2 2 2 2 2
Q  79  71  83  86  ...  83  77  76800  69513  68809,091  703,909 2 2 2 2 2 2 1 T 2 T k T 258 312 300 Q     C     C    1 ... 69024 68809,091 214,909 1 n 2 n k n 3 4 4
Q2 = 703,909 – 214,909 = 489 2 1 Q 214,909 S    1 107,4545 k 1 3 1 2 2 Q 489    2 S 61,125 n k 11 3 2 1 S 107, 4545 F    1,758 2 S 61,125 2
Tra bảng phân phối F(2,8)(0,05) = 4,459. Ta có bảng ANOVA nhƣ sau: 130
Nguồn Biến động Bậc tự do Phương sai Tỷ số F (
F ) k 1,n k     Q 2 2 1 k-1 S S Nhân tố 1 1 F  214,909 2 2 107,4545 S2 ( F    ) k 1,n k Q n-k 2 1,758 2 S = 4,459 Sai số 2 489 8 61,125 Q n-1 Tổng 703,909 10
Vậy F < F(0,05) (2; 8), nên chấp nhận giả thuyết H0, nghĩa là với độ tin cậy
95% thì điểm thi theo 3 giáo viên nhƣ nhau. Hay yếu tố giáo viên không ảnh
hƣởng tới kết quả điểm thi của học sinh.
7.1.2. Trường hợp các nhóm có phân phối bất kỳ (Đọc thêm)
Trong trƣờng hợp này ta phải sử dụng phƣơng pháp kiểm định phi tham số.
Giả sử rằng chúng ta có các mẫu ngẫu nhiên độc lập gồm n1, n2, ..., nk quan
sát từ k tổng thể có phân phối bất kỳ. Ta sử dụng kiểm định KRUSKAL -
WALLIS bằng cách xếp hạng các quan sát mẫu. Mặc dù số quan sát của các
mẫu là khác nhau nhƣng khi xếp hạng thì đƣợc sắp xếp một cách liên tục từ nhỏ
đến lớn, nếu giá trị quan sát trùng nhau thì hạng xếp giống nhau bằng cách dùng
số trung bình cộng các hạng của chúng để chia đều.
Ðặt n = n1 + n2 + ... + nk là tổng các quan sát thuộc các mẫu, và R1, R2,...,
Rk là tổng của các hạng đƣợc xếp theo thứ tự của k
mẫu. Kiểm định giả thuyết ở
mức ý nghĩa  cho trƣờng hợp này là:
H0: Trung bình của k tổng thể đều bằng nhau.
Ở đây ta sử dụng biến W thay cho tỉ số F trong phần tính toán giá trị kiểm định.
Tra bảng phân phối khi bình phƣơng để so sánh, và giả thuyết H0 bị bác bỏ khi: 2 W    1  ( ) k
Ví dụ 2: Một quản trị Marketing muốn xem xét chi phí bán hàng trung bình
trên tháng (đơn vị 1000 đồng) của một sản phẩm điện tử ở 3 cửa hàng khác nhau 131
A, B, C. Số liệu của chỉ tiêu trên đƣợc thu nhập trong 7 tháng cho cửa hàng A, 7
tháng cho cửa hàng B và 6 tháng cho cửa hàng C nhƣ trong bảng sau: Cửa hàng A B C 22,2 24,6 22,7 19,9 23,1 21,9 20,3 22,0 23,3 21,4 23,5 24,1 21,2 23,6 22,1 21,0 22,1 23,4 20,3 23,5 Tổng: 146,3 162,4 137,5
Giả thuyết chi phí bán hàng có phân phối tùy ý. Hãy kiểm định xem chi phí
bán hàng theo các cửa hàng có khác nhau hay không với mức ý nghĩa 0,5%. Giải:
Trong ví dụ này, ta lập bảng xếp hạng cho 3 cửa hàng nhƣ trong bảng sau:
Bảng dữ liệu: Xếp hạng liên tục các dữ liệu ở ba cửa hàng (Đơn vị 1000 đồng).
Trong cách xếp hạng này, chi phí nhỏ nhất trong ba cửa hàng là 19,9 (ngàn
đồng) đƣợc xếp hạng 1, tƣơng tự hạng đƣợc xếp cho đến chi phí lớn nhất là 24,6
(ngàn đồng) đƣợc xếp hạng 20. Những chi phí trùng nhau sẽ có hạng bằng nhau,
chẳng hạn nhƣ có hai chi phí là 20,3 (ngàn đồng) trong cửa hàng A, hạng thứ tự của
chúng là 2 và 3. Vì vậy, hai giá trị 20,3 có hạng bằng nhau và bằng (2+3)/2 = 2,5.
Từ bảng tính, ta có giá trị kiểm định: 132 = 11,10.
Ở đây chúng ta có bậc tự do (k -1) = 2 và nếu kiểm định ở mức ý nghĩa
0,5% khi tra bảng phân phối khi bình phƣơng ta tìm đƣợc: 2 2     2 ( ) 2 (0, 005)  10, 6
Bởi vì W = 11,10 >10,6 nên giả thuyết H0 bị bác bỏ ở mức ý nghĩa 0,5% nghĩa
là chi phí bán hàng trung bình/sản phẩm ở ba cửa hàng không bằng nhau.
7.2. Phân tích phương sai hai nhân tố (Đọc thêm) (Two -Way Analysis of Variance)
Phân tích phƣơng sai hai nhân tố là xét đến hai yếu tố (hai nguyên nhân)
ảnh hƣởng đến hiện tƣợng nghiên cứu. Ví dụ: Trong phân tích phƣơng sai một
chiều ở trên cho ta biết kết quả học tập trung bình của học sinh do 3 giáo viên
dạy là khác nhau mà chƣa nghiên cứu đến hoàn cảnh gia đình của từng học sinh.
Phân tích phƣơng sai hai nhân tố sẽ có ý nghĩa trong trƣờng hợp này.
7.2.1. Trường hợp các nhân tố không tương tác
Ta xét bài toán tổng quát: Phân tích đánh giá sự ảnh hƣởng của 2 nhân tố
(yếu tố) A và B trên các giá trị quan sát xij.
Giả thiết: Nhân tố A có n mức a1, a2,…, an (Nhân tố hàng)
Nhân tố B có m mức b1, b2,…, bm (Nhân tố cột)
Cho bảng quan sát mẫu nhƣ sau: B b1 b2 bm A a1 x11 x12 x1m a2 x21 x22 x2m an xn1 xn2 xnm  Giả thuyết H0:
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau;
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng.  Các bƣớc tính toán: 133 B n n b b 2 i T   xx A 1 b2 m * ij ij j 1  j 1 n a 2  x 1 x11 x12 x1m T1* 1j j 1  n a 2  x 2 x21 x22 x2m T2* 2j j1 … n a 2  x n xn1 xn2 xnm Tn* nj j1 m T   x T   x * j ij T*1 T*2 T*m ij i 1  i, j m m m m 2  2  x i xj 2  ix1 2  ix2 … 2  i x m ij i 1  i 1  i 1  i 1  i, j Lập bảng ANOVA:
Tổng bình phương
Trung bình bình Nguồn Bậc tự do F (SS) phương 2 T SSA MSA Yếu tố A i * 2 i T SSA     n -1 MSA A F m n MSE . m n 1 2  * T j SSB MSB Yếu tố B 2 j T SSB   m -1 MSB F   B n m m 1 MSE .n SSE = SST – SSA SSE Sai số (n-1)(m-1) MSE  – SS B (n1)(m1) 2 T Tổng 2
SST   x  ij n.m -1 i, j . m n Kết luận:    Nếu (n 1),(n 1)(m 1) (1 ) A F F    
thì bác bỏ giả thuyết H0 cho rằng trung bình
của tổng thể theo chỉ tiêu hàng thì bằng nhau.  Nếu  
thì bác bỏ giả thuyết H cho rằng trung bình (m 1),(n 1)(m 1) (1 ) B F F     0
của tổng thể theo chỉ tiêu cột thì bằng nhau.
Ví dụ 1: Chiết suất chất X từ một loại dƣợc liệu bằng 3 phƣơng pháp và 5
loại dung môi, ta có kết quả: 134
PP chiết suất(B) b Dung môi(A) 1 b2 b3 a1 120 60 60 a2 120 70 50 a3 130 60 50 a4 150 70 60 a5 110 75 54
Xét ảnh hƣởng của phƣơng pháp chiết suất và dung môi đến kết quả chiết
suất chất X với mức ý nghĩa 0,01. Giải:
Đặt giả thuyết H0:
- Chiết suất trung bình của 3 phƣơng pháp là nhƣ nhau;
- Chiết suất trung bình từ 5 loại dung môi là nhƣ nhau;
- Nhân tố phƣơng pháp và dung môi không có sự tƣơng tác với nhau. Lập bảng tính:
PP chiết suất(B) b 2  x Dung môi(A) 1 b2 b3 Ti* ij i, j a1 120 60 60 240 a2 120 70 50 240 a3 130 60 50 240 a4 150 70 60 280 a5 110 75 54 239 T 630 335 274 T = 1239 *j 2  x 2 ij 80300 22625 15116  ix  j 118041 i, j ,i j Tính: 2 2 2 T 1239 SST       i x j 118041 155699,6 i , j . m n 5.3 2  i T * 2 2 T 308321 1239 i SSA      432,2667 m m.n 3 5.3 2 T*j 2 2 j T 584201 1239 SSB     14498,8 n m.n 5 5.3 135
SSE = SST - SSA- SSB = 768,5333 Lập bảng ANOVA: Tổng bình phƣơng Trung bình bình Nguồn Bậc tự do F (SS) phƣơng Yếu tố SSA  432, 2667 4 MSA 108,0667 1,1249 A F  A Yếu tố B SSB  14498,8 2 MSB  7249,4 74, 4622 B F  Sai số SSE = 768,5333 8 MSE  96, 0667 Tổng SST  155699,6 14 Kết luận:
FA < F4,8(0,99) = 7,006 => Chấp nhận giả thuyết trung bình chiết suất của 5 loại
dung môi là nhƣ nhau hay nói dung môi không ảnh hƣởng đến kết quả chiết suất.
FB > F2,8(0,99) = 8,649 => Bác bỏ giả thuyết trung bình chiết suất của 3
phƣơng pháp nhƣ nhau, nghĩa là phƣơng pháp có ảnh hƣởng đến kết quả chiết suất.
7.2.2. Trường hợp các nhân tố có tương tác
Tƣơng tự nhƣ bài toán phân tích phƣơng sai hai nhân tố không tƣơng tác ở
trên, nhƣng ở đây khác là mỗi mức (ai, bj) có sự lặp lại r lần thí nghiệm và ta cần
khảo sát thêm sự tƣơng tác FAB g
iữa 2 nhân tố AB.
Cho bảng quan sát mẫu nhƣ sau: B A b1 b2 bm x111 x121 x1m1 a x x x 1 112 122 1m2 x11r x12r x1mr x211 x221 x2m1 a x x x 2 212 222 2m2 x 21r x22r x2mr xn11 xn21 xnm1 a xn12 xn22 xnm2 n xn1r xn2r xnmr  Giả thuyết H0:
- Trung bình nhân tố cột bằng nhau;
- Trung bình nhân tố hàng bằng nhau; 136
- Không có sự tƣơng tác giữa nhân tố cột và nhân tố hàng.
 Các bƣớc tính toán:Tính tổng hàng  i T Tx **  , tổng cột i x jk * j* ijk . ,j k i,k B b b A 1 b2 m Ti** x111 x121 x1m1 x x x  1 T **  1 x jk a 112 122 1m2 k 1 … j, … … … x11r x12r x1mr x211 x221 x2m1 x x x T   x 2** 2jk a 212 222 2m2 j, k 2 … … … … x21r x22r x2mr … xn11 xn21 xnm1 x x x T   x n** njk a n12 n22 nm2 j, k n … … … … xn1r xn2r xnmr T   x T   x T *1* 1 i k T   x T   x ijk *j* *2* i2k *m* imk i, k i,k i, k i, j,k Cần tính: 2  x 2 2 ij ; k  2 TT . i T **; *j*; ij* i, j,k i j i, j Suy ra:    T SST i x jk x 2 2 2   x  ijk i , j ,k i, j ,k nmr 2  T   T SSA mr xi x i** 2 2 i   ** i mr nmr 2  * T j*
   x x 2 2 j T SSB nr   * j* i nr nmr 2 2 2  TT ij* *j* T       i** 2 2 i ,j j i T SSAB r x x x x     ij* i** * j* i r nr mr nmr 137 2  ixj* 2 ,i j
SSE SST SSA SSB SSAB   x  ijk i, j,k r Bảng ANOVA: Tổng bình
Trung bình bình Nguồn Bậc tự do F phương (SS) phương SSA MSA Yếu tố A SSA n -1 MSA F n 1 A MSE SSB MSB Yếu tố B SSB m -1 MSB F m B 1 MSE Tƣơng tác (n-1)(m- SSAB MSAB MSAB F  SSAB
(n  1)(m  1) AB MSE AB 1) SSE = SST – SSA SSE Sai số nm(r-1) MSE  – SSB – SSAB n ( m r 1  ) 2 T Tổng 2
SST   x  ij nmr -1 i , j . m n  Nếu   thì bác bỏ giả thuyết cho rằng trung bình (n 1  ),nm(r 1  ) (1 ) A F F  H0
của tổng thể theo chỉ tiêu hàng thì bằng nhau.  Nếu   thì bác bỏ giả thuyết (m 1),nm(r 1) (1 ) B F F    H 0 cho rằng trung bình
của tổng thể theo chỉ tiêu cột thì bằng nhau.  Nếu F   thì bác bỏ giả thuyết cho rằng không ( F  n 1  )(m 1  ),nm(r 1  )(1 ) AB H0
có sự tƣơng tác giữa nhân tố hàng và nhân tố cột.
Ví dụ 2: Hàm lƣợng saponin (mg) của cùng một loại dƣợc liệu đƣợc thu hái
trong 2 mùa (khô và mƣa; trong mỗi mùa lấy mẫu 3 lần: đầu mùa, giữa mùa,
cuối mùa) và từ 3 miền (Nam, Trung, Bắc
) thu đƣợc kết quả sau: Miền Mùa Thời điểm Nam Trung Bắc 138 Đầu mùa 2,4 2,1 3,2 Khô Giữa mùa 2,4 2,2 3,2 Cuối mùa 2,5 2,2 3,4 Đầu mùa 2,5 2,2 3,4 Mƣa Giữa mùa 2,5 2,3 3,5 Cuối mùa 2,6 2,3 3,6
Hãy cho biết hàm lƣợng Saponin có khác nhau theo mùa hay miền không?
Nếu có thì 2 yếu tố mùa và miền có sự tƣ n
ơ g tác với nhau hay không?  = 0,05. Giải: Miền Nam Trung Bắc T Mùa i** 2,4 2,1 2,2 Khô 2,4 2,2 2,3 7,3 6,5 6,8 20,6 2,5 2,2 2,3 2,5 3,2 3,4 Mƣa 2,5 3,2 3,5 7,6 9,8 10,4 27,8 2,6 3,4 3,5 T*j* 14,9 16,3 17,2 T = 48,4 : Tính: 2  ixj 134,64 k i, j,k 2 2 2  i T    ** 20, 6 27,8 1197, 2 i 2 2 2  * T    j* 20,6 27,8 783,54 j 2 2 2 2 2 2 2  T        ij* 7,3 7,6 6,5 6,8 9,8 10,4 403,74 i, j T2 = 48,42 = 2342,56    T SST i x jk x 2 2 2 2342,56       i x jk 134, 64 4,4978 ,i ,jk ,i ,j k nmr 18 139 2 T     T SSA mr i xx i** 2 2 i 1197,2 2342,56      ** 2,88 i mr nmr 9 18 2 T  *j*
SSB nr x   2 2 j T 783,54 2342,56 x      * j* 0, 448 i nr nmr 6 18 2  xij* 2 i, j 2 403,74
SSE SST SSA SSB SSAB   ixj  134,64   0,06 k i, j,k r 3
SSAB = SST – SSA – SSB – SSAB = 4,4978 – 2,88 – 0,448 – 0,06 = 1,1098 Bảng ANOVA:
Tổng bình phƣơng Bậc Trung bình bình Nguồn F (SS) tự do phƣơng Yếu tố SSA 2,88 1 MSA  =2,88 FA = 576 A(Mùa) n 1 SSB Yếu tố MSB  = 0,448 2 m 1 F B(Miền) B = 44,8 0,224 Tƣơng tác AB SSAB = 1,1098 2 MSAB = 0,5549 F 110,98 AB Sai số SSE = 0,06 12 MSE = 0,005 Tổng SST = 4,4978 17 Kết luận:
FA > F1;12(0,95) = 4,7472 => Bác bỏ giả thuyết hàm lƣợng Saponin giống nhau theo mùa.
FB > F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết hàm lƣợng Saponin giống nhau theo miền.
FAB > F2;12(0,95) = 3,8853 => Bác bỏ giả thuyết nhân tố mùa và miền
không có tƣơng tác với nhau. BÀI TẬP
Bài 1: Điều tra số liệu về đƣờng kính thân cây (m )
m của một loại cây lâm 140
nghiệp đƣợc trồng ở ba vùng khác nhau đƣợc kết quả sau: Vùng 1: 7,5 6,8 7 ,1 7,5 6,8 6,6 7,8 Vùng 2: 5,8 5,6 6 ,1 6,0 5,7 Vùng 3: 6,1 6,3 6 ,5 6,4 6,5 6,3
Hỏi đƣờng kính thân cây có khác nhau theo vùng hay không? Với mức ý nghĩa 5%.
Bài 2: So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, ngƣời ta đƣợc kết quả tăng trọng (kg) nhƣ s au: A: 1,0 1,2 1,4 1,1 0,8 0,6 B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8 C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2
Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với mức ý nghĩa là 0,01.
Bài 3: Một nghiên cứu đƣợc thực hiện nhằm xem xét năng suất lúa trung
bình của 3 giống lúa. Kết quả thu thập qua 4 năm nhƣ sau: Năm A B C 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76
Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không? Với   0,01.
Bài 4: So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách
chia 20 bệnh nhân thành 4 nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên.
Kết quả mức độ giảm đau là: A: 82 89 77 72 92 B: 80 70 72 90 68 C: 77 69 67 65 57 D: 65 75 67 55 63
Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không với   0,05 ? 141
TÀI LIỆU THAM KHẢO
1. Đào Hữu Hồ (2007). Xác suất thống kê. Nhà xuất bản Đại học Quốc gia, Hà Nội.
2. Nguyễn Văn Hữu, Nguyễn Hữu Dƣ (2003). Phân tích thống kê và dự
báo. Nhà xuất bản Đại học Quốc gia, Hà Nội.
3. Tống Đình Quỳ (2007). Giáo trình xác suất thống kê. Nhà xuất bản Bách Khoa, Hà Nội.
4. Đặng Hùng Thắng (2008). Mở đầu về lý thuyết xác suất và ứng dụng (tái
bản lần thứ 3). Nhà xuất bản Giáo dục.
5. Đặng Hùng Thắng (2009). Thống kê và ứng dụng. Nhà xuất bản Giáo dục.
6. D.R. Anderson, D.J. Sweeney, T.A. Williams (1994). Introduction to
Statistics Concepts and Applications. Third edition, West Publishing Company.
7. Pierre Lafaye de Micheaux, Rémy Drouilhet, Benoît Liquet (2011). Le
logiciel R - Maîtriser le langage Effectuer des analyses statistiques. Nhà xuất bản Springer. 142 MỤC LỤC
Chƣơng 1. BIẾN CỐ NGẪU NHIÊN VÀ PHÉP TÍNH XÁC SUẤT ............. 3
1.1. Các khái niệm mở đầu ..................................................................................... 3
1.1.1. Phép thử ngẫu nhiên ...........................................................................................3
1.1.2. Không gian mẫu ..................................................................................................3
1.1.3. Biến cố ..................................................................................................................4
1.1.4. Quan hệ giữa các biến cố ...................................................................................6
1.2. Các định nghĩa về xác suất ............................................................................. 9
1.2.1. Định nghĩa xác suất cổ điển ............................................................................. 10
1.2.2. Định nghĩa xác suất thống kê ........................................................................... 13
1.2.3. Định nghĩa xác suất theo hệ tiên đề (Đọc thêm) ............................................. 14
1.3. Các công thức tính xác suất.......................................................................... 16
1.3.1. Công thức cộng xác suất .................................................................................. 16
1.3.2. Công thức nhân xác suất .................................................................................. 18
1.4. Công thức Bernoulli ..................................................................................... 27
1.4.1. Dãy phép thử Bernoulli .................................................................................... 27
1.4.2. Công thức Bernoulli .......................................................................................... 27
1.5. Công thức xác suất đầy đủ và công thức Bayes ........................................... 31
1.5.1. Giới thiệu khái niệm nhóm đầy đủ ................................................................... 31
1.5.2. Công thức xác suất đầy đủ và công thc Bayes .............................................. 32
TÓM TẮT CHƢƠNG I...................................................................................... .36
Chƣơng 2. BIẾN NGẪU NHIÊN ..................................................................... 38
2.1. Khái niệm biến ngẫu nhiên ......................................................................... .38
2.1.1. Khái niệm ........................................................................................................... 38
2.1.2. Phân loại............................................................................................................ 39
2.2. Luật phân phối xác suất ................................................................................ 40
2.2.1. Hàm phân phối xác suất ................................................................................... 40
2.2.2. Bảng phân phối xác suất .................................................................................. 40
2.2.3. Phân phối xác suất cho biến ngẫu nhiên liên tục ........................................... 42 143
2.3. Các số đặc trƣng của biến ngẫu nhiên .......................................................... 45
2.3.1. Kỳ vọng toán ...................................................................................................... 46 2.3.2. Phư n
ơ g sai ......................................................................................................... 48
2.3.3. Một số đặc trưng khác ....................................................................................... 50
2.4. Một vài quy luật phân phối xác suất thƣờng gặp ......................................... 52
2.4.1. Phân phối chuẩn ................................................................................................ 52
2.4.2. Phân phối nhị thức ............................................................................................. 55
2.4.3. Phân phối Poisson ............................................................................................. 58
2.4.4. Phân phối khi bình phương ............................................................................... 59
2.4.5. Phân phối Student .............................................................................................. 60
2.4.6. Phân phối Fisher (Phân phối F) ....................................................................... 61
2.5. Sơ lƣợc về biến ngẫu nhiên hai chiều (Đọc thêm) ....................................... 61
2.5.1. Phân phối đồng thời .......................................................................................... 61
2.5.2. Phân phối có điều kiện ...................................................................................... 63
2.5.3. Kỳ vọng có điều kiện .......................................................................................... 64
Chƣơng 3. MẪU THỐNG KÊ VÀ THỐNG KÊ MÔ TẢ .............................. 67
3.1. Một vài khái niệm cơ bản ............................................................................. 67
3.1.1. Tổng thể và mẫu ................................................................................................. 67
3.1.2. Các phương pháp trình bày mẫu ...................................................................... 68
3.1.3. Hàm phân phối thực nghiệm ............................................................................. 72
3.2. Các số đặc trƣng mẫu ................................................................................... 73
3.2.1. Kỳ vọng mẫu, phư n
ơ g sai mẫu ......................................................................... 73
3.2.2. Cách tính giá trị cụ thể của trung bình mẫu và phương sai mẫu ................... 74
3.2.3. Các đặc trưng khác ............................................................................................ 75
3.2.4. Phân phối của kỳ vọng mẫu và phương sai mẫu ............................................. 76
Chƣơng 4. ƢỚC LƢỢNG THAM SỐ ............................................................. 79
4.1. Ƣớc lƣợng điểm ............................................................................................ 79
4.1.1. Khái niệm ước lượng điểm và tính chất ........................................................... 79
4.1.2. Phƣơng pháp ƣớc lƣợng hợp lý cực đại ........................................................... 81 144
4.2. Ƣớc lƣợng khoảng ........................................................................................ 83
4.2.1. Khoảng tin cậy cho kỳ vọng của biến ngẫu nhiên X có phân phối chuẩn ..... 84
4.2.2. Khoảng tin cậy cho xác suất ............................................................................ 87
4.2.3. Khoảng tin cậy cho phương sai ....................................................................... 89
4.3. Bài toán xác định cỡ mẫu ............................................................................. 90
4.3.1. Trường hợp ước lượng cho giá trị trung bình ................................................. 90
4.3.2. Trường hợp ước lượng cho tỷ lệ ...................................................................... 90
Chƣơng 5. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ .................................. 94
5.1. Đặt vấn đề ..................................................................................................... 94
5.2. Bài toán và phƣơng pháp chung giải quyết kiểm định giả thuyết .............. .94
5.3 Các bài toán kiểm định giả thuyết thƣờng gặp ............................................. 97
5.3.1. Bài toán kiểm định giả thuyết cho kì vọng ...................................................... 97
5.3.2. Kiểm định cho xác suất hay tỉ lệ .................................................................... 102
5.3.3. Kiểm định cho phương sai .............................................................................. 104
5.4. Bài toán so sánh các tham số ...................................................................... 106
5.4.1. So sánh hai giá trị trung bình ......................................................................... 106
5.4.2. Bài toán so sánh hai tỉ lệ (xác suất) ............................................................... 109
5.4.3. Bài toán so sánh hai phương sai ................................................................... 111
5.5. Kiểm định tính độc lập của hai biến ngẫu nhiên (hai dấu hiệu) ................ 111
Chƣơng 6. SƠ LƢỢC VỀ LÝ THUYẾT TƢ N
Ơ G QUAN VÀ HỒI QUY 118
TUYẾN TÍNH .................................................................................................. 118
6.1. Phân tích tƣơng quan tuyến tính ................................................................ 118
6.1.1. Định nghĩa ....................................................................................................... 118
6.1.2. Tính chất .......................................................................................................... 118
6.1.3. Tiêu chuẩn độc lập của hai biến ngẫu nhiên ................................................ 118 6.1.4. Hệ số tư n
ơ g quan mẫu .................................................................................... 118
6.2.1. Mô hình ............................................................................................................ 120
6.2.2. Ước lượng bình phương cực tiểu ................................................................... 121
Chƣơng 7. PHÂN TÍCH PHƢ N
Ơ G SAI ....................................................... 126 145
7.1. Phân tích phƣơng sai một nhân tố (One -Way Analysis of Variance) ............ 127
7.2. Phân tích phƣơng sai hai nhân tố (Đọc thêm) (Two -Way Analysis of Variance) 133
7.2.1. Trường hợp các nhân tố không tương tác ............................................... 133
7.2.2. Trường hợp các nhân tố có tương tác ..................................................... 136
TÀI LIỆU THAM KHẢO ............................................................................. .142
MỤC LỤC ........................................................................................................ 143 146 PHỤ LỤC 147