Phân tích phương sai | Xác suất thống kê | Đại học Bách Khoa Hà Nội

Phân tích phương sai | Xác suất thống kê | Đại học Bách Khoa Hà Nội. Tài liệu được biên soạn giúp các bạn tham khảo, củng cố kiến thức, ôn tập và đạt kết quả cao kết thúc học phần. Mời các bạn đọc đón xem!

Đặ Đng Thành Danh - HNL 1
PHÂN TÍCH PHƯƠNG SAI
(ANOVA - ) ANALYSIS OF VARIANCE
1. Phân tích phương sai 1 nhân tố
Gi
s nhân t A có k mc X , X , … , X v i X có phân ph i chu n N(a, ) có m u
1 2 k
j
s
2
điu tra
X X
1
X ---
2 k
x
11
x
21
:
:
1
1
n
x
x
12
x
22
:
:
:
2
2
n
x
x
1k
x
2k
:
:
kn
k
x
Vi m c ý ngh ĩa , hãy ki m nh gi thi t : a đị ế
H : a = a = … = a
0 1 2 k
H : “T n t i j sao cho a
1
1
¹j
2 j1
≠a
j2
· Đặt:
§ Tng s quan sát: n =
å
=
k
j
j
n
1
§ Trung bình m u nhóm j ( j =1, .. , k ):
j
j
n
i
ij
j
j
n
T
x
n
x
j
==
å
=1
1
v i
å
=
=
j
n
i
ijj
xT
1
§ Trung bình m u chung:
n
T
x
n
x
k
j
n
i
ij
i
==
åå
= =1 1
1
v i
ååå
== =
==
k
j
j
k
j
n
i
ij
TxT
j
11 1
§ Ph ng sai hi u ch nh nhóm j: ươ
å
=
-
-
=
j
n
i
jij
j
j
xx
n
S
1
22
)(
1
1
§ SST =
å å
= =
-
k
j
n
i
ij
j
xx
1 1
2
)( T ng bình ph ng các ươ độ l ch.
§ SSA =
å
=
-
k
j
jj
xxn
1
2
)( T ng bình ph ng l ch riêng c a các nhóm so v i ươ độ x
· Tính SST b ng cách chèn thêm
j
x và khai tri n thì được:
SST =
å åå åå å
= == == =
-+-=-+-
k
j
n
i
j
ij
k
j
n
i
j
k
j
n
i
jj
ij
jjj
xxxxxxxx
1 1
2
1 1
2
1 1
2
)()()(
0))((2)()(2))((2
1 11 11 1
=---=---=---
å åå ååå
= == == =
k
j
n
i
j
jij
j
k
j
n
i
j
ij
j
k
j
n
i
jj
ij
jjj
xnxxxxxxxxxxx
SST= SSESSAxxxxn
k
j
n
i
j
ij
k
j
j
j
j
+=-+-
ååå
= == 1 1
2
1
2
)()( v i SSE =
å å
= =
-
k
j
n
i
j
ij
j
xx
1 1
2
)(
Đặ Đng Thành Danh - HNL 2
* T ng th nh t SSA=
å
=
-
k
j
j
j
xxn
1
2
)( đặ c trưng s khác nhau gi a các nhóm.
* T ng th hai
åå
= =
-
k
j
n
i
j
ij
j
xx
1 1
2
)( c tr ng s khác nhau gi a s li u trong n i b nhóm. đặ ư
k
n
SSE
MSE
k
SSA
MSA
SSASSTSSE
n
T
n
T
SSA
n
T
xSST
k
j
j
j
k
j
n
i
ij
j
-
=
-
=
-=-=-=
åå å
== =
1
2
1
2
2
1 1
2
· Nếu H
0
đúng thì F =
MSE
MSA
có phân ph i Fisher b c t do k-1; n-k
· Min B
a
: F > F
k-1; n-k ; 1-a
Bng ANOVA
Ngun sai s T ng bình ph ươ
ng
SS
Bc t do
df
Bình ph ng trung bình ươ
MS
Giá tr th ng kê
F
Yếu t
(Between Group)
SSA k-1
1
=
k
SSA
MSA
MSE
MSA
F =
Sai s
(Within Group)
SSE = SST - SSA n-k
k
n
SSE
MSE
=
Tng c ng SST n-1
Ví d :
Hàm l ng Alcaloid (mg) trong m t lo i d c li u ượ ượ được thu hái t 3 vùng khác nhau c s đượ
liu sau:
Vùng 1 : 7,5 6,8 7,1 7,5 6,8 6,6 7,8
Vùng 2 : 5,8 5,6 6,1 6,0 5,7
Vùng 3 : 6,1 6,3 6,5 6,4 6,5 6,3
Hi hàm lượng Alcaloid có khác nhau theo vùng hay không?
Giải:
Vùng 1 Vùng 2 Vùng 3
7,5
6,8
7,1
7,5
6,8
6,6
7,8
5,8
5,6
6,1
6,0
5,7
6,1
6,3
6,5
6,4
6,5
6,3
n
j
7 5 6 N=18
T
j
50,1 29,2 38,1 T=117,4
å
i
ij
x
2
359,79 170,7 242,05
å å
2
ij
x =772,54
Đặ Đng Thành Danh - HNL 3
SST= 772,54 –
18
)4,117(
2
= 6,831111
SSA= 326968,5
18
)4,117(
6
)1,38(
5
)2,29(
7
)1,50(
2222
=-++
SSE = SST – SSA = 1,5041428
Ngun SS Df MS F
F
k-1; n-k ; 1-a
Yếu t
Sai s
5,326968
1,5041428
2
15
2,663484
0,1002761
26,561504 3,68
Tng c ng 6,831111 17
F > FÞ
k-1; n-k ; 1-a
nên bác b H
0
ch p nh n H
1.
V y hàm l ng Alcaloid có sai khác theo vùng. ượ
Dùng Excel
1. N ếu trong menu Tools chưa có m c Data Analysis… thì ti ến hành cài Analysis ToolPak nh ư
sau: Tools \ Add-Ins \ ch oolPak\ OK ọn Analysis T
2. Chn Tools\ Data Analysis …
Đặ Đng Thành Danh - HNL 4
3. Nhp d li u theo c t
4. Chn m c : Anova: Single Factor
5. Ch n các m ưc nh hình:
Đặ Đng Thành Danh - HNL 5
6. K ết quả
Anova: Single Factor
SUMMARY
Groups Count Sum Average Variance
Vùng 1 7
50.1
7.157143
0.202857
Vùng 2 5
29.2
5.84
0.043
Vùng 3 6
38.1
6.35
0.023
ANOVA
Source of Variation SS df MS F P-value F crit
Between Groups 5.326968
2
2.663484
26.56148
1.17756E-05
3.682316674
Within Groups 1.504143
15
0.100276
Total 6.831111
17
Bài t p
1. So sánh 3 loi thu c b A, B, C trên 3 nhóm, ng ười ta được k t qu t ng tr ng(kg) nh sau:ế ă ư
A: 1,0 1,2 1,4 1,1 0,8 0,6
B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8
C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2
Hãy so sánh k t qu t ng tr ng c a 3 lo i thu c b trên v i = 0,01 ế ă a
2. M ột nghi ứu được thực hiện nhằm xem xét năng suất lúa trung b ủa 3 giống lúaên c ình c .
Kết quả thu thập qua 4 năm như sau:
Năm A B C
1 65 69 75
2 74 72 70
3 64 68 78
4 83 78 76
Hãy cho bi t ế năng suất lúa trung b ủa 3 ống lúaình c gi có khác nhau hay không? =0,01 a
3. So sánh hiu qu gim au c a 4 lo i thu c A, B, C, D b ng cách chia 20 b nh nhân thành 4 đ
nhóm, m i nhóm dùng m t lo i thu c gi m đ đau trên. K t qu mế c giđộ m au là:
A: 82 89 77 72 92
B: 80 70 72 90 68
C: 77 69 67 65 57
D: 65 75 67 55 63
Hi hiu qu gi m au c a 4 lo i thu c có khác nhau không? đ
Nếu hiu qu gi m đau c a 4 lo i thu c A, B, C, D khác nhau có ý ngh a, hãy so sánh t ng c p ĩ
thuc vi = 0,05 a
Đặ Đng Thành Danh - HNL 6
2. Phân tích phương sai 2 nhân tố không lặp
Phân tích nh m nh giá s nh h ng c a 2 nhân t (y đá ưở ếu t ) A và B trên các giá tr quan sát x
ij
Gi s nhân t A có n m c a , a , … , a (nhân t hàng)
1 2 n
B có m m c b , b , … , b (nhân t c t)
1 2 m
* M u u tra: đi
B
A
b
1
b
2
¼
b
m
a x x x
1 11 12
¼
1m
a x x x
2 21 22
¼
2m
: : : :
: : : :
a x x x
n n1 n2
¼
nm
* Gi thi t H : ế
0
· Trung bình nhân t c t b ng nhau
· Trung bình nhân t hàng b ng nhau
· Không có s t ng tác gi a nhân t c t và hàng ươ
* Ti n hành tính toán theo b ng d i y: ế ướ đâ
B
A
b
1
b
2
¼
b
m
T
i*
=
å
j
ij
x
å
j
ij
x
2
a T
1
x
11
x
12
¼
x
1m 1*
å
j
j
x
2
1
a T
2
x
21
x
22
¼
x
2m 2*
å
j
j
x
2
2
: : : : :
: : : : :
a T
n
x
n1
x
n2
¼
x
nm n*
å
j
nj
x
2
T
*j
=
å
i
ij
x
T
*1
T
*2
T
*m
å
=
ji
ij
xT
,
å
i
ij
x
2
å
i
i
x
2
1
å
i
i
x
2
2
å
i
im
x
2
å
ji
ij
x
,
2
* B ng ANOVA
Ngun SS df MS F
Yếu t A
SSA=
n
m
T
m
T
i
i
.
2
2
*
-
å
n-1
1
(
-
=
n
SSA
AMS
SSE
SSA
F
A
=
Yếu t B
SSB=
n
m
T
n
T
j
j
.
2
2
*
-
å
m-1
1
-
=
m
SSB
MSB
SSE
SSB
F
B
=
Sai s SSE=SST-SSA-SSB (n-1)(m-1)
)1)(1( --
=
mn
SSE
MSE
T
ng
SST=
nm
T
x
ji
ij
.
2
,
2
-
å
nm-1
Đặ Đng Thành Danh - HNL 7
* K t lu n : ế
· Nếu F > F
A n-1 ; (n-1)(m-1) ; 1-a
thì bá c b y u t A (h àng) ế
· Nếu F > F
B m-1 ; (n-1)(m-1) ; 1-a
thì bá c b y u t B (c t) ế
Ví d :
Chi t su t ch t X t 1 lo i d c li u b ng 3 ph ng pháp và 5 lo i dung môi, ta có k t qu : ế ượ ươ ế
PP Chi t su t (B) ế
Dung môi (A)
b
1
b
2
b
3
a
1
a
2
a
3
a
4
a
5
120
120
130
150
110
60
70
60
70
75
60
50
50
60
54
Hãy xét nh h ng c a ph ưở ương pháp chi t su t và dung môi n k t qu chi t su t ch t X ế đế ế ế
v i =0,01 a
Giải: Gi thiết H : * Trung bình c
0
a 3 phương pháp chiết sut bng nhau
* Trung bình c a 5 dung môi b ng nhau
* Không có s t ng tác gi a ph ng pháp chi su t và dung môi ươ ươ ế
Tính toán:
B
A
b
1
b
2
b
3
T
i*
å
j
ij
x
2
a
1
a
2
a
3
a
4
a
5
120
120
130
150
110
60
70
60
70
75
60
50
50
60
54
240
240
240
280
239
21600
21800
23000
31000
20641
T
*j
630 335 274 T=1239
å
i
ij
x
2
80300 22625 15116
å
ji
ij
x
,
2
=118041
SST =
nm
T
x
ji
ij
.
2
,
2
-
å
=118041-
35
)1239(
2
x
= 155699,6
SSA =
n
m
T
m
T
i
i
.
2
2
*
-
å
=
15
)1239(
3
308321
2
- = 432,2667
SSB =
n
m
T
n
T
j
j
.
2
2
*
-
å
= 8,14498
15
)1239(
5
584201
2
=-
SSE = SST - SSA- SSB = 768,5333
Ngun SS df MS F
Yếu t A SSA= 432,2667 4 MSA = 108,0667 F = 1,1249
A
Y
ếu t B
SSB= 8,14498
2 MSB = 7249,4 F
B
= 75,4622
Sai s SSE= 768,5333 8 MSE = 96,0667
Tng SST = 155699,6 14
Þ F < F
A 4 ; 8 ; 0,99
= 7,006 Dung môi không nh h ng n kÞ ưở đế ế t qu chiết su t.
F > F
B 2 ; 8 ; 0,99
= 8,649 Ph ng pháp nh h ng n k t qu chi t su t. Þ ươ ưở đế ế ế
Đặ Đng Thành Danh - HNL 8
Dùng Excel
· Nhp d li u
· Chn Tools\Data Analysis…\Anova: Two-Factor without replication
· Ch n các m c nh hình ư
· Kết qu
Anova: Two-Factor
Without Replication
SUMMARY Count Sum
Average Variance
a1 3 240
80
1200
a2 3 240
80
1300
a3 3 240
80
1900
a4 3 280
93.33333333
2433.333333
a5 3 239
79.66666667
800.3333333
b1 5 630
126
230
b2 5 335
67
45
b3 5 274
54.8 25.2
ANOVA
Source of Variation SS df MS F P-value F crit
Rows 432.2666667
4
108.0666667
1.124913255
0.409397603
7.006065061
Columns 14498.8 2
7249.4
75.46217904
6.42093E-06
8.64906724
Error 768.5333333
8
96.06666667
Total 15699.6 14
Đặ Đng Thành Danh - HNL 9
Bài t ập
1) Nghiên c u v hiu qu ca 3 loi thu c A, B, C dùng u tr ch ng suy nh c th n kinh. 12 đi ượ
người bnh được chia làm 4 nhóm theo m c độ bnh 1 , 2 , 3 , 4 ; trong m i nhóm chia ra để
cùng dùng 1 trong 3 lo i thu c trên. Sau 1 tu n u tr đi , k t qu nh giá b ng thang m nh ế đá đi ư
sau:
M c b nh độ
Thu
c
1 2 3 4
A
B
C
25
30
25
40
25
20
25
25
20
30
25
25
Hãy nh giá hi u qu c a các lo i thu c A, B, C có khác nhau hay không ? v i = 0,01 đá a
2) M ột nghi ứu được thực hiện nên c hằm xem xét sự li ệ giữa loại phân bón, giống lúa đến năng ên h
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau:
Gi ng lúa
Lo
i phân bón
A B C
1 65 69 75
2 74 72 70
3 64 68 78
4 83 78 76
Hãy nh giá s nh h ng gi ng lúa, lo phân bón trên n ng su t lúa, = 0,05. đá ưở ại ă a
3) Để khảo sát ảnh hưởng của 4 loại thuốc trừ sâu (1, 2, 3 v ại giống (B1, B2 và B3) đến à 4) và ba lo
sản lượng của cam, các nh ứu tiến h ột thí nghiệm loại giai thừa. Trong thí à nghiên c ành m
nghiệm n ỗi giống cam có 4 cây cam được chọn một cách ngẫu nhi ại thuốc trừ ày, m ên, và 4 lo
sâu áp d ên) cho m ụng (cũng ngẫu nhi ỗi cây cam.
Kết quả nghi ứu (sản lượng cam) cho từng giống v ốc trừ sâu như sau:ên c à thu
Thuc tr sâu
Gi
ng Cam
1 2 3 4
B1 29 50 43 53
B2 41 58 42 73
B3 66 85 63 85
Hãy cho bi t thu c trế u, ging cam có nh h ng n s n l ng cam không? = 0,05 ưở đế ượ a
4) 4 chuyên gia tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công
ty trong ngành nh ựa. Dự đoán được ghi nhận như sau:
Chuyên gia
Công ty
A B C D
1 8 12 8,5 13
2 9 14 10 11
3 9 11 12 10
4 9 13 10 13
5 12 10 10 10
Hãy l ình là nhập bảng ANOVA. Có thể nói rằng dự đoán tốc độ tăng trưởng trung b ư nhau cho
cả 5 công ty nhựa được không?
Đặ Đng Thành Danh - HNL 10
3. Phân tích phương sai 2 nhân tố có lặp
Tương t nh ư bài toán phân tích phương sai 2 nhân t không lp , ch khác m i m c ((a , b )
i j
đều có
s l p l i r l n thí nghi m và ta c n kh o sát thêm s t ng tác (interaction term) F gi a 2 nhân t ươ
AB
A và B.
* M : ẫu điều tra
B
A
b
1
b
2
¼
b
m
a
1
x
111
x
112
:
:
x
11r
x
121
x
122
:
:
x
12r
¼
x
1m1
x
1m2
:
:
x
1mr
a
2
x
211
x
212
:
:
x
21r
x
221
x
222
:
:
x
22r
¼
x
2m1
x
2m2
:
:
x
2mr
: : : :
: : : :
a
n
x
n11
x
n12
:
:
x
n1r
x
n21
x
n22
:
:
x
n2r
¼
x
nm1
x
nm2
:
:
x
nmr
* X : Tính t ng hàng T = ử lý mẫu
i**
å
kj
ijk
x
,
, t ng c t T =
*j*
å
ki
ijk
x
,
B
A
b
1
b
2
¼
b
m
Ti**
a
1
x
111
x
112
:
:
x
11r
x
121
x
122
:
:
x
12r
¼
x
1m1
x
1m2
:
:
x
1mr
T =
1**
å
kj
jk
x
,
1
a
2
x
211
x
212
:
:
x
21r
x
221
x
222
:
:
x
22r
¼
x
2m1
x
2m2
:
:
x
2mr
T =
2**
å
kj
jk
x
,
2
: : : :
: : : :
a
n
x
n11
x
n12
:
:
x
n1r
x
n21
x
n22
:
:
x
n2r
¼
x
nm1
x
nm2
:
:
x
nmr
T
n**
=
å
kj
njk
x
,
T
*j*
T =
*1*
å
ki
ki
x
,
1
T =
*2*
å
ki
ki
x
,
2
T =
*m*
å
ki
imk
x
,
T=
å
kji
ijk
x
,,
Đặ Đng Thành Danh - HNL 11
Cần tính:
å
kji
ijk
x
,,
2
å
i
i
T
2
**
å
j
j
T
2
**
å
ji
ij
T
,
2
*
Suy ra
SST =
nmr
T
xxx
kji
ijk
kji
ijk
2
,,
22
,,
)(
-=-
åå
SSA = mr
nmr
T
mr
T
xx
i
i
i
i
2
2
**
2
**
)( -=-
å
å
SSB = nr
nmr
T
nr
T
xx
j
j
j
j
2
2
**
2
**
)( -=-
å
å
SSAB = r
nmr
T
mr
T
nr
T
r
T
xxxx
i
i
j
j
ji
ij
ij
jiij
2
2
**
2
**
,
2
*
2
,
*****
)( +--=+--
å
å
å
å
SSE = SST – SSA – SSB – SSAB =
r
x
x
ji
ij
kji
ijk
å
å
-
,
2
*
,,
2
* B ảng ANOVA
Ngun SS df MS F
Y
ếu t A
SSA
n-1
1
-
=
n
SSA
MSA
MSE
MSA
F
A
=
Y
ếu t B
SSB
m-1
1
-
=
m
SSB
MSB
MSE
MSB
F
B
=
Tương tác AB SSAB (n-1)(m-1)
)1)(1( --
=
mn
SSAB
MSAB
MSE
MSAB
F
AB
=
Sai s SSE nm(r-1)
)1( -
=
rnm
SSE
MSE
Tng SST nmr-1
* K t lu n ế
· Nếu F > F
A n-1 ; nm(r-1) ; 1-a
thì bác b y u t A (h àng) ế
· Nếu F > F
B m-1 ; nm(r-1) ; 1-a
thì bác b y ế u t B (c t)
· Nếu F > F
AB (n-1)(m-1) ; nm(r-1) ; 1-a
thì có s t ng tác gi a A và B ươ
Đặ Đng Thành Danh - HNL 12
Ví d : Hàm l ng saponin (mg) c a cùng m ượ t lo i d ưc li u đưc thu hái trong 2 mùa (khô và m a: ư
trong m i mùa l y m u 3 l n - u mùa, gi a mùa, cu i mùa) và t 3 mi n (Nam, Trung, B c) đầ
thu c k t qu sau: đượ ế
Min
Mùa Th i m đi
Nam Trung B c
Khô
Đầu mùa
Gia mùa
Cui mùa
2,4
2,4
2,5
2,1
2,2
2,2
3,2
3,2
3,4
Mưa
Đầu mùa
Gia mùa
Cui mùa
2,5
2,5
2,6
2,2
2,3
2,3
3,4
3,5
3,5
Hãy cho bi t hà ng saponin có khác nhau theo mùa hay mi n không? N u có thì 2 y u t ế m lượ ế ế
mùa và mi n có s t ng tác v i nhau hay không? = 0,05 ươ a
Gii:
Mi n
Mùa
Nam Trung B c T
i**
Khô
2,4
2,4
2,5
7,3
2,1
2,2
2,2
6,5
2,2
2,3
2,3
9,8
23,6
Mưa
2,5
2,5
2,6
7,6
3,2
3,2
3,4
6,8
3,4
3,5
3,5
10,4
24,8
T
*j*
14,9 13,3 20,2 T = 48,4
Tính :
·
å
kji
ijk
x
,,
2
= 134,64
·
å
i
i
T
2
**
= 23,6
2
+ 24,8
2
= 1172
·
å
j
j
T
2
**
= 14,9 + 13,3 + 20,2 = 806,94
2 2 2
·
å
ji
ij
T
,
2
*
= 7,3
2
+ 7,6
2
+ 6,5
2
+ 6,8
2
+ 9,8
2
+ 10,4
2
= 403,74
·
T
2
= 48,4 = 2342,56
2
SST = 4978,4
18
56,2342
64,134
2
,,
2
=-=-
å
nmr
T
x
kji
ijk
SSA =
08,0
18
56,2342
9
1172
2
2
**
=-=-
å
nmr
T
mr
T
i
i
SSB = 3478,4
18
56,2342
6
94,826
2
2
**
=-=-
å
nmr
T
nr
T
j
j
SSE = 06,0
3
74,403
64,134
,
2
*
,,
2
=-=-
å
å
r
x
x
ji
ij
kji
ijk
SSAB= SST – SSA – SSB – SSAB = 4,4978 - 0,08 - 0,06 - 4,3478 = 0,01
Đặ Đng Thành Danh - HNL 13
Bng ANOVA
Ngun SS df MS F
Yếu t A (mùa) 0,08 1 0,08 F = 16
A
Yếu t B (mi n) 4,3478 2 2,1739 F = 434,78
B
Tương tác AB 0,01 2 0,005 F = 1
AB
Sai s 0,06 12 0,005
Tng 4,4978 17
Þ F > F = 4,7472 : Hàm l ng saponin khác nhau theo mùa.
A 1; 12; 0,95
ượ
F > F
B 2; 12 ; 0,95
= 3, 8853 : Hàm l ng saponin khác nhau theo mi n. ượ
F < F
AB 2 ; 12 ; 0,95
= 3,8853 : ch p nh n H
0
( không t ng tác) ươ
Vy hàm l ng saponin trong d c li u khác nhau theo mùa , theo mi n và không có s t ng tác gi a ượ ượ ươ
mùa và mi n trên hàm l ng saponin. ượ
Dùng EXCEL
* Nh p d li u
* Ch n Tools\Data Analysis…\Anova: Two Factor With Replication
* Ch n các m c nh ư hình
Đặ Đng Thành Danh - HNL 14
* B ng ANOVA
Anova: Two-Factor With
Replication
SUMMARY Nam Trung Bac Total
Count 3
3
3
9
Sum 7.3
6.5
9.8
23.6
Average 2.433333
2.166667
3.266667
2.622222222
Variance 0.003333
0.003333
0.013333
0.251944444
Count 3
3
3
9
Sum 7.6
6.8
10.4
24.8
Average 2.533333
2.266667
3.466667
2.755555556
Variance 0.003333
0.003333
0.003333
0.300277778
Total
Count 6
6
6
Sum 14.9
13.3
20.2
Average 2.483333
2.216667
3.366667
Variance 0.005667
0.005667
0.018667
ANOVA
Source of Variation SS df MS F P-value F crit
Sample 0.08
1
0.08
16
0.001761696
4.747221283
Columns 4.347778
2
2.173889
434.7777778
6.36194E-12
3.885290312
Interaction 0.01
2
0.005
1
0.396569457
3.885290312
Within 0.06
12
0.005
Total 4.497778
17
Bài t ập
1) M nh ột nghi ứu được thực hiện ên c ằm xem xét sự li ệ giữa loại phân bón, giống lúa và năng ên h
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau:
Ging lúa
Lo
i phân bón
A B C
1
65
68
62
69
71
67
75
75
78
2
74
79
76
72
69
69
70
69
65
3
64
72
65
68
73
75
78
82
80
4
83
82
84
78
78
75
76
77
75
Hãy cho bi t sế nh h ng c a lo i phân bón , gi ng lúa trên n ng su t , = 0,01 ưở ă a
Đặ Đng Thành Danh - HNL 15
2) i Đ u tra mc tăng trưởng chiu cao c a 1 lo i cây tr ng theo lo i t tr ng và lo i phân bón có đấ
kết qu:
Loi đất
Lo
i phân
1 2 3
A
5,5
5,5
6,0
4,5
4,5
4,0
3,5
4,0
3,0
B
5,6
7,0
7,0
5,0
5,5
5,0
4,0
5,0
4,5
Hi có s khác nhau c a mc t ng tr ng chi u cao theo lo i t và lo i phân bón ? =0,05 ă ưở đấ a
3) Nghiên c u s n lượng bông (t/ha) theo m t tr ng A và phân bón B thu c: độ đượ
Phân bón
Mt độ trng
b1 b2 b3 b4
a1
16
14
21
16
19
20
23
19
19
21
22
20
20
24
21
17
a2
17
15
17
19
19
18
18
20
21
21
22
23
20
20
22
19
a3
18
18
19
17
20
23
21
21
22
18
21
21
25
22
21
23
Hi có s khác nhau c a s n l ng bông theo m t tr ượ độ ng, theo phân bón v i m c =0,05 a
Đặ Đng Thành Danh - HNL 16
BÀI T ẬP
1) M ột nh y điện sử dụng các turbines được giải nhiệt ằng nước. Nếu nước được dung để à máy th b
giải nhiệt bị ô nhiễm th thốngì h y móc s òn. Do ẽ bxói m đó, người ta sử dụng các máy lọc
để l ảm mức ô ễm của nước. Giám đốc nh ốn trắc nghiệm tính ệu quả của 4 àm gi nhi à máy mu hi
máy l ã ọc đang sử dụng. Ở mỗi máy lọc người ta lấy ngẫu nhiên độc lập nhau 3 mẫu nước đ được
lọc và đo mức độ ô nhiễm. ết quả có được như sau:Các k
Máy l Máy l y l Máy l 4 ọc 1 ọc 2 ọc 3 ọc
10 11 13 23
9 16 8 18
5 9 9 25
2) M ột nghi ứu được thực hiện đso sánh tuổi thọ (giờ) của 4 nh ệu Pin: A, B, C, D. Kết ên c ãn hi
quả ghi nhận được như sau:
Hi Hi Hi Hiệu A ệu B ệu C ệu D
15 14 19 16
16 15 20 15
18 16 16 16
20 15 13 18
19 14 17
20
Yêu cầu: Giđịnh tuổi thọ pin phân phối chuẩn, phương sai bằng nhau. Với phương pháp
ANOVA, ình c ãn mức ý nghĩa 0,05, thể kết luận rằng tuổi thọ trung b ủa 4 nh
hiệu pin là không khác nhau được không?
3) Ba m ì cẫu thiết kế bao b ủa một loại sản phẩm được xem xét bằng cách thu thập doanh số (triệu
đồng/tuần) của mỗi loại bao b ột mẫu ngẫu nhi ửa h ết quả được ghi nhận ì trong m ên các c àng. K
trong b : ảng sau
M Mẫu bao b ẫu bao bì I M ì II ẫu bao bì III
18 24 19
16 25 24
29 21 24
26 31 28
29 22 15
14 29
12 32
23
Với kiểm định ANOVA ở mức ý nghĩa 0,01, có thể kết luận rằng các mẫu bao b ảnh ì không
hưởng đến doanh số được không? (Giả định doanh số theo các mẫu bao b ối chuẩn, ì có phân ph
phương sai bằng nhau).
Đặ Đng Thành Danh - HNL 17
4) M ột nhà sản xuất muốn kiểm tra xem 3 máy có công su khác nhau không. Ông ta ch ngất định ẫu
nhiên 15 công t ùng m pháp m vi trên nhân được đào ạoc ột phương ệc 3 máy (5 người1 máy).
Với mức rủi ro 5%, liệu 3 máy có công suất khác nhau?
Máy 1 y 2 Máy 3
25.40
26.31
24.10
23.74
25.10
23.40
21.80
23.50
22.75
21.60
20.00
22.20
19.75
20.60
20.40
5) Để so sánh hiệu năng của 3 loại thuốc diệt muỗi A, B, C người ta thực hiện một thực nghiệm như
sau: 21 thùng, m ùng nh ên các thùng này thành 3 ỗi th ốt vài trăm con muỗi. Chia ngẫu nhi
nhóm, m nhóm 7 thùng. Muỗi ỗi ở trong mỗi nhóm thùng được xịt một loại thuốc khác nhau A, B
hoặc C, tỉ lệ % muỗi chết được ghi nhận như sau:
Thuốc diệt muỗi A ốc diệt muỗi B ốc diệt muỗi C Thu Thu
68 58 71
80 60 62
69 70 58
76 51 74
68 57 65
77 71 59
60 61 57
Với kiểm định ANOVA ở mức ý nghĩa α = 0,05, c ể nói khả năng diệt muỗi (thể hiện thông ó th
qua t ch ình) cỉ lệ muỗi ết trung b ủa 3 loại thuốc là như nhau được không? (giả định muỗi chết có
phân ph ối chuẩn, phương sai bằng nhau).
6) Trưởng ph ỹ thuật của mộ ản xuất vỏ xe thực hiện một nghi ứu để đánh giá sự òng k t nhà máy s ên c
khác bi êm. Ch ên mệt về chất lượng sản phẩm giữa 3 ca sản xuất: sáng, chiều, đ ọn ngẫu nhi ột số
sản phẩm để kiểm tra, kết quả ghi nhận như sau:
Thời gian sản
xuất
Số sản
phẩm
Độ bền trung bình
(ngàn km)
Tổng bình phương
các sai l ệch
Sáng 10 25,95 6,255
Chiều 12 25,50 6,595
Tối 15 23,75 7,555
Yêu c : V ùy theo quyầu ới mức ý nghĩa t ết định của Anh (chị), có thể kết luận rằng có sự khác biệt
về độ bền giữa các sản phẩm sản xuất ra ở ca sáng, c ều và ca đêm hay không? Nếu a chi
có, s ào? ự khác biệt đó như thế n
Đặ Đng Thành Danh - HNL 18
7) Bốn trạm sửa chửa v ảo h ột th ố lớn tuy ố rằng khách h à b ành xe Honda trong m ành ph ên b àng s
được phục vụ nhanh chóng ngay khi xe được đưa tới trạm. Giám đốc phụ trách dịch vụ hậu mãi
ca hãng ti ành kiến h ểm tra chất lượng dịch vcủa các trạm bảo h ằng cách chọn ngẫu ành, b
nhiên khác hàng đến trạm trong giờ cao điểm (9 đến 11 giờ sáng) v ận thời gian chờ đợi à ghi nh
của họ. Một phần kết quả tính toán cho trong bảng sau:
Trạm bảo
hành
Số khách
hàng
Thời gian chờ TB
(phút) Phương sai
A 3 5,133333 0,323333
B 4 8 1,433333
C 5 5,04 0,748
D 4 6,475 0,595833
Lập bảng ANOVA. Số liệu tr ứng tỏ rằng thời gian chờ đợi của khách h ở các trạm ên có ch àng
bảo h ủa h ết luận ới mức ý nghĩa 0,05.ành c ãng là không khác nhau? K v
8) M ột h ản xuất ô thực hiện một nghi ứu để đo lường sự khác biệt mức nhi ệu tiãng s ên c ên li êu
thtrung b ữa 3 loại xe: cỡ nhỏ (4 chỗ), trung b ỗ), v lớn (12 chỗ). Chọn ình gi ình (8 ch à xe c
ngẫu nhi ết quả tính toán cho tron ảng sau:ên 27 xe, k g b
Loại xe ố xe S
Mức nhiên liệu
tiêu th ụ TB (lit/100km)
Phương
sai
Nh 12 8,133333 2,343333
Trung Bình 9 9,583253 2,453333
Lớn 6 10,04578 3,74853
Lập bảng ANOVA. Số liệu tr ứng tỏ rằng mức nhi ệu ti ụ trung b ủa các loại ên có ch ên li êu th ình c
xe là không khác nhau? K ết luận với mức ý nghĩa 0,05.
9) M ột phần bảng ANOVA về ảnh hưởng của loại phân bón với các giống lúa khác nhau đến năng
suất lúa được trình bày sau đây:
Biến thi ậc tự doên B
Tổng bình
phương
các sai l ệch
Trung bình các độ lệch
bình phương (phương
sai) Giá tr ị F
Giữa các
nhóm 5 605
Giữa các khối 2 245
Sai s 150
Tổng
Yêu c ãy xác ầu: H định:
Tổng số quan sát khi thực hiện cuộc nghi ứu trên c ên.
Hoàn t ất bảng ANOVA.
Đặt giả thuyết Ho và H1.
Ki vểm định các giả thuyết ới mức ý nghĩa α = 5%.
Đặ Đng Thành Danh - HNL 19
10) Kết quả tính toán cho trong bảng ANOVA như sau:
Sources Df Sum of Squares Mean Squares F
Between
Groups 4 501 1225,25 9,109
Between
Blocks 2 225 112,50 8,182
Error 8 110 13,75
Total 14 836
Yêu c ãy xác ầu: H định
Tng số quan sát khi thực hiện nghiên cứu trên.
Phát bi ểu giả thuyết.
Sử dụng mức ý nghĩa 0,01, h ết luận trung b ủa các tổng thể.ãy k ình c
11) Một nghi ứu được thực hiện nhằm xem xét sự li ệ giữa loại phân bón, giống lúa đến năng ên c ên h
suất. Năng suất lúa được g ận từ các thực nghiệm sau:hi nh
Gi ống l úa
Lo ại ph ân b ón
A B C
1 65 69 75
2 74 72 70
3 64 68 78
4 83 78 76
Một nghi ứu được thực hiện nhằm xem xét sự li ệ giữa loại phân bón, giống lúa và năng ên c ên h
su nghiất. Năng suất lúa được ghi nhận từ các thực ệm sau:
12) Để khảo sát ảnh hưởng của 4 loại thuốc trừ sâu (1, 2, 3 v ại giống (B1, B2 và B3) đến à 4) và ba lo
sản lượng của cam, các nh ứu tiến h ột thí nghiệm loại giai thừa. Trong thí à nghiên c ành m
nghiệm này, mỗi giống cam 4 cây cam được chọn một ẫu nhi ại thuốc trừ ch ng ên, 4 lo
sâu áp d ên) cho m ụng (cũng ngẫu nhi ỗi cây cam.
K ên c à thu ết quả nghi ứu (sản lượng cam) cho từng giống v ốc trừ sâu như sau:
Thuốc trừ sâu
Giống Cam
1 2 3 4
B1 29 50 43 53
B2 41 58 42 73
B3 66 85 63 85
Hãy cho bi = 0,05 ết thuốc trừ sâu, giống cam có ảnh h ưởng đến sản lượng cam không? a
Đặ Đng Thành Danh - HNL 20
13) 4 chuyên gia tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công
ty trong ngành nh ựa. Dự đoán được ghi nhận như sau:
Chuyên gia
Công ty
A B C D
1 8 12 8,5 13
2 14 10 9 11
3 11 9 12 10
4 9 13 10 13
5 12 10 10 10
Hãy l ình là nhập bảng ANOVA. Có thể nói rằng dự đoán tốc độ tăng trưởng trung b ư nhau cho
cả 5 công ty nhựa được không?
14) Một công ty vận chuyển thực hiện một ứu để xem xét ảnh hưởng của lộ tr đến thời ngiên c ình
gian v ê vận chuyển (phút) giữa 2 địa điểm. Số liệu thống k thời gian vận chuyển của 9 chuyến
trong m ên các l ình và th ày cho trong bột tuần được thực hiện tr ộ tr ời gian khác nhau trong ng ảng
sau:
Lộ trình
Thời gian
A B C
10 - 12 gi
sáng 50 52 54
1 - 3 gi 45 65 62 ờ chiều
7 -10 gi 55 47 50 ờ tối
Yêu c ãy k ầu: Ở mức ý nghĩa 5%, h ết luận xem:
skhác biệt về thời gian vận chuyển trung b ữa 3 lộ tr ếu có, ình gi ình hay không? N
công ty nên ch l ình nào? ọn ộ tr
skhác biệt về thời gian vận chuyển trung b ữa các thời gian khác nhau trong ình gi
ngày hay không? N ên th ào th ào? ếu có, công ty n ực hiện vận chuyển v ời gian n
| 1/20

Preview text:

PHÂN TÍCH PHƯƠNG SAI
(ANOVA - ANALYSIS OF VARIANCE )
1. Phân tích phương sai 1 nhân tố
Giả sử nhân tố A có k mức X1, X2 , … , Xk với Xj có phân phối chuẩn N(a,s2) có mẫu điều tra X1 X2 --- Xk x11 x12 x1k x21 x22 x2k : : : : : … : x : x n k 1 n 1 k x 2 2 n
Với mức ý nghĩa a , hãy kiểm định giả thiết : H0 : a1 = a2 = … = ak
H1 : “Tồn tại j1¹j2 sao cho aj1≠aj2 “ · Đặt: k
§ Tổng số quan sát: n = å n j j =1 n j 1 T nj
§ Trung bình mẫu nhóm j ( j =1, .. , k ): j x j = å x = với T = x j å ij n ij =1 n j i j i =1 k n n i 1 T k j k
§ Trung bình mẫu chung: x = å å x =
v ới T = åå x = T ij å n ij j =1 =1 n j i j=1 i=1 j =1 n j 1
§ Phương sai hiệu chỉnh nhóm j: S 2 = (x x 2 ) j å - n - ij j 1 j i =1 k n j
§ SST = å å (x - x 2
) Tổng bình phương các độ lệch. ij = j 1 = i 1 k 2
§ SSA = ån (x - x ) Tổng bình phương độ lệch riêng của các nhóm so với x j j j =1
· Tính SST bằng cách chèn thêm x j và khai triển thì được: k nj k nj k n j
SST = å å ( x - x + x - x 2 ) = 2 2 j j å å (x - x) + j
å å (x - x j ) vì ij ij j=1 i=1 = j 1 = i 1 = j 1 i =1 k n j k n j k n j
- 2åå(x - x j )(x j - x) = 2 - ij
å(x j - x)å(x - x j ) = 2 - ij
å( x j - x)(å x - n x j ) = 0 ij j j 1 = i 1 = j 1 = i 1 = j 1 = i 1 = k k n n j k j SST=å n ( x 2 2 2 j - x)
+å å ( x - x j) = SSA+ SSE với SSE = å å (x - x ) j ij j ij j=1 j=1 i=1 j =1 i=1 Đặng Thành Danh - ĐHNL 1 k
* Tổng thứ nhất SSA= ån ( x - 2 j
x) đặc trưng sự khác nhau giữa các nhóm. j j =1 k nj
* Tổng thứ hai åå(x - x 2 j )
đặc trưng sự khác nhau giữa số liệu trong nội bộ nhóm. ij j =1 i=1 2 k n j 2 T2 k T 2 j T SST = å å x - SSA = å -
SSE = SST - SSA ij j =1 i = n 1 j = n n 1 j SSA SSE MSA = MSE = k -1 n - k MSA · Nếu H0 đúng thì F =
có phân phối Fisher bậc tự do k-1; n-k MSE
· Miền Ba : F > Fk-1; n-k ; 1-a Bảng ANOVA Nguồn sai số
Tổng bình phương Bậc tự do Bình phương trung bình Giá trị thống kê SS df MS F Yếu t ố SSA k-1 SSA MSA (Between Group) MSA = F = k - 1 MSE Sai số SSE = SST - SSA n-k SSE (Within Group) MSE = n - k Tổng cộng SST n-1 Ví dụ:
Hàm lượng Alcaloid (mg) trong một loại dược liệu được thu hái từ 3 vùng khác nhau được số liệu sau: Vùng 1 : 7,5 6,8 7,1 7,5 6,8 6,6 7,8 Vùng 2 : 5,8 5,6 6,1 6,0 5,7 Vùng 3 : 6,1 6,3 6,5 6,4 6,5 6,3
Hỏi hàm lượng Alcaloid có khác nhau theo vùng hay không? Giải: Vùng 1 Vùng 2 Vùng 3 7,5 5,8 6,1 6,8 5,6 6,3 7,1 6,1 6,5 7,5 6,0 6,4 6,8 5,7 6,5 6,6 6,3 7,8 nj 7 5 6 N=18 Tj 50,1 29,2 38,1 T=117,4 å x2 359,79 170,7 242,05 å å 2 ij ij x =772,54 i Đặng Thành Danh - ĐHNL 2 1 ( 17, ) 4 2 SST= 772,54 – = 6,831111 18 ) 1 , 50 ( 2 ( , 29 ) 2 2 ( ) 1 , 38 2 117 ( , ) 4 2 SSA= + + - = 3 , 5 26968 7 5 6 18 SSE = SST – SSA = 1,5041428 Nguồn SS Df MS F Fk-1; n-k ; 1-a Yếu tố 5,326968 2 2,663484 26,561504 3,68 Sai số 1,5041428 15 0,1002761 Tổng cộng 6,831111 17
Þ F > Fk-1; n-k ; 1-a nên bác bỏ H0 chấp nhận H1.
Vậy hàm lượng Alcaloid có sai khác theo vùng. Dùng Excel
1. Nếu trong menu Tools chưa có mục Data Analysis… thì tiến hành cài Analysis ToolPak như
sau: Tools \ Add-Ins \ chọn Analysis ToolPak\ OK
2. Chọn Tools\ Data Analysis … Đặng Thành Danh - ĐHNL 3
3. Nhập dữ liệu theo cột
4. Chọn mục : Anova: Single Factor
5. Chọn các mục như hình: Đặng Thành Danh - ĐHNL 4 6. Kết quả Anova: Single Factor SUMMARY Groups Count Sum Average Variance Vùng 1 7 50.1 7.157143 0.202857 Vùng 2 5 29.2 5.84 0.043 Vùng 3 6 38.1 6.35 0.023 ANOVA Source of Variation SS df MS F P-value F crit Between Groups 5.326968 2 2.663484 26.56148 1.17756E-05 3.682316674 Within Groups 1.504143 15 0.100276 Total 6.831111 17 Bài tp
1. So sánh 3 loại thuốc bổ A, B, C trên 3 nhóm, người ta được kết quả tăng trọng(kg) như sau: A: 1,0 1,2 1,4 1,1 0,8 0,6 B: 2,0 1,8 1,9 1,2 1,4 1,0 1,5 1,8 C: 0,4 0,6 0,7 0,2 0,3 0,1 0,2
Hãy so sánh kết quả tăng trọng của 3 loại thuốc bổ trên với a = 0,01
2. Một nghiên cứu được thực hiện nhằm xem xét năng suất lúa trung bình của 3 giống lúa.
Kết quả thu thập qua 4 năm như sau: Năm A B C 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76
Hãy cho biết năng suất lúa trung bình của 3 giống lúa có khác nhau hay không? a=0,01
3. So sánh hiệu quả giảm đau của 4 loại thuốc A, B, C, D bằng cách chia 20 bệnh nhân thành 4
nhóm, mỗi nhóm dùng một loại thuốc giảm đau trên. Kết quả mức độ giảm đau là: A: 82 89 77 72 92 B: 80 70 72 90 68 C: 77 69 67 65 57 D: 65 75 67 55 63
Hỏi hiệu quả giảm đau của 4 loại thuốc có khác nhau không?
Nếu hiệu quả giảm đau của 4 loại thuốc A, B, C, D khác nhau có ý nghĩa, hãy so sánh từng cặp thuốc với a = 0,05 Đặng Thành Danh - ĐHNL 5
2. Phân tích phương sai 2 nhân tố không lặp
Phân tích nhằm đánh giá sự ảnh hưởng của 2 nhân tố (yếu tố ) A và B trên các giá trị quan sát xij
Giả sử nhân tố A có n mức a1 , a2 , … , an (nhân tố hàng)
B có m mức b1 , b2 , … , bm (nhân tố cột) * Mẫu điều tra: B b A 1 b2 ¼ bm a1 x11 x12 ¼ x1m a2 x21 x22 ¼ x2m : : : : : : : : an xn1 xn2 ¼ xnm * Giả thiết H0:
· Trung bình nhân tố cột bằng nhau
· Trung bình nhân tố hàng bằng nhau
· Không có sự tương tác giữa nhân tố cột và hàng
* Tiến hành tính toán theo bảng dưới đây: B b A 1 b2 ¼ bm Ti* = å x ij å x2 ij j j a å x2 1 x11 x12 ¼ x1m T1* 1 j j a x2 2 x21 x22 ¼ x2m T2* å 2 j j : : : : : : : : : : a åx2 n xn1 xn2 ¼ xnm Tn* nj j T*j =å = i x T j *1 T*2 … T*m T å xij i i , j å å å x2 ij x2 å ix21 i x22 x2 im å ij i i i i i, j * Bảng ANOVA Nguồn SS df MS F åT 2 SSA SSA Yếu tố A i* 2 n-1 MS ( A = F = A SSA= T i - n - 1 SSE m m.n åT 2 Yếu tố B *j 2 m-1 SSB SSB j T MSB = = SSB= F - m -1 B SSE n m.n Sai số SSE=SST-SSA-SSB (n-1)(m-1) SSE MSE = ( n - ) 1 ( m- ) 1 T 2 Tổng SST= å x2 - nm-1 ij , . i j m n Đặng Thành Danh - ĐHNL 6 * Kết luận :
· Nếu FA > F n-1 ; (n-1)(m-1) ; 1-a thì bá c bỏ yếu tố A (h àng)
· Nếu FB > F m-1 ; (n-1)(m-1) ; 1-a thì bá c bỏ yếu tố B (cột) Ví dụ:
Chiết suất chất X từ 1 loại dược liệu bằng 3 phương pháp và 5 loại dung môi, ta có kết quả: PP Chiết suất (B) b Dung môi (A) 1 b2 b3 a1 120 60 60 a2 120 70 50 a3 130 60 50 a4 150 70 60 a5 110 75 54
Hãy xét ảnh hưởng của phương pháp chiết suất và dung môi đến kết quả chiết suất chất X với a=0,01
Giải: Giả thiết H0 : * Trung bình của 3 phương pháp chiết suất bằng nhau
* Trung bình của 5 dung môi bằng nhau
* Không có sự tương tác giữa phương pháp chiế suất và dung môi Tính toán: B b A 1 b2 b3 Ti* å x2 ij j a1 120 60 60 240 21600 a2 120 70 50 240 21800 a3 130 60 50 240 23000 a4 150 70 60 280 31000 a5 110 75 54 239 20641 T*j 630 335 274 T=1239 å x2 x2 =118041 ij 80300 22625 15116 å ij i i , j T 2 1 ( 23 ) 9 2 SST = x 2 å - =118041- = 155699,6 ij , m.n 5x 3 i j åT 2 i * 2 2 i T 308321 ) 1239 ( SSA = - = - = 432,2667 m m.n 3 15 å T 2 * j 2 2 j T 584201 ) 1239 ( SSB = - = - = 14498 8 , n m.n 5 15
SSE = SST - SSA- SSB = 768,5333 Nguồn SS df MS F Yếu tố A SSA= 432,2667 4 MSA = 108,0667 FA = 1,1249 Yếu tố B SSB= 14498 8 , 2 MSB = 7249,4 FB = 75,4622 Sai số SSE= 768,5333 8 MSE = 96,0667 Tổng SST = 155699,6 14
Þ FA < F4 ; 8 ; 0,99 = 7,006 Þ Dung môi không ảnh hưởng đến kết quả chiết suất.
FB > F 2 ; 8 ; 0,99 = 8,649 Þ Phương pháp ảnh hưởng đến kết quả chiết suất. Đặng Thành Danh - ĐHNL 7 Dùng Excel · Nhập dữ liệu
· Chọn Tools\Data Analysis…\Anova: Two-Factor without replication
· Chọn các mục như hình · Kết quả Anova: Two-Factor Without Replication SUMMARY Count Sum Average Variance a1 3 240 80 1200 a2 3 240 80 1300 a3 3 240 80 1900 a4 3 280 93.33333333 2433.333333 a5 3 239 79.66666667 800.3333333 b1 5 630 126 230 b2 5 335 67 45 b3 5 274 54.8 25.2 ANOVA Source of Variation SS df MS F P-value F crit Rows 432.2666667 4
108.0666667 1.124913255 0.409397603 7.006065061 Columns 14498.8 2
7249.4 75.46217904 6.42093E-06 8.64906724 Error 768.5333333 8 96.06666667 Total 15699.6 14 Đặng Thành Danh - ĐHNL 8 Bài tập
1) Nghiên cứu về hiệu quả của 3 loại thuốc A, B, C dùng điều trị chứng suy nhược thần kinh. 12
người bệnh được chia làm 4 nhóm theo mức độ bệnh 1 , 2 , 3 , 4 ; trong mỗi nhóm chia ra để
cùng dùng 1 trong 3 loại thuốc trên. Sau 1 tuần điều trị, kết quả đánh giá bằng thang điểm như sau: Mức độ bệnh 1 2 3 4 Thuốc A 25 40 25 30 B 30 25 25 25 C 25 20 20 25
Hãy đánh giá hiệu quả của các loại thuốc A, B, C có khác nhau hay không ? với a = 0,01
2) Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa đến năng
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau: Giống lúa A B C Loại phân bón 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76
Hãy đánh giá sự ảnh hưởng giống lúa, loại phân bón trên năng suất lúa, a = 0,05.
3) Để khảo sát ảnh hưởng của 4 loại thuốc trừ sâu (1, 2, 3 và 4) và ba loại giống (B1, B2 và B3) đến
sản lượng của cam, các nhà nghiên cứu tiến hành một thí nghiệm loại giai thừa. Trong thí
nghiệm này, mỗi giống cam có 4 cây cam được chọn một cách ngẫu nhiên, và 4 loại thuốc trừ
sâu áp dụng (cũng ngẫu nhiên) cho mỗi cây cam.
Kết quả nghiên cứu (sản lượng cam) cho từng giống và thuốc trừ sâu như sau: Thuốc trừ sâu 1 2 3 4 Giống Cam B1 29 50 43 53 B2 41 58 42 73 B3 66 85 63 85
Hãy cho biết thuốc trừ sâu, giống cam có ảnh h ưởng đến sản lượng cam không? a = 0,05
4) 4 chuyên gia tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công
ty trong ngành nhựa. Dự đoán được ghi nhận như sau: Chuyên gia Công ty A B C D 1 8 12 8,5 13 2 14 10 9 11 3 11 9 12 10 4 9 13 10 13 5 12 10 10 10
Hãy lập bảng ANOVA. Có thể nói rằng dự đoán tốc độ tăng trưởng trung bình là như nhau cho
cả 5 công ty nhựa được không? Đặng Thành Danh - ĐHNL 9
3. Phân tích phương sai 2 nhân tố có lặp
Tương tự như bài toán phân tích phương sai 2 nhân tố không lặp , chỉ khác mỗi mức ((ai , bj) đều có
sự lặp lại r lần thí nghiệm và ta cần khảo sát thêm sự tương tác (interaction term) FAB giữa 2 nhân tố A và B. * Mẫu điều tra: B b A 1 b2 ¼ bm x111 x121 x1m1 x112 x122 x1m2 a1 : : ¼ : : : : x11r x12r x1mr x211 x221 ¼ x2m1 x212 x222 x2m2 a2 : : : : : : x21r x22r x2mr : : : : : : : : xn11 xn21 ¼ xnm1 xn12 xn22 xnm2 an : : : : : : xn1r xn2r xnmr
* Xử lý mẫu: Tính tổng hàng Ti** = å x , tổng cột T*j* = x ijk å ijk j ,k i ,k B b A 1 b2 ¼ bm Ti** x111 x121 x1m1 x112 x122 x1m2 a1 : : ¼ : T1**= åx 1 jk : : : j ,k x11r x12r x1mr x211 x221 ¼ x2m1 x212 x222 x2m2 a2 : : : T2**= åx 2jk : : : j ,k x21r x22r x2mr : : : : : : : : xn11 xn21 ¼ xnm1 xn12 xn22 xnm2 an : : : Tn**= å x njk : : : j k , xn1r xn2r xnmr T*j* T*1*= åx T*2*= T*m*= T= i1k å xi2k å i x mk å xijk i ,k i k , i ,k i, j ,k Đặng Thành Danh - ĐHNL 10 Cần tính: å x2 å å 2 T 2 åT ijk i T 2* * *j * ij* i, j ,k i j i, j Suy ra 2 2 T 2
SST = å (x - x ) = å x - ijk ijk i, j,k i, j,k nmr åT 2 i * * 2 SSA = mr 2 i T å(x - x ) = - i * * i mr nmr åT 2 * j* 2 2 j T SSB = nr å( x - ) * = - j x * j nr nmr åT 2 2 2 ij åT * * j* T å i * * 2 2 i, j j T
SSAB = r å (x -x - x + x i ) = - - + ij * i * * *j* j i, r nr mr nmr å x2ij*
SSE = SST – SSA – SSB – SSAB = 2 i, j å x - ijk i, j, k r * Bảng ANOVA Nguồn SS df MS F SSA MSA Yếu tố A SSA n-1 MSA = F = n 1 - A MSE Yếu tố B SSB m-1 SSB MSB MSB = F = B m 1 - MSE Tương tác AB SSAB (n-1)(m-1) SSAB MSAB MSAB = F = (n - ) 1 (m - ) 1 AB MSE Sai số SSE nm(r-1) SSE MSE = nm(r - ) 1 Tổng SST nmr-1 * Kết luận
· Nếu FA > F n-1 ; nm(r-1) ; 1-a thì bác bỏ yếu tố A (h àng)
· Nếu FB > F m-1 ; nm(r-1) ; 1-a thì bác bỏ yếu tố B (cột)
· Nếu FAB > F (n-1)(m-1) ; nm(r-1) ; 1-a thì có sự tương tác giữa A và B Đặng Thành Danh - ĐHNL 11
Ví dụ: Hàm lượng saponin (mg) của cùng một loại dược liệu được thu hái trong 2 mùa (khô và mưa:
trong mỗi mùa lấy mẫu 3 lần - đầu mùa, giữa mùa, cuối mùa) và từ 3 miền (Nam, Trung, Bắc) thu được kết quả sau: Miền Mùa Thời điểm Nam Trung Bắc Đầu mùa 2,4 2,1 3,2 Khô Giữa mùa 2,4 2,2 3,2 Cuối mùa 2,5 2,2 3,4 Đầu mùa 2,5 2,2 3,4 Mưa Giữa mùa 2,5 2,3 3,5 Cuối mùa 2,6 2,3 3,5
Hãy cho biết hàm lượng saponin có khác nhau theo mùa hay miền không? Nếu có thì 2 yếu tố
mùa và miền có sự tương tác với nhau hay không? a = 0,05 Giải: Miền Nam Trung Bắc Ti** Mùa 2,4 2,1 2,2 Khô 2,4 7,3 2,2 6,5 2,3 9,8 23,6 2,5 2,2 2,3 2,5 3,2 3,4 Mưa 2,5 7,6 3,2 6,8 3,5 10,4 24,8 2,6 3,4 3,5 T*j* 14,9 13,3 20,2 T = 48,4 Tính : · å x 2 = 134,64 ijk i, j, k · åT 2i* * = 23,62 + 24,82 = 1172 i 2 2 2
· åT 2 = 14,9 + 13,3 + 20,2 = 806,94 * j* j
· åT 2 = 7,32 + 7,62 + 6,52 + 6,82 + 9,82 + 10,42 = 403,74 ij* i , j · T2 = 48,42 = 2342,56 2 2 T 2342 5 , 6 SST = åx - = 134 6 , 4 - = , 4 4978 ijk ,i j, k nmr 18 2 åTi ** 2 i T 1172 2342 5 , 6 SSA = - = - = , 0 08 mr nmr 9 18 2 å * T j* 2 j T 826 9 , 4 2342 5 , 6 SSB = - = - = 4 3 , 478 nr nmr 6 18 2 å xij* 2 i, j 403 7 , 4 SSE = x - = å 134 6 , 4 - = 0 , 0 6 ijk i , j ,k r 3
SSAB= SST – SSA – SSB – SSAB = 4,4978 - 0,08 - 0,06 - 4,3478 = 0,01 Đặng Thành Danh - ĐHNL 12 Bảng ANOVA Nguồn SS df MS F Yếu tố A (mùa) 0,08 1 0,08 FA= 16 Yếu tố B (miền) 4,3478 2 2,1739 FB= 434,78 Tương tác AB 0,01 2 0,005 FAB= 1 Sai số 0,06 12 0,005 Tổng 4,4978 17
Þ FA > F1; 12; 0,95 = 4,7472 : Hàm lượng saponin khác nhau theo mùa.
FB > F2; 12 ; 0,95 = 3, 8853 : Hàm lượng saponin khác nhau theo miền.
FAB < F2 ; 12 ; 0,95 = 3,8853 : chấp nhận H0 ( không tương tác)
Vậy hàm lượng saponin trong dược liệu khác nhau theo mùa , theo miền và không có sự tương tác giữa
mùa và miền trên hàm lượng saponin. Dùng EXCEL * Nhập dữ liệu
* Chọn Tools\Data Analysis…\Anova: Two Factor With Replication
* Chọn các mục như hình Đặng Thành Danh - ĐHNL 13 * Bảng ANOVA Anova: Two-Factor With Replication SUMMARY Nam Trung Bac Total Count 3 3 3 9 Sum 7.3 6.5 9.8 23.6 Average
2.433333 2.166667 3.266667 2.622222222 Variance
0.003333 0.003333 0.013333 0.251944444 Count 3 3 3 9 Sum 7.6 6.8 10.4 24.8 Average
2.533333 2.266667 3.466667 2.755555556 Variance
0.003333 0.003333 0.003333 0.300277778 Total Count 6 6 6 Sum 14.9 13.3 20.2 Average 2.483333 2.216667 3.366667 Variance 0.005667 0.005667 0.018667 ANOVA Source of Variation SS df MS F P-value F crit Sample 0.08 1 0.08 16 0.001761696 4.747221283 Columns 4.347778 2 2.173889 434.7777778 6.36194E-12 3.885290312 Interaction 0.01 2 0.005 1 0.396569457 3.885290312 Within 0.06 12 0.005 Total 4.497778 17 Bài tập
1) Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa và năng
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau: Giống lúa A B C Loại phân bón 65 69 75 1 68 71 75 62 67 78 74 72 70 2 79 69 69 76 69 65 64 68 78 3 72 73 82 65 75 80 83 78 76 4 82 78 77 84 75 75
Hãy cho biết sự ảnh hưởng của loại phân bón , giống lúa trên năng suất , a = 0,01 Đặng Thành Danh - ĐHNL 14
2) Điều tra mức tăng trưởng chiều cao của 1 loại cây trồng theo loại đất trồng và loại phân bón có kết quả: Loại đất 1 2 3 Loại phân 5,5 4,5 3,5 A 5,5 4,5 4,0 6,0 4,0 3,0 5,6 5,0 4,0 B 7,0 5,5 5,0 7,0 5,0 4,5
Hỏi có sự khác nhau của mức tăng trưởng chiều cao theo loại đất và loại phân bón ? a=0,05
3) Nghiên cứu sản lượng bông (tạ/ha) theo mật độ trồng A và phân bón B thu được: Phân bón Mật độ trồng b1 b2 b3 b4 16 19 19 20 a1 14 20 21 24 21 23 22 21 16 19 20 17 17 19 21 20 a2 15 18 21 20 17 18 22 22 19 20 23 19 18 20 22 25 a3 18 23 18 22 19 21 21 21 17 21 21 23
Hỏi có sự khác nhau của sản lượng bông theo mật độ trồng, theo phân bón với mức a=0,05 Đặng Thành Danh - ĐHNL 15
BÀI TẬP
1) Một nhà máy thủy điện sử dụng các turbines được giải nhiệt bằng nước. Nếu nước được dung để
giải nhiệt bị ô nhiễm thì hệ thống máy móc sẽ bị xói mòn. Do đó, người ta sử dụng các máy lọc
để làm giảm mức ô nhiễm của nước. Giám đốc nhà máy muốn trắc nghiệm tính hiệu quả của 4
máy lọc đang sử dụng. Ở mỗi máy lọc người ta lấy ngẫu nhiên độc lập nhau 3 mẫu nước đã được
lọc và đo mức độ ô nhiễm. Các kết quả có được như sau: Máy lọc 1 Máy lọc 2 Máy lọc 3 Máy lọc 4 10 11 13 23 9 16 8 18 5 9 9 25
2) Một nghiên cứu được thực hiện để so sánh tuổi thọ (giờ) của 4 nhãn hiệu Pin: A, B, C, D. Kết
quả ghi nhận được như sau: Hiệu A Hiệu B Hiệu C Hiệu D 15 14 19 16 16 15 20 15 18 16 16 16 20 15 13 18 19 14 17 20
Yêu cầu: Giả định tuổi thọ pin có phân phối chuẩn, phương sai bằng nhau. Với phương pháp
ANOVA, ở mức ý nghĩa 0,05, có thể kết luận rằng tuổi thọ trung bình của 4 nhãn
hiệu pin là không khác nhau được không?
3) Ba mẫu thiết kế bao bì của một loại sản phẩm được xem xét bằng cách thu thập doanh số (triệu
đồng/tuần) của mỗi loại bao bì trong một mẫu ngẫu nhiên các cửa hàng. Kết quả được ghi nhận trong bảng sau: Mẫu bao bì I Mẫu bao bì II Mẫu bao bì III 18 24 19 16 25 24 29 21 24 26 31 28 29 22 15 14 29 12 32 23
Với kiểm định ANOVA ở mức ý nghĩa 0,01, có thể kết luận rằng các mẫu bao bì không ảnh
hưởng đến doanh số được không? (Giả định doanh số theo các mẫu bao bì có phân phối chuẩn, phương sai bằng nhau). Đặng Thành Danh - ĐHNL 16
4) Một nhà sản xuất muốn kiểm tra xem 3 máy có công suất khác nhau không. Ông ta chỉ định ngẫu
nhiên 15 công nhân được đào tạocùng một phương pháp làm việc trên 3 máy (5 người1 máy).
Với mức rủi ro 5%, liệu 3 máy có công suất khác nhau? Máy 1 Máy 2 Máy 3 25.40 23.40 20.00 26.31 21.80 22.20 24.10 23.50 19.75 23.74 22.75 20.60 25.10 21.60 20.40
5) Để so sánh hiệu năng của 3 loại thuốc diệt muỗi A, B, C người ta thực hiện một thực nghiệm như
sau: Có 21 thùng, mỗi thùng nhốt vài trăm con muỗi. Chia ngẫu nhiên các thùng này thành 3
nhóm, mỗi nhóm 7 thùng. Muỗi ở trong mỗi nhóm thùng được xịt một loại thuốc khác nhau A, B
hoặc C, tỉ lệ % muỗi chết được ghi nhận như sau: Thuốc diệt muỗi A Thuốc diệt muỗi B Thuốc diệt muỗi C 68 58 71 80 60 62 69 70 58 76 51 74 68 57 65 77 71 59 60 61 57
Với kiểm định ANOVA ở mức ý nghĩa α = 0,05, có thể nói khả năng diệt muỗi (thể hiện thông
qua tỉ lệ muỗi chết trung bình) của 3 loại thuốc là như nhau được không? (giả định muỗi chết có
phân phối chuẩn, phương sai bằng nhau).
6) Trưởng phòng kỹ thuật của một nhà máy sản xuất vỏ xe thực hiện một nghiên cứu để đánh giá sự
khác biệt về chất lượng sản phẩm giữa 3 ca sản xuất: sáng, chiều, đêm. Chọn ngẫu nhiên một số
sản phẩm để kiểm tra, kết quả ghi nhận như sau: Thời gian sản Số sản Độ bền trung bình Tổng bình phương xuất phẩm (ngàn km) các sai lệch Sáng 10 25,95 6,255 Chiều 12 25,50 6,595 Tối 15 23,75 7,555
Yêu cầu: Với mức ý nghĩa tùy theo quyết định của Anh (chị), có thể kết luận rằng có sự khác biệt
về độ bền giữa các sản phẩm sản xuất ra ở ca sáng, ca chiều và ca đêm hay không? Nếu
có, sự khác biệt đó như thế nào? Đặng Thành Danh - ĐHNL 17
7) Bốn trạm sửa chửa và bảo hành xe Honda trong một thành phố lớn tuyên bố rằng khách hàng sẽ
được phục vụ nhanh chóng ngay khi xe được đưa tới trạm. Giám đốc phụ trách dịch vụ hậu mãi
của hãng tiến hành kiểm tra chất lượng dịch vụ của các trạm bảo hành, bằng cách chọn ngẫu
nhiên khác hàng đến trạm trong giờ cao điểm (9 đến 11 giờ sáng) và ghi nhận thời gian chờ đợi
của họ. Một phần kết quả tính toán cho trong bảng sau: Trạm bảo Số khách Thời gian chờ TB hành hàng (phút) Phương sai A 3 5,133333 0,323333 B 4 8 1,433333 C 5 5,04 0,748 D 4 6,475 0,595833
Lập bảng ANOVA. Số liệu trên có chứng tỏ rằng thời gian chờ đợi của khách hàng ở các trạm
bảo hành của hãng là không khác nhau? Kết luận với mức ý nghĩa 0,05.
8) Một hãng sản xuất ô tô thực hiện một nghiên cứu để đo lường sự khác biệt mức nhiên liệu tiêu
thụ trung bình giữa 3 loại xe: cỡ nhỏ (4 chỗ), trung bình (8 chỗ), và xe cở lớn (12 chỗ). Chọn
ngẫu nhiên 27 xe, kết quả tính toán cho trong bảng sau: Mức nhiên liệu Phương Loại xe Số xe tiêu thụ TB (lit/100km) sai Nhỏ 12 8,133333 2,343333 Trung Bình 9 9,583253 2,453333 Lớn 6 10,04578 3,74853
Lập bảng ANOVA. Số liệu trên có chứng tỏ rằng mức nhiên liệu tiêu thụ trung bình của các loại
xe là không khác nhau? Kết luận với mức ý nghĩa 0,05.
9) Một phần bảng ANOVA về ảnh hưởng của loại phân bón với các giống lúa khác nhau đến năng
suất lúa được trình bày sau đây: Tổng bình Trung bình các độ lệch phương bình phương (phương Biến thiên Bậc tự do các sai lệch sai) Giá trị F Giữa các nhóm 5 605 Giữa các khối 2 245 Sai số 150 Tổng
Yêu cầu: Hãy xác định:
Tổng số quan sát khi thực hiện cuộc nghiên cứu trên. Hoàn tất bảng ANOVA.
Đặt giả thuyết Ho và H1.
Kiểm định các giả thuyết với mức ý nghĩa α = 5%. Đặng Thành Danh - ĐHNL 18
10) Kết quả tính toán cho trong bảng ANOVA như sau: Sources Df Sum of Squares Mean Squares F Between Groups 4 501 1225,25 9,109 Between Blocks 2 225 112,50 8,182 Error 8 110 13,75 Total 14 836 Yêu cầu: Hãy xác định
Tổng số quan sát khi thực hiện nghiên cứu trên. Phát biểu giả thuyết.
Sử dụng mức ý nghĩa 0,01, hãy kết luận trung bình của các tổng thể.
11) Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa đến năng
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau: Gi ống l úa A B C Lo ại ph ân b ón 1 65 69 75 2 74 72 70 3 64 68 78 4 83 78 76
Một nghiên cứu được thực hiện nhằm xem xét sự liên hệ giữa loại phân bón, giống lúa và năng
suất. Năng suất lúa được ghi nhận từ các thực nghiệm sau:
12) Để khảo sát ảnh hưởng của 4 loại thuốc trừ sâu (1, 2, 3 và 4) và ba loại giống (B1, B2 và B3) đến
sản lượng của cam, các nhà nghiên cứu tiến hành một thí nghiệm loại giai thừa. Trong thí
nghiệm này, mỗi giống cam có 4 cây cam được chọn một cách ngẫu nhiên, và 4 loại thuốc trừ
sâu áp dụng (cũng ngẫu nhiên) cho mỗi cây cam.
Kết quả nghiên cứu (sản lượng cam) cho từng giống và thuốc trừ sâu như sau: Thuốc trừ sâu 1 2 3 4 Giống Cam B1 29 50 43 53 B2 41 58 42 73 B3 66 85 63 85
Hãy cho biết thuốc trừ sâu, giống cam có ảnh h ưởng đến sản lượng cam không? a = 0,05 Đặng Thành Danh - ĐHNL 19
13) 4 chuyên gia tài chính được yêu cầu dự đoán về tốc độ tăng trưởng (%) trong năm tới của 5 công
ty trong ngành nhựa. Dự đoán được ghi nhận như sau: Chuyên gia Công ty A B C D 1 8 12 8,5 13 2 14 10 9 11 3 11 9 12 10 4 9 13 10 13 5 12 10 10 10
Hãy lập bảng ANOVA. Có thể nói rằng dự đoán tốc độ tăng trưởng trung bình là như nhau cho
cả 5 công ty nhựa được không?
14) Một công ty vận chuyển thực hiện một ngiên cứu để xem xét ảnh hưởng của lộ trình đến thời
gian vận chuyển (phút) giữa 2 địa điểm. Số liệu thống kê về thời gian vận chuyển của 9 chuyến
trong một tuần được thực hiện trên các lộ trình và thời gian khác nhau trong ngày cho trong bảng sau: Lộ trình Thời gian A B C 10 - 12 giờ sáng 50 52 54 1 - 3 giờ chiều 45 65 62 7 -10 giờ tối 55 47 50
Yêu cầu: Ở mức ý nghĩa 5%, hãy kết luận xem:
Có sự khác biệt về thời gian vận chuyển trung bình giữa 3 lộ trình hay không? Nếu có,
công ty nên chọn lộ trình nào?
Có sự khác biệt về thời gian vận chuyển trung bình giữa các thời gian khác nhau trong
ngày hay không? Nếu có, công ty nên thực hiện vận chuyển vào thời gian nào? Đặng Thành Danh - ĐHNL 20