Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!

Thông tin:
28 trang 12 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!

51 26 lượt tải Tải xuống
1
CHƯƠNG 9. Tương quan và hi
quy tuy ến tính đơn
7.1. Tương quan tuyến tính đơn
7.2. H i quy tuy ến tính đơn
7.3. M t s mô hình phi tuy n có th ế
tuyến tính hoá
Bài 7.1. Tương quan tuyến tính đơn
1. H s tương quan mẫu:
Gi s X và Y là 2 BNN. Trong
nhu trường h p X và Y ph
thuc ln nhau, ví d , GS X là
chiu dài c a bàn chân c a 1
ngườ i và Y là chi u cao ca
người đó.
Để ế đo mức độ ph thuc tuy n tính
giữa 2 BNN X và Y, người ta đưa ra
khái ni m h s : tương quan
2
YX
YX
YXE
))((
Người ta đã chứng minh đưc
11
.
Khi =0 thì không có s tương quan tuyến tính gia X và
Y. Đặ ẩn đồc bit khi (X, Y) có phân phi chu ng thi thì
=0 khi và ch c l c l i, khi | khi X, Y độ ập. Ngượ | càng
gn 1 thì s ph thuc tuy n tính giế a X và Y càng
mnh.
Nếu | |=1 thì Y là m t hàm tuy n tính cế a X.
Ví d : Cho c p BNN (X, Y) có hàm kh ng xác su ối lượ t
đồ ng th c cho bời đượ i bng sau:
Y
X
-1
0
2
4
1
0.08
0.12
0.10
0.05
2
0.06
0.10
0.14
0.10
3
0.05
0.09
0.06
0.05
P
X
0.19
0.31
0.3
0.2
μx
1.9
(Ϭx)2
0.59
μy
1.21
(Ϭy)2
3.1259
3
COV(X, Y)
0.071
ρ(X, Y)
0.052281
baxxy
)(
xy
ab
*
X
Y
YXa
*),(
Mun biết chúng ta ph i bi t phân b c a t p chính bao ế
gm t t c các giá tr c a c u này ặp (X, Y). Tuy nhiên, điề
là không th c t . ế
Vì v ng và ki nh h ậy, chúng ta có bài toán ước lượ ểm đị
s tương quan da vào mu ngu nhiên: (x ), (x
1
, y
1 2
,
y
2
), …, (x
n
, y ) các giá tr c a (X, Y).
n
Để ước lượng h s tương quan , chúng ta s d ng h
s tương quan mẫu:
n
i
n
i
ii
n
i
ii
yyxx
yyxx
r
1 1
22
1
)()(
))((
Chúng ta thường áp dng công thc tính toán sau cho
thun li:
4
2222
)()(
))(()(
yynxxn
yxxyn
r
Chú ý:
11 r
Ví d 1. Tính h s quan m u r d a trên m tương u gm
10 quan sát sau:
i
1
2
3
4
5
6
7
8
9
10
x
i
80
85
88
90
95
92
82
75
78
85
y
i
2.4
2.8
3.3
3.1
3.7
3
2.5
2.3
2.8
3.1
Gii
Cách 1. Tính tr c ti p ế
Đầ u tiên tính các t ng
22
,,,, yxxyyx
Và thay vào công th c tính r:
858983.0r
Cách 2 : D a vào Excel
GS 10 giá tr c a x c x p vào các ô t n J1, 10
i
đượ ế A1 đế
giá tr c a y c x p vào các ô t
i
đượ ế A2 đến J2. Khi đó,
ch c n vi t qu ết =CORREL(A1:J1,A2:J2), kế nhận được
0.858983
Ví d 2
Gi s ta có Danh sách m GT2 và M ng MT c a 10 điể
SV như sau:
i
1
2
3
4
5
6
7
8
9
10
x
i
8.4
8
10
9
9
10
10
8
5.5
10
y
i
8.7
8.5
9
8.7
9.2
8
6.5
5.5
7
9.1
Câu h i: Li ệu điểm GT 2 và MMT có không tương quan
hay không?
5
Gii
r = 0.35
T= 1.071, α=5%
Ví d 3
GS ta có danh sách điểm TT HCM và MMT:
i
1
2
3
4
5
6
7
8
9
10
x
i
6.6
6
7
7.2
7.2
7
7.5
6.3
5
8.2
y
i
8.7
8.5
9
8.7
9.2
8
6.5
5.5
7
9.1
Ví d 4
GS ta có danh sách điể MMT và NLHĐH:m
i
1
2
3
4
5
6
7
8
9
10
x
i
8.7
8.5
9
8.7
9.2
8
6.5
5.5
7
9.1
y
i
8.5
8
8.5
8.2
8.6
8
8
6.5
7.5
6.9
Ví d 5
GS ta có danh sách điểm GT2 và TRR:
i
1
2
3
4
5
6
7
8
9
10
x
i
8.4
8
10
9
9
10
10
8
5.5
10
y
i
5.8
7
9
9.6
8.8
8
6
5
5.5
8.4
Tiếp theo chúng ta đề ập đế ểm đị c n bài toán ki nh gi
thiết v h s tương quan lý thuyết .
Bài toán đầ ểm địu tiên và quan trng nht là ki nh xem X
và Y có tương quan với nhau hay không.
6
2. Bài toán ki nh gi thi ểm đị ết:
- Gi thiết H
0
:
=0
- Đối thiết H
1
:




0
Tiêu chu n ki c xây d ng d nh lý ểm định đượ ựa trên đị
sau:
Định lý: N u (X, Y) có phân bế chun 2 chiều thì dưới
gi thiết H , BNN
0
2
1
2
r
nr
T
Có phân b Student v i n-2 b c t do.
Vi m , ta sức ý nghĩa bác b H n u |T|>t /2).
0
ế
n-2
(
Ví d : Trong m t m u g m 42 quan
sát (x ) rút ra t t p h p chính các
i
, y
i
giá tr c a (X, Y), chúng ta tính
đượ c h s u là tương quan mẫ
r=0.22. Gi s c p BNN (X, Y) có
phân ph i chu ng th i. V i m ẩn đồ c
ý nghĩa =5%, có th kết lun rng
X và Y có tương quan hay không?
Gii
Ta có
7
43.1
154.0
22.0
22.01
4022.0
1
2
22
r
nr
T
Vi b c t do 40, =5% ta tra b ng
=TINV(0.05,40)=2.021075
So sánh, ta th y |T|<2.021075, vì v bác ậy chưa đủ cơ sở
b gi thi t H . ế
0
3. V i bài toán ki nh gi thi ểm đị ết:
- Gi thiết H
0
:
=
0
- Đối thiết H
1
:




0
đây
0
là m giá tr c. t khác 0 cho trướ
Chúng ta s xây d ng tiêu chu n th ng kê
mu
z
.
Trong đó:
3
1
1
1
2
1
1
1
2
1
;ln;ln
0
0
n
r
r
mu
Người ta ch c rứng minh đượ ng nếu H
0
đúng, thì Z có
phân b x p x phân b chu n t c N(0,1). Do s b đó, H
0
bác b m n u |z|>z . ức ý nghĩa ế
/2
Ví d : T m u c n=35 rút ra t t p chính các giá tr c a
(X, Y), ta tính đượ tương quan là mẫc h s u là r=0.8.
Vi m =5%, ki nh giức ý nghĩa ểm đị thi ết:
- Gi thiết H
0
:
= 0.9
- Đối thiết H
1
:




0.9
8
Gii
Ta có
177.0
;472.1lnln
;009.1lnln
32
1
3
1
9.01
9.01
2
1
1
1
2
1
8.01
8.01
2
1
1
1
2
1
0
0
n
r
r
m
u
T đó
11.2
177.0
472
.1099.1
mu
z
Vi =5%, ta tìm được z
/2
= 1.96.
Vì |T|=2.11> u = 1.96, nên ta bác b thi t H , ch
/2
gi ế
0
p
nhận đố , nghĩa là chấi thiết H
1
p nhn kết lun 0.9. 
Ví d : T m u c n=35 rút ra t t p chính các giá tr c a
(X, Y), ta tính đượ tương quan là mẫc h s u là r=0.8.
Vi m =5%, ki nh giức ý nghĩa ểm đị thi ết:
- Gi thiết H
0
:
= 0.85
- Đối thiết H
1
:




0.85
Gii
Ta có
177.0
;256.1lnln
;009.1lnln
32
1
3
1
85.01
85.01
2
1
1
1
2
1
8.01
8.01
2
1
1
1
2
1
0
0
n
r
r
m
u
9
T đó
887.0
177.0
256.1099.1
mu
z
Vi =5%, ta tìm được z
/2
= 1.96.
Vì |T|=0.887< z = 1.96, nên ta bác b
/2
không đủ cơ sở
gi thiết H không p nh n k
0
, nghĩa là ch ết lu n 0.85.
Tiêu chu n th ng kê
mu
Z
cũng cho phép ta xác
định đượ tương quan lý thuyếc khong tin cy cho h s t
.
Ví d : Trong m t m u có c c rút ra t t p h p n=52 đượ
chính các giá tr c c h s ủa (X, Y), ta tính đượ tương
quan m trên k t qu nh ẫu là r=0.53. Căn cứ ế đó hãy xác đị
khong tin cy 95% cho h s tương quan lý thuyết
gia X và Y.
Gii
Ta có
143.0
;59.0lnln
7
1
49
1
3
1
53.01
53.01
2
1
1
1
2
1
n
r
r
u
Vi =5%, tra b ng ta có u =1.96. V
/2
i xác su t 95% ta
có:
2/2/
zmuz
2/2/
zumzu
Thay giá tr c a
10
,,
2/
uu
vào ta được
87.031.0 m
Hay
87.0ln31.0
1
1
2
1
74.1ln62.0
1
1
74.1
1
1
62
.0
ee
7.5858.1
1
1
Gii b ng th ất đẳ ức trên ta tìm được:
7.03.0
Đây là khoảng tin cy 95% cho .
4. c l p Kiểm tra tính độ
Gi s ta m u ng u nhiên c n các quan sát đồng thi
v hai bi n ng u nhiên X và Y: (x ), (xế
1
, y
1 2
,y
2
), …, (x
n
,
y
n
).
Gi thi t H c l p v nhau ế
0
: X và Y độ i
Đối thiết H
1
: X và Y không độc lp.
- Ta ghép các giá tr m u (x , x
1 2
, …, x
n
) thành các
khong, ch ng h n r kho ng. Ghép các giá tr m u (y
1
,
y
2
, …, y
n
) thành s khoảng. Khi đó ta nhận được bng
11
hai l i vào g m rs ô ch nh t con. G i (i, j) là ô
hàng i c t j.
- Đếm s các quan sát t m ẫu đã cho rơi vào ô (i, j).
Ký hi u s đó là
sjrin
ij
,1,,1,
.
Nói cách khác
ij
n
s các giá tr m u mà có giá tr m u
theo X rơi vào khoảng th i giá tr mu theo Y
rơi vào khoang thứ j.
Cn ng, các kho ng theo X và các kho ng theo lưu ý rằ
Y không nh t thi ết được phân chia theo định lượng, mà
th nh tính, ch ng h n t t, trung bình, x theo đị u
hoc gii, khá, trung bình, kém hoặc màu xanh, đỏ,
trng, vàng, ...
- Tính
s
j
ij
i
nn
1
.
(l y t ng theo hàng)
r
i
ij
j
nn
1
.
(l y t ng theo c t)
r
i
s
j
ij
nn
1 1
- Đối v i m i ô (i, j) trong b ng, ta tính
.
..
n
xnn
ji
Để
tiện tính toán, ta đặt s này trong ô (i, j) cnh s
ij
n
,
nhưng ta đặt trong ngoc.
- Tính
r
i
s
j
nn
n
r
i
s
j
n
ji
ij
n
j
n
i
n
n
j
n
i
n
ij
n
1 11 1
)(
2
1
..
2
..
2
..
12
- Với α đã cho, tra bả bình phương ng phân phi khi-
2
v i (r-1)(s-1) b c t do ta tìm được
).(
2
)1)(1(
sr
- Nếu
)(
2
)1)(1(
2
sr
ta bác b tính độc l p c a X
Y. (Th c ch t tiêu chu n này là ng d ng tiêu chu n
phù h p
2
).
Trong th c hành ta hay s d ng công th c :
r
i
s
j
nn
n
ji
ij
n
1 1
2
1
..
2
Khi r=s=2 thì :
.2.12.1.
2221
1211
..
2
1 1
2
1
nnnn
nn
nn
n
r
i
s
j
nn
n
ji
ij
n
d các cây ng c trâm hai d ng, « lá ph ng » :
hoc « », hoa hai d ng, « ng » nhăn hoa bình thườ
hoc « hoa hoàng h u ».
Quan sát m t m u g m 560 cây ng c trâm ta thu được kết
qu sau :
Hoa
Bình thường
Hoàng h u
Tng s
Phng
328
122
450
Nhăn
77
33
110
Tng s
405
155
560
th p nh n gi thi c nh v hoa nói ch ết hai đặ
trên độ tương c lp hay không ? Hay gia chúng s
quan ?
13
Gii
Ta có
368.0
)155).(405).(110).(450(
3377
122328
560
2
.2.12.1.
2221
1211
nnnn
nn
nn
n
Vi mức ý nghĩa 5%, tra bảng phân phi
2
vi 1 bc t
do ta được
841.3)05.0(
2
1
. Do
2
<
841.3)05.0(
2
1
, nên ta ch p nh n gi thi t H ế
0
,
chp nh n gi thi ết hai đặc tính v hoa và lá nói trên độc
lp.
d : Gi s X Y tương ng s đo huyết áp trng
lượng (tính b ng pound) (1pound=0.454 kg) c a tr em 14
tui.
Để thu n ti n, s đo huyết áp X được chia thành các m c :
B X
1
= 99
B 99<X
2
= 110
B 110<X
3
= 120
B
4
=X>120
Và Y chia làm 2 m c :
A Y
1
= 102
A
2
=Y>102
Da vào m u ng u nhiên g m 200 tr em được đo huyết
áp và tr ng cho th y s u sau : ọng lượ li
Huy t áp ế
Trọng lượng
B
1
B
2
B
3
B
4
Tng
s
A
1
10
20
11
5
46
A
2
6
48
50
50
154
Tng s
16
68
61
55
200
14
Hãy ki nh gi thi t v s c l p gi a trểm đị ế độ ọng lượng và
huyết áp c a tr em.
Gii
Ta có :
53.221...200
)154).(55(
50
)46).(68(
20
)46).(16(
10
2
222
Vi mức ý nghĩa =1%, tra bng phân phi
2
vi b c t
do là (2-1).(4-1)=3, ta tìm được
345.11)01.0(
2
3
.
345.11)01.0(
2
3
2
nên ta bác b H k
0
ết
lun :
Gia huy t áp tr ng tr 14 tu i s ph ế ọng lượ
thuc l n nhau.
15
Bài 7.2. H i quy tuy ến tính đơn
Gi s Y là đại lượng ngu nhiên ph thu c vào X (có th
là biến ng u nhiên hay không ng u nhiên). N u X=x thì Y ế
s k v ng s ọng αx+β, với α, β h phương sai
σ
2
(không ph thu ộc x). Khi đó ta nói Y hi quy tuyến
tính theo X đườ ẳng y= αx+β đượ ọi đường th c g ng
thng h i quy thuy t c i v i X. Các h s ế ủa Y đố α, β
được g i là h s h i quy thuy ết. X được g i bi ến độc
lập. Y được gi là biến ph thuc.
Bài toán đặt ra ước lượng các h s hi quy thuyết
da trên m u quan sát (x
1
, y
1
), …, (x ). Ước lượng α
n
,y
n
β dự phương pháp bình phương bé nhấa trên t. Các s a và
b được dung làm ước lượng cho α β nếu làm c c ti u
tng
.)(),(
2
1
baxybaQ
ii
n
i
Ta tìm được
2
1 1 1 1
2 ( ) 0 (1)
n n n n
Q
i i i i i i ia
i i i i
x y ax b a x b x x y
)2(0)(2
1 1 1
n
i
n
i
n
i
iiiib
Q
ynbxabaxy
Gii (1) và (2) ta được:
16
n
i
n
i
ii
n
i
n
i
i
n
i
iii
xxn
yxyxn
a
1
2
1
2
1 11
)(
))((
Hoc
x
xy
SS
SS
a
1
n
xay
n
i
i
n
i
i
xayb
11
Hoc
xyb
10
Trong đó a, b được g i h s h ồi quy. Phương trình
y=ax+b đượ ọi là đườc g ng hi quy.
d 11: Các s u v s trang c a m t cu n sách (X) li
và giá bán c c cho b : ủa nó (Y) đượ ảng dưới đây
Tên sách
X
Y(nghìn)
A
400
44
B
600
47
C
500
48
D
600
48
E
400
43
F
500
46
Hãy tìm đường thng hi quy của Y theo X căn cứ trên s
liu nói trên.
Gii
17
Ta có :
12718
1540000
276
3000
138800
2
2
y
x
y
x
xy
T đó :
02.0
240000
4800
)3000()1540000(6
)276)(3000()138800(6
)(
))((
2
1
2
1
2
1 11
n
i
n
i
ii
n
i
n
i
i
n
i
iii
xxn
yxyxn
a
36
6
)3000).(02.0(276
11
n
xay
n
i
i
n
i
i
xayb
Vậy đường hi quy là : y=0.02x+36.
Ngoài vi ng h s hệc ước lượ ồi quy a b, ta còn ước
lượng đại lượng đo sự ủa Y xung quanh đườ phân tán c ng
18
thng h i quy, hi u
2
, XY
S
được xác định theo
công th c sau :
n
i
n
ybxyay
iii
n
XY
baxyS
1
2
2
2
1
2
,
2
)(
Đại lượng
XY
S
,
đượ c g i sai s tiêu chun c ng ủa đườ
hi quy, cho ta s đo sự ủa đám mây điể phân tán c m
(x
i
, y ng th ng h i quy.
i
) xung quanh đườ
d 12. Hãy tính sai s tiêu chu n c ng h i quy ủa đườ
XY
S
,
trong ví d 11 v a nêu.
Gii
5.1
26
)276(36)1388000).(02.0(12718
2
2
,
2
n
ybxyay
XY
S
Vy
22.15.1
,
XY
S
Dựa trên phương trình đườ ồi quy tìm đượng thng h c, ta
th d báo được giá tr c a Y n u bi t giá tr c a X. Giá ế ế
tr được d báo c a Y khi X=x s
0
:
baxy
00
Đây đồng thời cũng giá tr được d báo cho k v ng c a
Y ng v i X=x (ký hi u là
0
0
x
) :
bax
x
0
0
.
19
Sau đây, chúng ta xét bài toán tìm khoảng tin cy cho giá
tr d báo c ng tin c y cho giá tr d ủa Y, cũng như khoả
báo ca
0
x
.
+ Công th c tính kho ng tin c y cho giá tr d báo c a
Y khi X=x :
0
n
x
x
xx
n
XYn
Sty
2
)(
2
0
)(
1
,20
1)2/(
+ Công th c tính kho ng tin c cho giá tr d báo y
ca
0
x
là:
n
x
x
xx
n
XYn
Sty
2
)(
2
0
)(
1
,20
)2/(
Ví d 13. V i s u trong VD 11, hãy d báo v giá bán li
ca m t cu n sách v i 450 trang.
Gii
Theo phương trình hồi quy : y=0.02x+36, giá cun sách
đó được d báo là :
4536)450(02.0
y
(nghìn).
Khong tin cy 95% cho giá ca mt cu n sách 450 trang
là :
77.345
1)22.1)(025.0(45
6
2
)3000(
154000
)500450(
6
1
26
t
| 1/28

Preview text:

CHƯƠNG 9. Tương quan và hồi quy tuyến tính đơn
7.1. Tương quan tuyến tính đơn
7.2. Hồi quy tuyến tính đơn
7.3. Một số mô hình phi tuyến có thể tuyến tính hoá
Bài 7.1. Tương quan tuyến tính đơn
1. H s tương quan mẫu:
Giả sử X và Y là 2 BNN. Trong
nhều trường hợp X và Y phụ
thuộc lẫn nhau, ví dụ, GS X là
chiều dài của bàn chân của 1
người và Y là chiều cao của người đó.
Để đo mức độ phụ thuộc tuyến tính
giữa 2 BNN X và Y, người ta đưa ra
khái niệm hệ số tương quan : 1
E ( X  )(  X Y Y   )    X Y
Người ta đã chứng minh được 1    1. Khi =
 0 thì không có sự tương quan tuyến tính giữa X và
Y. Đặc biệt khi (X, Y) có phân phối chuẩn đồng thời thì
=0 khi và chỉ khi X, Y độc lập. Ngược lại, khi || càng
gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh.
Nếu ||=1 thì Y là một hàm tuyến tính của X. Ví d :
ụ Cho cặp BNN (X, Y) có hàm khối lượng xác suất
đồng thời được cho bởi bảng sau: -1 0 2 4 PY Y X 1 0.08 0.12 0.10 0.05 0.35 2 0.06 0.10 0.14 0.10 0.40 3 0.05 0.09 0.06 0.05 0.25 PX 0.19 0.31 0.3 0.2 1.00 μx 1.9 (Ϭx)2 0.59 μy 1.21 (Ϭy)2 3.1259 2 0.071 COV(X, Y) ρ(X, Y) 0.052281 
y(x)  ax b
b    a *  y x Y
a  ( X ,Y) * X
Muốn biết  chúng ta phải biết phân b c ố a ủ tập chính bao
gồm tất cả các giá trị của cặp (X, Y). Tuy nhiên, điều này là không thực tế.
Vì vậy, chúng ta có bài toán ước lượng và kiểm định hệ
số tương quan  dựa vào mẫu ngẫu nhiên: (x1, y1), (x2,
y2), …, (xn, yn) các giá trị c a ủ (X, Y). Để ước lượ ệ
ng h số tương quan , chúng ta sử ụ d ng hệ số tương quan mẫu: n
(x x)(y y) i i r i1 n n ( x x 2 ) ( y y 2 ) i  i i1  i 1
Chúng ta thường áp dụng công thức tính toán sau cho thuận lợi: 3 n( xy) (  x)( y)    r  2 2 2 2 n x (  x ) n y (  y )       Chú ý: 1 r  1 Ví d 1. T ụ
ính hệ số tương quan mẫu r dựa trên mẫu gồm 10 quan sát sau: i 1 2 3 4 5 6 7 8 9 10 xi 80 85 88 90 95 92 82 75 78 85 yi 2.4 2.8 3.3 3.1 3.7 3 2.5 2.3 2.8 3.1 Giải Cách 1. Tính trực tiếp
Đầu tiên tính các tổng
 ,xy,x ,y 2x, 2y r
Và thay vào công thức tính r: 8 . 0 58983 Cách 2 : Dựa vào Excel GS 10 giá trị c a
ủ xi được xếp vào các ô từ n J1, 10 A1 đế giá trị c a
ủ yi được xếp vào các ô từ A2 đến J2. Khi đó,
chỉ cần viết =CORREL(A1:J1,A2:J2), kết quả nhận được là 0.858983 Ví d 2 ụ
Giả sử ta có Danh sách điểm GT2 và Mạng MT c a ủ 10 SV như sau: i 1 2 3 4 5 6 7 8 9 10 xi 8.4 8 10 9 9 10 10 8 5.5 10 yi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 Câu h i
ỏ : Liệu điểm GT 2 và MMT có không tương quan hay không? 4 Giải r = 0.35 T= 1.071, α=5% Ví dụ 3
GS ta có danh sách điểm – TT HCM và MMT: i 1 2 3 4 5 6 7 8 9 10 xi 6.6 6 7 7.2 7.2 7 7.5 6.3 5 8.2 yi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 Ví dụ 4
GS ta có danh sách điểm – MMT và NLHĐH: i 1 2 3 4 5 6 7 8 9 10 xi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 yi 8.5 8 8.5 8.2 8.6 8 8 6.5 7.5 6.9 Ví dụ 5
GS ta có danh sách điểm – GT2 và TRR: i 1 2 3 4 5 6 7 8 9 10 xi 8.4 8 10 9 9 10 10 8 5.5 10 yi 5.8 7 9 9.6 8.8 8 6 5 5.5 8.4
Tiếp theo chúng ta đề cập đến bài toán kiểm định giả
thiết về hệ số tương quan lý thuyết .
Bài toán đầu tiên và quan trọng nhất là kiểm định xem X
và Y có tương quan với nhau hay không. 5
2. Bài toán kiểm định gi thiết:
- Gi thiết H0: =0
- Đối thiết H   1: 0
Tiêu chuẩn kiểm định được xây dựng d nh l ựa trên đị ý sau:
Định lý: Nếu (X, Y) có phân bố chuẩn 2 chiều thì dưới giả thiết H0, BNN r n2 T  2 1r Có phân b St
ố udent với n-2 bậc tự do.
Với mức ý nghĩa , ta sẽ bác bỏ H0 nếu |T|>tn-2( /  2).
Ví dụ: Trong một mẫu gồm 42 quan
sát (xi, yi) rút ra từ tập hợp chính các
giá trị của (X, Y), chúng ta tính
được hệ số tương quan mẫu là
r=0.22. Giả sử cặp BNN (X, Y) có
phân phối chuẩn đồng thời. Với mức
ý nghĩa =5%, có thể kết luận rằng
X và Y có tương quan hay không? Giải Ta có 6 r n2 2 . 0 2 40 2 . 0 2 T     4 . 1 3 2 2 154 . 0 1r 1 2 . 0 2 Với bậc tự do 40, =  5% ta tra bảng =TINV(0.05,40)=2.021075
So sánh, ta thấy |T|<2.021075, vì vậy chưa đủ cơ sở bác bỏ giả thiết H0. 3. V i
bài toán kiểm định gi t
hiết:
- Gi thiết H0: =0
- Đối thiết H 
1:  0
ở đây 0 là một gi
á trị khác 0 cho trước.
Chúng ta sẽ xây dựng tiêu chuẩn thống kê u m z    . Trong đó:  1 1 1 r 1 0 1 u  ln ;m  ln ;  2 1r 2 10 n 3 
Người ta chứng minh được rằng nếu H0 đúng, thì Z có phân b x
ố ấp xỉ phân bố chuẩn tắc N(0,1). Do đó, H0 sẽ bị
bác bỏ ở mức ý nghĩa  nếu |z|>z/2. Ví d :
ụ Từ mẫu cỡ n=35 rút ra từ tập chính các giá trị của
(X, Y), ta tính được hệ số tương quan là mẫ u là r=0.8.
Với mức ý nghĩa =5%, kiểm định giả thiết:
- Gi thiết H0: = 0.9
- Đối thiết H1:   0.9 7 Gii Ta có 1 u  ln 1r 1  ln 1 0  .8  . 1 00 ; 9 2 1r 2 1 0  .8 1 m  ln 10 1   ln 10.9  . 1 47 ; 2 2 1 2 10.9 0 1 1     . 0 177  n 3 32 Từ đó um 0 . 1 99 4 . 1 72 z     1 . 2 1  1 . 0 77
Với =5%, ta tìm được z/2= 1.96.
Vì |T|=2.11> u/2= 1.96, nên ta bác bỏ giả thiết H0, chấp
nhận đối thiết H1, nghĩa là chấp nhận kết luận 0.9.  Ví d :
ụ Từ mẫu cỡ n=35 rút ra từ tập chính các giá trị của
(X, Y), ta tính được hệ số tương quan là mẫ u là r=0.8.
Với mức ý nghĩa =5%, kiểm định giả thiết:
- Gi thiết H0: = 0.85
- Đối thiết H1:   0.85 Gii Ta có 1 u  ln 1r 1  ln 10.8  0 . 1 0 ; 9 2 1r 2 10.8 1  m  ln 1 0 1  ln 10 8.5  2 . 1 5 ; 6 2 1 2 1 . 0 85 0 1 1     1 . 0 77  n 3 32 8 Từ đó um 099 . 1  . 1 256 z     8 . 0 87  . 0 177
Với =5%, ta tìm được z/2= 1.96.
Vì |T|=0.887< z/2= 1.96, nên ta không đủ bá cơ sở c b ỏ
giả thiết H0, nghĩa là không chấp nhận kết luận 0.85. u m Z   Tiêu chuẩn th ng kê ố  cũng cho phép ta xác
định được khoảng tin cậy cho hệ số tương quan lý thuyết . Ví d :
ụ Trong một mẫu có cỡ n=52 được rút ra từ tập hợp
chính các giá trị của (X, Y), ta tính được hệ số tương
quan mẫu là r=0.53. Căn cứ trên kết quả nh đó hãy xác đị
khoảng tin cậy 95% cho hệ số tương quan lý thuyết  giữa X và Y. Giải Ta có 1 u  ln 1r 1  ln 10.53  0 5 . ; 9 2 1r 2 10.53 1 1 1      0.143  n 7 3 49
Với =5%, tra bảng ta có u/2=1.96. Với xác suất 95% ta có:
z   u m z   / 2  / 2
u z   m u z   / 2  / 2 Thay giá trị c a ủ 9 u,u   , / 2 vào ta được 3 . 0 1 m  8 . 0 7 Hay . 0 31 1  ln 1  . 0 87 2 1   6 . 0 2  ln 1  7 . 1 4 1 6 . 0 2 1 7 . 1 4  e   e 1  8 . 1 58 1    7 . 5 1 
Giải bất đẳng thức trên ta tìm được: 3 . 0    7 . 0
Đây là khoảng tin cậy 95% cho . 
4. Kiểm tra tính độc lp
Giả sử ta có mẫu ngẫu nhiên cỡ n các quan sát đồng thời
về hai biến ngẫu nhiên X và Y: (x1, y1), (x2,y2), …, (xn, yn).
Giả thiết H0: X và Y độc lập với nha u
Đối thiết H1: X và Y không độc lập.
- Ta ghép các giá trị mẫu (x1, x2, …, xn) thành các
khoảng, chẳng hạn r khoảng. Ghép các giá trị mẫu (y1,
y2, …, yn) thành s khoảng. Khi đó ta nhận được bảng 10 hai lối vào g m
ồ rs ô chữ nhật con. G i ọ (i, j) là ô ở hàng i c t ộ j. - Đếm s
ố các quan sát từ mẫu đã cho rơi vào ô (i, j).
Ký hiệu số đó là n ,i  , 1 r, j  , 1 s . ij Nói cách khác n ố ị ẫ ị ẫ
ij là s các giá tr m u mà có giá tr m u
theo X rơi vào khoảng thứ i và có giá trị mẫu theo Y rơi vào khoang thứ j.
Cần lưu ý rằng, các khoảng theo X và các khoảng theo
Y không nhất thiết được phân chia theo định lượng, mà
có thể theo định tính, chẳng hạn tốt, trung bình, xấu
hoặc giỏi, khá, trung bình, kém hoặc màu xanh, đỏ, trắng, vàng, ... - Tính s n n i .
ij (lấy tổng theo hàng) j 1 r n
n (lấy tổng theo cột) . jij i 1 r s
n  nij i 1 j1 ni .xn .j
- Đối với mỗi ô (i, j) ở trong bảng, ta tính . n Để
tiện tính toán, ta đặt số này trong ô (i, j) cạnh số nij ,
nhưng ta đặt trong ngoặc. - Tính r s n n i. . j r s ( 2 n   ) n 2  2    ij n n . . 1 ni n j  ij   n n i . . j  i1 jn 1  i1 j1  11
- Với α đã cho, tra bảng phân phối khi-bình phương  2 2
  với (r-1)(s-1) bậc tự do ta tìm được  rs ( ). ( ) 1 ( ) 1 - Nếu 2 2    ( ậ ủ r s ) ( ) 1 ( ) 1 ta bác b
ỏ tính độc l p c a X và
Y. (Thực chất tiêu chuẩn này là ứng dụng tiêu chuẩn phù hợp 2  ).
Trong thực hành ta hay sử dụng công thức :  r s n 2  2    ij n 1  n n i. . j   i 1 j1  Khi r=s=2 thì : r s 1 n 1 n12  2  n 2 nij n21 n22   n  1    ni. . n n j 1 . n 2 . n . 1 n . 2 i  1 j1  Ví dụ : Ở các cây ng c
ọ trâm lá có hai dạng, « lá phẳng »
hoặc « lá nhăn », hoa có hai dạng, « hoa bình thường »
hoặc « hoa hoàng hậu ». Quan sát m t ộ mẫu gồm 560 cây ng c
ọ trâm ta thu được kết quả sau : Bình thường Hoàng hậu Tổng s ố Hoa Lá Phẳng 328 122 450 Nhăn 77 33 110 Tổng s ố 405 155 560
Có thể chấp nhận giả thiết hai đặc tính về hoa và lá nói
trên là độc lập hay không ? Hay giữa chúng có sự tương quan ? 12 Giải Ta có n n 328 122 11 12 n 560 2 n n 77 33 21 22     3 . 0 68 n n n n (450). 1 ( 10).(405). 1 ( 55) 1 . 2 . . 1 . 2 2 
Với mức ý nghĩa 5%, tra bảng phân phối với 1 bậc tự 2 2 do ta đượ    c ( . 0 0 ) 5 8 . 3 41 1 . Do < 2  ( . 0 0 ) 5  8 . 3 41 1
, nên ta chấp nhận giả thiết H0,
chấp nhận giả thiết hai đặc tính về hoa và lá nói trên là độc lập. Ví d :
ụ Giả sử X và Y tương ứng là s
ố đo huyết áp và trọng
lượng (tính bằng pound) (1pound=0.454 kg) của trẻ em 14 tuổi.
Để thuận tiện, số đo huyết áp X được chia thành các mức : B1=X99 
B2=99B3=110B4=X>120  Và Y chia làm 2 mức : A1=Y102  A2=Y>102 
Dựa vào mẫu ngẫu nhiên gồm 200 trẻ em được đo huyết
áp và trọng lượng cho thấy số liệu sau : Huyết áp B1 B2 B3 B4 Tổng Trọng lượng số A1 10 20 11 5 46 A2 6 48 50 50 154 Tổng s ố 16 68 61 55 200 13
Hãy kiểm định giả thiết về sự c
độ lập giữa trọng lượng và huyết áp của trẻ em. Giải Ta có : 2   20  0 102 20 2  ... 502    1 ( 6).(46) (68).(46) (55). 1 ( 5 ) 4 1 225.3 2
Với mức ý nghĩa =1%, tra bảng phân phối  với bậc tự 2
do là (2-1).(4-1)=3, ta tìm được  0 . 0 ( ) 1  11 3 . 45 3 . 2 2 Vì    0 . 0 ( ) 1 11 3 . 45 3
nên ta bác bỏ H0 và kết luận :
Giữa huyết áp và trọng lượng trẻ 14 tuổi có sự ph ụ thuộc lẫn nhau. 14 Bài 7.2. H i
quy tuyến tính đơn
Giả sử Y là đại lượng ngẫu nhiên phụ thuộc vào X (có thể
là biến ngẫu nhiên hay không ngẫu nhiên). Nếu X=x thì Y
sẽ có kỳ vọng là αx+β, với α, β là hằng số và phương sai
là σ2 (không phụ thuộc x). Khi đó ta nói Y có hồi quy tuyến
tính theo X và đường thẳng y= αx+β được ọi g là đường thẳng h i ồ quy lý thuyết của Y i
đố với X. Các hệ số α, β được g i ọ là hệ s
ố hồi quy lý thuyết. X được g i ọ là biến độc
lập. Y được gọi là biến phụ thuộc.
Bài toán đặt ra là ước lượng các hệ số hồi quy lý thuyết
dựa trên mẫu quan sát (x1, y1), …, (xn,yn). Ước lượng α và
β dựa trên phương pháp bình phương bé nhất. Các s a ố và
b được dung làm ước lượng cho α và β nếu nó làm cực tiểu tổng n ( Q , a )
b  (y ax  )2 b . i i i 1  Ta tìm được n n n n Q  2  2 
x (y ax b )  0 a x b x     x y (1) ai i i i i i i i1 i1 i1 i1 n n nQ  2
y ax b   a x nb   y b ( ) 0 i ii  ) 2 ( i i1 i1 i1
Giải (1) và (2) ta được: 15 n n n n x y ( )( ) i iix yi a i1 i1 i 1 n n n x2  2 ( ) iix i1 i 1  SS xy a    Hoặc 1 SSx n n y ax   i i i1 i
b y a x  1 n Hoặc        b y x 0 1
Trong đó a, b được gọi là hệ s
ố hồi quy. Phương trình
y=ax+b được gọi là đường hồi quy. Ví d 11: ụ
Các số liệu về số trang c a ủ một cuốn sách (X)
và giá bán của nó (Y) được cho bảng dưới đây : Tên sách X Y(nghìn) A 400 44 B 600 47 C 500 48 D 600 48 E 400 43 F 500 46
Hãy tìm đường thẳng hồi quy của Y theo X căn cứ trên s ố liệu nói trên. Giải 16 Ta có : xy 138800 x  3000  y 276 2  x  1540000  2y 12718 Từ đó : n n n n x y (  x )( y )
i i i i i i i  6 1 ( 3880 ) 0 (3000)(276) 1 1 1 a n n  6 1(54000 )0(3000)2 2 n x  ( x )2  i i i 1  i 1  4800   0 . 0 2 240000 n ny a ixi i 1 i 1
b y ax n 276 (  0 . 0 2).(3000)   36 6
Vậy đường hồi quy là : y=0.02x+36.
Ngoài việc ước lượng hệ số hồi quy a và b, ta còn ước
lượng đại lượng đo sự phân tán của Y xung quanh đường 17 2 thẳng h i
ồ quy, ký hiệu là SY ,X và được xác định theo công thức sau : n 2 2 1 2 y axy bS
(y ax b )  y Y , X n 2    i i i n 2 i1
Đại lượng SY ,X được gọi là sai số tiêu chuẩn của đường
hồi quy, nó cho ta số đo sự phân tán của đám mây điểm (xi, yi ng t ) xung quanh đườ hẳng hồi quy. Ví d
ụ 12. Hãy tính sai số tiêu chuẩn của đường hồi quy
SY ,X trong ví d 11 v ụ ừa nêu. Giải 2 2  y   a xy  Sb y Y , X n2 12718 (  0 . 0 2). 1 ( 38800 ) 0 3  6(276)   5 . 1 62 S   Vậy 1 5 . 1.22 Y, X
Dựa trên phương trình đường thẳng hồi quy tìm được, ta
có thể dự báo được giá trị của Y nếu biết giá trị của X. Giá
trị được dự báo của Y khi X=x0 sẽ là :    y ax b 0 0
Đây đồng thời cũng là giá trị được dự báo cho kỳ vọng của  Y ứng với X=x    ax  0 (ký hiệu là ) : b . 0 x x 0 0 18
Sau đây, chúng ta xét bài toán tìm khoảng tin cậy cho giá
trị dự báo của Y, cũng như khoảng tin cậy cho giá trị dự  báo của 0 x .
+ Công thức tính khoảng tin cậy  cho giá trị dự báo của Y khi X=x0 :  y t ( / ) 2 S 1 1  ( x x 0 ) 0 n2 Y ,X n 2  ( 2 x) x n
+ Công thức tính khoảng tin cậy  cho giá trị dự báo  của 0 x là:  y t ( / ) 2 S 1  ( x x 0 ) 0 n2 Y ,X n 2  ( 2 x) x n Ví d 13. ụ
Với số liệu trong VD 11, hãy dự báo về giá bán của m t ộ cu n sá ố ch với 450 trang. Giải
Theo phương trình hồi quy : y=0.02x+36, giá cuốn sách 
đó được dự báo là : y  0 . 0 ( 2 45 ) 0  36  45 (nghìn).
Khoảng tin cậy 95% cho giá của một cuốn sách 450 trang là : 45  t 0 ( 0 . 2 ) 5 ( 2 . 1 ) 2 1 (450 5  00) 1   6 2  2 6 ( 300 ) 0 154000 6  45 3 7 . 7 19