-
Thông tin
-
Quiz
Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!
Xác suất thống kê (MAT1011) 33 tài liệu
Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội 537 tài liệu
Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chương 9. Tương quan và Hồi quy tuyến tính - Xác suất thống kê | Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!
Môn: Xác suất thống kê (MAT1011) 33 tài liệu
Trường: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội 537 tài liệu
Thông tin:
Tác giả:




























Tài liệu khác của Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Preview text:
CHƯƠNG 9. Tương quan và hồi quy tuyến tính đơn
7.1. Tương quan tuyến tính đơn
7.2. Hồi quy tuyến tính đơn
7.3. Một số mô hình phi tuyến có thể tuyến tính hoá
Bài 7.1. Tương quan tuyến tính đơn
1. Hệ số tương quan mẫu:
Giả sử X và Y là 2 BNN. Trong
nhều trường hợp X và Y phụ
thuộc lẫn nhau, ví dụ, GS X là
chiều dài của bàn chân của 1
người và Y là chiều cao của người đó.
Để đo mức độ phụ thuộc tuyến tính
giữa 2 BNN X và Y, người ta đưa ra
khái niệm hệ số tương quan : 1
E ( X )( X Y Y ) X Y
Người ta đã chứng minh được 1 1. Khi =
0 thì không có sự tương quan tuyến tính giữa X và
Y. Đặc biệt khi (X, Y) có phân phối chuẩn đồng thời thì
=0 khi và chỉ khi X, Y độc lập. Ngược lại, khi || càng
gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh.
Nếu ||=1 thì Y là một hàm tuyến tính của X. Ví d :
ụ Cho cặp BNN (X, Y) có hàm khối lượng xác suất
đồng thời được cho bởi bảng sau: -1 0 2 4 PY Y X 1 0.08 0.12 0.10 0.05 0.35 2 0.06 0.10 0.14 0.10 0.40 3 0.05 0.09 0.06 0.05 0.25 PX 0.19 0.31 0.3 0.2 1.00 μx 1.9 (Ϭx)2 0.59 μy 1.21 (Ϭy)2 3.1259 2 0.071 COV(X, Y) ρ(X, Y) 0.052281
y(x) ax b
b a * y x Y
a ( X ,Y) * X
Muốn biết chúng ta phải biết phân b c ố a ủ tập chính bao
gồm tất cả các giá trị của cặp (X, Y). Tuy nhiên, điều này là không thực tế.
Vì vậy, chúng ta có bài toán ước lượng và kiểm định hệ
số tương quan dựa vào mẫu ngẫu nhiên: (x1, y1), (x2,
y2), …, (xn, yn) các giá trị c a ủ (X, Y). Để ước lượ ệ
ng h số tương quan , chúng ta sử ụ d ng hệ số tương quan mẫu: n
(x x)(y y) i i r i1 n n ( x x 2 ) ( y y 2 ) i i i1 i 1
Chúng ta thường áp dụng công thức tính toán sau cho thuận lợi: 3 n( xy) ( x)( y) r 2 2 2 2 n x ( x ) n y ( y ) Chú ý: 1 r 1 Ví d 1. T ụ
ính hệ số tương quan mẫu r dựa trên mẫu gồm 10 quan sát sau: i 1 2 3 4 5 6 7 8 9 10 xi 80 85 88 90 95 92 82 75 78 85 yi 2.4 2.8 3.3 3.1 3.7 3 2.5 2.3 2.8 3.1 Giải Cách 1. Tính trực tiếp
Đầu tiên tính các tổng
,x y,x ,y 2x, 2y r
Và thay vào công thức tính r: 8 . 0 58983 Cách 2 : Dựa vào Excel GS 10 giá trị c a
ủ xi được xếp vào các ô từ n J1, 10 A1 đế giá trị c a
ủ yi được xếp vào các ô từ A2 đến J2. Khi đó,
chỉ cần viết =CORREL(A1:J1,A2:J2), kết quả nhận được là 0.858983 Ví d 2 ụ
Giả sử ta có Danh sách điểm GT2 và Mạng MT c a ủ 10 SV như sau: i 1 2 3 4 5 6 7 8 9 10 xi 8.4 8 10 9 9 10 10 8 5.5 10 yi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 Câu h i
ỏ : Liệu điểm GT 2 và MMT có không tương quan hay không? 4 Giải r = 0.35 T= 1.071, α=5% Ví dụ 3
GS ta có danh sách điểm – TT HCM và MMT: i 1 2 3 4 5 6 7 8 9 10 xi 6.6 6 7 7.2 7.2 7 7.5 6.3 5 8.2 yi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 Ví dụ 4
GS ta có danh sách điểm – MMT và NLHĐH: i 1 2 3 4 5 6 7 8 9 10 xi 8.7 8.5 9 8.7 9.2 8 6.5 5.5 7 9.1 yi 8.5 8 8.5 8.2 8.6 8 8 6.5 7.5 6.9 Ví dụ 5
GS ta có danh sách điểm – GT2 và TRR: i 1 2 3 4 5 6 7 8 9 10 xi 8.4 8 10 9 9 10 10 8 5.5 10 yi 5.8 7 9 9.6 8.8 8 6 5 5.5 8.4
Tiếp theo chúng ta đề cập đến bài toán kiểm định giả
thiết về hệ số tương quan lý thuyết .
Bài toán đầu tiên và quan trọng nhất là kiểm định xem X
và Y có tương quan với nhau hay không. 5
2. Bài toán kiểm định giả thiết:
- Giả thiết H0: =0
- Đối thiết H 1: 0
Tiêu chuẩn kiểm định được xây dựng d nh l ựa trên đị ý sau:
Định lý: Nếu (X, Y) có phân bố chuẩn 2 chiều thì dưới giả thiết H0, BNN r n2 T 2 1r Có phân b St
ố udent với n-2 bậc tự do.
Với mức ý nghĩa , ta sẽ bác bỏ H0 nếu |T|>tn-2( / 2).
Ví dụ: Trong một mẫu gồm 42 quan
sát (xi, yi) rút ra từ tập hợp chính các
giá trị của (X, Y), chúng ta tính
được hệ số tương quan mẫu là
r=0.22. Giả sử cặp BNN (X, Y) có
phân phối chuẩn đồng thời. Với mức
ý nghĩa =5%, có thể kết luận rằng
X và Y có tương quan hay không? Giải Ta có 6 r n2 2 . 0 2 40 2 . 0 2 T 4 . 1 3 2 2 154 . 0 1r 1 2 . 0 2 Với bậc tự do 40, = 5% ta tra bảng =TINV(0.05,40)=2.021075
So sánh, ta thấy |T|<2.021075, vì vậy chưa đủ cơ sở bác bỏ giả thiết H0. 3. V i
ớ bài toán kiểm định gi t
ả hiết:
- Giả thiết H0: =0
- Đối thiết H
1: 0
ở đây 0 là một gi
á trị khác 0 cho trước.
Chúng ta sẽ xây dựng tiêu chuẩn thống kê u m z . Trong đó: 1 1 1 r 1 0 1 u ln ;m ln ; 2 1r 2 10 n 3
Người ta chứng minh được rằng nếu H0 đúng, thì Z có phân b x
ố ấp xỉ phân bố chuẩn tắc N(0,1). Do đó, H0 sẽ bị
bác bỏ ở mức ý nghĩa nếu |z|>z/2. Ví d :
ụ Từ mẫu cỡ n=35 rút ra từ tập chính các giá trị của
(X, Y), ta tính được hệ số tương quan là mẫ u là r=0.8.
Với mức ý nghĩa =5%, kiểm định giả thiết:
- Giả thiết H0: = 0.9
- Đối thiết H1: 0.9 7 Giải Ta có 1 u ln 1r 1 ln 1 0 .8 . 1 00 ; 9 2 1r 2 1 0 .8 1 m ln 10 1 ln 10.9 . 1 47 ; 2 2 1 2 10.9 0 1 1 . 0 177 n 3 32 Từ đó um 0 . 1 99 4 . 1 72 z 1 . 2 1 1 . 0 77
Với =5%, ta tìm được z/2= 1.96.
Vì |T|=2.11> u/2= 1.96, nên ta bác bỏ giả thiết H0, chấp
nhận đối thiết H1, nghĩa là chấp nhận kết luận 0.9. Ví d :
ụ Từ mẫu cỡ n=35 rút ra từ tập chính các giá trị của
(X, Y), ta tính được hệ số tương quan là mẫ u là r=0.8.
Với mức ý nghĩa =5%, kiểm định giả thiết:
- Giả thiết H0: = 0.85
- Đối thiết H1: 0.85 Giải Ta có 1 u ln 1r 1 ln 10.8 0 . 1 0 ; 9 2 1r 2 10.8 1 m ln 1 0 1 ln 10 8.5 2 . 1 5 ; 6 2 1 2 1 . 0 85 0 1 1 1 . 0 77 n 3 32 8 Từ đó um 099 . 1 . 1 256 z 8 . 0 87 . 0 177
Với =5%, ta tìm được z/2= 1.96.
Vì |T|=0.887< z/2= 1.96, nên ta không đủ bá cơ sở c b ỏ
giả thiết H0, nghĩa là không chấp nhận kết luận 0.85. u m Z Tiêu chuẩn th ng kê ố cũng cho phép ta xác
định được khoảng tin cậy cho hệ số tương quan lý thuyết . Ví d :
ụ Trong một mẫu có cỡ n=52 được rút ra từ tập hợp
chính các giá trị của (X, Y), ta tính được hệ số tương
quan mẫu là r=0.53. Căn cứ trên kết quả nh đó hãy xác đị
khoảng tin cậy 95% cho hệ số tương quan lý thuyết giữa X và Y. Giải Ta có 1 u ln 1r 1 ln 10.53 0 5 . ; 9 2 1r 2 10.53 1 1 1 0.143 n 7 3 49
Với =5%, tra bảng ta có u/2=1.96. Với xác suất 95% ta có:
z u m z / 2 / 2
u z m u z / 2 / 2 Thay giá trị c a ủ 9 u,u , / 2 vào ta được 3 . 0 1 m 8 . 0 7 Hay . 0 31 1 ln 1 . 0 87 2 1 6 . 0 2 ln 1 7 . 1 4 1 6 . 0 2 1 7 . 1 4 e e 1 8 . 1 58 1 7 . 5 1
Giải bất đẳng thức trên ta tìm được: 3 . 0 7 . 0
Đây là khoảng tin cậy 95% cho .
4. Kiểm tra tính độc lập
Giả sử ta có mẫu ngẫu nhiên cỡ n các quan sát đồng thời
về hai biến ngẫu nhiên X và Y: (x1, y1), (x2,y2), …, (xn, yn).
Giả thiết H0: X và Y độc lập với nha u
Đối thiết H1: X và Y không độc lập.
- Ta ghép các giá trị mẫu (x1, x2, …, xn) thành các
khoảng, chẳng hạn r khoảng. Ghép các giá trị mẫu (y1,
y2, …, yn) thành s khoảng. Khi đó ta nhận được bảng 10 hai lối vào g m
ồ rs ô chữ nhật con. G i ọ (i, j) là ô ở hàng i c t ộ j. - Đếm s
ố các quan sát từ mẫu đã cho rơi vào ô (i, j).
Ký hiệu số đó là n ,i , 1 r, j , 1 s . ij Nói cách khác n ố ị ẫ ị ẫ
ij là s các giá tr m u mà có giá tr m u
theo X rơi vào khoảng thứ i và có giá trị mẫu theo Y rơi vào khoang thứ j.
Cần lưu ý rằng, các khoảng theo X và các khoảng theo
Y không nhất thiết được phân chia theo định lượng, mà
có thể theo định tính, chẳng hạn tốt, trung bình, xấu
hoặc giỏi, khá, trung bình, kém hoặc màu xanh, đỏ, trắng, vàng, ... - Tính s n n i .
ij (lấy tổng theo hàng) j 1 r n
n (lấy tổng theo cột) . j ij i 1 r s
n nij i 1 j1 ni .xn .j
- Đối với mỗi ô (i, j) ở trong bảng, ta tính . n Để
tiện tính toán, ta đặt số này trong ô (i, j) cạnh số nij ,
nhưng ta đặt trong ngoặc. - Tính r s n n i. . j r s ( 2 n ) n 2 2 ij n n . . 1 n i n j ij n n i . . j i1 j n 1 i1 j1 11
- Với α đã cho, tra bảng phân phối khi-bình phương 2 2
với (r-1)(s-1) bậc tự do ta tìm được r s ( ). ( ) 1 ( ) 1 - Nếu 2 2 ( ậ ủ r s ) ( ) 1 ( ) 1 ta bác b
ỏ tính độc l p c a X và
Y. (Thực chất tiêu chuẩn này là ứng dụng tiêu chuẩn phù hợp 2 ).
Trong thực hành ta hay sử dụng công thức : r s n 2 2 ij n 1 n n i. . j i 1 j1 Khi r=s=2 thì : r s 1 n 1 n12 2 n 2 nij n21 n22 n 1 ni. . n n j 1 . n 2 . n . 1 n . 2 i 1 j1 Ví dụ : Ở các cây ng c
ọ trâm lá có hai dạng, « lá phẳng »
hoặc « lá nhăn », hoa có hai dạng, « hoa bình thường »
hoặc « hoa hoàng hậu ». Quan sát m t ộ mẫu gồm 560 cây ng c
ọ trâm ta thu được kết quả sau : Bình thường Hoàng hậu Tổng s ố Hoa Lá Phẳng 328 122 450 Nhăn 77 33 110 Tổng s ố 405 155 560
Có thể chấp nhận giả thiết hai đặc tính về hoa và lá nói
trên là độc lập hay không ? Hay giữa chúng có sự tương quan ? 12 Giải Ta có n n 328 122 11 12 n 560 2 n n 77 33 21 22 3 . 0 68 n n n n (450). 1 ( 10).(405). 1 ( 55) 1 . 2 . . 1 . 2 2
Với mức ý nghĩa 5%, tra bảng phân phối với 1 bậc tự 2 2 do ta đượ c ( . 0 0 ) 5 8 . 3 41 1 . Do < 2 ( . 0 0 ) 5 8 . 3 41 1
, nên ta chấp nhận giả thiết H0,
chấp nhận giả thiết hai đặc tính về hoa và lá nói trên là độc lập. Ví d :
ụ Giả sử X và Y tương ứng là s
ố đo huyết áp và trọng
lượng (tính bằng pound) (1pound=0.454 kg) của trẻ em 14 tuổi.
Để thuận tiện, số đo huyết áp X được chia thành các mức : B1=X99
B2=99B3=110B4=X>120 Và Y chia làm 2 mức : A1=Y102 A2=Y>102
Dựa vào mẫu ngẫu nhiên gồm 200 trẻ em được đo huyết
áp và trọng lượng cho thấy số liệu sau : Huyết áp B1 B2 B3 B4 Tổng Trọng lượng số A1 10 20 11 5 46 A2 6 48 50 50 154 Tổng s ố 16 68 61 55 200 13
Hãy kiểm định giả thiết về sự c
độ lập giữa trọng lượng và huyết áp của trẻ em. Giải Ta có : 2 20 0 102 20 2 ... 502 1 ( 6).(46) (68).(46) (55). 1 ( 5 ) 4 1 225.3 2
Với mức ý nghĩa =1%, tra bảng phân phối với bậc tự 2
do là (2-1).(4-1)=3, ta tìm được 0 . 0 ( ) 1 11 3 . 45 3 . 2 2 Vì 0 . 0 ( ) 1 11 3 . 45 3
nên ta bác bỏ H0 và kết luận :
Giữa huyết áp và trọng lượng trẻ 14 tuổi có sự ph ụ thuộc lẫn nhau. 14 Bài 7.2. H i
ồ quy tuyến tính đơn
Giả sử Y là đại lượng ngẫu nhiên phụ thuộc vào X (có thể
là biến ngẫu nhiên hay không ngẫu nhiên). Nếu X=x thì Y
sẽ có kỳ vọng là αx+β, với α, β là hằng số và phương sai
là σ2 (không phụ thuộc x). Khi đó ta nói Y có hồi quy tuyến
tính theo X và đường thẳng y= αx+β được ọi g là đường thẳng h i ồ quy lý thuyết của Y i
đố với X. Các hệ số α, β được g i ọ là hệ s
ố hồi quy lý thuyết. X được g i ọ là biến độc
lập. Y được gọi là biến phụ thuộc.
Bài toán đặt ra là ước lượng các hệ số hồi quy lý thuyết
dựa trên mẫu quan sát (x1, y1), …, (xn,yn). Ước lượng α và
β dựa trên phương pháp bình phương bé nhất. Các s a ố và
b được dung làm ước lượng cho α và β nếu nó làm cực tiểu tổng n ( Q , a )
b (y ax )2 b . i i i 1 Ta tìm được n n n n Q 2 2
x (y ax b ) 0 a x b x x y (1) a i i i i i i i i1 i1 i1 i1 n n n Q 2
y ax b a x nb y b ( ) 0 i i i ) 2 ( i i1 i1 i1
Giải (1) và (2) ta được: 15 n n n n x y ( )( ) i i ix yi a i1 i1 i 1 n n n x2 2 ( ) i ix i1 i 1 SS xy a Hoặc 1 SSx n n y a x i i i1 i
b y a x 1 n Hoặc b y x 0 1
Trong đó a, b được gọi là hệ s
ố hồi quy. Phương trình
y=ax+b được gọi là đường hồi quy. Ví d 11: ụ
Các số liệu về số trang c a ủ một cuốn sách (X)
và giá bán của nó (Y) được cho bảng dưới đây : Tên sách X Y(nghìn) A 400 44 B 600 47 C 500 48 D 600 48 E 400 43 F 500 46
Hãy tìm đường thẳng hồi quy của Y theo X căn cứ trên s ố liệu nói trên. Giải 16 Ta có : xy 138800 x 3000 y 276 2 x 1540000 2y 12718 Từ đó : n n n n x y ( x )( y )
i i i i i i i 6 1 ( 3880 ) 0 (3000)(276) 1 1 1 a n n 6 1(54000 )0(3000)2 2 n x ( x )2 i i i 1 i 1 4800 0 . 0 2 240000 n n y a i xi i 1 i 1
b y ax n 276 ( 0 . 0 2).(3000) 36 6
Vậy đường hồi quy là : y=0.02x+36.
Ngoài việc ước lượng hệ số hồi quy a và b, ta còn ước
lượng đại lượng đo sự phân tán của Y xung quanh đường 17 2 thẳng h i
ồ quy, ký hiệu là SY ,X và được xác định theo công thức sau : n 2 2 1 2 y axy b S
(y ax b ) y Y , X n 2 i i i n 2 i1
Đại lượng SY ,X được gọi là sai số tiêu chuẩn của đường
hồi quy, nó cho ta số đo sự phân tán của đám mây điểm (xi, yi ng t ) xung quanh đườ hẳng hồi quy. Ví d
ụ 12. Hãy tính sai số tiêu chuẩn của đường hồi quy
SY ,X trong ví d 11 v ụ ừa nêu. Giải 2 2 y a xy S b y Y , X n2 12718 ( 0 . 0 2). 1 ( 38800 ) 0 3 6(276) 5 . 1 62 S Vậy 1 5 . 1.22 Y, X
Dựa trên phương trình đường thẳng hồi quy tìm được, ta
có thể dự báo được giá trị của Y nếu biết giá trị của X. Giá
trị được dự báo của Y khi X=x0 sẽ là : y ax b 0 0
Đây đồng thời cũng là giá trị được dự báo cho kỳ vọng của Y ứng với X=x ax 0 (ký hiệu là ) : b . 0 x x 0 0 18
Sau đây, chúng ta xét bài toán tìm khoảng tin cậy cho giá
trị dự báo của Y, cũng như khoảng tin cậy cho giá trị dự báo của 0 x .
+ Công thức tính khoảng tin cậy cho giá trị dự báo của Y khi X=x0 : y t ( / ) 2 S 1 1 ( x x 0 ) 0 n2 Y ,X n 2 ( 2 x) x n
+ Công thức tính khoảng tin cậy cho giá trị dự báo của 0 x là: y t ( / ) 2 S 1 ( x x 0 ) 0 n2 Y ,X n 2 ( 2 x) x n Ví d 13. ụ
Với số liệu trong VD 11, hãy dự báo về giá bán của m t ộ cu n sá ố ch với 450 trang. Giải
Theo phương trình hồi quy : y=0.02x+36, giá cuốn sách
đó được dự báo là : y 0 . 0 ( 2 45 ) 0 36 45 (nghìn).
Khoảng tin cậy 95% cho giá của một cuốn sách 450 trang là : 45 t 0 ( 0 . 2 ) 5 ( 2 . 1 ) 2 1 (450 5 00) 1 6 2 2 6 ( 300 ) 0 154000 6 45 3 7 . 7 19