1
Baì 6
PHÂN TÍCH HI QUY-TƯƠNG QUAN
2
Tóm t t
Mi liên hgia các hin tượng
Phân tích tương quan
Phân tích hi quy nđơ
Phân tích hi quy b i
Thc hành vi phn mm thng
M gii liên h a các hin t ngượ
kinh tế- h i
3
mi liên hgia mc lương đim thi
đầu vào Đại hc không?
4
Mu: 1,532 sv tt nghip tNEU sau hai năm;
Đim thi đầu vào t17,5 đến 29,5
Mc lương t1đến 35 tr đồng/tháng.
Source: fb Nguyn Vit Cường
Liên hhàm s liên htương quan (1)
Liên hhàm s:
mi liên hhoàn toàn cht ch. Sthay đổi c a
hi thayn tượng này tác dng quyếtđịnh đến s
đổ i c a hin tượng liên quan (100%) theo mt tl
xác nh.đị
Đặcđim: liên hhàm skhông nh đượng c biu
hi tn ng th còn được bi u hin trên t ng nđơ
v bi t
Liên hhàm s liên htương quan (2)
Liên htương quan: mi liên hkhông hoàn toàn
cht ch. Sthay đổi ca hin tượng này thlàm
hin t i theo nhượng liên quan thay đổ ưng không
nh hưởng hoàn toàn quyếtđịnh (<100%).
d :
Chiu cao tu i
S gi t i m hc đ
Doanh thu chi phí qung cáo
Hai cphi th nàoếu liên hvi nhau như ế
Đặcđim: liên htương quan không được biu hi n
trên tng đơn v bit phi thông qua hin tượng
s l n.
1 2
3 4
5 6
2
Phân tích tương quan (Correlation)
7
Mc đích
Ch ginghiên cu mi liên h a hai bi nế
Công c
Biếnđịnh tính
- Bng dliu chéo (đã hc bài 2)
- Kimđịnh Khi bình phương (không đề cp khóa hc này)
- Hstương quan hng (không đề cp khóa hc này)
Biếnđịnh lượng
- Hip phương sai (đã hc bài 3)
- Hstương quan (đã hc bài 3)
-Đồ thphân tán (đồ thcác chmđim / Scatterplot)
1. Hip phương sai (nhc li)
1
1
( )( )
cov( , ) 1
1
1
n
i i
i
n
i i
i
X X Y Y
X Y n
X Y nXY
n






Cho phép đánh giá chiu hướng ca mi liên h
tương quan tuyến tính gia hai biếnđịnh lượng X
Y.
Công thc:
Đánh giá m độc : KHÓ
2. Hstương quan Pearson (nhc li)
( , ) cov( , )
,
X Y X Y
COV X Y X Y
rs s
Cho phép đánh giá được c m độc và chiu
hướng ca mi liên h tương quan tuyến tính.
Công thc tính cho tng th u: và m
Gi tthiết ca hs ương quan Pearson
Liên h tuyến tính.
Phân phi chun
Phương sai đồng nh t
7 8
9 10
11 12
3
Giá tr c s ta h ương quan
Nếu r=-1, liên hhàm s mi liên hngh ch
Nếu r=+1, liên hhàm s mi liên hthu n
Nếu r => +/- 1, mi liên htương quan càng cht ch
Nếu r=0 => không mi liên htương quan
TUYN TÍNH
3. Đồ thphân tán
Cho phép đánh giá dng, chiu hướng, mcđộ c a
mi liên htương quan.
d:Đồ th m giphân tán t i liên h a thi gian
sng ti thành ph tình cm yêu mếnđối vi thành
phốđó => Mi liên htuyến tính
14
D ur a t io n o f R e s id e nc e
Attitude Towards City
2 01 51 050
1 1
1 0
9
8
7
6
5
4
3
2
S ca tte rplo t of Atti tud e T ow ar ds C i t y v s D u r a t i o n o f R e s id e n c e
Các dng liên h
15
Liên h tương quan thu n
Liên h phi tuyến tính
Liên h tương quan nghch
Không có mi liên h
Phân tích hi quy (Regression)
16
Ý nghĩa ca phân tích hi quy
Đ độ ánh giá tác ng ca m t hay nhiu biến
độ đế c lp (X) n mt biến phthu c (Y)
Ki thuy m phmđịnh các gi ết v i quan h
thuc gia các bi nế
Thc hin dựđoán giá trca biến phthuc khi
biết biếnđộc l p
TS. Trn Th Bích - Khoa Thng kê
17
Nguyên lý ca phân tích hi quy
Nêu githuyết ki nh: Cmđị ăn cvào mc tiêu
nghiên cu, thuyết vkinh tế kinh doanh,
quan sát thc tế=> đưa ra các githuyết vm i
liên h
Lưu ý: Mi hình hi quy phiđược xây dng t
cơs thuyết
Thiết lp hình
Ước lượng tham s
Đánh giá kimđịnh hình
Din gii kết qu
Dựđoán
Ra quyếtđịnh
TS. Trn Th Bích - Khoa Thng kê
18
13 14
15 16
17 18
4
Các dng liên h
Liên htuyến tính phi tuyến tính
Liên htuy tuyến tính gi n liên ha 2 biế ến tính
gia nhiu bi n.ế
Hi quy cho phép phân tích mi liên hnày:
- Phân tích hi quy nđơ
- Phân tích hi quy b i
19
I. Hi quy nđơ
Phân tích mi liên hgia 2 bi nh lếnđị ượng:
M thut biến ph c Y là biếnđịnh lượng
Mt biếnđộc lp X cũng bi nh lếnđị ượng
Ch y tuy ếu xét dng liên h ến tính
20
Các bước trong phân ch hi quy
1. Xác định bn cht ca mi liên h.
2. Biu din mi liên hbng đồ th
3. Xây dng hình hi quy biu din mi liên h
4. Ước l a cượng gii thích ý nghĩ a các tham s
ca hình
5. Kimđịnh hình
6. Đánh giá sphù hp ca hình hi quy
7. Suy din dựđoán thng
21
Hi quy tuyến tính mđơn: khái ni
X
22
Mt biến độc lp
nquan sát
X
i
= giá tr c n a biế độc lp ca quan sát th i
th
Y
i
= giá tr c a biến ph thuc ca quan sát th i
th
s
x
= S.D ca biến độc lp (tính trên mu)
s
y
= S.D ca biến ph thuc (tính trên mu)
giá tr a bi trung bình c ến ph thu c
giá tr a bi trung bình c ến độc l p
Y
Bước 1: Phân tích bn cht ca mi liên h
Biến nào tác động đến biến nào? thay đổi ca bi nế
độ đế đổ c l p (X) sdn n sthay i c a biến ph
thuc (Y) ra sao?
chiu tác động ngược li không?
- VD: thay đổi chi phí qung cáo sdnđến thay đổi v
doanh sbán? Có chiu ngược li không?
Hai biến thc s mi liên hkhông? (lý
thuyết thc nghim)
- VD: mi liên hgia doanh sbán kính râm doanh
sbán kem.
23
Ví d 1
Phân tích mi liên hgia thi gian sng ti thành
ph tình cm yêu mếnđối vi TP ó.đ
Tình cm ca bnđối vi thành ph bnđang s ong, đ
theo thang đim t1-11 (1=không thích nào, 11= r t
thích).
Mu (tínhn tìm hiu xem thi gian bn sng thành ph
bng n nh hăm) ưởng thếnào đến tình cm ca bn.
S li u: thu thp trên mu 12 người.
24
19 20
21 22
23 24
5
D li u
25
Tình cm i đố
vi thành ph
Cht l ng ượ
CSHT
Thi gian sng
thành ph
STT
63101
911122
84123
3144
1011125
4166
5787
2428
118189
910910
1081711
25212
Bước 2: Vẽđthphân tán
Ví d Tình cm đối vi thành ph và thi gian sng
26
Duration of Residence
Attitude Towards City
20151050
11
10
9
8
7
6
5
4
3
2
Scatterplot of Attitude Towards City vs Duration of Residence
hình hóa liên htương quan bng liên hhàm s
Tìm mtđường hi quy phn ánh mi liên hgi nga thi gian s
ti TP tình cm yêu mếnđối vi thành ph .
27
Đường h i quy sai sc a hình
Đường thng liên k i liên hết m gia thi gian
sng thành ph i v tình cmđố i thành ph
=> Mi giá trcaXcho 1 giá trduy nhtcaY
Trên thc tế, mi giá caXcho nhiu giá tr ac
Y. Điu này do có sai shay nhiu
Sai shay nhi u ph n ánh chênh lch gia giá
tr th c tếca y và giá trtính toán được da vào
phương trình hi quy. Vmt thng kê, sai sốđi
biu cho vicđưa thiếu các biến vào hình
sai sdo ghi chép
28
Bước 3: Xây dng mô hình hi quy
0 1i i i
Y X 
29
Vi ic t m đặ đường thng xuyên qua các ch đ m
tương đương vi vic xây dng mô hình h i quy d ưới
đây:
H s t do và h s góc được ướ ược l ng bng
phương pháp bình ph ng nhươ nht (OLS).
H s t do
H s góc
Sai s
hình
30
Đường hi quy tt nh t
VD vm gii liên h a thi gian sng ti TP tình cm yêu
mếnđối vi thành ph .
25 26
27 28
29 30
6
Bước 4: Ước lượng MHHQ - Ph ng pháp OLSươ
2
i
31
= sai s
Y
X
Giá tr
quan sát
Mun: min
i
Y
i
0
1
X
i
i
PTHQ
m u
OLS: vmt toán h c
32
Cn tìm 𝛽
󰆹
𝛽
󰆹
sao cho
𝑢

𝑌
𝑌


𝑌
𝛽
󰆹
𝛽
󰆹
𝑋

 𝑚𝑖𝑛

Kết qu :
𝛽
󰆹
∑𝑋
𝑋
𝑌
𝑌

∑𝑋
𝑋

𝛽
󰆹
𝑌
𝛽󰆹
𝑋
Áp dng cho ví d 1
ˆ1.0796 0.5897*
i i
Y X
H s góc = 16.333/27.697
= 0.5897
H s t do = 6.5833-0.5897*9.333
=1.0796
Phương trình hi quy:
33
L phưu ý v ương pháp OLS
Hsca phương trình hi muđược gii hoàn
toàn bng toán h c
Hai biến không ý nghĩa vmt kinh tếvn
cho ra PTHQ tt.
Các sai sKHÔNG quan sát được nên th
tìm được rt nhiu giá trcho beta để ph ngươ
trình tha mãn.
Gi thi ết ca OLS
34
Gi thi ết ca OLS
Các sai stuân theo quy lut phân phi chu n
Các sai s kvng bng 0 và phương sai không iđổ
Các sai sốđc lp vi nhau
Các biếnđộc lp ngoi sinh. Tc là:
35
( , ) 0Cov X
Bước 4: Gii thích kết qu
= 0.5897 nêu nh hưởng trc ti a thếp c i gian
sng ti thành phốđi vi tình cm yêu mến thành ph.
Nếu thi gian sng thành ph m thìtăng thêm 1 nă
tình cm yêu mếnđối vi thành phs t ăng trung bình
0.5897 đi m
= 1.0796 (là giá trca Y ti X=0) nêu nh hưởng
ca các nhân tkhác ngoài thi gian sng ti thành ph
đế đố n tình cm yêu mến i v i thành ph .
Lưu ý: trong m t strường h p không gii thích
được khi X=0. Khi đó chúng ta không gii thích ý
ngh s nàyĩa ca h
1
ˆ
0
ˆ
36
0
ˆ
31 32
33 34
35 36
7
B nhước 5: Kimđị
Phương trình hi quy
tính được trên cơs s liu ca m u
Cn kimđịnh xem liu tn ti mi liên htương quan
tuy t khôngến tính cho toàn b ng th
ˆ1.0796 0.5897 *
i i
Y X
Áp dng cho ví d 1
H
0
:β
1
=0
H
1:β1 0
Tiêu chun kim định:
Do đó chúng ta bác b gi thiết H
0
vì t>2.2281 vi mc ý
nghĩa 5% (bc t do df=10)
Hoc t SPSS, p_value=0.000 nên bác b H
0
và kết lun có
tn ti mi liên h tương quan tuyến tính gia th i gian s ng
ti thành ph n thành phtình cm yêu mế
1
1 1
ˆ
ˆ0.5897 0 8.412
0.0701
ts


Bước 6: Đánh giá sphù hp ca hình hi quy
Nh nmđánh giá kh ăng dựđoán ca hình hi quy
C dn s ng hai tham s :
Hsxác định: đánh giá sphù hp ca hình hi quy. H
sxác định càng gn 100%, sphù hp ca MH càng ln
giá trdựđoán càng chính xác.
Sai schun caước lượng (Sxy ho chuc Se): Sai s n ca
ướ ược l ng đánh giá độ phân tán ca các giá trquan sát ca Y
xung quanh đường hi quy t i m t giá trcth c a X. Se
càng nh,đường hi quy càng g n v i dliu MHHQ
thsdng để dựđoán.
39
1. Hsxác định
40
Hsnày đượcđo bi tl gi a phn biến thiên được gi i
thích bi X và biến thiên toàn bY => đánh giá mcđộ cht
ch sphù hp ca MH
Dao động trong mu ca biến phthuc Y (Total sum of
Squares):
𝑆𝑆𝑇 ∑𝑌
𝑌

Tng bình phương các phn dư(Sum of Squares of Errors)
𝑆𝑆𝐸 ∑𝑌
𝑌


Biến thiên ca hi quy (Sum of Squares of Regression)
𝑆𝑆𝑅 ∑𝑌
𝑌

SST=SSE+SSR =>SSR=SST-SSE
Hsxác ađịnh: minh h
41
Hsxác định: công thc
42
𝑅


1


thểđưc tính theo công thc khác:

2
2
2 2
2 2
*
n X Y X Y
r
n X X n Y Y







  


37 38
39 40
41 42
8
Áp dng cho ví d 1
r
2
= 87.6%
Có ngh i cĩa là có đến 87.6% s thay đổ a Yđược
gii thích bi s i c thay đổ a X
43
H s t ương quan
44
𝑅 𝑅
𝑅𝛽
󰆹

2. Sai schun caước lượng
S

hoc S
được tính theo công thc dướiđây:
S

S
MSE
Vi MSE Mean of Sum of Squares of Errors
được tính nhưsau:
MSE SSE
n2
Sai schun caước lượng: minh h a
46
Bước 7: Suy din dựđoán thng
Bài toán 1: Xây dng khong tin c y
(KTC) cho hshi quy
Bài toán 2: Dựđoán giá trca Y
TS. Trn Th Bích - Khoa Thng kê
47
Khong tin cy ca hshi quy
KTC 2 phía cho hs h i quy
Di tn gii: Viđộ tin cy , khi biếnX ăng 1
đơn vthì trung bình Y tăng trong khong này
KTC để ước lượng GTLN cho hshi quy
∞;𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
KTC để ước lượng GTNN cho hs h i quy
48
1
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
𝛽
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
;
43 44
45 46
47 48
9
Áp dng vào d 1
TS. Trn Th Bích - Khoa Thng kê
49
Dựđoán giá trca Y
Lưu ý: Chthc hin ni suy. Tc dựđoán giá tr ac
Y ti các giá trX
j
n lim trong phm vi d u m ãuđ
cho. Điu này do mi liên hgia X Y vi các giá
trX nm ngoài khong giá trịđã cho th d ng
khác.
Dựđoán đim: thay giá trX vào PTHQ m u
Dựđoán kho ng:
- Khong giá trcá bit c i ma Y t t giá trca X
- Khong giá trtrung bình ca Y ti mt giá trca X
50
Dựđoán giá tr bit ca Y ti m t
giá trc th c a X
Dựđoán giá trca Y cho mt quan sát nhn mt giá tr
cthcaX:
51
X
j
X
0
𝑌
𝑡
,
𝑆

𝑌𝑌
𝑡
,
𝑆

𝑆

𝑆𝐸
𝑆𝑒󰇛𝑌
󰇜
Dựđoán giá trTB ca Y ti mt giá
tr c th c a X
Dựđoán giá trca Y cho tt ccác quan sát nhn mt giá
tr c th c a X:
SE: Sai schu mn ca UL; n: c u, X
0
giá trca X t i
đó dựđoán giá trTB ca Y
52
X
j
X
0
𝑌
𝑡
,
𝑆𝑒 𝑌
𝑌
𝑌
𝑡
,
𝑆𝑒󰇛𝑌
󰇜
𝑆𝑒 𝑌
𝑆𝐸 1
𝑛󰇛𝑋
𝑋
󰇜
𝑛1𝑆𝑒󰇛𝑋󰇜
Thc hành vi phn mm thng
TS. Trn Th Bích - Khoa Thng kê
53
II. Hi quy b i
Dli u:
M thu ct biến ph
Hai hoc nhiu biếnđộc l p
d:Thu nhp phthuc vào trình độ hc v n,
thâm niên công tác, gii tính, ....
Lưu ý khi phân tích hi quy bi: slượng bi nế
phi ít hơn squan sát
Nguyên phân tích tương thi quy nđơ
54
49 50
51 52
53 54
10
T i?i sao phi sdng hình hi quy b
hình hi quy đơn thường vi phm githi tế
Các ưu vit khác ca hình hi quy b i
Cung c ă p thêm thông tin nên làm gia t ng ch t lượng dbáo
So sánh tác động ca các yếu t
Cho phép sdng dng hàm phong phú h nơ
55
( , ) 0Cov X
hình hi quy bi dng tng quát
hình:
đượcước lượng b i:
Tương tnh hư i quy đơn, phương trình hi quy được
ướ ượ ươ ươc l ng bng ph ng pháp bình ph ng nhnht
hs s hhi quy bi hay h i quy riêng phn th
hin tác động ca biến lên giá trtrung bình ca Y
trong điu kin các biến X khác trong hình không
thay đổi
Y
0
1
X
1
2
X
2
k
X
k
u
0 1 1 2 2
ˆ ˆ ˆ ˆˆk k
Y X X X 
k
X
56
d 2
Tình cm yêu mếnđối vi thành phgi
được gii thích bi hai nhân t:
- Thi gian sng ti TP
- Cht lượng cơs h t ng
57
hình hi quy b i
0 1 1 2 2
Y X X  
58
Y= tình cm yêu mếnđối vi TP
X
1
= Thi gian sng ti TP
X
2
= Ch t l ượng cơsh ngt
Ước lượng bng SPSS
Attitude Towards City = 0.337 + 0.481 Duration of Residence
+ 0.289 quality of infrastructure
Coefficients
a
Sig.t
Standardized
Coefficients
Unstandardized
Coefficients
Model BetaStd. ErrorB
.567.595.567.337(Constant)1
.0008.160.764.059.481duration
.0083.353.314.086.289quality
a. Dependent Variable: attitude
59
Gii thích hshi quy b i
Gi s hi thích ý nghĩa c a t ng h i quy bi (hay h
sgóc).
Lưu ý tác động ca mt biếnXt ơi Y phi d a trên c
s i.các yếu tcòn li không thay đổ
Áp dng vào VD 2
60
55 56
57 58
59 60
11
Hshi quy chun hóa
Hshi quy chun hóa: dùng để xác định vai trò tác
độ động ca các biến c lp ti biến phthuc trong
hình hi quy.
Betab
S
S
Trong đó:
S
∑󰇛


󰇜
 S∑󰇛

󰇜

Đ ánh giá sphù h p ca hình
Đ ánh giá độ phù hp c a hình
Hsxác định: ging hi quy nđơ
Hsxác định hiu ch nh
62
R21(1R2)n1
n k
Kimđịnh hình
Kimđịnh ý ngh ng cĩa th a hình:
1. Kimđịnh ý ngh ng cĩa th a toàn b hình
2. Kimđịnh ý nghĩa thng ca tng hsgóc
(t nh hương t ư i quy n)đơ
Kimđịnh sphù hp ca hình
63
1. Kimđịnh ý nghĩa thng ca toàn bMH
H
0
: β
1
= β
2
= β
3
=…= β
k
=0
H
A
: Có ít nht MT hsgóc khác 0
S d ng thng kê:
Nếu , bác b H
0
. Tc mt hoc nhi u
hsgóc khác 0 => cn kimđịnh bước 2 để xem h
sgóc nào ý nghĩa thng
64
𝐹
MSR
MSE
𝑆𝑆𝑅 𝑘
Ú
𝑆𝑆𝐸 𝑛
Ú𝑘1𝑅
𝑘
Ú
1𝑅
󰇜󰇛Ú𝑛𝑘1
𝐹𝐹
,
2. Kimđịnh ý ngh ng h gócĩa thng ca t s
H
0
: β
j
=0
H
A
: β
j
0
Tiêu chun ki nh:mđị
Nguyên tc ra quyếtđịnh: so vi phân phi t v i
bc tdo (n-k-1)
NếuH
0
bbác b=> hsgóc ca biến thj
th
khác 0. Có nghĩa khi xem xét ccác biến khác,
biếnđộc lp thj
th
v tuyn mi liên h ến tính
v thui biến ph c mi liên hnày ý
nghĩa thng kê.
65
𝑡𝛽
󰆹
𝛽
𝑆𝑒󰇛𝛽
󰆹
𝛽
󰆹
𝑆𝑒󰇛𝛽
󰆹
Xây dng KTC cho hshi quy b i
KTC 2 phía cho hs h i quy ca biếnX
j
Din gii: Viđộ tin cy , khi biếnX
j
tăng 1
đơ đ đổn v trong iu kin các yếu tkhác không i
thì trung bình Y thay đổi trong khong này
66
1
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
𝛽
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
61 62
63 64
65 66
12
Xây dng KTC cho hshi quy b i
KTC 2 phía cho hs h i quy ca biếnX
j
Din gii: Viđộ tin cy , khi biếnX
j
tăng 1
đơ đ đổn v trong iu kin các yếu tkhác không i
thì trung bình Y thay đổi trong khong này
67
1
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
𝛽
𝛽
󰆹
𝑡
,
𝑆𝑒 𝛽
󰆹
67

Preview text:

Tóm tắt Baì 6
•Mối liên hệgiữa các hiện tượng
PHÂN TÍCH HỒI QUY-TƯƠNG QUAN •Phân tích tương quan •Phân tích hồi quy đơn •Phân tích hồi quy bội
•Thực hành với phần mềm thống kê 2 1 2
Mối liên hệgiữa các hiện tượng
Có mối liên hệgiữa mức lương và điểm thi kinh tế- xã hội
đầu vào Đại học không?
•Mẫu: 1,532 sv tốt nghiệp từNEU sau hai năm;
•Điểm thi đầu vào từ17,5 đến 29,5
•Mức lương từ1đến 35 tr đồng/tháng.
Source: fb Nguyễn Việt Cường 3 4 3 4
Liên hhàm svà liên htương quan (1)
Liên hhàm svà liên htương quan (2)
Liên htương quan: là mối liên hệkhông hoàn toàn
chặt chẽ. Sựthay đổi của hiện tượng này có thểlàm
Liên hhàm số:
hiện tượng liên quan thay đổi theo nhưng không có
là mối liên hệhoàn toàn chặt chẽ. Sựthay đổi của
ảnh hưởng hoàn toàn quyếtđịnh (<100%).
hiện tượng này có tác dụng quyếtđịnh đến sựthay Ví dụ:
đổi của hiện tượng liên quan (100%) theo một tỷlệ xác định. –Chiều cao và tuổi
–Sốgiờtựhọc và điểm
Đặcđim: liên hệhàm sốkhông những được biểu
–Doanh thu và chi phí quảng cáo
hiệnởtổng thểmà còn được biểu hiện trên từng đơn
–Hai cổphiếu liên hệvới nhau nhưthếnào vịcá biệt
Đặcđim: liên hệtương quan không được biểu hiện
trên từng đơn vịcá biệt mà phải thông qua hiện tượng sốlớn. 5 6 1 Mục đích
•Chỉnghiên cứu mối liên hệgiữa hai biến
Phân tích tương quan (Correlation) 7 7 8 Công cụ
1. Hiệp phương sai (nhắc lại) •Biếnđịnh tính
•Cho phép đánh giá chiều hướng của mối liên hệ
- Bảng dữliệu chéo (đã họcở bài 2)
tương quan tuyến tính giữa hai biếnđịnh lượng X
- Kiểmđịnh Khi bình phương (không đề cậpở khóa học này) và Y.
- Hệsốtương quan hạng (không đề cậpở khóa học này) •Công thức: n •Biếnđịnh lượng ( X X  )(Y ) Yii
- Hiệp phương sai (đã họcở bài 3) i 1 cov(X , ) Y   n 1
- Hệsốtương quan (đã họcở bài 3) 1 n 
-Đồ thịphân tán (đồ thịcác chấmđiểm / Scatterplot)  X Y nXY  n 1 i i  i1
•Đánh giá mứcđộ: KHÓ 9 10
2. Hệsốtương quan Pearson (nhắc lại)
Giảthiết của hệsốtương quan Pearson
•Cho phép đánh giá được cả mức độ và chiều
hướng của mối liên hệ tương quan tuyến tính. •Liên hệ tuyến tính.
•Công thức tính cho tổng thể và mẫu: •Phân phối chuẩn •Phương sai đồng nhất COV( X, ) Y cov( , X )   , Y rs s X Y X Y 11 12 2
Giá trị của hệ số tương quan 3. Đồ thịphân tán
Cho phép đánh giá dạng, chiều hướng, và mứcđộ của mối liên hệtương quan.
•Nếu r=-1, liên hệhàm sốvà là mối liên hệnghịch
Ví dụ:Đồ thịphân tán mô tảmối liên hệgiữa thời gian
•Nếu r=+1, liên hệhàm sốvà là mối liên hệthuận
sống tại thành phốvà tình cảm yêu mếnđối với thành
•Nếu r => +/- 1, mối liên hệtương quan càng chặt chẽ
phốđó => Mối liên hệtuyến tính
•Nếu r=0 => không có mối liên hệtương quan TUYẾN TÍNH
S c a tt e r p l o t o f A t t i tu d e T o w a r ds C i t y v s D u r a t i o n o f R e s id e n c e 1 1 1 0 9 8 7 6 5 4 At titude Towards City 3 2 0 5 1 0 1 5 2 0
D ur a t io n o f R e s id e nc e 14 13 14 Các dạng liên hệ
Liên h tương quan thun
Liên h tương quan nghch
Phân tích hồi quy (Regression)
Liên h phi tuyến tính
Không có mi liên hệ 15 16 15 16
Ý nghĩa của phân tích hồi quy
Nguyên lý của phân tích hồi quy
•Đánh giá tác động của một hay nhiều biến
•Nêu giảthuyết kiểmđịnh: Căn cứvào mục tiêu
độc lập (X) đến một biến phụthuộc (Y)
nghiên cứu, lý thuyết vềkinh tếvà kinh doanh,
quan sát thực tế=> đưa ra các giảthuyết vềmối
Kiểmđịnh các giảthuyết vềmối quan hệphụ liên hệ thuộc giữa các biến
Lưu ý: Mọi mô hình hồi quy phảiđược xây dựng từ cơsởlý thuyết
Thực hiện dựđoán giá trịcủa biến phụthuộc khi biết biếnđộc lập •Thiết lập mô hình •Ước lượng tham số
•Đánh giá và kiểmđịnh mô hình •Diễn giải kết quả Dựđoán Ra quyếtđịnh
TS. Trần Thị Bích - Khoa Thống kê 17
TS. Trần Thị Bích - Khoa Thống kê 18 17 18 3 Các dạng liên hệ I. Hồi quy đơn
•Liên hệtuyến tính và phi tuyến tính
•Phân tích mối liên hệgiữa 2 biếnđịnh lượng:
•Liên hệtuyến tính giữa 2 biến và liên hệtuyến tính
–Một biến phụthuộc Y là biếnđịnh lượng giữa nhiều biến.
–Một biếnđộc lập X cũng là biếnđịnh lượng
Hồi quy cho phép phân tích mối liên hệnày:
Chủyếu xét dạng liên hệtuyến tính - Phân tích hồi quy đơn - Phân tích hồi quy bội 19 20 19 20
Các bước trong phân tích hồi quy
Hồi quy tuyến tính đơn: khái niệm
1. Xác định bản chất của mối liên hệ.
2. Biểu diễn mối liên hệbằng đồ thị
Mt biến độc lp
3. Xây dựng mô hình hồi quy biểu diễn mối liên hệ •Có nquan sát
4. Ước lượng và giải thích ý nghĩa của các tham số •X
= giá trị của biến độc lập của quan sát thứ ith i của mô hình
•Y = giá trị của biến phụ thuộc của quan sát thứ i ith 5. Kiểmđịnh mô hình •s
= S.D của biến độc lập (tính trên mẫu) x
6. Đánh giá sựphù hợp của mô hình hồi quy •s
= S.D của biến phụ thuộc (tính trên mẫu) y
7. Suy diễn và dựđoán thống kê
•giá trị trung bình của biến phụ thuộc Y •g X
iá trị trung bình của biến độc lập 21 22 21 22
Bước 1: Phân tích bản chất của mối liên hệ Ví dụ 1
•Biến nào tác động đến biến nào? thay đổi của biến
•Phân tích mối liên hệgiữa thời gian sống tại thành
độc lập (X) sẽdẫnđến sựthay đổi của biến phụ
phốvà tình cảm yêu mếnđối với TP đó. thuộc (Y) ra sao?
Tình cảm của bạnđối với thành phốmà bạnđang sống, đo
Có chiều tác động ngược lại không?
theo thang điểm từ1-11 (1=không thích tí nào, 11= rất thích). -
VD: thay đổi chi phí quảng cáo sẽdẫnđến thay đổi về
doanh sốbán? Có chiều ngược lại không?
Muốn tìm hiểu xem thời gian bạn sống ở thành phố(tính
bằng năm) ảnh hưởng thếnào đến tình cảm của bạn.
Hai biến có thực sựcó mối liên hệkhông? (lý
Sốliệu: thu thập trên mẫu 12 người. thuyết và thực nghiệm) -
VD: mối liên hệgiữa doanh sốbán kính râm và doanh sốbán kem. 23 24 23 24 4 Dữ liệu
Bước 2: Vẽđồthịphân tán STT Thời gian sống ở Chất lượng Tình cảm đối thành phố CSHT với thành phố
•Ví dụ – Tình cảm đối với thành phố và thời gian sống 1 10 3 6 2 12 11 9 3 12 4 8
Scatterplot of Attitude Towards City vs Duration of Residence 11 4 4 1 3 10 5 12 11 10 9 6 6 1 4 8 7 7 8 7 5 6 8 2 4 2 5 Attitude Towards City 9 18 8 11 4 3 10 9 10 9 2 11 17 8 10 0 5 10 15 20 Duration of Residence 12 2 5 2 25 26 25 26
Mô hình hóa liên hệtương quan bằng liên hệhàm số
Đường hồi quy và sai sốcủa mô hình
•Tìm mộtđường hồi quy phản ánh mối liên hệgiữa thời gian sống
tại TP và tình cảm yêu mếnđối với thành phố.
•Đường thẳng liên kết mối liên hệgiữa thời gian
sống ở thành phốvà tình cảmđối với thành phố
=> Mỗi giá trịcủaXcho 1 giá trịduy nhtcủaY
•Trên thực tế, mỗi giá củaXcho nhiều giá trịcủa
Y. Điều này là do có sai sốhay ‘nhiễu’
•Sai sốhay ‘nhiễu’phản ánh chênh lệch giữa giá
trịthực tếcủa y và giá trịtính toán được dựa vào
phương trình hồi quy. Vềmặt thống kê, sai sốđại
biểu cho việcđưa thiếu các biến vào mô hình và sai sốdo ghi chép 27 28 27 28
Bước 3: Xây dựng mô hình hồi quy
Đường hồi quy tốt nhất
•VD vềmối liên hệgiữa thời gian sống tại TP và tình cảm yêu
•Việc đặt đường thẳng xuyên qua các chấm điểm
mếnđối với thành phố.
tương đương với việc xây dựng mô hình hồi quy dưới đây: Hệ số tự do Sai số mô hình Y X      i 0 1 i i Hệ số góc
Hệ số tự do và hệ số góc được ước lượng bằng
phương pháp bình phương nhỏ nhất (OLS). 29 30 29 30 5
Bước 4: Ước lượng MHHQ - Phương pháp OLS OLS: vềmặt toán học 2  Muốn:  i min Y
Cần tìm 𝛽󰆹 và 𝛽󰆹 sao cho
Y     X  Giá trị    i 0 1 i i quan sát
𝑢  𝑌  𝑌  𝑌   𝛽󰆹 𝛽󰆹𝑋  𝑚𝑖𝑛     i = sai số Kết quả: ∑𝑋 𝑋𝑌 𝑌 𝛽󰆹    PTHQ  ∑𝑋 𝑋    mẫu
𝛽󰆹 𝑌𝛽󰆹 𝑋   X 31 32 31 32 Áp dụng cho ví dụ 1 Lưu ý vềphương pháp OLS •Hệ số góc = 16.333/27.697
 Hệsốcủa phương trình hồi mẫuđược giải hoàn = 0.5897 toàn bằng toán học
•Hệ số tự do = 6.5833-0.5897*9.333
 Hai biến không có ý nghĩa vềmặt kinh tếvẫn =1.0796 cho ra PTHQ tốt. •Phương trình hồi quy:
 Các sai sốKHÔNG quan sát được nên có thể
tìm được rất nhiều giá trịcho beta để phương ˆ1.0796 0.5897 *  Y X trình thỏa mãn. i i  Giảthiết của OLS 33 34 33 34 Giảthiết của OLS
Bước 4: Giải thích kết quả •= 0.ˆ5
 897 nêu ảnh hưởng trực tiếp của thời gian 1
sống tại thành phốđối với tình cảm yêu mến thành phố.
 Các sai sốtuân theo quy luật phân phối chuẩn
Nếu thời gian sống ở thành phốtăng thêm 1 năm thì
 Các sai sốcó kỳvọng bằng 0 và phương sai không đổi
tình cảm yêu mếnđối với thành phốsẽtăng trung bình
 Các sai sốđộc lập với nhau là 0.5897 điểm
 Các biếnđộc lập là ngoại sinh. Tức là: Cov (X , )  0  •= 1.07 ˆ
 96 (là giá trịcủa Y tại X=0) nêu ảnh hưởng 0
của các nhân tốkhác ngoài thời gian sống tại thành phố
đến tình cảm yêu mếnđối với thành phố.
Lưu ý: trong một sốtrường hợp kˆ  hông giải thích 0
được khi X=0. Khi đó chúng ta không giải thích ý nghĩa của hệsốnày 35 36 35 36 6 Bước 5: Kiểmđịnh Áp dụng cho ví dụ 1 •Phươngtr  ình hồi quy ˆ1.0796 0.5897 * •H =0 i Y iX 0:β1
tính được trên cơsởsốliệu của mẫu • H 1:β1 ≠0
•Cần kiểmđịnh xem liệu có tồn tại mối liên hệtương quan
• Tiêu chuẩn kiểm định:
tuyến tính cho toàn bộtổng thểkhông ˆ0.5897 0 8.412  1 1 ts  0.0701 ˆ1 
•Do đó chúng ta bác bỏ giả thiết H 0 vì t>2.2281 với mức ý
nghĩa 5% (bậc tự do df=10)
•Hoặc từ SPSS, p_value=0.000 nên bác bỏ H và kết luận có 0
tồn tại mối liên hệ tương quan tuyến tính giữa thời gian sống
tại thành phố và tình cảm yêu mến thành phố 37 38
Bước 6: Đánh giá sựphù hợp của mô hình hồi quy 1. Hệsốxác định
•Nhằmđánh giá khảnăng dựđoán của mô hình hồi quy
•Hệsốnày đượcđo bởi tỉlệgiữa phần biến thiên được giải
thích bởi X và biến thiên toàn bộY => đánh giá mứcđộ chặt
•Cần sửdụng hai tham số:
chẽvà sựphù hợp của MH
–Hệsốxác định: đánh giá sựphù hợp của mô hình hồi quy. Hệ
•Dao động trong mẫu của biến phụthuộc Y (Total sum of
sốxác định càng gần 100%, sựphù hợp của MH càng lớn và Squares):
giá trịdựđoán càng chính xác. •𝑆𝑆𝑇  ∑𝑌    𝑌 
–Sai sốchuẩn củaước lượng (Sxy hoặc Se): Sai sốchuẩn của
•Tổng bình phương các phần dư(Sum of Squares of Errors)
ước lượng đánh giá độ phân tán của các giá trịquan sát của Y
xung quanh đường hồi quy tại một giá trịcụthểcủa X. Se •𝑆𝑆𝐸  ∑𝑌  𝑌  
càng nhỏ,đường hồi quy càng gần với dữliệu và MHHQ có
•Biến thiên của hồi quy (Sum of Squares of Regression)
thểsửdụng để dựđoán. •𝑆𝑆𝑅  ∑𝑌  𝑌   
•SST=SSE+SSR =>SSR=SST-SSE 39 40 39 40
Hệsốxác định: minh họa
Hệsốxác định: công thức •𝑅
   1   
•Có thểđược tính theo công thức khác: 2      2 n X Y X Y r   
 n X     2 2 2 2 X * n Y Y       41 42 41 42 7 Áp dụng cho ví dụ 1 Hệ số tương quan r 2 •𝑅 𝑅  = 87.6% •𝑅𝛽 󰆹
•Có nghĩa là có đến 87.6% sự thay đổi của Yđược 
giải thích bởi sự thay đổi của X 43 44 43 44
2. Sai sốchuẩn củaước lượng
Sai sốchuẩn củaước lượng: minh họa
•S  hoặc S được tính theo công thức dướiđây: S S  MSE
Với MSE là Mean of Sum of Squares of Errors và được tính nhưsau: MSE SSE n2 46 45 46
Khoảng tin cậy của hệsốhồi quy
Bước 7: Suy diễn và dựđoán thống kê
•KTC 2 phía cho hệsốhồi quy
•Bài toán 1: Xây dựng khoảng tin cậy 𝛽󰆹 𝑡
𝑆𝑒 𝛽󰆹 𝛽 𝛽󰆹 𝑡 𝑆𝑒 𝛽󰆹        (KTC) cho hệsốhồi quy , ,
•Diễn giải: Vớiđộ tin cậy là 1 , khi biếnXtăng 1
•Bài toán 2: Dựđoán giá trịcủa Y
đơn vịthì trung bình Y tăng trong khoảng này
•KTC để ước lượng GTLN cho hệsốhồi quy
∞;𝛽󰆹 𝑡, 𝑆𝑒 𝛽󰆹
•KTC để ước lượng GTNN cho hệsốhồi quy 𝛽󰆹 𝑡 𝑆𝑒 𝛽󰆹  ,  ; ∞
TS. Trần Thị Bích - Khoa Thống kê 47 48 47 48 8 Dựđoán giá trịcủa Y
Lưu ý: Chỉthực hiện nội suy. Tức là dựđoán giá trịcủa
Y tại các giá trịX nằm trong phạm vi dữliệu mẫuđã j Áp dụng vào ví dụ1
cho. Điều này là do mối liên hệgiữa X và Y với các giá
trịX nằm ngoài khoảng giá trịđã cho có thểcó dạng khác.
•Dựđoán điểm: thay giá trịX vào PTHQ mẫu •Dựđoán khoảng:
- Khoảng giá trịcá biệt của Y tại một giá trịcủa X
- Khoảng giá trịtrung bình của Y tại một giá trịcủa X
TS. Trần Thị Bích - Khoa Thống kê 49 50 49 50
Dựđoán giá trịcá biệt của Y tại một
Dựđoán giá trịTB của Y tại một giá giá trịcụthểcủa X trịcụthểcủa X
•Dựđoán giá trịcủa Y cho một quan sát nhận một giá trị
•Dựđoán giá trịcủa Y cho tất cảcác quan sát nhận một giá cụthểcủaX: X X trịcụthểcủa X: X X j 0 j 0 𝑌 𝑡
𝑆 𝑌𝑌  𝑡 𝑆    𝑌 𝑆𝑒 𝑌 𝑆𝑒󰇛𝑌 ,   ,   𝑡 
 𝑌  𝑌 𝑡 󰇜 , , 𝑆
𝑆𝐸  𝑆𝑒󰇛𝑌  󰇜 𝑛󰇛𝑋 𝑋󰇜   𝑆𝑒 𝑌 𝑆𝐸  1   𝑛1𝑆𝑒󰇛𝑋󰇜
•SE: Sai sốchuẩn của UL; n: cỡmẫu, X ạ 0 là giá trịcủa X t i
đó dựđoán giá trịTB của Y 51 52 51 52 II. Hồi quy bội •Dữliệu: –Một biến phụthuộc
Thực hành với phần mềm thống kê
–Hai hoặc nhiều biếnđộc lập
Ví d:Thu nhập phụthuộc vào trình độ học vấn,
thâm niên công tác, giới tính, ....
Lưu ý khi phân tích hi quy bi: sốlượng biến phải ít hơn sốquan sát
•Nguyên lý phân tích tương tựhồi quy đơn
TS. Trần Thị Bích - Khoa Thống kê 53 54 53 54 9
Tại sao phải sửdụng mô hình hồi quy bội?
Mô hình hồi quy bội – dạng tổng quát •Mô hình:
Y    X  X   X u 0 1 1 2 2  k k
•đượcước lượng bởi:
•Mô hình hồi quy đơn thường vi phạm giảthiết Cov (X , ) 0  ˆk k ˆ ˆ  ˆ ˆ Y     XXX 0 1 1 2 2
 Các ưu việt khác của mô hình hồi quy bội
–Cung cấp thêm thông tin nên làm gia tăng chất lượng dựbáo
•Tương tựnhưhồi quy đơn, phương trình hồi quy được
–So sánh tác động của các yếu tố
ước lượng bằng phương pháp bình phương nhỏnhất
–Cho phép sửdụng dạng hàm phong phú hơn
•là hệsốhồi quy bội hay hệsốhồi quy riêng phần thể
hiện tác động của biến X
lên giá trịtrung bình của Y k
trong điều kiện các biến X khác trong mô hình không thay đổi 55 56 55 56 Ví dụ2 Mô hình hồi quy bội
•Tình cảm yêu mếnđối với thành phốgiờ
được giải thích bởi hai nhân tố:
•Y= tình cảm yêu mếnđối với TP - Thời gian sống tại TP •X = Thời gian sống tại TP 1
- Chất lượng cơsởhạtầng •X
= Chất lượng cơsởhạtầng 2 Y      X  X  0 1 1 2 2 57 58 57 58 Ước lượng bằng SPSS
Giải thích hệsốhồi quy bội
Attitude Towards City = 0.337 + 0.481 Duration of Residence
+ 0.289 quality of infrastructure
•Giải thích ý nghĩa của từng hệsốhồi quy bội (hay hệ Coefficientsa sốgóc). Unstandardized Standardized
•Lưu ý tác động của một biếnXtới Y phải dựa trên cơ Coefficients Coefficients B Std. Error Model Beta t Sig.
sởcác yếu tốcòn lại không thay đổi. 1 (Constant) .337 .567 .595 .567 •Áp dụng vào VD 2 duration .481 .059 .764 8.160 .000 quality .289 .086 .314 3.353 .008
a. Dependent Variable: attitude 59 60 59 60 10 Hệsốhồi quy chuẩn hóa
Đánh giá sựphù hợp của mô hình
Hshi quy chun hóa: dùng để xác định vai trò tác
•Đánh giá độ phù hợp của mô hình
động của các biếnđộc lập tới biến phụthuộc trong mô hình hồi quy.
•Hệsốxác định: giống hồi quy đơn ỉ S
•Hệsốxác định hiệu ch nh Betab  S
R21(1R2)n1 Trong đó: nk
∑󰇛 󰇜   S∑󰇛  󰇜 S  62 61 62 Kiểmđịnh mô hình
1. Kiểmđịnh ý nghĩa thống kê của toàn bộMH
•Kiểmđịnh ý nghĩa thống kê của mô hình:
•H : β = β = β =…= β =0 0 1 2 3 k
1. Kiểmđịnh ý nghĩa thống kê của toàn bộmô hình
•H A: Có ít nhất MỘT hệsốgóc khác 0
2. Kiểmđịnh ý nghĩa thống kê của từng hệsốgóc •Sửdụng thống kê:
(tương tựnhưhồi quy đơn) 𝑆𝑆 Ú 𝑅 𝑘 𝑘 Ú1𝑅  𝑘 Ú 
Kiểmđịnh sựphù hợp của mô hình 𝐹 MSR MSE  𝑆𝑆 𝐸 𝑛
1𝑅 󰇜󰇛Ú𝑛𝑘1
•Nếu 𝐹𝐹 , , bác bỏH 0 . Tức là có một hoặc nhiều
hệsốgóc khác 0 => cần kiểmđịnh bước 2 để xem hệ
sốgóc nào có ý nghĩa thống kê 63 64 63 64
2. Kiểmđịnh ý nghĩa thống kê của từng hệsốgóc
Xây dựng KTC cho hệsốhồi quy bội •H : β =0 0 j
•KTC 2 phía cho hệsốhồi quy của biếnX j •H : β ≠0 A j
𝑡𝛽 󰆹 𝛽𝛽 󰆹   
•Tiêu chuẩn kiểmđịnh: 𝑆𝑒󰇛𝛽󰆹 𝑆𝑒󰇛𝛽󰆹  𝛽󰆹 𝑡  
,𝑆𝑒 𝛽󰆹 𝛽 𝛽󰆹 𝑡 ,𝑆𝑒 𝛽 󰆹
•Nguyên tắc ra quyếtđịnh: so với phân phối t với
•Diễn giải: Vớiđộ tin cậy là 1 , k  hi biếnX tăng 1
bậc tựdo (n-k-1) j
đơn vịvà trong điều kiện các yếu tốkhác không đổi •NếuH
bịbác bỏ=> hệsốgóc của biến thứj th 0
thì trung bình Y thay đổi trong khoảng này
khác 0. Có nghĩa là khi xem xét cảcác biến khác,
biếnđộc lập thứj th vẫn có mối liên hệtuyến tính
với biến phụthuộc và mối liên hệnày là có ý nghĩa thống kê. 65 66 65 66 11
Xây dựng KTC cho hệsốhồi quy bội
•KTC 2 phía cho hệsốhồi quy của biếnX j
𝛽󰆹 𝑡 ,𝑆𝑒 𝛽󰆹 𝛽 𝛽󰆹 𝑡 ,𝑆𝑒 𝛽󰆹
•Diễn giải: Vớiđộ tin cậy là 1 , khi biếnX tăng 1 j
đơn vịvà trong điều kiện các yếu tốkhác không đổi
thì trung bình Y thay đổi trong khoảng này 67 67 12