BỘ GIÁO DỤC VÀ ĐÀO TO
TRƯỜNG ĐẠI HỌC PHẠM THÀNH PHỐ HỒ CHÍ MINH
Khoa Toán - Tin học
NHÓM 1
TUỔI THỌ
TIỂU LUẬN MÔN HỌC
THÀNH PHỐ HỒ CHÍ MINH - 2023
BỘ GIÁO DỤC VÀ ĐÀO TO
TRƯỜNG ĐẠI HỌC PHẠM THÀNH PHỐ HỒ CHÍ MINH
Khoa Toán - Tin học
NHÓM 1
TUỔI THỌ
TIỂU LUẬN MÔN HỌC: C SUT THỐNG NÂNG CAO
NGƯỜI HƯỚNG DẪN KHOA HỌC:
ThS. Nguyễn Phát Đạt
THÀNH PHỐ HỒ CHÍ MINH - 2023
Lời cảm ơn
Thành viên Nhóm 1 xin chân thành cảm ơn sự đồng hành và hướng dẫn của Thầy
Nguyễn Phát Đạt trong suốt quá trình học tập học phần Xác suất thống nâng cao.
Thầy đã giúp chúng em hội tìm hiểu sâu hơn các kiến thức về xác suất thống
kê cũng như hội phát triển của b môn. Chúng em rất cảm kích và biết ơn những
góp ý và nhận xét của thầy trong quá trình hoàn thành các bài tập nhóm bởi đây sẽ
nền tảng kiến thức thật vững chắc cho chúng em phát triển trong tương lai.
Bài luận cuối học phần sản phẩm học tập cuối cùng của Nhóm 1 trong suốt quá
trình phấn đấu và học tập dưới sự dẫn dắt của Thầy. Trong quá trình biên soạn chúng
em đã rất cố gắng để ấn tượng sau cuối hoàn thiện và đẹp đẽ nhất tuy nhiên sẽ không
tránh khỏi những thiếu sót. vy, chúng em rất mong vẫn sẽ nhận được những đóng
góp và bổ sung từ phía Thầy.
Nhóm 1 xin chân thành cảm ơn sự đồng hành của Thầy và Nhóm xin chúc Thầy luôn
luôn vui vẻ, mạnh khỏe.
Mục lục
Lời cảm ơn
1 Đặt vấn đề 1
2 sở toán học 3
2.1 Hiện tượng tự tương quan . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.2 Bản chất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Tự tương quan bậc I . . . . . . . . . . . . . . . . . . . . . . . . 3
Tự tương quan bậc n . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 Nguyên nhân . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.4 Hậu quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.5 Phương pháp kiểm tra hiện tượng tự tương quan . . . . . . . . 5
Kiểm định Durbin-Watson . . . . . . . . . . . . . . . . . . . . . 5
2.2 Hiện tượng đa cộng tuyến . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.1 Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2 Nguyên nhân . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.3 Hậu quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.4 Phương pháp kiểm tra hiện tượng đa cộng tuyến . . . . . . . . . 12
Hệ số phóng đại phương sai V IF . . . . . . . . . . . . . . . . . 12
Kiểm tra hiện tượng đa cộng tuyến bằng hệ số V IF . . . . . . . 12
2.2.5 Biện pháp khắc phục hiện tượng đa cộng tuyến . . . . . . . . . 12
3 Giải quyết vấn đề 14
3.1 tả tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.2 Chuẩn bị tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.3 Phát hiện và loại bỏ dữ liệu ngoại lai . . . . . . . . . . . . . . . . . . . 17
3.4 y dựng một số hình phù hợp với tập dữ liệu . . . . . . . . . . . . 18
3.4.1 Lấy mẫu để xây dựng các hình . . . . . . . . . . . . . . . . 18
3.4.2 Phân tích mối tương quan giữa các biến . . . . . . . . . . . . . 19
3.4.3 hình hồi quy tuyến tính đơn . . . . . . . . . . . . . . . . . . 19
3.4.4 hình hồi quy đa thức . . . . . . . . . . . . . . . . . . . . . . 20
3.4.5 hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . 24
4 Kết luận 31
4.1 Đánh giá hình hồi quy tuyến tính đơn . . . . . . . . . . . . . . . . 31
4.1.1 Kiểm tra các điều kiện tồn tại của hình . . . . . . . . . . . 31
4.1.2 Kiểm tra phần với 40% dữ liệu còn lại . . . . . . . . . . . . 33
4.2 Đánh giá hình hồi quy đa thức . . . . . . . . . . . . . . . . . . . . 35
4.2.1 Kiểm tra các điều kiện tồn tại của hình . . . . . . . . . . . 35
4.2.2 Kiểm tra hình với 40% còn lại . . . . . . . . . . . . . . . . 37
4.3 Đánh giá hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . 39
4.3.1 Kiểm tra các điều kiện tồn tại của hình . . . . . . . . . . . 39
4.3.2 Kiểm tra hình với 40% còn lại . . . . . . . . . . . . . . . . 42
5 Bàn luận 44
5.1 Nhận định, đánh giá v hình . . . . . . . . . . . . . . . . . . . . . . 44
5.2 Những điều nhóm chưa làm được . . . . . . . . . . . . . . . . . . . . . 47
5.2.1 V việc kiểm tra các giả định của hình . . . . . . . . . . . . 47
5.2.2 V việc khắc phục các ảnh hưởng khi các giả định của hình
bị vi phạm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
Tài liệu tham khảo 49
Phân công và đánh giá 49
1
Chương 1
Đặt vấn đề
Tuổi thọ con người một đề tài nhận được sự quan tâm nhất định của các nhà
nghiên cứu các nước. Tuổi thọ người dân một quốc gia phản ánh phần nào lối sống
của người dân quốc gia đó. Các thông tin về tuổi thọ người dân giúp các nước trên
thế giới thể đưa ra những khuyến cáo, chính sách, hỗ trợ giúp người dân của họ
một lối sống lành mạnh và an tâm sinh sống, làm việc. Để được những nhận xét và
dự báo tốt về dân số và tuổi thọ mỗi quốc gia và các quốc gia trên thế giới so với
nhau, chúng ta cần thực hiện dựa trên một tập dữ liệu đủ lớn. Từ đó, các chuyên gia
thể đưa ra được những kinh nghiệm và dự báo gần chính xác cho các vấn đề v tuổi
thọ và người dân các quốc gia cụ thể.
Việc khảo sát và dự đoán trên một lượng lớn dữ liệu thô v tuổi thọ của nguời
dân một số quốc gia trên thế giới khó khăn và mất nhiều công sức. Chính thế,
việc dự đoán sẽ được diễn ra dựa trên một số cách chúng ta tổ chức dữ liệu. Sau
khi thu thập các dữ liệu cần thiết liên quan đến những yếu tố ảnh hưởng đến tuổi thọ
của người dân một số nước, chúng ta cần tìm ra được cách tổ chức và sắp xếp các
yếu tố ảnh hưởng đến vấn đề nghiên cứu - tuổi thọ - một cách hợp . Thông qua đó,
chúng ta thể nêu lên những tác động tương quan giữa các yếu tố khảo sát và vấn
đề nghiên cứu hiệu quả.
đây, tập dữ liệu về tuổi thọ và một số yếu tố ảnh hưởng đến tuổi thọ người dân
của một số quốc gia trên thế giới trong nhiều năm được sử dụng làm tài nguyên nghiên
cứu trong tiểu luận cuối học phần Xác suất thống kê nâng cao nhằm phục vụ cho việc
nghiên cứu sâu về vấn đề tuổi thọ các quốc gia trên thế giới trong thời gian dài.
Trong bài tiểu luận y, một số hình hồi quy đơn giản (mô hình hồi quy đơn,
hình hồi quy bội) được sử dụng để tả tập dữ liệu v tuổi thọ của một số quốc gia
trên thế giới trong các năm.
Sau khi y dựng thành công các hình hồi quy đơn giản v tuổi thọ và một số
yếu tố ảnh hưởng đến tuổi thọ người dân của một số quốc gia trên thế giới, Nhóm sẽ
đưa ra một số nhận xét về sự tương quan giữa các yếu tố ảnh hưởng đến tuổi thọ và
tuổi thọ của người dân các nước. Nhóm hy vọng những dự báo v tuổi thọ và một số
2
yếu tố ảnh hưởng đến tuổi thọ của một số quốc gia trên thế giới dựa trên sở khoa
học của b môn xác suất thống kê Nhóm đã thực hiện trong bài tiểu luận y sẽ
đóng góp giá trị trong lĩnh vực nghiên cứu về tuổi thọ. Bên cạnh đó, điều y sẽ giúp
gợi ý cho các quốc gia khu vực nào coi trọng các vấn đề của người dân thể cải thiện
hiệu quả tuổi thọ và năng suất lao động của người dân.
3
Chương 2
sở toán học
2.1 Hiện tượng tự tương quan
2.1.1 Khái niệm
Tự tương quan, hay còn được gọi tương quan nối tiếp, một hiện tượng đề cập
đến mức độ tương quan giữa các giá trị của các biến trên các tập dữ liệu khác nhau.
Đây hiện tượng sai số u
t
thời điểm t mối quan hệ với sai số u
t1
thời điểm
t 1 hoặc bất kỳ một thời điểm nào đó trong quá khứ.
Chú ý: Trong chương này, ta hiệu các sai số ngẫu nhiên u còn ε nhiễu trắng
2.1.2 Bản chất
hình hồi quy tuyến tính cổ điển luôn đặt ra một giả thiết rất quan trọng các
sai số ngẫu nhiên u
i
độc lập với nhau (nghĩa giữa chúng không sự tương quan),
tức E(u
i
, u
j
) = 0, i = j. Nói cách khác, hình cổ điển giả định rằng sai số ứng
với quan sát nào đó không bị ảnh hưởng bởi sai số ứng với một quan sát khác.
hình hồi quy được gọi hiện tượng tự tương quan nếu các sai số ngẫu nhiên u
i
không độc lập với nhau, tức Cov(u
i
, u
j
) = 0, i = j. Khi đó, sai số thời điểm t
tương quan với sai số thời điểm s, t = s. hai loại hiện tượng tự tương quan:
Tự tương quan bậc I
hiện tượng sai số ngẫu nhiên u
t
thời điểm t phụ thuộc vào sai số ngẫu nhiên
u
t1
thời điểm t 1 trước đó, cụ thể:
Xét hình hồi quy tổng thể: Y
t
= β
1
+
k
X
i=2
β
i
X
it
+ u
t
4
hình hiện tượng tự tương quan bậc I khi: u
t
= pu
t1
+ ε
t
với p (1; 1) Trong
đó ε
t
nhiễu trắng, nghĩa là: E(ε
t
) = 0, E(ε
2
t
) = σ
2
<
Tự tương quan bậc n
Được định nghĩa tương tự hiện tượng tự tương quan bậc I tuy nhiên hiện tượng
y, sai số ngẫu nhiên u
t
ph thuộc vào n sai số ngẫu nhiên u
t1
, u
t2
, ..., u
tn
, nghĩa
là: u
t
=
n
X
i=1
p
i
u
ti
+ ε
t
, trong đó ε
t
được định nghĩa hoàn toàn tương tự hiện tượng tự
tương quan bậc I.
2.1.3 Nguyên nhân
Khách quan
1. Do quán tính: Nổi bật nhất các chuỗi thời gian trong kinh tế (vì chúng hầu
hết mang tính chu kỳ).
2. Do xảy ra hiện tượng mạng nhện.
3. Do xuất hiện các độ trễ: Trong phân tích chuỗi thời gian, ta thể gặp hiện
tượng biến phụ thuộc thời điểm t phụ thuộc vào chính biến đó thời điểm t 1
và các biến khác.
Ch quan
1. Do việc xử số liệu.
2. Sai lệch do lập hình. hai loại sai lầm trong việc lập hình thể gây
ra hiện tượng tự tương quan. Một là, không đưa đủ các biến vào hình. Hai
là, dạng hàm sai, nghĩa hình đúng và hình ước lượng sự sai lêch.
2.1.4 Hậu quả
Ta biết rằng với giả thiết không tương quan giữa các sai số ngẫu nhiên u
t
thì các
ước lượng của hình hồi quy bằng phương pháp Bình phương tối thiểu sẽ tính
chất không chệch và hiệu quả. Mặc dù, nếu giả thiết y bị vi phạm nghĩa hiện
tượng tự tương quan xảy ra thì các ước lượng hình bằng phương pháp bình phương
5
tối thiểu vẫn không chệch và nhất quán theo phân phối chuẩn. Tuy nhiên, các ước
lượng lúc này không còn hiệu quả nữa, nghĩa chúng không còn ước lượng tuyến
tính không chệch tốt nhất. Điều này sẽ dẫn đến một số hậu quả như:
1. Làm cho các thống t ứng với các hệ số hồi quy thể nhận giá trị lớn bất
thường, tức làm tăng ý nghĩa các hệ số hồi quy một cách hình thức, trong khi
thực tế lại không phải như vậy. Đồng thời, các phương sai của các ước lượng sẽ
tính chệch và do đó các kiểm định t và F không còn hiệu lực.
2. thể dẫn đến hình bị hiện tượng hồi quy giả mạo, từ đó làm cho các dự
báo không hiệu quả.
2.1.5 Phương pháp kiểm tra hiện tượng tự tương quan
Kiểm định Durbin-Watson
Kiểm định Durbin-Watson một phép kiểm định được dùng để phát hiện hiện
tượng tự tương quan bậc I trong hình hồi quy. Xét hình hồi quy tổng thể:
Y
t
= β
1
+
k
X
i=2
β
i
X
it
+ u
t
Nếu giữa các sai số hiện tượng tự tương quan bậc I thì mối quan hệ giữa chúng
thể biểu diễn dưới dạng phương trình hồi quy:
u
t
= pu
t1
+ ε
t
, p (1; 1)
Khi y, việc kiểm định tính tự tương quan bậc I của sai số trong hình thể tiến
hành thông qua kiểm định Durbin-Watson. Kiểm định Durbin-Watson đưa ra hai giả
thuyết:
H
0
: Không tồn tại hiện tượng tự tương quan bậc I
H
1
: hiện tượng tự tương quan bậc I
Công thức tính giá trị của thống kê Durbin-Watson:
DW =
T
X
t=2
(u
t
u
t1
)
2
T
X
t=1
u
2
t
6
Trong đó:
u
t
sai số ngẫu nhiên lần quan sát thứ t
T số lần quan sát của thí nghiệm
Bảng các giá trị tới hạn của kiểm định Durbin-Watson với cỡ mẫu nhất định (n)
và số biến độc lập (k) với mức ý nghĩa α = 0.05.
Trong các bảng phía bên dưới, ứng với mỗi k và n sẽ một cặp giá trị, giá trị nằm
bên trái được gọi giá trị tới hạn dưới (d
L
), giá trị nằm bên phải được gọi giá trị
giới hạn trên (d
U
). Sau khi tính được giá trị của kiểm định Durbin-Watson (DW ), ta
tiến hành tra bảng các giá trị của kiểm định với n, k tương ứng để cặp giá trị d
L
, d
U
tương ứng.
7
8
9
Nếu DW < d
L
, ta kết luận sự tự tương quan bậc nhất, sự tương quan này
tương quan dương
Nếu DW > 4 d
L
, ta kết luận sự tự tương quan bậc nhất, sự tương quan y
tương quan âm
Nếu d
L
< DW < d
U
hoặc 4 d
u
< DW < 4 d
L
thì chưa thể kết luận
Nếu d
U
< DW < 4d
U
ta kết luận không hiện tượng tự tương quan bậc nhất
Tuy nhiên ta thể thấy phương pháp kiểm định Durbin-Watson đang tồn đọng hai
nhược điểm:
10
1. hai khoảng của DW ta không thể kết luận rằng liệu hiện tượng tự
tương quan xảy ra hay không. Lúc này ta xử bằng cách tiến hành kiểm định
Durbin-Watson cải biên như phía bên dưới.
2. Khi cỡ mẫu lớn (tức n rất lớn), ta không bảng tra các giá trị tới hạn của kiểm
định Durbin-Watson . Ta xử trường hợp y bằng cách tiến hành kiểm định
Durbin-Watson theo kinh nghiệm như phía bên dưới.
Kiểm định Durbin-Watson theo kinh nghiệm: Sau khi tính được giá trị DW ,
ta tiến hành kiểm tra như sau: Nếu DW (1; 3) thì không hiện tượng tự tương
quan. Nếu DW (0; 1) thì hiện tượng tự tương quan dương. Nếu DW (3; 4) thì
hiện tượng tự tương quan âm.
Kiểm định Durbin-Watson cải biên: Nếu DW chưa thuộc vùng quyết định, ta
tiến hành kiểm định cải biên:
H
0
:
r = 0, H
1
:
r > 0. Nếu DW < d
U
thì bác b H
0
, chấp nhận H
1
với mức ý
nghĩa α, nghĩa tự tương quan dương.
H
0
:
r = 0, H
1
:
r < 0. Nếu DW > 4 d
U
thì bác b H
0
, chấp nhận H
1
với mức
ý nghĩa α, nghĩa tự tương quan âm.
H
0
:
r = 0, H
1
:
r = 0. Nếu DW < d
U
hoặc DW > 4 d
U
thì bác b H
0
, chấp
nhận H
1
với mức ý nghĩa 2α, nghĩa tự tương quan.
Trong Chương 3, chúng tôi thực hiện kiểm định Durbin-Watson bằng code sau:
dwtest()
2.2 Hiện tượng đa cộng tuyến
2.2.1 Khái niệm
Trong thống kê, đa cộng tuyến một hiện tượng trong đó một biến dự báo trong
hình hồi quy bội thể được dự đoán tuyến tính từ các biến khác với độ chính xác
đáng kể. Trong tình huống này, các ước tính hệ số của hồi quy bội thể thay đổi bất
thường để đáp ứng với những thay đổi nhỏ trong hình hoặc dữ liệu. Hiện tượng
y không làm giảm hiệu quả dự đoán hoặc độ tin cậy của toàn b hình, ít nhất
trong tập dữ liệu mẫu; chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố
dự đoán riêng lẻ. Đó là, một hình hồi quy bội với các yếu tố dự đoán cộng tuyến
thể cho biết toàn b gói dự đoán biến, dự đoán kết quả tốt như thế nào, nhưng
thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào, hoặc về dự đoán
nào dự phòng đối với người khác.
11
2.2.2 Nguyên nhân
Nguyên nhân chính
Dữ liệu thu thập không sát với thực tế hay chất lượng dữ liệu kém.
Khi xét khía cạnh thực tế các biến trong hình mối tương quan thật với
nhau.
Ngoài ra còn một số nguyên nhân khác như sau:
1. Đối với phương pháp thu thập dữ liệu thông qua bảng khảo sát thì nguyên nhân
chính do cách y dựng các nhân tố rất ít sự khác biệt với nhau.
2. Đối với phương pháp thu thập dữ liệu thứ cấp như dữ liệu v tài chính, mô,
biến động giá. . . thì nguyên nhân do bạn thu thập sai dữ liệu cụ thể bị
nhầm lẫn các biến cần thu thập và nguyên nhân còn lại do cách chọn biến của
bạn sự tương đồng cao trong thực tế.
3. Dữ liệu của một trong số các biến trong tập dữ liệu bị thiếu.
4. Biến giả sai do chọn biến giả chung hoặc 1 số các danh mục biến đã trong
hình.
5. Chọn các biến độc lập mối quan quan hệ nhân quả hay tương quan cao.
6. Chọn nhầm biến sự kết hợp giữa 2 biến khác cùng nằm trong hình.
2.2.3 Hậu quả
Thứ nhất, sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống t
ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không
sở bác b giả thiết “không” và điều y thể không đúng.
Thứ hai, đa cộng tuyến thể dẫn đến kết quả sai lệch khi nhà nghiên cứu hoặc
nhà phân tích cố gắng xác định mức độ sử dụng hiệu quả nhất của từng biến độc
lập để dự đoán hoặc hiểu biến ph thuộc trong hình thống kê.
Thứ ba, đa cộng tuyến thể dẫn đến khoảng tin cậy rộng hơn tạo ra xác suất
kém tin cậy hơn v ảnh hưởng của các biến độc lập trong một hình.
12
2.2.4 Phương pháp kiểm tra hiện tượng đa cộng tuyến
Ta sẽ kiểm tra, phát hiện hiên tượng đa cộng tuyến bằng việc căn cứ vào hệ số
phóng đại phương sai V IF (Variance Inflation Factor) Trong Chương 3, chúng tôi tìm
hệ số V IF bằng code sau:
VIF()
Hệ số phóng đại phương sai V IF
Trong thống , hệ số lạm phát phương sai (Variance inflation factor VIF )
thương số của phương sai trong một hình nhiều số hạng bằng phương sai của
một hình chỉ một thuật ngữ. định lượng mức độ nghiêm trọng của đa cộng
tuyến trong phân tích hồi quy bình phương nhỏ nhất. cung cấp một chỉ số đo lường
mức độ chênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy
ước tính được tăng lên do cộng tuyến.
Công thức:
V IF =
1
1 R
2
Trong đó: R
2
hệ số xác định
Kiểm tra hiện tượng đa cộng tuyến bằng hệ số V IF
Một hình hồi quy được cho hiện tượng đa cộng tuyến cao khi:
Tồn tại x
i
sao cho V IF
i
10 hoặc V IF
i
> 2.5 (Theo Allison (1999)). Trong đó, tiêu
c đánh giá bằng hệ số V IF theo Allison chặt hơn. Việc sử dụng tiêu c nào trong
hai tiêu c trên để đánh giá còn tùy thuộc vào mục đích nghiên cứu.
Một môi hình được cho không hiện tượng đa cộng tuyến khi V IF
i
= 1
với mọi x
i
trong hình. Lưu ý: hệ số V IF không phải thước đo duy nhất của
hiện tượng đa cộng tuyến, ngoài hệ số phóng đại phương sai V IF ta còn một thước đo
khác của hiện tượng đa cộng tuyến, đó Giá trị dung sai T OL (Tolerance) với:
T OL =
1
V IF
2.2.5 Biện pháp khắc phục hiện tượng đa cộng tuyến
Khi dữ liệu xảy ra hiện tượng đa cộng tuyến, ta thể áp dụng một số phương
pháp dưới đây để khắc phục. Lưu ý rằng, mỗi phương pháp đều một số nhược điểm
13
nhất định. Ta sẽ cần sử dụng kiến thức và các yếu tố trong mục tiêu của nghiên cứu
để phỏng đoán đúng nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng
bao gồm:
1. Loại b một số biến độc lập tương quan cao.
2. Bổ sung dữ liệu hoặc tìm thêm những dữ liệu mới, tăng cỡ mẫu, tìm mẫu dữ liệu
khác. Tuy nhiên nếu mẫu lớn hơn vẫn còn đa cộng tuyến thì vẫn giá trị
mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so
với mẫu nhỏ.
3. Thực hiện thiết kế phân tích các biến tương quan cao.
4. Thay đổi dạng hình (sử dụng phương pháp ước lượng khác phức tạp hơn).
Thay đổi dạng hình cũng nghĩa tái cấu trúc hình. Điều y thật sự
điều không mong muốn, lúc đó ta phải thay đổi hình nghiên cứu.
Ngoài ra ta có thể chấp nhận hiện tượng đa cộng tuyến trong các trường hợp sau đây:
1. Các hệ số ước lượng ý nghĩa thống kê cao
2. Hệ số của biến chính trong phân tích không bị ảnh hưởng
3. hình vẫn phù hợp cho mục đích dự báo
14
Chương 3
Giải quyết vấn đề
3.1 tả tập dữ liệu
Mặc trước đây đã rất nhiều dự án được thực hiện v các yếu tố ảnh hưởng
đến tuổi thọ khi xem xét các biến số nhân khẩu học, cấu thu nhập và tỷ lệ tử vong.
Người ta thấy rằng trước đây ảnh hưởng của chỉ số miễn dịch và phát triển con người
không được tính đến. Chính vy, tập dữ liệu này được nghiên cứu thực hiện để giải
quyết các nhu cầu nghiên cứu rộng hơn. Các chỉ số v việc tiêm chủng các bệnh quan
trọng như viêm gan B, bại liệt và bạch hầu cũng được xem xét. Tập dữ liệu y sẽ tập
trung vào các yếu tố miễn dịch, yếu tố tử vong, yếu tố kinh tế, yếu tố hội và các
yếu tố liên quan đến sức khỏe khác.
Tập dữ liệu chúng tôi sử dụng một tập dữ liệu chính xác được biên tập lại với sự
trợ giúp của Deeksha Russell và Duan Wang dựa vào kho dữ liệu của Global Health
Observatory (GHO) thuộc T chức Y tế Thế giới (WHO) dùng để theo dõi tình trạng
sức khỏe cũng như nhiều yếu tố liên quan khác của tất cả các quốc gia và trang web
của Liên Hợp Quốc. Đây b dữ liệu được cung cấp cho công chúng nhằm mục đích
phân tích dữ liệu sức khỏe. Bộ dữ liệu liên quan đến tuổi thọ, yếu tố sức khỏe của 193
quốc gia được thu thập từ cùng một trang web kho dữ liệu của WHO và dữ liệu kinh
tế tương ứng được thu thập từ trang web của Liên hợp quốc. Trong số tất cả các loại
yếu tố liên quan đến sức khỏe, chỉ những yếu tố quan trọng mang tính đại diện hơn
được chọn.
Trong 15 năm qua, ngành y tế đã sự phát triển vượt bậc dẫn đến t lệ tử vong
người được cải thiện đặc biệt các quốc gia đang phát triển so với 30 năm qua.
vậy, dữ liệu từ năm 2000 - 2015 của 193 quốc gia sẽ một tập dữ liệu tốt để nghiên
cứu. Trong quá trình thu thập dữ liệu của Deeksha Russell và Duan Wang, các tệp dữ
liệu riêng lẻ được hợp nhất với nhau thành một tập dữ liệu duy nhất. Họ kiểm tra trực
quan ban đầu dữ liệu và cho thấy một số giá trị bị thiếu. các b dữ liệu được lấy từ
WHO nên tác giả không tìm thấy sai sót ràng nào. Dữ liệu bị thiếu được Deeksha
Russell và Duan Wang xử trong phần mềm R bằng cách sử dụng lệnh Missmap. Kết

Preview text:

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Khoa Toán - Tin học NHÓM 1 TUỔI THỌ
TIỂU LUẬN MÔN HỌC
THÀNH PHỐ HỒ CHÍ MINH - 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM THÀNH PHỐ HỒ CHÍ MINH Khoa Toán - Tin học NHÓM 1 TUỔI THỌ
TIỂU LUẬN MÔN HỌC: XÁC SUẤT THỐNG KÊ NÂNG CAO
NGƯỜI HƯỚNG DẪN KHOA HỌC: ThS. Nguyễn Phát Đạt
THÀNH PHỐ HỒ CHÍ MINH - 2023 Lời cảm ơn
Thành viên Nhóm 1 xin chân thành cảm ơn sự đồng hành và hướng dẫn của Thầy
Nguyễn Phát Đạt trong suốt quá trình học tập học phần Xác suất thống kê nâng cao.
Thầy đã giúp chúng em có cơ hội tìm hiểu sâu hơn các kiến thức về xác suất thống
kê cũng như cơ hội phát triển của bộ môn. Chúng em rất cảm kích và biết ơn những
góp ý và nhận xét của thầy trong quá trình hoàn thành các bài tập nhóm bởi đây sẽ
là nền tảng kiến thức thật vững chắc cho chúng em phát triển trong tương lai.
Bài luận cuối học phần là sản phẩm học tập cuối cùng của Nhóm 1 trong suốt quá
trình phấn đấu và học tập dưới sự dẫn dắt của Thầy. Trong quá trình biên soạn chúng
em đã rất cố gắng để ấn tượng sau cuối hoàn thiện và đẹp đẽ nhất tuy nhiên sẽ không
tránh khỏi những thiếu sót. Vì vậy, chúng em rất mong vẫn sẽ nhận được những đóng
góp và bổ sung từ phía Thầy.
Nhóm 1 xin chân thành cảm ơn sự đồng hành của Thầy và Nhóm xin chúc Thầy luôn luôn vui vẻ, mạnh khỏe. Mục lục Lời cảm ơn 1 Đặt vấn đề 1 2 Cơ sở toán học 3 2.1
Hiện tượng tự tương quan . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.1
Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 2.1.2
Bản chất . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Tự tương quan bậc I . . . . . . . . . . . . . . . . . . . . . . . . 3
Tự tương quan bậc n . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.3
Nguyên nhân . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.4
Hậu quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 2.1.5
Phương pháp kiểm tra hiện tượng tự tương quan . . . . . . . . 5
Kiểm định Durbin-Watson . . . . . . . . . . . . . . . . . . . . . 5 2.2
Hiện tượng đa cộng tuyến . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.1
Khái niệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2
Nguyên nhân . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.3
Hậu quả . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.2.4
Phương pháp kiểm tra hiện tượng đa cộng tuyến . . . . . . . . . 12
Hệ số phóng đại phương sai V IF . . . . . . . . . . . . . . . . . 12
Kiểm tra hiện tượng đa cộng tuyến bằng hệ số V IF . . . . . . . 12 2.2.5
Biện pháp khắc phục hiện tượng đa cộng tuyến . . . . . . . . . 12 3 Giải quyết vấn đề 14 3.1
Mô tả tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 3.2
Chuẩn bị tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 3.3
Phát hiện và loại bỏ dữ liệu ngoại lai . . . . . . . . . . . . . . . . . . . 17 3.4
Xây dựng một số mô hình phù hợp với tập dữ liệu . . . . . . . . . . . . 18 3.4.1
Lấy mẫu để xây dựng các mô hình
. . . . . . . . . . . . . . . . 18 3.4.2
Phân tích mối tương quan giữa các biến . . . . . . . . . . . . . 19 3.4.3
Mô hình hồi quy tuyến tính đơn . . . . . . . . . . . . . . . . . . 19 3.4.4
Mô hình hồi quy đa thức . . . . . . . . . . . . . . . . . . . . . . 20 3.4.5
Mô hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . . 24 4 Kết luận 31 4.1
Đánh giá mô hình hồi quy tuyến tính đơn
. . . . . . . . . . . . . . . . 31 4.1.1
Kiểm tra các điều kiện tồn tại của mô hình . . . . . . . . . . . 31 4.1.2
Kiểm tra phần dư với 40% dữ liệu còn lại . . . . . . . . . . . . 33 4.2
Đánh giá mô hình hồi quy đa thức
. . . . . . . . . . . . . . . . . . . . 35 4.2.1
Kiểm tra các điều kiện tồn tại của mô hình . . . . . . . . . . . 35 4.2.2
Kiểm tra mô hình với 40% còn lại
. . . . . . . . . . . . . . . . 37 4.3
Đánh giá mô hình hồi quy tuyến tính bội . . . . . . . . . . . . . . . . . 39 4.3.1
Kiểm tra các điều kiện tồn tại của mô hình . . . . . . . . . . . 39 4.3.2
Kiểm tra mô hình với 40% còn lại
. . . . . . . . . . . . . . . . 42 5 Bàn luận 44 5.1
Nhận định, đánh giá về mô hình . . . . . . . . . . . . . . . . . . . . . . 44 5.2
Những điều nhóm chưa làm được . . . . . . . . . . . . . . . . . . . . . 47 5.2.1
Về việc kiểm tra các giả định của mô hình . . . . . . . . . . . . 47 5.2.2
Về việc khắc phục các ảnh hưởng khi các giả định của mô hình
bị vi phạm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 Tài liệu tham khảo 49 Phân công và đánh giá 49 1 Chương 1 Đặt vấn đề
Tuổi thọ con người là một đề tài nhận được sự quan tâm nhất định của các nhà
nghiên cứu ở các nước. Tuổi thọ người dân ở một quốc gia phản ánh phần nào lối sống
của người dân ở quốc gia đó. Các thông tin về tuổi thọ người dân giúp các nước trên
thế giới có thể đưa ra những khuyến cáo, chính sách, hỗ trợ giúp người dân của họ có
một lối sống lành mạnh và an tâm sinh sống, làm việc. Để có được những nhận xét và
dự báo tốt về dân số và tuổi thọ ở mỗi quốc gia và các quốc gia trên thế giới so với
nhau, chúng ta cần thực hiện dựa trên một tập dữ liệu đủ lớn. Từ đó, các chuyên gia
có thể đưa ra được những kinh nghiệm và dự báo gần chính xác cho các vấn đề về tuổi
thọ và người dân ở các quốc gia cụ thể.
Việc khảo sát và dự đoán trên một lượng lớn dữ liệu thô sơ về tuổi thọ của nguời
dân một số quốc gia trên thế giới là khó khăn và mất nhiều công sức. Chính vì thế,
việc dự đoán sẽ được diễn ra dựa trên một số cách mà chúng ta tổ chức dữ liệu. Sau
khi thu thập các dữ liệu cần thiết liên quan đến những yếu tố ảnh hưởng đến tuổi thọ
của người dân ở một số nước, chúng ta cần tìm ra được cách tổ chức và sắp xếp các
yếu tố ảnh hưởng đến vấn đề nghiên cứu - tuổi thọ - một cách hợp lý. Thông qua đó,
chúng ta có thể nêu lên những tác động tương quan giữa các yếu tố khảo sát và vấn
đề nghiên cứu hiệu quả.
Ở đây, tập dữ liệu về tuổi thọ và một số yếu tố ảnh hưởng đến tuổi thọ người dân
của một số quốc gia trên thế giới trong nhiều năm được sử dụng làm tài nguyên nghiên
cứu trong tiểu luận cuối học phần Xác suất thống kê nâng cao nhằm phục vụ cho việc
nghiên cứu sâu về vấn đề tuổi thọ ở các quốc gia trên thế giới trong thời gian dài.
Trong bài tiểu luận này, một số mô hình hồi quy đơn giản (mô hình hồi quy đơn, mô
hình hồi quy bội) được sử dụng để mô tả tập dữ liệu về tuổi thọ của một số quốc gia
trên thế giới trong các năm.
Sau khi xây dựng thành công các mô hình hồi quy đơn giản về tuổi thọ và một số
yếu tố ảnh hưởng đến tuổi thọ người dân của một số quốc gia trên thế giới, Nhóm sẽ
đưa ra một số nhận xét về sự tương quan giữa các yếu tố ảnh hưởng đến tuổi thọ và
tuổi thọ của người dân ở các nước. Nhóm hy vọng những dự báo về tuổi thọ và một số 2
yếu tố ảnh hưởng đến tuổi thọ của một số quốc gia trên thế giới dựa trên cơ sở khoa
học của bộ môn xác suất thống kê mà Nhóm đã thực hiện trong bài tiểu luận này sẽ
đóng góp giá trị trong lĩnh vực nghiên cứu về tuổi thọ. Bên cạnh đó, điều này sẽ giúp
gợi ý cho các quốc gia khu vực nào coi trọng các vấn đề của người dân có thể cải thiện
hiệu quả tuổi thọ và năng suất lao động của người dân. 3 Chương 2 Cơ sở toán học 2.1
Hiện tượng tự tương quan 2.1.1 Khái niệm
Tự tương quan, hay còn được gọi là tương quan nối tiếp, là một hiện tượng đề cập
đến mức độ tương quan giữa các giá trị của các biến trên các tập dữ liệu khác nhau.
Đây là hiện tượng sai số ut ở thời điểm t có mối quan hệ với sai số ut−1 ở thời điểm
t − 1 hoặc ở bất kỳ một thời điểm nào đó trong quá khứ.
Chú ý: Trong chương này, ta ký hiệu các sai số ngẫu nhiên là u còn ε là nhiễu trắng 2.1.2 Bản chất
Mô hình hồi quy tuyến tính cổ điển luôn đặt ra một giả thiết rất quan trọng là các
sai số ngẫu nhiên ui độc lập với nhau (nghĩa là giữa chúng không có sự tương quan),
tức là E(ui, uj) = 0, ∀i ̸= j. Nói cách khác, mô hình cổ điển giả định rằng sai số ứng
với quan sát nào đó không bị ảnh hưởng bởi sai số ứng với một quan sát khác.
Mô hình hồi quy được gọi là có hiện tượng tự tương quan nếu các sai số ngẫu nhiên ui
không độc lập với nhau, tức là Cov(ui, uj) ̸= 0, ∀i ̸= j. Khi đó, sai số ở thời điểm t là
tương quan với sai số ở thời điểm s, ∀t ̸= s. Có hai loại hiện tượng tự tương quan: Tự tương quan bậc I
Là hiện tượng sai số ngẫu nhiên ut ở thời điểm t phụ thuộc vào sai số ngẫu nhiên
ut−1 ở thời điểm t − 1 trước đó, cụ thể: k X
Xét mô hình hồi quy tổng thể: Yt = β1 + βiXit + ut i=2 4
Mô hình có hiện tượng tự tương quan bậc I khi: ut = put−1 + εt với p ∈ (−1; 1) Trong
đó εt là nhiễu trắng, nghĩa là: E(εt) = 0, E(ε2) = σ2 < ∞ t Tự tương quan bậc n
Được định nghĩa tương tự hiện tượng tự tương quan bậc I tuy nhiên ở hiện tượng
này, sai số ngẫu nhiên ut phụ thuộc vào n sai số ngẫu nhiên ut−1, ut−2, ..., ut−n, nghĩa n X là: ut =
piut−i + εt, trong đó εt được định nghĩa hoàn toàn tương tự hiện tượng tự i=1 tương quan bậc I. 2.1.3 Nguyên nhân Khách quan
1. Do quán tính: Nổi bật nhất là ở các chuỗi thời gian trong kinh tế (vì chúng hầu hết mang tính chu kỳ).
2. Do xảy ra hiện tượng mạng nhện.
3. Do xuất hiện các độ trễ: Trong phân tích chuỗi thời gian, ta có thể gặp hiện
tượng biến phụ thuộc ở thời điểm t phụ thuộc vào chính biến đó ở thời điểm t − 1 và các biến khác. Chủ quan
1. Do việc xử lí số liệu.
2. Sai lệch do lập mô hình. Có hai loại sai lầm trong việc lập mô hình có thể gây
ra hiện tượng tự tương quan. Một là, không đưa đủ các biến vào mô hình. Hai
là, dạng hàm sai, nghĩa là mô hình đúng và mô hình ước lượng có sự sai lêch. 2.1.4 Hậu quả
Ta biết rằng với giả thiết không tương quan giữa các sai số ngẫu nhiên ut thì các
ước lượng của mô hình hồi quy bằng phương pháp Bình phương tối thiểu sẽ có tính
chất không chệch và hiệu quả. Mặc dù, nếu giả thiết này bị vi phạm nghĩa là có hiện
tượng tự tương quan xảy ra thì các ước lượng mô hình bằng phương pháp bình phương 5
tối thiểu vẫn không chệch và nhất quán theo phân phối chuẩn. Tuy nhiên, các ước
lượng lúc này không còn hiệu quả nữa, nghĩa là chúng không còn là ước lượng tuyến
tính không chệch tốt nhất. Điều này sẽ dẫn đến một số hậu quả như:
1. Làm cho các thống kê t ứng với các hệ số hồi quy có thể nhận giá trị lớn bất
thường, tức là làm tăng ý nghĩa các hệ số hồi quy một cách hình thức, trong khi
thực tế lại không phải như vậy. Đồng thời, các phương sai của các ước lượng sẽ
có tính chệch và do đó các kiểm định t và F không còn hiệu lực.
2. Có thể dẫn đến mô hình bị hiện tượng hồi quy giả mạo, từ đó làm cho các dự báo không hiệu quả. 2.1.5
Phương pháp kiểm tra hiện tượng tự tương quan Kiểm định Durbin-Watson
Kiểm định Durbin-Watson là một phép kiểm định được dùng để phát hiện hiện
tượng tự tương quan bậc I trong mô hình hồi quy. Xét mô hình hồi quy tổng thể: k X Yt = β1 + βiXit + ut i=2
Nếu giữa các sai số có hiện tượng tự tương quan bậc I thì mối quan hệ giữa chúng có
thể biểu diễn dưới dạng phương trình hồi quy:
ut = put−1 + εt, p ∈ (−1; 1)
Khi ấy, việc kiểm định tính tự tương quan bậc I của sai số trong mô hình có thể tiến
hành thông qua kiểm định Durbin-Watson. Kiểm định Durbin-Watson đưa ra hai giả thuyết:
• H0: Không tồn tại hiện tượng tự tương quan bậc I
• H1: Có hiện tượng tự tương quan bậc I
Công thức tính giá trị của thống kê Durbin-Watson: T X(ut − ut−1)2 DW = t=2 T X u2t t=1 6 Trong đó:
• ut là sai số ngẫu nhiên ở lần quan sát thứ t
• T là số lần quan sát của thí nghiệm
Bảng các giá trị tới hạn của kiểm định Durbin-Watson với cỡ mẫu nhất định (n)
và số biến độc lập (k) với mức ý nghĩa α = 0.05.
Trong các bảng phía bên dưới, ứng với mỗi k và n sẽ có một cặp giá trị, giá trị nằm
bên trái được gọi là giá trị tới hạn dưới (dL), giá trị nằm bên phải được gọi là giá trị
giới hạn trên (dU ). Sau khi tính được giá trị của kiểm định Durbin-Watson (DW ), ta
tiến hành tra bảng các giá trị của kiểm định với n, k tương ứng để có cặp giá trị dL, dU tương ứng. 7 8 9
• Nếu DW < dL, ta kết luận có sự tự tương quan bậc nhất, sự tương quan này là tương quan dương
• Nếu DW > 4 − dL, ta kết luận có sự tự tương quan bậc nhất, sự tương quan này là tương quan âm
• Nếu dL < DW < dU hoặc 4 − du < DW < 4 − dL thì chưa thể kết luận
• Nếu dU < DW < 4 − dU ta kết luận không có hiện tượng tự tương quan bậc nhất
Tuy nhiên ta có thể thấy phương pháp kiểm định Durbin-Watson đang tồn đọng hai nhược điểm: 10
1. Có hai khoảng của DW mà ta không thể kết luận rằng liệu có hiện tượng tự
tương quan xảy ra hay không. Lúc này ta xử lý bằng cách tiến hành kiểm định
Durbin-Watson cải biên như phía bên dưới.
2. Khi cỡ mẫu lớn (tức n rất lớn), ta không có bảng tra các giá trị tới hạn của kiểm
định Durbin-Watson . Ta xử lý trường hợp này bằng cách tiến hành kiểm định
Durbin-Watson theo kinh nghiệm như phía bên dưới.
Kiểm định Durbin-Watson theo kinh nghiệm: Sau khi tính được giá trị DW ,
ta tiến hành kiểm tra như sau: Nếu DW ∈ (1; 3) thì không có hiện tượng tự tương
quan. Nếu DW ∈ (0; 1) thì có hiện tượng tự tương quan dương. Nếu DW ∈ (3; 4) thì
có hiện tượng tự tương quan âm.
Kiểm định Durbin-Watson cải biên: Nếu DW chưa thuộc vùng quyết định, ta
tiến hành kiểm định cải biên:
• H0 : r = 0, H1 : r > 0. Nếu DW < dU thì bác bỏ H0, chấp nhận H1 với mức ý
nghĩa α, nghĩa là có tự tương quan dương.
• H0 : r = 0, H1 : r < 0. Nếu DW > 4 − dU thì bác bỏ H0, chấp nhận H1 với mức
ý nghĩa α, nghĩa là có tự tương quan âm.
• H0 : r = 0, H1 : r ̸= 0. Nếu DW < dU hoặc DW > 4 − dU thì bác bỏ H0, chấp
nhận H1 với mức ý nghĩa 2α, nghĩa là có tự tương quan.
Trong Chương 3, chúng tôi thực hiện kiểm định Durbin-Watson bằng code sau: dwtest() 2.2
Hiện tượng đa cộng tuyến 2.2.1 Khái niệm
Trong thống kê, đa cộng tuyến là một hiện tượng trong đó một biến dự báo trong
mô hình hồi quy bội có thể được dự đoán tuyến tính từ các biến khác với độ chính xác
đáng kể. Trong tình huống này, các ước tính hệ số của hồi quy bội có thể thay đổi bất
thường để đáp ứng với những thay đổi nhỏ trong mô hình hoặc dữ liệu. Hiện tượng
này không làm giảm hiệu quả dự đoán hoặc độ tin cậy của toàn bộ mô hình, ít nhất
là trong tập dữ liệu mẫu; nó chỉ ảnh hưởng đến các tính toán liên quan đến các yếu tố
dự đoán riêng lẻ. Đó là, một mô hình hồi quy bội với các yếu tố dự đoán cộng tuyến
có thể cho biết toàn bộ gói dự đoán biến, dự đoán kết quả tốt như thế nào, nhưng nó
có thể không đưa ra kết quả hợp lệ về bất kỳ dự đoán riêng lẻ nào, hoặc về dự đoán
nào là dự phòng đối với người khác. 11 2.2.2 Nguyên nhân Nguyên nhân chính
• Dữ liệu thu thập không sát với thực tế hay chất lượng dữ liệu kém.
• Khi xét khía cạnh thực tế các biến trong mô hình có mối tương quan thật với nhau.
Ngoài ra còn một số nguyên nhân khác như sau:
1. Đối với phương pháp thu thập dữ liệu thông qua bảng khảo sát thì nguyên nhân
chính là do cách xây dựng các nhân tố có rất ít sự khác biệt với nhau.
2. Đối với phương pháp thu thập dữ liệu thứ cấp như dữ liệu về tài chính, vĩ mô,
biến động giá. . . thì nguyên nhân là do bạn thu thập sai dữ liệu cụ thể là bị
nhầm lẫn các biến cần thu thập và nguyên nhân còn lại là do cách chọn biến của
bạn có sự tương đồng cao trong thực tế.
3. Dữ liệu của một trong số các biến trong tập dữ liệu bị thiếu.
4. Biến giả sai do chọn biến giả chung hoặc 1 số các danh mục biến đã có trong mô hình.
5. Chọn các biến độc lập mối quan có quan hệ nhân quả hay có tương quan cao.
6. Chọn nhầm biến là sự kết hợp giữa 2 biến khác cùng nằm trong mô hình. 2.2.3 Hậu quả
• Thứ nhất, sai số chuẩn của các hệ số sẽ lớn. Khoảng tin cậy lớn và thống kê t
ít ý nghĩa. Các ước lượng không thật chính xác. Do đó chúng ta dễ đi đến không
có cơ sở bác bỏ giả thiết “không” và điều này có thể không đúng.
• Thứ hai, đa cộng tuyến có thể dẫn đến kết quả sai lệch khi nhà nghiên cứu hoặc
nhà phân tích cố gắng xác định mức độ sử dụng hiệu quả nhất của từng biến độc
lập để dự đoán hoặc hiểu biến phụ thuộc trong mô hình thống kê.
• Thứ ba, đa cộng tuyến có thể dẫn đến khoảng tin cậy rộng hơn tạo ra xác suất
kém tin cậy hơn về ảnh hưởng của các biến độc lập trong một mô hình. 12 2.2.4
Phương pháp kiểm tra hiện tượng đa cộng tuyến
Ta sẽ kiểm tra, phát hiện hiên tượng đa cộng tuyến bằng việc căn cứ vào hệ số
phóng đại phương sai V IF (Variance Inflation Factor) Trong Chương 3, chúng tôi tìm
hệ số V IF bằng code sau: VIF()
Hệ số phóng đại phương sai V IF
Trong thống kê , hệ số lạm phát phương sai (Variance inflation factor – VIF ) là
thương số của phương sai trong một mô hình có nhiều số hạng bằng phương sai của
một mô hình chỉ có một thuật ngữ. Nó định lượng mức độ nghiêm trọng của đa cộng
tuyến trong phân tích hồi quy bình phương nhỏ nhất. Nó cung cấp một chỉ số đo lường
mức độ chênh lệch (bình phương độ lệch chuẩn của ước tính) của một hệ số hồi quy
ước tính được tăng lên do cộng tuyến. Công thức: 1 V IF = 1 − R2
Trong đó: R2 là hệ số xác định
Kiểm tra hiện tượng đa cộng tuyến bằng hệ số V IF
Một mô hình hồi quy được cho là có hiện tượng đa cộng tuyến cao khi:
Tồn tại xi sao cho V IFi ≥ 10 hoặc V IFi > 2.5 (Theo Allison (1999)). Trong đó, tiêu
chí đánh giá bằng hệ số V IF theo Allison là chặt hơn. Việc sử dụng tiêu chí nào trong
hai tiêu chí trên để đánh giá còn tùy thuộc vào mục đích nghiên cứu.
Một môi hình được cho là không có hiện tượng đa cộng tuyến khi V IFi = 1
với mọi xi có trong mô hình. Lưu ý: hệ số V IF không phải là thước đo duy nhất của
hiện tượng đa cộng tuyến, ngoài hệ số phóng đại phương sai V IF ta còn một thước đo
khác của hiện tượng đa cộng tuyến, đó là Giá trị dung sai T OL (Tolerance) với: 1 T OL = V IF 2.2.5
Biện pháp khắc phục hiện tượng đa cộng tuyến
Khi dữ liệu xảy ra hiện tượng đa cộng tuyến, ta có thể áp dụng một số phương
pháp dưới đây để khắc phục. Lưu ý rằng, mỗi phương pháp đều có một số nhược điểm 13
nhất định. Ta sẽ cần sử dụng kiến thức và các yếu tố trong mục tiêu của nghiên cứu
để phỏng đoán đúng nguyên nhân và chọn giải pháp tốt nhất. Các giải pháp tiềm năng bao gồm:
1. Loại bỏ một số biến độc lập có tương quan cao.
2. Bổ sung dữ liệu hoặc tìm thêm những dữ liệu mới, tăng cỡ mẫu, tìm mẫu dữ liệu
khác. Tuy nhiên nếu mẫu lớn hơn mà vẫn còn đa cộng tuyến thì vẫn có giá trị vì
mẫu lớn hơn sẽ làm cho phương sai nhỏ hơn và hệ số ước lượng chính xác hơn so với mẫu nhỏ.
3. Thực hiện thiết kế phân tích các biến có tương quan cao.
4. Thay đổi dạng mô hình (sử dụng phương pháp ước lượng khác phức tạp hơn).
Thay đổi dạng mô hình cũng có nghĩa là tái cấu trúc mô hình. Điều này thật sự
là điều không mong muốn, lúc đó ta phải thay đổi mô hình nghiên cứu.
Ngoài ra ta có thể chấp nhận hiện tượng đa cộng tuyến trong các trường hợp sau đây:
1. Các hệ số ước lượng có ý nghĩa thống kê cao
2. Hệ số của biến chính trong phân tích không bị ảnh hưởng
3. Mô hình vẫn phù hợp cho mục đích dự báo 14 Chương 3 Giải quyết vấn đề 3.1 Mô tả tập dữ liệu
Mặc dù trước đây đã có rất nhiều dự án được thực hiện về các yếu tố ảnh hưởng
đến tuổi thọ khi xem xét các biến số nhân khẩu học, cơ cấu thu nhập và tỷ lệ tử vong.
Người ta thấy rằng trước đây ảnh hưởng của chỉ số miễn dịch và phát triển con người
không được tính đến. Chính vì vậy, tập dữ liệu này được nghiên cứu thực hiện để giải
quyết các nhu cầu nghiên cứu rộng hơn. Các chỉ số về việc tiêm chủng các bệnh quan
trọng như viêm gan B, bại liệt và bạch hầu cũng được xem xét. Tập dữ liệu này sẽ tập
trung vào các yếu tố miễn dịch, yếu tố tử vong, yếu tố kinh tế, yếu tố xã hội và các
yếu tố liên quan đến sức khỏe khác.
Tập dữ liệu chúng tôi sử dụng là một tập dữ liệu chính xác được biên tập lại với sự
trợ giúp của Deeksha Russell và Duan Wang dựa vào kho dữ liệu của Global Health
Observatory (GHO) thuộc Tổ chức Y tế Thế giới (WHO) dùng để theo dõi tình trạng
sức khỏe cũng như nhiều yếu tố liên quan khác của tất cả các quốc gia và trang web
của Liên Hợp Quốc. Đây là bộ dữ liệu được cung cấp cho công chúng nhằm mục đích
phân tích dữ liệu sức khỏe. Bộ dữ liệu liên quan đến tuổi thọ, yếu tố sức khỏe của 193
quốc gia được thu thập từ cùng một trang web kho dữ liệu của WHO và dữ liệu kinh
tế tương ứng được thu thập từ trang web của Liên hợp quốc. Trong số tất cả các loại
yếu tố liên quan đến sức khỏe, chỉ có những yếu tố quan trọng mang tính đại diện hơn được chọn.
Trong 15 năm qua, ngành y tế đã có sự phát triển vượt bậc dẫn đến tỷ lệ tử vong ở
người được cải thiện đặc biệt là ở các quốc gia đang phát triển so với 30 năm qua. Vì
vậy, dữ liệu từ năm 2000 - 2015 của 193 quốc gia sẽ là một tập dữ liệu tốt để nghiên
cứu. Trong quá trình thu thập dữ liệu của Deeksha Russell và Duan Wang, các tệp dữ
liệu riêng lẻ được hợp nhất với nhau thành một tập dữ liệu duy nhất. Họ kiểm tra trực
quan ban đầu dữ liệu và cho thấy một số giá trị bị thiếu. Vì các bộ dữ liệu được lấy từ
WHO nên tác giả không tìm thấy sai sót rõ ràng nào. Dữ liệu bị thiếu được Deeksha
Russell và Duan Wang xử lý trong phần mềm R bằng cách sử dụng lệnh Missmap. Kết