
















Preview text:
Bài tập Kinh tế lượng Ngày 21 tháng 10 năm 2024 1 Hồi quy đơn biến
Bài tập 1.1 Trong các mô hình sau đây, mô hình nào tuyến tính đối với tham số (có thể ước
lượng bằng phương pháp OLS), mô hình nào tuyến tính đối với biến số (Y là hàm số tuyến tính của X)? (a) Y = β1 + β2/X + u (b) Y = β1 + β2 ln(X) + u (c) ln(Y ) = β1 + β2X + u
(d) ln(Y ) = ln β1 + β2 ln(X) + u
(e) ln(Y ) = β1 + β2 ln(X) + u (f) ln(Y ) = β1 + β2/X + u (g) Y = β1 + (β2)3 /X + u.
Bài tập 1.2 Hãy biến đổi các mô hình sau đây về mô hình hồi quy tuyến tính. (a) Y = 1 1+exp(β1+β2X+u) (b) Y = exp(β1 + β2X + u) (c) Y = 1 β1+β u 2X + (d) Y = X β1+β u 2X +
Bài tập 1.3 Dữ liệu về năng suất (tạ/ha) của cây trồng và lượng phân bón (tạ/ha) qua 10 năm (1990-1999) như sau: Năm 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 Phân bón (Xi) 6 10 12 14 16 18 22 24 26 32 Năng suất (Yi) 40 44 46 48 52 58 60 68 74 80
(a) Ước lượng mô hình hồi quy tuyến tính giữa năng suất và phân bón.
(b) Giải thích ý nghĩa của các hệ số hồi quy.
(c) Tính hệ số xác định R2 và giải thích. Kiểm định mô hình với mức ý nghĩa 5%.
(d) Với mức ý nghĩa 5%, phân bón có ảnh hưởng đến năng suất không?
(e) Có ý kiến cho rằng: khi phân bón tăng thêm 1 tạ/ha, năng suất trung bình tăng 2 tạ/ha.
Với mức ý nghĩa 5%, hãy nhận xét về ý kiến này. 1
(f) Dự đoán năng suất trung bình và năng suất cá biệt khi phân bón là 20 tạ/ha, với độ tin cậy 95%.
(g) Viết hàm hồi quy tuyến tính mẫu của Y theo X, khi đơn vị tính của Y là tạ/ha và của X là kg/ha.
Bài tập 1.4 Bảng số liệu sau đây mô tả lãi suất cho vay của ngân hàng (X - %/năm) và mức
cầu vay vốn của các doanh nghiệp (Y - tỷ đồng) tại tỉnh KCT giai đoạn 1995 - 2004: Năm 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 Lãi suất (Xi) 7.1 6.6 6.5 6.0 6.0 5.8 5.5 5.5 5.0 4.5 Cầu vay vốn (Yi) 29 33 30 34 32 35 40 42 49 51
(a) Ước lượng hàm hồi quy tuyến tính của mức cầu vay vốn theo lãi suất ngân hàng.
(b) Giải thích ý nghĩa kinh tế của hệ số góc.
(c) Tính hệ số xác định R2 và nêu ý nghĩa. Kiểm định sự phù hợp của mô hình đối với tổng
thể, với mức ý nghĩa 5%.
(d) Với mức ý nghĩa 5%, lãi suất cho vay có ảnh hưởng lên nhu cầu vay vốn của doanh nghiệp không?
(e) Có ý kiến cho rằng: lãi suất cho vay tăng 1%/năm thì mức cầu vay vốn của doanh nghiệp
giảm 5 tỷ đồng. Với mức ý nghĩa 5%, hãy nhận xét ý kiến trên.
(f) Với độ tin cậy 95%, hãy dự báo mức cầu vay vốn trung bình của doanh nghiệp khi lãi
suất cho vay của ngân hàng là 4.0%/năm.
Bài tập 1.5 Khảo sát về mức thu nhập - WAGE (USD/giờ), số năm đi học – EDUC (năm),
và giới tính – FEMALE (nam: 0; nữ: 1) của 20 người lao động ở TP.HCM, được bảng số liệu sau: WAGE EDUC FEMALE
(a) Hãy ước lượng mô hình hồi quy tuyến 18 16 1
tính WAGE = β1 + β2EDUC + u (mô 11 12 0
hình 1) và nêu ý nghĩa của các hệ số hồi 15 16 0 quy. 25 14 1
(b) Tìm hệ số xác định và nêu ý nghĩa. 24 12 0 20 12 0
(c) Kiểm định sự phù hợp của mô hình với 53 16 0 mức ý nghĩa 5%. 25 12 0
(d) Hãy kiểm định giả thuyết H0 : β2 ≤ 3, 28 16 0
H1 : β2 > 3 với mức ý nghĩa 5%. 16 13 1 14 12 0
(e) Hãy dự báo thu nhập trung bình của một 43 16 1
người có số năm đi học là 20, với độ tin 19 12 0 cậy 99%. 14 14 1
(f) Hãy ước lượng mô hình hồi quy tuyến 8 12 1
tính WAGE = α1 + α2EDUC2 + u (mô 57 21 0
hình 2) và nêu ý nghĩa của các hệ số hồi 20 12 0 quy. 20 18 1
(g) Hãy ước lượng mô hình hồi quy tuyến 22 11 0 tính WAGE = γ 68 14 0 1 + γ2FEMALE + u và
so sánh thu nhập giữa người lao động nam và nữ.
Bài tập 1.6 Bảng sau đây cho chuỗi thời gian về mức tiêu dùng (Y) và thu nhập (X) theo
đầu người, tính theo giá cố định (1980, đơn vị: 100.000 VND) trong giai đoạn 1971-1990: Năm Y (Tiêu dùng) X (Thu nhập)
(a) Viết hàm hồi quy tuyến tính mẫu về mức 1971 48.34 52.02
tiêu dùng theo thu nhập. Cho biết kết 1972 48.54 52.41
quả có phù hợp với lý thuyết kinh tế 1973 47.44 51.55 không? Vì sao? 1974 54.58 58.88
(b) Tính hệ số xác định R2 và nêu ý nghĩa. 1975 55.00 59.66
Kiểm định sự phù hợp của mô hình với 1976 63.49 68.42
tổng thể, với mức ý nghĩa 5%. 1977 59.22 64.27 1978 57.77 63.01
(c) Khi thu nhập tăng 100.000 đồng thì mức 1979 60.22 65.61
tiêu dùng trung bình sẽ thay đổi như thế 1980 55.40 61.05
nào với độ tin cậy 95%? 1981 57.17 63.36
(d) Hãy kiểm định giả thuyết: Hệ số hồi quy 1982 60.84 67.42
của biến X trong hàm hồi quy tổng thể 1983 60.73 67.86 bằng 0 và nêu ý nghĩa. 1984 76.04 83.39
(e) Có ý kiến cho rằng xu hướng tiêu dùng 1985 76.42 84.26
biên là 0.9. Hãy nhận xét về ý kiến này 1986 69.34 77.41 với mức ý nghĩa 5%. 1987 61.75 70.08
(f) Hãy dự báo giá trị trung bình và giá trị 1988 68.78 77.44
cá biệt của mức chi tiêu khi mức thu 1989 67.07 75.79
nhập là 7 triệu đồng/tháng, với độ tin 1990 72.94 81.89 cậy 95%.
Bài tập 1.7 Một mẫu gồm 200 nam thanh niên ở độ tuổi 20 được chọn ngẫu nhiên để nghiên
cứu mối quan hệ giữa chiều cao và trọng lượng. Hồi quy trọng lượng theo chiều cao: \
W eight = −99.41 + 3.94 × Height; R2 = 0.81; s = 10.2 se (2.15) (0.31)
Trong đó, Weight là trọng lượng (pound) và Height là chiều cao (inch). Một thanh niên trong
năm vừa rồi chiều cao tăng 1,5 inch. Tìm khoảng tin cậy 95% của khối lượng tăng của người này.
Bài tập 1.8 Giả sử một nhà nghiên cứu dùng dữ liệu về số học sinh trong lớp (CS) và điểm
trung bình (TestScore) của 100 lớp tiểu học để ước lượng mô hình hồi quy: \
T estScore = 520.4 − 5.82 × CS; R2 = 0.08; ˆ σ = 11.5 se (20.4) (2.21)
(a) Tìm khoảng tin cậy của β2 với độ tin cậy 95%.
(b) Kiểm định giả thuyết H0 : β2 = 0, H1 : β2 = 0. Bạn có chấp nhận H0 với mức ý nghĩa 5%? với mức ý nghĩa 1%?
(c) Kiểm định giả thuyết H0 : β2 = −5.6, H1 : β2 = −5.6. Bạn có chấp nhận H0 với mức
ý nghĩa 5%? với mức ý nghĩa 1%? Không tính toán gì thêm, hãy xác định −5.6 có nằm
trong khoảng ước lượng 95% của β2 hay không?
(d) Tìm khoảng tin cậy của β1 với độ tin cậy 99%.
Bài tập 1.9 Dùng mẫu gồm 250 quan sát để ước lượng mô hình hồi quy ta được: ˆ
Y = 5.4 + 3.2 × X; R2 = 0.26; ˆ σ = 6.2 se (3.1) (1.5)
(a) Hãy kiểm định H0 : β2 = 0, H1 : β2 = 0 với mức ý nghĩa 5%.
(b) Tìm khoảng ước lượng với độ tin cậy 95% của β2.
(c) Kiểm định giả thuyết H0 : β2 = 0, H1 : β2 = 0. Bạn có chấp nhận H0 với mức ý nghĩa
5%? với mức ý nghĩa 1%? Không tính toán gì thêm, hãy xác định β2 = 0 có nằm trong
khoảng ước lượng 95% của β2 hay không?
Bài tập 1.10 Dùng mẫu gồm 30 quan sát để ước lượng mô hình hồi quy ta được: ˆ
Y = 43.2 + 61.5X; R2 = 0.54; ˆ σ = 1.52 se (10.2) (7.4)
(a) Tìm khoảng ước lượng với độ tin cậy 95% của β1.
(b) Hãy kiểm định H0 : β2 = 55, H1 : β2 = 55 với mức ý nghĩa 5%.
(c) Hãy kiểm định H0 : β2 = 55, H1 : β2 > 55 với mức ý nghĩa 5%. 2 Hồi quy đa biến
Bài tập 2.1 Xét mô hình chi tiêu (đơn vị: triệu đồng)
CT = β1 + β2T N + β3T S + ε.
Sử dụng mẫu gồm 30 quan sát thu được kết quả ước lượng:
CT = 4.53 + 0.88T N + 0.14T S + e (se) (2.113) (0.023) (0.004) và Cov( ˆ β2, ˆ β3) = 0.0001.
1. Với độ tin cậy 95%, hãy tìm các khoảng tin cậy cho các hệ số hồi quy,
2. Khi thu nhập T N tăng 2 triệu đồng và tài sản T S giảm 1 triệu đồng thì chi tiêu CT
thay đổi như thế nào với độ tin cậy 95%?
Bài tập 2.2 Giả sử W là lương (triệu đồng/tháng), GD là số năm đi học và KN là số năm
đi làm. Sử dụng mẫu gồm 30 quan sát từ doanh nghiệp tư nhân, thu được kết quả hồi quy: W = 2.23 + 0.28GD + 0.20KN + e (se) (0.15) (0.02) (0.03)
1. Giả sử mỗi năm lương của viên chức nhà nước tăng 0.16 triệu đồng. Với mức ý nghĩa
5%, có thể cho rằng mức lương tăng theo số năm kinh nghiệm của doanh nghiệp tư nhân
cao hơn so với viên chức nhà nước không?
2. Giả sử nhà nước có chính sách hỗ trợ người lao động vùng cao với mức tăng lương 0.18
triệu đồng mỗi năm. Mức tăng lương này có khác biệt với doanh nghiệp tư nhân không?
Bài tập 2.3 Sử dụng mẫu gồm 40 quan sát thu được ước lượng sản lượng Q phụ thuộc vào
vốn K và lao động L như sau:
ln(Q) = 0.2 + 0.35 ln(K) + 0.48 ln(L) + e (se) (1.8) (0.01) (0.13) với Cov( ˆ β2, ˆ β3) = 0.002.
1. Giải thích ý nghĩa các hệ số hồi quy của biến độc lập.
2. Có ý kiến cho rằng hệ số co giãn của sản lượng theo lao động là 0.6. Với mức ý nghĩa
5%, hãy cho nhận xét về ý kiến đó.
3. Khi vốn và lao động cùng tăng 1% thì sản lượng trung bình thay đổi trong khoảng nào với độ tin cậy 95%.
4. Với mức ý nghĩa 5%, hãy cho nhận xét về ý kiến: “Mức độ ảnh hưởng của lao động đến
sản lượng cao hơn mức độ ảnh hưởng của vốn”.
Bài tập 2.4 Dữ liệu gồm 100 quan sát với:
– wage: mức lương (triệu đồng/tháng);
– educ: số năm đi học (năm);
– exper: số năm kinh nghiệm (năm).
a) Ước lượng mô hình hồi quy tuyến tính wage theo educ:
wage = 4.1645 + 0.9067 × educ + e
Hệ số xác định R2 = 0.2119. Hãy nêu ý nghĩa của hệ số hồi quy gốc và hệ số xác định.
b) Ước lượng mô hình hồi quy với cả số năm kinh nghiệm:
wage = −6.8555 + 1.3289 × educ + 0.3056 × exper + e
Hệ số xác định R2 = 0.2411. Sai số chuẩn: se( ˆ β1) = 0.2935, se( ˆ β2) = 0.0637
Hãy nêu ý nghĩa của các hệ số hồi quy và hệ số xác định.
c) Nếu tăng một năm đi học mà số năm kinh nghiệm giữ nguyên, mức lương trung bình sẽ
thay đổi như thế nào? Với độ tin cậy 95%.
d) Phải chăng cả hai yếu tố số năm đi học và số năm kinh nghiệm đều không ảnh hưởng
đến mức lương? Kiểm định với mức ý nghĩa 5%.
e) Dự báo mức lương trung bình của một người có số năm đi học là 12 (giá trị trung bình
mẫu của biến educ) dựa trên mô hình 1. So sánh với trung bình mẫu của mức lương.
f) Dự báo mức lương trung bình của một người có số năm đi học là 12 và số năm kinh
nghiệm bằng giá trị trung bình mẫu của biến exper dựa trên mô hình 2. So sánh với giá trị ở câu (e).
g) Nếu chỉ quan tâm đến mức lương, một lao động nên chọn tăng thời gian học và giảm số
năm kinh nghiệm hay ngược lại? Giải thích.
(h) Để dự báo mức lương trung bình của một lao động thì nên chọn mô hình nào? Vì sao? Bài tập 2.5
Dữ liệu chứa thông tin của 1388 sản phụ ở Hoa Kỳ. Người ta quan tâm đến trọng lượng
của trẻ sơ sinh (weight, kg) và số điếu thuốc người mẹ hút mỗi ngày khi mang thai (cigs,
điếu/ngày). Giả sử ta có mô hình: weight = β1 + β2 · cigs + u
a) Bạn kỳ vọng hệ số góc có dấu gì? Vì sao?
b) Hồi quy 1388 quan sát từ mẫu, ta được:
weight = 3.3954 − 0.0145 · cigs + e. (1)
Hãy nêu ý nghĩa của các hệ số hồi quy. So sánh trọng lượng của trẻ sơ sinh trung bình
của người phụ nữ không hút thuốc khi mang thai và phụ nữ hút 20 điếu/ngày khi mang thai.
c) Theo nghiên cứu, trọng lượng của trẻ sơ sinh còn phụ thuộc vào thứ tự sinh của trẻ
(parity), số năm đi học của bà mẹ (motheduc), số năm đi học của ông bố (fatheduc),
và thu nhập gia đình hằng năm (faminc, ngàn USD/năm). Hồi quy tuyến tính từ dữ liệu, ta có mô hình:
weight = 3.2467 − 0.0169 · cigs + 0.0506 · parity + 0.0016 · faminc (2)
− 0.0105 · motheduc + 0.0134 · fatheduc + e. R2 = 0.03875; se( ˆ β3) = 0.0507; se( ˆ β3) = 0.0010; se( ˆ β3) = 0.0010.
Hãy nêu ý nghĩa của các hệ số hồi quy, hệ số xác định.
d) Có ý kiến cho rằng thứ tự sinh không ảnh hưởng đến trọng lượng của trẻ sơ sinh. Với
mức ý nghĩa 5%, hãy nêu nhận xét.
e) Mô hình (2) có phù hợp với thực tế không, với mức ý nghĩa α = 5%?
f) Có người nói rằng số năm đi học của ông bố chỉ tác động 1% đến trọng lượng của trẻ
sơ sinh. Với độ tin cậy 95%, hãy cho ý kiến.
g) Để dự báo trọng lượng trung bình của trẻ sơ sinh thì nên chọn mô hình nào? Vì sao?
Bài tập 2.6 Dữ liệu được thu thập từ 220 ngôi nhà bán năm 2003 với các biến sau: Price
(giá bán, 1000$), BDR (số phòng ngủ), Bath (số phòng tắm), Hsize (diện tích nhà, feet2),
Lsize (diện tích đất, feet2), Age (tuổi nhà, năm), Poor (biến nhị phân, nhận giá trị 1 nếu nhà
được xếp loại kém). Hồi quy: \
P rice = 119.2 + 0.485 × BDR + 23.4 × Bath
+ 0.156 × Hsize + 0.002 × Lsize + 0.090 × Age − 48.8 × P oor
với hệ số xác định R2 = 0.72 và sai số chuẩn s = 41.5.
a) Giải thích ý nghĩa của các hệ số hồi quy.
b) Tính hệ số xác định R2.
c) Với F = 0.08, kiểm định giả thuyết H0 : β2 = β6 = 0 với mức ý nghĩa 5%. 3
Các dạng hàm mô tả, mô hình với biến giả và mô hình hồi quy
với biến phụ thuộc là rời rạc Bài tập 3.1
Dữ liệu về lương (wage) và trình độ học vấn (grade) của người lao động, với union là biến
giả (1 nếu tham gia công đoàn, 0 nếu không). Hồi quy cho ta kết quả:
log(wage) = 1.91 + 0.05 · grade + 0.20 · union + e se (0.19) (0.015) (0.108), n = 100
a) Giải thích ý nghĩa hệ số của biến grade và union.
b) Kết quả ước lượng có phù hợp với kỳ vọng của bạn không? Hãy giải thích.
c) Với mức ý nghĩa 10%, hệ số của biến grade có ý nghĩa thống kê không?
d) Với mức ý nghĩa 5%, hệ số của biến union có ý nghĩa thống kê không?
e) Chứng cứ cho rằng việc tham gia công đoàn có tác động tích cực đến lương có mạnh không?
f) Nếu một người lao động chưa tham gia công đoàn, gia nhập công đoàn có làm tăng lương
thêm 0.20% không? Giải thích. g) Một mô hình khác:
log(wage) = 1.93 + 0.05 · grade + 0.015 · grade · union + e se (0.19) (0.015) (0.009), n = 100.
Hãy giải thích ý nghĩa của hệ số grade*union. Với mức ý nghĩa 10%, có thể cho rằng
tác động của số năm đi học lên mức lương của người tham gia công đoàn mạnh hơn
người không tham gia công đoàn hay không? Giải:
a) Giải thích ý nghĩa hệ số của biến grade và union:
– Hệ số của biến grade là 0.05. Điều này có nghĩa là mỗi đơn vị tăng của trình độ
học vấn (ví dụ, thêm một năm học) dẫn đến tỷ lệ lương tăng thêm 5%.
– Hệ số của biến union là 0.20. Điều này có nghĩa là nếu một người lao động tham gia
công đoàn (union = 1) thì lương của họ sẽ cao hơn 20% so với người không tham gia công đoàn (union = 0).
b) Kết quả ước lượng có phù hợp với kỳ vọng của bạn không? Hãy giải thích.
– Kết quả ước lượng cho thấy rằng tăng trình độ học vấn dẫn đến tăng lương, điều
này phù hợp với kỳ vọng rằng người có trình độ học vấn cao hơn thường có lương cao hơn.
– Việc tham gia công đoàn có tác động tích cực đến lương, điều này cũng hợp lý vì các
công đoàn thường đàm phán các mức lương cao hơn cho các thành viên của mình.
c) Với mức ý nghĩa 10%, hệ số của biến grade có ý nghĩa thống kê không? 0.05 tgrade = = 3.33 0.015
Với n = 100, số bậc tự do df = 100 − 2 − 1 = 97. Tra bảng phân phối t với df = 97 và
mức ý nghĩa 10%, ta thấy giá trị tới hạn khoảng 1.66. Vì 3.33 > 1.66, hệ số của biến
grade có ý nghĩa thống kê với mức ý nghĩa 10%.
d) Với mức ý nghĩa 5%, hệ số của biến union có ý nghĩa thống kê không? 0.20 tunion = = 1.85 0.108
Với df = 97, giá trị tới hạn với mức ý nghĩa 5% là khoảng 1.98. Vì 1.85 < 1.98, hệ số
của biến union không có ý nghĩa thống kê với mức ý nghĩa 5%.
e) Chứng cứ cho rằng việc tham gia công đoàn có tác động tích cực đến lương có mạnh không?
– Dựa vào hệ số của biến union (0.20), mặc dù không có ý nghĩa thống kê với mức ý
nghĩa 5%, nhưng vẫn cho thấy rằng việc tham gia công đoàn có thể tăng lương lên
20%. Tuy nhiên, vì giá trị p không đủ nhỏ để bác bỏ giả thuyết không có tác động, chứng cứ không mạnh.
f) Nếu một người lao động chưa tham gia công đoàn, gia nhập công đoàn có làm tăng lương
thêm 0.20% không? Giải thích.
– Việc gia nhập công đoàn sẽ làm tăng lương 20%, không phải 0.20%. Trong mô hình
hồi quy, hệ số 0.20 cho biến union có nghĩa là tỷ lệ lương tăng 20% khi gia nhập công đoàn. g) Một mô hình khác:
log(wage) = 1.93 + 0.05 · grade + 0.015 · grade · union + e se (0.19) (0.015) (0.009), n = 100.
– Giải thích ý nghĩa của hệ số grade*union: Hệ số 0.015 cho biến tương tác grade*union
có nghĩa là đối với người tham gia công đoàn (union = 1), mỗi đơn vị tăng của trình
độ học vấn làm tăng thêm 1.5% lương so với người không tham gia công đoàn. Hệ
số này cho thấy rằng tác động của trình độ học vấn lên lương mạnh hơn cho người
tham gia công đoàn so với người không tham gia công đoàn.
– Với mức ý nghĩa 10%, có thể cho rằng tác động của số năm đi học lên mức lương của
người tham gia công đoàn mạnh hơn người không tham gia công đoàn hay không? 0.015 tgrade*union = = 1.67 0.009
Với df = 97, giá trị tới hạn với mức ý nghĩa 10% là khoảng 1.66. Vì 1.67 > 1.66, hệ
số grade*union có ý nghĩa thống kê với mức ý nghĩa 10%. Điều này cho thấy tác
động của số năm đi học lên lương của người tham gia công đoàn mạnh hơn người không tham gia công đoàn. Bài tập 3.2
Một nhà nghiên cứu sử dụng dữ liệu về lương của 250 nam và 280 nữ nhân viên để ước lượng mô hình hồi quy: Wage = 12.52 + 2.12 · Male, R = 0.06, SER = 4.2 se (0.23) (0.36)
a) Ước lượng sự khác biệt lương giới tính (WGG).
b) Tính p-value của kiểm định giả thuyết H0: WGG = 0. Bạn có chấp nhận H0 với mức ý nghĩa 5% và 1% không?
c) Tìm khoảng tin cậy 95% của WGG.
d) Tính lương trung bình của nhân viên nam và nhân viên nữ từ mẫu.
e) Hồi quy lại mô hình với biến Female, viết ước lượng của mô hình hồi quy này. Giải:
a) Ước lượng sự khác biệt lương giới tính (WGG):
– Sự khác biệt lương giới tính (WGG) là 2.12, vì đây là hệ số của biến Male.
b) Tính p-value của kiểm định giả thuyết H0: WGG = 0. Bạn có chấp nhận H0 với mức ý nghĩa 5% và 1% không? 2.12 tMale = = 5.89 0.36
Với n = 250 + 280 = 530, số bậc tự do df = 530 − 1 − 1 = 528. Tra bảng phân phối
t với df = 528, giá trị tới hạn cho mức ý nghĩa 5% và 1% rất nhỏ. Vì tMale = 5.89 rất
lớn, p-value sẽ nhỏ hơn 0.01, tức là nhỏ hơn mức ý nghĩa 1% và 5%. Do đó, bác bỏ giả
thuyết H0 với cả mức ý nghĩa 5% và 1%.
c) Tìm khoảng tin cậy 95% của WGG: CI95% = ˆ βMale ± t0.025 × SEMale Với ˆ
βMale = 2.12, SEMale = 0.36, và t0.025 ≈ 1.96:
CI95% = 2.12 ± 1.96 × 0.36 = 2.12 ± 0.706
Vậy, khoảng tin cậy 95% là: [1.414, 2.826]
d) Tính lương trung bình của nhân viên nam và nhân viên nữ từ mẫu:
– Lương trung bình của nhân viên nữ là: Wage = 12.52 female
– Lương trung bình của nhân viên nam là: Wage = 12.52 + 2.12 = 14.64 male
e) Hồi quy lại mô hình với biến Female, viết ước lượng của mô hình hồi quy này:
Wage = Intercept + 2.12 · Female + e.
Trong đó, Intercept là lương trung bình của nhân viên nam, và hệ số 2.12 phản ánh
sự khác biệt lương giữa nam và nữ. Bài tập 3.3
Dữ liệu gồm thông tin của 4000 nhân viên làm việc toàn thời gian, với các biến: AHE (thu
nhập trung bình theo giờ), College (biến nhị phân, 1 nếu tốt nghiệp đại học), Female, Age,
và các biến vùng miền (Ntheast, Midwest, South, West). Hồi quy ta được kết quả: – College = 5.46 (se = 0.21) – Female = -2.64 (se = 0.21)
a) Giải thích ý nghĩa các hệ số hồi quy.
b) Tính hệ số xác định R² .
c) Tính p-value của kiểm định giả thuyết H0 : β = 0. Bạn có chấp nhận H0 với mức ý nghĩa 5% không?
d) Tìm khoảng tin cậy 95% cho sự thay đổi thu nhập trung bình khi một nhân viên có
bằng đại học so với trung học. Giải:
a) Giải thích ý nghĩa các hệ số hồi quy:
– Hệ số của biến College là 5.46, nghĩa là nếu một nhân viên có bằng đại học (so với
không có bằng đại học), thu nhập trung bình theo giờ của họ sẽ tăng thêm 5.46 đô la.
– Hệ số của biến Female là -2.64, nghĩa là nếu một nhân viên là nữ (so với nam), thu
nhập trung bình theo giờ của họ sẽ giảm đi 2.64 đô la.
b) Tính hệ số xác định R2:
– Thông tin về hệ số xác định R2 không được cung cấp trong đề bài. Để tính R2, cần
thông tin về tổng bình phương tổng quát (SST), tổng bình phương hồi quy (SSR),
và tổng bình phương sai số (SSE).
c) Tính p-value của kiểm định giả thuyết H0 : β = 0. Bạn có chấp nhận H0 với mức ý nghĩa 5% không? – T-statistic cho College: 5.46 tCollege = = 26.00 0.21
Với giá trị t rất lớn, p-value sẽ nhỏ hơn 0.01, tức là nhỏ hơn mức ý nghĩa 5%. Chúng
ta bác bỏ giả thuyết H0. – T-statistic cho Female: −2.64 tFemale = = −12.57 0.21
Tương tự, p-value sẽ nhỏ hơn 0.01. Chúng ta bác bỏ giả thuyết H0.
d) Tìm khoảng tin cậy 95% cho sự thay đổi thu nhập trung bình khi một nhân viên có bằng
đại học so với trung học: CI95% = ˆ
βCollege ± t0.025 × SECollege Với ˆ
βCollege = 5.46, SECollege = 0.21, và t0.025 ≈ 1.96:
CI95% = 5.46 ± 1.96 × 0.21 = 5.46 ± 0.4116
Vậy, khoảng tin cậy 95% là: [5.0484, 5.8716] Bài tập 3.4
Nghiên cứu sự khác biệt giới tính ảnh hưởng đến thu nhập của các lãnh đạo cấp cao tại các
công ty nhà nước Hoa Kỳ. Hồi quy logarit của thu nhập (Earnings) theo biến Female, ta được:
log(Earnings) = 6.48 − 0.44 · Female, SER = 2.65, se (0.01) (0.05)
a) Giải thích ý nghĩa của hệ số Female.
b) Sai số chuẩn (SER) là 2.65. Hãy giải thích ý nghĩa của giá trị này.
c) Theo hàm hồi quy, thu nhập của nữ lãnh đạo có thấp hơn nam lãnh đạo không? Giải thích.
d) Thêm các biến MarketValue (giá trị thị trường) và Return (lợi nhuận cổ phiếu), hồi quy lại được:
log(Earnings) = 3.86 − 0.28 · Female + 0.37 · log(MarketValue) + 0.004 · Return
Hãy giải thích ý nghĩa của các hệ số. Giải:
a) Giải thích ý nghĩa của hệ số Female:
– Hệ số của Female là -0.44, có nghĩa là, khi tất cả các yếu tố khác không đổi, thu nhập
của nữ lãnh đạo thấp hơn thu nhập của nam lãnh đạo khoảng 100 × (1 − e−0.44) ≈ 35.6%.
b) Sai số chuẩn (SER) là 2.65. Hãy giải thích ý nghĩa của giá trị này:
– SER = 2.65 cho thấy rằng log của thu nhập thực tế chênh lệch trung bình 2.65 đơn
vị so với giá trị dự báo từ mô hình.
c) Theo hàm hồi quy, thu nhập của nữ lãnh đạo có thấp hơn nam lãnh đạo không? Giải thích:
– Có, theo mô hình, thu nhập của nữ lãnh đạo thấp hơn nam lãnh đạo khoảng 35.6%,
và hệ số này có ý nghĩa thống kê (p-value rất nhỏ).
d) Giải thích ý nghĩa của các hệ số trong hồi quy mới:
– Hệ số của Female là -0.28, cho thấy thu nhập của nữ lãnh đạo thấp hơn nam lãnh
đạo khoảng 24.5% khi đã kiểm soát các yếu tố khác.
– Hệ số của log(MarketValue) là 0.37, nghĩa là khi giá trị thị trường của công ty
tăng 1%, thu nhập của lãnh đạo tăng khoảng 0.37%.
– Hệ số của Return là 0.004, cho thấy khi lợi nhuận cổ phiếu tăng 1%, thu nhập của lãnh đạo tăng 0.4%. Bài tập 3.5
Khảo sát giá cả và lượng hàng bán được ở 20 khu vực, với các biến Y (lượng hàng bán,
tấn/tháng), X (giá bán, nghìn đồng/kg) và D (biến giả, 1 nếu ở nông thôn, 0 nếu ở thành phố). Y (tấn/tháng) X (nghìn đồng/kg)
D (nông thôn = 1, thành phố = 0) 20 2 1 19 3 0 18 3 1 18 4 0 17 4 1 17 3 1 16 4 0 16 4 1 15 5 1 15 5 1 14 5 0 14 6 1 13 6 0 12 7 1 12 7 0 11 8 1 10 8 0
Bảng 1: Dữ liệu về giá bán và lượng hàng bán ở 20 khu vực bán hàng a) Tìm các hàm hồi quy: ˆ Yi = β0 + β1Xi ˆ Yi = α0 + α1Xi + α2Di
b) Giải thích ý nghĩa các hệ số α1, α2.
c) Kiểm định xem có nên đưa biến D vào mô hình hay không.
d) Dùng mô hình đầu để dự báo lượng hàng bán trung bình khi giá bán là 7 nghìn đồng/kg với độ tin cậy 95%. Giải: a) Tìm các hàm hồi quy: ˆ Yi = β0 + β1Xi ˆ Yi = 21.48 − 2.10 · Xi ˆ Yi = α0 + α1Xi + α2Di ˆ
Yi = 21.84 − 2.11 · Xi − 2.38 · Di
b) Giải thích ý nghĩa các hệ số α1, α2:
– α1: Khi giá bán (X) tăng thêm 1 nghìn đồng/kg, lượng hàng bán (Y ) giảm khoảng 2.11 tấn/tháng.
– α2: So với các khu vực thành phố, lượng hàng bán ở các khu vực nông thôn cao hơn khoảng 2.38 tấn/tháng.
c) Kiểm định xem có nên đưa biến D vào mô hình hay không:
– Giá trị t-statistic cho α2 là −6.8, với p-value rất nhỏ. Điều này cho thấy có đủ bằng
chứng để bác bỏ giả thuyết H0, tức là biến D nên được đưa vào mô hình.
d) Dự báo lượng hàng bán trung bình khi giá bán là 7 nghìn đồng/kg với độ tin cậy 95%: ˆ
Y = 21.84 − 2.11 · 7 − 2.38 · 0 ˆ
Y = 21.84 − 14.77 ≈ 7.07 tấn/tháng
Bài tập 3.6 Trong vài năm qua, tỷ lệ sinh viên rời khỏi Lakeland College vào cuối năm
đầu tiên đã tăng lên. Năm ngoái, Lakeland đã khởi động một chương trình định hướng tự
nguyện kéo dài một tuần để giúp sinh viên năm nhất thích nghi với cuộc sống trong khuôn
viên trường. Nếu Lakeland có thể chứng minh rằng chương trình định hướng có tác động tích
cực đến việc duy trì sinh viên, họ sẽ xem xét việc bắt buộc tất cả sinh viên năm nhất tham
gia chương trình này. Ban quản lý của Lakeland cũng nghi ngờ rằng những sinh viên có điểm
trung bình (GPA) thấp hơn có khả năng rời trường vào cuối năm đầu tiên cao hơn. Để điều
tra mối quan hệ giữa các biến này với việc giữ chân sinh viên, Lakeland đã chọn một mẫu
ngẫu nhiên gồm 100 sinh viên từ lớp nhập học năm ngoái.
Biến phụ thuộc được lượng hóa là y = 1 nếu sinh viên quay lại Lakeland cho năm thứ hai và
y = 0 nếu không. Hai biến độc lập là:
x1: GPA vào cuối học kỳ đầu tiên
(0 nếu sinh viên không tham gia chương trình định hướng, x2 =
1 nếu sinh viên tham gia chương trình định hướng.
a) Viết phương trình hồi quy logistic y theo x1 và x2.
b) Giải thích ý nghĩa E(y) khi x2 = 0.
d) Thực hiện kiểm định cho ý nghĩa tổng thể với mức ý nghĩa α = 0.05.
e) Sử dụng α = 0.05 để xác định liệu mỗi biến độc lập có ý nghĩa hay không.
f) Sử dụng logit ước lượng đã tính ở phần (c) để ước lượng xác suất rằng sinh viên với
GPA là 2.5 và không tham gia chương trình định hướng sẽ quay lại Lakeland cho năm
thứ hai. Xác suất ước lượng cho sinh viên với GPA 2.5 và đã tham gia chương trình định hướng là bao nhiêu?
g) Tỷ lệ odds (odds ratio) ước lượng cho chương trình định hướng là bao nhiêu? Giải thích.
h) Bạn có khuyến nghị chương trình định hướng trở thành hoạt động bắt buộc không? Tại sao hoặc tại sao không? a) Tìm các hàm hồi quy: ˆ Yi = β0 + β1Xi ˆ Yi = α0 + α1Xi + α2Di
b) Giải thích ý nghĩa các hệ số α1, α2.
c) Kiểm định xem có nên đưa biến D vào mô hình hay không.
d) Dùng mô hình đầu để dự báo lượng hàng bán trung bình khi giá bán là 7 nghìn đồng/kg với độ tin cậy 95%. 4
Kiểm định các vi phạm giả thiết của mô hình hồi quy
Bài tập 4.1 Xét mô hình hồi quy sau đây:
CT = β1 + β2T N + β3N u + β4T N · Nu + u
Nếu hệ số tương quan mẫu giữa biến Nu và biến T N · Nu bằng 0.90 thì kết quả ước lượng
mô hình trên có thể gặp vấn đề gì?
Giải: Trong mô hình hồi quy CT = β1 + β2T N + β3Nu + β4T N · N u + u, khi hệ số tương
quan mẫu giữa biến Nu và biến tương tác T N · N u bằng 0.90, có khả năng mô hình gặp phải
vấn đề đa cộng tuyến cao.
Bài tập 4.2 Cho kết quả hồi quy sau, với QA là lượng bán của hãng nước giải khát A, P A
là giá của hãng A, P B là giá của hãng B, và QB là lượng bán của hãng B.
Dependent variable: QA Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C 13265.76 28173.04 0.470867 0.6428 PA -58.18860 9.661317 -6.022844 0.0000 PB -434.7366 1126.757 -0.385830 0.7037 QB -6.111723 14.04066 -0.435288 0.6680 R-squared 0.664147 Mean dependent var 923.5833 Adjusted R-squared 0.613769 F-statistic 13.18329 Durbin-Watson stat 2.442813 Prob(F-statistic) 0.000056
Nếu chỉ hồi quy theo PA, PB thì kết quả như sau (bảng A):
Dependent variable: QA Included observations: 24 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p C 1003.407 355.4275 2.823098 0.0102 PA -59.05641 9.269155 -6.371283 0.0000 PB 55.63005 21.91590 2.538342 0.0191 R-squared 0.660965 Mean dependent var 923.5833 Adjusted R-squared 0.628676 S.D. dependent var 292.7673 S.E. of regression 178.4017 Akaike info criterion 13.32242 Sum squared resid 668370.4 Schwarz criterion 13.46968 Log likelihood -156.8691 F-statistic 20.47028 Durbin-Watson stat 2.489845 Prob(F-statistic) 0.000012
1. Viết hàm hồi quy mẫu. So sánh với kết quả bảng A, nhận xét gì về dấu và giá trị của
các ước lượng hệ số hồi quy?
2. Có nhận xét gì về ý nghĩa thống kê của biến P B, so sánh với bảng A ở trên.
3. Nghi ngờ mô hình có đa cộng tuyến, hãy nêu một cách để kiểm tra điều đó.
4. Cho hai kết quả hồi quy phụ sau trên cùng bộ số liệu, hãy cho biết hai kết quả đó dùng
để làm gì, và có kết luận gì về hiện tượng đa cộng tuyến qua từng hồi quy phụ đó?
Dependent variable: PA Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C -597.0432 622.8575 -0.958555 0.3487 PB 24.76408 24.86943 0.995764 0.3307 QB 0.299889 0.310308 0.966426 0.3448 R-squared 0.134873 F-statistic 1.636949 Durbin-Watson stat 0.292773 Prob(F-statistic) 0.218443
Dependent variable: QB Included observations: 24 Variable Coefficient Std. Error t-Statistic Prob. C 2006.367 5.633796 356.1306 0.0000 PA 0.141990 0.146923 0.966426 0.3448 PB -80.23378 0.347384 -230.9659 0.0000 R-squared 0.999643 F-statistic 29441.88 Durbin-Watson stat 2.548328 Prob(F-statistic) 0.000000
5. Mô hình QA phụ thuộc P A, P B, QB và hệ số chặn có hiện tượng đa cộng tuyến không?
Đa cộng tuyến này là hoàn hảo hay không hoàn hảo?
6. Hãy nêu một cách khắc phục đơn giản hiện tượng đa cộng tuyến trong câu trên.
7. Khi bỏ biến QB khỏi mô hình, hồi quy QA theo P A, P B và hệ số chặn (bảng A) thì
mô hình này có chắc chắn khắc phục được hiện tượng đa cộng tuyến không? Nếu không,
hãy nêu một cách kiểm định có thể sử dụng.
8. Khi hồi quy P B theo P A và hệ số chặn, thì thu được ước lượng hệ số góc bằng 0,131
và sai số chuẩn tương ứng là 0,086. Qua hồi quy phụ này, có thể kết luận gì về mô hình QB phụ thuộc P A, P B?
Bài tập 4.3 Cho kết quả hồi quy với Y là sản lượng, L là lượng lao động, K là lượng vốn.
Dependent variable: Y Included observations: 20 Variable Coefficient Std. Error t-Statistic Prob. C -41.51425 82.67264 -0.502152 0.6220 L 2.208128 0.981281 2.250251 0.0380 K 1.780819 0.386295 4.609999 0.0002 R-squared 0.905040 Prob(F-statistic) 0.000000
(a) Với phần dư thu được của mô hình ban đầu ký hiệu là RESID, hãy viết mô hình hồi
quy phụ trong bảng 6.6 và cho biết kết quả đó dùng để làm gì? Kết luận gì thu được?
Kiểm định White về phương sai thay đổi Thống kê Giá trị Thống kê Giá trị F-statistic 3.972746 Probability 0.018776 Obs*R-squared 11.73157 Probability 0.038657 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p C -27854.36 293672.6 -0.094848 0.9258 L 2857.590 8260.616 0.345929 0.7345 L2 -35.55875 60.76231 -0.585211 0.5677 L*K 38.06234 50.11640 0.759479 0.4602 K -2063.946 3473.158 -0.594256 0.5618 K2 -7.627837 10.22040 -0.746335 0.4678 R-squared 0.586578 Prob(F-statistic) 0.018776
(b) Với kết quả tại bảng sau, hãy viết mô hình và thực hiện kiểm định để có kết luận.
Kiểm định White về dị phương sai (không có các số hạng chéo) Thống kê Giá trị Thống kê Giá trị F-statistic 4.961715 Probability 0.009471 Obs*R-squared 11.39090 Probability 0.022505
(c) Cho biết kết quả hồi quy dưới đây dùng để làm gì, có kết luận gì về mô hình gốc ban
đầu, biết RESID là phần dư, và ABS là hàm lấy giá trị tuyệt đối.
Dependent variable: ABS(RESID) Included observations: 20 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p C -433.5278 146.6376 -2.956457 0.0084 L 3.893503 1.096448 3.551013 0.0023 R-squared 0.411951 Prob(F-statistic) 0.002283
(d) Khi hồi quy ln(E2) theo ln(K), có hệ số chặn, thì hệ số xác định của mô hình này bằng
0,105. Hãy cho biết kết quả đó dùng để làm gì, có kết luận gì thu được?
(e) Hồi quy bình phương phần dư E theo bình phương giá trị ước lượng biến phụ thuộc
trong mô hình gốc, có hệ số chặn; thì thu được ước lượng điểm hệ số góc bằng 0,852 và
sai số chuẩn tương ứng bằng 0,126. Hãy cho biết kết quả đó dùng để làm gì, dựa trên
giả thiết nào, có kết luận gì thu được về mô hình gốc?
(f) Dựa trên kết luận ở câu trên, hãy nêu một cách khắc phục hiện tượng phát hiện được.
(g) Hồi quy bình phương của E theo bình phương của L, có hệ số chặn, thì hệ số xác định
bằng 0,722. Kết quả đó dùng để làm gì, có kết luận gì? Qua đó hãy nêu một cách để
khắc phục hiện tượng phát hiện được.
(h) Cho kết quả sau đây, hãy cho biết kết quả đó dùng để làm gì, và đã đạt mục đích chưa?
Dependent variable: Y/L Included observations: 20 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p 1/L -56.81014 72.62494 -0.782240 0.4448 C 2.430546 0.931296 2.609852 0.0183 K/L 1.696025 0.393030 4.315255 0.0005 R-squared 0.672855 Prob(F-statistic) 0.000075
Kiểm định White về phương sai thay đổi Thống kê Giá trị Thống kê Giá trị F-statistic 1.069752 Probability 0.417838 Obs*R-squared 5.528789 Probability 0.354799
(i) Với bảng kết quả trên, viết lại mô hình với các biến Y , L, K. Khi đó nếu lao động tăng
một đơn vị thì sản lượng tăng tối đa bao nhiêu?
(j) Với bảng kết quả dưới đây, viết hồi quy phụ của kiểm định, thực hiện kiểm định và kết
luận về ước lượng thu được.
Dependent variable: log(Y) Included observations: 20 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p C 0.764682 0.713780 1.071314 0.2990 LOG(L) 0.599932 0.248400 2.415183 0.0273 LOG(K) 0.510023 0.126959 4.017220 0.0009 R-squared 0.910215 Prob(F-statistic) 0.000000 Thống kê Giá trị Thống kê Giá trị F-statistic 1.779605 Probability 0.417838 Obs*R-squared 7.771870 Probability 0.354799
(k) Với RESID và F IT T ED là giá trị ước lượng biến phụ thuộc thu được từ bảng 6.10,
được kết quả hồi quy trong bảng 6.11. Hãy cho biết kết quả đó dùng để làm gì, kết luận
gì về mô hình bảng 6.10?
Dependent variable: RESID2 Included observations: 20 Biến Hệ số Sai số chuẩn t-thống kê Giá trị p C 57497.17 31461.63 1.827533 F IT T ED2 -0.020171 0.029780 -0.677318 R-squared 0.024853 Mean dependent var Durbin-Watson stat 2.202629 Prob(F-statistic) 5
Mô hình hồi quy với dữ liệu chuỗi thời gian 6
Giới thiệu sơ lược về mô hình dữ liệu bảng