Tổng hợp lý thuyết về hồi quy tuyến tính môn Kinh tế lượng | Đại học Thăng Long

Tổng hợp lý thuyết về hồi quy tuyến tính môn Kinh tế lượng | Đại học Thăng Long được chia sẻ dưới dạng file PDF sẽ giúp bạn đọc tham khảo , củng cố kiến thức ,ôn tập và đạt điểm cao. Mời bạn đọc đón xem!

lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
1
KINH TẾ LƯỢNG
PHẦN MỞ ĐẦU. CÁC KHÁI NIỆM CƠ BẢN
1) Cách nhập dữ liệu từ các file đã có sẵn vào R
Bước 1: Khai báo đường dẫn trên R
Làm như sau: Trên Rstudio: Nhìn vào khung cửa sổ góc màn hình bên dưới tay phải chọn tab Files
=> kích chuột vào => sau đó chọn ổ chứa dữ liệu thực hành rồi cứ thế chọn cho đến khi ra thư mục
chứa dữ liệu thực hành. Tiếp đến kích chuột chọn More => chọn Set As Working Directory (và thấy
hiện lên dòng setwd(“…”) là thành công)
Bước 2: Gõ câu lệnh cho từng kiểu file khác nhau
Kiểu File Câu lệnh
rda Đặt 1 tên bất kỳ=load(“tên file.rda”) csv Đặt 1 tên bất
kỳ=read.csv(“tên file.csv”) txt Đặt 1 tên bất kỳ=read.table(“tên
flie.txt”,header=T)
Ngoài ra còn 1 file nữa có đuôi .xls (excel) thì: đầu tiên phải đổi file .xls thành file csv (CSV (Comma
delimited)) (Cách làm: Vào hẳn thư mục dữ liệu thực hành chứa file .xls đó rồi kích chuột mở file đó
ra chọn tab File => Chọn Save As => Vào phần Save as type để chọn đuôi CSV (Comma delimited)
=> kích chuột vào Save (ở phần Tool) => Yes. Sau đó để lấy dliệu vào R thì đánh câu lệnh giống hệt
như với đuôi .csv: read.csv(“tên file.csv”) VD1: Lấy các file sau vào R:
File “NangSuat.rda”
> ns=load("NangSuat.rda")
> ns
[1] "pstd7"
> pstd7
File “ChiPhi.csv”
> cp=read.csv("ChiPhi.csv")
> cp
File “ThucPham.txt”
> tp=read.table("ThucPham.txt",header=T)
> tp
File “ChiSoGiaVaKQSX.xls”. Đầu tiên thì vào thư mục chứa file rồi đổi đuôi sau đó thì:
> cs=read.csv("ChiSoGiaVaKQSX.csv")
> cs
2) Các khái niệm về hồi quy:
Phân tích hồi quy: là nghiên cứu mối liên hệ phụ thuộc của một biến vào một hay nhiều biến khác.
VD2: a. Nghiên cứu sự phụ thuộc của chi tiêu vào thu nhập.
Khi đó: Chi tiêu biến phụ thuộc (hay còn gọi là biến được giải thích), còn thu nhập biến độc lập
(hay còn gọi là biến giải thích).
VD2: b. Nghiên cứu sự phụ thuộc của tiền lương vào giới tính và số năm kinh nghiệm.
Khi đó: Tiền lương là biến phụ thuộc (biến được giải thích), còn giới tính số năm kinh nghiệm
biến độc lập (biến giải thích).
Mô hình hồi quy tổng thể:
Cho Y là biến phụ thuộc vào các đại lượng X
1
, X
2
, …, X
n
. Mô hình hồi quy tổng thể (PRF) là:
E(Y/ X
1
, X
2
, …, X
n
) = f (X
1
, X
2
, …, X
n
)
Y
i
= E(Y/ X
1i
, X
2i
, …, X
ni
) + Ui = f (X
1i
, X
2i
, …, X
ni
) + U
i
(U
i
: Gọi là sai số ngẫu nhiên)
Căn cứ vào số lượng biến trong mô hình hồi quy thì có 2 loại:
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
2
Mô hình hồi quy 2 biến: là mô hình chỉ có một biến độc lập. (VD2a)
Mô hình hồi quy đa biến (bội): là mô hình có từ 2 biến độc lập trở lên. (VD2b)
Căn cứ vào dạng hàm f trong mô hình hồi quy thì có 2 loại:
Mô hình hồi quy tuyến tính: là mô hình có hàm f là hàm tuyến tính.
Mô hình hồi quy phi tuyến: là mô hình có hàm f không phải là hàm tuyến tính.
VD: Y = B
1
+ B
2
X + U là mô hình hồi quy tuyến tính.
Y = A + U (với B khác 1) là mô hình hồi quy phi tuyến.
Mô hình hồi quy mẫu:
Cho Y là biến phụ thuộc vào các đại lượng X
1
, X
2
, …, X
n
. Mô hình hồi quy mẫu (PRF) là:
Y
i
= Y + e
i
= f (X
1i
, X
2i
, …, X
ni
) + e
i
Y là: một ước lượng cho E(Y/ X
1
, X
2
, …, X
n
)
f là: một ước lượng cho f
e là: một ước lượng cho U
i
PHẦN 1. MÔ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN
1) Định nghĩa
Mô hình hồi quy tuyến tính tổng thể hai biến (PRF) của Y theo X là: E(Y/
X
i
) = B
1
+ B
2
X
i
Y
i
= B
1
+ B
2
X
i
+ U
i
Trong
đó:
E(Y/ X
i
) là: Với mỗi giá trị của X có duy nhất một giá trị trung bình của Y.
B
1
: được gọi hệ số chặn (tung độ gốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X = 0 thì
giá trị trung bình của Y là B
1
.
B
2
:được gọi là hệ số góc (độ dốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X tăng thêm 1 đơn
vị thì giá trị trung bình của Y thay đổi xấp xỉ B
2
đơn vị.
U
i
: được gọi là sai số ngẫu nhiên (đại diện cho các yếu tố khác ảnh hưởng đến Y ngoài X)
Mô hình hồi quy tuyến tính mẫu hai biến (SRF) của Y theo X là:
Y = b
1
+ b
2
X
i
Yi = b
1
+ b
2
X
i
+ e
i
= Y + e
i
Y là: một ước lượng cho E(Y/ X
i
)
e
i
là:
một ước lượng cho U
i
(e được gọi là phần dư)
b
1
là một ước lượng điểm cho B
1
, ta gọi là hệ số chặn (tung độ gốc) của đường hồi quy mẫu.
Ý nghĩa: Khi X = 0 thì giá trị trung bình của Y là b
1
.
b
2
là một ước lượng điểm cho B
2
, ta gọi là hệ số góc (độ dốc) của đường hồi quy mẫu.
Ý nghĩa: Khi X tăng thêm 1 đơn vị thì giá trị trung bình của Y thay đổi xấp xỉ b
2
đơn vị.
2) Hệ số tương quan tuyến tính và vẽ biểu đồ tán xạ của Y theo X
Hệ số tương quan tuyến tính là : đại lượng đo lường mối quan hệ tuyến tính giữa 2 biến ngẫu nhiên.
Hệ số tương quan tuyến tính tổng thể giữa hai biến ngẫu nhiên X và Y ký hiệu là .
(Y là đại diện cho biến phụ thuộc còn X là đại diện cho biến độc lập)
Giá trị của như sau: 1 1
TH1: = 1 thì ta nói X và Y có mối quan hệ tuyến tính hoàn toàn âm.
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
3
TH2: 1 < < 0 thì ta nói X và Y có mối quan hệ tuyến tính âm.
TH3: = 0 thì ta nói X và Y không có quan hệ tuyến tính.
TH4: 0 < < 1 thì ta nói X và Y có mối quan hệ tuyến tính dương.
TH5: = 1 thì ta nói X và Y có mối quan hệ tuyến tính hoàn toàn dương.
LƯU Ý : càng gần 1 thì quan hệ tuyến tính càng dương mạnh; càng gần 1 thì quan hệ tuyến tính càng
âm mạnh; càng gần 0 thì quan hệ tuyến tính càng yếu.
Hệ số tương quan tuyến tính mẫu: được hiệu r. r cũng tương tự . r càng gần 1 thì quan hệ
tuyến tính càng dương mạnh; r càng gần 1 thì quan hệ tuyến tính càng âm mạnh; r càng gần 0 tquan
hệ tuyến tính càng yếu.
Trên phần mềm R thì ta tính Hệ số tương quan tuyến tính mẫu bằng câu lệnh: cor(X,Y)
Vẽ biểu đồ tán xạ của Y theo X thì trên R có 2 cách:
Cách 1: plot(X,Y) hoặc Cách 2: plot(Y~X)
Nhận xét: Nhìn vào biểu đồ tán xạ ta
thấy Y phụ thuộc vào X theo dạng
đường thẳng, mối quan hệ là đồng biến
Nhận xét: Nhìn vào biểu đồ tán xạ ta thấy
Y phụ thuộc vào X theo dạng đường thẳng,
mối quan hệ là nghịch biến
VD1: Dựa vào File “TLVaNSLD.csv” hãy:
a. Vẽ biểu đồ tán xạ của TienLuong (Y) theo NangSuat (X). Nhận xét.
b. Đánh giá mối quan hệ tuyến tính của TienLuong và NangSuat qua hệ số tương quan tuyến tính.
VD2: Dựa vào File “CVaG.csv” hãy:
a. Vẽ biểu đồ tán xạ của Cau theo Gia. Nhận xét.
b. Đánh giá mối quan hệ tuyến tính của Cau và Gia qua hệ số tương quan tuyến tính.
3) Ước lượng hình hồi quy mẫu theo phương pháp bình phương cực tiểu thông thường (OLS)
Để tìm được mô hình hồi quy tuyến tính mẫu thì cần tìm được b
1
(ước lượng điểm của B
1
) và b
2
(ước
lượng điểm của B
2
).
Câu lệnh để ước lượng điểm cho các hệ số B
1
và B
2
là: lm(Y~X) VD3: Dựa vào File
“TLVaNSLD.csv” hãy:
a. Viết mô hình hồi quy tuyến tính tổng thể của Tien Luong (Y) theo Nang Suat (X)
b. Hãy viết hình hồi quy tuyến tính mẫu của Tien Luong theo Nang Suat. Nêu ý nghĩa của cáchệ
số trên đường hồi quy mẫu.
VD4: Dựa vào File CVaG.csv” y:
a. Viết mô hình hồi quy tuyến tính tổng thể của Cau theo Gia
b. Hãy viết hình hồi quy tuyến tính mẫu của Cau theo Gia. Nêu ý nghĩa của các hệ số
trênđường hồi quy mẫu.
Câu lệnh vẽ đường hồi quy mẫu vào biểu đồ tán xạ của Y theo X : abline(lm(Y~X))
Câu lệnh tìm phần dư (các ei) là : e=resid(lm(Y~X))
Câu lệnh tìm Y là: Ymu=fitted(lm(Y~X))
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
4
Câu lệnh để ước lượng điểm cho sai số chuẩn của b
1
và b
2
là: summary(lm(Y~X))
Nhìn vào chỗ ghi Std. Error rồi
chép kết quả ra
Ước lượng điểm cho sai số chuẩn của b
1
là : se(b
1
)
Ước lượng điểm cho sai số chuẩn của b
2
là : se(b
2
)
VD5: Tìm ước lượng điểm cho sai số chuẩn của b
1
và b
2
trong mô hình hồi quy mẫu của TienLuong theo
NangSuat qua File “TLVaNSLD.csv”.
> summary(lm(TienLuong~NangSuat))
Call:
lm(formula = TienLuong ~ NangSuat)
Residuals:
Min 1Q Median 3Q Max -4.7346
-1.9615 0.1364 1.9502 3.7977
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.24884 1.61729 17.47 <2e-16 ***
NangSuat 0.71879 0.01944 36.98 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.339 on 40 degrees of freedom
Multiple R-squared: 0.9716, Adjusted R-squared: 0.9709
F-statistic: 1367 on 1 and 40 DF, p-value: < 2.2e-16
Ước lượng điểm cho sai số chuẩn của b
1
là : se(b
1
) = 1.61729
Ước lượng điểm cho sai số chuẩn của b
2
là : se(b
2
) = 0.01944
Câu lệnh tìm khoảng tin cậy cho các hệ số hồi quy B1 B2 là: confint(lm(Y~X),level=0. )
VD6: Tìm khoảng tin cậy 90% cho hệ số chặn và cho hệ số góc của mô hình hồi quy tuyến tính
tổng thể TienLuong theo NangSuat. Nêu ý nghĩa của các khoảng tin cậy đó?
> confint(lm(TienLuong~NangSuat),level=0.9)
5 % 95 %
(Intercept) 25.5255581 30.9721154
NangSuat 0.6860595 0.7515242
Khoảng tin cậy 90% cho B
1
= (25.5255581 ; 30.9721154)
Khoảng tin cậy 90% cho B
2
= (0.6860595 ; 0.7515242)
Ý nghĩa của khoảng tin cậy B
1
là: Với khoảng tin cậy 90%, khi NangSuat = 0 thì TienLuong trung bình
nhiều nhất là và ít nhất là
Ý nghĩa của khoảng tin cậy B
2
là: Với khoảng tin cậy 90%, khi NangSuat tăng thêm 1 đơn vị thì
TienLuong trung bình tăng lên nhiều nhất là đơn vị và tăng lên ít nhất là
VD7: a. Dựa vào File CVaG.csv” y: Tìm ước lượng điểm cho sai số chuẩn của b
1
b
2
trong
hình hồi quy mẫu của Cau theo Gia.
b.Tìm khoảng tin cậy 95% cho hệ số chặn cho hệ số góc của hình hồi quy tuyến tính tổng thể
Cau theo Gia. Nêu ý nghĩa của các khoảng tin cậy đó?
4) Kiểm định giả thuyết về hệ số hồi quy
Có mô hình hồi quy tuyến tính tổng thể 2 biến sau: Y
i
= B
1
+ B
2
X
i
+ U
i
Kiểm định cho hệ số chặn (B
1
) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H
0
: B
1
B
1
* H
0
: B
1
B
1
* H
0
: B
1
= B
1
*
H
1
: B
1
> B
1
* H
1
: B
1
< B
1
* H
1
: B
1
B
1
* Lệch
phải Lệch trái Hai bên
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
5
LƯU Ý:
Trong H
0
luôn 1 dấu “=”, trong H
1
không bao giờ dấu “=”
B
1
* đề bài sẽ cho sẵn.
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H
0
Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H
0
p giá trị
H
0
: B
1
B
1
* t = t
n-2,
= qt(1 ,n 2) t > t
n-2,
Bác bỏ hay chấp nhận H
0
qua
H
1
: B
1
> B
1
* n là cỡ mẫu p-giá trị (chỉ đúng khi đó là
Lệch phải là mức ý nghĩa bài toán hai bên và BTức là dùng p-giá trị để kiểm
1
* =
0).
H
0
: B
1
B
1
* t = t
n-2,
= qt(1 ,n 2) t < t
n-2,
định thì chỉ đúng duy nhất với
H
1
: B
1
< B
1
* cặp giả thuyết thống kê sau:
Lệch trái H
0
: B
1
= 0
H
0
: B
1
= B
1
* t = tn-2, /2 = qt(1 /2,n 2) |t| > tn-2, /2 H
1
: B
1
0
H
1
: B
1
B
1
* p-giá trị < => bác bỏ H
0
Hai bên p-giá trị > => Chấp nhận H
0
Kiểm định cho hệ số góc (B
2
) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H
0
: B
2
B
2
* H
0
: B
1
B
2
* H
0
: B
2
= B
2
* H
1
:
B
2
> B
2
* H
1
: B
1
< B
2
* H
1
: B
2
B
2
*
LƯU Ý: B
2
* đề bài sẽ cho sẵn.
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H
0
Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H
0
p giá trị
H
0
: B
2
B
2
* t = t
n-2,
= qt(1 ,n 2) t > t
n-2,
Bác bỏ hay chấp nhận H
0
qua
H
1
: B
2
> B
2
* n là cỡ mẫu p-giá trị (chỉ đúng khi đó là
Lệch phải là mức ý nghĩa bài toán hai bên và BTức là dùng p-giá trị để kiểm2* =
0).
H
0
: B
2
B
2
* t = t
n-2,
= qt(1 ,n 2) t < t
n-2,
định thì chỉ đúng duy nhất với
H
1
: B
2
< B
2
* cặp giả thuyết thống kê sau:
Lệch trái H
0
: B
2
= 0
H
0
: B
2
= B
2
* t = t
n-2, /2
= qt(1 /2,n 2) |t| > t
n-2, /2
H
1
: B
2
0
H
1
: B
2
B
2
* p-giá trị < => bác bỏ H
0
Hai bên p-giá trị > => Chấp nhận H
0
VD8: Tại = 5%, kiểm định xem mô hình hồi quy TienLuong theo NangSuat:
TienLuong = B
1
+ B
2
NangSuat + U có nghĩa thống kê hay không?
LƯU Ý: Nếu đề bài hỏi: hình hồi quy tuyến tính 2 biến ý nghĩa thống kê <=> với việc kiểm định
hệ số B
2
0 (hay đề bài có thể hỏi khác đi là biến độc lập có ảnh hưởng đến biến phụ thuộc hay không?)
Giải: Xét cặp giả thuyết : H
0
: B
2
= 0
H
1
: B
2
0
> summary(lm(TienLuong~NangSuat))
Call:
lm(formula = TienLuong ~ NangSuat) Residuals:
Min 1Q Median 3Q Max -4.7346 -
1.9615 0.1364 1.9502 3.7977 Coefficients:
Nhận t: ta thấy cặp giả thuyết thông kê
trên là bài toán 2 bên và hệ số B
i
* = 0 nên ta
thể dựa luôn vào p-giá trị của lệnh
summary(lm(Y~X)) để làm luôn
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
6
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.24884 1.61729 17.47 <2e-16 ***
NangSuat 0.71879 0.01944 36.98 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.339 on 40 degrees of freedom
Multiple R-squared: 0.9716, Adjusted R-squared: 0.9709
F-statistic: 1367 on 1 and 40 DF, p-value: < 2.2e-16
VD9: Cho mô hình hồi quy tổng thể sau: TienLuong = B
1
+ B
2
NangSuat + U
a. Tại = 5%, kiểm định B
2
> 0 ?
b. Tại = 5%, kiểm định B
2
< 1 ?
c. Tại = 5%, kiểm định B
2
= 0,5 ?
d. Tại = 5%, kiểm định B
1
> 25 ?
LƯU Ý: Để kiểm định cho các cặp giả thuyết thống các i toán đó không phải là bài toán
2 bên (lệch trái; lệch phải) hoặc hệ số B
i
* 0 thì ta không dùng lệnh summary(lm(Y~X)) để làm
mà phải sử dụng lệnh sau:
summary(glht(mh,A,B
i
*,alt=“”)) Trong đó:
mh=lm(Y~X)
A=matrix(c(số của hệ số B
1
,số của hệ số B
2
),nrow=1)
B
i
* đề bài sẽ cho sẵn
alt=“g” nếu bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu i toán 2 bên
Tuy nhiên muốn s dụng lệnh trên thì trước tiên trên phần mềm R phải gói lệnh
library(multcomp) để hỗ trợ. Cách cài gói lệnh library(multcomp) như sau:
Cách cài multcomp (phải mạng) như sau: Vào phần mềm R thường (không phải Rstutio) kích
chuột chọn tab packages => Update packages => chọn 1 nước bất kỳ (USA hay UK đều được hết) =>
ok (sau đó đợi nó load, khi nào nó không chạy các dòng ghi gói lệnh bao nhiêu kb là được) => Sau đó
lại kích chuột chọn tab packages => Install package(s) => Kéo chuột chọn multcomp (các phần mềm
xếp theo bảng chữ cái ckéo chuột thấy multcomp được) => ok (sau đó đợi phần mềm này được
download về máy, khi nào nó chạy hết mấy dòng xanh lá như cài game được). Khi R thường được
cài multcomp thì Rstudio cũng sẽ tự động được cài multcomp luôn.
Sau khi cài đặt thành công rồi, tắt máy đi không học nữa. Đến lần học sau thì khi bật lại máy lên lại
phải đánh lại library(multcomp) (bây giờ thì không cần cài lại nữa chỉ cần gọi lại lệnh là được)
5) Hệ số xác định
Hệ số xác định (ký hiệu là R
2
) có giá trị như sau: 0 R
2
1. Ý nghĩa: R
2
đo tỷ lệ phần trăm sự biến thiên
của Y (biến phụ thuộc) được giải thích thông qua mô hình hồi quy.
R
2
càng lớn thì mô hình hồi quy càng phù hợp với dữ liệu mẫu. Người ta cho rằng R
2
từ 0,8 trở lên thì
tốt. Trên phầm mềm thì R
2
chính là Multiple R-squared: trong câu lệnh summary(lm(Y~X))
VD10: Xác định hệ số xác định của mô hình TienLuong = B
1
+ B
2
NangSuat + U. Nêu ý nghĩa?
6) Bài toán dự báo
Cho mô hình hồi quy tổng thể sau: Y= B
1
+ B
2
X + U.
Tìm điểm dự báo (dự đoán) cho Y và ước lượng điểm cho trung bình Y là dùng cùng 1 câu lệnh:
predict(lm(Y~X),new=data.frame(X= ))
Tìm khoảng dự báo cho Y dùng câu lệnh:
predict(lm(Y~X),new=data.frame(X= ),interval=“p”,level= )
Tìm khoảng tin cậy cho giá trị trung bình Y dùng câu lệnh:
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
7
predict(lm(Y~X),new=data.frame(X= ),interval=“c”,level= )
VD11: Dựa vào File “TLVaNSLD.csv” hãy:
a. Giả sử năm 2017, năng suất lao động thực tế là 108, dự báo tiền lương thực tế năm đó là bao nhiêu?
b. Xét tất cả các năm cùng mức năng suất lao động thực tế 108, tìm ước lượng điểm cho tiền lươngthực
tế trung bình của những năm đó.
c. Giả sử năm 2017, năng suất lao động thực tế là 108, tìm khoảng dự báo 95% cho tiền lương thực tế năm
đó.
d. Xét tất cả các m cùng mức năng suất lao động thực tế là 108. Tìm khoảng tin cậy 90% cho tiềnlương
thực tế trung bình của những năm đó.
VD12: Cho Y là lượng cầu về một loại hàng hoá, X là thu nhập trung bình đầu người số liệu cho trong file
LuongCauVaThuNhap.csv. Xét mô hình hồi quy tuyến tính: Y
t
= B
1
+ B
2
X
t
+ U
t
1. Vẽ biểu đồ tán xạ. Nhận xét biểu đồ?
2. Tìm hệ số tương quan tuyến tính mẫu giữa X và Y. Nhận xét.
3. Tìm một ước lượng điểm cho các hệ số B
1
, B
2
của hình hồi quy tổng thể. Xác định hàm SRF.
Nêu ý nghĩa kinh tế của hệ số góc trong phương trình hồi quy mẫu.
4. Vẽ thêm đường hồi quy mẫu vào biểu đồ tán xạ. Nhận xét.
5. Tính các phần dư e
t
và các giá trị Y
t
6. Tìm ước lượng điểm cho sai số chuẩn của b
1
và b
2
.
7. Tính hệ số xác định. Nêu ý nghĩa của hệ số xác định.
8. Cho biết thu nhập trung bình đầu người m 1988 2800. Tìm ước ợng điểm cho lượng cầuvà
dự báo (dự đoán) lượng cầu trung bình về hàng hóa đó của năm 1988.
9. Tìm khoảng dự báo 90% cho lượng cầu của năm 1988.
10. Tìm khoảng tin cậy 95% cho lượng cầu trung bình của năm 1988.
11. Tìm khoảng tin cậy 95% cho B
2
.
12. Thực hiện bài toán kiểm định sự có ý nghĩa của mô hình ở mức ý nghĩa α = 1%.
13. Cho biết đây hàng hóa thông thường (tức khi thu nhập tăng thì lượng cầu trung bình tăng).
Theo bạn, đphù hợp về mặt kinh tế thì dấu của hệ số B
2
phải như thế nào? Thực hiện bài toán
kiểm định ý nghĩa kinh tế (dùng mức ý nghĩa 5%).
14. ý kiến cho rằng hàng hóa y không phải hàng hóa thiết yếu (tức khi không thu nhậpthì
nhu cầu trung bình về hàng hóa này âm). Có thể nói ý kiến trên là đúng tại α = 5%.
15. Kiểm định giả thuyết B
2
≤ 1 (dùng mức ý nghĩa 5%).
16. Kiểm định giả thuyết B1 200
VD13: Cho Q nhu cầu một loại hàng hoá với giá là P (số liệu theo tháng). Số liệu được cho trong
file LuongCauVaGia.csv.
a. Vẽ biểu đồ tán xạ biểu diễn các điểm dữ liệu (với trục hoành là P, trục tung là Q). Nhận xét biểu
đồ.
b. Viết phương trình hồi quy tuyến tính tổng thể Q phụ thuộc P. Viết phương trình hồi quytuyến
tính mẫu Q phụ thuộc P. Nêu ý nghĩa của các hệ số của phương trình hồi quy mẫu.
c. Vẽ thêm đường thẳng hồi quy mẫu vào biểu đồ tán xạ. Nhận xét biểu đồ.
d. Thực hiện bài toán kiểm định ý nghĩa thống kê của mô hình tại α = 5%.
e. Theo bạn dấu của hệ số chặn và hệ số góc của mô hình hồi quy tổng thể phải như thế nàomới
phù hợp kinh tế? Thực hiện bài toán kiểm định cho nhận định đó của bạn tại α = 5%.
f. Tìm khoảng tin cậy 99% cho các hệ số của phương trình hồi quy tổng thể.
g. Khi giá bán hàng hóa là 3.000, dự báo xem nhu cầu về hàng hóa đó là bao nhiêu?
h. Tìm khoảng dự báo 95% cho nhu cầu về hàng hóa đó khi giá bán là 3.000
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
8
i. Tìm khoảng tin cậy 95% cho nhu cầu trung bình về hàng hóa đó khi giá bán 3.000VD14:
Số liệu lãi suất (R, %) và chỉ số CPI (%) của 9 nước cho ở File LaiSuatVaCPI.csv.
1. Viết phương trình hồi quy tuyến tính tổng thể của R theo CPI.
2. Viết phương trình hồi quy tuyến tính mẫu. Nêu ý nghĩa của hệ số góc trong phương trình
hồiquy mẫu.
3. Kiểm định xem chỉ số CPI có ảnh hưởng đến lãi suất R không? Dùng α = 5%.
4. Để phù hợp với thuyết kinh tế thì hệ shồi quy của biến CPI trong phương trình tổng
thểphải thỏa mãn điều kiện gì? Giá trị ước ợng điểm từ dữ liệu thỏa mãn điều kiện đó
không? Kiểm định xem điều kiện đó có thỏa mãn ở mức ý nghĩa 5% không?
VD15: File TieuDungVaThuNhap.csv cho số liệu về mức tiêu dùng trên đầu người (Y) và thu
nhập trên đầu người X tính theo gcố định (1980, đơn vị tính 100.000 VNĐ) trong thời kỳ từ 1980
1999 ở một địa phương. Xét mô hình hồi quy: Y
i
= B
1
+ B
2
X
i
+ U
i
1. Hãy ước lượng mô hình trên.
2. Để phù hợp về mặt kinh tế thì các hệ số B
1
, B
2
phải thỏa mãn các điều kiện gì? Cho biết kết
quả ước lượng trong ý (1) có thỏa mãn các điều kiện đó không?
3. Thực hiện bài toán kiểm định xem các điều kiện trong ý (2) được thỏa mãn không?
Dùngmức ý nghĩa 5%.
4. Tìm khoảng tin cậy 95% cho các hệ số hồi quy.
5. Với mức ý nghĩa 5% hãy kiểm định xem tiêu dùng có chịu ảnh hưởng của thu nhập không?
6. Tính hệ số xác định R
2
và giải thích ý nghĩa của nó.
VD16: Gi s s liu thng v lãi sut ngân hàng (X - % /năm), tổng vốn đầu (Y - t đồng)
trên địa bàn tỉnh A qua 10 năm liên tiếp. S liu được lưu trong File VNHVaLS.csv
1. Lập phương trình hồi quy tuyến tính tổng thể mô tả mối quan hệ phụ thuộc của tổng vốn đầu tưvào
lãi suất ngân hàng.
2. Viết phương trình hồi quy mẫu. Nêu ý nghĩa kinh tế của hệ số góc trong phương trình hồi quy mẫu.
3. Kiểm định giả thuyết hệ số góc trong hàm hồi quy tổng thể bằng 0 với mức ý nghĩa 1%.
4. Với mức ý nghĩa 5% có thể xem hệ số góc của đường hồi quy tổng thể bằng 11 được không?
5. Xác định khoảng tin cậy 90% cho hệ số góc của đường hồi quy tổng thể.
PHẦN 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI (MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA
BIẾN) 1) Định nghĩa
Mô hình hồi quy tuyến tính tổng thể k biến (PRF) của Y theo X
2
, X
3
, …, X
k
là:
E(Y/ X
2i
, X
3i
,…, X
ki
) = B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
Y
i
= B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
+ U
i
B
1
: được gọi là hệ số chặn (tung độ gốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X
2
= X
3
= … = X
k
= 0 thì giá trị trung bình của Y là B
1
.
B
i
(Với i = 2, 3,…, k) : được gọi là hệ số hồi quy riêng của đường hồi quy tổng thể. Ý nghĩa: Khi X
i
tăng thêm 1 đơn vị các biến độc lập còn lại không đổi thì giá trị trung bình của Y thay đổi xấp
xỉ B
i
đơn vị.
U
i
: được gọi là sai số ngẫu nhiên.
Mô hình hồi quy tuyến tính mẫu k biến (SRF) của Y theo X
2
, X
3
, …, X
k
là:
Y = b
1
+ b
2
X
i
+b
3
X
3i
+ …+ b
k
X
ki
Yi = b
1
+ b
2
X
i
+b
3
X
3i
+ …+ b
k
X
ki
+ e
i
= Y + e
i
Y là: một ước lượng cho E(Y/ X
2i
, X
3i
,…, X
ki
)
e
i
là:
một ước lượng cho U
i
(e được gọi là phần dư)
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
9
b
1
là một ước lượng điểm cho B
1
, ta gọi là hệ số chặn (tung độ gốc) của đường hồi quy mẫu.
Ý nghĩa: Khi X
2
= X
3
= … = X
k
= 0 thì giá trị trung bình của Y là B
1
.
b
i
(Với i = 2, 3,…, k) là một ước lượng điểm cho B
i
, ta gọi là hệ số hồi quy riêng của đường hồi quy
mẫu. Ý nghĩa: Khi X
i
tăng thêm 1 đơn vị các biến độc lập còn lại không đổi thì giá trị trung bình
của Y thay đổi xấp xỉ b
i
đơn vị.
2) Ước lượng mô hình hồi quy mẫu theo phương pháp bình phương cực tiểu thông thường (OLS)
Để tìm được mô hình hồi quy tuyến tính mẫu thì cần tìm được b
1
(ước lượng điểm của B
1
) và b
i
(với i
=2, 3 ,…, k) (ước lượng điểm của B
i
)
Câu lệnh để ước lượng điểm cho các hệ số hồi quy là: lm(Y~X
2
+X
3
+…+X
k
)
VD1: Nghiên cứu mối quan hệ của doanh thu (Y) theo số tiền chi cho quảng cáo (X
2
) tiền lương của
nhân viên (X
3
) (đơn vị tính là triệu đồng). Sử dụng File “DTQCTL.csv” hãy:
a. Viết phương trình hồi quy tổng thể của Y theo X
2
và X
3
.
b. Ước lượng phương trình hồi quy tuyến tính mẫu của Y theo X
2
và X
3
.
c. Nêu ý nghĩa của các hệ số trong phương trình hồi quy mẫu.
3) Hệ số xác định
Hệ số xác định (ký hiệu R
2
) giá trị như sau: 0 R
2
1. Ý nghĩa: R
2
đo tlệ phần trăm sự biến
thiên của Y (biến phụ thuộc) được giải thích thông qua mô hình hồi quy. R
2
càng lớn thì mô hình hồi
quy càng phù hợp với dữ liệu mẫu. Người ta cho rằng R
2
từ 0,8 trở lên thì tốt.
Trên phầm mềm thì R
2
chính là Multiple R-squared: trong câu lệnh summary(lm(Y~X
2
+X
3
+…+X
k
)) R
2
đại lượng tăng theo số lượng biến độc lập. Vì vậy, đôi khi R
2
đánh giá quá cao vai trò của các biến
độc lập trong mô hình hồi quy.
Hệ số xác định hiệu chỉnh (ký hiệu là R
2
) được sử dụng để xem xét có nên đưa thêm biến mới vào mô
hình không. Thông thường biến độc lập mới nên đưa thêm vào hình khi biến đó ý nghĩa
trong mô hình và làm R
2
tăng. (R
2
thì không có ý nghĩa)
Trên phầm mềm thì R
2
chính Adjusted R-squared: trong câu lệnh summary(lm(Y~X
2
+X
3
+…+X
k
))
VD2: Sử dụng File “DTQCTC.csv”. Tìm hệ số xác định và hệ số xác định hiệu chỉnh. Nêu ý nghĩa.
Câu lệnh tìm phần dư (các ei) là : e=resid(lm(Y~X
2
+X
3
+..+X
k
))
Câu lệnh tìm Y là: Ymu=fitted(lm(Y~X
2
+X
3
+..+X
k
))
Câu lệnh để ước lượng điểm cho sai số chuẩn của b
1
và b
i
(với i= 2, 3 ,…, k) là:
summary(lm(Y~X
2
+X
3
+..+X
k
))
Ước lượng điểm cho sai số chuẩn của b
1
là : se(b
1
)
Ước lượng điểm cho sai số chuẩn của b
2
là : se(b
2
)
………………………………………………...........
Ước lượng điểm cho sai số chuẩn của b
k
là : se(b
k
)
Câu lệnh tìm khoảng tin cậy cho các hệ số hồi quy B1 và
B
i
(với i= 2, 3 ,…, k) là:
confint(lm(Y~X
2
+X
3
+..+X
k
),level=0. )
VD3: Sử dụng File “DTQCTL.csv”y:
a. Tìm các e
i
, Y và ước lượng điểm cho sai số chuẩn của b
1
và b
i
trong mô hình hồi quy mẫu.
b. Tìm khoảng tin cậy 95% cho hệ số chặn cho hệ số góc của hình hồi quy tuyến tính tổng thể
của Doanh thu theo số tiền chi cho quảng cáo và tiền lương nhân viên. Nêu ý nghĩa của các khoảng
tin cậy đó?
4) Bài toán kiểm định đồng thời (kiểm định mô hình hồi quy tuyến tính tổng thể k biến có ý nghĩa
thống kê hay không?)
Trong đó: Y là tên biến phụ thuộc
X
2
, X
3
, X
k
là tên các biến độc lập
Nhìn vào chỗ ghi Std. Error
rồi chép kết quả ra
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
10
Xét mô hình hồi quy tuyến tính tổng thể k biến: Y
i
= B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
+ U
i
Bài toán kiểm định đồng thời (hay kiểm định 1 mô hình hồi quy đa biến ý nghĩa thống hay
không?) thì ta tiến hành kiểm định cặp giả thuyết sau:
H
0
: B
2
= B
3
= … = B
k
= 0 (Mô hình không có ý nghĩa thống kê)
H
1
: Tồn tại B
i
0, với i = 2, 3 ,…, k (Mô hình có ý nghĩa thống kê) Đưa
ra quyết định bác bỏ hay chấp nhận H
0
có 2 cách:
Cách 1: Dựa vào giá trị thống kê và giá trị tới hạn
Giá trị thống kê (F) chính là F-statistic trên câu lệnh summary(lm(Y~X
2
+X
3
+..+X
k
))
Giá trị tới hạn F
k-1,n-k,
tuân theo phân phối Fisher với k-1 bậc tdo ở tn-k bậc tự do mẫu
tại mức ý nghĩa . Ở đó: k là số lượng biến của hình hồi quy, n là cỡ mẫu (Số quan sát). Trên
phần mềm thì F
k-1,n-k,
= qf(1 ,k 1,n k)
Bác bỏ H0 nếu F > Fk-1,n-k,
VD4: Sử dụng File “DTQCTL.csv” y kiểm định tại mức ý nghĩa = 5% xem mô hình:
Yi = B
1
+ B
2
X
2
+ B
3
X
3
+ Ui có ý nghĩa thống kê hay không? > summary(lm(Y~X2+X3))
Call:
lm(formula = Y ~ X2 + X3) Residuals:
Min 1Q Median 3Q Max -5.5539 -2.5820 -0.8581
1.8086 7.0210 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 32.2773 6.2531 5.162 0.000594 ***
X2 2.5057 0.3286 7.626 3.24e-05 ***
X3 4.7587 0.4104 11.596 1.03e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.003 on 9 degrees of freedom
Multiple R-squared: 0.9757, Adjusted R-squared: 0.9702
F-statistic: 180.4 on 2 and 9 DF, p-value: 5.479e-08
Cách 2: Dựa vào p-giá trị để làm bài toán kiểm định đồng thời:
p-giá trị chính là p-value trong câu lệnh summary(lm(Y~X
2
+X
3
+..+X
k
)) p-giá
trị < => Bác bỏ H
0
=> Mô hình có ý nghĩa thống kê.
p-giá trị > => Chấp nhận H
0
=> Mô hình không có ý nghĩa thống kê.
VD4: Sử dụng File “DTQCTL.csv” y kiểm định tại mức ý nghĩa = 5% xem mô hình:
Yi = B
1
+ B
2
X
2
+ B
3
X
3
+ Ui có ý nghĩa thống kê hay không?
Có p-giá trị = 5.479e-08 = 5.479 10
-8
< = 5% = 0.05 => Bác bỏ H
0
=> Mô hình có ý nghĩa thống
kê.
5) Kiểm định giả thuyết về hệ số hồi quy riêng (đánh giá riêng cho từng hệ số)
Có mô hình hồi quy tuyến tính tổng thể k biến sau: Y
i
= B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
+ U
i
Kiểm
định cho hệ số hồi quy (B
i
) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H
0
: B
i
B
i
* H
0
: B
i
B
i
* H
0
: B
i
= B
i
* H
1
:
B
i
> B
i
* H
1
: B
i
< B
i
* H
1
: B
i
B
i
*
LƯU Ý:
Trong H
0
luôn 1 dấu “=”, trong H
1
không bao giờ có dấu “=”
B
i
* đề bài sẽ cho sẵn
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H
0
Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H
0
P giá trị
H
0
: B
i
B
i
* t = t
n-k,
= qt(1 ,n k) t > t
n-k,
Bác bỏ hay chấp nhận H
0
qua
H
1
: B
i
> B
i
* n là cỡ mẫu p-giá trị (chỉ đúng khi đó là
Có F = 180,4.
Và: F
k-1,n-k,
= qf(0.95,2,9) = 4.256495
Do F > F
k-1,n-k,
nên bác bỏ H
0
=> Mô hình
có ý nghĩa thống kê.
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
11
Lệch phải k
mô hình hồi quy
là số lượng biến trong
bài toán hai bên và B
Tức là dùng p-giá
trị để kiểmđịnh thì chỉ đúng duy nhất với
i
* = 0).
là mức ý nghĩa cặp giả thuyết thống kê sau:
H
0
: B
i
B
i
* t = t
n-k,
= qt(1 ,n k) t < t
n-k,
H
0
: B
i
= 0
H
1
: B
i
< B
i
* H
1
: B
i
0
Lệch trái p-giá trị < => bác bỏ H
0
H
0
: B
i
= B
i
* t = t
n-k, /2
= qt(1 /2,n k) |t| > t
n-k, /2
p-giá trị > => Chấp nhận H
0
Kiểm định ý nghĩa thống kê
Để kiểm định ý nghĩa thống kê thì chỉ cần cho các hệ số hồi quy riêng là B
i
0 (Với i = 2, 3 ,…, k)
VD5: Xét mô hình hồi quy bội tổng thể: Yi = B
1
+ B
2
X
2
+ B
3
X
3
+ Ui. Với Y là doanh thu, X
2
là tiền chi
cho quảng cáo, X
3
là tiền lương cho nhân viên. Sử dụng File “DTQCTL.csv”
a. Tại mức ý nghĩa = 5%, hãy kiểm định xem biến tiền chi cho quảng cáo ý nghĩa trong mô hình
hồi quy không?
b. Tại mức ý nghĩa = 5%, hãy kiểm định xem biến tiền lương nhân viên ảnh hưởng đến doanh
thu không?
LƯU Ý: Để làm bài toán kiểm định ý nghĩa thống cho từng hệ số hồi quy riêng (các bài toán kiểm
định hai bên và các hệ số B
i
* = 0) thì ta dùng luôn lệnh summary(lm(Y~X
2
+X
3
+..+X
k
)).
Kiểm định ý nghĩa kinh tế
Đó ta phải xét đến mối quan hệ đồng biến hay nghịch biến giữa các X
2
với Y; X
3
với Y X
k
với Y.
Tức là ta kỳ vọng về dấu của B
2
, B
3
và B
k
như thế nào trong mô hình hồi quy (là + hay )
=> Vậy kiểm định ý nghĩa kinh tế là các bài toán kiểm định hệ số hồi quy riêng lệch phải hoặc lệnh trái
(không phải là kiểm định hai bên như kiểm định ý nghĩa thống kê)
LƯU Ý: Để làm các bài toán kiểm định mà không phải là bài toán hai bên và các hệ số hồi quy
B
i
* 0 thì ta không dùng lệnh summary(lm(Y~X
2
+X
3
+..+X
k
)) để làm luôn mà dùng lệnh sau:
summary(glht(mh,A,B
i
*,alt=“”)) Trong đó:
mh=lm(Y~X
2
+X
3
+…+X
k
)
A=matrix(c(số của hệ sB
1
,số của hệ số B
2
,…,số của hệ số B
k
),nrow=1) B
i
* đề bài sẽ cho
sẵn
alt=“g” nếu bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu i toán 2 bên
Tuy nhiên muốn sử dụng lệnh trên thì trước tiên trên phần mềm R phải gói lệnh
library(multcomp) để hỗ trợ.
VD6: Xét mô hình hồi quy bội tổng thể: Yi = B
1
+ B
2
X
2
+ B
3
X
3
+ Ui. Sử dụng File “DTQCTL.csv” hãy
kiểm định xem biến tiền lương và tiền chi cho quảng cáo có ý nghĩa kinh tế không?
KIỂM ĐỊNH GIẢ THUYẾT VỀ MỘT RÀNG BUỘC GIỮA CÁC HỆ SỐ HỒI QUY
hình hồi quy tuyến tính tổng thể k biến sau: Y
i
= B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
+ U
i
Kiểm định giả thuyết về một ràng buộc giữa các hệ số hồi quy thì thể rơi vào một trong ba
cặp giả thuyết thống kê sau:
H
0
: B
i
+ B
j
H
0
: B
i
+ B
j
H
0
: B
i
+ B
j
=
H
1
:
B
i
B
i
*
Hai bên
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
12
H
1
: B
i
+ B
j
> H
1
: B
i
+ B
j
< H
1
: B
i
+ B
j
VD: Kiểm định giả thuyết B
2
+ B
3
= 0 chính là bài toán 2 bên với: =1, = 1, = 0.
VD: Kiểm định giả thuyết 2B
2
+ 3B
3
= 10 chính là bài toán 2 bên với: =2, = 3, = 10.
Cách tìm ra se( b
i
+ b
j
) như sau: se( b
i
+ b
j
) =
=> Cần phải tìm được cov(b
i
b
j
) cov(b
i
b
j
) nằm ở trong một ma trận mà ma trận này
được tính bằng công thức:
2
(BA)
1
Trong đó:
2
là: chính là giá trị Residual standard error được mũ 2 lên ở trong câu lệnh:
summary(lm(Y~X
2
+X
3
+…+X
k
)). Ta lưu kết quả này trên 1 véc tơ tên là s.mu2 =
. Sau đó thì lưu luôn kết quả của b
i
, b
j
, se(b
i
),se(b
j
) trên máy như sau: bi lưu kết quả b
i
(VD: trong
câu lệnh summary(lm(Y~X
2
+X
3
+…+X
k
)) có b
2
= 0.365 thì trên phần mềm ta lưu là b2=0.365); bj là lưu
kết quả bj; sebi lưu kết quả của se(b
i
); sebj lưu kết quả của se(b
j
) (BA)
1
được thành lập trên phần mềm
như sau:
Tạo ra ma trận A bằng câu lệnh: A=matrix(c(rep(1,n),X
2
,X
3
,…,X
k
),ncol=k)
Trong đó: n là cỡ mẫu, k số lượng biến trong hình hồi quy (bao
gồm cả biến phụ thuộc và biến độc lập)
B là chuyển vị của ma trận A: trên phần mềm đánh là t(A) (lưu ý không cần tạo biến B. Tức là xong
câu lệnh ở dấu + đầu tiên là làm đến câu lệnh ở dấu + thứ 3 luôn)
Tạo tích BA bằng cách: BA=t(A)%*%A
Tạo tích BA
-1
(ma trận nghịch đảo của BA) bằng cách: BA.nd=solve(BA)
Sau đó chúng ta sẽ tìm ra cov(b
i
b
j
) nằm ở trong một ma trận ma trận này được tính bằng công thức:
2
(BA)
1
= s.mu2*BA.nd
VD: Giả sử ta cần tìm cov(b
2
b
3
) mà có kết quả trên phần mềm như sau: >
s.mu2*BA.nd
[,1] [,2] [,3]
[1,] 382.37028620 -0.036451519 -0.149088680
[2,] -0.03645152 0.001063347 -0.001552425
[3,] -0.14908868 -0.001552425 0.002383957
Thì khi đó cov(b
2
b
3
) = -0.001552425.
Khi đó ta sẽ lưu lại bằng 1 véc tơ là: cov.b2b3=-0.001552425
VD: Giả sử ta cần tìm cov(b
2
b
4
) hoặc cov(b
3
b
4
) có kết quả trên phần mềm như sau: >
s.mu2*BA.nd
[,1] [,2] [,3] [,4]
Bài toán
Giá trị thống kê
Giá trị tới hạn
Bác bỏ H
0
H
0
:
B
i
+
B
j
H
1
:
B
i
+
B
j
>
Lệch phải
t =
t
n-k,
=
qt(1
,n
k)
n
là cỡ mẫu
k
là số lượng biến trong
mô hình hồi quy
là mức ý nghĩa
t > t
n-k,
H
0
:
B
i
+
B
j
t =
t
n-k,
=
qt(1
,n
k)
t <
t
n-k,
H
1
:
B
i
+
B
j
<
Lệch trái
H
0
:
B
i
+
B
j
=
H
1
:
B
i
+
B
j
Hai bên
t
t =
n-k,
/2
=
qt(1
/2,n
k)
|t| > t
n-k,
/2
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
13
[1,] 0.2005680 -0.24075002 0.022741302 0.3657892
[2,] -0.2407500 0.29179997 -0.029656026 0.8456213
[3,] 0.0227413 -0.02965603 0.005396357 0.56975569
[4,] 0.3657892 0.8456213 0.569755696 0.3658114
Đến đây là ta lại tiếp tục đi tìm se( b
i
+ b
j
)
MÀ: se( b
i
+ b
j
) = . Trên phần mềm gõ như sau:
se=sqrt( ^2*sebi^2+ ^2*sebj^2+2* * *cov.bibj) Trong đó:
sebi lưu kết quả của se(b
i
); sebj lưu kết quả của se(b
j
); cov.bibj lưu kết quả của cov(b
i
b
j
)
Tiếp tục tìm giá trị thống kê t bằng câu lệnh: t=( *bi+ *bj )/se
Tiếp đến là tính nốt các giá trị tới hạn của các dạng bài toán lệch phải, lệch trái hay hai bên (tùy vào đề
bài) để so sánh với giá trị thống kê t để đưa ra kết luận bác bỏ hay chấp nhận H
0
.
Tuy nhiên đó cách làm bằng tay còn trên phần mềm R để cho nhanh thì chúng ta dùng câu lệnh sau
để làm cho nhanh:
summary(glht(mh,A, ,alt=“”)) Trong đó:
mh=lm(Y~X
2
+X
3
+…+X
k
)
A=matrix(c(số của hệ số B
1
,số của hệ số B
2
,…,số của hệ số B
k
),nrow=1)
đề bài sẽ cho sẵn
alt=“g” nếu là bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu bài toán 2 bên
VD7: Xét mô hình hồi quy bội tổng thể: Yi = B
1
+ B
2
X
2
+ B
3
X
3
+ Ui. Sử dụng File “DTQCTL.csv”
hãy làm những câu hỏi sau:
a. Tại = 5%, kiểm định xem khi số tiền chi cho quảng cáo tăng lên 2 đơn vị, tiền lương trả cho nhân
viên tăng lên 3 đơn vị thì doanh thu của công ty đó tăng lên 20 đơn vị?
b. Tại = 5%, kiểm định xem phải tiền lương trả cho nhân viên ảnh hưởng nhiều hơn đến doanh
thu của công ty đó so với số tiền chi cho quảng cáo?
6) Bài toán dự báo
Cho mô hình hồi quy tổng thể sau: Y
i
= B
1
+ B
2
X
2i
+B
3
X
3i
+ …+ B
k
X
ki
+ U
i
Tìm điểm dự báo (dự đoán) cho Y và ước lượng điểm cho trung bình Y là dùng cùng 1 câu lệnh:
predict(lm(Y~X
2
+X
3
+…+X
k
),new=data.frame(X
2
= ,X
3
= ,…,X
k
= ))
Tìm khoảng dự báo cho Y dùng câu lệnh:
predict(lm(Y~X
2
+X
3
+…+X
k
),new=data.frame(X
2
= ,X
3
= ,…,X
k
= ),interval=“p”,level= )
Tìm khoảng tin cậy cho giá trị trung bình Y dùng câu lệnh:
predict(lm(Y~X
2
+X
3
+…+X
k
),new=data.frame(X
2
= ,X
3
= ,…,X
k
= ),interval=“c”,level= )
Trong đó: Y là tên biến phụ thuộc; X
2
, X
3
,…, X
k
là tên các biến độc lập.
VD8: Sử dụng File “DTQCTL.csv” hãy làm các yêu cầu sau:
a. Một công ty tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy dự đoán doanh
thu của công ty đó.
b. Xét tất cả các công ty có tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy tìm một
ước lượng điểm cho tiền doanh thu trung bình của tất cả các công ty ấy.
c. Một công ty có tiền chi cho quảng cáo 20, tiền trả lương cho nhân viên 13, hãy tìm khoảng dự
báo 90% cho doanh thu của công ty đó.
d. Xét tất cả các công ty tiền chi cho quảng cáo 20, tiền trả lương cho nhân viên 13, hãy m
khoảng tin cậy 99% cho tiền doanh thu trung bình của tất cả các công ty ấy.
VD9: Cho biết Y lượng cam bán được (tấn/tháng), X
2
giá cam (ngàn đồng/kg), X
3
giá quýt (ngàn
đồng/kg). Dữ liệu trong File CamQuyt.csv. Xét mô hình hồi quy tổng thể: Y = B
1
+ B
2
X
2
+B
3
X
3
+U
1. Hãy xác định SRF. Nêu ý nghĩa kinh tế của các hệ số hồi quy riêng trong SRF.
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
14
2. Thực hiện bài toán kiểm định sự có ý nghĩa thống kê của mô hình tại = 5%.
3. Thực hiện bài toán kiểm định sự ý nghĩa thống kê cho từng biến độc lập trong mô hình tại = 5%.
4. Từ dấu của các hệ số hồi quy riêng trong phương trình hồi quy mẫu hãy nhận xét xem:
a. Hàng hóa cam có thỏa mãn luật cầu không?
b. Hai hàng hóa cam, quýt là hàng hóa cạnh tranh thay thế hay bổ sung?
5. Thực hiện các bài toán kiểm định cho câu trả lời trong ý trên (dùng mức ý nghĩa 5%)
6. Xác định khoảng tin cậy 99% cho B
2
và B
3
.
7. Biến giá quýt có ảnh hưởng đến lượng cam bán được tại = 5% không?.
8. người nói rằng khi giá cam tăng lên 1 ngàn đồng/kg, giá quýt không đổi thì lượng cam bán
đượctrung bình giảm 1 tấn/tháng. Hãy kiểm định giả thuyết trên tại = 5%.
9. Có người nói rằng khi giá cam tăng lên 1 ngàn đồng/kg, giá quýt không đổi thì lượng cam bán được
trung bình giảm 2 tấn/tháng. Hãy kiểm định giả thuyết trên tại = 5%
10. Nếu giá cam 5 ngàn đồng/kg, giá quýt 6 ngàn đồng/kg, hãy m khoảng tin cậy 90% cho lượngcam
bán được trung bình và khoảng dự báo 95% cho lượng cam bán được khi đó.
11. Kiểm định giả thuyết B
2
+ B
3
= 0, dùng mức ý nghĩa 5%. Nêu ý nghĩa của kết luận.
12. Kiểm định giả thuyết: Khi giá cam tăng lên 2 ngàn đồng/kg, giá quýt tăng lên 1 ngàn đồng/kg thìlượng
cam bán được giảm tại = 5%
VD10: File CWP.csv chứa dữ liệu về chi tiêu thực cho tiêu dùng (C tính bằng tỉ đô la năm 1992), thu
nhập thực từ lương (W, tính bằng tỉ đô la năm 1992) thu nhập thực từ các nguồn khác (P tính bằng tỉ
đô la năm 1992). Xét phương trình: C = B1 + B2W + B3P + U
1. Kiểm định sự có ý nghĩa thống kê của mô hình (dùng mức ý nghĩa 5%).
2. Viết phương trình hồi quy mẫu. Nêu ý nghĩa của ước lượng cho B
2
.
3. Tìm khoảng tin cậy 90% cho B
2
.
4. Tìm khoảng tin cậy 99% cho tiêu dùng khi thu nhập thực từ lương là 1800 tỉ đô la và thu nhậpthực từ
các nguồn khác là 1300 tỉ đô la.
5. Kiểm định giả thuyết: lương và thu nhập từ các nguồn khácảnh hưởng như nhau đối với tiêudùng.
Dùng mức ý nghĩa 5%.
6. Kiểm định giả thuyết: Thu nhập từ lương ảnh hưởng đến tiêu dùng nhiều hơn
7. Kiểm định giả thuyết: Khi thu nhập từ lương thu nhập từ các nguồn khác cùng tăng lên 1 tỉ đôla
thì tiêu dùng tăng lên 1.5 tỉ đô la. Dùng mức ý nghĩa 5%
8. Kiểm định giả thuyết: Khi thu nhập từ lương thu nhập từ các nguồn khác cùng tăng lên 1 tỉ đôla
thì tiêu dùng tăng lên 1 tỉ đô la. Dùng mức ý nghĩa 5%
VD11: Cho Y-thu nhập/đầu người (USD), X
2
tỷ l phầm trăm lao động nông nghip,
X
3
số năm được đào tạo trung bình ca những người trên 25 tui. S liu cha trong File LaoDong.txt.
Xét mô hình hi quy tng th: E(Y/X
2
,X
3
) = B
1
+ B
2
X
2
+ B3X3.
1. Tìm phương trình hồi quy mẫu SRF.
2. Hãy kiểm định các giả thuyết hệ số hồi quy riêng trong mô hình hồi quy tổng thể bằng 0. Nêu ýnghĩa
rút ra từ các kết luận của các kiểm định đó.
3. Tìm khoảng tin cậy 95% cho các hệ số hồi quy của mô hình hồi quy tổng thể.
4. Tìm hệ số xác định và hệ số xác định đã hiệu chỉnh.
5. Ta có thể cho rằng cả hai yếu tố tỷ lệ lao động nông nghiệp số năm đào tạo trung bình đềukhông
ảnh hưởng đến thu nhập theo đầu người tại mức ý nghĩa 5% không?
VD12: File DS.txt chứa số liệu được thu thập trong 20 tuần khác nhau về số lượng sản phẩm bán được
trong một tuần (Q), giá sản phẩm (P: đơn vị tính 1000 đồng) chi pcho quảng cáo trong một tuần
(AD: đơn vị tính 100.000 đồng) của một công ty sản xuất bánh kẹo.
lOMoARcPSD|40615597
ĐẶNG ANH QUÂN A20115 Số điện thoại: 0969 887 865
15
1. Ông giám đốc công ty muốn biết: “Nếu giữ nguyên chi phí quảng cáo giảm giá bán 1000 đồng
cho một sản phẩm thì thể hy vọng số lượng sản phẩm trung bình bán được trong một tuần tăng
lên bao nhiêu?Bạn y viết hình hồi quy tổng thể bạn cho là phợp đtrả lời được u
hỏi của ông giám đốc
2. Kiểm định sự có ý nghĩa thống kê của mô hình mà bạn đưa ra (dùng mức ý nghĩa 5%)
3. Viết mô hình hồi quy mẫu và trả lời câu hỏi của ông giám đốc
VD13: File NhuCauXeBus.csv cho biết dữ liệu về mức độ giao thông bằng xe bus (Y nghìn lượt
khách/giờ), thu nhập bình quân đầu người (X
2
USD), dân số (X
3
nghìn người), mật độ dân số (X
4
người/dặm vuông) của 40 thành phố của Mỹ. Xét mô hình: Y = B
1
+ B
2
X
2
+ B
3
X
3
+ B
4
X
4
+U
1. Kiểm định ý nghĩa thống kê của mô hình, dùng mức ý nghĩa 5%.
2. Kiểm định sự có ý nghĩa thống kê trong mô hình của từng biến X
2
, X
3
, X
4
tại = 5%.
3. Tìm hệ số xác định và hệ số xác định hiệu chỉnh của mô hình.
4. Viết mô hình hồi quy mẫu. Nêu ý nghĩa của hệ số hồi quy riêng trong mô hình hồi quy mẫu.
5. Kiểm định xem dịch vụ xe bus phải hàng hóa thứ cấp không (tức khi thu nhập tăng thì lượng
cầu giảm)? Dùng mức ý nghĩa 5%
| 1/15

Preview text:

lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865 KINH TẾ LƯỢNG
PHẦN MỞ ĐẦU. CÁC KHÁI NIỆM CƠ BẢN
1) Cách nhập dữ liệu từ các file đã có sẵn vào R
Bước 1: Khai báo đường dẫn trên R
Làm như sau: Trên Rstudio: Nhìn vào khung cửa sổ ở góc màn hình bên dưới tay phải chọn tab Files
=> kích chuột vào => sau đó chọn ổ chứa dữ liệu thực hành rồi cứ thế chọn cho đến khi ra thư mục
chứa dữ liệu thực hành. Tiếp đến kích chuột chọn More => chọn Set As Working Directory (và thấy
hiện lên dòng setwd(“…”) là thành công)
Bước 2: Gõ câu lệnh cho từng kiểu file khác nhau Kiểu File Câu lệnh rda
Đặt 1 tên bất kỳ=load(“tên file.rda”) csv Đặt 1 tên bất
kỳ=read.csv(“tên file.csv”) txt
Đặt 1 tên bất kỳ=read.table(“tên flie.txt”,header=T)
Ngoài ra còn 1 file nữa có đuôi là .xls (excel) thì: đầu tiên phải đổi file .xls thành file csv (CSV (Comma
delimited)) (Cách làm: Vào hẳn thư mục dữ liệu thực hành chứa file .xls đó rồi kích chuột mở file đó
ra chọn tab File => Chọn Save As => Vào phần Save as type để chọn đuôi CSV (Comma delimited)
=> kích chuột vào Save (ở phần Tool) => Yes. Sau đó để lấy dữ liệu vào R thì đánh câu lệnh giống hệt
như với đuôi .csv: read.csv(“tên file.csv”) VD1: Lấy các file sau vào R:
File “NangSuat.rda” > ns=load("NangSuat.rda") > ns [1] "pstd7" > pstd7 File “ChiPhi.csv”
> cp=read.csv("ChiPhi.csv") > cp
File “ThucPham.txt”
> tp=read.table("ThucPham.txt",header=T) > tp
File “ChiSoGiaVaKQSX.xls”. Đầu tiên thì vào thư mục chứa file rồi đổi đuôi sau đó thì:
> cs=read.csv("ChiSoGiaVaKQSX.csv") > cs
2) Các khái niệm về hồi quy:
Phân tích hồi quy: là nghiên cứu mối liên hệ phụ thuộc của một biến vào một hay nhiều biến khác.
VD2: a. Nghiên cứu sự phụ thuộc của chi tiêu vào thu nhập.
Khi đó: Chi tiêu là biến phụ thuộc (hay còn gọi là biến được giải thích), còn thu nhập là biến độc lập
(hay còn gọi là biến giải thích).
VD2: b. Nghiên cứu sự phụ thuộc của tiền lương vào giới tính và số năm kinh nghiệm.
Khi đó: Tiền lương là biến phụ thuộc (biến được giải thích), còn giới tính và số năm kinh nghiệm là
biến độc lập (biến giải thích).
Mô hình hồi quy tổng thể:
Cho Y là biến phụ thuộc vào các đại lượng X
, …, X . Mô hình hồi quy tổng thể (PRF) là: 1, X2 n E(Y/ X , …, X , …, X 1, X2 n) = f (X1, X2 n) Y , …, X , …, X i = E(Y/ X1i, X2i ni) + Ui = f (X1i, X2i
ni) + Ui (Ui : Gọi là sai số ngẫu nhiên)
Căn cứ vào số lượng biến trong mô hình hồi quy thì có 2 loại: 1 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
Mô hình hồi quy 2 biến: là mô hình chỉ có một biến độc lập. (VD2a)
Mô hình hồi quy đa biến (bội): là mô hình có từ 2 biến độc lập trở lên. (VD2b)
Căn cứ vào dạng hàm f trong mô hình hồi quy thì có 2 loại:
Mô hình hồi quy tuyến tính: là mô hình có hàm f là hàm tuyến tính.
Mô hình hồi quy phi tuyến: là mô hình có hàm f không phải là hàm tuyến tính. VD: Y = B
X + U là mô hình hồi quy tuyến tính. 1 + B2
Y = A + U (với B khác 1) là mô hình hồi quy phi tuyến.
Mô hình hồi quy mẫu:
Cho Y là biến phụ thuộc vào các đại lượng X
, …, X . Mô hình hồi quy mẫu (PRF) là: 1, X2 n Y , …, X i = Y + ei = f (X1i, X2i ni) + ei
Y là: một ước lượng cho E(Y/ X , …, X 1, X2 n)
f là: một ước lượng cho f
e là: một ước lượng cho Ui
PHẦN 1. MÔ HÌNH HỒI QUY TUYẾN TÍNH HAI BIẾN 1) Định nghĩa
Mô hình hồi quy tuyến tính tổng thể hai biến (PRF) của Y theo X là: E(Y/ Xi) = B1 + B2Xi Yi = B1 + B2Xi + Ui Trong đó:
E(Y/ Xi) là: Với mỗi giá trị của X có duy nhất một giá trị trung bình của Y.
B1 : được gọi là hệ số chặn (tung độ gốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X = 0 thì
giá trị trung bình của Y là B1.
B2 :được gọi là hệ số góc (độ dốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X tăng thêm 1 đơn
vị thì giá trị trung bình của Y thay đổi xấp xỉ B2 đơn vị.
Ui : được gọi là sai số ngẫu nhiên (đại diện cho các yếu tố khác ảnh hưởng đến Y ngoài X)
Mô hình hồi quy tuyến tính mẫu hai biến (SRF) của Y theo X là: Y = b1 + b2Xi Yi = b1 + b2Xi + ei = Y + ei
Y là: một ước lượng cho E(Y/ Xi) e một ước lượng cho U i là:
i (e được gọi là phần dư) b
, ta gọi là hệ số chặn (tung độ gốc) của đường hồi quy mẫu.
1 là một ước lượng điểm cho B1
Ý nghĩa: Khi X = 0 thì giá trị trung bình của Y là b1. b
, ta gọi là hệ số góc (độ dốc) của đường hồi quy mẫu.
2 là một ước lượng điểm cho B2
Ý nghĩa: Khi X tăng thêm 1 đơn vị thì giá trị trung bình của Y thay đổi xấp xỉ b2 đơn vị.
2) Hệ số tương quan tuyến tính và vẽ biểu đồ tán xạ của Y theo X
Hệ số tương quan tuyến tính là : đại lượng đo lường mối quan hệ tuyến tính giữa 2 biến ngẫu nhiên.
Hệ số tương quan tuyến tính tổng thể giữa hai biến ngẫu nhiên X và Y ký hiệu là .
(Y là đại diện cho biến phụ thuộc còn X là đại diện cho biến độc lập)
Giá trị của như sau: 1 1
TH1: = 1 thì ta nói X và Y có mối quan hệ tuyến tính hoàn toàn âm. 2 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
TH2: 1 < < 0 thì ta nói X và Y có mối quan hệ tuyến tính âm.
TH3: = 0 thì ta nói X và Y không có quan hệ tuyến tính.
TH4: 0 < < 1 thì ta nói X và Y có mối quan hệ tuyến tính dương.
TH5: = 1 thì ta nói X và Y có mối quan hệ tuyến tính hoàn toàn dương.
LƯU Ý : càng gần 1 thì quan hệ tuyến tính càng dương mạnh; càng gần 1 thì quan hệ tuyến tính càng
âm mạnh; càng gần 0 thì quan hệ tuyến tính càng yếu.
Hệ số tương quan tuyến tính mẫu: được ký hiệu là r. r cũng tương tự . r càng gần 1 thì quan hệ
tuyến tính càng dương mạnh; r càng gần 1 thì quan hệ tuyến tính càng âm mạnh; r càng gần 0 thì quan
hệ tuyến tính càng yếu.
Trên phần mềm R thì ta tính Hệ số tương quan tuyến tính mẫu bằng câu lệnh: cor(X,Y)
Vẽ biểu đồ tán xạ của Y theo X thì trên R có 2 cách:
Cách 1: plot(X,Y) hoặc Cách 2: plot(Y~X)
Nhận xét: Nhìn vào biểu đồ tán xạ ta Nhậ
n xét: Nhìn vào biểu đồ tán xạ ta thấy
thấy Y phụ thuộc vào X theo dạ Y ng
phụ thuộc vào X theo dạng đường thẳng,
đường thẳng, mối quan hệ là đồng biến mối
quan hệ là nghịch biến
VD1: Dựa vào File “TLVaNSLD.csv” hãy:
a. Vẽ biểu đồ tán xạ của TienLuong (Y) theo NangSuat (X). Nhận xét.
b. Đánh giá mối quan hệ tuyến tính của TienLuong và NangSuat qua hệ số tương quan tuyến tính.
VD2: Dựa vào File “CVaG.csv” hãy:
a. Vẽ biểu đồ tán xạ của Cau theo Gia. Nhận xét.
b. Đánh giá mối quan hệ tuyến tính của Cau và Gia qua hệ số tương quan tuyến tính.
3) Ước lượng mô hình hồi quy mẫu theo phương pháp bình phương cực tiểu thông thường (OLS)
Để tìm được mô hình hồi quy tuyến tính mẫu thì cần tìm được b1 (ước lượng điểm của B1) và b2 (ước lượng điểm của B2).
Câu lệnh để ước lượng điểm cho các hệ số B1 và B2 là: lm(Y~X) VD3: Dựa vào File
“TLVaNSLD.csv” hãy:
a. Viết mô hình hồi quy tuyến tính tổng thể của Tien Luong (Y) theo Nang Suat (X)
b. Hãy viết mô hình hồi quy tuyến tính mẫu của Tien Luong theo Nang Suat. Nêu ý nghĩa của cáchệ
số trên đường hồi quy mẫu.
VD4: Dựa vào File “CVaG.csv” hãy:
a. Viết mô hình hồi quy tuyến tính tổng thể của Cau theo Gia
b. Hãy viết mô hình hồi quy tuyến tính mẫu của Cau theo Gia. Nêu ý nghĩa của các hệ số
trênđường hồi quy mẫu.
Câu lệnh vẽ đường hồi quy mẫu vào biểu đồ tán xạ của Y theo X là : abline(lm(Y~X))
Câu lệnh tìm phần dư (các ei) là : e=resid(lm(Y~X))
Câu lệnh tìm Y là: Ymu=fitted(lm(Y~X)) 3 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
Câu lệnh để ước lượng điểm cho sai số chuẩn của b1 và b2 là: summary(lm(Y~X))
Nhìn vào chỗ ghi Std. Error rồi chép kết quả ra
Ước lượng điểm cho sai số chuẩn của b1 là : se(b1)
Ước lượng điểm cho sai số chuẩn của b2 là : se(b2)
VD5: Tìm ước lượng điểm cho sai số chuẩn của b
trong mô hình hồi quy mẫu của TienLuong theo 1 và b2
NangSuat qua File “TLVaNSLD.csv”.
> summary(lm(TienLuong~NangSuat)) Call:
lm(formula = TienLuong ~ NangSuat) Residuals: Min 1Q Median 3Q Max -4.7346 -1.9615 0.1364 1.9502 3.7977 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.24884 1.61729 17.47 <2e-16 ***
NangSuat 0.71879 0.01944 36.98 <2e-16 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.339 on 40 degrees of freedom
Multiple R-squared: 0.9716, Adjusted R-squared: 0.9709
F-statistic: 1367 on 1 and 40 DF, p-value: < 2.2e-16
Ước lượng điểm cho sai số chuẩn của b1 là : se(b1) = 1.61729
Ước lượng điểm cho sai số chuẩn của b2 là : se(b2) = 0.01944
Câu lệnh tìm khoảng tin cậy cho các hệ số hồi quy B1 và B2 là: confint(lm(Y~X),level=0. )
VD6: Tìm khoảng tin cậy 90% cho hệ số chặn và cho hệ số góc của mô hình hồi quy tuyến tính
tổng thể TienLuong theo NangSuat. Nêu ý nghĩa của các khoảng tin cậy đó?
> confint(lm(TienLuong~NangSuat),level=0.9) 5 % 95 %
(Intercept) 25.5255581 30.9721154 NangSuat 0.6860595 0.7515242
Khoảng tin cậy 90% cho B1 = (25.5255581 ; 30.9721154)
Khoảng tin cậy 90% cho B2 = (0.6860595 ; 0.7515242)
Ý nghĩa của khoảng tin cậy B1 là: Với khoảng tin cậy 90%, khi NangSuat = 0 thì TienLuong trung bình
nhiều nhất là và ít nhất là
Ý nghĩa của khoảng tin cậy B2 là: Với khoảng tin cậy 90%, khi NangSuat tăng thêm 1 đơn vị thì
TienLuong trung bình tăng lên nhiều nhất là đơn vị và tăng lên ít nhất là
VD7: a. Dựa vào File “CVaG.csv” hãy: Tìm ước lượng điểm cho sai số chuẩn của b1 và b2 trong mô
hình hồi quy mẫu của Cau theo Gia.
b.Tìm khoảng tin cậy 95% cho hệ số chặn và cho hệ số góc của mô hình hồi quy tuyến tính tổng thể
Cau theo Gia. Nêu ý nghĩa của các khoảng tin cậy đó?
4) Kiểm định giả thuyết về hệ số hồi quy
Có mô hình hồi quy tuyến tính tổng thể 2 biến sau: Yi = B1 + B2Xi + Ui
Kiểm định cho hệ số chặn (B1) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H0: B1 B1* H0: B1 B1* H0: B1 = B1*
H1: B1 > B1* H1: B1 < B1* H1: B1 B1* Lệch phải Lệch trái Hai bên 4 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865 LƯU Ý:
Trong H0 luôn có 1 dấu “=”, trong H1 không bao giờ có dấu “=”
B * đề bài sẽ cho sẵn. 1
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H0 Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H0 p – giá trị H0: B1 B1* t = tn-2, = qt(1 ,n 2) t > tn-2,
Bác bỏ hay chấp nhận H0 qua H1: B1 > B1* n là cỡ mẫu
p-giá trị (chỉ đúng khi đó là Lệch phải
là mức ý nghĩa bài toán hai bên và BTức là dùng p-giá trị để kiểm1* = 0). H0: B1 B1* t = tn-2, = qt(1 ,n 2) t < tn-2,
định thì chỉ đúng duy nhất với H1: B1 < B1*
cặp giả thuyết thống kê sau: Lệch trái H0: B1 = 0 H0: B1 = B1* t = tn-2, /2 = qt(1 /2,n 2) |t| > tn-2, /2 H1: B1 0 H1: B1 B1*
p-giá trị < => bác bỏ H0 Hai bên
p-giá trị > => Chấp nhận H0
Kiểm định cho hệ số góc (B2) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H0: B2 B2* H0: B1 B2* H0: B2 = B2* H1:
B2 > B2* H1: B1 < B2* H1: B2 B2*
LƯU Ý: B * đề bài sẽ cho sẵn. 2
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H0 Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H0 p – giá trị H0: B2 B2* t = tn-2, = qt(1 ,n 2) t > tn-2,
Bác bỏ hay chấp nhận H0 qua H1: B2 > B2* n là cỡ mẫu
p-giá trị (chỉ đúng khi đó là Lệch phải
là mức ý nghĩa bài toán hai bên và BTức là dùng p-giá trị để kiểm2* = 0). H0: B2 B2* t = tn-2, = qt(1 ,n 2) t < tn-2,
định thì chỉ đúng duy nhất với H1: B2 < B2*
cặp giả thuyết thống kê sau: Lệch trái H0: B2 = 0 H0: B2 = B2* t = tn-2, /2 = qt(1 /2,n 2) |t| > tn-2, /2 H1: B2 0 H1: B2 B2*
p-giá trị < => bác bỏ H0 Hai bên
p-giá trị > => Chấp nhận H0
VD8: Tại = 5%, kiểm định xem mô hình hồi quy TienLuong theo NangSuat: TienLuong = B
NangSuat + U có nghĩa thống kê hay không? 1 + B2
LƯU Ý: Nếu đề bài hỏi: Mô hình hồi quy tuyến tính 2 biến có ý nghĩa thống kê <=> với việc kiểm định
hệ số B2 0 (hay đề bài có thể hỏi khác đi là biến độc lập có ảnh hưởng đến biến phụ thuộc hay không?)
Giải: Xét cặp giả thuyết : H0: B2 = 0
Nhận xét: ta thấy cặp giả thuyết thông kê H1: B2 0
trên là bài toán 2 bên và hệ số Bi* = 0 nên ta
> summary(lm(TienLuong~NangSuat))
có thể dựa luôn vào p-giá trị của lệnh Call:
summary(lm(Y~X)) để làm luôn
lm(formula = TienLuong ~ NangSuat) Residuals:
Min 1Q Median 3Q Max -4.7346 -
1.9615 0.1364 1.9502 3.7977 Coefficients: 5 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.24884 1.61729 17.47 <2e-16 ***
NangSuat 0.71879 0.01944 36.98 <2e-16 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.339 on 40 degrees of freedom
Multiple R-squared: 0.9716, Adjusted R-squared: 0.9709
F-statistic: 1367 on 1 and 40 DF, p-value: < 2.2e-16
VD9: Cho mô hình hồi quy tổng thể sau: TienLuong = B1 + B2NangSuat + U
a. Tại = 5%, kiểm định B2 > 0 ?
b. Tại = 5%, kiểm định B2 < 1 ?
c. Tại = 5%, kiểm định B2 = 0,5 ?
d. Tại = 5%, kiểm định B1 > 25 ?
LƯU Ý: Để kiểm định cho các cặp giả thuyết thống kê mà các bài toán đó không phải là bài toán
2 bên (lệch trái; lệch phải) hoặc hệ số Bi* 0 thì ta không dùng lệnh summary(lm(Y~X)) để làm
mà phải sử dụng lệnh sau:
summary(glht(mh,A,B *,alt=“”)) Trong đó: i mh=lm(Y~X)
A=matrix(c(số của hệ số B ,số của hệ số B 1 2),nrow=1) B * đề bài sẽ cho sẵn i
alt=“g” nếu là bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu là bài toán 2 bên
Tuy nhiên muốn sử dụng lệnh trên thì trước tiên trên phần mềm R phải có gói lệnh
library(multcomp) để hỗ trợ. Cách cài gói lệnh library(multcomp) như sau:
Cách cài multcomp (phải có mạng) như sau: Vào phần mềm R thường (không phải Rstutio) kích
chuột chọn tab packages => Update packages => chọn 1 nước bất kỳ (USA hay UK đều được hết) =>
ok (sau đó đợi nó load, khi nào nó không chạy các dòng ghi gói lệnh bao nhiêu kb là được) => Sau đó
lại kích chuột chọn tab packages => Install package(s) => Kéo chuột chọn multcomp (các phần mềm
xếp theo bảng chữ cái cứ kéo chuột thấy multcomp là được) => ok (sau đó đợi phần mềm này được
download về máy, khi nào nó chạy hết mấy dòng xanh lá như cài game là được). Khi R thường được
cài multcomp thì Rstudio cũng sẽ tự động được cài multcomp luôn.
Sau khi cài đặt thành công rồi, tắt máy đi không học nữa. Đến lần học sau thì khi bật lại máy lên lại
phải đánh lại library(multcomp) (bây giờ thì không cần cài lại nữa chỉ cần gọi lại lệnh là được)
5) Hệ số xác định
Hệ số xác định (ký hiệu là R2) có giá trị như sau: 0 R2 1. Ý nghĩa: R2 đo tỷ lệ phần trăm sự biến thiên
của Y (biến phụ thuộc) được giải thích thông qua mô hình hồi quy.
R2 càng lớn thì mô hình hồi quy càng phù hợp với dữ liệu mẫu. Người ta cho rằng R2 từ 0,8 trở lên thì
tốt. Trên phầm mềm thì R2 chính là Multiple R-squared: trong câu lệnh summary(lm(Y~X))
VD10:
Xác định hệ số xác định của mô hình TienLuong = B NangSuat + U. Nêu ý nghĩa? 1 + B2
6) Bài toán dự báo
Cho mô hình hồi quy tổng thể sau: Y= B1 + B2X + U.
Tìm điểm dự báo (dự đoán) cho Y và ước lượng điểm cho trung bình Y là dùng cùng 1 câu lệnh:
predict(lm(Y~X),new=data.frame(X= ))
Tìm khoảng dự báo cho Y dùng câu lệnh:
predict(lm(Y~X),new=data.frame(X= ),interval=“p”,level= )
Tìm khoảng tin cậy cho giá trị trung bình Y dùng câu lệnh: 6 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
predict(lm(Y~X),new=data.frame(X= ),interval=“c”,level= )
VD11: Dựa vào File “TLVaNSLD.csv” hãy:
a. Giả sử năm 2017, năng suất lao động thực tế là 108, dự báo tiền lương thực tế năm đó là bao nhiêu?
b. Xét tất cả các năm có cùng mức năng suất lao động thực tế là 108, tìm ước lượng điểm cho tiền lươngthực
tế trung bình của những năm đó.
c. Giả sử năm 2017, năng suất lao động thực tế là 108, tìm khoảng dự báo 95% cho tiền lương thực tế năm đó.
d. Xét tất cả các năm có cùng mức năng suất lao động thực tế là 108. Tìm khoảng tin cậy 90% cho tiềnlương
thực tế trung bình của những năm đó.
VD12: Cho Y là lượng cầu về một loại hàng hoá, X là thu nhập trung bình đầu người số liệu cho trong file
LuongCauVaThuNhap.csv. Xét mô hình hồi quy tuyến tính: Yt = B1 + B2Xt + Ut
1. Vẽ biểu đồ tán xạ. Nhận xét biểu đồ?
2. Tìm hệ số tương quan tuyến tính mẫu giữa X và Y. Nhận xét.
3. Tìm một ước lượng điểm cho các hệ số B1, B2 của mô hình hồi quy tổng thể. Xác định hàm SRF.
Nêu ý nghĩa kinh tế của hệ số góc trong phương trình hồi quy mẫu.
4. Vẽ thêm đường hồi quy mẫu vào biểu đồ tán xạ. Nhận xét.
5. Tính các phần dư et và các giá trị Yt
6. Tìm ước lượng điểm cho sai số chuẩn của b1 và b2.
7. Tính hệ số xác định. Nêu ý nghĩa của hệ số xác định.
8. Cho biết thu nhập trung bình đầu người năm 1988 là 2800. Tìm ước lượng điểm cho lượng cầuvà
dự báo (dự đoán) lượng cầu trung bình về hàng hóa đó của năm 1988.
9. Tìm khoảng dự báo 90% cho lượng cầu của năm 1988.
10. Tìm khoảng tin cậy 95% cho lượng cầu trung bình của năm 1988.
11. Tìm khoảng tin cậy 95% cho B2.
12. Thực hiện bài toán kiểm định sự có ý nghĩa của mô hình ở mức ý nghĩa α = 1%.
13. Cho biết đây là hàng hóa thông thường (tức là khi thu nhập tăng thì lượng cầu trung bình tăng).
Theo bạn, để phù hợp về mặt kinh tế thì dấu của hệ số B2 phải như thế nào? Thực hiện bài toán
kiểm định ý nghĩa kinh tế (dùng mức ý nghĩa 5%).
14. Có ý kiến cho rằng hàng hóa này không phải hàng hóa thiết yếu (tức là khi không có thu nhậpthì
nhu cầu trung bình về hàng hóa này âm). Có thể nói ý kiến trên là đúng tại α = 5%.
15. Kiểm định giả thuyết B2 ≤ 1 (dùng mức ý nghĩa 5%).
16. Kiểm định giả thuyết B1 200
VD13: Cho Q là nhu cầu một loại hàng hoá với giá là P (số liệu theo tháng). Số liệu được cho trong
file LuongCauVaGia.csv.
a. Vẽ biểu đồ tán xạ biểu diễn các điểm dữ liệu (với trục hoành là P, trục tung là Q). Nhận xét biểu đồ.
b. Viết phương trình hồi quy tuyến tính tổng thể Q phụ thuộc P. Viết phương trình hồi quytuyến
tính mẫu Q phụ thuộc P. Nêu ý nghĩa của các hệ số của phương trình hồi quy mẫu.
c. Vẽ thêm đường thẳng hồi quy mẫu vào biểu đồ tán xạ. Nhận xét biểu đồ.
d. Thực hiện bài toán kiểm định ý nghĩa thống kê của mô hình tại α = 5%.
e. Theo bạn dấu của hệ số chặn và hệ số góc của mô hình hồi quy tổng thể phải như thế nàomới
phù hợp kinh tế? Thực hiện bài toán kiểm định cho nhận định đó của bạn tại α = 5%.
f. Tìm khoảng tin cậy 99% cho các hệ số của phương trình hồi quy tổng thể.
g. Khi giá bán hàng hóa là 3.000, dự báo xem nhu cầu về hàng hóa đó là bao nhiêu?
h. Tìm khoảng dự báo 95% cho nhu cầu về hàng hóa đó khi giá bán là 3.000 7 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
i. Tìm khoảng tin cậy 95% cho nhu cầu trung bình về hàng hóa đó khi giá bán là 3.000VD14:
Số liệu lãi suất (R, %) và chỉ số CPI (%) của 9 nước cho ở File LaiSuatVaCPI.csv.
1. Viết phương trình hồi quy tuyến tính tổng thể của R theo CPI.
2. Viết phương trình hồi quy tuyến tính mẫu. Nêu ý nghĩa của hệ số góc trong phương trình hồiquy mẫu.
3. Kiểm định xem chỉ số CPI có ảnh hưởng đến lãi suất R không? Dùng α = 5%.
4. Để phù hợp với lý thuyết kinh tế thì hệ số hồi quy của biến CPI trong phương trình tổng
thểphải thỏa mãn điều kiện gì? Giá trị ước lượng điểm từ dữ liệu có thỏa mãn điều kiện đó
không? Kiểm định xem điều kiện đó có thỏa mãn ở mức ý nghĩa 5% không?
VD15: File TieuDungVaThuNhap.csv cho số liệu về mức tiêu dùng trên đầu người (Y) và thu
nhập trên đầu người X tính theo giá cố định (1980, đơn vị tính 100.000 VNĐ) trong thời kỳ từ 1980
– 1999 ở một địa phương. Xét mô hình hồi quy: Yi = B1 + B2Xi + Ui
1. Hãy ước lượng mô hình trên.
2. Để phù hợp về mặt kinh tế thì các hệ số B1, B2 phải thỏa mãn các điều kiện gì? Cho biết kết
quả ước lượng trong ý (1) có thỏa mãn các điều kiện đó không?
3. Thực hiện bài toán kiểm định xem các điều kiện trong ý (2) có được thỏa mãn không? Dùngmức ý nghĩa 5%.
4. Tìm khoảng tin cậy 95% cho các hệ số hồi quy.
5. Với mức ý nghĩa 5% hãy kiểm định xem tiêu dùng có chịu ảnh hưởng của thu nhập không?
6. Tính hệ số xác định R2 và giải thích ý nghĩa của nó.
VD16: Giả sử số liệu thống kê về lãi suất ngân hàng (X - % /năm), tổng vốn đầu tư (Y - tỉ đồng)
trên địa bàn tỉnh A qua 10 năm liên tiếp. Số liệu được lưu trong File VNHVaLS.csv
1. Lập phương trình hồi quy tuyến tính tổng thể mô tả mối quan hệ phụ thuộc của tổng vốn đầu tưvào lãi suất ngân hàng.
2. Viết phương trình hồi quy mẫu. Nêu ý nghĩa kinh tế của hệ số góc trong phương trình hồi quy mẫu.
3. Kiểm định giả thuyết hệ số góc trong hàm hồi quy tổng thể bằng 0 với mức ý nghĩa 1%.
4. Với mức ý nghĩa 5% có thể xem hệ số góc của đường hồi quy tổng thể bằng – 11 được không?
5. Xác định khoảng tin cậy 90% cho hệ số góc của đường hồi quy tổng thể.
PHẦN 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI (MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐA
BIẾN) 1) Định nghĩa
Mô hình hồi quy tuyến tính tổng thể k biến (PRF) của Y theo X , …, X 2, X3 k là:
E(Y/ X2i , X3i ,…, Xki) = B1 + B2X2i +B3X3i + …+ BkXki
Yi = B1 + B2X2i +B3X3i + …+ BkXki + Ui
B1 : được gọi là hệ số chặn (tung độ gốc) của đường hồi quy tổng thể. Ý nghĩa: Khi X2 = X3 = … = Xk
= 0 thì giá trị trung bình của Y là B1.
Bi (Với i = 2, 3,…, k) : được gọi là hệ số hồi quy riêng của đường hồi quy tổng thể. Ý nghĩa: Khi Xi
tăng thêm 1 đơn vị mà các biến độc lập còn lại không đổi thì giá trị trung bình của Y thay đổi xấp xỉ Bi đơn vị.
Ui : được gọi là sai số ngẫu nhiên.
Mô hình hồi quy tuyến tính mẫu k biến (SRF) của Y theo X , …, X 2, X3 k là:
Y = b1 + b2Xi +b3X3i + …+ bkXki
Yi = b1 + b2Xi +b3X3i + …+ bkXki + ei = Y + ei
Y là: một ước lượng cho E(Y/ X2i , X3i ,…, Xki) e một ước lượng cho U i là:
i (e được gọi là phần dư) 8 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865 b
, ta gọi là hệ số chặn (tung độ gốc) của đường hồi quy mẫu.
1 là một ước lượng điểm cho B1
Ý nghĩa: Khi X2 = X3 = … = Xk = 0 thì giá trị trung bình của Y là B1. b
, ta gọi là hệ số hồi quy riêng của đường hồi quy
i (Với i = 2, 3,…, k) là một ước lượng điểm cho Bi
mẫu. Ý nghĩa: Khi Xi tăng thêm 1 đơn vị mà các biến độc lập còn lại không đổi thì giá trị trung bình
của Y thay đổi xấp xỉ bi đơn vị.
2) Ước lượng mô hình hồi quy mẫu theo phương pháp bình phương cực tiểu thông thường (OLS)
Để tìm được mô hình hồi quy tuyến tính mẫu thì cần tìm được b (với i
1 (ước lượng điểm của B1) và bi
=2, 3 ,…, k) (ước lượng điểm của Bi)
Câu lệnh để ước lượng điểm cho các hệ số hồi quy là: lm(Y~X +…+X 2+X3 k)
VD1: Nghiên cứu mối quan hệ của doanh thu (Y) theo số tiền chi cho quảng cáo (X ) và tiền lương của 2
nhân viên (X ) (đơn vị tính là triệu đồng). Sử dụng File “DTQCTL.csv” 3 hãy:
a. Viết phương trình hồi quy tổng thể của Y theo X2 và X3.
b. Ước lượng phương trình hồi quy tuyến tính mẫu của Y theo X2 và X3.
c. Nêu ý nghĩa của các hệ số trong phương trình hồi quy mẫu.
3) Hệ số xác định
Hệ số xác định (ký hiệu là R2) có giá trị như sau: 0 R2 1. Ý nghĩa: R2 đo tỷ lệ phần trăm sự biến
thiên của Y (biến phụ thuộc) được giải thích thông qua mô hình hồi quy. R2 càng lớn thì mô hình hồi
quy càng phù hợp với dữ liệu mẫu. Người ta cho rằng R2 từ 0,8 trở lên thì tốt.
Trên phầm mềm thì R2 chính là Multiple R-squared: trong câu lệnh summary(lm(Y~X +…+X 2+X3 k)) R2
là đại lượng tăng theo số lượng biến độc lập. Vì vậy, đôi khi R2 đánh giá quá cao vai trò của các biến
độc lập trong mô hình hồi quy.
Hệ số xác định hiệu chỉnh (ký hiệu là R2) được sử dụng để xem xét có nên đưa thêm biến mới vào mô
hình không. Thông thường biến độc lập mới nên đưa thêm vào mô hình khi mà biến đó có ý nghĩa
trong mô hình và làm R2 tăng. (R2 thì không có ý nghĩa)
Trên phầm mềm thì R2 chính là Adjusted R-squared: trong câu lệnh summary(lm(Y~X +…+X 2+X3 k))
VD2: Sử dụng File “DTQCTC.csv”. Tìm hệ số xác định và hệ số xác định hiệu chỉnh. Nêu ý nghĩa.
Câu lệnh tìm phần dư (các ei) là : e=resid(lm(Y~X2+X3+..+Xk))
Câu lệnh tìm Y là: Ymu=fitted(lm(Y~X2+X3+..+Xk))
Câu lệnh để ước lượng điểm cho sai số chuẩn của b (với i= 2, 3 ,…, k) là: 1 và bi
summary(lm(Y~X2+X3+..+Xk))
Ước lượng điểm cho sai số chuẩn của b
Trong đó: Y là tên biến phụ thuộc 1 là : se(b1)
Ước lượng điểm cho sai số chuẩn của b
X2, X3, Xk là tên các biến độc lập 2 là : se(b2)
………………………………………………........... Nhìn vào chỗ ghi
Ước lượng điểm cho sai số chuẩn của b Std. Error k là : se(bk) rồi chép kết quả ra
Câu lệnh tìm khoảng tin cậy cho các hệ số hồi quy B1 và
B (với i= 2, 3 ,…, k) i là:
confint(lm(Y~X2+X3+..+Xk),level=0. )
VD3: Sử dụng File “DTQCTL.csv” hãy:
a. Tìm các e , Y và ước lượng điểm cho sai số chuẩn của b
trong mô hình hồi quy mẫu. i 1 và bi
b. Tìm khoảng tin cậy 95% cho hệ số chặn và cho hệ số góc của mô hình hồi quy tuyến tính tổng thể
của Doanh thu theo số tiền chi cho quảng cáo và tiền lương nhân viên. Nêu ý nghĩa của các khoảng tin cậy đó?
4) Bài toán kiểm định đồng thời (kiểm định mô hình hồi quy tuyến tính tổng thể k biến có ý nghĩa
thống kê hay không?) 9 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
Xét mô hình hồi quy tuyến tính tổng thể k biến: Yi = B1 + B2X2i +B3X3i + …+ BkXki + Ui
Bài toán kiểm định đồng thời (hay kiểm định 1 mô hình hồi quy đa biến có ý nghĩa thống kê hay
không?) thì ta tiến hành kiểm định cặp giả thuyết sau:
H0: B2 = B3 = … = Bk = 0 (Mô hình không có ý nghĩa thống kê) H : Tồn tại B 1
i 0, với i = 2, 3 ,…, k (Mô hình có ý nghĩa thống kê) Đưa
ra quyết định bác bỏ hay chấp nhận H0 có 2 cách:
Cách 1: Dựa vào giá trị thống kê và giá trị tới hạn
Giá trị thống kê (F) chính là F-statistic trên câu lệnh summary(lm(Y~X2+X3+..+Xk)) Giá trị tới hạn F
tuân theo phân phối Fisher với k k-1,n-k,
-1 bậc tự do ở tử và n-k bậc tự do ở mẫu
tại mức ý nghĩa . Ở đó: k là số lượng biến của mô hình hồi quy, n là cỡ mẫu (Số quan sát). Trên
phần mềm thì Fk-1,n-k, = qf(1 ,k 1,n k)
Bác bỏ H0 nếu F > Fk-1,n-k,
VD4: Sử dụng File “DTQCTL.csv” hãy kiểm định tại mức ý nghĩa = 5% xem mô hình:
Yi = B1 + B2X2 + B3X3 + Ui có ý nghĩa thống kê hay không? > summary(lm(Y~X2+X3)) Call:
lm(formula = Y ~ X2 + X3) Residuals: Có F = 180,4.
Min 1Q Median 3Q Max -5.5539 -2.5820 -0.8581 Và: F 1.8086 7.0210 Coefficients:
k-1,n-k, = qf(0.95,2,9) = 4.256495
Estimate Std. Error t value Pr(>|t|) Do F > F nên bác bỏ H k-1,n-k, 0 => Mô hình
(Intercept) 32.2773 6.2531 5.162 0.000594 *** có ý nghĩa thống kê.
X2 2.5057 0.3286 7.626 3.24e-05 ***
X3 4.7587 0.4104 11.596 1.03e-06 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.003 on 9 degrees of freedom Multiple R-squared: 0.9757, Adjusted R-squared: 0.9702
F-statistic: 180.4 on 2 and 9 DF, p-value: 5.479e-08
Cách 2: Dựa vào p-giá trị để làm bài toán kiểm định đồng thời:
p-giá trị chính là p-value trong câu lệnh summary(lm(Y~X2+X3+..+Xk)) p-giá
trị < => Bác bỏ H0 => Mô hình có ý nghĩa thống kê.
p-giá trị > => Chấp nhận H0 => Mô hình không có ý nghĩa thống kê.
VD4: Sử dụng File “DTQCTL.csv” hãy kiểm định tại mức ý nghĩa = 5% xem mô hình:
Yi = B1 + B2X2 + B3X3 + Ui có ý nghĩa thống kê hay không?
Có p-giá trị = 5.479e-08 = 5.479 10-8 < = 5% = 0.05 => Bác bỏ H0 => Mô hình có ý nghĩa thống kê.
5) Kiểm định giả thuyết về hệ số hồi quy riêng (đánh giá riêng cho từng hệ số)
Có mô hình hồi quy tuyến tính tổng thể k biến sau: Yi = B1 + B2X2i +B3X3i + …+ BkXki + Ui Kiểm
định cho hệ số hồi quy (Bi) thì có thể rơi vào một trong ba cặp giả thuyết thống kê sau:
H0: Bi Bi* H0: Bi Bi* H0: Bi = Bi* H1:
Bi > Bi* H1: Bi < Bi* H1: Bi Bi* LƯU Ý:
Trong H0 luôn có 1 dấu “=”, trong H1 không bao giờ có dấu “=”
B * đề bài sẽ cho sẵn i
Ta có bảng sau để đưa ra quyết định bác bỏ hay chấp nhận H0 Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H0 P – giá trị H0: Bi Bi* t = tn-k, = qt(1 ,n k) t > tn-k,
Bác bỏ hay chấp nhận H0 qua H1: Bi > Bi* n là cỡ mẫu
p-giá trị (chỉ đúng khi đó là 10 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865 mô hình hồi quy bài toán hai bên và B Lệch phải k
là số lượng biến trong Tức là dùng p-giá
trị để kiểmđịnh thì chỉ đúng duy nhất với * = 0). i là mức ý nghĩa
cặp giả thuyết thống kê sau: H0: Bi Bi* t = tn-k, = qt(1 ,n k) t < tn-k, H0: Bi = 0 H1: Bi < Bi* H1: Bi 0 Lệch trái
p-giá trị < => bác bỏ H0 H0: Bi = Bi* t = tn-k, /2 = qt(1 /2,n k) |t| > tn-k, /2
p-giá trị > => Chấp nhận H0 H 1 : B i B i* Hai bên
Kiểm định ý nghĩa thống kê
Để kiểm định ý nghĩa thống kê thì chỉ cần cho các hệ số hồi quy riêng là Bi 0 (Với i = 2, 3 ,…, k)
VD5: Xét mô hình hồi quy bội tổng thể: Yi = B1 + B2X2 + B3X3 + Ui. Với Y là doanh thu, X2 là tiền chi
cho quảng cáo, X3 là tiền lương cho nhân viên. Sử dụng File “DTQCTL.csv”
a. Tại mức ý nghĩa = 5%, hãy kiểm định xem biến tiền chi cho quảng cáo có ý nghĩa trong mô hình hồi quy không?
b. Tại mức ý nghĩa = 5%, hãy kiểm định xem biến tiền lương nhân viên có ảnh hưởng đến doanh thu không?
LƯU Ý: Để làm bài toán kiểm định ý nghĩa thống kê cho từng hệ số hồi quy riêng (các bài toán kiểm
định hai bên và các hệ số B * = 0) thì ta dùng luôn lệnh i
summary(lm(Y~X2+X3+..+Xk)).
Kiểm định ý nghĩa kinh tế
Đó là ta phải xét đến mối quan hệ đồng biến hay nghịch biến giữa các X2 với Y; X3 với Y và Xk với Y.
Tức là ta kỳ vọng về dấu của B2, B3 và Bk như thế nào trong mô hình hồi quy (là + hay )
=> Vậy kiểm định ý nghĩa kinh tế là các bài toán kiểm định hệ số hồi quy riêng lệch phải hoặc lệnh trái
(không phải là kiểm định hai bên như kiểm định ý nghĩa thống kê)
LƯU Ý: Để làm các bài toán kiểm định mà không phải là bài toán hai bên và các hệ số hồi quy
Bi* 0 thì ta không dùng lệnh summary(lm(Y~X2+X3+..+Xk)) để làm luôn mà dùng lệnh sau:
summary(glht(mh,A,B *,alt=“”)) Trong đó: i mh=lm(Y~X +…+X 2+X3 k)
A=matrix(c(số của hệ số B ,số của hệ số B ,…,số của hệ số B * đề bài sẽ cho 1 2 k),nrow=1) Bi sẵn
alt=“g” nếu là bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu là bài toán 2 bên
Tuy nhiên muốn sử dụng lệnh trên thì trước tiên trên phần mềm R phải có gói lệnh
library(multcomp) để hỗ trợ.
VD6: Xét mô hình hồi quy bội tổng thể: Yi = B1 + B2X2 + B3X3 + Ui. Sử dụng File “DTQCTL.csv” hãy
kiểm định xem biến tiền lương và tiền chi cho quảng cáo có ý nghĩa kinh tế không?
KIỂM ĐỊNH GIẢ THUYẾT VỀ MỘT RÀNG BUỘC GIỮA CÁC HỆ SỐ HỒI QUY
Có mô hình hồi quy tuyến tính tổng thể k biến sau: Yi = B1 + B2X2i +B3X3i + …+ BkXki + Ui
Kiểm định giả thuyết về một ràng buộc giữa các hệ số hồi quy thì có thể rơi vào một trong ba
cặp giả thuyết thống kê sau:
H0: Bi + Bj H0: Bi + Bj H0: Bi + Bj = 11 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
H1: Bi + Bj > H1: Bi + Bj < H1: Bi + Bj
VD: Kiểm định giả thuyết B2 + B3 = 0 chính là bài toán 2 bên với: =1, = 1, = 0.
VD: Kiểm định giả thuyết 2B2 + 3B3 = 10 chính là bài toán 2 bên với: =2, = 3, = 10. Bài toán Giá trị thống kê Giá trị tới hạn Bác bỏ H 0 H 0 : B i + B j t =
t n-k, = qt(1 ,n k)
t > t n-k, H 1 : B i + B j > n là cỡ mẫu Lệch phải
k là số lượng biến trong mô hình hồi quy là mức ý nghĩa H 0 : B i + B j t =
t n-k, = qt(1 ,n k)
t < t n-k, H 1 : B i + B j < Lệch trái H 0 : B i + B j = t =
t n-k, /2 = qt(1 /2,n k)
|t| > t n-k, /2 H 1 : B i + B j Hai bên
Cách tìm ra se( bi + bj) như sau: se( bi + bj) =
=> Cần phải tìm được cov(bibj) cov(bibj) nằm ở trong một ma trận mà ma trận này
được tính bằng công thức: 2 (BA) 1 Trong đó:
2 là: chính là giá trị Residual standard error được mũ 2 lên ở trong câu lệnh: summary(lm(Y~X +…+X 2+X3
k)). Ta lưu kết quả này trên 1 véc tơ tên là s.mu2 =
. Sau đó thì lưu luôn kết quả của b ) trên máy như sau: i, bj, se(bi),se(bj
bi lưu kết quả bi (VD: trong câu lệnh summary(lm(Y~X +…+X 2+X3
k)) có b2 = 0.365 thì trên phần mềm ta lưu là b2=0.365); bj là lưu
kết quả bj; sebi lưu kết quả của se(bi); sebj lưu kết quả của se(bj) (BA) 1 được thành lập trên phần mềm như sau:
Tạo ra ma trận A bằng câu lệnh: A=matrix(c(rep(1,n),X ,…,X 2,X3 k),ncol=k)
Trong đó: n là cỡ mẫu, k là số lượng biến trong mô hình hồi quy (bao
gồm cả biến phụ thuộc và biến độc lập)
B là chuyển vị của ma trận A: trên phần mềm đánh là t(A) (lưu ý không cần tạo biến B. Tức là xong
câu lệnh ở dấu + đầu tiên là làm đến câu lệnh ở dấu + thứ 3 luôn)
Tạo tích BA bằng cách: BA=t(A)%*%A
Tạo tích BA-1 (ma trận nghịch đảo của BA) bằng cách: BA.nd=solve(BA)
Sau đó chúng ta sẽ tìm ra cov(bibj) nằm ở trong một ma trận mà ma trận này được tính bằng công thức:
2 (BA) 1 = s.mu2*BA.nd
VD: Giả sử ta cần tìm cov(b2b3) mà có kết quả trên phần mềm như sau: > s.mu2*BA.nd [,1] [,2] [,3]
[1,] 382.37028620 -0.036451519 -0.149088680
[2,] -0.03645152 0.001063347 -0.001552425
[3,] -0.14908868 -0.001552425 0.002383957
Thì khi đó cov(b2b3) = -0.001552425.
Khi đó ta sẽ lưu lại bằng 1 véc tơ là: cov.b2b3=-0.001552425
VD: Giả sử ta cần tìm cov(b2b4) hoặc cov(b3b4) mà có kết quả trên phần mềm như sau: > s.mu2*BA.nd [,1] [,2] [,3] [,4] 12 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
[1,] 0.2005680 -0.24075002 0.022741302 0.3657892
[2,] -0.2407500 0.29179997 -0.029656026 0.8456213
[3,] 0.0227413 -0.02965603 0.005396357 0.56975569
[4,] 0.3657892 0.8456213 0.569755696 0.3658114
Đến đây là ta lại tiếp tục đi tìm se( bi + bj) MÀ: se( b
) = . Trên phần mềm gõ như sau: i + bj
se=sqrt( ^2*sebi^2+ ^2*sebj^2+2* * *cov.bibj) Trong đó:
sebi lưu kết quả của se(bi); sebj lưu kết quả của se(bj); cov.bibj lưu kết quả của cov(bibj)
Tiếp tục tìm giá trị thống kê t bằng câu lệnh: t=( *bi+ *bj )/se
Tiếp đến là tính nốt các giá trị tới hạn của các dạng bài toán lệch phải, lệch trái hay hai bên (tùy vào đề
bài) để so sánh với giá trị thống kê t để đưa ra kết luận bác bỏ hay chấp nhận H0.
Tuy nhiên đó cách làm bằng tay còn trên phần mềm R để cho nhanh thì chúng ta dùng câu lệnh sau để làm cho nhanh:
summary(glht(mh,A, ,alt=“”)) Trong đó: mh=lm(Y~X +…+X 2+X3 k)
A=matrix(c(số của hệ số B ,số của hệ số B ,…,số của hệ số B 1 2 k),nrow=1) đề bài sẽ cho sẵn
alt=“g” nếu là bài toán lệch phải; alt=“l” nếu là bài toán lệch trái; alt=“t” nếu là bài toán 2 bên
VD7: Xét mô hình hồi quy bội tổng thể: Yi = B1 + B2X2 + B3X3 + Ui. Sử dụng File “DTQCTL.csv”
hãy làm những câu hỏi sau:
a. Tại = 5%, kiểm định xem khi số tiền chi cho quảng cáo tăng lên 2 đơn vị, tiền lương trả cho nhân
viên tăng lên 3 đơn vị thì doanh thu của công ty đó tăng lên 20 đơn vị?
b. Tại = 5%, kiểm định xem có phải tiền lương trả cho nhân viên ảnh hưởng nhiều hơn đến doanh
thu của công ty đó so với số tiền chi cho quảng cáo?
6) Bài toán dự báo
Cho mô hình hồi quy tổng thể sau: Yi = B1 + B2X2i +B3X3i + …+ BkXki + Ui
Tìm điểm dự báo (dự đoán) cho Y và ước lượng điểm cho trung bình Y là dùng cùng 1 câu lệnh: predict(lm(Y~X +…+X = ,…,X 2+X3
k),new=data.frame(X2= ,X3 k= ))
Tìm khoảng dự báo cho Y dùng câu lệnh: predict(lm(Y~X +…+X
= ,…,X = ),interval=“p”,level= ) 2+X3
k),new=data.frame(X2= ,X3 k
Tìm khoảng tin cậy cho giá trị trung bình Y dùng câu lệnh: predict(lm(Y~X +…+X
= ,…,X = ),interval=“c”,level= ) 2+X3
k),new=data.frame(X2= ,X3 k
Trong đó: Y là tên biến phụ thuộc; X ,…, X 2, X3
k là tên các biến độc lập.
VD8: Sử dụng File “DTQCTL.csv” hãy làm các yêu cầu sau:
a. Một công ty có tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy dự đoán doanh thu của công ty đó.
b. Xét tất cả các công ty có tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy tìm một
ước lượng điểm cho tiền doanh thu trung bình của tất cả các công ty ấy.
c. Một công ty có tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy tìm khoảng dự
báo 90% cho doanh thu của công ty đó.
d. Xét tất cả các công ty có tiền chi cho quảng cáo là 20, tiền trả lương cho nhân viên là 13, hãy tìm
khoảng tin cậy 99% cho tiền doanh thu trung bình của tất cả các công ty ấy.
VD9: Cho biết Y – lượng cam bán được (tấn/tháng), X2 – giá cam (ngàn đồng/kg), X3 – giá quýt (ngàn
đồng/kg). Dữ liệu trong File CamQuyt.csv. Xét mô hình hồi quy tổng thể: Y = B1 + B2X2+B3X3+U
1. Hãy xác định SRF. Nêu ý nghĩa kinh tế của các hệ số hồi quy riêng trong SRF. 13 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
2. Thực hiện bài toán kiểm định sự có ý nghĩa thống kê của mô hình tại = 5%.
3. Thực hiện bài toán kiểm định sự có ý nghĩa thống kê cho từng biến độc lập trong mô hình tại = 5%.
4. Từ dấu của các hệ số hồi quy riêng trong phương trình hồi quy mẫu hãy nhận xét xem:
a. Hàng hóa cam có thỏa mãn luật cầu không?
b. Hai hàng hóa cam, quýt là hàng hóa cạnh tranh thay thế hay bổ sung?
5. Thực hiện các bài toán kiểm định cho câu trả lời trong ý trên (dùng mức ý nghĩa 5%)
6. Xác định khoảng tin cậy 99% cho B2 và B3.
7. Biến giá quýt có ảnh hưởng đến lượng cam bán được tại = 5% không?.
8. Có người nói rằng khi giá cam tăng lên 1 ngàn đồng/kg, giá quýt không đổi thì lượng cam bán
đượctrung bình giảm 1 tấn/tháng. Hãy kiểm định giả thuyết trên tại = 5%.
9. Có người nói rằng khi giá cam tăng lên 1 ngàn đồng/kg, giá quýt không đổi thì lượng cam bán được
trung bình giảm 2 tấn/tháng. Hãy kiểm định giả thuyết trên tại = 5%
10. Nếu giá cam là 5 ngàn đồng/kg, giá quýt là 6 ngàn đồng/kg, hãy tìm khoảng tin cậy 90% cho lượngcam
bán được trung bình và khoảng dự báo 95% cho lượng cam bán được khi đó.
11. Kiểm định giả thuyết B2 + B3 = 0, dùng mức ý nghĩa 5%. Nêu ý nghĩa của kết luận.
12. Kiểm định giả thuyết: Khi giá cam tăng lên 2 ngàn đồng/kg, giá quýt tăng lên 1 ngàn đồng/kg thìlượng
cam bán được giảm tại = 5%
VD10: File CWP.csv chứa dữ liệu về chi tiêu thực cho tiêu dùng (C tính bằng tỉ đô la năm 1992), thu
nhập thực từ lương (W, tính bằng tỉ đô la năm 1992) và thu nhập thực từ các nguồn khác (P tính bằng tỉ
đô la năm 1992). Xét phương trình: C = B1 + B2W + B3P + U
1. Kiểm định sự có ý nghĩa thống kê của mô hình (dùng mức ý nghĩa 5%).
2. Viết phương trình hồi quy mẫu. Nêu ý nghĩa của ước lượng cho B2.
3. Tìm khoảng tin cậy 90% cho B2.
4. Tìm khoảng tin cậy 99% cho tiêu dùng khi thu nhập thực từ lương là 1800 tỉ đô la và thu nhậpthực từ
các nguồn khác là 1300 tỉ đô la.
5. Kiểm định giả thuyết: lương và thu nhập từ các nguồn khác có ảnh hưởng như nhau đối với tiêudùng. Dùng mức ý nghĩa 5%.
6. Kiểm định giả thuyết: Thu nhập từ lương ảnh hưởng đến tiêu dùng nhiều hơn
7. Kiểm định giả thuyết: Khi thu nhập từ lương và thu nhập từ các nguồn khác cùng tăng lên 1 tỉ đôla
thì tiêu dùng tăng lên 1.5 tỉ đô la. Dùng mức ý nghĩa 5%
8. Kiểm định giả thuyết: Khi thu nhập từ lương và thu nhập từ các nguồn khác cùng tăng lên 1 tỉ đôla
thì tiêu dùng tăng lên 1 tỉ đô la. Dùng mức ý nghĩa 5%
VD11: Cho Y-thu nhập/đầu người (USD), X2 tỷ lệ phầm trăm lao động nông nghiệp,
X3 số năm được đào tạo trung bình của những người trên 25 tuổi. Số liệu chứa trong File LaoDong.txt.
Xét mô hình hồi quy tổng thể: E(Y/X2,X3) = B1 + B2X2 + B3X3.
1. Tìm phương trình hồi quy mẫu SRF.
2. Hãy kiểm định các giả thuyết hệ số hồi quy riêng trong mô hình hồi quy tổng thể bằng 0. Nêu ýnghĩa
rút ra từ các kết luận của các kiểm định đó.
3. Tìm khoảng tin cậy 95% cho các hệ số hồi quy của mô hình hồi quy tổng thể.
4. Tìm hệ số xác định và hệ số xác định đã hiệu chỉnh.
5. Ta có thể cho rằng cả hai yếu tố tỷ lệ lao động nông nghiệp và số năm đào tạo trung bình đềukhông
ảnh hưởng đến thu nhập theo đầu người tại mức ý nghĩa 5% không?
VD12: File DS.txt chứa số liệu được thu thập trong 20 tuần khác nhau về số lượng sản phẩm bán được
trong một tuần (Q), giá sản phẩm (P: đơn vị tính 1000 đồng) và chi phí cho quảng cáo trong một tuần
(AD: đơn vị tính 100.000 đồng) của một công ty sản xuất bánh kẹo. 14 lOMoARcPSD| 40615597
ĐẶNG ANH QUÂN – A20115 Số điện thoại: 0969 887 865
1. Ông giám đốc công ty muốn biết: “Nếu giữ nguyên chi phí quảng cáo và giảm giá bán 1000 đồng
cho một sản phẩm thì có thể hy vọng số lượng sản phẩm trung bình bán được trong một tuần tăng
lên bao nhiêu?” Bạn hãy viết mô hình hồi quy tổng thể mà bạn cho là phù hợp để trả lời được câu hỏi của ông giám đốc
2. Kiểm định sự có ý nghĩa thống kê của mô hình mà bạn đưa ra (dùng mức ý nghĩa 5%)
3. Viết mô hình hồi quy mẫu và trả lời câu hỏi của ông giám đốc
VD13: File NhuCauXeBus.csv cho biết dữ liệu về mức độ giao thông bằng xe bus (Y – nghìn lượt
khách/giờ), thu nhập bình quân đầu người (X2 – USD), dân số (X3 – nghìn người), mật độ dân số (X4
người/dặm vuông) của 40 thành phố của Mỹ. Xét mô hình: Y = B1 + B2X2 + B3X3 + B4X4 +U
1. Kiểm định ý nghĩa thống kê của mô hình, dùng mức ý nghĩa 5%.
2. Kiểm định sự có ý nghĩa thống kê trong mô hình của từng biến X2, X3, X4 tại = 5%.
3. Tìm hệ số xác định và hệ số xác định hiệu chỉnh của mô hình.
4. Viết mô hình hồi quy mẫu. Nêu ý nghĩa của hệ số hồi quy riêng trong mô hình hồi quy mẫu.
5. Kiểm định xem dịch vụ xe bus có phải hàng hóa thứ cấp không (tức là khi thu nhập tăng thì lượng
cầu giảm)? Dùng mức ý nghĩa 5% 15