Bài tập thực hành 1 | Môn tin học đại cương
Để kiểm định xem biến log(area) và biến rooms có ý nghĩa thống kê đồng thời hay không thì ta tiến hành hồi quy mô hình ràng buộc là mô hình nào? Biết rằng khi hồi quy mô hình ràng buộc, ta thu được . Biến log(area) và biến rooms có ý nghĩa thống kê đồng thời hay không, với mức ý nghĩa 1%. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời bạn đọc đón xem !
Môn: Tin học Đại cương ( UEH )
Trường: Đại học Kinh tế Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 47207194 .. BÀI TẬP 1
Sử dụng dữ liệu của tập tin hprice3.csv với các biến: • price: giá bán nhà;
• area: diện tích ngôi nhà (feet vuông);
• rooms: số phòng trong nhà; • baths: số phòng tắm;
• age: tuổi của ngôi nhà;
Kết quả hồi quy từ phần mềm R như sau:
> hq1 <- lm(log(price) ~ log(area) + rooms + baths + age, data=hprice) > summary(hq1)
Call: lm(formula = log(price) ~ log(area) + rooms + baths + age, data = hprice) Residuals: Min 1Q Median 3Q Max -1.3856 -0.1901 0.0122 0.1992 0.8413 Coefficients:
Estimate(β) Std. Error t value Pr(>|t|) (P-value)
(Intercept) 6.7588037 0.4649094 14.538 < 2e-16 ***
log(area) 0.5288392 0.0694604 7.614 3.11e-13 ***
rooms 0.0593313 0.0231439 2.564 0.010822 *
baths 0.1190959 0.0348483 3.418 m *** age
-0.0037630 0.0005464 -6.887 3.09e-11 *** ---++
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2846 on 316 degrees of freedom (T=316)
Multiple R-squared: 0.5834, Adjusted R-squared: 0.5781
F-statistic: 110.6 on 4 and 316 DF, p-value: < 2.2e-16 1) Trình
bày kết quả hồi quy mẫu theo dạng thông thường?
2) Hãy giải thích ý nghĩa hệ số hồi quy của biến log(area)?
: Trong điều kiện các yếu tố khác không đổi, khi diện tích ngôi nhà tăng 1% thì giá bán nhà tăng 0,5288%.
3) Số phòng tắm có ảnh hưởng đến giá bán nhà không, xét mức ý nghĩa 3% (α=3%)?
Kiểm định H0: baths = 0 và H1: baths ≠ 0
Cách 2: p-value(baths) = 0,000715 < = 3% Bác bỏ H0. Vậy
số phòng tắm có ảnh hưởng đến giá bán nhà. Cách 3: lOMoAR cPSD| 47207194
Có độ tin cậy (1- ) = 1 – 0,03 = 0,97 /2 = 0,015
Do n – (k+1) = 316 lớn nên t /2(n-(k+1)) z /2 = z0,015 = 2,17 Suy ra: Vậy: 0,0436; 0.1946)
Vì 0 0,0436; 0,1946) nên ta bác bỏ H0.
Vậy số phòng tắm có ảnh hưởng đến giá bán nhà.
4) Tìm khoảng tin cậy cho hệ số của biến rooms trong hàm hồi quy tổng thể, với độ tin cậy 98%?
Độ tin cậy (1-α) 98% --> α/2=0.01 tcrit = 2.338 ; βrooms =0.0593313 (tcrit theo 2 tail) βrooms (0.005319; 0.113344)
5) Bạn có cho rằng khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm hay không, trong
điều kiện các yếu tố khác không đổi? Kết luận với mức ý nghĩa 2%. Kiểm định H0: age
= 0 và H1: age < 0 (1tail) βage= -0.0037630 , α = 0.02 tcrit=2.062261 βage -0.00489, -0.00264)
0 (-0.00489, -0.00264) bác b Hoỏ
6) Có ý kiến cho rằng khi xét 2 ngôi nhà có cùng diện tích, cùng số phòng tắm và cùng số
tuổi, nếu ngôi nhà A có nhiều hơn ngôi nhà B 1 phòng thì giá bán ngôi nhà A cao hơn
giá bán ngôi nhà B khoảng 8%. Bạn hãy cho nhận xét về ý kiến này, với mức ý nghĩa 1%.
7) Hãy cho biết biến log(area) và biến rooms có ý nghĩa thống kê riêng lẻ hay không, với mức ý nghĩa 1%?
8) Để kiểm định xem biến log(area) và biến rooms có ý nghĩa thống kê đồng thời hay
không thì ta tiến hành hồi quy mô hình ràng buộc là mô hình nào? Biết rằng khi hồi
quy mô hình ràng buộc, ta thu được . Biến log(area) và biến rooms có ý nghĩa thống kê
đồng thời hay không, với mức ý nghĩa 1%?
9) Kiểm định giả thuyết H0: tất cả các biến độc lập không giải thích giúp biến phụ thuộc, với mức ý nghĩa 1%? HƯỚNG DẪN
1) Trình bày kết quả hồi quy mẫu:
2) : Trong điều kiện các yếu tố khác không đổi, khi diện tích ngôi nhà tăng 1% thì giá bán nhà tăng 0,5288%.
3) Kiểm định H0: baths = 0 và H1: baths ≠ 0 Cách 1: tbaths = 3,418
Có mức ý nghĩa = 3% /2 = 0,015
Do n – (k+1) = 316 lớn nên t /2(n-(k+1)) z /2 = z0,015 = 2,17 Vì
|t| = 3,418 > z /2 = 2,17 nên ta bác bỏ H0.
Vậy số phòng tắm có ảnh hưởng đến giá bán nhà. lOMoAR cPSD| 47207194
Cách 2: p-value(baths) = 0,000715 < = 3% Bác bỏ H0. Vậy
số phòng tắm có ảnh hưởng đến giá bán nhà. Cách 3:
Có độ tin cậy (1- ) = 1 – 0,03 = 0,97 /2 = 0,015
Do n – (k+1) = 316 lớn nên t /2(n-(k+1)) z /2 = z0,015 = 2,17 dung
hàm TIVN2T(α,df) (2 tail) ; TIVN(α,df) (1 tail) Suy ra: Vậy: 0,0436; 0.1946)
Vì 0 0,0436; 0,1946) nên ta bác bỏ H0.
Vậy số phòng tắm có ảnh hưởng đến giá bán nhà. 4)
Có độ tin cậy (1- ) = 98% /2 = 0,01 t /2(n-(k+1)) = t0,01(316) = 2,326
Do n – (k+1) = 316 lớn nên t /2(n-(k+1)) z /2 = z0,01 = 2,325 Suy ra: Vậy: 0.0055694; 0.1130306)
5) Kiểm định H0: age = 0 và H1: age < 0 Cách 1: tage = -6,887 Có mức ý nghĩa = 2%
Do n – (k+1) = 316 lớn nên t (n-(k+1)) z = z0,02 = 2,055 Vì
t = -6,887 < -z = -2,055 nên ta bác bỏ H0.
Vậy khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm. Cách
2: p-value(age) = 3,09x10-11/2 < = 2% Bác bỏ H0.
Vậy khi tuổi ngôi nhà càng cao thì giá bán nhà càng giảm.
6) Kiểm định H0: rooms = 0,08 và H1: rooms ≠ 0,08 t = (0,0593-0,08)/0,0231 = -0,896
Có mức ý nghĩa = 1% /2 = 0,005 t /2(n-(k+1)) = t0,005(316) = 2,576
Do n – (k+1) = 316 lớn nên t /2(n-(k+1)) z /2 = z0,005 = 2,575 Vì
|t| = 0,896 < t /2 = 2,576 nên ta chấp nhận H0.
Vậy khi xét 2 ngôi nhà có cùng diện tích, cùng số phòng tắm và cùng số tuổi, nếu ngôi
nhà A có nhiều hơn ngôi nhà B 1 phòng thì giá bán ngôi nhà A cao hơn giá bán ngôi nhà B
khoảng 8%. (Vậy ta đồng ý với ý kiến này) Cách 2: Khoảng tin cậy của là ….
7) Kiểm định H0: log(area) = 0 và H1: log(area) ≠ 0 Kiểm định H0: rooms = 0 và H1: rooms ≠ 0
8) Kiểm định ràng buộc loại trừ: H0: log(area) = rooms = 0. (Dùng kiểm định F).
H1: Tồn tại log(area) ≠ 0 hoặc rooms ≠ 0 lOMoAR cPSD| 47207194 F Ta có: (R2 2 2 UR ) / (Rn kR
)(/ q 1)) (0,5834(1 0,5834) / 316 0,4847) / 2 37,433 (1 RUR
Mức ý nghĩa = 1% F (q; (n-(k+1))) = F0,01(2; 316) = 4,61 dùng hàm FIVN(α, q, df) Vì
F = 37,433 > F = 4,61 nên ta bác b Hỏ 0.
Vậy biến log(area) và biến rooms có ý nghĩa thống kê đồng thời.
9) Kiểm định H0: R2 = 0 và H1: R2 > 0 (trường hợp đặc biệt của kiểm định ràng buộc loại trừ) R k2 / 0,5834/ 4 F 110,63
(1 R2) / (n k ( 1)) (1 0,5834) / 316
Mức ý nghĩa = 1% F (k; (n-(k+1))) = F0,01(4; 316) = 3,32 Vì
F = 110,63 > F = 3,32 nên ta bác b Hỏ 0.
Vậy tất cả các biến độc lập có giải thích giúp biến phụ thuộc. Cách 2:
p-value(F) < 2,2x10-16 < = 1% nên ta bác bỏ H0.
Vậy tất cả các biến độc lập có giải thích giúp biến phụ thuộc. HƯỚNG DẪN THỰC HÀNH
Nhập dữ liệu vào R:
Dùng lệnh read.csv(), đặt tên tập dữ liệu đó là hprice.
Thực hiện hồi quy mô hình:
> hq1 <- lm(log(price) ~ log(area) + rooms + baths + age, data=hprice) > summary(hq1)
Call: lm(formula = log(price) ~ log(area) + rooms + baths + age, data = hprice) Residuals: Min 1Q Median 3Q Max -1.3856 -0.1901 0.0122 0.1992 0.8413 Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 6.7588037 0.4649094 14.538 < 2e-16 ***
log(area) 0.5288392 0.0694604 7.614 3.11e-13 ***
rooms 0.0593313 0.0231439 2.564 0.010822 *
baths 0.1190959 0.0348483 3.418 0.000715 ***
age -0.0037630 0.0005464 -6.887 3.09e-11 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.2846 on 316 = (n-(k+1)) degrees of freedom lOMoAR cPSD| 47207194
Multiple R-squared: 0.5834, Adjusted R-squared: 0.5781
F-statistic: 110.6 on 4 and 316 DF, p-value: < 2.2e-16
Kiểm định sai số u có phân phối chuẩn:
Cách 1 : Dùng kiểm định Jarque-Bera :
> #Lấy phần dư của hàm hồi quy trên :
> #Tải gói lệnh fBasics về cài đặt vào máy.
> install.packages("fBasics" ) > library(fBasics )
Loading required package: timeDate
Loading required package: timeSeries
> #Thực hiện kiểm định Jarque-Bera : > jarqueberaTest(phandu 1) Title:
Jarque - Bera Normalality Test Test Results: > phandu1 <- resid(hq1) STATISTIC: X-squared: 33.3374 P VALUE: Asymptotic p Value: 5.766e-08
Giả thuyết H0: Sai số u có phân phối chuẩn.
Nhận thấy: p-value = 5,766.10-8 < = 0,05 Bác bỏ H0. Vậy
sai số u không có phân phối chuẩn.
Cách 2 : Dùng kiểm định Shapiro-Will. > shapiro.test(phandu 1) Shapiro-Wilk normality test data: phandu1
W = 0.9838, p-value = 0.001114
Hướng dẫn: nhìn p-value để kết luận. lOMoAR cPSD| 47207194
Cách 3 : Dùng kiểm định Anderson – Darling.
> #Tải gói lệnh nortest về cài đặt vào máy.
> install.packages("nortest" )
> #Thực hiện kiểm định Anderson-Darling : > library(nortest ) > ad.test(phandu 1)
Anderson-Darling normality test data: phandu1 A = 0.58913, p-value = 0.1236
Hướng dẫn: nhìn p-value để kết luận.
Cách 4: Dùng kiểm định Kolmogorov-Smirnov. > lillie.test(phandu 1)
Lilliefors (Kolmogorov-Smirnov) normality test data: phandu1
D = 0.041139, p-value = 0.2066
Hướng dẫn: nhìn p-value để kết luận.
Tìm khoảng tin cậy:
> confint(hq1,level = 0.95) 2.5 % 97.5 %
( Intercept) 5.844094645 7.673512770
log(area) 0.392175878 0.665502615 rooms 0.013795727 0.104866814 baths 0.050531961 0.187659796 age -0.004838062 -0.002687915
Với độ tin cậy 95%, khoảng tin cậy của hệ số hồi quy của biến rooms là: (0,0138; 0,1049) lOMoAR cPSD| 47207194
Kiểm định ràng buộc loại trừ: (câu 8)
> #Ti g ói lnh c ar vê ềcài đt vào máy. > install.packages("car" ) > #Thc h in kim đnh F : > library(car )
> linearHypothesis(hq1,c("log(area)=0","rooms=0" )) Linear hypothesis test Hypothesis: log(area) = 0 rooms = 0 Model 1: restricted model
Model 2: log(price) ~ log(area) + rooms + baths + age
Res.Df RSS Df Sum of Sq F Pr(>F) 1 318 31.663
2 316 25.595 2 6.0678 37.457 2.521e-15 *** ---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Hướng dẫn: nhìn p-value để kết luận.