Báo cáo bài tập lớn môn Xác suất thống kê đề tài "So sánh giá nhà tại Bắc Kinh dựa vào các phương pháp thống kê"

Báo cáo bài tập lớn môn Xác suất thống kê đề tài "So sánh giá nhà tại Bắc Kinh dựa vào các phương pháp thống kê" của Đại học Bách khoa Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!

lOMoARcPSD|36991220
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÀI TẬP LỚN MÔN HỌC
XÁC SUẤT VÀ THỐNG KÊ
ĐỀ TÀI
SO SÁNH GIÁ NHÀ TẠI BẮC KINH DỰA VÀO CÁC PHƯƠNG PHÁP
THỐNG KÊ
Chương 1: Cơ sở lý thuyết.............................................................................................
1.1. Phân tích phương sai một yếu tố............................................................................2.
1.1.1 Lý thuyết về ANOVA (Phân tích phương sai)..........................................2
1.1.2 Phân tích phương sai một yếu tố................................................................2
1.2. Hồi quy tuyến tính..................................................................................................4
1.2.1 Định nghĩa................................................................................................4
1.2.2 Độ phù hợp mô hình.................................................................................5
1.2.3 Đánh giá mức độ toàn diện của mô hình...................................................6
1.2.4 Đánh giá ý nghĩa của từng biến độc lập riêng biệt....................................7
Chương 2: Hoạt động....................................................................................................
2.1. Đề bài.....................................................................................................................8
2.2. Thực hiện................................................................................................................9
2.2.1 Đọc dữ liệu...............................................................................................9
2.2.2 Làm sạch dữ liệu.......................................................................................9
2.2.3 Kiểm tra dữ liệu…………………………………………………………10
2.2.4 Loại bỏ dữ liệu ………………………………….……………………...11
2.2.5 Làm rõ dữ liệu…………………………………...……………………...12
2.2.6 ANOVA một nhân tố: đánh giá sự khác biệt về giá nhà (totalPrice) giữa
các quận (district) đã xây dựng trong năm 2012………………………………15
lOMoARcPSD|36991220
i
2.2.7 Xây dựng mô hình hồi quy tuyến tính: Sử dụng hình hôi quy tuyến tính
phù hợp để đánh giá các nhân tố tác động đến tổng chi phí bán nhà thực
tế……………………………………………………………………………….27
TÀI LIỆU THAM KHẢO.............................................................................................
Chương 1: CƠ SỞ LÝ THUYẾT
1.1 Phân tích phương sai một yếu tố
1.1.1 Lý thuyết về phân tích phương sai ( ANOVA)
Phân tích phương sai là một mô hình để xem xét sự biến động của một biến ngẫu nhiên
định lượng X chịu tác động trực tiếp của một hay nhiều yếu tố nguyên nhân (định tính).
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể) dựa
trên các trị trung bình của các mẫu quan sát tcác nhóm y thông qua kiểm định
giả thuyết củaa kết luận và sự bằng nhau của các trung bình tổng thểy.
1.1.2 Phân tích phương sai
Với các giả thuyết của bài toán ( điều kiện bài toán):
-Các tổng thể có phân phối chuẩn (với trung bình tương ứng là a
1
; a
2
;…; a
k
chưa biết).
- Các tổng thể có phương sai bằng nhau.
- Các mẫu quan sát được lấy độc lập.
Giả sử ta muốn so sánh k nhóm X
j
(với j = 1,2,. . . k) có kỳ vọng lần lượt µ
j
, ..., µ
k
(với
j = 1,2,. . . k)
Mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định
giả thuyết như sau: Giả thiết kiểm định H
0
: µ
1
= µ
2
= ... = µ
k
Gi thuyết 𝐻
0
cho rằng trung bình của k tổng thể đều bằng nhau
Giả thiết đối với H
1
: a
a
j
; với i
j
Giả thuyết cho rằng tồn tại ít nhất một cặp trung bình tổng thể khác nhau.
Ta có các trung bình mu ca các nhóm (xem như đi din ca các tng th). Trưc hết
ta xem cách tính các trung bình mu t nhng quan sát ca k mu ngẫu nhiên độc lp
(ký hiu 𝐻
1
, 𝐻
2
, 𝐻
k
) trung bình chung ca k mu quan sát ( hiu 𝐻 ) từ
trường hợp tổng quát như sau:
Tính trung bình mu ca tng nhóm 𝐻
1
, 𝐻
2
, … 𝐻
k
theo công thức:
lOMoARcPSD|36991220
(i= 1,2,..k)
Và trung bình chung của k mẫu
Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương). Tính tổng
các chênh lệch bình phương trong nội bộ nhóm SSW tổng các chênh lệch bình phương
giữa các nhóm SSG.
Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng
các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm,
rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại.
Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
Tương tự như vậy ta tính cho đến nhóm thứ k được SSk. Vậy tổng các chênh lệch bình
phương trong nội bộ các nhóm được tính như sau:
SSW = SS
1
+ SS
2
+ ... + SS
k
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng cácc
hênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình
chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng
cả từng nhóm).
Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng các chênh lệch
đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) với trung
bình toàn bộ (x).
Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng
cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch
bình phương giữa các nhóm.
SST = SSW + SSG
=
=
lOMoARcPSD|36991220
-SST: Tổng các biến thiên của X do tất cả các yếu tố tạo ra.
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được
phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG)
phần biến thiên còn lại do các yếu tố khác không nghiên cứu đây tạo ra (SSW). Nếu
phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến
thiên do các yếu tố khác không cét tạo ra, tchúng ta càng sở đe bác bỏ H0
kết luận yếu tố nguyên nhân đang nghiên cứu ảnh hưởng ý nghĩa đến yếu tố kết
quả. Nhận xét:
-SSB ( hay SSG) : Phần biến thiên của giá trị X do các mức độ của yếu tố đang xem xét
tạo ra.
-SSW: Phần biến thiên của giá trị X do các yếu tố nào đó không được xem xét tạo ra.
- SST: Tổng các biến thiên của X do tất cả các yếu tố tạo ra.
Tính phương sai trong nội bộ nhóm (MSW) bang ch lấy tőng các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng n - k (n số
quan sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết quả
do các yếu tố khác gây ra.
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương
giữa các nhóm chia cho bậc tự do tương ứng k - 1. MSG ước lượng phần biến thiên
của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra.
Để kiểm tra giả thuyết, ta cần tính một giá trị làm tiêu chuẩn kiểm định:
F =
Quy tắc kiểm định: nếu F > F
k-1;nk-k;α
thì ta bác bỏ giả thuyết H
0
(Miền
bác bỏ: W
α
= (F
k-1;nk-k;α
; +)).
Giá trị của F
k-1;nk-k;α
được tra trong bảng Fisher.
1.2 Hồi quy tuyến tính
1.2.1 Định nghĩa
Hàm hồi quy của Y theo X chính là kỳ vọng có điều kiện của Y đối với X, tức là E (Y|
X).
Việc phân tích hồi quy nghiên cứu mối liên hệ phụ thuộc của một biến (gọi biến
phụ thuộc) vào một hay nhiều biến khác ( gi các biến độc lập); với ý tưởng ước
lOMoARcPSD|36991220
lượng giá trị trung bình (tổng thể) của biến phụ thuộc trên sở biết trước giá trị các
biến độc lập (qua mẫu).
Phương trình hồi quy đơn biến: Y = β
0
+ β
1
X + e
Phương trình hồi quy bội: Y = β
0
+ β
1
X
1
+ β
2
X
2
+ ... + β
n
X
n
+ e Trong
đó:
+Y là biến phụ thuộc, biến chịu tác động của biến khác.
+X, X
1
, X
2
, X
n
: biến độc lập, là biến tác động lên biến khác.
0
là hằng số hồi quy, hay còn được gọi là hệ số chặn.
+ β
1
, β
2
, β
n
: hệ số hồi quy, hay còn được gọi là hệ số góc.
+e là sai số, chỉ số càng lớn càng khiến cho khả năng dự đoán của hồi quy trở nên kém
chính xác hơn hoặc sai lệch nhiều hơn so với thực tế.
1.2.2 Độ phù hợp của mô hình
Tính toán hệ số xác định bội R2: khi có nhiều biến độc lập trong mô hình đa bội thì R2
vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ
của biến phụ thuộc và các biến độc lập trong mô hình.
Ta có:
+∑(𝐻
i
- )
2
: TSS Total Sum of Squares
+ ∑( - )
2
: ESS Explained Sum of Squares
+∑ 𝐻
i
2
: RSS Residual Sum of Squares
Ta có thể viết: TSS = ESS + RSS Ý
nghĩa của các thành phần:
+ TSS tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị
trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ m hồi quy mẫu và giá trị trung bình của chúng. Phần y đo độ chính
xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phn: mt phn do ESS mt phn do RSS y ra. 𝐻
2
được
xác định theo công thức:
T s gia tng biến thiên đưc gii thích bi mô hình cho tổng bình phương cần đưc
giải thích được gi là h s xác định. 𝐻
2
đo tỷ l hay s % ca toàn b sai lch Y vi giá
lOMoARcPSD|36991220
tr trung bình đưcgii thích bng hình. Khi đó người ta s dng 𝐻
2
để đo sự phù
hợp của hàm hồi quy:
+ 0 ≤ 𝐻
2
1.
+ 𝐻
2
cao nghĩa hình ước ợng được giải thích được một mức độ cao biến động
của biến phụ thuộc.
+ Nếu 𝐻
2
= 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu 𝐻
2
= 0, nghĩa mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ
thuộc y
1.2.3 Đánh giá ý nghĩa toàn diện của mô hình
hình hồi quy chúng ta y dựng dựa trên cơ sở dữ liệu của một mẫu lấy từ
tổng thể vậy có thể bị ảnh hưởng của sai số lấy mẫu, vậy chúng ta phải kiểm
định lại ý nghĩa thống kê của toàn bộ mô hình.
Bài toán kiểm định F:
Tiêu chuẩn kiểm định:
Giả thiết
H
0
: R
2
= 0 ( mô hình không phù hợp )
H
1
: R
2
≠ 0 ( mô hình phù hợp ) Bài
toán kiểm định F:
Tiêu chuẩn kiểm định
F =
Hoặc
F =
Hàm hồi quy của Y theo X chính kỳ vọng có điều kiện của Y đối với X, tức E(Y|
X).
Trong đó:
+R
2
là hệ số xác định
+n là cỡ mẫu
+k là số biến độc lập
lOMoARcPSD|36991220
Miền bác bỏ: W
a
= (F
a
(k, n - k - 1); +). Để tìm F
a
(k, n - k - 1), ta tra bảng Fisher tại
mức ý nghĩa α = 0.05 tại cột k và hàng n - k - 1.
Nếu F W
a
ta bác bỏ giả thiết H
0
, suy ra hình hồi quy bội với các biến độc lập ta
đưa vào có thể giải thích một cách có ý nghĩa cho biến phụ thuộc, hay nói cách khác
mô hình phù hợp. Ngược lại, ta suy ra mô hình không phù hợp.
1.2.4 Đánh giá ý nghĩa của từng biến độc lập riêng biệt
Ở kiểm định F, ta đã đánh giá được rằng mô hình có ý nghĩa. Điều này có nghĩa là có ít
nhất một biến độc lập trong hình thể giải thích được cho sự biến thiên của biến
phụ thuộc. Tuy nhiên, điều này không có nghĩa là tất cả các biến độc lập ta đưa vào mô
hình đều có ý nghĩa. Để có thể xác định được biến độc lập nào có ý nghĩa chúng ta phải
kiểm định giả thiết sau:
H
0
: β
j
= 0 với j = 1, 2, ..., k
H
1
: β
j
= 0
Chúng ta có thể dùng kiểm định t để kiểm tra ý nghĩa của mỗi hệ số hồi quy với độ tin
cậy 95%:
T =bSSEj −0 n-k-1
Trong đó:
b
j
là hệ số độ dốc trong mô hình hồi quy mẫu cho biến độc lập thứ j. s
bj
là sai số chuẩn ước lượng của hệ số độ dốc của biến độc lập thứ j.
Miền bác bỏ: W
a
= (t
a
(n - k - 1); +). Tra bảng phân phối Student ta tìm được giá trị
giới hạn t
a
(n - k - 1). Nếu T
qs
W
a
ta bác bỏ giả thiết H
0
, suy ra biến độc lập j khả
năng giải thích cho biến phụ thuộc. Ngược lại, ta suy ra biến độc lập j không khả
năng giải thích cho biến phụ thuộc.
Chương 2: Hoạt động
2.2 Đề bài:
Tập tin “new.xlsx” chứa thông tin về giá bán (đơn vị đô la) của 318851 ngôi nhà ở
Bắc Kinh trong giai đoạn từ 2011-2017, một số dữ liệu được giao dịch vào tháng 1
năm 2018 và một số thậm chí còn sớm hơn. Bên cạnh giá nhà, bộ dữ liệu còn bao gồm
các biến miêu tả các thuộc tính khác như số lượng người theo dõi giao dịch, loại công
lOMoARcPSD|36991220
trình, kết cầu ngôi nhà…Dữ liệu gốc được tham khảo từ trang
https://bj.lianjia.com/chengjiao. Các biến chính trong bộ dữ liệu:
tradeTime: thời điểm giao dịch
followers: số người theo dõi giao dịch.
TotalPrice: tổng giá ngôi nhà.
Square: diện tích ngôi nhà.
buildingType: loại công trình, bao gồm tháp (1), nhà gỗ (2), sự kết hợp giữa
tấm và tháp (3), tấm (4).
constructionTime: thời gian xây dựng.
buildingStructure: cấu trúc ngôi nhà, bao gồm không xác định (1), hỗn hợp
(2), gạch và gỗ (3), gạch và bê tông (4), thép (5) và hỗn hợp bê tông - thép (6).
elevator: có (1) và không có thang máy (0).
district: quận
Các bước thực hiện:
1/ Đọc dữ liệu (Import Data): new.xlsx
2/ Làm sạch dữ liệu (Data Cleaning): kiểm tra dữ liệu khuyết (NA).
3/ Làm rõ dữ liệu (Data visualization): thống kê t- dùng thống kê mẫu vẽ đồ thị.
4/ Sử dụng ANOVA để đánh giá sự khác biệt giá nhà giữa các quận.
5/ Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến
giá nhà ở Bắc Kinh.
2.2 Thực hiện:
2.2.1 Đọc Dữ Liệu (Impost Data)
Dữ liệu cần đọc hiện đang một tệp tin excel , n : data#.xlsx . Thực hiện đọc dữ
liệu vào R
Xuất 10 giá trị đầu tiên , Kết quả :
2.2.2 Làm Sạch Dữ Liệu (data cleaning)
lOMoARcPSD|36991220
Yêu cầu : làm việc với những quan sát : “tradetime”, “fllower”, “total price”,
“Square” , “building type”, “ construction time”, “elevator”, “district” . nên chỉ chọn ra
những qua sát trên .
Kết quả :
2.2.3 Kiểm Tra Dữ liệu
Thống kê số lượng giá trị khuyết đối với từng biến :
Kết quả :
Thống kê tỷ lệ giá trị khuyết đối với từng biến :
lOMoARcPSD|36991220
Kết quả
Nhận Xét : Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với
từng biến, ta nhận thấy có tương đối ít giá trị khuyết , chỉ xuất hiện ở biến “elevator”.
Nhưng vẫn phải lựa chọn phương pháp loại bỏ các quan sát đó .
2.2.4 Loại Bỏ dữ liệu
Tạo 1 frame data mới “new_data2” gồm những quan sát đã qua loại bỏ .
Kết quả :
Để kiểm tra lại , thống kê số quan sát ban đầu và khi đã xóa :
Kết quả :
lOMoARcPSD|36991220
2.2.5 Làm rõ dữ liệu (Data visualization)
Tính các giá trị thống tả (kích thước mẫu, trung bình, độ lệch chuẩn, min, max,
trung vị, các điểm tứ phân vị) của chênh lệch giữa tổng giá nhà (biến totalPrice) và cấu
trúc ngôi nhà (biến buildingStructure). Xuất kết quả dưới dạng bảng.
Hình: code R kết qukhi tính các giá trị thống tả cho biến tổng giá ngôi nhà
(totalPrice) theo biến cấu trúc ngôi nhà (buildingStructure).
Nhận xét
Biểu đồ Histogram (biểu đồ tần suất)
Code R: sử dụng hàm hist để vẽ biểu đồ thể hiện phân phối của biến giá nhà/m
2
(price).
lOMoARcPSD|36991220
Nhận xét:
Dựa trên biểu đồ Histogram của biến price, ta nhận thấy phân phối của biến price đang
xu hướng lệch trái, điều y nghĩa phần lớn các ngôi nhà Bắc Kinh giá
nhà/m
2
nằm trong khoảng từ 0 đến 75000 đô la và chỉ số ít có giá trị cao hơn.
Biểu đồ hộp:
Code R: sử dụngm boxplot để vẽ biểu đồ hộp thể hiện phân phối của quận (district)
theo cấu trúc ngôi nhà (buildingStructure).
Kết quả:
Kết quả:
lOMoARcPSD|36991220
Dựa trên biểu đồ boxplot của biến buildingStructure theo biến district, ta thể đọc
được 5 vị trí phân bố dữ liệu đó là: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung
vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max) của các cấu trúc ngôi nhà
các quận. Nhìn chung, ta thấy các ngôi nhà có cấu trúc được làm từ gạch và gỗ (3), được
ưa chuộng nhất so với các cấu trúc nhà còn lại.
Biểu đồ tương quan 2 biến:
Code R: sử dụng m pairs để thể hiện mối tương quan giữa số ợng người theo dõi
giao dịch (followers) theo diện tích ngôi nhà (square).
Kết quả:
Nhận xét:
lOMoARcPSD|36991220
Nhận xét:
Nhìn vào biểu đồ tương quan giữa 2 biến ở phía dưới (biến followers biến chính), ta
thấy phần lớn lượng người theo dõi giao dịch tập trung mức từ 0-600 người với diện
tích nhà là 0-500 m
2
.
Nhìn vào biểu đồ tương quan giữa 2 biến ở phía trên (biến square biến chính), ta thấy
phần lớn diện tích nhà từ 0-500m
2
thì lượng người theo dõi giao dịch sẽ tập trung ở mc
0-600 người.
=>Nhìn chung cả 2 đồ thị đều xu ớng giảm dần (tlệ nghịch), mức độ tập trung
của các điểm nằm trong khoảng nhất định tuy nhiên mối quan hệ tuyến tính giữa 2 biến
vẫn chưa thật sự ràng, vì vậy ta cần phải xây dựng hình hồi quy để kiểm tra
đưa ra đánh giá tốt hơn.
2.2.6 ANOVA một nhân tố: đánh giá sự khác biệt về giá nhà (totalPrice) giữa các quận
(district) đã xây dựng trong năm 2012
Trước khi bắt đầu tiến hành đánh giá, ta cần tìm và lọc các dữ liệu chứ các hiệu
không phù hợp
Hình. CodeR kết quả khi tìm lọc các dữ liệu chứ các hiệu không phù hợp
Ta quan tâm đến việc kiểm định liệu rằng sự khác biệt về giá nhà giữa các quận đã
xây dựng trong năm 2012 hay không?
Lọc giá cả của các nhà đã xây dựng trong năm 2012:
Hình. CodeR và kết quả khi lọc giá cả của các nhà đã y dựng trong năm 2012 Giải
thích lý do sử dụng ANOVA một nhân tố:
Ta có nhiều quận đã xây dựng nhà trong năm 2012. Để thực hiện so sánh trung bình của
nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai. Nếu chỉ so sánh 2
trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy, nếu dùng t-test cho bài toán y, ta
phải thực hiện kiểm định liên tục nhiều lần. Phương pháp phân tích phương sai cho t kết
luận sự bằng nhau hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm
định duy nhất.
Như vậy, ta sử dụng hình ANOVA một nhân tố: đánh gsự khác biệt về giá nhà
(totalPrice) giữa các quận (district) đã xây dựng trong năm 2012.
Trong đó:
Biến phụ thuộc: totalPrice
Biến độc lập: district
lOMoARcPSD|36991220
Hình. CodeR kết quả khi khai báo các biến Đặt
giả thuyết:
+ Giả thuyết Giá nhà trung bình giữa c quận đã y dựng
trong năm 2012 không có sự chênh lệch.
+ Giả thuyết ít nhất 2 quận sự chênh lệch về giá
nhà trung bình đã xây dựng trong năm 2012. Bảng ANOVA một nhân tố.
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Giá nhà trung bình các quận đã xây dựng trong m 2012
tuân theo phân phối chuẩn.
+ Tính đồng nhất của các phương sai: Phương sai giá nhà trung bình giữa các quận đã
xây dựng trong năm 2012 bằng nhau. Kiểm định giả định phân phối chuẩn:
Giả thuyết : Giá nhà giữa các quận đã xây dựng trong năm 2012 tuân theo phân phối
chuẩn.
Giả thuyết : Giá nhà giữa các quận đã xây dựng trong m 2012 không tuân theo
phân phối chuẩn.
CodeR kiểm tra giả định phân phối chuẩn:
Hình. CodeR dùng để kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ của
mỗi quận
Đây CodeR chung để kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ của
quận X (với X tên quận). bài toán y ta bao gồm 13 quận, vậy ta thực hiện
kiểm định gả định phân phối chuẩn lần lượt các quận và thu được kết quả:
lOMoARcPSD|36991220
Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ quận 1
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 1 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value các kiểm định ad.test hơn so với mức ý nghĩa α = 0.05, nên ta
bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice quận 1 không tuân
theo phân phối chuẩn.
lOMoARcPSD|36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 2
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 2 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 2 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 3
lOMoARcPSD|36991220
Nhận xét:
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát nằm trên đường
thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 3 tuân theo phân phối
chuẩn.
Ngoài ra, p-value c kiểm định ad.test lớn hơn so với mức ý nghĩa α = 0.05, nên ta
bác bỏ giả thuyết , nên cũng đưa ra kết luận biến totalPrice quận 3 tuân theo phân
phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 4
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 4 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 4 không
tuân theo phân phối chuẩn.
lOMoARcPSD|36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 5
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 5 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 5 không
tuân theo phân phối chuẩn.
lOMoARcPSD|36991220
Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ quận 6
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 6 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 6 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 7
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 7 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 7 không
tuân theo phân phối chuẩn.
lOMoARcPSD|36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 8
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát nằm trên đường
thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 8 tuân theo phân phối
chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test lớn hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận biến totalPrice quận 8 tuân
theo phân phối chuẩn.
lOMoARcPSD|36991220
Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 9
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy nhiều giá trị quan sát nằm trên đường
thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 9 tuân theo phân phối
chuẩn.
Ngoài ra, p-value c kiểm định ad.test lớn hơn so với mức ý nghĩa α = 0.05, nên ta
bác bỏ giả thuyết , nên cũng đưa ra kết luận biến totalPrice quận 9 tuân theo phân
phối chuẩn.
lOMoARcPSD|36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 10
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 10 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 10 không
tuân theo phân phối chuẩn.
lOMoARcPSD|36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 11
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 11 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice ở quận 11 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 12
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 12 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value các kiểm định ad.test hơn so với mức ý nghĩa α = 0.05, nên ta
bác bỏ giả thuyết , nên cũng đưa ra kết luận là biến totalPrice quận 12 không tuân
theo phân phối chuẩn.
lOMoARcPSD|36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 13
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng vọng của phân phối chuẩn do đó biến totalPrice quận 13 không tuân
theo phân phối chuẩn.
Ngoài ra, p-value các kiểm định ad.test hơn so với mức ý nghĩa α = 0.05, nên ta
bác bỏ giả thuyết , nên cũng đưa ra kết luận biến totalPrice quận 13 không tuân
theo phân phối chuẩn.
Kiểm định giả định về tính đồng nhất của các phương sai:
Giả thuyết : Phương sai giá nhà trung bình giữa các quận đã y dựng trong năm
2012 bằng nhau.
Đối thuyết : Phương sai giá nhà trung bình giữa các quận đã y dựng trong m
2012 khác nhau.
Hình. CodeR và kết quả khi kiểm định giả định về tính đồng nhất của phương sai
Nhận xét: Dựa trên p-value kiểm định leveneTest hơn rất nhiều so với mức ý nghĩa
α = 0.05, nên ta c bỏ giả thuyết , vậy nên ta thể đưa ra kết luận ít nhất 2
quận phương sai giá nhà trung bình khác nhau. Thực hiện phân tích phương sai
một nhân tố:
lOMoARcPSD|36991220
Hình. CodeR và kết quả khi thực hiện ANOVA một nhân tố
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSB= 61763231, bậc tự do k-1=12 (k=13)
+ SSW= 314587596, bậc tự do N-k=4984-13=4971 (N là tổng số phần tư khảo sát ở tất
cả các nhóm)
+ MSB=SSB/(k-1)= 5146936
+ MSW=SSW/(N-k)= 63285
+ Giá trị thống kê kiểm định: f=MSB/MSW= 81.33
+ Mức ý nghĩa quan sát: p-value<2e-16
Dựa vào p-value<2e-16 rất so với mức ý nghĩa α = 0.05 nên ta bác bỏ được Giả thuyết
.
Vậy có sự khác biệt về giá nhà trung bình giữa các quận đã xây dựng trong năm 2012.
Thực hiện so sánh bội:
Nhận xét:
+ Đối với quận 2-1:
Giả thuyết : Giá nhà trung bình giữa quận 2 quận 1 đã xây dựng trong năm 2012
bằng nhau.
Đối thuyết : Giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012
khác nhau.
lOMoARcPSD|36991220
Dựa vào p-value, ta thấy p-value= 0.0011583 < mức ý nghĩa 5% nên ta bác bỏ giả thuyết
, chấp nhận đối thuyết . Vậy giá nhà trung bình giữa quận 2 quận 1 đã y dựng
trong năm 2012 khác nhau. Mặt khác, diff=-306.437072<0 nên ta có thể kết luận giá
nhà trung bình giữa quận 2 và quận 1 đã y dựng trong năm 2012 khác nhau. Ngoài ra,
ta thể đưa ra kết luận dựa vào khoảng tin cậy (-541.8117063; 71.0624377) không
chứa giá trị 0 nên giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012
khác nhau, và khoảng tin cậy nhận giá trị âm nên giá nhà trung bình đã xây dựng trong
năm 2012 của quận 2 thấp hơn quận 1.
Tương tự, ta sẽ thực hiện so sánh đối với từng cặp quận. Ta sẽ đưa ra kết luận rằng giá
nhà ở quận 10 cao nhất và giá nhà ở quận 13 thấp nhất.
2.2.7. y dựng nh hồi quy tuyến tính: Sử dụng hình hôi quy tuyến tính phù
hợp để đánh giá các nhân tố tác động đến tổng chi phí bán nhà thực tế.
Để phân tích các yếu tố ảnh hưởng đến totalPrice ta đặt biến:
Biến phụ thuộc: totalPrice
Biến độc lập: followers, Square, buildingType, constructionTime,
buildingStructure, elevator, district
Thc hin v đồ th phân tán th hin phân tán ca totalPrice theo các biến còn li
plot(new_data6$tradeTime,new_data6$totalPrice, xlab = "tradeTime",ylab = "totalprice", main = "tradetime and
totalprice", col = "blue")
Hình 1. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến tradeTime
plot(new_data6$followers,new_data6$totalPrice, xlab = "followers",ylab = "totalprice", main = "followers and
totalprice", col = "red")
lOMoARcPSD|36991220
Hình 2. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến followers
plot(new_data6$square,new_data6$totalPrice, xlab = "square",ylab = "totalprice", main = "square and
totalprice", col = "black")
Hình 3. Code R và kết quả khi vẽ biểu đồ phân n của totalPrice theo biến square
plot(new_data6$buildingType,new_data6$totalPrice, xlab = "buildingType",ylab = "totalprice", main =
"builingType and totalprice", col = "green")
lOMoARcPSD|36991220
Hình . Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingType
plot(new_data6$constructionTime,new_data6$totalPrice, xlab = "constructionTime",ylab = "totalprice", main =
"constructionTime and totalprice", col = "brown")
Hình . Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến constructionTime
plot(new_data6$buildingStructure,new_data6$totalPrice, xlab = "buildingstructure",ylab = "totalprice",
main = "buildingstructure and totalprice", col = "orange")
lOMoARcPSD|36991220
Hình 6. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingstructure
plot(new_data6$elevator,new_data6$totalPrice, xlab = "elevator",ylab = "totalprice", main = "elevator and
totalprice", col = "purple")
lOMoARcPSD|36991220
Hình 7. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến elevator
plot(new_data6$district,new_data6$totalPrice, xlab = "district",ylab = "totalprice", main = "district and
totalprice", col = "pink")
Hình 8. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingstructure
Nhận xét: Thông qua các biểu đồ phân tán của biến totalPrice theo các biến còn lại ta
vẫn chưa nhìn thấy rõ mối quân hệ tuyến tính giữa chúng. Vậy biến totalPrice thật sự
có mối quan hệ tuyến tính với các biến còn lại hay không? Để trả lời cho câu hỏi này
chúng ta cần xây dựng mô hình hồi quy và thực hiện các kiểm định. Ta xây dựng mô
hình hồi quy tuyến tính 1:
31
model_1 =
lm(totalPrice~tradeTime+followers+square+buildingType+constructionTime+buildingStructure+elevator+district, data =
new_data6) summary(model_1)
lOMoARcPSD|36991220
lOMoARcPSD|36991220
Code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1
Nhận xét: Từ kết quả phân tích, ta thu
được:
= - 2.603e+03;
1
=
1.778e-06;
2
= 1.472e- 01; = 3.867e+00; =
9.009e+01;
5= 2.693e+01;
6
= 2.240e+01;
7
= 1.528e+03;
8
= 1.303e+01;
9
= 5.340e+01);
10= 2.777e+00
Mô hình được biểu diễn như sau:
= -2.603e+03 + (1.778e-06) x tradeTime + (1.472e-01) x followers +
(3.867e+00) x square + (9.009e+01) x buildingType2 + (2.693e+01) x buildingType3
+ (2.240e+01) x buildingType4 + (1.528e+03) x constructionTime1944 + (1.303e+01)
x buildingStructure + (5.340e+01) x elevator + (2.777e+00) x district
Kiểm định các h s hi quy:
Gi thuyết 𝐻0: H s hồi quy không có ý nghĩa thống kê (𝐻𝐻 = 0)
Đối thuyết 𝐻1: H s hồi quy có ý nghĩa thống kê (𝐻𝐻 0)
+ Vì Pr (> |𝐻|) ứng với các biến constructionTime1934, constructionTime1950,
constructionTime1951, constructionTime1952…, constructionTime 2015,
constructionTime2016 lớn hơn mức ý nghĩa 𝐻 = 0.05 nhưng Pr (> |𝐻|) ng vi
lOMoARcPSD|36991220
constructionTime1944 bé hơn mc ý nghĩa 𝐻 = 0.05 với nên ta chưa đ cơ sở để bác
b gi thuyết 𝐻0. Ta có thể cân nhắc việc loại bỏ biến constructionTime ra khỏi mô
hình.
Ta xây dựng mô hình hồi quy 2:
model_2 = lm(totalPrice~tradeTime+followers+square+buildingType+buildingStructure+elevator+district, data
= new_data6) summary(model_2)
Hình 10. Code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2
Ta so sánh các mô hình 1 và mô hình 2:
Gi thuyết 𝐻0: 𝐻1 = 𝐻2 =. . . = 𝐻10 = 0: Hai mô hình hiệu quả giống nhau (nghĩa
hình 2 hiệu quả hơn mô hình 1)
Đối thuyết 𝐻1: 𝐻1 0, 𝐻 = 1, ,10: Hai hình hiệu quả khác nhau (nghĩa hình
1 hiệu quả hơn mô hình 2)
Nhn xét: Da trên vic so sánh 2 mô hình, ta thy 𝐻 - 𝐻𝐻𝐻𝐻𝐻 < 2,2𝐻 - 16 rt bé so vi
mức ý nghĩa 𝐻 = 0.05 nên ta bác b gi thuyết 𝐻0, ta có th kết lun 2 mô hình hiu
qu khác nhau, tức có nghĩa là mô hình 1 hiu qu hơn mô hình 2 (vì có ít nhất 1 h s
𝐻𝐻 có ý nghĩa thống kê nên mô hình đầy đủ là mô hình 1 sẽ hiệu quả hơn).
Phân tích sự tác động của các nhân tố lên tổng chi phí giá nhà đến:
anova(model_1,model_2)
Hình 11.
Code R và kết quả khi so sánh 2 mô hình model_1 và model_1
lOMoARcPSD|36991220
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ
đến được cho bởi:
= -2.603e+03 + (1.778e-06) x tradeTime + (1.472e-01) x followers +
(3.867e+00) x square + (9.009e+01) x buildingType2 + (2.693e+01) x buildingType3
+ (2.240e+01) x buildingType4 + (1.528e+03) x constructionTime1944 + (1.303e+01)
x buildingStructure + (5.340e+01) x elevator + (2.777e+00) x district
Trước hết, ta thấy tằng p-value tương ứng với thống kê F bé hơn 2.2e-16, có ý nghĩa
rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải
thích rất cao đến tổng chí phí giá nhà totalPrice.
Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trong h s (h s 𝐻𝐻) và p-value
tương ứng. Ta thấy rằng p-value tương ứng với các biến followers, Square,
buildingType, buildingStructure, elevator, district bé hơn 2e-16, điều này nói lên rằng
ảnh hưởng của các biến này có ý nghĩa rất cao lên việc lệch giờ đến totalPrice. Kiểm
tra các giả định của mô hình
Nhc li các gi định ca mô hình hi quy: 𝐻𝐻 = 𝐻0 + 𝐻1. 𝐻1 + 𝐻𝐻. 𝐻𝐻 + 𝐻𝐻, 𝐻 = 1, …
𝐻.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính. + Sai số có kỳ vọng bằng 0
+ Phương sai của các sai số là hằng số +
Sai số có phân phối chuẩn.
+ Các sai số _1,…, _n thì độc lập nhau.ϵ ϵ
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình:
Nhận xét:
lOMoARcPSD|36991220
+ Đồ thị Residuals and Fitted vẽ các sai số tương ứng với c giá trị dự báo, kiểm tra
giả định tuyến
tính cỉa dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai cảu sai số
hằng số.
Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng nằm ngang nên giả định tính
tuyến tính của dữ liệu thoả mãn. Đường màu đỏ nằm sát đường y=0 nên giả định sai
số có kỳ vọng bằng 0 thảo mãn. Các sai số phân tán ngẫu nhiên dọc theo đường màu
đỏ nên giả định phương sai các số là hằng số thoả mãn.
+ Đồ thị Normal Q-Q vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có
phân phối chuẩn.
Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi dường thẳng kì vọng phân
phối chuẩn nên giả định sai số có phân phối chuẩn chưa thoả mãn.
+ Đồ thị Scale-Location vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả
định phương sai các sai số là hằng số.
Dựa trên đồ thị ta thấy, đường màu đỏ nằm ngang, các quan trắc phân tán ngẫu nhiên
dọc theo đường màu đỏ nên giả định phương sai của các hằng số là thoả mãn.
TÀI LIỆU THAM KHẢO
[1] Giáo trình Xác suất - Thống kê & phân tích số liệu, Nguyễn Đình Huy, Đậu
Thế Cấp, Lê Văn Đại
| 1/36

Preview text:

lOMoARcPSD| 36991220
ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
BÀI TẬP LỚN MÔN HỌC
XÁC SUẤT VÀ THỐNG KÊ ĐỀ TÀI
SO SÁNH GIÁ NHÀ TẠI BẮC KINH DỰA VÀO CÁC PHƯƠNG PHÁP THỐNG KÊ
Chương 1: Cơ sở lý thuyết.............................................................................................
1.1. Phân tích phương sai một yếu tố............................................................................2.
1.1.1 Lý thuyết về ANOVA (Phân tích phương sai)..........................................2
1.1.2 Phân tích phương sai một yếu tố................................................................2
1.2. Hồi quy tuyến tính..................................................................................................4
1.2.1 Định nghĩa................................................................................................4
1.2.2 Độ phù hợp mô hình.................................................................................5
1.2.3 Đánh giá mức độ toàn diện của mô hình...................................................6
1.2.4 Đánh giá ý nghĩa của từng biến độc lập riêng biệt....................................7
Chương 2: Hoạt động....................................................................................................
2.1. Đề bài.....................................................................................................................8
2.2. Thực hiện................................................................................................................9
2.2.1 Đọc dữ liệu...............................................................................................9
2.2.2 Làm sạch dữ liệu.......................................................................................9
2.2.3 Kiểm tra dữ liệu…………………………………………………………10
2.2.4 Loại bỏ dữ liệu ………………………………….……………………...11
2.2.5 Làm rõ dữ liệu…………………………………...……………………...12
2.2.6 ANOVA một nhân tố: đánh giá sự khác biệt về giá nhà (totalPrice) giữa
các quận (district) đã xây dựng trong năm 2012………………………………15 lOMoARcPSD| 36991220
2.2.7 Xây dựng mô hình hồi quy tuyến tính: Sử dụng mô hình hôi quy tuyến tính
phù hợp để đánh giá các nhân tố tác động đến tổng chi phí bán nhà thực
tế……………………………………………………………………………….27
TÀI LIỆU THAM KHẢO.............................................................................................
Chương 1: CƠ SỞ LÝ THUYẾT
1.1 Phân tích phương sai một yếu tố
1.1.1 Lý thuyết về phân tích phương sai ( ANOVA)
Phân tích phương sai là một mô hình để xem xét sự biến động của một biến ngẫu nhiên
định lượng X chịu tác động trực tiếp của một hay nhiều yếu tố nguyên nhân (định tính).
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể) dựa
trên các trị trung bình của các mẫu quan sát từ các nhóm này và thông qua kiểm định
giả thuyết củaa kết luận và sự bằng nhau của các trung bình tổng thể này.
1.1.2 Phân tích phương sai
Với các giả thuyết của bài toán ( điều kiện bài toán):
-Các tổng thể có phân phối chuẩn (với trung bình tương ứng là a ;…; a 1; a2 k chưa biết).
- Các tổng thể có phương sai bằng nhau.
- Các mẫu quan sát được lấy độc lập.
Giả sử ta muốn so sánh k nhóm X (với
j (với j = 1,2,. . . k) có kỳ vọng lần lượt là µj, ..., µk j = 1,2,. . . k)
Mô hình phân tích phương sai một yếu tố ảnh hưởng được mô tả dưới dạng kiểm định
giả thuyết như sau: Giả thiết kiểm định H0 : µ1 = µ2 = ... = µk
Giả thuyết 𝐻0 cho rằng trung bình của k tổng thể đều bằng nhau
Giả thiết đối với H ; với i 1 : a i aj j
Giả thuyết cho rằng tồn tại ít nhất một cặp trung bình tổng thể khác nhau.
Ta có các trung bình mẫu của các nhóm (xem như đại diện của các tổng thể). Trước hết
ta xem cách tính các trung bình mẫu từ những quan sát của k mẫu ngẫu nhiên độc lập (ký hiệu 𝐻̅ , … 1, 𝐻̅2
𝐻̅k) và trung bình chung của k mẫu quan sát ( ký hiệu 𝐻̅ ) từ
trường hợp tổng quát như sau:
Tính trung bình mẫu của từng nhóm 𝐻̅ , … 1, 𝐻̅2 𝐻̅k theo công thức: lOMoARcPSD| 36991220 = (i= 1,2,..k)
Và trung bình chung của k mẫu =
Tính các tổng các chênh lệch bình phương (hay gọi tắt là tổng bình phương). Tính tổng
các chênh lệch bình phương trong nội bộ nhóm SSW và tổng các chênh lệch bình phương giữa các nhóm SSG.
Tổng các chênh lệch bình phương trong nội bộ nhóm (SSW) được tính bằng cách cộng
các chênh lệch bình phương giữa các giá trị quan sát với trung bình mẫu của từng nhóm,
rồi sau đó lại tính tổng cộng kết quả tất cả các nhóm lại.
Tổng các chênh lệch bình phương của từng nhóm được tính theo công thức:
Tương tự như vậy ta tính cho đến nhóm thứ k được SSk. Vậy tổng các chênh lệch bình
phương trong nội bộ các nhóm được tính như sau:
SSW = SS1 + SS2 + ... + SSk
Tổng các chênh lệch bình phương giữa các nhóm (SSG) được tính bằng cách cộng cácc
hênh lệch được lấy bình phương giữa các trung bình mẫu của từng nhóm với trung bình
chung của k nhóm (các chênh lệch này đều được nhận thêm với số quan sát tương ứng cả từng nhóm).
Tổng các chênh lệch bình phương toàn bộ SST được tính bằng cách cộng các chênh lệch
đã lấy bình phương giữa từng giá trị quan sát của toàn bộ mẫu nghiên cứu (xij) với trung bình toàn bộ (x).
Có thể dễ dàng chứng minh là tổng các chênh lệch bình phương toàn bộ bằng tổng
cộng tổng các chênh lệch bình phương trong nội bộ các nhóm và tổng các chênh lệch
bình phương giữa các nhóm.
SST = SSW + SSG lOMoARcPSD| 36991220
-SST: Tổng các biến thiên của X do tất cả các yếu tố tạo ra.
Như vậy công thức trên cho thấy, SST là toàn bộ biến thiên của yếu tố kết quả đã được
phân tích thành hai phần: phần biến thiên do yếu tố đang nghiên cứu tạo ra (SSG) và
phần biến thiên còn lại do các yếu tố khác không nghiên cứu ở đây tạo ra (SSW). Nếu
phần biến thiên do yếu tố nguyên nhân đang xét tạo ra càng “đáng kể” so với phần biến
thiên do các yếu tố khác không cét tạo ra, thì chúng ta càng có cơ sở đe bác bỏ H0 và
kết luận là yếu tố nguyên nhân đang nghiên cứu ảnh hưởng có ý nghĩa đến yếu tố kết quả. Nhận xét:
-SSB ( hay SSG) : Phần biến thiên của giá trị X do các mức độ của yếu tố đang xem xét tạo ra.
-SSW: Phần biến thiên của giá trị X do các yếu tố nào đó không được xem xét tạo ra.
- SST: Tổng các biến thiên của X do tất cả các yếu tố tạo ra.
Tính phương sai trong nội bộ nhóm (MSW) bang cách lấy tőng các chênh lệch bình
phương trong nội bộ các nhóm (SSW) chia cho bậc tự do tương ứng là n - k (n là số
quan sát, k là số nhóm so sánh). MSW là ước lượng phần biến thiên của yếu tố kết quả
do các yếu tố khác gây ra.
Tính phương sai giữa các nhóm (MSG) bằng cách lấy tổng các chênh lệch bình phương
giữa các nhóm chia cho bậc tự do tương ứng là k - 1. MSG là ước lượng phần biến thiên
của yếu tố kết quả do yếu tố nguyên nhân đang nghiên cứu gây ra.
Để kiểm tra giả thuyết, ta cần tính một giá trị làm tiêu chuẩn kiểm định: F =
Quy tắc kiểm định: nếu F > Fk-1;nk-k;α thì ta bác bỏ giả thuyết H0 (Miền
bác bỏ: = (Fk-1;nk-k;α ; +)).
Giá trị của Fk-1;nk-k;α được tra trong bảng Fisher.
1.2 Hồi quy tuyến tính 1.2.1 Định nghĩa
Hàm hồi quy của Y theo X chính là kỳ vọng có điều kiện của Y đối với X, tức là E (Y| X).
Việc phân tích hồi quy là nghiên cứu mối liên hệ phụ thuộc của một biến (gọi là biến
phụ thuộc) vào một hay nhiều biến khác ( gọi là các biến độc lập); với ý tưởng ước lOMoARcPSD| 36991220
lượng giá trị trung bình (tổng thể) của biến phụ thuộc trên cơ sở biết trước giá trị các
biến độc lập (qua mẫu).
Phương trình hồi quy đơn biến: Y = β0 + β1X + e
Phương trình hồi quy bội: Y = β0 + β1X1 + β2X2 + ... + βnXn + e Trong đó:
+Y là biến phụ thuộc, biến chịu tác động của biến khác. +X, X
: biến độc lập, là biến tác động lên biến khác. 1, X2, Xn
0 là hằng số hồi quy, hay còn được gọi là hệ số chặn.
+ β , β , β : hệ số hồi quy, hay còn được gọi là hệ số góc. 1 2 n
+e là sai số, chỉ số càng lớn càng khiến cho khả năng dự đoán của hồi quy trở nên kém
chính xác hơn hoặc sai lệch nhiều hơn so với thực tế.
1.2.2 Độ phù hợp của mô hình
Tính toán hệ số xác định bội R2: khi có nhiều biến độc lập trong mô hình đa bội thì R2
vẫn được sử dụng để xác định biến thiên của biến phụ thuộc để giải thích mối quan hệ
của biến phụ thuộc và các biến độc lập trong mô hình. Ta có:
+∑(𝐻i - )2: TSS – Total Sum of Squares
+ ∑( - )2: ESS – Explained Sum of Squares
+∑ 𝐻 2i: RSS – Residual Sum of Squares
Ta có thể viết: TSS = ESS + RSS Ý
nghĩa của các thành phần:
+ TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và giá trị trung bình.
+ ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ thuộc Y
nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần này đo độ chính xác của hàm hồi quy.
+ RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và các giá
trị nhận được từ hàm hồi quy.
+ TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra. 𝐻2 được
xác định theo công thức:
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được
giải thích được gọi là hệ số xác định. 𝐻2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá lOMoARcPSD| 36991220
trị trung bình đượcgiải thích bằng mô hình. Khi đó người ta sử dụng 𝐻2 để đo sự phù hợp của hàm hồi quy: + 0 ≤ 𝐻2 ≤ 1.
+ 𝐻2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc.
+ Nếu 𝐻2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
+ Nếu 𝐻2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y
1.2.3 Đánh giá ý nghĩa toàn diện của mô hình
Mô hình hồi quy mà chúng ta xây dựng là dựa trên cơ sở dữ liệu của một mẫu lấy từ
tổng thể vì vậy nó có thể bị ảnh hưởng của sai số lấy mẫu, vì vậy chúng ta phải kiểm
định lại ý nghĩa thống kê của toàn bộ mô hình. Bài toán kiểm định F: Tiêu chuẩn kiểm định: Giả thiết
H0 : R2 = 0 ( mô hình không phù hợp )
H1 : R2 ≠ 0 ( mô hình phù hợp ) Bài toán kiểm định F: Tiêu chuẩn kiểm định F = Hoặc F =
Hàm hồi quy của Y theo X chính là kỳ vọng có điều kiện của Y đối với X, tức là E(Y| X). Trong đó:
+R2 là hệ số xác định +n là cỡ mẫu
+k là số biến độc lập lOMoARcPSD| 36991220
Miền bác bỏ: Wa = (Fa(k, n - k - 1); +). Để tìm Fa(k, n - k - 1), ta tra bảng Fisher tại
mức ý nghĩa α = 0.05 tại cột k và hàng n - k - 1. Nếu F W
, suy ra mô hình hồi quy bội với các biến độc lập ta
a ta bác bỏ giả thiết H0
đưa vào có thể giải thích một cách có ý nghĩa cho biến phụ thuộc, hay nói cách khác là
mô hình phù hợp. Ngược lại, ta suy ra mô hình không phù hợp.
1.2.4 Đánh giá ý nghĩa của từng biến độc lập riêng biệt
Ở kiểm định F, ta đã đánh giá được rằng mô hình có ý nghĩa. Điều này có nghĩa là có ít
nhất một biến độc lập trong mô hình có thể giải thích được cho sự biến thiên của biến
phụ thuộc. Tuy nhiên, điều này không có nghĩa là tất cả các biến độc lập ta đưa vào mô
hình đều có ý nghĩa. Để có thể xác định được biến độc lập nào có ý nghĩa chúng ta phải
kiểm định giả thiết sau:
H0 : βj = 0 với j = 1, 2, ..., k H1 : βj = 0
Chúng ta có thể dùng kiểm định t để kiểm tra ý nghĩa của mỗi hệ số hồi quy với độ tin cậy 95%: T =bSSEj −0 n-k-1 Trong đó:
bj là hệ số độ dốc trong mô hình hồi quy mẫu cho biến độc lập thứ j. sbj
là sai số chuẩn ước lượng của hệ số độ dốc của biến độc lập thứ j.
Miền bác bỏ: Wa = (ta (n - k - 1); +). Tra bảng phân phối Student ta tìm được giá trị giới hạn t
, suy ra biến độc lập j có khả
a (n - k - 1). Nếu Tqs Wa ta bác bỏ giả thiết H0
năng giải thích cho biến phụ thuộc. Ngược lại, ta suy ra biến độc lập j không có khả
năng giải thích cho biến phụ thuộc.
Chương 2: Hoạt động 2.2 Đề bài:
Tập tin “new.xlsx” chứa thông tin về giá bán (đơn vị đô la) của 318851 ngôi nhà ở
Bắc Kinh trong giai đoạn từ 2011-2017, một số dữ liệu được giao dịch vào tháng 1
năm 2018 và một số thậm chí còn sớm hơn. Bên cạnh giá nhà, bộ dữ liệu còn bao gồm
các biến miêu tả các thuộc tính khác như số lượng người theo dõi giao dịch, loại công lOMoARcPSD| 36991220
trình, kết cầu ngôi nhà…Dữ liệu gốc được tham khảo từ trang
https://bj.lianjia.com/chengjiao. Các biến chính trong bộ dữ liệu:
tradeTime: thời điểm giao dịch
followers: số người theo dõi giao dịch.
TotalPrice: tổng giá ngôi nhà.
Square: diện tích ngôi nhà.
buildingType: loại công trình, bao gồm tháp (1), nhà gỗ (2), sự kết hợp giữa
tấm và tháp (3), tấm (4).
constructionTime: thời gian xây dựng.
buildingStructure: cấu trúc ngôi nhà, bao gồm không xác định (1), hỗn hợp
(2), gạch và gỗ (3), gạch và bê tông (4), thép (5) và hỗn hợp bê tông - thép (6).
elevator: có (1) và không có thang máy (0). district: quận Các bước thực hiện:
1/ Đọc dữ liệu (Import Data): new.xlsx
2/ Làm sạch dữ liệu (Data Cleaning): kiểm tra dữ liệu khuyết (NA).
3/ Làm rõ dữ liệu (Data visualization): thống kê mô tả - dùng thống kê mẫu và vẽ đồ thị.
4/ Sử dụng ANOVA để đánh giá sự khác biệt giá nhà giữa các quận.
5/ Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến giá nhà ở Bắc Kinh. 2.2 Thực hiện:
2.2.1 Đọc Dữ Liệu (Impost Data)
Dữ liệu cần đọc hiện đang là một tệp tin excel , có tên : data#.xlsx . Thực hiện đọc dữ liệu vào R
Xuất 10 giá trị đầu tiên , Kết quả :
2.2.2 Làm Sạch Dữ Liệu (data cleaning) lOMoARcPSD| 36991220
Yêu cầu : làm việc với những quan sát : “tradetime”, “fllower”, “total price”,
“Square” , “building type”, “ construction time”, “elevator”, “district” . nên chỉ chọn ra những qua sát trên . Kết quả : 2.2.3 Kiểm Tra Dữ liệu
Thống kê số lượng giá trị khuyết đối với từng biến : Kết quả :
Thống kê tỷ lệ giá trị khuyết đối với từng biến : lOMoARcPSD| 36991220 Kết quả
Nhận Xét : Dựa vào kết quả thu được ở bảng thống kê tỉ lệ đánh giá khuyết đối với
từng biến, ta nhận thấy có tương đối ít giá trị khuyết , chỉ xuất hiện ở biến “elevator”.
Nhưng vẫn phải lựa chọn phương pháp loại bỏ các quan sát đó . 2.2.4 Loại Bỏ dữ liệu
Tạo 1 frame data mới “new_data2” gồm những quan sát đã qua loại bỏ . Kết quả :
Để kiểm tra lại , thống kê số quan sát ban đầu và khi đã xóa : Kết quả : lOMoARcPSD| 36991220
2.2.5 Làm rõ dữ liệu (Data visualization)
Tính các giá trị thống kê mô tả (kích thước mẫu, trung bình, độ lệch chuẩn, min, max,
trung vị, các điểm tứ phân vị) của chênh lệch giữa tổng giá nhà (biến totalPrice) và cấu
trúc ngôi nhà (biến buildingStructure). Xuất kết quả dưới dạng bảng.
Hình: code R và kết quả khi tính các giá trị thống kê mô tả cho biến tổng giá ngôi nhà
(totalPrice) theo biến cấu trúc ngôi nhà (buildingStructure). Nhận xét
Biểu đồ Histogram (biểu đồ tần suất)
Code R: sử dụng hàm hist để vẽ biểu đồ thể hiện phân phối của biến giá nhà/m2 (price). lOMoARcPSD| 36991220 Kết quả: Nhận xét:
Dựa trên biểu đồ Histogram của biến price, ta nhận thấy phân phối của biến price đang
có xu hướng lệch trái, điều này có nghĩa là phần lớn các ngôi nhà ở Bắc Kinh có giá
nhà/m2 nằm trong khoảng từ 0 đến 75000 đô la và chỉ số ít có giá trị cao hơn. Biểu đồ hộp:
Code R: sử dụng hàm boxplot để vẽ biểu đồ hộp thể hiện phân phối của quận (district)
theo cấu trúc ngôi nhà (buildingStructure). Kết quả: lOMoARcPSD| 36991220 Nhận xét:
Dựa trên biểu đồ boxplot của biến buildingStructure theo biến district, ta có thể đọc
được 5 vị trí phân bố dữ liệu đó là: giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), trung
vị (median), tứ phân vị thứ 3 (Q3) và giá trị lớn nhất (max) của các cấu trúc ngôi nhà ở
các quận. Nhìn chung, ta thấy các ngôi nhà có cấu trúc được làm từ gạch và gỗ (3), được
ưa chuộng nhất so với các cấu trúc nhà còn lại.
Biểu đồ tương quan 2 biến:
Code R: sử dụng hàm pairs để thể hiện mối tương quan giữa số lượng người theo dõi
giao dịch (followers) theo diện tích ngôi nhà (square). Kết quả: lOMoARcPSD| 36991220 Nhận xét:
Nhìn vào biểu đồ tương quan giữa 2 biến ở phía dưới (biến followers là biến chính), ta
thấy phần lớn lượng người theo dõi giao dịch tập trung ở mức từ 0-600 người với diện tích nhà là 0-500 m2.
Nhìn vào biểu đồ tương quan giữa 2 biến ở phía trên (biến square là biến chính), ta thấy
phần lớn diện tích nhà từ 0-500m2 thì lượng người theo dõi giao dịch sẽ tập trung ở mức 0-600 người.
=>Nhìn chung cả 2 đồ thị đều có xu hướng giảm dần (tỷ lệ nghịch), mức độ tập trung
của các điểm nằm trong khoảng nhất định tuy nhiên mối quan hệ tuyến tính giữa 2 biến
vẫn chưa thật sự rõ ràng, vì vậy ta cần phải xây dựng mô hình hồi quy để kiểm tra và
đưa ra đánh giá tốt hơn.
2.2.6 ANOVA một nhân tố: đánh giá sự khác biệt về giá nhà (totalPrice) giữa các quận
(district) đã xây dựng trong năm 2012
Trước khi bắt đầu tiến hành đánh giá, ta cần tìm và lọc các dữ liệu có chứ các kí hiệu không phù hợp
Hình. CodeR và kết quả khi tìm và lọc các dữ liệu có chứ các kí hiệu không phù hợp
Ta quan tâm đến việc kiểm định liệu rằng có sự khác biệt về giá nhà giữa các quận đã
xây dựng trong năm 2012 hay không?
Lọc giá cả của các nhà đã xây dựng trong năm 2012:
Hình. CodeR và kết quả khi lọc giá cả của các nhà đã xây dựng trong năm 2012 Giải
thích lý do sử dụng ANOVA một nhân tố:
Ta có nhiều quận đã xây dựng nhà trong năm 2012. Để thực hiện so sánh trung bình của
nhiều nhóm, phương pháp tối ưu nhất là dùng phân tích phương sai. Nếu chỉ so sánh 2
trung bình của 2 nhóm, ta có thể dùng t-test. Vì vậy, nếu dùng t-test cho bài toán này, ta
phải thực hiện kiểm định liên tục nhiều lần. Phương pháp phân tích phương sai cho t kết
luận sự bằng nhau hoặc khác nhau giữa các nhóm so sánh thông qua một phép kiểm định duy nhất.
Như vậy, ta sử dụng mô hình ANOVA một nhân tố: đánh giá sự khác biệt về giá nhà
(totalPrice) giữa các quận (district) đã xây dựng trong năm 2012. Trong đó:
Biến phụ thuộc: totalPrice
Biến độc lập: district lOMoARcPSD| 36991220
Hình. CodeR và kết quả khi khai báo các biến Đặt giả thuyết: + Giả thuyết
Giá nhà trung bình giữa các quận đã xây dựng
trong năm 2012 không có sự chênh lệch. + Giả thuyết
Có ít nhất 2 quận có sự chênh lệch về giá
nhà trung bình đã xây dựng trong năm 2012. Bảng ANOVA một nhân tố.
Các giả định cần kiểm tra trong ANOVA một nhân tố:
+ Giả định phân phối chuẩn: Giá nhà trung bình ở các quận đã xây dựng trong năm 2012
tuân theo phân phối chuẩn.
+ Tính đồng nhất của các phương sai: Phương sai giá nhà trung bình giữa các quận đã
xây dựng trong năm 2012 bằng nhau. Kiểm định giả định phân phối chuẩn: Giả thuyết
: Giá nhà giữa các quận đã xây dựng trong năm 2012 tuân theo phân phối chuẩn. Giả thuyết
: Giá nhà giữa các quận đã xây dựng trong năm 2012 không tuân theo phân phối chuẩn.
CodeR kiểm tra giả định phân phối chuẩn:
Hình. CodeR dùng để kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ của mỗi quận
Đây là CodeR chung để kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ của
quận X (với X là tên quận). Ở bài toán này ta có bao gồm 13 quận, vì vậy ta thực hiện
kiểm định gả định phân phối chuẩn lần lượt các quận và thu được kết quả: lOMoARcPSD| 36991220 Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 1
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 1 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 1 không tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 2
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 2 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 2 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 3 lOMoARcPSD| 36991220 Nhận xét:
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 3 tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test lớn hơn so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 3 tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 4
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 4 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 4 không
tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 5
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 5 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 5 không
tuân theo phân phối chuẩn. lOMoARcPSD| 36991220 Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 6
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 6 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 6 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 7
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 7 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 7 không
tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 8
Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 8 tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test lớn hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 8 tuân theo phân phối chuẩn. lOMoARcPSD| 36991220 Nhận xét:
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 9
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát nằm trên đường
thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 9 tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test lớn hơn so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 9 tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 10
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 10 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 10 không
tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 11
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 11 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn rất nhiều so với mức ý nghĩa α = 0.05,
nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 11 không
tuân theo phân phối chuẩn.
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 12
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 12 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 12 không tuân theo phân phối chuẩn. lOMoARcPSD| 36991220
Hình. Kết quả khi kiểm định giả định phân phối chuẩn cho biến ‘totalPrice’ ở quận 13
Nhận xét: Xét biểu đồ QQ-Plot cho ta thấy có nhiều giá trị quan sát không nằm trên
đường thẳng kì vọng của phân phối chuẩn do đó biến totalPrice ở quận 13 không tuân theo phân phối chuẩn.
Ngoài ra, p-value ở các kiểm định ad.test bé hơn so với mức ý nghĩa α = 0.05, nên ta bác bỏ giả thuyết
, nên cũng đưa ra kết luận là biến totalPrice ở quận 13 không tuân theo phân phối chuẩn.
Kiểm định giả định về tính đồng nhất của các phương sai: Giả thuyết
: Phương sai giá nhà trung bình giữa các quận đã xây dựng trong năm 2012 bằng nhau. Đối thuyết
: Phương sai giá nhà trung bình giữa các quận đã xây dựng trong năm 2012 khác nhau.
Hình. CodeR và kết quả khi kiểm định giả định về tính đồng nhất của phương sai
Nhận xét: Dựa trên p-value ở kiểm định leveneTest bé hơn rất nhiều so với mức ý nghĩa
α = 0.05, nên ta bác bỏ giả thuyết
, vậy nên ta có thể đưa ra kết luận là có ít nhất 2
quận có phương sai giá nhà trung bình khác nhau. Thực hiện phân tích phương sai một nhân tố: lOMoARcPSD| 36991220
Hình. CodeR và kết quả khi thực hiện ANOVA một nhân tố
Nhận xét: Dựa trên kết quả ANOVA cho thấy:
+ SSB= 61763231, bậc tự do k-1=12 (k=13)
+ SSW= 314587596, bậc tự do N-k=4984-13=4971 (N là tổng số phần tư khảo sát ở tất cả các nhóm) + MSB=SSB/(k-1)= 5146936 + MSW=SSW/(N-k)= 63285
+ Giá trị thống kê kiểm định: f=MSB/MSW= 81.33
+ Mức ý nghĩa quan sát: p-value<2e-16
Dựa vào p-value<2e-16 rất bé so với mức ý nghĩa α = 0.05 nên ta bác bỏ được Giả thuyết .
Vậy có sự khác biệt về giá nhà trung bình giữa các quận đã xây dựng trong năm 2012.
Thực hiện so sánh bội: Nhận xét:
+ Đối với quận 2-1: Giả thuyết
: Giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012 bằng nhau. Đối thuyết
: Giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012 khác nhau. lOMoARcPSD| 36991220
Dựa vào p-value, ta thấy p-value= 0.0011583 < mức ý nghĩa 5% nên ta bác bỏ giả thuyết
, chấp nhận đối thuyết
. Vậy giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng
trong năm 2012 khác nhau. Mặt khác, diff=-306.437072<0 nên ta có thể kết luận giá
nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012 khác nhau. Ngoài ra,
ta có thể đưa ra kết luận dựa vào khoảng tin cậy (-541.8117063; 71.0624377) không
chứa giá trị 0 nên giá nhà trung bình giữa quận 2 và quận 1 đã xây dựng trong năm 2012
khác nhau, và khoảng tin cậy nhận giá trị âm nên giá nhà trung bình đã xây dựng trong
năm 2012 của quận 2 thấp hơn quận 1.
Tương tự, ta sẽ thực hiện so sánh đối với từng cặp quận. Ta sẽ đưa ra kết luận rằng giá
nhà ở quận 10 cao nhất và giá nhà ở quận 13 thấp nhất.
2.2.7. Xây dựng mô hình hồi quy tuyến tính: Sử dụng mô hình hôi quy tuyến tính phù
hợp để đánh giá các nhân tố tác động đến tổng chi phí bán nhà thực tế.
Để phân tích các yếu tố ảnh hưởng đến totalPrice ta đặt biến:
• Biến phụ thuộc: totalPrice
• Biến độc lập: followers, Square, buildingType, constructionTime,
buildingStructure, elevator, district
Thực hiện vẽ đồ thị phân tán thể hiện phân tán của totalPrice theo các biến còn lại
plot(new_data6$tradeTime,new_data6$totalPrice, xlab = "tradeTime",ylab = "totalprice", main = "tradetime and totalprice", col = "blue")
Hình 1. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến tradeTime
plot(new_data6$followers,new_data6$totalPrice, xlab = "followers",ylab = "totalprice", main = "followers and totalprice", col = "red") lOMoARcPSD| 36991220
Hình 2. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến followers
plot(new_data6$square,new_data6$totalPrice, xlab = "square",ylab = "totalprice", main = "square and totalprice", col = "black")
Hình 3. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến square
plot(new_data6$buildingType,new_data6$totalPrice, xlab = "buildingType",ylab = "totalprice", main =
"builingType and totalprice", col = "green") lOMoARcPSD| 36991220
Hình . Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingType
plot(new_data6$constructionTime,new_data6$totalPrice, xlab = "constructionTime",ylab = "totalprice", main =
"constructionTime and totalprice", col = "brown")
Hình . Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến constructionTime
plot(new_data6$buildingStructure,new_data6$totalPrice, xlab = "buildingstructure",ylab = "totalprice",
main = "buildingstructure and totalprice", col = "orange") lOMoARcPSD| 36991220
Hình 6. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingstructure
plot(new_data6$elevator,new_data6$totalPrice, xlab = "elevator",ylab = "totalprice", main = "elevator and totalprice", col = "purple") lOMoARcPSD| 36991220
Hình 7. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến elevator
plot(new_data6$district,new_data6$totalPrice, xlab = "district",ylab = "totalprice", main = "district and totalprice", col = "pink")
Hình 8. Code R và kết quả khi vẽ biểu đồ phân tán của totalPrice theo biến buildingstructure
Nhận xét: Thông qua các biểu đồ phân tán của biến totalPrice theo các biến còn lại ta
vẫn chưa nhìn thấy rõ mối quân hệ tuyến tính giữa chúng. Vậy biến totalPrice thật sự
có mối quan hệ tuyến tính với các biến còn lại hay không? Để trả lời cho câu hỏi này
chúng ta cần xây dựng mô hình hồi quy và thực hiện các kiểm định. Ta xây dựng mô
hình hồi quy tuyến tính 1: 31 model_1 =
lm(totalPrice~tradeTime+followers+square+buildingType+constructionTime+buildingStructure+elevator+district, data = new_data6) summary(model_1) lOMoARcPSD| 36991220 lOMoARcPSD| 36991220
Code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_1 Nhận xét: Từ kết quả phân tích, ta thu được: 0 3 4 = - 2.603e+03; 1= 1.778e-06; 2= 1.472e- 01; = 3.867e+00; = 9.009e+01;
5= 2.693e+01; 6= 2.240e+01; 7= 1.528e+03; 8= 1.303e+01; 9= 5.340e+01); 10= 2.777e+00
Mô hình được biểu diễn như sau:
= -2.603e+03 + (1.778e-06) x tradeTime + (1.472e-01) x followers +
(3.867e+00) x square + (9.009e+01) x buildingType2 + (2.693e+01) x buildingType3
+ (2.240e+01) x buildingType4 + (1.528e+03) x constructionTime1944 + (1.303e+01)
x buildingStructure + (5.340e+01) x elevator + (2.777e+00) x district
Kiểm định các hệ số hồi quy:
Giả thuyết 𝐻0: Hệ số hồi quy không có ý nghĩa thống kê (𝐻𝐻 = 0)
Đối thuyết 𝐻1: Hệ số hồi quy có ý nghĩa thống kê (𝐻𝐻 ≠ 0)
+ Vì Pr (> |𝐻|) ứng với các biến constructionTime1934, constructionTime1950,
constructionTime1951, constructionTime1952…, constructionTime 2015,
constructionTime2016 lớn hơn mức ý nghĩa 𝐻 = 0.05 nhưng Pr (> |𝐻|) ứng với lOMoARcPSD| 36991220
constructionTime1944 bé hơn mức ý nghĩa 𝐻 = 0.05 với nên ta chưa đủ cơ sở để bác
bỏ giả thuyết 𝐻0. Ta có thể cân nhắc việc loại bỏ biến constructionTime ra khỏi mô hình.
Ta xây dựng mô hình hồi quy 2:
model_2 = lm(totalPrice~tradeTime+followers+square+buildingType+buildingStructure+elevator+district, data = new_data6) summary(model_2)
Hình 10. Code R và kết quả khi xây dựng mô hình hồi quy tuyến tính model_2
Ta so sánh các mô hình 1 và mô hình 2:
Giả thuyết 𝐻0: 𝐻1 = 𝐻2 =. . . = 𝐻10 = 0: Hai mô hình hiệu quả giống nhau (nghĩa là mô
hình 2 hiệu quả hơn mô hình 1)
Đối thuyết 𝐻1: ∃𝐻1 ≠ 0, 𝐻 = 1, … ,10: Hai mô hình hiệu quả khác nhau (nghĩa là mô hình
1 hiệu quả hơn mô hình 2) anova(model_1,model_2)
Hình 11. Code R và kết quả khi so sánh 2 mô hình model_1 và model_1
Nhận xét: Dựa trên việc so sánh 2 mô hình, ta thấy 𝐻 - 𝐻𝐻𝐻𝐻𝐻 < 2,2𝐻 - 16 rất bé so với
mức ý nghĩa 𝐻 = 0.05 nên ta bác bỏ gải thuyết 𝐻0, ta có thể kết luận 2 mô hình hiệu
quả khác nhau, tức có nghĩa là mô hình 1 hiệu quả hơn mô hình 2 (vì có ít nhất 1 hệ số
𝐻𝐻 có ý nghĩa thống kê nên mô hình đầy đủ là mô hình 1 sẽ hiệu quả hơn).
Phân tích sự tác động của các nhân tố lên tổng chi phí giá nhà đến: lOMoARcPSD| 36991220
Như vậy mô hình hồi quy tuyến tính về ảnh hưởng của các nhân tố lên việc lệch giờ đến được cho bởi:
= -2.603e+03 + (1.778e-06) x tradeTime + (1.472e-01) x followers +
(3.867e+00) x square + (9.009e+01) x buildingType2 + (2.693e+01) x buildingType3
+ (2.240e+01) x buildingType4 + (1.528e+03) x constructionTime1944 + (1.303e+01)
x buildingStructure + (5.340e+01) x elevator + (2.777e+00) x district
Trước hết, ta thấy tằng p-value tương ứng với thống kê F bé hơn 2.2e-16, có ý nghĩa
rất cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải
thích rất cao đến tổng chí phí giá nhà totalPrice.
Để xét ảnh hưởng cụ thể của từng biến độc lập, ta xét trong hệ số (hệ số 𝐻𝐻) và p-value
tương ứng. Ta thấy rằng p-value tương ứng với các biến followers, Square,
buildingType, buildingStructure, elevator, district bé hơn 2e-16, điều này nói lên rằng
ảnh hưởng của các biến này có ý nghĩa rất cao lên việc lệch giờ đến totalPrice. Kiểm
tra các giả định của mô hình

Nhắc lại các giả định của mô hình hồi quy: 𝐻𝐻 = 𝐻0 + 𝐻1. 𝐻1 + ⋯ 𝐻𝐻. 𝐻𝐻 + 𝐻𝐻, 𝐻 = 1, … 𝐻.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc Y
được giả sử là tuyến tính. + Sai số có kỳ vọng bằng 0
+ Phương sai của các sai số là hằng số +
Sai số có phân phối chuẩn.
+ Các sai số _1,…, _n thì độc lập nhau.ϵ ϵ
Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình: Nhận xét: lOMoARcPSD| 36991220
+ Đồ thị Residuals and Fitted vẽ các sai số tương ứng với các giá trị dự báo, kiểm tra giả định tuyến
tính cỉa dữ liệu, giả định sai số có kỳ vọng bằng 0, giả định phương sai cảu sai số là hằng số.
Dựa trên đồ thị ta thấy, đường màu đỏ là đường thẳng nằm ngang nên giả định tính
tuyến tính của dữ liệu thoả mãn. Đường màu đỏ nằm sát đường y=0 nên giả định sai
số có kỳ vọng bằng 0 thảo mãn. Các sai số phân tán ngẫu nhiên dọc theo đường màu
đỏ nên giả định phương sai các số là hằng số thoả mãn.
+ Đồ thị Normal Q-Q vẽ các sai số đã được chuẩn hoá, kiểm tra giả định sai số có phân phối chuẩn.
Dựa trên đồ thị ta thấy, có nhiều điểm quan trắc lệch ra khỏi dường thẳng kì vọng phân
phối chuẩn nên giả định sai số có phân phối chuẩn chưa thoả mãn.
+ Đồ thị Scale-Location vẽ căn bậc hai của các sai số đã được chuẩn hoá, kiểm tra giả
định phương sai các sai số là hằng số.
Dựa trên đồ thị ta thấy, đường màu đỏ nằm ngang, các quan trắc phân tán ngẫu nhiên
dọc theo đường màu đỏ nên giả định phương sai của các hằng số là thoả mãn.
TÀI LIỆU THAM KHẢO
[1] Giáo trình Xác suất - Thống kê & phân tích số liệu, Nguyễn Đình Huy, Đậu Thế Cấp, Lê Văn Đại