Báo cáo bài tập Xác suất thống kê - Giải tích 1 | Trường Đại học Bách khoa Thành phố Hồ Chí Minh

Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu. Trong thực tiễn, thống kê có rất nhiều ứng dụng vào nhiều lĩnh vực khác nhau, đặc biệt rất cần thiết cho sinh viên các ngành khoa học, kỹ thuật. Môn học Xác suất & thống kê cung cấp kiến thức cơ bản về lý thuyết, giới thiệu một số hàm phân phối xác suất thông dụng, kiểm định giả thuyết, ước lượng khoảng tin cậy, v.v. Tài liệu được sưu tầm giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kì thi sắp tới. Mời bạn đọc đón xem !

Thông tin:
34 trang 4 tuần trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Báo cáo bài tập Xác suất thống kê - Giải tích 1 | Trường Đại học Bách khoa Thành phố Hồ Chí Minh

Thống kê là nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồm phân tích, giải thích, trình bày và tổ chức dữ liệu. Trong thực tiễn, thống kê có rất nhiều ứng dụng vào nhiều lĩnh vực khác nhau, đặc biệt rất cần thiết cho sinh viên các ngành khoa học, kỹ thuật. Môn học Xác suất & thống kê cung cấp kiến thức cơ bản về lý thuyết, giới thiệu một số hàm phân phối xác suất thông dụng, kiểm định giả thuyết, ước lượng khoảng tin cậy, v.v. Tài liệu được sưu tầm giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kì thi sắp tới. Mời bạn đọc đón xem !

34 17 lượt tải Tải xuống
lOMoARcPSD|47207367
lOMoARcPSD|47207367
ĐẠI HC QUC GIA THÀNH PH H CHÍ MINH
TRƯỜNG ĐẠI HC BÁCH KHOA

BÁO CÁO BÀI TP LN 2
XÁC SUT THNG KÊ
GVHD: Nguyn Kiu Dung
Khoa K thut hóa hc Nhóm 7
Danh sách thành viên:
STT
H và tên
MSSV
Lp
Kí tên
1
Trần Đức Hoàng Huy
1913558
L16
2
Thi Lê Nht Bình
1912737
L16
3 Đặng Ngc Tân 1912008
L04
4
Lê Tiến Anh
1910754
L13
5
Ngô Thị Phương Thùy
1915402
L16
6
Trn Song Khôi
1911433
L09
7 Lâm Thanh Ngân 1914273
L16
8
Phan Nguyên Minh
1911617
L09
9
Đinh Trung Hiếu
1911140
L09
Mã th t báo cáo nhóm: B42
lOMoARcPSD|47207367
MC LC
Li mở đầu.....................................................................................................................................................................2
Phn đề bài.....................................................................................................................................................................3
A. Phn chung.........................................................................................................................................................3
B. Phn riêng...........................................................................................................................................................4
Phn li gii...................................................................................................................................................................6
A. Phn chung.........................................................................................................................................................6
1. Đọc d liu....................................................................................................................................................6
2. Làm sch d liu (Data cleaning)....................................................................................................6
3. Làm rõ d liu (Data visualization)................................................................................................7
4. Xây dng các mô hình hi quy tuyến tính (Fitting linear regression models)....12
5. D báo (Predictions)................................................................................................................................15
B. Phn riêng
1. Đọc d liu....................................................................................................................................................17
2. Làm sch d liu (Data cleaning)....................................................................................................17
3. Làm rõ d liu (Data visualization)................................................................................................17
4. Xây dng các mô hình hi quy tuyến tính (Fitting linear regression models)....27
5. D báo (Predictions)................................................................................................................................32
1
lOMoARcPSD|47207367
LI MỞ ĐẦU
Thng kê là nghiên cu ca tp hp nhiều lĩnh vực khác nhau, bao gm phân tích, gii
thích, trình bày và t chc d liu. Trong thc tin, thng kê có rt nhiu ng dng vào
nhiều lĩnh vực khác nhau, đặc bit rt cn thiết cho sinh viên các ngành khoa hc, k
thut. Môn hc Xác sut & thng kê cung cp kiến thức cơ bản v lý thuyết, gii thiu mt
s hàm phân phi xác sut thông dng, kiểm định gi thuyết, ước lượng khong tin cy,
v.v…Thông qua thống kê, các d liu thu thập được phân tích theo nhiu tiêu chí khác
nhau giúp người s dng có cái nhìn tng quan v d liu ca họ, đưa ra được ước lượng
v tng th lớn hơn hay dự đoán mô hình và kiểm định li gi thuyết theo các mức ý nghĩa
khác nhau.
Trong riêng lĩnh vực K thut Hóa hc, rt nhiu nghiên cu cn có các d liu t thc
nghiệm để nghiên cứu như tính chất ca hp cht, tính hiu qu ca sn phm, hiu sut
phn ng ở các điều kin phn ng khác nhau, v.v. Vì vy tính ng dng ca Xác sut &
thng kê trong K thut Hóa hc rt cao, là nn tng, là tiền đề cho vic nghiên cu.
Báo cáo ca nhóm tp trung vào vic tìm hiểu hai phương pháp được s dng ph
biến trong Thống kê là Phân tích phương sai và Hồi quy tuyến tính bi. Từ đó vận
dng chúng vào vic x lý tp d liu cho sẵn, đưa ra những giá tr thng kê mô tả,
đánh giá đặc điểm, tính cht của đối tượng thng kê, vẽ các đồ thị để có cái nhìn trc
quan,.v.v.bng phn mm R/Rstudio.
2
lOMoARcPSD|47207367
PHẦN ĐỀ BÀI
A. PHN CHUNG
Tập tin “diem_so.csv” chứa thông tin về điểm toán ca các em hc sinh trung hc
thuộc hai trường hc Bồ Đào Nha. Các thuộc tính d liu bao gồm điểm học sinh, nơi cư
trú, và mt s hoạt động xã hi khác. D liệu được thu thp bng cách s dng báo cáo
của các trường và các kết qu kho sát sinh viên. D liu gốc được cung cp ti:
https://archive.ics.uci.edu/ml/datasets/student+performance.
Các biến chính trong b d liu:
G1: Điểm thi hc kì 1.
G2: Điểm thi hc kì 2.
G3: Điểm cui khoá.
studytime: Thi gian t hc trên tun (1 – ít hơn 2 giờ, 2 từ 2 đến 5 gi, 3 từ 5
đến 10 gi, or 4 lớn hơn 10 giờ).
failures: s ln không qua môn (1,2,3, hoc 4 ch nhiều hơn hoặc bng 4 ln).
absences: s ln ngh hc.
higher: Có mun học cao hơn hay không (yes: có, no: không).
age: Tui ca hc sinh.
Câu hi:
1. Đọc d liu: Hãy dùng lnh read.csv() để đọc tp tin.
2. Làm sch d liu (Data cleaning):
(a) Hãy trích ra mt d liệu con đặt tên là new_DF ch bao gm các biến chính mà
ta quan tâm như đã trình bày trong phần gii thiu d liu. T câu hi này v sau,
mi yêu cu xử lý đều da trên tp d liu con new_DF này.
(b) Kim tra các d liu b khuyết trong tp tin. (Các câu lênh tham kho: is.na(),
which(), apply()). Nếu có d liu b khuyết, hãy đề xuất phương pháp thay thế cho nhng
d liu b khuyết này.
3. Làm rõ d liu (Data visualization):
(a) Đối vi các biến liên tc, hãy tính các giá tr thng kê mô t bao gm: trung bình,
trung vị, độ lch chun, giá tr ln nht và giá tr nh nht. Xut kết quả dưới dng bng.
(Hàm gi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()).
(b) Đối vi các biến phân loi, hãy lp mt bng thng kê số lượng cho tng chng
loi.
(c) Hãy dùng hàm hist() để vẽ đồ th phân phi ca biến G3.
(d) Hãy dùng hàm boxplot() v phân phi ca biến G3 cho tng nhóm phân loi ca
biến studytime, failures, và biến higher.
(e) Dùng lnh pairs() v các phân phi ca biến G3 lần lượt theo các biến G1,
G2, age absences.
4. Xây dng các mô hình hi quy tuyến tính (Fitting linear regression models):
3
lOMoARcPSD|47207367
Chúng ta mun khám phá rng có nhng nhân tố nào và tác động như thế nào đến
điểm cui khoá môn Toán ca các em hc sinh.
(a) Xét hình hi quy tuyến tính bao gm biến G3 là mt biến ph thuc, tt
c các biến còn lại đều biến độc lp. Hãy dùng lệnh lm() để thc thi hình hi quy
tuyến tính bi.
(b) Da vào kết qu ca mô hình hi quy tuyến tính trên, nhng biến nào bn s
loi khỏi mô hình tương ứng vi các mc tin cy 5% và 1%?
(c) Xét 3 mô hình tuyến tính cùng bao gm biến G3 là biến ph thuộc nhưng:
Mô hình M1 cha tt c các biến còn li là biến độc lp.
Mô hình M2 là loi b biến higher t M1.
Mô hình M3 là loi b biến failure t M2.
Hãy dùng lnh anova() để đề xut mô hình hi quy hp lý hơn.
(d) T mô hình hi quy hp lý nht t câu (c) hãy suy lun sự tác động ca các
biến lên điểm thi cui kì.
(e) T mô hình hi quy hp lý nht t câu (c) hãy dùng lệnh plot() để vẽ đồ th
biu th sai s hi quy và giá tr dự báo. Nêu ý nghĩa và nhận xét.
5. D báo (Predictions):
(a) Trong d liu ca bn, hãy to thêm biến đặt tên evaluate, biến này biu
din t l đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi cui
kì. Hãy thng kê t lệ đạt/không đạt (Hàm gi ý: cbind()).
(b) Xét mô hình hi quy hp lý nht mà bạn đã chọn trong câu 4(c). Hãy lp mt
bng s liu mới đặt tên new_X bao gm toàn b các biến độc lp trong hình
này, dùng lênh predict() để đưa ra số liu d báo cho biến G3 ph thuc vào
new_X. Gi kết qu d báo này là biến pred_G3.
(c) Khảo sát độ chính xác trong kết qu d báo ca câu trên bng cách lp mt
bng so sánh kết qu d báo pred_G3 vi kết qu thc tế ca biến G3.
Đạt
Không đạt
Quan sát
D báo
B. PHN RIÊNG
Tập tin “PRSA_Data_Wanshouxigong_20130301-20170228.csv” Bộ d liu này bao
gm d liu v các cht ô nhim không khí hàng gi từ 12 địa điểm giám sát chất lượng
không khí được kim soát trên toàn quc. D liu chất lượng không khí được ly t
Trung tâm Giám sát Môi trường Thành ph Bc Kinh. D liệu khí tượng ti mỗi địa
điểm chất lượng không khí được khp vi trm thi tiết gn nht ca Cục Khí tượng
Trung Quc. Khong thi gian từ ngày 1 tháng 3 năm 2013 đến ngày 28 tháng 2 năm
2017. Dữ liu b thiếu được ký hiu là NA. D liu gốc được cung cp ti
https://archive.ics.uci.edu/ml/datasets/student+performance.
4
lOMoARcPSD|47207367
Các biến chính trong b d liu:
PM2.5: nồng độ PM2.5 (µg/m
3
)
PM10: Nồng độ PM10 (µg/m
3
)
CO: Nồng độ CO (µg/m
3
)
TEMP: nhiệt độ (
o
C)
PRES: áp sut (hPa)
DEWP: nhiệt độ điểm sương (
o
C)
RAIN: lượng mưa (mm)
wd: hướng gió
WSPM: tốc độ gió (m/s)
5
lOMoARcPSD|47207367
PHN LI GII
A. PHN CHUNG
1. Đọc d liu:
Input:
diem_so<-read.csv("C:/Users/Huy Tran/Desktop/diem_so.csv",header=T)
attach(diem_so)
→ Đọc tp tin và lưu d liu vi tên là: "diem_so"
2. Làm sch d liu (Data cleaning):
a. Trích d liu:
Input:
newDF<-data.frame(G1,G2,G3,studytime,failures,absences,higher,age)
Trích ra d liu con đặt tên là new_DF bao gm các biến chính.
attach(new_DF)
Khai báo biến chính mà ta quan tâm, và để d liu về sau được s lí bng
new_DF b. Kim tra các d liu b khuyết trong tp tin. Nếu có d liu b
khuyết, hãy đề xut phương pháp thay thế cho nhng d liu b khuyết này.
Input: apply(is.na(new_DF),
2 , which)
Kim tra và xut ra giá tr khuyết ca các biến trong d liu new_DF.
Output:
Da trên kết quả thu được, ta nhn thy có 5 giá tr khuyết ti biến G2. Do đó, ta cần
xử đưa ra các phương pháp cho các giá trị khuyết đó.
Ta có các phương pháp xử lý các giá tr khuyết như sau:
6
lOMoARcPSD|47207367
– Phương pháp 01: Deletion(xoá): phương pháp này đưc dùng khi khi xác sut thiếu
biến là như nhau cho tất c các quan sát.
Phương pháp 02: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các
giá tr còn thiếu vi các giá trị ước tính.
Ta s chn thay phương pháp xóa các quan sát mà bất k biến nào b thiếu.
Input:
new_DF=na.omit(new_DF)
Xóa các giá tr b khuyết, mà gán li new_DF mi.
3. Làm rõ d liu ( Data visualization):
a. Đối vi các biến liên tc, hãy tính các giá tr thng t bao gm:
trung binh, trung v độ lch chun, giá tr ln nht và giá tr nh nht. Xut
kết quả dưới dng bng.
Input :
mean = apply(new_DF[,c(1,2,3,8)],2, mean)
Tính trung bình ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên
là mean.
median = apply(new_DF[,c(1,2,3,8)],2, median)
Tính trung v ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên
là median.
sd = apply(new_DF[,c(1,2,3,8)],2, sd)
Tính độ lch chun ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là
sd.
max = apply(new_DF[,c(1,2,3,8)],2, max)
Tính giá tr ln nht ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là
max.
min = apply(new_DF[,c(1,2,3,8)],2, min)
Tính giá tr nh nht ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có
tên là min.
des = cbind(mean,median,sd,max,min)
To matrix th hin các giá tr thng kê mô t cho các biến liên tục, lưu vào biến
des. as.data.frame(des)
Chuyn matrix thành dng bng d liu.
Output:
7
lOMoARcPSD|47207367
b. Đối vi các biến phân loi, hãy lp mt bng thng kê số lượng cho tng
chng loi.
Input:
table(failures)
Tạo bng thng kê số lượng cho biến failures
table(studytime)
Tạo bng thng kê số lượng cho biến studytime.
table(higher)
Tạo bng thng kê số lượng cho biến higher.
Output:
c. Vẽ đồ th biu din cho biến G3
Input:
hist(G3)
V biểu đồ histogram cho biến G3.
Output:
8
lOMoARcPSD|47207367
d. Dùng hàm boxplot() v phân phi ca biến G3 cho tng nhóm phân loi
ca biến sutdytime, failures, và biến higher.
Phân loi nhóm cho biến studytime
Input :
boxplot(G3 ~ studytime)
V biểu đồ Boxplot ca biến G3 phân phi cho tng loi ca biến studytime
Output:
Phân loi nhóm cho biến failures
Input :
boxplot(G3 ~ failures)
Vẽ biểu đồ Boxplot ca biến G3 cho tng nhóm phân loi ca biến failures
9
lOMoARcPSD|47207367
Output:
Phân loại nhóm cho biến higher
Input:
boxplot(G3 ~ higher)
Vẽ biểu đồ Boxplot ca biến G3 cho tng nhóm phân loi ca biến higher
Output:
e. Dùng lnh pairs() v các phân phi ca biến G3 lần lượt cho các biến G1,
G2, age và absences
Phân phi biến G3 cho biến G1
Input:
pairs(G3 ~ G1)
Vẽ các phân phi ca biến G3 phân phi theo theo biến G1.
Output:
10
lOMoARcPSD|47207367
Phân phối biến G3 cho biến G2
Input:
pairs(G3 ~ G2)
V các phân phi ca biến G3 phân phi theo biến G2.
Output:
Phân phi biến G3 cho biến age
Input:
pairs(G3 ~ age)
Vẽ các phân phi ca biến G3 phân phi theo biến age.
Output:
11
lOMoARcPSD|47207367
Phân phi biến G3 cho biến absences
Input:
pairs(G3 ~ absences)
V các phân phi ca biến G3 phân phi theo biến absences.
Output:
4. Xây dng các mô hình hi quy (Fitting linear regression models):
a. Xét mô hình hi quy tuyến tính bao gm biến G3 là mt biến ph thuc, và
tt c các biến còn lại đều là độc lp. Dùng lệnh lm() để thc thi mô hình hi
quy tuyến tính bi.
Xét mô hình :
G1: biến liên tc
G2: biến liên tc
G3: biến liên tc
12
lOMoARcPSD|47207367
studytime: biến phân loi
failures: biến phân loi
absences: biến ri rc
higher: biến phân loi
age: biến liên tc
Input:
studytime = as.factor(studytime)
Thay biến studytime thành biến nhân
t. failures = as.factor(failures)
Thay biến failures thành biến nhân
t. higher = as.factor(higher)
Thay biến higher thành biến nhân t.
m1 = lm(G3 ~ G1 + G2 + studytime + failures + absences + higher+ age)
summary(m1)
Xây dng mô hình hi quy tuyến tính bi.
Output:
b. Da vào kết qu ca mô hình tuyến tính trên, nhng biến nào bn s loi
khi mô hình tương ứng vi các mc tin cy 5% và 1% ?
So sánh Pr(>|t|) vi mức α cần xét, khi đó các biến b loi khi mô hình
Mc 5%: studytime2, studytime3, failures2, failures3, higheryes, age.
13
lOMoARcPSD|47207367
Mc 1%: studytime2, studytime3, studytime4, failures2, failures3, higheryes, age.
c. Xét 3 mô hình tuyến tính cùng bao gm biến G3 là biến ph thuc:
Mô hình M1 chưa tất c các biến còn li là biến độc lp
Mô hình M1 là đáp án của câu (a)
Mô hình M2 là loi b biến higher t M1
Input:
m2 = lm(G3 ~ G1 + G2 + studytime + failures + absences + age)
• Mô hình M3 là loại b biến failures t M2
Input:
m3 = lm(G3 ~ G1 + G2 + studytime + absences + age)
Dùng anova() để đề xut mô hình hi quy hp lý :
Xét hai mô hình hi quy M1 và M2 :
Input:
anova(m1,m2)
Phân tích phương sai cho hai mô hình tuyến tính m1, m2
Output:
Lí lun:
Đặt gi thiết H
0
: hai mô hình bng nhau
Đặt gi thiết H
1
: hai mô hình khác nhau
Nhìn vào kết qu ta thy : 0.5386 > 0.05 nên ta kết lun rng chp nhn gi thiết H
0
.
Vy 2 mô hình M1 và M2 là bng nhau.
Xét mô hình M1, M3
Input:
anova(m1,m3)
Phân tích phương sai cho hai mô hình tuyến tính m1, m3.
Output:
Lí lun:
14
lOMoARcPSD|47207367
Đặt gi thiết H
0
: hai mô hình bng nhau
Đặt gi thiết H
1
: hai mô hình khác nhau
Nhìn vào kết qu ta thy : 0.03194 < 0.05 nên ta kết lun rng bác b gi thiết H
0
,
chp nhn gi thiết H
1
.
Vy hai mô hình M1 và M3 là khác nhau.
Kết lun: Chn M2 vì M2 cha nhiu biến tin cy, ít biến không tin cy
d. T mô hình hi quy hp lí nht ca câu c, suy lun sự tác động ca các
biến điểm thi cui kì.
Vi mc alpha 5% các biến G1, G2, studytime4, failures1, absences tác động mnh
đến điểm thi cui k G3.
e.T mô hình hi quy hp lí nht ca câu c, dung lnh plot() vẽ đồ th biu th
sai s hi quy và giá tr dự báo. Nêu ý nghĩa và nhận xét.
Input:
plot(m2, which = 1)
Output:
Mức độ dao dng ca sai s và giá tr d báo quanh giá tr 0. Mô hình hi quy
tt 5. D báo (Predictions) :
a. Trong d liu ca bn, hãy to thêm biến đặt tên evaluate, biến này biu
din t l đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi
cui kì. Hãy thng kê t lệ đạt/không đạt
Input:
evaluate = prop.table(table(G3>=10))
Tính tỉ lệ đạt và lưu vào biến
evaluate . evaluate
15
lOMoARcPSD|47207367
Hiển th kết qu ca biến evaluate
Output:
b. Xét mô hình hi quy hp lý nht mà bạn đã chọn trong câu 4c. Hãy lp mt
bng s liu mới đặt tên là new_X bao gm toàn b các biến độc lp trong mô
hình này, và dùng lênh predict() để đưa ra số liu d báo cho biến G3 ph
thuc vào new_X. Gi kết qu d báo này là biến pred_G3.
Input:
New_X = data.frame(G1,G2,studytime,failures,absences,age)
To mt d liu mi bao gm các biến độc lập như ở mô hình m2 và đặt tên d liu
đó là New_X
New_X$pred_G3 = predict(m2,New_X)
Tính s liu d báo ca biến G3 ph thuc vào d liệu New_X sau đó lưu kết
qu vào biến pred_G3, đồng thi thêm biến pred_G3 vào d liu New_X.
attach(New_X)
Thông báo cho phn mm biết từ đây trở v sau mọi phép tính đều được thc
hin trên d liu New_X
evaluate_2 = prop.table(table(pred_G3>=10))
Tính t l dự báo và lưu vào biến evaluate_2
c. Khảo sát độ chính xác trong kết qu d báo ca câu trên bng cách lp mt bng
so sánh kết qu d báo pred_G3 vi kết qu thc tế ca biến G3.
Đạt Không đạt
Quan sát
D báo
Input:
Ket_qua = cbind(evaluate,evaluate_2)
Kết qu thng kê t lệ đạt vào không đạt đối vi biến d báo là
pred_G3 colnames(Ket_qua)=c("Quan sát","D báo")
Khai báo tên ca ct Ket_qua
rownames(Ket_qua)=c("Không đạt","Đạt")
Khai báo tên ca hàng
Ket_qua t(Ket_qua)
Xut kết qu d báo
Output:
16
lOMoARcPSD|47207367
B. PHN RIÊNG
1. Đọc d
liu: Input:
khong_khi = read.csv("C:/Users/Huy Tran/Desktop/khong_khi.csv",header=T)
attach(khong_khi)
2. Làm sch d liu (Data
cleaning): a. Trích d liu:
Input:
new_DF = data.frame(PM2.5,PM10,O3,TEMP,PRES,DEWP,WSPM,wd)
attach(new_DF)
b. Kim tra các d liu b khuyết trong tp tin. Nếu có d liu b khuyết, hãy
đề xut phương pháp thay thế cho nhng d liu b khuyết này.
Input:
apply(is.na(new_DF), 2 , which)
new_DF=na.omit(new_DF)
3. Làm rõ d liu ( Data visualization):
a. Đối vi các biến liên tc, hãy tính các giá tr thng t bao gm:
trung binh, trung v độ lch chun, giá tr ln nht và giá tr nh nht. Xut
kết quả dưới dng bng.
Input :
mean = apply(new_DF[,c(1,2,3,4,5,6,7)],2, mean)
median = apply(new_DF[,c(1,2,3,4,5,6,7)],2, median)
sd = apply(new_DF[,c(1,2,3,4,5,6,7)],2, sd)
max = apply(new_DF[,c(1,2,3,4,5,6,7)],2, max)
min = apply(new_DF[,c(1,2,3,4,5,6,7)],2, min)
des = cbind(mean,median,sd,max,min)
as.data.frame(des)
Output:
17
lOMoARcPSD|47207367
b. Đối vi các biến phân loi, hãy lp mt bng thng kê số lượng cho tng
chng loi.
Input:
table(wd)
Output:
c. Vẽ đồ th biu din cho biến PM2.5, PM10,
O3 Input:
hist(PM2.5)
Output:
Input:
hist(PM10)
Output:
18
lOMoARcPSD|47207367
Input:
hist(O3)
Output:
d. Dùng hàm boxplot() v phân phi ca biến PM2.5, PM10, O3 cho tng
nhóm phân loi ca biến wd.
Phân loi nhóm cho biến PM2.5
Input:
boxplot(PM2.5 ~ wd)
Output:
19
| 1/34

Preview text:

lOMoARcPSD|47207367 lOMoARcPSD|47207367
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA 
BÁO CÁO BÀI TẬP LỚN 2 XÁC SUẤT THỐNG KÊ
GVHD: Nguyễn Kiều Dung
Khoa Kỹ thuật hóa học – Nhóm 7 Danh sách thành viên: STT Họ và tên MSSV Lớp Kí tên 1
Trần Đức Hoàng Huy 1913558 L16 2
Thi Lê Nht Bình 1912737 L16 3
Đặng Ngc Tân 1912008 L04 4 Lê Tiến Anh 1910754 L13 5
Ngô Thị Phương Thùy 1915402 L16 6 Trn Song Khôi 1911433 L09 7 Lâm Thanh Ngân 1914273 L16 8 Phan Nguyên Minh 1911617 L09 9 Đinh Trung Hiếu 1911140 L09
Mã th t báo cáo nhóm: B42 lOMoARcPSD|47207367 MỤC LỤC
Li mở đầu.....................................................................................................................................................................2
Phn đề bài.....................................................................................................................................................................3
A. Phn chung.........................................................................................................................................................3
B. Phn riêng...........................................................................................................................................................4
Phn li gii...................................................................................................................................................................6
A. Phn chung.........................................................................................................................................................6
1. Đọc d liu....................................................................................................................................................6
2. Làm sch d liu (Data cleaning)....................................................................................................6
3. Làm rõ d liu (Data visualization)................................................................................................7
4. Xây dng các mô hình hi quy tuyến tính (Fitting linear regression models)....12
5. D báo (Predictions)................................................................................................................................15 B. Phn riêng
1. Đọc d liu....................................................................................................................................................17
2. Làm sch d liu (Data cleaning)....................................................................................................17
3. Làm rõ d liu (Data visualization)................................................................................................17
4. Xây dng các mô hình hi quy tuyến tính (Fitting linear regression models)....27
5. D báo (Predictions)................................................................................................................................32 1 lOMoARcPSD|47207367 LỜI MỞ ĐẦU
Thng kê là nghiên cu ca tp hp nhiều lĩnh vực khác nhau, bao gm phân tích, gii
thích, trình bày và t chc d liu. Trong thc tin, thng kê có rt nhiu ng dng vào
nhiều lĩnh vực khác nhau, đặc bit rt cn thiết cho sinh viên các ngành khoa hc, k
thut. Môn hc Xác sut & thng kê cung cp kiến thức cơ bản v lý thuyết, gii thiu mt
s hàm phân phi xác sut thông dng, kiểm định gi thuyết, ước lượng khong tin cy,
v.v…Thông qua thống kê, các d liu thu thập được phân tích theo nhiu tiêu chí khác
nhau giúp người s dng có cái nhìn tng quan v d liu ca họ, đưa ra được ước lượng
v tng th lớn hơn hay dự đoán mô hình và kiểm định li gi thuyết theo các mức ý nghĩa khác nhau.
Trong riêng lĩnh vực K thut Hóa hc, rt nhiu nghiên cu cn có các d liu t thc
nghiệm để nghiên cứu như tính chất ca hp cht, tính hiu qu ca sn phm, hiu sut
phn ng ở các điều kin phn ng khác nhau, v.v. Vì vy tính ng dng ca Xác sut &
thng kê trong K thut Hóa hc rt cao, là nn tng, là tiền đề cho vic nghiên cu.
Báo cáo ca nhóm tp trung vào vic tìm hiểu hai phương pháp được s dng ph
biến trong Thống kê là Phân tích phương sai và Hồi quy tuyến tính bi. Từ đó vận
dng chúng vào vic x lý tp d liu cho sẵn, đưa ra những giá tr thng kê mô tả,
đánh giá đặc điể
m, tính cht của đối tượng thng kê, vẽ các đồ thị để có cái nhìn trc
quan,.v.v.bng phn mm R/Rstudio. 2 lOMoARcPSD|47207367 PHẦN ĐỀ BÀI A. PHẦN CHUNG
Tập tin “diem_so.csv” chứa thông tin về điểm toán ca các em hc sinh trung hc
thuộc hai trường hc Bồ Đào Nha. Các thuộc tính d liu bao gồm điểm học sinh, nơi cư
trú, và mt s hoạt động xã hi khác. D liệu được thu thp bng cách s dng báo cáo
của các trường và các kết qu kho sát sinh viên. D liu gốc được cung cp ti:
https://archive.ics.uci.edu/ml/datasets/student+performance.
Các biến chính trong b d liu:
• G1: Điểm thi hc kì 1.
• G2: Điểm thi hc kì 2.
• G3: Điểm cui khoá.
• studytime: Thi gian t hc trên tun (1 – ít hơn 2 giờ, 2 từ 2 đến 5 gi, 3 từ 5
đến 10 gi, or 4 lớn hơn 10 giờ).
• failures: s ln không qua môn (1,2,3, hoc 4 ch nhiều hơn hoặc bng 4 ln).
• absences: s ln ngh hc.
• higher: Có mun học cao hơn hay không (yes: có, no: không).
• age:
Tui ca hc sinh. Câu hỏi:
1. Đọc dữ liệu: Hãy dùng lnh read.csv() để đọc tp tin.
2. Làm sạch dữ liệu (Data cleaning):
(a) Hãy trích ra mt d liệu con đặt tên là new_DF ch bao gm các biến chính mà
ta quan tâm như đã trình bày trong phần gii thiu d liu. T câu hi này v sau,
mi yêu cu xử lý đều da trên tp d liu con new_DF này.
(b) Kim tra các d liu b khuyết trong tp tin. (Các câu lênh tham kho: is.na(),
which(), apply()). Nếu có d liu b khuyết, hãy đề xuất phương pháp thay thế cho nhng
d liu b khuyết này.
3. Làm rõ dữ liệu (Data visualization):
(a) Đối vi các biến liên tc, hãy tính các giá tr thng kê mô t bao gm: trung bình,
trung vị, độ lch chun, giá tr ln nht và giá tr nh nht. Xut kết quả dưới dng bng.
(Hàm gi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(), rownames()).
(b) Đối vi các biến phân loi, hãy lp mt bng thng kê số lượng cho tng chng loi.
(c) Hãy dùng hàm hist() để vẽ đồ th phân phi ca biến G3.
(d) Hãy dùng hàm boxplot() v phân phi ca biến G3 cho tng nhóm phân loi ca
biến studytime, failures, và biến higher.
(e) Dùng lnh pairs() v các phân phi ca biến G3 lần lượt theo các biến G1,
G2, ageabsences.
4. Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models): 3 lOMoARcPSD|47207367
Chúng ta mun khám phá rng có nhng nhân tố nào và tác động như thế nào đến
điể
m cui khoá môn Toán ca các em hc sinh.
(a) Xét mô hình hi quy tuyến tính bao gm biến G3 là mt biến ph thuc, và tt
c các biến còn lại đều là biến độc lp. Hãy dùng lệnh lm() để thc thi mô hình hi quy
tuyến tính bi.
(b) Da vào kết qu ca mô hình hi quy tuyến tính trên, nhng biến nào bn s
loi khỏi mô hình tương ứng vi các mc tin cy 5% và 1%?
(c) Xét 3 mô hình tuyến tính cùng bao gm biến G3 là biến ph thuộc nhưng:
Mô hình M1 cha tt c các biến còn li là biến độc lp.
Mô hình M2 là loi b biến higher t M1.
Mô hình M3 là loi b biến failure t M2.
Hãy dùng lnh anova() để đề xut mô hình hi quy hp lý hơn.
(d) T mô hình hi quy hp lý nht t câu (c) hãy suy lun sự tác động ca các
biến lên điểm thi cui kì.
(e) T mô hình hi quy hp lý nht t câu (c) hãy dùng lệnh plot() để vẽ đồ th
biu th sai s hi quy và giá tr dự báo. Nêu ý nghĩa và nhận xét.
5. Dự báo (Predictions):
(a) Trong d liu ca bn, hãy to thêm biến đặt tên là evaluate, biến này biu
din t lệ đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi cui
kì. Hãy thng kê t lệ đạt/không đạt (Hàm gi ý: cbind()).
(b) Xét mô hình hi quy hp lý nht mà bạn đã chọn trong câu 4(c). Hãy lp mt
bng s liu mới đặt tên là new_X bao gm toàn b các biến độc lp trong mô hình
này, và dùng lênh predict() để đưa ra số liu d báo cho biến G3 ph thuc vào
new_X. Gi kết qu d báo này là biến pred_G3.
(c) Khảo sát độ chính xác trong kết qu d báo ca câu trên bng cách lp mt
bng so sánh kết qu d báo pred_G3 vi kết qu thc tế ca biến G3. Đạt Không đạt Quan sát D báo B. PHẦN RIÊNG
Tập tin “PRSA_Data_Wanshouxigong_20130301-20170228.csv” Bộ d liu này bao
gm d liu v các cht ô nhim không khí hàng gi từ 12 địa điểm giám sát chất lượng
không khí được kim soát trên toàn quc. D liu chất lượng không khí được ly t
Trung tâm Giám sát Môi trường Thành ph Bc Kinh. D liệu khí tượng ti mỗi địa
điể
m chất lượng không khí được khp vi trm thi tiết gn nht ca Cục Khí tượng
Trung Quc. Khong thi gian từ ngày 1 tháng 3 năm 2013 đến ngày 28 tháng 2 năm
2017. Dữ
liu b thiếu được ký hiu là NA. D liu gốc được cung cp ti
https://archive.ics.uci.edu/ml/datasets/student+performance. 4 lOMoARcPSD|47207367
Các biến chính trong b d liu:
PM2.5: nồng độ PM2.5 (µg/m3)
PM10: Nồng độ PM10 (µg/m3)
CO: Nồng độ CO (µg/m3)
TEMP: nhiệt độ (oC)
PRES: áp sut (hPa)
DEWP: nhiệt độ điểm sương (oC)
• RAIN: lượng mưa (mm) • wd: hướng gió
WSPM: tốc độ gió (m/s) 5 lOMoARcPSD|47207367 PHẦN LỜI GIẢI A. PHẦN CHUNG 1. Đọc dữ liệu: Input:
diem_so<-read.csv("C:/Users/Huy Tran/Desktop/diem_so.csv",header=T) attach(diem_so)
→ Đọc tp tin và lưu d liu vi tên là: "diem_so"
2. Làm sạch dữ liệu (Data cleaning): a. Trích dữ liệu: Input:
newDF<-data.frame(G1,G2,G3,studytime,failures,absences,higher,age)
Trích ra d liu con đặt tên là new_DF bao gm các biến chính. attach(new_DF)
Khai báo biến chính mà ta quan tâm, và để d liu về sau được s lí bng
new_DF b. Kiểm tra các dữ liệu bị khuyết trong tập tin. Nếu có dữ liệu bị
khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này.

Input: apply(is.na(new_DF), 2 , which)
Kim tra và xut ra giá tr khuyết ca các biến trong d liu new_DF. Output:
Da trên kết quả thu được, ta nhn thy có 5 giá tr khuyết ti biến G2. Do đó, ta cần
xử đưa ra các phương pháp cho các giá trị khuyết đó.
Ta có các phương pháp xử lý các giá tr khuyết như sau: 6 lOMoARcPSD|47207367
– Phương pháp 01: Deletion(xoá): phương pháp này được dùng khi khi xác sut thiếu
biến là như nhau cho tất c các quan sát.
Phương pháp 02: Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các
giá tr còn thiếu vi các giá trị ước tính.
Ta s chn thay phương pháp xóa các quan sát mà bất k biến nào b thiếu. Input: new_DF=na.omit(new_DF)
Xóa các giá tr b khuyết, mà gán li new_DF mi.
3. Làm rõ dữ liệu ( Data visualization):
a. Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm:

trung binh, trung vị độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất
kết quả dưới dạng bảng.
Input :
mean = apply(new_DF[,c(1,2,3,8)],2, mean)
Tính trung bình ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là mean.
median = apply(new_DF[,c(1,2,3,8)],2, median)
Tính trung v ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là median.
sd = apply(new_DF[,c(1,2,3,8)],2, sd)
Tính độ lch chun ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là sd.
max = apply(new_DF[,c(1,2,3,8)],2, max)
Tính giá tr ln nht ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là max.
min = apply(new_DF[,c(1,2,3,8)],2, min)
Tính giá tr nh nht ca các biến liên tc (G1, G2, G3, age) và lưu vào biến có tên là min.
des = cbind(mean,median,sd,max,min)
To matrix th hin các giá tr thng kê mô t cho các biến liên tục, lưu vào biến des. as.data.frame(des)
Chuyn matrix thành dng bng d liu. Output: 7 lOMoARcPSD|47207367
b. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại. Input: table(failures)
→ Tạo bng thng kê số lượng cho biến failures table(studytime)
→ Tạo bng thng kê số lượng cho biến studytime. table(higher)
→ Tạo bng thng kê số lượng cho biến higher. Output:
c. Vẽ đồ thị biểu diễn cho biến G3 Input: hist(G3)
V biểu đồ histogram cho biến G3. Output: 8 lOMoARcPSD|47207367
d. Dùng hàm boxplot() vẽ phân phối của biến G3 cho từng nhóm phân loại
của biến sutdytime, failures, và biến higher.

Phân loi nhóm cho biến studytime Input : boxplot(G3 ~ studytime)
V biểu đồ Boxplot ca biến G3 phân phi cho tng loi ca biến studytime Output:
Phân loi nhóm cho biến failures Input : boxplot(G3 ~ failures)
→ Vẽ biểu đồ Boxplot ca biến G3 cho tng nhóm phân loi ca biến failures 9 lOMoARcPSD|47207367 Output:
• Phân loại nhóm cho biến higher Input: boxplot(G3 ~ higher)
→ Vẽ biểu đồ Boxplot ca biến G3 cho tng nhóm phân loi ca biến higher Output:
e. Dùng lệnh pairs() vẽ các phân phối của biến G3 lần lượt cho các biến G1, G2, age và absences
Phân phi biến G3 cho biến G1 Input: pairs(G3 ~ G1)
→ Vẽ các phân phi ca biến G3 phân phi theo theo biến G1. Output: 10 lOMoARcPSD|47207367
• Phân phối biến G3 cho biến G2 Input: pairs(G3 ~ G2)
V các phân phi ca biến G3 phân phi theo biến G2. Output:
Phân phi biến G3 cho biến age Input: pairs(G3 ~ age)
→ Vẽ các phân phi ca biến G3 phân phi theo biến age. Output: 11 lOMoARcPSD|47207367
Phân phi biến G3 cho biến absences Input: pairs(G3 ~ absences)
V các phân phi ca biến G3 phân phi theo biến absences. Output:
4. Xây dụng các mô hình hồi quy (Fitting linear regression models):
a. Xét mô hình hồi quy tuyến tính bao gồm biến G3 là một biến phụ thuộc, và
tất cả các biến còn lại đều là độc lập. Dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính bội. Xét mô hình :
G1: biến liên tc
G2: biến liên tc
G3: biến liên tc 12 lOMoARcPSD|47207367
studytime: biến phân loi
failures: biến phân loi
absences: biến ri rc
higher: biến phân loi
age: biến liên tc Input:
studytime = as.factor(studytime)
Thay biến studytime thành biến nhân
t. failures = as.factor(failures)
Thay biến failures thành biến nhân
t. higher = as.factor(higher)
Thay biến higher thành biến nhân t.
m1 = lm(G3 ~ G1 + G2 + studytime + failures + absences + higher+ age) summary(m1)
Xây dng mô hình hi quy tuyến tính bi. Output:
b. Dựa vào kết quả của mô hình tuyến tính trên, những biến nào bạn sẽ loại
khỏi mô hình tương ứng với các mức tin cậy 5% và 1% ?
So sánh Pr(>|t|) vi mức α cần xét, khi đó các biến b loi khi mô hình
Mc 5%: studytime2, studytime3, failures2, failures3, higheryes, age. 13 lOMoARcPSD|47207367
Mc 1%: studytime2, studytime3, studytime4, failures2, failures3, higheryes, age.
c. Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc:
• Mô hình M1 chưa tấ
t c các biến còn li là biến độc lp
→ Mô hình M1 là đáp án của câu (a)
Mô hình M2 là loi b biến higher t M1 Input:
m2 = lm(G3 ~ G1 + G2 + studytime + failures + absences + age)
• Mô hình M3 là loại b biến failures t M2 Input:
m3 = lm(G3 ~ G1 + G2 + studytime + absences + age)
• Dùng anova() để đề xut mô hình hi quy hp lý :
Xét hai mô hình hi quy M1 và M2 : Input: anova(m1,m2)
→ Phân tích phương sai cho hai mô hình tuyến tính m1, m2 Output: Lí luận:
Đặ
t gi thiết H0: hai mô hình bng nhau
Đặt gi thiết H1: hai mô hình khác nhau
Nhìn vào kết qu ta thy : 0.5386 > 0.05 nên ta kết lun rng chp nhn gi thiết H0.
Vy 2 mô hình M1 và M2 là bng nhau.
Xét mô hình M1, M3 Input: anova(m1,m3)
→ Phân tích phương sai cho hai mô hình tuyến tính m1, m3. Output: Lí luận: 14 lOMoARcPSD|47207367
Đặt gi thiết H0: hai mô hình bng nhau
Đặt gi thiết H1: hai mô hình khác nhau
Nhìn vào kết qu ta thy : 0.03194 < 0.05 nên ta kết lun rng bác b gi thiết H0,
chp nhn gi thiết H1.
Vy hai mô hình M1 và M3 là khác nhau.
Kết luận: Chn M2 vì M2 cha nhiu biến tin cy, ít biến không tin cy
d. Từ mô hình hồi quy hợp lí nhất của câu c, suy luận sự tác động của các
biến điểm thi cuối kì.

Vi mc alpha 5% các biến G1, G2, studytime4, failures1, absences tác động mnh
đến điểm thi cui k G3.
e. Từ mô hình hồi quy hợp lí nhất của câu c, dung lệnh plot() vẽ đồ thị biểu thị
sai số hồi quy và giá trị dự báo. Nêu ý nghĩa và nhận xét. Input: plot(m2, which = 1) Output:
Mức độ dao dng ca sai s và giá tr d báo quanh giá tr 0. Mô hình hi quy
tt 5. Dự báo (Predictions) :
a. Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biểu
diễn tỷ lệ đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi
cuối kì. Hãy thống kê tỷ lệ đạt/không đạt
Input:
evaluate = prop.table(table(G3>=10))
→ Tính tỉ lệ đạt và lưu vào biến evaluate . evaluate 15 lOMoARcPSD|47207367
→ Hiển th kết qu ca biến evaluate Output:
b. Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4c. Hãy lập một
bảng số liệu mới đặt tên là new_X bao gồm toàn bộ các biến độc lập trong mô
hình này, và dùng lênh predict() để đưa ra số liệu dự báo cho biến G3 phụ
thuộc vào new_X. Gọi kết quả dự báo này là biến pred_G3.
Input:
New_X = data.frame(G1,G2,studytime,failures,absences,age)
To mt d liu mi bao gm các biến độc lập như ở mô hình m2 và đặt tên d liu đó là New_X
New_X$pred_G3 = predict(m2,New_X)

Tính s liu d báo ca biến G3 ph thuc vào d liệu New_X sau đó lưu kết
qu vào biến pred_G3, đồng thi thêm biến pred_G3 vào d liu New_X. attach(New_X)
Thông báo cho phn mm biết từ đây trở v sau mọi phép tính đều được thc
hin trên d liu New_X
evaluate_2 = prop.table(table(pred_G3>=10))
Tính t l dự báo và lưu vào biến evaluate_2
c. Khảo sát độ chính xác trong kết quả dự báo của câu trên bằng cách lập một bảng
so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3. Đạt Không đạt Quan sát D báo Input:
Ket_qua = cbind(evaluate,evaluate_2)
Kết qu thng kê t lệ đạt vào không đạt đối vi biến d báo là
pred_G3 colnames(Ket_qua)=c("Quan sát","D báo")
Khai báo tên ca ct Ket_qua
rownames(Ket_qua)=c("Không đạt","Đạt")
Khai báo tên ca hàng Ket_qua t(Ket_qua)
Xut kết qu d báo Output: 16 lOMoARcPSD|47207367 B. PHẦN RIÊNG 1. Đọc dữ liệu: Input:
khong_khi = read.csv("C:/Users/Huy Tran/Desktop/khong_khi.csv",header=T) attach(khong_khi)
2. Làm sạch dữ liệu (Data
cleaning): a. Trích dữ liệu: Input:
new_DF = data.frame(PM2.5,PM10,O3,TEMP,PRES,DEWP,WSPM,wd) attach(new_DF)
b. Kiểm tra các dữ liệu bị khuyết trong tập tin. Nếu có dữ liệu bị khuyết, hãy
đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này.
Input:
apply(is.na(new_DF), 2 , which) new_DF=na.omit(new_DF)
3. Làm rõ dữ liệu ( Data visualization):
a. Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm:
trung binh, trung vị độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất
kết quả dưới dạng bảng.
Input :
mean = apply(new_DF[,c(1,2,3,4,5,6,7)],2, mean)
median = apply(new_DF[,c(1,2,3,4,5,6,7)],2, median)
sd = apply(new_DF[,c(1,2,3,4,5,6,7)],2, sd)
max = apply(new_DF[,c(1,2,3,4,5,6,7)],2, max)
min = apply(new_DF[,c(1,2,3,4,5,6,7)],2, min)
des = cbind(mean,median,sd,max,min) as.data.frame(des)
Output: 17 lOMoARcPSD|47207367
b. Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng chủng loại. Input: table(wd) Output:
c. Vẽ đồ thị biểu diễn cho biến PM2.5, PM10, O3 Input: hist(PM2.5) Output: Input: hist(PM10) Output: 18 lOMoARcPSD|47207367 Input: hist(O3) Output:
d. Dùng hàm boxplot() vẽ phân phối của biến PM2.5, PM10, O3 cho từng
nhóm phân loại của biến wd.

Phân loi nhóm cho biến PM2.5 Input: boxplot(PM2.5 ~ wd) Output: 19