Bài tập thống kê ứng dụng | Trường Đại học Kinh tế – Luật, Đại học Quốc gia Thành phố Hồ Chí Minh

Bảng dữ liệu biến SOP có tổng 85 quan sát, trong đó giá trị SOP = 3.5 xuất hiện nhiều nhất 25 lần và giá trị SOP = 1.5 xuất hiện ít nhất 2 lần. Bảng dữ liệu biến SOP có tổng 400 quan sát, trong đó giá trị SOP = 3.5. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

lOMoARcPSD| 46663874
ĐẠ
I H
C QU
C GIA THÀNH PH
H
TRƯỜNG ĐẠ
I H
C KINH T
- LU
T
BÀI T
P CÁ NHÂN
MÔN H
C: TH
NG KÊ
NG D
NG
Thành ph
H
Chí Minh, tháng 7 năm
2023
Gi
ng viên:
Lương Thành Quỳ
nh
Sinh viên: Lê B
o Ngân
L
p: K22404B
MSSV: K224040531
lOMoARcPSD| 46663874
Phần mềm sử dụng: Stata
PHẦN I: MÔ TẢ BỘ DỮ LIỆU
- Bộ dữ liệu gồm 9 biến, 3600 quan sát.
Biến
Thang o
Dữ liệu ịnh tính
Serialno
Thang o ịnh danh
Universityrating
Thang o ịnh danh
Research
Thang o ịnh danh
SOP
Thang o ịnh danh
Dữ liệu ịnh lượng
Grescore
Thang ó tỷ lệ
Toeflscore
Thang o tỷ lệ
LOR
Thang o tỷ lệ
CGPA
Thang o tỷ lệ
Chance of Admit
Thang o tỷ lệ
PHẦN II: MÔ TẢ CÁC BIẾN TRONG DỮ LIỆU
MỘT ĐỊNH LƯỢNG
SUMMARY (TRUNG BÌNH, ĐỘ LỆCH CHUẨN, MIN, MAX)
summarize chanceofadmit //1 biến
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : .72435
- Độ lệch chuẩn (Std.dev.) : .1426093 - Giá trị nh nht (Min) : .34 - Giá
trị lớn nhất (Max) : .97 summarize chanceofadmit toeflscore //nhiều biến
lOMoARcPSD| 46663874
Biến chanceofadmit:
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : .72435
- Độ lệch chuẩn (Std.dev.) : .1426093 - Giá trị nh nht (Min) : .34 - Giá
trị lớn nhất (Max) : .97 Biến toeflscore:
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : 107.41
- Độ lệch chuẩn (Std.dev.) : 6.069514
- Giá trị nhnhất (Min) : 92
- Giá trị lớn nhất (Max) : 120
SUMMARY (ĐẦY ĐỦ)
tabstat chanceofadmit, statistics( max min range sd var mean p25 median
p75 cv)
- Giá trị lớn nhất (Max) : .97 - Giá trị nhnhất (Min) : .34
- Khoảng biến thiên (Range) : .63
- Độ lệch chuẩn (Sd) : .1426093
- Phương sai (Variance) : .0203374
- Trung bình cộng (Mean) : .72435
- p25: .64; p50: .73; p75: .83
- Hệ số biến thiên (CV) : .196879
MỘT ĐỊNH TÍNH TO
BẢNG
lOMoARcPSD| 46663874
tabulate sop
Nhận xét: Bảng dữ liu biến SOP có tổng 400 quan sát, trong ó giá trị
SOP = 3.5 & SOP = 4 xuất hiện nhiều nhất 70 lần và giá trị SOP = 1 xuất
hiện ít nhất 6 lần. Sự chênh lệch giữa 2 giá trị là 64 lần.
TẠO BẢNG CÓ THÊM YẾU TỐ ĐỊNH TÍNH ĐỂ PHÂN LOẠI
by lor, sort : tabulate sop
- Tần số (Freq): 1
- Tỷ lệ phần trăm (Percent): 100.00
Nhận xét: Bảng dữ liu biến SOP có tổng 7 quan sát, trong đó giá trị
lOMoARcPSD| 46663874
SOP = 2 & SOP = 2.5 xuất hiện nhiều nhất 2 lần và giá trị SOP = 1 & SOP
= 1.5 & SOP = 3 xuất hiện ít nhất 1 lần.
Nhận xét: Bảng dữ liu biến SOP có tổng 38 quan sát, trong đó giá trị
SOP = 1.5 xuất hiện nhiều nhất 13 lần và giá trị SOP = 3.5 & SOP = 4
xuất hiện ít nhất 1 lần.
lOMoARcPSD| 46663874
n xét: Bảng dữ liệu biến SOP có tổng 39 quan sát, trong đó giá trị
SOP = 2 xuất hiện nhiều nhất 14 lần và giá trị SOP = 1 & SOP = 4 xuất
hiện ít nhất 2 lần.
Nhận xét: Bảng dữ liu biến SOP có tổng 85 quan sát, trong đó giá trị
SOP = 3.5 xuất hiện nhiều nhất 25 lần và giá trị SOP = 1.5 xuất hiện ít
nhất 2 lần.
Nhận xét: Bảng dữ liu biến SOP có tổng 73 quan sát, trong đó giá trị
SOP = 3 xuất hiện nhiều nhất 21 lần và giá trị SOP = 1.5 xuất hiện ít nhất
1 lần.
lOMoARcPSD| 46663874
Nh
Nhận xét: Bảng dữ liu biến SOP có tổng 77 quan sát, trong đó giá trị
SOP = 4.5 xuất hiện nhiều nhất 21 lần và giá trị SOP = 2 xuất hiện ít nhất
2 lần.
Nhận xét: Bảng dữ liu biến SOP có tổng 45 quan sát, trong đó giá trị
SOP = 4 xuất hiện nhiều nhất 16 lần và giá trị SOP = 2.5 & SOP = 3 xuất
hiện ít nhất 1 lần.
lOMoARcPSD| 46663874
n xét: Bảng dữ liệu biến SOP tổng 35 quan sát, trong đó giá trị
SOP = 5 xuất hiện nhiều nhất 18 lần và giá trị SOP = 3 xuất hiện ít nhất 1
lần.
TẠO BẢNG CÓ THÊM YẾU TỐ ĐỊNH LƯỢNG (vd như iểm GRE
lớn hơn 300) tabulate sop if grescore > 300
Nhận xét: Bảng dữ liu biến SOP có tổng 358 quan sát, trong đó giá trị
SOP = 3.5 xuất hiện nhiều nhất 67 lần và giá trị SOP = 1 xuất hiện ít nhất
3 lần. Sự chênh lệch giữa 2 giá trị là 66 lần.
HAI ĐỊNH TÍNH
tabulate sop lor
MINH HOA BẰNG HÌNH
HISTOGRAM
lOMoARcPSD| 46663874
Nh
Vẽ Histogram bằng tần số với số cột cho trước histogram
chanceofadmit, bin(10) frequency
Nhận xét: Tần suất của Chance of Admit đều thuộc khoảng từ gần 10
trở lên. Tần số đạt vị trí cao nhất với mốc gần 80 thuộc mức từ 6 đến 8.
Vẽ Histogram bằng tần số với độ dài mỗi chotrước histogram
chanceofadmit, width(7) frequency
lOMoARcPSD| 46663874
n xét: Tần suất của Chance of Admit thuộc khoảng từ 0 trở lên,
tần số cao nhất là 400.
BOXPLOT
Vẽ Boxplot thẳng ứng
lOMoARcPSD| 46663874
Nh
- Có ít nhất một giá trị quan sát
- Đồ thị có dạng đối xứng Vẽ Boxplot ngang graph hbox chanceofadmit
graph box chanceofadmit
Q1 = 8.3; Q2 = 7.5; Q3 = 6.3
-
lOMoARcPSD| 46663874
- Q1 = 6.4; Q2 = 7.2; Q3 = 8.4
- Có ít nhất một giá trị quan sát
- Đồ thị có dạng lệch phải Vẽ nhiều Boxplot
graph box chanceofadmit toeflscore //thẳng ứng
lOMoARcPSD| 46663874
- Q1 = 115; Q2 = 107; Q3 = 103 - Đồ thị có dạng lệch trái graph box
chanceofadmit toeflscore //hàng ngang
TOELF Score:
TOELF Score:
lOMoARcPSD| 46663874
- Q1 = 103; Q2 = 107; Q3 = 115
- Đồ thị có dạng lệch phải
PIECHART
Vẽ đồ thị hình
Nhận xét: Giá trị Sop = 5 chiếm tỉ lệ lớn so với các giá trị còn lại.
Thêm các thông tin vào hình graph pie, over(sop) plabel(_all name)
//Tên các biến
graph pie, over(sop)
lOMoARcPSD| 46663874
Nhận xét: Giá trị Sop = 5 chiếm tỉ lệ lớn so với các giá trị còn lại.
graph pie, over(sop) plabel(_all percent) //phần trăm
lOMoARcPSD| 46663874
Nhận xét: Giá trị Sop = 4 và giá trị Sop = 3.5 chiếm tỉ lệ phần trăm
lớn so với các giá trị còn lại. Giá trị Sop = 1 chiếm tỉ lệ phn trăm ít nhất
so với các giá trị.
graph pie, over(sop) plabel(_all sum) //Số lượng
Nhận xét: Giá trị Sop = 4 và giá trị Sop = 3.5 có số lượng lớn so với
các giá trị còn lại = 70. Giá trị Sop = 1 có số lượng ít nhất so với các giá
trị = 6.
BARCHART
lOMoARcPSD| 46663874
Vẽ đồ thị thanh histogram sop,
discrete frequency
Nhận xét: Phần lớn tần số xut hiện nhiều nhất trong khoảng từ 3 ến 4,
sau đó giảm dần sang hai phía từ 3 ến 1 và từ 4 ến 5. Tần số đạt ỉnh cao
nhất thuộc khoảng từ 3 ến 4 với mức tần số gần bằng 70, trong khi mức
thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5. histogram sop,
discrete frequency horizontal //vẽ thị nằm ngang
lOMoARcPSD| 46663874
Nhận xét: Phần lớn tần số xut hiện nhiều nhất trong khoảng từ 3 ến 4,
sau đó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số gần bằng 70, trong khi
mức thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5.
lOMoARcPSD| 46663874
histogram sop, discrete frequency addlabel ylabel(, labels) //Thêm giá tr
tần số ở mỗi thanh
Nhận xét: Phần lớn tần số xut hiện nhiều nhất trong khoảng từ 3 đến
4, sau đó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số bằng 70, trong khi mức
thấp nhất thuộc khoảng 1 với tần số bằng 5. histogram sop, discrete
frequency gap(10) //tách các thanh rời nhau
lOMoARcPSD| 46663874
Nhận xét: Phần lớn tần số xut hiện nhiều nhất trong khoảng từ 3 đến
4, sau ó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số gần bằng 70, trong khi
mức thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5.
STEM AND LEAF
stem toeflscore
Stem-and-leaf plot for toeflscore (TOEFL Score)
| 1/22

Preview text:

lOMoAR cPSD| 46663874
ĐẠ I H C QU C GIA THÀNH PH H CHÍ MINH
TRƯỜNG ĐẠ I H C KINH T - LU T   
BÀI T ẬP CÁ NHÂN
MÔN H C: TH NG KÊ NG D NG
Gi ả ng viên: Lương Thành Quỳ nh Sinh viên: Lê B ả o Ngân L ớ p: K22404B MSSV: K224040531
Thành ph H Chí Minh, tháng 7 năm 202 3 lOMoAR cPSD| 46663874
Phần mềm sử dụng: Stata
PHẦN I: MÔ TẢ BỘ DỮ LIỆU
- Bộ dữ liệu gồm 9 biến, 3600 quan sát. Biến Thang o Serialno Thang o ịnh danh Universityrating Thang o ịnh danh
Dữ liệu ịnh tính Research Thang o ịnh danh SOP Thang o ịnh danh Grescore Thang ó tỷ lệ Toeflscore Thang o tỷ lệ
Dữ liệu ịnh lượng LOR Thang o tỷ lệ CGPA Thang o tỷ lệ Chance of Admit Thang o tỷ lệ
PHẦN II: MÔ TẢ CÁC BIẾN TRONG DỮ LIỆU MỘT ĐỊNH LƯỢNG
SUMMARY (TRUNG BÌNH, ĐỘ LỆCH CHUẨN, MIN, MAX)
summarize chanceofadmit //1 biến
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : .72435
- Độ lệch chuẩn (Std.dev.) : .1426093 - Giá trị nhỏ nhất (Min) : .34 - Giá
trị lớn nhất (Max) : .97 summarize chanceofadmit toeflscore //nhiều biến lOMoAR cPSD| 46663874 Biến chanceofadmit:
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : .72435
- Độ lệch chuẩn (Std.dev.) : .1426093 - Giá trị nhỏ nhất (Min) : .34 - Giá
trị lớn nhất (Max) : .97 Biến toeflscore:
- Số lượng quan sát (Obs) : 400
- Trung bình cộng (Mean) : 107.41
- Độ lệch chuẩn (Std.dev.) : 6.069514
- Giá trị nhỏ nhất (Min) : 92
- Giá trị lớn nhất (Max) : 120 SUMMARY (ĐẦY ĐỦ)
tabstat chanceofadmit, statistics( max min range sd var mean p25 median p75 cv)
- Giá trị lớn nhất (Max) : .97 - Giá trị nhỏ nhất (Min) : .34
- Khoảng biến thiên (Range) : .63
- Độ lệch chuẩn (Sd) : .1426093
- Phương sai (Variance) : .0203374
- Trung bình cộng (Mean) : .72435
- p25: .64; p50: .73; p75: .83
- Hệ số biến thiên (CV) : .196879 MỘT ĐỊNH TÍNH TẠO BẢNG lOMoAR cPSD| 46663874 tabulate sop
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 400 quan sát, trong ó giá trị
SOP = 3.5 & SOP = 4 xuất hiện nhiều nhất 70 lần và giá trị SOP = 1 xuất
hiện ít nhất 6 lần. Sự chênh lệch giữa 2 giá trị là 64 lần.
TẠO BẢNG CÓ THÊM YẾU TỐ ĐỊNH TÍNH ĐỂ PHÂN LOẠI
by lor, sort : tabulate sop - Tần số (Freq): 1
- Tỷ lệ phần trăm (Percent): 100.00
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 7 quan sát, trong đó giá trị lOMoAR cPSD| 46663874
SOP = 2 & SOP = 2.5 xuất hiện nhiều nhất 2 lần và giá trị SOP = 1 & SOP
= 1.5 & SOP = 3 xuất hiện ít nhất 1 lần.
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 38 quan sát, trong đó giá trị
SOP = 1.5 xuất hiện nhiều nhất 13 lần và giá trị SOP = 3.5 & SOP = 4
xuất hiện ít nhất 1 lần. lOMoAR cPSD| 46663874
n xét: Bảng dữ liệu biến SOP có tổng 39 quan sát, trong đó giá trị
SOP = 2 xuất hiện nhiều nhất 14 lần và giá trị SOP = 1 & SOP = 4 xuất hiện ít nhất 2 lần.
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 85 quan sát, trong đó giá trị
SOP = 3.5 xuất hiện nhiều nhất 25 lần và giá trị SOP = 1.5 xuất hiện ít nhất 2 lần.
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 73 quan sát, trong đó giá trị
SOP = 3 xuất hiện nhiều nhất 21 lần và giá trị SOP = 1.5 xuất hiện ít nhất 1 lần. lOMoAR cPSD| 46663874 → Nhậ
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 77 quan sát, trong đó giá trị
SOP = 4.5 xuất hiện nhiều nhất 21 lần và giá trị SOP = 2 xuất hiện ít nhất 2 lần.
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 45 quan sát, trong đó giá trị
SOP = 4 xuất hiện nhiều nhất 16 lần và giá trị SOP = 2.5 & SOP = 3 xuất hiện ít nhất 1 lần. lOMoAR cPSD| 46663874
n xét: Bảng dữ liệu biến SOP có tổng 35 quan sát, trong đó giá trị
SOP = 5 xuất hiện nhiều nhất 18 lần và giá trị SOP = 3 xuất hiện ít nhất 1 lần.
TẠO BẢNG CÓ THÊM YẾU TỐ ĐỊNH LƯỢNG (vd như iểm GRE
lớn hơn 300) tabulate sop if grescore > 300
→ Nhận xét: Bảng dữ liệu biến SOP có tổng 358 quan sát, trong đó giá trị
SOP = 3.5 xuất hiện nhiều nhất 67 lần và giá trị SOP = 1 xuất hiện ít nhất
3 lần. Sự chênh lệch giữa 2 giá trị là 66 lần. HAI ĐỊNH TÍNH tabulate sop lor MINH HOA BẰNG HÌNH HISTOGRAM lOMoAR cPSD| 46663874 → Nhậ
Vẽ Histogram bằng tần số với số cột cho trước histogram
chanceofadmit, bin(10) frequency
→ Nhận xét: Tần suất của Chance of Admit đều thuộc khoảng từ gần 10
trở lên. Tần số đạt vị trí cao nhất với mốc gần 80 thuộc mức từ 6 đến 8.
Vẽ Histogram bằng tần số với độ dài mỗi chotrước histogram
chanceofadmit, width(7) frequency lOMoAR cPSD| 46663874
n xét: Tần suất của Chance of Admit thuộc khoảng từ 0 trở lên,
tần số cao nhất là 400. BOXPLOT Vẽ Boxplot thẳng ứng lOMoAR cPSD| 46663874 → Nhậ
graph box chanceofadmit - Q 1 = 8.3; Q2 = 7.5; Q3 = 6.3
- Có ít nhất một giá trị quan sát
- Đồ thị có dạng đối xứng Vẽ Boxplot ngang graph hbox chanceofadmit lOMoAR cPSD| 46663874
- Q1 = 6.4; Q2 = 7.2; Q3 = 8.4
- Có ít nhất một giá trị quan sát
- Đồ thị có dạng lệch phải Vẽ nhiều Boxplot
graph box chanceofadmit toeflscore //thẳng ứng lOMoAR cPSD| 46663874 TOELF Score:
- Q1 = 115; Q2 = 107; Q3 = 103 - Đồ thị có dạng lệch trái graph box
chanceofadmit toeflscore //hàng ngang TOELF Score: lOMoAR cPSD| 46663874
- Q1 = 103; Q2 = 107; Q3 = 115
- Đồ thị có dạng lệch phải PIECHART Vẽ đồ thị hình graph pie, over(sop)
→ Nhận xét: Giá trị Sop = 5 chiếm tỉ lệ lớn so với các giá trị còn lại.
Thêm các thông tin vào hình graph pie, over(sop) plabel(_all name) //Tên các biến lOMoAR cPSD| 46663874
→ Nhận xét: Giá trị Sop = 5 chiếm tỉ lệ lớn so với các giá trị còn lại.
graph pie, over(sop) plabel(_all percent) //phần trăm lOMoAR cPSD| 46663874
→ Nhận xét: Giá trị Sop = 4 và giá trị Sop = 3.5 chiếm tỉ lệ phần trăm
lớn so với các giá trị còn lại. Giá trị Sop = 1 chiếm tỉ lệ phần trăm ít nhất so với các giá trị.
graph pie, over(sop) plabel(_all sum) //Số lượng
→ Nhận xét: Giá trị Sop = 4 và giá trị Sop = 3.5 có số lượng lớn so với
các giá trị còn lại = 70. Giá trị Sop = 1 có số lượng ít nhất so với các giá trị = 6. BARCHART lOMoAR cPSD| 46663874
Vẽ đồ thị thanh histogram sop, discrete frequency
→ Nhận xét: Phần lớn tần số xuất hiện nhiều nhất trong khoảng từ 3 ến 4,
sau đó giảm dần sang hai phía từ 3 ến 1 và từ 4 ến 5. Tần số đạt ỉnh cao
nhất thuộc khoảng từ 3 ến 4 với mức tần số gần bằng 70, trong khi mức
thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5. histogram sop,
discrete frequency horizontal //vẽ ồ thị nằm ngang lOMoAR cPSD| 46663874
→ Nhận xét: Phần lớn tần số xuất hiện nhiều nhất trong khoảng từ 3 ến 4,
sau đó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số gần bằng 70, trong khi
mức thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5. lOMoAR cPSD| 46663874
histogram sop, discrete frequency addlabel ylabel(, labels) //Thêm giá trị
tần số ở mỗi thanh
→ Nhận xét: Phần lớn tần số xuất hiện nhiều nhất trong khoảng từ 3 đến
4, sau đó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số bằng 70, trong khi mức
thấp nhất thuộc khoảng 1 với tần số bằng 5. histogram sop, discrete
frequency gap(10) //tách các thanh rời nhau lOMoAR cPSD| 46663874
→ Nhận xét: Phần lớn tần số xuất hiện nhiều nhất trong khoảng từ 3 đến
4, sau ó giảm dần sang hai phía từ 3 đến 1 và từ 4 đến 5. Tần số đạt đỉnh
cao nhất thuộc khoảng từ 3 đến 4 với mức tần số gần bằng 70, trong khi
mức thấp nhất thuộc khoảng từ 3 đến 1 với tần số gần bằng 5. STEM AND LEAF stem toeflscore
Stem-and-leaf plot for toeflscore (TOEFL Score)