Bài tập thống kê ứng dụng | Trường Đại học Kinh tế – Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
Biểu đồ thân và lá cho thấy hình dáng phân phối của tập dữ liệu. Biểu đồ này thường được sử dụng để thể hiện tập dữ liệu lớn, đa dạng và bao gồm nhiều phần tử khác nhau. Trong trường hợp này, biểu đồ thân và lá thể hiện hình dáng phân phối. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!
Trường: Trường Đại học Kinh Tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 46663874
//----MINH HOẠ BẰNG SỐ----// //MỘT ĐỊNH LƯỢNG
//SUMMARY (TB, ĐỘ LỆCH CHUẨN, MIN, MAX)
summarize chance //1 biến
Variable Obs Mean Std. dev. Min Max
chanceofad~t 400 .72435 .1426093 .34 .97
- variable = chance of admit: tên biến.
- obs = 400: số lượng quan sát 400 mẫu, nghĩa là có 400 người tham gia khảo sát. -
mean = 0.72435: giá trị TB là 0.72435, nghĩa là tỉ lệ được nhận TB là 0.72435.
- std. dev. = 0.1426093: độ lệch chuẩn là 0.1426093, nghĩa là sự chênh lệch về giá
trị so với giá trị TB là 0.1426093.
- min = 0.34: giá trị nhỏ nhất là 0.34, nghĩa là tỉ lệ được nhận thấp nhất là 0.34.
- max = 0.97: giá trị lớn nhất là 0.97, nghĩa là tỉ lệ được nhận cao nhất là 0.97.
summarize chance toeflscore //nhiều biến
Variable Obs Mean Std. dev. Min Max
chanceofad~t 400 .72435 .1426093 .34 .97
toeflscore 400 107.41 6.069514 92 120 chanceofad~t
- variable = chance of admit: tên biến
- obs = 400: số lượng quan sát là 400 mẫu, nghĩa là có 400 người tham gia khảo sát.
- mean = 0.72435: giá trị TB là 0.72435, nghĩa là tỉ lệ được nhận TB là 0.72435.
- std. dev. = 0.1426093: độ lệch chuẩn là 0.1426093, nghĩa là sự chênh lệch về giá
trị so với giá trị TB là 0.1426093.
- min = 0.34: giá trị nhỏ nhất là 0.34, nghĩa là tỉ lệ thấp nhất mà một người đậu đại học là 0.34.
- max = 0.97: giá trị lớn nhất là 0.97, nghĩa là tỉ lệ cao nhất mà một người đậu đại học là 0.97. toeflscore
- variable = toeflscore: tên biến.
- obs = 400: số lượng quan sát là 400 mẫu, nghĩa là có 400 người tham gia khảo sát.
- mean = 107.41: giá trị TB là 107.41, nghĩa là điểm TB là 107.41.
- std. dev. = 6.069514: độ lệch chuẩn là 6.069514, nghĩa là sự chênh lệch về giá trị
so với giá trị TB là 6.069514.
- min = 92: giá trị nhỏ nhất là 92, nghĩa là điểm thấp nhất là 92 điểm.
- max = 120: giá trị lớn nhất là 120, nghĩa là điểm cao nhất là 120 điểm. lOMoAR cPSD| 46663874
//SUMMARY (ĐẦY ĐỦ)
tabstat chance, statistics (max min range sd var mean p25 median p75 cv) Variable
Max Min Range SD Variance Mean p25 p50 p75 CV chanceofad~t
.97 .34 .63 .1426093 .0203374 .72435 .64 .73 .83 .196879
- min = 0.34: giá trị nhỏ nhất là 0.34, nghĩa là tỉ lệ được nhận thấp nhất là 0.34.
- max = 0.97: giá trị lớn nhất là 0.97, nghĩa là tỉ lệ được nhận cao nhất là 0.97.
- range = 0.63: khoảng biến thiên là 0.63, nghĩa là sự phân tán tỉ lệ được nhận trong mẫu là 63%.
- SD = 0.1426093: độ lệch chuẩn là 0.1426093, nghĩa là sự chênh lệch về giá trị
so với giá trị TB là 0.72435.
- variance = 0.0203374: phương sai là 0.0203374, nghĩa là TB của bình phương
độ lệch giữa các lượng biến và TB các lượng biến là 0.0203374.
- mean = 0.72435: giá trị TB là 0.72435, nghĩa là khả năng được nhận TB là 0.72435.
- p25 = 0.64: tứ phân vị thứ nhất Q1 của mẫu có giá trị 0.64.
- p50 = 0.73: trung vị của mẫu có giá trị 0.73.
- p75 = 0.83: tứ phân vị thứ ba Q3 của mẫu có giá trị 0.83. - cv = 0.196879: hệ
số biến thiên là 0.196879.
//MỘT ĐỊNH TÍNH //TẠO BẢNG tabulate sop SOP Freq. Percent Cum. 1 6 1.50 1.50 1.5 20 5.00 6.50 2 33 8.25 14.75 2.5 47 11.75 26.50 3 64 16.00 42.50 3.5 70 17.50 60.00 4 70 17.50 77.50 4.5 53 13.25 90.75 5 37 9.25 100.00 Total 400 100.00
Trong 400 người tham gia khảo sát:
- Có 6 người có SOP = 1, chiếm tỉ lệ 1.50%.
- Có 20 người có SOP = 1.5, chiếm tỉ lệ 5.00%; tỉ lệ phần trăm tích lũy là 6.50%.
- Có 33 người có SOP = 2, chiếm tỉ lệ 8.25%; tỉ lệ phần trăm tích lũy là 14.75%. lOMoAR cPSD| 46663874
- Có 47 người có SOP = 2.5, chiếm tỉ lệ 11.75%; tỉ lệ phần trăm tích lũy là 26.50%.
- Có 64 người có SOP = 3, chiếm tỉ lệ 16.00%; tỉ lệ phần trăm tích lũy là 42.50%. -
Có 70 người có SOP = 3.5, chiếm tỉ lệ 17.50%; tỉ lệ phần trăm tích lũy là 60.00%.
- Có 70 người có SOP = 4, chiếm tỉ lệ 17.50%; tỉ lệ phần trăm tích lũy là 77.50%. -
Có 53 người có SOP = 4.5, chiếm tỉ lệ 13.25%; tỉ lệ phần trăm tích lũy là 90.75%.
- Có 37 người có SOP = 5, chiếm tỉ lệ 9.25%; tỉ lệ phần trăm tích lũy là 100.00%.
//Tạo bảng có thêm yếu tố định tính để phân loại by lor, sort: tabulate sop -> lor = 1 SOP Freq. Percent Cum. 1 1 100.00 100.00 Total 1 100.00
- Với lor = 1, có 1 người thỏa ĐK có SOP = 1, chiếm tỉ lệ 100.00%, tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 1.5 SOP Freq. Percent Cum. 1 1 14.29 14.29 1.5 1 14.29 28.57 2 2 28.57 57.14 2.5 2 28.57 85.71 3 1 14.29 100.00 Total 7 100.00
- Với lor = 1.5, có 7 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 1 người có SOP = 1, chiếm tỉ lệ 14.29%.
+ Có 1 người có SOP = 1.5, chiếm tỉ lệ 14.29%; tỉ lệ phần trăm tích lũy là 28.57%.
+ Có 2 người có SOP = 2, chiếm tỉ lệ 28.57%; tỉ lệ phần trăm tích lũy là 57.14%.
+ Có 2 người có SOP = 2.5, chiếm tỉ lệ 28.57%; tỉ lệ phần trăm tích lũy là 85.71%.
+ Có 1 người có SOP = 3, chiếm tỉ lệ 14.29%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 2 lOMoAR cPSD| 46663874 SOP Freq. Percent Cum. 1 2 5.26 5.26 1.5 13 34.21 39.47 2 5 13.16 52.63 2.5 9 23.68 76.32 3 7 18.42 94.74 3.5 1 2.63 97.37 4 1 2.63 100.00 Total 38 100.00
- Với lor = 2, có 38 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 2 người có SOP = 1, chiếm tỉ lệ 5.26%.
+ Có 13 người có SOP = 1.5, chiếm tỉ lệ 34.21%; tỉ lệ phần trăm tích lũy là 39.47%.
+ Có 5 người có SOP = 2, chiếm tỉ lệ 13.16%; tỉ lệ phần trăm tích lũy là 52.63%.
+ Có 9 người có SOP = 2.5, chiếm tỉ lệ 23.68%; tỉ lệ phần trăm tích lũy là 76.32%.
+ Có 7 người có SOP = 3, chiếm tỉ lệ 18.42%; tỉ lệ phần trăm tích lũy là 94.74%.
+ Có 1 người có SOP = 3.5, chiếm tỉ lệ 2.63%; tỉ lệ phần trăm tích lũy là 97.37%.
+ Có 1 người có SOP = 4, chiếm tỉ lệ 2.63%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 2.5 SOP Freq. Percent Cum. 1 2 5.13 5.13 1.5 3 7.69 12.82 2 14 35.90 48.72 2.5 6 15.38 64.10 3 6 15.38 79.49 3.5 6 15.38 94.87 4 2 5.13 100.00 Total 39 100.00
- Với lor = 2.5, có 39 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 2 người có SOP = 1, chiếm tỉ lệ 5.13%.
+ Có 3 người có SOP = 1.5, chiếm tỉ lệ 7.69%; tỉ lệ phần trăm tích lũy là 12.82%.
+ Có 14 người có SOP = 2, chiếm tỉ lệ 35.90%; tỉ lệ phần trăm tích lũy là 48.72%.
+ Có 6 người có SOP = 2.5, chiếm tỉ lệ 15.38%; tỉ lệ phần trăm tích lũy là lOMoAR cPSD| 46663874 64.10%.
+ Có 6 người có SOP = 3, chiếm tỉ lệ 15.38%; tỉ lệ phần trăm tích lũy là 79.49%.
+ Có 6 người có SOP = 3.5, chiếm tỉ lệ 15.38%; tỉ lệ phần trăm tích lũy là 94.87%.
+ Có 2 người có SOP = 4, chiếm tỉ lệ 5.13%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 3 SOP Freq. Percent Cum. 1.5 2 2.35 2.35 2 7 8.24 10.59 2.5 18 21.18 31.76 3 20 23.53 55.29 3.5 25 29.41 84.71 4 10 11.76 96.47 4.5 3 3.53 100.00 Total 85 100.00
- Với lor = 3, có 85 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 2 người có SOP = 1.5, chiếm tỉ lệ 2.35%.
+ Có 7 người có SOP = 2, chiếm tỉ lệ 8.24%; tỉ lệ phần trăm tích lũy là 10.59%.
+ Có 18 người có SOP = 2.5, chiếm tỉ lệ 21.18%; tỉ lệ phần trăm tích lũy là 31.76%.
+ Có 20 người có SOP = 3, chiếm tỉ lệ 23.53%; tỉ lệ phần trăm tích lũy là 55.29%.
+ Có 25 người có SOP = 3.5, chiếm tỉ lệ 29.41%; tỉ lệ phần trăm tích lũy là 84.71%.
+ Có 10 người có SOP = 4, chiếm tỉ lệ 11.76%; tỉ lệ phần trăm tích lũy là 96.47%.
+ Có 3 người có SOP = 4.5, chiếm tỉ lệ 3.53%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 3.5 SOP Freq. Percent Cum. 1.5 1 1.37 1.37 2 3 4.11 5.48 2.5 7 9.59 15.07 3 21 28.77 43.84 3.5 15 20.55 64.38 4 15 20.55 84.93 4.5 9 12.33 97.26 5 2 2.74 100.00 Total 73 100.00 lOMoAR cPSD| 46663874
- Với lor = 3.5, có 73 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 1 người có SOP = 1.5, chiếm tỉ lệ 1.37%.
+ Có 3 người có SOP = 2, chiếm tỉ lệ 4.11%; tỉ lệ phần trăm tích lũy là 5.48%. +
Có 7 người có SOP = 2.5, chiếm tỉ lệ 9.59%; tỉ lệ phần trăm tích lũy là 15.07%.
+ Có 21 người có SOP = 3, chiếm tỉ lệ 28.77%; tỉ lệ phần trăm tích lũy là 43.84%.
+ Có 15 người có SOP = 3.5, chiếm tỉ lệ 20.55%; tỉ lệ phần trăm tích lũy là 64.38%.
+ Có 15 người có SOP = 4, chiếm tỉ lệ 20.55%; tỉ lệ phần trăm tích lũy là 84.93%.
+ Có 9 người có SOP = 4.5, chiếm tỉ lệ 12.33%; tỉ lệ phần trăm tích lũy là 97.26%.
+ Có 2 người có SOP = 5, chiếm tỉ lệ 2.74%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 4 SOP Freq. Percent Cum. 2 2 2.60 2.60 2.5 4 5.19 7.79 3 7 9.09 16.88 3.5 19 24.68 41.56 4 18 23.38 64.94 4.5 21 27.27 92.21 5 6 7.79 100.00 Total 77 100.00
- Với lor = 4 có 77 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 2 người có SOP = 2, chiếm tỉ lệ 2.60%.
+ Có 4 người có SOP = 2.5, chiếm tỉ lệ 5.19%; tỉ lệ phần trăm tích lũy là 7.79%.
+ Có 7 người có SOP = 3, chiếm tỉ lệ 9.09%; tỉ lệ phần trăm tích lũy là 16.88%.
+ Có 19 người có SOP = 3.5, chiếm tỉ lệ 24.68%; tỉ lệ phần trăm tích lũy là 41.56%.
+ Có 18 người có SOP = 4, chiếm tỉ lệ 23.38%; tỉ lệ phần trăm tích lũy là 64.94%.
+ Có 21 người có SOP = 4.5, chiếm tỉ lệ 27.27%; tỉ lệ phần trăm tích lũy là 92.21%.
+ Có 6 người có SOP = 5, chiếm tỉ lệ 7.79%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 4.5 SOP Freq. Percent Cum. 2.5 1 2.22 2.22 lOMoAR cPSD| 46663874 3 1 2.22 4.44 3.5 2 4.44 8.89 4 16 35.56 44.44 4.5 14 31.11 75.56 5 11 24.44 100.00 Total 45 100.00
- Với lor = 4.5, có 45 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 1 người có SOP = 2.5, chiếm tỉ lệ 2.22%.
+ Có 1 người có SOP = 3, chiếm tỉ lệ 2.22%; tỉ lệ phần trăm tích lũy là 4.44%.
+ Có 2 người có SOP = 3.5, chiếm tỉ lệ 4.44%; tỉ lệ phần trăm tích lũy là 8.89%.
+ Có 16 người có SOP = 4, chiếm tỉ lệ 35.56%; tỉ lệ phần trăm tích lũy là 44.44%.
+ Có 14 người có SOP = 4.5, chiếm tỉ lệ 31.11%; tỉ lệ phần trăm tích lũy là 75.56%.
+ Có 11 người có SOP = 5, chiếm tỉ lệ 24.44%; tỉ lệ phần trăm tích lũy là 100.00%. -> lor = 5 SOP Freq. Percent Cum. 3 1 2.86 2.86 3.5 2 5.71 8.57 4 8 22.86 31.43 4.5 6 17.14 48.57 5 18 51.43 100.00 Total 35 100.00
- Với lor = 5, có 35 người thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 1 người có SOP = 3, chiếm tỉ lệ 2.86%.
+ Có 2 người có SOP = 3.5, chiếm tỉ lệ 5.71%; tỉ lệ phần trăm tích lũy là 8.57%.
+ Có 8 người có SOP = 4, chiếm tỉ lệ 22.86%; tỉ lệ phần trăm tích lũy là 31.43%.
+ Có 6 người có SOP = 4.5, chiếm tỉ lệ 17.14%; tỉ lệ phần trăm tích lũy là 48.57%.
+ Có 18 người có SOP = 5, chiếm tỉ lệ 51.43%; tỉ lệ phần trăm tích lũy là 100.00%.
//Tạo bảng có thêm yếu tố định lượng (vd như tỉ lệ được nhận lớn hơn .10)
tabulate sop if chance > .10 SOP Freq. Percent Cum. 1 6 1.50 1.50 1.5 20 5.00 6.50 2 33 8.25 14.75 2.5 47 11.75 26.50 3 64 16.00 42.50 3.5 70 17.50 60.00 lOMoAR cPSD| 46663874 4 70 17.50 77.50 4.5 53 13.25 90.75 5 37 9.25 100.00 Total 400 100.00
- Với tỉ lệ được nhận lớn hơn 10%, 400 người tham gia khảo sát thỏa ĐK, chiếm tỉ lệ 100.00%, trong đó:
+ Có 6 người có SOP = 1, chiếm tỉ lệ 1.50%.
+ Có 20 người có SOP = 1.5, chiếm tỉ lệ 5.00%; tỉ lệ phần trăm tích lũy là 6.50%.
+ Có 33 người có SOP = 2, chiếm tỉ lệ 8.25%; tỉ lệ phần trăm tích lũy là 14.75%.
+ Có 47 người có SOP = 2.5, chiếm tỉ lệ 11.75%; tỉ lệ phần trăm tích lũy là 26.50%.
+ Có 64 người có SOP = 3, chiếm tỉ lệ 16.00%; tỉ lệ phần trăm tích lũy là 42.50%.
+ Có 70 người có SOP = 3.5, chiếm tỉ lệ 17.50%; tỉ lệ phần trăm tích lũy là 60.00%.
+ Có 70 người có SOP = 4, chiếm tỉ lệ 17.50%; tỉ lệ phần trăm tích lũy là 77.50%.
+ Có 53 người có SOP = 4.5, chiếm tỉ lệ 13.25%; tỉ lệ phần trăm tích lũy là 90.75%.
+ Có 37 người có SOP = 5, chiếm tỉ lệ 9.25%; tỉ lệ phần trăm tích lũy là 100.00%.
//----MINH HỌA BẰNG HÌNH----// //HISTOGRAM
Biểu đồ histogram dùng để theo dõi sự phân bố và tần suất của các thông số, ở đây là chance. lOMoAR cPSD| 46663874
//Vẽ Histogram bằng tần số với số cột cho trước
histogram chance, bin (10) frequency
//Vẽ Histogram bằng tần số với độ dài mỗi cho trước
histogram chance, width (.06) frequency //BOXPLOT
Lệnh graph box có thể được sử dụng để tạo biểu đồ hộp boxplot để kiểm tra sự phân phối của chance. lOMoAR cPSD| 46663874
//Vẽ Boxplot thẳng đứng graph box chance //Vẽ Boxplot ngang graph box chance Boxplot chance of admit
- min = 0.34: giá trị nhỏ nhất là 0.34.
- max = 0.97: giá trị lớn nhất là 0.97.
- Khoảng biến thiên (R) là 0.63, nghĩa là sự phân tán tỉ lệ được nhận trong mẫu là 0.63.
- Tứ phân vị thứ nhất (Q1) của mẫu có giá trị 0.64.
- Trung vị (mean) của mẫu có giá trị 0.73.
- Tứ phân vị thứ ba (Q3) của mẫu có giá trị 0.83. - Độ trải giữa RI = Q3 – Q1 = 0.83 – 0.64 = 0.19 -
Đồ thị có điểm ngoại lệ nhỏ hơn có giá trị:
- Đường trung vị chia chiếc hộp thành 2 nửa đối xứng nên tập dữ liệu đối xứng. lOMoAR cPSD| 46663874
//Vẽ nhiều Boxplot graph box chance toeflscore //thẳng đứng
graph box chance toeflscore //hàng ngang Boxplot toefl score
- min = 92: giá trị nhỏ nhất là 92.
- max = 120: giá trị lớn nhất là 120.
- Khoảng biến thiên (R) là 28.
- Tứ phân vị thứ nhất (Q1) của mẫu có giá trị 103.
- Trung vị (mean) của mẫu có giá trị 107.
- Tứ phân vị thứ ba (Q3) của mẫu có giá trị 112.
- Độ trải giữa RI = Q3 – Q1 = 112 – 103 = 9
- Đường trung vị chia chiếc hộp thành 2 nửa, tuy nhiên nửa phải lớn hơn nên tập
dữ liệu bị lệch phải. lOMoAR cPSD| 46663874 //PIECHART
Biểu đồ tròn được sử dụng để thể hiện cơ cấu thành phần các nhóm đối tượng trong mẫu
và sự thay đổi hay chuyển dịch cơ cấu theo thời gian và không gian; thể hiện quy mô
của nhóm đối tượng. Ở đây thể hiện cơ cấu thành phần của nhóm đối tượng sop.
//Vẽ đồ thị hình graph pie, over(sop)
//Thêm các thông tin vào hình graph pie, over(sop)
plabel (_all name) //Tên các biến
graph pie, over(sop) plabel (_all percent) //phần trăm lOMoAR cPSD| 46663874
graph pie, over(sop) plabel (_all sum) //Số lượng //BARCHART
Biểu đồ bar chart mô tả trực quan dữ liệu. Thông thường nó được sử dụng hỗ trợ thêm
trong các suy diễn thống kê, ở đây đồ thị bar chart thể hiện dữ liệu sop.
//Vẽ đồ thị thanh histogram sop, discrete frequency lOMoAR cPSD| 46663874
histogram sop, discrete frequency horizontal //vẽ đồ thị nằm ngang
histogram sop, discrete frequency addlabel ylabel (, labels) //Thêm giá trị tần số ở mỗi thanh
histogram sop, discrete frequency gap (5) //tách các thanh rời nhau lOMoAR cPSD| 46663874 //SCATTER PLOT
Biểu đồ phân tán hai chiều có thể được sử dụng để hiển thị mối quan hệ giữa tỉ lệ được
nhận (chance of admit) và điểm toefl (toefl score).
//Vẽ đồ thị phân tán cho hai biến định lượng
twoway (scatter chance toeflscore) //STEM AND LEAF
Biểu đồ thân và lá cho thấy hình dáng phân phối của tập dữ liệu. Biểu đồ này thường
được sử dụng để thể hiện tập dữ liệu lớn, đa dạng và bao gồm nhiều phần tử khác nhau.
Trong trường hợp này, biểu đồ thân và lá thể hiện hình dáng phân phối của dữ liệu điểm
toefl (toefl score) trong 400 mẫu quan sát. stem toeflscore 9* 2 9* 33 9* 4 9* 55 9* 6666 9* 777777 9* 888888888 lOMoAR cPSD| 46663874 9* 999999999999999999 10* 0000000000000000000 10* 11111111111 10* 22222222222222222 10* 3333333333333333
10* 4444444444444444444444444
10* 5555555555555555555555555555 10* 666666666666666666666666
10* 77777777777777777777777777 10* 88888888888888888 10* 99999999999999999
11* 0000000000000000000000000000000000000 11* 11111111111111111 11* 222222222222222222222 11* 33333333333333 11* 444444444444444 11* 555555555 11* 66666666666 11* 7777777 11* 888888888 11* 999999999 12* 00000000