Bài tập nhóm phân tích dữ liệu với Stata | Trường Đại học Kinh tế – Luật
Bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập từ nghiên cứu của Mullahy với nguồn dữ liệu gốc từ Cuộc phỏng vấn Y tế Quốc gia năm 1988. Thu nhập gia đình, tính theo đơn vị 1000 đô la. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!
Trường: Trường Đại học Kinh Tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 46663874
Danh sách nhóm STT Tên MSSV Email 1 Thông
K224141703 tranttq22414@st.uel.edu.vn Thị Quế Trân 2
Nguyễn K224142348 ngocnd22414@st.uel.edu.vn Duy Ngọc 3 Lê Thị
K224141655 duyenltm22414@st.uel.edu.v Mỹ n Duyên
I : Mô tả dữ liệu
1 Mô tả bộ dữ liệu:
-Bộ dữ liệu cân nặng khi sinh với 1388 quan sát được thu thập từ
nghiên cứu của Mullahy với nguồn dữ liệu gốc từ Cuộc phỏng
vấn Y tế Quốc gia năm 1988.
Bộ dữ liệu gồm 14 biến quan tâm là:
2 Phân loại biến
faminc: Thu nhập gia đình, tính theo đơn vị 1000 đô la.
cigtax: Thuế thuốc lá tại tiểu bang (state) nơi ở, năm 1988.
cigprice: Giá thuốc lá tại tiểu bang nơi ở, năm 1988. lOMoAR cPSD| 46663874
bwght: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị ounces (ounce).
fatheduc: Số năm học của cha.
motheduc: Số năm học của mẹ.
parity: Thứ tự con sinh (birth order) của đứa trẻ.
male: Biến nhị phân (0 hoặc 1) cho biết giới tính của đứa trẻ (1 nếu là nam).
white: Biến nhị phân (0 hoặc 1) cho biết người mẹ là người da trắng (1 nếu đúng).
cigs: Số điếu thuốc lá mà người mẹ hút mỗi ngày trong thời kỳ mang thai.
lbwght: Giá trị logarithm của trọng lượng sinh sản.
bwghtlbs: Trọng lượng sinh sản của trẻ sơ sinh, tính theo đơn vị pounds (pound).
packs: Số gói thuốc lá mà người mẹ hút mỗi ngày trong thời kỳ mang thai.
lfaminc: Giá trị logarithm của thu nhập gia đình (faminc). lOMoAR cPSD| 46663874 Tên biến Loại dữ Chi tiết
Thang đo Đơn vị liệu faminc Định lượngLiên tục Tỉ lệ Đơn vị đo tiền tệ cigtax Định lượngLiên tục Khoảng Đơn vị đo cách tiền tệ cigprice Định lượngLiên tục Khoảng Đơn vị đo cách tiền tệ bwght Định lượngRời rạc Tỉ lệ Đơn vị đo khối lượng fatheduc Định tính Rời rạc Thứ bậc motheduc Định tính Rời rạc Khoảng cách parity Định lượngRời rạc Khoảng cách male Định tính Không liên Danh tục, không lOMoAR cPSD| 46663874 rời rạc nghĩa white Định tính Không liên Danh tục, không nghĩa rời rạc cigs Định lượngRời rạc Khoảng cách lbwght Định lượngLiên tục Tỉ lệ bwghtlbs Định lượngLiên tục Tỉ lệ Đơn vị đo khối lượng packs Định lượngRời rạc Tỉ lệ lfaminc Định lượngRời rạc Tỉ lệ
2 Xử lý một vài biến trong bộ dữ liệu
-Chuyển biến kí tự thành biến số cho 2 biến fatheduc, motheduc
Chọn data -> Create or change data ->Other
variabletransformation commands -> Convert variables from string to numeric lOMoAR cPSD| 46663874 3 Thống kê mô tả
+Trong phần này nhóm sẽ lập bảng tần số và đồ thị cũng như
đưa ra những nhận xét trên số liệu của bộ dữ liệu được đưa
3.1. Mô tả chi tiết
-Dùng lệnh: tab để mô tả chi tiết từng biến bao gồm các thông tin
tần suất (Freq.), phần trăm (Percent), phần trăm tích lũy cộng
phần trăm từ trên xuống (Cum.)
3.1.1. Thu nhập của hộ gia đình (faminc) lOMoAR cPSD| 46663874
Bảng 1: Thống kê dữ liệu biến faminc * Nhận xét :
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ có 27 giá trị khác nhau.
+Nguồn thu hập chủ yếu của gia đình rơi vào khoảng 65.000 đô
1 năm với tần số cao nhất là 192, chiếm phần trăm cao nhất là
13.83% ->Đây là một điểm rất đáng chú ý lOMoAR cPSD| 46663874
+Nguồn thu nhập của gia đình rơi vào khoảng 1,500 đô 1 năm
có tần số thấp nhất là 13, có lượng phần trăm thấp nhất là 0.94%.
Sự chênh lệch giàu nghèo giữa 2 bên lên tới hơn 43 lần
+Chúng ta có thể dễ dàng nhận thấy thu nhập của gia đình hầu
hết nằm trong khoảng từ 20 - 35 ngàn đô la.
-Dùng lệnh sum faminc, detail và sum faminc để hiện các thông
số của biến dữ liệu faminc Variable Obs Mean Std. dev. Mi Max n faminc 1,388 29.02666 18.73928 .5 65 lOMoAR cPSD| 46663874 *Nhận xét: Min : 0.50 1st Qu : 14.50 Median : 27.50 Mean : 29.03 3rd Qu : 37.50 Max : 65.00
* Histogarm của faminc
*Nhận xét : Histogrm của faminc phân bố giá trị lớn nhất nằm
trong cột giá trị 20 và 60 trở lên. Giá trị cột nhỏ nhất nằm tại 53.
Cột dữ liệu không được phân phối(bị trống) tại khoảng giá trị từ lOMoAR cPSD| 46663874
53 đến gần 60 . Các cột dữ liệu còn lại có phân phối khá xấp xỉ đồng đều nhau.
Đồ thị biến thu nhập gia đình đạt mode tại mức 20 với tần số gần 250
Histogram lệch phải nhẹ với giá trị mean>median
3.1.2 Cigtax
Dùng lệnh “tab cigtax” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent),
phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.) lOMoAR cPSD| 46663874
Bảng 2: Thống kê dữ liệu biến cigtax * Nhận xét :
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ có 28 giá trị khác nhau.
+Số liệu thuế thuốc lá phân bố không đồng đều , giá trị cao nhất
là 26 với tần suất 190 lần chiếm 13.69% , giá trị thấp nhất là 33
với 2 lần xuất hiện chiếm tỉ lệ 0.14% lOMoAR cPSD| 46663874
+Chúng ta có thể thấy trên biểu đồ rằng thuế thuốc lá bằng 20
chiếm đa số. Tần suất thuế từ 30 đến 35 là phần nhỏ nhất trong tổng số.
-Dùng lệnh sum cigtax, detail và sum cigtax để hiện các thông số của dữ liệu: Obs Mean Std. dev Min Max cigtax 1,388 19.55295 7.795598 2 38 Variable lOMoAR cPSD| 46663874 Min : 2.00 1st Qu : 15.00 Median : 20.00 Mean : 19.55 3rd Qu : 26.00 Max : 38.00
*Histogram của cigtax
*Nhận xét đồ thị histogram của cigtax:
- Histogram của cigtax có giá trị tập trung ở các cột giá trị ở
phần chính giữa của biểu đồ , tập trung cao ở miền giá trị từ 10- 30. lOMoAR cPSD| 46663874
-Cột giá trị đạt mode nằm trong khoảng cột giá trị từ 25-30. Cột
giá trị thấp nhất trong khoảng từ 5-10 . Sự chênh lệch lên đến gần 35 lần
Histogram lệch trái nhẹ với gái trị mean3.1.3 Cigprice-Giá thuốc lá
Dùng lệnh tab cigprice để để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent),
phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)
Bảng 3: Thống kê dữ liệu biến cigprice .... lOMoAR cPSD| 46663874 *Nhận xét:
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ có 26 giá trị khác nhau.
+Số liệu giá thuốc lá tại giá 126.4 là cao nhất đạt tần suất 156 và
giá tại 149.1 có tần suất xuất hiện thấp nhất là 2
+Có thể thấy giá thuốc lá dao động từ 103,8 đến 152,5. Ở trạng
thái trong nước, giá thường tập trung ở mức 137.
-Dùng lệnh “sum cigprice” và “sum cigprice, detail” để hiện các
giá trị thông số của giá thuốc lá. Variable Obs Mean Std. dev Min Max cigprice 1,388 130.559 10.24448 103.8 152.5
Percentiles Smallest 1% 103.8 103.8 5 % 109.4 103.8 10 % 120.2 103.8 Obs 1,388 lOMoAR cPSD| 46663874 25 % 122.8 103.8 Sum of wgt. 1,388 % 50 130.8 Mean 130.559 Largest Std. dev. 10.24448 75 % 137 152.5 90 % 142 152.5 Variance 104.9495 95 % 148.6 152.5 Skewness -.1003273 99%152.5 152.5 Kurtosis 3.028676 *Nhận xét: Min : 103.8 1st Qu : 122.8 Median : 130.8 Mean : 130.6 3rd Qu : 137.0 Max : 152.5 lOMoAR cPSD| 46663874
*Histogram của cigprice *Nhận xét
-Histogram của cigprice có các cột chủ yếu phân bố tập trung
vào các giá trị ở chính giữa từ 120-140.
Cột giá trị 135 xấp xỉ cột giá trị 120. Histogram đạt mode tại
mức giá gần 135 . Cột giá trị mang mức giá thấp nhất là 110. Sự
chênh lệch giữa 2 bên xấp xỉ 9 lần .
Histogram khá đối xứng với giá trị mean xấp xỉ median
3.1.4 Bwght-Cân nặng khi sinh
-Dùng lệnh “tab bwght” để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent),
phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.) lOMoAR cPSD| 46663874
Bảng 4: Thống kê dữ liệu biến bwght . .... *Nhận xét:
+Nhìn vào bảng ta có thể thấy có tất cả 1,388 giá trị nhưng chỉ có 26 giá trị khác nhau.
+ Số liệu cân nặng khi sinh của trẻ có tần suất phân bố khá đồng
đều, số liệu lớn nhất là trẻ có cân nặng 160 ounces với tần suất 6
lần chiếm 0.43%. Các giá trị cân nặng còn lại chủ yếu phân bố với tần suất 1 lOMoAR cPSD| 46663874
+Cân nặng khi sinh thấp có thể khiến trẻ sơ sinh
có nguy cơ mắc nhiều loại bệnh. May mắn thay, trong bộ dữ liệu
này, cân nặng khi sinh tập trung trong khoảng từ khoảng 80 đến 150 ounce
-Dùng lệnh “sum bwght” và “sum bwght, detail” để suất ra bẳng
giá trị chứa các thông số Variable Obs Mean Std. dev Min Max bwght 1,388 118.6996 20.35396 23 271 lOMoAR cPSD| 46663874 1st Qu: 107.0 Median: 120.0 Mean: 118.7 3rd Qu: 132.0
Max: 271.0 *Histogram của bwght *Nhận xét:
-Histogram của bwght có các cột phân bố tập trung vào các giá
trị ở chính giữa từ 100-150.
Cột đạt giá trị cao nhất là cột của khoảng giá trị 125, cột đạt gái
trị thấp nhất thuộc khoảng giá trị từ 0-50. Sự chênh lệch giữa 2
bên có thể lên tới 28 lần .
Histogram thuộc dạng cách xa 2 giới hạn. lOMoAR cPSD| 46663874
3.1.5 Fatheduc-Số năm giáo dục của cha
-Dùng lệnh tab fatheduc để liệt kê các giá trị chi tiết của cigtax
bao gồm các thông tin tần suất (Freq.), phần trăm (Percent),
phần trăm tích lũy cộng phần trăm từ trên xuống (Cum.)