Bài tập SPSS - Bài tập phân tích dữ liệu SPSS - Phương pháp nghiên cứu kinh tế | Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội

Bài tập SPSS - Bài tập phân tích dữ liệu SPSS - Phương pháp nghiên cứu kinh tế | Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem !

ĐỀ BÀI
Bài 1. Cho bảng số liu
Obs thunhap tieudung Obs thunhap tieudung
1 1 0.6 23 0.6 0.35
2 1.1 0.65 24 0.5 0.35
3 0.7 0.48 25 0.7 0.38
4 1.4 0.9 26 0.4 0.2
5 0.5 0.38 27 0.55 0.35
6 0.4 0.23 28 0.5 0.35
7 0.55 0.32 29 0.9 0.55
8 0.8 0.48 30 0.4 0.3
9 0.7 0.45 31 0.31 0.22
10 0.25 0.18 32 1.2 0.65
11 0.65 0.4 33 0.6 0.4
12 0.4 0.25 34 0.3 0.2
13 1.8 0.95 35 0.8 0.4
14 0.4 0.25 36 0.44 0.28
15 0.5 0.3 37 0.5 0.39
16 0.3 0.2 38 1 0.6
17 1 0.5 39 1.8 0.9
18 0.5 0.25 40 1.4 0.7
19 0.8 0.45 41 1.5 0.75
20 1.4 0.7 42 1.2 0.6
21 0.8 0.45 43 0.8 0.45
22 1.5 0.78 44 0.9 0.45
a. Hãy sử dụng các thủ tục cần thiết trong SPSS để lập bảng thống kê mô tả, hãy mô tả về thông
tin biến dựa trên các đặc trưng thống kê thu được.
Descriptive Statistics
N Range Minimum Maximum Mean
Std.
Deviation
thunhap 44 1.55 .25 1.80 .7898 .41414
b. Vẽ biểu đồ Histogram của thu nhập trên đó có vẽ đường cong chuẩn, hãy nhận xét phân bố
của biến thu nhập.
c. Hãy sử dụng các thủ tục cần thiết phân tích mối quan hệ giữa thu nhập tiêu dùng.
Correlations
thunhap tieudung
thunhap
Pearson
Correlation
1 .975
**
Sig. (2-tailed) .000
tieudung 44 .77 .18 .95 .4539 .20308
Valid N
(listwise)
44
N 44 44
tieudung
Pearson
Correlation
.975
**
1
Sig. (2-tailed) .000
N 44 44
**. Correlation is significant at the 0.01 level (2-tailed).
Hệ số tương quan bội 0,9 < r= 0,975 < 1
Tương quan rất chặt chẽ và đồng biến giữa thu nhập và tiêu dùng
Kết luận:
Tương quan giữa thu nhập và tiêu dùng là tương quan rất chặt chẽ và đồng biến
Bài 2. Cho bảng số liệu doanh thu trong ngày của 2 cửa hàng của công ty như sau:
Cửa hàng 1 4.5 4.75 4.85 3.85 3.9 4.35 4.7 4.25 5.3 3.9 5.4 5.3 4.5 3.95 4.35
Cửa hàng 2 3.4 4.25 4.5 4.9 4.6 4.45 3.95 3 4.7 3.7 5.05 3.3 3.43 4.15 5.2
Hãy dùng các thủ tục cần thiết trong SPSS để phân tích so sánh doanh thu của hai cửa hàng
nói trên. Cửa hàng nào cho doanh thu cao hơn (giả thiết rằng doanh thu trong ngày phân bố
gần phân bố chuẩn).
Bài làm
Bước 1: Kiểm định phương sai
H0: Var 1 (cửa hàng 1) = Var 2 (cửa hàng 2)
H1: Var 1 (cửa hàng 1) ≠ Var 2 (cửa hàng 2)
Bước 2: Kiểm định giá trị bình quân
H0: µ1 (cửa hàng 1) = µ2 (cửa hàng 2)
H1: µ1 (cửa hàng 1) ≠ µ2 (cửa hàng 2)
Bước 3: Kiểm định
Independent Samples Test
Levene's
Test for
Equality of
Variances
t-test for Equality of Means
F Sig. t df
Sig. (2-
tailed)
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower Upper
Doanh
thu
Equal
variances
assumed
1,604 ,216 1,577 28 ,126 ,35133 ,22279 -,10502 ,80769
Equal
variances
not
assumed
1,577 26,234 ,127 ,35133 ,22279 -,10641 ,80908
Bước 4: Kết luận
- Kiểm định phương sai: Vì Sig. = 0.216 > α = 0.05
Chấp nhận H0
Kết luận phương sai 2 mẫu bằng nhau
- Kiểm định giá trị bình quân:
Vì giá trị cột Sig. (2-tailed) dòng 1 = 0.126 > α= 0.05
Chấp nhận H0
Giá trị bình quân của 2 mẫu không có sự khác biệt đáng kể
Bài 3. Cho bảng số liệu lượng tiêu thụ sản phẩm của doanh nghiệp được ghi theo mùa trong nhiều
m
Mùa Lượng tiêu th
Xuân
5.2 4.9 6.3 4.7 4.5 5.2 4.8 6.1 4.8 5 4.9 6.3 5.5 6.1 4.9 4.7 5.7 4.7 6.3 6.5
H
6.2 5.3 6.2 6.4 5.7 5.2 4.8 4.7 4.9 5.6 6.7 4.8 6.5 5.1 5.4 6.2 4.5 5.2 6.3 6.2
Thu
4.3 4.5 4.5 5 4.6 5.1 5 5.2 5.3 5.5 5.5 5.3 5.7 5.5 5.6 5.7 6 6.1 6.1 6.3
Đông
4.3 4.7 4.5 5.1 3.9 4.1 5.2 6.1 3.7 4.8 4.3 5.7 3.2 5.3 4.5 6.1 3.2 5.1 4.7 4.9
Hãy thực hiện xử lý dữ liệu thích hợp, phân tích ảnh hưởng của mùa tới lượng tiêu thụ của sản phẩm
Bài làm
- Xây dựng giả thuyết :
H0: µ1 = µ2 = µ3 = µ4
H1: Có ít nhất một giá trị µ khác biệt đáng kể với các giá trị µ còn lại
- Kết quả kiểm định giả thuyết :
ANOVA
Tieuthu
Sum of
Squares
df
Mean
Square
F Sig.
Between
Groups
9,483 3 3,161 6,527 ,001
Within Groups 36,809 76 ,484
Total 46,292 79
Kết luận: Vì giá trị cột Sig = 0.001 < α = 0.05 => Bác bỏ H0, chấp nhận H1
Với mức độ tin cậy 95%, chúng ta luôn khẳng định rằng có ít nhất một mùa có mức độ tiêu
thụ bình quân khác biệt một cách đáng kể với lượng tiêu thụ bình quân của 3 mùa còn lại
- Kết quả thống kê mô tả:
Descriptives
Tieuthu
N Mean
Std.
Deviatio
n
Std.
Error
95% Confidence
Interval for Mean
Minimum
Maximu
m
Lower
Bound
Upper
Bound
Xuân 20 5,355 ,6755 ,1510 5,039 5,671 4,5 6,5
Hạ 20 5,595 ,6917 ,1547 5,271 5,919 4,5 6,7
Thu 20 5,340 ,5744 ,1284 5,071 5,609 4,3 6,3
Đông 20 4,670 ,8202 ,1834 4,286 5,054 3,2 6,1
Total 80 5,240 ,7655 ,0856 5,070 5,410 3,2 6,7
- Kết quả so sánh cặp :
Multiple Comparisons
Dependent Variable: Tieuthu
LSD
(I) Mùa (J) Mùa
Mean
Difference (I-
J)
Std. Error Sig.
95% Confidence Interval
Lower
Bound
Upper Bound
Xuân Hạ -,2400 ,2201 ,279 -,678 ,198
Thu ,0150 ,2201 ,946 -,423 ,453
Đông ,6850
*
,2201 ,003 ,247 1,123
Hạ Xn ,2400 ,2201 ,279 -,198 ,678
Thu ,2550 ,2201 ,250 -,183 ,693
Đông ,9250
*
,2201 ,000 ,487 1,363
1974 126
Thu Xuân -,0150 ,2201 ,946 -,453 ,423
H -,2550 ,2201 ,250 -,693 ,183
Đông ,6700
*
,2201 ,003 ,232 1,108
Đông Xuân -,6850
*
,2201 ,003 -1,123 -,247
H -,9250
*
,2201 ,000 -1,363 -,487
Thu -,6700
*
,2201 ,003 -1,108 -,232
*. The mean difference is significant at the 0.05 level.
Với độ tin cậy 95%, chúng ta luôn khẳng định rằng mùa Đông luôn có lượng tiêu thụ thấp hơn
đáng kể so với 3 mùa còn lại.
Đồ thị Means Plot
Bài 4. Tìm hiểu về nhu cầu sử dụng điện thoại, ông Bình đã sử dụng bộ dữ liệu của Singapore
giai đoạn 1960-1981 với 2 biến sau:
TEL: Số lượng điện thoại trên 1000 người
GDP: Tổng sản phẩm quốc nội trên đầu người, tại mức giá cơ cấu tính theo đô la Singapore năm 1968
Năm TEL GDP Năm (tt) TEL GDP
1960 36 1299 1971 90 2723
1961 37 1365 1972 102 3033
1962 38 1409 1973 114 3317
1963 41 1549 3487
1964 42 1416 1975 141 3575
1965 45 1473 1976 163 3784
1966 48 1589 1977 196 4025
1967 54 1757 1978 223 4286
1968 59 1974 1979 262 4628
1969 67 2204 1980 291 5038
a. Vẽ đồ thị phân tán điểm cho tập dữ liệu trên.
b. Hãy tính các trị thống kê tổng hợp cho biến GDP và TEL (trung bình, phương sai, độ lệch chuẩn,
Max, Min).
Descriptive Statistics
N Minimum Maximum Mean Std. Deviation Variance
TEL 22 36,00 317,00 116,8182 88,48332 7829,299
GDP 22 1299,00 5472,00 2812,0455 1323,02678 1750399,855
Valid N
(listwise)
22
c. Hãy xác định hệ số tương quan tuyến tính giữa TEL và GDP. Giải thích ý nghĩa của hệ số tương
quan.
Correlations
TEL GDP
TEL
Pearson
Correlation
1 .973
**
Sig. (2-tailed) .000
N 22 22
GDP
Pearson
Correlation
.973
**
1
Sig. (2-tailed) .000
N 22 22
**. Correlation is significant at the 0.01 level (2-tailed).
Ta có: r=0.973>0 và 0.9<|r|=0.973<1 hệ số tương quan đồng biến và tương quan rất chặt
Kết luận: TEL và GDP có mối quan hệ đồng biến và rất chặt chẽ.
d. Xây dựng mô hình hồi quy giữa TEL và GDP
- Phương trình mô hình hồi quy mẫu
TEL = β
0
+ β
1
.GDP + ε
i
(1)
Trong đó: TEL – biến phụ thuộc
GDP – biến độc lập
β
0
– hệ số tự do
β1 – hệ số góc
ε
i
– phần dư
- Kiểm tra sự tồn tại của mô hình
ANOVA
a
Model
Sum of
Squares
df Mean Square F Sig.
1 Regression 155543,959 1 155543,959 350,667 ,000
b
Residual 8871,314 20 443,566
Total 164415,273 21
a. Dependent Variable: TEL
b. Predictors: (Constant), GDP
Mô hình luôn luôn tồn tại với mức độ tin cậy 95% vì Sig. < α = 0.05
- Kiểm tra sự phù hợp và tin cậy của mô hình
Model Summary
b
Model R R Square
Adjusted
R
Square
Std. Error of
the Estimate
1 ,973
a
,946 ,943 21,06100
a. Predictors: (Constant), GDP
b. Dependent Variable: TEL
Mô hình tương đối phù hợp và đáng tin cậy vì R bình hiệu chỉnh = 0.943 có nghĩa là trong các
nhân tố ảnh hưởng đến sự thay đổi của TEL thì GDP đã giải thích được 94,3% còn lại 5,7%
được giải thích bởi các nhân tố khác chưa có điều kiện đưa vào mô hình.
- Kiểm tra sự tồn tại của hệ số hồi quy
Coefficients
a
Model
Unstandardized
Coefficients
Standardized
Coefficients
t Sig.
B Std. Error Beta
1 (Constant)
-
66,106
10,751 -6,149 ,000
GDP ,065 ,003 ,973 18,726 ,000
a. Dependent Variable: TEL
Với mức độ tin cậy 95%, hệ số hồi quy của biến GDP luôn luôn khác 0
vì Sig. = 0.000 < α = 0.05 và GDP ảnh hưởng đáng kể đến TEL
- Phương trình hình hồi quy
TEL = -66.106 + 0.065.GDP (2)
Bài 5. Sinh viên tự đề xuất một yêu cầu nghiên cứu trong thực tế và ứng dụng công cụ SPSS để tính
toán, xây dựng mô hình, giải thích ý nghĩa và đề xuất giải pháp nếu có.
Bài 6:
Cho số liệu về sản xuất lúa tệp "RiceProduction", các biến tương ứng :
1- Biến phụ thuộc:
- Output: sản lượng lúa (kg) của hộ gia đình
2- Biến giải thích/Các yếu ảnh hưởng: Hai loại:
Các đầu o:
- Land: diện tích đất trồng lúa (ha)
- Fertilizer: đầu tư cho phân bón
- Labour: đầu tư về lao động (ngày công)
- Machine: đầu tư cho MMTB (giờ máy)
Các điều kiện sản xuất đặc trưng của hộ gia đình
- Plot: số mảnh ruộng của hộ gia đình
- LandClass: Cấp đất (cấp đất càng cao đất càng xấu)
- Crop: hệ số mùa vụ (số vụ lúa bình quân/năm)
- Age: tuổi của chủ hộ
- Hhsize: số người trong hộ gia đình
- Vùng miền: Các quan sát từ 1-192 là các hộ gia đình ở miền Bắc (mã hóa Miền Bắc =1), các quan
sát từ số 193 trở đi là các hộ gia đình miền Nam (mã hóa Miền Nam=0).
Yêu cầu:
1. Nhập dữ liệu từ file Excel vào phần mềm SPSS và ghi vào file Nguyễn Phương Huyền
Linh_RiceProduction_21051419.sav
2. Bỏ đi 15 quan sát ngẫu nhiên (Quan sát có STT là số cuối của MSV và 14 quan sát khác)
Xóa số 12, 24 (số thứ tự), 40,55,75,80,100,130,158,175,200,234,255,340,378
3. Xây dựng hàm hồi quy nghiên cứu các nhân tố ảnh hưởng đến sản lượng lúa của hộ gia đình,
ước lượng hàm hồi quy, phân tích ảnh hưởng của các nhân tố, gợi mở hoặc đề xuất chính sách.
- Phương trình mô hình hồi quy mẫu:
Output = β
0
+ β
1
.Land + β
2
.Fertiliser + β
3
.Labour + β
4
.Machine + β
5
.Plot + β
6
.LandClass + β
7
.Age +
β
8
.Hhsize + β
9
.Region + ε
i
(1)
Trong đó:
Output: biến phụ thuộc
Land, Fertiliser, Labour, Machine, Plot, LandClass, Age, Hhsize, Region: biến độc
lập β
0
: hệ số tự do
β
1
: hệ số góc
εi: phần dư
- Kiểm tra sự tồn tại của mô hình:
Sản
lượng lúa
Diện tích
đất HGĐ
Đầu tư
cho phân
n
Đầu
cho lao
động
Đầu tư
cho máy
c
Số thửa Cấp đất
Tuổi
của chủ
h
Số khẩu
của hộ
Sản lượng
a
Pearson
Correlation
1 .981
**
.946
**
.842
**
.934
**
-.095 .168
**
.000 .091
Sig. (2-
tailed)
.000 .000 .000 .000 .066 .001 .998 .080
N 373 373 373 373 373 373 373 373 373
Diện tích
đất H
Pearson
Correlation
.981
**
1 .958
**
.863
**
.954
**
-.093 .236
**
-.005 .126
*
Sig. (2-
tailed)
.000 .000 .000 .000 .073 .000 .930 .015
N 373 373 373 373 373 373 373 373 373
Đầu tư
cho phân
n
Pearson
Correlation
.946
**
.958
**
1 .866
**
.923
**
-.090 .254
**
-.016 .127
*
Sig. (2-
tailed)
.000 .000 .000 .000 .082 .000 .761 .014
N 373 373 373 373 373 373 373 373 373
Đầu
cho lao
động
Pearson
Correlation
.842
**
.863
**
.866
**
1 .847
**
.131
*
.172
**
.046 .202
**
Sig. (2-
tailed)
.000 .000 .000 .000 .011 .001 .373 .000
N 373 373 373 373 373 373 373 373 373
Đầu tư
cho máy
c
Pearson
Correlation
.934
**
.954
**
.923
**
.847
**
1 -.084 .290
**
-.026 .131
*
Sig. (2-
tailed)
.000 .000 .000 .000 .105 .000 .623 .011
N 373 373 373 373 373 373 373 373 373
Số thửa Pearson
Correlation
-.095 -.093 -.090 .131
*
-.084 1 -.133
*
-.001 .083
Sig. (2-
tailed)
.066 .073 .082 .011 .105 .010 .978 .110
N 373 373 373 373 373 373 373 373 373
Cấp đất Pearson
Correlation
.168
**
.236
**
.254
**
.172
**
.290
**
-.133
*
1 -.063 .104
*
Sig. (2-
tailed)
.001 .000 .000 .001 .000 .010 .223 .045
N 373 373 373 373 373 373 373 373 373
Tuổi của
chủ hộ
Pearson
Correlation
.000 -.005 -.016 .046 -.026 -.001 -.063 1 .140
**
Sig. (2-
tailed)
.998 .930 .761 .373 .623 .978 .223 .007
N 373 373 373 373 373 373 373 373 373
Số khẩu
của hộ
Pearson
Correlation
.091 .126
*
.127
*
.202
**
.131
*
.083 .104
*
.140
**
1
Sig. (2-
tailed)
.080 .015 .014 .000 .011 .110 .045 .007
N 373 373 373 373 373 373 373 373 373
**. Correlation is significant at the 0.01 level (2-tailed).
*. Correlation is significant at the 0.05 level (2-tailed).
Phân tích mối quan hệ giữa Output với các biến quan sát còn lại
Hệ số tương quan bội (pearson correlation)
0,9 < r=0,981 < 1 chúng ta luôn kết luận rằng giữa Output và Land có mối quan hệ rất chặt và
đồng biến.
0,9 < r=0,946 < 1 chúng ta luôn kết luận rằng giữa Output và Fertiliser có mối quan hệ rất
chặt và đồng biến.
0,7 < r=0,842 < 0,9 chúng ta luôn kết luận rằng giữa Output và Labour có mối quan hệ chặt
và đồng biến.
0,9 < r=0,934 < 1 chúng ta luôn kết luận rằng giữa Output và Machine có mối quan hệ rất
chặt và đồng biến.
0,0 < r=-0,095 < 0,3 chúng ta luôn kết luận rằng giữa Output và Plot có mối quan hệ yếu và
nghịch biến Loại biến Plot.
0,0 < r=0,168 < 0,3 chúng ta luôn kết luận rằng giữa Output và LandClass có mối quan hệ
yếu và đồng biến Loại biến LandClass.
0,0 < r=0,000 < 0,3 chúng ta luôn kết luận rằng giữa Output và Age có mối quan hệ yếu và
đồng biến Loại biến Age.
0,0 < r=0,091< 0,3 chúng ta luôn kết luận rằng giữa Output và Hhsize có mối quan hệ rất yếu
và đồng biến Loại biến Hhsize.
- Phương trình mô hình hồi quy mẫu:
Output = β
0
+ β
1
.Land + β
2
.Fertiliser + β
3
.Labour + β
4
.Machine + β
5
.Region + ε
i
(2)
- Kiểm tra phân bố chuẩn cho các biến định lượng trong hình phương trình (2) bằng đồ thị
Histogram
LnOutput = β
0
+ β
1
.LnLand + β
2
.LnFertiliser + β
3
.LnLabour + β
4
.LnMachine + ε
i
(3) Loại bỏ các số dị biệt 201, 224, 198, 136, 355
- Chạy hình hồi quy phương trình kiểm tra các khuyết tật của hình giả
thiết của hình.
Coefficients
a
Model
Unstandardized
Coefficients
Standardized
Coefficients
t Sig.
Collinearity Statistics
B Std. Error Beta Tolerance VIF
1 (Constant) 7.497 .288 26.021 .000
Cấp đất -.052 .007 -.063 -7.075 .000 .759 1.318
Tuổi của chủ hộ .000 .001 .003 .422 .673 .935 1.070
Số khẩu của hộ -.013 .004 -.027 -3.300 .001 .895 1.118
Vùng miền -.075 .036 -.043 -2.113 .035 .146 6.864
LnLand .729 .044 .715 16.620 .000 .032 30.854
LnFertiliser .177 .032 .155 5.570 .000 .078 12.836
LnLabour .041 .037 .024 1.125 .261 .128 7.811
LnMachine .118 .030 .110 3.976 .000 .078 12.758
LnPlot -.023 .015 -.018 -1.526 .128 .417 2.399
a. Dependent Variable: LnOutput
Hiện tại đang có hiện tượng đa cộng tuyến vì có VIF lớn hơn hoặc bằng 10
Chạy lại mô hình ta có:
Coefficients
a
Model
Unstandardized
Coefficients
Standardized
Coefficients
t Sig.
Collinearity Statistics
B Std. Error Beta Tolerance VIF
1 (Constant) 3.265 .147 22.147 .000
Cấp đất -.040 .015 -.049 -2.645 .009 .788 1.269
Vùng miền -.876 .033 -.498 -26.761 .000 .785 1.274
LnLabour 1.237 .029 .732 43.188 .000 .944 1.059
a. Dependent Variable: LnOutput
- Kiểm tra hiện tượng đa cộng tuyến
VIF của LnLand, LnFertiliser, LnMachine > 10 nên mô hình có hiện tượng đa cộng tuyến
Khắc phục bằng cách loại LnLand, LnMachine, Tuổi của chủ hộ, Số khẩu của hộ gia đình
- Kiểm tra hiện tượng tự tương quan
1<1,551<3 ko có hiện tượng tự tương quan phần dư
- Kiểm tra phân bố chuẩn của phần dư
| 1/31