


















Preview text:
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN KINH TẾ VÀ QUẢN LÝ ~~~~~~*~~~~~~ BÀI TIỂU LUẬN
HỌC PHẦN: THỐNG KÊ ỨNG DỤNG
ĐỀ TÀI: RATING WINES FROM THE PIEDMONT REGION OF ITALY
Giảng viên hướng dẫn: TS Hà Thị Thư Trang
Nhóm sinh viên thực hiện: Nhóm 7 Nguyễn Huy Cao 20213197
Nguyễn Thùy Dương 20213204 Đỗ Văn Lộc 20213217 Đỗ Đức Long 20213215 Hà Mạnh Quyền 20213221 Nguyễn Văn Thạo 20213223 HÀ NỘI – 7/2023 Mục Lục
Chương 1: ĐẶT VẤN ĐỀ VÀ ĐỀ XUẤT MÔ HÌNH.................................................................................................3
1.1. Đặt vấn đề............................................................................................................................................................3
1.2 Đề xuất mô hình....................................................................................................................................................3
Chương 2: KẾT QUẢ PHÂN TÍCH..............................................................................................................................4
2.1. Phân tích thống kê mô tả......................................................................................................................................4
2.1.1 Thống kê mô tả về giá cả của các loại rượu..........................................................................................................5
2.1.2 Thống kê mô tả về điểm của các loại rượu và đánh giá........................................................................................5
2.2. Biểu đồ phân tán...................................................................................................................................................7
2.3. Kiểm định giả thuyết nghiên cứu.......................................................................................................................7
2.4. Phân tích hồi quy tuyến tính................................................................................................................................8
2.5 Phân tích hồi quy tuyến tính bậc 2........................................................................................................................12
2.6 Lựa chọn mô hình hồi quy...........................................................................................................................14
Chương 3: Kết luận.....................................................................................................................................................15
LỜI MỞ ĐẦU.............................................................................................................................................................17
Chương 1: ĐẶT VẤN ĐỀ VÀ ĐỀ XUẤT MÔ HÌNH
1.1. Đặt vấn đề
Tạp chí Wine Spectator có những bài viết và đánh Giá về mọi khía cạnh của ngành công nghiệp
rượu vang. Họ cũng có những bảng xếp hạng rượu vang từ khắp nơi trên thế giới. Vào năm 2011, họ
đã xem xét và cho Điểm 475 loại rượu vang từ cùng Piedmont của Ý bằng thang Điểm 100. Tương
ứng với mỗi thang Điểm thì mỗi loại rượu nhận được đánh Giá tương ứng là Classic, Outstanding,
Very good, Good, Mediocreanh Not recommended.
Sau khi biết được đánh Giá xếp hạng của các loại vang, một câu hỏi quan trọng được hầu hết
người tiêu dùng đặt ra là liệu trả nhiều tiền hơn cho một chai rượu vang có dẫn đến rượu vang ngon
hơn hay không? Chất lượng rượu vang liệu có phụ thuộc vào giá cả của nó?
Để điều tra câu hỏi, thắc mắc đó Wine Spectator đã sử dụng một mẫu ngẫu nhiên gồm 100 chai
rượu vang trong số 475 chai đến từ vùng Piedmont của Ý. Họ sử dụng phương pháp lấy mẫu ngẫu nhiên để lựa chọn..
1.2 Đề xuất mô hình
Trên thực tế, ta có thể thấy thường những đồ vật càng đắt tiền thì chất lượng
càng cao, tính năng càng nhiều. Ngoài ra, đồ ăn nào càng đắt thì thể hiện rằng chất
lượng đồ ăn đó càng tốt, độ quý hiếm cao và được đánh Giá cao về chất lượng.
Qua đó, ta có thể thấy Giá của rượu vang có thể ảnh hưởng đến Chất lượng của rượu
vang và Điểm đánh giá về rượu vang.
Qua những nhận định trên, giả thuyết nhóm đặt ra được phát biểu như sau:
Giả thuyết H: Giá cả của rượu vang càng cao thì Điểm đánh giá loại rượu đó
càng cao và loại rượu vang đó càng ngon.
Hình 1.1. Mô hình đề xuất H (+)
Chương 2: KẾT QUẢ PHÂN TÍCH
2.1. Phân tích thống kê mô tả
Bảng 2.1. Phân tích thống kê mô tả của 3 biến Giá, Điểm
2.1.1 Thống kê mô tả về giá cả của các loại rượu
Từ số liệu trên ta thấy được, Giá cả trung bình của 100 chai rượu là 63.11 đô. Giá chai rượu thấp
nhất là 10 đô còn cao nhất là 440 đô/chai rượu. Giá của những loại rượu này chủ yếu nằm trong
khoảng từ 10 đô đến 50 đô/chai, chiếm 60% trong tổng 100 chai rượu. Tiếp theo là những chai rượu
có Giá từ trên 50 đô đến 100 đô, chiếm 24%. Khoảng Giá cao từ 200 đô đến 450 đô chiếm tỷ trọng
ít, khoảng dưới 10% số chai rượu.
P – value < 0.05 suy ra giá của các loại rượu không tuân theo phân phối chuẩn
2.1.2 Thống kê mô tả về điểm của các loại rượu và đánh giá
Bảng 2.2. Thống kê mô tả Điểm và đánh giá của các loại rượu
Từ bảng 2.1, ta thấy Điểm đánh giá các loại rượu chạy từ 78 đến 98 Điểm với
Điểm trung bình là 89.53 Điểm. Điểm đánh giá trên 78 Điểm tức là không có loại
rượu nào bị xếp hạng “Not Recommended”. Điều này cho thấy 100 loại rượu được
khảo sát có chất lượng khá tốt.
Từ bảng 2.2, các loại rượu được xếp hạng ở mức “Very good”,“Good”,
“Mediocre” về mức Giá trung bình không có quá nhiều sự khác biệt. Mặc dù loại
rượu được xếp hạng “Good” cao hơn nhưng lại có mức Giá trung bình thấp hơn rượu
được xếp hạng “Mediocre” . Còn Giá của các loại rượu được xếp hạng “Outstanding”
và “Classic” có mức Giá chênh lệch rất nhiều so với các loại rượu khác. Các loại
rượu này thì loại nào được xếp hạng tốt nhất là những loại có mức Giá trung bình rất
cao, như loại Classic có mức Giá trung bình trên 269 đô/chai. Như vậy ta thấy Giá
rượu càng cao được xếp hạng càng cao, tức là chất lượng rượu càng tốt.
Ngoài ra, ta còn thấy được rằng số lượng rượu được xếp hạng là “Very good”
là lớn nhất, chiếm 45%. Số lượng chai được xếp hạng “Classic” lại chỉ chiếm 7%.
Điều này là do những loại rượu được xếp hạng là “Very good’ và “Outstanding” có
chất lượng tốt vừa phải nên việc sản xuất đảm bảo được đầy đủ yêu cầu, còn những
loại rượu chất lượng cao hơn thì cần quy trình phức tạp hơn, điều kiện nghiêm ngặt
hơn, tốn nhièu công sức hơn nên số lượng ít. Đồng thời, các cửa hàng sẽ bán nhiều
loại rượu “Very good” hoặc “Outstanding” hơn bởi Giá cả của nó phải chăng hơn.
2.2. Biểu đồ phân tán
Hình 2.2. Đồ thị phân tán thể hiện quan hệ tuyến tính giữa Giá và Điểm đánh Giá của rượu vang
Hệ số tương quan tuyến tính: R2 = 0.406
Qua biểu đồ ta thấy được giữa Giá cả và Điểm số có quan hệ tương quan tuyến tính với nhau.
Có hệ số tương quan R2 = 0.406 điều này khẳng định Giá cả và Điểm số có quan hệ tương quan tỉ lệ
thuận. Tức là khi Giá cả của loại rượu đó càng cao thì Điểm số của loại rượu đó càng cao.
Tuy nhiên, hệ số tương quan R2<0.5 nên cho thấy mức độ tương quan giữa Giá cả và Điểm số
đánh Giá rượu còn yếu.
2.3. Kiểm định giả thuyết nghiên cứu
Để tiến hành kiểm định giả thuyết trong mô hình đưa ra là đúng, nhóm tiến hành phân tích hệ số
tương quan Pearson Correlation đối với biến Giá bán với biến đầu ra là Điểm số của từng chai rượu.
Kết quả cho thấy giả thuyết H có mức ý nghĩa thống kê là 0.637 Điểm (Mức ý nghĩa thống kê
<0.05). Như vậy, mối tương quan giữa Giá cả và Điểm số có ý nghĩa thống kê ở mức độ tin cậy 99%.
Kết quả này đúng với giả thuyết mà nhóm tổng hợp lại từ tình huống nên nhóm khảng định giả thuyết
H là đúng. Qua đây ta lại càng khẳng định Giá cả ảnh hưởng thuận chiều đến Điểm số. (Bảng 2.3.) lOMoAR cPSD| 59671932
Bảng 2.3. Kiểm định giả thuyết bằng hệ số Pearson
2.4. Phân tích hồi quy tuyến tính
Để phân tích tác động của việc trả nhiều tiền hơn cho một chai rượu vang có
dẫn đến một loại rượu vang ngon hơn hay không, nhóm chúng em đã chọn sử dụng
phân tích hồi quy tuyến tính để đưa ra những ước lượng và kết luận về biến phụ thuộc của mô hình.
Nhóm em đưa ra 3 mô hình trong đó có 2 mô hình về hàm hồi quy đơn biến
và một mô hình hồi quy đa biến. Đầu tiên chúng ta cùng đến với hàm hồi quy đơn biến đầu tiên
- Các biến được sử dụng để đưa vào mô hình là:
- Biến phụ thuộc (Y): Score/Điểm
- Biến độc lập (Xi): Price/Giá
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc lập có dạng:
Score = b0 + b1. Price
Điểm = b0 + b1. Giá
Sử dụng phần mềm SPSS để ước lượng mô hình hồi quy tuyến tính đơn, ta có
kết quả về sự phụ thuôc của biến Score với các biến ̣ khác như sau:
Bảng 2.4. Phân tích hồi quy tuyến tính giữa biến đầu vào Giá cả đến biến đầu ra
Điểm số đánh Giá rượu vang Model Summaryb Mode R Adjusted R Std. Error of Durbin- l R Square Square the Estimate Watson 1 ,637a ,406 ,400 2,659 1,935
a. Predictors: (Constant), Price b. Dependent Variable: Score Price Residual Plot Price Từ bảng ta có: b0 = 87.763 b1 =
0.028 Vậy PTHQ là: Điểm = 87.763 + 0.028*Giá
Hệ số xác định bội R Square = 0.406 => Kết quả này cho biết 40.6% biến thiên trong số Điểm đánh
Giá có thể được giải thích bởi mối liên hệ tuyến tính giữa Điểm số và Giá cả của từng loại rượu
Hệ số xác định hiệu chỉnh R2(adj) = 0.4 => Cho biết 40% biến thiên trong số Điểm đánh Giá có thể
được giải thích bởi mô hình hồi quy mà ta đã xây dựng.
Sai số chuẩn của ước lượng Sy/x=2.65911 SSR=473.963 SSE=692.947 SST=1166.91
Đặt giả thuyết:H0: 𝛽1 = 0 H1: 𝛽1 ≠ 0
Với mức ý nghĩa 5% ta thấy: P-value < 𝛼 = 0,05
=> Bác bỏ giả thiết H0
Kết luận: Vậy biến Price có tác động đến biến Score. Mô hình hồi quy với biến độc lập là Giá cả có
thể giải thích một cách có ý nghĩa cho biến thiên trong số Điểm đánh giá rượu.
Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự biến thiên của phần dư tại các giá
trị khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy phù hợp, và phương sai bằng nhau
Tiếp theo là hàm hồi quy đơn biến thứ 2
Các biến được sử dụng để đưa vào mô hình là: -
Biến phụ thuộc (Y): Score/Điểm -
Biến độc lập (Xi): Ln(Price)/Logarit tự nhiên của Giá
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc lập có dạng:
Score = b0 + b1* Ln(Price) Điểm = b0 + b1* Ln(Giá) LnPrice Residual Plot LnPrice Từ bảng ta có b0 = 77.731 b1 = 3.156 Vậy PTHQ là: Điểm = 77.731+ 3.156* Ln(Giá) -
Hệ số xác định bội R Square = 0.576 => Kết quả này cho biết
57.6% biến thiên trong số Điểm đánh Giá có thể được giải
thích bởi mối liên hệ tuyến tính giữa Điểm số và Giá cả của từng loại rượu. -
Hệ số xác định hiệu chỉnh R2(adj) = 0.572 => Cho biết 57.2%
biến thiên trong số Điểm đánh Giá có thể được giải thích bởi
mô hình hồi quy mà ta đã xây dựng. -
Sai số chuẩn của ước lượng Sy/x=2.247 SSR=671.958 SSE=494.952 SST=1166.91
Đặt giả thuyết: H0: 𝛽1 = 0 H1: 𝛽1 ≠ 0
Với mức ý nghĩa 5% ta thấy: P-value < 𝛼 = 0,05
=> Bác bỏ giả thiết H0
Kết luận: Vậy biến Price có tác động đến biến Score. Mô hình hồi quy với biến độc lập là logarit tự
nhiên của Giá cả có thể giải thích một cách có ý nghĩa cho biến thiên trong số Điểm đánh giá rượu.
Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự biến thiên của phần dư tại các giá trị
khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy phù hợp và phương sai bằng nhau
Tiếp theo chúng ta sẽ đến với hàm hồi quy đa biến
2.5 Phân tích hồi quy tuyến tính bậc 2
Nhóm đã lập một biến Price Square với công thức là Price*Price. Sau
đó nhóm phân tích hồi quy đa bội cho 2 biến đầu vào là Giá và Price
Square với 1 biến đầu ra là Điểm số đánh Giá rượu vang.
Mô hình hồi quy tổng thể mô tả mối quan hệ biến phụ thuộc Y và biến độc lập có dạng:
Score = b0 + b1. Price + b2. Price Square
Bảng 2.5. Phân tích hồi quy tuyến tính đa bội giữa
biến đầu vào Giá cả và Price
Square đến biến đầu ra Điểm số đánh Giá rượu vang
Price SquareResidual Plot Price Square Vậy PTHQ là:
Score = 86.166 + 0.07131*Price – 0.00011*Price Square -
Hệ số xác định bội R Square = 0.523
Kết quả này cho biết 52.3% biến thiên trong số Điểm đánh Giá
có thể được giải thích bởi mối liên hệ bậc 2 giữa Điểm số và Giá
cả của từng loại rượu -
Hệ số xác định hiệu chỉnh R2(adj) = 0.513
Cho biết 51.3% biến thiên trong số Điểm đánh Giá có thể được giải
thích bởi mô hình hồi quy mà ta đã xây dựng. -
Giá trị Sig của kiểm định F là 0.000 < 0.05 nên mô hình hồi quy bội được xây
dựng phù hợp với tổng thể. -
Do số quan sát lớn với VIF= 9.298 < 10 nên ta kết luận rằng không có hiện
tượng đa cộng tuyến giữa các biến -
Durbin – Watson 1 < 1.84 <2.5 => Không có hiện tượng tự tương quan phần dư -
Sai số chuẩn của ước lượng Sy/x=2.39466 SSR=610.672 SSE=556.238 SST=1166.91
Đặt giả thuyết: H0: 𝛽2 = 0
H1: 𝛽2 ≠ 0 Chọn α=0.05, n=100, k=2 D1 = k = 2;
D2 = n – k – 1 = 100 – 2 – 1 = 97
Tra bảng F(D1,D2,α) = F(2;97;0.05) = 53.246 > Fα => bác bỏ H0.
Trong đồ thị trên, Mean = 1.89E-15 = 5.74 * 10-15 = 0.00000... gần bằng 0, độ lệch chuẩn là
0.990 gần bằng 1. Như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn, giả định phân phối chuẩn
của phần dư không bị vi phạm. Nhìn vào đồ thị ta thấy không có sự khác biệt lớn nào trong sự
biến thiên của phần dư tại các giá trị khác nhau của biến giá nên ta kết luận rằng mô hình hồi quy
phù hợp và phương sai bằng nhau
qua cả 3 mô hình Ta có thể kết luận rằng mô hình đa biến có ý
nghĩa hơn mô hình đơn đơn về giá nhưng kém ý nghĩa hơn
mô hình đơn biến đối với hàm logarit tự nhiên đối với giá
trong việc mô tả mối liên hệ giữa Giá cả và Điểm số đánh Giá
2.6Lựa chọn mô hình hồi quy
Phương trình hồi quy R Squ are /Ad jus ted squ are Score = 87.763 + 0.028*Price 0.4062
Score = 77.731+ 3.156* Ln(Price) 0,576
Score = 86.166 + 0.07131*Price – 0.00011*Price Square 0,513
Qua phân tích, nhận xét, đánh giá nhóm em lựa chọn mô hình hồi quy đơn biến
Score = 77.731+ 3.156* Ln(Price)
vì R Square của mô hình này cao nhất và hệ số Durbin – Watson= 1.746
của mô hình này bằng khá tốt đồng thời Giả định phương sai không đổi
không bị vi phạm => mô hình hồi quy khá tốt.
Giải thích hệ số hồi quy ước tính: b1 = 3.156
Gía có mối quan hệ đồng biến với Score. Khi Price tăng 1% thì Score sẽ tăng 0.03156 điểm
Chương 3: Kết luận
Với dữ liệu từ Giá và Điểm của 100 loại rượu từ vùng Piedmont của Ý, nhóm đã tiến hành
phân tích và đưa ra một số kết luận về ảnh hưởng của Giá cả đến Điểm đánh Giá của cácloại rượu như sau:
Đa phần các loại rượu đều có Giá từ 10 đô đến 200 đô/chai. Những loại rượu có Giá trên
200 đô/chai chiếm tỷ trọng nhỏ trong 100 loại rượu được chọn ngẫu nhiên.
Các loại rượu có Điểm đánh Giá từ 78 Điểm đến 98 Điểm. Không có loại rượu nào bị điếm
đánh Giá dưới 75 Điểm để nhận đánh Giá Not Recommended.
Về mối liên hệ giữa biến độc lập Giá cả với biến phụ thuộc Điểm số, kết quả kiểm địnhhệ
số tương quan Pearson cho thấy biến Giá cả có tác động tương quan lên biến phụ thuộc.
Khiphân tích hổi quy tuyến tính và hồi quy hàm bậc 2 ta thu được kết quả:
Biến Giá cả có tác động tích cực lên biến phụ thuộc Điểm số.
Để mô tả mối liên hệ giữa Giá cả và Điểm số thì sử dụng mô hình logarit tự nhiên đối với
giá cả có ý nghĩa hơn mô hình đơn biến và mô hình đa biến. DANH MỤC HÌNH ẢNH Hình 1.1. Mô hình đề xuất Hình 2.1.
Thống kê mô tả về Giá cả của loại rượu Hình 2.2.
Đồ thị phân tán thể hiện quan hệ tuyến tính giữa Giá và Điểm đánh
Giá của rượu vang LỜI MỞ ĐẦU
Sau khi được giao hoàn thành Bài tập lớn môn Thống kê ứng dụng, nhóm chúng em đã
nghiên cứu kỹ lượng câu hỏi, dữ liệu bài cho và tiến hành phân tích dữ liệu ấy. Chúng em
sử dụng phần mềm SPSS và Excel để thực hiện phân tích dữ liệu bài cho.
Sau khi phân tích chúng em nhận thấy rằng: Giá cả có tác động tích cực đến Điểm số đánh
giá của rượu vang. Điều này được lý giải bởi thường những chai rượu vang tốt sẽ có mức
giá cao. Khi đó là rượu vang tốt thì điểm đánh giá về nó cũng cao hơn so với những chai rượu vang khác.
Để mô tả tác động, mối tương quan của Điểm số và Giá cả thì sử dụng mô hình Logarit tự
nhiên đối với giá sẽ có ý nghĩa hơn sử dụng mô hình bậc nhất và mô hình bậc hai.