Báo cáo bài tập lớn xác xuất thống kê
Báo cáo bài tập lớn xác xuất thống kê
Môn: Xác suất thống kê (Probability statistics)
Trường: Trường Đại học Nông Lâm, Đại học Huế
Thông tin:
Tác giả:
Preview text:
TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG KÊ
ĐỀ TÀI 01
GVHD: NGUYỄN KIỀU DUNG NHÓM: 1 STT HỌ VÀ TÊN MSSV NHÓM- NGÀNH HỌC KÝ TỔ TÊN 1 Huỳnh Minh Hưng 1611422 L12 Kỹ thuật xây dựng 2
Nguyễn Hoàng Tùng Khương 1611624 L12 Kỹ thuật xây dựng 3 Nguyễn Hoàng Thu Ngân 1612166 L12 Kỹ thuật xây dựng 4 Phan Vinh Nhân 1612366 L12 Kỹ thuật xây dựng 5 Lê Minh Trung 1613788 L12 Kỹ thuật xây dựng 6 Thái Ngọc Việt 1614102 L12 Kỹ thuật xây dựng 7
Nguyễn Đạt Duy (NT) 1610466 L13 Kỹ thuật xây dựng 8 Nguyễn Thái Khánh Hưng 1611437 L13 Kỹ thuật xây dựng
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ
mật độ với dữ liệu (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 91% với dữ liệu (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay không ( lưu ý phải sử dụng các hàm thống kê trong excel).
Dữ liệu định lượng A:
Khảo sát 20 đoạn đường betong chiềều dài 1200 m, rộng 3 m, dày 10cm, để biềết được s ố ế bao
xi măng cầền dùng để thi cống các đoạn đường ầ ếy 2450 2578 2752 2456 2766 2759 2812 2891 2672 2678 2563 2684 2558 2795 2739 2794 2678 2565 2657 2864
Dữ liệu định tính B: Khảo sát hãng xi măng ưa dùng của 1000 hộ dần TT Tên hãng 1 Xi măng Thăng Long 137 2 Xi măng Hạ Long 119 3 Xi măng Holcim 269
Xi măng Hà Tiên Đa dụng / xây 4 tô 253 5 Xi măng Fico 76 6 Xi măng Nghi Sơn 146
1.1 Phân tổ dữ liệu A:
Nhập dữ liệu A vào excel
-Xác định số tổ cần chia
- Nhập vào ô A7 biểu thức: =(2*COUNT(A2:E5))^(1/3) ta được kết quả như hình:
- Kềết quả 3.419952 .Suy ra chọn k=3
- Xác định trị số khoảng cách h theo công thức h =
-Nhập vào ố B7 cống thức =(MAX(A2:E5)-MIN(A2:E5))/3 ta được kềết quả như hình: Suy ra h=147
-Vì k=3 nền có 3 tổ, ta cầền xác định cận trền và cận dưới của 3 tổ: Tổ 1: 2450-2597 Tổ 2: 2597-2744 Tổ 3: 2744-2891
-Nhập vào ố G2 đềến G4 các giá trị như hình:
Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết quả.
- Confidence Level for Mean: độ tin cậy cho trung bình.
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số Kềết quả:
1.2 Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A) • Vẽẽ biểu đồồ Phân Bồố Tâồn Sồố - Quét bảng tần số - Insert Column Chart - Kết quả:
• Vẽ biểu đồ tích lũy tần số:
-Quét bảng tích lũy tần số
-Chọn Insert > Column > 2-D Column Kết quả:
• Vẽ biểu đồ mật độ dữ liệu
1.3 Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 91% với dữ liệu (A).
+Tính các đặc trưng mẫu
* Nhập dữ liệu vào bảng tính * Chọn
chức năng Data/Data Analysis/Descriptive Statistics - Input
Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho trung bình. Kết quả
Nhìn vào bảng kềết quả ta biềết được các đặc trưng mầẫu với: -Mean: trung bình mầẫu
-Standard Deviation: độ lệch mâẫu
-Sample Variance: phương sai mâẫu
+Ước lượng giá trị trung bình
Để ước lượng ta cân tính và Trong đó
Lúc nảy ta đã tính được Đềề cho ta: độ tin cậy =91% suy ra n=20 suy ra 1.392
với được tính trong excel như sau
Với băềng với giá trị của t Critical one-tail nền suy ra s=130.296 Suy ra
Khoảng ước lượng giá trị trung ( - ; + )
Suy ra khoảng ước lượng là (2644.99;2726.11)
1.4 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
* Nhập dữ liệu vào bảng tính
*Tính tỷ lệ bao xi măng của các hãng xi măng Nhập vào: D37=C37/SUM(C37:C42) D38=C38/SUM(C37:C42) D39=C39/SUM(C37:C42) D40=C40/SUM(C37:C42) D41=C41/SUM(C37:C42) D42=C42/SUM(C37:C42) Kết quả:
* Vẽ biểu đồ đứng thể hiện số lượng bao xi măng của từng hang xi măng
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert * Kết quả:
*Vẽ biểu đồ tròn thể hiện tỷ lệ bao xi măng của các hang
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert. * Kết quả:
1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác
suất nào đó hay không.
*Kiểm định A: Với mức ý nghĩa 1%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không?
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối H1: Mẫu không phù hợp với phân phối chuẩn -
Tính các đặc trưng mẫu: n =20 = 2685.55 = 125.573 +
là ước lượng hợp lý cực đại cho a => a =2685.55
+ là ước lượng hợp lý cực đại cho => σ = 125.573
Với k = 3, r =2,suy ra k-r-1=0, nên ta không thể tính
Suy ra không tìm được miền bác bó . Do đó ta không kết luận được dữ liệu A tuân
theo phân phối chuẩn
*Kiểm định A: mẫu A phù hợp với phân phối poisson hay không?
Nhìn vào bảng phân phối sác xuất trên, ta đủ cơ cở kết luận dữ liệu A không phải phân phối poisson
Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau: Ngày trong tháng 1 3 5 6 8 10 13 17 20 24 27 30 Tháng 4 7.6 10.2 9.3 4.4 3.2 5.6 6.3 7.4 8.4 3.9 7.2 6.5 Tháng 10 6.3 8.8 9 5.1 4.2 4.1 5.8 6.3 6.7 5.6 6.7 6.7
Với mức ý nghĩa 3%, có thể cho rằng doanh số bán trung bình hàng ngày trong tháng 10 có giảm
sút so với tháng 4 hay không? Tìm thêm giá trị P trong kiểm định. Bài làm:
* Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu. a
- Đặt 1 : Doanh số bán hàng tháng 4.
a2 : Doanh số bán hàng tháng 10.
* Công cụ: t-test Paired Two Sample for Means
- Được dùng khi mẫu bé (N < 30), phụ thuộc, phương sai hai mẫu không bằng nhau và mỗi phần
tử khảo sát có 2 chỉ tiêu X (trước), Y (sau) khi thay đổi điều kiện thí nghiệm.
- Tiêu chuẩn kiểm định: t = , ,
- Biện luận: Nếu > thì bác bỏ , chấp nhận và ngược lại.
* Thực hiện bài toán trên Excel: - Nhập số liệu:
- Vào Data/Data Analysis/ t-test: Paired Two Sample for Means/ OK:
- Lần lượt ấn định các thông số:
+ Phạm vi dữ liệu 1 (Variable 1 Range),
+ Phạm vi dữ liệu 2 (Variable 2 Range), + Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range). * Kết quả: - Biện luận:
+ : : Doanh số bán hàng trong 2 tháng bằng nhau.
+ : : Doang số bán hàng trong tháng 10 giảm sút so với tháng 4.
= 2.0961 => Chấp nhận giả thuyết . P = 0.1204
Vậy doanh số bán hàng trong 2 tháng bằng nhau.
Gía trị P cần tìm: P = 0.1204
Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành: Các quận nội thành Ngày khảo sát Quận 1 Quận 2 Quận 3 Quận 4 Quận 5 Thứ hai 254 236 267 223 245 Thứ ba 245 212 256 213 234 Thứ tư 236 223 245 230 232 Thứ năm 235 197 243 213 224 Thứ sáu 250 210 232 215 233 Thứ bảy 247 196 223 207 242
Lượng báo thực sự bán ra ở 5 quận có khác nhau không? Lượng báo bán ra có chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %. Bài làm:
* Dạng bài: Phân tích phương sai hai yếu tố (không lặp).
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát (i = 1,2,.
…,r: yếu tố A; j = 1,2.….,c: yếu tố B). - Gỉa thuyết: + . + . - Gía trị thống kê: , - Biện luận: + Nếu + Nếu Và ngược lại.
* Công cụ: “Anova: Two – Factor without Replication”:
* Thực hiện bài toán trên Excel: - Nhập số liệu:
- Vào Date/Date Analysis/Anova: Two-Factor Without Replication/OK:
- Lần lượt ấn định các thông số:
+ Phạm vi đầu vào (Input Range), + Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range). * Kết quả: - Biện luận: + +
Vậy: - Lượng báo bán ra ở 5 quận là khác nhau.
- Lượng báo bán ra chịu tác động là các ngày trong tuần.
Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô
cùng lớn, chúng ta có số liệu: Kết cục Vật liệu 1 Vật liệu 2 Vật liệu 3 Vỡ vụn 25 45 41 Bị phá hủy một phần 40 35 33 Còn toàn vẹn 35 20 26
Hãy kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi
nhiệt độ không? Sử dụng mức ý nghĩa 2%. Bài làm:
* Dạng bài: Kiểm định giả thuyết về tỉ lệ.
* Phương pháp giải: Áp dụng kiểm định chi bình phương
* Công cụ: Dùng hàm ‘’CHITEST’’. * Cơ sở lý thuyết:
- Đối với một thí nghiệm có hai kết quả (binomial experiment) – thí dụ, đối với một thuốc
được kê đơn: có hay không - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí
thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả
(multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều
trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi”
bình phương () cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc
xác suất) một cách tiện lợi. là phân phối về xác suất, không có tính đối xứng và chỉ có giá
trị 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử
nghiệm có k kết quả và mỗi kết quả mang một các xác suất thực nghiệm là (i = 1, 2, …k).
Nếu gọi là các giá trị lí thuyết tương ứng với thì các tần số lí thuyết sẽ là = N. Điều kiện
để áp dụng trắc nghiệm một cách thành công là các tần số lí thuyết phải 5. - Gỉa thuyết: + +
=> Có ít nhất 1 cặp và - Gía trị thống kê: ; + Với: - Biện luận:
+ Nếu: => Bác bỏ giả thuyết
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính: =
Trong đó: + : Tần số thực nghiệm của ô thuộc hàng i và cột j;
+ : Tần số lý thuyết của ô thuộc hàng i và cột j;
+ r: số hàng và c: số cột.
+ Xác suất P(X > ) với bậc tự do DF= (r – 1)(c – 1); trong đó, r là số hàng và c là số cột
trong bảng ngẫu nhiên (Contingency Table).
+ Nếu P(X > ) > => Chấp nhận giả thuyết và ngược lại.
* Thực hiện bài toán trên Excel:
- Nhập số liệu và tính các thông số tổng hàng, tổng cột:
- Tính các tần số lý thuyết: TSLT = (tổng hàng * tổng cột)/(tổng cộng).
- Dùng hàm CHITEST để tính xác suất P(X > ):
- Kết quả và biện luận: + Gỉa thuyết:
H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
H1: Không có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ. + Kết quả:
P(X > ) = 0.0266 > = 0.02 => Bác bỏ giả thuyết H1 , chấp nhận giả thuyết H0.
Vậy: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ. Bài 5:
a) Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm sai số chuẩn của ước lượng.
b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến. Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp.
Bài làm • Cơ sở lý thuyết
1.Tìm hệ số tương quan giữa X và Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ?
Giả thiết H0: X và Y không có tương quan tuyến tính: r n - 2 T = 1- r2
3) Ước lượng đường hồi quy tuyến tính của Y theo X * Cơ sở lý thuyết:
Hồi quy đơn tuyến tính:
a) Bảng số liệu về mức độ ảnh hưởng của thời gian trộn đến cường độ chịu nén của
bê tông xi măng (với độ tin cậy là 5%) : Thời gian trộn t 60 70 80 90 100 110 120 130 140 150 (s) Cường độ chịu 28.7 30.9 31.6 31.1 30.5 29.7 28.3 27.2 25.8 23.7 nén bề tống ở 7 ngày tuổi C7 (MPa)
1) Tìm hệ số tương quan giữa Xvà Y. Thực hiện trên excel:
Nhập số liệu vào bảng tính •
Chọn chức năng Data/Data Analysis/Correlation: • Kết quả:
Với kết quả thì ta có hệ số tương quan R = -0.80164
Chứng tỏ thời gian và mức cường đọ chịu lực nén có quan hệ khá chặt chẽ và đây là tương quan nghịch
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước lượng
đường hồi quy tuyến tính X và Y. * Thực hiện trên Excel:
- Nhập dữ liệu: (dữ liệu nhất thiết phải nhập theo cột)
- Lần lượt thực hiện các bước:
+ Nhấn lệnh Tools và lệnh Data Analysis.
+ Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK.
+ Trong hộp thoại Regression lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vị của biến số X (Input X Range) - Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level0
- Tọa độ đầu ra (Output Range)
- Đường hồi quy (Line Fit Plots)
- Biểu thức sai số (Residuals Plots). - Kết quả:
- Phương trình hồi quy: = 35,87 – 0,07X ( - Biện luận:
+ = 7,74E-08 < hay > => Bác bỏ
+ = 0,0053 < hay t > => Bác bỏ
+ = 0,0053 < hay F > => Bác bỏ
⇨ phương trình hồi quy này thích hợp.
Vậy quan hệ giữa X và Y được coi là tuyến tính.
- Đường hồi quy tuyến tính giữa X và Y:
3) Sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 1,9464
- Đối với biến X: SE= 0,0179
c) Mô hình hồi quy tuyến tính đa biến:
Bảng phân tích tính hàn của thép kết cấu: C (%) Mn (%) CE (%) 0.17 1.4 0.35 0.21 1.5 0.40 0.24 1.6 0.45 0.2 1.7 0.47 0.18 1.5 0.40 0.13 1.5 0.43 0.14 1.6 0.48 0.16 1.7 0.53 0.2 1.7 0.34 0.16 1.65 0.39
Hãy cho biết yếu tố %C và %Mn có mối quan hệ tuyến tính với %CE hay không? Nếu có hãy vẽ
đường biểu diễn sự quan hệ tuyến tính đó. Gỉa thuyết với độ tin cậy là 95%. Bài làm: - Nhập số liệu:
- Thực hiện các bước tương tự ở trên trong hộp thoại Regression: - Kết quả:
- Phương trình hồi quy: ) = 0,09 – 0,43+ 0,26 - Biện luận:
+ = 0.7817 > hay < => Chấp nhận giả thuyết
+ = 0,4886 > hay < => Chấp nhận giả thuyết
+ = 0,2085 > hay < => Chấp nhận giả thuyết
+ = 0,3846 > hay F < => Chấp nhận giả thuyết
⇨ Phương trình đồng quy tuyến tính trên không tồn tại.
Vậy yếu tố %C và %Mn không quan hệ đồng quy tuyến tính với yếu tố %CE.
- Đồ thị biểu diễn sự không phụ thuộc của %C và %Mn với %CE.
Bài 6: Hàm lượng carbon trong thép SD390 của 2 hãng thép được trình bày trong bảng sau: VNSTEEL POMINA 0.26 0.29 0.21 0.17 0.24 0.18 0.15 0.22 0.25 0.24
Hàm lượng carbon có khác nhau theo công ty không? Giả sử sử dụng mức ý nghĩa 5%.
Bài làm
- Dạng bài: phân tích phương sai 1 yếu tố - Cơ sở lý thuyết:
Gọi 1 là phương sai của hàm lượng carbon có trong thép SD390 của thép POMINA.
2 là phương sai của hàm lượng carbon có trong chai nhựa SD390 của thép VNSTEEL
Giả thiết kiểm định Ho : 1 2 = 22
Giả thiết đối H1 : 1 2 2 2 1. Dùng Excel:
a. Nhập dữ liệu vào bảng tính
b. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis.
c. Chọn Anova: Singel Factor
d. Chọn các mục như hình: e. Kết quả:
⇨ F=0.1283< Fk-1;n-k;1-a = 5,987378 nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của hai hang thép là như nhau.
2. Giải trực tiếp bằng công thức:
- Ta có s2= 0.03436 ; n1=n2=5 s1=0,04386
- Miền bác bỏ W=(f0,05/2 (4;4),+)=(6.39, +)
- Tiêu chuẩn kiểm định: Fqs= 1 s 2 2
/s 2 = 0.043862 / 0.034362 = 1.6294
Do Fqs không thuộc W nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của thép SD390 của hai hãng là bằng nhau