Báo cáo bài tập lớn xác xuất thống kê

Báo cáo bài tập lớn xác xuất thống kê

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG
ĐỀ TÀI 01
GVHD: NGUYỄN KIỀU DUNG
NHÓM: 1
STT
HỌ N
MSSV
NHÓM-
TỔ
NGÀNH HC
KÝ
N
1
Huỳnh Minh Hưng
1611422
L12
Kỹ thuật xây dng
2
Nguyễn Hoàng Tùng Khương
1611624
L12
Kỹ thuật xây dựng
3
Nguyễn Hoàng Thu Ngân
1612166
L12
Kỹ thuật xây dựng
4
Phan Vinh Nhân
1612366
L12
Kỹ thuật xây dựng
5
Minh Trung
1613788
L12
Kỹ thuật xây dựng
6
Thái Ngọc Việt
1614102
L12
Kỹ thuật xây dựng
7
Nguyễn Đạt Duy (NT)
1610466
L13
Kỹ thuật xây dựng
8
Nguyễn Thái Khánh Hưng
1611437
L13
Kỹ thuật xây dựng
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ
mật độ với dữ liệu (A).
3) Tính các đặc trưng mẫuước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 91% với dữ liệu (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) y kiểm định xem dữ liệu (A) hoặc (B) phù hợp với 1 phân bố xác suất nào
đó hay không ( lưu ý phải sử dụng các hàm thống kê trong excel).
D liu đnh lượng A:
Kho t 20 đon đường betong chiềều i 1200 m, rng 3 m, dày 10cm, đ biềết được sốế bao
xi măng cầền dùng đ thi cống các đon đường ếy
2450
2752
2456
2766
2759
2891
2672
2678
2563
2558
2795
2739
2794
2565
2657
2864
D liu đnh tính B: Kho sát hãng xi măng ưa dùng ca 1000 h dần
TT
Tên hãng
1
Xi ng Thăng Long
137
2
Xi măng Hạ Long
119
3
Xi ng Holcim
269
4
Xi măng Tiên Đa dụng / xây
253
5
Xi măng Fico
76
6
Xi ng Nghi n
146
1.1
Phân t d liu A:
Nhp d liu A vào excel
-Xác định số tổ cần chia
- Nhậpo ô A7 biểu thức: =(2*COUNT(A2:E5))^(1/3) ta được kết quả như hình:
- Kềết qu 3.419952 .Suy ra chn k=3
- Xác định trị số khoảng cách h theo công thức h =
-Nhp vào B7 cống thc =(MAX(A2:E5)-MIN(A2:E5))/3 ta được kềết qu như hình:
Suy ra h=147
- k=3 nền 3 t, ta cầền xác đnh cn trền cn dưới ca 3 t:
T 1:
2450-2597
T 2:
2597-2744
T 3:
2744-2891
-Nhp o G2 đềến G4 các giá tr như hình:
Chọn chức ng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết qu.
- Confidence Level for Mean: độ tin cậy cho trung bình.
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số
Kềết
qu:
1.2
Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A)
Vẽẽ biu đồồ Phân B n S
- Quét bảng tần số
- Insert Column Chart
- Kết qu:
Vẽ biểu đồ tích lũy tần số:
-Quét bảng tích lũy tần số
-Chọn Insert > Column > 2-D Column
Kết qu:
Vẽ biểu đồ mật độ dữ liệu
1.3
Tính c đặc trưng mẫu ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 91% với dữ liệu (A).
+Tính các đặc trưng mẫu
* Nhập dữ liệu vào bảng tính
* Chọn chức năng Data/Data Analysis/Descriptive Statistics
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho trung bình.
Kết quả
Nhìn vào bng kềết qu ta biết được các đc trưng mu vi:
-Mean: trung bình mầẫu
-Standard Deviation: đ lch mâẫu
-Sample Variance:
phương sai mâẫu
+Ước lượng giá tr trung bình
Đ ước lượng ta cân tính
Trong đó
Lúc ny ta đã tính được
Đ cho ta:
đ tin cy =91% suy ra
n=20
suy ra 1.392
vi được tính trong excel như sau
Vi băềng vi giá tr ca t Critical one-tail nền
Suy ra
suy ra s=130.296
Khong ước lượng giá tr trung ( - ; + )
Suy ra khong ước lượng (2644.99;2726.11)
1.4
Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ th
* Nhập dữ liệu vào bảng tính
*Tính tỷ lệ bao xi măng của các hãng xi măng
Nhập vào:
D37=C37/SUM(C37:C42)
D38=C38/SUM(C37:C42)
D39=C39/SUM(C37:C42)
D40=C40/SUM(C37:C42)
D41=C41/SUM(C37:C42)
D42=C42/SUM(C37:C42)
Kết quả:
* Vẽ biểu đồ đứng thể hiện số lượng bao xi măng của từng hang xi măng
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức ng Insert/Insert Column Chart/2-D Column trên menu Insert
* Kết quả:
*Vẽ biểu đồ tròn thể hiện tỷ lệ bao xi măng của các hang
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert.
* Kết quả:
1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) phù hợp với 1 phân bố xác
suất nào đó hay kng.
*Kiểm định A: Với mức ý nghĩa 1%, thể coi mẫu A phù hợp với phân phối chuẩn hay
không?
Giả thuyết kiểm định H
0
: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối H
1
: Mẫu không phù hợp với phân phối chuẩn
- Tính các đặc trưng mẫu:
n =20
= 2685.55
= 125.573
+ ước lượng hợp lý cực đại cho a => a =2685.55
+ là ước lượng hợp lý cực đại cho => σ = 125.573
Với k = 3, r =2,suy ra k-r-1=0, nên ta không thể tính
Suy ra không tìm được miền bác bó . Do đó ta không kết luận được dữ liệu A tuân
theo phân phối chuẩn
*Kiểm định A: mẫu A phù hợp với phân phối poisson hay không?
Nhìn vào bảng phân phối sác xuất trên, ta đủ cở kết luận dữ liệu A không phải phân
phối poisson
Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau:
Ngày trong tháng
1
3
5
6
8
10
13
17
20
24
27
30
Tháng 4
7.6
10.2
9.3
4.4
3.2
5.6
6.3
7.4
8.4
3.9
7.2
6.5
Tháng 10
6.3
8.8
9
5.1
4.2
4.1
5.8
6.3
6.7
5.6
6.7
6.7
Với mức ý nghĩa 3%, thể cho rằng doanh số bán trung bình hàng ngày trong tháng 10 giảm
sút so với tháng 4 hay không? Tìm thêm giá trị P trong kiểm định.
Bài m:
*
Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu.
- Đặt
a
1
: Doanh sốn hàng tháng 4.
a
2
: Doanh số bán hàng tháng 10.
*
Công cụ: t-test Paired Two Sample for Means
- Được dùng khi mẫu(N < 30), phụ thuộc, phương sai hai mẫu không bằng nhau và mỗi phần
tử khảo sát có 2 chỉ tiêu X (trước), Y (sau) khi thay đổi điều kiện thí nghiệm.
- Tiêu chuẩn kiểm định: t = , ,
- Biện luận: Nếu > thì bác bỏ , chấp nhận và ngược lại.
*
Thực hiệni toán trên Excel:
- Nhập số liệu:
- Vào Data/Data Analysis/ t-test: Paired Two Sample for Means/ OK:
- Lần lượt ấn định các thông số:
+ Phạm vi dữ liệu 1 (Variable 1 Range),
+ Phạm vi dữ liệu 2 (Variable 2 Range),
+ Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range).
*
Kết quả:
- Biện luận:
+ : : Doanh số bán hàng trong 2 tháng bằng nhau.
+ : : Doang số bán hàng trong tháng 10 giảm sút so với tháng 4.
= 2.0961 => Chấp nhận giả thuyết .
P = 0.1204
Vậy doanh số bán ng trong 2 tháng bằng nhau.
Gía trị P cần tìm: P = 0.1204
Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành:
Ngày khảo sát
Các quận nội thành
Quận 1
Quận 2
Quận 3
Quận 4
Quận 5
Thứ hai
254
236
267
223
245
Thứ ba
245
212
256
213
234
Thứ
236
223
245
230
232
Thứ năm
235
197
243
213
224
Thứ sáu
250
210
232
215
233
Thứ bảy
247
196
223
207
242
Lượng báo thực sự bán ra 5 quận khác nhau không? Lượng báo bán ra chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %.
Bài m:
*
Dạng bài: Phân tích phương sai hai yếu tố (không lặp).
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát (i = 1,2,.
…,r: yếu tố A; j = 1,2.….,c: yếu tố B).
- Gỉa thuyết:
+ .
+ .
- Gía trị thống kê: ,
- Biện luận: + Nếu
+ Nếu
Và ngược lại.
*
Công cụ: Anova: Two Factor without Replication”:
*
Thực hiệni toán trên Excel:
- Nhập số liệu:
- Vào Date/Date Analysis/Anova: Two-Factor Without Replication/OK:
- Lần lượt ấn định các thông số:
+ Phạm vi đầu vào (Input Range),
+ Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range).
*
Kết quả:
- Biện luận:
+
+
Vậy: - Lượng báo bán ra 5 quận khác nhau.
- Lượng báo bán ra chịu tác động các ngày trong tuần.
Bài 4: Ba loại vật liệu được thử sức bền ới ảnh hưởng của việc thay đổi nhiệt độ
cùng lớn, chúng ta có số liệu:
Kết cục
Vật liệu 1
Vật liệu 2
Vật liệu 3
Vỡ vụn
25
45
41
Bị phá hủy một phần
40
35
33
Còn toàn vẹn
35
20
26
Hãy kiểm định xem mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi
nhiệt độ không? Sử dụng mức ý nghĩa 2%.
Bài làm:
*
Dạng bài: Kiểm định giả thuyết về tỉ lệ.
*
Phương pháp giải: Áp dụng kiểm định chi bình phương
*
Công cụ: Dùng hàm ‘’CHITEST’’.
*
sở thuyết:
- Đối với một thí nghiệm hai kết quả (binomial experiment) thí dụ, đối với một thuốc
được kê đơn: có hay không - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí
thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết qu
(multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều
trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi”
bình phương () cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc
xác suất) một cách tiện lợi. là phân phối về xác suất, không tính đối xứngchỉ giá
trị 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử
nghiệm k kết quả và mỗi kết quả mang một các xác suất thực nghiệm (i = 1, 2, …k).
Nếu gọi là các giá trị lí thuyết tương ứng với thì các tần số lí thuyết sẽ là = N. Điều kiện
để áp dụng trắc nghiệm một cách thành công là các tần số lí thuyết phải 5.
- Gỉa thuyết:
+
+ => ít nhất 1 cặp
- Gía trị thống kê: ;
+ Với:
- Biện luận:
+ Nếu: => Bác bỏ giả thuyết
Trong chương trình MS-EXCEL hàm CHITEST thể tính:
=
Trong đó: + : Tần số thực nghiệm của ô thuộc hàng i và cột j;
+ : Tần số thuyết của ô thuộc hàng i và cột j;
+ r: số hàng và c: số cột.
+ Xác suất P(X > ) với bậc tự do DF= (r 1)(c 1); trong đó, r số hàng và c số cột
trong bảng ngẫu nhiên (Contingency Table).
+ Nếu P(X > ) > => Chấp nhận giả thuyếtngược lại.
*
Thực hiện bài toán trên Excel:
- Nhập số liệu và tính các thông số tổng hàng, tổng cột:
- Tính các tần số thuyết: TSLT = (tổng hàng * tổng cột)/(tổng cộng).
- Dùng hàm CHITEST để tính xác suất P(X > ):
- Kết quảbiện luận:
+ Gỉa thuyết:
H
0
: mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
H
1
: Không mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
+ Kết quả:
P(X > ) = 0.0266 > = 0.02 => Bác bỏ giả thuyết H
1
, chấp nhận giả thuyết H
0.
Vậy: mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
Bài 5:
a)
Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) kích thước n >10 để sử dụng
hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y được coi như quan hệ tuyến tính hay không? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm sai số chuẩn của ước lượng.
b)
Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến. Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp.
Bài làm
sở thuyết
1.Tìm hệ số tương quan giữa X và Y
2) Quan hệ giữa X,Y được coi như quan hệ tuyến tính hay không ?
Giả thiết H
0
: X và Y không có tương quan tuyến tính:
T
=
r
n
-
2
1
-
r
2
3) Ước lượng đường hồi quy tuyến tính của Y theo X
* Cơ sở lý thuyết:
Hồi quy đơn tuyếnnh:
a) Bảng số liệu về mức độ ảnh hưởng của thời gian trộn đến cường độ chịu nén của
tông xi măng (với độ tin cậy 5%) :
Thi gian trn t
(s)
60
70
80
90
100
110
120
130
140
150
Cường đ chu
nén bề tống 7
ngày tui C7
(MPa)
28.7
30.9
31.6
31.1
30.5
29.7
28.3
27.2
25.8
23.7
1) Tìm hệ số tương quan giữa Xvà Y.
Thực hiện trên excel:
Nhập số liệu vào bảng tính
Chọn chức năng Data/Data Analysis/Correlation:
Kết quả:
Với kết quả thì ta có hệ số tương quan R = -0.80164
Chứng tỏ thời gian và mức cường đọ chịu lực nén có quan hệ khá chặt chẽ đây là tương
quan nghịch
2) Quan hệ giữa X,Y được coi như quan hệ tuyến tính hay không? Hãy ước lượng
đường hồi quy tuyến tính X Y.
* Thực hiện trên Excel:
- Nhập dữ liệu: (dữ liệu nhất thiết phải nhập theo cột)
- Lần lượt thực hiện các ớc:
+ Nhấn lệnh Tools và lệnh Data Analysis.
+ Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK.
+ Trong hộp thoại Regression lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vị của biến số X (Input X Range)
- Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level0
- Tọa độ đầu ra (Output Range)
- Đường hồi quy (Line Fit Plots)
- Biểu thức sai số (Residuals Plots).
- Kết quả:
- Phương trình hồi quy: = 35,87 0,07X
(
- Biện luận:
+ = 7,74E-08 < hay > => Bác bỏ
+ = 0,0053 < hay t > => Bác bỏ
+ = 0,0053 < hay F > => Bác bỏ
phương trình hồi quyy thích hợp.
Vậy quan hệ giữa X Y được coi tuyến nh.
- Đường hồi quy tuyến tính giữa XY:
3) Sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 1,9464
- Đối với biến X: SE= 0,0179
c)
hình hồi quy tuyến tính đa biến:
Bảng phân tích tính hàn của thép kết cấu:
C (%)
Mn (%)
CE (%)
0.17
1.4
0.35
0.21
1.5
0.40
0.24
1.6
0.45
0.2
1.7
0.47
0.18
1.5
0.40
0.13
1.5
0.43
0.14
1.6
0.48
0.16
1.7
0.53
0.2
1.7
0.34
0.16
1.65
0.39
Hãy cho biết yếu tố %C và %Mn mối quan hệ tuyến tính với %CE hay không? Nếu hãy vẽ
đường biểu diễn sự quan hệ tuyến tính đó. Gỉa thuyết với độ tin cậy là 95%.
Bài m:
- Nhập số liệu:
- Thực hiện các bước tương tự ở trên trong hộp thoại Regression:
- Kết qu:
- Phương trình hồi quy: ) = 0,09 0,43+ 0,26
- Biện luận:
+
= 0.7817 >
hay
< => Chấp nhận giả thuyết
+
= 0,4886 >
hay
< => Chấp nhận giả thuyết
+
= 0,2085 >
hay
< => Chấp nhận giả thuyết
+
= 0,3846 >
hay
F < => Chấp nhận giả thuyết
Phương trình đồng quy tuyến tính trên không tồn tại.
Vậy yếu tố %C %Mn không quan hệ đồng quy tuyến tính với yếu tố %CE.
- Đồ thị biểu diễn sự không phụ thuộc của %C và %Mn với %CE.
Bài 6: Hàm lượng carbon trong thép SD390 của 2 hãng thép được trình bày trong bảng sau:
VNSTEEL
POMINA
0.26
0.29
0.21
0.17
0.24
0.18
0.15
0.22
0.25
0.24
Hàm lượng carbon có khác nhau theo công ty không? Giả sử sử dụng mức ý nghĩa 5%.
Bài m
- Dạng bài: phân tích phương sai 1 yếu tố
- sở thuyết:
1 2
1 2
Gọi
1
phương sai của hàm lượng carbon trong thép SD390 của thép POMINA.
2
phương sai của hàm lượng carbon trong chai nhựa SD390 của thép VNSTEEL
Giả thiết kiểm định H
o
:
2
=
2
Giả thiết đối H
1
:
2
2
1. Dùng Excel:
a. Nhập dữ liệu vào bảng tính
b. Nhấp lần lượt đơn lệnh Tools lệnh Data Analysis.
c. Chọn Anova: Singel Factor
d. Chọn các mục như hình:
e. Kết quả:
F=0.1283< F
k-1;n-k;1-a
= 5,987378 nên chưa bác bỏ được H
o
Vậy hàm lượng carbon của hai hang thép như nhau.
2. Giải trực tiếp bằng công thức:
- Ta s
2
= 0.03436 ; n1=n2=5
s
1
=0,04386
- Miền bác bỏ W=(f
0,05/2
(4;4),+)=(6.39, +)
- Tiêu chuẩn kiểm định:
1 2
F
qs
= s
2
/s
2
= 0.04386
2
/ 0.03436
2
= 1.6294
Do F
qs
không thuộc W nên chưa bác bỏ được H
o
Vậy hàm lượng carbon của thép SD390 của hai hãng bằng nhau
| 1/41

Preview text:

TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM
KHOA KỸ THUẬT XÂY DỰNG
BÁO CÁO BÀI TẬP LỚN
XÁC SUẤT THỐNG
ĐỀ TÀI 01
GVHD: NGUYỄN KIỀU DUNG NHÓM: 1 STT HỌ VÀ TÊN MSSV NHÓM- NGÀNH HỌC KÝ TỔ TÊN 1 Huỳnh Minh Hưng 1611422 L12 Kỹ thuật xây dựng 2
Nguyễn Hoàng Tùng Khương 1611624 L12 Kỹ thuật xây dựng 3 Nguyễn Hoàng Thu Ngân 1612166 L12 Kỹ thuật xây dựng 4 Phan Vinh Nhân 1612366 L12 Kỹ thuật xây dựng 5 Lê Minh Trung 1613788 L12 Kỹ thuật xây dựng 6 Thái Ngọc Việt 1614102 L12 Kỹ thuật xây dựng 7
Nguyễn Đạt Duy (NT) 1610466 L13 Kỹ thuật xây dựng 8 Nguyễn Thái Khánh Hưng 1611437 L13 Kỹ thuật xây dựng
Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1) Thực hiện phương pháp phân tổ dữ liệu (A).
2) Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu đồ
mật độ với dữ liệu (A).
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát
với độ tin cậy 91% với dữ liệu (A).
4) Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
đó hay không ( lưu ý phải sử dụng các hàm thống kê trong excel).
Dữ liệu định lượng A:
Khảo sát 20 đoạn đường betong chiềều dài 1200 m, rộng 3 m, dày 10cm, để biềết được s ố ế bao
xi măng cầền dùng để thi cống các đoạn đường ầ ếy 2450 2578 2752 2456 2766 2759 2812 2891 2672 2678 2563 2684 2558 2795 2739 2794 2678 2565 2657 2864
Dữ liệu định tính B: Khảo sát hãng xi măng ưa dùng của 1000 hộ dần TT Tên hãng 1 Xi măng Thăng Long 137 2 Xi măng Hạ Long 119 3 Xi măng Holcim 269
Xi măng Hà Tiên Đa dụng / xây 4 tô 253 5 Xi măng Fico 76 6 Xi măng Nghi Sơn 146
1.1 Phân tổ dữ liệu A:
Nhập dữ liệu A vào excel
-Xác định số tổ cần chia
- Nhập vào ô A7 biểu thức: =(2*COUNT(A2:E5))^(1/3) ta được kết quả như hình:
- Kềết quả 3.419952 .Suy ra chọn k=3
- Xác định trị số khoảng cách h theo công thức h =
-Nhập vào ố B7 cống thức =(MAX(A2:E5)-MIN(A2:E5))/3 ta được kềết quả như hình: Suy ra h=147
-Vì k=3 nền có 3 tổ, ta cầền xác định cận trền và cận dưới của 3 tổ: Tổ 1: 2450-2597 Tổ 2: 2597-2744 Tổ 3: 2744-2891
-Nhập vào ố G2 đềến G4 các giá trị như hình:
Chọn chức năng Data/Data Analysis/Histogram.
- Input Range: Địa chỉ tuyệt đối chứa dữ liệu
- Bin Range: Địa chỉ chứa bảng phân nhóm.
- Output options: Vị trí xuất kết quả.
- Confidence Level for Mean: độ tin cậy cho trung bình.
- Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel chỉ tính tần số Kềết quả:
1.2 Vẽ biểu đồ histogram ( biểu đồ phân bố tần số), biểu đồ tích lũy tần số, biểu
đồ mật độ với dữ liệu (A) Vẽẽ biểu đồồ Phân Bồố Tâồn Sồố - Quét bảng tần số - Insert Column Chart - Kết quả:
Vẽ biểu đồ tích lũy tần số:
-Quét bảng tích lũy tần số
-Chọn Insert > Column > 2-D Column Kết quả:
Vẽ biểu đồ mật độ dữ liệu
1.3 Tính các đặc trưng mẫu ước lượng giá trị trung bình của dấu hiệu quan
sát với độ tin cậy 91% với dữ liệu (A).
+Tính các đặc trưng mẫu
* Nhập dữ liệu vào bảng tính * Chọn
chức năng Data/Data Analysis/Descriptive Statistics - Input
Range: Địa chỉ tuyệt đối chứa dữ liệu
- Output options: Vị trí xuất kết quả
- Confidence Level for Mean: Độ tin cậy cho trung bình. Kết quả
Nhìn vào bảng kềết quả ta biềết được các đặc trưng mầẫu với: -Mean: trung bình mầẫu
-Standard Deviation: độ lệch mâẫu
-Sample Variance: phương sai mâẫu
+Ước lượng giá trị trung bình
Để ước lượng ta cân tính và Trong đó
Lúc nảy ta đã tính được Đềề cho ta: độ tin cậy =91% suy ra n=20 suy ra 1.392
với được tính trong excel như sau
Với băềng với giá trị của t Critical one-tail nền suy ra s=130.296 Suy ra
Khoảng ước lượng giá trị trung ( - ; + )
Suy ra khoảng ước lượng là (2644.99;2726.11)
1.4 Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
* Nhập dữ liệu vào bảng tính
*Tính tỷ lệ bao xi măng của các hãng xi măng Nhập vào: D37=C37/SUM(C37:C42) D38=C38/SUM(C37:C42) D39=C39/SUM(C37:C42) D40=C40/SUM(C37:C42) D41=C41/SUM(C37:C42) D42=C42/SUM(C37:C42) Kết quả:
* Vẽ biểu đồ đứng thể hiện số lượng bao xi măng của từng hang xi măng
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Column Chart/2-D Column trên menu Insert * Kết quả:
*Vẽ biểu đồ tròn thể hiện tỷ lệ bao xi măng của các hang
- Quét chọn cột số bao xi măng (C37:C42)
- Dùng chức năng Insert/Insert Pie/2-D trên menu Insert. * Kết quả:
1.5) Hãy kiểm định xem dữ liệu (A) hoặc (B) phù hợp với 1 phân bố xác
suất nào đó hay không.
*Kiểm định A: Với mức ý nghĩa 1%, thể coi mẫu A phù hợp với phân phối chuẩn hay không?
Giả thuyết kiểm định H0: Mẫu phù hợp với phân phối chuẩn
Giả thuyết đối H1: Mẫu không phù hợp với phân phối chuẩn -
Tính các đặc trưng mẫu: n =20 = 2685.55 = 125.573 +
là ước lượng hợp lý cực đại cho a => a =2685.55
+ là ước lượng hợp lý cực đại cho => σ = 125.573
Với k = 3, r =2,suy ra k-r-1=0, nên ta không thể tính
Suy ra không tìm được miền bác bó . Do đó ta không kết luận được dữ liệu A tuân
theo phân phối chuẩn
*Kiểm định A: mẫu A phù hợp với phân phối poisson hay không?
Nhìn vào bảng phân phối sác xuất trên, ta đủ cở kết luận dữ liệu A không phải phân phối poisson
Bài 2: Theo dõi doanh số bán hàng ( triệu đồng/ ngày) của một cửa hàng trong 12 ngày của
tháng 4 và 12 ngày của tháng 10, người ta thu được kết quả sau: Ngày trong tháng 1 3 5 6 8 10 13 17 20 24 27 30 Tháng 4 7.6 10.2 9.3 4.4 3.2 5.6 6.3 7.4 8.4 3.9 7.2 6.5 Tháng 10 6.3 8.8 9 5.1 4.2 4.1 5.8 6.3 6.7 5.6 6.7 6.7
Với mức ý nghĩa 3%, có thể cho rằng doanh số bán trung bình hàng ngày trong tháng 10 có giảm
sút so với tháng 4 hay không? Tìm thêm giá trị P trong kiểm định. Bài làm:
* Dạng bài: So sánh 2 trung bình với từng cặp dữ liệu. a
- Đặt 1 : Doanh số bán hàng tháng 4.
a2 : Doanh số bán hàng tháng 10.
* Công cụ: t-test Paired Two Sample for Means
- Được dùng khi mẫu bé (N < 30), phụ thuộc, phương sai hai mẫu không bằng nhau và mỗi phần
tử khảo sát có 2 chỉ tiêu X (trước), Y (sau) khi thay đổi điều kiện thí nghiệm.
- Tiêu chuẩn kiểm định: t = , ,
- Biện luận: Nếu > thì bác bỏ , chấp nhận và ngược lại.
* Thực hiện bài toán trên Excel: - Nhập số liệu:
- Vào Data/Data Analysis/ t-test: Paired Two Sample for Means/ OK:
- Lần lượt ấn định các thông số:
+ Phạm vi dữ liệu 1 (Variable 1 Range),
+ Phạm vi dữ liệu 2 (Variable 2 Range), + Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range). * Kết quả: - Biện luận:
+ : : Doanh số bán hàng trong 2 tháng bằng nhau.
+ : : Doang số bán hàng trong tháng 10 giảm sút so với tháng 4.
= 2.0961 => Chấp nhận giả thuyết . P = 0.1204
Vậy doanh số bán hàng trong 2 tháng bằng nhau.
Gía trị P cần tìm: P = 0.1204
Bài 3: Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành: Các quận nội thành Ngày khảo sát Quận 1 Quận 2 Quận 3 Quận 4 Quận 5 Thứ hai 254 236 267 223 245 Thứ ba 245 212 256 213 234 Thứ tư 236 223 245 230 232 Thứ năm 235 197 243 213 224 Thứ sáu 250 210 232 215 233 Thứ bảy 247 196 223 207 242
Lượng báo thực sự bán ra ở 5 quận có khác nhau không? Lượng báo bán ra có chịu yếu tố tác
động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5 %. Bài làm:
* Dạng bài: Phân tích phương sai hai yếu tố (không lặp).
- Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát (i = 1,2,.
…,r: yếu tố A; j = 1,2.….,c: yếu tố B). - Gỉa thuyết: + . + . - Gía trị thống kê: , - Biện luận: + Nếu + Nếu Và ngược lại.
* Công cụ: “Anova: Two Factor without Replication”:
* Thực hiện bài toán trên Excel: - Nhập số liệu:
- Vào Date/Date Analysis/Anova: Two-Factor Without Replication/OK:
- Lần lượt ấn định các thông số:
+ Phạm vi đầu vào (Input Range), + Nhãn dữ liệu (Labels),
+ Ngưỡng tin cậy (Alpha),
+ Phạm vi đầu ra (Output Range). * Kết quả: - Biện luận: + +
Vậy: - Lượng báo bán ra 5 quận khác nhau.
- Lượng báo bán ra chịu tác động các ngày trong tuần.
Bài 4: Ba loại vật liệu được thử sức bền dưới ảnh hưởng của việc thay đổi nhiệt độ vô
cùng lớn, chúng ta có số liệu: Kết cục Vật liệu 1 Vật liệu 2 Vật liệu 3 Vỡ vụn 25 45 41 Bị phá hủy một phần 40 35 33 Còn toàn vẹn 35 20 26
Hãy kiểm định xem có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi
nhiệt độ không? Sử dụng mức ý nghĩa 2%. Bài làm:
* Dạng bài: Kiểm định giả thuyết về tỉ lệ.
* Phương pháp giải: Áp dụng kiểm định chi bình phương
* Công cụ: Dùng hàm ‘’CHITEST’’. * Cơ sở lý thuyết:
- Đối với một thí nghiệm có hai kết quả (binomial experiment) – thí dụ, đối với một thuốc
được kê đơn: có hay không - bạn thường so sánh hai tỉ số với nhau (thực nghiệm với lí
thuyết hay thực nghiệm với thực nghiệm). Song đối với một thí nghiệm có nhiều kết quả
(multinomial experiment)-thí dụ, bác sĩ đánh giá tình trạng của các bệnh nhân được điều
trị bởi thuốc trong một khoảng thời gian - bạn cần so sánh nhiều tỉ số. Trắc nghiệm “khi”
bình phương () cho phép bạn so sánh không những hai mà còn nhiều tỉ số (hay tỉ lệ hoặc
xác suất) một cách tiện lợi. là phân phối về xác suất, không có tính đối xứng và chỉ có giá
trị 0. Giả sử bạn có một công trình nghiên cứu với N thử nghiệm độc lập, mỗi thử
nghiệm có k kết quả và mỗi kết quả mang một các xác suất thực nghiệm là (i = 1, 2, …k).
Nếu gọi là các giá trị lí thuyết tương ứng với thì các tần số lí thuyết sẽ là = N. Điều kiện
để áp dụng trắc nghiệm một cách thành công là các tần số lí thuyết phải 5. - Gỉa thuyết: + +
=> Có ít nhất 1 cặp và - Gía trị thống kê: ; + Với: - Biện luận:
+ Nếu: => Bác bỏ giả thuyết
Trong chương trình MS-EXCEL có hàm CHITEST có thể tính: =
Trong đó: + : Tần số thực nghiệm của ô thuộc hàng i và cột j;
+ : Tần số lý thuyết của ô thuộc hàng i và cột j;
+ r: số hàng và c: số cột.
+ Xác suất P(X > ) với bậc tự do DF= (r – 1)(c – 1); trong đó, r là số hàng và c là số cột
trong bảng ngẫu nhiên (Contingency Table).
+ Nếu P(X > ) > => Chấp nhận giả thuyết và ngược lại.
* Thực hiện bài toán trên Excel:
- Nhập số liệu và tính các thông số tổng hàng, tổng cột:
- Tính các tần số lý thuyết: TSLT = (tổng hàng * tổng cột)/(tổng cộng).
- Dùng hàm CHITEST để tính xác suất P(X > ):
- Kết quả và biện luận: + Gỉa thuyết:
H0: có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ.
H1: Không có mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ. + Kết quả:
P(X > ) = 0.0266 > = 0.02 => Bác bỏ giả thuyết H1 , chấp nhận giả thuyết H0.
Vậy: mối liên hệ phụ thuộc giữa loại vật liệu với tác động thay đổi nhiệt độ. Bài 5:
a) Tìm một dữ liệu ngẫu nhiên 2 chiều (X, Y) có kích thước n >10 để sử dụng mô
hình hồi quy tuyến tính đơn. Thực hiện các yêu cầu:
1) Tìm hệ số tương quan giữa X,Y.
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không? Hãy ước
lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3) Tìm sai số chuẩn của ước lượng.
b) Tìm một dữ liệu ngẫu nhiên k chiều (k >2) để sử dụng mô hình hồi quy tuyến tính
đa biến. Tìm các hệ số hồi quy tuyến tính mẫu và kết luận về sự thích hợp.
Bài làm • Cơ sở lý thuyết
1.Tìm hệ số tương quan giữa X và Y
2) Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không ?
Giả thiết H0: X và Y không có tương quan tuyến tính: r n - 2 T = 1- r2
3) Ước lượng đường hồi quy tuyến tính của Y theo X * Cơ sở lý thuyết:
Hồi quy đơn tuyến tính:
a) Bảng số liệu về mức độ ảnh hưởng của thời gian trộn đến cường độ chịu nén của
tông xi măng (với độ tin cậy 5%) : Thời gian trộn t 60 70 80 90 100 110 120 130 140 150 (s) Cường độ chịu 28.7 30.9 31.6 31.1 30.5 29.7 28.3 27.2 25.8 23.7 nén bề tống ở 7 ngày tuổi C7 (MPa)
1) Tìm hệ số tương quan giữa Xvà Y. Thực hiện trên excel:
Nhập số liệu vào bảng tính •
Chọn chức năng Data/Data Analysis/Correlation: • Kết quả:
Với kết quả thì ta có hệ số tương quan R = -0.80164
Chứng tỏ thời gian và mức cường đọ chịu lực nén có quan hệ khá chặt chẽ và đây là tương quan nghịch
2) Quan hệ giữa X,Y được coi như quan hệ tuyến tính hay không? Hãy ước lượng
đường hồi quy tuyến tính X Y. * Thực hiện trên Excel:
- Nhập dữ liệu: (dữ liệu nhất thiết phải nhập theo cột)
- Lần lượt thực hiện các bước:
+ Nhấn lệnh Tools và lệnh Data Analysis.
+ Chọn chương trình Regression trong hộp thoại Data Analysis rồi nhấp OK.
+ Trong hộp thoại Regression lần lượt ấn định các chi tiết:
- Phạm vi của biến số Y (Input Y Range)
- Phạm vị của biến số X (Input X Range) - Nhãn dữ liệu (Labels)
- Mức tin cậy (Confidence Level0
- Tọa độ đầu ra (Output Range)
- Đường hồi quy (Line Fit Plots)
- Biểu thức sai số (Residuals Plots). - Kết quả:
- Phương trình hồi quy: = 35,87 – 0,07X ( - Biện luận:
+ = 7,74E-08 < hay > => Bác bỏ
+ = 0,0053 < hay t > => Bác bỏ
+ = 0,0053 < hay F > => Bác bỏ
⇨ phương trình hồi quy này thích hợp.
Vậy quan hệ giữa X Y được coi tuyến tính.
- Đường hồi quy tuyến tính giữa X và Y:
3) Sai số chuẩn của ước lượng:
- Đối với biến tự do: SE = 1,9464
- Đối với biến X: SE= 0,0179
c) Mô hình hồi quy tuyến tính đa biến:
Bảng phân tích tính hàn của thép kết cấu: C (%) Mn (%) CE (%) 0.17 1.4 0.35 0.21 1.5 0.40 0.24 1.6 0.45 0.2 1.7 0.47 0.18 1.5 0.40 0.13 1.5 0.43 0.14 1.6 0.48 0.16 1.7 0.53 0.2 1.7 0.34 0.16 1.65 0.39
Hãy cho biết yếu tố %C và %Mn có mối quan hệ tuyến tính với %CE hay không? Nếu có hãy vẽ
đường biểu diễn sự quan hệ tuyến tính đó. Gỉa thuyết với độ tin cậy là 95%. Bài làm: - Nhập số liệu:
- Thực hiện các bước tương tự ở trên trong hộp thoại Regression: - Kết quả:
- Phương trình hồi quy: ) = 0,09 – 0,43+ 0,26 - Biện luận:
+ = 0.7817 > hay < => Chấp nhận giả thuyết
+ = 0,4886 > hay < => Chấp nhận giả thuyết
+ = 0,2085 > hay < => Chấp nhận giả thuyết
+ = 0,3846 > hay F < => Chấp nhận giả thuyết
⇨ Phương trình đồng quy tuyến tính trên không tồn tại.
Vậy yếu tố %C %Mn không quan hệ đồng quy tuyến tính với yếu tố %CE.
- Đồ thị biểu diễn sự không phụ thuộc của %C và %Mn với %CE.
Bài 6: Hàm lượng carbon trong thép SD390 của 2 hãng thép được trình bày trong bảng sau: VNSTEEL POMINA 0.26 0.29 0.21 0.17 0.24 0.18 0.15 0.22 0.25 0.24
Hàm lượng carbon có khác nhau theo công ty không? Giả sử sử dụng mức ý nghĩa 5%.
Bài làm
- Dạng bài: phân tích phương sai 1 yếu tố - Cơ sở lý thuyết:
Gọi 1 là phương sai của hàm lượng carbon có trong thép SD390 của thép POMINA.
2 là phương sai của hàm lượng carbon có trong chai nhựa SD390 của thép VNSTEEL
Giả thiết kiểm định Ho : 1 2 = 22
Giả thiết đối H1 : 1 2 2 2 1. Dùng Excel:
a. Nhập dữ liệu vào bảng tính
b. Nhấp lần lượt đơn lệnh Tools và lệnh Data Analysis.
c. Chọn Anova: Singel Factor
d. Chọn các mục như hình: e. Kết quả:
⇨ F=0.1283< Fk-1;n-k;1-a = 5,987378 nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của hai hang thép như nhau.
2. Giải trực tiếp bằng công thức:
- Ta có s2= 0.03436 ; n1=n2=5 s1=0,04386
- Miền bác bỏ W=(f0,05/2 (4;4),+)=(6.39, +)
- Tiêu chuẩn kiểm định: Fqs= 1 s 2 2
/s 2 = 0.043862 / 0.034362 = 1.6294
Do Fqs không thuộc W nên chưa bác bỏ được Ho
Vậy hàm lượng carbon của thép SD390 của hai hãng bằng nhau