20 trang 12 lượt tải

Bài tập lớn: Phân Tích Chi Tiêu và Phân Phối Dữ Liệu | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Bộ phận dịch vụ ăn uống của Công viên giải trí Cedar River đang thực hiện khảo sát về số tiền chi tiêu cho đồ ăn uống mỗi ngày của các gia đình khi đến công viên. Một mẫu khảo sát gồm 40 gia đình đã đến công viên ngày hôm qua với các những khoản chi lần lượt. Tài liệu được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem!

Môn: Thống kê trong kinh tế và kinh doanh 1.3 K tài liệu

Trường: Trường Đại học Kinh Tế Quốc Dân 8.7 K tài liệu

Tác giả:

Mai Nguyệt

1 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

Bài 14 Trang 32: Bộ phận dịch vụ ăn uống của Công viên giải trí Cedar River

đang thực hiện khảo sát về số tiền chi tiêu cho đồ ăn uống mỗi ngày của các gia

đình khi đến công viên. Một mẫu khảo sát gồm 40 gia đình đã đến công viên

ngày hôm qua với các những khoản chi lần lượt như sau: (Đơn vị tính: $)

a. Sắp xếp dữ liệu vào bảng tần số phân phối với số tổ là 7 và giới hạn dưới

của tố đầu tiên bằng 15, nên lựa chọn khoảng cách tổ bằng bao nhiêu?

b. Dữ liệu có xu hướng tập trung quanh giá trị nào?

c. Mô tả về phân phối của dãy số.

d. Xây dựng bảng tần suất phân phối.

Bài làm

a. Khoảng cách tổ là:

= = 9,43 = ≈ 10

𝑚𝑎𝑥−𝑚𝑖𝑛

𝑘

84−18

b. Trung vị của dữ liệu là 58

Trung bình của dữ liệu là 56,5

Mode của dữ liệu là 63

Vậy dữ liệu có xu hướng tập trung quanh khoảng 58 đến 63

c. Do dữ liệu có Mean < Median < Mode nên đây là dữ liệu phân phối lệch

trái nhẹ nhưng không mạnh

Khoản chi ở công viên

($)

Tần số

Tần suất (%)

15 đến 24

2,5

25 đến 34

35 đến 44

12,5

45 đến 54

55 đến 64

37,5

65 đến 74

75 đến 84

7,5

Bài 36 trang 45:

Bài làm

a. Biểu đồ tần số tích lũy (đường cong Ogive)

b. Số nhà tổng cộng = giá trị tích lũy lớn nhất (điểm cuối trục tung) = 250

ngôi nhà

c. Trục giá bán chia theo mốc 0, 50, 100, 150, 200,...,350 (nghìn $). Mỗi tổ

tương ứng một đoạn dài 50 (nghìn $) => Khoảng cách tổ = 50 nghìn $

d. Khoảng 240 nghìn $. (235 - 240 nghìn $).Từ số 75 ở trục Phần trăm

gióng sang trái cho đến khi cắt đường cong, từ đó gióng xuống vuông góc

với trục Giá bán. Điểm rơi nằm gần 250.

Xác định Tần số: 75% của tổng số 250 ngôi nhà là 187,5 nhà. Nội suy Tuyến

tính: Giá trị này nằm trong khoảng tổ [200;250] nghìn $, với tần số tích lũy từ

125 đến 212,5

Giá =

200 +

(187,5 − 125)

(212,5 − 125)

× 50 ≈ 235, 7

e. Dùng nội suy tuyến tính trong khoảng giá [200;250] (tần số tích lũy

[125;212.5]).

Giá =

200 +

(175 − 125)

(212,5 − 125)

× 50 ≈ 200 + 28, 6 ≈ 228, 6

=> 175 ngôi nhà được bán với giá nhỏ hơn khoảng 228,6 nghìn $

Bài 81 trang 91: Số liệu về chi phí của 25 sinh viên chưa tốt nghiệp đại học

trong năm ngoái

684

710

688

711

722

698

723

743

738

722

696

721

685

763

681

731

736

771

693

701

737

717

752

710

697

Đơn vị tính: $

a) Tính trung bình, trung vị, mốt của dữ liệu

- Trung bình (mean) = (25 số liệu) / 25 = 717,2 𝚺

- Trung vị (medium): sắp xếp các số liệu theo thứ tự từ bé đến lớn: 681,

684, 685, 688, 693, 696, 697, 698, 701, 710, 710, 711, 717, 721, 722,

722, 723, 731, 736, 737, 738, 743, 752, 763, 771

⇒ trung vị là giá trị thứ 13 = 717

- Mốt là 710 và 722 (nhị mốt) do xuất hiện 2 lần

b) Xác định khoảng biến thiên, độ lệch chuẩn

- Khoảng biến thiên = 771 - 681 = 90

- Độ lệch chuẩn của mẫu:

s = 24,875

c) Sử dụng quy tắc 3 Sigma để thiết lập 1 khoảng gồm 95% các quan sát

- Quy tắc 3 Sigma: khoảng 95% các quan sát sẽ nằm trong phạm vi (+) và

(-) 2 lần độ lệch chuẩn so với trung bình

⇒ khoảng 95% chi phí của sinh viên chưa tốt nghiệp đại học trong năm

ngoái nằm trong khoảng từ 667.45 đến 766.95 được tính bằng: 717,2 ± 2s

= 717,2 + (2 x 24,875)

Bài 14 trang 223: Một phân phối chuẩn có trung bình là 12,2 và độ lệch chuẩn

là 2,5

a) Tính giá trị z tương ứng với giá trị 14.3

- z là khoảng cách giữa 14,3 và trung bình, chia cho độ lệch chuẩn

z = (14,3 - 12,2) / 2,5 = 0,84

b) Tỷ lệ trong tổng thể có giá trị nằm trong khoảng từ 12,2 → 14,3 là bao

nhiêu?

- Tra bảng phân phối chuẩn hoá, với giá trị 14,3 ta có z = 0,84, xác suất giá

trị nằm trong khoảng từ đuôi trái đến 14,3 là 0,7995. Với giá trị 12,2

tương ứng với z = 0, xác suất giá trị nằm trong khoảng từ đuôi trái đến

12,2 là 50% (vì 12,2 là trung bình)

- Vậy tỷ lệ trong tổng thể có giá trị nằm trong khoảng từ 12,2 → 14,3 là:

0,7995 - 0,5 = 0,2995, tương đương với xấp xỉ 30%

c) Tỷ lệ trong tổng thể có giá trị nhỏ hơn 10.0 là bao nhiêu?

- Giá trị z tương ứng với 10.0 là: z = (10 - 12,2) / 2,5 = -0,88.

⇒ Ta cần tính xác suất P(z < -0,88), nhưng vì bảng xác suất phân phối

chuẩn hoá z chỉ cho giá trị từ 0 → z, ta quy đổi: P(z < -0,88) = 1 - P(z <

0,88) = 1 - 0,8106 = 0,1894

- Vậy tỷ lệ trong tổng thể có giá trị nhỏ hơn 10.0 là 18,94%

Bài 38 trang 275

Số tiền trung bình mà một khách hàng chi tại cửa hàng tạp hóa của Churchill là

$23.50, với độ lệch chuẩn là $5. Giả sử số tiền này tuân theo quy luật phân phối

chuẩn. Với cỡ mẫu gồm 50 khách hàng, hãy trả lời các câu hỏi sau:

a, Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00.

b, Xác suất để trung bình mẫu lớn hơn $22.50 và nhỏ hơn $25.00.

c, 90% mẫu rút ra từ tổng thể có giá trị trung bình nằm trong khoảng nào?

Bài làm

a. Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00

Tìm P( 25.00)

𝑋 ≥

Tính Z-scrore bằng cách lấy giá trị trừ đi trung bình và chia độ lệch chuẩn (sai

số chuẩn)

Z =

25.00 − 23.00

0.7071

1.50

0.7071

≈ 2. 12

Tính xác suất P(Z 2.12) thì cần tìm diện tích bên phải của Z = 2.12 trên ≥

đường cong phân phối chuẩn

Tra bảng Z, P(Z 2.12) 0.983 ≤ ≈

=> P(Z 2.12) = 1 - P(Z 2.12) = 1 - 0.983 = 0.017

≥ ≤

=> Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00 là 1.70%

- Giải thích: vì nhỏ hơn rất nhiều so với ban đầu (0.71 so với 5), nên σ𝑋 σ

trung bình của 50 khách hàng sẽ biến động rất ít và luôn có xu hướng gần

$23.50.Xác suất để trung bình chi tiêu của 50 khách hàng đạt $25.00 trở

lên là 1.70%. Đây là một xác suất rất thấp, cho thấy việc trung bình mẫu

sai lệch quá $1.50 so với trung bình tổng thể là điều hiếm gặp.

b. Xác suất để trung bình mẫu lớn hơn $22.00 và nhỏ hơn $25.00

Tìm P(22.50 < < 25.00) 𝑋

Chuẩn hoá về Z-score 𝑋

Giới hạn trên 2.12 (cho = 25.00)

𝑍

𝑢𝑝𝑝𝑒𝑟

≈ 𝑋

Giới hạn dưới = 𝑍

𝑙𝑜𝑤𝑒𝑟

22.50 − 23.50

0.7071

−1

0.7071

≈ − 1. 41

Tìm P(-1.41 < Z < 2.12) = P(Z<2.12) - P(Z< -1.41)

P(Z < 2.12) 0.9830 ≈

Tra bảng Z, P(Z < -1.41) 0.0793

≈

P = 0.9830 - 0.0793 = 0.9037

=> Xác suất để trung bình mẫu nằm trong khoảng $22.00 đến $25.00 là 90.37%

- Giải thích: Khoảng này bao phủ trung bình $23.50 và kéo dài cả hai phía.

Vì phân phối hẹp lại quanh $23.50, nên một phần rất lớn (hơn 90%) của

các trung bình nhóm có khả năng nằm gọn trong khu vực này.

c. 90% mẫu rút ra từ tổng thể có giá trị trung bình nằm trong khoảng nào.

Tìm Z-score cho 90% ở giữa

- Nếu 90% nằm ở giữa, thì 10% còn lại (100%−90%) được chia đều cho

hai đuôi

- Mỗi đuôi (trái và phải) sẽ có diện tích là 10%/2=5%

- Tìm giá trị Z sao cho P(Z<Z upper )=0.95 (90% ở giữa + 5% đuôi trái)

tra bảng Z, giá trị Z tương ứng với 0.95 (hoặc 0.05 ở đuôi) là Z = ±1.645

Chuyển Z-score về giá trị : 𝑋

𝑋 = µ ± (𝑍 × σ )

𝑋 𝑋

Biên độ dao động: ME = 1.645 × 0.7071 ≈ 1.1632

Giới hạn dưới: = 23.50 − 1.1632 = 22.3368

𝑍

𝑙𝑜𝑤𝑒𝑟

Giới hạn trên: = 23.50 + 1.1632 = 24.6632 𝑍

𝑢𝑝𝑝𝑒𝑟

=> 90% các mẫu rút ra từ tổng thể sẽ có giá trị trung bình nằm trong khoảng

($22.34, $24.66)

- Giải thích: Khoảng này cho biết nếu bạn ngẫu nhiên 100 mẫu gồm 50

khách hàng, thì 90 trong số 100 giá trị trung bình đó sẽ nằm trong khoảng

từ $22.34 đến $24.66.

Bài 39 trang 275

Điểm trung bình cho bài kiểm tra thể lực dành cho vận động viên khối I là 947

với độ lệch chuẩn là 205. Chọn một mẫu ngẫu nhiên gồm 60 vận động viên.

Tính xác suất để giá trị trung bình của mẫu nhỏ hơn 900?

Dữ liệu:

Giả thiết: µ = 947, σ = 205, n = 60

Ta dùng phân phối chuẩn cho trung bình mẫu vì n lớn (n=60).

Tính toán:

Sai số chuẩn: SE = σ / √n = 205 / √60 = 26.4654

Thống kê z = (x

 - µ) / SE = (900 - 947) / 26.4654 = -1.7759

Xác suất P(x

 < 900) = Φ(z) = Φ(-1.7759) = 0.037874

Kết luận: Xác suất để giá trị trung bình mẫu nhỏ hơn 900 là 3.7874%.

Bài 42. Trang 307

1. Tính snn s

Ta có:

- s=5s=5

- n=15n=15

Thay vì viết 1515 , ta tính ra số:

- 15≈3.87315 ≈3.873

→ sn=53.873n s =3.8735

Thực hiện phép chia:

53.873≈1.2913.8735 ≈1.291

2. Tính phạm vi sai số

E=t×snE=t×n s

Với t=2.624t=2.624 và sn=1.291n s =1.291:

E=2.624×1.291E=2.624×1.291

Thực hiện nhân:

E≈3.39E≈3.39

3. Tính khoảng tin cậy 98%

xˉ±E=24±3.39xˉ±E=24±3.39

Hai phép tính bình thường:

- 24−3.39=20.6124−3.39=20.61

- 24+3.39=27.3924+3.39=27.39

Vậy:

CI=(20.61, 27.39)CI=(20.61,27.39)

Bài 47. Trang 308

HighTech Inc kiểm tra nhân viên về các chính sách của công ty. Một cuộc khảo

sát ngẫu nhiên 400 nhân viên vào năm ngoái cho thấy có 14 nhân viên bị trượt

trong kỳ kiểm tra.

a. Xác định ước lượng điểm về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra.

b. Xác định phạm vi sai số khi ước lượng khoảng tin cậy 99% về tỷ lệ nhân viên

bị trượt.

c. Xác định khoảng tin cậy 99% về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra.

d. Có cơ sở để kết luận rằng 5% số nhân viên bị trượt trong kỳ kiểm tra không?

Vì sao?

Bài làm

a. Ước lượng điểm về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra:

x100 = 3,5%

400

b. Với khoảng tin cậy 99%: = 2,576 ≈ 2,58𝑍

0,005

Tính độ lệch chuẩn:

= = =

0,035(1−0,035)

400

0,035 𝑥 0,965

400

0,033775

400

≈ 0.00919 0, 0000844375

Phạm vi sai số: 2,58 x 0.00919 ≈ 0,0237

→ Phạm vi sai số ≈ 2,37%

● Cận dưới: 0.035−0.0237 = 0.01130.035 - 0.0237 = 0.01130.035−0.0237 =

0.0113

● Cận trên: 0.035+0.0237 = 0.05870.035 + 0.0237 = 0.05870.035+0.0237 =

0.0587

→ Khoảng tin cậy 99%: (0.0113, 0.0587) hay: 1.13% đến 5.87%

d. So sánh 5% (0.05) với khoảng tin cậy 99%:

0.0113≤0.05≤0.05870.0113

Giá trị 0.05 nằm trong khoảng tin cậy 99%.

→ Tỷ lệ trượt 5% là có cơ sở để kết luận.

Bài 42 trang 307

Dữ liệu

- (n = 15)

- (\bar{x} = 24)

- (s = 5)

- Mức tin cậy: 98% → (\alpha = 0.02) → tra bảng (t_{0.99, , df=14}

\approx 2.624)

a. Phạm vi sai số (margin of error)

[E = t \cdot \frac{s}{\sqrt{n}}]

Tính:

[\frac{s}{\sqrt{n}} = \frac{5}{\sqrt{15}} \approx \frac{5}{3.873} \approx

1.291]

[E = 2.624 \times 1.291 \approx 3.39]

Phạm vi sai số ≈ 3.39 lần rao bán

b. Khoảng tin cậy 98% cho số lần rao bán trung bình

[\bar{x} \pm E = 24 \pm 3.39]

→ CI = (20.61 , 27.39)

Kết quả

a. Phạm vi sai số: ≈ 3.39

b. Khoảng tin cậy 98%: (20.61 ; 27.39)

Bài 29 trang 343:

(Kiểm định trung bình mẫu nhỏ hơn 7):

- Giả thuyết: H0:μ=7H0 :μ=7 (trung bình dân số là 7 giờ) và

Ha:μ<7Ha :μ<7.

- Dữ liệu: xˉ=6.8, s=0.9, n=50, α=0.05.xˉ=6.8,s=0.9,n=50,α=0.05.

- Thống kê kiểm định (dùng tt hoặc xấp xỉ zz vì n=50n=50 lớn):

t=xˉ−μ0s/n=6.8−70.9/50=−0.20.9/7.0711≈−1.572.t=s/n xˉ−μ0 =0.9/50 6.8−

7 =0.9/7.0711−0.2 ≈−1.572.

- Giá trị tới hạn (một phía, α=0.05α=0.05): với phân phối chuẩn

z0.05=−1.645z0.05 =−1.645. (Với t49t49 giá trị tới hạn khoảng

−1.676−1.676.)

- So sánh: t≈−1.572>−1.645t≈−1.572>−1.645 (không rơi vào vùng bác bỏ).

p-value =P(Z<−1.572)≈0.058=P(Z<−1.572)≈0.058.

Kết luận: vì p≈0.058>0.05p≈0.058>0.05 (hoặc t>−1.645t>−1.645), không đủ

bằng chứng ở mức ý nghĩa 5% để kết luận rằng sinh viên ở West Virginia ngủ ít

hơn mức trung bình 7 giờ của người Mỹ. (Kết quả khá gần ngưỡng: p ≈ 0.058.)

Bài 19 trang 336

Bài toán: Một viện nghiên cứu cho biết thiếu niên trung bình gửi 67 tin

nhắn/ngày. Lấy mẫu 12 thanh niên, số tin nhắn thu được:

51, 175, 47, 49, 44, 54, 145, 203, 21, 59, 42, 100

Mức ý nghĩa α = 0.05. Kiểm tra H0: µ = 67 vs H1: µ > 67 (một phía).

Tính toán:

n = 12, x

 = 82.5000, s (mẫu) = 59.4926

SE = s / √n = 59.4926 / √12 = 17.1740

Thống kê t = (x

 - 67) / SE = (82.5000 - 67) / 17.1740 = 0.9025

df = n - 1 = 11

p-value (một phía, H1: µ > 67) = 1 - F_t(t; df) = 0.193057

Bởi vì p-value ≥ 0.05, không đủ bằng chứng để bác bỏ H0 ở mức ý nghĩa 0.05.

Kết luận: không có đủ bằng chứng cho thấy số lượng tin nhắn trung bình lớn

hơn 67.

Bài 29 trang 343:

(Kiểm định trung bình mẫu nhỏ hơn 7):

- Giả thuyết: H0:μ=7H0 :μ=7 (trung bình dân số là 7 giờ) và

Ha:μ<7Ha :μ<7.

- Dữ liệu: xˉ=6.8, s=0.9, n=50, α=0.05.xˉ=6.8,s=0.9,n=50,α=0.05.

- Thống kê kiểm định (dùng tt hoặc xấp xỉ zz vì n=50n=50 lớn):

t=xˉ−μ0s/n=6.8−70.9/50=−0.20.9/7.0711≈−1.572.t=s/n xˉ−μ0 =0.9/50 6.8−

7 =0.9/7.0711−0.2 ≈−1.572.

- Giá trị tới hạn (một phía, α=0.05α=0.05): với phân phối chuẩn

z0.05=−1.645z0.05 =−1.645. (Với t49t49 giá trị tới hạn khoảng

−1.676−1.676.)

- So sánh: t≈−1.572>−1.645t≈−1.572>−1.645 (không rơi vào vùng bác bỏ).

p-value =P(Z<−1.572)≈0.058=P(Z<−1.572)≈0.058.

Kết luận: vì p≈0.058>0.05p≈0.058>0.05 (hoặc t>−1.645t>−1.645), không đủ

bằng chứng ở mức ý nghĩa 5% để kết luận rằng sinh viên ở West Virginia ngủ ít

hơn mức trung bình 7 giờ của người Mỹ. (Kết quả khá gần ngưỡng: p ≈ 0.058.)

Bài 11 trang 396:

Hiệp hội hành khách Hàng không đã nghiên cứu mối liên hệ giữa số lượng hành

khách trên 1 chuyến bay và chi phí nhiên liệu cho chuyến bay đó. Có thể khi có

nhiều hành khách trên chuyến bay thì trọng lượng của hành khách và hành lý có

nhiều hơn, do đó chi phí nhiên liệu cao hơn. Với 1 mẫu gồm 15 chuyến bay, hệ

số tương quan giữa số lượng hành khách và tổng chi phí nhiên liệu là 0,667. Với

mức ý nghĩa 0,01, có mối liên hệ tương quan thuận trong tổng thể không?

- Sử dụng kiểm định t cho hệ số tương quan, bậc tự do df = n -2 = 13

- Kiểm định tương quan thuận là kiểm định 1 phía (one-tailed test), ta kiểm

tra giá trị tới hạn của t ở bảng Phân phối Student, với mức ý nghĩa 0,01 và

bậc tự do là 13, t0.01,13 = 2,650 bác bỏ H0 t-statistic > 2,650 ⇒

- Với mẫu gồm 15 chuyến bay, số lượng hành khách và tổng chi phí nhiên

liệu có hệ số tương quan là 0,667

t = 0,667 x √13/(1 - 0,667^2) = 3,228 > t-critical

- Vậy ta có thể kết luận là có mối liên hệ tương quan thuận giữa số lượng

hành khách và tổng chi phí nhiên liệu với mức ý nghĩa 1%.

Bài 30 Trang 484: Giám đốc các sự kiện đặc biệt của Sun City tin rằng số tiền

chi cho các màn bắn pháo hoa vào ngày 4 tháng 7 có thế dự đoán cho việc tham

dự Lễ hội mùa thu được tổ chức vào tháng 10. Cô thu thập dữ liệu sau đây để

kiểm tra sự nghi ngờ của mình.

Chi cho bắn pháo

hoa (nghìn $)

Số người dự lễ

hội (nghìn người)

Chi cho bắn pháo

hoa (nghìn $)

Số người dự lễ hội

(nghìn người)

10.6

8.8

9.0

9.5

8.5

6.4

10.0

9.8

12.5

10.8

7.5

6.6

9.0

10.2

10.0

10.1

5.5

6.0

6.1

12.0

11.1

12.0

11.3

8.0

7.5

10.5

8.8

7.5

8.4

a. Xây dựng và giải thích phương trình hồi quy dự đoán "số người dự lễ

hội" với "số tiền chi cho bắn pháo hoa". Tính hệ số xác định. Giải thích

hệ số hồi quy.

b. Đánh giá các giả thiết hồi quy dựa trên phân tích các phần dư.

Bài làm

a. Pháo hoa (x); Số người dự lễ hội (y)

Dữ liệu 15 quan sát

n=15

∑X = 138.6, = 9.24 𝑋

∑Y=131.4, =8.76 𝑌

∑XY=1262.28

∑ =1343.86

𝑋

b = = ≈ 0.7616

𝑛∑𝑋𝑌−(∑𝑋)(∑𝑌)

𝑛∑𝑋

− (∑𝑋)

15(1262.28)−138.6(131.4)

15(1343.86) − 138,6

a = − b = 8.76−0.7616(9.24) ≈ 1.7228

𝑌 𝑋

→ Phương trình hồi quy: = 1.7228 + 0.7616X 𝑌

Giải thích:

- Khi chi cho pháo hoa tăng 1 nghìn đô, số người dự lễ hội tăng khoảng

0.7618 nghìn người (tức ~762 người).

- Hằng số 1.7208 là mức dự đoán khi chi tiêu = 0 (không có ý nghĩa thực tế

nhiều).

Tính tổng bình phương phần dư ≈ 11.5589

Tổng biến thiên ≈ 48.236

Hệ số xác định: = 1- = 0.760

𝑅

11.5589

48.236

Giải thích: 76% sự thay đổi trong số người dự lễ hội có thể phụ thuộc vào số

tiền chi cho pháo hoa

b. Đánh giá các giả thiết hồi quy dựa trên phân tích phần dư

Kiểm tra phần dư cho các giả thiết:

- Phân phối chuẩn: Kiểm định cho thấy không bác bỏ giả thiết phần dư

phân phối chuẩn. Biểu đồ phần dư không có độ lệch lớn.

- Phương sai đồng nhất: Phần dư phân bố tương đối đều xung quanh trục,

không xuất hiện dạng hình phễu → phương sai được xem là đồng nhất.

Bài 36, 37 trang 520: Betts Electronics mua 3 bộ phận thay thế cho các máy

robot được sử dụng trong quá trình sản xuất. Thông tin về giá của các bộ phận

thay thế và số lượng mua như sau:

Giá bán ($)

Lượng mua

Bộ phận

2010

2018

2010

2018

RC-33

0.50

0.60

320

340

SM-14

1.20

0.90

110

130

WC50

0.85

1.00

230

250

Tính chỉ số giá Fisher dựa vào 2 chỉ số Laspeyres và chỉ số Paasche tính được từ

các trường hợp trên. (năm 2018 so với năm 2010 làm gốc)

- Chỉ số giá gia quyền Laspeyres giai đoạn 2010-2018: P = (∑p1q0 /

∑p0 q0 ) *100 = [(0,60*320 + 0,90*110 + 1.00*230) / (0,50*320 +

1,20*110 + 0,85*230)] *100 = 106,872$

- Chỉ số giá Paasche: PPI = (∑p1q1 / ∑p0 q01) *100 = [(0,60*340 +

0,90*130 + 1.00*250) / (0,50*340 + 1,20*130 + 0,85*250)] *100 =

106,035$

- Chỉ số giá Fisher: FPI = √106,872 * 106,035 = 106,453$

Bài 38 trang 520

1. Tính tổng giá trị năm 2010

Bộ phận

Giá 2010

Lượng 2010

Giá trị 2010 =

giá × lượng

RC-33

0.50

320

0.50 × 320 =

160.00

SM-14

1.20

110

1.20 × 110 =

132.00

WC50

0.85

230

0.85 × 230 =

195.50

Tổng giá trị 2010

160.00+132.00+195.50=487.50160.00+132.00+195.50=487.50

2. Tính tổng giá trị năm 2018

Bộ phận

Giá 2018

Lượng 2018

Giá trị 2018 =

giá × lượng

RC-33

0.60

340

0.60 × 340 =

204.00

SM-14

0.90

130

0.90 × 130 =

117.00

WC50

1.00

250

1.00 × 250 =

250.00

Tổng giá trị 2018

204.00+117.00+250.00=571.00204.00+117.00+250.00=571.00

3. Chỉ số giá trị năm 2018 so với 2010

Chỉ số giá trị = 571.00487.50×100

Chỉ số giá trị =487.50571.00 ×100=1.1713×100=117.13%

Kết luận

Chỉ số giá trị năm 2018 lấy 2010 làm gốc = 117.13%

→ Tổng giá trị các bộ phận mua năm 2018 so với năm 2010. tăng 17.13%

Bài 22 trang 563:

a) Vẽ đồ thị với dữ liệu trên

- Mô hình xu thế tuyến tính: đã fit Yt=a+btYt =a+bt.

- Chỉ số mùa (additive) theo tháng (giá trị trung bình của phần dư so với xu

thế) - bảng Seasonal indices by month (additive) trong bảng kết quả

MAD của mô hình (Mean Absolute Deviation) = 1054.22 (triệu $).

- Dự báo doanh số (triệu $) cho 4 tháng đầu 2019 (theo thứ tự tháng 1 →

4): kết quả hiện có trong bảng Forecasts Jan-Apr 2019 hiển thị trong

khung.

Đồ thị gồm:

- đường thực tế (Actual) của doanh số tháng (thg 1/2017 → thg 12/2018),

- đường xu thế tuyến tính (trend) ( \hat{T}_t = a + b t),

- đường giá trị phù hợp của mô hình cộng (fitted = trend + seasonal),

- các điểm dự báo cho 4 tháng đầu 2019.

b) Mô tả các thành phần của chuỗi thời gian

Chuỗi được phân tích theo mô hình cộng (additive) với ba thành phần:

Xu thế (Trend): tăng đều theo thời gian. Mình đã ước lượng xu thế bằng hồi quy

tuyến tính ( \hat{T}_t = a + b t) với hệ số:

- (a = 35190.8732)

- (b = 418.80348) (tăng ~418.8 triệu $ mỗi tháng)

(ở đây (t=1) là 2017-01, (t=24) là 2018-12).

Mùa vụ (Seasonal): lặp lại theo tháng trong năm (chu kỳ 12 tháng). Có tháng có

ảnh hưởng dương (ví dụ tháng 5, 6, 8, 10), có tháng ảnh hưởng âm (ví dụ tháng

2, 12, 11).

Ngẫu nhiên (Irregular / Residual): phần sai số còn lại sau khi trừ xu thế và mùa.

c) Tại sao mô hình xu thế có điều chỉnh mùa vụ (additive trend+seasonal) là phù

hợp?

- Dữ liệu cho thấy xu hướng tăng theo thời gian (đỉnh vào nửa sau 2018),

đồng thời có mô hình lặp lại theo tháng(mùa vụ) qua hai năm 2017 -

2018.

- Biên độ dao động theo mùa (khoảng vài nghìn triệu $) không tăng tỉ lệ

với mức trung bình (không thấy rõ tỉ lệ phần trăm mùa tăng theo mức),

nên mô hình cộng (additive) hợp lý hơn mô hình nhân (multiplicative).

- Do đó, mô hình dạng: (Y_t = T_t + S_{m} + e_t) (với (m) là tháng) là

hợp lý để vừa nắm xu thế vừa loại bỏ mùa vụ.

d) Đánh giá mô hình dự báo xu thế có điều chỉnh mùa vụ. MAD là bao nhiêu?

- Sau khi ước lượng xu thế tuyến tính và chỉ số mùa (theo phương pháp

trung bình phần dư theo tháng), mô hình fitted = trend + seasonal cho

được lỗi trong mẫu.

- MAD (Mean Absolute Deviation) của mô hình (trung bình giá trị tuyệt

đối của sai số fitted) là:[\text{MAD} = \frac{1}{N}\sum_{t=1}^{N} |Y_t

- So với giá trị trung bình doanh số (~≈ 40,xxx triệu $), MAD ≈ 1,054 triệu

$ tương đương ~2.6% — là sai số tương đối nhỏ → mô hình cho kết quả

dự báo chấp nhận được với dữ liệu này.

e) Các chỉ số mùa vụ theo tháng (additive seasonal indices)

Đây là chỉ số mùa (additive) - nghĩa là cần cộng (hoặc trừ) vào xu thế tháng

tương ứng:

Tháng

Chỉ số mùa (triệu $)

−2096.00

−4266.80

274.90

262.09

3196.29

2160.99

1858.68

2570.88

592.57

1737.77

−1998.03

−4293.34

Giải thích: ví dụ tháng 5 có +3196.29 → doanh số tháng 5 thường cao hơn xu

thế khoảng 3196 (triệu $). Tháng 2 và 12 có chỉ số âm lớn (giảm so với xu thế).

f) Dự báo doanh số tháng 1, 2, 3, 4 năm 2019

Cách làm: tính xu thế cho các thời điểm tiếp theo (t=25..28), rồi cộng chỉ số

mùa tương ứng.

- Phương trình xu thế ước lượng: (\hat{T}_t = 35190.8732 + 418.80348; t).

Dự báo (làm tròn 1 chữ số thập phân):

Tháng (2019)

Dự báo (triệu $)

2019-01

43,565.0

2019-02

41,813.0

2019-03

46,773.5

2019-04

47,179.5

(Các giá trị trên là (\widehat{Y}_t =\widehat{T} {m}).) t + S

- Mô hình: Additive decomposition (Linear trend + seasonal).

- Hệ số xu thế: (a 35190.8732,; b 418.80348). ≈ ≈

- Chỉ số mùa: bảng ở phần (e).

- MAD = 1054.22 (triệu $).

- Dự báo 2019-01 → 2019-04: 43565.0; 41813.0; 46773.5; 47179.5 (triệu

$).

Bấm Tải xuống để xem toàn bộ.

Preview text:

Bài 14 Trang 32: Bộ phận dịch vụ ăn uống của Công viên giải trí Cedar River
đang thực hiện khảo sát về số tiền chi tiêu cho đồ ăn uống mỗi ngày của các gia
đình khi đến công viên. Một mẫu khảo sát gồm 40 gia đình đã đến công viên
ngày hôm qua với các những khoản chi lần lượt như sau: (Đơn vị tính: $)
77 18 63 84 38 54 50 59 54 56 36 26 50 34 44
41 58 58 53 51 62 43 52 53 63 62 62 65 34 52 60 60 45 66 53 71 63 58 61 71
a. Sắp xếp dữ liệu vào bảng tần số phân phối với số tổ là 7 và giới hạn dưới
của tố đầu tiên bằng 15, nên lựa chọn khoảng cách tổ bằng bao nhiêu?
b. Dữ liệu có xu hướng tập trung quanh giá trị nào?
c. Mô tả về phân phối của dãy số.
d. Xây dựng bảng tần suất phân phối. Bài làm a. Khoảng cách tổ là:
= 𝑚𝑎𝑥−𝑚𝑖𝑛 = 84−18 = 9,43 ≈ 10 𝑘 7
b. Trung vị của dữ liệu là 58
Trung bình của dữ liệu là 56,5 Mode của dữ liệu là 63
Vậy dữ liệu có xu hướng tập trung quanh khoảng 58 đến 63
c. Do dữ liệu có Mean < Median < Mode nên đây là dữ liệu phân phối lệch
trái nhẹ nhưng không mạnh d. Khoản chi ở công viên Tần số Tần suất (%) ($) 15 đến 24 1 2,5 25 đến 34 2 5 35 đến 44 5 12,5 45 đến 54 10 25 55 đến 64 15 37,5 65 đến 74 4 10 75 đến 84 3 7,5 Bài 36 trang 45: Bài làm
a. Biểu đồ tần số tích lũy (đường cong Ogive)
b. Số nhà tổng cộng = giá trị tích lũy lớn nhất (điểm cuối trục tung) = 250 ngôi nhà
c. Trục giá bán chia theo mốc 0, 50, 100, 150, 200,...,350 (nghìn $). Mỗi tổ
tương ứng một đoạn dài 50 (nghìn $) => Khoảng cách tổ = 50 nghìn $
d. Khoảng 240 nghìn $. (235 - 240 nghìn $).Từ số 75 ở trục Phần trăm
gióng sang trái cho đến khi cắt đường cong, từ đó gióng xuống vuông góc
với trục Giá bán. Điểm rơi nằm gần 250.
Xác định Tần số: 75% của tổng số 250 ngôi nhà là 187,5 nhà. Nội suy Tuyến
tính: Giá trị này nằm trong khoảng tổ [200;250] nghìn $, với tần số tích lũy từ 125 đến 212,5
Giá = 200 + (187,5 − 125) × 50 ≈ 235, 7 (212,5 − 125)
e. Dùng nội suy tuyến tính trong khoảng giá [200;250] (tần số tích lũy [125;212.5]).
Giá = 200 + (175 − 125) × 50 ≈ 200 + 28, 6 ≈ 228, 6 (212,5 − 125)
=> 175 ngôi nhà được bán với giá nhỏ hơn khoảng 228,6 nghìn $
Bài 81 trang 91: Số liệu về chi phí của 25 sinh viên chưa tốt nghiệp đại học trong năm ngoái
684 710 688 711 722 698 723 743 738 722 696 721 685
763 681 731 736 771 693 701 737 717 752 710 697 Đơn vị tính: $
a) Tính trung bình, trung vị, mốt của dữ liệu
- Trung bình (mean) = (25 số liệu) / 25 = 717,2 𝚺
- Trung vị (medium): sắp xếp các số liệu theo thứ tự từ bé đến lớn: 681,
684, 685, 688, 693, 696, 697, 698, 701, 710, 710, 711, 717, 721, 722,
722, 723, 731, 736, 737, 738, 743, 752, 763, 771
⇒ trung vị là giá trị thứ 13 = 717
- Mốt là 710 và 722 (nhị mốt) do xuất hiện 2 lần
b) Xác định khoảng biến thiên, độ lệch chuẩn
- Khoảng biến thiên = 771 - 681 = 90
- Độ lệch chuẩn của mẫu: s = 24,875
c) Sử dụng quy tắc 3 Sigma để thiết lập 1 khoảng gồm 95% các quan sát
- Quy tắc 3 Sigma: khoảng 95% các quan sát sẽ nằm trong phạm vi (+) và
(-) 2 lần độ lệch chuẩn so với trung bình
⇒ khoảng 95% chi phí của sinh viên chưa tốt nghiệp đại học trong năm
ngoái nằm trong khoảng từ 667.45 đến 766.95 được tính bằng: 717,2 ± 2s = 717,2 + (2 x 24,875)
Bài 14 trang 223: Một phân phối chuẩn có trung bình là 12,2 và độ lệch chuẩn là 2,5
a) Tính giá trị z tương ứng với giá trị 14.3
- z là khoảng cách giữa 14,3 và trung bình, chia cho độ lệch chuẩn
z = (14,3 - 12,2) / 2,5 = 0,84
b) Tỷ lệ trong tổng thể có giá trị nằm trong khoảng từ 12,2 → 14,3 là bao nhiêu?
- Tra bảng phân phối chuẩn hoá, với giá trị 14,3 ta có z = 0,84, xác suất giá
trị nằm trong khoảng từ đuôi trái đến 14,3 là 0,7995. Với giá trị 12,2
tương ứng với z = 0, xác suất giá trị nằm trong khoảng từ đuôi trái đến
12,2 là 50% (vì 12,2 là trung bình)
- Vậy tỷ lệ trong tổng thể có giá trị nằm trong khoảng từ 12,2 → 14,3 là:
0,7995 - 0,5 = 0,2995, tương đương với xấp xỉ 30%
c) Tỷ lệ trong tổng thể có giá trị nhỏ hơn 10.0 là bao nhiêu?
- Giá trị z tương ứng với 10.0 là: z = (10 - 12,2) / 2,5 = -0,88.
⇒ Ta cần tính xác suất P(z < -0,88), nhưng vì bảng xác suất phân phối
chuẩn hoá z chỉ cho giá trị từ 0 → z, ta quy đổi: P(z < -0,88) = 1 - P(z < 0,88) = 1 - 0,8106 = 0,1894
- Vậy tỷ lệ trong tổng thể có giá trị nhỏ hơn 10.0 là 18,94% Bài 38 trang 275
Số tiền trung bình mà một khách hàng chi tại cửa hàng tạp hóa của Churchill là
$23.50, với độ lệch chuẩn là $5. Giả sử số tiền này tuân theo quy luật phân phối
chuẩn. Với cỡ mẫu gồm 50 khách hàng, hãy trả lời các câu hỏi sau:
a, Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00.
b, Xác suất để trung bình mẫu lớn hơn $22.50 và nhỏ hơn $25.00.
c, 90% mẫu rút ra từ tổng thể có giá trị trung bình nằm trong khoảng nào? Bài làm
a. Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00 Tìm P(𝑋 ≥ 25.00)
Tính Z-scrore bằng cách lấy giá trị trừ đi trung bình và chia độ lệch chuẩn (sai số chuẩn)
Z = 25.00 − 23.00 = 1.50 ≈ 2. 12 0.7071 0.7071
Tính xác suất P(Z ≥ 2.12) thì cần tìm diện tích bên phải của Z = 2.12 trên
đường cong phân phối chuẩn
Tra bảng Z, P(Z ≤ 2.12) ≈ 0.983
=> P(Z ≥ 2.12) = 1 - P(Z ≤ 2.12) = 1 - 0.983 = 0.017
=> Xác suất để trung bình mẫu lớn hơn hoặc bằng $25.00 là 1.70%
- Giải thích: vì σ𝑋 nhỏ hơn rất nhiều so với σ ban đầu (0.71 so với 5), nên
trung bình của 50 khách hàng sẽ biến động rất ít và luôn có xu hướng gần
$23.50.Xác suất để trung bình chi tiêu của 50 khách hàng đạt $25.00 trở
lên là 1.70%. Đây là một xác suất rất thấp, cho thấy việc trung bình mẫu
sai lệch quá $1.50 so với trung bình tổng thể là điều hiếm gặp.
b. Xác suất để trung bình mẫu lớn hơn $22.00 và nhỏ hơn $25.00 Tìm P(22.50 < < 25.00) 𝑋 Chuẩn hoá về Z-score 𝑋 Giới hạn trên 𝑍 ≈ 2.12 (cho 𝑋 = 25.00) 𝑢𝑝𝑝𝑒𝑟 Giới hạn dưới 𝑍 = 22.50 − 23.50 = −1 ≈ − 1. 41 𝑙𝑜𝑤𝑒𝑟 0.7071 0.7071
Tìm P(-1.41 < Z < 2.12) = P(Z<2.12) - P(Z< -1.41) P(Z < 2.12) ≈ 0.9830
Tra bảng Z, P(Z < -1.41) ≈ 0.0793 P = 0.9830 - 0.0793 = 0.9037
=> Xác suất để trung bình mẫu nằm trong khoảng $22.00 đến $25.00 là 90.37%
- Giải thích: Khoảng này bao phủ trung bình $23.50 và kéo dài cả hai phía.
Vì phân phối hẹp lại quanh $23.50, nên một phần rất lớn (hơn 90%) của
các trung bình nhóm có khả năng nằm gọn trong khu vực này.
c. 90% mẫu rút ra từ tổng thể có giá trị trung bình nằm trong khoảng nào.
Tìm Z-score cho 90% ở giữa
- Nếu 90% nằm ở giữa, thì 10% còn lại (100%−90%) được chia đều cho hai đuôi
- Mỗi đuôi (trái và phải) sẽ có diện tích là 10%/2=5%
- Tìm giá trị Z sao cho P(Ztra bảng Z, giá trị Z tương ứng với 0.95 (hoặc 0.05 ở đuôi) là Z = ±1.645
Chuyển Z-score về giá trị : 𝑋 𝑋 = µ ± (𝑍 × σ ) 𝑋 𝑋
Biên độ dao động: ME = 1.645 × 0.7071 ≈ 1.1632 Giới hạn dưới: 𝑍 = 23.50 − 1.1632 = 22.3368 𝑙𝑜𝑤𝑒𝑟 Giới hạn trên: 𝑍 = 23.50 + 1.1632 = 24.6632 𝑢𝑝𝑝𝑒𝑟
=> 90% các mẫu rút ra từ tổng thể sẽ có giá trị trung bình nằm trong khoảng ($22.34, $24.66)
- Giải thích: Khoảng này cho biết nếu bạn ngẫu nhiên 100 mẫu gồm 50
khách hàng, thì 90 trong số 100 giá trị trung bình đó sẽ nằm trong khoảng từ $22.34 đến $24.66. Bài 39 trang 275
Điểm trung bình cho bài kiểm tra thể lực dành cho vận động viên khối I là 947
với độ lệch chuẩn là 205. Chọn một mẫu ngẫu nhiên gồm 60 vận động viên.
Tính xác suất để giá trị trung bình của mẫu nhỏ hơn 900? Dữ liệu:
Giả thiết: µ = 947, σ = 205, n = 60
Ta dùng phân phối chuẩn cho trung bình mẫu vì n lớn (n=60). Tính toán:
Sai số chuẩn: SE = σ / √n = 205 / √60 = 26.4654
Thống kê z = (x - µ) / SE = (900 - 947) / 26.4654 = -1.7759
Xác suất P(x < 900) = Φ(z) = Φ(-1.7759) = 0.037874
Kết luận: Xác suất để giá trị trung bình mẫu nhỏ hơn 900 là 3.7874%. Bài 42. Trang 307 1. Tính snn s Ta có: - s=5s=5 - n=15n=15
Thay vì viết 1515 , ta tính ra số: - 15≈3.87315 ≈3.873 → sn=53.873n s =3.8735 Thực hiện phép chia: 53.873≈1.2913.8735 ≈1.291 2. Tính phạm vi sai số E=t×snE=t×n s
Với t=2.624t=2.624 và sn=1.291n s =1.291: E=2.624×1.291E=2.624×1.291 Thực hiện nhân: E≈3.39E≈3.39
3. Tính khoảng tin cậy 98%
xˉ±E=24±3.39xˉ±E=24±3.39
Hai phép tính bình thường:
- 24−3.39=20.6124−3.39=20.61 - 24+3.39=27.3924+3.39=27.39 Vậy:
CI=(20.61, 27.39)CI=(20.61,27.39) Bài 47. Trang 308
HighTech Inc kiểm tra nhân viên về các chính sách của công ty. Một cuộc khảo
sát ngẫu nhiên 400 nhân viên vào năm ngoái cho thấy có 14 nhân viên bị trượt trong kỳ kiểm tra.
a. Xác định ước lượng điểm về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra.
b. Xác định phạm vi sai số khi ước lượng khoảng tin cậy 99% về tỷ lệ nhân viên bị trượt.
c. Xác định khoảng tin cậy 99% về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra.
d. Có cơ sở để kết luận rằng 5% số nhân viên bị trượt trong kỳ kiểm tra không? Vì sao? Bài làm
a. Ước lượng điểm về tỷ lệ nhân viên bị trượt trong kỳ kiểm tra: 14 x100 = 3,5% 400
b. Với khoảng tin cậy 99%: 𝑍 = 2,576 ≈ 2,58 0,005 Tính độ lệch chuẩn: 0,035(1−0,035) = 0,035 𝑥 0,965 = 0,033775 = 400 400 400 0, 0000844375 ≈ 0.00919
Phạm vi sai số: 2,58 x 0.00919 ≈ 0,0237
→ Phạm vi sai số ≈ 2,37% c.
● Cận dưới: 0.035−0.0237 = 0.01130.035 - 0.0237 = 0.01130.035−0.0237 = 0.0113
● Cận trên: 0.035+0.0237 = 0.05870.035 + 0.0237 = 0.05870.035+0.0237 = 0.0587
→ Khoảng tin cậy 99%: (0.0113, 0.0587) hay: 1.13% đến 5.87%
d. So sánh 5% (0.05) với khoảng tin cậy 99%: 0.0113≤0.05≤0.05870.0113
Giá trị 0.05 nằm trong khoảng tin cậy 99%.
→ Tỷ lệ trượt 5% là có cơ sở để kết luận. Bài 42 trang 307 Dữ liệu - (n = 15) - (\bar{x} = 24) - (s = 5)
- Mức tin cậy: 98% → (\alpha = 0.02) → tra bảng (t_{0.99, , df=14} \approx 2.624)
a. Phạm vi sai số (margin of error)
[E = t \cdot \frac{s}{\sqrt{n}}] Tính:
[\frac{s}{\sqrt{n}} = \frac{5}{\sqrt{15}} \approx \frac{5}{3.873} \approx 1.291]
[E = 2.624 \times 1.291 \approx 3.39]
Phạm vi sai số ≈ 3.39 lần rao bán
b. Khoảng tin cậy 98% cho số lần rao bán trung bình [\bar{x} \pm E = 24 \pm 3.39] → CI = (20.61 , 27.39) Kết quả
a. Phạm vi sai số: ≈ 3.39
b. Khoảng tin cậy 98%: (20.61 ; 27.39) Bài 29 trang 343:
(Kiểm định trung bình mẫu nhỏ hơn 7):
- Giả thuyết: H0:μ=7H0 :μ=7 (trung bình dân số là 7 giờ) và Ha:μ<7Ha :μ<7.
- Dữ liệu: xˉ=6.8, s=0.9, n=50, α=0.05.xˉ=6.8,s=0.9,n=50,α=0.05.
- Thống kê kiểm định (dùng tt hoặc xấp xỉ zz vì n=50n=50 lớn):
t=xˉ−μ0s/n=6.8−70.9/50=−0.20.9/7.0711≈−1.572.t=s/n xˉ−μ0 =0.9/50 6.8−
7 =0.9/7.0711−0.2 ≈−1.572.
- Giá trị tới hạn (một phía, α=0.05α=0.05): với phân phối chuẩn
z0.05=−1.645z0.05 =−1.645. (Với t49t49 giá trị tới hạn khoảng −1.676−1.676.)
- So sánh: t≈−1.572>−1.645t≈−1.572>−1.645 (không rơi vào vùng bác bỏ).
p-value =P(Z<−1.572)≈0.058=P(Z<−1.572)≈0.058.
Kết luận: vì p≈0.058>0.05p≈0.058>0.05 (hoặc t>−1.645t>−1.645), không đủ
bằng chứng ở mức ý nghĩa 5% để kết luận rằng sinh viên ở West Virginia ngủ ít
hơn mức trung bình 7 giờ của người Mỹ. (Kết quả khá gần ngưỡng: p ≈ 0.058.) Bài 19 trang 336
Bài toán: Một viện nghiên cứu cho biết thiếu niên trung bình gửi 67 tin
nhắn/ngày. Lấy mẫu 12 thanh niên, số tin nhắn thu được:
51, 175, 47, 49, 44, 54, 145, 203, 21, 59, 42, 100
Mức ý nghĩa α = 0.05. Kiểm tra H0: µ = 67 vs H1: µ > 67 (một phía). Tính toán:
n = 12, x = 82.5000, s (mẫu) = 59.4926
SE = s / √n = 59.4926 / √12 = 17.1740
Thống kê t = (x - 67) / SE = (82.5000 - 67) / 17.1740 = 0.9025 df = n - 1 = 11
p-value (một phía, H1: µ > 67) = 1 - F_t(t; df) = 0.193057
Bởi vì p-value ≥ 0.05, không đủ bằng chứng để bác bỏ H0 ở mức ý nghĩa 0.05.
Kết luận: không có đủ bằng chứng cho thấy số lượng tin nhắn trung bình lớn hơn 67. Bài 29 trang 343:
(Kiểm định trung bình mẫu nhỏ hơn 7):
- Giả thuyết: H0:μ=7H0 :μ=7 (trung bình dân số là 7 giờ) và Ha:μ<7Ha :μ<7.
- Dữ liệu: xˉ=6.8, s=0.9, n=50, α=0.05.xˉ=6.8,s=0.9,n=50,α=0.05.
- Thống kê kiểm định (dùng tt hoặc xấp xỉ zz vì n=50n=50 lớn):
t=xˉ−μ0s/n=6.8−70.9/50=−0.20.9/7.0711≈−1.572.t=s/n xˉ−μ0 =0.9/50 6.8−
7 =0.9/7.0711−0.2 ≈−1.572.
- Giá trị tới hạn (một phía, α=0.05α=0.05): với phân phối chuẩn
z0.05=−1.645z0.05 =−1.645. (Với t49t49 giá trị tới hạn khoảng −1.676−1.676.)
- So sánh: t≈−1.572>−1.645t≈−1.572>−1.645 (không rơi vào vùng bác bỏ).
p-value =P(Z<−1.572)≈0.058=P(Z<−1.572)≈0.058.
Kết luận: vì p≈0.058>0.05p≈0.058>0.05 (hoặc t>−1.645t>−1.645), không đủ
bằng chứng ở mức ý nghĩa 5% để kết luận rằng sinh viên ở West Virginia ngủ ít
hơn mức trung bình 7 giờ của người Mỹ. (Kết quả khá gần ngưỡng: p ≈ 0.058.) Bài 11 trang 396:
Hiệp hội hành khách Hàng không đã nghiên cứu mối liên hệ giữa số lượng hành
khách trên 1 chuyến bay và chi phí nhiên liệu cho chuyến bay đó. Có thể khi có
nhiều hành khách trên chuyến bay thì trọng lượng của hành khách và hành lý có
nhiều hơn, do đó chi phí nhiên liệu cao hơn. Với 1 mẫu gồm 15 chuyến bay, hệ
số tương quan giữa số lượng hành khách và tổng chi phí nhiên liệu là 0,667. Với
mức ý nghĩa 0,01, có mối liên hệ tương quan thuận trong tổng thể không?
- Sử dụng kiểm định t cho hệ số tương quan, bậc tự do df = n -2 = 13
- Kiểm định tương quan thuận là kiểm định 1 phía (one-tailed test), ta kiểm
tra giá trị tới hạn của t ở bảng Phân phối Student, với mức ý nghĩa 0,01 và
bậc tự do là 13, t0.01,13 = 2,650 ⇒ bác bỏ H0 t-statistic > 2,650
- Với mẫu gồm 15 chuyến bay, số lượng hành khách và tổng chi phí nhiên
liệu có hệ số tương quan là 0,667
t = 0,667 x √13/(1 - 0,667^2) = 3,228 > t-critical
- Vậy ta có thể kết luận là có mối liên hệ tương quan thuận giữa số lượng
hành khách và tổng chi phí nhiên liệu với mức ý nghĩa 1%.
Bài 30 Trang 484: Giám đốc các sự kiện đặc biệt của Sun City tin rằng số tiền
chi cho các màn bắn pháo hoa vào ngày 4 tháng 7 có thế dự đoán cho việc tham
dự Lễ hội mùa thu được tổ chức vào tháng 10. Cô thu thập dữ liệu sau đây để
kiểm tra sự nghi ngờ của mình. Chi cho bắn pháo
Số người dự lễ Chi cho bắn pháo Số người dự lễ hội hoa (nghìn $) hội (nghìn người) hoa (nghìn $) (nghìn người) 10.6 8.8 9.0 9.5 8.5 6.4 10.0 9.8 12.5 10.8 7.5 6.6 9.0 10.2 10.0 10.1 5.5 6.0 6.0 6.1 12.0 11.1 12.0 11.3 8.0 7.5 10.5 8.8 7.5 8.4
a. Xây dựng và giải thích phương trình hồi quy dự đoán "số người dự lễ
hội" với "số tiền chi cho bắn pháo hoa". Tính hệ số xác định. Giải thích hệ số hồi quy.
b. Đánh giá các giả thiết hồi quy dựa trên phân tích các phần dư. Bài làm
a. Pháo hoa (x); Số người dự lễ hội (y) Dữ liệu 15 quan sát n=15 ∑X = 138.6, = 9.24 𝑋 ∑Y=131.4,𝑌=8.76 ∑XY=1262.28 ∑ 2 𝑋 =1343.86
b = 𝑛∑𝑋𝑌−(∑𝑋)(∑𝑌) = 15(1262.28)−138.6(131.4) ≈ 0.7616 2 𝑛∑𝑋 − (∑𝑋)2 15(1343.86) − 138,62 a = − b 𝑌
= 8.76−0.7616(9.24) ≈ 1.7228 𝑋
→ Phương trình hồi quy: 𝑌 = 1.7228 + 0.7616X Giải thích:
- Khi chi cho pháo hoa tăng 1 nghìn đô, số người dự lễ hội tăng khoảng
0.7618 nghìn người (tức ~762 người).
- Hằng số 1.7208 là mức dự đoán khi chi tiêu = 0 (không có ý nghĩa thực tế nhiều).
Tính tổng bình phương phần dư ≈ 11.5589
Tổng biến thiên ≈ 48.236 Hệ số xác định: 2 𝑅 = 1- 11.5589 = 0.760 48.236
Giải thích: 76% sự thay đổi trong số người dự lễ hội có thể phụ thuộc vào số tiền chi cho pháo hoa
b. Đánh giá các giả thiết hồi quy dựa trên phân tích phần dư
Kiểm tra phần dư cho các giả thiết:
- Phân phối chuẩn: Kiểm định cho thấy không bác bỏ giả thiết phần dư
phân phối chuẩn. Biểu đồ phần dư không có độ lệch lớn.
- Phương sai đồng nhất: Phần dư phân bố tương đối đều xung quanh trục,
không xuất hiện dạng hình phễu → phương sai được xem là đồng nhất.
Bài 36, 37 trang 520: Betts Electronics mua 3 bộ phận thay thế cho các máy
robot được sử dụng trong quá trình sản xuất. Thông tin về giá của các bộ phận
thay thế và số lượng mua như sau: Giá bán ($) Lượng mua Bộ phận 2010 2018 2010 2018 RC-33 0.50 0.60 320 340 SM-14 1.20 0.90 110 130 WC50 0.85 1.00 230 250
Tính chỉ số giá Fisher dựa vào 2 chỉ số Laspeyres và chỉ số Paasche tính được từ
các trường hợp trên. (năm 2018 so với năm 2010 làm gốc)
- Chỉ số giá gia quyền Laspeyres giai đoạn 2010-2018: P = (∑p1q0 /
∑p0 q0 ) *100 = [(0,60*320 + 0,90*110 + 1.00*230) / (0,50*320 +
1,20*110 + 0,85*230)] *100 = 106,872$
- Chỉ số giá Paasche: PPI = (∑p1q1 / ∑p0 q01) *100 = [(0,60*340 +
0,90*130 + 1.00*250) / (0,50*340 + 1,20*130 + 0,85*250)] *100 = 106,035$
- Chỉ số giá Fisher: FPI = √106,872 * 106,035 = 106,453$ Bài 38 trang 520
1. Tính tổng giá trị năm 2010 Bộ phận Giá 2010 Lượng 2010 Giá trị 2010 = giá × lượng RC-33 0.50 320 0.50 × 320 = 160.00 SM-14 1.20 110 1.20 × 110 = 132.00 WC50 0.85 230 0.85 × 230 = 195.50 Tổng giá trị 2010
160.00+132.00+195.50=487.50160.00+132.00+195.50=487.50
2. Tính tổng giá trị năm 2018 Bộ phận Giá 2018 Lượng 2018 Giá trị 2018 = giá × lượng RC-33 0.60 340 0.60 × 340 = 204.00 SM-14 0.90 130 0.90 × 130 = 117.00 WC50 1.00 250 1.00 × 250 = 250.00 Tổng giá trị 2018
204.00+117.00+250.00=571.00204.00+117.00+250.00=571.00
3. Chỉ số giá trị năm 2018 so với 2010
Chỉ số giá trị = 571.00487.50×100
Chỉ số giá trị =487.50571.00 ×100=1.1713×100=117.13% Kết luận
Chỉ số giá trị năm 2018 lấy 2010 làm gốc = 117.13%
→ Tổng giá trị các bộ phận mua năm 2018 so với năm tăng 17.13% 2010. Bài 22 trang 563:
a) Vẽ đồ thị với dữ liệu trên
- Mô hình xu thế tuyến tính: đã fit Yt=a+btYt =a+bt.
- Chỉ số mùa (additive) theo tháng (giá trị trung bình của phần dư so với xu
thế) - bảng Seasonal indices by month (additive) trong bảng kết quả
MAD của mô hình (Mean Absolute Deviation) = 1054.22 (triệu $).
- Dự báo doanh số (triệu $) cho 4 tháng đầu 2019 (theo thứ tự tháng 1 →
4): kết quả hiện có trong bảng Forecasts Jan-Apr 2019 hiển thị trong khung. Đồ thị gồm:
- đường thực tế (Actual) của doanh số tháng (thg 1/2017 → thg 12/2018),
- đường xu thế tuyến tính (trend) ( \hat{T}_t = a + b t),
- đường giá trị phù hợp của mô hình cộng (fitted = trend + seasonal),
- các điểm dự báo cho 4 tháng đầu 2019.
b) Mô tả các thành phần của chuỗi thời gian
Chuỗi được phân tích theo mô hình cộng (additive) với ba thành phần:
Xu thế (Trend): tăng đều theo thời gian. Mình đã ước lượng xu thế bằng hồi quy
tuyến tính ( \hat{T}_t = a + b t) với hệ số: - (a = 35190.8732)
- (b = 418.80348) (tăng ~418.8 triệu $ mỗi tháng)
(ở đây (t=1) là 2017-01, (t=24) là 2018-12).
Mùa vụ (Seasonal): lặp lại theo tháng trong năm (chu kỳ 12 tháng). Có tháng có
ảnh hưởng dương (ví dụ tháng 5, 6, 8, 10), có tháng ảnh hưởng âm (ví dụ tháng 2, 12, 11).
Ngẫu nhiên (Irregular / Residual): phần sai số còn lại sau khi trừ xu thế và mùa.
c) Tại sao mô hình xu thế có điều chỉnh mùa vụ (additive trend+seasonal) là phù hợp?
- Dữ liệu cho thấy xu hướng tăng theo thời gian (đỉnh vào nửa sau 2018),
đồng thời có mô hình lặp lại theo tháng(mùa vụ) qua hai năm 2017 - 2018.
- Biên độ dao động theo mùa (khoảng vài nghìn triệu $) không tăng tỉ lệ
với mức trung bình (không thấy rõ tỉ lệ phần trăm mùa tăng theo mức),
nên mô hình cộng (additive) hợp lý hơn mô hình nhân (multiplicative).
- Do đó, mô hình dạng: (Y_t = T_t + S_{m} + e_t) (với (m) là tháng) là
hợp lý để vừa nắm xu thế vừa loại bỏ mùa vụ.
d) Đánh giá mô hình dự báo xu thế có điều chỉnh mùa vụ. MAD là bao nhiêu?
- Sau khi ước lượng xu thế tuyến tính và chỉ số mùa (theo phương pháp
trung bình phần dư theo tháng), mô hình fitted = trend + seasonal cho được lỗi trong mẫu.
- MAD (Mean Absolute Deviation) của mô hình (trung bình giá trị tuyệt
đối của sai số fitted) là:[\text{MAD} = \frac{1}{N}\sum_{t=1}^{N} |Y_t
- So với giá trị trung bình doanh số (~≈ 40,xxx triệu $), MAD ≈ 1,054 triệu
$ tương đương ~2.6% — là sai số tương đối nhỏ → mô hình cho kết quả
dự báo chấp nhận được với dữ liệu này.
e) Các chỉ số mùa vụ theo tháng (additive seasonal indices)
Đây là chỉ số mùa (additive) - nghĩa là cần cộng (hoặc trừ) vào xu thế tháng tương ứng: Tháng Chỉ số mùa (triệu $) 1 −2096.00 2 −4266.80 3 274.90 4 262.09 5 3196.29 6 2160.99 7 1858.68 8 2570.88 9 592.57 10 1737.77 11 −1998.03 12 −4293.34
Giải thích: ví dụ tháng 5 có +3196.29 → doanh số tháng 5 thường cao hơn xu
thế khoảng 3196 (triệu $). Tháng 2 và 12 có chỉ số âm lớn (giảm so với xu thế).
f) Dự báo doanh số tháng 1, 2, 3, 4 năm 2019
Cách làm: tính xu thế cho các thời điểm tiếp theo (t=25..28), rồi cộng chỉ số mùa tương ứng.
- Phương trình xu thế ước lượng: (\hat{T}_t = 35190.8732 + 418.80348; t).
Dự báo (làm tròn 1 chữ số thập phân): Tháng (2019) Dự báo (triệu $) 2019-01 43,565.0 2019-02 41,813.0 2019-03 46,773.5 2019-04 47,179.5
(Các giá trị trên là (\widehat{Y}_t =\widehat{T}t + S{m}).)
- Mô hình: Additive decomposition (Linear trend + seasonal).
- Hệ số xu thế: (a ≈ 35190.8732,; b ≈ 418.80348).
- Chỉ số mùa: bảng ở phần (e). - MAD = 1054.22 (triệu $).
- Dự báo 2019-01 → 2019-04: 43565.0; 41813.0; 46773.5; 47179.5 (triệu $).

Bài tập lớn: Phân Tích Chi Tiêu và Phân Phối Dữ Liệu | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Tài liệu liên quan:

Ôn tập nhóm Bài Tập Hồi Quy | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Thống Kê Xuất Nhập Khẩu và Giá Trị Hàng Hóa | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Bài Tập Thống Kê Kinh Doanh | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Bài tập Phân tích sự sụp đổ của Thomas Cook trong ngành du lịch | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân

Thực Hành C1: Phân Tích Dữ Liệu Bất Động Sản Trên SPSS | Thống kê trong kinh tế và kinh doanh | Trường Đại học Kinh tế Quốc dân