



















Preview text:
BÀI TẬP NHÓM - HỌC PHẦN NGUYÊN LÝ THỐNG KÊ
PHẦN 1: HỆ THỐNG LÝ THUYẾT CÁC CHƯƠNG
CHƯƠNG 2: MÔ TẢ DỮ LIỆU CHÉO
1. PHƯƠNG PHÁP BẢNG PHÂN PHỐI
Mục đích: Tổ chức dữ liệu thành các nhóm để dễ quan sát và phân tích Các bước thực hiện:
● Xác định số tổ (k): sử dụng công thức Sturges: k ≈ 1 + 3.322 × log(n)
● Tính khoảng cách tổ: h = (Max - Min) / k
● Xác định biên các tổ (đảm bảo khoảng cách đều)
● Đếm tần số các tổ
● Tính tần suất (%) = (tần số / tổng số) × 100 Lưu ý quan trọng:
● Khoảng cách tổ phải đều nhau
● Biên trên tổ này là biên dưới tổ kế tiếp
2. PHƯƠNG PHÁP BIỂU ĐỒ/ĐỒ THỊ
2.1. Biểu đồ Cột (Bar Chart)
● Dùng cho dữ liệu định tính
● Chiều cao cột thể hiện tần số/tần suất
2.2. Biểu đồ Hình Tròn (Pie Chart)
● Thể hiện tỷ trọng các thành phần ● Tổng các phần = 100%
2.3. Biểu đồ Cành và Lá (Stem-and-Leaf)
● Giữ nguyên giá trị gốc của dữ liệu
● Cành: chữ số hàng chục
● Lá: chữ số hàng đơn vị
● Ưu điểm: Vừa thể hiện phân phối vừa giữ thông tin chi tiết Ví dụ:
● Dữ liệu: 23, 25, 27, 31, 33, 35, 42, 45 ● Stem | Leaf ● 2 | 3 5 7 ● 3 | 1 3 5 4 | 2 5 3. CÁC CHỈ TIÊU MÔ TẢ
3.1. Độ Tập Trung của Dữ Liệu Chỉ tiêu Tổng thể Mẫu Ý nghĩa Trung bình μ = Σxi/N = x Σxi/n Giá trị đại diện Trung vị Me Me
Giá trị ở giữa (sắp xếp tăng dần) Mode Mo Mo
Giá trị xuất hiện nhiều nhất Cách tính Trung vị:
1. Sắp xếp dữ liệu tăng dần
2. Nếu n lẻ: Me = x((n+1)/2)
3. Nếu n chẵn: Me = [x(n/2) + x(n/2+1)] / 2
3.2. Độ Phân Tán của Dữ Liệu Chỉ tiêu
Công thức Tổng thể
Công thức Mẫu Khoảng biến thiên R = Max - Min R = Max - Min Độ lệch tuyệt đối TB MAD = Σ|xi - μ|/N MAD = Σ|xi - |/n x Phương sai σ² = Σ(xi - μ)²/N s² = Σ(xi - )²/(n-1) x Độ lệch chuẩn σ = √σ² s = √s² Hệ số biến thiên CV = (σ/μ) × 100% CV = (s/ ) x× 100% Ý nghĩa:
● R: khoảng dao động của dữ liệu
● σ, s: mức độ phân tán trung bình quanh giá trị TB
● CV: so sánh độ phân tán giữa các tập dữ liệu khác đơn vị
3.3. Tứ Phân Vị và Biểu Đồ Hộp Các bước tính:
1. Sắp xếp dữ liệu tăng dần 2. Q2 = Trung vị
3. Q1 = Trung vị của nửa dưới
4. Q3 = Trung vị của nửa trên Biểu đồ Hộp (Box Plot): ● |----[===|===]----| Min Q1 Q2 Q3 Max
● Hộp: từ Q1 đến Q3 (chứa 50% dữ liệu giữa)
● Đường trong hộp: Q2 (trung vị)
● Râu: kéo dài đến Min và Max 3.4. Hình Dáng Phân Phối
Cách 1: So sánh Mean, Median, Mode Tình huống Đặc điểm Hình dạng Mean = Me = Mo Đối xứng Chuẩn Mean > Me > Mo Lệch phải Đuôi kéo dài bên phải Mean < Me < Mo Lệch trái Đuôi kéo dài bên trái Cách 2: Hệ số
● Hệ số SKEW (độ lệch): ● SKEW = 0: đối xứng ● SKEW > 0: lệch phải ● SKEW < 0: lệch trái
● Hệ số KURT (độ nhọn):
● KURT = 3: phân phối chuẩn
● KURT > 3: nhọn hơn chuẩn
● KURT < 3: tẹt hơn chuẩn
3.5. Mối Liên Hệ Giữa 2 Tiêu Thức
3.5.1. Hai Tiêu Thức Định Lượng Hiệp phương sai:
● Tổng thể: Cov(X,Y) = Σ(xi - μx)(yi - μy)/N
● Mẫu: Cov(X,Y) = Σ(xi - )(yi x ȳ - )/(n-1) Hệ số tương quan (r): ● r = Cov(X,Y) / (sx × sy) ● -1 ≤ r ≤ 1 Giải thích:
● |r| gần 1: tương quan chặt
● |r| gần 0: tương quan lỏng
● r > 0: tương quan thuận
● r < 0: tương quan nghịch
3.5.2. Hai Tiêu Thức Định Tính Hệ số liên hợp (C): ● C = √(χ²/(χ² + n)) ● 0 ≤ C < 1 Hệ số Cramer (V):
● V = √(χ²/[n × min(k-1, m-1)]) ● 0 ≤ V ≤ 1
● V gần 1: liên hệ chặt
● V gần 0: liên hệ lỏng
CHƯƠNG 4: LẤY MẪU VÀ ƯỚC LƯỢNG THAM SỐ 1. CÁC KHÁI NIỆM CƠ BẢN
Tổng thể (Population): Toàn bộ các đơn vị cần nghiên cứu
● Hữ u hạn: N < ∞ (VD: sinh viên một trữờ ng)
● Vô hạn: N → ∞ (VD: sản phẩm tữ dây chuyền)
Mẫu (Sample): Một phần đại diện của tổng thể ● Kích thước mẫu: n Phân biệt quan trọng: Tổng thể Mẫu Thuật ngữ Tham số Thống kê Tính chất Cố định, duy nhất Ngẫu nhiên, biến đổi Trung bình μ x Tỷ lệ p p Phương sai σ² s² 2. PHƯƠNG PHÁP LẤY MẪU
2.1. Lấy mẫu Ngẫu nhiên Đơn giản
● Mỗi đơn vị có xác suất được chọn như nhau 2.2. Lấy mẫu Phân tầng
● Chia tổng thể thành các tầng đồng nhất
● Lấy mẫu từ mỗi tầng 2.3. Lấy mẫu Hệ thống
● Chọn theo khoảng cách cố định 2.4. Lấy mẫu Cụm
● Chia thành cụm, chọn ngẫu nhiên các cụm 3. PHÂN PHỐI MẪU
3.1. Phân phối của Trung bình mẫu ( ) x
Nếu X ~ N(μ, σ²) hoặc n ≥ 30: ● ~ x N(μ, σ²/n)
● Chuẩn hóa: Z = (x - μ)/(σ/√n) ~ N(0,1)
3.2. Phân phối của Tỷ lệ mẫu ( ) p
Nếu np ≥ 5 và n(1-p) ≥ 5: ● ~ p N(p, p(1-p)/n)
● Z = (p - p)/√[p(1-p)/n] ~ N(0,1)
3.3. Phân phối của Phương sai mẫu (s²)
● χ² = (n-1)s²/σ² ~ χ²(n-1) 4. ƯỚC LƯỢNG ĐIỂM
Dùng thống kê mẫu để ước lượng tham số tổng thể: ● μ ≈ x ● p ≈ p ● σ² ≈ s² 5. ƯỚC LƯỢNG KHOẢNG
5.1. Ước lượng Trung bình μ
TH1: Biết σ (hoặc n ≥ 30)
● CI: x ± Z(α/2) × σ/√n
TH2: Chưa biết σ (n < 30)
● CI: x ± t(α/2, n-1) × s/√n
5.2. Ước lượng Tỷ lệ p
● CI: p ± Z(α/2) × √[p (1-p )/n]
5.3. Ước lượng Phương sai σ²
● CI: [(n-1)s²/χ²(α/2, n-1), (n-1)s²/χ²(1-α/2, n-1)]
Giải thích Khoảng tin cậy:
● Độ tin cậy (1-α)%: VD: 95%, 99%
● Ý nghĩa: Với mức tin cậy 95%, tham số thực nằm trong khoảng ước lượng
6. XÁC ĐỊNH KÍCH THƯỚC MẪU
6.1. Ước lượng μ với độ chính xác E ● n = (Z(α/2) × σ / E)²
6.2. Ước lượng p với độ chính xác E
● n = Z²(α/2) × p(1-p) / E²
● Nếu chưa biết p, dùng p = 0.5 (bảo thủ nhất)
CHƯƠNG 5: KIỂM ĐỊNH THAM SỐ 1. GIẢ THUYẾT THỐNG KÊ
Định nghĩa: Phát biểu về tham số của tổng thể cần kiểm chứng Cấu trúc: ● H (Giả thuyết ₀ không): Luôn có dấu "=" ● H (Giả thuyết ₁
đối): Có dấu "≠", ">", "<" Ví dụ:
● H₀: μ = 100 vs H₁: μ ≠ 100 (hai phía)
● H₀: μ ≤ 100 vs H₁: μ > 100 (phía phải)
● H₀: μ ≥ 100 vs H₁: μ < 100 (phía trái)
2. SAI LẦM TRONG KIỂM ĐỊNH H₀ đúng H ₀ sai Chấp nhận H₀ ✓ Đúng Sai lầm loại II (β) Bác bỏ H₀ Sai lầm loại I (α) ✓ Đúng Mức ý nghĩa α:
● Xác suất mắc sai lầm loại I
● Thường chọn: α = 0.05 (5%) hoặc 0.01 (1%)
3. QUY TRÌNH KIỂM ĐỊNH (5 BƯỚC)
Bước 1: Xây dựng giả thuyết ● Đặt H và H ₀ dựa ₁ trên bài toán
Bước 2: Chọn mức ý nghĩa α ● Thường α = 0.05
Bước 3: Chọn thống kê kiểm định và tính giá trị
● Z, t, χ², F tùy trường hợp
Bước 4: Xác định miền bác bỏ / Tính p-value
● So sánh với giá trị tới hạn Bước 5: Kết luận ● Bác bỏ H hoặc ₀ Chấp nhận H₀
● Giải thích ý nghĩa thực tế
4. KIỂM ĐỊNH CHO 1 TỔNG THỂ
4.1. Kiểm định Trung bình μ
TH1: Biết σ (hoặc n ≥ 30)
● Thống kê: Z = (x - μ₀)/(σ/√n) ● Phân phối: N(0,1)
TH2: Chưa biết σ (n < 30)
● Thống kê: t = (x - μ₀)/(s/√n) ● Phân phối: t(n-1)
4.2. Kiểm định Tỷ lệ p
● Thống kê: Z = (p - p₀)/√[p₀(1-p₀)/n] ● Phân phối: N(0,1)
4.3. Kiểm định Phương sai σ²
● Thống kê: χ² = (n-1)s²/σ₀² ● Phân phối: χ²(n-1)
5. KIỂM ĐỊNH CHO 2 TỔNG THỂ 5.1. So sánh 2 Trung bình A. Mẫu độc lập: TH1: Biết σ , ₁ σ₂
● Z = (x₁ - x₂)/√(σ₁²/n₁ + σ₂²/n₂) TH2: Chưa biết σ , σ ₁ nhưng ₂ σ ² ₁= σ₂ ²
● t = (x₁ - x₂)/[sp√(1/n₁ + 1/n₂)] ● sp² = [(n -1)s
₁ ² ₁+ (n₂ -1)s₂ ²]/(n₁ +n₂ -2) ● df = n + ₁n -₂ 2
TH3: Chữa biết σ₁, σ₂ và σ₁² ≠ σ₂²
● t = (x₁ - x₂)/√(s₁²/n₁ + s₂²/n₂)
● df = công thức Welch (phức tạp) B. Mẫu cặp: ● Tính = Σdi/n d (di = xi - yi) ● t = d/(sd/√n) ● df = n - 1
5.2. So sánh 2 Tỷ lệ (mẫu độc lập) ● = (np ₁ + ₁p ₂p n ₂ )/(n ₁ ₂ + n )
● Z = (p ₁ - p ₂)/√[p(1-p)(1/n₁ + 1/n₂)] 5.3. So sánh 2 Phương sai ● F = s ²/s ²₁ (s ₂ ² ₁> s₂ ²) ● df = n - ₁ 1, ₁df = ₂n - ₂ 1
6. ƯỚC LƯỢNG SỰ KHÁC BIỆT
6.1. Khác biệt 2 Trung bình Mẫu độc lập: ● CI: ( ₁ - x₂ x ) ± t(α/2) × SE
● SE phụ thuộc trường hợp (như kiểm định) Mẫu cặp:
● CI: d ± t(α/2, n-1) × sd/√n 6.2. Khác biệt 2 Tỷ lệ
● CI: (p ₁ - p ₂) ± Z(α/2) × √[p ₁(1-p ₁)/n₁ + p ₂(1-p ₂)/n₂]
CHƯƠNG 6: KIỂM ĐỊNH PHI THAM SỐ 1. ĐẶC ĐIỂM
Khác biệt với Kiểm định Tham số:
● Không giả định phân phối của tổng thể
● Không kiểm định về tham số (μ, p, σ²)
● Dùng dữ liệu gián tiếp: dấu, hạng, tần số Khi nào sử dụng:
● Dữ liệu không phân phối chuẩn ● Kích thước mẫu nhỏ
● Dữ liệu thứ bậc (ranking)
2. KIỂM ĐỊNH WILCOXON (Mẫu cặp)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu cặp Giả thuyết: ● H : Me(X)
₀ = Me(Y) (2 tổng thể giống nhau)
● H₁: Me(X) ≠ Me(Y) (khác nhau) Các bước thực hiện:
1. Tính chênh lệch: di = xi - yi
2. Lấy trị tuyệt đối: |di|
3. Xếp hạng |di| (bỏ qua di = 0)
4. Gán dấu cho hạng theo dấu của di 5. Tính T (tổng hạng ⁺ dương) và T (tổng ⁻ hạng âm) 6. Thống kê: T = min(T , ⁺ T⁻ )
7. So sánh vờTi giá trị tờTi hạn tữ bảng Wilcoxon vờTi n (số di ≠ 0) Quy tắc:
● Nếu T ≤ T(α, n): Bác bỏ H₀
3. KIỂM ĐỊNH MANN-WHITNEY (Mẫu độc lập)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu độc lập Giả thuyết: ● H : 2 tổng
₀ thể có phân phối giống nhau ● H : 2 tổng
₁ thể có phân phối khác nhau Các bước:
1. Gộp 2 mẫu và xếp hạng chung
2. Giá trị bằng nhau → hạng trung bình
3. Tính tổng hạng mỗi mẫu: R , ₁ R₂ 4. Tính U = n₁n + ₁ ₂ n (n₁ +1)/2 ₁ - R₁ 5. Tính U = n₂n + ₁ ₂ n (n₂ +1)/2 ₂ - R₂ 6. U = min(U , ₁ U₂)
7. So sánh với bảng Mann-Whitney Quy tắc:
● Nếu U ≤ U(α, n₁, n₂): Bác bỏ H₀
4. KIỂM ĐỊNH SPEARMAN (Tương quan hạng)
Mục đích: Kiểm định mối liên hệ giữa 2 tiêu thức định lượng Giả thuyết: ● H : ρ =
₀ 0 (không có tương quan)
● H₁: ρ ≠ 0 (có tữờng quan)
● H : ρ >₁ 0 (tương quan thuận) ● H : ρ < ₁ 0 (tương quan nghịch) Các bước:
1. Xếp hạng riêng cho X và Y 2. Tính di = Rx(i) - Ry(i)
3. Tính rs = 1 - 6Σdi²/[n(n²-1)]
4. So sánh với bảng Spearman Giải thích: ● -1 ≤ rs ≤ 1
● |rs| gần 1: tương quan chặt ● rs > 0: thuận chiều
● rs < 0: nghịch chiều
5. KIỂM ĐỊNH χ² ĐỘC LẬP (Hai tiêu thức định tính)
Mục đích: Kiểm định mối liên hệ giữa 2 biến định tính Giả thuyết: ● H : 2 tiêu
₀ thức độc lập (không liên hệ) ● H : 2 tiêu
₁ thức có liên hệ phụ thuộc Các bước:
1. Lập bảng liên hợp (k × m)
2. Tính tần số kỳ vọng: Eij = (Ri × Cj)/n
3. Tính χ² = ΣΣ(Oij - Eij)²/Eij 4. df = (k-1)(m-1) 5. So sánh với χ²(α, df) Quy tắc:
● Nếu χ² > χ²(α, df): Bác bỏ H (có ₀ liên hệ) CHƯƠNG 7: HỒI QUY
1. MỤC ĐÍCH PHÂN TÍCH HỒI QUY
1. Xác định mức độ thay đổi của Y khi X thay đổi
2. Kiểm định bản chất của sự phụ thuộc
3. Dự báo giá trị Y khi biết X
2. MÔ HÌNH HỒI QUY TUYẾN TÍNH 2.1. Mô hình Tổng thể ● Y = β + ₀β X ₁ + ε
● β : hệ₀ số chặn (intercept)
● β : hệ₁ số góc (slope) ● ε: sai số ngẫu nhiên 2.2. Mô hình Mẫu ● Ŷ = b + ₀ b₁X ● b , b : ₀ước ₁ lượng của β , ₀ β₁ ● Ŷ: giá trị dự đoán
● ei = yi - ŷi: phần dư (residual)
2.3. Ước lượng Hệ số (Phương pháp OLS) Công thức: ● b = Σ(xi -₁ )(yi ȳ - x )/Σ(xi x - )² = Sxy/Sxx ● b = ₀ - ȳ b₁x Giải thích: ● b : Khi X tăng ₁
1 đơn vị, Y tăng/giảm b đơn ₁ vị ● b : Giá trị ₀ Y khi X = 0
3. GIẢ THIẾT CỦA MÔ HÌNH
1. Tính tuyến tính: Mối quan hệ giữa X và Y là tuyến tính
2. E(ε) = 0: Sai số có kỳ vọng bằng 0
3. Var(ε) = σ² không đổi: Phương sai đồng nhất (homoscedasticity)
4. Cov(εi, εj) = 0: Không có tự tương quan
5. ε ~ N(0, σ²): Sai số phân phối chuẩn Kiểm tra vi phạm:
● Vẽ đồ thị phần dư (residual plot)
● Kiểm định Breusch-Pagan (phương sai không đồng nhất)
● Kiểm định Durbin-Watson (tự tương quan)
4. HỆ SỐ XÁC ĐỊNH (R²) Công thức:
● R² = SSR/SST = 1 - SSE/SST ● SST = Σ(yi - )²: Tổng ȳ bình phương toàn phần ● SSR = Σ(ŷi - )²: Tổng ȳ bình phương hồi quy
● SSE = Σ(yi - ŷi)²: Tổng bình phương phần dư Giải thích: ● 0 ≤ R² ≤ 1
● R² = 0.75: Mô hình giải thích được 75% biến động của Y
● R² càng gần 1: mô hình càng phù hợp
Hệ số xác định điều chỉnh:
● R²adj = 1 - (1-R²)(n-1)/(n-k-1)
● k: số biến độc lập
5. KIỂM ĐỊNH SỰ PHÙ HỢP
5.1. Kiểm định F (Mô hình tổng thể) Giả thuyết:
● H : β = ₀0 ₁(X không giải thích Y)
● H₁: β₁ ≠ 0 (X giải thích Y) Thống kê:
● F = MSR/MSE = [SSR/1]/[SSE/(n-2)] ● df = 1, ₁ df = ₂ n-2 Quy tắc:
● Nếu F > F(α, 1, n-2): Bác bỏ H (mô ₀ hình phù hợp)
● Hoặc p-value < α: Bác bỏ H₀
5.2. Kiểm định t (Hệ số hồi quy) Giả thuyết: ● H : β₀ = ₁ 0 ● H₁: β₁ ≠ 0 Thống kê: ● t = b₁/SE(b₁)
● SE(b₁) = √[MSE/Σ(xi - x )²] ● df = n-2 Quy tắc:
● Nếu |t| > t(α/2, n-2): Bác bỏ H₀
● Hoặc p-value < α: Bác bỏ H₀
6. KHOẢNG TIN CẬY CHO HỆ SỐ Cho β₁: ● CI: b ± t(α/2, ₁ n-2) × SE(b₁) Cho β₀: ● CI: b ± t(α/2, ₀ n-2) × SE(b₀) 7. DỰ BÁO Điểm ước lượng: ● Ŷ = ₀b + ₀ b₁ X₀
Khoảng tin cậy (cho giá trị trung bình): ● Ŷ ± t(α/2, ₀ n-2) × SE(Ŷ₀)
Khoảng dự báo (cho giá trị cá biệt): ● Ŷ ± t(α/2, ₀ n-2) × SE(pred) ● SE(pred) > SE(Ŷ₀)
CHƯƠNG 8: DÃY SỐ THỜI GIAN VÀ CHỈ SỐ A. DÃY SỐ THỜI GIAN 1. CÁC LOẠI DÃY SỐ 1.1. Dãy số Thời điểm
● Giá trị tại 1 thời điểm cụ thể
● VD: Dân số 31/12 hàng năm 1.2. Dãy số Thời kỳ
● Giá trị tích lũy trong 1 khoảng thời gian ● VD: Doanh thu theo tháng 2. CHỈ TIÊU MÔ TẢ
2.1. Trung bình theo thời gian Dãy số thời kỳ: ● = ȳ Σyi/n
Dãy số thời điểm (khoảng cách đều): ● = [(y /2 ȳ + y ₁ + ...₂ + yn ₋ + ₁ yn/2)]/(n-1) 2.2. Mô tả Biến động
Tốc độ Phát triển (Growth Rate): ● Ti = yi/y × ₀ 100% ● yi: mức độ kỳ i ● y : mức ₀ độ gốc
Tốc độ Tăng (Increase Rate):
● ΔTi = Ti - 100% = (yi - y )/y₀ × ₀ 100%
Tốc độ Phát triển Liên hoàn: ● ti = yi/yi ₋₁× 100% Tốc độ Tăng Liên hoàn: ● Δti = ti - 100%
Tốc độ Phát triển Trung bình:
● T = ⁿ√(yn/y₀) × 100%
● n: số lần tăng trưởng Tốc độ Tăng Trung bình: ● Δ = T - 100% 3. XU HƯỚNG PHÁT TRIỂN
3.1. Phương pháp Trung bình Trượt (Moving Average)
Mục đích: Làm mịn dữ liệu, loại bỏ biến động ngẫu nhiên
Trung bình trượt đơn giản (k kỳ): ● MA = (y ₜ+ yₜ +
ₜ₊₁ ... + yₜ₊ₖ₋₁ )/k
Trung bình trượt có trọng số:
● WMA = ₜΣ(wi × yₜ₊ᵢ₋₁ )/Σwi 3.2. Phương pháp Hồi quy Xu hướng tuyến tính: ● Ŷ = ₜb + ₀ b₁ t
● t: biến thời gian (1, 2, 3,...) Xu hướng phi tuyến: ● Hàm bậc 2: Ŷ = bₜ + ₀ b t ₁ + b₂ t² ● Hàm mũ: Ŷ = ₜb × ₀ b₁ᵗ ● Hàm logarit: Ŷ = ₜb + ₀ b₁ ln(t) 4. BIẾN ĐỘNG THỜI VỤ
Chỉ số Thời vụ (SI - Seasonal Index):
TH1: Có ảnh hưởng xu thế
1. Tính MA (trung bình trượt)
2. Tính tỷ số: R =ᵢ y /MA ᵢ ᵢ 3. Tính TB các R cùng ᵢ mùa: SIⱼ
4. Điều chỉnh để Σ SI = 400 (cho ⱼ
4 quý) hoặc 1200 (cho 12 tháng)
TH2: Không có ảnh hưởng xu thế ● SI = ⱼ( /ȳⱼ ) ȳ × 100% ● : TB ȳⱼ của quý/tháng j ● : ȳTB chung Giải thích:
● SI = 100: mức trung bình ● SI > 100: cao điểm
● SI < 100: thấp điểm 5. PHƯƠNG PHÁP DỰ ĐOÁN
5.1. Phương pháp Ngây thơ (Naive) ● Ŷ ₜ₊₁ = yₜ
● Dự báo = giá trị thực tế kỳ trước
Ưu điểm: Đơn giản Nhược điểm: Không phù hợp khi có xu hướng 5.2. Trung bình Di động ● Ŷ ₜ₊₁ = MAₜ
● Dùng TB k kỳ gần nhất
Ưu điểm: Làm mịn biến động Nhược điểm: Chậm phản ứng với thay đổi
5.3. Làm mịn Mũ đơn giản ● Ŷ =
ₜ₊₁ α×y ₜ+ (1-α)×Ŷₜ
● α: hệ số làm mịn (0 < α < 1)
Ưu điểm: Linh hoạt, phản ứng nhanh Nhược điểm: Cần chọn α phù hợp 5.4. Hồi quy Xu hướng
● Ước lượng phương trình xu hướng
● Thay t tương lai vào phương trình
Ưu điểm: Bắt xu hướng dài hạn Nhược điểm: Giả định xu hướng không đổi
5.5. Hồi quy có Biến động Thời vụ ● Ŷ = (bₜ + ₀ b t) ₁ × SIₜ /100
Ưu điểm: Tính cả xu hướng và mùa vụ Nhược điểm: Phức tạp hơn B. CHỈ SỐ
1. CHỈ SỐ CÁ THỂ (Individual Index)
Mục đích: So sánh 1 hiện tượng qua thời gian Công thức: ● i = ₐ(y /yₜ ) ₀ × 100% ● y : mức ₜ kỳ nghiên cứu ● y : mức ₀ kỳ gốc Ví dụ:
● Giá gạo năm 2024 là 10,000đ, năm 2020 là 8,000đ
● Chỉ số giá: i = (10,000/8,000) × 100% = 125%
● Ý nghĩa: Giá tăng 25% so với năm 2020
2. CHỈ SỐ CHUNG (Aggregate Index)
Mục đích: So sánh tổng hợp nhiều hiện tượng
2.1. Chỉ số Laspeyres (Quyền số kỳ gốc) Chỉ số Giá:
● IL(p) = [Σ(p × qₜ )/Σ(p ₀ × ₀ q )]₀ × 100% Chỉ số Lượng:
● IL(q) = [Σ(q × pₜ )/Σ(q ₀ × ₀ p )]₀ × 100% Đặc điểm:
● Dùng quyền số kỳ gốc (q , ₀ p₀)
● Dễ tính toán, dữ liệu ổn định
● Phản ánh kém thực tế khi thời gian dài
2.2. Chỉ số Paasche (Quyền số kỳ nghiên cứu) Chỉ số Giá:
● IP(p) = [Σ(p × qₜ)/Σ(pₜ × ₀ q )]ₜ × 100% Chỉ số Lượng:
● IP(q) = [Σ(q × pₜ)/Σ(qₜ × ₀ p )]ₜ × 100% Đặc điểm:
● Dùng quyền số kỳ nghiên cứu (q , ₜ pₜ )
● Phản ánh thực tế hơn
● Khó tính, cần cập nhật quyền số
2.3. Chỉ số Fisher (Trung bình nhân) ● IF = √(IL × IP)
● Cân bằng ưu nhược điểm 2 chỉ số Ứng dụng:
● CPI (Chỉ số Giá Tiêu dùng): đo lạm phát
● PPI (Chỉ số Giá Sản xuất) ● GDP Deflator
CHƯƠNG 9: PHÂN TÍCH PHƯƠNG SAI 1. KHÁI NIỆM
Phân tích Phương sai (ANOVA): Kiểm định sự khác biệt trung bình của 3 nhóm trở lên
Yếu tố (Factor): Biến độc lập định tính (VD: phương pháp sản xuất, vùng địa lý)
Mức độ (Level): Các giá trị của yếu tố (VD: phương pháp A, B, C) 2. ANOVA MỘT YẾU TỐ
Mục đích: Kiểm định k nhóm có trung bình bằng nhau không Giả thuyết: ● H : μ = μ = ₀... ₁ = μ₂ (tất cả ₖ nhóm có TB bằng nhau)
● H : Có ít₁ nhất 1 cặp khác nhau Giả định: 1. Các nhóm độc lập
2. Dữ liệu phân phối chuẩn trong mỗi nhóm
3. Phương sai đồng nhất (σ ² = σ₁ ² = ₂ ... = σₖ ²)
3. CÁC THÀNH PHẦN PHƯƠNG SAI
3.1. Tổng Bình phương Toàn phần (SST) ● SST = ΣΣ(y ᵢ-ⱼ )² ȳ ● df(T) = n - 1
3.2. Tổng Bình phương Giữa các nhóm (SSB) ● SSB = Σn ( ⱼ ȳⱼ- ȳ )² ● df(B) = k - 1
● Đo biến động do yếu tố
3.3. Tổng Bình phương Trong nhóm (SSW)
● SSW = ΣΣ(y ᵢ-ⱼ ȳⱼ )² ● df(W) = n - k
● Đo biến động ngẫu nhiên Quan hệ: ● SST = SSB + SSW ● df(T) = df(B) + df(W)
4. THỐNG KÊ KIỂM ĐỊNH F Bình phương trung bình: ● MSB = SSB/(k-1) ● MSW = SSW/(n-k) Thống kê F: ● F = MSB/MSW ● df = k-1, ₁ df = ₂ n-k Quy tắc:
● Nếu F > F(α, k-1, n-k): Bác bỏ H₀
● Kết luận: Có ít nhất 1 nhóm khác biệt 5. BẢNG ANOVA
Nguồn biến động SS df MS F p-value Giữa nhóm SSB k-1 MSB F p Trong nhóm SSW n-k MSW Tổng SST n-1 6. SAU ANOVA: SO SÁNH CẶP Nếu bác bỏ H , cần xác ₀
định cặp nào khác biệt: 6.1. Phương pháp Bonferroni
● Điều chỉnh α: α* = α/C
● C = k(k-1)/2: số cặp so sánh
6.2. Phương pháp Tukey (HSD) ● HSD = q × √(MSW/n) ● q: từ bảng Tukey 6.3. Phương pháp Scheffe
● Bảo thủ nhất, kiểm soát sai lầm tốt 7. VÍ DỤ ỨNG DỤNG
Tình huống: So sánh năng suất 3 giống lúa (A, B, C) Dữ liệu:
● Giống A: 45, 48, 46, 50, 47
● Giống B: 52, 55, 53, 54, 51
● Giống C: 48, 50, 49, 51, 47
Câu hỏi: Năng suất 3 giống có khác biệt không?
Phương pháp: ANOVA một yếu tố ● H : μA ₀ = μB = μC
● H : Có ít₁ nhất 1 cặp khác nhau
PHẦN 2: CÁC VẤN ĐỀ THẮC MẮC
1. CHƯƠNG 2 - MÔ TẢ DỮ LIỆU
1.1. Khi nào dùng Mean, Median, Mode?
● Mean: Dữ liệu đối xứng, không có outlier
● Median: Dữ liệu lệch, có outlier (ít bị ảnh hưởng)
● Mode: Dữ liệu định tính, hoặc cần giá trị phổ biến nhất
1.2. Tại sao công thức phương sai mẫu chia (n-1) thay vì n?
● Để ước lượng không ch 편 (unbiased estimator)
● n-1 là bậc tự do (degrees of freedom)
● Bù đắp cho việc dùng thay x vì μ
1.3. Hệ số tương quan r = 0 có nghĩa không có mối liên hệ?
● Không! r = 0 chỉ nghĩa không có tương quan tuyến tính
● Vẫn có thể có mối quan hệ phi tuyến (VD: parabol)
1.4. Phân biệt Covariance và Correlation?
● Covariance: Đo chiều hướng, không có đơn vị chuẩn
● Correlation: Chuẩn hóa (-1 đến 1), đo cả chiều hướng và cường độ
1.5. Biểu đồ Hộp cho biết thông tin gì?
● Trung vị (Q2): vạch giữa hộp
● Khoảng tứ phân vị (IQR = Q3-Q1): độ dài hộp ● Min, Max: đầu râu
● Outliers: điểm ngoài râu
● Hình dạng phân phối: độ đối xứng
2. CHƯƠNG 4 - LẤY MẪU & ƯỚC LƯỢNG
2.1. Tại sao cần lấy mẫu?
● Tổng thể quá lớn, tốn kém/thời gian khảo sát toàn bộ
● Khảo sát phá hủy (VD: test độ bền sản phẩm)
● Không thể tiếp cận toàn bộ tổng thể
2.2. Phân biệt n ≥ 30 và n < 30?
● n ≥ 30: Định lý giới hạn trung tâm → dùng Z
● n < 30: Cần giả định phân phối chuẩn → dùng t
2.3. Khoảng tin cậy 95% nghĩa là gì?
● Sai: "Có 95% xác suất tham số nằm trong khoảng"
● Đúng: "Nếu lấy 100 mẫu, khoảng 95 khoảng tin cậy sẽ chứa tham số thực"
● Tham số cố định, khoảng tin cậy ngẫu nhiên
2.4. Làm sao tăng độ chính xác ước lượng?
● Tăng kích thước mẫu n
● Giảm mức tin cậy (1-α) - không khuyến khích
● Giảm phương sai tổng thể σ² (nếu có thể)
2.5. Khi nào dùng Z, khi nào dùng t? Điều kiện Thống kê Biết σ, bất kỳ n Z Chữa biết σ, n ≥ 30 Z
Chưa biết σ, n < 30, X~N t
3. CHƯƠNG 5 - KIỂM ĐỊNH THAM SỐ
3.1. Phân biệt α và p-value?
● α: Mức ý nghĩa, định trước (thường 0.05)
● p-value: Xác suất tính từ dữ liệu mẫu
● Quy tắc: p-value < α → Bác bỏ H₀ 3.2. Tại sao H luôn ₀ có dấu "="? ● H là giả thuyết ₀
về tham số cụ thể (điểm)
● Cần giá trị cụ thể để tính thống kê kiểm định ● H thể hiện ₁ điều muốn chứng minh
3.3. "Chấp nhận H " có₀ nghĩa H ₀ đúng?
● Không! Chỉ nghĩa "chưa đủ bằng chứng bác bỏ H₀"
● Nên nói "Không bác bỏ H " thay ₀ vì "Chấp nhận H₀"
3.4. Phân biệt Mẫu độc lập và Mẫu cặp?
Mẫu độc lập Mẫu cặp Quan hệ Không liên quan
Có liên hệ (cùng đối tượng) Ví dụ Nam vs Nữ Trước vs Sau điều trị Phương pháp Two-sample t-test Paired t-test Dữ liệu 2 mẫu riêng 1 mẫu, 2 lần đo
3.5. Kiểm định 1 đuôi hay 2 đuôi?
● 2 đuôi (≠): Không biết chiều khác biệt
● 1 đuôi (>, <): Biết rõ chiều muốn chứng minh
● Ví dụ: Thuốc mới tốt HƠN thuốc cũ → 1 đuôi phải
3.6. Khi nào dùng F-test để so sánh phương sai?
● Trước khi so sánh 2 trung bình (kiểm tra σ ² ₁= σ₂²)
● Quyết định dùng pooled variance hay không
● Trong ANOVA để so sánh nhiều nhóm
4. CHƯƠNG 6 - KIỂM ĐỊNH PHI THAM SỐ
4.1. Khi nào dùng Kiểm định Phi tham số?
● Dữ liệu không phân phối chuẩn ● Kích thước mẫu nhỏ
● Dữ liệu thứ bậc (ordinal)
● Vi phạm giả định kiểm định tham số 4.2. Wilcoxon vs Mann-Whitney? Wilcoxon Mann-Whitney Loại mẫu Cặp Độc lập Thay thế cho Paired t-test Two-sample t-test Dữ liệu Cùng đối tượng Khác đối tượng
4.3. Tại sao phải lấy trị tuyệt đối khi xếp hạng Wilcoxon?
● Để xếp hạng theo độ lớn của chênh lệch, không quan tâm dấu
● Sau đó gán lại dấu để tính T và ⁺ T⁻
4.4. Spearman vs Pearson correlation? Pearson (r) Spearman (rs) Dữ liệu Định lượng
Thứ bậc hoặc định lượng Mối quan hệ Tuyến tính Đơn điệu Giả định Phân phối chuẩn Không yêu cầu Nhạy với outlier Có Ít hơn
4.5. χ² test: Khi nào dùng?
● Kiểm định độc lập 2 biến định tính
● Kiểm định phù hợp phân phối (Goodness of fit)
● Yêu cầu: Tần số kỳ vọng ≥ 5 trong mỗi ô 5. CHƯƠNG 7 - HỒI QUY
5.1. Phân biệt Correlation và Regression? Correlation Regression Mục đích Đo mức độ liên hệ Dự báo, giải thích Đối xứng Có (r(X,Y) = r(Y,X)) Không (Y phụ thuộc X) Kết quả Hệ số r Phương trình
5.2. R² cao có nghĩa mô hình tốt?
● Không hẳn! Còn phải kiểm tra:
● Các giả định có vi phạm không?
● Hệ số có ý nghĩa thống kê không?
● Mô hình có overfitting không? ● R² cao có thể do:
● Nhiều biến (dùng R²adj) ● Tương quan giả mạo
5.3. Tại sao cần kiểm tra giả định?
● Vi phạm giả định → ước lượng sai lệch, không hiệu quả
● Kết quả kiểm định không đáng tin cậy
● Cần khắc phục (transform, robust regression...)
5.4. Residual plot cho biết gì?
● Hình dạng ngẫu nhiên: Tốt, mô hình phù hợp
● Hình phễu: Vi phạm phương sai đồng nhất
● Hình cong: Vi phạm tính tuyến tính
● Xu hướng: Tự tương quan
5.5. Ngoại suy (Extrapolation) có được không?
● Nguy hiểm! Dự báo ngoài phạm vi dữ liệu
● Mối quan hệ có thể thay đổi
● Chỉ nên nội suy (Interpolation)
6. CHƯƠNG 8 - DÃY SỐ THỜI GIAN
6.1. Phân biệt Dãy thời điểm và Thời kỳ? Thời điểm Thời kỳ Tính chất Tồn kho, trạng thái Lưu lượng, tích lũy Cộng dồn Vô nghĩa Có ý nghĩa Ví dụ Dân số, vốn Doanh thu, sản lượng TB Công thức đặc biệt TB số học
6.2. Tốc độ phát triển vs Tốc độ tăng?
● Tốc độ phát triển (T): So với gốc, có đơn vị %
● Tốc độ tăng (ΔT): Phần tăng so với gốc ● Quan hệ: ΔT = T - 100%
6.3. Khi nào dùng MA, khi nào dùng ES? Moving Average Exponential Smoothing Ưu tiên Tất cả k kỳ như nhau Kỳ gần quan trọng hơn Phản ứng Chậm Nhanh Dùng khi Ổn định Biến động nhanh
6.4. Chỉ số thời vụ 120 nghĩa là gì?
● Cao hơn mức trung bình 20% ● Là cao điểm trong năm
● VD: Doanh thu tháng 12 thường cao do mua sắm cuối năm 6.5. Laspeyres vs Paasche? Laspeyres Paasche Quyền số Kỳ gốc Kỳ hiện tại Ưu điểm Dễ tính, so sánh được Phản ánh thực tế Nhược điểm Lỗi thời theo thời gian Khó tính, khó so sánh Xu hướng Thổi phồng lạm phát Giảm nhẹ lạm phát
7. CHƯƠNG 9 - PHÂN TÍCH PHƯƠNG SAI 7.1. ANOVA vs t-test? ● t-test: So sánh 2 nhóm
● ANOVA: So sánh ≥ 3 nhóm
● Nếu dùng nhiều t-test → tăng sai lầm loại I
● ANOVA kiểm soát α cho toàn bộ phép thử
7.2. Tại sao cần kiểm tra phương sai đồng nhất?
● Giả định quan trọng của ANOVA
● Vi phạm → kết quả F-test không chính xác
● Kiểm tra: Levene's test, Bartlett's test
● Khắc phục: Welch's ANOVA (không yêu cầu phương sai đồng nhất)
7.3. ANOVA có ý nghĩa, tiếp theo làm gì?
● ANOVA chỉ cho biết "có khác biệt"
● Cần Post-hoc test để xác định cặp nào khác biệt
● Các phương pháp: Tukey, Bonferroni, Scheffe
● Không nên dùng nhiều t-test riêng lẻ
7.4. Phân biệt One-way và Two-way ANOVA? One-way Two-way Số yếu tố 1 2 Ví dụ So sánh 3 giống lúa
So sánh 3 giống lúa × 2 loại phân bón Phân tích Hiệu ứng chính
Hiệu ứng chính + tương tác
7.5. MSB và MSW đại diện cho gì?
● MSB (Between): Biến động do yếu tố (signal)
● MSW (Within): Biến động ngẫu nhiên (noise)
● F = MSB/MSW: Tỷ lệ signal/noise
● F lờTn → yếu tố có ảnh hữờong 8. CÂU HỎI CHUNG
8.1. Khi nào dùng kiểm định nào? So sánh Trung bình: Tình huống Kiểm định 1 nhóm vs giá trị One-sample t-test 2 nhóm độc lập Two-sample t-test