BÀI TẬP NHÓM - HỌC PHẦN NGUYÊN THỐNG
PHẦN 1: HỆ THỐNG THUYẾT CÁC CHƯƠNG
CHƯƠNG 2: TẢ DỮ LIỆU CHÉO
1. PHƯƠNG PHÁP BẢNG PHÂN PHỐI
Mục đích: Tổ chức dữ liệu thành các nhóm để dễ quan sát phân tích
Các bước thực hiện:
Xác định số tổ (k): sử dụng công thức Sturges: k 1 + 3.322 × log(n)
Tính khoảng cách tổ: h = (Max - Min) / k
Đếm tần số các tổ
Tính tần suất (%) = (tần số / tổng số) × 100
Lưu ý quan trọng:
Khoảng cách tổ phải đều nhau
Biên trên tổ này biên dưới tổ kế tiếp
2. PHƯƠNG PHÁP BIỂU ĐỒ/ĐỒ THỊ
2.1. Biểu đồ Cột (Bar Chart)
Dùng cho dữ liệu định tính
Chiều cao cột thể hiện tần số/tần suất
2.2. Biểu đồ Hình Tròn (Pie Chart)
Thể hiện tỷ trọng các thành phần
Tổng các phần = 100%
2.3. Biểu đồ Cành (Stem-and-Leaf)
Giữ nguyên giá trị gốc của dữ liệu
Cành: chữ số hàng chục
Lá: chữ số hàng đơn vị
Ưu điểm: Vừa thể hiện phân phối vừa giữ thông tin chi tiết
dụ:
Dữ liệu: 23, 25, 27, 31, 33, 35, 42, 45
Stem | Leaf
2 | 3 5 7
3 | 1 3 5
4 | 2 5
3. CÁC CHỈ TIÊU TẢ
3.1. Độ Tập Trung của Dữ Liệu
Chỉ tiêu Tổng thể Mẫu Ý nghĩa
Trung bình μ = Σxi/N = Σxi/nx
Giá trị đại diện
Trung vị Me Me Giá trị giữa (sắp xếp tăng dần)
Mode Mo Mo Giá trị xuất hiện nhiều nhất
Cách tính Trung vị:
1. Sắp xếp dữ liệu tăng dần
2. Nếu n lẻ: Me = x((n+1)/2)
3. Nếu n chẵn: Me = [x(n/2) + x(n/2+1)] / 2
3.2. Độ Phân Tán của Dữ Liệu
Chỉ tiêu Công thức Tổng thể Công thức Mẫu
Khoảng biến thiên R = Max - Min R = Max - Min
Độ lệch tuyệt đối TB MAD = Σ|xi - μ|/N MAD = Σ|xi - |/nx
Phương sai σ² = Σ(xi - μ)²/N = Σ(xi - )²/(n-1)x
Độ lệch chuẩn
σ = √σ²
s = √s²
Hệ số biến thiên CV = (σ/μ) × 100% CV = (s/ ) × 100%x
Ý nghĩa:
R: khoảng dao động của dữ liệu
σ, s: mức độ phân tán trung bình quanh giá trị TB
CV: so sánh độ phân tán giữa các tập dữ liệu khác đơn vị
3.3. Tứ Phân Vị Biểu Đồ Hộp
Các bước tính:
1. Sắp xếp dữ liệu tăng dần
2. Q2 = Trung vị
3. Q1 = Trung vị của nửa dưới
4. Q3 = Trung vị của nửa trên
Biểu đồ Hộp (Box Plot):
|----[===|===]----|
Min Q1 Q2 Q3 Max
Hộp: từ Q1 đến Q3 (chứa 50% d liệu giữa)
Đường trong hộp: Q2 (trung vị)
Râu: kéo dài đến Min Max
3.4. Hình Dáng Phân Phối
Cách 1: So sánh Mean, Median, Mode
Tình huống Đặc điểm Hình dạng
Mean = Me = Mo Đối xứng Chuẩn
Mean > Me > Mo Lệch phải Đuôi kéo dài bên phải
Mean < Me < Mo Lệch trái Đuôi kéo dài bên trái
Cách 2: Hệ số
Hệ số SKEW (độ lệch):
SKEW = 0: đối xứng
SKEW > 0: lệch phải
SKEW < 0: lệch trái
Hệ số KURT (độ nhọn):
KURT = 3: phân phối chuẩn
KURT > 3: nhọn hơn chuẩn
KURT < 3: tẹt hơn chuẩn
3.5. Mối Liên Hệ Giữa 2 Tiêu Thức
3.5.1. Hai Tiêu Thức Định Lượng
Hiệp phương sai:
Tổng thể: Cov(X,Y) = Σ(xi - μx)(yi - μy)/N
Mẫu: Cov(X,Y) = Σ(xi - )(yi - )/(n-1)x
ȳ
Hệ số tương quan (r):
r = Cov(X,Y) / (sx × sy)
-1 r 1
Giải thích:
|r| gần 1: tương quan chặt
|r| gần 0: tương quan lỏng
r > 0: tương quan thuận
r < 0: tương quan nghịch
3.5.2. Hai Tiêu Thức Định Tính
Hệ số liên hợp (C):
C = √(χ²/(χ² + n))
0 C < 1
Hệ số Cramer (V):
V = √(χ²/[n × min(k-1, m-1)])
0 V 1
V gần 1: liên hệ chặt
V gần 0: liên hệ lỏng
CHƯƠNG 4: LẤY MẪU ƯỚC ỢNG THAM SỐ
1. CÁC KHÁI NIỆM BẢN
Tổng thể (Population): Toàn bộ các đơn vị cần nghiên cứu
Hữu hạn: N < (VD: sinh viên một trữờng)
hạn: N (VD: sản phẩm tữdây chuyền)
Mẫu (Sample): Một phần đại diện của tổng thể
Kích thước mẫu: n
Phân biệt quan trọng:
Tổng thể Mẫu
Thuật ngữ Tham số Thống
Tính chất Cố định, duy nhất Ngẫu nhiên, biến đổi
Trung bình μ x
Tỷ lệ p p
Phương sai σ²
2. PHƯƠNG PHÁP LẤY MẪU
2.1. Lấy mẫu Ngẫu nhiên Đơn giản
Mỗi đơn vị xác suất được chọn như nhau
2.2. Lấy mẫu Phân tầng
Chia tổng thể thành các tầng đồng nhất
Lấy mẫu từ mỗi tầng
2.3. Lấy mẫu Hệ thống
Chọn theo khoảng cách cố định
2.4. Lấy mẫu Cụm
Chia thành cụm, chọn ngẫu nhiên c cụm
3. PHÂN PHỐI MẪU
3.1. Phân phối của Trung bình mẫu ( )x
Nếu X ~ N(μ, σ²) hoặc n 30:
~ N(μ, σ²/n)x
Chuẩn hóa: Z = (x- μ)/(σ/√n) ~ N(0,1)
3.2. Phân phối của Tỷ lệ mẫu ( )p
Nếu np 5 n(1-p) 5:
~ N(p, p(1-p)/n)p
Z = (p- p)/√[p(1-p)/n] ~ N(0,1)
3.3. Phân phối của Phương sai mẫu (s²)
χ² = (n-1)s²/σ² ~ χ²(n-1)
4. ƯỚC LƯỢNG ĐIỂM
Dùng thống mẫu để ước lượng tham số tổng thể:
μ x
p p
σ²
5. ƯỚC LƯỢNG KHOẢNG
5.1. Ước lượng Trung bình μ
TH1: Biết σ (hoặc n 30)
CI: x ± Z(α/2) × σ/√n
TH2: Chưa biết σ (n < 30)
CI: x ± t(α/2, n-1) × s/√n
5.2. Ước lượng Tỷ lệ p
CI: p± Z(α/2) × √[p(1-p)/n]
5.3. Ước lượng Phương sai σ²
CI: [(n-1)s²/χ²(α/2, n-1), (n-1)s²/χ²(1-α/2, n-1)]
Giải thích Khoảng tin cậy:
Độ tin cậy (1-α)%: VD: 95%, 99%
Ý nghĩa: Với mức tin cậy 95%, tham số thực nằm trong khoảng ước lượng
6. XÁC ĐỊNH KÍCH THƯỚC MẪU
6.1. Ước lượng μ với độ chính xác E
n = (Z(α/2) × σ / E)²
6.2. Ước lượng p với độ chính xác E
n = Z²(α/2) × p(1-p) /
Nếu chưa biết p, dùng p = 0.5 (bảo thủ nhất)
CHƯƠNG 5: KIỂM ĐỊNH THAM SỐ
1. GIẢ THUYẾT THỐNG
Định nghĩa: Phát biểu về tham số của tổng thể cần kiểm chứng
Cấu trúc:
H (Giả thuyết không): Luôn dấu "="
H (Giả thuyết đối): dấu "≠", ">", "<"
dụ:
H₀: μ = 100 vs H₁: μ 100 (hai phía)
H₀: μ 100 vs H₁: μ > 100 (phía phải)
H₀: μ 100 vs H₁: μ < 100 (phía trái)
2. SAI LẦM TRONG KIỂM ĐỊNH
H đúng H sai
Chấp nhận H Đúng Sai lầm loại II (β)
Bác bỏ H Sai lầm loại I (α) Đúng
Mức ý nghĩa α:
Xác suất mắc sai lầm loại I
Thường chọn: α = 0.05 (5%) hoặc 0.01 (1%)
3. QUY TRÌNH KIỂM ĐỊNH (5 ỚC)
Bước 1: Xây dựng giả thuyết
Đặt H H dựa trên bài toán
Bước 2: Chọn mức ý nghĩa α
Thường α = 0.05
Bước 3: Chọn thống kiểm định tính giá trị
Z, t, χ², F tùy trường hợp
Bước 4: Xác định miền bác bỏ / Tính p-value
So sánh với giá trị tới hạn
Bước 5: Kết luận
Bác bỏ H hoặc Chấp nhận H
Giải thích ý nghĩa thực tế
4. KIỂM ĐỊNH CHO 1 TỔNG THỂ
4.1. Kiểm định Trung bình μ
TH1: Biết σ (hoặc n 30)
Thống kê: Z = (x- μ₀)/(σ/√n)
Phân phối: N(0,1)
TH2: Chưa biết σ (n < 30)
Thống kê: t = (x- μ₀)/(s/√n)
Phân phối: t(n-1)
4.2. Kiểm định Tỷ lệ p
Thống kê: Z = (p- p₀)/√[p₀(1-p₀)/n]
Phân phối: N(0,1)
4.3. Kiểm định Phương sai σ²
Thống kê: χ² = (n-1)s²/σ ²
Phân phối: χ²(n-1)
5. KIỂM ĐỊNH CHO 2 TỔNG THỂ
5.1. So sánh 2 Trung bình
A. Mẫu độc lập:
TH1: Biết σ , σ
Z = (x - x₂)/√(σ₁²/n₁ + σ₂²/n₂)
TH2: Chưa biết σ , σ nhưng σ ² = σ ²
t = (x - x₂)/[sp√(1/n₁ + 1/n₂)]
sp² = [(n -1)s ² + (n -1)s ²]/(n +n -2)
df = n + n - 2
TH3: Chữa biết σ₁, σ₂ σ₁² σ₂²
t = (x - x₂)/√(s₁²/n₁ + s₂²/n₂)
df = công thức Welch (phức tạp)
B. Mẫu cặp:
Tính = Σdi/n (di = xi - yi)d
t = d/(sd/√n)
df = n - 1
5.2. So sánh 2 Tỷ lệ (mẫu độc lập)
= (n + n )/(n + n )p ₁p
₂p
Z = (p - p₂)/√[p(1-p)(1/n₁ + 1/n₂)]
5.3. So sánh 2 Phương sai
F = s ²/s ² (s ² > s ²)
df = n - 1, df = n - 1
6. ƯỚC LƯỢNG SỰ KHÁC BIỆT
6.1. Khác biệt 2 Trung bình
Mẫu độc lập:
CI: ( - ) ± t(α/2) × SEx
x
SE phụ thuộc trường hợp (như kiểm định)
Mẫu cặp:
CI: d ± t(α/2, n-1) × sd/√n
6.2. Khác biệt 2 Tỷ lệ
CI: (p - p₂) ± Z(α/2) × √[p₁(1-p₁)/n₁ + p₂(1-p₂)/n₂]
CHƯƠNG 6: KIỂM ĐỊNH PHI THAM SỐ
1. ĐẶC ĐIỂM
Khác biệt với Kiểm định Tham số:
Không giả định phân phối của tổng thể
Không kiểm định về tham số (μ, p, σ²)
Dùng dữ liệu gián tiếp: dấu, hạng, tần số
Khi nào sử dụng:
Dữ liệu không phân phối chuẩn
Kích thước mẫu nhỏ
Dữ liệu thứ bậc (ranking)
2. KIỂM ĐỊNH WILCOXON (Mẫu cặp)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu cặp
Giả thuyết:
H : Me(X) = Me(Y) (2 tổng thể giống nhau)
H₁: Me(X) Me(Y) (khác nhau)
Các bước thực hiện:
1. Tính chênh lệch: di = xi - yi
2. Lấy trị tuyệt đối: |di|
3. Xếp hạng |di| (bỏ qua di = 0)
4. Gán dấu cho hạng theo dấu của di
5. Tính T (tổng hạng dương) T (tổng hạng âm)
6. Thống kê: T = min(T , T )
7. So sánh vờTi giá trị tờTi hạn tữbảng Wilcoxon vờTi n (số di 0)
Quy tắc:
Nếu T T(α, n): Bác bỏ H₀
3. KIỂM ĐỊNH MANN-WHITNEY (Mẫu độc lập)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu độc lập
Giả thuyết:
H : 2 tổng thể phân phối giống nhau
H : 2 tổng thể phân phối khác nhau
Các bước:
1. Gộp 2 mẫu xếp hạng chung
2. Giá trị bằng nhau hạng trung bình
3. Tính tổng hạng mỗi mẫu: R , R
4. Tính U = n n + n (n +1)/2 - R
5. Tính U = n n + n (n +1)/2 - R
6. U = min(U , U )
7. So sánh với bảng Mann-Whitney
Quy tắc:
Nếu U U(α, n₁, n₂): Bác bỏ H₀
4. KIỂM ĐỊNH SPEARMAN (Tương quan hạng)
Mục đích: Kiểm định mối liên hệ giữa 2 tiêu thức định lượng
Giả thuyết:
H : ρ = 0 (không tương quan)
H₁: ρ 0 (có tữờng quan)
H : ρ > 0 (tương quan thuận)
H : ρ < 0 (tương quan nghịch)
Các bước:
1. Xếp hạng riêng cho X Y
2. Tính di = Rx(i) - Ry(i)
3. Tính rs = 1 - 6Σdi²/[n(n²-1)]
4. So sánh với bảng Spearman
Giải thích:
-1 rs 1
|rs| gần 1: tương quan chặt
rs > 0: thuận chiều
rs < 0: nghịch chiều
5. KIỂM ĐỊNH χ² ĐỘC LẬP (Hai tiêu thức định tính)
Mục đích: Kiểm định mối liên hệ giữa 2 biến định tính
Giả thuyết:
H : 2 tiêu thức độc lập (không liên hệ)
H : 2 tiêu thức liên hệ phụ thuộc
Các bước:
1. Lập bảng liên hợp (k × m)
2. Tính tần số kỳ vọng: Eij = (Ri × Cj)/n
3. Tính χ² = ΣΣ(Oij - Eij)²/Eij
4. df = (k-1)(m-1)
5. So sánh với χ²(α, df)
Quy tắc:
Nếu χ² > χ²(α, df): Bác bỏ H (có liên hệ)
CHƯƠNG 7: HỒI QUY
1. MỤC ĐÍCH PHÂN TÍCH HỒI QUY
1. Xác định mức độ thay đổi của Y khi X thay đổi
2. Kiểm định bản chất của sự phụ thuộc
3. Dự báo giá trị Y khi biết X
2. HÌNH HỒI QUY TUYẾN TÍNH
2.1. hình Tổng thể
Y = β + β X + ε
β : hệ số chặn (intercept)
β : hệ số góc (slope)
ε: sai số ngẫu nhiên
2.2. hình Mẫu
Ŷ = b + b X
b , b : ước lượng của β , β
Ŷ: giá trị dự đoán
ei = yi - ŷi: phần (residual)
2.3. Ước lượng Hệ số (Phương pháp OLS)
Công thức:
b = Σ(xi - )(yi - )/Σ(xi - = Sxy/Sxx x
ȳ x
b = - b ȳ ₁x
Giải thích:
b : Khi X tăng 1 đơn vị, Y tăng/giảm b đơn vị
b : Giá trị Y khi X = 0
3. GIẢ THIẾT CỦA HÌNH
1. Tính tuyến tính: Mối quan hệ giữa X Y tuyến tính
2. E(ε) = 0: Sai số kỳ vọng bằng 0
3. Var(ε) = σ² không đổi: Phương sai đồng nhất (homoscedasticity)
4. Cov(εi, εj) = 0: Không tự tương quan
5. ε ~ N(0, σ²): Sai số phân phối chuẩn
Kiểm tra vi phạm:
Vẽ đồ thị phần (residual plot)
Kiểm định Breusch-Pagan (phương sai không đồng nhất)
Kiểm định Durbin-Watson (tự tương quan)
4. HỆ SỐ XÁC ĐỊNH (R²)
Công thức:
= SSR/SST = 1 - SSE/SST
SST = Σ(yi - )²: Tổng bình phương toàn phầnȳ
SSR = Σ(ŷi - )²: Tổng bình phương hồi quyȳ
SSE = Σ(yi - ŷi)²: Tổng bình phương phần dư
Giải thích:
0 1
= 0.75: hình giải thích được 75% biến động của Y
càng gần 1: hình càng phù hợp
Hệ số xác định điều chỉnh:
R²adj = 1 - (1-R²)(n-1)/(n-k-1)
k: số biến độc lập
5. KIỂM ĐỊNH SỰ PHÙ HỢP
5.1. Kiểm định F (Mô hình tổng thể)
Giả thuyết:
H : β = 0 (X không giải thích Y)
H₁: β₁ 0 (X giải thích Y)
Thống kê:
F = MSR/MSE = [SSR/1]/[SSE/(n-2)]
df = 1, df = n-2
Quy tắc:
Nếu F > F(α, 1, n-2): Bác bỏ H (mô hình phù hợp)
Hoặc p-value < α: Bác bỏ H
5.2. Kiểm định t (Hệ số hồi quy)
Giả thuyết:
H : β = 0
H₁: β₁ 0
Thống kê:
t = b /SE(b )
SE(b₁) = √[MSE/Σ(xi - x)²]
df = n-2
Quy tắc:
Nếu |t| > t(α/2, n-2): Bác bỏ H
Hoặc p-value < α: Bác bỏ H
6. KHOẢNG TIN CẬY CHO HỆ SỐ
Cho β :
CI: b ± t(α/2, n-2) × SE(b )
Cho β :
CI: b ± t(α/2, n-2) × SE(b )
7. DỰ BÁO
Điểm ước lượng:
Ŷ = b + b X
Khoảng tin cậy (cho giá trị trung bình):
Ŷ ± t(α/2, n-2) × SE(Ŷ )
Khoảng dự báo (cho giá trị biệt):
Ŷ ± t(α/2, n-2) × SE(pred)
SE(pred) > SE(Ŷ )
CHƯƠNG 8: DÃY SỐ THỜI GIAN CHỈ SỐ
A. DÃY SỐ THỜI GIAN
1. CÁC LOẠI DÃY SỐ
1.1. Dãy số Thời điểm
Giá trị tại 1 thời điểm cụ thể
VD: Dân số 31/12 hàng năm
1.2. Dãy số Thời kỳ
Giá trị tích lũy trong 1 khoảng thời gian
VD: Doanh thu theo tháng
2. CHỈ TIÊU TẢ
2.1. Trung bình theo thời gian
Dãy số thời kỳ:
= Σyi/nȳ
Dãy số thời điểm (khoảng cách đều):
= [(y /2 + y + ... + yn + yn/2)]/(n-1)ȳ
2.2. tả Biến động
Tốc độ Phát triển (Growth Rate):
Ti = yi/y × 100%
yi: mức độ kỳ i
y : mức độ gốc
Tốc độ Tăng (Increase Rate):
ΔTi = Ti - 100% = (yi - y )/y × 100%
Tốc độ Phát triển Liên hoàn:
ti = yi/yi × 100%₋₁
Tốc độ Tăng Liên hoàn:
Δti = ti - 100%
Tốc độ Phát triển Trung bình:
T = ⁿ√(yn/y₀) × 100%
n: số lần tăng trưởng
Tốc độ Tăng Trung bình:
Δ = - 100%T
T
3. XU HƯỚNG PHÁT TRIỂN
3.1. Phương pháp Trung bình Trượt (Moving Average)
Mục đích: Làm mịn dữ liệu, loại bỏ biến động ngẫu nhiên
Trung bình trượt đơn giản (k kỳ):
MA = (y + y + ... + y )/k ₜ₊₁ ₜ₊ₖ₋₁
Trung bình trượt trọng số:
WMA = Σ(wi × y )/Σwi ₜ₊ᵢ₋₁
3.2. Phương pháp Hồi quy
Xu hướng tuyến tính:
Ŷ = b + b t
t: biến thời gian (1, 2, 3,...)
Xu hướng phi tuyến:
Hàm bậc 2: Ŷ = b + b t + b
Hàm mũ: Ŷ = b × b ₁ᵗ
Hàm logarit: Ŷ = b + b ln(t)
4. BIẾN ĐỘNG THỜI VỤ
Chỉ số Thời vụ (SI - Seasonal Index):
TH1: ảnh hưởng xu thế
1. Tính MA (trung bình trượt)
2. Tính tỷ số: R = y /MA
3. Tính TB các R cùng mùa: SI
4. Điều chỉnh để Σ SI = 400 (cho 4 quý) hoặc 1200 (cho 12 tháng)
TH2: Không ảnh hưởng xu thế
SI = ( / ) × 100% ȳⱼ ȳ
: TB của quý/tháng jȳ
: TB chungȳ
Giải thích:
SI = 100: mức trung bình
SI > 100: cao điểm
SI < 100: thấp điểm
5. PHƯƠNG PHÁP DỰ ĐOÁN
5.1. Phương pháp Ngây thơ (Naive)
Ŷ = yₜ₊₁
Dự báo = giá trị thực tế kỳ trước
Ưu điểm: Đơn giản Nhược điểm: Không phù hợp khi xu hướng
5.2. Trung bình Di động
Ŷ = MAₜ₊₁
Dùng TB k kỳ gần nhất
Ưu điểm: Làm mịn biến động Nhược điểm: Chậm phản ứng với thay đổi
5.3. Làm mịn đơn giản
Ŷ = α×y + (1-α)×Ŷₜ₊₁
α: hệ số làm mịn (0 < α < 1)
Ưu điểm: Linh hoạt, phản ứng nhanh Nhược điểm: Cần chọn α phù hợp
5.4. Hồi quy Xu hướng
Ước lượng phương trình xu hướng
Thay t tương lai vào phương trình
Ưu điểm: Bắt xu hướng dài hạn Nhược điểm: Giả định xu hướng không đổi
5.5. Hồi quy Biến động Thời vụ
Ŷ = (b + b t) × SI /100
Ưu điểm: Tính cả xu hướng mùa vụ Nhược điểm: Phức tạp hơn
B. CHỈ SỐ
1. CHỈ SỐ THỂ (Individual Index)
Mục đích: So sánh 1 hiện tượng qua thời gian
Công thức:
i = (y /y ) × 100%
y : mức kỳ nghiên cứu
y : mức kỳ gốc
dụ:
Giá gạo năm 2024 10,000đ, năm 2020 8,000đ
Chỉ số giá: i = (10,000/8,000) × 100% = 125%
Ý nghĩa: Giá tăng 25% so với năm 2020
2. CHỈ SỐ CHUNG (Aggregate Index)
Mục đích: So sánh tổng hợp nhiều hiện tượng
2.1. Chỉ số Laspeyres (Quyền số kỳ gốc)
Chỉ số Giá:
IL(p) = [Σ(p × q )/Σ(p × q )] × 100%
Chỉ số Lượng:
IL(q) = [Σ(q × p )/Σ(q × p )] × 100%
Đặc điểm:
Dùng quyền số kỳ gốc (q , p )
Dễ tính toán, dữ liệu ổn định
Phản ánh kém thực tế khi thời gian dài
2.2. Chỉ số Paasche (Quyền số kỳ nghiên cứu)
Chỉ số Giá:
IP(p) = [Σ(p × q )/Σ(p × q )] × 100%
Chỉ số Lượng:
IP(q) = [Σ(q × p )/Σ(q × p )] × 100%
Đặc điểm:
Dùng quyền số kỳ nghiên cứu (q , p )
Phản ánh thực tế hơn
Khó tính, cần cập nhật quyền số
2.3. Chỉ số Fisher (Trung bình nhân)
IF = √(IL × IP)
Cân bằng ưu nhược điểm 2 ch số
Ứng dụng:
CPI (Chỉ số Giá Tiêu dùng): đo lạm phát
PPI (Chỉ số Giá Sản xuất)
GDP Deflator
CHƯƠNG 9: PHÂN TÍCH PHƯƠNG SAI
1. KHÁI NIỆM
Phân tích Phương sai (ANOVA): Kiểm định sự khác biệt trung bình của 3 nhóm trở lên
Yếu tố (Factor): Biến độc lập định tính (VD: phương pháp sản xuất, vùng địa lý)
Mức độ (Level): Các giá tr của yếu tố (VD: phương pháp A, B, C)
2. ANOVA MỘT YẾU TỐ
Mục đích: Kiểm định k nhóm trung bình bằng nhau không
Giả thuyết:
H : μ = μ = ... = μ (tất cả nhóm TB bằng nhau)
H : ít nhất 1 cặp khác nhau
Giả định:
1. Các nhóm độc lập
2. Dữ liệu phân phối chuẩn trong mỗi nhóm
3. Phương sai đồng nhất ² = σ ² = ... = σ ²)
3. CÁC THÀNH PHẦN PHƯƠNG SAI
3.1. Tổng Bình phương Toàn phần (SST)
SST = ΣΣ(y - ȳ
df(T) = n - 1
3.2. Tổng Bình phương Giữa các nhóm (SSB)
SSB = Σn ( - ȳⱼ ȳ
df(B) = k - 1
Đo biến động do yếu tố
3.3. Tổng Bình phương Trong nhóm (SSW)
SSW = ΣΣ(y - ȳ
df(W) = n - k
Đo biến động ngẫu nhiên
Quan hệ:
SST = SSB + SSW
df(T) = df(B) + df(W)
4. THỐNG KIỂM ĐỊNH F
Bình phương trung bình:
MSB = SSB/(k-1)
MSW = SSW/(n-k)
Thống F:
F = MSB/MSW
df = k-1, df = n-k
Quy tắc:
Nếu F > F(α, k-1, n-k): Bác bỏ H
Kết luận: ít nhất 1 nhóm khác biệt
5. BẢNG ANOVA
Nguồn biến động SS df MS F p-value
Giữa nhóm SSB k-1 MSB F p
Trong nhóm SSW n-k MSW
Tổng SST n-1
6. SAU ANOVA: SO SÁNH CẶP
Nếu bác bỏ H , cần xác định cặp nào khác biệt:
6.1. Phương pháp Bonferroni
Điều chỉnh α: α* = α/C
C = k(k-1)/2: số cặp so sánh
6.2. Phương pháp Tukey (HSD)
HSD = q × √(MSW/n)
q: từ bảng Tukey
6.3. Phương pháp Scheffe
Bảo thủ nhất, kiểm soát sai lầm tốt
7. DỤ ỨNG DỤNG
Tình huống: So sánh năng suất 3 giống lúa (A, B, C)
Dữ liệu:
Giống A: 45, 48, 46, 50, 47
Giống B: 52, 55, 53, 54, 51
Giống C: 48, 50, 49, 51, 47
Câu hỏi: Năng suất 3 giống khác biệt không?
Phương pháp: ANOVA một yếu tố
H : μA = μB = μC
H : ít nhất 1 cặp khác nhau
PHẦN 2: CÁC VẤN ĐỀ THẮC MẮC
1. CHƯƠNG 2 - TẢ DỮ LIỆU
1.1. Khi nào dùng Mean, Median, Mode?
Mean: Dữ liệu đối xứng, không outlier
Median: Dữ liệu lệch, outlier (ít bị ảnh hưởng)
Mode: Dữ liệu định tính, hoặc cần giá tr phổ biến nhất
1.2. Tại sao công thức phương sai mẫu chia (n-1) thay n?
Để ước lượng không ch (unbiased estimator)
n-1 bậc tự do (degrees of freedom)
đắp cho việc dùng thay μx
1.3. Hệ số tương quan r = 0 nghĩa không mối liên hệ?
Không! r = 0 chỉ nghĩa không tương quan tuyến tính
Vẫn thể mối quan hệ phi tuyến (VD: parabol)
1.4. Phân biệt Covariance Correlation?
Covariance: Đo chiều hướng, không đơn v chuẩn
Correlation: Chuẩn hóa (-1 đến 1), đo cả chiều hướng cường độ
1.5. Biểu đồ Hộp cho biết thông tin gì?
Trung vị (Q2): vạch giữa hộp
Khoảng tứ phân vị (IQR = Q3-Q1): độ dài hộp
Min, Max: đầu râu
Outliers: điểm ngoài râu
Hình dạng phân phối: độ đối xứng
2. CHƯƠNG 4 - LẤY MẪU & ƯỚC LƯỢNG
2.1. Tại sao cần lấy mẫu?
Tổng thể quá lớn, tốn kém/thời gian khảo sát toàn bộ
Khảo sát phá hủy (VD: test độ bền sản phẩm)
Không thể tiếp cận toàn bộ tổng thể
2.2. Phân biệt n 30 và n < 30?
n 30: Định giới hạn trung tâm dùng Z
n < 30: Cần giả định phân phối chuẩn dùng t
2.3. Khoảng tin cậy 95% nghĩa gì?
Sai: "Có 95% xác suất tham số nằm trong khoảng"
Đúng: "Nếu lấy 100 mẫu, khoảng 95 khoảng tin cậy s chứa tham số thực"
Tham số cố định, khoảng tin cậy ngẫu nhiên
2.4. Làm sao tăng độ chính xác ước lượng?
Tăng kích thước mẫu n
Giảm mức tin cậy (1-α) - không khuyến khích
Giảm phương sai tổng thể σ² (nếu thể)
2.5. Khi nào dùng Z, khi nào dùng t?
Điều kiện Thống
Biết σ, bất kỳ n Z
Chữa biết σ, n 30
Z
Chưa biết σ, n < 30, X~N t
3. CHƯƠNG 5 - KIỂM ĐỊNH THAM SỐ
3.1. Phân biệt α p-value?
α: Mức ý nghĩa, định trước (thường 0.05)
p-value: Xác suất tính từ dữ liệu mẫu
Quy tắc: p-value < α Bác bỏ H₀
3.2. Tại sao H luôn dấu "="?
H giả thuyết về tham số cụ thể (điểm)
Cần giá trị cụ thể để tính thống kiểm định
H thể hiện điều muốn chứng minh
3.3. "Chấp nhận H " nghĩa H đúng?
Không! Chỉ nghĩa "chưa đủ bằng chứng bác bỏ H "
Nên nói "Không bác bỏ H " thay "Chấp nhận H "
3.4. Phân biệt Mẫu độc lập Mẫu cặp?
Mẫu độc lập Mẫu cặp
Quan hệ Không liên quan liên hệ (cùng đối tượng)
dụ Nam vs Nữ Trước vs Sau điều trị
Phương pháp Two-sample t-test Paired t-test
Dữ liệu 2 mẫu riêng 1 mẫu, 2 lần đo
3.5. Kiểm định 1 đuôi hay 2 đuôi?
2 đuôi (≠): Không biết chiều khác biệt
1 đuôi (>, <): Biết chiều muốn chứng minh
dụ: Thuốc mới tốt HƠN thuốc 1 đuôi phải
3.6. Khi nào dùng F-test để so sánh phương sai?
Trước khi so sánh 2 trung bình (kiểm tra σ ² = σ ²)
Quyết định dùng pooled variance hay không
Trong ANOVA để so sánh nhiều nhóm
4. CHƯƠNG 6 - KIỂM ĐỊNH PHI THAM SỐ
4.1. Khi nào dùng Kiểm định Phi tham số?
Dữ liệu không phân phối chuẩn
Kích thước mẫu nhỏ
Dữ liệu thứ bậc (ordinal)
Vi phạm giả định kiểm định tham số
4.2. Wilcoxon vs Mann-Whitney?
Wilcoxon Mann-Whitney
Loại mẫu Cặp Độc lập
Thay thế cho Paired t-test Two-sample t-test
Dữ liệu Cùng đối tượng Khác đối tượng
4.3. Tại sao phải lấy trị tuyệt đối khi xếp hạng Wilcoxon?
Để xếp hạng theo độ lớn của chênh lệch, không quan tâm dấu
Sau đó gán lại dấu để tính T T
4.4. Spearman vs Pearson correlation?
Pearson (r) Spearman (rs)
Dữ liệu Định lượng Thứ bậc hoặc định lượng
Mối quan hệ Tuyến tính Đơn điệu
Giả định Phân phối chuẩn Không yêu cầu
Nhạy với outlier Ít hơn
4.5. χ² test: Khi nào dùng?
Kiểm định độc lập 2 biến định tính
Kiểm định phù hợp phân phối (Goodness of fit)
Yêu cầu: Tần số kỳ vọng 5 trong mỗi ô
5. CHƯƠNG 7 - HỒI QUY
5.1. Phân biệt Correlation Regression?
Correlation Regression
Mục đích Đo mức độ liên hệ Dự báo, giải thích
Đối xứng (r(X,Y) = r(Y,X)) Không (Y phụ thuộc X)
Kết quả Hệ số r Phương trình
5.2. cao nghĩa hình tốt?
Không hẳn! Còn phải kiểm tra:
Các giả định vi phạm không?
Hệ số ý nghĩa thống không?
hình overfitting không?
cao thể do:
Nhiều biến (dùng R²adj)
Tương quan giả mạo
5.3. Tại sao cần kiểm tra giả định?
Vi phạm giả định ước lượng sai lệch, không hiệu quả
Kết quả kiểm định không đáng tin cậy
Cần khắc phục (transform, robust regression...)
5.4. Residual plot cho biết gì?
Hình dạng ngẫu nhiên: Tốt, hình phù hợp
Hình phễu: Vi phạm phương sai đồng nhất
Hình cong: Vi phạm tính tuyến tính
Xu hướng: Tự tương quan
5.5. Ngoại suy (Extrapolation) được không?
Nguy hiểm! Dự báo ngoài phạm vi dữ liệu
Mối quan hệ thể thay đổi
Chỉ nên nội suy (Interpolation)
6. CHƯƠNG 8 - DÃY SỐ THỜI GIAN
6.1. Phân biệt Dãy thời điểm Thời kỳ?
Thời điểm Thời kỳ
Tính chất Tồn kho, trạng thái Lưu lượng, tích lũy
Cộng dồn nghĩa ý nghĩa
dụ Dân số, vốn Doanh thu, sản lượng
TB Công thức đặc biệt TB số học
6.2. Tốc độ phát triển vs Tốc độ tăng?
Tốc độ tăng (ΔT): Phần tăng so với gốc
Quan hệ: ΔT = T - 100%
6.3. Khi nào dùng MA, khi nào dùng ES?
Moving Average Exponential Smoothing
Ưu tiên Tất cả k kỳ như nhau Kỳ gần quan trọng hơn
Phản ứng Chậm Nhanh
Dùng khi Ổn định Biến động nhanh
6.4. Chỉ số thời vụ 120 nghĩa gì?
Cao hơn mức trung bình 20%
cao điểm trong năm
VD: Doanh thu tháng 12 thường cao do mua sắm cuối năm
6.5. Laspeyres vs Paasche?
Laspeyres Paasche
Quyền số Kỳ gốc Kỳ hiện tại
Ưu điểm Dễ tính, so sánh được Phản ánh thực tế
Nhược điểm Lỗi thời theo thời gian Khó tính, khó so sánh
Xu hướng Thổi phồng lạm phát Giảm nhẹ lạm phát
7. CHƯƠNG 9 - PHÂN TÍCH PHƯƠNG SAI
7.1. ANOVA vs t-test?
t-test: So sánh 2 nhóm
ANOVA: So sánh 3 nhóm
Nếu dùng nhiều t-test tăng sai lầm loại I
ANOVA kiểm soát α cho toàn bộ phép thử
7.2. Tại sao cần kiểm tra phương sai đồng nhất?
Giả định quan trọng của ANOVA
Vi phạm kết quả F-test không chính xác
Kiểm tra: Levene's test, Bartlett's test
Khắc phục: Welch's ANOVA (không yêu cầu phương sai đồng nhất)
7.3. ANOVA ý nghĩa, tiếp theo làm ?
ANOVA chỉ cho biết "có khác biệt"
Cần Post-hoc test để xác định cặp nào khác biệt
Các phương pháp: Tukey, Bonferroni, Scheffe
Không nên dùng nhiều t-test riêng lẻ
7.4. Phân biệt One-way Two-way ANOVA?
One-way Two-way
Số yếu tố 1 2
dụ So sánh 3 giống lúa So sánh 3 giống lúa × 2 loại phân bón
Phân tích Hiệu ứng chính Hiệu ứng chính + tương tác
7.5. MSB MSW đại diện cho gì?
MSB (Between): Biến động do yếu tố (signal)
MSW (Within): Biến động ngẫu nhiên (noise)
F = MSB/MSW: Tỷ lệ signal/noise
F lờTn yếu tố ảnh hữờong
8. CÂU HỎI CHUNG
8.1. Khi nào dùng kiểm định nào?
So sánh Trung bình:
Tình huống Kiểm định
1 nhóm vs giá trị One-sample t-test
2 nhóm độc lập Two-sample t-test

Preview text:

BÀI TẬP NHÓM - HỌC PHẦN NGUYÊN LÝ THỐNG KÊ
PHẦN 1: HỆ THỐNG LÝ THUYẾT CÁC CHƯƠNG
CHƯƠNG 2: MÔ TẢ DỮ LIỆU CHÉO
1. PHƯƠNG PHÁP BẢNG PHÂN PHỐI
Mục đích: Tổ chức dữ liệu thành các nhóm để dễ quan sát và phân tích Các bước thực hiện:
● Xác định số tổ (k): sử dụng công thức Sturges: k ≈ 1 + 3.322 × log(n)
● Tính khoảng cách tổ: h = (Max - Min) / k
● Xác định biên các tổ (đảm bảo khoảng cách đều)
● Đếm tần số các tổ
● Tính tần suất (%) = (tần số / tổng số) × 100 Lưu ý quan trọng:
● Khoảng cách tổ phải đều nhau
● Biên trên tổ này là biên dưới tổ kế tiếp
2. PHƯƠNG PHÁP BIỂU ĐỒ/ĐỒ THỊ
2.1. Biểu đồ Cột (Bar Chart)
● Dùng cho dữ liệu định tính
● Chiều cao cột thể hiện tần số/tần suất
2.2. Biểu đồ Hình Tròn (Pie Chart)
● Thể hiện tỷ trọng các thành phần ● Tổng các phần = 100%
2.3. Biểu đồ Cành và Lá (Stem-and-Leaf)
● Giữ nguyên giá trị gốc của dữ liệu
● Cành: chữ số hàng chục
● Lá: chữ số hàng đơn vị
● Ưu điểm: Vừa thể hiện phân phối vừa giữ thông tin chi tiết Ví dụ:
● Dữ liệu: 23, 25, 27, 31, 33, 35, 42, 45 ● Stem | Leaf ● 2 | 3 5 7 ● 3 | 1 3 5 4 | 2 5 3. CÁC CHỈ TIÊU MÔ TẢ
3.1. Độ Tập Trung của Dữ Liệu Chỉ tiêu Tổng thể Mẫu Ý nghĩa Trung bình μ = Σxi/N = x Σxi/n Giá trị đại diện Trung vị Me Me
Giá trị ở giữa (sắp xếp tăng dần) Mode Mo Mo
Giá trị xuất hiện nhiều nhất Cách tính Trung vị:
1. Sắp xếp dữ liệu tăng dần
2. Nếu n lẻ: Me = x((n+1)/2)
3. Nếu n chẵn: Me = [x(n/2) + x(n/2+1)] / 2
3.2. Độ Phân Tán của Dữ Liệu Chỉ tiêu
Công thức Tổng thể
Công thức Mẫu Khoảng biến thiên R = Max - Min R = Max - Min Độ lệch tuyệt đối TB MAD = Σ|xi - μ|/N MAD = Σ|xi - |/n x Phương sai σ² = Σ(xi - μ)²/N s² = Σ(xi - )²/(n-1) x Độ lệch chuẩn σ = √σ² s = √s² Hệ số biến thiên CV = (σ/μ) × 100% CV = (s/ ) x× 100% Ý nghĩa:
● R: khoảng dao động của dữ liệu
● σ, s: mức độ phân tán trung bình quanh giá trị TB
● CV: so sánh độ phân tán giữa các tập dữ liệu khác đơn vị
3.3. Tứ Phân Vị và Biểu Đồ Hộp Các bước tính:
1. Sắp xếp dữ liệu tăng dần 2. Q2 = Trung vị
3. Q1 = Trung vị của nửa dưới
4. Q3 = Trung vị của nửa trên Biểu đồ Hộp (Box Plot): ● |----[===|===]----| Min Q1 Q2 Q3 Max
● Hộp: từ Q1 đến Q3 (chứa 50% dữ liệu giữa)
● Đường trong hộp: Q2 (trung vị)
● Râu: kéo dài đến Min và Max 3.4. Hình Dáng Phân Phối
Cách 1: So sánh Mean, Median, Mode Tình huống Đặc điểm Hình dạng Mean = Me = Mo Đối xứng Chuẩn Mean > Me > Mo Lệch phải Đuôi kéo dài bên phải Mean < Me < Mo Lệch trái Đuôi kéo dài bên trái Cách 2: Hệ số
● Hệ số SKEW (độ lệch): ● SKEW = 0: đối xứng ● SKEW > 0: lệch phải ● SKEW < 0: lệch trái
● Hệ số KURT (độ nhọn):
● KURT = 3: phân phối chuẩn
● KURT > 3: nhọn hơn chuẩn
● KURT < 3: tẹt hơn chuẩn
3.5. Mối Liên Hệ Giữa 2 Tiêu Thức
3.5.1. Hai Tiêu Thức Định Lượng Hiệp phương sai:
● Tổng thể: Cov(X,Y) = Σ(xi - μx)(yi - μy)/N
● Mẫu: Cov(X,Y) = Σ(xi - )(yi x ȳ - )/(n-1) Hệ số tương quan (r): ● r = Cov(X,Y) / (sx × sy) ● -1 ≤ r ≤ 1 Giải thích:
● |r| gần 1: tương quan chặt
● |r| gần 0: tương quan lỏng
● r > 0: tương quan thuận
● r < 0: tương quan nghịch
3.5.2. Hai Tiêu Thức Định Tính Hệ số liên hợp (C): ● C = √(χ²/(χ² + n)) ● 0 ≤ C < 1 Hệ số Cramer (V):
● V = √(χ²/[n × min(k-1, m-1)]) ● 0 ≤ V ≤ 1
● V gần 1: liên hệ chặt
● V gần 0: liên hệ lỏng
CHƯƠNG 4: LẤY MẪU VÀ ƯỚC LƯỢNG THAM SỐ 1. CÁC KHÁI NIỆM CƠ BẢN
Tổng thể (Population): Toàn bộ các đơn vị cần nghiên cứu
● Hữ u hạn: N < ∞ (VD: sinh viên một trữờ ng)
● Vô hạn: N → ∞ (VD: sản phẩm tữ dây chuyền)
Mẫu (Sample): Một phần đại diện của tổng thể ● Kích thước mẫu: n Phân biệt quan trọng: Tổng thể Mẫu Thuật ngữ Tham số Thống kê Tính chất Cố định, duy nhất Ngẫu nhiên, biến đổi Trung bình μ x Tỷ lệ p p Phương sai σ² s² 2. PHƯƠNG PHÁP LẤY MẪU
2.1. Lấy mẫu Ngẫu nhiên Đơn giản
● Mỗi đơn vị có xác suất được chọn như nhau 2.2. Lấy mẫu Phân tầng
● Chia tổng thể thành các tầng đồng nhất
● Lấy mẫu từ mỗi tầng 2.3. Lấy mẫu Hệ thống
● Chọn theo khoảng cách cố định 2.4. Lấy mẫu Cụm
● Chia thành cụm, chọn ngẫu nhiên các cụm 3. PHÂN PHỐI MẪU
3.1. Phân phối của Trung bình mẫu ( ) x
Nếu X ~ N(μ, σ²) hoặc n ≥ 30: ● ~ x N(μ, σ²/n)
● Chuẩn hóa: Z = (x - μ)/(σ/√n) ~ N(0,1)
3.2. Phân phối của Tỷ lệ mẫu ( ) p
Nếu np ≥ 5 và n(1-p) ≥ 5: ● ~ p N(p, p(1-p)/n)
● Z = (p - p)/√[p(1-p)/n] ~ N(0,1)
3.3. Phân phối của Phương sai mẫu (s²)
● χ² = (n-1)s²/σ² ~ χ²(n-1) 4. ƯỚC LƯỢNG ĐIỂM
Dùng thống kê mẫu để ước lượng tham số tổng thể: ● μ ≈ x ● p ≈ p ● σ² ≈ s² 5. ƯỚC LƯỢNG KHOẢNG
5.1. Ước lượng Trung bình μ
TH1: Biết σ (hoặc n ≥ 30)
● CI: x ± Z(α/2) × σ/√n
TH2: Chưa biết σ (n < 30)
● CI: x ± t(α/2, n-1) × s/√n
5.2. Ước lượng Tỷ lệ p
● CI: p ± Z(α/2) × √[p (1-p )/n]
5.3. Ước lượng Phương sai σ²
● CI: [(n-1)s²/χ²(α/2, n-1), (n-1)s²/χ²(1-α/2, n-1)]
Giải thích Khoảng tin cậy:
● Độ tin cậy (1-α)%: VD: 95%, 99%
● Ý nghĩa: Với mức tin cậy 95%, tham số thực nằm trong khoảng ước lượng
6. XÁC ĐỊNH KÍCH THƯỚC MẪU
6.1. Ước lượng μ với độ chính xác E ● n = (Z(α/2) × σ / E)²
6.2. Ước lượng p với độ chính xác E
● n = Z²(α/2) × p(1-p) / E²
● Nếu chưa biết p, dùng p = 0.5 (bảo thủ nhất)
CHƯƠNG 5: KIỂM ĐỊNH THAM SỐ 1. GIẢ THUYẾT THỐNG KÊ
Định nghĩa: Phát biểu về tham số của tổng thể cần kiểm chứng Cấu trúc: ● H (Giả thuyết ₀ không): Luôn có dấu "=" ● H (Giả thuyết ₁
đối): Có dấu "≠", ">", "<" Ví dụ:
● H₀: μ = 100 vs H₁: μ ≠ 100 (hai phía)
● H₀: μ ≤ 100 vs H₁: μ > 100 (phía phải)
● H₀: μ ≥ 100 vs H₁: μ < 100 (phía trái)
2. SAI LẦM TRONG KIỂM ĐỊNH H₀ đúng H ₀ sai Chấp nhận H₀ ✓ Đúng Sai lầm loại II (β) Bác bỏ H₀ Sai lầm loại I (α) ✓ Đúng Mức ý nghĩa α:
● Xác suất mắc sai lầm loại I
● Thường chọn: α = 0.05 (5%) hoặc 0.01 (1%)
3. QUY TRÌNH KIỂM ĐỊNH (5 BƯỚC)
Bước 1: Xây dựng giả thuyết ● Đặt H và H ₀ dựa ₁ trên bài toán
Bước 2: Chọn mức ý nghĩa α ● Thường α = 0.05
Bước 3: Chọn thống kê kiểm định và tính giá trị
● Z, t, χ², F tùy trường hợp
Bước 4: Xác định miền bác bỏ / Tính p-value
● So sánh với giá trị tới hạn Bước 5: Kết luận ● Bác bỏ H hoặc ₀ Chấp nhận H₀
● Giải thích ý nghĩa thực tế
4. KIỂM ĐỊNH CHO 1 TỔNG THỂ
4.1. Kiểm định Trung bình μ
TH1: Biết σ (hoặc n ≥ 30)
● Thống kê: Z = (x - μ₀)/(σ/√n) ● Phân phối: N(0,1)
TH2: Chưa biết σ (n < 30)
● Thống kê: t = (x - μ₀)/(s/√n) ● Phân phối: t(n-1)
4.2. Kiểm định Tỷ lệ p
● Thống kê: Z = (p - p₀)/√[p₀(1-p₀)/n] ● Phân phối: N(0,1)
4.3. Kiểm định Phương sai σ²
● Thống kê: χ² = (n-1)s²/σ₀² ● Phân phối: χ²(n-1)
5. KIỂM ĐỊNH CHO 2 TỔNG THỂ 5.1. So sánh 2 Trung bình A. Mẫu độc lập: TH1: Biết σ , ₁ σ₂
● Z = (x₁ - x₂)/√(σ₁²/n₁ + σ₂²/n₂) TH2: Chưa biết σ , σ ₁ nhưng ₂ σ ² ₁= σ₂ ²
● t = (x₁ - x₂)/[sp√(1/n₁ + 1/n₂)] ● sp² = [(n -1)s
₁ ² ₁+ (n₂ -1)s₂ ²]/(n₁ +n₂ -2) ● df = n + ₁n -₂ 2
TH3: Chữa biết σ₁, σ₂ và σ₁² ≠ σ₂²
● t = (x₁ - x₂)/√(s₁²/n₁ + s₂²/n₂)
● df = công thức Welch (phức tạp) B. Mẫu cặp: ● Tính = Σdi/n d (di = xi - yi) ● t = d/(sd/√n) ● df = n - 1
5.2. So sánh 2 Tỷ lệ (mẫu độc lập) ● = (np ₁ + ₁p ₂p n ₂ )/(n ₁ ₂ + n )
● Z = (p ₁ - p ₂)/√[p(1-p)(1/n₁ + 1/n₂)] 5.3. So sánh 2 Phương sai ● F = s ²/s ²₁ (s ₂ ² ₁> s₂ ²) ● df = n - ₁ 1, ₁df = ₂n - ₂ 1
6. ƯỚC LƯỢNG SỰ KHÁC BIỆT
6.1. Khác biệt 2 Trung bình Mẫu độc lập: ● CI: ( ₁ - x₂ x ) ± t(α/2) × SE
● SE phụ thuộc trường hợp (như kiểm định) Mẫu cặp:
● CI: d ± t(α/2, n-1) × sd/√n 6.2. Khác biệt 2 Tỷ lệ
● CI: (p ₁ - p ₂) ± Z(α/2) × √[p ₁(1-p ₁)/n₁ + p ₂(1-p ₂)/n₂]
CHƯƠNG 6: KIỂM ĐỊNH PHI THAM SỐ 1. ĐẶC ĐIỂM
Khác biệt với Kiểm định Tham số:
● Không giả định phân phối của tổng thể
● Không kiểm định về tham số (μ, p, σ²)
● Dùng dữ liệu gián tiếp: dấu, hạng, tần số Khi nào sử dụng:
● Dữ liệu không phân phối chuẩn ● Kích thước mẫu nhỏ
● Dữ liệu thứ bậc (ranking)
2. KIỂM ĐỊNH WILCOXON (Mẫu cặp)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu cặp Giả thuyết: ● H : Me(X)
₀ = Me(Y) (2 tổng thể giống nhau)
● H₁: Me(X) ≠ Me(Y) (khác nhau) Các bước thực hiện:
1. Tính chênh lệch: di = xi - yi
2. Lấy trị tuyệt đối: |di|
3. Xếp hạng |di| (bỏ qua di = 0)
4. Gán dấu cho hạng theo dấu của di 5. Tính T (tổng hạng ⁺ dương) và T (tổng ⁻ hạng âm) 6. Thống kê: T = min(T , ⁺ T⁻ )
7. So sánh vờTi giá trị tờTi hạn tữ bảng Wilcoxon vờTi n (số di ≠ 0) Quy tắc:
● Nếu T ≤ T(α, n): Bác bỏ H₀
3. KIỂM ĐỊNH MANN-WHITNEY (Mẫu độc lập)
Mục đích: Kiểm định sự giống nhau của 2 tổng thể với mẫu độc lập Giả thuyết: ● H : 2 tổng
₀ thể có phân phối giống nhau ● H : 2 tổng
₁ thể có phân phối khác nhau Các bước:
1. Gộp 2 mẫu và xếp hạng chung
2. Giá trị bằng nhau → hạng trung bình
3. Tính tổng hạng mỗi mẫu: R , ₁ R₂ 4. Tính U = n₁n + ₁ ₂ n (n₁ +1)/2 ₁ - R₁ 5. Tính U = n₂n + ₁ ₂ n (n₂ +1)/2 ₂ - R₂ 6. U = min(U , ₁ U₂)
7. So sánh với bảng Mann-Whitney Quy tắc:
● Nếu U ≤ U(α, n₁, n₂): Bác bỏ H₀
4. KIỂM ĐỊNH SPEARMAN (Tương quan hạng)
Mục đích: Kiểm định mối liên hệ giữa 2 tiêu thức định lượng Giả thuyết: ● H : ρ =
₀ 0 (không có tương quan)
● H₁: ρ ≠ 0 (có tữờng quan)
● H : ρ >₁ 0 (tương quan thuận) ● H : ρ < ₁ 0 (tương quan nghịch) Các bước:
1. Xếp hạng riêng cho X và Y 2. Tính di = Rx(i) - Ry(i)
3. Tính rs = 1 - 6Σdi²/[n(n²-1)]
4. So sánh với bảng Spearman Giải thích: ● -1 ≤ rs ≤ 1
● |rs| gần 1: tương quan chặt ● rs > 0: thuận chiều
● rs < 0: nghịch chiều
5. KIỂM ĐỊNH χ² ĐỘC LẬP (Hai tiêu thức định tính)
Mục đích: Kiểm định mối liên hệ giữa 2 biến định tính Giả thuyết: ● H : 2 tiêu
₀ thức độc lập (không liên hệ) ● H : 2 tiêu
₁ thức có liên hệ phụ thuộc Các bước:
1. Lập bảng liên hợp (k × m)
2. Tính tần số kỳ vọng: Eij = (Ri × Cj)/n
3. Tính χ² = ΣΣ(Oij - Eij)²/Eij 4. df = (k-1)(m-1) 5. So sánh với χ²(α, df) Quy tắc:
● Nếu χ² > χ²(α, df): Bác bỏ H (có ₀ liên hệ) CHƯƠNG 7: HỒI QUY
1. MỤC ĐÍCH PHÂN TÍCH HỒI QUY
1. Xác định mức độ thay đổi của Y khi X thay đổi
2. Kiểm định bản chất của sự phụ thuộc
3. Dự báo giá trị Y khi biết X
2. MÔ HÌNH HỒI QUY TUYẾN TÍNH 2.1. Mô hình Tổng thể ● Y = β + ₀β X ₁ + ε
● β : hệ₀ số chặn (intercept)
● β : hệ₁ số góc (slope) ● ε: sai số ngẫu nhiên 2.2. Mô hình Mẫu ● Ŷ = b + ₀ b₁X ● b , b : ₀ước ₁ lượng của β , ₀ β₁ ● Ŷ: giá trị dự đoán
● ei = yi - ŷi: phần dư (residual)
2.3. Ước lượng Hệ số (Phương pháp OLS) Công thức: ● b = Σ(xi -₁ )(yi ȳ - x )/Σ(xi x - )² = Sxy/Sxx ● b = ₀ - ȳ b₁x Giải thích: ● b : Khi X tăng ₁
1 đơn vị, Y tăng/giảm b đơn ₁ vị ● b : Giá trị ₀ Y khi X = 0
3. GIẢ THIẾT CỦA MÔ HÌNH
1. Tính tuyến tính: Mối quan hệ giữa X và Y là tuyến tính
2. E(ε) = 0: Sai số có kỳ vọng bằng 0
3. Var(ε) = σ² không đổi: Phương sai đồng nhất (homoscedasticity)
4. Cov(εi, εj) = 0: Không có tự tương quan
5. ε ~ N(0, σ²): Sai số phân phối chuẩn Kiểm tra vi phạm:
● Vẽ đồ thị phần dư (residual plot)
● Kiểm định Breusch-Pagan (phương sai không đồng nhất)
● Kiểm định Durbin-Watson (tự tương quan)
4. HỆ SỐ XÁC ĐỊNH (R²) Công thức:
● R² = SSR/SST = 1 - SSE/SST ● SST = Σ(yi - )²: Tổng ȳ bình phương toàn phần ● SSR = Σ(ŷi - )²: Tổng ȳ bình phương hồi quy
● SSE = Σ(yi - ŷi)²: Tổng bình phương phần dư Giải thích: ● 0 ≤ R² ≤ 1
● R² = 0.75: Mô hình giải thích được 75% biến động của Y
● R² càng gần 1: mô hình càng phù hợp
Hệ số xác định điều chỉnh:
● R²adj = 1 - (1-R²)(n-1)/(n-k-1)
● k: số biến độc lập
5. KIỂM ĐỊNH SỰ PHÙ HỢP
5.1. Kiểm định F (Mô hình tổng thể) Giả thuyết:
● H : β = ₀0 ₁(X không giải thích Y)
● H₁: β₁ ≠ 0 (X giải thích Y) Thống kê:
● F = MSR/MSE = [SSR/1]/[SSE/(n-2)] ● df = 1, ₁ df = ₂ n-2 Quy tắc:
● Nếu F > F(α, 1, n-2): Bác bỏ H (mô ₀ hình phù hợp)
● Hoặc p-value < α: Bác bỏ H₀
5.2. Kiểm định t (Hệ số hồi quy) Giả thuyết: ● H : β₀ = ₁ 0 ● H₁: β₁ ≠ 0 Thống kê: ● t = b₁/SE(b₁)
● SE(b₁) = √[MSE/Σ(xi - x )²] ● df = n-2 Quy tắc:
● Nếu |t| > t(α/2, n-2): Bác bỏ H₀
● Hoặc p-value < α: Bác bỏ H₀
6. KHOẢNG TIN CẬY CHO HỆ SỐ Cho β₁: ● CI: b ± t(α/2, ₁ n-2) × SE(b₁) Cho β₀: ● CI: b ± t(α/2, ₀ n-2) × SE(b₀) 7. DỰ BÁO Điểm ước lượng: ● Ŷ = ₀b + ₀ b₁ X₀
Khoảng tin cậy (cho giá trị trung bình): ● Ŷ ± t(α/2, ₀ n-2) × SE(Ŷ₀)
Khoảng dự báo (cho giá trị cá biệt): ● Ŷ ± t(α/2, ₀ n-2) × SE(pred) ● SE(pred) > SE(Ŷ₀)
CHƯƠNG 8: DÃY SỐ THỜI GIAN VÀ CHỈ SỐ A. DÃY SỐ THỜI GIAN 1. CÁC LOẠI DÃY SỐ 1.1. Dãy số Thời điểm
● Giá trị tại 1 thời điểm cụ thể
● VD: Dân số 31/12 hàng năm 1.2. Dãy số Thời kỳ
● Giá trị tích lũy trong 1 khoảng thời gian ● VD: Doanh thu theo tháng 2. CHỈ TIÊU MÔ TẢ
2.1. Trung bình theo thời gian Dãy số thời kỳ: ● = ȳ Σyi/n
Dãy số thời điểm (khoảng cách đều): ● = [(y /2 ȳ + y ₁ + ...₂ + yn ₋ + ₁ yn/2)]/(n-1) 2.2. Mô tả Biến động
Tốc độ Phát triển (Growth Rate): ● Ti = yi/y × ₀ 100% ● yi: mức độ kỳ i ● y : mức ₀ độ gốc
Tốc độ Tăng (Increase Rate):
● ΔTi = Ti - 100% = (yi - y )/y₀ × ₀ 100%
Tốc độ Phát triển Liên hoàn: ● ti = yi/yi ₋₁× 100% Tốc độ Tăng Liên hoàn: ● Δti = ti - 100%
Tốc độ Phát triển Trung bình:
● T = ⁿ√(yn/y₀) × 100%
● n: số lần tăng trưởng Tốc độ Tăng Trung bình: ● Δ = T - 100% 3. XU HƯỚNG PHÁT TRIỂN
3.1. Phương pháp Trung bình Trượt (Moving Average)
Mục đích: Làm mịn dữ liệu, loại bỏ biến động ngẫu nhiên
Trung bình trượt đơn giản (k kỳ): ● MA = (y ₜ+ yₜ +
ₜ₊₁ ... + yₜ₊ₖ₋₁ )/k
Trung bình trượt có trọng số:
● WMA = ₜΣ(wi × yₜ₊ᵢ₋₁ )/Σwi 3.2. Phương pháp Hồi quy Xu hướng tuyến tính: ● Ŷ = ₜb + ₀ b₁ t
● t: biến thời gian (1, 2, 3,...) Xu hướng phi tuyến: ● Hàm bậc 2: Ŷ = bₜ + ₀ b t ₁ + b₂ t² ● Hàm mũ: Ŷ = ₜb × ₀ b₁ᵗ ● Hàm logarit: Ŷ = ₜb + ₀ b₁ ln(t) 4. BIẾN ĐỘNG THỜI VỤ
Chỉ số Thời vụ (SI - Seasonal Index):
TH1: Có ảnh hưởng xu thế
1. Tính MA (trung bình trượt)
2. Tính tỷ số: R =ᵢ y /MA ᵢ ᵢ 3. Tính TB các R cùng ᵢ mùa: SIⱼ
4. Điều chỉnh để Σ SI = 400 (cho ⱼ
4 quý) hoặc 1200 (cho 12 tháng)
TH2: Không có ảnh hưởng xu thế ● SI = ⱼ( /ȳⱼ ) ȳ × 100% ● : TB ȳⱼ của quý/tháng j ● : ȳTB chung Giải thích:
● SI = 100: mức trung bình ● SI > 100: cao điểm
● SI < 100: thấp điểm 5. PHƯƠNG PHÁP DỰ ĐOÁN
5.1. Phương pháp Ngây thơ (Naive) ● Ŷ ₜ₊₁ = yₜ
● Dự báo = giá trị thực tế kỳ trước
Ưu điểm: Đơn giản Nhược điểm: Không phù hợp khi có xu hướng 5.2. Trung bình Di động ● Ŷ ₜ₊₁ = MAₜ
● Dùng TB k kỳ gần nhất
Ưu điểm: Làm mịn biến động Nhược điểm: Chậm phản ứng với thay đổi
5.3. Làm mịn Mũ đơn giản ● Ŷ =
ₜ₊₁ α×y ₜ+ (1-α)×Ŷₜ
● α: hệ số làm mịn (0 < α < 1)
Ưu điểm: Linh hoạt, phản ứng nhanh Nhược điểm: Cần chọn α phù hợp 5.4. Hồi quy Xu hướng
● Ước lượng phương trình xu hướng
● Thay t tương lai vào phương trình
Ưu điểm: Bắt xu hướng dài hạn Nhược điểm: Giả định xu hướng không đổi
5.5. Hồi quy có Biến động Thời vụ ● Ŷ = (bₜ + ₀ b t) ₁ × SIₜ /100
Ưu điểm: Tính cả xu hướng và mùa vụ Nhược điểm: Phức tạp hơn B. CHỈ SỐ
1. CHỈ SỐ CÁ THỂ (Individual Index)
Mục đích: So sánh 1 hiện tượng qua thời gian Công thức: ● i = ₐ(y /yₜ ) ₀ × 100% ● y : mức ₜ kỳ nghiên cứu ● y : mức ₀ kỳ gốc Ví dụ:
● Giá gạo năm 2024 là 10,000đ, năm 2020 là 8,000đ
● Chỉ số giá: i = (10,000/8,000) × 100% = 125%
● Ý nghĩa: Giá tăng 25% so với năm 2020
2. CHỈ SỐ CHUNG (Aggregate Index)
Mục đích: So sánh tổng hợp nhiều hiện tượng
2.1. Chỉ số Laspeyres (Quyền số kỳ gốc) Chỉ số Giá:
● IL(p) = [Σ(p × qₜ )/Σ(p ₀ × ₀ q )]₀ × 100% Chỉ số Lượng:
● IL(q) = [Σ(q × pₜ )/Σ(q ₀ × ₀ p )]₀ × 100% Đặc điểm:
● Dùng quyền số kỳ gốc (q , ₀ p₀)
● Dễ tính toán, dữ liệu ổn định
● Phản ánh kém thực tế khi thời gian dài
2.2. Chỉ số Paasche (Quyền số kỳ nghiên cứu) Chỉ số Giá:
● IP(p) = [Σ(p × qₜ)/Σ(pₜ × ₀ q )]ₜ × 100% Chỉ số Lượng:
● IP(q) = [Σ(q × pₜ)/Σ(qₜ × ₀ p )]ₜ × 100% Đặc điểm:
● Dùng quyền số kỳ nghiên cứu (q , ₜ pₜ )
● Phản ánh thực tế hơn
● Khó tính, cần cập nhật quyền số
2.3. Chỉ số Fisher (Trung bình nhân) ● IF = √(IL × IP)
● Cân bằng ưu nhược điểm 2 chỉ số Ứng dụng:
● CPI (Chỉ số Giá Tiêu dùng): đo lạm phát
● PPI (Chỉ số Giá Sản xuất) ● GDP Deflator
CHƯƠNG 9: PHÂN TÍCH PHƯƠNG SAI 1. KHÁI NIỆM
Phân tích Phương sai (ANOVA): Kiểm định sự khác biệt trung bình của 3 nhóm trở lên
Yếu tố (Factor): Biến độc lập định tính (VD: phương pháp sản xuất, vùng địa lý)
Mức độ (Level): Các giá trị của yếu tố (VD: phương pháp A, B, C) 2. ANOVA MỘT YẾU TỐ
Mục đích: Kiểm định k nhóm có trung bình bằng nhau không Giả thuyết: ● H : μ = μ = ₀... ₁ = μ₂ (tất cả ₖ nhóm có TB bằng nhau)
● H : Có ít₁ nhất 1 cặp khác nhau Giả định: 1. Các nhóm độc lập
2. Dữ liệu phân phối chuẩn trong mỗi nhóm
3. Phương sai đồng nhất (σ ² = σ₁ ² = ₂ ... = σₖ ²)
3. CÁC THÀNH PHẦN PHƯƠNG SAI
3.1. Tổng Bình phương Toàn phần (SST) ● SST = ΣΣ(y ᵢ-ⱼ )² ȳ ● df(T) = n - 1
3.2. Tổng Bình phương Giữa các nhóm (SSB) ● SSB = Σn ( ⱼ ȳⱼ- ȳ )² ● df(B) = k - 1
● Đo biến động do yếu tố
3.3. Tổng Bình phương Trong nhóm (SSW)
● SSW = ΣΣ(y ᵢ-ⱼ ȳⱼ )² ● df(W) = n - k
● Đo biến động ngẫu nhiên Quan hệ: ● SST = SSB + SSW ● df(T) = df(B) + df(W)
4. THỐNG KÊ KIỂM ĐỊNH F Bình phương trung bình: ● MSB = SSB/(k-1) ● MSW = SSW/(n-k) Thống kê F: ● F = MSB/MSW ● df = k-1, ₁ df = ₂ n-k Quy tắc:
● Nếu F > F(α, k-1, n-k): Bác bỏ H₀
● Kết luận: Có ít nhất 1 nhóm khác biệt 5. BẢNG ANOVA
Nguồn biến động SS df MS F p-value Giữa nhóm SSB k-1 MSB F p Trong nhóm SSW n-k MSW Tổng SST n-1 6. SAU ANOVA: SO SÁNH CẶP Nếu bác bỏ H , cần xác ₀
định cặp nào khác biệt: 6.1. Phương pháp Bonferroni
● Điều chỉnh α: α* = α/C
● C = k(k-1)/2: số cặp so sánh
6.2. Phương pháp Tukey (HSD) ● HSD = q × √(MSW/n) ● q: từ bảng Tukey 6.3. Phương pháp Scheffe
● Bảo thủ nhất, kiểm soát sai lầm tốt 7. VÍ DỤ ỨNG DỤNG
Tình huống: So sánh năng suất 3 giống lúa (A, B, C) Dữ liệu:
● Giống A: 45, 48, 46, 50, 47
● Giống B: 52, 55, 53, 54, 51
● Giống C: 48, 50, 49, 51, 47
Câu hỏi: Năng suất 3 giống có khác biệt không?
Phương pháp: ANOVA một yếu tố ● H : μA ₀ = μB = μC
● H : Có ít₁ nhất 1 cặp khác nhau
PHẦN 2: CÁC VẤN ĐỀ THẮC MẮC
1. CHƯƠNG 2 - MÔ TẢ DỮ LIỆU
1.1. Khi nào dùng Mean, Median, Mode?
● Mean: Dữ liệu đối xứng, không có outlier
● Median: Dữ liệu lệch, có outlier (ít bị ảnh hưởng)
● Mode: Dữ liệu định tính, hoặc cần giá trị phổ biến nhất
1.2. Tại sao công thức phương sai mẫu chia (n-1) thay vì n?
● Để ước lượng không ch 편 (unbiased estimator)
● n-1 là bậc tự do (degrees of freedom)
● Bù đắp cho việc dùng thay x vì μ
1.3. Hệ số tương quan r = 0 có nghĩa không có mối liên hệ?
● Không! r = 0 chỉ nghĩa không có tương quan tuyến tính
● Vẫn có thể có mối quan hệ phi tuyến (VD: parabol)
1.4. Phân biệt Covariance và Correlation?
● Covariance: Đo chiều hướng, không có đơn vị chuẩn
● Correlation: Chuẩn hóa (-1 đến 1), đo cả chiều hướng và cường độ
1.5. Biểu đồ Hộp cho biết thông tin gì?
● Trung vị (Q2): vạch giữa hộp
● Khoảng tứ phân vị (IQR = Q3-Q1): độ dài hộp ● Min, Max: đầu râu
● Outliers: điểm ngoài râu
● Hình dạng phân phối: độ đối xứng
2. CHƯƠNG 4 - LẤY MẪU & ƯỚC LƯỢNG
2.1. Tại sao cần lấy mẫu?
● Tổng thể quá lớn, tốn kém/thời gian khảo sát toàn bộ
● Khảo sát phá hủy (VD: test độ bền sản phẩm)
● Không thể tiếp cận toàn bộ tổng thể
2.2. Phân biệt n ≥ 30 và n < 30?
● n ≥ 30: Định lý giới hạn trung tâm → dùng Z
● n < 30: Cần giả định phân phối chuẩn → dùng t
2.3. Khoảng tin cậy 95% nghĩa là gì?
● Sai: "Có 95% xác suất tham số nằm trong khoảng"
● Đúng: "Nếu lấy 100 mẫu, khoảng 95 khoảng tin cậy sẽ chứa tham số thực"
● Tham số cố định, khoảng tin cậy ngẫu nhiên
2.4. Làm sao tăng độ chính xác ước lượng?
● Tăng kích thước mẫu n
● Giảm mức tin cậy (1-α) - không khuyến khích
● Giảm phương sai tổng thể σ² (nếu có thể)
2.5. Khi nào dùng Z, khi nào dùng t? Điều kiện Thống kê Biết σ, bất kỳ n Z Chữa biết σ, n ≥ 30 Z
Chưa biết σ, n < 30, X~N t
3. CHƯƠNG 5 - KIỂM ĐỊNH THAM SỐ
3.1. Phân biệt α và p-value?
● α: Mức ý nghĩa, định trước (thường 0.05)
● p-value: Xác suất tính từ dữ liệu mẫu
● Quy tắc: p-value < α → Bác bỏ H₀ 3.2. Tại sao H luôn ₀ có dấu "="? ● H là giả thuyết ₀
về tham số cụ thể (điểm)
● Cần giá trị cụ thể để tính thống kê kiểm định ● H thể hiện ₁ điều muốn chứng minh
3.3. "Chấp nhận H " có₀ nghĩa H ₀ đúng?
● Không! Chỉ nghĩa "chưa đủ bằng chứng bác bỏ H₀"
● Nên nói "Không bác bỏ H " thay ₀ vì "Chấp nhận H₀"
3.4. Phân biệt Mẫu độc lập và Mẫu cặp?
Mẫu độc lập Mẫu cặp Quan hệ Không liên quan
Có liên hệ (cùng đối tượng) Ví dụ Nam vs Nữ Trước vs Sau điều trị Phương pháp Two-sample t-test Paired t-test Dữ liệu 2 mẫu riêng 1 mẫu, 2 lần đo
3.5. Kiểm định 1 đuôi hay 2 đuôi?
● 2 đuôi (≠): Không biết chiều khác biệt
● 1 đuôi (>, <): Biết rõ chiều muốn chứng minh
● Ví dụ: Thuốc mới tốt HƠN thuốc cũ → 1 đuôi phải
3.6. Khi nào dùng F-test để so sánh phương sai?
● Trước khi so sánh 2 trung bình (kiểm tra σ ² ₁= σ₂²)
● Quyết định dùng pooled variance hay không
● Trong ANOVA để so sánh nhiều nhóm
4. CHƯƠNG 6 - KIỂM ĐỊNH PHI THAM SỐ
4.1. Khi nào dùng Kiểm định Phi tham số?
● Dữ liệu không phân phối chuẩn ● Kích thước mẫu nhỏ
● Dữ liệu thứ bậc (ordinal)
● Vi phạm giả định kiểm định tham số 4.2. Wilcoxon vs Mann-Whitney? Wilcoxon Mann-Whitney Loại mẫu Cặp Độc lập Thay thế cho Paired t-test Two-sample t-test Dữ liệu Cùng đối tượng Khác đối tượng
4.3. Tại sao phải lấy trị tuyệt đối khi xếp hạng Wilcoxon?
● Để xếp hạng theo độ lớn của chênh lệch, không quan tâm dấu
● Sau đó gán lại dấu để tính T và ⁺ T⁻
4.4. Spearman vs Pearson correlation? Pearson (r) Spearman (rs) Dữ liệu Định lượng
Thứ bậc hoặc định lượng Mối quan hệ Tuyến tính Đơn điệu Giả định Phân phối chuẩn Không yêu cầu Nhạy với outlier Có Ít hơn
4.5. χ² test: Khi nào dùng?
● Kiểm định độc lập 2 biến định tính
● Kiểm định phù hợp phân phối (Goodness of fit)
● Yêu cầu: Tần số kỳ vọng ≥ 5 trong mỗi ô 5. CHƯƠNG 7 - HỒI QUY
5.1. Phân biệt Correlation và Regression? Correlation Regression Mục đích Đo mức độ liên hệ Dự báo, giải thích Đối xứng Có (r(X,Y) = r(Y,X)) Không (Y phụ thuộc X) Kết quả Hệ số r Phương trình
5.2. R² cao có nghĩa mô hình tốt?
● Không hẳn! Còn phải kiểm tra:
● Các giả định có vi phạm không?
● Hệ số có ý nghĩa thống kê không?
● Mô hình có overfitting không? ● R² cao có thể do:
● Nhiều biến (dùng R²adj) ● Tương quan giả mạo
5.3. Tại sao cần kiểm tra giả định?
● Vi phạm giả định → ước lượng sai lệch, không hiệu quả
● Kết quả kiểm định không đáng tin cậy
● Cần khắc phục (transform, robust regression...)
5.4. Residual plot cho biết gì?
● Hình dạng ngẫu nhiên: Tốt, mô hình phù hợp
● Hình phễu: Vi phạm phương sai đồng nhất
● Hình cong: Vi phạm tính tuyến tính
● Xu hướng: Tự tương quan
5.5. Ngoại suy (Extrapolation) có được không?
● Nguy hiểm! Dự báo ngoài phạm vi dữ liệu
● Mối quan hệ có thể thay đổi
● Chỉ nên nội suy (Interpolation)
6. CHƯƠNG 8 - DÃY SỐ THỜI GIAN
6.1. Phân biệt Dãy thời điểm và Thời kỳ? Thời điểm Thời kỳ Tính chất Tồn kho, trạng thái Lưu lượng, tích lũy Cộng dồn Vô nghĩa Có ý nghĩa Ví dụ Dân số, vốn Doanh thu, sản lượng TB Công thức đặc biệt TB số học
6.2. Tốc độ phát triển vs Tốc độ tăng?
● Tốc độ phát triển (T): So với gốc, có đơn vị %
● Tốc độ tăng (ΔT): Phần tăng so với gốc ● Quan hệ: ΔT = T - 100%
6.3. Khi nào dùng MA, khi nào dùng ES? Moving Average Exponential Smoothing Ưu tiên Tất cả k kỳ như nhau Kỳ gần quan trọng hơn Phản ứng Chậm Nhanh Dùng khi Ổn định Biến động nhanh
6.4. Chỉ số thời vụ 120 nghĩa là gì?
● Cao hơn mức trung bình 20% ● Là cao điểm trong năm
● VD: Doanh thu tháng 12 thường cao do mua sắm cuối năm 6.5. Laspeyres vs Paasche? Laspeyres Paasche Quyền số Kỳ gốc Kỳ hiện tại Ưu điểm Dễ tính, so sánh được Phản ánh thực tế Nhược điểm Lỗi thời theo thời gian Khó tính, khó so sánh Xu hướng Thổi phồng lạm phát Giảm nhẹ lạm phát
7. CHƯƠNG 9 - PHÂN TÍCH PHƯƠNG SAI 7.1. ANOVA vs t-test? ● t-test: So sánh 2 nhóm
● ANOVA: So sánh ≥ 3 nhóm
● Nếu dùng nhiều t-test → tăng sai lầm loại I
● ANOVA kiểm soát α cho toàn bộ phép thử
7.2. Tại sao cần kiểm tra phương sai đồng nhất?
● Giả định quan trọng của ANOVA
● Vi phạm → kết quả F-test không chính xác
● Kiểm tra: Levene's test, Bartlett's test
● Khắc phục: Welch's ANOVA (không yêu cầu phương sai đồng nhất)
7.3. ANOVA có ý nghĩa, tiếp theo làm gì?
● ANOVA chỉ cho biết "có khác biệt"
● Cần Post-hoc test để xác định cặp nào khác biệt
● Các phương pháp: Tukey, Bonferroni, Scheffe
● Không nên dùng nhiều t-test riêng lẻ
7.4. Phân biệt One-way và Two-way ANOVA? One-way Two-way Số yếu tố 1 2 Ví dụ So sánh 3 giống lúa
So sánh 3 giống lúa × 2 loại phân bón Phân tích Hiệu ứng chính
Hiệu ứng chính + tương tác
7.5. MSB và MSW đại diện cho gì?
● MSB (Between): Biến động do yếu tố (signal)
● MSW (Within): Biến động ngẫu nhiên (noise)
● F = MSB/MSW: Tỷ lệ signal/noise
● F lờTn → yếu tố có ảnh hữờong 8. CÂU HỎI CHUNG
8.1. Khi nào dùng kiểm định nào? So sánh Trung bình: Tình huống Kiểm định 1 nhóm vs giá trị One-sample t-test 2 nhóm độc lập Two-sample t-test