Bài 1: Giới thiêu chung về thống kê
1. Thống kê là gì
- là khoa học về thu thập, tổ chức, trình bày, phân tích, diễn giải dữ liệu phục vụ
quá trình ra quyết định
2. Một số khái niệm thường dùng trong thống kê
a. Tổng thể và mẫu:
- Tổng thể bao gồm toàn bộ các đơn vị thuộc phạm vi đối tượng điều tra
+ Tham số: Các mức độ biểu hiện đặc điểm của tổng thể
+ Tổng điều tra: thu thập dữ liệu cho toàn bộ tổng thể
- Mẫu: là một phần của tổng thể
+ Thống kê: Các mức độ biểu hiện đặc điểm của mẫu
+ Điều tra chọn mẫu: thu thập dữ liệu của mẫu
b. Biến và dữ liệu
- Biến là đặc điểm của đơn vị tổng thể hoặc mẫu được chọn ra để nghiên cứu.
- Dữ liệu là biểu hiện quan sát được của một biến
- Biến bao gồm
+ Định tính – không đo được bằng số
+ Định lượng: rời rạc + liên tục
3. Thang đo trong thống kê:
Định danh Dữ liệu được biểu hiện
bằng các đặc điểm, tính
chất
không có quan hệ
hơn kém
Biến định tính
Thứ bậc có quan hệ thứ bậc,
hơn kém
Khoảng biểu hiện bằng con số và
có đơn vị đo lường cụ
thể
nằm trong một
khoảng
Biến định lượng
Tỉ lệ bắt đầu từ 0
4. Thống kê mô tả và thống kê suy diễn:
- Thống kê mô tả: tổ chức, tóm tắt, trình bày dữ liệu
- Thống suy diễn: đưa ra kết luận về các tham số tổng thể dựa trên các thống
kê mẫu
Bài 2: Trình bày dữ liệu bằng bảng và đồ thị
1. Trình bày dữ liệu đơn biến
a. Bảng:
- Bảng tần số phân phối:
+ Tần số: là số lần xuất hiện một giá trị lượng biến cụ thể nào đó
+ Bảng tần số phân phối liệt kê số lần xuất hiện của các giá trị lượng biến
dưới dạng bảng
- Bảng tần số phân phối giản đơn:
+ Kỹ thuật: coi mỗi giá trị lượng biến là một tổ
+ Phạm vi áp dụng: Biến định tính + Biến rời rạc có ít giá trị
- Bảng tần số phân phối có khoảng cách tổ:
+ Kỹ thuật: ghép một phạm vi lượng biến vào một tổ
+ Phạm vi áp dụng: Biến rời rạc có nhiều giá trị + Biến liên tục
+ Lý do tiến hành phân tổ với khoảng cách tổ
+ Gồm: Bảng tần số khoảng cách tổ bằng nhau + Bảng tần số
khoảng cách tổ không bằng nhau
- Một số thuật ngữ:
+ Giới hạn dưới (ghd): giá trị thấp nhất của một tổ.
+ Giới hạn trên (ght): giá trị cao nhất của một tổ
+ KCT: phạm vi lượng biến của một tổ từ ghd đến ght
+ D$y số phân phối cWn tên gọi là dXy số thuộc tính (phân tổ theo biến
định tính) và dXy số lượng biến (phân tổ theo biến định lượng).
b. Đồ thị:
Biến định
tính biến
rời rạc
Biểu đồ hình cột
giản đơn
- 1 trục biểu diễn các thuộc tính
- Trục cWn lại tần số hoặc tuần suất xuất hiện
của từng loại thuộc tính
Category 1 Category 2 Category 3 Category 4
0
2
4
6
Series 2
Series 2
Biểu đồ hình trWn - Sử dụng biểu đồ trWn khi muốn tả, so sánh
tỉ lệ % xuất hiện của các biến.
- Biểu đồ trWn thường mô tả tần suất.
Sales
1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Biến liên tục Biểu đồ tần số
phân phối
- Biểu đồ tần số phân phối mô tả thông tin trong
các bảng tần số phân phối khoảng cách tổ
dưới dạng đồ thị
+ Đối xứng
+ Lệch phải
+ Lệch trái
+ Bimondal (2 đỉnh)
Biểu đồ hộp
Đa giác tần số - Đa giác tần số tả tần số trị số giữa của
tổ cho các bảng tần số phân phối khoảng
cách tổ.
2. Trình bày dữ liệu đa biến:
Biến định tính
và biến rời rạc
ít giá trị
Bảng dữ liệu chéo - Cross-table được sử dụng để nghiên cứu mối
liên hệ giữa hai biến định tính hoặc biến rời rạc
với ít giá trị.
- Lưu ý: khi xây dựng cross-table phải xác định
được biến phụ thuộc (dependent) biến độc
lập (independent) để đưa vào dWng cột cho
phù hợp.
Biểu đồ thanh
Biến liên tục Đồ thị phân tán
Bài 3: Các mức độ thống kê mô tả
1. Thống kê mô tả cho một biến:
a. Số tuyệt đối và số tương đối
- Số tuyệt đối trong thống kê biểu hiện quy mô, số lượng của hiện tượng nghiên
cứu tại thời gian, địa điểm cụ thể.
+ Đơn vị tính:
Đơn vị hiện vật: cái, con, quả, chiếc, m, kg, giờ, ngày...
Đơn vị giá trị: VND, USD,...
- Số tương đối trong thống kê biểu hiện quan hệ so sánh giữa hai mức độ nào đó
của hiện tượng
+ Đơn vị tính:
lần, phần trăm (%), phần nghìn (‰)
Đơn vị kép: người/km2, sản phẩm/người...
- Các loại số tương đối
Số tương đối động thái (tốc độ phát triển) t =
y1
y0
(100)
Số tương đối kế
hoạch
Số tương đối nhiệm vụ
KH Kn =
yKH
y0
(100)
Số tương đối thực hiện
KH Kt =
y1
yKH
(100)
Số tương đối kết cấu
Phản ánh tỷ trọng của từng bộ phận cấu
thành trong một tổng thể.
Di=
y1
y1
(100)
Số tương đối không gian
so sánh
hai hiện tượng cùng loại nhưng khác˗
nhau về không gian
hai mức độ giữa hai bộ phận trong˗
một tổng thể
Số tương đối cường độ so sánh chỉ tiêu của hai hiện tượng
khác nhau nhưng có quan hệ với nhau.
b. Các mức độ trung tâm
(i) Số trung bình
- Đặc điểm trung bình cộng:
• Dữ liệu sử dụng thang đo khoảng, tỷ lệ
Tất cả các giá trị trong tổng thể đều tham gia vào công thức tính
• Chỉ tính được một giá trị trung bình
Tổng chênh lệch của các giá trị so với trung bình cộng bằng 0
• Chịu ảnh hưởng của giá trị đột xuất
(ii)Số trung vị
- Giá trị lượng biến của đơn vị đứng ở vị trí chính giữa trong dXy số lượng biến
+ Số đơn vị tổng thể lẻ (
fi
= 2m+1): Me = xm+1
+ Số đơn vị tổng thể chẵn (fi =2m): Me =
xm xm+ +1
2
- Đặc điểm:
+ Không bị ảnh hưởng của giá trị đột xuất
+ Dữ liệu sử dụng thang đo thứ bậc, khoảng, tỷ lệ
(iii) Mốt
- Mốt là biểu hiện xuất hiện phổ biến nhất trong dXy số
- Xác định dựa vào tần số
- Đặc điểm:
+ Dữ liệu sử dụng tất cả các loại thang đo
+ Không bị ảnh hưởng của giá trị đột xuất (ngoại lai)
+ Một số trường hợp không có mốt hoặc có nhiều mốt
(iv) So sánh trung bình, trung vị, mốt
c. Các mức độ đo độ biến thiên
- Khoảng biến thiên: chênh lệch giữa giá trị lớn nhất nhỏ nhất trong dXy
số.
R = xmax - xmin
- Khoảng tứ phân vị:
+ Tứ phân vị: Các giá trị chia tập hợp dữ liệu X được sắp xếp từ nhỏ
đến lớn) thành 4 phần bằng nhau.
+ Thập phân vị: Các giá trị chia tập hợp dữ liệu (đX được sắp xếp từ nhỏ
đến lớn) thành 10 phần bằng nhau.
+ Bách phân vị: Các giá trị chia tập hợp dữ liệu (đX được sắp xếp từ nhỏ
đến lớn) thành 100 phần bằng nhau.
+ Cách xác định bách phân vị:
Xác định vị trí của phân vị thứ p: Lp =(n+1) p
Tính giá trị của phân vị thứ p dựa vào vị trí
+ Khoảng tứ phân vị là: Là chênh lệch giữa giá trị tứ phân vị thứ batứ
phân vị thứ nhất. IQR = Q3 – Q1
- Phương sai: trung bình cộng của tổng bình phương độ lệch so với số trung
bình
- Độ lệch chuẩn: Là căn bậc hai của phương sai
+ Độ lệch chuẩn của tổng thể: σ =
σ2
+ Độ lệch chuẩn của mẫu: S=
S2
- Hệ số biến thiên:
+ số tương đối (%) tính bằng cách so sánh giữa độ lệch chuẩn với số
trung bình cộng
V = S/
x
× 100
+ thước đo độ biến thiên tương đối, thể dùng để so sánh giữa các
hiện tượng khác loại hoặc cùng loại và có số bình quân khác nhau
d. Hình dáng phân phối dãy số:
- Hệ số Skewness: là thước đo độ đối xứng của phân phối
- Biểu đồ hộp ria mèo (boxplot) biểu diễn 5 mức độ thống mô tả: giá trị lớn
nhất (max), giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), tứ phân vị thứ ba
(Q3) và trung vị (Q2)
- Quy tắc 3 sigma: Đối với phân phối chuẩn:
+ Khoảng 68% các quan sát nằm trong phạm vi (+) (-) 1 lần độ lệch
chuẩn so với trung bình
+ Khoảng 95% các quan sát nằm trong phạm vi (+) (-) 2 lần độ lệch
chuẩn so với trung bình
+ Khoảng 99,7% các quan sát nằm trong khoảng (+) (-) 3 lần độ lệch
chuẩn so với trung bình
2. Thống kê mô tả phản ánh mối liên hệ:
a. Hiệp phương sai: Phản ánh chiều hướng của mối liên hệ
b. Hệ số tương quan: Phản ánh chiều hướng và cường độ của mối liên
hệ
Bài 4: Tổng quan về xác suất và định lí giới hạn trung tâm
1. Tổng quan về xác suất:
a. Khái niệm về xác suất, biến ngẫu nhiên:
- Xác suất là:
+ khả năng mà một sự kiện có thể xảy ra.
+ X/S cung cấp mối liên hệ giữa tổng thể và mẫu.
- X là biến ngẫu nhiên nếu giá trị của X=x là hoàn toàn ngẫu nhiên.
- Xác suất để X nhận giá trị x là p(x)=P(X=x).
- Nếu một biến ngẫu X nhận giá trị xi, khi đó
1. 0<p(xi)<1 for all xi
2.
xi
p(xi)
=1
b. Phân phối xác suất của biến ngẫu nhiên liên tục:
- Phân phối chuẩn:
+ Dạng hình chuông, đối xứng qua giá trị trung tâm μ, có đỉnh tại x=μ, đồ
thị tiệm cận 0 khi x→±∞.
1. E(X)=μ; V(X)=σ2
2. Diện tích dưới đường cong=1
3. Kí hiệu: X~N(μ,σ2).
4. Giá trị trung bình khácnhau–vị trí thay đổi dọc theo trục x
5. Phương sai khác nhau–đồ thị nhọn hoặc thoải
+ Chuẩn hoá: quá trình chuyển một biến phân phối chuẩn về phân
phối chuẩn hóa
+ Nếu X~N(μ,σ2), sử dụng công thức dưới đây để chuẩn hóa:
Z =
Xμ
σ
N(0,1)
-> Sử dụng bảng Z để tra X/S
+ Quy tắc đối xứng:
P(Z<-a) = P(Z>a)
P(Z>a) = 1 – P(Z<a)
P(a<Z<b) = P(Z<b) – P(Z<a)
2. Định lí giới hạn trung tâm:
a. Phân phối của mẫu:
- Khi cỡ mẫu tăng lên (đặc biệt tăng đến vô hạn và tiệm cận về quy mô của tổng
thể), phân phối của mẫu sẽ tiệm cận về phân phối chuẩn.
b. Phân phối của trung bình mẫu:
- Bất kể biến ngẫu nhiên ban đầu dạng phân phối như thế nào, khi cỡ mẫu
tăng lên phân phối của các trung bình mẫu tiệm cận về phân phối chuẩn.
- Bất kể biến ngẫu nhiên ban đầu dạng phân phối như thế nào, với một cỡ
mẫu n, độ lệch chuẩn của các trung bình mẫu (sai số bình quân chọn mẫu) bằng
σ
n
, kí hiệu là SE (Standard error of the mean).
-> Bất kể tổng thể phân phối thế nào (chuẩn hay không chuẩn), khi cỡ mẫu
đủ lớn phân phối của các trung bình mẫu sẽ tuân theo quy luật phân phối chuẩn
chúng ta thể sử dụng thống Z để tính xác suất cho bất kỳ giá trị trung
bình nào
c. Định lí giới hạn trung tâm:
- Nếu X một biến ngẫu nhiên giá trị trung bình μ
phương sai là σ2, thì
x
N(
μ
,
σ2
n¿
xμ
σ
n
Z ~ N (0,1) as n
→∞
Bài 5: Ước lượng và kiểm định giả thuyết thống kê
1. Ước lượng thống kê:
a. Ước lượng (suy rộng) kết quả điều tra:
- Ước lượng điểm/ trung bình: thống tính từ mẫu được dùng để ước lượng
các tham số của tổng thể
- Ước lượng bằng khoảng tin cậy: khoảng giá trị được xác định từ thống
mẫu mà với xác suất cụ thể, tham số của tổng thể sẽ thuộc khoảng đó
- z,t làhệ số tin cậy(giá trị tới hạn mức α của phân phối chuẩn hoá phân phối
Student)
- α – mức ý nghĩa (xác suất mắc sai lầm)
- (1-α) là xác suất hay trình độ tin cậy
- Trong trường hợp tổng thể hữu hạn, Chúng ta điều chỉnh phạm vi sai số
trong công thức xác định khoảng tin cậy.
FPC=
Nn
N1
b. Xác định kích thước (quy mô) mẫu:
- Các yếu tố ảnh hưởng tới kích thước mẫu:
+ Hệ số tin cậy (z)/ Độ tin cậy của ước lượng
+ Phương sai (độ đồng đều) của tổng thể
+ Phạm vi sai số chọn mẫu/sai số chọn mẫu cho phép (
ε
)
- Một số phương pháp xác định phương sai tổng thể:
+ Lấy phương sai lớn nhất hoặc tỷ lệ gần với 0,5 nhất trong các lần điều
tra trước (nếu có)
+ Sử dụng kết quả của nghiên cứu có tính chất tương tự
+ Tiến hành nghiên cứu thử nghiệm
+ Lấy tỷ lệ bằng 0,5 hoặc ước lượng phương sai dựa vào khoảng biến
thiên
σ=R
6
=
xmax xmin
6
2. Kiểm định giả thuyết thống kê
a. Những vấn đề chung về kiểm định giá thuyết thống kê:
- Giả thuyết: là một tuyên bố về tham số của tổng thể cần được chứng minh
- Kiểm định giả thuyết 1 quy trình dựa trên bằng chứng mẫu lí thuyết xác
suất để xác định xem giả thuyết đưa ra có phải là 1 tuyên bố hợp lí hay không
1) Bước 1: Nêu giả thuyết
- Giả thuyết không (H0): tuyên bố về giá trị của tham số tổng thể nhằm mục
đích kiểm tra trên cơ ở bằng chứng cụ thể
- Giả thuyết đối (H1): tuyên bố được chấp nhận nếu dữ liệu mẫu cho hấy đủ
bằng chứng chứng minh giả thuyết là không sai
2) Lựa chọn mức ý nghĩa
- Sai lầm loại I: bác bỏ H0 khi H0 đúng
- Sai lầm loại II: chấp nhận H0 khi H0 sai
3) Lựa chọn tiêu chuẩn kiểm định
- Tiêu chuẩn kiểm định là giá trị được xác định từ dữ liệu mẫu, được sử dụng để
ra quyết định bác bỏ giả thuyết không
- Biết PS tổng thể (
σ2
): Zqs=
xμ0
σ
n
- Chưa biết PS tổng thể (
s2
): Tqs=
xμ0
s
n
4) Xác định quy tắc ra quyết định:
- Quy tắc ra quyết định dựa vào miền bác bỏ
+ Nếu giá trị tiêu chuẩn kiểm định thuộc miền bác bỏ (W ), đủ sở
để bác bỏ H0
+ Nếu giá trị của tiêu chuẩn kiểm định không thuộc miền bác bỏ, chưa đủ
cơ sở để bác bỏ H0
- Quy tắc ra quyết định dựa vào P-value:
+ P-value xác suất của giá trị tiêu chuẩn kiểm định từ ngưỡng tính
được dựa trên thông tin mẫu với giả định giả thuyết không là đúng.
+ Các nguyên tắc ra quyết định để bác bỏ giả thuyết H0 với P-value là:
Nếu p-value lớn hơn hoặc bằng α, chưa đủ sở để bác bỏ giả
thuyết H0.
Nếu p-value nhỏ hơn α, bác bỏ giả thuyết H0.
- Quy tắc ra quyết định dựa vào Khoảng tin cậy: Bác bỏ giả thuyết H0 khi
μ
0
không thuộc khoảng tin cậy (1 -
α
) của ước lượng giá trị trung bình.
5) Ra quyết định
- Xác định giá trị tiêu chuẩn kiểm định từ mẫu quan sát
- Dựa vào các quy tắc ra quyết định để ra quyết định.
6) Nêu kết luận
- Có 2 trường hợp:
+ Nếu giá trị tiêu chuẩn kiểm định thuộc miền bác bỏ/Giá trị xác suất nhỏ
hơn
α
=> Có đủ cơ sở để bác bỏ giả thuyết H0
+ Nếu giá trị tiêu chuẩn kiểm định không thuộc miền bác bỏ/Giá trị xác
suất lớn hơn hoặc bằng
α
=> Chưa đủ cơ sở để bác bỏ giả thuyết H0
b. Kiểm định giá trị trung bình của 1 tổng thể:
- Giả sử nghiên cứu biến ngẫu nhiên X phân phối chuẩn
- Chưa biết
μ
song có cơ sở để giả định nó bằng
μ
0 (H0:
μ
=
μ
0)
- Để kiểm định giả thuyết trên, lấy ngẫu nhiên n đơn vị từ đó tính các thống
mẫu.
- Tiêu chuẩn kiểm định
- Biết PS tổng thể (
σ2
): Zqs=
xμ0
σ
n
Nếu H0 đúng -> thống kê Z sẽ tuân theo quy luật pp chuẩn hoá
- Chưa biết PS tổng thể (
s2
): Tqs=
xμ0
s
n
Nếu H0 đúng -> thống T sẽ tuân theo quy luật phân phối Student với bậc tự
do là n-1
c. Kiểm định tỉ lệ của 1 tổng thể:
- Giả sử nghiên cứu một tổng thể, tỷ lệ chung là p.
- Chưa biết p song có cơ sở để giả định nó bằng p0 (H0:p=p0)
- Để kiểm định giả thuyết trên, lấy mẫu n đơn vị từ đó tính các thống của
mẫu.
- Tiêu chuẩn kiểm định
Bài 6: Phân tích tương quan và hồi quy
1. Mối liên hệ giữa các hiện tượng
a. Liên hệ hàm số:
- Khái niệm: liên hệ hàm số là mối liên hệ hoàn toàn chặt chẽ
- Đặc điểm: Liên hệ được biểu hiện trên từng đơn vị cá biệt
b. Liên hệ tương quan:
- Khái niệm: liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ.
- Đặc điểm: Liên hệ không được biểu hiện trên từng đơn vị cá biệt mà phải quan
sát số lớn
2. Phân tích tương quan:
- Phân tích tương quan gồm các kỹ thuật đo lường mối liên hệ giữa hai biến
- Hệ số tương quan đo lường mức độ chặt chẽ của mối liên hệ tương quan tuyến
tính giữa hai biến
r=
(xx )(yy )
(n1 )SxSy
- Tác dụng:
+ Xác định chiều hướng của mối liên hệ
+ Đánh giá mức độ chặt chẽ của liên hệ tương quan tuyến tính
3. Phân tích hồi quy
a. Phân tích hồi quy đơn:
- Đường hồi quy thuyết: đường điều chỉnh trừ các chênh lệch ngẫu
nhiên nêu ra mối liên hệ cơ bản của hiện tượng.
- Phương trình hồi quy: phương trình xác định vị trí của đường hồi quy
thuyết
- Mô hình hồi quy tổng thể:
α
: phản ánh ảnh hưởng của các nguyên nhân khác (ngoài nguyên nhân
x) tới kết quả y
β: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tới kết quả y. Cụ
thể, khi x tăng thêm 1 đơn vị thì y thay đổi trung bình β đơn vị
+ β > 0: x và y có mối liên hệ thuận (cùng chiều)
+ β < 0: x và y có mối liên hệ nghịch (ngược chiều)
- Phương trình hồi quy mẫu:
- Phương pháp OLS: Tìm các tham số sao cho tổng bình phương các chênh lệch
giữa giá trị thực tế và giá trị lý thuyết của tiêu thức kết quả là nhỏ nhất.
+ Giả thiết OLS:
Giả thiết 1: Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
Giả thiết 2: Kỳ vọng toán của sai số bằng không
Giả thiết 3: Sai số tuân theo quy luật phân bố chuẩn
Giả thiết 4: Phương sai của sai số bằng nhau (không đổi)
Giả thiết 5: Không tương quan giữa các phần (không tự
tương quan)
Giả thiết 6: Giữa các biến độc lập không tương quan tuyến tính
hoàn hảo (đa cộng tuyến) - Đối với hồi quy bội.
+ Nội dung:
b=
i=1
n
(xix¿)(yiy)
i=1
n
(xix¿)2¿
¿
a=
y
-b
x
- Tính x , y ,
xy ,
x2
,
y2
,
a=
yx2xxy
nx2
(
x
)
2
b=
nxy yx
nx2
(
x
)
2
b. Phân tích hồi quy bội

Preview text:

Bài 1: Giới thiêu chung về thống kê 1. Thống kê là gì
- là khoa học về thu thập, tổ chức, trình bày, phân tích, diễn giải dữ liệu phục vụ
quá trình ra quyết định
2. Một số khái niệm thường dùng trong thống kê a. Tổng thể và mẫu:
- Tổng thể bao gồm toàn bộ các đơn vị thuộc phạm vi đối tượng điều tra
+ Tham số: Các mức độ biểu hiện đặc điểm của tổng thể
+ Tổng điều tra: thu thập dữ liệu cho toàn bộ tổng thể
- Mẫu: là một phần của tổng thể
+ Thống kê: Các mức độ biểu hiện đặc điểm của mẫu
+ Điều tra chọn mẫu: thu thập dữ liệu của mẫu b. Biến và dữ liệu
- Biến là đặc điểm của đơn vị tổng thể hoặc mẫu được chọn ra để nghiên cứu.
- Dữ liệu là biểu hiện quan sát được của một biến - Biến bao gồm
+ Định tính – không đo được bằng số
+ Định lượng: rời rạc + liên tục
3. Thang đo trong thống kê: Định danh
Dữ liệu được biểu hiện không có quan hệ Biến định tính
bằng các đặc điểm, tính hơn kém chất Thứ bậc có quan hệ thứ bậc, hơn kém Khoảng
biểu hiện bằng con số và nằm trong một Biến định lượng
có đơn vị đo lường cụ khoảng Tỉ lệ thể bắt đầu từ 0
4. Thống kê mô tả và thống kê suy diễn:
- Thống kê mô tả: tổ chức, tóm tắt, trình bày dữ liệu
- Thống kê suy diễn: đưa ra kết luận về các tham số tổng thể dựa trên các thống kê mẫu
Bài 2: Trình bày dữ liệu bằng bảng và đồ thị 1.
Trình bày dữ liệu đơn biến a. Bảng:
- Bảng tần số phân phối:
+ Tần số: là số lần xuất hiện một giá trị lượng biến cụ thể nào đó
+ Bảng tần số phân phối liệt kê số lần xuất hiện của các giá trị lượng biến dưới dạng bảng
- Bảng tần số phân phối giản đơn:
+ Kỹ thuật: coi mỗi giá trị lượng biến là một tổ
+ Phạm vi áp dụng: Biến định tính + Biến rời rạc có ít giá trị
- Bảng tần số phân phối có khoảng cách tổ:
+ Kỹ thuật: ghép một phạm vi lượng biến vào một tổ
+ Phạm vi áp dụng: Biến rời rạc có nhiều giá trị + Biến liên tục
+ Lý do tiến hành phân tổ với khoảng cách tổ
+ Gồm: Bảng tần số có khoảng cách tổ bằng nhau + Bảng tần số có
khoảng cách tổ không bằng nhau - Một số thuật ngữ:
+ Giới hạn dưới (ghd): giá trị thấp nhất của một tổ.
+ Giới hạn trên (ght): giá trị cao nhất của một tổ
+ KCT: phạm vi lượng biến của một tổ từ ghd đến ght
+ D$y số phân phối cWn có tên gọi là dXy số thuộc tính (phân tổ theo biến
định tính) và dXy số lượng biến (phân tổ theo biến định lượng). b. Đồ thị:
Biến định Biểu đồ hình cột - 1 trục biểu diễn các thuộc tính tính và biến giản đơn
- Trục cWn lại là tần số hoặc tuần suất xuất hiện rời rạc
của từng loại thuộc tính Series 2 6 4 2
0 Category 1 Category 2 Category 3 Category 4 Series 2 Biểu đồ hình trWn
- Sử dụng biểu đồ trWn khi muốn mô tả, so sánh
tỉ lệ % xuất hiện của các biến.
- Biểu đồ trWn thường mô tả tần suất. Sales 1st Qtr 2nd Qtr 3rd Qtr 4th Qtr
Biến liên tục Biểu đồ tần số - Biểu đồ tần số phân phối mô tả thông tin trong phân phối
các bảng tần số phân phối có khoảng cách tổ dưới dạng đồ thị + Đối xứng + Lệch phải + Lệch trái + Bimondal (2 đỉnh) Biểu đồ hộp Đa giác tần số
- Đa giác tần số mô tả tần số và trị số giữa của
tổ cho các bảng tần số phân phối có khoảng cách tổ. 2.
Trình bày dữ liệu đa biến:
Biến định tính Bảng dữ liệu chéo - Cross-table được sử dụng để nghiên cứu mối và biến rời rạc
liên hệ giữa hai biến định tính hoặc biến rời rạc ít giá trị với ít giá trị.
- Lưu ý: khi xây dựng cross-table phải xác định
được biến phụ thuộc (dependent) và biến độc
lập (independent) để đưa vào dWng và cột cho phù hợp. Biểu đồ thanh Biến liên tục Đồ thị phân tán
Bài 3: Các mức độ thống kê mô tả
1. Thống kê mô tả cho một biến: a.
Số tuyệt đối và số tương đối
- Số tuyệt đối trong thống kê biểu hiện quy mô, số lượng của hiện tượng nghiên
cứu tại thời gian, địa điểm cụ thể. + Đơn vị tính:
Đơn vị hiện vật: cái, con, quả, chiếc, m, kg, giờ, ngày...
Đơn vị giá trị: VND, USD,...
- Số tương đối trong thống kê biểu hiện quan hệ so sánh giữa hai mức độ nào đó của hiện tượng + Đơn vị tính:
lần, phần trăm (%), phần nghìn (‰)
Đơn vị kép: người/km2, sản phẩm/người...
- Các loại số tương đối
Số tương đối động thái (tốc độ phát triển) t = y1 (100) y0 Số tương đối kế
Số tương đối nhiệm vụ KH Kn = yKH (100) hoạch y0
Số tương đối thực hiện KH Kt = y1 (100) yKH
Phản ánh tỷ trọng của từng bộ phận cấu
thành trong một tổng thể.
Số tương đối kết cấu y1 Di= ∑ (100) y1 so sánh
˗ hai hiện tượng cùng loại nhưng khác
Số tương đối không gian nhau về không gian
˗ hai mức độ giữa hai bộ phận trong một tổng thể
Số tương đối cường độ
so sánh chỉ tiêu của hai hiện tượng
khác nhau nhưng có quan hệ với nhau. b. Các mức độ trung tâm (i) Số trung bình
- Đặc điểm trung bình cộng:
• Dữ liệu sử dụng thang đo khoảng, tỷ lệ
• Tất cả các giá trị trong tổng thể đều tham gia vào công thức tính
• Chỉ tính được một giá trị trung bình
• Tổng chênh lệch của các giá trị so với trung bình cộng bằng 0
• Chịu ảnh hưởng của giá trị đột xuất (ii)Số trung vị
- Giá trị lượng biến của đơn vị đứng ở vị trí chính giữa trong dXy số lượng biến
+ Số đơn vị tổng thể lẻ (∑fi = 2m+1): Me = xm+1 + +1
+ Số đơn vị tổng thể chẵn (∑fi =2m): Me = xm xm 2 - Đặc điểm:
+ Không bị ảnh hưởng của giá trị đột xuất
+ Dữ liệu sử dụng thang đo thứ bậc, khoảng, tỷ lệ (iii) Mốt
- Mốt là biểu hiện xuất hiện phổ biến nhất trong dXy số
- Xác định dựa vào tần số - Đặc điểm:
+ Dữ liệu sử dụng tất cả các loại thang đo
+ Không bị ảnh hưởng của giá trị đột xuất (ngoại lai)
+ Một số trường hợp không có mốt hoặc có nhiều mốt (iv)
So sánh trung bình, trung vị, mốt c.
Các mức độ đo độ biến thiên
- Khoảng biến thiên: Là chênh lệch giữa giá trị lớn nhất và nhỏ nhất trong dXy số. R = xmax - xmin - Khoảng tứ phân vị:
+ Tứ phân vị: Các giá trị chia tập hợp dữ liệu (đX được sắp xếp từ nhỏ
đến lớn) thành 4 phần bằng nhau.
+ Thập phân vị: Các giá trị chia tập hợp dữ liệu (đX được sắp xếp từ nhỏ
đến lớn) thành 10 phần bằng nhau.
+ Bách phân vị: Các giá trị chia tập hợp dữ liệu (đX được sắp xếp từ nhỏ
đến lớn) thành 100 phần bằng nhau.
+ Cách xác định bách phân vị:
Xác định vị trí của phân vị thứ p: Lp =(n+1) p
Tính giá trị của phân vị thứ p dựa vào vị trí
+ Khoảng tứ phân vị là: Là chênh lệch giữa giá trị tứ phân vị thứ ba và tứ
phân vị thứ nhất. IQR = Q3 – Q1
- Phương sai: Là trung bình cộng của tổng bình phương độ lệch so với số trung bình
- Độ lệch chuẩn: Là căn bậc hai của phương sai
+ Độ lệch chuẩn của tổng thể: σ = √σ2
+ Độ lệch chuẩn của mẫu: S= √S2 - Hệ số biến thiên:
+ Là số tương đối (%) tính bằng cách so sánh giữa độ lệch chuẩn với số trung bình cộng V = S/x × 100
+ Là thước đo độ biến thiên tương đối, có thể dùng để so sánh giữa các
hiện tượng khác loại hoặc cùng loại và có số bình quân khác nhau d.
Hình dáng phân phối dãy số:
- Hệ số Skewness: là thước đo độ đối xứng của phân phối
- Biểu đồ hộp ria mèo (boxplot) biểu diễn 5 mức độ thống kê mô tả: giá trị lớn
nhất (max), giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), tứ phân vị thứ ba (Q3) và trung vị (Q2)
- Quy tắc 3 sigma: Đối với phân phối chuẩn:
+ Khoảng 68% các quan sát nằm trong phạm vi (+) và (-) 1 lần độ lệch chuẩn so với trung bình
+ Khoảng 95% các quan sát nằm trong phạm vi (+) và (-) 2 lần độ lệch chuẩn so với trung bình
+ Khoảng 99,7% các quan sát nằm trong khoảng (+) và (-) 3 lần độ lệch chuẩn so với trung bình
2. Thống kê mô tả phản ánh mối liên hệ:
a. Hiệp phương sai: Phản ánh chiều hướng của mối liên hệ
b. Hệ số tương quan: Phản ánh chiều hướng và cường độ của mối liên hệ
Bài 4: Tổng quan về xác suất và định lí giới hạn trung tâm 1. Tổng quan về xác suất: a.
Khái niệm về xác suất, biến ngẫu nhiên: - Xác suất là:
+ khả năng mà một sự kiện có thể xảy ra.
+ X/S cung cấp mối liên hệ giữa tổng thể và mẫu.
- X là biến ngẫu nhiên nếu giá trị của X=x là hoàn toàn ngẫu nhiên.
- Xác suất để X nhận giá trị x là p(x)=P(X=x).
- Nếu một biến ngẫu X nhận giá trị xi, khi đó
1. 0

2. ∑ p(xi)=1 xi b.
Phân phối xác suất của biến ngẫu nhiên liên tục: - Phân phối chuẩn:
+ Dạng hình chuông, đối xứng qua giá trị trung tâm μ, có đỉnh tại x=μ, đồ
thị tiệm cận 0 khi x→±∞. 1. E(X)=μ; V(X)=σ2
2. Diện tích dưới đường cong=1 3. Kí hiệu: X~N(μ,σ2).
4. Giá trị trung bình khácnhau–vị trí thay đổi dọc theo trục x
5. Phương sai khác nhau–đồ thị nhọn hoặc thoải
+ Chuẩn hoá: Là quá trình chuyển một biến phân phối chuẩn về phân phối chuẩn hóa
+ Nếu X~N(μ,σ2), sử dụng công thức dưới đây để chuẩn hóa: Z = Xμ N(0,1) σ
-> Sử dụng bảng Z để tra X/S + Quy tắc đối xứng: P(Z<-a) = P(Z>a)
P(Z>a) = 1 – P(ZP(a2.
Định lí giới hạn trung tâm: a. Phân phối của mẫu:
- Khi cỡ mẫu tăng lên (đặc biệt tăng đến vô hạn và tiệm cận về quy mô của tổng
thể), phân phối của mẫu sẽ tiệm cận về phân phối chuẩn.
b. Phân phối của trung bình mẫu:
- Bất kể biến ngẫu nhiên ban đầu có dạng phân phối như thế nào, khi cỡ mẫu
tăng lên phân phối của các trung bình mẫu tiệm cận về phân phối chuẩn.
- Bất kể biến ngẫu nhiên ban đầu có dạng phân phối như thế nào, với một cỡ
mẫu n, độ lệch chuẩn của các trung bình mẫu (sai số bình quân chọn mẫu) bằng
σ , kí hiệu là SE (Standard error of the mean). √n
-> Bất kể tổng thể có phân phối thế nào (chuẩn hay không chuẩn), khi cỡ mẫu
đủ lớn phân phối của các trung bình mẫu sẽ tuân theo quy luật phân phối chuẩn
và chúng ta có thể sử dụng thống kê Z để tính xác suất cho bất kỳ giá trị trung bình nào
c. Định lí giới hạn trung tâm:
- Nếu X là một biến ngẫu nhiên có giá trị trung bình là μ và phương sai là σ2, thì
x N(μ, σ2 n¿ xμ σ
Z ~ N (0,1) as n →∞n
Bài 5: Ước lượng và kiểm định giả thuyết thống kê 1. Ước lượng thống kê: a.
Ước lượng (suy rộng) kết quả điều tra:
- Ước lượng điểm/ trung bình: thống kê tính từ mẫu được dùng để ước lượng
các tham số của tổng thể
- Ước lượng bằng khoảng tin cậy: là khoảng giá trị được xác định từ thống kê
mẫu mà với xác suất cụ thể, tham số của tổng thể sẽ thuộc khoảng đó
- z,t làhệ số tin cậy(giá trị tới hạn mức α của phân phối chuẩn hoá và phân phối Student)
- α – mức ý nghĩa (xác suất mắc sai lầm)
- (1-α) là xác suất hay trình độ tin cậy
- Trong trường hợp tổng thể là hữu hạn, Chúng ta điều chỉnh phạm vi sai số
trong công thức xác định khoảng tin cậy. FPC=√Nn N−1 b.
Xác định kích thước (quy mô) mẫu:
- Các yếu tố ảnh hưởng tới kích thước mẫu:
+ Hệ số tin cậy (z)/ Độ tin cậy của ước lượng
+ Phương sai (độ đồng đều) của tổng thể
+ Phạm vi sai số chọn mẫu/sai số chọn mẫu cho phép (ε)
- Một số phương pháp xác định phương sai tổng thể:
+ Lấy phương sai lớn nhất hoặc tỷ lệ gần với 0,5 nhất trong các lần điều tra trước (nếu có)
+ Sử dụng kết quả của nghiên cứu có tính chất tương tự
+ Tiến hành nghiên cứu thử nghiệm
+ Lấy tỷ lệ bằng 0,5 hoặc ước lượng phương sai dựa vào khoảng biến
thiên σ=R = xmaxxmin 6 6 2.
Kiểm định giả thuyết thống kê
a. Những vấn đề chung về kiểm định giá thuyết thống kê:
- Giả thuyết: là một tuyên bố về tham số của tổng thể cần được chứng minh
- Kiểm định giả thuyết là 1 quy trình dựa trên bằng chứng mẫu và lí thuyết xác
suất để xác định xem giả thuyết đưa ra có phải là 1 tuyên bố hợp lí hay không
1) Bước 1: Nêu giả thuyết
- Giả thuyết không (H0): là tuyên bố về giá trị của tham số tổng thể nhằm mục
đích kiểm tra trên cơ ở bằng chứng cụ thể
- Giả thuyết đối (H1): là tuyên bố được chấp nhận nếu dữ liệu mẫu cho hấy đủ
bằng chứng chứng minh giả thuyết là không sai
2) Lựa chọn mức ý nghĩa
- Sai lầm loại I: bác bỏ H0 khi H0 đúng
- Sai lầm loại II: chấp nhận H0 khi H0 sai
3) Lựa chọn tiêu chuẩn kiểm định
- Tiêu chuẩn kiểm định là giá trị được xác định từ dữ liệu mẫu, được sử dụng để
ra quyết định bác bỏ giả thuyết không xμ0
- Biết PS tổng thể (σ2 ): Zqs= σn xμ0
- Chưa biết PS tổng thể (s2): Tqs= sn
4) Xác định quy tắc ra quyết định:
- Quy tắc ra quyết định dựa vào miền bác bỏ
+ Nếu giá trị tiêu chuẩn kiểm định thuộc miền bác bỏ (W )  , có đủ cơ sở để bác bỏ H0
+ Nếu giá trị của tiêu chuẩn kiểm định không thuộc miền bác bỏ, chưa đủ cơ sở để bác bỏ H0
- Quy tắc ra quyết định dựa vào P-value:
+ P-value là xác suất của giá trị tiêu chuẩn kiểm định từ ngưỡng tính
được dựa trên thông tin mẫu với giả định giả thuyết không là đúng.
+ Các nguyên tắc ra quyết định để bác bỏ giả thuyết H0 với P-value là:
• Nếu p-value lớn hơn hoặc bằng α, chưa đủ cơ sở để bác bỏ giả thuyết H0.
• Nếu p-value nhỏ hơn α, bác bỏ giả thuyết H0.
- Quy tắc ra quyết định dựa vào Khoảng tin cậy: Bác bỏ giả thuyết H0 khi μ0
không thuộc khoảng tin cậy (1 - α ) của ước lượng giá trị trung bình. 5) Ra quyết định
- Xác định giá trị tiêu chuẩn kiểm định từ mẫu quan sát
- Dựa vào các quy tắc ra quyết định để ra quyết định. 6) Nêu kết luận - Có 2 trường hợp:
+ Nếu giá trị tiêu chuẩn kiểm định thuộc miền bác bỏ/Giá trị xác suất nhỏ
hơn α=> Có đủ cơ sở để bác bỏ giả thuyết H0
+ Nếu giá trị tiêu chuẩn kiểm định không thuộc miền bác bỏ/Giá trị xác
suất lớn hơn hoặc bằng α => Chưa đủ cơ sở để bác bỏ giả thuyết H0
b. Kiểm định giá trị trung bình của 1 tổng thể:
- Giả sử nghiên cứu biến ngẫu nhiên X phân phối chuẩn
- Chưa biết μ song có cơ sở để giả định nó bằng μ 0 (H0: μ = μ 0)
- Để kiểm định giả thuyết trên, lấy ngẫu nhiên n đơn vị từ đó tính các thống kê mẫu. - Tiêu chuẩn kiểm định xμ0
- Biết PS tổng thể (σ2 ): Zqs= σn
Nếu H0 đúng -> thống kê Z sẽ tuân theo quy luật pp chuẩn hoá xμ0
- Chưa biết PS tổng thể (s2): Tqs= sn
Nếu H0 đúng -> thống kê T sẽ tuân theo quy luật phân phối Student với bậc tự do là n-1
c. Kiểm định tỉ lệ của 1 tổng thể:
- Giả sử nghiên cứu một tổng thể, tỷ lệ chung là p.
- Chưa biết p song có cơ sở để giả định nó bằng p0 (H0:p=p0)
- Để kiểm định giả thuyết trên, lấy mẫu n đơn vị từ đó tính các thống kê của mẫu. - Tiêu chuẩn kiểm định
Bài 6: Phân tích tương quan và hồi quy 1.
Mối liên hệ giữa các hiện tượng a. Liên hệ hàm số:
- Khái niệm: liên hệ hàm số là mối liên hệ hoàn toàn chặt chẽ
- Đặc điểm: Liên hệ được biểu hiện trên từng đơn vị cá biệt b. Liên hệ tương quan:
- Khái niệm: liên hệ tương quan là mối liên hệ không hoàn toàn chặt chẽ.
- Đặc điểm: Liên hệ không được biểu hiện trên từng đơn vị cá biệt mà phải quan sát số lớn 2. Phân tích tương quan:
- Phân tích tương quan gồm các kỹ thuật đo lường mối liên hệ giữa hai biến
- Hệ số tương quan đo lường mức độ chặt chẽ của mối liên hệ tương quan tuyến tính giữa hai biến (
r= xx )(yy ) (n−1 )SxSy - Tác dụng:
+ Xác định chiều hướng của mối liên hệ
+ Đánh giá mức độ chặt chẽ của liên hệ tương quan tuyến tính 3. Phân tích hồi quy a. Phân tích hồi quy đơn:
- Đường hồi quy lý thuyết: là đường điều chỉnh bù trừ các chênh lệch ngẫu
nhiên nêu ra mối liên hệ cơ bản của hiện tượng.
- Phương trình hồi quy: là phương trình xác định vị trí của đường hồi quy lý thuyết
- Mô hình hồi quy tổng thể:
α: phản ánh ảnh hưởng của các nguyên nhân khác (ngoài nguyên nhân x) tới kết quả y
• β: phản ánh ảnh hưởng trực tiếp của nguyên nhân x tới kết quả y. Cụ
thể, khi x tăng thêm 1 đơn vị thì y thay đổi trung bình β đơn vị
+ β > 0: x và y có mối liên hệ thuận (cùng chiều)
+ β < 0: x và y có mối liên hệ nghịch (ngược chiều)
- Phương trình hồi quy mẫu:
- Phương pháp OLS: Tìm các tham số sao cho tổng bình phương các chênh lệch
giữa giá trị thực tế và giá trị lý thuyết của tiêu thức kết quả là nhỏ nhất. + Giả thiết OLS:
• Giả thiết 1: Mô hình được ước lượng trên cơ sở mẫu ngẫu nhiên
• Giả thiết 2: Kỳ vọng toán của sai số bằng không
• Giả thiết 3: Sai số tuân theo quy luật phân bố chuẩn
• Giả thiết 4: Phương sai của sai số bằng nhau (không đổi)
• Giả thiết 5: Không có tương quan giữa các phần dư (không có tự tương quan)
• Giả thiết 6: Giữa các biến độc lập không có tương quan tuyến tính
hoàn hảo (đa cộng tuyến) - Đối với hồi quy bội. + Nội dung: n
∑ (xix¿)(yiy) b= i=1 ¿ n
∑ (xix¿)2¿ i=1 a=y -bx
- Tính ∑x , ∑y , ∑xy , ∑x , ∑ , 2 y2 ∑yx a= 2−∑xxy
nx2− (∑x )2
nxy−∑xy
b= nx2− (∑x )2 b. Phân tích hồi quy bội