













Preview text:
BÀI 3
1. Thống kê mô tả cho 1 biến
CÁC MỨC ĐỘ THỐNG KÊ MÔ TẢ
(Ch.3 + Ch.4 – Thống kê trong KT&KD)
Số tuyệt đối và số tương đối trong thống kê I II Thống kê mô Thống kê mô
Các chỉ tiêu đo xu hướng trung tâm tả tả cho 1 biến phản ánh mối liên hệ
Các chỉ tiêu đo độ biến thiên
Các chỉ tiêu cho biết hình dáng phân phối của dãy số 1 2
1.1. Số tuyệt đối và số tương đối trong thống kê Số tuyệt đối Số tuyệt đối
• Số tuyệt đối trong thống kê phản ánh quy mô hoặc số lượng của hiện
tượng nghiên cứu tại một thời gian và địa điểm cụ thể.
• Đơn vị tính hiện vật: cái, con, quả, chiếc, mét, kilôgam, giờ, ngày, … Số tương đối
• Đơn vị tính giá trị: đồng (VND), USD, …
Vận dụng kết hợp số tuyệt đối và tương đối • Ví dụ:
• Một xã có 1.200 hộ trồng cà phê.
• Năm 2024, Việt Nam xuất khẩu 1,8 triệu tấn cà phê.
• Diện tích trồng cà phê ở Đắk Nông là 130.000 ha. 3 4 Page 1 Số tuyệt đối Số tương đối
• Số tuyệt đối thời điểm:
• Số tương đối phản ánh mối quan hệ so sánh giữa hai mức độ của
üphản ánh quy mô, số lượng của hiện tượng tại một thời điểm nhất định.
hiện tượng thống kê (theo không gian, thời gian hoặc theo cấu thành) üVí dụ: • Đơn vị tính:
•Dân số Việt Nam ngày 01/4/2019 là 96,2 triệu người.
• Số lần: ví dụ sản lượng năm 2025 gấp 1,5 lần năm 2020.
•Dư nợ tín dụng tại ngân hàng A tính tại 31/12/2024 là 450 tỷ đồng.
• Tỷ lệ phần trăm (%), phần nghìn (‰).
• Số tuyệt đối thời kỳ:
• Đơn vị kép: phản ánh mối quan hệ giữa hai đại lượng khác loại, ví dụ:
üphản ánh khối lượng, quy mô của hiện tượng trong cả một khoảng thời
gian. (Thể hiện sự tích lũy, tổng cộng hoặc kết quả trong suốt thời kỳ).
• Mật độ dân số: người/km². üVí dụ:
• Năng suất lao động: sản phẩm/người.
• Tổng sản lượng cà phê thu hoạch ở Đắk Nông trong năm 2024 là 200 nghìn tấn.
• Doanh thu bình quân: đồng/người.
• Doanh thu bán hàng một siêu A thị trong quý I năm 2025 đạt 50 tỷ đồng. 5 6
Các loại số tương đối
Các loại số tương đối
Số tương đối động thái (tốc độ phát triển):
Số tương đối kế hoạch:
• Số tương đối nhiệm vụ kế hoạch: So sánh mức kế hoạch được giao với mức
• So sánh mức độ của hiện tượng ở thời kỳ (hoặc thời điểm) sau với thời kỳ
thực tế kỳ trước
(hoặc thời điểm) trước. y K &' % = (100) • Công thức: y("#
Ví dụ: Kế hoạch doanh thu năm 2025 của công ty A bằng 120% năm 2024. 𝑦 t = ! (100) 𝑦!"#
• Số tương đối thực hiện kế hoạch: So sánh mức độ thực tế đạt được với mức
hoặc t = $! (100) (so với kỳ gốc) kế hoạch đề ra $ y " K ( ) = (100)
• Ý nghĩa: Cho biết hiện tượng phát triển nhanh hay chậm theo thời gian y&'
Ví dụ: Kế hoạch doanh thu năm 2024 của công ty A là 120 tỷ đồng, nhưng thực tế đạt • Ví dụ:
được 114 tỷ đồng. Như vậy, doanh thu thực hiện đạt 95% kế hoạch.
ü Sản lượng cà phê năm 2024 bằng 110% so với năm 2023 (tăng 10%).
• Mối liên hệ: t = Kn * KT, hay $! = *%& ∗ *'
ü Diện tích trồng cà phê ở Đắk Nông năm 2024 gấp 1,2 lần so với năm 2020. $!#$ *'#$ *%& 7 8 Page 2
Các loại số tương đối
Các loại số tương đối
Số tương đối kết cấu:
Số tương đối không gian:
• Số tương đối kết cấu phản ánh tỷ trọng (tỉ lệ) của từng bộ phận cấu
• Số tương đối không gian dùng để so sánh:
thành trong một tổng thể.
ØHai hiện tượng cùng loại nhưng khác nhau về không gian (ví dụ: y
vùng, địa phương, quốc gia). d + + = (100) Σy+
ØHai bộ phận trong cùng một tổng thể để thấy sự khác biệt về mức • Ví dụ: độ.
üMột lớp có 50 sinh viên, trong đó 20 nam và 30 nữ. Như vậy, tỷ trọng nam là • Ví dụ:
𝟒𝟎%, tỷ trọng nữ là 𝟔𝟎%
üNăng suất lúa của tỉnh A là 60 tạ/ha; tỉnh B là 75 tạ/ha → Năng suất lúa của
üGDP của một quốc gia năm 2024: Nông nghiệp chiếm 15%; Công nghiệp
tỉnh B bằng 125% năng suất lúa của tỉnh A.
chiếm 35%; Dịch vụ chiếm 50%
üThu nhập bình quân tháng của nam gấp 1,2 lần thu nhập của nữ. 9 10
Các loại số tương đối
Vận dụng kết hợp số tuyệt đối và số tương đối
Số tương đối cường độ:
✔Số tuyệt đối cho biết quy mô, khối lượng của hiện tượng (bao nhiêu,
• Số tương đối cường độ phản ánh mối quan hệ so sánh giữa hai hiện tượng lớn nhỏ thế nào).
khác nhau nhưng có liên hệ với nhau, trong đó hai hiện tượng không cùng
✔Số tương đối cho biết mức độ quan hệ, tốc độ, tỷ trọng giữa các hiện
đơn vị đo lường. tượng.
• Đơn vị tính: thường là đơn vị kép (ví dụ: người/km², tấn/ha, …) • Ví dụ:
✔Khi phân tích thống kê, cần kết hợp cả hai loại số liệu để đánh giá
• Tỉnh A có 1.000.000 người, diện tích 5.000 km² => Mật độ dân số của tỉnh A
hiện tượng một cách toàn diện:
là 200 người/km𝟐.
• Nếu chỉ dùng số tuyệt đối → dễ thấy quy mô nhưng khó so sánh.
• Tỉnh B có diện tích gieo trồng lúa là 1.000 ha, với sản lượng thu hoạch
• Nếu chỉ dùng số tương đối → có thể so sánh nhưng thiếu ý nghĩa
.50.000 tấn => Năng suất lúa của tỉnh B là 50 tấn/ha. thực tiễn về quy mô. 11 12 Page 3
1.2. Các chỉ tiêu đo xu hướng trung tâm Trung bình cộng Số trung bình Các loại Trung bình cộng Trung bình cộng Phạm vi giản đơn gia quyền Số trung vị ∑ x! ∑ x!f! Tổng thể µ = µ = N N VD VD Mốt ∑ x Mẫu x = ∑ #( x = !f! $ n
So sánh trung bình, trung vị, mốt VD VD 13 14 Trung bình cộng Trung bình cộng 15 16 Page 4 Trung bình cộng
Trung bình cộng của dữ liệu phân tổ 17 18 Trung bình cộng
Trung bình nhân (Geometric Mean)
• Trung bình cộng là số đo xu hướng trung tâm được sử dụng phổ biến Công thức: nhất.
• Trung bình nhân giản đơn (Simple Geometric Mean) • Đặc điểm:
Với 𝑛 giá trị dương 𝑥%, 𝑥&, … , 𝑥':
• Chỉ áp dụng cho dữ liệu được đo bằng thang đo khoảng hoặc thang đo 𝐺𝑀 = ) 𝑥
tỷ lệ (ví dụ: tuổi, thu nhập, cân nặng…). %×𝑥&× ⋯×𝑥'
• Tất cả các giá trị trong tổng thể/mẫu đều tham gia vào việc tính trung
• Trung bình nhân gia quyền (Weighted Geometric Mean) bình.
Với 𝑛 giá trị dương 𝑥
• Mỗi tập dữ liệu chỉ có một giá trị trung bình duy nhất.
%, 𝑥&, … , 𝑥' và trọng số f%, f&, … , f':
• Tổng chênh lệch giữa các giá trị quan sát và trung bình luôn bằng 0. *+, ( ( (
• Nhạy cảm với các giá trị đột xuất (outliers), có thể bị lệch nếu dữ liệu 𝐺M = 𝑥 $ - ) % ×𝑥& × ⋯×𝑥'
có giá trị quá lớn hoặc quá nhỏ. 19 20 Page 5 Trung bình nhân Trung bình nhân
Đặc điểm và cách sử dụng:
• Tốc độ tăng giảm trung bình theo thời gian.
• Chỉ áp dụng cho các giá trị dương.
• Thường dùng khi dữ liệu ở dạng tỷ lệ tăng trưởng, tốc độ phát
triển, chỉ số tương đối (ví dụ: tốc độ tăng trưởng GDP, lãi suất kép, chỉ số giá).
với n là số lượng thời kỳ trong dãy số.
• Luôn nhỏ hơn hoặc bằng trung bình cộng
• Ví dụ: Sản lượng cà phê của một tỉnh năm 2010 là 200 nghìn tấn, đến năm
• Thể hiện mức tăng trưởng bình quân trong một giai đoạn.
2020 đạt 350 nghìn tấn. • Ví dụ:
=> Tốc độ tăng trưởng sản lượng cà phê trung bình hàng năm trong giai
Nếu GDP tăng 5%, 7% và 8% trong 3 năm liên tiếp, tốc độ tăng trưởng bình $" -./
quân = . 1.05×1.07×1.08 − 1 ≈ 0.0659 = 6.59% đoạn này = − 1 ≈ 0.0578 = 5.78% 0// 21 22 Trung vị Trung vị
• Trong tập dữ liệu, nếu có giá trị quá lớn/nhỏ → Trung bình mất tính đại diện.
• Trung vị (Me): là giá trị đứng giữa của dãy số sau khi sắp xếp từ nhỏ → lớn (hoặc ngược lại).
• Khi đó, Trung vị phản ánh mức trung tâm hợp lý hơn. • Cách xác định:
• Ví dụ: Giả sử bạn muốn mua một căn hộ ở Palm Aire. Đại lý bất động sản cho
ØNếu số quan sát lẻ (Σfi = 2m+1) → Me = xₘ₊₁
biết giá trung bình của các căn hộ hiện có là $110,000. Nếu dự định ngân
ØNếu số quan sát chẵn (Σfi = 2m) → Me = (xₘ + xₘ₊₁)/2
sách để mua căn hộ tối đa là $75,000, liệu bạn có thể mua không? • Đặc điểm:
• Giá bán các căn hộ: $60,000, $65,000, $70,000, $80,000 và $275,000
ØKhông bị ảnh hưởng bởi giá trị đột xuất.
ØÁp dụng với dữ liệu thang đo thứ bậc, khoảng, tỷ lệ.
• Trung bình = 110k (bị kéo lên bởi căn hộ $275,000)
• Khi dữ liệu phân phối lệch (skewed), trung vị phản ánh xu hướng trung tâm tốt hơn
• Trung vị (Median) = 70k → mức giá điển hình. trung bình. 23 24 Page 6 Trung vị Mốt
• Ví dụ 1: Dữ liệu về điểm kiểm tra của 5 sinh viên: 5, 7, 8, 10, 12
• Ký hiệu: Mo (Mode) • Khái niệm: ØSắp xếp: 5, 7, 8, 10, 12
ØGiá trị xuất hiện nhiều lần nhất trong tập dữ liệu.
ØMe = x₍ₘ₊₁₎ = x₃ = 8
ØPhản ánh giá trị phổ biến nhất (tần suất cao nhất). • Cách xác định:
• Ví dụ 2: Dữ liệu về giá bán của 6 sản phẩm cùng loại trong một cửa
ØDựa vào tần số (số lần lặp lại). hàng: 2, 4, 6, 8, 10, 12
ØCó thể: không có mốt, 1 mốt, hoặc nhiều mốt. • Đặc điểm:
ØSắp xếp: 2, 4, 6, 8, 10, 12
ØÁp dụng cho mọi loại thang đo: định danh, thứ bậc, khoảng, tỷ lệ.
ØMe = (x₃ + x₄)/2 = (6 + 8)/2 = 7
ØKhông bị ảnh hưởng bởi giá trị ngoại lai. 25 26 Mốt
So sánh trung bình, trung vị, mốt
• Mean (X), Median (Me) và Mode (Mo) đều là thước đo xu hướng trung tâm.
• Tham số nào phản ánh tốt nhất phụ thuộc vào hình dạng phân phối:
Ø Phân phối đối xứng (Phân phối chuẩn): ü Mean = Median = Mode
ü Cả ba đều đại diện như nhau.
Ø Phân phối lệch phải (skewed right): ü Mode < Median < Mean
ü Trung vị và mốt thường phản ánh xu hướng trung tâm tốt hơn trung bình.
Ø Phân phối lệch trái (skewed left): ü Mean < Median < Mode
ü Trung vị và mốt phù hợp hơn. 27 28 Page 7
So sánh trung bình, trung vị, mốt
So sánh trung bình, trung vị, mốt
Ví dụ: Có biểu đồ tần số phân
Phân phối đối xứng Phân phối Phân phối (PP chuẩn)
phối về số lượng khách hàng mỗi lệch trái lệch phải
ngày trong 73 ngày qua tại Cửa fi f f i i hàng bánh Donahue’s Donut.
Tìm trung bình, trung vị và mốt? xi 𝒙 = Me = Mo xi 𝒙 < Me < Mo xi
Mo < Me < 𝒙 29 30
So sánh trung bình, trung vị, mốt
1.3. Các chỉ tiêu đo độ biến thiên Ví dụ:
Khoảng biến thiên (Range)
G. G. Green Manufacturing đã lưu
lại hồ sơ của 45 người về hưu gần
đây nhất và ghi lại tuổi nghỉ hưu
Khoảng tứ phân vị (Interquartile Range – IQR) của họ.
Tìm trung bình, trung vị và mốt?
Phương sai (Variance – Var)
Độ lệch chuẩn (Standard Deviation – SD)
Hệ số biến thiên (Coeficient of Variation – CV) 31 32 Page 8
Khoảng biến thiên (Range) Các phân vị • Khái niệm:
ØTứ phân vị (Quartiles – Q):
• Là các giá trị chia dãy dữ liệu đã sắp xếp thành 4 phần bằng nhau.
ØLà hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu. • Gồm: • Công thức:
• 𝑄/: mốc ngăn cách 25% giá trị nhỏ nhất. • 𝑄 𝑅 = 𝑋
0: mốc ngăn cách 50% giá trị nhỏ nhất (chính là Trung vị). 234 − 𝑋256
• 𝑄1: mốc ngăn cách 75% giá trị nhỏ nhất. • Đặc điểm:
ØThập phân vị (Deciles – D): ØĐơn giản, dễ tính.
• Là các giá trị chia dãy dữ liệu đã sắp xếp thành 10 phần bằng nhau. • 𝐷
ØPhản ánh phạm vi biến động của dữ liệu.
/, 𝐷0, … , 𝐷2 tương ứng là các mốc ngăn cách 10%, 20%, …, 90% giá trị nhỏ nhất.
ØBách phân vị (Percentiles – P):
ØNhược điểm: Rất nhạy cảm với giá trị đột xuất.
• Là các giá trị chia dãy dữ liệu đã sắp xếp thành 100 phần bằng nhau.
• 𝑃/, 𝑃0, … , 𝑃22.
• Ví dụ: 𝑃23 = 9045 percentile → 90% giá trị nhỏ hơn hoặc bằng mức này. 33 34 Các phân vị Các phân vị Cách xác định: Ví dụ:
üSắp xếp dữ liệu theo thứ tự tăng dần.
Bộ dữ liệu 10 quan sát: 2, 4, 5, 7, 8, 10, 12, 15, 18, 20
üXác định vị trí phần tử cần tìm theo công
Ø Xác định các tứ phân vị: thức. ØThập phân vị: • 𝑄 = 2.75 • Vị trí của 𝐷
# là giá trị ở vị trí #× #/8# 9 ØTứ phân vị: 6: 𝑖 = 6× 89/ /3
• Tuỳ i nguyên hay không nguyên, xác
Þ𝑄# = x0 + 0.75 x- − x0 = 4 + 0.75× 5 − 4 = 4.75
• Vị trí của 𝑄6: 𝑖 = 6× 89/ : định 𝐷6 tương tự
• 𝑄0 (Median) là giá trị ở vị trí 0× #/8# = 5.5
• Nếu 𝑖 là số nguyên → 𝑄 9 6 là giá trị thứ 𝑖. Þ
• Nếu 𝑖 không nguyên → xác định 𝑄
𝑄0 nằm giữa giá trị thứ 5 và thứ 6 →𝑄0 = x. + x: /2 = 8 + 10 /2 = 9 6 ØBách phân vị:
bằng cách nội suy giữa 2 giá trị gần • Vị trí của 𝑃
• 𝑄- là giá trị ở vị trí -×(#/8#) = 8.25 nhất. 6: 𝑖 = 6× 89/ /33 9
Þ𝑄- = x= + 0.25 x> − x= = 15 + 0.25× 18 − 15 = 15.75 35 36 Page 9 Các phân vị Các phân vị Ví dụ:
Ứng dụng thực tế:
Bộ dữ liệu 10 quan sát: 2, 4, 5, 7, 8, 10, 12, 15, 18, 20 • Tứ phân vị:
ØXác định thập phân vị thứ 5 và thập phân vị thứ 1: ØPhân tích sự phân tán
• 𝐷. chính là Median => 𝐷. = 9
ØTìm giá trị đột xuất/ngoại lai (dựa vào Khoảng tứ phân vị IQR). • 𝐷 • Thập phân vị:
#là giá trị ở vị trí #×(#/8#) = 1.1 #/ → 𝐷
ØThường dùng trong phân tích điểm số, thu nhập.
# = x# + 0.1 x0 − x# = 2 + 0.1× 4 − 2 = 2.2
ØXác định bách phân vị thứ 90:
ØVí dụ: 𝐷# cho biết nhóm 10% hộ nghèo nhất.
• Bách phân vị (P):
• 𝑃>/ là giá trị ở vị trí >/× #/8# = 9.9 #//
ØỨng dụng rộng rãi trong giáo dục và kiểm tra đánh giá.
→ 𝑃>/ = x> + 0.9 x#/ − x> = 18 + 0.9× 20 − 18 = 19.8
ØVí dụ: điểm thi SAT ở 𝑃=/ nghĩa là cao hơn 80% thí sinh. 37 38 Các phân vị
Khoảng tứ phân vị (Interquartile Range – IQR) ØCông thức: 𝐼𝑄𝑅 = 𝑄2 − 𝑄%
ÞLà chênh lệch giữa tứ phân vị thứ ba và tứ phân vị thứ nhất ØĐặc điểm:
• Phản ánh độ phân tán của 50% dữ liệu trung tâm.
• Ít bị ảnh hưởng bởi giá trị đột xuất, do bỏ qua 25% nhỏ nhất và 25% lớn nhất. 39 40 Page 10
Giá trị đột xuất (Outliers) Phương sai
GIÁ TRỊ ĐỘT XUẤT:
ØLà trung bình bình phương độ lệch so với trung bình cộng Ø
• Là những giá trị chênh lệch nhiều so với mức độ chung của các quan Công thức tính: sát khác. Giản đơn Gia quyền
• Thường làm sai lệch kết quả thống kê nếu không được nhận diện. ∑ ∑
• Cách xác định (theo IQR): (x (x Tổng thể σ0 = + − µ)0 σ0 = + − µ)0f+ N N
Một giá trị được coi là đột xuất nếu:
𝑿 > 𝑸𝟑 + 𝟏. 𝟓×𝑰𝑸𝑹 ∑(x ∑(x Mẫu S0 = + − x)0 S0 = + − x)0f+
hoặc 𝑿 < 𝑸𝟏 − 𝟏. 𝟓×𝑰𝑸𝑹 n − 1 n − 1 41 42 Phương sai Phương sai
Công thức thực hành (có quyền số): Σx&f Σx & Σf Σx&f Σx & S& = ! ! − !f! = ! ! ! − !f! Σf! − 1 Σf! Σf! − 1 Σf! − 1 Σf! Σf!
Þ𝑺𝟐 = 𝒏 𝒙𝟐 − 𝒙𝟐 𝒏7𝟏 - Với: x = ∑ #((( và x& = ∑ #( (( $ $ 43 44 Page 11 Phương sai
Độ lệch chuẩn (Standard Deviation - SD)
ØỨng dụng: Đo lường mức độ phân tán/mức độ phân hoá/mức độ rủi ro.
• Là căn bậc hai của phương sai
• Phương sai lớn → các giá trị phân tán xa trung bình → dữ liệu biến động
ØĐộ lệch chuẩn của tổng thể: σ = σ0 nhiều.
• Phương sai nhỏ → các giá trị tập trung gần trung bình → dữ liệu ổn định hơn.
ØĐộ lệch chuẩn của mẫu: S = S0 ØHạn chế:
• SD cũng đo mức độ phân tán của dữ liệu quanh giá trị trung bình.
• Đơn vị của phương sai là bình phương đơn vị gốc (ví dụ: m², đồng²) → khó
ØSD lớn → dữ liệu phân tán xa trung bình → biến động mạnh. trực quan.
ØSD nhỏ → dữ liệu tập trung quanh trung bình → ổn định.
• Trong thực tế thường dùng Độ lệch chuẩn (SD) – căn bậc hai của phương
• Đơn vị của SD giống đơn vị gốc → dễ hiểu, trực quan hơn phương sai. sai. 45 46 Hệ số biến thiên
1.4. Hình dạng phân phối của dãy số
• Là thước đo mức độ biến động tương đối của dữ liệu. Hệ số Skewness:
• Biểu thị % độ lệch chuẩn so với trung bình
• đo mức độ bất đối xứng của phân phối dữ liệu. • Công thức: • Công thức tính: 𝑆𝐷
ØVới dữ liệu mẫu: 𝐶𝑉 = ×100% x 𝑛 % x+ − x
ØCV lớn → dữ liệu phân tán nhiều so với trung bình. Sk = R ( )- 𝑛 − 1 𝑛 − 2 +?# s
ØCV nhỏ → dữ liệu ổn định hơn.
Với: 𝑛: số quan sát; 𝑥;: giá trị quan sát thứ i; x: trung bình mẫu; 𝑠: độ lệch chuẩn mẫu
• Ứng dụng: So sánh mức độ biến động của các tập dữ liệu khác đơn vị đo.
Đây là công thức phổ biến nhất dùng trong các phần mềm thống kê
ØVí dụ: So sánh sự biến động của giá cà phê (nghìn đồng/kg) và thu
ØHệ số lệch Pearson (xấp xỉ):
nhập hộ gia đình (triệu đồng/tháng). 3 x − Median
• Hạn chế: Chỉ áp dụng khi trung bình > 0. Sk@ = 𝑠 47 48 Page 12
1.4. Hình dạng phân phối của dãy số
1.4. Hình dạng phân phối của dãy số Hệ số Skewness:
• Biểu đồ hộp ria mèo (boxplot) biểu diễn 5 mức độ thống kê mô tả: giá trị lớn
nhất (max), giá trị nhỏ nhất (min), tứ phân vị thứ nhất (Q1), tứ phân vị thứ ba
• Diễn giải giá trị Skewness: (Q3) và trung vị (Q2).
Ø𝑆𝑘 ≈ 0: Phân phối đối xứng (gần phân phối chuẩn).
Ø𝑆𝑘 > 0: Phân phối lệch phải (Positive Skewness) – đuôi dài hơn về phía bên phải.
Ø𝑆𝑘 < 0: Phân phối lệch trái (Negative Skewness) – đuôi dài hơn về phía bên trái.
ØRâu dưới: kéo từ Q1 đến giá trị nhỏ nhất ≥ Q1 − 1.5×IQR
ØRâu trên: kéo từ Q3 đến giá trị lớn nhất ≤ Q3 + 1.5×IQR
ØCác giá trị đột xuất (outliers): các điểm nằm ngoài khoảng [Q1 − 1.5×IQR; Q3 + 1.5×IQR]. 49 50
1.4. Hình dạng phân phối của dãy số
1.4. Hình dạng phân phối của dãy số
• Quy tắc 3 sigma (Đối với phân phối chuẩn
• Biểu đồ hộp ria mèo: - phân phối đối xứng):
ØKhoảng 68.27% các quan sát nằm trong
phạm vi (+) và (-) 1 lần độ lệch chuẩn so với trung bình.
ØKhoảng 95.45% các quan sát nằm trong
phạm vi (+) và (-) 2 lần độ lệch chuẩn so với trung bình.
ØKhoảng 99.73% (hầu như tất cả) các
quan sát nằm trong khoảng (+) và (-) 3 lần
độ lệch chuẩn so với trung bình. 51 52 Page 13
Thực hiện bằng SPSS
2. Thống kê mô tả mối liên hệ
• Chọn Analyze > Descriptive Statistics > Frequencies… Hiệp phương sai
ü Đưa các biến cần tính toán sang Hệ số tương quan ô Variable(s) ü Chọn Statistics…
ü Chọn các thống kê cần tính toán 53 54
Hiệp phương sai (Covariance)
Hiệp phương sai (Covariance)
• Hiệp phương sai là đại lượng đo mức độ và chiều hướng cùng biến
• Diễn giải giá trị hiệp phương sai:
động giữa hai biến.
Ø𝐶𝑜𝑣(𝑋, 𝑌) > 0: Khi X tăng, Y có xu hướng tăng.
ØNếu hai biến thường tăng hoặc giảm cùng nhau, hiệp phương sai dương.
ØNếu một biến tăng còn biến kia giảm, hiệp phương sai âm.
Ø𝐶𝑜𝑣(𝑋, 𝑌) < 0: Khi X tăng, Y có xu hướng giảm.
ØNếu chúng không có mối quan hệ tuyến tính, hiệp phương sai gần bằng 0.
Ø𝐶𝑜𝑣(𝑋, 𝑌) ≈ 0: Không có mối quan hệ tuyến tính giữa X và Y. • Công thức:
• Nhược điểm: Hiệp phương sai phụ thuộc vào đơn vị đo, nên khó so sánh
Ø Tổng thể: Cov X, Y = ∑ B("C< $,"C= D
trong các trường hợp khác nhau.
Ø Mẫu: Cov X, Y = ∑ B("B $,"* %"# 55 56 Page 14
Hệ số tương quan (Correlation Coefficient)
Hệ số tương quan (Correlation Coefficient)
• Hệ số tương quan là đại lượng đo mức độ và chiều hướng mối quan hệ
• Diễn giải giá trị hệ số tương quan:
tuyến tính giữa hai biến. • Công thức:
Ør(X,Y) nằm trong khoảng từ -1 đến 1.
Ør > 0: Mối tương quan dương (X tăng, Y có xu hướng tăng).
Ø Tổng thể: ρ(E,G) = HIJ(E,G) K<×K=
Ør < 0: Mối tương quan âm (X tăng, Y có xu hướng giảm).
Ø Mẫu: r(E,G) = HIJ(E,G) L
Ør = 0: Không có mối quan hệ tuyến tính giữa X và Y. <×L=
ÞHệ số tương quan không phụ thuộc vào đơn vị đo.
Ø∣r∣ gần 1: Mối quan hệ tuyến tính mạnh.
ÞHệ số tương quan chỉ đo mối quan hệ tuyến tính, không có nghĩa là nguyên
Ø∣r∣ gần 0: Mối quan hệ yếu. nhân – kết quả. 57 58
Hiệp phương sai và Hệ số tương quan
Hiệp phương sai và Hệ số tương quan Ví dụ: Hiệp phương sai Hệ số tương quan
Giả sử có dữ liệu quan sát về 4 học sinh với X = số giờ học mỗi ngày; Y = điểm kiểm tra. Phạm vi giá trị Không giới hạn - 1 đến 1
Tính hiệp phương sai và hệ số tương quan giữa X và Y. Đơn vị đo Phụ thuộc vào đơn vị Không có đơn vị của các biến Học sinh X Y A 1 50 Khả năng so sánh
Không dễ so sánh giữa các
Có thể so sánh giữa các trường hợp trường hợp khác nhau B 2 55 C 3 65 Mục đích chính
Đánh giá chiều hướng của Đánh giá mức độ và D 4 70 mối quan hệ chiều hướng của mối quan hệ 59 60 Page 15
