1
Bài 3
TÓM TT D LI U B NG THAM
S ĐẶC TRƯNG /
CÁC M C ĐỘ TH NG KÊ MÔ T
0 1
Tóm t t
Stuytđối, stương iđố
Các mcđộ trung tâm
Các mcđộ đođộ phân tán (biến thiên)
Kết hp các mcđộ trung tâm độ phân tán
Các mcđộ th phng t n ánh mi liên
h
Thc hành vi phn mm thng
S TUYT T NG IĐỐI VÀ S ƯƠ ĐỐ
23
Stuytđối
VD:
Giá trgia tăng ca doanh nghip năm 2024:
205 tri nguđồ
Quy mô ca lp hc vào lúc 8:00am: 52
Khái nim: S tuy tđối trong thng biu hi n
quy , khi lượng c a hin tượng nghiên c u
trong điu kinth ii gian địađ mcth .
4
Các loi stuytđối (1)
Stuytđối th i k :
Khái nim: biu hinquy , khi lượng c a
hin tượng trong mtđộ dài thi gian nh nhtđị
Đặcđ i m
stích luv m t lượng
thcng các giá trli vi nhau
d
Giá trgia tăng ca doanh nghip giai đo n
2022-2023: 400 tri nguđồ
5
Các loi stuytđối (2)
Stuytđối thiđim:
Khái nim: biu hinquy , khi lượng c a
hin tượng vào mt thiđim nh nhtđị
Đặcđ i m
Không stích luv m t lượng
Không thcng các giá trli vi nhau
VD:
Quy ca lp hc vào lúc …: 52
0 1
2 3
4 5
2
Đặcđim đơn vtính
Bao hàm mt ni dung kinh tế xã hic th
trong a t nh. điu kin thi gian đị đim nh đị
Phi qua đ iu tra th c tếtng hpmi xác
định được.
Đơn v tính:
-Đơn v n vhi t: cái, con, chiếc, m, kg,…
-Đơn vgiá tr: VND, USD,…
-Đơn vkép: kwh, ngày-người,…
6
Stương đối
Khái nim: Stương đối trong thng bi u
hi gin quan hso sánh ahai mcđộ ca hi n
tượng.
VD:
- Tcđộ phát trin doanh thu ca công ty X n mă
2016 là 118%
7
Các loi stương đối (1)
S t ương đốiđộng thái (tcđộ phát trin)
0
y
y
kK
n
K
Ty
y
k1
K
1
0
K
0
1
y
y
x
y
y
y
y
Tn
kkt hay
S t ho ch ương đối kế :
- St ho chương đối nhim vkế
- Mi quan h:
- S tương thc hin kế hoch
0
1
y
y
t
8
S t u: ương đối kết c
TT
BP
y
y
d
S t ương đối không gian:
B
A
y
y
I
(A/B)
Các loi stương đối (2)
9
Stương đối cường : độ so sánh chtiêu c a
hai hin tượng khác nhau nhưng mi liên
h.
VD: mtđộ dân s(nghìn người/km2)
Các loi stương đối (3)
10
Đặcđim đơn vtính
Không thu được qua ng ph iđiu tra th
thc hin thông qua . quan hso sánh
Mi stương đốiđều phi gc dùng để so
nh.
Đơn v tính:
- So sánh hai mcđộ cùng loi: ln, %
- So sánh hai m đơ cđộ khác loi m i liên h: n v
kép: người/km
2
11
6 7
8 9
10 11
3
Đi u ki n v n dng stuy tđối stương đối
12
Xem xét đặcđimca hin tượng nghiên cuđể
rút ra kết lun cho úngđ
Cn vn d ng kết hpstương đối v i s tuy t
đối
Q: Ti sao?
Đi u ki n v n dng stuy tđối stương đối
13
Ngun: dli ILOu t , APO
Các mcđộ trung tâm
Các mcđộ trung tâm cho chúng ta biết v
trí trung tâm ca mt dãy sphân ph i
Ba tham shay được sd ng:
- Trung bình/mean
- Trung v/Median
- Mt/Mode
14
Trung bình cng
15
Tính trung bình cng tdliu thô
Trung bình ca tng th:
Trung bình ca mu:
Trong đó: X
i,
x
i
giá trca mi quan sát
N, n tng sốđơn vtng th m u
1
n
i
i
x
xn
1
N
i
i
X
N
16
Tính trung bình tbng TSPP gi nnđơ
Công thc:
trong đó: x
i
giá trlượng biến ca tthi
f
i
tn sca tthi
1
1
k
i i
i
k
i
i
x f
x
f
17
12 13
14 15
16 17
4
18
Trung bình tdãy sphân phi KCT
S d ng công thc tương tdãy skhông
khong cách t
nhưng: x
i
trsgi tha ca t i
f
i
tn sca tthi
1
1
k
i i
i
k
i
i
f x
x
f
19
d
Quay trli dvbng lương bài 2
fix i(fi)(xi
)L ngươ
2004$50$60
4206$70> $60 – $80
5106$85> $80 – $90
6306$105> $90 – $120
4053$135> $120
216525Total
1
1
2165 86.6
25
k
i i
i
k
i
i
f x
x
f

20
Ưu nhượcđim ca strung bình cng
Ư đu im:
Dhiu dtính toán
Tt ccác giá trtrong dãy sốđn tham gia vào
tính toán => trung bình đại din cho cdãy s
Nhượcđim
Bịảnh hưởng bi các giá trngoi lai
d :
43; 38; 37; : : : ; 27; 34 =>
giá trngoi lai
43; 38; 37; : : : ; 27; 1934 =>
33.5x
71.5x
21
Mean is sensitive to outliers
Đ i u ki n v n dng strung bình
Strung bình chnên tính ttng thểđng
cht.
Strung bình cnđược vn d ng k ết hp v i
dãy sphân phi.
22
Trung bình nhân
23
18 19
20 21
22 23
5
Ph i ngương pháp tính đ u ki n dn v
Đ i u ki n vn dng: Trung bình nhân được tính khi
các lượng biến quan htích s.
VD: tcđộ phát tri n
x... x x
n
1
nn21
n
i
i
xx

ii
in21
f
1
f
i
ff
n
f
21
x x... x
n
i
f
xx
(1)
(2)
Strung bình nhân ginđơn
Strung bình nhân gia quyn
24
D
Trung bình nhân ginđơn: có tcđộ phát trin v
doanh thu ca mt DN nhưsau:
- Năm 2015 so vi 2014: 116%
- Năm 2016 so vi 2015: 111%
- Năm 2017 so vi 2016: 112%
Tính tcđộ phát trin trung bình v doanh thu c a
DN trong giai đon trên.
𝑡1.16 1.11 1.12
1.12 ℎ𝑎𝑦 112%
Trung bình nhân gia quy n:
25
Trung v
26 27
Trung v
Trung v giá trlượng biến cađơn vnm
vtrí chính gia trong dãy slượng biến, nó
chia dãy sra làm 2 phn s n vlượng đơ
bng nhau
3 trường hp thxy ra
Tính trung vt d li u thô
Tính trung vtdãy sphân tkhông kho ng
cách t
Tính trung vtdãy sphân t khong cách t
28
Trung vt lid u thô
Các bước tính trung v :
1. Sp x p lế i dãy s mtheo tht t ăng/gi
dn ca giá trlượng bi nế
2. Da vào tng sốđơn vca dãy sốđxác
đị đơnh n vnm vtrí chính gia
3. Trung vchính giá trlượng biến c a
đơn vnm vtrí chính gia
29
Trung vt lid u thô (cont.)
Nếu tng sốđơn v l :
Đơn vnm v a là: trí chính gi
Nếu tng sốđơn v ch n:
S n 2 đơn v m vtrí chính gia trung
vlà:
( 1 )
2
t h
n
( 1)
2
th
n
M e d ia n x
1
2 2
( ) / 2
th th
n n
M ed ia n x x




24 25
26 27
28 29
6
30
dvtính trung v
VD1. Dliu thô: 11, 11, 13, 14, 17 =>
Tính trung v
VD2. Dliu thô : 11, 11, 13, 14, 16, 17 =>
Tính trung v
31
Trung vtdãy sphân ph i
VD3. Tính trung vty ssau
Tn sX
38
712
1216
817
519
32
Trung vtdãy sphân ph i
VD4: Tính trung vtdãy ssau
Tn stích
l yũ
Tn sx
i
110-0.99
541.00-1.99
1382.00-2.99
1963.00-3.99
2234.00-4.99
2315.00-5.99
( 1)
(min) 2Me
e Me Me
Me
fS
M x h f


33
Ư u nhượcđi m ca trung v
Ư đu im:
D hi u dtính toán
Không bịảnh hưởng bi các giá trngo i
lai => vì vy thsd trungng khi s
bình không đại din
Nhượcđim
Ch giá trca 1 hoc 2 quan sát nên
nhi hiu khi không th n tt vai trò iđạ
di n
M t
34 35
M t
Mt giá trlượng biếnđược gp nhiu nh t
trong dãy slượng bi nế
Các bước tìm m t
1. Lp b ng t n s phân ph i
2. Xác định giá trthường xuyên xy ra nh t
30 31
32 33
34 35
7
36
d
Quay trli VD3.
Tn sX
38
712
1216
817
519
37
Hai mt hoc nhiu m t
Bimodal (two modes) Multimodal (several modes)
38
Tính mt tdãy sphân phi khong
cách t
Xác định tcha m t
S d t ng biuđồ n sphân ph i
Vtrí ca các mc độ trung tâm trong
dãy sphân ph i
Lch phi Phân phi chun Lch trái
40
Tham strung tâm nào tt nht?
Trung bình nhìn chung hay được sdng nh t
nh iưng li nhượcđ m nhy cm vi các giá tr
đột xut (ngoi lai)
Nếu phân ph i b lch (trái hoc phi) => nên s
dng trung v
Mt hay sdng cho biếnđịnh tính
41
Các mcđộ đođộ phân tán
Các mcđộ đođộ phân tán (còn gi các mcđộ
biến thiên) cho biết các giá trkhác phân bxung
quanh giá trtrung tâm nhưth nàoế
Các mcđộ đođộ phân tán
Khong biến thiên, khong tphân v
Ph l nương sai độ ch chu
36 37
38 39
40 41
8
42
Ti sao cn các mcđộ đođộ phân tán?
Các mcđộ trung tâm mi phn ánh mt phn dãy s
phân phi => Cn thêm thông tin để đánh giá mcđộ
đại biu ca giá trtrung tâm
VD: hai dãy ssau
Dãy s1: 100, 40, 40, 35, 35 => TB: 50
Dãy s2: 70, 55, 50, 40, 35 => TB: 50
TB ca dãy snào tính đại biu cao h nơ
43
Ti sao cn các mcđộ đođộ phân tán?
TB ca dãy sphân phi nào tính đại biu cao hơn? A? B? C?
44
Ti sao cn các mcđộ đođộ phân tán?
Cn ph i bi ếtđộ phân tán xung quanh giá trtrung
tâm để đánh giá mcđộ đại biu ca các giá trtrung
tâm mt cái nhìn tng quan vhin t ngượ
45
Khong biến thiên
KBT là chênh lch gia giá trlượng biến cao nh t
thp nht => Cn s u trp xếp li dli ước khi
tính KBT
Công thc: KBT = maximum - minimum
Ưuđim: dtính.
Nhượcđim:
Chtính đến 2 giá trịở hai đầu mút
Bịảnh hưởng bi các giá trngoi lai
Khó tính toán cho dãy sphân t khong cách t
46
Phân v
Phân v p: phân vth
th
đơn vnm vtrí sao
cho p% các đơn vtrong dãy slượng biến n m
đơ bên trái p và (100-p)% các n vtrong dãy s
nm bên phi p
Công thc tính phân v:
- Xác định vtrí ca phân v: 𝐿
󰇛𝑛1󰇜

- Sdng nguyên tc tính Me để tính phân v
47
Tphân v
Tphân v: được xác định bi các giá trlượng
biến c n va các đơ chia dãy sra làm 4 phn b ng
nhau
Q
1
: giá trlượng biến cađơn vnm v 25% trí th
trong dãy s(tc 25% sốđơn vtrong dãy s giá
tr l ượng biến < Q
1
Q
2
: trung v
Q
3
- giá trlượng biến cađơn vnm v 75% trí th
trong dãy s(tc 75% sốđơn vtrong dãy s giá
tr l ượng biến < Q
3
42 43
44 45
46 47
9
48
Khong tphân v
Khong tphân v= Q
3
Q
1
Độ lch tphân v=
Ư uđim ca tphân v : ít bịảnh hưởng bi các giá tr ingo
lai hơn KBT
Nhượcđim: chtính đến 50% dãy s
3 1
2
Q Q
49
dtính khong tphân v
Tìm tphân vtdãy ssau:
11 12 14 15 15 16 18 18 20 22
Khong tphân v: Q
3
Q
1
=?
Độ lch tphân v: = ?
3 1
2
Q Q
50
Phương sai
Phương sai ca tng th :
Phương sai m u
Phương sai mu tính tdliu thô:
Phương sai mu tính tdãy sphân t
Ưuđim: Tính đến tt ccác giá trtrong dãy s
Nhượcđi khum: giá trb ếch đại không đơn vtính
2
2( )
i
X
N
2
2( )
1
x x f
sf

2
2( )
1
x x
sn

51
Phương sai: công thc rút g n
VD: Phương sai t ng th
σ
∑󰇛x
μ󰇜
Nx
μ
52
Độ lch chun ( )
Độ lch chun (S.D) căn bc 2 ca phương sai
Độ lch chun ca tng th
Độ lch chun ca m u
Ưuđim:
Khc ph a phcđược nhượcđim c ương sai
tham shay được sdng nhtđể đođộ phân tán
(giá trcàng l phân tán cnđộ a dãy scàng cao)
2
2
s s
ng d ng c a S.D: lĩ nh v c tài chính
Phương sai (hoc S.D) thường được sdng để
đánh giá r đầi ro trong u tưtài chính.
Phương sai càng l nđộ r i ro càng l n
48 49
50 51
52 53
10
VD: hai khonđầu tưtrong vòng 10 năm (1)
T su t li nhu n
30.53.15.224.442.933.6-2.720.9-6.28.3A
11.4-1.310.718.225.327.812.26.4-2.812.1B
2 2
16%
280.34(%)
A
A
x
s
Bnđầu tưvào đâu? A? B?
VD: hai khonđầu tưtrong vòng 10 năm (2)
Ph thu ch c vào mcđộ p nhn ri ro ca b n:
Kho sun A: ri ro cao hơn nhưng t t sinh l i
cũng cao hơn.
1. Xác định giá trngoi lai: Quy tc 3
Áp dng vi mtphân phi chun hoc xp x
chu n :
68.26% giá trrơi vào khong lượng biến:
95.45% giá trrơi o khong lượng biến:
99.73% giá trrơi o khong lượng biến :
Giá trnm ngoài khong 3s được coi đột xut hay
ngoi lai
( 1 ) ( 1 )
x s x s
56
( 2 ) ( 2 )x
s x s
( 3 ) ( 3 )
x s x s
Xác định giá trịđt xu t ho c ngoi lai
57
2. Tính hsbiến thiên (V)
Khi hai dãy sphân phi trung bình khác nhau, chúng ta
tính V để so sánh độ phân tán ca hai dãy sốđó.
Dãy snào V ln hơn thì dãy sốđó độ phân n l n
hơn
VD: có 2 dãy s
Dãy snào độ phân tán ln h nơ
BA
125120TB
5150S.D
58
Hsbiến thiên (cont.)
Công thc:
V =
V
A
= 0.417 và V
B
=0.408 => A độ phân tán
ln h n Bơ
s
x
59
54 55
56 57
58 59
11
3. Tính hsốđo hình dng ca phân phi(K)
Sdng công thc ca Pearson.
K = 3 x (TB-Me)/S.D
Nếu K càng ln, phân phi càng lch
Nếu K>0 => phân phi lch phi (positive skew)
Nếu K<0 => phân phi lch trái (negative skew)
60
Hsốđo hình dng ca phân phi (VD)
sli nhu v2 dãy s ưsau:
2:
L ngươ
1:
Tui ca sv
294.322.4839TB
292.521Me
125.936.3756S.D
61
Tính K và thình dng phân phi ca 2 dãy snày
Hsốđo hình dng ca phân phi (VD)
62
0 2 4 6 8 10
Frequency
100 200 300 400 500 600
wages
0 50 100 150 200
Frequency
20 40 60 80
age
Lch phiXp x nchu
Boxplot
Height
200
190
180
170
160
150
Boxplot of Height
63
whisker
whisker
box
upper quartile
median
lower quartile
Boxplot dướiđây phn ánh phân phi chiu cao c a
sinh viên
Boxplot
64
Boxplots
Cn biết trung v tphân vịđto boxplot
Khong tphân v(IQR) = Q
3
-Q
1
Râu: chiu dài bng 1.5*IQR; kéo thpđếnđi li um d
xa nh t
Đi m dli u n m gia 1.5 và 3*IQR đượcđánh d uogi
ngoi biên (outliers)/ lượng biếnđột xu t
Các đi lim d u nm t3*IQR đượcđánh du bi du *
lượng biến cc kỳđt xu t
65
60 61
62 63
64 65
12
Hình dng caBoxplots
Data
BimodalNegative skewPositive skewSymmetric
5.0
2.5
0.0
-2.5
-5.0
Boxplot of Symmetric, Positive skew, Negative skew, Bimodal
66
Các mcđộ th ng tphn ánh m i liên h
Hip phương sai
Hs t ương quan
Hip phương sai
Hip phương sai (Covariance) tính cho hai biến
định lượng:
- Tng th:Cov X, Y
∑󰇛

󰇜󰇛

󰇜
- Mu: Cov X, Y
∑󰇛
󰇜󰇛
󰇜

Ưuđim:
Cho biết hai biến tương quan tuyến tính vi nhau hay
không
Cho biết chiu hướng ca mi liên h
Nhượcđi m:
Không cho biết cường độ ca mi liên h
Giá tr ca hip phương sai (1)
Nếu cov>0, thì khi X tăng => Y tăng; và khi X gim
=> Y gim. t nĐây là mi liên h ương quan thu
X values
Positive
50403020100
100
80
60
40
20
0
Scatterplot of Positive vs X values
Giá tr ca hip phương sai (2)
Nếu cov<0, thì khi X tăng => Y gim và ngược li.
Đây là mi liên h tương quan nghch.
X values
Nega tive
50403020100
50
40
30
20
10
0
Scatterplot of Negative vs X v alues
Giá tr ca hip phương sai (3)
Nếu cov=0, thì khi X thay i, Y không thay đổ đổi
Hai biến không có mi liên h tương quan tuyến tính
X values
Zero
50403020100
1.0
0.5
0.0
-0.5
-1.0
-1.5
-2.0
-2.5
Scatterplot of Zero vs X v alues
66 67
68 69
70 71
13
Hstương quan
H s tương quan (Correlation Coefficient)
- Tng th:ρ
 ,
- Mu: R
 ,
Ưuđim:
Cho biết hai biến tương quan tuyến tính vi nhau hay
không
Cho biết chiu hướng ca mi liên h: R dương (thun), R
âm (nghch)
Cho biết cường độ ca mi liên h: R 0, mi liên h
càng lng lo; R -1 hoc +1, mi liên hcàng cht ch
73
Hướng dn sdng SPSS
Th d lic hành vi b u gss.sav
72 73

Preview text:

Tóm tắt Bài 3
•Sốtuyệtđối, sốtương đối
TÓM TẮT DỮ LIỆU BẰNG THAM •Các mứcđộ trung tâm SỐ ĐẶC TRƯNG /
•Các mứcđộ đođộ phân tán (biến thiên)
•Kết hợp các mứcđộ trung tâm và độ phân tán
CÁC MỨC ĐỘ THỐNG KÊ MÔ TẢ
•Các mứcđộ thống kê mô tảphản ánh mối liên hệ
•Thực hành với phần mềm thống kê 0 1 0 1 Sốtuyệtđối •VD:
SỐ TUYỆT ĐỐI VÀ SỐ TƯƠNG ĐỐI
–Giá trịgia tăng của doanh nghiệp năm 2024: 205 triệuđồng
–Quy mô của lớp học vào lúc 8:00am: 52
•Khái niệm: Sốtuyệtđối trong thống kê biểu hiện
quy mô, khi lượng của hiện tượng nghiên cứu
trong điều kiệnthi gian và địađimcụthể. 23 2 3
Các loại sốtuyệtđối (1)
Các loại sốtuyệtđối (2)
Stuytđối thi kỳ:
Stuytđối thiđim:
Khái niệm: biểu hiệnquy mô, khi lượng của
Khái niệm: biểu hiệnquy mô, khi lượng của
hiện tượng trong mộtđộ dài thời gian nhấtđịnh
hiện tượng vào một thờiđiểm nhấtđịnh Đặ Đặcđiểm cđiểm
–Không có sựtích luỹvềmặt lượng
–Có sựtích luỹvềmặt lượng
–Không thểcộng các giá trịlại với nhau
–Có thểcộng các giá trịlại với nhau VD: Ví dụ
–Quy mô của lớp học vào lúc …: 52
–Giá trịgia tăng của doanh nghiệp giai đoạn 2022-2023: 400 triệuđồng 4 5 4 5 1
Đặcđiểm và đơn vịtính Sốtương đối
•Bao hàm một ni dung kinh tế xã hicụ thể
•Khái niệm: Sốtương đối trong thống kê biểu
trong điều kiện thời gian và địa điểm nhất định.
hiện quan hệso sánh giữahai mcđộ của hiện •Phải qua đ tượng.
iu tra thc tếvà tng hpmới xác định được. •VD: •Đơn vị tính:
- Tốcđộ phát triển doanh thu của công ty X năm 2016 là 118%
-Đơn vịhiện vật: cái, con, chiếc, m, kg,…
-Đơn vịgiá trị: VND, USD,…
-Đơn vịkép: kwh, ngày-người,… 6 7 6 7
Các loại sốtương đối (1)
Các loại sốtương đối (2) y ố ương đối kết cấ 1 • S t u:
•Sốtương đốiđộng thái (tốcđộ phát triển) ty0 y dBP
Sốtương đối kếhoạch: yTT y kKn
- Sốtương đối nhiệm vụkếhoạch
• Sốtương đối không gian: 0 y y
- Số tương thực hiện kế hoạch k1  yA I Ty (A/B)  K yB y y y 1 K 1
- Mối quan hệ:  t k k hay n T  x y y y 0 0 K 8 9 8 9
Đặcđiểm và đơn vịtính
Các loại sốtương đối (3)
•Không thu được qua điều tra thống kê mà phải •
Sốtương đối cường độ: so sánh chỉtiêu của
thực hiện thông qua quan hso sánh.
hai hiện tượng khác nhau nhưng có mối liên hệ.
•Mỗi sốtương đốiđều phải có gc dùng để so nh. •
VD: mậtđộ dân số(nghìn người/km2) •Đơn vị tính:
- So sánh hai mứcđộ cùng loại: lần, %
- So sánh hai mứcđộ khác loại có mối liên hệ: đơn vị kép: người/km2 10 11 10 11 2
Điều kiện vận dụng sốtuyệtđối và sốtương đối
Điều kiện vận dụng sốtuyệtđối và sốtương đối
•Xem xét đặcđimcủa hiện tượng nghiên cứuđể
rút ra kết luận cho đúng
•Cần vận dụng kết hpsốtương đối với sốtuyệt đối •Q: Tại sao? 12 13
Nguồn: dliu tILO, APO 12 13 Các mứcđộ trung tâm
•Các mứcđộ trung tâm cho chúng ta biết vị
trí trung tâm của một dãy sốphân phối Trung bình cộng
•Ba tham sốhay được sửdụng: - Trung bình/mean - Trung vị/Median - Mốt/Mode 14 15 14 15
Tính trung bình cộng từdữliệu thô
Tính trung bình từbảng TSPP giảnđơn N  Xi
•Trung bình của tổng thể: 1 i   Công thức: N k n  x f x i i •Trung bình của mẫu: i  i 1 xi 1 xnkfi i1
Trong đó: X x – giá trịcủa mỗi quan sát i, i
N, n– tổng sốđơn vịtổng thểvà mẫu
trong đó: x – giá trịlượng biến của tổthứ i i
f – tần sốcủa tổthứ i i 16 17 16 17 3
Trung bình từdãy sốphân phối có KCT Ví dụ
Quay trởlại ví dụvềbảng lương ở bài 2
•Sửdụng công thức tương tựdãy sốkhông có khoảng cách tổ Lương (xi ) (fi) fix i k f x  ≤$60 $50 4 200 i i i  1 k x > $60 – ≤$80 $70 6 420 k   fi ix i  2165 86.6 f 1  i > $80 – ≤$90 $85 6 510 x k 25 i  1 > $90 – ≤$120 $105 6 630  fi i 1
nhưng: x – trịsốgiữa của tổthứi > $120 $135 3 405 i
f – tần sốcủa tổthứi Total 25 2165 i 18 19 18 19
Ưu nhượcđiểm của sốtrung bình cộng Mean is sensitive to outliers •Ưuđiểm:
–Dễhiểu và dễtính toán
–Tất cảcác giá trịtrong dãy sốđền tham gia vào
tính toán => trung bình đại diện cho cảdãy số •Nhượcđiểm
–Bịảnh hưởng bởi các giá trịngoại lai –Ví dụ:
43; 38; 37; : : : ; 27; 34 => x 33.5 Có giá trịngoại lai
43; 38; 37; : : : ; 27; 1934 => x 71.5 20 21 20 21
Điều kiện vận dụng sốtrung bình
 Sốtrung bình chỉnên tính từtng thểđồng Trung bình nhân cht.
 Sốtrung bình cầnđược vận dụng kết hợp với
dãy sphân phi. 22 23 22 23 4
Phương pháp tính và điều kiện vận dụng Ví Dụ •
Điu kin vn dng: Trung bình nhân được tính khi
•Trung bình nhân giảnđơn: có tốcđộ phát triển về
các lượng biến có quan hệtích số.
doanh thu của một DN nhưsau: 
VD: tcđộ phát trin - Năm 2015 so với 2014: 116% - Năm 2016 so với 2015: 111%
Sốtrung bình nhân giảnđơn - Năm 2017 so với 2016: 112% n 1 2
x  nn x  x  ... x  n  x (1)
•Tính tốcđộ phát triển trung bình vềdoanh thu của i i 1  DN trong giai đoạn trên.
Sốtrung bình nhân gia quyền 𝑡  1.16 ∗1.11 ∗1.12 1.12 ℎ𝑎𝑦 112%  n 1 2  finf f f  x x x ... x  ii f x (2) 1 2 n  fi
•Trung bình nhân gia quyền: i1 24 25 24 25 Trung vị
•Trung vịlà giá trịlượng biến củađơn vịnằmở Trung vị
vịtrí chính giữa trong dãy sốlượng biến, nó
chia dãy sốra làm 2 phần có sốlượng đơn vị bằng nhau
•3 trường hợp có thểxảy ra
–Tính trung vịtừdữliệu thô
–Tính trung vịtừdãy sốphân tổkhông có khoảng cách tổ
–Tính trung vịtừdãy sốphân tổcó khoảng cách tổ 26 27 26 27 Trung vịtừdữliệu thô
Trung vịtừdữliệu thô (cont.)
•Nếu tổng sốđơn vịlà lẻ:
•Các bước tính trung vị: t h ịtrí chính giữ ( n 1 )
1. Sắp xếp lại dãy sốtheo thứtựtăng/giảm –Đơn vịnằmở v a là: 2
dần của giá trịlượng biến
M e d ia nx  ( 1) th n
2. Dựa vào tổng sốđơn vịcủa dãy sốđểxác 2
•Nếu tổng sốđơn vịlà chẵn:
định đơn vịnằmở vịtrí chính giữa
–Sẽcó 2 đơn vịnằmở vịtrí chính giữa và trung
3. Trung vịchính là giá trịlượng biến của vịlà:
đơn vịnằmở vịtrí chính giữa M ed ia n (  x x th th ) / 2  nn      1 2 2   29 28 28 29 5 Ví dụvềtính trung vị
Trung vịtừdãy sốphân phối
•VD3. Tính trung vịtừdãy sốsau
•VD1. Dữliệu thô: 11, 11, 13, 14, 17 => Tính trung vị X Tần số 8 3
•VD2. Dữliệu thô : 11, 11, 13, 14, 16, 17 => 12 7 Tính trung vị 16 12 17 8 19 5 30 31 30 31
Trung vịtừdãy sốphân phối
Ưu nhượcđiểm của trung vị
•VD4: Tính trung vịtừdãy sốsau •Ưuđiểm: x i Tần số Tần sốtích lũy
–Dễhiểu và dễtính toán 0-0.99 1 1 1.00-1.99 4 5
–Không bịảnh hưởng bởi các giá trịngoại 2.00-2.99 8 13
lai => vì vậy có thểsửdụng khi sốtrung 3.00-3.99 6 19 bình không đại diện 4.00-4.99 3 22 5.00-5.99 1 23 •Nhượcđiểm  fS
–Chỉlà giá trịcủa 1 hoặc 2 quan sát nên ( 1)  (min) 2Me M x h f
nhiều khi không thểhiện tốt vai trò đại e Me Me Me 32 33 diện 32 33 Mốt
•Mốt là giá trịlượng biếnđược gặp nhiều nhất Mốt trong dãy sốlượng biến •Các bước tìm mốt
1. Lập bảng tần sốphân phối
2. Xác định giá trịthường xuyên xảy ra nhất 34 35 34 35 6 Ví dụ Hai mốt hoặc nhiều mốt •Quay trởlại VD3. X Tần số 8 3 12 7 16 12 17 8 19 5 Bimodal (two modes) Multimodal (several modes) 36 37 36 37
Tính mốt từdãy sốphân phối có khoảng
Vtrí ca các mc độ trung tâm trong cách tổ
dãy sphân phi
•Xác định tổchứa mốt
•Sửdụng biểuđồ tần sốphân phối Lch trái
Phân phi chun
Lch phi 38 38 39
Tham sốtrung tâm nào là tốt nhất?
Các mứcđộ đođộ phân tán
•Trung bình nhìn chung hay được sửdụng nhất
 Các mứcđộ đođộ phân tán (còn gọi là các mứcđộ
nhưng lại có nhượcđiểm là nhạy cảm với các giá trị
biến thiên) cho biết các giá trịkhác phân bốxung đột xuất (ngoại lai)
quanh giá trịtrung tâm nhưthếnào
•Nếu phân phối bịlệch (trái hoặc phải) => nên sử dụng trung vị
 Các mứcđộ đođộ phân tán
•Mốt hay sửdụng cho biếnđịnh tính
• Khoảng biến thiên, khoảng tứphân vị
• Phương sai và độ lệch chuẩn 40 41 40 41 7
Tại sao cần các mứcđộ đođộ phân tán?
Tại sao cần các mứcđộ đođộ phân tán?
TB của dãy sốphân phối nào có tính đại biểu cao hơn? A? B? C?
•Các mứcđộ trung tâm mới phản ánh một phần dãy số
phân phối => Cần thêm thông tin để đánh giá mứcđộ
đại biểu của giá trịtrung tâm •VD: có hai dãy sốsau
–Dãy số1: 100, 40, 40, 35, 35 => TB: 50
–Dãy số2: 70, 55, 50, 40, 35 => TB: 50
TB của dãy sốnào có tính đại biểu cao hơn 42 43 42 43 Khoảng biến thiên
Tại sao cần các mứcđộ đođộ phân tán?
•KBT là chênh lệch giữa giá trịlượng biến cao nhất
Cần phải biếtđộ phân tán xung quanh giá trịtrung
và thấp nhất => Cần sắp xếp lại dữliệu trước khi
tâm để đánh giá mứcđộ đại biểu của các giá trịtrung tính KBT
tâm và có một cái nhìn tổng quan vềhiện tượng
•Công thức: KBT = maximum - minimum •Ưuđiểm: dễtính. •Nhượcđiểm:
–Chỉtính đến 2 giá trịở hai đầu mút
–Bịảnh hưởng bởi các giá trịngoại lai
–Khó tính toán cho dãy sốphân tổcó khoảng cách tổ 44 45 44 45 Phân vị Tứphân vị
Phân vị: phân vịthứp
th là đơn vịnằmở vịtrí sao
Tphân vị: được xác định bởi các giá trịlượng
cho có p% các đơn vịtrong dãy sốlượng biến nằm
biến của các đơn vịchia dãy sốra làm 4 phần bằng
ở bên trái p và (100-p)% các đơn vịtrong dãy số nhau nằmở bên phải p
Q : giá trịlượng biến củađơn vịnằmở vịtrí thứ25% 1
Công thc tính phân vị:
trong dãy số(tức là có 25% sốđơn vịtrong dãy sốcó giá
trịlượng biến < Q 1
- Xác định vịtrí của phân vị: 𝐿 󰇛𝑛1󰇜   –  Q : trung vị 2
- Sửdụng nguyên tắc tính Me để tính phân vị
Q - giá trịlượng biến củađơn vịnằmở vịtrí thứ75% 3
trong dãy số(tức là có 75% sốđơn vịtrong dãy sốcó giá
trịlượng biến < Q 3 46 47 46 47 8 Khoảng tứphân vị
Ví dụtính khoảng tứphân vị
•Tìm tứphân vịtừdãy sốsau: •Khoảng tứphân vị= Q – Q 3 1 11 12 14 15 15 16 18 18 20 22 
•Độ lệch tứphân vị= Q Q 3 1 2 •Khoảng tứphân vị: Q – Q =? 3 1
•Ưuđiểm của tứphân vị: ít bịảnh hưởng bởi các giá trịngoại QQ lai hơn KBT
•Độ lệch tứphân vị: 3 1 = ? 2
•Nhượcđiểm: chỉtính đến 50% dãy số 48 49 48 49 Phương sai
Phương sai: công thức rút gọn 2 
•Phương sai của tổng thể: 2( )  Xi   N •Phương sai mẫu
•VD: Phương sai tổng thể 2 ∑󰇛x 2( ) x x   μ󰇜 
• Phương sai mẫu tính từdữliệu thô: sn  σ Nx  μ  1 2 2( )  x  x f
• Phương sai mẫu tính từdãy sốphân tổ sf  1
•Ưuđiểm: Tính đến tất cảcác giá trịtrong dãy số
•Nhượcđiểm: giá trịbịkhuếch đại và không có đơn vịtính 50 51 50 51 Độ lệch chuẩn (  )
Ứng dụng của S.D: lĩnh vực tài chính
•Độ lệch chuẩn (S.D) là căn bậc 2 của phương sai
•Độ lệch chuẩn của tổng thể
•Phương sai (hoặc S.D) thường được sửdụng để 2   
đánh giá rủi ro trong đầu tưtài chính.
•Phương sai càng lớnđộ rủi ro càng lớn
•Độ lệch chuẩn của mẫu 2 s s •Ưuđiểm:
• Khắc phụcđược nhượcđiểm của phương sai
• Là tham sốhay được sửdụng nhấtđể đođộ phân tán
(giá trịcàng lớnđộ phân tán của dãy sốcàng cao) 52 52 53 9
VD: hai khoảnđầu tưtrong vòng 10 năm (1)
VD: hai khoảnđầu tưtrong vòng 10 năm (2) •Tỷsuất lợi nhuận
 Phụthuộc vào mứcđộ chấp nhận rủi ro của bạn:
Khoản A: rủi ro cao hơn nhưng tỷsuất sinh lời A 8.3
-6.2 20.9 -2.7 33.6 42.9 24.4 5.2 3.1 30.5 cũng cao hơn.
B 12.1 -2.8 6.4 12.2 27.8 25.3 18.2 10.7 -1.3 11.4 x A 16% 2 2 s A 280.34(%)
•Bạnđầu tưvào đâu? A? B? 54 55
1. Xác định giá trịngoại lai: Quy tắc 3 
Xác định giá trịđột xuất hoặc ngoại lai
•Áp dụng với mộtphân phi chun hoc xp xchun:
–68.26% giá trịrơi vào khoảng lượng biến: (x  1  )s ( x 1 s )
–95.45% giá trịrơi vào khoảng lượng biến: (x 2 ) s ( x s 2 )
–99.73% giá trịrơi vào khoảng lượng biến : (x 3 )s ( x s3 )
–Giá trịnằm ngoài khoảng 3s được coi là đột xuất hay ngoại lai 56 57 56 57
2. Tính hệsốbiến thiên (V) Hệsốbiến thiên (cont.)
•Khi hai dãy sốphân phối có trung bình khác nhau, chúng ta
tính V để so sánh độ phân tán của hai dãy sốđó. •Công thức: s
•Dãy sốnào có V lớn hơn thì dãy sốđó có độ phân tán lớn V = hơn x VD: có 2 dãy số •V
= 0.417 và V =0.408 => A có độ phân tán A B A B lớn hơn B TB 120 125 S.D 50 51
Dãy sốnào có độ phân tán lớn hơn 58 59 58 59 10
3. Tính hệsốđo hình dạng của phân phối(K)
Hệsốđo hình dạng của phân phối (VD)
•Có sốliệu về2 dãy sốnhưsau:
•Sửdụng công thức của Pearson. K = 3 x (TB-Me)/S.D 1: 2: Tuổi của sv Lương
•Nếu K càng lớn, phân phối càng lệch TB 22.4839 294.3
•Nếu K>0 => phân phối lệch phải (positive skew) Me 21 292.5
•Nếu K<0 => phân phối lệch trái (negative skew) S.D 6.3756 125.93 •
Tính K và mô tảhình dạng phân phối của 2 dãy sốnày 60 61 60 61
Hệsốđo hình dạng của phân phối (VD) Boxplot
Boxplot dướiđây phản ánh phân phối chiều cao của sinh viên Boxplot of Height 200 Frequency Frequency 190 whisker 180 upper quartile 0 50 100 150 200 0 2 4 6 8 10 Height 170 20 40 60 80 100 200 300 400 500 600 age wages box median 160 lower quartile Lệch phảiXấp xỉchuẩn 150 whisker 62 63 62 63 Boxplot Boxplots
•Cần biết trung vịvà tứphân vịđểtạo boxplot
•Khoảng tứphân vị(IQR) = Q -Q 3 1
•Râu: chiều dài bằng 1.5*IQR; kéo từhộpđếnđiểm dữliệu xa nhất
•Điểm dữliệu nằm giữa 1.5 và 3*IQR đượcđánh dấuogọi
là ngoại biên (outliers)/ lượng biếnđột xuất
•Các điểm dữliệu nằm từ3*IQR đượcđánh dấu bởi dấu *
là lượng biến cực kỳđột xuất 64 65 64 65 11 Hình dạng củaBoxplots
Các mứcđộ thống kê mô tảphản ánh mối liên hệ
Boxplot of Symmetric, Positive skew, Negative skew, Bimodal •Hiệp phương sai 5.0 •Hệsốtương quan 2.5 0.0 Data -2.5 -5.0 Symmetric Positive skew Negative skew Bimodal 66 66 67 Hiệp phương sai
Giá trị của hiệp phương sai (1)
Hip phương sai (Covariance) tính cho hai biến định lượng:
•Nếu cov>0, thì khi X tăng => Y tăng; và khi X giảm
=> Y giảm. Đây là mối liên hệ tương quan thuận - Tổng thể: ∑󰇛 Cov X, Y 
󰇜󰇛 󰇜  - Mẫu: ∑󰇛
Scatterplot of Positive vs X values Cov X, Y   󰇜󰇛󰇜  100 Ưuđiểm: 80
–Cho biết hai biến có tương quan tuyến tính với nhau hay 60 không Positive 40
–Cho biết chiều hướng của mối liên hệ 20 Nhượcđiểm: 0 0 10 20 30 40 50
–Không cho biết cường độ của mối liên hệ X values 68 69
Giá trị của hiệp phương sai (2)
Giá trị của hiệp phương sai (3)
•Nếu cov<0, thì khi X tăng => Y giảm và ngược lại.
•Nếu cov=0, thì khi X thay đổi, Y không thay đổi 
Đây là mối liên hệ tương quan nghịch.
Hai biến không có mối liên hệ tương quan tuyến tính
Scatterplot of Negative vs X values
Scatterplot of Zero vs X values 50 1.0 0.5 40 0.0 30 -0.5 Nega 20 tive Zero -1.0 10 -1.5 0 -2.0 -2.5 0 10 20 30 40 50 X values 0 10 20 30 40 50 X values 70 71 12 Hệsốtương quan
Hstương quan (Correlation Coefficient) Hướng dẫn sửdụng SPSS - Tổng thể:  , ρ 
 Thực hành với bộdữliệu gss.sav - Mẫu:  , R   Ưuđiểm:
–Cho biết hai biến có tương quan tuyến tính với nhau hay không
–Cho biết chiều hướng của mối liên hệ: R dương (thuận), R âm (nghịch)
–Cho biết cường độ của mối liên hệ: R →0, mối liên hệ
càng lỏng lẻo; R →-1 hoặc +1, mối liên hệcàng chặt chẽ 73 72 73 13