ÔN TẬP THỐNG KÊ KINH DOANH
1
BÀI KIỂM TRA CÁ NHÂN – TIỀN LƯƠNG NGÀNH CÔNG NGHỆ THÔNG TIN.
CHƯƠNG 1 : BIẾN NGẪU NHIÊN.
Một giả định về mức lương (triệu đồng/tháng) của nhân viên ngành Công nghệ thông tin (CNTT) tại một thành
phố trong năm 2024, với các yếu tố như kinh nghiệm, vị trí công việc, kỹ năng chuyên môn và trình độ học vấn
được giữ ổn định. Trong đó bậc lương chuyển đổi tương ứng: dưới 18 là bậc 1, 18 – 20 là bậc 2,..., trên 26 là
bậc 6. Bảng phân phối xác suất cho trong bảng sau:
Mức lương (X) <18 18 – 20 20 – 22 22 – 24 24 – 26 >26
Bậc lương (Y) 1 2 3 4 5 6
Tỷ lệ (P) 22% 23% 30% 18% 5% 2%
Gọi X là biến ngẫu nhiên chỉ mức lương, Y là biến ngẫu nhiên chỉ bậc lương.
1. Hãy tính kỳ vọng, phương sai và độ lệch chuẩn, trung vị (Median) và yếu vị (Mode) biến ngẫu nhiên Y.
Lý thuyết : kỳ vọng và độ lệch chuẩn của biến ngẫu nhiên rời rạc
Bảng phân phối xác suất:
X
1
x
2
x
n
x
P
1
p
2
p
n
p
Kỳ vọng :
1
n
i i
i
Phương sai :
2
2
Var X E X EX
trong đó
2 2
1 1
;
n n
i i i i
i i
EX x p E X x p
*)Kỳ vọng của biến ngẫu nhiên Y :
6
1
1 0,22 2 0,23 3 0, 30 4 0,18 5 0, 05 6 0, 02 2,67
i i
i
E X X p
Phương sai của biến ngẫu nhiên Y :
6
2 2 2 2 2 2 2 2
1
1 0,22 2 0,23 3 0, 30 4 0,18 5 0, 05 6 0, 02 8, 69
i i
i
E X X p
2
2 2
8,69 2,67 1,5611
Var X E X E X
Độ lệch chuẩn của biến ngẫu nhiên Y :
1,5611 1,2494
Y
Var Y
Vậy trung bình bậc lượng nhân viên ngành công nghệ thông tin là 2,67 và độ lệch chuẩn là 1,2494. Nghĩa là
mực độ chênh lệch giữa bậc lương của 1 nhân viên so với bậc lương trung bình 2,67 là cỡ 1,25 bậc.
Lý thuyết : trung vị và yếu vị của biến ngẫu nhiên rời rạc.
ÔN TẬP THỐNG KÊ KINH DOANH
2
Trung vị biến ngẫu nhiên :
1
2
1
2
i
i
i
P X x
Med X x
P X x
hay
1
2
1
2
i
i
i
P X x
Med X x
P X x
Yếu vị biến ngẫu nhiên :
1
,...,
i i n
Mod X x P X x Max P x P x
*)Trung vị (median) của biến ngẫu nhiên Y :
0,5
0,5
P Y k
MedX k
P Y k
Bậc lương (Y) 1 2 3 4 5 6
Tỷ lệ (P) 22% 23% 30% 18% 5% 2%
Tỷ lệ cộng dồn 0,22 0,45 0,75 0,93 0,98 1,00
Vậy theo bảng phân phối xác suất thì
2
MedY
*)Yếu vị (Mode) của biến ngẫu nhiên
X
:
; 1,...,6
i
ModY k P Y k Max p i
Vậy từ bảng phân phối xác suất thì
3
ModY
2. Nếu hàm chuyển đổi giữa biến Y và X là dạng tuyến tính
Y a bX
, hãy tính kỳ vọng và độ lệch chuẩn
của biến ngẫu nhiên
X
.
Lý thuyết: tính chất của kỳ vọng và phương sai
Tính chất kỳ vọng :
E aX b aE X b
Tính chất phương sai :
2
Var aX b a Var X
Với hàm quy đổi giữa tiền lương
X
và bậc lương
Y
dạng
Y a bX
Ta có các cặp giá trị từ bảng :
; 17;1 ; 19;2 ; 21;3 ;...; 27;6
i i
X Y
Chọn hai điểm và thế vào biểu thức ta có hệ
1 17 0,5
2 19 7,5
a b b
a b a
Vậy hàm quy đổi giữa hai biến có dạng
7,5 0,5
Y X
Áp dụng tính chất của kỳ vọng, phương sai biến ngẫu nhiên ta có :
1 1
7,5 0,5 7,5 0,5 7,5 2,67 7,5 20,34
0,5 0,5
E Y E X E X E X E Y
2
2 2
1 1
7,5 0,5 0,5 1,5611 6,2444
0,5 0,5
Var Y Var X Var X Var X Var Y
6,2444 2, 4989
X
Var X
ÔN TẬP THỐNG KÊ KINH DOANH
3
Vậy trung bình tiền lương nhân viên ngành CNTT là 20,34 triệu đồng/tháng và mức chênh lệch tiền lương của
một nhân viên so với tiền lương trung bình là cỡ 2,4989 triệu đồng/tháng
3. Nếu coi X là biến ngẫu nhiên liên tục với hàm mật độ xác suất có dạng
5 4 3 2 6
( 0,137 3,37 1,73 1,66 1,66 250000 10000 ) 10
f x C x x x x x N
;
Trong đó
16;28
x
, Hãy tính hệ số
C
để
f x
là hàm mật độ xác suất.
Lý thuyết : hàm mật độ xác suất
Với biến ngẫu nhiên liên tục
X
với tập giá trị là D, hàm
y f x
với
x D
là hàm mật độ xác suất khi thỏa
1 100%
D
f x dx
0 ,
f x x D
Để
f x
là hàm mật độ xác suất ta có:
28 28
5 4 3 2 6
16 16
28
5 4 3 2 6
16
1 ( 0,137 3,37 1,73 1,66 1,66 350000) 10 1
( 0,137 3,37 1,73 1,66 1,66 350000) 10 1
4,7208 1 0,2118
f x dx C x x x x x dx
C x x x x x dx
C C
Vậy hàm mật độ xác suất có dạng
5 4 3 2 6
0,2118( 0,137 3,37 1,73 1,66 1,66 350000) 10
f x x x x x x
4. Với hàm mật độ xác suất trong câu 3) hãy tính xác suất một nhân viên có mức lương trong khoảng từ 18
đến 22 triệu đồng/tháng. Tính kỳ vọng, độ lệch chuẩn, trung vị, yếu vcủa biến ngẫu nhiên
X
với m
mật độ xác suất tìm được trong câu 3).
Lý thuyết: kỳ vọng và độ lệch chuẩn của biến ngẫu nhiên liên tục
Với biến ngẫu nhiên
X
, có hàm mật độ xác suất
;
y f x x D
.
Kỳ vọng của
X
:
.
b
a
E X x f x dx
Phương sai của
X
:
2
2
Var X E X EX
trong đó
2 2
;
b b
a a
EX xf x dx E X x f x dx
Xác suất một nhân viên có lương từ 18 đến 22 triệu đồng
22 22
5 4 3 2 6
18 18
18 22 0,2118( 0,137 3, 37 1, 73 1,66 1, 66 350000) 10
0, 3911
P X f x dx x x x x x dx
Kỳ vọng của biến ngẫu nhiên X :
28
16
21, 3198
E X xf x dx
ÔN TẬP THỐNG KÊ KINH DOANH
4
Phương sai của biến ngẫu nhiên X :
2
28 28
2
2 2
16 16
10,0596
Var X E X E X x f x dx xf x dx
Độ lệch chuẩn của biến ngẫu nhiên X :
3,1717
X
Var X
ÔN TẬP THỐNG KÊ KINH DOANH
5
CHƯƠNG 2 : CÁC QUY LUẬT PHÂN PHỐI THÔNG DỤNG.
5. Khảo sát 20 nhân viên ngành CNTT với những yếu tố thỏa bảng phân phối xác suất. Gọi B biến ngẫu
nhiên chỉ số nhân viên lương dưới 20 triệu đồng/tháng. Tính xác suất B trong khoảng từ 5 10 nhân
viên.
Mức lương (X) <18 18 – 20 20 – 22 22 – 24 24 – 26 >26
Bậc lương (Y) 1 2 3 4 5 6
Tỷ lệ (P) 22% 23% 30% 18% 5% 2%
Lý thuyết: biến ngẫu nhiên tuân theo phân phối nhị thức
Thực hiện công việc chỉ có 2 kết quả đầu ra (thành công:
A
, và thất bại:
A
). Trong đó xác suất thành công là 𝑝
xác suất thất bại 𝑞 (trong đó 𝑞 = 1 𝑝). Thực hiện phép thử lặp lại, độc lập với nhau 𝑛 lần. Gọi 𝑋: biến
ngẫu nhiên chỉ số lần thành công, biến ngẫu nhiên tuân theo phân phối nhị thức, Ký hiệu
~ ;
X B n p
1. Tập giá trị :
0;
X n
2. Xác suất điểm
k k n k
n
P X k C p q
3. Kỳ vọng
E X np
.
4. Phương sai
1
Var X npq np p
, độ lệch chuẩn
1
X
np p
5. Yếu vị
0;
Mode X k n
thỏa
1
np q k np q
Xác suất nhân viên có lương dưới 20 triệu đồng/tháng
20 22% 23% 45%
p P X
Ta có biến ngẫu nhiên B tuân theo phân phối nhị thức
20; 45% ~ 20;0,45
n p B B
Tập giá trị của B :
0;20
B
với công thức xác suất tại
k k n k
n
P B k C p q
Xác suất B trong khoảng 5 – 10 nhân viên :
10
20
20
5
5 10 0,45 0,55 0,7318
k k k
k
P B C
6. Tính kỳ vọng, độ lệch chuẩn và yếu vị (Mode) của biến ngẫu nhiên B.
Với
20; 45% ~ 20;0,45
n p B B
, sử dụng đặc trưng số của phân phối nhị thức.
Kỳ vọng của biến ngẫu nhiên B :
20 0,45 9
E B n p
Phương sai của biến ngẫu nhiên B :
1 20 0,45 0,55 4,95
Var B n p p
Độ lệch chuẩn của biến ngẫu nhiên B :
4,95 2,2249
B
Var B
Yếu vị (Mode) của biến ngẫu nhiên B :
0;20
Mode B k
thỏa
1 20 0,45 0,55 20 0,45 0,55 1 8,45 9,45
n p q k n p q k k
Vậy
9
Mode B
ÔN TẬP THỐNG KÊ KINH DOANH
6
7. Khảo sát 1000 nhân viên ngành CNTT với những yếu tố thỏa bảng phân phối xác suất. Gọi B’ biến
ngẫu nhiên chỉ số nhân viên có lương dưới 20 triệu đồng/tháng. Tính xác suất B’ bằng 200, Tính xác suất
B’ nằm trong khoảng 200 – 300 người.
(xấp xỉ phân phối nhị thức theo phân phối chuẩn)
8. Chọn ngẫu nhiên hồ sơ 50 nhân viên ngành CNTT về bảo mật thông tin, thì có 5 nhân viên có chứng chỉ
CISCP. Thồ 50 người này chọn ra 10 người, với H biến ngẫu nhiên chỉ số người chứng chỉ
CISCP, hãy tìm tập giá trị của H.
Lý thuyết: biến ngẫu nhiên tuân theo phân phối siêu bội
Một tập hợp
N
phần tử , trong đó có
A
N
phần tử loại A
A
N N
phần tử không phải loại A, từ tập hợp
chọn ngẫu nhiên ra
n
phần tử. Gọi
X
là biến ngẫu nhiên chỉ số phần tử loại A có trong
n
phần tử lấy ra.
Biến ngẫu nhiên
X
tuân theo phân phối siêu bội.
~ ; ;
A
X H N N n
1. Tập giá trị :
;
X a b
trong đó
0;
A
a Max n N N
;
A
b Min N n
2. Xác suất điểm
A A
k n k
N N N
n
N
C C
P X k
C
3. Kỳ vọng
E X np
trong đó
A
N
p
N
4. Phương sai
. 1 .
1 1
N n N n
Var X npq np p
N N
, độ lệch chuẩn
1
1
X
N n
np p
N
5. Yếu vị
0;
Mode X k n
thỏa
1 1 1 1
1
2 2
A A
n N n N
k
N N
H biến ngẫu nhiên tuân theo phân phối siêu bội, trong đó
50
N
(tất cả nhân viên) ,
5
A
N
(số nhân viên
có chứng chỉ CISCP) và
10
n
(số người được chọn ra)
Ta có
~ 50,5,10
H H
, tập giá trị của H thỏa
Cận dưới :
0; 0;35 0
A
Max n N N Max
Cận trên :
; 5;10 5
A
Min N n Min
Vậy tập giá trị của H là
0;5
H
.
9. Tìm yếu vị (Mode) của biến ngẫu nhiên H và xác suất tại giá trị yếu vị này. Tính kỳ vọng, độ lệch chuẩn
biến ngẫu nhiên H.
Với
~ 50,5,10
H H
, theo đặc trưng số của biến ngẫu nhiên theo phân phối siêu bội
ÔN TẬP THỐNG KÊ KINH DOANH
7
Mode H k
thỏa
1 1 1 1 10 1 5 1 10 1 5 1
1 1
2 2 50 2 50 2
0,27 1,27
A A
n N n N
k k
N N
k
Vậy
1
Mode H
, ứng với xác suất tại
1
H
đạt Max.
Ta có
1 1
1 9
5 45
10
50
1 0, 4313
A A
n
N N N
n
N
C C
C C
P H
C C
Kỳ vọng :
5
. 10 1
50
A
N
E H np n
N
Phương sai :
5 5 40
. 1 10. 1 . 0,7347
1 1 50 50 49
A A
N N
N n N n
Var H npq n
N N N N
Độ lệch chuẩn :
0,7347 0,8571
H
Var H
--------------------------------------------------------------------------------------------------------------------------------------
Với việc chuẩn hóa lương nhân viên ngành CNTT. Giả sử mức lương của nhân viên ngành CNTT thỏa những tiêu
chí trong bảng phân phối xác suất biến ngẫu nhiên N tuân theo phân phối chuẩn dạng
2
~ 21,25;2;6552
N N
.
Lý thuyết: biến ngẫu nhiên tuân theo phân phối chuẩn
1. Ký hiệu ,
2
~ ;
X N
trong đó
E X
2
Var X
2. Hàm mật độ của biến ngẫu nhiên
2
2
2
1
2
x
f x e
3. với
~ 0;1
Y N
,
X
Y
, hàm mật độ của biến ngẫu nhiên
Y
2
2
1
2
t
g t e
4. Phạm vi giá trị (phân bố xác suất) của biến
3,9;3,9
Y
và của
3,9 ; 3,9
X
5. Tích phân Laplace (bảng tra B2)
0
0
P Y g t dt
, trong đó
0,5
0,5


6. Xác suất vùng của biến
Y
trong đó
P a Y b b a
7. Xác suất vùng của biến
X
trong đó
b a
P a X b
ÔN TẬP THỐNG KÊ KINH DOANH
8
10. Tính xác suất một nhân viên lương dưới 20 triệu đồng/tháng, nh xác suất một nhân viên lương
nằm trong khoảng 20 – 24 triệu đồng/tháng.
Với
2
~ 21,25;2;6552
N N
suy ra
21,25; 2,6552
Xác suất nhân viên có lương dưới 20 triệu đồng/tháng
20 21,25
20 0,5 0, 47 0,5 0,5 0,1808 0, 3192
2,6552
P N
Xác suất nhân viên có lương từ 20 – 24 triệu đồng/tháng
24 21,25 20 21,25
20 24 1,04 0,47 0,3498 0,1808 0,5306
2,6552 2,6552
P N
11. Tìm xác suất lương nhân viên chênh lệch so với mức lương trung bình không quá 1 lần độ lệch chuẩn, 2
lần độ lệch chuẩn.
Xác suất nhân viên có lương chênh lệch với mức lương trung bình không quá 1 độ lệch chuẩn
1, 00 1, 00 2 1, 00 2 0,3413 0,6826
P N P N
Tương tự cho
2 2 2, 00 2 0, 4772 95,44%
P N
12. Tìm mức giá trị tối thiểu của N mà có 30% nhân viên có mức lương trên mức đó.
Gọi mức lương tối thiểu là
a
, ta cần
21,25 21,25
30% 0,5 0,3 0,2
2,6552 2,6552
21,25 21,25
0,52 0,52 22,6307
2,6552 2,6552
a a
P a N
a a
a
Vậy mức lương tối thiểu để 30% nhân viên có lương trên mức đó là 22,6307 triệu đồng/tháng.
13. Tìm mức giá trị tối đa của N mà có 25% nhân viên có mức lương dưới mức đó.
Gọi mức lương tối đa là
b
, ta cần
21,25 21,25
25% 0,5 0,25 0,25
2,6552 2, 6552
21,25 21,25
0,67 0,67 19, 4710
2,6552 2,6552
b b
P N b
b b
b
14. Tìm khoảng giá trị của N đối xứng quanh giá trị trung bình 50% nhân viên mức lương trong
khoảng đó.
Gọi mức sai số so với mức lương trung bình là
c
, ta cần:
ÔN TẬP THỐNG KÊ KINH DOANH
9
21,25 21,25 21,25 21,25
21,25 21,25 50% 0,50
2,6552 2,6552
0,5 2 0,5 0,25 0,67
2,6552 2,6552 2,6552 2,6552
c c
P c N c
c c c c
c
0,67 1,7790
2,6552
c
Vậy vùng lương tương ứng là
21,25 1,7790;21,25 1,7790 19,471;23,029
15. Nếu độ lệch chuẩn tiền ơng nhân viên không thay đổi, xác suất nhân viên lương trên 23 triệu
đồng/ tháng là 30% thì kỳ vọng lương nhân viên ngành CNTT là bao nhiêu.
Khi kỳ vọng lương chưa biết , ta có
2
~ ;2,6552
N N
và ta cần
23 23
23 30% 0,5 0,3 0,2 0,52
2,6552 2,6552
23
0,52 21,6193
2,6552
P N
16. Nếu kỳ vọng lương nhân viên không thay đổi xác suất nhân viên lương dưới 18 triệu đồng/ tháng
chiếm 20% thì độ lệch chuẩn tiền lương nhân viên là bao nhiêu.
Khi độ lệch chuẩn chưa biết, ta có
2
~ 21,25;N N
, và ta cần
18 21,25 18 21,25
18 0,2 0,5 0,2 0, 3 0,84
18 21,25
0, 84 3, 8690
P N
ÔN TẬP THỐNG KÊ KINH DOANH
10
CHƯƠNG 4: THỐNG KÊ MÔ TẢ
Bấm máy Casio : Cho trung bình mẫu, độ lệch chuẫn mẫu và hệ số biến thiên
Bấm máy Casio 570.
Bước 1: vào chế độ thống kê:
qwR4
Trong đó: 1:on (có tần số) và 2:off (không có tần số)
Bước 2: vào phần nhập dữ liệu
w31
Nhập vào hai cột: trong đó cột X là cột dữ liệu và cột FREQ
là cột tần số dữ liệu.
Nh
p d
li
u xong nh
n
C
thoát ra màn hình chính.
Bấm máy Casio 580.
Bước 1: Vào chế độ thống kê
qwR3
Trong đó: 1:on (có tần số) và 2:off (không có tần số)
Bước 2: vào phần nhập dữ liệu
w61
Nhập vào hai cột: trong đó cột X là cột dữ liệu và cột FREQ
là cột tần số dữ liệu.
Nh
p d
li
u xong nh
n
C
thoát ra màn hình chính.
Bước 3: xuất đại lượng thống kê
q1
Trong đó 1: type (chọn chế độ thống kê)
2: data (quay lại màn hình nhập dữ liệu)
3: sum (xuất các đại lượng tổng như
2
X
X
).
4: var (xuất các đại lượng thống kê của mẫu dữ liệu) trong
đó
1 :
n
là cỡ mẫu,
2 :
X
là trung bình mẫu,
3 :
X
là độ
lệch chuẩn tổng thể,
4 :
X
S
là độ lệch chuẩn mẫu.
c 3
: xu
t đ
i lư
ng th
ng kê
, ch
n
phím
[OPTN]
Trong đó 1: select type (chọn chế độ thống kê)
2: 1-Variable Cal (các đại lượng thống kê)
3: Data (quay lại phần nhập dữ liệu).
`
Lý thuyết: các đặc trưng trung tâm và bình quân của mẫu dữ liệu
1. trung bình mẫu
X
Dữ liệu liệt kê
1 2
; ;...;
n
X X X
:
1
1
n
i
i
X X
n
Dữ liệu rời rạc có tần số
; ; 1,...,
i i
X n i k
:
1
1
k
i i
i
X X n
n
Dữ liệu dạng khoảng có tần số
; ; ; 1,...,
iMin iMax i
X X n i k
:
1
1
k
i i
i
X n
n
trong đó
1
2
i iMin iMax
X X
2. trung vị
Me
Trường hợp dữ liệu rời rạc có tần số.
B1. Lập cột tần số cộng dồn
i
S
trong đó
1
; 1,...,
j
j i
i
S n j k
B2. Nếu
n
lẻ
1
2
n
Me X
, hoặc , nếu
n
chẵn
1
2 2
1
2
n n
Me X X
Trường hợp dữ liệu dạng khoảng có tần số.
B1. Lập cột tần số cộng dồn
1
; 1,...,
j
j i
i
S n j k
B2. Xác định tổ chứa
Me
( là tổ chứa dữ liệu ở vị trí
2
n
), giả sử là tổ
j
ÔN TẬP THỐNG KÊ KINH DOANH
11
B3. Giá trị
1
2
j
jMin j
j
h
n
Me X S
n
3. yếu vị
Mo
Trường hợp dữ liệu rời rạc có tần số
i i
Mo X n MAX
Trường hợp dữ liệu dạng khoảng cho tần số
B1. Lập cột mật độ tổ
i
i
i
n
M
h
(đối với trường hợp tổ dữ liệu khoảng cách không đều nhau) , trong trường hợp
dữ liệu có khoảng cách đều nhau thì không cần lập cột mật độ tổ.
B2. Tổ chứa Mode là t
i
M Max
(đối với tổ khoảng cách không đều) và t
i
n Max
(đối với tổ
khoảng cách đều nhau). Giả sử tố chứa Mode là tổ
j
B3. Giá trị yếu vị
1
1 1
.
j j
jMin j
j j j j
M M
Mo X h
M M M M
(đối với trường hợp tổ không cách đều)
1
1 1
.
j j
jMIN j
j j j j
n n
Mo X h
n n n n
(đối với trường hợp tổ cách đều)
Lý thuyết: các đặc trưng đo mức phân tán của dữ liệu
1) Độ lệch tuyệt đối bình quân
B1. Tính trung bình mẫu
X
, lập cột độ lệch tuyệt đối
i
d
Với dữ liệu rời rạc
i i
d X X
; Với dữ liệu dạng khoảng
i i
d X
B2. Tính độ lệch tuyệt đối bình quân
1
1
k
i i
i
d d n
n
2) Phương sai mẫu và độ lệch chuẩn mẫu
B1. Tính trung bình mẫu và lập cột độ lệch bình phương
2
i
d
Với dữ liệu rời rạc
2
2
i i
d X X
; Với dữ liệu dạng khoảng
2
2
i i
d X
B2. Tính phương sai mẫu
2 2
1
1
.
1
k
i i
i
S d n
n
B3. Tính độ lệch chuẩn mẫu
2
1
1
.
1
k
i i
i
S d n
n
ÔN TẬP THỐNG KÊ KINH DOANH
12
3) Hệ số biến thiên
100%
S
CV
X
Lý thuyết: Các đặc trưng tính vị trí tương đối của dữ liệu
1) Trị z
Trị
z
của dữ liệu
i
X
được quy đổi tương ứng
i
i
i
X X
z
S
.
2) Tiêu chuẩn Chebyshev :
Trong phạm vi quanh giá trị trung bình với độ lệch
m
lần độ lệch chuẩn tối thiểu
2
1
1 100%
m
dữ liệu trong
pham vị đó, nghĩa là
2
1
1P X mS X X mS P m z m
m
3) Phân vị thứ p (
th
p
)
Đối với trường hợp dữ liệu rời rạc
B1: Tìm chỉ số
1
100
p a
i n i
b
, trong đó
i
là phần nguyên của
i
a
b
là phần lẻ của
i
B2: Giá trị của phân vị thứ
1
th
i i i
a
p X X X
b
Đối với trường hợp dữ liệu dạng khoảng
B1. Tìm chỉ số
100
p
i n
B2. Lập cột tần số cộng dồn
i
S
và tìm tổ chứa chỉ số i , giả sử là tổ
j
.
B3. Giá trị của phân vị thứ
1
j
th
jMin j
j
h
p X i S
n
4) Các đại lượng trong biểu đồ tứ phân vị
B1: Tìm tứ phân vị thứ nhất
1
Q
ứng với phân vị
25
th
,
2
Q
ứng với phân vị
50
th
3
Q
ứng với phân vị
75
th
.
B2, Tìm chiều dài tứ phân vị
3 1
IQR Q Q
B3. Tìm cận trên dữ liệu hợp lệ :
3
1,5
Q IQR
và cận dưới dữ liệu hợp lệ :
1
1,5
Q IQR
ÔN TẬP THỐNG KÊ KINH DOANH
13
Một khảo sát về số năm kinh nghiệm (làm tròn theo năm) của nhân viên ngành Công nghệ thông tin (CNTT) tại
một thành phố trong năm 2024, với các yếu tố như vị trí công việc, kỹ năng chuyên môn và trình độ học vấn
được giữ cố định. Mẫu dữ liệu được khảo sát được thể hiện trong bảng dưới
Số năm kinh nghiệm (năm)
1 2 3 4 5 >5
Số lượng nhân viên 22 53 30 18 5 2
17. Tính các đặc trưng phản ánh mức tập trung bình quân (trung bình, trung vị và yếu vị) của số năm kinh
nghiệm của nhân viên ngành CNTT trong mẫu.
Số năm kinh
nghi
m
Số nhân
viên
Tần số
tích l
ũy
i
X
i
n
i
S
1
22
22
2
53
75
3
30
105
4
18
123
5
5
128
>5
2
130
130
n
*)Trung bình số năm kinh nghiệm.
6
1 1
1 1 1
1 22 2 53 3 30 4 18 5 5 6 2 2,5154
130 130
k
i i i i
i i
X X n X n
n
(năm)
Vậy trung bình mẫu số năm kinh nghiệm của nhân viên CNTT trong mẫu là 2,5154 năm.
*)Yếu vị số năm kinh nghiệm
2
Mo
(vì
2 2
2,
i
X n Max n
Yếu vị số năm kinh nghiệm của nhân viên ngành CNTT là 2 năm, nghĩa là nhân viên có 2 năm kinh nghiệm
chiếm tỷ lệ cao nhất trong các năm kinh nghiệm.
*)Trung vị số năm kinh nghiệm
B1. Lập cột tần số tích lũy
1
j
j i
i
S n
B2. Vì
130
n
là số chẵn
130 130 65 66
1 1
2 2 2 2
1 1 1 1
2 2 2
2 2 2 2
n n
Me X X X X X X
(
65 66
;
X X
thuộc tổ
2
k
vì theo tần số tích lũy tổ 2 chứa dữ liệu thứ 23 đến 75)
Vậy trung vị số năm kinh nghiệm của nhân viên ngành CNTT là 2 năm, nghĩa là trong mẫu dữ liệu có 50% nhân
viên có số năm kinh nghiệm dưới (trên) 2 năm.
18. Tính các đặc trưng phản ánh mức phân tán (độ lệch tuyệt đối bình quân, độ lệch chuẩn mẫu và phương
sai mẫu, hệ số biến thiên) của số năm kinh nghiệm của nhân viên ngành CNTT trong mẫu.
Số năm kinh
nghi
m
Số nhân
viên
Tần số
tích l
ũy
Độ lệch
tuy
ế
t đ
i
i
X
i
n
i
S
i
d
ÔN TẬP THỐNG KÊ KINH DOANH
14
1
22
22
1.5154
2
53
75
0.5154
3
30
105
0.4846
4
18
123
1.4846
5
5
128
2.4846
>5
2
130
3.4846
130
n
*)Độ lệch tuyệt đối bình quân
B1. Lập cột độ lệch tuyệt đối
i i
d X X
(trong đó
2,5414
X
)
B2. Tính độ lệch tuyệt đối bình quân
6
1 1
1 1
130
1
1,5414 22 0,5414 53 0,4846 30 1,4846 18 2,4846 5 3
,4846 2 0,9331
130
k
i i i i
i i
d d n d n
n
So với trung bình là 2,5414 năm thì mức chênh lệch tuyệt đối trung bình giữa số năm kinh nghiệm của 1 nhân
viên so với 2,5414 năm là 0,9331 năm.
*)Phương sai mẫu
2
2 2
1 1
2 2 2 2 2 2
1 1
1 1
1
1,5414 22 0,5414 53 0,4846 30 1,4846 18 2,4846 5 3
,4846 2 1,2905
130
k k
i i i i
i i
S X X n d n
n n
*)Độ lệch chuẩn mẫu
2
1,2905 1,136
S S
(năm)
So với trung bình là 2,5414 năm thì mức chênh lệch trung bình tính theo phương pháp chênh lệch bình phương
giữa số năm kinh nghiệm của 1 nhân viên so với 2,5414 năm là 1,136 năm.
*)Hệ số biến thiên.
1,136
100% 100% 45,16%
2,5414
S
CV
X
19. Dùng tiêu chuẩn Chebyshev tìm khoảng số năm kinh nghiệm quanh giá trị trung bình mà tối thiểu 75%
nhân viên trong phạm vi đó.
Số năm kinh
nghi
m
Số nhân
viên
Tần số
tích l
ũy
Trị z
i
X
i
n
i
S
1
22
22
-1.334
2
53
75
-0.4537
3
30
105
0.4266
4
18
123
1.3069
5
5
128
2.1871
>5
2
130
3.0674
ÔN TẬP THỐNG KÊ KINH DOANH
15
130
n
Theo tiêu chuẩn Chebyshev:
2
1
1P X mS X X mS
m
, trong đó
2,5414 ; 1,136
X S
Để có thể lấy vùng dữ liệu tối thiểu 75% quanh giá trị trung bình, ta chọn
m
thỏa
2
1
1 75% 2
m
m
Vậy khoảng cách 2 lần độ lệch chuẩn quanh giá trị trung bình sẽ có tối thiểu 75% dữ liệu.
Vậy số năm kinh nghiệm nằm trong khoảng
2 ; 2 2,5414 2 1,136;2,5414 2 1,136 0,2694;4,813
4
X S X S
Kiểm tra trên bảng số liệu , lập cột trị z với
i
i
X X
z
S
,
Với
2;2 2 ; 2
z X X S X S
, bảng số liệu ứng với
1,2,3,4
i
X
Và tỷ lệ của 4 tổ này là
123
94,61%
130
f
trên 75% theo tiêu chuẩn Chebyshev.
20. Tính các đặc trưng của biểu đồ tứ phân vị của số năm kinh nghiệm của nhân viên ngành CNTT trong mẫu.
Các đặc trưng về biểu đồ tứ phân vị của mẫu dữ liệu
Số năm kinh
nghi
m
Số nhân
viên
Tần số
tích l
ũy
i
X
i
n
i
S
1
22
22
2
53
75
3
30
105
4
18
123
5
5
128
>5
2
130
130
n
*)Các đại lượng tứ phân vị
Tứ phân vị thứ nhất
1
Q
phân vị thứ 25, ứng với vị trí
25 25
1 131 32,75
100 100
i n
Trong đó theo cột tần số cộng dồn thì
32 32
;
X X
thuộc tổ 2.
Giá trị của
1 32 33 32
0,75 2 0,75 2 2 2
Q X X X
Tứ phân vị thứ ba
3
Q
phân vị thứ 75, ứng với vị trí
75 75
1 131 98,25
100 100
i n
Trong đó theo cột tần số cộng dồn thì
98 99
;
X X
thuộc tổ 3.
Giá trị của
3 98 99 98
0,25 3 0,25 3 3 3
Q X X X
*)Chiều dài tứ phân vị :
3 2
3 2 1
IQR Q Q
*)Cận trên và cận dưới của vùng dữ liệu hợp lệ
ÔN TẬP THỐNG KÊ KINH DOANH
16
Cận trên
3
1,5 3 1,5 1 4,5
Q IQR
và Cận dưới
1
1,5 2 1,5 1 0,5
Q IQR
Vậy vùng dữ liệu hợp lệ cho số năm kinh nghiệm là từ 0,5 đến 4,5 năm, nghĩa là trong bảng số liệu này số năm
kinh nghiệm 5 năm và trên 5 năm là dữ liệu ngoại lai.
1.00
1.00
2.00
3.00
4.00
4.00
5.00
6.00
2.002.00
3.00
2.52
1
0.00
1.00
2.00
3.00
4.00
5.00
6.00
7.00
ÔN TẬP THỐNG KÊ KINH DOANH
17
Một khảo sát mức lương của nhân viên ngành Công nghệ thông tin (CNTT) tại một thành phố trong năm 2024,
với các yếu tố như kinh nghiệm, vị trí công việc, kỹ năng chuyên môn và trình độ học vấn được giữ ổn định.
Mẫu dữ liệu khảo sát được thể hiện trong bảng dưới đây:
Mức lương (triệu đồng/tháng)
<18 18 – 20 20 – 22 22 – 24 24 – 26 >26
Số lượng nhân viên 22 53 30 18 5 2
21. Tính các đặc trưng phản ánh mức tập trung nh quân của mức lương nhân viên ngành CNTT, gồm
trung bình, trung vị và yếu vị. Với 3 giá trị tìm được hãy phát thảo hình dạng quy luật phân phối xác suất
của mức lương.
ID
iMin
X
iMax
X
i
i
n
i
S
1
16
18
17
22
22
2
18
20
19
53
75
3
20
22
21
30
105
4
22
24
23
18
123
5
24
26
25
5
128
6
26
28
27
2
130
n=130
*)Trung bình lương nhân viên:
B1.lập cột
1
2
i iMin iMax
X X
B2. Tính trung bình cộng :
6
1
1 1
17 22 19 53 21 30 23 18 25 5 27 2 20, 0308
130
i i
i
X n
n
Bình quân lương của một nhân viên lấy từ mẫu dữ liệu là 20,0308 triệu đồng/tháng
*)Trung vị lương nhân viên:
22
53
30
18
5
2
0
10
20
30
40
50
60
<18 18 - 20 20 - 22 22 - 24 24 - 26 >26
Biểu đồ tần số theo khoảng lương
ÔN TẬP THỐNG KÊ KINH DOANH
18
B1. Lập cột tần số tích lũy
1
k
k i
i
S n
B2. Trung vị thuộc tổ
2
k
, vì dữ liệu thứ
130
65
2 2
n
thuộc tổ 2 (
2
75
S
)
B3. Giá trị trung vị :
2
2 1
2
2 130
18 22 19,6226
2 53 2
MIN
h
n
Me X S
n
Vậy 50% nhân viên trong mẫu có lương dưới (trên) 19,6226 triệu đồng/tháng
*)Yếu vị lương nhân viên
B1. Yếu vị thuộc tổ
2
k
vì dữ liệu dạng khoảng cách đều và tổ 2 có tần số lớn nhất.
B2. Giá trị yếu vị :
2 1
2 min 2
2 1 2 3
53 22
18 2. 19,1481
53 22 53 30
n n
Mo X h
n n n n
Vậy khoảng lương quanh 19,1481 triệu đồng/tháng là vùng lương có mật độ nhân viên cao nhất.
22. Tính các đặc trưng phản ánh mức phân tán của mức lương nhân viên ngành CNTT, gồm độ lệch tuyệt đối
bình quân, phương sai mẫu và độ lệch chuẩn mẫu, hệ số biến thiên. Nếu giả sử mức lương của nhân viên
tuân theo phân phối chuẩn hãy kết luận cho quy tắc 3-sigma đối với mức lương của nhân viên.
ID
iMin
X
iMax
X
i
i
n
i
d
1
16
18
17
22
3.0308
2
18
20
19
53
1.0308
3
20
22
21
30
0.9692
4
22
24
23
18
2.9692
5
24
26
25
5
4.9692
6
26
28
27
2
6.9692
n=130
*)Độ lệch tuyệt đối bình quân
B1. Lập cột độ lệch tuyệt đối ,
20,0308
i i i
d X
B2. Độ lệch tuyệt đối bình quân,
6
1
1 1
3, 0308 22 1,0308 53 0,9692 30 2,9692 18 4,9692 5 6
,9692 2
130
1,8663
i i
i
d d n
n
Vậy mức chênh lệch tuyệt đối bình quân giữa lương của các nhân viên so với mức lương trung bình là 1,8663
triệu đồng/tháng.
*)Phương sai mẫu
6
2 2 2 2 2 2 2 2
1
1 1
3, 0308 22 1,0308 53 0,9692 30 2,9692 18 4,9692 5 6
,9692 2
1 129
5,1618
i i
i
S d n
n
ÔN TẬP THỐNG KÊ KINH DOANH
19
Vậy mức chênh lệch bình phương giữa lương của c nhân viên so với mức lương trung bình 5,1618 triệu đồng
bình phương/tháng, và độ lệch chuẩn tương ứng
2,2720
S
triệu đồng/tháng.
*)Hệ số biến thiên :
2,2720
100% 100% 11,34%
20,0308
S
CV
X
Vậy so với giá trị trung bình ứng với 100% thì mức chênh lệch tiền lương của nhân viên so với mức lương trung
bình là 11,34%.
23. (Chuẩn tắc hóa) Tính trị z dữ liệu mức lương.
ID
iMin
X
iMax
X
iMin
z
iMax
z
1
16
18
-
1.77
-
0.89
2
18
20
-
0.89
-
0.01
3
20
22
-
0.01
0.87
4
22
24
0.87
1.75
5
24
26
1.75
2.63
6
26
28
2.63
3.51
Lập cột trị z với
i
i
X X
z
S
, trong đó
20,0308; 2,272
X S
Ví dụ : với
1 1
16 20,0308
16 1,77
2,272
Min Min
X z
;
2max 2 max
18 20,0308
18 0,89
2,272
X z
24. Dùng quy tắc Chebyshev tìm khoảng giá trị đối xứng quanh mức lương trung bình mà tối thiểu 75% nhân
viên ngành CNTT mức ơng đó. Dùng quy tắc Chebyshev tìm mức lương tối đa 20% nhân viên
ngành CNTT có mức lương cao hơn mức lương đó.
Tiêu chuẩn Chebyshev
2
2
2
1
1
1
1
1
1
P X mS X X mS
X X
m
P m
S
m
P m z m
m
Để có tối thiểu 75% nhân viên trong vùng dữ liệu thì
2 2
1 1 3
1 75% 1 2
4
m
m m
Vậy vùng lương tương ứng
2
m
2 ; 2 15,4868;24,5747
X S X S
25. Giả sử mức lương nhân viên ngành CNTT tuân theo phân phối chuẩn trong đó kỳ vọng xấp xỉ bằng trung
bình mẫu và độ lệch chuẩn xấp xỉ bằng độ lệch chuẩn mẫu mức lương từ bảng số liệu. Hãy tính xác suất
của từng khoảng lương trong bảng số liệu, lập bảng so sánh với tỷ lệ mẫu cảu từng khoảng lương trong
bảng số liệu.
ID
iMin
X
iMax
X
iMin
z
iMax
z
iMin iMax
P X X X
1
16
18
-
1.77
-
0.89
0.1484
2
18
20
-
0.89
-
0.01
0.3093
3
20
22
-
0.01
0.87
0.3118
ÔN TẬP THỐNG KÊ KINH DOANH
20
4
22
24
0.87
1.75
0.1521
5
24
26
1.75
2.63
0.0358
6
26
28
2.63
3.51
0.004
2
~ 20,0308; 5,1618 20,0308;2,272
X N N
Với khoảng lương từ 16 – 18 triệu đồng/tháng,
16 18 1,77 0,89 0,89 1,77 0,3133 0,4616 0,1483
P X P z
26. Tính các đại lượng trong biểu đồ tứ phân vị. Dùng phạm vi mức lương từ cận dưới đến cận trên trong
biểu đồ tứ phân vị để quyết định cho vùng dữ liệu ngoại lai đối với mức lương của nhân viên ngành công
nghệ thông tin.
ID
iMin
X
iMax
X
i
i
n
i
S
1
16
18
17
22
22
2
18
20
19
53
75
3
20
22
21
30
105
4
22
24
23
18
123
5
24
26
25
5
128
6
26
28
27
2
130
n=130
B1: Tính các đại lượng tứ phân vị
Trường hợp : tứ phân vị thứ nhất
1
Q
25
th
, chỉ số của phân vị
25 25
.130 32,5
100 100
i n
thuộc vào tổ 2 ,
Giá trị của tứ phân vị thứ nhất
2
1 2 1
2
2
18 32,5 22 18,3962
53
Min
h
Q X i S
n
Trường hợp: tứ phân vị thứ ba
3
Q
75
th
, chỉ số của phân vị
75 75
130 97,5
100 100
i n
, thuộc vào tổ 3 ,
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
so sánh phân bố xác suất giữa mẫu và p.p chuẩn

Preview text:

ÔN TẬP THỐNG KÊ KINH DOANH
BÀI KIỂM TRA CÁ NHÂN – TIỀN LƯƠNG NGÀNH CÔNG NGHỆ THÔNG TIN.
CHƯƠNG 1 : BIẾN NGẪU NHIÊN.
Một giả định về mức lương (triệu đồng/tháng) của nhân viên ngành Công nghệ thông tin (CNTT) tại một thành
phố trong năm 2024, với các yếu tố như kinh nghiệm, vị trí công việc, kỹ năng chuyên môn và trình độ học vấn
được giữ ổn định. Trong đó bậc lương chuyển đổi tương ứng: dưới 18 là bậc 1, 18 – 20 là bậc 2,..., trên 26 là
bậc 6. Bảng phân phối xác suất cho trong bảng sau: Mức lương (X) <18 18 – 20 20 – 22 22 – 24 24 – 26 >26 Bậc lương (Y) 1 2 3 4 5 6 Tỷ lệ (P) 22% 23% 30% 18% 5% 2%
Gọi X là biến ngẫu nhiên chỉ mức lương, Y là biến ngẫu nhiên chỉ bậc lương.
1. Hãy tính kỳ vọng, phương sai và độ lệch chuẩn, trung vị (Median) và yếu vị (Mode) biến ngẫu nhiên Y.
Lý thuyết : kỳ vọng và độ lệch chuẩn của biến ngẫu nhiên rời rạc
Bảng phân phối xác suất: X x x … x 1 2 n P p p … p 1 2 n n Kỳ vọng : EX x p  i i i 1  n n Phương sai :     2 2 Var X E X EX trong đó EX  x p ; E X   x p i i  2 2  i i i 1  i 1 
*)Kỳ vọng của biến ngẫu nhiên Y :
E X  6X p  10,22  20,23  30,30  40,18  50,05  60,02  2,67 i i i1
Phương sai của biến ngẫu nhiên Y : E X   6 2 2 X p  2 1 0,22  2 2 0,23  2 3 0,30  2 4 0,18  2 5 0,05  2 6 0,02  8,69 i i i1 2 Var X E  2 X   2 E X    8,69 2,67    1,5611
Độ lệch chuẩn của biến ngẫu nhiên Y :   Var Y   1,5611  1,2494 Y
Vậy trung bình bậc lượng nhân viên ngành công nghệ thông tin là 2,67 và độ lệch chuẩn là 1,2494. Nghĩa là
mực độ chênh lệch giữa bậc lương của 1 nhân viên so với bậc lương trung bình 2,67 là cỡ 1,25 bậc.
Lý thuyết : trung vị và yếu vị của biến ngẫu nhiên rời rạc. 1
ÔN TẬP THỐNG KÊ KINH DOANH   1 P  X  x P  X  xi   i  1   2  2
Trung vị biến ngẫu nhiên : Med  X   x  hay Med  X   x  i  i   1 P  X  x PX  xi   i  1   2  2
Yếu vị biến ngẫu nhiên : Mod  X   x  P X  x   MaxP x ,..., P x i i 1   n
*)Trung vị (median) của biến ngẫu nhiên Y : PY  k 0,5 MedX  k   P Y  k   0,5 Bậc lương (Y) 1 2 3 4 5 6 Tỷ lệ (P) 22% 23% 30% 18% 5% 2% Tỷ lệ cộng dồn 0,22 0,45 0,75 0,93 0,98 1,00
Vậy theo bảng phân phối xác suất thì MedY  2
*)Yếu vị (Mode) của biến ngẫu nhiên X :
ModY  k  P Y  k  Max p ;i  1,.. ,  6 i
Vậy từ bảng phân phối xác suất thì ModY  3
2. Nếu hàm chuyển đổi giữa biến Y và X là dạng tuyến tính Y a bX , hãy tính kỳ vọng và độ lệch chuẩn
của biến ngẫu nhiên X .
Lý thuyết: tính chất của kỳ vọng và phương sai
Tính chất kỳ vọng : EaX   b  aEXb Tính chất phương sai :    2 Var aX b  a VarX
Với hàm quy đổi giữa tiền lương X và bậc lương Y dạng Y a bX
Ta có các cặp giá trị từ bảng : X ;Y   17; 
1 ;19; 2;21; 3;. .;27;6 i i 
1  a 17b b  0,5
Chọn hai điểm và thế vào biểu thức ta có hệ      2  a  19b a     7,5
Vậy hàm quy đổi giữa hai biến có dạng Y  7,5  0,5X
Áp dụng tính chất của kỳ vọng, phương sai biến ngẫu nhiên ta có :
E Y   E  X    E X  E X  1 EY   1 7,5 0,5 7,5 0,5 7,5 2,67 7,5 20,34 0,5 0,5
Var Y Var  X  2Var X VarX  1 1 7,5 0,5 0,5 Var Y 1,5611 6,2444 2    2 0,5 0,5
  Var X  6,2444  2,4989 X 2
ÔN TẬP THỐNG KÊ KINH DOANH
Vậy trung bình tiền lương nhân viên ngành CNTT là 20,34 triệu đồng/tháng và mức chênh lệch tiền lương của
một nhân viên so với tiền lương trung bình là cỡ 2,4989 triệu đồng/tháng
3. Nếu coi X là biến ngẫu nhiên liên tục với hàm mật độ xác suất có dạng f x 5 4 3 2  C  x  x  x  x  x   N  6 ( 0,137 3,37 1,73 1,66 1,66 250000 10000 ) 10 ; Trong đó x  16;2  
8 , Hãy tính hệ số C để f x là hàm mật độ xác suất.
Lý thuyết : hàm mật độ xác suất
Với biến ngẫu nhiên liên tục X với tập giá trị là D, hàm y  f x với x  D là hàm mật độ xác suất khi thỏa f
 xdx1100% và f x0 ,x D D
Để f x là hàm mật độ xác suất ta có: 28 28  f x 5 4 3 2  dx  1  C 
( 0,137x  3,37x 1,73x 1,66x 1,66x  350000) 6 10 dx   1 16 16 28 5 4 3 2   C 
( 0,137x  3,37x 1,73x 1,66x  1,66x  350000) 6 10 dx   1 16
 C 4,7208  1  C  0,2118
Vậy hàm mật độ xác suất có dạng f x 5 4 3 2    x  x  x  x  x   6 0,2118( 0,137 3,37 1,73 1,66 1,66 350000) 10
4. Với hàm mật độ xác suất trong câu 3) hãy tính xác suất một nhân viên có mức lương trong khoảng từ 18
đến 22 triệu đồng/tháng. Tính kỳ vọng, độ lệch chuẩn, trung vị, yếu vị của biến ngẫu nhiên X với hàm
mật độ xác suất tìm được trong câu 3).
Lý thuyết: kỳ vọng và độ lệch chuẩn của biến ngẫu nhiên liên tục
Với biến ngẫu nhiên X , có hàm mật độ xác suất y  f x;x  D . b
Kỳ vọng của X : EX x. f  xdx a b b Phương sai của X :     2 2 Var X E X EX trong đó EX  xf  xdx E 2X 2 ;  x f  xdx a a
Xác suất một nhân viên có lương từ 18 đến 22 triệu đồng P 18 X 22 22 22  f x 5 4 3 2     dx  0,2118 
( 0,137x  3,37x  1,73x  1,66x  1,66x  350000)  6 10 dx 18 18  0,3911 28
Kỳ vọng của biến ngẫu nhiên X : E X  xf xdx   21,3198 16 3
ÔN TẬP THỐNG KÊ KINH DOANH  28 2 2 28 2 2  
Phương sai của biến ngẫu nhiên X : Var X  E X E X   x f xdx  xf xdx    10,0596 16   16 
Độ lệch chuẩn của biến ngẫu nhiên X :   Var X  3,1717 X 4
ÔN TẬP THỐNG KÊ KINH DOANH
CHƯƠNG 2 : CÁC QUY LUẬT PHÂN PHỐI THÔNG DỤNG.
5. Khảo sát 20 nhân viên ngành CNTT với những yếu tố thỏa bảng phân phối xác suất. Gọi B là biến ngẫu
nhiên chỉ số nhân viên có lương dưới 20 triệu đồng/tháng. Tính xác suất B trong khoảng từ 5 – 10 nhân viên. Mức lương (X) <18 18 – 20 20 – 22 22 – 24 24 – 26 >26 Bậc lương (Y) 1 2 3 4 5 6 Tỷ lệ (P) 22% 23% 30% 18% 5% 2%
Lý thuyết: biến ngẫu nhiên tuân theo phân phối nhị thức
Thực hiện công việc chỉ có 2 kết quả đầu ra (thành công: A , và thất bại: A ). Trong đó xác suất thành công là 𝑝
và xác suất thất bại là 𝑞 (trong đó 𝑞 = 1 − 𝑝). Thực hiện phép thử lặp lại, độc lập với nhau 𝑛 lần. Gọi 𝑋: biến
ngẫu nhiên chỉ số lần thành công, biến ngẫu nhiên tuân theo phân phối nhị thức, Ký hiệu X ~ B  ; n p
1. Tập giá trị : X  0;n  
2. Xác suất điểm PX k k k n k C p q    n
3. Kỳ vọng EX np .
4. Phương sai VarX npq  np1 
p , độ lệch chuẩn   np1 p X 
5. Yếu vị ModeX k  0;n
  thỏa npq  k  npq 1
Xác suất nhân viên có lương dưới 20 triệu đồng/tháng p  P X  2  0  22% 23%  45%
Ta có biến ngẫu nhiên B tuân theo phân phối nhị thức n  20;p  45%  B ~ B20;0,4  5
Tập giá trị của B : B  0;2  
0 với công thức xác suất tại PB k    k k n k C p q n
Xác suất B trong khoảng 5 – 10 nhân viên : P 5  B  10 k k   10 20 C 0,45 0,55 k  0,7318 20 k5
6. Tính kỳ vọng, độ lệch chuẩn và yếu vị (Mode) của biến ngẫu nhiên B.
Với n  20;p  45%  B ~ B20;0,4 
5 , sử dụng đặc trưng số của phân phối nhị thức.
Kỳ vọng của biến ngẫu nhiên B : E B  np  200,45  9
Phương sai của biến ngẫu nhiên B : Var B  np1p  200,450,55  4,95
Độ lệch chuẩn của biến ngẫu nhiên B :   Var B  4,95  2,2249 B
Yếu vị (Mode) của biến ngẫu nhiên B : ModeB  k  0;2   0 thỏa
n p q  k  n p q 1  200,45  0,55  k  200,45  0,55 1  8,45  k  9,45 Vậy ModeB  9 5
ÔN TẬP THỐNG KÊ KINH DOANH
7. Khảo sát 1000 nhân viên ngành CNTT với những yếu tố thỏa bảng phân phối xác suất. Gọi B’ là biến
ngẫu nhiên chỉ số nhân viên có lương dưới 20 triệu đồng/tháng. Tính xác suất B’ bằng 200, Tính xác suất
B’ nằm trong khoảng 200 – 300 người.
(xấp xỉ phân phối nhị thức theo phân phối chuẩn)
8. Chọn ngẫu nhiên hồ sơ 50 nhân viên ngành CNTT về bảo mật thông tin, thì có 5 nhân viên có chứng chỉ
CISCP. Từ hồ sơ 50 người này chọn ra 10 người, với H là biến ngẫu nhiên chỉ số người có chứng chỉ
CISCP, hãy tìm tập giá trị của H.
Lý thuyết: biến ngẫu nhiên tuân theo phân phối siêu bội
Một tập hợp có N phần tử , trong đó có N phần tử loại A và N  N phần tử không phải loại A, từ tập hợp A A
chọn ngẫu nhiên ra nphần tử. Gọi X là biến ngẫu nhiên chỉ số phần tử loại A có trong n phần tử lấy ra.
Biến ngẫu nhiên X tuân theo phân phối siêu bội. X ~ HN;N ;n A 
1. Tập giá trị : X   ; a b
  trong đó a  Max0;n  N N và b  MinN ;n A  A  k nk C C
2. Xác suất điểm PX  k N NN A A  n CN N
3. Kỳ vọng EX np trong đó A p  N N n N   n N n
4. Phương sai VarX np .q  np   1 p.  
, độ lệch chuẩn  np  p X 1   N 1    N 1 N 1 n 1N  n  N  A 1  1 A 1
5. Yếu vị ModeX k  0;n   thỏa 1 k  N 2 N 2
H là biến ngẫu nhiên tuân theo phân phối siêu bội, trong đó N  50 (tất cả nhân viên) , N  5 (số nhân viên A
có chứng chỉ CISCP) và n  10 (số người được chọn ra) Ta có H ~ H 50,5,1 
0 , tập giá trị của H thỏa
Cận dưới : Max 0;n N N  Max 0;3  5  0 A
Cận trên : Min N ;n  Min5;1  0  5 A
Vậy tập giá trị của H là H  0;   5.
9. Tìm yếu vị (Mode) của biến ngẫu nhiên H và xác suất tại giá trị yếu vị này. Tính kỳ vọng, độ lệch chuẩn biến ngẫu nhiên H. Với H ~ H 50,5,1 
0 , theo đặc trưng số của biến ngẫu nhiên theo phân phối siêu bội 6
ÔN TẬP THỐNG KÊ KINH DOANH ModeH  k thỏa n  1N  n N A 1   1  A 1 10 15 1 10 15 1 1  k   1  k  N  2 N  2 50  2 50  2  0,27  k  1,27
Vậy ModeH  1, ứng với xác suất tại H   1 đạt Max. 1 n1 1 9 C C C C Ta có P H  N N  1  A NA  5 45  0,4313 n 10 C C N 50 NA 5
Kỳ vọng : E H   np  n.  10  1 N 50 N n N N A  A  N n 5 5 40 Phương sai : Var H         npq.  n  1          10. 1 . 0,7347 N 1 N  N            N 1    50 50 49
Độ lệch chuẩn :   Var H   0,7347  0,8571 H
--------------------------------------------------------------------------------------------------------------------------------------
Với việc chuẩn hóa lương nhân viên ngành CNTT. Giả sử mức lương của nhân viên ngành CNTT thỏa những tiêu
chí trong bảng phân phối xác suất là biến ngẫu nhiên N tuân theo phân phối chuẩn có dạng N N  2 ~ 21,25;2;6552 .
Lý thuyết: biến ngẫu nhiên tuân theo phân phối chuẩn 1. Ký hiệu , X N  2 ~ ;
   trong đó   EX và 2  VarX x   2 1 
2. Hàm mật độ của biến ngẫu nhiên f x 2 2  e   2 X  2 1 t  3. với Y ~ N 0;  1 , Y  
, hàm mật độ của biến ngẫu nhiên Y là gt 2  e  2
4. Phạm vi giá trị (phân bố xác suất) của biến Y   3  ,9;3,9 
 và của X  3,9 ;  3,9              
5. Tích phân Laplace (bảng tra B2) P0 Y  g  tdt, trong đó 
  0,5  0     0,5
6. Xác suất vùng của biến Y trong đó PaY   b  b  a        
7. Xác suất vùng của biến X trong đó     b a P a X b                  7
ÔN TẬP THỐNG KÊ KINH DOANH
10. Tính xác suất một nhân viên có lương dưới 20 triệu đồng/tháng, tính xác suất một nhân viên có lương
nằm trong khoảng 20 – 24 triệu đồng/tháng. Với N N  2 ~
21,25;2;6552  suy ra   21,25;  2,6552
Xác suất nhân viên có lương dưới 20 triệu đồng/tháng P N  2  2021,25 0      
 0,5  0,47 0,5  0,5  0,1808   0,3192  2,6552 
Xác suất nhân viên có lương từ 20 – 24 triệu đồng/tháng P 20  N  24 24 21,25    20 21,25            1,04 0,47 0,3498 0,1808 0,5306  2,6552            2,6552 
11. Tìm xác suất lương nhân viên chênh lệch so với mức lương trung bình không quá 1 lần độ lệch chuẩn, 2 lần độ lệch chuẩn.
Xác suất nhân viên có lương chênh lệch với mức lương trung bình không quá 1 độ lệch chuẩn
P N     P    N                                      
 1,001,00  
2 1,00  20,3413  0,6826
Tương tự cho P N     2   
2 2,00  20,4772  95,44%
12. Tìm mức giá trị tối thiểu của N mà có 30% nhân viên có mức lương trên mức đó.
Gọi mức lương tối thiểu là a , ta cần P a  N a 21,25    a 21,25  30%  0,5    0,3          0,2  2,6552      2,6552   a 21,25        a 21,25   0,52    0,52  a   22,6307  2,6552  2,6552
Vậy mức lương tối thiểu để 30% nhân viên có lương trên mức đó là 22,6307 triệu đồng/tháng.
13. Tìm mức giá trị tối đa của N mà có 25% nhân viên có mức lương dưới mức đó.
Gọi mức lương tối đa là b , ta cần P N b b 21,25    b 21,25  25%    
 0,5  0,25         0,25  2,6552      2,6552   b 21,25        b 21,25   0,67    0,67  b   19,4710  2,6552  2,6552
14. Tìm khoảng giá trị của N đối xứng quanh giá trị trung bình mà có 50% nhân viên có mức lương trong khoảng đó.
Gọi mức sai số so với mức lương trung bình là c , ta cần: 8
ÔN TẬP THỐNG KÊ KINH DOANH
P 21,25c  N  21,25 c 21,25 c 21,25    21,25 c 21,25  50%           0,50  2,6552      2,6552   c   c   c   c              0,5     2 0,5 0,25 0,67 2,6552           2,6552         2,6552      2,6552  c  0,67  c  1,7790 2,6552
Vậy vùng lương tương ứng là 21,251,7790;21,25 1,779  0  19,471;23,02 9
15. Nếu độ lệch chuẩn tiền lương nhân viên không thay đổi, và xác suất nhân viên có lương trên 23 triệu
đồng/ tháng là 30% thì kỳ vọng lương nhân viên ngành CNTT là bao nhiêu.
Khi kỳ vọng lương chưa biết , ta có N N  2 ~ ;2,6552  và ta cần P 23  N 23    23    30%  0,5    0,3         0,2    0,52 2,6552      2,6552 23     0,52    21,6193 2,6552
16. Nếu kỳ vọng lương nhân viên không thay đổi và xác suất nhân viên có lương dưới 18 triệu đồng/ tháng
chiếm 20% thì độ lệch chuẩn tiền lương nhân viên là bao nhiêu.
Khi độ lệch chuẩn chưa biết, ta có N N  2 ~ 21,25; , và ta cần P N  18 18 21,25    18  21,25  0,2    
 0,5  0,2       0,3    0,84            18  
21,25  0,84    3,8690  9
ÔN TẬP THỐNG KÊ KINH DOANH
CHƯƠNG 4: THỐNG KÊ MÔ TẢ
Bấm máy Casio : Cho trung bình mẫu, độ lệch chuẫn mẫu và hệ số biến thiên Bấm máy Casio 570. Bấm máy Casio 580.
Bước 1: vào chế độ thống kê: qwR4
Bước 1: Vào chế độ thống kê qwR3
Trong đó: 1:on (có tần số) và 2:off (không có tần số)
Trong đó: 1:on (có tần số) và 2:off (không có tần số)
Bước 2: vào phần nhập dữ liệu w31
Bước 2: vào phần nhập dữ liệu w61
Nhập vào hai cột: trong đó cột X là cột dữ liệu và cột FREQ Nhập vào hai cột: trong đó cột X là cột dữ liệu và cột FREQ
là cột tần số dữ liệu.
là cột tần số dữ liệu.
Nhập dữ liệu xong nhấn C thoát ra màn hình chính.
Nhập dữ liệu xong nhấn C thoát ra màn hình chính.
Bước 3: xuất đại lượng thống kê q1
Bước 3: xuất đại lượng thống kê, chọn phím [OPTN]
Trong đó 1: type (chọn chế độ thống kê)
Trong đó 1: select type (chọn chế độ thống kê)
2: data (quay lại màn hình nhập dữ liệu)
2: 1-Variable Cal (các đại lượng thống kê)
3: sum (xuất các đại lượng tổng như 2
X và X ). 3: Data (quay lại phần nhập dữ liệu).
4: var (xuất các đại lượng thống kê của mẫu dữ liệu) trong
đó 1 : n là cỡ mẫu, 2 : X là trung bình mẫu, 3 :  là độ X
lệch chuẩn tổng thể, 4 : S là độ lệch chuẩn mẫu. X `
Lý thuyết: các đặc trưng trung tâm và bình quân của mẫu dữ liệu 1. trung bình mẫu X 1 n
Dữ liệu liệt kê X ;X ;.. ;X : X  X 1 2 n   i n i 1  1 k
Dữ liệu rời rạc có tần số X ;n ;i 1,.. ,k : X  X n i i  i i n i 1  1 k 1
Dữ liệu dạng khoảng có tần số X ; X ;n ;i 1,...,k : X   n trong đó   X  X i  iMin iMax iMin iMax i i i n i 1  2 2. trung vị Me
Trường hợp dữ liệu rời rạc có tần số. j
B1. Lập cột tần số cộng dồn S trong đó S  n ; j  1,...,k i  j i i 1  1  
B2. Nếu n lẻ Me  X , hoặc , nếu n chẵn Me   X  X  n 1  2 n n   1     2 2 2 
Trường hợp dữ liệu dạng khoảng có tần số. j
B1. Lập cột tần số cộng dồn S  n ; j  1,...,k j i i 1  n
B2. Xác định tổ chứa Me ( là tổ chứa dữ liệu ở vị trí ), giả sử là tổ j 2 10
ÔN TẬP THỐNG KÊ KINH DOANH h n  B3. Giá trị j Me  X    S  jMin j 1 n 2   j  3. yếu vị Mo
Trường hợp dữ liệu rời rạc có tần số Mo  X  n  MAX i i 
Trường hợp dữ liệu dạng khoảng cho tần số n
B1. Lập cột mật độ tổ i
M  (đối với trường hợp tổ dữ liệu khoảng cách không đều nhau) , trong trường hợp i hi
dữ liệu có khoảng cách đều nhau thì không cần lập cột mật độ tổ.
B2. Tổ chứa Mode là tổ có M  Max (đối với tổ có khoảng cách không đều) và tổ n  Max (đối với tổ có i i
khoảng cách đều nhau). Giả sử tố chứa Mode là tổ j M  M B3. Giá trị yếu vị 1 Mo  X  h . j j
(đối với trường hợp tổ không cách đều) jMin j M  M  M  M j j 1  j j 1  n  n Và 1 Mo  X  h . j j
(đối với trường hợp tổ cách đều) jMIN j n  n  n n j j 1  j j 1 
Lý thuyết: các đặc trưng đo mức phân tán của dữ liệu
1) Độ lệch tuyệt đối bình quân
B1. Tính trung bình mẫu X , lập cột độ lệch tuyệt đối d i 
Với dữ liệu rời rạc d  X  X ; Với dữ liệu dạng khoảng d    X i i i i 1 k
B2. Tính độ lệch tuyệt đối bình quân d  d n  i i n i 1 
2) Phương sai mẫu và độ lệch chuẩn mẫu
B1. Tính trung bình mẫu và lập cột độ lệch bình phương  2 d i 
Với dữ liệu rời rạc d  X  X2 2
; Với dữ liệu dạng khoảng d    X i  i 2 2 i i 1 k B2. Tính phương sai mẫu 2 2 S  d .n n1 i i i 1  1 k
B3. Tính độ lệch chuẩn mẫu 2 S  d .n n1 i i i 1  11
ÔN TẬP THỐNG KÊ KINH DOANH S
3) Hệ số biến thiên CV  100% X
Lý thuyết: Các đặc trưng tính vị trí tương đối của dữ liệu 1) Trị z X  X
Trị z của dữ liệu X được quy đổi tương ứng i z  . i i Si 2) Tiêu chuẩn Chebyshev :  1 
Trong phạm vi quanh giá trị trung bình với độ lệch m lần độ lệch chuẩn có tối thiểu 1
  100%dữ liệu trong 2  m   1 
pham vị đó, nghĩa là PX mS  X  X mS P m   z  m 1     2  m  3) Phân vị thứ p ( th p )
Đối với trường hợp dữ liệu rời rạc p a a B1: Tìm chỉ số i  n 1 i   là phần lẻ của i 100   , trong đó i b
  là phần nguyên của i và b a
B2: Giá trị của phân vị thứ th p  X  X  X  i   b i 1    i     
Đối với trường hợp dữ liệu dạng khoảng p B1. Tìm chỉ số i  n 100
B2. Lập cột tần số cộng dồn S và tìm tổ chứa chỉ số i , giả sử là tổ j . i  h
B3. Giá trị của phân vị thứ th j p  X  i S jMin n  j 1   j
4) Các đại lượng trong biểu đồ tứ phân vị
B1: Tìm tứ phân vị thứ nhất Q ứng với phân vị 25th , Q ứng với phân vị 50th và Q ứng với phân vị 3  2  1 75th .
B2, Tìm chiều dài tứ phân vị IQR  Q Q 3 1
B3. Tìm cận trên dữ liệu hợp lệ :  Q 1,5IQR 3
và cận dưới dữ liệu hợp lệ :  Q 1,5IQR 1 12
ÔN TẬP THỐNG KÊ KINH DOANH
Một khảo sát về số năm kinh nghiệm (làm tròn theo năm) của nhân viên ngành Công nghệ thông tin (CNTT) tại
một thành phố trong năm 2024, với các yếu tố như vị trí công việc, kỹ năng chuyên môn và trình độ học vấn
được giữ cố định. Mẫu dữ liệu được khảo sát được thể hiện trong bảng dưới
Số năm kinh nghiệm (năm) 1 2 3 4 5 >5 Số lượng nhân viên 22 53 30 18 5 2
17. Tính các đặc trưng phản ánh mức tập trung và bình quân (trung bình, trung vị và yếu vị) của số năm kinh
nghiệm của nhân viên ngành CNTT trong mẫu. Số năm kinh Số nhân Tần số nghiệm viên tích lũy X n S i i i 1 22 22 2 53 75 3 30 105 4 18 123 5 5 128 >5 2 130 n 130
*)Trung bình số năm kinh nghiệm. k 6 1 1 1 X  X n   X n  
            (năm) i i i i
1 22 2 53 3 30 4 18 5 5 6 2 2,5154 n i 1 130  i 1 130 
Vậy trung bình mẫu số năm kinh nghiệm của nhân viên CNTT trong mẫu là 2,5154 năm.
*)Yếu vị số năm kinh nghiệm
Mo  2 (vì X  2, n  Max n 2 2  i
Yếu vị số năm kinh nghiệm của nhân viên ngành CNTT là 2 năm, nghĩa là nhân viên có 2 năm kinh nghiệm
chiếm tỷ lệ cao nhất trong các năm kinh nghiệm.
*)Trung vị số năm kinh nghiệm j
B1. Lập cột tần số tích lũy S  n j  i i 1  1   1  1 1
B2. Vì n 130 là số chẵn Me   X  X      X  X      X  X  22  2 n n 130 130  65 66   2 1    2 1      2 2 2 2 2 2 
( X ; X thuộc tổ k  2 vì theo tần số tích lũy tổ 2 chứa dữ liệu thứ 23 đến 75) 65 66
Vậy trung vị số năm kinh nghiệm của nhân viên ngành CNTT là 2 năm, nghĩa là trong mẫu dữ liệu có 50% nhân
viên có số năm kinh nghiệm dưới (trên) 2 năm.
18. Tính các đặc trưng phản ánh mức phân tán (độ lệch tuyệt đối bình quân, độ lệch chuẩn mẫu và phương
sai mẫu, hệ số biến thiên) của số năm kinh nghiệm của nhân viên ngành CNTT trong mẫu. Số năm kinh Số nhân Tần số Độ lệch nghiệm viên tích lũy tuyết đối X n S d i i i i 13
ÔN TẬP THỐNG KÊ KINH DOANH 1 22 22 1.5154 2 53 75 0.5154 3 30 105 0.4846 4 18 123 1.4846 5 5 128 2.4846 >5 2 130 3.4846 n 130
*)Độ lệch tuyệt đối bình quân
B1. Lập cột độ lệch tuyệt đối d  X  X (trong đó X  2,5414 ) i i
B2. Tính độ lệch tuyệt đối bình quân k 6 1 1 d  d n   d n i i  i i n i 1 130  i 1  1 
1,5414220,5414530,4846301,4846 1
 82,484653,48462 0,9331 130
So với trung bình là 2,5414 năm thì mức chênh lệch tuyệt đối trung bình giữa số năm kinh nghiệm của 1 nhân
viên so với 2,5414 năm là 0,9331 năm. *)Phương sai mẫu 1 k k S  X  X n  d n  n 1  i 2 2 1 2 i i i i 1 n 1  i 1  1   2 2 2 2 2 2
1,5414 22 0,5414 53 0,4846 30 1,4846 1
 82,4846 53,4846  21,2905 130 *)Độ lệch chuẩn mẫu 2
S  S  1,2905 1,136 (năm)
So với trung bình là 2,5414 năm thì mức chênh lệch trung bình tính theo phương pháp chênh lệch bình phương
giữa số năm kinh nghiệm của 1 nhân viên so với 2,5414 năm là 1,136 năm. *)Hệ số biến thiên. S 1,136 CV  100% 100% 45,16% X 2,5414
19. Dùng tiêu chuẩn Chebyshev tìm khoảng số năm kinh nghiệm quanh giá trị trung bình mà có tối thiểu 75%
nhân viên trong phạm vi đó. Số năm kinh Số nhân Tần số Trị z nghiệm viên tích lũy X n S i i i 1 22 22 -1.334 2 53 75 -0.4537 3 30 105 0.4266 4 18 123 1.3069 5 5 128 2.1871 >5 2 130 3.0674 14
ÔN TẬP THỐNG KÊ KINH DOANH n 130  1 
Theo tiêu chuẩn Chebyshev: PX mS  X  X mS 1 
  , trong đó X  2,5414 ; S 1,136 2  m  1
Để có thể lấy vùng dữ liệu tối thiểu 75% quanh giá trị trung bình, ta chọn m thỏa 1  75%  m  2 2 m
Vậy khoảng cách 2 lần độ lệch chuẩn quanh giá trị trung bình sẽ có tối thiểu 75% dữ liệu.
Vậy số năm kinh nghiệm nằm trong khoảng
X2 ;SX2S2,54142 1,136;2,54142 1,13 60,2694;4,813 4 X  X
Kiểm tra trên bảng số liệu , lập cột trị z với i z  , i S Với z  2  ; 
2  X X2 ;SX 2S, bảng số liệu ứng với X 1,2,3,4 i 123
Và tỷ lệ của 4 tổ này là f 
 94,61% trên 75% theo tiêu chuẩn Chebyshev. 130
20. Tính các đặc trưng của biểu đồ tứ phân vị của số năm kinh nghiệm của nhân viên ngành CNTT trong mẫu.
Các đặc trưng về biểu đồ tứ phân vị của mẫu dữ liệu Số năm kinh Số nhân Tần số nghiệm viên tích lũy X n S i i i 1 22 22 2 53 75 3 30 105 4 18 123 5 5 128 >5 2 130 n 130
*)Các đại lượng tứ phân vị 25 25
Tứ phân vị thứ nhất Q phân vị thứ 25, ứng với vị trí i  n 1 1  31 32,75 1 100 100
Trong đó theo cột tần số cộng dồn thì X ; X thuộc tổ 2. 32 32
Giá trị của Q  X  0,75 X  X  2  0,75 22  2 1 32  33 32   75 75
Tứ phân vị thứ ba Q phân vị thứ 75, ứng với vị trí i 
n 1 13 198,25 3  100 100
Trong đó theo cột tần số cộng dồn thì X ; X thuộc tổ 3. 98 99
Giá trị của Q  X  0,25 X  X  3 0,25 33  3 3 98  99 98  
*)Chiều dài tứ phân vị : IQR  Q Q  32  1 3 2
*)Cận trên và cận dưới của vùng dữ liệu hợp lệ 15
ÔN TẬP THỐNG KÊ KINH DOANH
Cận trên  Q 1,5IQR  31,5 1
  4,5 và Cận dưới  Q 1,5IQR  21,5 1   0,5 3 1
Vậy vùng dữ liệu hợp lệ cho số năm kinh nghiệm là từ 0,5 đến 4,5 năm, nghĩa là trong bảng số liệu này số năm
kinh nghiệm 5 năm và trên 5 năm là dữ liệu ngoại lai. 7.00 6.00 6.00 5.00 5.00 4.00 4.004.00 3.00 3.00 3.00 2.52 2.00 2.00 2. 2 0 . 0 1.00 1.0 1 0 .00 0.00 1 16
ÔN TẬP THỐNG KÊ KINH DOANH
Một khảo sát mức lương của nhân viên ngành Công nghệ thông tin (CNTT) tại một thành phố trong năm 2024,
với các yếu tố như kinh nghiệm, vị trí công việc, kỹ năng chuyên môn và trình độ học vấn được giữ ổn định.
Mẫu dữ liệu khảo sát được thể hiện trong bảng dưới đây:
Mức lương (triệu đồng/tháng) <18
18 – 20 20 – 22 22 – 24 24 – 26 >26 Số lượng nhân viên 22 53 30 18 5 2
21. Tính các đặc trưng phản ánh mức tập trung và bình quân của mức lương nhân viên ngành CNTT, gồm
trung bình, trung vị và yếu vị. Với 3 giá trị tìm được hãy phát thảo hình dạng quy luật phân phối xác suất của mức lương. ID X X  n S iMin iMax i i i 1 16 18 17 22 22 2 18 20 19 53 75 3 20 22 21 30 105 4 22 24 23 18 123 5 24 26 25 5 128 6 26 28 27 2 130 n=130
Biểu đồ tần số theo khoảng lương 60 53 50 40 30 30 22 18 20 10 5 2 0 <18 18 - 20 20 - 22 22 - 24 24 - 26 >26
*)Trung bình lương nhân viên: 1 B1.lập cột   X X i   iMin iMax  2
B2. Tính trung bình cộng : X  1 6n  1 i i
1722195321302318 25527 220,0308 n i1 130
Bình quân lương của một nhân viên lấy từ mẫu dữ liệu là 20,0308 triệu đồng/tháng
*)Trung vị lương nhân viên: 17
ÔN TẬP THỐNG KÊ KINH DOANH k
B1. Lập cột tần số tích lũy S  n k  i i1
B2. Trung vị thuộc tổ k 2, vì dữ liệu thứ n  130  65 thuộc tổ 2 (S  75 ) 2 2 2 h n  2 130  B3. Giá trị trung vị : 2   Me  X  S 18 22 19,6226 2MIN         1     n  2 53 2 2       
Vậy 50% nhân viên trong mẫu có lương dưới (trên) 19,6226 triệu đồng/tháng
*)Yếu vị lương nhân viên
B1. Yếu vị thuộc tổ k 2 vì dữ liệu dạng khoảng cách đều và tổ 2 có tần số lớn nhất. n  n B2. Giá trị yếu vị : 2 1 53  Mo  X  h   22 18 2.  19,1481 2 min 2 n  n  n  n 53  22  53  30 2 1 2 3
Vậy khoảng lương quanh 19,1481 triệu đồng/tháng là vùng lương có mật độ nhân viên cao nhất.
22. Tính các đặc trưng phản ánh mức phân tán của mức lương nhân viên ngành CNTT, gồm độ lệch tuyệt đối
bình quân, phương sai mẫu và độ lệch chuẩn mẫu, hệ số biến thiên. Nếu giả sử mức lương của nhân viên
tuân theo phân phối chuẩn hãy kết luận cho quy tắc 3-sigma đối với mức lương của nhân viên. ID X X  n d iMin iMax i i i 1 16 18 17 22 3.0308 2 18 20 19 53 1.0308 3 20 22 21 30 0.9692 4 22 24 23 18 2.9692 5 24 26 25 5 4.9692 6 26 28 27 2 6.9692 n=130
*)Độ lệch tuyệt đối bình quân
B1. Lập cột độ lệch tuyệt đối , d   X   20,0308 i i i
B2. Độ lệch tuyệt đối bình quân, d  1 6dn  1 i i
3,0308221,0308530,9692302,9692184,969256,9692 2 n i1 130  1,8663
Vậy mức chênh lệch tuyệt đối bình quân giữa lương của các nhân viên so với mức lương trung bình là 1,8663 triệu đồng/tháng. *)Phương sai mẫu S  1 6 2 2 d n  1 i i  2 3,0308 22  2 1,0308 53  2 0,9692 30  2 2,9692 18  2 4,9692 5  2 6,9692  2 n 1 i1 129  5,1618 18
ÔN TẬP THỐNG KÊ KINH DOANH
Vậy mức chênh lệch bình phương giữa lương của các nhân viên so với mức lương trung bình là 5,1618 triệu đồng
bình phương/tháng, và độ lệch chuẩn tương ứng S  2,2720 triệu đồng/tháng. *)Hệ số biến thiên :  S CV  2,2720 100% 100%  11,34% X 20,0308
Vậy so với giá trị trung bình ứng với 100% thì mức chênh lệch tiền lương của nhân viên so với mức lương trung bình là 11,34%.
23. (Chuẩn tắc hóa) Tính trị z dữ liệu mức lương. ID X X z z iMin iMax iMin iMax 1 16 18 -1.77 -0.89 2 18 20 -0.89 -0.01 3 20 22 -0.01 0.87 4 22 24 0.87 1.75 5 24 26 1.75 2.63 6 26 28 2.63 3.51 X  X
Lập cột trị z với z  i
, trong đó X  20,0308; S  2,272 i S Ví dụ : với 16 20, 0308 X 16 z      1,77 ; 18 20, 0308 X 18 z      0,89 1Min 1Min 2, 272 2 max 2 max 2,272
24. Dùng quy tắc Chebyshev tìm khoảng giá trị đối xứng quanh mức lương trung bình mà tối thiểu 75% nhân
viên ngành CNTT có mức lương đó. Dùng quy tắc Chebyshev tìm mức lương mà tối đa 20% nhân viên
ngành CNTT có mức lương cao hơn mức lương đó.     1  X  P X mS X X mS 1 P  X  1          2 Tiêu chuẩn Chebyshev   m  1  m   2   S   m   1
P m  z  m  1  2 m
Để có tối thiểu 75% nhân viên trong vùng dữ liệu thì  1    1  3 1 75% 1  m  2 2 2 m m 4
Vậy vùng lương tương ứng m  2 là X 2 ;SX 2S 15,4868;24,574 7
25. Giả sử mức lương nhân viên ngành CNTT tuân theo phân phối chuẩn trong đó kỳ vọng xấp xỉ bằng trung
bình mẫu và độ lệch chuẩn xấp xỉ bằng độ lệch chuẩn mẫu mức lương từ bảng số liệu. Hãy tính xác suất
của từng khoảng lương trong bảng số liệu, lập bảng so sánh với tỷ lệ mẫu cảu từng khoảng lương trong bảng số liệu. ID X X z z PX  X  X iMin iMax  iMin iMax iMin iMax 1 16 18 -1.77 -0.89 0.1484 2 18 20 -0.89 -0.01 0.3093 3 20 22 -0.01 0.87 0.3118 19
ÔN TẬP THỐNG KÊ KINH DOANH 4 22 24 0.87 1.75 0.1521 5 24 26 1.75 2.63 0.0358 6 26 28 2.63 3.51 0.004 X N N 2 ~ 20,0308; 5,1618 20,0308;2,272 
Với khoảng lương từ 16 – 18 triệu đồng/tháng, P16  X 1 
8  P1,77 z 0,89 0,891,7 
7  0,3133 0,4616  0,1483
so sánh phân bố xác suất giữa mẫu và p.p chuẩn 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0
26. Tính các đại lượng trong biểu đồ tứ phân vị. Dùng phạm vi mức lương từ cận dưới đến cận trên trong
biểu đồ tứ phân vị để quyết định cho vùng dữ liệu ngoại lai đối với mức lương của nhân viên ngành công nghệ thông tin. ID X X  n S iMin iMax i i i 1 16 18 17 22 22 2 18 20 19 53 75 3 20 22 21 30 105 4 22 24 23 18 123 5 24 26 25 5 128 6 26 28 27 2 130 n=130
B1: Tính các đại lượng tứ phân vị 25 25
Trường hợp : tứ phân vị thứ nhất Q 25th 1
, chỉ số của phân vị i  n 
.130  32,5 thuộc vào tổ 2 , 100 100 h 2
Giá trị của tứ phân vị thứ nhất 2 Q  X  iS 18 32,522 18,3962 1 2Min  1   n 53 2 75 75
Trường hợp: tứ phân vị thứ ba Q 75th 3 
, chỉ số của phân vị i n 13097,5, thuộc vào tổ 3 , 100 100 20