Bai giang NLTK HSU 2017 - Nội dung bài giảng môn nguyên lí thống kê nha - Tài liệu tham khảo | Đại học Hoa Sen

Bai giang NLTK HSU 2017 - Nội dung bài giảng môn nguyên lí thống kê nha - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả

Trường:

Đại học Hoa Sen 4.8 K tài liệu

Thông tin:
67 trang 3 tuần trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Bai giang NLTK HSU 2017 - Nội dung bài giảng môn nguyên lí thống kê nha - Tài liệu tham khảo | Đại học Hoa Sen

Bai giang NLTK HSU 2017 - Nội dung bài giảng môn nguyên lí thống kê nha - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả

24 12 lượt tải Tải xuống
Trang 1
BÀI GIÀNG NGUYÊN LÝ THÞNG KÊ
(Nm håc 201 . Tr°ãng Đ¿i håc Hoa Sen)7 2018
CH¯¡NG I. GIàI THIÞU MÔN HäC
I.1. KHÁI NIÞM VÀ CHĄC NNG CĂA THÞNG KÊ
1. Khái nißm
Có thá hiáu khái niệm thống kê trên hai góc độ:
- Góc độ lí luận: Thống kê là một môn khoa học kinh tế, nghiên cứu mặt l°ợng trong
mối liên hệ chặt chẽ với mặt chất của các hiện t°ợng và quá trình kinh tế xã hội, phát
sinh trong đißu kiện thßi gian và địa điám cụ thá.
- Góc độ nghiệp vụ: Thống thá hiáu các số liệu thá hiện thông tin đối t°ợng
nghiên cứu.
Một cách táng quát, có thá định nghĩa Thống kê là một nhánh của toán học liên quan
đến việc thu thập, phân tích trình bày các dữ liệu . Đây một khoa học bao gßm một
hệ thống các ph°¡ng pháp từ việc thu thập, trình bày, tóm tắt dữ liệu đến các ph°¡ng
pháp phân tích và dự đoán, giúp các nhà quản lí đ°a ra các quyết định.
2. Chąc nng căa thßng kê
Quá trình nghiên cứu thống kê trải qua ba giai đoạn có quan hệ chặt chẽ và mật thiết với
nhau, trong đó giai đoạn tr°ớc làm tißn đß đá thực hiện giai đoạn sau.
(1) Giai đoạn đißu tra thống kê: bao gßm ghi chép, thu thập tài liệu thống kê.
(2) Giai đoạn táng hợp và trình bày kết quả đißu tra thu thập đ°ợc.
(3) Giai đoạn phân tích và dự báo thống kê.
Nh° vậy, thống kê có hai lĩnh vực:
- Thống mô tả bao gßm các ph°¡ng pháp thu thập, trình bày dữ liệu và tính toán
các đặc tr°ng nhằm mô tả đối t°ợng nghiên cứu.
- Thống kê suy diễn bao gßm các ph°¡ng pháp mô hình hoá trên các dữ liệu quan sát
đá đ°a ra các suy diễn vß tập hợp các đ¡n vị đ°ợc nghiên cứu.
Thống kê mô tả và thống kê suy diễn tạo thành thống kê ứng dụng, còn thống kê toán là
lĩnh vực nghiên cứu c¡ sá lí thuyết của khoa học thống kê.
I.2. CÁC KHÁI NIÞM C¡ BÀN
1. Táng thß, đ¢n vã táng thß, mÁu
Táng thá thống kê (hay táng thá) là tập hợp tất các các đối t°ợng mà ta nghiên cứu. Các
đ¡n vị (hay phần tử) tạo thành táng thá đ°ợc gọi là đ¡n vị táng thá. MÁu là một bộ phận
lấy ra từ táng thá.
Ví dā 1. a) Đá ghiên cứu điám trung bình môn Toán của sinh viên Tr°ßng Đại học Hoa n
sen, ng°ßi ta đã xét bảng điám của 250 sinh viên.
b) Nghiên cứu tỉ lệ bị bệnh lao á tỉnh Lào cai, ng°ßi ta đã khám cho 1520 ng°ßi thì thấy
có 7 ng°ßi bị lao.
Hãy chỉ ra táng thá, đ¡n vị táng thá và mÁu trong hai tr°ßng hợp trên .
2. Bi¿n
Biếnđặc điám của đ¡n vị táng thá, đ°ợc chia thành hai loại :
- Biến định tính thá hiện tính chất của đ¡n vị đ°ợc khảo sát;
- Biến định l°ợng thá hiện bằng các số.
Trang 2
Ví dā 2. Hãy chỉ ra biến định tính và biến định l°ợng của ví dụ 1.
3. Dā lißu
Dữ liệu là kết quả quan sát đ°ợc của các biến, giá trị nhận đ°ợc có thá thay đái từ đ¡n vị
này sang đ¡n vị khác. Dữ liệu cũng đ°ợc phân biệt thành hai loại: dữ liệu định tính và dữ
liệu định l°ợng.
Ví dā 3. Điám thi môn Toán của từng sinh viên và kết quả âm tính (hay d°¡ng tính) khi
xét nghiệm lao của từng ng°ßi trong ví dụ 1 là dữ liệu gì?
4. Đ¿c đißm thßng kê
Đặc điám thống khái niệm dùng đá chỉ các đặc điám của đ¡n vị táng thá ta
nghiên cứu.
Ví dā 4. Khi nghiên cứu nhân kh¿u tmỗi nhân kh¿u có các đặc điám nh°: giới tính, độ
tuái, trình độ học vấn, nghß nghiệp, dân dộc, tôn giáo,…
Khi nghiên cứu doanh nghiệp thì mỗi doanh nghiệp có các đặc điám nh°: số l°ợng công
nhân, vốn cố định, vốn l°u động, giá trị sản xuất, năng suất làm việc của công nhân,…
Đặc điám thống kê đ°ợc chia thành hai loại:
a) không Đặc điểm định tính đặc điám phản ánh tính chất của đ¡n vị táng thá, thá
hiện trực tiếp bằng các con số.
b) ) Đặc điểm định lượng (còn gọi là đặc điám số l°ợng đặc điámbiáu hiện trực
tiếp con bằng số.
Ví dā 5. Hãy nêu đặc điám định tính và định l°ợng trong ví dụ 4.
Các trị số cụ thá khác nhau của đặc điám định l°ợng gọi là l°ợng biến.
Ví dā 6. Tuái là đặc điám định l°ợng nh°ng không phải là l°ợng biến, còn l°ợng biến
là 18 tuái, 20 tuái,…
L°ợng biến có thá phân biệt thành hai loại :
- Lượng biến rời rạc l°ợng biến mà các giá trị có thá có của nó là hữu hạn hoặc vô
hạn và có thá đếm đ°ợc.
- Lượng biến liên tục là l°ợng biến các giá trị thá của lấp kín cả một khoảng
trên trục số.
Thông th°ßng, các giá trị của l°ợng biến liên tục là các số có cả phần nguyên và phần
thập phân, còn giá trị của l°ợng biến không liên tục là các số nguyên.
Ví dā 7. Số công nhân trong một xí nghiệp, chißu cao của các em bé lứa tuái mÁu giáo
l°ợng biến gì?
Các đặc điám định tính định l°ợng chỉ hai biáu hiện không trùng nhau trên một
táng thá đ°ợc gọi là đặc điểm nhị phân .
Ví dā 8. Đặc điám giới tính là đặc điám phân nhị vì chỉ có hai biáu hiện là nam nữ.
Đối với các đặc điám nhißu biáu hiện ta thá chuyán đặc điám nhị phân bằng
cách rút gọn thành hai biáu hiện.
9. Thành phần kinh tế thá chia thành nhà n°ớc ngoài nhà n°ớc. Số công
nhân của các doanh nghiệp có thá chia thành ít h¡n 500 và từ 500 trá lên.
Trang 3
5. Chá tiêu thßng kê
Chỉ tiêu thống kê là các trị số phản ảnh các đặc điám, các tính chất c¡ bản của táng thá
thống kê trong đißu kiện thßi gian và không gian xác định.
Chỉ tiêu thống kê thá phân biệt thành hai loại: chỉ tiêu khối l°ợng chỉ tiêu cht
l°ợng.
a) Chỉ tiêu khối lượng là các chỉ tiêu biáu hiện sự quy mô của táng thá.
b) Chỉ tiêu chất lượng là các chỉ tiêu biáu hiện tính chất, trình độ phá biến, quan hệ so
sánh trong táng thá.
10. Số nhân kh¿u, số doanh nghiệp, vốn cố định, vốn l°u động của một doanh
nghiệp,… các chỉ tiêu khối l°ợng. Giá thành một đ¡n vị sản ph¿m chỉ tiêu chất
l°ợng nó biáu hiện quan hệ so sánh giữa táng giá thành và số l°ợng sản ph¿m sản xuất
đ°ợc. T°¡ng tự, chỉ tiêu năng suất lao động, tißn l°¡ng,… là các chỉ tiêu chất l°ợng.
Các chỉ tiêu chất l°ợng mang ý nghĩa phân tích, các trị số của nó đ°ợc xác định chủ yếu
từ việc so sánh giữa các chỉ tiêu khối l°ợng.
CH¯¡NG II. THU THÂP DĀ LIÞUVÀ TRÌNH BÀY
II.1. THU THÂP DĀ LIÞU
1. Xác đãnh dā lißu cần thu thÃp
Quá trình nghiên cứu thống cần phải có nhißu dữ liệu. Việc thu thập dữ liệu đòi hỏi
nhißu thßi gian, công sức, chi phí. Do đó cần phải tiến hành thu thập dữ liệu một cách hệ
thống, đáp ứng đ°ợc mục tiêu nghiên cứu trong khả năng ngußn nhân lực , kinh phí
thßi gian cho phép. Muốn vậy phải xác định rõ những dữ liệu nào cần thu t ập, thứ tự °u h
tiên của các dữ liệu này.
1. Nghiên cứu ảnh h°áng của đißu kiện ăn á, sinh hoạt đến kết quả học tập của
sinh viên. Có hai nhóm dữ liệu chính cần thu thập là:
(1) đißu kiện ăn á sinh hoạt;
(2) kết quả học tập.
à nhóm (1) cần thu thập dữ liệu liên quan nh°: à với cha mẹ hay á kí túc xá, á trọ? Có
phòng riêng hay sống chung nhißu ng°ßi? Chỗ á cách tr°ßng bao xa? Chỗ á ßn ào hay
không?... Ngoài ra còn liên quan có những dữ liệu khác vß đißu kiện ăn á nh°ng không
lắm đến kết quả học tập thì không cần thu thập, chẳng hạn: bàn học làm bằng sắt hay gỗ?
Nhà có phòng vệ sinh hiện đại không, có bßn tắm không?...
à nhóm (2) cần thu thập dữ liệu vß kết quả học tập của từng sinh viên.
2. Ngußn dā lißu
Khi nghiên cứu, ta có thá sử dụng các dữ liệu từ những ngußn có sẵn, đã đ°ợc công bố
hoặc ch°a công bố, hay có thá tự mình đi thu thập dữ liệu mới.
Dữ liệu từ ngußn có sẵn, th°ßng đã qua táng hợp, xử lí, gọi là dữ liệu thứ cấp.
Dữ liệu thu thập trực tiếp từ đối t°ợng nghiên cứu gọi là dữ liệu s¡ cấp.
Ví dā 2. Hãy nêu các dữ liệu s¡ cấp và thứ cấp á ví dụ 1 trên đây.
a) Ngußn dā lißu thą cấp khá đa dạng, có thá là:
- Các báo cáo nội bộ quan, doanh nghiệp: các số liệu báo cáo tình hình sản
xuất, tiêu thụ, tài chính,…
Trang 4
- Các số liệu của C¡ quan Thống nhà n°ớc, quan Chính phủ: dân số, việc làm,
mức sống dân c°, tài nguyên, …
- Báo, tạp chí, mạng internet,…
b) Ngußn dā lißu s¢ cấp
Dữ liệu s¡ cấp đ°ợc thu thập qua các cuộc đißu tra khảo sát.
Căn cứ vào tính liên tục hay không liên tục của việc ghi chép dữ liệu, người ta chia
ra thành điều tra thường xuyên hay không thường xuyên.
Điều tra thường xuyên tiến hành thu thậ ghi chép số liệu vß hiện t°ợng ng iên cứu p, h
một cách có hệ thống, theo sát quá trình biến động của hiện t°ợng.
Điều tra không thường xuyên tiến hành thu thập, ghi chép chkhi nhu cầu cần
nghiên cứu hiện t°ợng. Dữ liệu đißu tra không th°ßng xuyên phản ánh trạng thái của hiện
t°ợng tại một thßi điám nhất định.
3. Một doanh nghiệp theo dõi hàng ngày sl°ợng công nhân đi làm, ssản
ph¿m sản xuất ra, số sản ph¿m tiêu thụ đ°ợc. Táng đißu tra dân số Việt Nam vào ngày
1 4 2009. Đây là các đißu tra th°ßng xuyên hay không th°ßng xuyên?
Căn cứ vào phạm vi khảo sát, người ta chia ra thành điều tra toàn bộ, không toàn bộ.
Điều tra toàn bộ tiến hành thu thập, ghi chép dữ liệu trên tất cả các đ¡n vị của táng
thá.
Điều tra không toàn bộ chỉ tiến hành thu thập trên một số đ¡n vị đ°ợc chọn ra từ táng
thá đang nghiên cứu.
Ví dā 4. Các đißu tra sau đây là đißu tra toàn bộ hay không toàn bộ?
a) Đißu tra dân số Việt Nam .
b) Đá nghiên cứu tỉ lệ sinh viên tốt nghiệp tìm đ°ợc việc làm, ng°ßi ta phỏng vấn
1650 sinh viên ra tr°ßng sau 1 năm thì thấy có 1215 sinh viên đã có việc làm.
3. Các ph°¢ng pháp thu thÃp dā lißu s¢ cấp
a) Thu thập trực tiếp
- Quan sát
- Phỏng vấn trực tiếp
b) Thu thập gián tiếp
- Phỏng vấn bằng điện thoại
- Ph°¡ng pháp gửi th°, email
¯u điám, nh°ợc điám của các ph°¡ng pháp thu thập thông tin trên đây thá tóm tắt
trong bảng sau:
Tính chất
Ph°¡ng pháp
gửi th°, email
Phỏng vấn
qua tel
Phỏng vấn
trực tiếp
Linh hoạt
Kém
TB
Tốt
Khối l°ợng thông tin
Đầy đủ
Hạn chế
Đầy đủ
Tốc độ thu thập
thông tin
Chậm
Nhanh
Nhanh
Tỉ lệ câu hỏi
đ°ợc trả lßi
Thấp
TB
Cao
Chi phí
Tiết kiệm
Tốn kém
Tốn kém
Trang 5
4. Các kĩ thuÃt chån mÁu
Mục đích của việc chọn mÁu bảo đảm cho mÁu đ°ợc chọn thực sự phản ánh trung thực,
đại diện cho toàn bộ táng thá.
Có hai nhóm k ĩ thuật chọn mÁu là lấy mÁu xác suất (lấy mÁu ngÁu nhiên) và phi xác suất
(lấy mÁu không ngÁu nhiên).
a) Phương pháp lấy mẫu xác suất bao gßm các ph°¡ng pháp chọn mÁu ngÁu nhiên đ¡n
giản, chọn mÁu hệ thống, chọn mÁu cả khối hay lấy mÁu nhißu giai đoạn, chọn mÁu phân
tầng.
- Ph°¡ng pháp chọn mÁu ngÁu nhiên đ¡n giản là ph°¡ng pháp trong đó mỗi đ¡n vị của
táng thá đ°ợc chọn với sự ngÁu nhiên nh° nhau.
- Tr°ớc tiên lập danh sách các đ¡n vị của táng thá chung theo một trật tự quy °ớc nào đó,
sau đó đánh số thứ tự các đ¡n vị trong danh sách. Đầu tiên chọn ngÁu nhiên 1 đ¡n vị
trong danh sách; sau đó cứ cách đßu k đ¡n vị lại chọn ra 1 đ¡n vị vào mÁu,… cứ nh° thế
cho đến khi chọn đủ số đ¡n vị của mÁu. dụ: Dựa vào danh sách bầu cử tại 1 thành phố,
ta có danh sách theo thứ tự vần của tên chủ hộ, bao gßm 240.000 hộ. Ta muốn chọn ra
một mÁu có 2000 hộ. Vậy khoảng cách chọn là = 240000/2000 = 120, có nghĩa là cứ : k
cách 120 hộ thì ta chọn một hộ vào mÁu.
- Trong ph°¡ng pháp chọn mÁu cả khối (hay lấy mÁu nhißu giai đoạn) đầu tiên táng thá ,
đ°ợc chia thành nhißu khối, lÁy ngÁu nhiên m khối sau đó khảo sát hết (hay một số) các
đối t°ợng trong các khối mÁu đã đ°ợc lấy ra. Đối với ph°¡ng pháp này ta không cần phải
có danh sách các đ¡n vị chọn mÁu. Chẳng hạn, cần khảo sát tất cả các hộ dân th°ßng trú
tại TP. HCM, ta chọn ngÁu nhiên một số quận, i khảo sát tất cả (hay một số) hộ dân
trong các quận đã chọn ra.
- Ta sử dụng ph°¡ng pháp chọn mÁu phân tầng khi các đ¡n vị quá khác nhau vß tính chất
liên quan đến vấn đß cần nghiên cứu và khảo sát.
Ví dụ, khi khảo sát mức độ hài lòng của sinh viên một tr°ßng đại học vß cảm nhận của
sinh viên vß chất l°ợng đào tạo, th°ßng sẽ có sự khác biệt lớn vß số l°ợng sinh viên và
đißu kiện học tập giữa các hệ khác nhau nh° hệ chính quy, hệ hoàn chỉnh đại học, hệ đại
học… Theo ph°¡ng pháp này táng thá nghiên cứu đ°ợc chia thành các tầng lớp từ , kích
th°ớc mÁu đã chọn ta phân bá tỷ lệ cho từng tầng lớp rßi tiến hành lấy mÁu ngÁu nhiên
hay có thệ thống.
b) Nhóm kĩ thuật lấy mẫu phi xác suất bao gßm các ph°¡ng pháp lấy mÁu thuận tiện,
lấy mÁu định mức, lấy mÁu phán đoán. MÁu phi xác suất không đại diện đ°ợc cho toàn
bộ táng thá nh°ng đ°ợc chấp nhận trong nghiên cứu khám phá và trong kiám định giả
thuyết.
- Ta thá lấy mÁu thuận tiện bằng cách đến những n¡i nhißu khả năng gặp đ°ợc
những đối t°ợng mà ta muốn khai thác thông tin và cảm thấy tiện lợi.
- Lấy mÁu định mức t°¡ng tự nh° ph°¡ng pháp lấy mÁu phân tầng á b°ớc phân chia táng
thá thành các tầng lớp rßi phân bá định mức lấy mÁu cho từng tầng lớp. Điám khác nhau
á chá khi tiến hành lấy mÁu trong thừng tầng lớp, với kĩ thuật này, ta chọn những đ¡n vị
tại hiện tr°ßng theo cách thuận tiện và theo phán đoán.
- Trong kĩ thuật lấy mÁu phán đoán ta chính là ng°ßi quyết định sự thích hợp của các đối
t°ợng đá mßi họ tham gia và mÁu khảo sát.
Trang 6
II.2. TRÌNH BÀY DĀ LIÞU
1. BÁng tần sß, tần suất
Bảng tần số một bảng táng hợp, trình bày dữ liệu bằng cách phân chia chúng thành
từng nhóm (lớp) khác nhau. Bảng tần số th°ßng bao gßm ba cột:
- Cột thứ nhất mô tả các biáu hiện hoặc các giá trị hay khoảng giá tr của dữ liệu. ( )
- Cột thứ hai mô tả tần số t°¡ng ứng với các biáu hiện hoặc giá trị đó.
- Cột thứ ba là các tần suất (tỉ lệ %).
a) Cách lập bảng tần số, tần suất cho d ữ liệu định tính
Đối với các dữ liệu định tính nh° giới tính, ngành học, … ta sẽ lập bảng tần số gßm các
thông tin sau đây.
- Cột thứ nhất liệt kê tất các các biáu hiện có thá có của tập dữ liệu.
- Cột thứ hai ghi tần số (số lần tng biáu hiện đó xuất hiện trong tập dữ liệu). Táng
của cột tần số phải bằng số phần tử của tập dữ liệu.
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu và
nhân với 100%). Táng của cột tần suất phải bằng 100%.
Ví dā 1. Bảng tần số ngành học của sinh viên một tr°ßng đại học nh° sau:
Ngành học
Tần số (sinh viên)
Tần suất (%)
Quản trị kinh doanh
500
50
Điện tử viễn thông
300
30
Công nghệ thông tin
200
20
Táng
1000
100
b) Cách lập bảng tần số cho dữ liệu định lượng
Có hai tr°ßng hợp: dữ liệu có ít giá trị và dữ liệu có nhißu giá trị.
(1) Trường hợp dữ liệu có ít giá trị: Bảng tần số cũng có ba cột t°¡ng tự tr°ßng hợp
dữ liệu định tính, nh°ng cột thứ nhất ghi các giá trị (l°ợng biến) của dữ liệu.
Ví dā 2. Khảo sát điám thi môn Toán của một số sinh viên, ta đ°ợc bảng dữ liệu sau:
Tần số (số sinh viên)
Tần suất (%)
3
3,75
12
15
15
18,75
20
25
16
20
8
10
4
5
2
2,5
80
100
(2) Trường hợp dữ liệu có nhiều giá trị: nhóm Tr°ớc hết ta phân cho các giá trị rßi
mới lập bảng tần số trên c¡ sá dữ liệu đã phân nhóm.
Ví dā 3. Khảo sát 1200 ng°ßi trong độ tuái lao động (từ 18 đến 60 tuái), nếu lập bảng
nh° á dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm l°ợc thông tin. Do đó ta sẽ phân
thành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ
51 đến 60. Đây là kiáu phân nhóm theo kinh nghiệm.
Trang 7
Trên thực tế ng°ßi ta th°ßng phân nhóm với khoảng cách đßu nhau.
Giả sử mÁu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần l°ợt là
max
X
,
min
X
. Gọi là số k nhóm cần chia và h là khoảng cách giữa các nhóm.
Khi đó, ng°ßi ta th°ßng xác định bái công thức k h
3
max min
2 ,
X X
k n h
k
ý ý
.
Tuy nhiên trên thực tế khi xác định cận trên và cận d°ới của các khoảng ng°ßi ta có thá
xử lý linh động h¡n đá đảm bảo tính khoa học và mỹ thuật.
Mỗi khoảng thá hiện sự tßn tại của các giá trị quan sát x
i
sao cho:
Cận dưới
x
i
< Cận trên
Ví dā 4. Năng suất (tạ/ha) của một loại cây thu hoạch đ°ợc tại 40 vùng nh° sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179
Với
max min
40 , 179 , 153n X Xý ý ý
, ta số nhóm
3
2.40 4,3 4k ý ý
, khoảng cách
giữa các nhóm
179 153
6,5
4
h
ý ý
.
Nếu chọn h = thì các nhóm đ°ợc lập nh° sau: 157 2 159, 159 166, 166 173,
173 180. Ta có bảng tần số là:
Năng suất
Tần số
Tần suất (%)
152 - 159
5
12,5
159 - 166
19
47,5
166 - 173
9
22,5
173 - 180
7
17,5
Táng
40
100
Lưu ý: Một số đißu kiện phải tuân thủ khi phân nhóm:
- Các nhóm không đ°ợc trùng nhau, mỗi giá trị chỉ thuộc vß một nhóm.
- Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mÁu số liệu.
- Không có nhóm rỗng (tức là nhóm không có phần tử nào).
Ví dā 5. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tißn (triệu đßng) bán đ°ợc trong
ngày của các cửa hàng đ°ợc ghi lại nh° sau:
57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7
41,1 45,8 47,2 46,9 56,9 4,5 38,8 50,3 37,6 38,9
52,3 49,2 47,5 47 49,6 46,2 49,8 36,8
Theo kinh nghiệm ng°ßi ta thấy rằng chia 6 nhóm mới hợp nên ta chọn k = 6. Ta có
giá trị nhỏ nhất là 36,8; giá trị lớn nhất là 57,8. Do đó ta tì đ°ợc m
57,8 36,8
3,5 4
6
h
ý ý
.
Nếu chọn nhóm thứ nhất bắt đầu từ 36,8 thì số khá lẻ nên ta có thá bắt đầu từ 36.
Mặt khác, các số liệu trong mÁu cũng lnên ta cho giới hạn trên và giới hạn d°ới của hai
nhóm kế tiếp với quy °ớc khi một giá trị bằng giới hạn trên của một trùng nhau
Trang 8
nhóm thì đ¡n vị đó đ°ợc xếp vào nhóm kế tiếp, nghĩa ta các khoảng: [36 40),
[40 44), [44 48), [48 52), [52 56), [56 60).
Khi đó ta có bảng tần số sau đây:
Tißn bán hàng (triệu đßng)
Tần số
Tần suất (%)
36 40
4
14,3
40 44
4
14,3
44 48
7
25
48 52
7
25
52 56
3
10,7
56 60
3
10,7
Táng
28
100
Chú ý. Trong bảng tần số đôi khi ng°ßi ta còn thêm vào cột tần số tích luỹ (hoặc tần suất
tích luỹ) thá hiện số lần quan sát (hoặc % số lần quan sát) cộng dßn đến giới hạn trên của
một nhóm nào đó. Nói cách khác, tần số tích luỹ cho thấy bao nhiêu quan sát bằng
hoặc nhỏ h¡n một trị số nào đó của biến khảo sát.
Ví dā 6. (Tiếp ví dụ 5) Ta có bảng tần suất tích luỹ sau đây. Từ bảng ta thấy có 15 cửa
hàng, chiếm 53,6%, có số tißn bán hàng trong ngày d°ới 48 triệu đßng.
Tißn bán hàng (triệu đßng)
Tần số
Tần suất (%)
Tần suất tích luỹ(%)
36 40
4
14,3
14,3
40 44
4
14,3
28,6
44 48
7
25
53,6
48 52
7
25
78,6
52 56
3
10,7
89,3
56 60
3
10,7
100
Táng
28
100
(3) Phân nhóm mở
Ngoài cách phân nhóm nh° trên ta còn thá phân nhóm má, trong đó nhóm đầu tiên
không có giới hạn d°ới và nhóm cuối cùng không có giới hạn trên, các nhóm còn lại
khoảng cách đßu hoặc không đßu. Mục đích của phân nhóm má là đá nhóm đầu tiên và
nhóm cuối cùng chứa đ°ợc các đ¡n vị có giá trị đột biến và tránh việc lập quá nhißu tá.
Khi tính toán đối với phân nhóm mở người ta quy ước lấy khoảng cách của nhóm mở
bằng khoảng cách của nhóm gần nó nhất.
Ví dā 7. Bảng năng suất lúa của một số hộ gia đình nh° sau:
Năng suất lúa (tạ/ha)
Số gia đình
<30
5
35 40
10
40 45
20
45 50
12
50ó
3
Táng
50
Nhóm < 30 (tạ/ha) đ°ợc quy °ớc có h = 5.
Trang 9
c) Cách lập bảng tần số kết hợp hai đặc điểm thống kê
Bảng tần số có thá có dùng đá mô tả hai đặc điám thống kê.
8. Bảng d°ới đây mô tả kết hợp hai đặc điám là độ tuái và khu vực c° trú của 7584
thanh niên trong cuộc đißu tra vß vị thành niên và thanh niên Việt Nam.
Bảng 1. Khu vực c° trú của thanh niên trong mÁu đißu tra phân tách theo nhóm tuái.
Thanh niên trong
mÁu đißu tra
Nhóm tuái
14 17
18 21
22 25
Tần số
(ng°ßi)
Tần suất
(%)
Tần số
(ng°ßi)
Tần suất
(%)
Tần số
(ng°ßi)
Tần
suất
(%)
Khu
vực
Thành thị
1020
31,6
919
36,12
723
39,9
Nông
thôn
2208
68,4
1625
63,88
1089
60,1
Táng
3228
100
2544
100
1812
100
Ngoài ra bảng kết hợp này còn có thá đ°ợc xoay theo chißu khác, hoặc tách riêng thông
tin vß tần số, tần suất thành hai bảng riêng biệt.
Bảng 2. Nhóm tuái của thanh niên trong mÁu đißu tra phân tách theo khu vực c° trú.
Thanh niên trong
mÁu đißu tra
Khu vực
Thành thị
Nông thôn
Tần số
(ng°ßi)
Tần suất
(%)
Tần số
(ng°ßi)
Tần suất
(%)
Nhóm tuái
14 17
1020
38,32
2208
44,86
18 21
919
34,52
1625
33,02
22 - 25
723
27,16
1089
22,12
Táng
2662
100
4922
100
2. Đß thã thßng kê các lo¿i
a) Đồ thị thống kê cho dữ liệu định lượng
(1) Biểu đồ phân phối tần số
Biáu đß phân phối tần số (Histogram) đ°ợc sử dụng đá chuyán hoá thông tin trên bảng
tần số thành hình ảnh trực quan. Đây một loại đß thị biáu diễn sự phân phối tần số bằng
các cột sao cho diện tích của cột tỉ lệ với tần số.
9. Biáu đß phân phối tần số của bảng tần số á dụ 4 nh° sau. (Trục hoành thá
hiện biến khảo sát năng suất. Trục tung thá hiện tần số). -
Năng suất
Tần số
Tần suất (%)
152 - 159
5
12,5
159 - 166
19
47,5
166 - 173
9
22,5
173 - 180
7
17,5
Táng
40
100
Trang 10
(2) Đa giác tần số
Ph°¡ng pháp thứ hai đá biáu diễn phân phối tần số bằng đß thị là dùng đa giác tần số.
Đá vẽ đa giác này, ta nối các trung điám của cạnh đỉnh các cột trong Histogram lại với
nhau bằng các đoạn thẳng. Muốn đ°ßng biáu diễn không có vẻ l¡ lửng trên không, ta
thêm vào hai bên của Histogram hai nhóm có tần số bằng 0.
Ví dā 10. Đa giác tần số của ví dụ có dạng sau đây9 :
(3) Biểu đồ nhánh và lá
Biáu đß nhánh và lá (còn gọi là biáu đß thân và lá) là một công cụ đá tóm l°ợc và trình
bày tập dữ liệu, giúp ng°ßi xem thấy đ°ợc dliệu gốc và cách thức phân tán . Đá trình
bày dữ liệu theo ph°¡ng pháp nhánh và lá, mỗi trị số đ°ợc tách thành hai phần:
- Phần nhánh: bao gßm một hay nhißu chữ số đầu tiên đ°ợc đặt á cột đầu . Phần nhánh
tiên theo thứ tự tăng dần. Số nhánh đ°ợc chọn sao cho có ít nhánh so với số quan sát (số
lá). Thông th°ßng số nhánh trong khoảng từ 5 đến 20 là vừa.
- Phần lá: gßm các chsố còn lại. á một nhánh cũng sắp xếp theo thứ tự tăng
dần.Cũng có thá chia đôi một nhánh thành nhánh trên và nhánh d°ới có quá nhißu lá.khi
Ví dā 11. Số liệu vß chißu dài (cm) của 40 sản ph¿m nh° sau:
5
9
7
19
0
2
4
6
8
10
12
14
16
18
20
Năng suất
Tần số
152 - 159 159 - 166 166 - 173 173 - 180
0
2
4
6
8
10
12
14
16
18
20
Năng suất
Tần số
152 - 159
159 - 166
166 - 173
173 - 180
Biáu đß phân phối tần số
Trang 11
30,0 30,4 30,2 30,1 30,0 31,0 30,9 30,0 31,0 31,0
32,0 31,2 30,4 30,8 30,9 31,2 31,2 32,0 30,4 30,3
30,5 30,7 31,1 32,0 30,1 30,4 30,5 31,2 31,8 30,9
30,5 31,2 32,0 31,3 31,0 31,4 30,3 30,9 31,0 30,8
Tr°ớc hết các trị số sẽ đ°ợc chia thành hai phần: nhánh và lá.
Chẳng hạn, số 30,4 có thá chia thành hai phần: 30 l à nhánh, 4 là lá.
Nh° vậy, ta xem phần nhánh gßm các chữ số nằm bên trái dấu ph¿y, phần lá gßm các chữ
số nằm bên phải dấu ph¿y. Biáu đß nhánh và lá đ°ợc hình thành nh° sau.
Chieu dai Stem-and-Leaf Plot
Frequency Stem&Leaf
12.00 30 . 000112334444
10.00 30 . 5557889999
13.00 31 . 0000012222234
1.00 31 . 8
4.00 32 . 0000
Stem width: 1 cm
Each leaf: 1 case(s)
Từ biáu đß trên ta dễ dàng thấy chißu dài sản ph¿m thay đái trong khoảng từ 30 đến 32
cm; 22 sản ph¿m có chißu dài trong khoảng từ 30 đến d°ới 31 cm; 14 sản ph¿m
chißu dài từ 31 đến d°ới 32 cm; 4 sản ph¿m có chißu dài là 32 cm.
Khi số l°ợng quan sát trong tập dữ liệu lên đến hàng trăm thì biáu đß thân lá lại làm ng°ßi
xem rối mắt, khi đó bảng tần số hay Histogram tỏ ra phù hợp h¡n.
b) Đồ thị thống kê cho dữ liệu định tính
(1) Biểu đồ dạng thanh ( : Bar Chart thanh đứng hay thanh ngang)
Trên biáu đß này, mỗi thanh đại diện một phân loại của biến (đặc điám thống kê) mà ta
quan tâm, chißu dài của thanh thá hiện tần số của các quan sát thuộc vß phân loại đó. Còn
chißu rộng của các thanh bằng nhau.
Ví dā 12.
2000
2001
2002
2003
2004
100
200
300
400
500
600
700
0
Kim ng xu t khạch ¿u (tri USD) ệu
Vit Nam Hàn Qu c giai 2000 - 2004 đoạn
(Ngußn: Tạp chí Phát trián kinh tế, tháng 12/2005)
Trang 12
Không nên nhầm lÁn giữa Histogram với biáu đß thanh đứng. Đây là hai công cụ thống
khác nhau, thá hiện hai loại dữ liệu định l°ợng, định tính. Giữa các thanh của
Histogram không khoảng cách, còn giữa các thanh của biáu đß dạng thanh phải
khoảng cách vì mỗi thanh là một biáu hiện của biến phân loại.
(2) Biểu đồ hình tròn th°ßng dùng đá mô tả kết cấu (%) của vấn đß đang nghiên cứu.
Ví dā 13. Biáu đß hình tròn d°ới đây mô tả tỉ lệ % sinh viên theo học các ngành của một
tr°ßng đại học ứng với bảng tần số nh° sau:
Ngành học
Số sinh viên (Tần số)
Tỉ lệ (Tần suất) (%)
Kinh tế
48
9,6
Kế toán
158
31,6
Ngân hàng
90
18
QTKD
124
24.8
Th°¡ng mại
80
16
Táng
500
100
2000
2001
2002
2003
2004
1000
2000
3000
4000
5000
0
Kim ng xu t kh u ạch ¿
Kim ng nh kh u ạch ập ¿
Kim ng xu t nh kh u (tri USD) ạch ập ¿ ệu
Vit Nam Hàn Qu c giai 2000 2004 đoạn
Trang 13
Trên biáu đß, toàn bộ diện tích hình tròn đ°ợc chia thành nhißu mảnh nhỏ hình rẻ quạt,
diện tích mỗi mảnh t°¡ng ứng với tỉ lệ của phân loại đại diện trong toàn thá
mang một màu khác nhau. Thứ tự của các phân loại (theo chißu kim đßng hß) là thứ tự
nó đ°ợc sắp xếp trong bảng táng hợp.
BÀI TÂP CH¯¡NG II
2.1. Đá kiám tra chất l°ợng sản ph¿m, ng°ßi ta tiến hành đo chißu dài (cm) của 40 sản
ph¿m, kết quả thu đ°ợc nh° sau:
20,0 20,3 20,2 20,1 20,0 20,9 20,5 21,0 21,0 21,0
22,0 21,2 20,4 20,8 20,9 21,2 21,2 22,0 20,4 22,3
20,6 20,7 21,0 22,0 20,1 20,4 20,5 21,2 21,8 20,9
20,5 21,2 22,0 21,3 21,0 21,4 20,3 20,9 21,0 20,8
a) Hãy trình bày các số liệu trên theo ph°¡ng pháp nhánh và lá (chọn nhánh là chữ số 2
đầu).
b) Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất và tính
tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.2. Trong ch°¡ng trình quốc gia nghiên cứu thá chất của ng°ßi Việt Nam, số liệu
chißu cao (cm) của một số thanh niên tại một địa ph°¡ng ghi nhận đ°ợc nh° sau:
164 155 160 162 172 171 162 160 162 159
160 158 166 172 158 163 165 164 161 158
160 170 168 157 168 166 160 162 163 167
171 164 167 158 159 160 163 167 168 159
160 162 170 168 164 160 168 165 165 160
Hãy p nh 5 nhóm có hân lớp dữ liệu trên thà khoảng cách đßu nhau, lập bảng tần số, tần
suất. Tính tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.3. Đißu tra doanh số hàng tháng (triệu đßng) của 25 doanh nghiệp, ta thu đ°ợc các số
liệu sau: 97, 93, 94, 108, 102, 102, 103, 100, 115, 116, 111, 117, 117, 116, 117, 113, 115,
123, 129, 124, 122, 128, 122, 132, 130.
a) Hãy trình bày số liệu theo ph°¡ng pháp nhánh và lá (lấy chữ số hàng đ¡n vị làm lá).
b) Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất. Tính
tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.4. Kiám tra độ bßn (giß) của một loại bóng đèn, kết quả quan sát đ°ợc trình bày theo
nhánh và lá nh° sau:
Stem Leaf
10 10, 18, 12, 15, 16
11 20, 30, 25, 40, 35, 38, 42
12 00, 15, 12, 20, 18, 25, 45, 50
13 10, 20, 30, 22, 40, 50, 60, 70, 55, 80
14 15, 20, 25, 22, 30, 40
Stem width: 100.0
Each leaf: 1 case(s)
Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất. Tính tần
số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
Trang 14
2.5. Năm 2008 một tr°ßng đại học tuyán sinh viên vào học 5 ngành với số l°ợng nh°
sau: toán 210 sinh viên, lí 120, hóa 84, văn 250, xã hội 336. Hãy lập biáu đß thanh (đứng
hoặc ngang) và biáu đß hình tròn chỉ tỉ lệ sinh viên theo học các ngành đó.
CH¯¡NG III. TÓM TÄT DĀ LIÞU
BÆNG CÁC Đ¾I L¯þNG THÞNG KÊ MÔ TÀ
Đối với dữ liệu định l°ợng, chúng ta có thá tóm tắt tốt h¡n khi số l°ợng dữ liệu lớn, đó
dùng các đại l°ợng thống tả. Các đại l°ợng này đ°ợc chia thành hai nhóm: nhóm
các đại l°ợng thá hiện mức độ tập trung của dữ liệu và nhóm thá hiện độ phân tán của dữ
liệu.
à nhóm thứ nhất ta có trung bình cộng °ợc sử dụng nhißu nhất), mốt, trung vị. à nhóm
thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình quân, ph°¡ng sai, độ lệch chu¿n
(đ°ợc sử dụng nhißu nhất) và hệ số biến thiên.
III.1. CÁC Đ¾C TR¯NG ĐO L¯âNG KHUYNH H¯àNG TÂP TRUNG
1. Trung bình cßng (Arithmetic mean)
Trung bình cộng đ°ợc xác định bằng cách cộng tất cả các giá trị của từng phần tử (các
quan sát), sau đó đem chia cho táng số phần tử (táng số quan sát).
hai loại trung bình cộng là trung bình cộng đ¡n giản (mean) trung bình cộng có
trọng số (weighted mean).
a) Trung bình cßng đ¢n giÁn
- Trung bình tổng thể: Giả sử táng thá N phần tử (quan sát),
i
X
giá trị của phần
tử thứ . Khi đó trung bình cộng của táng thá là i
1
1
N
i
i
X
N
ý
ý
õ
. (1)
- Trung bình mẫu: Giả sử mÁu có n phần tử (hay còn nói cỡ mÁu là n), khi đó trung
bình cộng của mÁu (hay trung bình mÁu) là
1
1
n
i
i
X X
n
ý
ý
õ
. (2)
Ví dā 1. Điám thi môn Toán của 16 sinh viên là: 2, 4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7,
8. Áp dụng (2) ta có trung bình mÁu
2 4 ... 7 8
5,6875
16
X
ý ý
. Đây cũng chính
điám thi trung bình của 16 sinh viên này.
b) Trung bình cßng có trång tr°ßng hợp đặc biệt của trung bình cộng đ¡n giản khi
giá trị
i
X
xuất hiện nhißu lần. Giả sử giá trị
i
X
xuất hiện
i
f
lần, i = 1, 2, …, k (ta nói
i
f
là trọng số, hay tần số của giá trị
i
X
). Khi đó
1
1
k
i i
i
k
i
i
X f
X
f
ý
ý
ý
õ
õ
(3)
với
1
k
i
i
f n
ý
ý
õ
là số phần tử của mÁu.
Trang 15
Ví dā 2. Điám thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính điám thi
trung bình của nhóm sinh viên này.
Điám thi
0
1
2
3
4
5
6
7
8
9
10
Số SV
0
3
5
4
12
18
29
16
10
2
1
Áp dụng công thức (3) ta có
0.0 1.3 2.5 ... 9.2 10.1
5,57
0 3 5 ... 2 1
X
ý ý
.
Chú ý. Tr°ßng hợp dữ liệu phân nhóm có khoảng cách thì trung bình mÁu đ°ợc tính gần
đúng bái công thức
1
1
k
i i
i
k
i
i
x f
X
f
ý
ý
ý
õ
õ
(4)
với
max min
2
i i
i
X X
x
ý
trị số giữa của nhóm i (
max min
,
i i
X X
giới hạn trên, giới hạn
d°ới của nhóm i) và
i
f
là tần số của nhóm i.
Ví dā 3. Trong một đợt sản suất ng°ßi ta chọn 50 sản ph¿m và ghi nhận khối l°ợng. Sản
ph¿m đ°ợc phân nhóm theo khối l°ợng nh° sau:
Khối l°ợng (gam)
Trị số giữa (
i
x
)
Số sản ph¿m (
i
f
)
484 490
487
5
490 496
493
10
496 502
499
15
502 508
505
13
508 514
511
7
Cộng
50
Áp dụng (4), ta có trung bình mÁu là
ø ù
1
487.5 493.10 ... 511.7 499,84
50
X ý ý
.
c) Đ¿c đißm căa trung bình cßng
- Trung bình cộng th°ßng rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá
nhỏ), giá trị trung bình sẽ kém tiêu biáu nếu trong dãy số có các giá trị đột biến.
- Trung bình cộng đ°ợc sử dụng đá so sánh giữa hai hay nhißu táng thá.
- Táng độ lệch giữa các giá tr
i
X
với trung bình cộng
X
bằng 0, nghĩa là
ø ù
1
0
n
i
i
X X
ý
ý
õ
.
2. Mßt (Mode)
a) Khái nißm
Mốt là giá trị xuất hiện nhißu nhất trong một dãy số, kí hiệu là
o
M
.
b) Cách xác đãnh mßt
(1) Trường hợp dữ liệu không phân nhóm: Mốt là giá trị có tần số lớn nhất.
Ví dā 4. Xem lại bảng dữ liệu á ví dụ 2, ta có
6
o
M ý
, vì điám 6 có tần số lớn nhất.
Trang 16
(2) Trường hợp dữ liệu phân nhóm có khoảng cách đều nhau: Tr°ớc hết cần xác định
nhóm chứa mốt là nhóm có tần số lớn nhất. Trị số của mốt đ°¡c xác định gần đúng bái
công thức:
1
min
1 1
.
( ) ( )
o o
o o
o o o o
M M
o M M
M M M M
f f
M X h
f f f f
ý
(5)
trong đó
min
o
M
X
là giới hạn d°ới của nhóm chứa
o
M
;
o
M
h
là khoảng cách của nhóm
chứa
o
M
;
1
o
M
f
là tần số của nhóm đứng tr°ớc nhóm chứa
o
M
;
o
M
f
tần số của nhóm
chứa
o
M
;
1
o
M
f
là tần số của nhóm đứng sau nhóm chứa
o
M
.
Ví dā 5. Tài liệu táng hợp vß doanh số bán hàng trong một tháng của 50 trạm xăng dầu
thuộc tỉnh X nh° sau:
Doanh số bán (triệu đßng)
Số trạm
200 300
8
300 400
10
400 500
20
500 600
7
600 700
5
Táng
50
Tính mốt của bảng dữ liệu đã cho.
Giải. Ta nhận thấy mốt á nhóm thứ ba, áp dụng (5), ta có
20 10
400 100. 443,48
(20 10) (20 7)
o
M
ý ý
(triệu đßng).
Nh° vậy. đa số các trạm xăng của tỉnh đó doanh số bán hàng trong một tháng là 443,48
(triệu đßng).
Ví dā 6. Tính mốt của bảng dữ liệu cho á ví dụ 3.
(3) Trường hợp dữ liệu phân nhóm có khoảng cách không đều: (Phần đọc thêm)
Mốt vẫn được tính theo công thức (5) nhưng việc xác định nhóm mốt không căn cứ
vào tần số mà căn cứ vào mật độ phân phối. (Mật độ phân phối = Tần số : khoảng cách
nhóm).
Ví dụ 7. Có tài liệu tổng hợp về doanh thu của 79 cửa hàng như sau:
Doanh thu (triệu đồng)
Cửa hàng
200 400
8
400 500
12
500 600
25
600 800
25
800 1000
9
Tổng
79
Tính mốt của bảng dữ liệu đó.
Giải. Ta lập bảng tính thêm khoảng cách và mật độ phân phối của các nhóm:
Trang 17
Doanh thu
(tr.đ)
Cửa hàng (
i
f
)
Khoảng cách nhóm (
i
h
)
Mật độ phân phối
i
i
i
f
d
h
ý
200 400
8
200
0,04
400 500
12
100
0,12
500 600
25
100
0,25
600 800
25
200
0,125
800 1000
9
200
0,045
Tổng
79
Từ bảng suy ra mốt ở vào nhóm thứ ba vì có mật độ phân phối lớn nhất. Áp dụng công
thức (5) nhưng thay tần số bởi mật độ phân phối, ta được
0,25 0,12
500 100. 550,9
(0,25 0,12) (0,25 0,1 25)
o
M
ý ý
(triệu đồng).
c) Đ¿c đißm căa mßt
- Mốt đặc tr°ng đo l°ßng khuynh h°ớng tập trung không bị ảnh h°áng bái các
giá trị đột biến.
- Mốt có thá xác định cho dữ liệu sử dụng các thang đo khác nh° thang đo định danh,
thang đo thứ bậc.
- Khác với trung bình cộng và trung vị, một tập dữ liệu có thá không xác định đ°ợc
mốt vì không có giá trị nào xuất hiện nhißu nhất. Ng°ợc lại, có một số tr°ßng hợp
có nhißu mốt.
Ví dā 8. Tính mốt của bảng dữ liệu sau đây:
Chißu cao (cm)
Số thanh niên
148 154
30
154 170
69
170 180
37
180 185
4
Táng
140
3. Trung vã (Median)
Trong một tập dữ liệu đã đ°ợc sắp xếp theo thứ tự tăng dần thì trung vị, hiệu
e
M
, là
giá trị đứng giữa của tập dữ liệu. Nói cách khác, trung vị chia dãy số làm hai phần, mỗi
phần có số đ¡n vị táng thá bằng nhau.
a) Cách xác đãnh trung vã
(1) Xác định trung vị cho dữ liệu không phân nhóm
- Tr°ßng hợp số phần tử của mÁu n là số lẻ:
1
2
e n
M X
ý
(trung vị là giá trị đứng giữa ,
tức là á vị trí thứ
1
2
n
trong dãy các giá trị tăng dần của mÁu số liệu.
- Tr°ßng hợp n là số chẵn:
1
2 2
2
n n
e
X X
M
ý
(trung vị là trung bình cộng của hai giá trị
đứng giữa trong dãy số trên).
Ví dā 9. a) Trong dãy số liệu 4, 6, 7, 9, 10, 13, 18, 19, 21 (có 9 phần tử), thì số đứng giữa
là 10 (á vị trí thứ 5) nên
10
e
M ý
.
Trang 18
b) Trong dãy số 1, 2, 4, 5, 6, 9, 10, 15, 18, 20 (có 10 phần tử) thì hai số đứng giữa là 6
9 (á vị trí thứ 5 và thứ 6) nên
6 9
7,5
2
e
M
ý ý
.
Ví dā 10. Tính trung bình cộng và trung vị của dãy số liệu sau
a) 12,4 14,6, 13,1 16,8 16,5 16,2 17,4 17,5 13,6 14,9 13,2 12,8.
b) 144,3 98,7 89,5 123,4 146,0 138,8 154,1 145,7 136,3 147,9 139,2.
(2) Xác định trung vị cho dữ liệu phân nhóm có khoảng cách
Với dữ liệu đã phân nhóm, trung vị đ°ợc xác định một cách xấp xỉ qua các b°ớc sau:
Bước 1. Tính tần số tích luỹ.
Bước 2. Xác định nhóm chứa trung vị là nhóm có tần số tích luỹ nhỏ nhất lớn h¡n hoặc
bằng
1
2
n
.
Bước 3. Áp dụng công thức
1
min
2
.
e
e e
e
M
e M M
M
n
S
M X h
f
ý
(6)
trong đó
min
e
M
X
giới hạn d°ới của nhóm chứa
e
M
;
e
M
h
khoảng cách của nhóm
chứa
e
M
;
1
e
M
S
tần số tích luỹ của nhóm đứng tr°ớc nhóm chứa
e
M
;
e
M
f
tần số
của nhóm chứa
e
M
.
Ví dā 11. Tính trung vị của mÁu dữ liệu cho á ví dụ 3.
Giải. Bước 1. Tính tần số tích luỹ
Khối l°ợng (gam)
Số sản ph¿m (
i
f
)
Tần số tích luỹ (
i
S
)
484 490
5
5
490 496
10
15
496 502
15
30
502 508
13
43
508 514
7
50
Cộng
50
Bước 2. Xác định nhóm chứa trung vị
Ta có tần số tích luỹ của nhóm thứ ba là
50 1
30
2
þ
nên đó là nhóm chứa
e
M
.
Bước 3. Tính trung vị
min
e
M
X
= 496,
e
M
h
= 6,
1
e
M
S
= 15,
e
M
f
= 15, n = 50 nên
50
15
2
496 6. 500
15
e
M
ý ý
.
b) Đ¿c đißm căa trung vã
- Trung vị là trị số duy nhất có thá xác định đ°ợc trong một dãy số.
- Trung vị là đặc tr°ng đo l°ßng khuynh h°ớng tập trung không bị ảnh h°áng bái các giá
trị đột biến.
- Trung vị có thá tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng, thứ bậc.
Ví dā 12. Tính trung bình cộng và trung vị của bảng dữ liệu cho á ví dụ 5.
Trang 19
3. Tą phân vã thÃp phân vã (Phần đåc thêm)-
Tứ phân vị, thập phân vị chỉ tiêu đo lường độ phân tán chứ không phải chỉ tiêu đo
lường khuynh hướng tập trung. Tuy nhiên, cách tính của chúng tương tự cách tính
trung vị, hơn nữa phân vị thứ hai của tứ phân vị chính là trung vị, nên ta kết hợp xét tứ
phân vị và thập phân vị trong mục này.
a) Tứ phân vị chia dãy số lượng biến thành bốn phần, mỗi phần có số đơn vị bằng nhau.
Cách xác định tứ phân vị:
(1) Đối với dữ liệu không phân nhóm: dãy số lượng biến có ba tứ phân vị là
-
1
Q
: Tứ phân vị thứ nhất là lượng biến đứng ở vị trí thứ
1
4
n
.
-
2
Q
: Tứ phân vị thứ hai chính là số trung vị, đứng ở vị trí
2( 1) 1
4 2
n n
ý
.
-
3
Q
: Tứ phân vị thứ ba là lượng biến đứng ở vị trí thứ
3( 1)
4
n
.
Nếu
1n
không chia hết cho 4 thì tứ phân vị được xác định bằng cách thêm vào. Chẳng
hạn, với n = 12 (đơn vị), ta
1 1 3( 1) 3
3 , 9
4 4 4 4
n n
ý ý
. Do đó, tứ phân vị thứ nhất
bằng lượng biến ở vị trí thứ ba cộng với 1/4 giá trị chêch lệch giữa lượng biến ở vị trí
thứ ba và thứ tư. Còn tứ phân vị thứ ba bằng lượng biến ở vị trí thứ chín cộng với 3/4
giá trị chênh lệch giữa lượng biến ở vị trí thứ chín và thứ mười.
Ví dụ 13. Cho dãy số: 0,9 1,2 1,4 1,5 1,8 2,0 2,4 2,7 3,1 3,3 3,8
số phần tử n = 11 nên
1 2( 1) 3( 1)
3 ; 6 ; 9
4 4 4
n n n
ý ý ý
. Do đó tứ phân vị thứ
nhất là số ở vị trí thứ ba trong dãy số trên, trung vị là số ở vị trí thứ sáu, tứ phân vị thứ
ba là số ở vị trí thứ chín. Vậy
1 2 3
1,4 ; 2,0 ; 3,1Q Q Qý ý ý
.
Ví dụ 14. Cho dãy số: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 có số phần
tử là n = 8 nên
1 1 2( 1) 1 3( 1) 3
2 ; 4 ; 6
4 4 4 2 4 4
n n n
ý ý ý
. Do đó
1
2
3
1
1900 (2000 1900) 1925
4
1
2100 (2200 2100) 2150
2
3
2500 (2700 2500) 2650
4
Q
Q
Q
ý ý
ý ý
ý ý
Ví dụ 15. Tính các tứ phân vị của dãy số cho ở ví dụ 10.
(2) Đối với dữ liệu phân nhóm có khoảng cách:
1 3
1 1 3 3
1 3
1 1
1 min 3 min
3
4 4
;
Q Q
Q Q Q Q
Q Q
n n
S S
Q X h Q X h
f f
ý ý
(7)
trong đó
min
i
Q
X
là giới hạn dưới của nhóm chứa
i
Q
;
i
Q
h
là khoảng cách của nhóm chứa
i
Q
;
1
i
Q
S
là tần số tích luỹ của nhóm đứng trước nhóm chứa
i
Q
;
i
Q
f
là tần số của nhóm
chứa
i
Q
.
Ví dụ 16. Tính các tứ phân vị của bảng dữ liệu sau đây
Trang 20
Doanh thu (triệu đồng)
Số cửa hàng (
i
f
)
Tần số tích luỹ (
i
S
)
200 400
8
8
400 500
12
20
500 600
25
45
600 800
25
70
800 1000
9
79
Tổng
79
Tứ phân vị thứ nhất chứa trong nhóm có tần số tích luỹ bằng
1
20
4
n
ý
; tứ phân vị thứ
ba chứa trong nhóm có tần số tích luỹ bằng
3( 1)
60
4
n
ý
.
1 3
79 3.79
8 45
4 4
400 100. 497,92 ; 600 200. 714
12 25
Q Q
ý ý ý ý
.
Ví dụ 17. Tính các tứ phân vị của bảng dữ liệu cho ở ví dụ 7.
b) Thập phân vị chia dãy số lượng biến thành mười phần, mỗi phần có số đơn vị bằng
nhau.
Cách tính thập phân vị tương tự cách tính tứ phân vị. Ta có công thức sau đây
1 2
1 1 2 2
1 2
1 1
1 min 2 min
2
10 10
; ; ...
D D
D D D D
D D
n n
S S
D X h D X h
f f
ý ý
(8)
Tứ phân vị, thập phân vị được sử dụng trong thực tế khi người ta muốn biết mức đạt cao
nhất của ¼ hay 1/10 số đơn vị xếp từ thấp lên, hoặc mức đạt thấp nhất của ¼ hay
1/10 số đơn vị tiến tiến xếp từ trên xuống.
III.2. CÁC Đ¾C TR¯NG ĐO L¯âNG ĐÞ PHÂN TÁN
Số trung bình, số trung vị và mốt mới chỉ cho ta biết đ°ợc giá trị trung tâm, mức độ đại
diện của hiện t°ợng ch°a phản ánh đầy đủ các tính chất đặc thù của dãy số l°ợng
biến. Do vậy, ngoài các đặc tr°ng đo l°ßng khuynh h°ớng tập trung, ta cần đánh giá độ
phân tán (độ biến thiên) của dữ liệu.
Ví dā 1. Có hai tá công nhân, mi tá có 5 ng°ßi với mức năng suất lao động nh° sau:
- Tá I: 200, 250, 300, 350, 400
- Tá II: 280, 290, 300, 310, 320
Rõ ràng năng suất lao động trung bình của hai nh° nhau, tuy nhiên các mức năng
suất lao động của tá I chênh lệch nhau nhißu h¡n tá II nên số trung bình của tá I kém đại
diện h¡n so với tá II.
Ng°ßi ta sử dụng các chỉ tiêu sau đá đo độ phân tán của hiện t°ợng: khoảng biến thiên,
tứ phân vị, độ trải giữa, độ lệch tuyệt đối trung bình, ph°¡ng sai, độ lệch tiêu chu¿n.
1. KhoÁng bi¿n thiên (Range), hiệu
R
, chênh lệch iữa giá trị lớn nhất giá trị g
nhỏ nhất của dãy l°ợng biến:
max min
R X Xý
(1)
Khoảng biến thiên càng nhỏ thì táng thá càng đßng đßu, số trung bình càng tính đại
diện cao và ng°ợc lại.
Nh°ợc điám của khoảng biến thiên chỉ phụ thuộc vào giá trị lớn nhất giá trị nhỏ
nhất của dãy l°ợng biến.
| 1/67

Preview text:

BÀI GIÀNG NGUYÊN LÝ THÞNG KÊ
(Nm håc 2017 2018. Tr°ãng Đ¿i håc Hoa Sen)
CH¯¡NG I. GIàI THIÞU MÔN HäC
I.1. KHÁI NIÞM VÀ CHĄC NNG CĂA THÞNG KÊ 1. Khái nißm
Có thá hiáu khái niệm thống kê trên hai góc độ:
- Góc độ lí luận: Thống kê là một môn khoa học kinh tế, nghiên cứu mặt l°ợng trong
mối liên hệ chặt chẽ với mặt chất của các hiện t°ợng và quá trình kinh tế xã hội, phát
sinh trong đißu kiện thßi gian và địa điám cụ thá.
- Góc độ nghiệp vụ: Thống kê có thá hiáu là các số liệu thá hiện thông tin vß đối t°ợng nghiên cứu.
Một cách táng quát, có thá định nghĩa Thống kê là một nhánh của toán học liên quan
đến việc thu thập, phân tích và trình bày các dữ liệu. Đây là một khoa học bao gßm một
hệ thống các ph°¡ng pháp từ việc thu thập, trình bày, tóm tắt dữ liệu đến các ph°¡ng
pháp phân tích và dự đoán, giúp các nhà quản lí đ°a ra các quyết định.
2. Chąc nng căa thßng kê
Quá trình nghiên cứu thống kê trải qua ba giai đoạn có quan hệ chặt chẽ và mật thiết với
nhau, trong đó giai đoạn tr°ớc làm tißn đß đá thực hiện giai đoạn sau.
(1) Giai đoạn đißu tra thống kê: bao gßm ghi chép, thu thập tài liệu thống kê.
(2) Giai đoạn táng hợp và trình bày kết quả đißu tra thu thập đ°ợc.
(3) Giai đoạn phân tích và dự báo thống kê.
Nh° vậy, thống kê có hai lĩnh vực:
- Thống kê mô tả bao gßm các ph°¡ng pháp thu thập, trình bày dữ liệu và tính toán
các đặc tr°ng nhằm mô tả đối t°ợng nghiên cứu.
- Thống kê suy diễn bao gßm các ph°¡ng pháp mô hình hoá trên các dữ liệu quan sát
đá đ°a ra các suy diễn vß tập hợp các đ¡n vị đ°ợc nghiên cứu.
Thống kê mô tả và thống kê suy diễn tạo thành thống kê ứng dụng, còn thống kê toán là
lĩnh vực nghiên cứu c¡ sá lí thuyết của khoa học thống kê.
I.2. CÁC KHÁI NIÞM C¡ BÀN
1. Táng thß, đ¢n vã táng thß, mÁu
Táng thá thống kê (hay táng thá) là tập hợp tất các các đối t°ợng mà ta nghiên cứu. Các
đ¡n vị (hay phần tử) tạo thành táng thá đ°ợc gọi là đ¡n vị táng thá. MÁu là một bộ phận lấy ra từ táng thá.
Ví dā 1. a) Đá nghiên cứu điám trung bình môn Toán của sinh viên Tr°ßng Đại học Hoa
sen, ng°ßi ta đã xét bảng điám của 250 sinh viên.
b) Nghiên cứu tỉ lệ bị bệnh lao á tỉnh Lào cai, ng°ßi ta đã khám cho 1520 ng°ßi thì thấy có 7 ng°ßi bị lao.
Hãy chỉ ra táng thá, đ¡n vị táng thá và mÁu trong hai tr°ßng hợp trên. 2. Bi¿n
Biến là đặc điám của đ¡n vị táng thá, đ°ợc chia thành hai loại:
- Biến định tính thá hiện tính chất của đ¡n vị đ°ợc khảo sát;
- Biến định l°ợng thá hiện bằng các số. Trang 1
Ví dā 2. Hãy chỉ ra biến định tính và biến định l°ợng của ví dụ 1. 3. Dā lißu
Dữ liệu là kết quả quan sát đ°ợc của các biến, giá trị nhận đ°ợc có thá thay đái từ đ¡n vị
này sang đ¡n vị khác. Dữ liệu cũng đ°ợc phân biệt thành hai loại: dữ liệu định tính và dữ liệu định l°ợng.
Ví dā 3. Điám thi môn Toán của từng sinh viên và kết quả âm tính (hay d°¡ng tính) khi
xét nghiệm lao của từng ng°ßi trong ví dụ 1 là dữ liệu gì?
4. Đ¿c đißm thßng kê
Đặc điám thống kê là khái niệm dùng đá chỉ các đặc điám của đ¡n vị táng thá mà ta nghiên cứu.
Ví dā 4. Khi nghiên cứu nhân kh¿u thì mỗi nhân kh¿u có các đặc điám nh°: giới tính, độ
tuái, trình độ học vấn, nghß nghiệp, dân dộc, tôn giáo,…
Khi nghiên cứu doanh nghiệp thì mỗi doanh nghiệp có các đặc điám nh°: số l°ợng công
nhân, vốn cố định, vốn l°u động, giá trị sản xuất, năng suất làm việc của công nhân,…
Đặc điám thống kê đ°ợc chia thành hai loại:
a) Đặc điểm định tính là đặc điám phản ánh tính chất của đ¡n vị táng thá, không thá
hiện trực tiếp bằng các con số.
b) Đặc điểm định lượng (còn gọi là đặc điám số l°ợng) là đặc điám có biáu hiện trực tiếp bằng con số.
Ví dā 5. Hãy nêu đặc điám định tính và định l°ợng trong ví dụ 4.
Các trị số cụ thá khác nhau của đặc điám định l°ợng gọi là l°ợng biến.
Ví dā 6. Tuái là đặc điám định l°ợng nh°ng không phải là l°ợng biến, còn l°ợng biến là 18 tuái, 20 tuái,…
L°ợng biến có thá phân biệt thành hai loại:
- Lượng biến rời rạc là l°ợng biến mà các giá trị có thá có của nó là hữu hạn hoặc vô
hạn và có thá đếm đ°ợc.
- Lượng biến liên tục là l°ợng biến mà các giá trị có thá có của nó lấp kín cả một khoảng trên trục số.
Thông th°ßng, các giá trị của l°ợng biến liên tục là các số có cả phần nguyên và phần
thập phân, còn giá trị của l°ợng biến không liên tục là các số nguyên.
Ví dā 7. Số công nhân trong một xí nghiệp, chißu cao của các em bé lứa tuái mÁu giáo là l°ợng biến gì?
Các đặc điám định tính và định l°ợng chỉ có hai biáu hiện không trùng nhau trên một
táng thá đ°ợc gọi là đặc điểm nhị phân.
Ví dā 8. Đặc điám giới tính là đặc điám nhị phân vì chỉ có hai biáu hiện là nam và nữ.
Đối với các đặc điám có nhißu biáu hiện ta có thá chuyán vß đặc điám nhị phân bằng
cách rút gọn thành hai biáu hiện.
Ví dā 9. Thành phần kinh tế có thá chia thành nhà n°ớc và ngoài nhà n°ớc. Số công
nhân của các doanh nghiệp có thá chia thành ít h¡n 500 và từ 500 trá lên. Trang 2 5. Chá tiêu thßng kê
Chỉ tiêu thống kê là các trị số phản ảnh các đặc điám, các tính chất c¡ bản của táng thá
thống kê trong đißu kiện thßi gian và không gian xác định.
Chỉ tiêu thống kê có thá phân biệt thành hai loại: chỉ tiêu khối l°ợng và chỉ tiêu chất l°ợng.
a) Chỉ tiêu khối lượng là các chỉ tiêu biáu hiện sự quy mô của táng thá.
b) Chỉ tiêu chất lượng là các chỉ tiêu biáu hiện tính chất, trình độ phá biến, quan hệ so sánh trong táng thá.
Ví dā 10. Số nhân kh¿u, số doanh nghiệp, vốn cố định, vốn l°u động của một doanh
nghiệp,… là các chỉ tiêu khối l°ợng. Giá thành một đ¡n vị sản ph¿m là chỉ tiêu chất
l°ợng vì nó biáu hiện quan hệ so sánh giữa táng giá thành và số l°ợng sản ph¿m sản xuất
đ°ợc. T°¡ng tự, chỉ tiêu năng suất lao động, tißn l°¡ng,… là các chỉ tiêu chất l°ợng.
Các chỉ tiêu chất l°ợng mang ý nghĩa phân tích, các trị số của nó đ°ợc xác định chủ yếu
từ việc so sánh giữa các chỉ tiêu khối l°ợng.
CH¯¡NG II. THU THÂP VÀ TRÌNH BÀY DĀ LIÞU
II.1. THU THÂP DĀ LIÞU
1. Xác đãnh dā lißu cần thu thÃp
Quá trình nghiên cứu thống kê cần phải có nhißu dữ liệu. Việc thu thập dữ liệu đòi hỏi
nhißu thßi gian, công sức, chi phí. Do đó cần phải tiến hành thu thập dữ liệu một cách hệ
thống, đáp ứng đ°ợc mục tiêu nghiên cứu trong khả năng ngußn nhân lực, kinh phí và
thßi gian cho phép. Muốn vậy phải xác định rõ những dữ liệu nào cần thu thập, thứ tự °u
tiên của các dữ liệu này.
Ví dā 1. Nghiên cứu ảnh h°áng của đißu kiện ăn á, sinh hoạt đến kết quả học tập của
sinh viên. Có hai nhóm dữ liệu chính cần thu thập là:
(1) đißu kiện ăn á sinh hoạt; (2) kết quả học tập.
à nhóm (1) cần thu thập dữ liệu liên quan nh°: à với cha mẹ hay á kí túc xá, á trọ? Có
phòng riêng hay sống chung nhißu ng°ßi? Chỗ á cách tr°ßng bao xa? Chỗ á có ßn ào hay
không?... Ngoài ra còn có những dữ liệu khác vß đißu kiện ăn á nh°ng không liên quan
lắm đến kết quả học tập thì không cần thu thập, chẳng hạn: bàn học làm bằng sắt hay gỗ?
Nhà có phòng vệ sinh hiện đại không, có bßn tắm không?...
à nhóm (2) cần thu thập dữ liệu vß kết quả học tập của từng sinh viên. 2. Ngußn dā lißu
Khi nghiên cứu, ta có thá sử dụng các dữ liệu từ những ngußn có sẵn, đã đ°ợc công bố
hoặc ch°a công bố, hay có thá tự mình đi thu thập dữ liệu mới.
Dữ liệu từ ngußn có sẵn, th°ßng đã qua táng hợp, xử lí, gọi là dữ liệu thứ cấp.
Dữ liệu thu thập trực tiếp từ đối t°ợng nghiên cứu gọi là dữ liệu s¡ cấp.
Ví dā 2. Hãy nêu các dữ liệu s¡ cấp và thứ cấp á ví dụ 1 trên đây.
a) Ngußn dā lißu thą cấp khá đa dạng, có thá là:
- Các báo cáo nội bộ c¡ quan, doanh nghiệp: các số liệu báo cáo vß tình hình sản
xuất, tiêu thụ, tài chính,… Trang 3
- Các số liệu của C¡ quan Thống kê nhà n°ớc, C¡ quan Chính phủ: dân số, việc làm,
mức sống dân c°, tài nguyên, …
- Báo, tạp chí, mạng internet,…
b) Ngußn dā lißu s¢ cấp
Dữ liệu s¡ cấp đ°ợc thu thập qua các cuộc đißu tra khảo sát.
 Căn cứ vào tính liên tục hay không liên tục của việc ghi chép dữ liệu, người ta chia
ra thành điều tra thường xuyên hay không thường xuyên.
Điều tra thường xuyên là tiến hành thu thập, ghi chép số liệu vß hiện t°ợng nghiên cứu
một cách có hệ thống, theo sát quá trình biến động của hiện t°ợng.
Điều tra không thường xuyên là tiến hành thu thập, ghi chép chỉ khi có nhu cầu cần
nghiên cứu hiện t°ợng. Dữ liệu đißu tra không th°ßng xuyên phản ánh trạng thái của hiện
t°ợng tại một thßi điám nhất định.
Ví dā 3. Một doanh nghiệp theo dõi hàng ngày vß số l°ợng công nhân đi làm, số sản
ph¿m sản xuất ra, số sản ph¿m tiêu thụ đ°ợc. Táng đißu tra dân số Việt Nam vào ngày
1 – 4 – 2009. Đây là các đißu tra th°ßng xuyên hay không th°ßng xuyên?
 Căn cứ vào phạm vi khảo sát, người ta chia ra thành điều tra toàn bộ, không toàn bộ.
Điều tra toàn bộ là tiến hành thu thập, ghi chép dữ liệu trên tất cả các đ¡n vị của táng thá.
Điều tra không toàn bộ là chỉ tiến hành thu thập trên một số đ¡n vị đ°ợc chọn ra từ táng thá đang nghiên cứu.
Ví dā 4. Các đißu tra sau đây là đißu tra toàn bộ hay không toàn bộ?
a) Đißu tra dân số Việt Nam.
b) Đá nghiên cứu tỉ lệ sinh viên tốt nghiệp tìm đ°ợc việc làm, ng°ßi ta phỏng vấn
1650 sinh viên ra tr°ßng sau 1 năm thì thấy có 1215 sinh viên đã có việc làm.
3. Các ph°¢ng pháp thu thÃp dā lißu s¢ cấp
a) Thu thập trực tiếp - Quan sát - Phỏng vấn trực tiếp
b) Thu thập gián tiếp
- Phỏng vấn bằng điện thoại
- Ph°¡ng pháp gửi th°, email
¯u điám, nh°ợc điám của các ph°¡ng pháp thu thập thông tin trên đây có thá tóm tắt trong bảng sau: Tính chất Ph°¡ng pháp Phỏng vấn Phỏng vấn gửi th°, email qua tel trực tiếp Linh hoạt Kém TB Tốt Khối l°ợng thông tin Đầy đủ Hạn chế Đầy đủ Tốc độ thu thập Chậm Nhanh Nhanh thông tin Tỉ lệ câu hỏi Thấp TB Cao đ°ợc trả lßi Chi phí Tiết kiệm Tốn kém Tốn kém Trang 4
4. Các kĩ thuÃt chån mÁu
Mục đích của việc chọn mÁu là bảo đảm cho mÁu đ°ợc chọn thực sự phản ánh trung thực,
đại diện cho toàn bộ táng thá.
Có hai nhóm kĩ thuật chọn mÁu là lấy mÁu xác suất (lấy mÁu ngÁu nhiên) và phi xác suất
(lấy mÁu không ngÁu nhiên).
a) Phương pháp lấy mẫu xác suất bao gßm các ph°¡ng pháp chọn mÁu ngÁu nhiên đ¡n
giản, chọn mÁu hệ thống, chọn mÁu cả khối hay lấy mÁu nhißu giai đoạn, chọn mÁu phân tầng.
- Ph°¡ng pháp chọn mÁu ngÁu nhiên đ¡n giản là ph°¡ng pháp trong đó mỗi đ¡n vị của
táng thá đ°ợc chọn với sự ngÁu nhiên nh° nhau.
- Tr°ớc tiên lập danh sách các đ¡n vị của táng thá chung theo một trật tự quy °ớc nào đó,
sau đó đánh số thứ tự các đ¡n vị trong danh sách. Đầu tiên chọn ngÁu nhiên 1 đ¡n vị
trong danh sách; sau đó cứ cách đßu k đ¡n vị lại chọn ra 1 đ¡n vị vào mÁu,… cứ nh° thế
cho đến khi chọn đủ số đ¡n vị của mÁu. Ví dụ: Dựa vào danh sách bầu cử tại 1 thành phố,
ta có danh sách theo thứ tự vần của tên chủ hộ, bao gßm 240.000 hộ. Ta muốn chọn ra
một mÁu có 2000 hộ. Vậy khoảng cách chọn là: k = 240000/2000 = 120, có nghĩa là cứ
cách 120 hộ thì ta chọn một hộ vào mÁu.
- Trong ph°¡ng pháp chọn mÁu cả khối (hay lấy mÁu nhißu giai đoạn), đầu tiên táng thá
đ°ợc chia thành nhißu khối, lÁy ngÁu nhiên m khối sau đó khảo sát hết (hay một số) các
đối t°ợng trong các khối mÁu đã đ°ợc lấy ra. Đối với ph°¡ng pháp này ta không cần phải
có danh sách các đ¡n vị chọn mÁu. Chẳng hạn, cần khảo sát tất cả các hộ dân th°ßng trú
tại TP. HCM, ta chọn ngÁu nhiên một số quận, rßi khảo sát tất cả (hay một số) hộ dân
trong các quận đã chọn ra.
- Ta sử dụng ph°¡ng pháp chọn mÁu phân tầng khi các đ¡n vị quá khác nhau vß tính chất
liên quan đến vấn đß cần nghiên cứu và khảo sát.
Ví dụ, khi khảo sát mức độ hài lòng của sinh viên một tr°ßng đại học vß cảm nhận của
sinh viên vß chất l°ợng đào tạo, th°ßng sẽ có sự khác biệt lớn vß số l°ợng sinh viên và
đißu kiện học tập giữa các hệ khác nhau nh° hệ chính quy, hệ hoàn chỉnh đại học, hệ đại
học… Theo ph°¡ng pháp này táng thá nghiên cứu đ°ợc chia thành các tầng lớp, từ kích
th°ớc mÁu đã chọn ta phân bá tỷ lệ cho từng tầng lớp rßi tiến hành lấy mÁu ngÁu nhiên hay có thệ thống.
b) Nhóm kĩ thuật lấy mẫu phi xác suất bao gßm các ph°¡ng pháp lấy mÁu thuận tiện,
lấy mÁu định mức, lấy mÁu phán đoán. MÁu phi xác suất không đại diện đ°ợc cho toàn
bộ táng thá nh°ng đ°ợc chấp nhận trong nghiên cứu khám phá và trong kiám định giả thuyết.
- Ta có thá lấy mÁu thuận tiện bằng cách đến những n¡i có nhißu khả năng gặp đ°ợc
những đối t°ợng mà ta muốn khai thác thông tin và cảm thấy tiện lợi.
- Lấy mÁu định mức t°¡ng tự nh° ph°¡ng pháp lấy mÁu phân tầng á b°ớc phân chia táng
thá thành các tầng lớp rßi phân bá định mức lấy mÁu cho từng tầng lớp. Điám khác nhau
á chá khi tiến hành lấy mÁu trong thừng tầng lớp, với kĩ thuật này, ta chọn những đ¡n vị
tại hiện tr°ßng theo cách thuận tiện và theo phán đoán.
- Trong kĩ thuật lấy mÁu phán đoán ta chính là ng°ßi quyết định sự thích hợp của các đối
t°ợng đá mßi họ tham gia và mÁu khảo sát. Trang 5
II.2. TRÌNH BÀY DĀ LIÞU
1. BÁng tần sß, tần suất
Bảng tần số là một bảng táng hợp, trình bày dữ liệu bằng cách phân chia chúng thành
từng nhóm (lớp) khác nhau. Bảng tần số th°ßng bao gßm ba cột:
- Cột thứ nhất mô tả các biáu hiện hoặc các giá trị (hay khoảng giá trị) của dữ liệu.
- Cột thứ hai mô tả tần số t°¡ng ứng với các biáu hiện hoặc giá trị đó.
- Cột thứ ba là các tần suất (tỉ lệ %).
a) Cách lập bảng tần số, tần suất cho dữ liệu định tính
Đối với các dữ liệu định tính nh° giới tính, ngành học, … ta sẽ lập bảng tần số gßm các thông tin sau đây.
- Cột thứ nhất liệt kê tất các các biáu hiện có thá có của tập dữ liệu.
- Cột thứ hai ghi tần số (số lần từng biáu hiện đó xuất hiện trong tập dữ liệu). Táng
của cột tần số phải bằng số phần tử của tập dữ liệu.
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu và
nhân với 100%). Táng của cột tần suất phải bằng 100%.
Ví dā 1. Bảng tần số ngành học của sinh viên một tr°ßng đại học nh° sau: Ngành học
Tần số (sinh viên) Tần suất (%) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông tin 200 20 Táng 1000 100
b) Cách lập bảng tần số cho dữ liệu định lượng
Có hai tr°ßng hợp: dữ liệu có ít giá trị và dữ liệu có nhißu giá trị.
(1) Trường hợp dữ liệu có ít giá trị: Bảng tần số cũng có ba cột t°¡ng tự tr°ßng hợp
dữ liệu định tính, nh°ng cột thứ nhất ghi các giá trị (l°ợng biến) của dữ liệu.
Ví dā 2. Khảo sát điám thi môn Toán của một số sinh viên, ta đ°ợc bảng dữ liệu sau: Điám thi Tần số (số sinh viên) Tần suất (%) 3 3 3,75 4 12 15 5 15 18,75 6 20 25 7 16 20 8 8 10 9 4 5 10 2 2,5 Táng 80 100
(2) Trường hợp dữ liệu có nhiều giá trị: Tr°ớc hết ta phân nhóm cho các giá trị rßi
mới lập bảng tần số trên c¡ sá dữ liệu đã phân nhóm.
Ví dā 3. Khảo sát 1200 ng°ßi trong độ tuái lao động (từ 18 đến 60 tuái), nếu lập bảng
nh° á ví dụ 2 thì sẽ rất dài, làm mất đi tác dụng tóm l°ợc thông tin. Do đó ta sẽ phân
thành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ
51 đến 60. Đây là kiáu phân nhóm theo kinh nghiệm. Trang 6
Trên thực tế ng°ßi ta th°ßng phân nhóm với khoảng cách đßu nhau.
Giả sử mÁu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần l°ợt là X , max X
. Gọi k là số nhóm cần chia và h là khoảng cách giữa các nhóm. min
Khi đó, ng°ßi ta th°ßng xác định kh bái công thức 3 X  max Xmin
k ý 2 n , h ý . k
Tuy nhiên trên thực tế khi xác định cận trên và cận d°ới của các khoảng ng°ßi ta có thá
xử lý linh động h¡n đá đảm bảo tính khoa học và mỹ thuật.
Mỗi khoảng thá hiện sự tßn tại của các giá trị quan sát xi sao cho:
Cận dưới  xi < Cận trên
Ví dā 4. Năng suất (tạ/ha) của một loại cây thu hoạch đ°ợc tại 40 vùng nh° sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179
Với n ý 40 , X ý ý , ta có số nhóm 3 , khoảng cách max 179 , Xmin 153 k ý 2.40 ý 4,3  4 giữa các nhóm 179  153 h ý ý 6,5. 4
Nếu chọn h = 7 thì các nhóm đ°ợc lập nh° sau: 152 – 159, 159 – 166, 166 – 173,
173 – 180. Ta có bảng tần số là: Năng suất Tần số Tần suất (%) 152 - 159 5 12,5 159 - 166 19 47,5 166 - 173 9 22,5 173 - 180 7 17,5 Táng 40 100
Lưu ý: Một số đißu kiện phải tuân thủ khi phân nhóm:
- Các nhóm không đ°ợc trùng nhau, mỗi giá trị chỉ thuộc vß một nhóm.
- Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mÁu số liệu.
- Không có nhóm rỗng (tức là nhóm không có phần tử nào).
Ví dā 5. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tißn (triệu đßng) bán đ°ợc trong
ngày của các cửa hàng đ°ợc ghi lại nh° sau:
57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7
41,1 45,8 47,2 46,9 56,9 4,5 38,8 50,3 37,6 38,9
52,3 49,2 47,5 47 49,6 46,2 49,8 36,8
Theo kinh nghiệm ng°ßi ta thấy rằng chia 6 nhóm mới hợp lí nên ta chọn k = 6. Ta có
giá trị nhỏ nhất là 36,8; giá trị lớn nhất là 57,8. Do đó ta tìm đ°ợc 57,8  36,8 h ý ý 3,5  4 . 6
Nếu chọn nhóm thứ nhất bắt đầu từ 36,8 thì số khá lẻ nên ta có thá bắt đầu từ 36.
Mặt khác, các số liệu trong mÁu cũng lẻ nên ta cho giới hạn trên và giới hạn d°ới của hai
nhóm kế tiếp trùng nhau với quy °ớc là khi có một giá trị bằng giới hạn trên của một Trang 7
nhóm thì đ¡n vị đó đ°ợc xếp vào nhóm kế tiếp, nghĩa là ta có các khoảng: [36 – 40),
[40 – 44), [44 – 48), [48 – 52), [52 – 56), [56 – 60).
Khi đó ta có bảng tần số sau đây:
Tißn bán hàng (triệu đßng) Tần số Tần suất (%) 36 – 40 4 14,3 40 – 44 4 14,3 44 – 48 7 25 48 – 52 7 25 52 – 56 3 10,7 56 – 60 3 10,7 Táng 28 100
Chú ý. Trong bảng tần số đôi khi ng°ßi ta còn thêm vào cột tần số tích luỹ (hoặc tần suất
tích luỹ) thá hiện số lần quan sát (hoặc % số lần quan sát) cộng dßn đến giới hạn trên của
một nhóm nào đó. Nói cách khác, tần số tích luỹ cho thấy có bao nhiêu quan sát bằng
hoặc nhỏ h¡n một trị số nào đó của biến khảo sát.
Ví dā 6. (Tiếp ví dụ 5) Ta có bảng tần suất tích luỹ sau đây. Từ bảng ta thấy có 15 cửa
hàng, chiếm 53,6%, có số tißn bán hàng trong ngày d°ới 48 triệu đßng.
Tißn bán hàng (triệu đßng) Tần số Tần suất (%) Tần suất tích luỹ(%) 36 – 40 4 14,3 14,3 40 – 44 4 14,3 28,6 44 – 48 7 25 53,6 48 – 52 7 25 78,6 52 – 56 3 10,7 89,3 56 – 60 3 10,7 100 Táng 28 100
(3) Phân nhóm mở
Ngoài cách phân nhóm nh° trên ta còn có thá phân nhóm má, trong đó nhóm đầu tiên
không có giới hạn d°ới và nhóm cuối cùng không có giới hạn trên, các nhóm còn lại có
khoảng cách đßu hoặc không đßu. Mục đích của phân nhóm má là đá nhóm đầu tiên và
nhóm cuối cùng chứa đ°ợc các đ¡n vị có giá trị đột biến và tránh việc lập quá nhißu tá.
Khi tính toán đối với phân nhóm mở người ta quy ước lấy khoảng cách của nhóm mở
bằng khoảng cách của nhóm gần nó nhất.
Ví dā 7. Bảng năng suất lúa của một số hộ gia đình nh° sau: Năng suất lúa (tạ/ha) Số gia đình <30 5 35 – 40 10 40 – 45 20 45 – 50 12 ó 50 3 Táng 50
Nhóm < 30 (tạ/ha) đ°ợc quy °ớc có h = 5. Trang 8
c) Cách lập bảng tần số kết hợp hai đặc điểm thống kê
Bảng tần số có thá có dùng đá mô tả hai đặc điám thống kê.
Ví dā 8. Bảng d°ới đây mô tả kết hợp hai đặc điám là độ tuái và khu vực c° trú của 7584
thanh niên trong cuộc đißu tra vß vị thành niên và thanh niên Việt Nam.
Bảng 1. Khu vực c° trú của thanh niên trong mÁu đißu tra phân tách theo nhóm tuái. Nhóm tuái Thanh niên trong 14 – 17 18 – 21 22 – 25 mÁu đißu tra Tần số Tần suất Tần số Tần suất Tần số Tần (ng°ßi) (%) (ng°ßi) (%) (ng°ßi) suất (%) Khu Thành thị 1020 31,6 919 36,12 723 39,9 vực Nông 2208 68,4 1625 63,88 1089 60,1 thôn Táng 3228 100 2544 100 1812 100
Ngoài ra bảng kết hợp này còn có thá đ°ợc xoay theo chißu khác, hoặc tách riêng thông
tin vß tần số, tần suất thành hai bảng riêng biệt.
Bảng 2. Nhóm tuái của thanh niên trong mÁu đißu tra phân tách theo khu vực c° trú. Khu vực Thanh niên trong Thành thị Nông thôn mÁu đißu tra
Tần số Tần suất Tần số Tần suất (ng°ßi) (%) (ng°ßi) (%) 14 – 17 1020 38,32 2208 44,86 Nhóm tuái 18 – 21 919 34,52 1625 33,02 22 - 25 723 27,16 1089 22,12 Táng 2662 100 4922 100
2. Đß thã thßng kê các lo¿i
a) Đồ thị thống kê cho dữ liệu định lượng
(1) Biểu đồ phân phối tần số
Biáu đß phân phối tần số (Histogram) đ°ợc sử dụng đá chuyán hoá thông tin trên bảng
tần số thành hình ảnh trực quan. Đây là một loại đß thị biáu diễn sự phân phối tần số bằng
các cột sao cho diện tích của cột tỉ lệ với tần số.
Ví dā 9. Biáu đß phân phối tần số của bảng tần số á ví dụ 4 nh° sau. (Trục hoành thá
hiện biến khảo sát - năng suất. Trục tung thá hiện tần số). Năng suất Tần số Tần suất (%) 152 - 159 5 12,5 159 - 166 19 47,5 166 - 173 9 22,5 173 - 180 7 17,5 Táng 40 100 Trang 9 20 19 18 16 14 12 ố s 10 9 n ầ T 8 7 6 5 4 2 0 152 - 159 159 - 166 166 - 173 173 - 180 Năng suất
Biáu đß phân phối tần số
(2) Đa giác tần số
Ph°¡ng pháp thứ hai đá biáu diễn phân phối tần số bằng đß thị là dùng đa giác tần số.
Đá vẽ đa giác này, ta nối các trung điám của cạnh đỉnh các cột trong Histogram lại với
nhau bằng các đoạn thẳng. Muốn đ°ßng biáu diễn không có vẻ l¡ lửng trên không, ta
thêm vào hai bên của Histogram hai nhóm có tần số bằng 0.
Ví dā 10. Đa giác tần số của ví dụ 9 có dạng sau đây: 20 18 16 14 12 10 ần số T 8 6 4 2 0
152 - 159 159 - 166 166 - 173 173 - 180 Năng suất
(3) Biểu đồ nhánh và lá
Biáu đß nhánh và lá (còn gọi là biáu đß thân và lá) là một công cụ đá tóm l°ợc và trình
bày tập dữ liệu, giúp ng°ßi xem thấy đ°ợc dữ liệu gốc và cách thức phân tán nó. Đá trình
bày dữ liệu theo ph°¡ng pháp nhánh và lá, mỗi trị số đ°ợc tách thành hai phần:
- Phần nhánh: bao gßm một hay nhißu chữ số đầu tiên. Phần nhánh đ°ợc đặt á cột đầu
tiên theo thứ tự tăng dần. Số nhánh đ°ợc chọn sao cho có ít nhánh so với số quan sát (số
lá). Thông th°ßng số nhánh trong khoảng từ 5 đến 20 là vừa.
- Phần lá: gßm các chữ số còn lại. Lá á một nhánh cũng sắp xếp theo thứ tự tăng
dần.Cũng có thá chia đôi một nhánh thành nhánh trên và nhánh d°ới khi có quá nhißu lá.
Ví dā 11. Số liệu vß chißu dài (cm) của 40 sản ph¿m nh° sau: Trang 10
30,0 30,4 30,2 30,1 30,0 31,0 30,9 30,0 31,0 31,0
32,0 31,2 30,4 30,8 30,9 31,2 31,2 32,0 30,4 30,3
30,5 30,7 31,1 32,0 30,1 30,4 30,5 31,2 31,8 30,9
30,5 31,2 32,0 31,3 31,0 31,4 30,3 30,9 31,0 30,8
Tr°ớc hết các trị số sẽ đ°ợc chia thành hai phần: nhánh và lá.
Chẳng hạn, số 30,4 có thá chia thành hai phần: 30 là nhánh, 4 là lá.
Nh° vậy, ta xem phần nhánh gßm các chữ số nằm bên trái dấu ph¿y, phần lá gßm các chữ
số nằm bên phải dấu ph¿y. Biáu đß nhánh và lá đ°ợc hình thành nh° sau. Chieu dai Stem-and-Leaf Plot Frequency Stem&Leaf 12.00 30 . 000112334444 10.00 30 . 5557889999 13.00 31 . 0000012222234 1.00 31 . 8 4.00 32 . 0000 Stem width: 1 cm Each leaf: 1 case(s)
Từ biáu đß trên ta dễ dàng thấy chißu dài sản ph¿m thay đái trong khoảng từ 30 đến 32
cm; có 22 sản ph¿m có chißu dài trong khoảng từ 30 đến d°ới 31 cm; 14 sản ph¿m có
chißu dài từ 31 đến d°ới 32 cm; 4 sản ph¿m có chißu dài là 32 cm.
Khi số l°ợng quan sát trong tập dữ liệu lên đến hàng trăm thì biáu đß thân lá lại làm ng°ßi
xem rối mắt, khi đó bảng tần số hay Histogram tỏ ra phù hợp h¡n.
b) Đồ thị thống kê cho dữ liệu định tính
(1) Biểu đồ dạng thanh (Bar Chart : thanh đứng hay thanh ngang)
Trên biáu đß này, mỗi thanh đại diện một phân loại của biến (đặc điám thống kê) mà ta
quan tâm, chißu dài của thanh thá hiện tần số của các quan sát thuộc vß phân loại đó. Còn
chißu rộng của các thanh bằng nhau. Ví dā 12.
Kim ngạch xuất kh¿u (triệu USD)
Việt Nam – Hàn Quốc giai đoạ n 2000 - 2004 700 600 500 400 300 200 100 0 2000 2001 2002 2003 2004
(Ngußn: Tạp chí Phát trián kinh tế, tháng 12/2005) Trang 11 Kim ngạch xuất nhậ p kh¿u (triệu USD)
Việt Nam – Hàn Quốc giai đoạ n 2000 – 2004 2004 2003 2002 2001 Kim ng xu ạch ất kh¿u 2000 Kim ng nh ạch ậ kh p ¿u 0 1000 2000 3000 4000 5000
Không nên nhầm lÁn giữa Histogram với biáu đß thanh đứng. Đây là hai công cụ thống
kê khác nhau, thá hiện hai loại dữ liệu định l°ợng, định tính. Giữa các thanh của
Histogram không có khoảng cách, còn giữa các thanh của biáu đß dạng thanh phải có
khoảng cách vì mỗi thanh là một biáu hiện của biến phân loại.
(2) Biểu đồ hình tròn th°ßng dùng đá mô tả kết cấu (%) của vấn đß đang nghiên cứu.
Ví dā 13. Biáu đß hình tròn d°ới đây mô tả tỉ lệ % sinh viên theo học các ngành của một
tr°ßng đại học ứng với bảng tần số nh° sau: Ngành học
Số sinh viên (Tần số) Tỉ lệ (Tần suất) (%) Kinh tế 48 9,6 Kế toán 158 31,6 Ngân hàng 90 18 QTKD 124 24.8 Th°¡ng mại 80 16 Táng 500 100 Trang 12
Trên biáu đß, toàn bộ diện tích hình tròn đ°ợc chia thành nhißu mảnh nhỏ hình rẻ quạt,
diện tích mỗi mảnh t°¡ng ứng với tỉ lệ của phân loại mà nó đại diện trong toàn thá và
mang một màu khác nhau. Thứ tự của các phân loại (theo chißu kim đßng hß) là thứ tự
nó đ°ợc sắp xếp trong bảng táng hợp. BÀI TÂP CH¯¡NG II
2.1. Đá kiám tra chất l°ợng sản ph¿m, ng°ßi ta tiến hành đo chißu dài (cm) của 40 sản
ph¿m, kết quả thu đ°ợc nh° sau:
20,0 20,3 20,2 20,1 20,0 20,9 20,5 21,0 21,0 21,0
22,0 21,2 20,4 20,8 20,9 21,2 21,2 22,0 20,4 22,3
20,6 20,7 21,0 22,0 20,1 20,4 20,5 21,2 21,8 20,9
20,5 21,2 22,0 21,3 21,0 21,4 20,3 20,9 21,0 20,8
a) Hãy trình bày các số liệu trên theo ph°¡ng pháp nhánh và lá (chọn nhánh là 2 chữ số đầu).
b) Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất và tính
tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.2. Trong ch°¡ng trình quốc gia nghiên cứu thá chất của ng°ßi Việt Nam, số liệu vß
chißu cao (cm) của một số thanh niên tại một địa ph°¡ng ghi nhận đ°ợc nh° sau:
164 155 160 162 172 171 162 160 162 159
160 158 166 172 158 163 165 164 161 158
160 170 168 157 168 166 160 162 163 167
171 164 167 158 159 160 163 167 168 159
160 162 170 168 164 160 168 165 165 160
Hãy phân lớp dữ liệu trên thành 5 nhóm có khoảng cách đßu nhau, lập bảng tần số, tần
suất. Tính tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.3. Đißu tra doanh số hàng tháng (triệu đßng) của 25 doanh nghiệp, ta thu đ°ợc các số
liệu sau: 97, 93, 94, 108, 102, 102, 103, 100, 115, 116, 111, 117, 117, 116, 117, 113, 115,
123, 129, 124, 122, 128, 122, 132, 130.
a) Hãy trình bày số liệu theo ph°¡ng pháp nhánh và lá (lấy chữ số hàng đ¡n vị làm lá).
b) Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất. Tính
tần số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất.
2.4. Kiám tra độ bßn (giß) của một loại bóng đèn, kết quả quan sát đ°ợc trình bày theo nhánh và lá nh° sau: Stem Leaf 10 10, 18, 12, 15, 16 11 20, 30, 25, 40, 35, 38, 42 12
00, 15, 12, 20, 18, 25, 45, 50 13
10, 20, 30, 22, 40, 50, 60, 70, 55, 80 14 15, 20, 25, 22, 30, 40 Stem width: 100.0 Each leaf: 1 case(s)
Bằng cách phân nhóm có khoảng cách đßu nhau, hãy lập bảng tần số, tần suất. Tính tần
số tích lũy, tần suất tích lũy. Vẽ biáu đß tần số, tần suất. Trang 13
2.5. Năm 2008 một tr°ßng đại học tuyán sinh viên vào học 5 ngành với số l°ợng nh°
sau: toán 210 sinh viên, lí 120, hóa 84, văn 250, xã hội 336. Hãy lập biáu đß thanh (đứng
hoặc ngang) và biáu đß hình tròn chỉ tỉ lệ sinh viên theo học các ngành đó.
CH¯¡NG III. TÓM TÄT DĀ LIÞU
BÆNG CÁC Đ¾I L¯þNG THÞNG KÊ MÔ TÀ
Đối với dữ liệu định l°ợng, chúng ta có thá tóm tắt tốt h¡n khi số l°ợng dữ liệu lớn, đó
là dùng các đại l°ợng thống kê mô tả. Các đại l°ợng này đ°ợc chia thành hai nhóm: nhóm
các đại l°ợng thá hiện mức độ tập trung của dữ liệu và nhóm thá hiện độ phân tán của dữ liệu.
à nhóm thứ nhất ta có trung bình cộng (đ°ợc sử dụng nhißu nhất), mốt, trung vị. à nhóm
thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình quân, ph°¡ng sai, độ lệch chu¿n
(đ°ợc sử dụng nhißu nhất) và hệ số biến thiên.
III.1. CÁC Đ¾C TR¯NG ĐO L¯âNG KHUYNH H¯àNG TÂP TRUNG
1. Trung bình cßng (Arithmetic mean)
Trung bình cộng đ°ợc xác định bằng cách cộng tất cả các giá trị của từng phần tử (các
quan sát), sau đó đem chia cho táng số phần tử (táng số quan sát).
Có hai loại trung bình cộng là trung bình cộng đ¡n giản (mean) và trung bình cộng có trọng số (weighted mean).
a) Trung bình cßng đ¢n giÁn
- Trung bình tổng thể: Giả sử táng thá có N phần tử (quan sát), X là giá trị của phần i N tử thứ 1
i. Khi đó trung bình cộng của táng thá là  ý X õ . (1) i N iý1
- Trung bình mẫu: Giả sử mÁu có n phần tử (hay còn nói cỡ mÁu là n), khi đó trung n
bình cộng của mÁu (hay trung bình mÁu) là 1 X ý õ . (2) i X n i 1 ý
Ví dā 1. Điám thi môn Toán của 16 sinh viên là: 2, 4, 5, 8, 9, 3, 6, ,6, 8, 10, 2, 3, 6, 4, 7,
8. Áp dụng (2) ta có trung bình mÁu là 2  4  ...  7  8 X ý
ý 5,6875 . Đây cũng chính là 16
điám thi trung bình của 16 sinh viên này.
b) Trung bình cßng có trång sß là tr°ßng hợp đặc biệt của trung bình cộng đ¡n giản khi giá trị i
X xuất hiện nhißu lần. Giả sử giá trị X xuất hiện i
f lần, i = 1, 2, …, k (ta nói i f i k X õ ifi
là trọng số, hay tần số của giá trị X ). Khi đó i 1 ý ý (3) i X k f õ i i 1 ý k với ý õ
là số phần tử của mÁu. i f n i 1 ý Trang 14
Ví dā 2. Điám thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính điám thi
trung bình của nhóm sinh viên này. Điám thi 0 1 2 3 4 5 6 7 8 9 10 Số SV 0 3 5 4 12 18 29 16 10 2 1
Áp dụng công thức (3) ta có
0.0  1.3  2.5  ...  9.2  10.1 X ý ý 5,57 .
0  3  5  ...  2  1
Chú ý. Tr°ßng hợp dữ liệu phân nhóm có khoảng cách thì trung bình mÁu đ°ợc tính gần k x õ ifi đúng bái công thức i 1 X ý ý (4) k õ if i 1 ý XX với ma i x m i in i x ý
là trị số giữa của nhóm i ( X , X
là giới hạn trên, giới hạn 2 m i ax m i in
d°ới của nhóm i) và if là tần số của nhóm i.
Ví dā 3. Trong một đợt sản suất ng°ßi ta chọn 50 sản ph¿m và ghi nhận khối l°ợng. Sản
ph¿m đ°ợc phân nhóm theo khối l°ợng nh° sau: Khối l°ợng (gam)
Trị số giữa ( ix )
Số sản ph¿m ( if ) 484 – 490 487 5 490 – 496 493 10 496 – 502 499 15 502 – 508 505 13 508 – 514 511 7 Cộng 50
Áp dụng (4), ta có trung bình mÁu là 1 X ý
ø487.5  493.10  ...  511.7ù ý 499,84 . 50
c) Đ¿c đißm căa trung bình cßng
- Trung bình cộng th°ßng rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá
nhỏ), giá trị trung bình sẽ kém tiêu biáu nếu trong dãy số có các giá trị đột biến.
- Trung bình cộng đ°ợc sử dụng đá so sánh giữa hai hay nhißu táng thá.
- Táng độ lệch giữa các giá trị X với trung bình cộng bằng 0, nghĩa là i X n øX  ý õ . i X ù 0 i 1 ý 2. Mßt (Mode) a) Khái nißm
Mốt là giá trị xuất hiện nhißu nhất trong một dãy số, kí hiệu là o M . b) Cách xác đãnh mßt
(1) Trường hợp dữ liệu không phân nhóm: Mốt là giá trị có tần số lớn nhất.
Ví dā 4. Xem lại bảng dữ liệu á ví dụ 2, ta có 6 o M ý
, vì điám 6 có tần số lớn nhất. Trang 15
(2) Trường hợp dữ liệu phân nhóm có khoảng cách đều nhau: Tr°ớc hết cần xác định
nhóm chứa mốt là nhóm có tần số lớn nhất. Trị số của mốt đ°¡c xác định gần đúng bái công thức: fM f M 1 o o ý  (5) o M XM min h . o Mo (    M f M f 1 ) (  M f M f 1 )  o o o o trong đó X
là giới hạn d°ới của nhóm chứa h
là khoảng cách của nhóm M min o o M ; o M chứa
là tần số của nhóm đứng tr°ớc nhóm chứa o M ; f f là tần số của nhóm M 1 o o M ; o M chứa
là tần số của nhóm đứng sau nhóm chứa o M ; fM 1 o o M .
Ví dā 5. Tài liệu táng hợp vß doanh số bán hàng trong một tháng của 50 trạm xăng dầu thuộc tỉnh X nh° sau:
Doanh số bán (triệu đßng) Số trạm 200 – 300 8 300 – 400 10 400 – 500 20 500 – 600 7 600 – 700 5 Táng 50
Tính mốt của bảng dữ liệu đã cho.
Giải. Ta nhận thấy mốt á nhóm thứ ba, áp dụng (5), ta có 20  10 ý 400  100. ý 443,48 (triệu đßng). o M (20  10)  (20  7)
Nh° vậy. đa số các trạm xăng của tỉnh đó có doanh số bán hàng trong một tháng là 443,48 (triệu đßng).
Ví dā 6. Tính mốt của bảng dữ liệu cho á ví dụ 3.
(3) Trường hợp dữ liệu phân nhóm có khoảng cách không đều: (Phần đọc thêm)
Mốt vẫn được tính theo công thức (5) nhưng việc xác định nhóm có mốt không căn cứ
vào tần số mà căn cứ vào mật độ phân phối. (Mật độ phân phối = Tần số : khoảng cách nhóm).
Ví dụ 7. Có tài liệu tổng hợp về doanh thu của 79 cửa hàng như sau:
Doanh thu (triệu đồng) Cửa hàng 200 400 8 400 500 12 500 600 25 600 800 25 800 1000 9 Tổng 79
Tính mốt của bảng dữ liệu đó.
Giải. Ta lập bảng tính thêm khoảng cách và mật độ phân phối của các nhóm: Trang 16 Doanh thu
Cửa hàng ( if) Khoảng cách nhóm ( ih ) Mật độ phân phối (tr.đ) i f i d ý i h 200 400 8 200 0,04 400 500 12 100 0,12 500 600 25 100 0,25 600 800 25 200 0,125 800 1000 9 200 0,045 Tổng 79
Từ bảng suy ra mốt ở vào nhóm thứ ba vì có mật độ phân phối lớn nhất. Áp dụng công
thức (5) nhưng thay tần số bởi mật độ phân phối, ta được 0,25  0,12 ý 500  100. ý 550,9 (triệu đồng). o M (0,25  0,12)  (0,25  0,125)
c) Đ¿c đißm căa mßt
- Mốt là đặc tr°ng đo l°ßng khuynh h°ớng tập trung không bị ảnh h°áng bái các giá trị đột biến.
- Mốt có thá xác định cho dữ liệu sử dụng các thang đo khác nh° thang đo định danh, thang đo thứ bậc.
- Khác với trung bình cộng và trung vị, một tập dữ liệu có thá không xác định đ°ợc
mốt vì không có giá trị nào xuất hiện nhißu nhất. Ng°ợc lại, có một số tr°ßng hợp có nhißu mốt.
Ví dā 8. Tính mốt của bảng dữ liệu sau đây: Chißu cao (cm) Số thanh niên 148 – 154 30 154 – 170 69 170 – 180 37 180 – 185 4 Táng 140 3. Trung vã (Median)
Trong một tập dữ liệu đã đ°ợc sắp xếp theo thứ tự tăng dần thì trung vị, kí hiệu e M , là
giá trị đứng giữa của tập dữ liệu. Nói cách khác, trung vị chia dãy số làm hai phần, mỗi
phần có số đ¡n vị táng thá bằng nhau.
a) Cách xác đãnh trung vã
(1) Xác định trung vị cho dữ liệu không phân nhóm
- Tr°ßng hợp số phần tử của mÁu n là số lẻ: ý
(trung vị là giá trị đứng giữa , e M Xn 1  2
tức là á vị trí thứ n 1 trong dãy các giá trị tăng dần của mÁu số liệu. 2 Xn X n 1
- Tr°ßng hợp n là số chẵn: 2 2 ý
(trung vị là trung bình cộng của hai giá trị e M 2
đứng giữa trong dãy số trên).
Ví dā 9. a) Trong dãy số liệu 4, 6, 7, 9, 10, 13, 18, 19, 21 (có 9 phần tử), thì số đứng giữa
là 10 (á vị trí thứ 5) nên 10 e M ý . Trang 17
b) Trong dãy số 1, 2, 4, 5, 6, 9, 10, 15, 18, 20 (có 10 phần tử) thì hai số đứng giữa là 6 và
9 (á vị trí thứ 5 và thứ 6) nên 6  9 ý ý 7,5 . e M 2
Ví dā 10. Tính trung bình cộng và trung vị của dãy số liệu sau
a) 12,4 14,6, 13,1 16,8 16,5 16,2 17,4 17,5 13,6 14,9 13,2 12,8.
b) 144,3 98,7 89,5 123,4 146,0 138,8 154,1 145,7 136,3 147,9 139,2.
(2) Xác định trung vị cho dữ liệu phân nhóm có khoảng cách
Với dữ liệu đã phân nhóm, trung vị đ°ợc xác định một cách xấp xỉ qua các b°ớc sau:
Bước 1. Tính tần số tích luỹ.
Bước 2. Xác định nhóm chứa trung vị là nhóm có tần số tích luỹ nhỏ nhất lớn h¡n hoặc bằng n  1 . 2
Bước 3. Áp dụng công thức n SM 1 2  ý  (6) e M XM min h . e e e M M f e trong đó X
là giới hạn d°ới của nhóm chứa M min e M ; e M h
là khoảng cách của nhóm e chứa M ; M ; e S
 là tần số tích luỹ của nhóm đứng tr°ớc nhóm chứa 1 f là tần số e M e e M của nhóm chứa e M .
Ví dā 11. Tính trung vị của mÁu dữ liệu cho á ví dụ 3.
Giải. Bước 1. Tính tần số tích luỹ Khối l°ợng (gam)
Số sản ph¿m ( if )
Tần số tích luỹ ( i S ) 484 – 490 5 5 490 – 496 10 15 496 – 502 15 30 502 – 508 13 43 508 – 514 7 50 Cộng 50
Bước 2. Xác định nhóm chứa trung vị 
Ta có tần số tích luỹ của nhóm thứ ba là 50 1 30 þ nên đó là nhóm chứa 2 e M . Bước 3. Tính trung vị Vì X = 496, h = 6, S f = 15, n = 50 nên M min  = 15, e M e 1 e M e M 50 15 2 ý 496  6. ý 500 . e M 15
b) Đ¿c đißm căa trung vã
- Trung vị là trị số duy nhất có thá xác định đ°ợc trong một dãy số.
- Trung vị là đặc tr°ng đo l°ßng khuynh h°ớng tập trung không bị ảnh h°áng bái các giá trị đột biến.
- Trung vị có thá tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng, thứ bậc.
Ví dā 12. Tính trung bình cộng và trung vị của bảng dữ liệu cho á ví dụ 5. Trang 18
3. Tą phân vã - thÃp phân vã (Phần đåc thêm)
Tứ phân vị, thập phân vị là chỉ tiêu đo lường độ phân tán chứ không phải chỉ tiêu đo
lường khuynh hướng tập trung. Tuy nhiên, vì cách tính của chúng tương tự cách tính
trung vị, hơn nữa phân vị thứ hai của tứ phân vị chính là trung vị, nên ta kết hợp xét tứ
phân vị và thập phân vị trong mục này.
a) Tứ phân vị chia dãy số lượng biến thành bốn phần, mỗi phần có số đơn vị bằng nhau.
Cách xác định tứ phân vị:
(1) Đối với dữ liệu không phân nhóm: dãy số lượng biến có ba tứ phân vị là n - 1
Q : Tứ phân vị thứ nhất là lượng biến đứng ở vị trí thứ 1 . 4 n n - 2
Q : Tứ phân vị thứ hai chính là số trung vị, đứng ở vị trí 2( 1) 1 ý . 4 2 n - 3
Q : Tứ phân vị thứ ba là lượng biến đứng ở vị trí thứ 3( 1) . 4
Nếu n  1 không chia hết cho 4 thì tứ phân vị được xác định bằng cách thêm vào. Chẳng
hạn, với n = 12 (đơn vị), ta có n  1 1 3( n  1) 3 ý 3 ,
ý 9 . Do đó, tứ phân vị thứ nhất 4 4 4 4
bằng lượng biến ở vị trí thứ ba cộng với 1/4 giá trị chêch lệch giữa lượng biến ở vị trí
thứ ba và thứ tư. Còn tứ phân vị thứ ba bằng lượng biến ở vị trí thứ chín cộng với 3/4
giá trị chênh lệch giữa lượng biến ở vị trí thứ chín và thứ mười.
Ví dụ 13. Cho dãy số: 0,9 1,2 1,4 1,5 1,8 2,0 2,4 2,7 3,1 3,3 3,8
có số phần tử là n = 11 nên n  1 2( n  1) 3(n  1) ý 3 ; ý 6 ;
ý 9 . Do đó tứ phân vị thứ 4 4 4
nhất là số ở vị trí thứ ba trong dãy số trên, trung vị là số ở vị trí thứ sáu, tứ phân vị thứ
ba là số ở vị trí thứ chín. Vậy ý ý ý 1 Q 1,4 ; 2 Q 2,0 ; 3 Q 3,1.
Ví dụ 14. Cho dãy số: 1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800 có số phần
tử là n = 8 nên n 1 1 2( n 1) 1 3( n 1) 3 ý 2 ; ý 4 ; ý 6 . Do đó 4 4 4 2 4 4 1 1 Q ý 1900  (2000  1900) ý 1925 4 1 2
Q ý 2100  (2200  2100) ý 2150 2 3 ý   ý 3 Q 2500 (2700 2500) 2650 4
Ví dụ 15. Tính các tứ phân vị của dãy số cho ở ví dụ 10.
(2) Đối với dữ liệu phân nhóm có khoảng cách: n 3nQ S 1  Q S 1 1 3 4 4 1
Q ý XQ min  h ; Q 3
Q ý XQ min  Q h (7) 1 1 3 3 Q f Q f 1 3
trong đó X min là giới hạn dưới của nhóm chứa i Q i Q ; i Q h
là khoảng cách của nhóm chứa i
Q ; S 1 là tần số tích luỹ của nhóm đứng trước nhóm chứa f
là tần số của nhóm i Q i Q ; Qi chứa i Q .
Ví dụ 16. Tính các tứ phân vị của bảng dữ liệu sau đây Trang 19
Doanh thu (triệu đồng)
Số cửa hàng ( if) Tần số tích luỹ ( i S ) 200 400 8 8 400 500 12 20 500 600 25 45 600 800 25 70 800 1000 9 79 Tổng 79
Tứ phân vị thứ nhất chứa trong nhóm có tần số tích luỹ bằng n  1 ý 20 ; tứ phân vị thứ 4
ba chứa trong nhóm có tần số tích luỹ bằng 3(n  1) ý 60 . 4 79 3.79  8  45 4 4 1 Q ý 400  100. ý 497,92 ; 3 Q ý 600  200. ý 714 . 12 25
Ví dụ 17. Tính các tứ phân vị của bảng dữ liệu cho ở ví dụ 7.
b) Thập phân vị chia dãy số lượng biến thành mười phần, mỗi phần có số đơn vị bằng nhau.
Cách tính thập phân vị tương tự cách tính tứ phân vị. Ta có công thức sau đây n 2nD S 1   D S 1  1 2 10 10 1
D ý X D min  h ; D 2
D ý X D min  h ; ... D (8) 1 1 2 2 D f D f 1 2
Tứ phân vị, thập phân vị được sử dụng trong thực tế khi người ta muốn biết mức đạt cao
nhất của ¼ hay 1/10 số đơn vị xếp từ thấp lên, hoặc mức đạt thấp nhất của ¼ hay
1/10 số đơn vị tiến tiến xếp từ trên xuống.
III.2. CÁC Đ¾C TR¯NG ĐO L¯âNG ĐÞ PHÂN TÁN
Số trung bình, số trung vị và mốt mới chỉ cho ta biết đ°ợc giá trị trung tâm, mức độ đại
diện của hiện t°ợng mà ch°a phản ánh đầy đủ các tính chất đặc thù của dãy số l°ợng
biến. Do vậy, ngoài các đặc tr°ng đo l°ßng khuynh h°ớng tập trung, ta cần đánh giá độ
phân tán (độ biến thiên) của dữ liệu.
Ví dā 1. Có hai tá công nhân, mỗi tá có 5 ng°ßi với mức năng suất lao động nh° sau:
- Tá I: 200, 250, 300, 350, 400
- Tá II: 280, 290, 300, 310, 320
Rõ ràng năng suất lao động trung bình của hai tá là nh° nhau, tuy nhiên các mức năng
suất lao động của tá I chênh lệch nhau nhißu h¡n tá II nên số trung bình của tá I kém đại diện h¡n so với tá II.
Ng°ßi ta sử dụng các chỉ tiêu sau đá đo độ phân tán của hiện t°ợng: khoảng biến thiên,
tứ phân vị, độ trải giữa, độ lệch tuyệt đối trung bình, ph°¡ng sai, độ lệch tiêu chu¿n.
1. KhoÁng bi¿n thiên (Range), kí hiệu R , là chênh lệch giữa giá trị lớn nhất và giá trị
nhỏ nhất của dãy l°ợng biến: R ý ma X x  (1) mi X n
Khoảng biến thiên càng nhỏ thì táng thá càng đßng đßu, số trung bình càng có tính đại
diện cao và ng°ợc lại.
Nh°ợc điám của khoảng biến thiên là chỉ phụ thuộc vào giá trị lớn nhất và giá trị nhỏ
nhất của dãy l°ợng biến. Trang 20