Chương 1 - Thống kê ứng dụng | Trường Đại học Kinh tế – Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
Khái niệm thống kê và các loại thang đo dữ liệu. Quá trình nghiên cứu thống kê trải qua 3 giai đoạn có quan hệ chặt chẽ và mật thiết với nhau, trong đó giai đoạn trước làm tiền đề để thực hiện giai đoạn sau. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!
Trường: Trường Đại học Kinh Tế - Luật, Đại học Quốc gia Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 46663874
CHƯƠNG 1: THỐNG KÊ MÔ TẢ Nội dung
I. Khái niệm thống kê và các loại thang đo dữ liệu
1. Khái niệm thống kê
2. Các khái niệm cơ bản
3. Các cấp bậc đo lường và thang đo
II. Thu thập dữ liệu
1. Xác định dữ liệu cần thu thập
2. Nguồn dữ liệu
3. Phương pháp thu thập dữ liệu sơ cấp
4. Các kỹ thuật chọn mẫu
III. Trình bày dữ liệu bằng bảng và biểu đồ 1. Bảng tần số
2. Đồ thị thống kê
IV. Tóm tắt dữ liệu bằng các đại lượng thống kê mô tả
1. Các đại lượng đo lường độ tập trung
2. Các đại lượng đo lường độ phân tán
3. Khảo sát hình dáng của phân phối
I. Khái niệm thống kê và các loại thang đo dữ liệu
1. Khái niệm thống kê
* Định nghĩa: Thống kê là một nhánh của toán học liên quan đến việc thu thập, trình bày và phân tích các dữ liệu.
* Hai lĩnh vực thống kê:
Thống kê mô tả: Bao gồm các phương pháp thu thập, trình bày dữ liệu và tính toán các đặc trưng nhằm
mô tả đối tượng nghiên cứu.
Thống kê suy diễn: Bao gồm các phương pháp mô hình hoá trên các dữ liệu quan sát để đưa ra các suy
diễn về đối tượng được nghiên cứu.
* Quá trình nghiên cứu thống kê:
- Quá trình nghiên cứu thống kê trải qua 3 giai đoạn có quan hệ chặt chẽ và mật thiết với nhau, trong đó
giai đoạn trước làm tiền đề để thực hiện giai đoạn sau:
• Giai đoạn điều tra thống kê bao gồm ghi chép, thu thập tài liệu thống kê.
• Giai đoạn tổng hợp và trình bày kết quả điều tra thu thập được.
• Giai đoạn phân tích và dự báo thống kê.
2. Các khái niệm cơ bản
a. Tổng thể và đơn vị tổng thể:
- Tổng thể là tập hợp tất cả các đối tượng mà ta nghiên cứu. Các đơn vị (hay phần tử) tạo thành tổng thể
được gọi là đơn vị tổng thể.
b. Mẫu và đơn vị mẫu: lOMoAR cPSD| 46663874
- Mẫu là một bộ phận lấy ra từ tổng thể (tập hợp con của tổng thể). Các đơn vị (hay phần tử) tạo thành
mẫu được gọi là đơn vị mẫu.
Ví dụ: Để nghiên cứu điểm trung bình môn toán của các sinh viên một trường đại học, người ta đã khảo
sát 350 sinh viên. Hãy chỉ ra tổng thể, đơn vị tổng thể, mẫu, đơn vị mẫu.
c. Biến, dữ liệu và quan sát:
• Biến (hay tiêu thức): Là khái niệm dùng để chỉ các đặc điểm của đơn vị tổng thể mà ta nghiên cứu.
• Dữ liệu: Là kết quả, giá trị thu thập / quan sát được của các biến.
• Quan sát: Là tập hợp tất cả các dữ liệu thu thập được của một đơn vị tổng thể hay đơn vị mẫu. Ví dụ:
Để nghiên cứu sinh viên trường ĐH, ta cần nghiên cứu các biến (tiêu thức) như: giới tính, tuổi, dân tộc,
ngành học, số tiền chi tiêu trong 1 tháng. . . Ví dụ:
• Quan sát 1: Giới tính: nam; tuổi: 20; dân tộc: Kinh; ngành học: kinh tế; tiền chi tiêu trong tháng: 2,5triệu đồng.
• Quan sát 2: Giới tính: nữ; tuổi: 21; dân tộc: Tày; ngành học: luật; tiền chi tiêu trong tháng: 2 triệu đồng.
d. Dữ liệu định tính và dữ liệu định lượng
• Biến định tính (hay tiêu thức thuộc tính): Phản ánh tính chất, loại hình, không thể hiện trực tiếp bằng các con số.
• Biến định lượng (hay tiêu thức số lượng): Biểu hiện trực tiếp bằng con số.
Ví dụ: Phân loại biến định tính và biến định lượng trong ví dụ 2 (giới tính, tuổi, dân tộc, ngành học,
số tiền chi tiêu trong 1 tháng).
• Biến định tính: Giới tính, dân tộc, ngành học.
• Biến định lượng: Tuổi, số tiền chi tiêu trong 1 tháng.
3. Các cấp bậc đo lường và thang đo
Trong thống kê người ta sử dụng bốn cấp bậc đo lường theo mức độ thông tin tăng dần, đó là thang đo:
định danh, thứ bậc, khoảng và tỉ lệ.
a. Thang đo định danh:
• Thang đo định danh (hay thang đo phân loại): Chỉ dùng để phân loại, không thể hiện sự hơn kém.
Thang đo này được sử dụng cho các dữ liệu định tính.
Ví dụ: Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,. . . là thang đo định danh.
• Người ta thường sử dụng các số tự nhiên để phân loại các đối tượng trong thang đo định danh. Đây làcác
mã số dùng để đếm số lần xuất hiện, không phải để so sánh hơn kém.
Ví dụ: Câu hỏi điều tra: Bạn hiện đang sống ở đâu? ( Chọn từ a đến d ) a. Sống cùng gia đình b. Ký túc xá c. Nhà trọ d. Trường hợp khác.
b. Thang đo thứ bậc
• Thang đo thứ bậc: Là thang đo định danh có thể hiện sự hơn kém của dữ liệu, nhưng không
biết chính xác mức độ hơn kém đó. Thang đo này được sử dụng cho các dữ liệu định tính và cả định lượng. • Ví dụ:
+ Đo thái độ đối với hành vi nào đó (hoàn toàn đồng ý, đồng ý, chưa quyết định, hoàn toàn không đồng ý)
+ Huân chương độc lập hạng Nhất, Nhì, Ba lOMoAR cPSD| 46663874
+ Thu nhập của bạn trong 1 tháng thuộc nhóm nào? • Dưới 5 triệu đồng
• Từ 5 đến 10 triệu đồng • Trên 10 triệu đồng Thang đo khoảng
- Thang đo khoảng: Là thang đo thứ bậc có khoảng cách đều nhau.
- Thang đo này đánh giá chính xác mức độ hơn kém cụ thể.
- Thang đo này được sử dụng cho các dữ liệu định tính và cả định lượng.
- Ví dụ: Thu nhập bình quân 1 tháng của bạn là: • Từ 1,5 triệu đến 2 triệu
• Từ 2 triệu đến 2,5 triệu
• Từ 2,5 triệu đến 3 triệu
(Khoảng cách đều nhau bằng 500 ngàn đồng. Thực hiện được các phép toán cộng và trừ.) -
Ví dụ: Tuổi hiện tại của bạn. Thang đo tỉ lệ
- Thang đo tỉ lệ: Là thang đo khoảng với điểm gốc 0 tuyệt đối (một giá trị thật) → điểm xuất phát của
độ dài đo lường trên thang đo → có thể so sánh tỉ lệ giữa các trị số đo. Là loại thang đo dùng cho các
dữ liệu định lượng. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo. - Ví dụ:
• Bạn nặng 50kg. Anh bạn nặng 75kg → Anh bạn nặng gấp rưỡi bạn (dù đổi ở bất cứ đơn vị nào).
• Các tiêu thức gắn với đơn vị đo kg, tấn, tạ, km, m,. . . thuộc thang đo tỉ lệ. Chú ý:
- Phân biệt thang đo khoảng và thang đo tỉ lệ: Trong thang đo tỉ lệ, giá trị 0 có nghĩa thật sự, cho phéplấy
tỉ lệ, so sánh giữa hai giá trị thu thập.
- Chỉ có thể đưa thang đo cao về thang đo thấp.
- Tuy nhiên không phải lúc nào cũng sử dụng thang đo hoàn hảo → tùy thuộc vào đặc điểm của hiệntượng,
tiêu thức nghiên cứu mà sử dụng phù hợp. - Ví dụ: Điểm tổng kết của sinh viên: Thang đo khoảng: • Kém • Từ 0 - 2 • Yếu
điểm • Từ 2 - 4 điểm • • Trung bình Từ 4 - 6 điểm • Khá • Từ 6 - 8 • Giỏi điểm • Từ 8 - 10 điểm Thang đo thứ bậc:
II. Thu thập dữ liệu lOMoAR cPSD| 46663874
1. Xác định dữ liệu thống kê
a. Khái niệm dữ liệu thống kê
- Dữ liệu thống kê: Là các sự kiện và số liệu được thu thập tổng hợp và phân tích để trình bày và giải
thích ý nghĩa của chúng.
- Phải xác định rõ những dữ liệu nào cần thu thập, thứ tự ưu tiên của các dữ liệu này. Dữ liệu cần
thuthập phụ thuộc vào vấn đề nghiên cứu.
Ví dụ: Nghiên cứu ảnh hưởng của điều kiện ăn ở, sinh hoạt đến kết quả học tập của sinh viên. Có
hai nhóm dữ liệu chính cần thu thập là:
(1) Điều kiện ăn ở sinh hoạt (2) Kết quả học tập.
Nhóm (1) cần thu thập dữ liệu liên quan như: Ở với cha mẹ hay ở kí túc xá, ở trọ? Có phòng riêng
hay sống chung nhiều người? Chỗ ở cách trường bao xa? Chỗ ở có ồn ào hay không?... Không cần
thu thập: Bàn học làm bằng sắt hay gỗ? Nhà có phòng vệ sinh hiện đại không, có bồn tắm không?…
b. Dữ liệu định tính và dữ liệu định lượng
Dữ liệu định tính phản ánh tính chất, sự hơn kém của đối tượng nghiên cứu.
Dữ liệu định lượng phản ánh mức độ của đối tượng.
Ví dụ: Trong ví dụ trên:
- Dữ liệu định tính: Giới tính của sinh viên.
- Dữ liệu định lượng: Điểm trung bình các môn học của sinh viên. 2. Nguồn dữ liệu
a. Dữ liệu thứ cấp và dữ liệu sơ cấp
Dữ liệu thứ cấp: Là dữ liệu được lấy từ nguồn có sẵn, thường đã được xử lý, tổng hợp.
Dữ liệu sơ cấp: Là dữ liệu được thu thập trực tiếp từ đối tượng nghiên cứu.
Ví dụ: Dữ liệu thứ cấp: Kết quả học tập của sinh viên.
Dữ liệu sơ cấp: Điều kiện ăn ở sinh hoạt của sinh viên. b. Đặc điểm
• Dữ liệu thứ cấp: Nội bộ (của 1 doanh nghiệp, đơn vị trường học, …), Cơ quan thống kê (Tổng cụcthống kê, …)
• Dữ liệu sơ cấp: Được thu thập trực tiếp tùy theo yêu cầu của nghiên cứu, từ doanh nghiệp, hộ gia đình,cá nhân, xã hội, …
3. Phương pháp thu nhập dữ liệu sơ cấp
a. Các phương pháp: • Thực nghiệm
• Khảo sát qua điện thoại • Thư hỏi • Quan sát trực tiếp • Phỏng vấn cá nhân
b. Các nội dung chính cần thực hiện trong thu thập dữ liệu
• Xác định vấn đề, đối tượng, mục đích nghiên cứu.
• Nghĩ ra câu hỏi và thiết kế bản câu hỏi hoàn chỉnh • Quyết định điều tra trên toàn bộ tổng thể hay trên mẫu.
• Thực hiện thu thập dữ liệu
Ví dụ: Một nhóm sinh viên trường ĐH Kinh Tế Luật muốn điều tra về sự ảnh hưởng của điều kiện
sinh hoạt đến độ cận thị của sinh viên trường ĐH Kinh Tế Luật.
• Đối tượng điều tra: Toàn bộ sinh viên trường ĐH Kinh Tế Luật.
• Bảng câu hỏi được điều tra như sau: lOMoAR cPSD| 46663874
(1) Giới tính của bạn là: Nam/Nữ
(2) Bạn đang sống ở: • Gia đình, nhà người thân • Ký túc xá • Nhà trọ
(3) Một ngày bạn giành bao nhiêu thời gian cho việc tự học? • Dưới 3 giờ • Khoảng 3-5 giờ • Trên 5 giờ (4) Một
ngày bạn sử dụng máy vi tính bao lâu? • Dưới 1 giờ • 1 - 3 giờ • 3 - 5 giờ • Trên 5
giờ (5) Hiện nay mắt của bạn bao nhiêu độ?
c. Kỹ thuật thiết kế bảng câu hỏi
• Cần xác định rõ các vấn đề sau: Dữ liệu cần thu thập, nội dung bảng câu hỏi; hình thức,trình tự bảngcâu
hỏi; hình thức trả lời
• Các dạng câu hỏi trong bảng câu hỏi: Câu hỏi mở (bạn có suy nghĩ gì về? …), Câu hỏi đóng(Đúng/sai;
Có/không), Câu hỏi phân mức, Câu hỏi chấm điểm, …
• Chú ý: Các câu hỏi cần đơn giản, không dài dòng, tránh câu hỏi đa nghĩa, câu hỏi gợi ý, tránh
câu hỏi không công bằng
4. Các kỹ thuật chọn mẫu
- Mục đích của việc chọn mẫu là bảo đảm cho mẫu được chọn thực sự phản ánh trung thực, đại diện chotoàn bộ tổng thể.
- Sau khi thu thập dữ liệu, ta lập được 1 danh sách, từ danh sách này ta tiến hành chọn mẫu.
- Có hai nhóm kĩ thuật chọn mẫu:
• Lấy mẫu ngẫu nhiên ( Lấy mẫu xác suất )
• Mẫu không ngẫu nhiên ( Lấy mẫu phi xác suất ).
Ví dụ: Điều tra chi tiêu của người dân sống ở Tp Hồ Chí Minh.
Ví dụ: Điều tra chi tiêu của những người có thu nhập cao sống ở Tp Hồ Chí Minh.
a. Kỹ thuật chọn mẫu ngẫu nhiên đơn giản
- Là loại mẫu được chọn trực tiếp và ngẫu nhiên từ tổng thể.
• Tổng thể nhỏ: Mẫu được chọn bằng cách bốc thăm, quay số,. . .
( Ví dụ: Chọn ngẫu nhiên 10 bạn trong lớp bằng cách bốc thăm )
• Tổng thể lớn: Mẫu được chọn bằng hàm random trong Excel hoặc SPSS.
- Phương pháp này có thể cho 1 kết quả tốt và đảm bảo tính ngẫu nhiên.
b. Kỹ thuật chọn mẫu hệ thống (máy móc) lOMoAR cPSD| 46663874
Mỗi đơn vị được chọn vào mẫu căn cứ vào từng khoảng cách nhất định (khoảng thời gian,không gian,thứ tự bằng nhau).
Phương pháp:
• Đánh số thứ tự cho danh sách chọn mẫu. Tổng số lượng N.
• Xác định cỡ mẫu muốn lấy. Số lượng n.
• Chia danh sách thành k nhóm k = N/n, k được gọi là khoảng cách chọn mẫu.
• Nếu N chia hết cho n (k nguyên): Chọn mẫu hệ thống theo đường thẳng: Trong nhóm đầu tiên lấy rangẫu
nhiên 1 phần tử, các phần tử tiếp theo được lấy cách phần tử này 1 khoảng là k, 2k, 3k,. . .
• Nếu N không chia hết cho n (k thập phân): Chọn mẫu hệ thống quay vòng: Chọn ngẫu nhiên 1 phần
tửbất kì trong danh sách từ 1 đến N. Các phần tử tiếp theo được lấy cách phần tử này 1 khoảng là k, 2k,
3k,. . . Nếu đến hết danh sách chưa lấy đủ n đơn vị mẫu thì ta quay lại đầu danh sách với quy ước N + i
tương ứng với đơn vị thứ i trong danh sách.
Ví dụ: Chọn 10 số từ 60 số tự nhiên đầu tiên theo phương pháp chọn mẫu hệ thống. N
= 60, n = 10, k = N/n = 6 (số đầu được chọn từ 6 số đt)
• Nếu phần tử được chọn đầu tiên là 4 thì ta được mẫu là: 4, 10, 16, 22, 28, 34, 40, 46, 52, 58.
• Nếu phần tử được chọn đầu tiên là 6 thì ta được mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 60.
Ví dụ: Chọn 10 số từ 56 số tự nhiên đầu tiên theo pp chọn mẫu hệ thống. N
= 56, n = 10, k = N/n = 5, 6, chọn k = 6.
• Nếu phần tử được chọn đầu tiên là 6 thì ta được mẫu là: 6, 12, 18, 24, 30, 36, 42, 48, 54, 4 ( = 54 + 6 - 56).
• Nếu phần tử được chọn đầu tiên là 13 thì ta được mẫu là: 13, 19, 25, 31, 37, 43, 49, 55, 5, 11.
c. Kỹ thuật chọn mẫu khối / cụm và chọn mẫu nhiều giai đoạn
- Tổng thể được chia thành nhiều khối, mỗi khối xem như một tổng thể con. Lấy ngẫu nhiên đơn giản
mkhối, sau đó khảo sát hết các đối tượng trong các khối mẫu đã được lấy ra.
Ví dụ: Quận Thủ Đức có khoảng 800 khu phố, điều tra mức sống của dân cư ở đây, ta có thể chọn ra
ngẫu nhiên 10 khu phố, sau đó khảo sát toàn bộ hộ dân của 10 khu phố này.
- Nếu ta chỉ khảo sát một số đơn vị trong mỗi khối được chọn thì được gọi là chọn mẫu hai giai đoạn.
Ví dụ: Chọn ra ngẫu nhiên 10 khu phố, trong mỗi khu phố chọn ra khoảng 10 hộ gia đình.
Chú ý: Kỹ thuật này áp dụng khi ta không có sẵn một danh sách quan sát để chọn ra mẫu.
d. Kỹ thuật chọn mẫu phân tầng
- Tổng thể được chia thành nhiều tầng sao cho các đơn vị trong mỗi tầng ít khác nhau. Các đơn vị
đượcchọn từ các tầng theo phương pháp lấy mẫu xác suất.
Ví dụ: Điều tra thu nhập của người dân ở một địa phương A. → Phân chia người dân theo 3 nhóm ngành
nghề: Lao động phổ thông, chuyên gia, quản lý cấp cao. Điều tra ngẫu nhiên một số người ở mỗi nhóm.
e. Kỹ thuật chọn mẫu thuận tiện
- Đến những nơi có nhiều khả năng gặp được đối tượng muốn khai thác thông tin mà ta cảm thấy tiện lợi.
Ví dụ: Để mở spa thì điều tra đối tượng nào? Điều tra ngẫu nhiên ? Hay tập trung vào 1 nhóm đối tượng nào đó?
f. Kỹ thuật chọn mẫu định mức
- Tương tự như chọn mẫu phân tầng, tuy nhiên trong mỗi tầng các đơn vị được chọn theo cách thuận tiện hoặc phán đoán.
Ví dụ: Điều tra sự yêu thích hoạt động Đoàn của sinh viên ĐH KTL, ta quyết định điều tra cỡ mẫu 200,
yêu cầu về giới tính: là nữ, trong đó về nơi ở: ở KTX, …
g. Kỹ thuật chọn mẫu phán đoán: lOMoAR cPSD| 46663874
- Chủ yếu dựa vào kinh nghiệm phỏng vấn.
III. Trình bày dữ liệu bằng bảng và biểu đồ
* Đối với dữ liệu định tính
• Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
• Đồ thị hình cột, đồ thị đường gấp khúc, biểu đồ hình tròn.
* Đối với dữ liệu định lượng • Phân tổ dữ liệu.
• Bảng tần số, tần suất, tần số tích lũy, tần suất tích lũy.
• Biểu đồ hình cột, đồ thị đường gấp khúc, biểu đồ hình tròn.
• Biểu đồ nhánh và lá. 1. Bảng tần số
Ví dụ: Năm 2006, Tuổi trẻ Online có làm cuộc khảo sát về bình chọn Quốc hoa Việt Nam, kết quả thu được như sau: Quốc hoa được Số lượt bình Tỉ lệ chọn chọn Hoa sen 67009 49.6% Cây tre 47288 35% Hoa mai 15850 11.73% Đề xuất khác 4951 3.66% Tổng 135097 100%
Bảng tần số là một bảng tổng hợp, trình bày dữ liệu, thường bao gồm ba cột:
• Cột 1: Các biểu hiện hoặc các giá trị (Khoảng giá trị) của dữ liệu.
• Cột 2: Tần số tương ứng (Số lần từng biểu hiện đó xuất hiện trong tập dữ liệu).
• Cột 3: Tần suất (Tỉ lệ % xuất hiện).
a. Bảng tần số cho dữ liệu định tính
Đối với các dữ liệu định tính như giới tính, ngành học, … bảng tần số có dạng: Biểu hiện Tần số f i
Tần suất d i= Biểu hiện f 1 1 d 1 Biểu hiện f 2 2 d 1 … … … Biểu hiện f k k d k k k Tổng i 1 f i = n i 1 d i = 100%
Ví dụ: Bảng tần số ngành học của sinh viên một trường đại học như sau. Tần số ( Sinh
Tần suất Ngành học viên ) ( % ) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông 200 20 tin Tổng 1000 100 lOMoAR cPSD| 46663874
b. Bảng tần số cho dữ liệu định lượng
Có hai trường hợp: Dữ liệu có ít giá trị và dữ liệu có nhiều giá trị.
• Trường hợp dữ liệu có ít giá trị: Bảng tần số cũng có ba cột tương tự trường hợp dữ liệu định tính,
nhưng cột thứ nhất ghi các giá trị của dữ liệu.
• Trường hợp dữ liệu có nhiều giá trị: Trước hết ta phân tổ (phân nhóm) cho các giá trị rồi mới lập bảng
tần số trên cơ sở dữ liệu 4 đã phân tổ.
Ví dụ: Khảo sát điểm thi môn Toán của một số sinh viên, ta được bảng dữ liệu sau Điểm Tần số ( Sinh
Tần suất thi viên ) ( % ) 3 3 3.75 4 12 15 5 15 18.75 6 20 25 7 16 20 8 8 10 9 4 5 10 2 2.5 Tổng 80 100
Ví dụ: Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng như ở ví dụ 2 thì sẽ rất
dài, làm mất đi tác dụng tóm lược thông tin.
Do đó ta sẽ phân thành các tổ, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ 51 đến 60.
Đây là kiểu phân tổ theo kinh nghiệm. Trên thực tế người ta thường phân tổ với khoảng cách đều nhau.
c. Phương pháp phân tổ dữ liệu với khoảng cách đều nhau
• Giả sử mẫu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần lượt là xmax , xmin
• Gọi k là số tổ cần chia và h là khoảng cách chung của các tổ. • Khi đó, người ta thường xác định k và h bởi công thức 3 2n k = xmax xmin h = k
Ví dụ: Chiều cao (cm) của các sinh viên trong một lớp học 40 sinh viên như sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179 Hãy
tính số tổ, khoảng cách tổ và lập bảng tần số. Giải:
• Với n = 40, xmax = 179, xmin = 153, ta có số tổ: * Lưu ý: lOMoAR cPSD| 46663874 2 . 40 k = 3 2n = k = k = 3 4,3 4.
• Đối với số tổ: xuống
Kết quả có thể làm tròn lên hoặc
• Khoảng cách tổ của mỗi tổ Vd: k = 4,2 suy ra k = 4 xmax xmin 179 153 k = 4,5 suy ra k = 5 h = k = h = 4 = 6,5
• Đối với khoảng cách tổ: Kết quả phải làm tròn
Chọn h = 7. Vậy ta cần chia 4 tổ, với khoảng
lên để không gia tăng số tổ cách của mỗi tổ là 7.
Vd: h = 4,2 suy ra h = 5 Bảng tần số
Chiều Tần Tần cao số suất 152 - 159 7 17.5 159 - 166 19 47.5 166 - 173 8 20 173 - 180 6 15 Tổng 40 100
* Một số điều kiện phải tuân thủ khi phân tổ:
• Các tổ không được trùng nhau, mỗi giá trị chỉ thuộc về một tổ.
• Tất cả các tổ phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu. • Không có tổ rỗng.
- Trong bảng tần số người ta có thể thêm vào cột tần số tích luỹ ( hoặc tần suất tích luỹ ) Giá Tần Tần Tần số tích Tần suất tích trị số suất lũy lũy x 1 f 1 d 1 f 1 d 1 x 2 f 2 d 2 f 1 + f 2 d 1 + d 2 … … … … … x k f k d k f 1 + … + f k d 1 + … + d k Tổng n 100 % d. Phân tổ mở
• Tổ đầu tiên không có giới hạn dưới.
• Tổ cuối cùng không có giới hạn trên.
• Các tổ còn lại có khoảng các đều hoặc không đều.
Quy ước: Khoảng cách tổ của tổ mở bằng khoảng cách tổ của tổ gần nó nhất. Ví dụ:
Năng suất lúa Tần số
( tạ/ha ) ( ha ) < 35 5 35 - 40 10 40 - 45 20 45 - 45 12 50 3 Tổng 50 lOMoAR cPSD| 46663874
e. Bảng tần số kết hợp hai biến
Ví dụ: Điều tra chi tiêu của 200 sinh viên tại 3 vùng Bắc, Trung, Nam được kết quả như sau Chi < 1.5 - >
tiêu 1.5 2 2 Vùng Bắc 30 40 20 Trung 30 20 10 Nam 10 25 15 Tổng 70 85 45
Bảng tần số kết hợp 2 biến “chi tiêu” và “vùng” được lập như sau Vùng Chi tiêu < 1.5
1.5 - 2 > 2 Tần Tần Tần Tần Tần Tần số suất số suất số suất Bắc 30 42.86 40 20 Trung 30 42.86 20 10 Nam 10 14.28 25 15 Tổng 70 100 85 100 45 100
2. Đồ thị thống kê
a. Biểu đồ hình cột
Chú ý: Nếu các cột trong biểu đồ nằm ngang thì biểu đồ thường được gọi là biểu đồ dạng thanh.
b. Đồ thị gấp khúc lOMoAR cPSD| 46663874
c. Biểu đồ hình tròn ( pie chart )
d. Biểu đồ nhánh và lá
- Đây là cách tóm tắt dữ liệu mà không làm mất thông tin của dữ liệu. Mỗi số liệu thu thập được sẽ đượctách
thành 2 phần: nhánh và lá.
- Hai phần này được sắp vào 2 cột trong một bảng.
(1) Xây dựng nhánh cho biểu đồ: Sắp xếp các giá trị nhánh theo thứ tự tăng dần.
(2) Xây dựng lá cho biểu đồ: Liệt kê lần lượt các giá trị lá ứng với mỗi nhánh.
(3) Xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn.
- Có thể thêm cột tần số và tách nhánh nếu nhánh quá dài.
Ví dụ: Chúng ta có dữ liệu điều tra về tuổi của 20 nhà đầu tư trên một sàn chứng khoán như sau:
24 35 47 55 21 33 54 42 37 46
51 23 19 45 37 40 32 29 52 59 Lập
biểu đồ nhánh và lá cho dữ liệu trên. Giải:
Nhánh là chữ số hàng chục (1, 2, 3, 4, 5), lá là các chữ số hàng đơn vị. Nạp
dữ liệu vào nhánh và lá. Nhán Lá h 1 9 2 4 1 3 9 5 3 7 7 3 2 7 2 6 5 4 0 5 4 1 2 5 9 lOMoAR cPSD| 46663874
Sắp xếp lá theo thứ tự tăng dần, bổ sung tần số và chú thích độ rộng của nhánh. Tần Nhán Lá số h 1 1 9 4 2 1 3 4 9 2 3 5 7 5 3 7 0 2 5 6 5 4 7 1 2 4 5 5 5 9 Độ rộng của nhánh: 10
IV. Tóm tắt dữ liệu bằng các đại lượng thống kê mô tả
1. Các đại lượng đo lường2.
Các đại lượng đo lường độ
độ tập trung phân tán 3. Khảo sát hình dáng của • Trung bình cộng•
Khoảng biến thiên phân phối
(mean) • Độ trải giữa • Phân phối cân đối
• Số yếu vị (mode) •
Phương sai và độ lệch • Phân
phối lệch trái và lệch • Trung vị (median) chuẩn phải • Phân vị (quantile) • Hệ số biến thiên 1.
2. Các đại lượng đo lường tập trung a. Trung bình cộng
• Trung bình cộng đơn giảnn: Số quan sát hay cỡ mẫu n i 1 xi 1 = n với
xi : Giá trị trên quan sát thứ I
• Trung bình cộng có trọng sốn: Số quan sát hay cỡ mẫu k i 1 f i xi 1 16 x = = 5,6875
Ví dụ: Điểm thi Toán của một số sinh viên cho trong bảng sau đây. Hãy tính điểm thi trung bình
của nhóm sinh viên này? lOMoAR cPSD| 46663874 k x = i 1 f i v i ớ: Giá tr trên quan sát th Iị ứ xi
: Tầần sốố c a quan sát th i ủ ứ fi
Ví dụ: Điểm thi môn Toán của 16 sinh viên là: 2, 4, 5, 8, 9, 3, 6, 6, 8, 10, 2, 3, 6, 4, 7, 8. Ta có trung
bình mẫu (điểm thi trung bình của 16 sinh viên này) là: 2 4 ... 8 Điểm
0 1 2 3 4 5 6 7 8 9 1 0
Số sinh 1 1 2 1 1
0 3 5 4 2 1 viên 2 8 9 6 0 0 0 1 3 ... 10 1* * * x = 0 3 ... 1 = 5,57
* Trường hợp dữ liệu phân tổ có khoảng cách thì áp dụng công thức tính trung bình với: xi(max) xi(min) i = 2 x
Ví dụ: Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng. Sản phẩm được
phân tổ theo khối lượng như sau: Khối
lương Số sản ( gam ) phẩm 484 - 490 5 490 - 496 10 496 - 502 15 502 - 508 13 508 - 514 7 Cộng 50
Tính khối lượng trung bình của sản phẩm trong mẫu? lOMoAR cPSD| 46663874
* Đặc điểm của trung bình cộng:
• Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá nhỏ).
• Không tính trung bình cộng cho dữ liệu định danh.
Ví dụ: 1 = màu đen; 2 = màu trắng; 3 = màu khác.
• Nên cân nhắc việc tính trung bình cho dữ liệu định lượng đo lường bằng thang đo khoảng. Ví dụ: 1 =
không đồng ý, 2 = bình thường, 3 = đồng ý, 4 = rất đồng ý.
b. Số yếu vị (Mode)
Số yếu vị (mode): Là giá trị, kí hiệu Mode, Mod hoặc Mo, sao cho số đơn vị của tổng thể có lượng biến (
xấp xỉ ) bằng Mode là lớn nhất.
• Dữ liệu không phân tổ: Mode là xi ứng với fi lớn nhất.
• Dữ liệu phân tổ có khoảng cách đều nhau: fM fM 1
Mode = xM(min) + hM (fM fM 1 ) ( fM fM 1 )
Trong đó M là số thứ tự của tổ có tần số lớn nhất, hM là khoảng cách của tổ thứ M. Nếu không có
tổ kề trước / sau thì tần số của tổ tương ứng bằng 0. • Phân tổ có khoảng cách không đều nhau: thay fi bởi fi/hi fM/hM fM 1 x /hM 1 Mode =
M(min) + hM (fM M/h fM 1 /hM 1 ) (fM/hM fM 1 /hM 1 ) f M h
Trong đó tổ M là tổ có mật độ phân phối M cao nhất. Ví dụ 1: 1 0 1 2 3 4 5 6 7 8 9 Điểm 0 => Mode = 6 1 1 2 1 1
Số sinh viên 0 3 5 4 2 1 2 8 9 6 0
Ví dụ 2: Tính mode của mẫu dữ liệu về doanh số bán hàng của trạm xăng trong 1 tháng
Doanh số bán (triệu Số đồng) trạm 200 - 300 8 300 - 400 10 400 - 500 20 500 - 600 5 600 - 700 7 Tổng 50 lOMoAR cPSD| 46663874 => Mo = 400 + 100 . = 443,48
Ví dụ 3: Tính mode của mẫu dữ liệu về doanh thu của 79 cửa hàng trong 1 tháng. Doanh Số cửa thu hàng 200 - 400 8 400 - 500 12 500 - 600 25 600 - 800 25 800 - 1000 9 Tổng 79 Giải:
Xác định tổ có mật độ phân phối lớn nhất Doanh Số cửa Khoảng cách Mức độ phân thu hàng tổ phối 200 - 400 8 200 0.04 400 - 500 12 100 0.12 500 - 600 25 100 0.25 600 - 800 25 200 0.125 800 - 1000 9 200 0.045 Tổng 79 => Mo = 500 + 100 . = 550,9
=> Vậy đa số cửa hàng có doanh thu khoảng 550,9 triệu đồng. Chú ý:
• Mode là đại lượng thống kê mô tả duy nhất có thể vận dụng cho dữ liệu định tính.
• Mode không bị ảnh hưởng bởi các giá trị đột biến.
• Một tập dữ liệu có thể có nhiều mode hoặc không có mode.
c. Trung vị (Median)
• Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị (Me) là giá trị đứng
giữa củatập dữ liệu.
• Trung vị chia dãy số làm hai phần, mỗi phần có số lượng bằng nhau = 50%. Ví dụ:
* Xác định trung vị cho dữ liệu không phân tổ:
• Trường hợp số phần tử của mẫu n là số lẻ: Me = x 2 n 1 lOMoAR cPSD| 46663874 x xn n 2 2 2
• Trường hợp số phần tử của mẫu n là số chẵn: Me = 2
* Xác định trung vị cho dữ liệu có phân tổ
(1) Tính tần số tích luỹ.
(2) Tổ chứa trung vị là tổ thứ M đầu tiên có tần số tích luỹ ≥
(3) Áp dụng công thức n SM 1 2
Med = xM(min) + hM f M Trong đó:
• xM(min) là giới hạn dưới của tổ thứ M,
• hM là khoảng cách của tổ thứ M,
• SM - 1 = f1 + f2 + · · · + fM - 1 là tần số tích luỹ của tổ thứ M − 1, • fM là tần số của tổ thứ M.
Ví dụ: Tính trung vị của mẫu dữ liệu sau Khối
lượng Số sản ( gam ) phẩm 484 - 490 5 490 - 496 10 496 - 502 15 502 - 508 13 508 - 514 7 Cộng 50 Giải:
Xác định tổ đầu tiên có tần số tích lũy lớn hơn hoặc bằng = 25 Khối
lượng Số sản Tần số tích ( gam ) phẩm lũy 484 - 490 5 5 Trung vị là: 490 - 496 10 15 496 - 502 15 30 15 502 - 508 13 508 - 514 7 Me = 496 + 6 . 15 Cộng 50
= 500 d. Tứ phân vị lOMoAR cPSD| 46663874
- Tứ phân vị là tập hợp 3 số Q1, Q2, Q3 chia tập dữ liệu đã được sắp thứ tự thành bốn phần có số đơn vị bằng nhau.
• Nếu n + 1 chia hết cho 4: Q xn 1 x 2(n 1) 1 =
4 , Q 2 =
4 , Q 3 = 4 . x 3(n 1)
• Nếu n + 1 không chia hết cho 4: Q1, Q2, Q3 là các số trung gian được chia theo đúng tỷ lệ. Ví dụ:
1800, 1900, 2000, 2100, 2200, 2500, 2700, 2800.
Các vị trí , , lần lượt là 2,25; 4,5 và 6,75. Do đó:
Q1 = 1900 + 0,2 . (2000 − 1900) = 1925
Q2 = 2100 + 0,5 . (2200 − 2100) = 2150
Q3 = 2500 + 0,75 . (2700 − 2500) = 2650. e. Thập phân vị
- Thập phân vị là tập hợp 9 số Q1, Q2, . . . , Q9 chia tập dữ liệu đã được sắp thứ tự thành 10 phần có số đơn vị bằng nhau. x n 1 x 2(n 1) x 9(n 1)
• Nếu n + 1 chia hết cho 10: Q1 = 10 , Q2 = 10 . . . , Q9 = 10 .
• Nếu n + 1 không chia hết cho 10: Q1, Q2, . . . , Q9 là các số trung gian được chia theo đúng tỷ lệ. f. Phân vị
- Trong một dãy số đã sắp thứ tự, phân vị thứ p (0 < p < 1) là giá trị chia bộ dữ liệu ra làm 2 phần với tỷ lệ
số phần tử lần lượt là p và 1 - p Qp = x(n + 1)p
Ví dụ: Danh sách tiền lương tháng của 8 công nhân đã được xếp từ thấp đến cao như sau: 1800,
1900, 2000, 2100, 2200, 2500, 2700, 2800. Hỏi 60% số công nhân có tiền lương thấp hơn bao nhiêu? Giải:
Q60% = x(8 + 1).60% = x5,4 = 2200 + 0,4 . (2500 - 2200) = 2320
3. Khoảng biến thiên R = xmax - xmin
Ví dụ: 1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 5 ⇒ R = 5 − 1 = 4,
1, 1, 1, 1, 1, 1, 2, 2, 3, 3, 3, 4, 4, 4, 5, 5, 5, 121 ⇒ R = 121 − 1 = 120. lOMoAR cPSD| 46663874
a. Độ trải giữa ( Khoảng tứ phân vị ) RQ = Q3 - Q1
Ví dụ: Tiền lương của 2 tổ công nhân: Tổ I: 0,9 1,2 1,5 1,8 2,1 2,4 2,7 3,0 3,3 3,6 3,9. Tổ
II: 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9. RQ 1 = 3,3 − 1,5 = 1,8; ⇒ RQ 2 = 2,7 − 2,1 = 0,6.
=> Độ trải giữa của tổ I lớn hơn của tổ II nên các mức lương trong tổ I biến thiên nhiều hơn trong tổ II. b. Phương sai
• Với dữ liệu chưa phân tổ: n
i 1 (xi x) (x1 x ) (2 x2 x )2 ... (xn x )2 2 = n = n
• Với dữ liệu đã phân tổ: k 2 x ... ( ) f ( ( xi i x1 x)2 f1 (x2 x)2 f 2 xk x)2 f k i 1 k k 2 = i 1 f i = i 1 f i
c. Độ lệch chuẩn
- Độ lệch chuẩn được sử dụng để so sánh độ phân tán của hai hay nhiều tổng thể (khi đơn vị tính giốngnhau
hoặc giá trị trung bình bằng nhau). = 2
Ví dụ: Xác định độ lệch chuẩn về khối lượng của 50 sản phẩm như sau: Khối lượng Số sản (gam) phẩm 484 - 490 5 490 - 496 10 496 - 502 15 502 - 508 13 508 - 514 7 Cộng 50 Giải: =7,1
- Tính trung bình và độ lệch chuẩn bằng máy tính bỏ túi lOMoAR cPSD| 46663874 • fx-570VN Plus / fx-570ES Plus: • fx-580VN X
- Độ lệch chuẩn cung cấp thông tin về phân phối của các giá trị trong một tổng thể, thể hiện trên hai quytắc sau đây:
• Quy tắc Tchebychev: Bất kì một tổng thể nào với trung bình là và độ lệch chuẩn là thì đều có ít nhất 1
1 − m2 . 100% giá trị rơi vào khoảng ( − m, µ + m ) với m > 1.
Vậy với một phân phối bất kì thì:
+ Ít nhất 75% giá trị rơi vào ( µ − 2σ, µ + 2σ ),
+ Ít nhất 88,9% giá trị rơi vào ( µ − 3σ, µ + 3σ ).
Ví dụ: Tiền lương hàng năm của 7 công nhân một xí nghiệp là: 34,5;
30,7; 32,9; 36,0; 34,1; 33,8; 32,5 (triệu đồng). Khi đó:
Tiền lương trung bình = 33,5. Độ lệch tiêu chuẩn = 1,678.
Theo quy tắc Tchebychev, có ít nhất 55,6% mức lương rơi vào khoảng 33,5 ± 1,5 . 1, 678. Nghĩa
là từ 30,983 đến 36,017 (triệu đồng/năm).
• Quy tắc thực nghiệm: Khi X có phân phối chuẩn N(µ, σ2 ) thì
- Khoảng 68% giá trị rơi vào (µ − σ, µ + σ)
- Khoảng 95% giá trị rơi vào (µ − 2σ, µ + 2σ)
- Khoảng 99,7% giá trị rơi vào (µ − 3σ, µ + 3σ).
Quy tắc thực nghiệm giúp ta có cơ sở nhận diện những giá trị bất thường trong một tập dữ liệu.
Chẳng hạn, khi tập dữ liệu có phân phối cân đối, ta thấy có 5% giá trị rơi ra ngoài khoảng ±2σ so với
trung bình, vậy ta xem những giá trị này là các quan sát ngoại lệ. lOMoAR cPSD| 46663874
Ví dụ: Điểm thi môn Toán của một lớp học có dạng phân phối chuẩn N(5, 6; 1, 412 ). Giảng viên
quyết định áp dụng quy tắc để xét sinh viên xuất sắc là sinh viên nằm trong nhóm 2,5%
có điểm số cao nhất.
(1) Sinh viên được bao nhiêu điểm thì được xếp loại xuất sắc?
(2) Trong ví dụ trên, 68% sinh viên sẽ có điểm thi nằm trong khoảng nào?
(3) Có bao nhiêu % sinh viên có điểm thi dưới 2,78 điểm?
(4) Nếu không có giả thiết điểm của lớp học trên có phân phối chuẩn, có ít nhất baonhiêu %
sinh viên có điểm trong khoảng (2,78 ; 8,42)?
(5) Nếu không có giả thiết điểm của lớp học trên có phân phối chuẩn, ít nhất 50% sinhviên
sẽ có điểm trong khoảng nào? Trả lời:
(1) Những sinh viên có điểm từ µ + 2σ = 5,6 + 2 . 1,41 = 8, 42 trở lên được xếp loại sinh viên xuất sắc. (2) ( 4,19; 7,01 ). (3) 2,5%. (4) 75%. (5) (3,606; 7,594).
d. Hệ số biến thiên
- Hệ số biến thiên được sử dụng để đo lường mức độ biến động tương đối của những tập dữ liệu có giá
trịtrung bình khác nhau hoặc đơn vị đo khác nhau. σ CV = x
- Khi hệ số biến thiên của hai tập dữ liệu được so sánh với nhau, hệ số biến thiên của tập nào lớn hơn thìtập
đó biến động nhiều hơn.
Ví dụ: Thu nhập bình quân đầu người một năm ở quốc gia A là 50000 USD, độ lệch chuẩn 10000
USD. Thu nhập bình quân đầu người một năm ở quốc gia B là 5000 USD, độ lệch chuẩn 2000
USD. Chênh lệch giàu nghèo ở đâu cao hơn? Trả lời: CVA = = 0,2; CVB = = 0,4.
=> Vậy chênh lệch giàu nghèo ở B cao hơn.
e. Chuẩn hóa dữ liệu
- Giá trị dữ liệu đã chuẩn hóa z sẽ cho biết một giá trị quan sát x trong dữ liệu gốc lệch khỏi trung bình µcủa
nó mấy lần độ lệch chuẩn. - Công thức tính giá trị chuẩn hoá: z x μ σ - Nếu:
• z ≈ 0: Quan sát ở vị trí rất gần trung bình,
• z = −1: Quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với trung bình về phía trái,
• z = 1: Quan sát ở vị trí lệch 1 độ lệch tiêu chuẩn so với trung bình về phía phải.