-
Thông tin
-
Hỏi đáp
Tài liệu ôn tập nguồn sách giáo khoa - Tài liệu tham khảo | Đại học Hoa Sen
Tài liệu ôn tập nguồn sách giáo khoa - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả
Thống kê trong kinh doanh (DC 119DV02) 90 tài liệu
Đại học Hoa Sen 4.8 K tài liệu
Tài liệu ôn tập nguồn sách giáo khoa - Tài liệu tham khảo | Đại học Hoa Sen
Tài liệu ôn tập nguồn sách giáo khoa - Tài liệu tham khảo | Đại học Hoa Sen và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả
Môn: Thống kê trong kinh doanh (DC 119DV02) 90 tài liệu
Trường: Đại học Hoa Sen 4.8 K tài liệu
Thông tin:
Tác giả:
Tài liệu khác của Đại học Hoa Sen
Preview text:
TRƯỜNG ĐẠI HỌC HOA SEN
BỘ MÔN KHOA HỌC TỔNG QUÁT
--------------------------------
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Giáo trình lưu hành nội bộ)
Thành phố Hồ Chí Minh – 2023 Trang 1
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Năm học 2023 – 2024 - Trường Đại học Hoa Sen)
PHẦN I. THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU
I.1. THU THẬP DỮ LIỆU 1. Thống kê là gì?
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số
liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân
tích, dự đoán và ra quyết định.
Như vậy, thống kê có hai lĩnh vực:
- Thống kê mô tả: Bao gồm các phương pháp thu thập, trình bày dữ liệu và tính
toán các đặc trưng nhằm mô tả đối tượng nghiên cứu.
- Thống kê suy diễn: Bao gồm các phương pháp mô hình hoá trên các dữ liệu quan
sát để đưa ra các suy diễn về tập hợp các đơn vị được nghiên cứu.
Thống kê ứng dụng là một môn học thuộc thống kê học, nghiên cứu hệ thống các
phương pháp thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng
số lớn trong nhiều lĩnh vực khác nhau trong đời sống … để tìm hiểu bản chất và tính
quy luật vốn có của chúng (mặt chất) trong những điều kiện thời gian và địa điểm cụ thể.
Thống kê ứng dụng là khoa học về ra quyết định khi đối mặt với sự không chắc chắn và
được sử dụng trong nhiều lĩnh vực như: phân tích tài chính, kinh tế, kiểm toán, sản xuất
và hoạt động, nghiên cứu tiếp thị, y tế, giáo dục,…
2. Các khái niệm cơ bản
2.1. Tổng thể, đơn vị tổng thể, mẫu
Tổng thể thống kê (hay tổng thể - population) là tập hợp tất các các đối tượng mà ta
nghiên cứu. Các đơn vị (hay phần tử - elements) tạo thành tổng thể được gọi là đơn vị
tổng thể. Mẫu (sample) là một bộ phận lấy ra từ tổng thể.
Ví dụ 1. Khi nghiên cứu đặc điểm của nhóm khách hàng sử dụng một loại sản phẩm
nào đó trên địa bàn Thành phố Hồ Chí Minh (Tp. HCM) ta chọn ra 500 khách hàng
đang sử dụng sản phẩm đó tại Tp. HCM. Cho biết tổng thể, đơn vị tổng thể và mẫu. 2.2 Biến
Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại:
- Biến định tính (categorical/qualitative variable): Thể hiện tính chất của đơn vị được khảo sát;
- Biến định lượng (Quantitative variable): Thể hiện bằng các con số.
Ví dụ 2. a) Khi nghiên cứu đặc điểm của khách hàng, có các biến: giới tính, tuổi, nghề nghiệp, thu nhập, …
b) Khi nghiên cứu các doanh nghiệp, mỗi doanh nghiệp có thể nghiên cứu trên các biến
như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, … Trang 2
Một số biến có thể đồng thời là biến định tính và biến định lượng. Chẳng hạn, “tuổi” là
biến định lượng vì nó thể hiện bằng con số. Tuy nhiên, nếu chúng ta phân loại tuổi
thành 4 nhóm: trẻ em, thiếu niên, thanh niên, người già thì nó lại là biến định tính. 2.3 Dữ liệu
Dữ liệu là kết quả quan sát được của các sự kiện hay hoạt động. Dữ liệu được thu thập,
trình bày dưới dạng bảng có nhiều hàng và cột nhằm trình bày và giải thích cho một vấn đề nào đó.
Dữ liệu cũng được phân biệt thành hai loại: - Dữ liệu định tính;
- Dữ liệu định lượng.
Các doanh nghiệp luôn dựa vào nguồn dữ liệu để lập kế hoạch và nâng cao hiệu quả
kinh doanh. Tất cả các dữ liệu được thu thập trong một nghiên cứu cụ thể được gọi là bộ dữ liệu (data set).
Dữ liệu được thu thập để ghi lại các giao dịch của công ty còn được gọi là dữ liệu giao
dịch (transactional data). Quá trình sử dụng dữ liệu giao dịch nhằm để đưa ra các quyết
định hoặc phân tích dự báo (data mining/predictive analytics) gọi là phân tích dữ liệu.
Dữ liệu thường được trình bày dưới dạng bảng. Mỗi dòng là một đơn vị tổng thể mà
chúng ta cần phải quan sát, thu thập. Mỗi biến của đơn vị tổng thể được thể hiện trong một cột.
Ví dụ 3. Đây là một bảng dữ liệu:
Bộ dữ liệu cũng có thể được chia thành nhiều bảng có mối liên hệ với nhau. Ví dụ: Trang 3
Ba bảng trên có mối liên hệ với nhau. Chúng ta có thể nhìn vào các khách hàng đề tìm
những sản phẩm mà họ đã mua, hoặc cũng có thể nhìn vào một sản phẩm để tìm khách hàng đã mua nó. 2.4. Nguồn dữ liệu
Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công bố
hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới.
- Dữ liệu thứ cấp: Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí.
- Dữ liệu sơ cấp: Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu.
Ví dụ 4. Khi nghiên cứu về ảnh hưởng của việc đi làm thêm đối với kết quả học tập, thì
đâu là nguồn dữ liệu thứ cấp, đâu là nguồn dữ liệu sơ cấp?
a) Nguồn dữ liệu thứ cấp khá đa dạng, có thể là:
- Các báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản
xuất, tiêu thụ, tài chính,…
- Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việc
làm, mức sống dân cư, tài nguyên, …
- Báo, tạp chí, mạng Internet,…
b) Nguồn dữ liệu sơ cấp được thu thập qua các cuộc điều tra khảo sát. Có hai
phương pháp thu thập nguồn dữ liệu sơ cấp:
Thu thập trực tiếp: - Quan sát
- Phỏng vấn trực tiếp
Thu thập gián tiếp:
- Phỏng vấn bằng điện thoại
- Phương pháp gửi thư, email
Ưu điểm, nhược điểm của các phương pháp thu thập thông tin trên đây có thể tóm tắt trong bảng sau: Tính chất Phương pháp Phỏng vấn Phỏng vấn gửi thư, email qua tel trực tiếp Linh hoạt Kém TB Tốt Khối lượng thông tin Đầy đủ Hạn chế Đầy đủ Tốc độ thu thập Chậm Nhanh Nhanh thông tin Tỉ lệ câu hỏi Thấp TB Cao được trả lời Chi phí Tiết kiệm Tốn kém Tốn kém
2.5. Cấp bậc đo lường và thang đo dữ liệu
Dữ liệu có thể được phân loại theo các cấp bậc đo lường. Thang đo rất quan trọng trong
việc xác định các phương pháp để mô tả và phân tích dữ liệu. Có bốn cấp bậc đo lường
theo mức độ thông tin tăng dần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ. Trang 4
- Thang đo định danh (hay thang đo phân loại) là bậc thấp nhất, không thể hiện
sự hơn kém. Thang đo này được sử dụng cho các dữ liệu định tính, chỉ khác biệt nhau về tên gọi.
Ví dụ 5. Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo định danh.
- Thang đo thứ bậc thể hiện sự hơn kém của dữ liệu nhưng không biết chính xác
mức độ hơn kém đó. Thang đo này cũng được sử dụng cho các dữ liệu định tính.
Ví dụ 6. Trình độ văn hoá, xếp loại học lực,… là thang đo thứ bậc.
- Thang đo khoảng thể hiện được mức độ hơn kém giữa các giá trị đo lường,
trong đó giá trị 0 chỉ là quy ước mà không có ý nghĩa. Thang đo khoảng được
xem là thang đo thứ bậc có khoảng cách đều nhau. Thang đo này được sử dụng
cho các dữ liệu định lượng.
Ví dụ 7. Để đo lường sở thích của khách hàng, có thể dùng thang đo khoảng như sau:
(1) Rất không thích; (2) Không thích; (3) Không có ý kiến gì; (4) Thích; (5) Rất thích.
- Thang đo tỉ lệ là loại thang đo dùng cho các dữ liệu định lượng, có đầy đủ các
tính chất của thang đo khoảng, trong đó giá trị 0 có nghĩa thật sự, cho phép lấy tỉ lệ so
sánh giữa hai giá trị thu thập. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo.
Ví dụ 8. Tiền tệ, mét, kg,… là thang đo tỉ lệ.
3. Các kĩ thuật chọn mẫu
Việc nghiên cứu trên tổng thể trong trường hợp tổng thể có số lượng phần tử (đơn vị) quá lớn sẽ dẫn đến:
Mất nhiều thời gian;
Tốn nhiều tiền bạc;
Cần nhiều nhân lực,…
Trong trường hợp không có đủ các nguồn lực cho nghiên cứu trên tổng thể hoặc muốn
tiết kiệm các nguồn lực này, người ta có thể tiến hành nghiên cứu trên mẫu.
Mục đích của việc chọn mẫu là bảo đảm cho mẫu được chọn thực sự phản ánh trung
thực, đại diện cho toàn bộ tổng thể. Sau đây là bốn phương pháp chọn mẫu phổ biến.
a) Phương pháp chọn mẫu ngẫu nhiên đơn giản: là mẫu mà ở đó mỗi đơn vị của
tổng thể được chọn với sự ngẫu nhiên như nhau.
Ví dụ 9. Từ danh sách hơn 10.000 sinh viên, muốn chọn ra 200 sinh viên để phỏng
vấn, ta có thể dùng lệnh RAND (.) trong Excel để có được một danh sách ngẫu nhiên.
b) Đối với phương pháp chọn mẫu hệ thống, trước tiên lập danh sách các đơn vị của
tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong
danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ cách đều k
đơn vị lại chọn ra 1 đơn vị vào mẫu,… cứ như thế cho đến khi chọn đủ số đơn vị của mẫu. Trang 5
Ví dụ 10. Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự tên chủ
hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn
là: k = 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu.
c) Trong phương pháp chọn mẫu cả khối (hay lấy mẫu nhiều giai đoạn), đầu tiên
tổng thể được chia thành nhiều khối, lẫy ngẫu nhiên m khối sau đó khảo sát hết
(hay một số) các đối tượng trong các khối mẫu đã được lấy ra. Đối với phương
pháp này ta không cần phải có danh sách các đơn vị chọn mẫu.
Ví dụ 11. Cần khảo sát tất cả các hộ dân thường trú tại TP. HCM, ta chọn ngẫu nhiên
một số quận, rồi khảo sát tất cả (hay một số) hộ dân trong các quận đã chọn ra.
d) Ta sử dụng phương pháp chọn mẫu phân tầng khi các đơn vị quá khác nhau về
tính chất liên quan đến vấn đề cần nghiên cứu và khảo sát.
Ví dụ 12. khi khảo sát mức độ hài lòng của sinh viên một trường đại học về cảm nhận
của sinh viên về chất lượng đào tạo, thường sẽ có sự khác biệt lớn về số lượng sinh
viên và điều kiện học tập giữa các hệ khác nhau như hệ chính quy, hệ hoàn chỉnh đại
học, hệ đại học… Theo phương pháp này tổng thể nghiên cứu được chia thành các tầng
lớp, từ kích thước mẫu đã chọn ta phân bổ tỷ lệ cho từng tầng lớp rồi tiến hành lấy mẫu
ngẫu nhiên hay có thệ thống.
Ví dụ 13. Các ví dụ sau đây sử dụng phương pháp chọn mẫu gì?
a) Để nghiên cứu tỉ lệ trẻ em được tiêm phòng ở tỉnh X, người ta chọn ngẫu nhiên
10 xã trong tỉnh để điều tra toàn bộ.
b) Để thăm dò tỉ lệ yêu thích sản phẩm A của mọi đối tượng khách hàng, công ty
yêu cầu khảo sát ngẫu nhiên 1000 người, trong đó 50% nam và 50% nữ, 50%
trên 40 tuổi và 50% trong độ tuổi từ 15 đến 40.
c) Để kiểm tra mức độ chính xác của thông tin về 800 khách hàng do các nhân viên
thu thập, nhà quản lý dựa vào danh sách quyết định chọn 10% khách hàng để kiểm tra lại thông tin.
4. Nguyên tắc thiết kế bảng câu hỏi
Để một cuộc khảo sát mang lại những thông tin hữu ích về tổng thể mà chúng ta quan
tâm. Trước khi tiến hành, cần phải trả lời các câu hỏi sau:
Tôi muốn biết điều gì?
Ai là người trả lời đúng?
Thế nào là câu hỏi đúng?
Điều gì sẽ được thực hiện với kết quả thu được?
Những câu hỏi này có vẻ hiển nhiên, nhưng nó giúp cho chúng ta xác định những
nguyên tắc đúng đắn trong việc tiến hành một cuộc khảo sát:
Chỉ tìm những gì bạn muốn biết. Trước khi khảo sát, cần phải rõ ràng những gì chúng Trang 6
ta muốn biết về tổng thể, nếu không chắc điều này, chúng ta không thể có một cuộc
khảo sát tốt. Lỗi phổ biến nhất trong trường hợp này là chúng ta thường thiết kế các
bảng câu hỏi (công cụ khảo sát) quá dài, làm hạn chế đối tượng mà chúng ta có thể
khảo sát và thông tin thu được thường không trung thực.
Hãy đặt những câu hỏi thật cụ thể, hạn chế những câu hỏi chung chung.
Ví dụ 14. Thay cho câu hỏi: “Bạn có dành nhiều thời gian cho việc học không?” thì
nên đặt: “Mỗi ngày, bạn dùng mấy giờ cho việc học?”.
Sử dụng bảng khảo sát phù hợp với đối tượng. Chẳng hạn, nếu bạn muốn thăm dò
khách hàng về mức độ hài lòng của họ đối với sản phẩm hay dịch vụ của mình, đối
tượng có thể là bất kì khách hàng nào. Nhưng nếu bạn muốn cải tiến sản phẩm hay dịch
vụ của mình, thì đối tượng nên tập trung vào những khách hàng đã và đang có những
khiếu nại hoặc từ chối sử dụng những sản phẩm hay dịch vụ đó.
Cẩn thận với những thành kiến hay sự chủ quan. Việc thiết kế một câu hỏi và các
phương án trả lời đôi khi dựa trên kinh nghiệm của người thiết kế hơn là những ghi
nhận khách quan khoa học, điều này dẫn đến sự áp đặt đối với người trả lời, và do đó
thông tin thu được không khách quan.
Ví dụ 15. Trong các đề tài khảo sát của SINH VIÊN Hoa Sen với chủ đề về “Trà sữa”,
SINH VIÊN thường đặt câu hỏi: “Bạn uống bao nhiêu ly trà sữa mỗi tuần” với các phương án: a) 1 – 2 b) 3 – 4 c) 5 – 6 d) 7 – 8
Như vậy, đều này đã dẫn đến sự áp đặt tất cả người được khảo sát đều phải uống trà
sữa ít nhất 1 lần/tuần.
Cẩn thận với các câu hỏi hoặc các phương án trả lời gây nhiễu. Các câu hỏi và
các phương án trả lời nên được thiết kế rõ ràng, đảm bảo đối tượng được khảo sát
không hiểu nhầm hoặc khó khăn trong việc xác định câu trả lời.
Ví dụ 15. Với câu hỏi: “Bao nhiêu người trong gia đình bạn đang sở hữu một chiếc xe
gắn máy?” thì nên làm rõ “gia đình” được hiểu theo nghĩa nào? Dựa vào quan hệ huyết
thống hay phải ở chung một nhà?
Còn với câu hỏi: “Bạn có thường xuyên xem phim ở rạp không?” với các phương án: a) Không bao giờ b) Hiếm khi
c) Thỉnh thoảng d) Thường xuyên
Thì việc phân biệt giữa các phương án b), c) và d) có thể gây khó khăn khi lựa chọn.
Bài tập thực hành: Sử dụng Google Docs, thiết kế và soạn một bảng khảo sát, sau đó
viết một email có nội dung mời tham gia khảo sát kèm link của bảng khảo sát.
5. Quy trình phân tích dữ liệu
Bước 1: Xác định vấn đề cần nghiên cứu/ Bài toán trong kinh doanh cần được giải
quyết để chỉ ra các biến cần thu thập. Dữ liệu cần thu là của mẫu hay tổng thể
Bước 2: Thu thập dữ liệu: Lập bảng khảo sát thu thập dữ liệu thô; Trích xuất dữ liệu từ
kho lưu trữ hay các bộ phận, phòng ban có liên quan. Trang 7
Bước 3: Xử lý dữ liệu thô: làm sạch dữ liệu, bóc tách dữ liệu, xem xét dữ liệu bị trùng, bị thiếu, outliner… Bước 4:
- Trình bày dữ liệu dưới dạng các bảng tóm tắt: Bảng phân bố tần số, tần suất, tích
lũy cho biến định tính, định lượng
- Trực quan hóa dữ liệu bằng các loại đồ thị: bar chart, pie chart, Histogram, line
- Tính toán các giá trị đặt trưng của dữ liệu định lượng:
Đặt trưng cho tính tập trung: min, max, trung bình, mode, trung vị, tứ phân vị.
Đặt trưng cho tính phân tán: Khoảng biến thiên, độ trãi giữa, phương sai, độ lệch tiêu chuẩn…
Bước 5: Từ dữ liệu mẫu thực hiện các bài toán thống kê suy diễn cho tổng thể:
- Xây dựng khoảng ước lượng Trung bình và Tỷ lệ của tổng thể
- Kiểm định Trung bình và Tỷ lệ
- Xây dựng các mô hình hồi quy để dự báo Trang 8
I.2. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH
1. Bảng tần số, tần suất
Bảng tần số, tần suất là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia
chúng thành từng nhóm khác nhau. Bảng tần số thường bao gồm ba cột:
- Cột thứ nhất liệt kê tất các các biểu hiện có thể có của tập dữ liệu.
- Cột thứ hai ghi tần số (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu). Tổng
của cột tần số phải bằng số phần tử của tập dữ liệu.
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu
và nhân với 100%). Tổng của cột tần suất phải bằng 100%.
Ví dụ 1. Bảng tần số, tần suất ngành học của sinh viên một trường đại học như sau: Ngành học
Tần số ( sinh viên) Tần suất (%) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông tin 200 20 Tổng 1000 100
Ví dụ 2. Dưới đây là kết quả của câu hỏi “Bạn thích sử dụng ứng dụng nào nhất để thực
hiện việc mua sắm online của mình?”
Bảng tần số, tần suất tương ứng: Ứng dụng Tần số Tần suất Shopee 89 89% Lazada 9 9% Tiki 2 2% Tổng 10 100% 2. Đồ thị thống kê
2.1. Biểu đồ dạng thanh (Bar Chart: thanh đứng hay thanh ngang)
Trên biểu đồ này, mỗi thanh đại diện một phân loại của biến (đặc điểm thống kê) mà ta
quan tâm, chiều dài của thanh thể hiện tần số của các quan sát thuộc về phân loại đó.
Còn chiều rộng của các thanh bằng nhau.
Ví dụ 3. Từ bảng tần số ở Ví dụ 2, ta có biểu đồ dạng thanh đứng sẽ là: Trang 9
Các ứng dụng khách hàng dùng để mua sắm online 100 80 60 40 20 0 Shopee Lazada Tiki
Biểu đồ dạng thanh ngang sẽ là:
Các ứng dụng khách hàng dùng để mua sắm online Tiki Lazada Shopee 0 20 40 60 80 100
2.2 Biểu đồ hình tròn: Thường dùng để mô tả kết cấu (%) của vấn đề đang nghiên cứu.
Ví dụ 4. Biểu đồ hình tròn của bảng dữ liệu trong ví dụ 2 như sau
Trên biểu đồ, toàn bộ diện tích hình tròn được chia thành nhiều mảnh nhỏ hình rẻ quạt,
diện tích mỗi mảnh tương ứng với tỉ lệ của phân loại mà nó đại diện trong toàn thể và
mang một màu khác nhau. Thứ tự của các phân loại (theo chiều ngược kim đồng hồ) là
thứ tự nó được sắp xếp trong bảng tổng hợp. Trang 10
3. Bảng kết hợp nhiều biến định tính
Ví dụ 5. Bảng dưới đây mô tả việc sử dụng mạng xã hội để mua hàng của khách hàng ở các nước.
Ví dụ 6. Bảng dưới đây được khảo sát từ 1008 thanh niên ở Mỹ về việc quan tâm đến
một chương trình Gameshow hay các quảng cáo xuất hiện trong chương trình:
Để thấy được việc lựa chọn chương trình để xem và giới tính có mối liên hệ như thế
nào, chúng ta có thể tính phần trăm của việc lựa chọn chương trình để xem theo từng
giới tính và sau đó lập biểu đồ dạng thanh theo tần suất:
Bài tập thực hành: Sử dụng Excel để lập bảng tần số, tần suất của dữ liệu trong Ví dụ
2. Sau đó vẽ các biểu đồ dạng thanh và biểu đồ hình tròn cho dữ liệu đó. Trang 11
I.3. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH LƯỢNG
1. Lý thuyết phân nhóm
Trường hợp dữ liệu có ít giá trị đại diện: Mỗi giá trị quan sát hình thành một nhóm.
Ví dụ 1. Khảo sát điểm thi môn Toán của một số sinh viên, ta được bảng dữ liệu sau: Điểm thi Tần số (số sinh viên) Tần suất (%) 3 3 3,75 4 12 15 5 15 18,75 6 20 25 7 16 20 8 8 10 9 4 5 10 2 2,5 Tổng 80 100
Trường hợp dữ liệu có nhiều giá trị đại diện: Trước hết ta phân nhóm cho các giá trị
rồi mới lập bảng tần số trên cơ sở dữ liệu đã phân nhóm.
Ví dụ 2. Khảo sát 1200 người trong độ tuổi lao động (từ 18 đến 60 tuổi), nếu lập bảng
như ở Ví dụ 1 thì sẽ rất dài, làm mất đi tác dụng tóm lược thông tin. Do đó ta sẽ phân
thành các nhóm, chẳng hạn: Từ 18 đến 20, từ 21 đến 30, từ 31 đến 40, từ 40 đến 50, từ
51 đến 60. Đây là kiểu phân nhóm theo kinh nghiệm.
Trên thực tế người ta thường phân nhóm với khoảng cách đều nhau.
Giả sử mẫu dữ liệu có n phần tử, giá trị lớn nhất, nhỏ nhất của dữ liệu lần lượt là 𝑋
và 𝑋. Gọi k là số nhóm cần chia và h là khoảng cách giữa các nhóm. Khi đó, người
ta thường xác định k và h bởi công thức:
𝑘 = √2𝑛, ℎ = .
Tuy nhiên trên thực tế khi xác định cận trên và cận dưới của các khoảng người ta có
thể xử lý linh động hơn để đảm bảo tính khoa học và mỹ thuật.
Mỗi khoảng thể hiện sự tồn tại của các giá trị quan sát xi sao cho:
Cận dưới xi < Cận trên
Ví dụ 3. Năng suất (tạ/ha) của một loại cây thu hoạch được tại 40 vùng như sau:
153 154 156 157 158 159 159 160 160 160
161 161 161 162 162 162 163 163 163 164
164 164 165 165 166 166 167 167 168 168
170 171 172 173 174 175 176 177 178 179
Với 𝑛 = 40, 𝑋 = 179, 𝑋 = 153, ta có số nhóm 𝑘 = √2.40 ≈ 4,3 ≈ 4, khoảng
cách giữa các nhóm ℎ = = 6,5. Nếu chọn h = 7 thì các nhóm được lập như
sau: 152 – 159, 159 – 166, 166 – 173, 173 – 180. Ta có bảng tần số là: Trang 12 Năng suất Tần số Tần suất (%) 152 - 159 5 12,5 159 - 166 19 47,5 166 - 173 9 22,5 173 - 180 7 17,5 Tổng 40 100
Chú ý. Một số điều kiện phải tuân thủ khi phân nhóm:
- Các nhóm không được trùng nhau, mỗi giá trị chỉ thuộc về một nhóm.
- Tất cả các nhóm phải bảo đảm bao quát hết tất cả các giá trị của mẫu số liệu.
- Không có nhóm rỗng (tức là nhóm không có phần tử nào).
Ví dụ 4. Một doanh nghiệp có 28 cửa hàng bán lẻ. Số tiền (triệu đồng) bán được trong
ngày của các cửa hàng được ghi lại như sau:
57,8 57,5 52,4 50,9 50,2 53,3 50,1 43,3 42,5 41,7
41,1 45,8 47,2 46,9 56,9 45,5 38,8 50,3 37,6 38,9
52,3 49,2 47,5 47 49,6 46,2 49,8 36,8
Theo kinh nghiệm người ta thấy rằng chia 6 nhóm mới hợp lí nên ta chọn k = 6. Ta có
giá trị nhỏ nhất là 36,8; giá trị lớn nhất là 57,8. Do đó ta tìm được 57,8 36,8 h 3,5 4 . 6
Nếu chọn nhóm thứ nhất bắt đầu từ 36,8 thì số khá lẻ nên ta có thể bắt đầu từ 36.
Mặt khác, các số liệu trong mẫu cũng lẻ nên ta cho giới hạn trên và giới hạn dưới của
hai nhóm kế tiếp trùng nhau với quy ước là khi có một giá trị bằng giới hạn trên của
một nhóm thì đơn vị đó được xếp vào nhóm kế tiếp, nghĩa là ta có các khoảng:
[36 – 40), [40 – 44), [44 – 48), [48 – 52), [52 – 56), [56 – 60).
Khi đó ta có bảng tần số sau đây:
Tiền bán hàng (triệu đồng) Tần số Tần suất (%) 36 – 40 4 14,3 40 – 44 4 14,3 44 – 48 7 25 48 – 52 7 25 52 – 56 3 10,7 56 – 60 3 10,7 Tổng 28 100
Chú ý. Trong bảng tần số đôi khi người ta còn thêm vào cột tần số tích luỹ (hoặc tần
suất tích luỹ) thể hiện số lần quan sát (hoặc % số lần quan sát) cộng dồn đến giới hạn
trên của một nhóm nào đó. Nói cách khác, tần số tích luỹ cho thấy có bao nhiêu quan
sát bằng hoặc nhỏ hơn một trị số nào đó của biến khảo sát.
Ví dụ 5. (Tiếp Ví dụ 4) Ta có bảng tần suất tích luỹ sau đây. Từ bảng ta thấy có 15 cửa
hàng, chiếm 53,6%, có số tiền bán hàng trong ngày dưới 48 triệu đồng.
Tiền bán hàng (triệu đồng) Tần số Tần suất (%) Tần suất tích luỹ(%) 36 – 40 4 14,3 14,3 40 – 44 4 14,3 28,6 Trang 13 44 – 48 7 25 53,6 48 – 52 7 25 78,6 52 – 56 3 10,7 89,3 56 – 60 3 10,7 100 Tổng 28 100 Phân nhóm mở:
Ngoài cách phân nhóm như trên ta còn có thể phân nhóm mở, trong đó nhóm đầu tiên
không có giới hạn dưới và nhóm cuối cùng không có giới hạn trên, các nhóm còn lại có
khoảng cách đều hoặc không đều. Mục đích của phân nhóm mở là để nhóm đầu tiên và
nhóm cuối cùng chứa được các đơn vị có giá trị đột biến và tránh việc lập quá nhiều tổ.
Khi tính toán đối với phân nhóm mở người ta quy ước lấy khoảng cách của nhóm
mở bằng khoảng cách của nhóm gần nó nhất.
Ví dụ 6. Bảng năng suất lúa của một số hộ gia đình như sau: Năng suất lúa (tạ/ha) Số gia đình <30 5 35 – 40 10 40 – 45 20 45 – 50 12 ≥50 3 Tổng 50
Nhóm < 30 (tạ/ha) được quy ước có h = 5.
2. Biểu đồ phân phối tần số
Biểu đồ phân phối tần số (Histogram) được sử dụng để chuyển hoá thông tin trên bảng
tần số thành hình ảnh trực quan. Đây là một loại đồ thị biểu diễn sự phân phối tần số
bằng các cột sao cho diện tích của cột tỉ lệ với tần số.
Ví dụ 7. Biểu đồ phân phối tần số của bảng tần số ở Ví dụ 3 như sau. (Trục hoành thể
hiện biến khảo sát - năng suất. Trục tung thể hiện tần số). 20 19 18 16 14 12 10 9 ần số T 8 7 6 5 4 2 0 152 - 159 159 - 166 166 - 173 173 - 180 Năng suất
Biểu đồ phân phối tần số Trang 14 Sử dụng Excel: Select Data Tab Click on Data Analysis 3 Trang 15 4 (
Input data range and bin range (bin
range is a cell range containing the
upper interval endpoints for each class grouping)
Select Chart Output and click OK
3. Các đại lượng thống kê mô tả
Đối với dữ liệu định lượng, chúng ta có thể tóm tắt tốt hơn khi số lượng dữ liệu lớn, đó
là dùng các đại lượng thống kê mô tả. Các đại lượng này được chia thành hai nhóm:
nhóm các đại lượng thể hiện mức độ tập trung của dữ liệu và nhóm thể hiện độ phân tán của dữ liệu.
Ở nhóm thứ nhất ta có trung bình cộng (được sử dụng nhiều nhất), mốt, trung vị. Ở
nhóm thứ hai ta có khoảng biến thiên, độ lệch tuyệt đối bình quân, phương sai, độ lệch
chuẩn (được sử dụng nhiều nhất) và hệ số biến thiên.
3.1. Các đặc trưng đo lường khuynh hướng tập trung
Tình huống trong kinh doanh Bất động sản. Từ bảng kết quả sau đây có thể viết nên
1 câu chuyện như sau:
Có 5 ngôi nhà đang được công ty rao bán. Ngôi nhà có mức giá thất nhất (min) là
100.000$ và mức giá cao nhất (max) trên bảng niêm yết là 2.000.000$. Trung bình
(mean) mỗi ngôi nhà được rao bán với giá 600.000$. Một nửa số ngôi nhà đang rao bán
với mức giá dưới 300.000$ và nửa số ngôi nhà còn lại có giá trị trên 300.000$
(median). Những ngôi nhà có mức giá bán phổ biến nhất là 100.000$ (mode). Chênh Trang 16
lệch giá trị của ngôi nhà mắc nhất và rẻ nhất là 1.900.000$. Nếu bán hết 6 ngôi nhà,
công ty sẽ thu về số tiền 3.000.000$.
Như vậy, bản chất của các con số cũng như công thức tính như thế nào? Nếu cỡ mẫu
không phải là 6 mà là hàng trăm hoặc hàng ngìn ngôi nhà thì sao? Làm cách nào để
xuất ra bảng kết quả tương tự như trên?
3.1.1. Trung bình cộng (Arithmetic mean)
Trung bình cộng được xác định bằng cách cộng tất cả các giá trị của từng phần tử (các
quan sát), sau đó đem chia cho tổng số phần tử (tổng số quan sát).
Có hai loại trung bình cộng là trung bình cộng đơn giản (mean) và trung bình cộng có trọng số (weighted mean).
a) Trung bình cộng đơn giản
- Trung bình tổng thể: Giả sử tổng thể có 𝑁 phần tử (quan sát), 𝑋 là giá trị của
phần tử thứ i. Khi đó trung bình cộng của tổng thể là 𝜇 = ∑ 𝑋 . (1)
- Trung bình mẫu: Giả sử mẫu có n phần tử (hay còn nói cỡ mẫu là n), khi đó
trung bình cộng của mẫu (hay trung bình mẫu) là 𝑋 = ∑𝑋 . (2)
Ví dụ 9. Vốn đầu tư của các doanh nghiệp trong Khu công nghiệp A (2017, Triệu $) được cho ở bảng sau: Mã số của quan sát Vốn đầu tư Mã số quan sát Vốn đầu tư 1 10 14 30 2 20 15 40 3 15 16 35 4 20 17 35 5 20 18 35 6 15 19 35 7 25 20 30 8 25 21 40 9 25 22 40 10 25 23 45 11 30 24 45 12 30 25 50 13 30
Giá trị trung bình của vốn đầu tư của các doanh nghiệp (DN) trong mẫu là: 10 20 ... 45 X 50 30. 25 Trang 17
b) Trung bình cộng có trọng số là trường hợp đặc biệt của trung bình cộng đơn giản
khi giá trị 𝑋 xuất hiện nhiều lần. Giả sử giá trị 𝑋 xuất hiện 𝑓 lần, 𝑖 = 1,2, … , 𝑘 (ta nói
𝑓 là trọng số, hay tần số của giá trị 𝑋). Khi đó
𝑋 = ∑ (3) với ∑𝑓 = 𝑛 là số phần tử của mẫu. ∑
Ví dụ 10. Dữ liệu trong Ví dụ 9 có thể viết lại như sau:
Vốn đầu tư 10 15 20 25 30 35 40 45 50 Số DN 1 2 3 4 5 4 3 2 1
Áp dụng công thức (3) ta có
10.1 15.2 ... 45.2 X 50.1 . 30 1 2 ... 2 1
Chú ý. Trường hợp dữ liệu phân nhóm có khoảng cách thì trung bình mẫu được tính
gần đúng bởi công thức 𝑋 = ∑ (4) ∑
với 𝑋 = là trị số giữa của nhóm i (𝑋
, 𝑋 là giới hạn trên, giới hạn
dưới của nhóm i) và 𝑓 là tần số của nhóm i.
Ví dụ 11. Trong một đợt sản suất người ta chọn 50 sản phẩm và ghi nhận khối lượng.
Sản phẩm được phân nhóm theo khối lượng như sau: Khối lượng (gam)
Trị số giữa (𝑋) Số sản phẩm (𝑓) 484 – 490 487 5 490 – 496 493 10 496 – 502 499 15 502 – 508 505 13 508 – 514 511 7 C ộng 50
Áp dụng (4), ta có trung bình mẫu là 1 X
487.5 493.10 ... 511.7 499,84 . 50
c) Đặc điểm của trung bình cộng
- Trung bình cộng thường rất nhạy cảm với các đột biến (giá trị quá lớn hoặc quá
nhỏ), giá trị trung bình sẽ kém tiêu biểu nếu trong dãy số có các giá trị đột biến.
- Trung bình cộng được sử dụng để so sánh giữa hai hay nhiều tổng thể.
- Tổng độ lệch giữa các giá trị 𝑋 với trung bình cộng 𝑋 bằng 0, nghĩa là
∑𝑋 − 𝑋 = 0.
3.1.2. Mốt (Mode) a) Khái niệm
Mốt là giá trị xuất hiện nhiều nhất trong một dãy số, kí hiệu là 𝑀.
Ví dụ 12. Xem lại bảng dữ liệu ở Ví dụ 10, ta có 𝑀 = 30 triệu USD vì nó xuất hiện 5
lần (có tần số lớn nhất).
b) Đặc điểm của mốt
- Mốt là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi các giá trị đột biến. Trang 18
- Mốt có thể xác định cho dữ liệu sử dụng các thang đo khác như thang đo định danh, thang đo thứ bậc.
- Khác với trung bình cộng và trung vị, một tập dữ liệu có thể không xác định được
mốt vì không có giá trị nào xuất hiện nhiều nhất. Ngược lại, có một số trường hợp có nhiều mốt.
3.1.3. Trung vị (Median)
Trong một tập dữ liệu đã được sắp xếp theo thứ tự tăng dần thì trung vị, kí hiệu 𝑀, là
giá trị đứng giữa của tập dữ liệu. Điều này có nghĩa là 50% của mẫu sẽ có các giá trị
nhỏ hơn trung vị, và 50% của mẫu sẽ có giá trị lớn hơn số trung vị. Cách xác định:
- Trường hợp số phần tử của mẫu n là số lẻ: 𝑀 = 𝑋
(trung vị là giá trị đứng giữa, tức là ở vị trí thứ trong dãy các giá trị tăng dần của mẫu số liệu).
- Trường hợp n là số chẵn: 𝑀 =
(trung vị là trung bình cộng của hai giá trị đứng giữa trong dãy số trên).
Ví dụ 13. a) Mẫu rút ra từ tổng thể có n = 5 quan sát:
X (Vốn đầu tư của DN, triệu USD) 10 12 15 18 20 Thứ tự quan sát 1 2 3 4 5
Vì n = 5 lẻ nên 𝑀 = 𝑋 = 15 triệu USD. Điều này có nghĩa là 50% của mẫu sẽ có các
giá trị nhỏ hơn 15 triệu USD và 50% của mẫu sẽ có giá trị lớn 15 triệu USD.
b) Mẫu rút ra từ tổng thể có n = 6 quan sát:
X (Vốn đầu tư của DN, triệu USD) 10 12 15 18 20 25 Thứ tự quan sát 1 2 3 4 5 6 Vì n = 6 chẵn nên X X 15 M 3 4 18 16,5 triệu USD. e 2 2
Ví dụ 14. Tính trung bình cộng và trung vị của dãy số liệu sau
a) 12,4 14,6 13,1 16,8 16,5 16,2 17,4 17,5 13,6 14,9 13,2 12,8.
b) 144,3 98,7 89,5 123,4 146,0 138,8 154,1 145,7 136,3 147,9 139,2.
b) Đặc điểm của trung vị
- Trung vị là trị số duy nhất có thể xác định được trong một dãy số.
- Trung vị là đặc trưng đo lường khuynh hướng tập trung không bị ảnh hưởng bởi
các giá trị đột biến.
- Trung vị có thể tính cho các dữ liệu sử dụng các thang đo tỉ lệ, khoảng, thứ bậc. 3.1.4. Tứ phân vị
Tứ phân vị là chỉ tiêu đo lường độ phân tán chứ không phải chỉ tiêu đo lường khuynh
hướng tập trung. Tuy nhiên, vì cách tính của chúng tương tự cách tính trung vị, hơn nữa Trang 19
phân vị thứ hai của tứ phân vị chính là trung vị, nên ta kết hợp xét tứ phân vị trong mục này.
Tứ phân vị chia dãy số lượng biến thành bốn phần, mỗi phần có số đơn vị bằng nhau. Cách xác định:
Dãy số lượng biến có ba tứ phân vị là
- 𝑄: Tứ phân vị thứ nhất là lượng biến đứng ở vị trí thứ . ()
- 𝑄: Tứ phân vị thứ hai chính là số trung vị, đứng ở vị trí = . ()
- 𝑄: Tứ phân vị thứ ba là lượng biến đứng ở vị trí thứ .
Nếu 𝑛 + 1 không chia hết cho 4 thì tứ phân vị được xác định bằng cách thêm vào.
Chẳng hạn, với n = 12 (đơn vị), ta có n 1 1 3( n 1) 3 3 ,
9 . Do đó, tứ phân vị thứ 4 4 4 4
nhất bằng lượng biến ở vị trí thứ ba cộng với 1/4 giá trị chêch lệch giữa lượng biến ở vị
trí thứ ba và thứ tư. Còn tứ phân vị thứ ba bằng lượng biến ở vị trí thứ chín cộng với 3/4
giá trị chênh lệch giữa lượng biến ở vị trí thứ chín và thứ mười.
Ví dụ 15. Giá trị của 11 quan sát về vốn đầu tư của các DN:
X (Vốn đầu tư của DN, triệu USD) 10 12 14 16 18 20 22 24 26 28 30 Thứ tự quan sát 1 2 3 4 5 6 7 8 9 10 11
Vì n = 11 nên n + 1 chia hết cho 4. Do đó,
𝑄 = 𝑋 = 14; 𝑄 = 𝑋 = 20; 𝑄 = 𝑋 = 26
Ví dụ 16. Giá trị của 8 quan sát về vốn đầu tư của các DN:
X (Vốn đầu tư của DN, triệu USD) 10 12 14 16 18 20 22 24 Thứ tự quan sát 1 2 3 4 5 6 7 8
Vì n + 1 không chia hết cho 4 và n 1 1 2(n 1) 1 3(n 1) 3 2 ; 4 ; 6 . Do đó 4 4 4 2 4 4 Q 1 12 (14 12) 1 12, 5 4 1 Q 16 (18 16) 2 17 2 3 Q 20 (22 20) 3 21,5 4
5 giá trị thống kê cơ bản của 1 tập dữ liệu : Min, Max, Mean, Median, Mode
Hướng dẫn sử dụng Excel để xuất các kết quả:
Chọn data / data analysis / descriptive statistics
Ví dụ: Chọn ngẫu nhiên một số doanh nghiệp của hai ngành kinh doanh Ngành Bán lẻ
và Ngành Logistics, tỉ lệ lãi trên vốn (%) của các doanh nghiệp đó ghi nhận được như sau: Ngành Bán lẻ 10,5 9 12 10 8,5 12,5 9,5 Ngành Logistics 8 12 15 10 16 5 6 Trang 20