Ngân hàng tài liệu lý thuyết tham khảo học phần - Tài liệu tham khảo | Đại học Hoa Sen

Ngân hàng tài liệu lý thuyết tham khảo học phần - Tài liệu tham khảo | Đại học Hoa Sen  và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học.

Thông tin:
97 trang 1 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để viết bình luận.

Ngân hàng tài liệu lý thuyết tham khảo học phần - Tài liệu tham khảo | Đại học Hoa Sen

Ngân hàng tài liệu lý thuyết tham khảo học phần - Tài liệu tham khảo | Đại học Hoa Sen  và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học.

Trang 1
TRƯỜNG ĐẠI HỌC HOA SEN
BỘ MÔN KHOA HỌC TỔNG QUÁT
--------------------------------
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Giáo trình lưu hành nội bộ)
Thành phố Hồ Chí Minh – 2023
Trang 2
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Năm học 2022 – 2023 - Trường Đại học Hoa Sen)
PHẦN I. THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU
I.1. THU THẬP DỮ LIỆU
1. Thống kê là gì?
Thống một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số
liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân
tích, dự đoán và ra quyết định.
Như vậy, thống kê có hai lĩnh vực:
- Thống tả: Bao gồm các phương pháp thu thập, trình bày dữ liệu tính
toán các đặc trưng nhằm mô tả đối tượng nghiên cứu.
- Thống kê suy diễn: Bao gồm các phương pháp mô hình hoá trên các dữ liệu quan
sát để đưa ra các suy diễn về tập hợp các đơn vị được nghiên cứu.
Thống ứng dụng một môn học thuộc thống học, nghiên cứu hệ thống các
phương pháp thu thập, xử và phân tích các con số (mặt lượng) của những hiện tượng
số lớn trong nhiều lĩnh vực khác nhau trong đời sống để tìm hiểu bản chất tính
quy luật vốn của chúng (mặt chất) trong những điều kiện thời gian địa điểm cụ
thể.
Thống kê ứng dụng là khoa học về ra quyết định khi đối mặt với sự không chắc chắn và
được sử dụng trong nhiều lĩnh vực như: phân tích tài chính, kinh tế, kiểm toán, sản xuất
và hoạt động, nghiên cứu tiếp thị, y tế, giáo dục,…
2. Các khái niệm cơ bản
2.1. Tổng thể, đơn vị tổng thể, mẫu
Tổng thể thống kê (hay tổng thể - population) là tập hợp tất các các đối tượng mà ta
nghiên cứu. Các đơn vị (hay phần tử - ) tạo thành tổng thể được gọi là elements đơn vị
tổng thể Mẫu . (sample) là một bộ phận lấy ra từ tổng thể.
dụ 1. Khi nghiên cứu đặc điểm của nhóm khách hàng sử dụng một loại sản phẩm
nào đó trên địa bàn Thành phố Hồ Chí Minh (Tp. HCM) ta chọn ra 500 khách hàng
đang sử dụng sản phẩm đó tại Tp. HCM. Cho biết tổng thể, đơn vị tổng thể và mẫu.
2.2 Biến
Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại:
- Biến định tính categorical/qualitative variable ( ): Thể hiện tính chất của đơn vị
được khảo sát;
- Biến định lượng (Quantitative variable): Thể hiện bằng các con số.
Ví dụ 2. a) Khi nghiên cứu đặc điểm của khách hàng, có các biến: giới tính, tuổi, nghề
nghiệp, thu nhập, …
b) Khi nghiên cứu các doanh nghiệp, mỗi doanh nghiệp có thể nghiên cứu trên các biến
như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, …
Trang 3
Một số biến có thể đồng thời biến định tính biến định lượng. Chẳng hạn, “tuổi” là
biến định lượng thể hiện bằng con số. Tuy nhiên, nếu chúng ta phân loại tuổi
thành 4 nhóm: trẻ em, thiếu niên, thanh niên, người già thì nó lại là biến định tính.
2.3 Dữ liệu
Dữ liệukết quả quan sát được của các sự kiện hay hoạt động. Dữ liệu được thu thập,
trình bày dưới dạng bảng có nhiều hàng và cột nhằm trình bày và giải thích cho một vấn
đề nào đó.
Dữ liệu cũng được phân biệt thành hai loại:
- Dữ liệu định tính;
- Dữ liệu định lượng.
Các doanh nghiệp luôn dựa vào nguồn dữ liệu để lập kế hoạch nâng cao hiệu quả
kinh doanh. Tất cả các dữ liệu được thu thập trong một nghiên cứu cụ thể được gọi
bộ dữ liệu (data set).
Dữ liệu được thu thập để ghi lại các giao dịch của công ty còn được gọi dữ liệu giao
dịch (transactional data). Quá trình sử dụng dữ liệu giao dịch nhằm để đưa ra các quyết
định hoặc phân tích dự báo (data mining/predictive analytics) gọi là phân tích dữ liệu.
Dữ liệu thường được trình bày dưới dạng bảng. Mỗi dòng một đơn vị tổng thể
chúng ta cần phải quan sát, thu thập. Mỗi biến của đơn vị tổng thể được thể hiện trong
một cột.
Ví dụ 3. Đây là một bảng dữ liệu:
Trang 4
Ba bảng trên mối liên hệ với nhau. Chúng ta thể nhìn vào các khách hàng đề tìm
những sản phẩm mà họ đã mua, hoặc cũng thể nhìn vào một sản phẩm để tìm khách
hàng đã mua nó.
2.4. Nguồn dữ liệu
Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn sẵn, đã được công bố
hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới.
- Dữ liệu thứ cấp: Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí.
- Dữ liệu sơ cấp: Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu.
Ví dụ 4. Khi nghiên cứu về ảnh hưởng của việc đi làm thêm đối với kết quả học tập, thì
đâu là nguồn dữ liệu thứ cấp, đâu là nguồn dữ liệu sơ cấp?
a) Nguồn dữ liệu thứ cấp khá đa dạng, có thể là:
- Các báo cáo nội bộ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản
xuất, tiêu thụ, tài chính,…
- Các số liệu của quan Thống nhà nước, Cơ quan Chính phủ: dân số, việc
làm, mức sống dân cư, tài nguyên, …
- Báo, tạp chí, mạng Internet,…
b) Nguồn dữ liệu cấp được thu thập qua các cuộc điều tra khảo sát. hai
phương pháp thu thập nguồn dữ liệu sơ cấp:
Thu thập trực tiếp:
- Quan sát
- Phỏng vấn trực tiếp
Thu thập gián tiếp:
- Phỏng vấn bằng điện thoại
- Phương pháp gửi thư, email
Ưu điểm, nhược điểm của các phương pháp thu thập thông tin trên đây thể tóm tắt
trong bảng sau:
Tính chất Phương pháp
gửi thư, email
Phỏng vấn
qua tel
Phỏng vấn
trực tiếp
Linh hoạt Kém TB Tốt
Khối lượng thông tin Đầy đủ Hạn chế Đầy đủ
Tốc độ thu thập
thông tin
Chậm Nhanh Nhanh
Tỉ lệ câu hỏi
được trả lời
Thấp TB Cao
Chi phí Tiết kiệm Tốn kém Tốn kém
2.5. Cấp bậc đo lường và thang đo dữ liệu
Dữ liệu có thể được phân loại theo các cấp bậc đo lường. Thang đo rất quan trọng trong
việc xác định các phương pháp để mô tả phân tích dữ liệu. Có bốn cấp bậc đo lường
theo mức độ thông tin tăng dần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ.
Trang 5
- Thang đo định danh (hay thang đo phân loại) bậc thấp nhất, không thể hiện
sự hơn kém. Thang đo y được sử dụng cho các dữ liệu định tính, chỉ khác biệt
nhau về tên gọi.
Ví dụ 5. Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo định danh.
- Thang đo thứ bậc thể hiện sự hơn kém của dữ liệu nhưng không biết chính xác
mức độ hơn kém đó. Thang đo này cũng được sử dụng cho các dữ liệu định tính.
Ví dụ 6. Trình độ văn hoá, xếp loại học lực,… là thang đo thứ bậc.
- Thang đo khoảng thể hiện được mức độ hơn kém giữa các giá trị đo lường,
trong đó giá trị 0 chỉ quy ước không ý nghĩa. Thang đo khoảng được
xem thang đo thứ bậc khoảng cách đều nhau. Thang đo này được sử dụng
cho các dữ liệu định lượng.
Ví dụ 7. Để đo lường sở thích của khách hàng, có thể dùng thang đo khoảng như sau:
(1) Rất không thích; (2) Không thích; (3) Không có ý kiến gì; (4) Thích; (5) Rất thích.
- Thang đo tỉ lệ là loại thang đo dùng cho các dữ liệu định lượng, có đầy đủ các
tính chất của thang đo khoảng, trong đó giá trị 0 nghĩa thật sự, cho phép lấy tỉ lệ so
sánh giữa hai giá trị thu thập. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo.
Ví dụ 8. Tiền tệ, mét, kg,… là thang đo tỉ lệ.
3. Các kĩ thuật chọn mẫu
Việc nghiên cứu trên tổng thể trong trường hợp tổng thể số lượng phần tử (đơn vị)
quá lớn sẽ dẫn đến:
Mất nhiều thời gian;
Tốn nhiều tiền bạc;
Cần nhiều nhân lực,…
Trong trường hợp không đủ các nguồn lực cho nghiên cứu trên tổng thể hoặc muốn
tiết kiệm các nguồn lực này, người ta có thể tiến hành nghiên cứu trên mẫu.
Mục đích của việc chọn mẫu bảo đảm cho mẫu được chọn thực sự phản ánh trung
thực, đại diện cho toàn bộ tổng thể. Sau đây là bốn phương pháp chọn mẫu phổ biến.
a) Phương pháp chọn mẫu ngẫu nhiên đơn giản: mẫu đó mỗi đơn vị của
tổng thể được chọn với sự ngẫu nhiên như nhau.
dụ 9. Từ danh sách hơn 10.000 sinh viên, muốn chọn ra 200 sinh viên để phỏng
vấn, ta có thể dùng lệnh RAND (.) trong Excel để có được một danh sách ngẫu nhiên.
b) Đối với phương pháp chọn mẫu hệ thống, trước tiên lập danh sách các đơn vị của
tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong
danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ cách đều k
đơn vị lại chọn ra 1 đơn vị vào mẫu,… cứ như thế cho đến khi chọn đủ số đơn vị của
mẫu.
Trang 6
Ví dụ 10. Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự tên chủ
hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn
là: k = 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu.
c) Trong phương pháp chọn mẫu cả khối (hay lấy mẫu nhiều giai đoạn), đầu tiên
tổng thể được chia thành nhiều khối, lẫy ngẫu nhiên khối sau đó khảo sát hết m
(hay một số) các đối tượng trong các khối mẫu đã được lấy ra. Đối với phương
pháp này ta không cần phải có danh sách các đơn vị chọn mẫu.
dụ 11. Cần khảo sát tất cả các hộ dân thường trú tại TP. HCM, ta chọn ngẫu nhiên
một số quận, rồi khảo sát tất cả (hay một số) hộ dân trong các quận đã chọn ra.
d) Ta sử dụng phương pháp chọn mẫu phân tầng khi các đơn vị quá khác nhau về
tính chất liên quan đến vấn đề cần nghiên cứu và khảo sát.
Ví dụ 12. khi khảo sát mức độ hài lòng của sinh viên một trường đại học về cảm nhận
của sinh viên về chất lượng đào tạo, thường sẽ sự khác biệt lớn về số lượng sinh
viên điều kiện học tập giữa các hệ khác nhau như hệ chính quy, hệ hoàn chỉnh đại
học, hệ đại học… Theo phương pháp này tổng thể nghiên cứu được chia thành các tầng
lớp, từ kích thước mẫu đã chọn ta phân bổ tỷ lệ cho từng tầng lớp rồi tiến hành lấy mẫu
ngẫu nhiên hay có thệ thống.
Ví dụ 13. Các ví dụ sau đây sử dụng phương pháp chọn mẫu gì?
a) Để nghiên cứu tỉ lệ trẻ em được tiêm phòng tỉnh X, người ta chọn ngẫu nhiên
10 xã trong tỉnh để điều tra toàn bộ.
b) Để thăm tỉ lệ yêu thích sản phẩm A của mọi đối tượng khách hàng, công ty
yêu cầu khảo sát ngẫu nhiên 1000 người, trong đó 50% nam 50% nữ, 50%
trên 40 tuổi và 50% trong độ tuổi từ 15 đến 40.
c) Để kiểm tra mức độ chính xác của thông tin về 800 khách hàng do các nhân viên
thu thập, nhà quản dựa vào danh sách quyết định chọn 10% khách hàng để kiểm tra
lại thông tin.
4. Nguyên tắc thiết kế bảng câu hỏi
Để một cuộc khảo sát mang lại những thông tin hữu ích về tổng thể chúng ta quan
tâm. Trước khi tiến hành, cần phải trả lời các câu hỏi sau:
Tôi muốn biết điều gì?
Ai là người trả lời đúng?
Thế nào là câu hỏi đúng?
Điều gì sẽ được thực hiện với kết quả thu được?
Những câu hỏi này vẻ hiển nhiên, nhưng giúp cho chúng ta xác định những
nguyên tắc đúng đắn trong việc tiến hành một cuộc khảo sát:
Chỉ tìm những bạn muốn biết. Trước khi khảo sát, cần phải ràng những
chúng
Trang 7
ta muốn biết về tổng thể, nếu không chắc điều này, chúng ta không thể một cuộc
khảo sát tốt. Lỗi phổ biến nhất trong trường hợp này chúng ta thường thiết kế các
bảng câu hỏi (công cụ khảo sát) quá dài, làm hạn chế đối tượng chúng ta thể
khảo sát và thông tin thu được thường không trung thực.
Hãy đặt những câu hỏi thật cụ thể, hạn chế những câu hỏi chung chung.
dụ 14. Thay cho câu hỏi: “Bạn dành nhiều thời gian cho việc học không?” thì
nên đặt: “Mỗi ngày, bạn dùng mấy giờ cho việc học?”.
Sử dụng bảng khảo sát phù hợp với đối tượng. Chẳng hạn, nếu bạn muốn thăm dò
khách hàng về mức độ hài lòng của họ đối với sản phẩm hay dịch vụ của mình, đối
tượng có thể là bất kì khách hàng nào. Nhưng nếu bạn muốn cải tiến sản phẩm hay dịch
vụ của mình, thì đối tượng nên tập trung vào những khách hàng đã đang những
khiếu nại hoặc từ chối sử dụng những sản phẩm hay dịch vụ đó.
Cẩn thận với những thành kiến hay sự chủ quan. Việc thiết kế một câu hỏi và các
phương án trả lời đôi khi dựa trên kinh nghiệm của người thiết kế hơn những ghi
nhận khách quan khoa học, điều này dẫn đến sự áp đặt đối với người trả lời, do đó
thông tin thu được không khách quan.
Ví dụ 15. Trong các đề tài khảo sát của SINH VIÊN Hoa Sen với chủ đề về “Trà sữa”,
SINH VIÊN thường đặt câu hỏi: “Bạn uống bao nhiêu ly trà sữa mỗi tuần” với các
phương án:
a) 1 – 2 b) 3 – 4 c) 5 – 6 d) 7 – 8
Như vậy, đều này đã dẫn đến sự áp đặt tất cả người được khảo sát đều phải uống trà
sữa ít nhất 1 lần/tuần.
Cẩn thận với các câu hỏi hoặc các phương án trả lời gây nhiễu. Các câu hỏi
các phương án trả lời nên được thiết kế ràng, đảm bảo đối tượng được khảo sát
không hiểu nhầm hoặc khó khăn trong việc xác định câu trả lời.
dụ 15. Với câu hỏi: “Bao nhiêu người trong gia đình bạn đang sở hữu một chiếc xe
gắn máy?” thì nên làm rõ “gia đình” được hiểu theo nghĩa nào? Dựa vào quan hệ huyết
thống hay phải ở chung một nhà?
Còn với câu hỏi: “Bạn có thường xuyên xem phim ở rạp không?” với các phương án:
a) Không bao giờ b) Hiếm khi c) Thỉnh thoảng d) Thường xuyên
Thì việc phân biệt giữa các phương án b), c) và d) có thể gây khó khăn khi lựa chọn.
Bài tập thực hành: Sử dụng Google Docs, thiết kế và soạn một bảng khảo sát, sau đó
viết một email có nội dung mời tham gia khảo sát kèm link của bảng khảo sát.
5. Quy trình phân tích dữ liệu
Bước 1: Xác định vấn đề cần nghiên cứu/ Bài toán trong kinh doanh cần được giải
quyết để chỉ ra các biến cần thu thập. Dữ liệu cần thu là của mẫu hay tổng thể
Bước 2: Thu thập dữ liệu: Lập bảng khảo sát thu thập dữ liệu thô; Trích xuất dữ liệu từ
kho lưu trữ hay các bộ phận, phòng ban có liên quan.
Trang 8
Bước 3: Xử lý dữ liệu thô: làm sạch dữ liệu, bóc tách dữ liệu, xem xét dữ liệu bị trùng,
bị thiếu, outliner…
Bước 4:
- Trình bày dữ liệu dưới dạng các bảng tóm tắt: Bảng phân bố tần số, tần suất, tích
lũy cho biến định tính, định lượng
- Trực quan hóa dữ liệu bằng các loại đồ thị: bar chart, pie chart, Histogram, line
- Tính toán các giá trị đặt trưng của dữ liệu định lượng:
Đặt trưng cho tính tập trung: min, max, trung bình, mode, trung vị, tứ phân vị.
Đặt trưng cho tính phân tán: Khoảng biến thiên, độ trãi giữa, phương sai, độ lệch
tiêu chuẩn…
Bước 5: Từ dữ liệu mẫu thực hiện các bài toán thống kê suy diễn cho tổng thể:
- Xây dựng khoảng ước lượng Trung bình và Tỷ lệ của tổng thể
- Kiểm định Trung bình và Tỷ lệ
- Xây dựng các mô hình hồi quy để dự báo
Trang 9
I.2. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH
1. Bảng tần số, tần suất
Bảng tần số, tần suất một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia
chúng thành từng nhóm khác nhau. Bảng tần số thường bao gồm ba cột:
- Cột thứ nhất liệt kê tất các các biểu hiện có thể có của tập dữ liệu.
- Cột thứ hai ghi tần số (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu). Tổng
của cột tần số phải bằng số phần tử của tập dữ liệu.
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu
và nhân với 100%). Tổng của cột tần suất phải bằng 100%.
Ví dụ 1. Bảng tần số, tần suất ngành học của sinh viên một trường đại học như sau:
Ngành học Tần số ( sinh viên) Tần suất (%)
Quản trị kinh doanh 500 50
Điện tử viễn thông 300 30
Công nghệ thông tin 200 20
Tổng 1000 100
Ví dụ 2. Dưới đây là kết quả của câu hỏi “Bạn thích sử dụng ứng dụng nào nhất để thực
hiện việc mua sắm online của mình?”
Bảng tần số, tần suất tương ứng:
Ứng dụng Tần số Tần suất
Shopee 89 89%
Lazada 9 9%
Tiki 2 2%
Tổng 10 100%
2. Đồ thị thống kê
2.1. Biểu đồ dạng thanh Bar Chart ( : thanh đứng hay thanh ngang)
Trên biểu đồ này, mỗi thanh đại diện một phân loại của biến (đặc điểm thống kê) mà ta
quan tâm, chiều dài của thanh thể hiện tần số của các quan sát thuộc về phân loại đó.
Còn chiều rộng của các thanh bằng nhau.
Ví dụ 3. Từ bảng tần số ở Ví dụ 2, ta có biểu đồ dạng thanh đứng sẽ là:
Trang 10
Biểu đồ dạng thanh ngang sẽ là:
2.2 Biểu đồ hình tròn: Thường dùng để mô tả kết cấu (%) của vấn đề đang nghiên cứu.
Ví dụ 4. Biểu đồ hình tròn của bảng dữ liệu trong ví dụ 2 như sau
Trên biểu đồ, toàn bộ diện tích hình tròn được chia thành nhiều mảnh nhỏ hình rẻ quạt,
diện tích mỗi mảnh tương ng với tỉ lệ của phân loại đại diện trong toàn thể
mang một màu khác nhau. Thứ tự của các phân loại (theo chiều ngược kim đồng hồ)
thứ tự nó được sắp xếp trong bảng tổng hợp.
0
20
40
60
80
100
Shopee Lazada Tiki
Các ứng dụng khách hàng
dùng
để mua sắm
online
0 20 40 60 80 100
Shopee
Lazada
Tiki
Các ứng dụng khách hàng dùng để mua sắm
online
| 1/97

Preview text:

TRƯỜNG ĐẠI HỌC HOA SEN
BỘ MÔN KHOA HỌC TỔNG QUÁT
--------------------------------
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Giáo trình lưu hành nội bộ)
Thành phố Hồ Chí Minh – 2023 Trang 1
BÀI GIẢNG THỐNG KÊ ỨNG DỤNG
(Năm học 2022 – 2023 - Trường Đại học Hoa Sen)
PHẦN I. THỐNG KÊ MÔ TẢ - THU THẬP VÀ KHÁM PHÁ DỮ LIỆU I.1. THU THẬP DỮ LIỆU 1. Thống kê là gì?
Thống kê là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số
liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân
tích, dự đoán và ra quyết định.
Như vậy, thống kê có hai lĩnh vực:
- Thống kê mô tả: Bao gồm các phương pháp thu thập, trình bày dữ liệu và tính
toán các đặc trưng nhằm mô tả đối tượng nghiên cứu.
- Thống kê suy diễn: Bao gồm các phương pháp mô hình hoá trên các dữ liệu quan
sát để đưa ra các suy diễn về tập hợp các đơn vị được nghiên cứu.
Thống kê ứng dụng là một môn học thuộc thống kê học, nghiên cứu hệ thống các
phương pháp thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng
số lớn trong nhiều lĩnh vực khác nhau trong đời sống … để tìm hiểu bản chất và tính
quy luật vốn có của chúng (mặt chất) trong những điều kiện thời gian và địa điểm cụ thể.
Thống kê ứng dụng là khoa học về ra quyết định khi đối mặt với sự không chắc chắn và
được sử dụng trong nhiều lĩnh vực như: phân tích tài chính, kinh tế, kiểm toán, sản xuất
và hoạt động, nghiên cứu tiếp thị, y tế, giáo dục,…
2. Các khái niệm cơ bản
2.1. Tổng thể, đơn vị tổng thể, mẫu
Tổng thể thống kê (hay tổng thể - population) là tập hợp tất các các đối tượng mà ta
nghiên cứu. Các đơn vị (hay phần tử - elements) tạo thành tổng thể được gọi là đơn vị
tổng thể. Mẫu (sample) là một bộ phận lấy ra từ tổng thể.
Ví dụ 1. Khi nghiên cứu đặc điểm của nhóm khách hàng sử dụng một loại sản phẩm
nào đó trên địa bàn Thành phố Hồ Chí Minh (Tp. HCM) ta chọn ra 500 khách hàng
đang sử dụng sản phẩm đó tại Tp. HCM. Cho biết tổng thể, đơn vị tổng thể và mẫu. 2.2 Biến
Biến là đặc điểm của đơn vị tổng thể, được chia thành hai loại:
- Biến định tính (categorical/qualitative variable): Thể hiện tính chất của đơn vị được khảo sát;
- Biến định lượng (Quantitative variable): Thể hiện bằng các con số.
Ví dụ 2. a) Khi nghiên cứu đặc điểm của khách hàng, có các biến: giới tính, tuổi, nghề nghiệp, thu nhập, …
b) Khi nghiên cứu các doanh nghiệp, mỗi doanh nghiệp có thể nghiên cứu trên các biến
như: số lượng công nhân, vốn cố định, vốn lưu động, giá trị sản xuất, … Trang 2
Một số biến có thể đồng thời là biến định tính và biến định lượng. Chẳng hạn, “tuổi” là
biến định lượng vì nó thể hiện bằng con số. Tuy nhiên, nếu chúng ta phân loại tuổi
thành 4 nhóm: trẻ em, thiếu niên, thanh niên, người già thì nó lại là biến định tính. 2.3 Dữ liệu
Dữ liệu là kết quả quan sát được của các sự kiện hay hoạt động. Dữ liệu được thu thập,
trình bày dưới dạng bảng có nhiều hàng và cột nhằm trình bày và giải thích cho một vấn đề nào đó.
Dữ liệu cũng được phân biệt thành hai loại: - Dữ liệu định tính;
- Dữ liệu định lượng.
Các doanh nghiệp luôn dựa vào nguồn dữ liệu để lập kế hoạch và nâng cao hiệu quả
kinh doanh. Tất cả các dữ liệu được thu thập trong một nghiên cứu cụ thể được gọi là bộ dữ liệu (data set).
Dữ liệu được thu thập để ghi lại các giao dịch của công ty còn được gọi là dữ liệu giao
dịch (transactional data). Quá trình sử dụng dữ liệu giao dịch nhằm để đưa ra các quyết
định hoặc phân tích dự báo (data mining/predictive analytics) gọi là phân tích dữ liệu.
Dữ liệu thường được trình bày dưới dạng bảng. Mỗi dòng là một đơn vị tổng thể mà
chúng ta cần phải quan sát, thu thập. Mỗi biến của đơn vị tổng thể được thể hiện trong một cột.
Ví dụ 3. Đây là một bảng dữ liệu: Trang 3
Ba bảng trên có mối liên hệ với nhau. Chúng ta có thể nhìn vào các khách hàng đề tìm
những sản phẩm mà họ đã mua, hoặc cũng có thể nhìn vào một sản phẩm để tìm khách hàng đã mua nó. 2.4. Nguồn dữ liệu
Khi nghiên cứu, ta có thể sử dụng các dữ liệu từ những nguồn có sẵn, đã được công bố
hoặc chưa công bố, hay có thể tự mình đi thu thập dữ liệu mới.
- Dữ liệu thứ cấp: Dữ liệu từ nguồn có sẵn, thường đã qua tổng hợp, xử lí.
- Dữ liệu sơ cấp: Dữ liệu thu thập trực tiếp từ đối tượng nghiên cứu.
Ví dụ 4. Khi nghiên cứu về ảnh hưởng của việc đi làm thêm đối với kết quả học tập, thì
đâu là nguồn dữ liệu thứ cấp, đâu là nguồn dữ liệu sơ cấp?
a) Nguồn dữ liệu thứ cấp khá đa dạng, có thể là:
- Các báo cáo nội bộ cơ quan, doanh nghiệp: các số liệu báo cáo về tình hình sản
xuất, tiêu thụ, tài chính,…
- Các số liệu của Cơ quan Thống kê nhà nước, Cơ quan Chính phủ: dân số, việc
làm, mức sống dân cư, tài nguyên, …
- Báo, tạp chí, mạng Internet,…
b) Nguồn dữ liệu sơ cấp được thu thập qua các cuộc điều tra khảo sát. Có hai
phương pháp thu thập nguồn dữ liệu sơ cấp: Thu thập trực tiếp: - Quan sát - Phỏng vấn trực tiếp Thu thập gián tiếp:
- Phỏng vấn bằng điện thoại
- Phương pháp gửi thư, email
Ưu điểm, nhược điểm của các phương pháp thu thập thông tin trên đây có thể tóm tắt trong bảng sau: Tính chất Phương pháp Phỏng vấn Phỏng vấn gửi thư, email qua tel trực tiếp Linh hoạt Kém TB Tốt Khối lượng thông tin Đầy đủ Hạn chế Đầy đủ Tốc độ thu thập Chậm Nhanh Nhanh thông tin Tỉ lệ câu hỏi Thấp TB Cao được trả lời Chi phí Tiết kiệm Tốn kém Tốn kém
2.5. Cấp bậc đo lường và thang đo dữ liệu
Dữ liệu có thể được phân loại theo các cấp bậc đo lường. Thang đo rất quan trọng trong
việc xác định các phương pháp để mô tả và phân tích dữ liệu. Có bốn cấp bậc đo lường
theo mức độ thông tin tăng dần, đó là thang đo: định danh, thứ bậc, khoảng và tỉ lệ. Trang 4
- Thang đo định danh (hay thang đo phân loại) là bậc thấp nhất, không thể hiện
sự hơn kém. Thang đo này được sử dụng cho các dữ liệu định tính, chỉ khác biệt nhau về tên gọi.
Ví dụ 5. Giới tính, màu sắc, nhãn hiệu, tình trạng hôn nhân,… là thang đo định danh.
- Thang đo thứ bậc thể hiện sự hơn kém của dữ liệu nhưng không biết chính xác
mức độ hơn kém đó. Thang đo này cũng được sử dụng cho các dữ liệu định tính.
Ví dụ 6. Trình độ văn hoá, xếp loại học lực,… là thang đo thứ bậc.
- Thang đo khoảng thể hiện được mức độ hơn kém giữa các giá trị đo lường,
trong đó giá trị 0 chỉ là quy ước mà không có ý nghĩa. Thang đo khoảng được
xem là thang đo thứ bậc có khoảng cách đều nhau. Thang đo này được sử dụng
cho các dữ liệu định lượng.
Ví dụ 7. Để đo lường sở thích của khách hàng, có thể dùng thang đo khoảng như sau:
(1) Rất không thích; (2) Không thích; (3) Không có ý kiến gì; (4) Thích; (5) Rất thích.
- Thang đo tỉ lệ là loại thang đo dùng cho các dữ liệu định lượng, có đầy đủ các
tính chất của thang đo khoảng, trong đó giá trị 0 có nghĩa thật sự, cho phép lấy tỉ lệ so
sánh giữa hai giá trị thu thập. Đây là thang đo ở bậc cao nhất trong hệ thống thang đo.
Ví dụ 8. Tiền tệ, mét, kg,… là thang đo tỉ lệ.
3. Các kĩ thuật chọn mẫu
Việc nghiên cứu trên tổng thể trong trường hợp tổng thể có số lượng phần tử (đơn vị) quá lớn sẽ dẫn đến:
 Mất nhiều thời gian;
 Tốn nhiều tiền bạc;
 Cần nhiều nhân lực,…
Trong trường hợp không có đủ các nguồn lực cho nghiên cứu trên tổng thể hoặc muốn
tiết kiệm các nguồn lực này, người ta có thể tiến hành nghiên cứu trên mẫu.
Mục đích của việc chọn mẫu là bảo đảm cho mẫu được chọn thực sự phản ánh trung
thực, đại diện cho toàn bộ tổng thể. Sau đây là bốn phương pháp chọn mẫu phổ biến.
a) Phương pháp chọn mẫu ngẫu nhiên đơn giản: là mẫu mà ở đó mỗi đơn vị của
tổng thể được chọn với sự ngẫu nhiên như nhau.
Ví dụ 9. Từ danh sách hơn 10.000 sinh viên, muốn chọn ra 200 sinh viên để phỏng
vấn, ta có thể dùng lệnh RAND (.) trong Excel để có được một danh sách ngẫu nhiên.
b) Đối với phương pháp chọn mẫu hệ thống, trước tiên lập danh sách các đơn vị của
tổng thể chung theo một trật tự quy ước nào đó, sau đó đánh số thứ tự các đơn vị trong
danh sách. Đầu tiên chọn ngẫu nhiên 1 đơn vị trong danh sách; sau đó cứ cách đều k
đơn vị lại chọn ra 1 đơn vị vào mẫu,… cứ như thế cho đến khi chọn đủ số đơn vị của mẫu. Trang 5
Ví dụ 10. Dựa vào danh sách bầu cử tại 1 thành phố, ta có danh sách theo thứ tự tên chủ
hộ, bao gồm 240.000 hộ. Ta muốn chọn ra một mẫu có 2000 hộ. Vậy khoảng cách chọn
là: k = 240000/2000 = 120, có nghĩa là cứ cách 120 hộ thì ta chọn một hộ vào mẫu.
c) Trong phương pháp chọn mẫu cả khối (hay lấy mẫu nhiều giai đoạn), đầu tiên
tổng thể được chia thành nhiều khối, lẫy ngẫu nhiên m khối sau đó khảo sát hết
(hay một số) các đối tượng trong các khối mẫu đã được lấy ra. Đối với phương
pháp này ta không cần phải có danh sách các đơn vị chọn mẫu.
Ví dụ 11. Cần khảo sát tất cả các hộ dân thường trú tại TP. HCM, ta chọn ngẫu nhiên
một số quận, rồi khảo sát tất cả (hay một số) hộ dân trong các quận đã chọn ra.
d) Ta sử dụng phương pháp chọn mẫu phân tầng khi các đơn vị quá khác nhau về
tính chất liên quan đến vấn đề cần nghiên cứu và khảo sát.
Ví dụ 12. khi khảo sát mức độ hài lòng của sinh viên một trường đại học về cảm nhận
của sinh viên về chất lượng đào tạo, thường sẽ có sự khác biệt lớn về số lượng sinh
viên và điều kiện học tập giữa các hệ khác nhau như hệ chính quy, hệ hoàn chỉnh đại
học, hệ đại học… Theo phương pháp này tổng thể nghiên cứu được chia thành các tầng
lớp, từ kích thước mẫu đã chọn ta phân bổ tỷ lệ cho từng tầng lớp rồi tiến hành lấy mẫu
ngẫu nhiên hay có thệ thống.
Ví dụ 13. Các ví dụ sau đây sử dụng phương pháp chọn mẫu gì?
a) Để nghiên cứu tỉ lệ trẻ em được tiêm phòng ở tỉnh X, người ta chọn ngẫu nhiên
10 xã trong tỉnh để điều tra toàn bộ.
b) Để thăm dò tỉ lệ yêu thích sản phẩm A của mọi đối tượng khách hàng, công ty
yêu cầu khảo sát ngẫu nhiên 1000 người, trong đó 50% nam và 50% nữ, 50%
trên 40 tuổi và 50% trong độ tuổi từ 15 đến 40.
c) Để kiểm tra mức độ chính xác của thông tin về 800 khách hàng do các nhân viên
thu thập, nhà quản lý dựa vào danh sách quyết định chọn 10% khách hàng để kiểm tra lại thông tin.
4. Nguyên tắc thiết kế bảng câu hỏi
Để một cuộc khảo sát mang lại những thông tin hữu ích về tổng thể mà chúng ta quan
tâm. Trước khi tiến hành, cần phải trả lời các câu hỏi sau:
 Tôi muốn biết điều gì?
 Ai là người trả lời đúng?
 Thế nào là câu hỏi đúng?
 Điều gì sẽ được thực hiện với kết quả thu được?
Những câu hỏi này có vẻ hiển nhiên, nhưng nó giúp cho chúng ta xác định những
nguyên tắc đúng đắn trong việc tiến hành một cuộc khảo sát:
 Chỉ tìm những gì bạn muốn biết. Trước khi khảo sát, cần phải rõ ràng những gì chúng Trang 6
ta muốn biết về tổng thể, nếu không chắc điều này, chúng ta không thể có một cuộc
khảo sát tốt. Lỗi phổ biến nhất trong trường hợp này là chúng ta thường thiết kế các
bảng câu hỏi (công cụ khảo sát) quá dài, làm hạn chế đối tượng mà chúng ta có thể
khảo sát và thông tin thu được thường không trung thực.
 Hãy đặt những câu hỏi thật cụ thể, hạn chế những câu hỏi chung chung.
Ví dụ 14. Thay cho câu hỏi: “Bạn có dành nhiều thời gian cho việc học không?” thì
nên đặt: “Mỗi ngày, bạn dùng mấy giờ cho việc học?”.
 Sử dụng bảng khảo sát phù hợp với đối tượng. Chẳng hạn, nếu bạn muốn thăm dò
khách hàng về mức độ hài lòng của họ đối với sản phẩm hay dịch vụ của mình, đối
tượng có thể là bất kì khách hàng nào. Nhưng nếu bạn muốn cải tiến sản phẩm hay dịch
vụ của mình, thì đối tượng nên tập trung vào những khách hàng đã và đang có những
khiếu nại hoặc từ chối sử dụng những sản phẩm hay dịch vụ đó.
 Cẩn thận với những thành kiến hay sự chủ quan. Việc thiết kế một câu hỏi và các
phương án trả lời đôi khi dựa trên kinh nghiệm của người thiết kế hơn là những ghi
nhận khách quan khoa học, điều này dẫn đến sự áp đặt đối với người trả lời, và do đó
thông tin thu được không khách quan.
Ví dụ 15. Trong các đề tài khảo sát của SINH VIÊN Hoa Sen với chủ đề về “Trà sữa”,
SINH VIÊN thường đặt câu hỏi: “Bạn uống bao nhiêu ly trà sữa mỗi tuần” với các phương án: a) 1 – 2 b) 3 – 4 c) 5 – 6 d) 7 – 8
Như vậy, đều này đã dẫn đến sự áp đặt tất cả người được khảo sát đều phải uống trà
sữa ít nhất 1 lần/tuần.
 Cẩn thận với các câu hỏi hoặc các phương án trả lời gây nhiễu. Các câu hỏi và
các phương án trả lời nên được thiết kế rõ ràng, đảm bảo đối tượng được khảo sát
không hiểu nhầm hoặc khó khăn trong việc xác định câu trả lời.
Ví dụ 15. Với câu hỏi: “Bao nhiêu người trong gia đình bạn đang sở hữu một chiếc xe
gắn máy?” thì nên làm rõ “gia đình” được hiểu theo nghĩa nào? Dựa vào quan hệ huyết
thống hay phải ở chung một nhà?
Còn với câu hỏi: “Bạn có thường xuyên xem phim ở rạp không?” với các phương án: a) Không bao giờ b) Hiếm khi
c) Thỉnh thoảng d) Thường xuyên
Thì việc phân biệt giữa các phương án b), c) và d) có thể gây khó khăn khi lựa chọn.
Bài tập thực hành: Sử dụng Google Docs, thiết kế và soạn một bảng khảo sát, sau đó
viết một email có nội dung mời tham gia khảo sát kèm link của bảng khảo sát.
5. Quy trình phân tích dữ liệu
Bước 1: Xác định vấn đề cần nghiên cứu/ Bài toán trong kinh doanh cần được giải
quyết để chỉ ra các biến cần thu thập. Dữ liệu cần thu là của mẫu hay tổng thể
Bước 2: Thu thập dữ liệu: Lập bảng khảo sát thu thập dữ liệu thô; Trích xuất dữ liệu từ
kho lưu trữ hay các bộ phận, phòng ban có liên quan. Trang 7
Bước 3: Xử lý dữ liệu thô: làm sạch dữ liệu, bóc tách dữ liệu, xem xét dữ liệu bị trùng, bị thiếu, outliner… Bước 4:
- Trình bày dữ liệu dưới dạng các bảng tóm tắt: Bảng phân bố tần số, tần suất, tích
lũy cho biến định tính, định lượng
- Trực quan hóa dữ liệu bằng các loại đồ thị: bar chart, pie chart, Histogram, line
- Tính toán các giá trị đặt trưng của dữ liệu định lượng:
Đặt trưng cho tính tập trung: min, max, trung bình, mode, trung vị, tứ phân vị.
Đặt trưng cho tính phân tán: Khoảng biến thiên, độ trãi giữa, phương sai, độ lệch tiêu chuẩn…
Bước 5: Từ dữ liệu mẫu thực hiện các bài toán thống kê suy diễn cho tổng thể:
- Xây dựng khoảng ước lượng Trung bình và Tỷ lệ của tổng thể
- Kiểm định Trung bình và Tỷ lệ
- Xây dựng các mô hình hồi quy để dự báo Trang 8
I.2. TRÌNH BÀY VÀ MÔ TẢ DỮ LIỆU ĐỊNH TÍNH
1. Bảng tần số, tần suất
Bảng tần số, tần suất là một bảng tổng hợp, trình bày dữ liệu bằng cách phân chia
chúng thành từng nhóm khác nhau. Bảng tần số thường bao gồm ba cột:
- Cột thứ nhất liệt kê tất các các biểu hiện có thể có của tập dữ liệu.
- Cột thứ hai ghi tần số (số lần từng biểu hiện đó xuất hiện trong tập dữ liệu). Tổng
của cột tần số phải bằng số phần tử của tập dữ liệu.
- Cột thứ ba ghi tần suất (bằng cách lấy tần số chia cho số phần tử của tập dữ liệu
và nhân với 100%). Tổng của cột tần suất phải bằng 100%.
Ví dụ 1. Bảng tần số, tần suất ngành học của sinh viên một trường đại học như sau: Ngành học
Tần số ( sinh viên) Tần suất (%) Quản trị kinh doanh 500 50 Điện tử viễn thông 300 30 Công nghệ thông tin 200 20 Tổng 1000 100
Ví dụ 2. Dưới đây là kết quả của câu hỏi “Bạn thích sử dụng ứng dụng nào nhất để thực
hiện việc mua sắm online của mình?”
Bảng tần số, tần suất tương ứng: Ứng dụng Tần số Tần suất Shopee 89 89% Lazada 9 9% Tiki 2 2% Tổng 10 100% 2. Đồ thị thống kê
2.1. Biểu đồ dạng thanh (Bar Chart: thanh đứng hay thanh ngang)
Trên biểu đồ này, mỗi thanh đại diện một phân loại của biến (đặc điểm thống kê) mà ta
quan tâm, chiều dài của thanh thể hiện tần số của các quan sát thuộc về phân loại đó.
Còn chiều rộng của các thanh bằng nhau.
Ví dụ 3. Từ bảng tần số ở Ví dụ 2, ta có biểu đồ dạng thanh đứng sẽ là: Trang 9
Các ứng dụng khách hàng dùng để mua sắm online 100 80 60 40 20 0 Shopee Lazada Tiki
Biểu đồ dạng thanh ngang sẽ là:
Các ứng dụng khách hàng dùng để mua sắm online Tiki Lazada Shopee 0 20 40 60 80 100
2.2 Biểu đồ hình tròn: Thường dùng để mô tả kết cấu (%) của vấn đề đang nghiên cứu.
Ví dụ 4. Biểu đồ hình tròn của bảng dữ liệu trong ví dụ 2 như sau
Trên biểu đồ, toàn bộ diện tích hình tròn được chia thành nhiều mảnh nhỏ hình rẻ quạt,
diện tích mỗi mảnh tương ứng với tỉ lệ của phân loại mà nó đại diện trong toàn thể và
mang một màu khác nhau. Thứ tự của các phân loại (theo chiều ngược kim đồng hồ) là
thứ tự nó được sắp xếp trong bảng tổng hợp. Trang 10