











Preview text:
THỐNG KÊ TRONG NGHIÊN CỨU XÃ HỘI I. MỤC Đ ÍCH CỦA T HỐNG K Ê
- Tập hợp và mô tả dữ liệu - Phân tích dữ liệu
- Đưa ra những kết luận từ dữ liệu II.
CÁC KHÁI NIỆM CƠ BẢN
1. Tổng thể (population): là tập hợp các phần tử được quan tâm trong một nghiên cứu. Nó
có thể hầu như là mọi thứ.
Ví dụ: dân số Việt Nam, tổng thể sinh viên của trường ĐH KHXH&NV hay tổng số sinh viên của một Khoa.
2. Mẫu (sample): là tập hợp con của tổng thể được chọn ra để tiến hành thu thập dữ liệu
nghiên cứu. Khi mẫu được chọn đảm bảo tính đại diện, sẽ có thể sử dụng để suy rộng ra
các đặc trưng của tổng thể.
Ví dụ, một công ty nghiên cứu thị trường tiến hành khảo sát 650 người tiêu dùng để thu
thập thông tin về thị hiếu dùng sữa của người dân thành phố HCM.
3. Biến (variable): là tập hợp các đặc trưng và giá trị được dùng để chỉ một khái niệm.
Ví dụ, biến giới tính (có hai giá trị nam và nữ), biến tôn giáo (bao gồm Phật giáo, Thiên
chúa giáo, Tin lành, Hòa Hảo, khác và không tôn giáo).
4. Định đề (proposition): là một phát biểu về mối liên hệ giữa các khái niệm.
Ví dụ, hút thuốc lá dẫn đến bệnh ung thư phổi, hay quan hệ tình dục không an toàn dẫn
đến nguy cơ nhiễm HIV/AIDS
- Biến độc lập (independent variable): là biến được dùng để giải thích cho nguyên nhân của một hiện tượng.
- Biến phụ thuộc (dependent variable): được coi là biến kết quả, nó chịu sự chi phối của biến độc lập.
Ví dụ, hút thuốc lá -> biến độc lập
ung thư phổi -> biến phụ thuộc
giới tính -> biến độc lập
lựa chọn ngành học -> biến phụ thuộc
5. Thao tác hóa (operationalization): một phương pháp để quan sát và ghi nhận những
khía cạnh của một cá nhân, khách thể, hay một sự kiện có liên quan để tiến hành kiểm định giả thuyết.
Ví dụ, khái niệm về kinh tế bền vững, bao gồm các chỉ báo cấp 1: - giáo dục - tỉ lệ xuất
khẩu - nhập khẩu - hay tỉ lệ tăng trưởng kinh tế
6. Đo lường (measurement): là cách thức gán những con số hay giá trị cho các quan sát
theo một quy tắc nhất định.
Ví dụ: thu nhập (1 triệu, 2 triệu, 3 triệu, 4 triệu, …), trình độ học vấn (1, 2, 3, 4, 5, …) III. BIẾN
Hai loại biến: biến định tính (qualitative variable) và biến định lượng (quantitative variable).
- Đối với biến định tính, những đặc trưng phân biệt dựa trên sự khác biệt về đặc tính, chứ
không phải về số lượng hoặc độ lớn.
- Các biến được gọi là định lượng khi mà các giá trị của biến cho thấy sự khác biệt về độ
lớn hay số lượng giữa chúng. IV. CÁC LOẠI THANG ĐO
Tương ứng với 02 loại biến định tính và định lượng, có 02 loại thang đo chính:
- Thang đo biến số phạm trù (bao gồm thang đo danh nghĩa và thang đo thứ tự)
- Thang đo biến số số (bao gồm thang đo khoảng cách và thang đo tỉ lệ) 1. Thang đo danh nghĩa
- Một biến được xác định bởi thang đo danh nghĩa bao gồm hệ thống các chỉ báo khác
nhau biểu thị thuộc tính hay tính chất của biến đó.
- Các chỉ báo này có tính chất ngang nhau và không theo một thứ tự nào.
- Một thang đo danh nghĩa phải có 2 chỉ báo trở lên.
Ví dụ: Giới tính 1. Nam 2. Nữ
Tình trạng hôn nhân 1. Độc thân 2. Có vợ/chồng 3. Ly thân 4. Ly dị 5. Góa 2. Thang đo thứ bậc
- Là thang đo danh nghĩa nhưng các chỉ báo hay các phương án trả lời được sắp xếp theo
một trật tự nhất định.
- Nói một cách khác, giữa các chỉ báo này có quan hệ thứ bậc hơn kém, nhưng thường
thì mức độ hơn kém giữa chúng không xác định được.
Ví dụ: Thu nhập trung bình hàng tháng: 1. Dưới 500 ngàn
2. Từ 500 ngàn đến dưới 1 triệu
3. Từ 1 triệu đến dưới 2 triệu
4. Từ 2 triệu đến dưới 3 triệu 5. Từ 3 triệu trở lên 3. Thang đo khoảng cách -
Là thang đo có đầy đủ tính chất của một thang đo d
anh nghĩa và thứ bậc, nhưng khoảng
cách giữa các chỉ số được xác định một cách cụ thể và đều nhau.
- Đối với loại thang đo này ta có thể sử dụng một số các phép tính toán học như tính
trung bình hay tính toán tỉ lệ chênh lệch giữa các chỉ số.
- Điểm “không” của thang đo này là tùy ý
Ví dụ: Những người có học vấn cao sẽ có thu nhập cao 1 2 3 4 5 6 7 rất không rất đồng ý đồng ý 4. Thang đo tỉ lệ
- Một thang đo tỉ lệ có cả tất những phẩm chất của những loại thang đo trước. Ngoài ra
thang đo này có một giá trị 0 “thực”.
Ví dụ: Thu nhập trung bình hàng tháng: ………. Tuổi: ………. V. THUẬT NGỮ MẪU
Mẫu (sample): là tập hợp con của tổng thể được chọn ra để tiến hành thu thập dữ liệu nghiên cứu.
- Mẫu là một tập hợp các yếu tố, chọn trong một tổng thể các yếu tố
- Tổng thể này có thế được liệt kê một cách đầy đủ nhưng cũng có thể chỉ là giả thiết.
Mục tiêu chọn mẫu: Mẫu được chọn phải phản ánh một cách chính xác về những đặc
điểm của nhóm dân số lớn hơn -> chỉ có vậy mới có thể khái quát hóa về dân số nghiên cứu. 4 lí do chọn mẫu:
- Thông tin thu thập sẽ chính xác hơn, cặn kẽ hơn khi tiến hành nghiên cứu trên một mẫu
thay vì toàn bộ dân số.
- Khả năng sai sót trong điều tra nghiên cứu trên mẫu sẽ thấp hơn khi điều tra trên một
tổng thể. Hơn nữa, có khả năng tập trung được một nhóm chuyên gia có trình độ tham gia vào cuộc nghiên cứu.
- Sẽ không gặp khó khăn nhiều khi tiến hành nghiên cứu với các nhóm dân cư có tính biến động cao.
- Khảo sát theo mẫu nhanh hơn và rẻ hơn. Vì mẫu bao giờ cũng nhỏ hơn so với tổng thể,
cho nên việc thu thập sẽ nhanh hơn, chính xác hơn và kinh tế hơn.
Lấy mẫu (chọn mẫu): là quá trình lựa chọn phần đại diện của khối dân cư. trái ngược với
quá trình liệt kê đầy đủ (tức là mỗi thành viên trong khối dân cư cần nghiên cứu đèu được đưa vào)
Khối dân cư là toàn bộ một nhóm các thể loại hoặc cá nhân liên quan cần nghiên cứu.
Trong cuộc nghiên cứu mẫu, cần phân biệt hai khối dân cư:
- Khối dân cư mục tiêu là khối dân cư mà nhà nghiên cứu cần có thông tin đại diện.
- Khối dân cư lấy mẫu là khối dân cư mà từ đó một mẫu cụ thể được chọn ra dựa trên khung mẫu.
Khung mẫu (danh sách) là danh sách các đơn vị lấy mẫu (các cá nhân) đại diện cho khối
dân cư. Là cái được sử dụng để đại diện cho tổng thể về mặt thực nghiệm (tức là các
thành viên nằm trong khuôn mẫu sẽ được quan sát, được nghiên cứu là những người thuộc về tổng thể).
Đơn vị mẫu: Nếu mẫu được lựa chọn trực tiếp trong khung mẫu mà không cần xem xét
các thành phần, các yếu tố trong tổng thể thì mỗi một lần chọn các thành viên của mẫu sẽ là một đơn vị. VI. CHỌN MẪU
A Mẫu xác suất (probability sampling) ◼ Mẫu ngẫu nhiên đơn giản ◼ Mẫu ngẫu nhiên
hệ thống ◼ Mẫu phân tầng ◼ Mẫu cụm
B. Mẫu phi xác suất (nonprobability sampling)
A. Mẫu xác suất:
1. Mẫu ngẫu nhiên đơn giản: Là qui trình lấy mẫu bằng cách chọn ra các con số hay
trường hợp theo nguyên tắc cơ hội được chọn ngang nhau giữa các phần tử, cá nhân trong tổng thể.
Có nhiều cách để chọn ra danh sách mẫu: bốc thăm ngẫu nhiên, chọn ngẫu nhiên các số
từ danh sách khung mẫu đã được đánh số thứ tự, hay dựa trên danh sách các con số ngẫu nhiên do máy tính tạo ra.
2. Mẫu ngẫu nhiên hệ thống: Theo cách chọn mẫu này, cứ mỗi phần tử thứ tiếp sau k
phần tử đầu tiên được chọn ngẫu nhiên từ danh sách sẽ được chọn. Cứ thế, chọn tiếp tục
các phần tử theo sau trong danh sách để đạt được dung lượng mẫu cần.
Công thức tính k: k=N/n
k: hệ số chọn mẫu (k luôn là số nguyên) N: tổng thể dân số n: dung lượng mẫu chọn
3. Mẫu phân tầng: Chọn mẫu phân tầng được sử dụng khi chúng ta đã biết thông tin về
tổng thể dân số trước khi chọn mẫu. Để bắt đầu, tất cả những phần tử của dân số sẽ được
phân biệt theo những đặc tính của chúng, và được xếp vào từng tầng khác nhau. Tiếp
theo, các phần tử sẽ được chọn ngẫu nhiên theo các phân tầng đó.
Ví dụ, một trường ĐH có ¾ nữ và ¼ nam, vậy mẫu được chọn cũng sẽ có tỉ lệ tương tự như thế.
4. Mẫu cụm: Chọn mẫu cụm được sử dụng khi chúng ta không có một khung mẫu cụ thể.
Khác với chọn mẫu phân tầng, các “tầng” là các nhóm đồng nhất được chọn ra theo
những đặc trưng cá nhân như giới tính, trình độ học vấn, tôn giáo…, “cụm” là sự liên kết
của các nhóm không đồng nhất. Do đó, “cụm” thường được chọn theo các yếu tố như: vị
trí địa lý, các tổ chức, đơn vị xã hội, các cụm dân cư… sau khi có danh sách các cụm,
tiến hành chọn ngẫu nhiên để xác định các cụm đại diện, sau đó chọn ngẫu nhiên các
phần tử trong mỗi cụm để lập danh sách mẫu nghiên cứu. VII. THỐNG KÊ MÔ TẢ
Thống kê mô tả là phương pháp liên quan đến việc tổ chức, tổng hợp và trình bày số liệu
thu thập được từ mẫu nghiên cứu hoặc tổng thể.
Ví dụ: Thích loại nước ngọt
3 3 3 3 3 3 3 2 3 3 3 1 3 3 3 3 3 1 3 2 3 3 1 3 3 3 3 3 3 1
Một trong những lý do chính sử dụng phương pháp thống kê là để tổng hợp và mô tả dữ
liệu, làm cho thông tin được trình bày rõ ràng hơn.
VIII. PHƯƠNG PHÁP THỐNG KÊ MÔ TẢ DƯỚI DẠNG BẢNG
Phân phối tần suất: 1 bảng trình bày số lần xuất hiện của một hay nhiều giá trị được quan
sát trong mẫu hoặc tổng thể.
Các kiểu phân phối tần suất ◼ Thô (raw)
◼ Liên hệ (relative): tỉ lệ (proportion) và phần trăm (percent) ◼ Lũy tiến (cumulative)
Một số ký hiệu sử dụng trong tính toán phân phối tần suất
◼ n = tổng số mẫu quan sát ◼ X = biến
◼ i = giá trị (thành phần) của biến X
◼ fi = tần suất quan sát của giá trị i
Các thành phần (giá trị) của biến phải: + Loại trừ lẫn nhau
+ Bao phủ hết các trả lời
Bảng phân phối tần suất nên bao gồm:
◼ Tiêu đề mô tả nội dung của bảng ◼ Tên biến
◼ Nhãn giá trị cho các thành phần biến
◼ Tổng các quan sát của mẫu
◼ Khai báo nguồn dữ liệu
Công thức tần suất tỉ lệ pi = fi /n ∑pi = 1
Công thức tần suất phần trăm %i = fi /n * 100 ∑%i = 100
IX. MÔ TẢ ĐỘ TẬP TRUNG CỦA BIẾN
Yếu vị (Mode): giá trị xuất hiện nhiều lần nhất trong tập một dữ liệu
- Mode có thể được sử dụng cho tất cả các loại thang đo.
- Mode không chịu ảnh hưởng của những giá trị ngoại lệ.
Trung vị (Median): là giá trị đứng giữa trong tập một dữ liệu.
Giá trị này chia tập quan sát làm hai phần đều nhau, 50% số quan sát của tập dữ liệu có
giá trị bé hơn giá trị trung vị và 50% lớn hơn giá trị trung vị.
- Median không chịu ảnh hưởng của những giá trị ngoại lệ
Chú ý: ◼ Muốn xác định giá trị trung vị của một tập dữ liệu, các quan sát trong tập dữ
liệu này trước tiên phải được sắp xếp theo trật tự (từ nhỏ đến lớn hay ngược lại)
◼ Không tính toán giá trị trung vị cho biến có thang đo danh nghĩa.
Công thức xác định vị trí của trung vị: Median x : (n+1)/2 -
Khi n là số lẻ, giá trị trung vị là giá trị nằm ở vị trí thứ (n+1)/2 trong tập dữ liệu.
Đối với biến có thang đo thứ bậc: sử dụng bảng phân phối tần suất lũy tiến để xác định
giá trị trung vị. Giá trị trung vị chính là giá trị có phần trăm lũy tiến lớn hơn và gần kề tỉ lệ 50%
Trung bình cộng (Mean): được tính bằng cách cộng tất cả các giá trị của mỗi quan sát
trong tập dữ liệu rồi chia cho tổng số quan sát. Công thức: = ∑xi /n
Tính giá trị trung bình cho biến có thang đo thứ bậc Công thức: = ∑fi * mi /n
X. MÔ TẢ ĐỘ PHÂN TÁN CỦA BIẾN
Giá trị lớn nhất (Max), giá trị nhỏ nhất (Min):
◼ Giá trị lớn nhất là giá trị có điểm số cao nhất trong tập dữ liệu
◼ Giá trị nhỏ nhất là giá trị có điểm số thấp nhất trong tập dữ liệu Cách độ (Range) – R:
- Cách độ là một trong những cách dễ nhất để mô tả mức độ biến thiên.
- Cách độ là sự cách biệt hay khoảng cách giữa giá trị quan sát lớn nhất và giá trị quan sát nhỏ nhất.
Công thức: R = xmax – xmin
Đại lượng cách độ (R) bị ảnh hưởng rất nhiều bởi các giá trị ngoại lệ → đại lượng đo
lường độ phân tán yếu nhất và ít được sử dụng. Phương sai (Variance):
Một phương pháp khác để đo lường độ biến thiên của một tập dữ liệu là sử dụng giá trị
trung bình cộng như là một điểm để so sánh với từng giá trị quan sát.
Phương sai là giá trị đo lường độ biến thiên xung quanh giá trị trung bình. Phương sai
được tính bằng cách lấy tổng các biến thiên giữa từng quan sát với giá trị trung bình đã
được bình phương chia cho tổng số quan sát.
Mặc dù phương sai được xem như là một trong những phép tính thống kê để đo lường độ
phân tán, tuy nhiên nó không có ý nghĩa nhiều. Giá trị này chỉ thực sự có ý nghĩa khi nó
được chuyển hóa thành một giá trị khác gọi là độ lệch chuẩn (Standard Deviation)
Độ lệch chuẩn (Standard Deviation)
Độ lệch chuẩn chính là giá trị căn bậc hai của phương sai. SD được dùng để đo lường
độ phân tán của các quan sát xung quanh giá trị trung bình.
Độ lệch chuẩn tương ứng với các giá trị quan sát trong tập dữ liệu càng lớn thì độ biến
thiên của tập dữ liệu càng lớn
IQV (Index of Qualitative Variation)
0 -> cho thấy không có sự biến thiên trong mẫu
1 -> có sự phân bổ đều nhau giữa các giá trị (không tồn tại yếu vị mode) XI. THỐNG KÊ SUY DIỄN
Kiểm định giả thuyết là một công cụ của thống kê suy diễn.
Giả thuyết là một phát biểu về những đặc trưng của một tham số (biến) hay tập hợp của
nhiều tham số. Các giả thuyết là những nhận định dựa trên sự tin tưởng chưa được kiểm định
XII. NHỮNG YẾU TỐ CỦA MỘT KIỂM ĐỊNH Ý NGHĨA
1. Kiểu dữ liệu: tương tự như các phương pháp thống kê mô tả, mỗi kiểm định đều chứa
trong nó hoặc là dữ liệu đính tính hoặc là dữ liệu định lượng.
2. Phương pháp chọn mẫu: các kiểm định thường đòi hỏi các phương pháp chọn mẫu xác suất.
3. Dung lượng mẫu: tính giá trị của các kiểm định càng cao khi dung lượng mẫu càng lớn
4. Giả thuyết: một kiểm định ý nghĩa xem xét hai loại giả thuyết về giá trị của một tham số:
- Giả thuyết H0 (null hypothesis): là giả thuyết được kiểm định trực tiếp. Giả thuyết này là
một phát biểu “không” về mối liên hệ giữa hai biến. Nói cụ thể, một biến này không có quan hệ với biến kia.
- Giả thuyết đối Ha (alternative hypothesis): là giả thuyết đối của giả thuyết H . Giả thuyết 0
này phát biểu rằng có tồn tại một mối quan hệ giữa hai biến.
5. Mức độ tin cậy: thông thường mức độ tin cậy của một kiểm định sẽ ở mức 95%
(=0,05) hoặc 99% (=0,01)
XIII. KIỂM ĐỊNH Ý NGHĨA CHO GIÁ TRỊ TRUNG BÌNH Yêu cầu:
- Mẫu xác suất (ngẫu nhiên) - Biến định lượng
Giả thuyết: H : Không có sự khác biệt ý nghĩa 0
về trung bình giữa hai biến
Ha : Có sự khác biệt giữa hai giá trị trung bình
- Nếu giả thuyết H0 bị bác bỏ, tức là chúng ta có bằng chứng thống kê để cho rằng Ha
đúng => có sự khác biệt ý nghĩa giữa hai giá trị trung bình
- Nếu giả thuyết H0 được chấp nhận, tức là chúng ta chưa có đủ bằng chứng thống kê
để cho rằng Ha đúng.
Chú ý: Chấp nhận H0 không có nghĩa là chúng ta đã chứng minh được H đúng và vội 0
vàng kết luận rằng: Không có sự khác biệt giữa hai giá trị trung bình. Chấp nhận H chỉ 0
có nghĩa là chúng ta không đủ bằng chứng thống kê để bác bỏ nó mà thôi.
Nếu giả thuyết H được kiểm định ở mức tin cậy 0
là 95%, có nghĩa là có 95% giả thuyết
H0 bị bác bỏ là chính xác. Nói một cách khác, có 5% sai số trong kiểm định này
XIV. KIỂM ĐỊNH t-Test CHO MẪU ĐỘC LẬP
Kiểm định t-Test cho mẫu độc lập được dùng để xem xét sự khác biệt ý nghĩa về trung
bình giữa hai mẫu nghiên cứu độc lập
1. Dung lượng mẫu nhỏ (n< 30)
Trong trường hợp có ít nhất một trong hai mẫu nghiên cứu có dung lượng nhỏ hơn 30,
chúng ta sẽ sử dụng công thức sau: Trong đó:
Các bước tiến hành kiểm định:
- Bước 1: Xây dựng giả thuyết
- Bước 2: Tìm tobtained theo công thức
- Bước 3: Xác định giá trị tới hạn tcritical
Vì có ít nhất một mẫu với dung lượng n < 30, giá trị tới hạn tcritical được tính dựa trên bậc tự do df df = n1 + n2 – 2
Tra bảng B (tr.669) để xác định giá trị tới hạn t
- Bước 4: So sánh với giá trị tcritical + t ≥ t o
c => p ≤ 0,01 hoặc p ≤ 0,05 => bác bỏ H 0 + t < t o
c => p > 0,01 hoặc p> 0,05 => chấp nhận H0 - Bước 5: Kết luận
2. Dung lượng mẫu lớn (n ≥ 30)
Trong trường hợp ta có dung lượng của cả hai mẫu nghiên cứu đều lớn hơn hoặc bằng 30,
công thức để kiểm định t-Test sẽ thay đổi, công thức mới này được gọi là kiểm định
zTest cho hai mẫu độc lập
Các bước tiến hành kiểm định
- Bước 1: Xây dựng giả thuyết
- Bước 2. Tìm zobtained theo công thức
- Bước 3: Xác định giá trị tới hạn zcritical
zc = 2.58 & p99% = 0,01 với 99% độ tin cậy
zc = 1.96 & p95%= 0,05 với 95% độ tin cậy
- Bước 4: So sánh với giá trị zcritical
zo ≥ zc => p ≤ 0,01 hoặc p ≤ 0,05 => bác bỏ H0
zo < zc => p > 0,01 hoặc p > 0,05 => chấp nhận H0 - Bước 5: Kết luận
XV. KIỂM TRA SỰ ĐỘC LẬP CHI-SQUARE
Kiểm định độc lập hay còn gọi là kiểm định Chi-Square được sử dụng để xem xét có hay
không tồn tại mối quan hệ giữa hai biến định tính. Yêu cầu: - Biến định tính
- Các giá trị của biến loại trừ lẫn nhau Bảng tương quan:
- Dữ liệu trên được trình bày dưới dạng bảng tương quan 2x2.
- Bảng 2x2 biểu thị một biến gồm 2 nhóm (nam và nữ) trong mối quan hệ với một biến
khác cũng bao gồm 2 phương án trả lời (thích hay không thích).
- Cần xác định rõ mối quan hệ giữa hai biến: độc lập – phụ thuộc. Quy trình kiểm định
- Bước 1: Xây dựng giả thuyết
H0 : Không có mối quan hệ giữa hai biến
Ha : Hai biến có mối quan hệ ý nghĩa với nhau
- Bước 2: Tính giá trị tần suất mong đợi
fe = (tổng dòng)*(tổng cột)/tổng mẫu
Trong đó: fe: tần suất mong đợi (expected frequency) là giá trị tần suất giả định rằng hai
biến kiểm định là độc lập
- Bước 3: Tìm giá trị χ2obtained theo công thức:
Trong đó: fo: tần suất quan sát (observed frequency) là giá trị quan sát thực tế
- Bước 4: Tính giá trị χ2critical thông qua bậc tự do
df = (số dòng – 1)*(số cột – 1)
Tra bảng phân bố Chi-Square để tìm giá trị tới hạn tương ứng với từng mức độ tin cậy cụ thể. (Bảng C) - Bước 5: So sánh χ2 2 obtained với χ critical χ 2 2
obtained ≥ χ critical => p ≤ 0,01 hoặc p ≤ 0,05 => bác bỏ H 0 χ 2 2
obtained < χ critical => p > 0,01 hoặc p > 0,05 => chấp nhận H0 - Bước 6: Kết luận
+ Bác bỏ H (p ≤ 0,01 hoặc p ≤ 0,05): tồn tại mối quan hệ có ý 0 nghĩa thống kê giữa hai
biến. Nói một cách khác, biến nghiên cứu này có quan hệ với biến nghiên cứu kia.
+ Chấp nhận H0 (p > 0,01 hoặc p > 0,05): chúng ta chưa có đủ bằng chứng thống kê để
bác bỏ H0 . Nói một cách khác, chưa có đủ bằng chứng để kết luận hai biến có quan hệ với nhau.