Phương Pháp Chọn Mẫu Và Xác Định Cỡ Mẫu - Phương pháp nghiên cứu | Đại học Ngoại ngữ - Tin học Thành phố Hồ Chí Minh
Chương này tập trung vào chủ đề chọn mẫu và xác định cỡ mẫu cho nghiên cứu. Nội dung đầu tiên được thảo luận là bản chất của việc chọn mẫu và lí do mà ta phải chọn mẫu trong quá trình nghiên cứu và các tính chất mà một mẫu tốt cần có.
Môn: Phương pháp nghiên cứu (123456)
Trường: Đại học Ngoại ngữ - Tin học Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Phương Pháp Chọn Mẫu Và Xác Định Cỡ Mẫu 1.Giới thiệu
Chương này tập trung vào chủ đề chọn mẫu và xác định cỡ mẫu
cho nghiên cứu. Nội dung đầu tiên được thảo luận là bản chất
của việc chọn mẫu và lí do mà ta phải chọn mẫu trong quá trình
nghiên cứu và các tính chất mà một mẫu tốt cần có. Nội dung kế
tiếp trình bày về các đặc điểm thể hiện đúng đắn và tính chính
xác để đo lường mức độ hiệu quả của mẫu. Sau đó, chương
hướng dẫn các nguyên tắc cần thiết khi phát triển một kế hoạch
chọn mẫu và các phương pháp cụ thể. Phần cuối của chương tập
trung vào hai phương pháp xác định cỡ mẫu là xác định theo giá
trị trung bình và theo giá trị tỷ lệ.
1.1 Bản chất của việc chọn mẫu
Chọn mẫu ( sampling ) là việc chọn lấy một số phần tử của một
tổng thể ( population ), và từ đó, có thể rút ra các kết luận về các
tổng thể đó. Điều này có nghĩa là khi nghiên cứu một tổng thể
nghiên cứu nào đó, ta không nghiên cứu toàn bộ tổng thể mà chỉ
một bộ phận của tổng thể, và cách thức mà ta chọn ra bộ phận
đó, chính thức chọn mẫu
Mẫu bao gồm một số phần tử cuả tổng thể. Một phần tử của tổng
thể ( population element ) là một cá thể của đối tượng nghiên
cứu một cá nhân người tham gia nghiên cứu mà nhà nghiên cứu
sẽ tiến hành các đo lường. Đây chính là đơn vị nghiên cứu ( unit
of study ) Như vậy, nói ngược lại, một tổng thể bao gồm tất cả
các phần tử của tổng thể mà ta muốn nghiên cứu. about:blank 1/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Thông thường ta không thực hiện nghiên cứu trên toàn bộ phần
tử của tổng thể. Tuy nhiên, ở cấp độ quốc gia, đôi khi các nhà
nghiên cứu vẫn tiến hành điều tra tổng thể. Một điều tra tổng thể
(census) là một nghiên cứu thực hiện trên tất cả mọi phần tử của tổng thể.
Khi chọn mẫu, thường ta phải dựa vào khung mẫu. Khung mẫu
(sample frame) là một danh sách chưa đựng các thông tin cơ bản
của tất cả các đơn vị nghiên cứu (các phần tử của tổng thể) mà
dựa vào đó chúng ta rút ra mẫu. Khi chuẩn bị chọn mẫu nghiên
cứu ta cần lạc lưu ý là có thể tìm được khung mẫu hay không.
6.1.1 Tại sao phải chọn mẫu
Khi thực hiện nghiên cứu, chúng ta rất hiếm khi điều tra tổng
thể, vì lý do cơ bản là hết sức tốn kém và tốn rất nhiều thời gian
công sức. Trong khi đó, nếu chúng ta chỉ điều tra chọn mẫu, thì
ở nhiều lợi thế. Thứ nhất, dĩ nhiên là chi phí nghiên cứu thấp.
Thứ hạ ta có thể đạt tốc độ thu thập dữ liệu nhanh mà vẫn đạt
được mức hình xác cần có của kết quả. Cuối cùng là ta có thể dễ
dàng có được các đơn vị nghiên cứu sẵn có cho nghiên cứu.
Chọn mẫu cho phép có chi phí nghiên cứu thấp. Rõ ràng là điều
tra nghiên cứu trên một mẫu nào đó của tổng thể sẽ có lợi thế về
chi phí nhiều hơn là điều tra tổng thể. Điều này là hiển nhiên.
Chọn mẫu đúng cách vẫn cho phép ta đạt được mức chính xác
cần có của kết quả. Thậm chí chất lượng của một nghiên cứu
thực hiện điều tra chọn mẫu hoặc nghiên cứu trên mẫu vẫn
thường đạt kết quả tốt hơn so với thực hiện điều tra tổng thể
hoặc nghiên cứu tổng thể vì nhà nghiên cứu có thể phỏng vấn tốt
hơn, điều tra nhiều hơn, sâu hơn về các thông tin nghi ngờ, sai about:blank 2/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
sót và xử lý thông tin tốt hơn. Chỉ khi nào tổng thể nghiên cứu
quá nhỏ, dễ tiếp cận, và biến động nhiều thì điều tra tổng thể
mới có thể đạt độ chính xác cao hơn điều tra mẫu.
Chọn mẫu cho phép ta đạt tốc độ thu thập dữ liệu cao hơn. Tốc
độ thực hiện nhanh giúp làm giảm thời gian giữa giai đoạn
chuẩn bị các thông tin cần thiết và giai đoạn thu thập thông tin.
Tốc độ thu thập dữ liệu cao cũng có nghĩa là ta có thể hoàn
thành việc nghiên cứu sớm trong phạm vi giới hạn thời gian cho trước.
Tính sẵn có của các phần tử tổng thể cũng là lợi thế của chọn
mẫu. Thông thường, một số phần tử tổng thể luôn có sẵn, và
chúng ta có thể chọn lựa để thực hiện lấy mẫu để điều tra, nghiên cứu.
Nếu phải so sánh hiệu quả giữa nghiên cứu chọn mẫu và điều tra
tổng thể, ta thấy lợi thế của điều tra mẫu so với điều tra tổng thể
sẽ mất đi nếu tổng thể nhỏ và có tính biến động cao. Có hai điều
kiện làm cho việc nghiên cứu tổng thể phù hợp hơn: (1) có tính
khả thi khi tổng thể nhỏ và (2) cần thiết khi mà mỗi cá thể đều rất khác biệt nhau.
6.1.2 Thế nào là một mẫu tốt
Nghiên cứu dựa trên mẫu dòi hỏi cách chọn mẫu phải hết sức
cẩn trọng để chọn ra được mẫu tốt. Một mẫu được coi là tốt khi
nó có thể đại diện cho các tính chất của tổng thể mà nó được rút
ra. Nói theo thuật ngữ do lường, nó phải có giá trị (validity). Giá
trị của mẫu tùy thuộc vào hai tính chất: tính đúng đắn (accuracy)
và tính chính xác (precision). about:blank 3/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Tính đúng dắn (accuracy) của mẫu là mức độ mà mẫu tránh
được các thiên lệch (bias) Khi mẫu được rút ra đúng cách, thì
các các tỉnh chất của một số phần tử nào đó của tổng thể sẽ được
thể hiện ít hơn mức độ thực có của chúng. Ngược lại, sẽ có một
số phần tử khác sẽ được thể hiện nhiều hơn mức độ thực có của
chúng. Kết quả là, các biến số này của các phần tử sẽ bù trù lẫn
nhau, và dẫn đến việc giá trị của mẫu sẽ gần với giá trị của tổng thể.
Tuy nhiên, để hiệu quả bù trừ này xảy ra, mẫu của chúng ta phải
có đủ số lượng các phần tử, và chúng phải được rút ra từ tổng
thể một cách đúng đắn để không gây ra sự thiên lệch.
Một mẫu đúng (không thiên lệch) là một mẫu mà các sai số
được đánh giá quá cao hay quả thấp không bù trừ lẫn nhau. Và
do đó, phương sai hệ thống (systematic variance) được định
nghĩa như là biến động trong đo lường do các ảnh hưởng biết
được hay không biết được gây ra làm cho các điểm số bị thiên
lệch về một phía nào đó.
Tăng cỡ mẫu (sample size) có thể làm giảm được phương sai hệ
thống như là một nguồn sai số. Tuy nhiên, dù có tăng cỡ mẫu thì
phương sai hệ thống vẫn có thể xảy ra nếu khung mẫu mà ta dựa
vào để rút mẫu đã bị thiên lệch.
Tiêu chuẩn thứ hai để thiết kế một mẫu tốt là tính chính xác của
các ước lượng. Các nhà nghiên cứu đồng ý với nhau là không có
mẫu nào có thể đại diện một cách đầy đủ tổng thể của nó ở mọi
phương diện, mọi khía cạnh. Tuy nhiên, để diễn giải các phát
hiện của nghiên cứu mà chúng ta cần phải do lường mức độ mà
mẫu thể hiện được tổng thể chính xác tới mức nào. Các biến số about:blank 4/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
mô tả mẫu có thể khác với tổng thể do sai số ngẫu nhiên sinh ra
trong quá trình chọn mẫu. Sai số này được gọi là sai số chọn
mẫu (sampling error) hay là sai số chọn mẫu ngẫu nhiên
(random sampling error), và nó phản ảnh ảnh hưởng của cơ hội
rút ra các thành viên của mẫu.
Tính chính xác được đo lường bằng sai số chuẩn của ước lượng.
Sai số chuẩn càng nhỏ có nghĩa là độ chính xác càng cao, và
ngược lại. Một thiết kế chọn mẫu được coi là lý tưởng khi nó tạo
ra sai số chuẩn của ước lượng nhỏ. Tuy nhiên, không phải là tất
cả các kiểu thiết kế mẫu đều tạo ra các ước lượng cho mức độ
chính xác, và các mẫu có cỡ mẫu bằng nhau có thể sinh ra các
mức độ sai số khác nhau.
6.1.3 Các kiểu thiết kế chọn mẫu
Khi thiết kế chọn mẫu ( hay là chọn lựa các phương thức chọn
mẫu -types of sample design), các nhà nghiên cứu phải trả lời
nhiều vấn để (Hình 6.1). Quá trình ra quyết định chọn mẫu phụ
thuộc vào nhiều yếu tố. Có thể kể đến như bản chất của câu hỏi
nghiên cứu và các cấu hỏi điều tra cụ thể được rút ra từ các câu
hỏi nghiên cứu. Ngoài ra, các yếu tố khác ảnh hưởng đến thiết
kế mẫu còn là các yêu cầu của dự án nghiên cứu và mục tiêu của
nó, mức độ rủi ro mà các nhà nghiên cứu chấp nhận, ngân sách
nghiên cứu, quỹ thời gian, các nguồn lực có thể có và văn hóa vùng miền, dân tộc.
Các phần tử trong một mẫu được chọn ra theo một trong hai
kiểu chọn mẫu cơ bản xác suất hay phi xác suất. Chọn mẫu phi
xác suất (non-probability aampling) có tính chất là tùy ý và có
mục tiêu (purposive). Khi chúng ta chọn mẫu có mục tiêu, about:blank 5/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
chúng ta thường chọn mẫu theo một kế hoạch định trước, và mỗi
đơn vị nghiên cứu được rút ra từ tổng thể không có cơ hội được chọn ngang bằng nhau.
Sự khác biệt căn bản giữa chọn màu phí xác suất và chọn mẫu
xác suất là tính chất xác suất của mẫu được chọn. Chọn mẫu xác
suất (probability sampling) dựa trên các phần tử được chọn với
cơ hội lựa chọn cho trước khác không. Chọn mẫu xác suất cho
phép chúng ta xác định được các ước lượng về mức chính xác,
và cho chúng ta cơ hội để tổng quát hóa các phát hiện cho các
tổng thể nghiên cứu dựa trên tổng thể mẫu. Trong khi các nghiên
cứu khám phá không đòi hỏi nhiều về việc này, nhưng các
nghiên cứu giải thích, mô tả và nhân quả lại đòi hỏi điều này.
Trong khi đó, với chọn mẫu phi xác suất, ta không biết trước xác
suất để chọn một phần tử nào đó vào mẫu, đơn giản là vì ta
không cần quan tâm đến xác suất này.
Để bảo đảm có thể tính được xác suất chọn mẫu, di nhiên là ta
phải biết cỡ mẫu (n) và số phần tử của tổng thể nghiên cứu (N).
Xác suất chọn mẫu chính là tỷ số n/N. Nếu tổng thể nghiên cứu
là không xác định thì ta không thể tính được xác suất chọn mẫu.
Chính vì vậy, phương pháp chọn mẫu xác suất đòi hỏi phải có
tổng thể nghiên cứu xác định để có thể biết chắc chắn số phần tử
của nó. Khi tổng thể nghiên cứu là không xác định thì rõ ràng ta
không thể áp dụng phương pháp chọn mẫu xác suất.
Ngoài ra, nếu tổng thể nghiên cứu là xác định thì một điều kiện
khác cần được làm rõ là ta có thể có được khung mẫu hay
không. Việc có khung mẫu bảo đảm cho ta có cơ sở để chọn các
phần tử của tổng thể vào mẫu. Chọn phần tử của tổng thể để đưa about:blank 6/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
vào mẫu là một việc đòi hỏi có sự chuẩn bị và lựa chọn nghiêm
túc để bảo đảm tính đúng đắn của mẫu. Các phần tử của mẫu
được chọn theo từng cá thể và trực tiếp từ tổng thể, dựa trên khung mẫu (Hình 6.1)
Mỗi nhóm phương pháp chọn mẫu xác suất và chọn mẫu phi xác
suất có nhiều kiểu thiết kế chọn mẫu khác nhau (Hình 6.2). Các
kiểu mẫu xác suất bao gồm các kiểu chọn mẫu ngẫu nhiên đơn
giản ( simple random sampling), chọn mẫu hệ thống (systematic
sampling), chọn mẫu phân tầng (stratified sampling), chọn mẫu
phân nhóm ( cluster sampling), và chọn mẫu nhiều giai đoạn
(multistage sampling). Các kiểu chọn mẫu phi xác suất bao gồm
chọn mẫu thuận tiện (convienience sampling), chọn mẫu theo
phán đoán (judgment sampling), chọn mẫu hạn ngạch (quota
sampling), và chọn mẫu quả cầu tuyết (snowball).
Ở hai kiểu chọn mẫu phân tầng và hạn ngạch, mỗi kiểu lại có hai
kiểu phụ là chọn mẫu theo tỷ lệ (propotionate sampling) và
không theo tỷ lệ (dispropotionate sampling).
Hình 6.1 Thiết kế chọn mẫu trong phạm vi quá trình nghiên cứu about:blank 7/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Hình 6.2 Các thiết kế chọn mẫu xác suất và phi xác suất about:blank 8/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
6.2 CÁC BƯỚC THIẾT KẾ CHỌN MẪU
Khi lựa chọn cách chọn mẫu phù hợp nhất cho nghiên cứu,
chúng ta phải trả lời một số câu hỏi đặt ra. Các câu hỏi này cũng
chính là các nguyên tắc, hay là các bước mà chúng ta phải theo.
Các câu hỏi đi theo một trình tự nhất định. Tuy nhiên, để trả lời
tốt một câu hỏi, tiế phải xem xét lại câu hỏi và câu trả lời trước đó.
1. Tổng thể nghiên cứu là gì?
2. Các chỉ tiêu (parameters) cần quan tâm là gì? about:blank 9/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
3. Có khung mẫu hay không?
4. Phương pháp chọn mẫu nào là phù hợp?
5. Cần cô mẫu bao nhiêu?
6.2.1 Tổng thể nghiên cứu là gì?
Thông thường, khi chúng ta xác định vấn đề nghiên cứu và đặt
ra câu hỏi nghiên cứu thì chúng ta đã biết tổng thể nghiên cứu là
gì rồi. Tuy nhiên, cũng có khi chúng ta vẫn chưa rõ ràng về tổng
thể nghiên cứu. Nếu chúng ta không biết rõ mục tiêu nghiên cứu
thì rất khó chọn mẫu phù hợp.
Trong nghiên cứu kinh tế, đối tượng quan sát chủ yếu là con
người. Tuy nhiên, chủ thể này cũng có thể bao gồm cá nhân
hoặc các tổ chức của con người. Vì vậy, nếu chúng ta vẫn nhầm
lẫn hoặc không biết chắc chắn là tổng thể bao gồm các cá nhân,
hộ tại đình, gia đình hoặc là kết hợp các loại này thì khó có thể
quan sát đúng đối tượng. Rõ ràng là đối với một nghiên cứu kinh
tế thì việc xác định phân tử là một cá nhân hay là một hộ gia
đình hay là một tổ chức dạng khác sẽ đưa đến các kết quả hoàn
toàn khác nhau. Vì vậy, cần chú ý là ta phải xác định rõ khung
phân tích, và khung hành động để chọn lựa dùng tổng thể liên quan about:blank 10/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Ví dụ 6.1 Khi nghiên cứu về vấn đề nghèo đói, ta phải hiểu tổng thể nghiên cứu của ta là
gì. Nếu nghiên cứu theo góc độ vùng địa giới hành chính, tổng thể nghiên cứu có thể
bao gồm các vùng hành chính như tỉnh, quận huyện, xã phường. Nếu ta nghiên cứu theo
góc độ hộ gia đình thì tổng thể nghiên cứu lại bao gồm các hộ gia đình. Trên thực tế, các
phần tử cơ bản của tổng thể nghiên cứu này chính là hộ gia đình được phân bố theo các
vùng địa giới hành chính. Vì vậy, các phần tử mà ta phải chọn lựa bao gồm cả vùng địa
giới hành chính và hộ gia đình.
6.2.2 Các chỉ tiêu cần quan tâm là gì?
Các chỉ số thể hiện cho tổng thể là các chỉ tiêu mô tả tổng hợp
(ví dụ giá trị trung bình, phương sai, v.v.) của các biến số của
tổng thể mà chúng ta quan tâm.
Các chỉ số thống kê mẫu (sample statistics) là các chỉ tiêu mô tả
cùng các biến số trên, nhưng không phải của tổng thể mà là của
mẫu. Các chỉ số thống kê mẫu được dùng để ước lượng các chỉ
số thống kê của tổng thể. Các chỉ số thống kê mẫu chính là cơ sở
để chúng ta tham chiếu cho các chỉ số thống kê của tổng thể.
Tùy thuộc vào cách mà chúng ta đặt ra câu hỏi do lường như thế
nào (xem lại Hình 2.1, Chương 2), mỗi câu lại có thể thu thập dữ
liệu ở các mức độ khác nhau. Mỗi mức độ khác biệt của dữ liệu
lại sinh ra sự khác biệt về thống kê mẫu. Vì vậy, việc chọn lựa
các chỉ tiêu cần quan sát sẽ thực tế quyết định kiểu chọn mẫu và cỡ mẫu. about:blank 11/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Khi các biến số được đo lường với kiểu dữ liệu khoảng hay tỷ
số, chúng ta sẽ sử dụng giá trị trung bình mẫu để ước lượng
trung bình tổng thể, và độ lệch chuẩn của mẫu để ước lượng độ
lệch chuẩn của tổng thể.
Khi các biến số được đo lường ở dạng thang đo danh nghĩa hoặc
thứ bậc, chúng ta sẽ sử dụng các tỷ lệ của mẫu để ước lượng các
tỷ lệ của tổng thể, và dùng tích số pq để ước lượng phương sai
của tổng thể. Trong trường hợp này, tỷ lệ của tổng thể sẽ bằng số
lượng phần tử có trong tổng thể thuộc về một loại nào đó chia
cho tổng số phần tử của tổng thể. Các đo lường theo tỷ lệ như
thế này rất cần thiết cho dữ liệu danh nghĩa và được sử dụng
rộng rãi cho các đo lường khác nữa.
6.2.3 Có khung mẫu hay không?
Khung mẫu có liên quan rất gần với tổng thể. Đó chính là danh
sách của tất cả các phần tử có trong tổng thể mà từ đó chúng ta
sẽ rút mẫu ra. Một khung mẫu lý tưởng chính là một danh sách
hoàn thiện, đầy đủ và đúng tất cả các thành viên của tổng thể.
Tuy nhiên, trên thực tế, khung mẫu thường rất khác biệt với tổng thể lý thuyết.
Thường là chúng ta chấp nhận một khung mẫu bao gồm cả các
người hoặc các trường hợp mà chúng ta không quan tâm. Nhưng
chúng ta có thể giải quyết vấn đề này dễ dàng bằng cách rút một
mẫu từ một tổng thể lớn hơn, và rồi sử dụng một quy trình lọc
để loại bỏ các trường hợp mà chúng ta không quan tâm, hoặc
không phải là thành viên của nhóm mà chúng ta muốn nghiên cứu. about:blank 12/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Khả năng tìm kiếm được khung mẫu hay không là vấn đề phải
tính đến khi chuẩn bị chọn mẫu. Có những tổng thể nghiên cứu
mà khung mẫu là sẵn có, ví dụ tổng thể sinh viên của một trường
đại học, cư dân của một vùng hành chính nào đó, các doanh
nghiệp vừa và nhỏ của một thành phố nào đó. Tuy nhiên, có
những tổng thể nghiên cứu mà các phần tử của nó là không xác
định, do đó ta không thể nào có được khung mẫu. Ví dụ như
tổng thể những người ưa thích chính sách A và không ưa thích
chính sách B, tổng thể những người đang sử dụng diện thoại di
động nhân hiệu Nokia, tổng thể những người buôn bán nhỏ
không đăng ký chẳng hạn. Ngoài ra, còn có những tổng thể
nghiên cứu xác định về nguyên tắc, và có tồn tại khung mẫu,
nhưng vì những lý do đặc biệt nào đó mà ta không thể có được
khung mẫu, vì dụ như tổng thể những người nhiễm HIV-AIDS,
tổng thể những người dụng sử dụng xe máy thuộc một thương
hiệu nào đó. Ta không thể hoặc rất khó có danh sách khung mẫu
của các tổng thể này vì các vấn để quản lý hành chính (ví dụ
danh sách người đăng ký xe máy tại cơ quan quản lý phương
tiện giao thông) hoặc tính chất nhạy cảm của tổng thể nghiên
cứu (ví dụ danh sách người bị nhiễm HIV-AIDS).
6.2.4 Phương pháp chọn mẫu nào là phù hợp?
Nhà nghiên cứu phải đối mặt với một lựa chọn căn bản: chọn
mẫu xác xuất hay phi xác suất. Với cách chọn mẫu xác suất, nhà
nghiên cứu có thể đạt được các ước lượng cho nhiều chỉ tiêu
nghiên cứu khác nhau dựa trên sự tin cậy về xác suất. Trong khi
đó, chọn mẫu phi xác suất không cho được điều này. about:blank 13/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Tuy nhiên, chọn mẫu xác suất có một vài hệ quả. Nhà nghiên
cứu buộc phải theo các quy trình phù hợp mà phỏng vấn viên,
điều tra viên không thể chỉnh sửa sự chọn lựa đã có. Khi chọn
mẫu, chỉ có các phần tử được chọn từ khung mẫu gốc mới được
tính tới. Trong quá trình chọn mẫu để thu thập thông tin, ta
không thể thay thế phần tử này bằng phân tử khác ngoại trừ khi
có các chỉ dẫn cụ thể theo các nguyên tắc định trước.
Ngược lại, chọn mẫu phi xác suất dù không có tính đại diện cao
cho tổng thể, nhưng lại dễ dàng áp dụng trong thực tế vì hầu hết
các trường hợp ta không thể có được khung mẫu. Đồng thời,
nhiều nghiên cứu có mục đích chuyên biệt, không cần thiết phải
đại diện cho toàn bộ tổng thể nghiên cứu.
Ở phần 6.3 và 6.4, ta sẽ hiểu thêm sự khác biệt giữa hai nhóm
thiết kế chọn mẫu này.
6.2.5 Cần cỡ mẫu bao nhiêu là vừa?
Cỡ mẫu chính là số đơn vị nghiên cứu mà ta cần có trong một
mẫu khi rút ra từ tổng thể nghiên cứu. Thông thường, nhiều
người có quan niệm không chính xác về cỡ mẫu. Họ thường cho
rằng, thứ nhất, một mẫu phải đủ lớn, nếu không nó sẽ không đại
diện cho tổng thể. Thứ hai là một mẫu phải tương ứng với một
tỷ lệ nào đó so với kích cỡ của tổng thể mà nó được rút ra. Trên
thực tế, cả hai quan niệm này đều không chính xác.
Với mẫu phi xác suất, các nhà nghiên cứu khẳng định là số
lượng nhóm phụ, các nguyên tắc lựa chọn và hạn chế về ngân
sách là các yếu tố quyết định cỡ mẫu. Với cách chọn mẫu xác
suất, cỡ mẫu phụ thuộc vào sự biến thiên của các chỉ số thống kê
của tổng thể và mức độ chính xác của kết quả mà ta muốn có. about:blank 14/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Một số nguyên tắc ảnh hưởng đến việc xác định cỡ mẫu là:
- Tổng thể càng biến thiên nhiều thì cỡ mẫu phải càng lớn để đạt tính chính xác
- Độ chính xác mong muốn càng tăng thì cỡ mẫu phải càng lớn.
- Phạm vi sai số càng nhỏ thì cỡ mẫu phải càng lớn.
- Mức độ tin cậy của ước lượng càng cao thì cỡ mẫu càng phải lớn.
- Khi tổng thể có nhiều nhóm phụ, thì cỡ mẫu phải lớn để cà
mẫu của từng nhóm phụ phải đạt yêu cầu tối thiểu.
Các hạn chế về ngân sách cũng ảnh hưởng đến cỡ mẫu, cách
chọn mẫu và phương pháp thu thập dữ liệu. Hầu hết các nghiên
cứu đều bị giới hạn ngân sách, và điều này thúc đẩy các nhà
nghiên cứu áp dụng các phương pháp chọn mẫu phi xác suất.
Các công thức tính cỡ mẫu tổng quát được trình bày chi tiết ở
phần 6.5 trong chương này.
6.3 CHỌN MẪU XÁC SUẤT
Một mẫu được coi là có hiệu quả hơn về phương diện thống kê
là một mẫu mà nó có thể cho kích cỡ mẫu nhỏ hơn với một mức
độ chính xác cho trước (dựa trên sai số chuẩn của trung bình
hoặc của tỷ lệ). Một mẫu được coi là có hiệu quả về phương
diện kinh tế là một mẫu có thể đạt được một mức độ chính xác
cho trước với chi phí thấp. Ở các phần dưới đây, ta sẽ thảo luận
về thiết kế chọn mẫu ngẫu nhiên đơn giản, và sau đó bốn cách
thức chọn mẫu xác suất phức tạp (complex probability
sampling) có khả năng thay thế nhau là: (1) chọn mẫu hệ thống; about:blank 15/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
(2) chọn mẫu phân tầng; (3) chọn mẫu theo nhóm hoặc phân tổ;
và (4) chọn mẫu nhiều giai đoạn
6.3.1 Chọn mẫu xác suất ngẫu nhiên đơn giản
Là một phương pháp chọn mẫu không hạn chế, phương pháp
chọn mẫu xác suất ngẫu nhiên đơn giản (simple random
sampling) là hình thức đơn giản nhất, thuần nhất của cách chọn
mẫu xác suất. Khi mà tất cả các mẫu xác suất đều phải chọn lựa
từng cá thể (đơn vị nghiên ch) với một xác suất khác không cho
trước thì phương pháp chọn mẫu ngẫu nhiên đơn giản được coi
là một trường hợp đặc biệt vì mỗi một cá thể đều được lựa chọn
với một xác suất biết trước và hoàn toàn ngang bằng nhau.
Xác suất chọn lựa = n/N = cỡ mẫu/kích cỡ của tổng thể (%)
Để thực hiện chọn mẫu ngẫu nhiên đơn giản, việc đầu tiên là
chúng ta phải có khung mẫu, hay chính là danh sách tất cả các
cá thể (thành viên) của tổng thể nghiên cứu. Dựa trên danh sách
này, làm cao có thể rút mẫu ra mà vẫn bảo đảm xác suất rút mẫu
hoàn toàn bằng nhau? Giả sử ta chọn mẫu với cỡ mẫu là 200 từ
một tổng thể nghiên cứu chứa 2.500 cá thể. Điều này có nghĩa là
xác suất rút mẫu phải bảo đảm bằng 200/2.500, tức là 8%. Xác
suất ra rút mẫu lần đầu tiên sẽ là 1/2.500. Xác suất rút mẫu lần
thứ hai sẽ là 1/2.499, và sau đó, xác suất rút mẫu sẽ thay đổi
tương tự như vậy. Hiển nhiên là bằng cách này, ta không bảo
đảm xác suất rút mẫu là bằng nhau và bằng với xác suất dự định
ban đầu. Đây là hệ quả của cách chọn mẫu không có thay thế
(sampling without replacement). Nếu thay thế phần tử đã được
chọn bằng một phần tử khác trong tổng thể, ta có thể giữ cho xác
suất rút mẫu không thay đổi (sampling with replacement). about:blank 16/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Khi rút mẫu, ta sẽ đánh số và sử dụng bảng ngẫu nhiên để chọn
lựa ra các cá thể (rút mẫu) để bảo đảm mọi cá thể đều có xác
suất được chọn như nhau. Ta cũng có thể dùng các phần mềm
máy tính hỗ trợ để xác định mẫu với một xác suất cho trước nào
đó. Với phần mềm Excel, một công cụ bảng tính phổ biến, ta có
thể sử dụng lệnh Randbetween
- Chọn con số khởi điểm một cách ngẫu nhiên vài lần khi bất đầu chọn mẫu
- Lặp lại cách chọn mẫu như vậy cho các mẫu khác.
Nếu thực hiện tốt, phương pháp này cho hiệu quả thống kê cao
hơn phương pháp ngẫu nhiên đơn giản.
6.3.3 Chọn mẫu phân tầng
Hầu hết các tổng thể đều bao gồm các nhóm cá thể khác nhau.
Các nhóm như vậy chính là các nhóm phụ của tổng thể
(subpopulation), hay là các tầng (strata). Quá trình chọn mẫu mà
các cá thể được chọn lựa theo từng nhóm như vậy được gọi là
chọn mẫu ngẫu nhiên phân tầng (stratified random sampling).
Phương pháp chọn mẫu phân tầng có hiệu quả thống kê cao hơn
phương pháp chọn mẫu ngẫu nhiên đơn giản. Lý do rất rõ ràng
là ta có thể tăng cường tính đại diện của mẫu đối với tổng thể
nghiên cứu nếu tất cả các nhóm phụ của tổng thể đều có những
đại diện của chúng trong mẫu.
Tại sao chúng ta chọn phương pháp chọn mẫu phân tầng này?
Phương pháp này cho chúng ta nhiều lợi ích như:
(1) Tăng hiệu quả thống kê của mẫu; about:blank 17/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
(2) Cung cấp dữ liệu phù hợp để phân tích từng nhóm phụ của tổng thể (tầng), và
(3) Cho phép sử dụng các phương pháp nghiên cứu và phân tích
khác nhau cho các nhóm phụ khác nhau của tổng thể.
Nếu phân tầng một cách lý tưởng, ta sẽ có sự đồng nhất trong
nội bộ từng nhóm và có sự dị biệt giữa các nhóm. Nếu phân tầng
càng nhiều thì ta càng có thể tối đa hóa sự khác biệt giữa các
nhóm và tối thiểu hóa sự biến thiên trong nội bộ từng nhóm.
Hình 6.3 Minh họa về thiết kế chọn mẫu phân tầng
Tuy nhiên, chi phí cũng là một yếu tố đáng quan tâm. Nếu tăng
số nhóm nghiên cứu lên (số tầng) thì chi phí cũng tăng theo vì
chi phí đi đôi với mức độ chọn mẫu chi tiết. Ngoài ra, cũng phải
chú ý đến các yếu tố sau: (1) kích cỡ tổng mẫu cần có và (2)
tổng mẫu được phân bổ như thế nào giữa các tầng. Hai vấn đề
này quan trọng vì chúng quyết định số lượng đơn vị nghiên cứu cần có ở từng tầng. about:blank 18/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Giả sử ta có hạn chế ngân sách nên chỉ có thể chọn cỡ mẫu tối
đa là 250. Nếu ta chọn cách chia tổng thể làm 5 nhóm tổng thể
phụ khác nhau, với tỷ lệ tương đương nhau, thì số lượng đơn vị
nghiên cứu cần quan sát của mỗi mẫu phụ (tương ứng với mỗi
nhóm tổng thể phụ, hay là từng tầng) là 50, tương đương với tỷ
lệ 20% tổng mẫu. Số lượng 50 đơn vị này có thể bảo đảm mức
độ tin cậy về phân tích thống kê. Nhưng nếu chúng ta muốn chia
tổng thể làm 10 nhóm tổng thể phụ, thì kích cỡ của mẫu phụ chỉ
là 25. Số lượng đơn vị nghiên cứu có trong 1 mẫu phụ này có
thể không bảo đảm tin cậy về phân tích thống kê.
Đối với cách phân bố mẫu cho các nhóm phụ (tầng) khác nhau,
có hai cách là theo tỷ lệ (proportionate) và không theo tỷ lệ (disproportionate).
Đối với cách chọn mẫu phân tầng theo tỷ lệ (proportionate
stratified sampling), cỡ mẫu của mỗi mẫu phụ (tầng) theo đúng
tỷ lệ của các phần tử có trong từng tổng thể phụ so với tổng tổng
thể. Cách chọn mẫu phân tầng theo tỷ lệ phổ biến bởi vì:
- có hiệu quả thống kê cao hơn phương pháp ngẫu nhiên đơn giản
- dễ thực hiện hơn các phương pháp phân tầng khác
- cung cấp một mẫu trọng số tự định (self-weighting
sample); giá trị trung bình tổng thể hoặc tỷ lệ tổng thể có
thể được ước lượng một cách dễ dàng.
Quy trình chọn mẫu phân tầng bao gồm các bước sau đây:
Bước 1. Quyết định các biến số dùng để phân tầng. about:blank 19/26 23:47 9/8/24
Đọc thêm phương pháp nghiên cứu khoa học 123 (Autosaved)
Trong nghiên cứu kinh tế - xã hội, các biến định tính thường
được dùng để phân chia tổng thể thành các tổng thể phụ. Thông
thường là các biến nhân khẩu học (ví dụ độ tuổi, giới tính, nghề
nghiệp, học vấn, v.v) hoặc các biến thể hiện sự khác biệt về vị
thế kinh tế (ví dụ các nhóm nghèo, cận nghèo, trung bình, khá,
giàu). Cần chú ý là ta phải xem xét liệu các biến định tính được
dùng để phân chia tổng thể thành các tổng thể phụ có ý nghĩa gì
đối với mục tiêu nghiên cứu của ta, có tác động gì đến biến số
quan trọng nhất mà ta cần đo lường.
Ví dụ 6.5 Khi nghiên cứu về thu nhập của người lao động, ta
xem xét liệu các biến định tính nào có thể dùng để chia tổng thể
nghiên cứu thành những nhóm phụ có thu nhập chênh lệch nhau.
Liệu giới tính có thể dẫn đến sự khác biệt về thu nhập hay
không? Liệu trình độ học vấn có dẫn đến sự khác biệt hay
không? Liệu ngành nghề hay các hình thức tổ chức của doanh
nghiệp (ví dụ sở hữu nhà nước, tư nhân, liên doanh, nước
ngoài), có ảnh hưởng đến thu nhập hay không?
Ví dụ 6.6 Khi nghiên cứu về nhu cầu sử dụng máy tính xách tay
của sinh viên, ta cần xác định xem có các yếu tố nào ảnh hưởng
đến nhu cầu này. Liệu giới tính của sinh viên hay ngành học
quan trọng hơn? Liệu sinh viên ở các năm học khác nhau có nhu
cầu khác nhau hay không? Nếu ta cho rằng ngành học là một
yếu tố quan trọng ảnh hưởng đến nhu cầu này (giả sử như là sinh
viên ngành toán cần sử dụng máy tính thường xuyên hơn sinh
viên ngành ngữ văn), và sinh viên các năm cuối phải sử dụng
thường xuyên hơn sinh viên năm thứ nhất thì ta có thể lựa cho
hai biến định tính này để phân tầng, thay vì dùng biến giới tính. about:blank 20/26