Machine Translated by Google
Hình ảnh của LRVING GELS
Làm thế nào để nói dối với
DARRELL HUFF
w · W' NORTON & COl\·fPANY· INC · New York
Qua
Machine Translated by Google
Machine Translated by Google
'1
37
53
74
6
27
87
66
60
100
122
II
Sự nhìn nhận
8. Post Hoc Rides Again
2. Mức trung bình được lựa chọn
tốt 3. Những con số nhỏ không đó 4.
Nhiều lời đồn thổi về những điều thực tế
không 5. Biểu đồ Gee-Whiz
1. Mẫu độ lệch tích hợp
7. Hình bán kèm
10. Cách nói lại một số liệu thống
6. Bức tranh một chiều
Giới thiệu
9. Cách thống
Nội dung
Machine Translated by Google
Sự nhìn nhận
xinh đẹp
cũng tìm thấy những mẫu vật giá trị trong một số cuốn sách, chủ
yếu những cuốn này: Thống kinh doanh, của Martin A. Brumbaugh
Helen M. Walker.
rộng rãi không thể không sự trợ giúp. Sau khi kháng cáo
Fritz Kafka; Phương pháp thống bản, bởi
Tôi đoán, sẽ rất vui khi được giấu tên đây. TÔI
cuốn sách này được đề cập đến đã được tập hợp
Dudley J. Cowden; Thống bản, bởi George Simpson
Cantril; Trình bày đồ họa. của Willard Cope Brinton;
Một số nhà thống chuyên nghiệp - những người, tin tôi đi, vạch trần
việc lạm dụng số liệu thống một cách chân thành như bất kỳ ai còn
sống - đã gửi cho tôi các món đồ từ bộ sưu tập của chính họ. Những người này,
của sự vụng về gian xảo
Lester S. Kellogg; Đo lường ý kiến công chúng, của Hadley
Thống kinh doanh thực tế, của Frederick E. Croxton
của tôi thông qua Hiệp hội Thống Hoa Kỳ, một
6
Machine Translated by Google
7
“Xung quanh đây rất nhiều tội phạm,” bố vợ tôi nói
sau khi ông chuyển từ Iowa tới nơi này .
Đó một nơi không bỏ qua tội phạm nào trong khu vực của mình
Kết luận của bố vợ tôi tính thống trong một
California. thế có- trên tờ báo anh ấy đã đọc.
được biết đến người chú ý đến một vụ giết người Iowa
nhiều hơn những hiệu trưởng đưa ra hàng ngày trong khu
vực nơi xảy ra .
Giới thiệu
Machine Translated by Google
của sự gắn nửa vời: giả định rằng không gian báo chí
sẽ kéo dài trong một tuần.
sự bùng nổ về sản phẩm y tế đã diễn ra. được dựa trên một
Ngôn ngữ mật của thống kê, rất hấp dẫn trong một nền văn hóa quan
tâm đến sự thật, được sử dụng để giật gân, thổi phồng,
niềm hy vọng luôn trỗi dậy cả sự từ chối
cách thông thường. được dựa trên một mẫu, một sự thiên vị đáng chú ý
nhìn qua số liệu thống để thấy một thực tế đã được biết đến
số liệu báo cáo về thuốc kháng histamine. Mỗi người đều cho thấy điều đó
những họ vẻ. thể nhiều thứ trong đó hơn đáp ứng
nhầm lẫn đơn giản hóa quá mức. Các phương pháp thống thuật ngữ
thống cần thiết trong việc báo cáo số liệu lớn về
tic gần như lấn át hình ảnh người mặc áo khoác trắng
mắt, thể ít hơn rất nhiều.
một tỷ lệ đáng kể cảm lạnh khỏi sau khi điều trị. Một sự ồn ào lớn xảy
ra sau đó, ít nhất trong các quảng cáo,
vậy, rất nhiều điều bạn đọc nghe. Trung bình
Cách đây vài mùa đông, hàng táđộc lập
việc báo cáo tội phạm thước đo tỷ lệ tội phạm.
ý của chúng gì, kết quả chỉ thể nghĩa về mặt ngữ nghĩa.
các mối quan hệ, xu hướng đồ thị không phải lúc nào cũng
Trong các bài viết phổ biến về các vấn đề khoa học bị lạm dụng
xu hướng kinh tế hội, điều kiện kinh doanh, “ý kiến”
một thời gian dài. Như Henry G. Felsen, một người hài hước không
thuốc ! quan thẩm quyền đã chỉ ra cách đây khá lâu, việc điều trị
đúng cách sẽ chữa khỏi cảm lạnh trong bảy ngày, nhưng lại để lại cảm lạnh.
một. Giống như nhiều thống phức tạp hơn, tội
bầu cử, điều tra dân số. Nhưng không nhà văn sử dụng từ ngữ
với sự trung thực hiểu biết những độc giả biết
CÚP NÓI DỐI VỚI THỐNG
TÔI
Machine Translated by Google
GIỚI THIỆU
9

đang bị bệnh·
về bạn.
anh hùng làm việc ngoài giờ không phòng
thí nghiệm ánh sáng. Giống như “một chút bột, một nồi nhỏ
dành cho sWindlers. lẽ tôi thể biện minh cho điều đó theo cách của
tên trộm đã nghỉ hưu số lượng hồi tưởng được xuất bản
sơn," số liệu thống đang làm cho nhiều thực tế quan trọng
đến một khóa học sau đại học về cách chọn khóa tắt tiếng
Cuốn sách này một loại sách vỡ lòng về cách sử dụng số liệu thống để
"trông giống như ấy không phải vậy." Một thống
bước chân: Những kẻ lừa đảo đã biết những thủ đoạn này; trung thực
lừa dối. vẻ quá giống một cuốn sách hướng dẫn
tốt hơn "lời nói dối lớn" của Hitler; đánh lừa, nhưng không thể
đàn ông phải học chúng để tự vệ.
Machine Translated by Google
CÁCH NÓI BẰNG THỐNG
ĐẾN
Machine Translated by Google
CHƯƠNG 1
Mẫu có ... khuynh
hướng tích hợp
II
Chà, tốt cho anh ấy.
Nhưng đợi một chút. Con số ấn tượng này ý nghĩa gì?
vẻ như đó bằng chứng cho thấy nếu bạn gửi con trai
mình đến Yale thì bạn sẽ không phải làm việc khi về già
con bạn cũng vậy.
rất ít khả năng mức trung bình. thu nhập của bất
kỳ nhóm 8ung xa nào sẽ được tính theo đồng đô la. Không
khả năng đặc biệt bạn biết
Tạp chí Time đã từng ghi nhận : YALEMAN TRUNG BÌNH ,
Lớp “24” , bình luận về điều đó trên tờ New York Sun,
kiếm được 25.111 đô la một năm:’
Hai điều về nhân vật này thoạt nhìn vẻ đáng ngờ.
chính xác một cách đáng ngạc nhiên. khá lành mạnh.
Machine Translated by Google
thu nhập của chính mình trong năm ngoái chính xác như vậy trừ khi
tất cả đều bắt nguồn từ tiền lương. thu nhập 25.000 USD thường
không phải toàn bộ tiền lương; những người trong nhóm đó thể
các khoản đầu rải rác.
Ngay cả khi họ hệ thống danh dự New Haven vào năm 24, chúng ta
cũng không thể chắc chắn rằng hoạt động tốt sau một phần thế
kỷ đến mức tất cả những báo cáo này đều trung thực. Một số người
khi được hỏi thu nhập của họ phóng đại phù phiếm
Sau đó, chúng tôi bắt đầu tính đến một con số lẽ thường cho
rằng khó thể đại diện cho sự thật. Bây giờ chúng ta hãy tìm hiểu
nguyên nhân thể gây ra sai sót lớn nhất, một nguồn thể tạo ra
"thu nhập trung bình" 25.111 USD của một số người đàn ông mức
trung bình thực tế thể gần bằng một nửa số tiền đó.
Hơn nữa, mức trung bình đáng yêu này chắc chắn được tính toán
từ số tiền những người đàn ông Yale nói rằng họ kiếm được.
hoặc sự lạc quan. Những người khác giảm thiểu, đặc biệt điều
đáng lo ngại đối với các tờ khai thuế thu nhập; sau khi làm
điều này thể ngần ngại mâu thuẫn với chính mình trên bất kỳ bài
báo nào khác. Ai biết được những người thu thuế thể nhìn thấy
gì. thể hai xu hướng này, khoe khoang nói giảm nhẹ, triệt tiêu
lẫn nhau , nhưng điều đó khó xảy ra . Một xu hướng thể mạnh hơn
nhiều so với xu hướng kia chúng ta không biết đó xu hướng nào.
CÁCH NÓI THỐNG wmJ
Machine Translated by Google
Báo cáo về những người đàn ông Yale đến từ một mẫu. Chúng ta
thể khá chắc chắn về điều đó bởi trí cho chúng ta biết
rằng không ai thể nắm bắt được tất cả các thành viên còn
sống của lớp '24 đó . Chắc chắn nhiều người không địa
chỉ · đã hai mươi lăm năm
Đây quy trình lấy mẫu, trọng tâm của phần lớn số liệu
thống bạn gặp về tất cả các loại chủ đề. sở của
khá đơn giản, mặc những cải tiến của trong thực tế đã dẫn
tới đủ loại lối đi phụ, một số còn kém đáng nể hơn . Nếu bạn
một thùng đậu , một số màu đỏ một số màu trắng, chỉ
một cách để biết chính xác bạn bao nhiêu màu trong số đó:
Đếm chúng. Tuy nhiên, bạn thể biết gần đúng bao nhiêu hạt
màu đỏ một cách dễ dàng hơn bằng cách lấy một nắm hạt đậu
ra đếm chỉ những hạt đó, tính toán rằng tỷ lệ sẽ giống nhau
trong suốt thùng . Nếu mẫu của bạn đủ lớn được chọn đúng
cách, sẽ đại diện cho tổng thể đủ tốt cho hầu hết các mục
đích. Nếu không , thể kém chính xác hơn nhiều so với một
phỏng đoán thông minh không để khuyến nghị ngoài vẻ
giả tạo về độ chính xác khoa học. Sự thật đáng buồn những
kết luận từ những mẫu như vậy, sai lệch hay quá nhỏ hoặc
cả hai, lại nằm đằng sau phần lớn những chúng ta đọc hoặc
nghĩ rằng chúng ta biết.
MẪU wmI THE Sun.T -IN BIAS
13
Machine Translated by Google
thắng
không Và) trong số những người địa chỉ được biết,
nhiều người trả lời một bảng câu hỏi, đặc biệt một câu hỏi khá
nhân. Với một số loại câu hỏi gửi qua thư, tỷ lệ phản hồi
0,5 hoặc 10% khá cao. Điều này đáng lẽ phải làm tốt hơn thế.
nhưng không giống như một trăm mỗi
vậy , chúng tôi thấy rằng con số thu nhập dựa trên một mẫu
bao gồm tất cả các thành viên trong lớp địa chỉ được biết
những người đã trả lời bảng câu hỏi. Đây phải mẫu đại diện
không? Nghĩa là, liệu nhóm này thể được coi thu nhập
ngang bằng với nhóm không đại diện hay không. những người
không thể liên lạc được hoặc những người không trả lời?
cent.
Những con cừu nhỏ bị lạc trong danh sách Yale "không địa
chỉ" ai? Họ phải những người kiếm được thu nhập lớn -
những người Phố Wall, các giám đốc tập đoàn, các nhà điều hành
sản xuất tiện ích? KHÔNG; địa chỉ của người giàu sẽ không khó
để tìm thấy. Nhiều thành viên thành đạt nhất của lớp thể được
tìm thấy qua Who's Who in America các tài liệu tham khảo khác
ngay cả khi họ giữ liên lạc với văn phòng cựu sinh viên.
thể đoán đúng rằng những cái tên bị mất của
CÁCH NÓI BẰNG THỐNG
Machine Translated by Google
theo cách của Jost otU"
MẪU VỚI BIAS Bun.T - IN

15
Ai người đã ném bảng câu hỏi vào thùng rác gần nhất? Chúng ta
không thể chắc chắn về những điều này.
Họ những thư ký, thợ khí, kẻ lang thang, kẻ nghiện rượu thất
nghiệp. những nhà văn nghệ hầu như không còn sống sót . . .
những người phải mất nửa người trở lên mới được thu nhập
25.111 USD . Những người đàn ông này không thường xuyên đăng tham
gia các buổi họp lớp, chỉ họ không đủ khả năng chi trả cho chuyến đi .
nhưng ít nhất cũng thể phỏng đoán công bằng rằng nhiều người
trong số họ không kiếm đủ tiền để khoe khoang. Họ hơi giống một
người tìm thấy một mẩu giấy được đính kèm trong tờ séc trả lương
đầu tiên của anh ta gợi ý rằng anh ta coi số tiền lương của mình
mật chứ không phải vật chất để trao đổi mật văn phòng. "Đừng
lo lắng." anh ấy đã nói với ông chủ. "Tôi cũng cảm thấy xấu hổ về
điều đó như bạn :"
những người đàn ông đó. khoảng hai mươi năm sau khi trở thành cử
nhân nghệ thuật của Yale. chưa thực hiện được lời hứa chói sáng nào.
nghệ thuật yoor Ia.tn1s
Machine Translated by Google
Sự khẳng định như vậy không thể xem nhẹ được. Kinh
nghiệm từ một loại nghiên cứu lấy mẫu, được gọi nghiên
cứu thị trường, cho thấy rằng khó thể được thực hiện .
Cuối cùng người ta nhận ra rằng nếu bạn muốn biết một
số người đọc thì hỏi họ cũng chẳng ích gì. Bạn
ràng mẫu đã bỏ qua hai nhóm nhiều khả năng
làm giảm mức trung bình nhất. Con số 25.111 USD đang bắt
đầu giải thích. Nếu đó con số thực cho bất cứ điều
thì đó chỉ con số dành cho nhóm đặc biệt của lớp 24
địa chỉ được biết những người sẵn sàng đứng lên
cho biết họ kiếm được bao nhiêu . Tôi thậm chí còn yêu
cầu-- yêu cầu xác nhận rằng các quý ông đang nói sự thật.
Một cuộc khảo sát từng nhà nhằm nghiên cứu lượng độc giả
tạp chí đã từng được thực hiện , trong đó câu hỏi quan
trọng là: Gia đình bạn đọc tạp chí nào? Khi kết quả được
lập bảng phân tích, vẻ như rất nhiều người yêu
thích Harper's nhưng lại không nhiều người đọc True
Story. Giờ đây, số liệu của các nhà xuất bản vào thời
điểm đó cho thấy rất ràng rằng True Story nhiều
triệu bản phát hành hơn Harper'8 hàng trăm nghìn .
lẽ chúng ta đã hỏi nhầm loại người, những người thiết kế
cuộc khảo sát tự nhủ . Nhưng không, những câu hỏi này đã
được đặt ra đủ loại khu dân trên khắp đất nước. Kết
luận hợp duy nhất khi đó rất nhiều người được hỏi,
như mọi người thường gọi khi họ trả lời những câu hỏi như
vậy, đã không nói sự thật. Tất cả những cuộc khảo sát
đã phát hiện ra thói hợm hĩnh.
CÁCH NÓI BẰNG THỐNG
16
Machine Translated by Google
o
1
r'J
MẪU BIAS TÍCH HỢP
tất nhiên rồi. không cho bạn biết mọi người đọc chỉ cho bạn
biết họ đã tiếp xúc với những gì.
những kẻ phạm tội hội sẽ thú nhận với một người lạ rằng ấy
không đánh răng thường xuyên? số liệu thống
thể học được nhiều điều hơn bằng cách đến nhà họ nói rằng
bạn muốn mua những tạp chí những thể có ? Sau đó, tất
cả những bạn phải làm đếm số lượt xem Yale Re.. Love
Romances. Ngay cả thiết bị đáng ngờ đó .
Tương tự như vậy, lần tới khi bạn đọc được rằng một người Mỹ
trung bình (ngày nay bạn nghe rất nhiều về anh ta, hầu hết điều đó
gần như không thể xảy ra) đánh răng 1,02 lần một ngày - một con số
tôi vừa nghĩ ra. nhưng thể cũng tốt như bất cứ ai tự hỏi
mình một câu hỏi. Làm thế nào ai thể phát hiện ra một điều
như vậy? một người phụ nữ đã đọc số quảng cáo KHÔNG-
Machine Translated by Google
Để giá trị nhiều, một báo cáo dựa trên việc lấy mẫu
phải sử dụng một mẫu đại diện, đó mẫu mọi nguồn sai
lệch đều từ đó. Đó nơi nhân vật Yale của chúng tôi
cho thấy sự giá trị của nó . Đây cũng nơi rất
nhiều thứ bạn thể đọc được trên báo tạp chí .
Chúng ta được biết rằng một dòng sông không thể vượt lên
trên nguồn của nó. Chà, vẻ như một trạm bơm được giấu
đâu đó. Điều tương tự cũng đúng kết quả của một nghiên
cứu lấy mẫu không tốt hơn mẫu dựa vào.
Phát hiện sớm ung thư cứu được mạng sống? lẽ.
Theo phóng viên y tế Leonard Engel, thành kiến cố hữu do
đó tạo ra "đủ để giải thích gần như toàn bộ sự cải thiện
được tuyên bố về tỷ lệ sống sót."
thể ý nghĩa đối với những người chỉ muốn biết người
ta nói về việc đánh răng nhưng không nói nhiều về tần
suất chải lông răng lên răng cửa.
Vào thời điểm dữ liệu đã được lọc qua các lớp thao tác
thống giảm xuống mức trung bình dấu thập phân, kết
quả bắt đầu vẻ tin chắc rằng nếu xem xét kỹ hơn việc lấy
mẫu sẽ phủ nhận .
Nhưng trong số những con số thường được sử dụng để chứng
minh điều đó, điều tốt nhất thể nói chúng không như
vậy. Đây hồ của quan đăng khối u Connecticut ,
từ năm 1935 dường như cho thấy tỷ lệ sống sót sau 5
năm đã tăng đáng kể từ năm đó cho đến năm 1941. Trên
thực tế, những hồ đó súng vào năm 1941, mọi thứ
trước đó đều được bằng cách truy tìm lại. Nhiều bệnh
nhân đã rời khỏi Connecticut, không thể biết được họ sống hay chết .
CÚP NÓI DỐI VỚI THỐNG
J8
Machine Translated by Google
Một bác tâm thần đã từng báo cáo rằng thực tế mọi người đều
bị loạn thần kinh. Ngoài thực tế việc sử dụng như vậy sẽ phá
hủy mọi ý nghĩa của từ "loạn thần kinh", hãy xem mẫu của người
đàn ông. Đó là. bác tâm thần đã quan sát ai? Hóa ra anh
ấy đã đạt được kết luận tính xây dựng này sau khi nghiên cứu
các bệnh nhân của mình, những người còn lâu mới trở thành một mẫu
của dân số. Nếu một người đàn ông không phải người bình
thường, bác tâm của chúng tôi sẽ không bao giờ gặp anh ta.
không phải vậy.
tạp chí bộc lộ sự thiếu ý nghĩa vốn của chúng.
Hãy cái nhìn thứ hai về những thứ bạn đọc bạn thể
tránh được việc học rất nhiều thứ
Cũng cần lưu ý rằng độ tin cậy của một mẫu thể bị phá hủy
dễ dàng bởi những nguồn sai lệch hình cũng như bởi những Người
hữu hình này . Nghĩa là, ngay cả khi bạn không thể : Tìm ra nguồn
gốc của sự thiên vị thể chứng minh được, hãy cho phép bản
thân một mức độ hoài nghi nhất định về kết quả miễn vẫn
khả năng xảy ra sự thiên vị đâu đó. Luôn luôn có.
MẪU VỚI BIAS BunT -IN
J9
Machine Translated by Google
Các cuộc bầu cử tổng thống năm 1948 1952 đủ để chứng minh
điều đó, nếu bất kỳ nghi ngờ nào.
tạp chí rằng đó sẽ Landon 370. Roosevelt 161 nằm trong danh
sách đã dự đoán chính xác cuộc bầu cử năm 1932. Làm sao thể
sự thiên vị trong một danh sách đã được thử nghiệm như vậy?
Tất nhiên, một sự thiên vị như các luận văn đại học các
cuộc khám nghiệm tử thi khác đã phát hiện ra: Những người đủ
tiền mua điện thoại đặt mua tạp chí vào năm 1936 đều một
bộ phận cử tri tiêu biểu. Về mặt kinh tế, họ loại người đặc
biệt, một mẫu người thiên vị trong đó nhiều cử tri thuộc
đảng Cộng hòa. Nhóm bầu chọn Landon, nhưng cử tri lại nghĩ khác.
Để thêm bằng chứng, hãy quay trở lại năm 1936 thất bại
nổi tiếng của Literary Digest . Mười triệu người đăng qua điện
thoại Digest đã đảm bảo với các biên tập viên về sự diệt vong .
Mẫu bản được gọi "ngẫu nhiên": được chọn lọc hoàn
toàn ngẫu nhiên từ "vũ trụ", một từ nhà thống dùng để chỉ
toàn bộ trong đó
CÁCH NÓI BẰNG THỐNG
Machine Translated by Google
21
đã kiểm tra "" toàn bộ sự tin cậy bằng phương pháp slalislical
MẪU BIAS TÍCH HỢP
của dân số thế giới. hoặc của Hoa Kỳ, hoặc
mẫu?
với ấy rằng các mẹ con nhỏ chẳng hạn,
nghiên cứu thị trường, được gọi lấy mẫu ngẫu nhiên phân tầng.
thể được trình bày dưới mức đó.)
mẫu một phần Mỗi cái tên thứ mười đều được lấy ra từ một chuyến bay
Việc kiểm tra mẫu ngẫu nhiên thế này: Mọi cái tên đều
ấy đã đưa người của mình đến ga xe lửa "tất cả các loại
thuyết> nhưng một điều không ổn với nó. Rất khó tốn
kém để được cho nhiều mục đích sử dụng chi phí rất cao .
Để được mẫu phân tầng này , bạn chia trụ của mình
loại bỏ nó. Một giải pháp thay thế kinh tế hơn, được sử dụng
phổ biến nhất các Belds như thăm ý kiến
thể tìm thấy nhiều người trong một nhà ga.'" phải được chỉ ra
của San Francisco, chỉ của những người Phố Chợ
Mẫu hoàn toàn ngẫu nhiên loại duy nhất thể được
vào thời điểm đó. Một người phỏng vấn cho một cuộc thăm ý kiến nói rằng
trong mỗi khung thu nhập, đến một con số cụ thể
của nông dân. như thế. Trong suốt thời gian đó nhóm phải
thành nhiều nhóm tương ứng với mức độ phổ biến đã biết của
chúng. ngay lúc đó rắc rối của bạn thể bắt đầu: Thông
tin của bạn về tỷ lệ của chúng thể không chính xác. Bạn
hoặc thứ đó trong cả nhóm hội tham gia như nhau
của các thẻ chỉ mục. Năm mươi tờ giấy được lấy ra từ một chiếc
mũ . Mỗi 20 người gặp trên phố Market đều được phỏng vấn.
(Nhưng hãy nhớ rằng đây không phải mẫu
hướng dẫn người phỏng vấn của bạn đảm bảo rằng họ nói chuyện như vậy
nhiều người da đen một tỷ lệ phần trăm người
Machine Translated by Google

Preview text:

Machine Translated by Google Machine Translated by Google
Làm thế nào để nói dối với Qua DARRELL HUFF Hình ảnh của LRVING GELS
w · W' NORTON & COl\·fPANY· INC · New York Machine Translated by Google Machine Translated by Google Nội dung Sự nhìn nhận 6 Giới thiệu '1
1. Mẫu có độ lệch tích hợp II
2. Mức trung bình được lựa chọn 27
tốt 3. Những con số nhỏ không có ở đó 4. 37
Nhiều lời đồn thổi về những điều thực tế 53
không có gì 5. Biểu đồ Gee-Whiz 60 6. Bức tranh một chiều 66 7. Hình bán kèm 74 8. Post Hoc Rides Again 87 9. Cách thống kê 100
10. Cách nói lại một số liệu thống kê 122 Machine Translated by Google Sự nhìn nhận Cô bé xinh đẹp
của sự vụng về và gian xảo
mà cuốn sách này được đề cập đến đã được tập hợp
rộng rãi và không thể không có sự trợ giúp. Sau khi kháng cáo
của tôi thông qua Hiệp hội Thống kê Hoa Kỳ, một
Một số nhà thống kê chuyên nghiệp - những người, tin tôi đi, vạch trần
việc lạm dụng số liệu thống kê một cách chân thành như bất kỳ ai còn
sống - đã gửi cho tôi các món đồ từ bộ sưu tập của chính họ. Những người này,
Tôi đoán, sẽ rất vui khi được giấu tên ở đây. TÔI
cũng tìm thấy những mẫu vật có giá trị trong một số cuốn sách, chủ
yếu là những cuốn này: Thống kê kinh doanh, của Martin A. Brumbaugh
và Lester S. Kellogg; Đo lường ý kiến công chúng, của Hadley
Cantril; Trình bày đồ họa. của Willard Cope Brinton;
Thống kê kinh doanh thực tế, của Frederick E. Croxton và
Dudley J. Cowden; Thống kê cơ bản, bởi George Simpson
và Fritz Kafka; và Phương pháp thống kê cơ bản, bởi Helen M. Walker. 6 Machine Translated by Google Giới thiệu
“Xung quanh đây có rất nhiều tội phạm,” bố vợ tôi nói
sau khi ông chuyển từ Iowa tới nơi này .
California. Và thế là có- trên tờ báo anh ấy đã đọc.
Đó là một nơi không bỏ qua tội phạm nào trong khu vực của mình và có
được biết đến là người chú ý đến một vụ giết người ở Iowa
nhiều hơn những gì hiệu trưởng đưa ra hàng ngày trong khu vực nơi nó xảy ra .
Kết luận của bố vợ tôi có tính thống kê trong một 7 Machine Translated by Google TÔI
CÚP NÓI DỐI VỚI THỐNG KÊ
cách thông thường. Nó được dựa trên một mẫu, một sự thiên vị đáng chú ý
một. Giống như nhiều thống kê phức tạp hơn, nó có tội
của sự gắn bó nửa vời: Nó giả định rằng không gian báo chí
việc báo cáo tội phạm là thước đo tỷ lệ tội phạm.
Cách đây vài mùa đông, có hàng tá độc lập
số liệu báo cáo về thuốc kháng histamine. Mỗi người đều cho thấy điều đó
một tỷ lệ đáng kể cảm lạnh khỏi sau khi điều trị. Một sự ồn ào lớn xảy
ra sau đó, ít nhất là trong các quảng cáo,
và sự bùng nổ về sản phẩm y tế đã diễn ra. Nó được dựa trên một
niềm hy vọng luôn trỗi dậy và cả sự từ chối tò mò
nhìn qua số liệu thống kê để thấy một thực tế đã được biết đến
một thời gian dài. Như Henry G. Felsen, một người hài hước và không có
thuốc ! Cơ quan có thẩm quyền đã chỉ ra cách đây khá lâu, việc điều trị
đúng cách sẽ chữa khỏi cảm lạnh trong bảy ngày, nhưng lại để lại cảm lạnh.
sẽ kéo dài trong một tuần.
Vì vậy, có rất nhiều điều bạn đọc và nghe. Trung bình
và các mối quan hệ, xu hướng và đồ thị không phải lúc nào cũng
những gì họ có vẻ. Có thể có nhiều thứ trong đó hơn là đáp ứng
mắt, và có thể có ít hơn rất nhiều.
Ngôn ngữ bí mật của thống kê, rất hấp dẫn trong một nền văn hóa quan
tâm đến sự thật, được sử dụng để giật gân, thổi phồng,
nhầm lẫn và đơn giản hóa quá mức. Các phương pháp thống kê và thuật ngữ
thống kê là cần thiết trong việc báo cáo số liệu lớn về
xu hướng kinh tế xã hội, điều kiện kinh doanh, “ý kiến”
bầu cử, điều tra dân số. Nhưng không có nhà văn sử dụng từ ngữ
với sự trung thực và hiểu biết và những độc giả biết
ý của chúng là gì, kết quả chỉ có thể là vô nghĩa về mặt ngữ nghĩa.
Trong các bài viết phổ biến về các vấn đề khoa học bị lạm dụng
tic gần như lấn át hình ảnh người mặc áo khoác trắng Machine Translated by Google GIỚI THIỆU 9 đang bị bệnh·
anh hùng làm việc ngoài giờ mà không có phòng thí nghiệm có ánh sáng
. Giống như “một chút bột, một nồi nhỏ
sơn," số liệu thống kê đang làm cho nhiều thực tế quan trọng
"trông giống như cô ấy không phải vậy." Một thống kê là
tốt hơn "lời nói dối lớn" của Hitler; nó đánh lừa, nhưng nó không thể về bạn.
Cuốn sách này LÀ một loại sách vỡ lòng về cách sử dụng số liệu thống kê để
lừa dối. Nó có vẻ quá giống một cuốn sách hướng dẫn
dành cho sWindlers. Có lẽ tôi có thể biện minh cho điều đó theo cách của
tên trộm đã nghỉ hưu có số lượng hồi tưởng được xuất bản
đến một khóa học sau đại học về cách chọn ổ khóa và tắt tiếng
bước chân: Những kẻ lừa đảo đã biết những thủ đoạn này; trung thực
đàn ông phải học chúng để tự vệ. Machine Translated by Google ĐẾN CÁCH NÓI BẰNG THỐNG KÊ Machine Translated by Google CHƯƠNG 1 Mẫu có ... khuynh hướng tích hợp
Tạp chí Time đã từng ghi nhận : “ YALEMAN TRUNG BÌNH ,
Lớp “24” , bình luận về điều gì đó trên tờ New York Sun,
kiếm được 25.111 đô la một năm:’ Chà, tốt cho anh ấy.
Nhưng đợi một chút. Con số ấn tượng này có ý nghĩa gì?
Có vẻ như đó là bằng chứng cho thấy nếu bạn gửi con trai
mình đến Yale thì bạn sẽ không phải làm việc khi về già và con bạn cũng vậy.
Hai điều về nhân vật này thoạt nhìn có vẻ đáng ngờ. Nó
chính xác một cách đáng ngạc nhiên. Nó khá là lành mạnh.
Có rất ít khả năng là mức trung bình. thu nhập của bất
kỳ nhóm 8ung xa nào sẽ được tính theo đồng đô la. Không
có khả năng đặc biệt là bạn biết II Machine Translated by Google CÁCH NÓI THỐNG KÊ wmJ
thu nhập của chính mình trong năm ngoái chính xác như vậy trừ khi
tất cả đều bắt nguồn từ tiền lương. Và thu nhập 25.000 USD thường
không phải toàn bộ là tiền lương; những người trong nhóm đó có thể
có các khoản đầu tư rải rác.
Hơn nữa, mức trung bình đáng yêu này chắc chắn được tính toán
từ số tiền mà những người đàn ông Yale nói rằng họ kiếm được.
Ngay cả khi họ có hệ thống danh dự ở New Haven vào năm 24, chúng ta
cũng không thể chắc chắn rằng nó hoạt động tốt sau một phần tư thế
kỷ đến mức tất cả những báo cáo này đều là trung thực. Một số người
khi được hỏi thu nhập của họ phóng đại vì phù phiếm
hoặc sự lạc quan. Những người khác giảm thiểu, đặc biệt là điều
đáng lo ngại là đối với các tờ khai thuế thu nhập; và sau khi làm
điều này có thể ngần ngại mâu thuẫn với chính mình trên bất kỳ bài
báo nào khác. Ai biết được những người thu thuế có thể nhìn thấy
gì. Có thể hai xu hướng này, khoe khoang và nói giảm nhẹ, triệt tiêu
lẫn nhau , nhưng điều đó khó xảy ra . Một xu hướng có thể mạnh hơn
nhiều so với xu hướng kia và chúng ta không biết đó là xu hướng nào.
Sau đó, chúng tôi bắt đầu tính đến một con số mà lẽ thường cho
rằng khó có thể đại diện cho sự thật. Bây giờ chúng ta hãy tìm hiểu
nguyên nhân có thể gây ra sai sót lớn nhất, một nguồn có thể tạo ra
"thu nhập trung bình" là 25.111 USD của một số người đàn ông có mức
trung bình thực tế có thể gần bằng một nửa số tiền đó. Machine Translated by Google MẪU wmI THE Sun.T -IN BIAS 13
Đây là quy trình lấy mẫu, là trọng tâm của phần lớn số liệu
thống kê mà bạn gặp về tất cả các loại chủ đề. Cơ sở của nó
khá đơn giản, mặc dù những cải tiến của nó trong thực tế đã dẫn
tới đủ loại lối đi phụ, một số còn kém đáng nể hơn . Nếu bạn
có một thùng đậu , một số màu đỏ và một số màu trắng, chỉ có
một cách để biết chính xác bạn có bao nhiêu màu trong số đó:
Đếm chúng. Tuy nhiên, bạn có thể biết gần đúng có bao nhiêu hạt
màu đỏ một cách dễ dàng hơn bằng cách lấy một nắm hạt đậu
ra và đếm chỉ những hạt đó, tính toán rằng tỷ lệ sẽ giống nhau
trong suốt thùng . Nếu mẫu của bạn đủ lớn và được chọn đúng
cách, nó sẽ đại diện cho tổng thể đủ tốt cho hầu hết các mục
đích. Nếu không , nó có thể kém chính xác hơn nhiều so với một
phỏng đoán thông minh và không có gì để khuyến nghị ngoài vẻ
giả tạo về độ chính xác khoa học. Sự thật đáng buồn là những
kết luận từ những mẫu như vậy, dù có sai lệch hay quá nhỏ hoặc
cả hai, lại nằm đằng sau phần lớn những gì chúng ta đọc hoặc nghĩ rằng chúng ta biết.
Báo cáo về những người đàn ông Yale đến từ một mẫu. Chúng ta
có thể khá chắc chắn về điều đó bởi vì lý trí cho chúng ta biết
rằng không ai có thể nắm bắt được tất cả các thành viên còn
sống của lớp '24 đó . Chắc chắn có nhiều người không có địa
chỉ · đã hai mươi lăm năm Machine Translated by Google CÁCH NÓI BẰNG THỐNG KÊ thắng
không Và) trong số những người có địa chỉ được biết,
nhiều người trả lời một bảng câu hỏi, đặc biệt là một câu hỏi khá
cá nhân. Với một số loại câu hỏi gửi qua thư, tỷ lệ phản hồi là
0,5 hoặc 10% là khá cao. Điều này đáng lẽ phải làm tốt hơn thế.
nhưng không có gì giống như một trăm mỗi cent.
Vì vậy , chúng tôi thấy rằng con số thu nhập dựa trên một mẫu
bao gồm tất cả các thành viên trong lớp có địa chỉ được biết và
những người đã trả lời bảng câu hỏi. Đây có phải là mẫu đại diện
không? Nghĩa là, liệu nhóm này có thể được coi là có thu nhập
ngang bằng với nhóm không có đại diện hay không. những người
không thể liên lạc được hoặc những người không trả lời?
Những con cừu nhỏ bị lạc trong danh sách Yale "không rõ địa
chỉ" là ai? Họ có phải là những người kiếm được thu nhập lớn -
những người ở Phố Wall, các giám đốc tập đoàn, các nhà điều hành
sản xuất và tiện ích? KHÔNG; địa chỉ của người giàu sẽ không khó
để tìm thấy. Nhiều thành viên thành đạt nhất của lớp có thể được
tìm thấy qua Who's Who in America và các tài liệu tham khảo khác
ngay cả khi họ lơ là giữ liên lạc với văn phòng cựu sinh viên.
Có thể đoán đúng rằng những cái tên bị mất là của Machine Translated by Google MẪU VỚI BIAS Bun.T - IN 15
những người đàn ông đó. khoảng hai mươi năm sau khi trở thành cử
nhân nghệ thuật của Yale. chưa thực hiện được lời hứa chói sáng nào.
Họ là những thư ký, thợ cơ khí, kẻ lang thang, kẻ nghiện rượu thất
nghiệp. những nhà văn và nghệ sĩ hầu như không còn sống sót . . .
những người mà phải mất nửa tá người trở lên mới có được thu nhập
25.111 USD . Những người đàn ông này không thường xuyên đăng ký tham
gia các buổi họp lớp, chỉ vì họ không đủ khả năng chi trả cho chuyến đi .
nghệ thuật yoor bé Ia.tn1s theo cách của Jost otU"
Ai là người đã ném bảng câu hỏi vào thùng rác gần nhất? Chúng ta
không thể chắc chắn về những điều này.
nhưng ít nhất cũng có thể phỏng đoán công bằng rằng nhiều người
trong số họ không kiếm đủ tiền để khoe khoang. Họ hơi giống một
người tìm thấy một mẩu giấy được đính kèm trong tờ séc trả lương
đầu tiên của anh ta gợi ý rằng anh ta coi số tiền lương của mình là
bí mật chứ không phải vật chất để trao đổi bí mật ở văn phòng. "Đừng
lo lắng." anh ấy đã nói với ông chủ. "Tôi cũng cảm thấy xấu hổ về điều đó như bạn :" Machine Translated by Google 16 CÁCH NÓI BẰNG THỐNG KÊ
Rõ ràng là mẫu đã bỏ qua hai nhóm có nhiều khả năng
làm giảm mức trung bình nhất. Con số 25.111 USD đang bắt
đầu giải thích. Nếu đó là con số thực cho bất cứ điều gì
thì đó chỉ là con số dành cho nhóm đặc biệt của lớp 24
có địa chỉ được biết và những người sẵn sàng đứng lên và
cho biết họ kiếm được bao nhiêu . Tôi thậm chí còn yêu
cầu-- yêu cầu xác nhận rằng các quý ông đang nói sự thật.
Sự khẳng định như vậy không thể xem nhẹ được. Kinh
nghiệm từ một loại nghiên cứu lấy mẫu, được gọi là nghiên
cứu thị trường, cho thấy rằng nó khó có thể được thực hiện .
Một cuộc khảo sát từng nhà nhằm nghiên cứu lượng độc giả
tạp chí đã từng được thực hiện , trong đó câu hỏi quan
trọng là: Gia đình bạn đọc tạp chí nào? Khi kết quả được
lập bảng và phân tích, có vẻ như rất nhiều người yêu
thích Harper's nhưng lại không có nhiều người đọc True
Story. Giờ đây, số liệu của các nhà xuất bản vào thời
điểm đó cho thấy rất rõ ràng rằng True Story có nhiều
triệu bản phát hành hơn Harper'8 có hàng trăm nghìn . Có
lẽ chúng ta đã hỏi nhầm loại người, những người thiết kế
cuộc khảo sát tự nhủ . Nhưng không, những câu hỏi này đã
được đặt ra ở đủ loại khu dân cư trên khắp đất nước. Kết
luận hợp lý duy nhất khi đó là rất nhiều người được hỏi,
như mọi người thường gọi khi họ trả lời những câu hỏi như
vậy, đã không nói sự thật. Tất cả những gì cuộc khảo sát
đã phát hiện ra là thói hợm hĩnh.
Cuối cùng người ta nhận ra rằng nếu bạn muốn biết một
số người đọc gì thì hỏi họ cũng chẳng ích gì. Bạn Machine Translated by Google MẪU CÓ BIAS TÍCH HỢP r'J
có thể học được nhiều điều hơn bằng cách đến nhà họ và nói rằng
bạn muốn mua những tạp chí cũ và những gì có thể có ? Sau đó, tất
cả những gì bạn phải làm là đếm số lượt xem Yale Re.. và Love
Romances. Ngay cả thiết bị đáng ngờ đó .
tất nhiên rồi. không cho bạn biết mọi người đọc gì mà chỉ cho bạn
biết họ đã tiếp xúc với những gì.
Tương tự như vậy, lần tới khi bạn đọc được rằng một người Mỹ
trung bình (ngày nay bạn nghe rất nhiều về anh ta, hầu hết điều đó
gần như không thể xảy ra) đánh răng 1,02 lần một ngày - một con số
mà tôi vừa nghĩ ra. nhưng nó có thể cũng tốt như bất cứ ai tự hỏi
mình một câu hỏi. Làm thế nào có ai có thể phát hiện ra một điều
như vậy? Là một người phụ nữ đã đọc vô số quảng cáo KHÔNG-
những kẻ phạm tội xã hội sẽ thú nhận với một người lạ rằng cô ấy
không đánh răng thường xuyên? số liệu thống kê o 1 Machine Translated by Google J8
CÚP NÓI DỐI VỚI THỐNG KÊ
có thể có ý nghĩa đối với những người chỉ muốn biết người
ta nói gì về việc đánh răng nhưng nó không nói nhiều về tần
suất chải lông răng lên răng cửa.
Chúng ta được biết rằng một dòng sông không thể vượt lên
trên nguồn của nó. Chà, có vẻ như có một trạm bơm được giấu
ở đâu đó. Điều tương tự cũng đúng là kết quả của một nghiên
cứu lấy mẫu không tốt hơn mẫu mà nó dựa vào.
Vào thời điểm dữ liệu đã được lọc qua các lớp thao tác
thống kê và giảm xuống mức trung bình có dấu thập phân, kết
quả bắt đầu có vẻ tin chắc rằng nếu xem xét kỹ hơn việc lấy mẫu sẽ phủ nhận .
Phát hiện sớm ung thư có cứu được mạng sống? Có lẽ.
Nhưng trong số những con số thường được sử dụng để chứng
minh điều đó, điều tốt nhất có thể nói là chúng không như
vậy. Đây là hồ sơ của Cơ quan đăng ký khối u Connecticut ,
có từ năm 1935 và dường như cho thấy tỷ lệ sống sót sau 5
năm đã tăng đáng kể từ năm đó cho đến năm 1941. Trên
thực tế, những hồ sơ đó là súng vào năm 1941, và mọi thứ
trước đó đều có được bằng cách truy tìm lại. Nhiều bệnh
nhân đã rời khỏi Connecticut, không thể biết được họ sống hay chết .
Theo phóng viên y tế Leonard Engel, thành kiến cố hữu do
đó tạo ra là "đủ để giải thích gần như toàn bộ sự cải thiện
được tuyên bố về tỷ lệ sống sót."
Để có giá trị nhiều, một báo cáo dựa trên việc lấy mẫu
phải sử dụng một mẫu đại diện, đó là mẫu mà mọi nguồn sai
lệch đều có từ đó. Đó là nơi mà nhân vật Yale của chúng tôi
cho thấy sự vô giá trị của nó . Đây cũng là nơi có rất
nhiều thứ bạn có thể đọc được trên báo và tạp chí . Machine Translated by Google MẪU VỚI BIAS BunT -IN J9
tạp chí bộc lộ sự thiếu ý nghĩa vốn có của chúng.
Một bác sĩ tâm thần đã từng báo cáo rằng thực tế mọi người đều
bị loạn thần kinh. Ngoài thực tế là việc sử dụng như vậy sẽ phá
hủy mọi ý nghĩa của từ "loạn thần kinh", hãy xem mẫu của người
đàn ông. Đó là. bác sĩ tâm thần đã quan sát ai? Hóa ra là anh
ấy đã đạt được kết luận có tính xây dựng này sau khi nghiên cứu
các bệnh nhân của mình, những người còn lâu mới trở thành một mẫu
của dân số. Nếu một người đàn ông không phải là người bình
thường, bác sĩ tâm lý của chúng tôi sẽ không bao giờ gặp anh ta.
Hãy có cái nhìn thứ hai về những thứ bạn đọc và bạn có thể
tránh được việc học rất nhiều thứ không phải vậy.
Cũng cần lưu ý rằng độ tin cậy của một mẫu có thể bị phá hủy
dễ dàng bởi những nguồn sai lệch vô hình cũng như bởi những Người
hữu hình này . Nghĩa là, ngay cả khi bạn không thể : Tìm ra nguồn
gốc của sự thiên vị có thể chứng minh được, hãy cho phép bản
thân có một mức độ hoài nghi nhất định về kết quả miễn là vẫn có
khả năng xảy ra sự thiên vị ở đâu đó. Luôn luôn có. Machine Translated by Google CÁCH NÓI BẰNG THỐNG KÊ
Các cuộc bầu cử tổng thống năm 1948 và 1952 là đủ để chứng minh
điều đó, nếu có bất kỳ nghi ngờ nào.
Để có thêm bằng chứng, hãy quay trở lại năm 1936 và thất bại
nổi tiếng của Literary Digest . Mười triệu người đăng ký qua điện
thoại và Digest đã đảm bảo với các biên tập viên về sự diệt vong .
tạp chí rằng đó sẽ là Landon 370. Roosevelt 161 nằm trong danh
sách đã dự đoán chính xác cuộc bầu cử năm 1932. Làm sao có thể
có sự thiên vị trong một danh sách đã được thử nghiệm như vậy?
Tất nhiên, có một sự thiên vị như các luận văn đại học và các
cuộc khám nghiệm tử thi khác đã phát hiện ra: Những người có đủ
tiền mua điện thoại và đặt mua tạp chí vào năm 1936 đều là một
bộ phận cử tri tiêu biểu. Về mặt kinh tế, họ là loại người đặc
biệt, một mẫu người thiên vị vì trong đó có nhiều cử tri thuộc
đảng Cộng hòa. Nhóm bầu chọn Landon, nhưng cử tri lại nghĩ khác.
Mẫu cơ bản được gọi là "ngẫu nhiên": Nó được chọn lọc hoàn
toàn ngẫu nhiên từ "vũ trụ", một từ mà nhà thống kê dùng để chỉ toàn bộ trong đó Machine Translated by Google MẪU CÓ BIAS TÍCH HỢP 21
mẫu là một phần Mỗi cái tên thứ mười đều được lấy ra từ một chuyến bay
của các thẻ chỉ mục. Năm mươi tờ giấy được lấy ra từ một chiếc
mũ . Mỗi 20 người gặp trên phố Market đều được phỏng vấn.
(Nhưng hãy nhớ rằng đây không phải là mẫu
của dân số thế giới. hoặc của Hoa Kỳ, hoặc
của San Francisco, mà chỉ của những người ở Phố Chợ
vào thời điểm đó. Một người phỏng vấn cho một cuộc thăm dò ý kiến nói rằng
cô ấy đã đưa người của mình đến ga xe lửa vì "tất cả các loại
có thể tìm thấy nhiều người trong một nhà ga.'" Nó phải được chỉ ra
với cô ấy rằng các bà mẹ có con nhỏ chẳng hạn,
có thể được trình bày dưới mức ở đó.)
Việc kiểm tra mẫu ngẫu nhiên là thế này: Mọi cái tên đều
hoặc thứ gì đó trong cả nhóm có cơ hội tham gia như nhau mẫu?
Mẫu hoàn toàn ngẫu nhiên là loại duy nhất có thể được
đã kiểm tra "" toàn bộ sự tin cậy bằng phương pháp slalislical
lý thuyết> nhưng có một điều không ổn với nó. Rất khó và tốn
kém để có được nó cho nhiều mục đích sử dụng mà chi phí rất cao .
loại bỏ nó. Một giải pháp thay thế kinh tế hơn, được sử dụng
phổ biến nhất ở các Belds như thăm dò ý kiến và
nghiên cứu thị trường, được gọi là lấy mẫu ngẫu nhiên phân tầng.
Để có được mẫu phân tầng này , bạn chia vũ trụ của mình
thành nhiều nhóm tương ứng với mức độ phổ biến đã biết của
chúng. Và ngay lúc đó rắc rối của bạn có thể bắt đầu: Thông
tin của bạn về tỷ lệ của chúng có thể không chính xác. Bạn
hướng dẫn người phỏng vấn của bạn đảm bảo rằng họ nói chuyện như vậy
nhiều người da đen và một tỷ lệ phần trăm người
trong mỗi khung thu nhập, đến một con số cụ thể
của nông dân. và như thế. Trong suốt thời gian đó nhóm phải