Bài giảng Xác suất thống kê | Trường Đại học Kiến trúc Đà Nẵng

Bài giảng Xác suất thống kê | Trường Đại học Kiến trúc Đà Nẵng.Tài liệu gồm 27 trang, giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời bạn đọc đón xem!

XÁC SUT VS THNG
PHM ĐĂNG QUYT
phamdangquyet@gmail.com
GII THIU
C SUẤT
Từ xác suất (probability) bắt nguồn từ
chữ probare trong tiếng Latin nghĩa "để chứng
minh, để kiểm chứng". Nói mt cách đơn
giản, probable một trong nhiều từ dùng để chỉ những
sự kiện hoặc kiến thức chưa chắc chắn, thường đi
kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi",
"không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh.
"Cơ hội" (chance), "cá cược" (odds, bet) những từ cho
khái niệm tương tự.
Xác suất chnh l một khi niệm được ni đến khi tnh
khả năng xc sut xảy ra của cc sự kin, sự vt trong
tương lai m khả ng xảy ra những sự kin ny s
không c bất k điu g c thể dự đon chnh xc được.
thuyết xác suất ngành toán học chuyên nghiên
cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết
xác suất biểu diễn các khái niệm xác suất bằng các thut
ngữ hình thức - nghĩa các thut ngữ thể xác
định một cách độc lp với ý nghĩa của . c thut ngữ
hình thức này được thao tác bởi các quy lut toán học
logic, kết quả thu được s được chuyển dịch trở lại
miền (domain) của bài toán.
THỐNG
Thut ngữ “thống của tiếng Anh statistics gốc từ
state (nghĩa quốc gia), nguồn gốc La tinh statisticum
collegium nghĩa “hội đồng quốc gia. Theo tiếng Đức,
statistik nghĩa gốc công tác dữ liệu của quốc gia.
Ban đầu, thống dùng để diễn tả các hoạt động ghi
chép số liu của một quốc gia như dân số, tài sản,
thuế. Thống thể được cho đã bắt đầu trong nền
văn minh cổ xưa, ít nhất từ cuối thế kỷ thứ 5 TCN,
nhưng cho đến thế kỷ 18 thì mới chịu ảnh ởng
nhiều hơn từ số học thuyết xác suất. Xác suất đã
trở thành một trong những công cụ thống bản.
Thống một phần toán học của khoa học gắn liền với
tp hợp dữ liệu, phân tích, giải thích hoặc thảo lun về
mt vấn đề nào đ, trình bày dữ liệu. thể xem
thống một môn khoa học riêng biệt chứ không phải
một nhánh của toán học, chính mt phần của
khoa học dữ liệu. Mục tiêu cui cùng của chuyển
dữ liệu thành kiến thức hiểu biết về thế giới xung
quanh chúng ta.
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt
GII THIU
C SUẤT THỐNG
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt
John Wilder Tukey (1915 2000) was an
American mathematician best known for development of
the Fast Fourier Transform (FFT) algorithm and box plot
XÁC SUT VS THNG KÊ
XÁC SUT
THNG KÊ
XÁC SUT VS THNG KÊ
XÁC SUT
Lý thuyết xác suất ngành toán học chuyên
nghiên cứu xác suất
THNG KÊ
Lý thuyết thống kê liên quan tới những lập luận
logic cơ bản giải thích của phương pháp tiếp cận
kết luận thống kê, cũng bao gồm toán thống kê.
XÁC SUT VS THNG KÊ
XÁC SUT
Thuật ngữ
NGẪU NHIÊN VÀ XÁC SUẤT
Một hiện tượng ngẫu nhiên ccc kết cục
không thể dự đon trước nhưng lại c quy lut
phân bố nhất định sau nhiều lần lặp lại thử
nghiệm.
Xc suất của một biến cố l tỉ lệ số lần xuất
hiện biến cố đ sau nhiều lần lặp đi lặp lại thử
nghiệm về một hiện tượng ngẫu nhiên.
KHÔNG GIAN MẪU VÀ BIẾN CỐ
Không gian mẫu S của một hiện tượng ngẫu
nhiên l tp hợp của tất cả cc kết cục c th
xảy ra.
Biến cố l một kết cục hoặc một tp hợp cc
kết cục của một hiện tượng ngẫu nhiên. Một
biến cố tp con của không gian mẫu.
THNG KÊ
Thuật ngữ
TỔNG THỂ VÀ MẪU
Ton bộ nhm cc c thể mchúng ta muốn
thông tin về n được gọi l tổng thể.
Một mẫu l một phần của tổng thể mthực tế
chúng ta khảo st để thu thp thông tin.
THAM SỐ THỐNG KÊ
Tham số là một số diễn tả tổng thể. Một tham số
là một số cố định, nhưng trong thực tế chúng ta
không biết giá trị của .
Thống kê là một số diễn tả mẫu. Giá trị của thống
kê được biết khi chúng ta lấy mẫu, nhưng nó có
thể thay đổi theo từng mẫu. chúng ta thường sử
dụng một thống kê để ước lượng một tham số
chưa biết.
XÁC SUT VS THNG KÊ
XÁC SUT
Thuật ngữ
MÔ HÌNH XÁC SUẤT
Sự mô tả một hiện tượng ngẫu nhiên bằng
ngôn ngữ ton học gọi l mô hnh xc suất.
Biến ngẫu nhiên l biến lấy cc gi trị bằng
số xác định bởi kết cục của một hiện tượng
ngẫu nhiên.
Phân bố xc suất của một biến ngẫu nhiên X
cho ta biết cc gi trị c thể c của X l g v
xác suất được tm cho cc gi trị đ như thế
nào.
THNG KÊ
Thuật ngữ
THỐNG KÊ MÔ TẢ
Dữ liệu: Dữ liệu l cc con số trong một ngữ
cảnh cụ thể, v chúng ta cần hiểu ngữ cảnh
đ nếu chúng ta muốn lm cc con số trở
nên c nghĩa.
Cc biến: Bất kỳ tệp dữ liệu no cũng đều
chứa cc thông tin về một nhm no đ của
cc c thể. Thông tin được tổ chức vo cc
biến.
Phân bố của một biến cho chúng ta biết n
nhn những trị số no v nhn những trị số
đ bao nhiêu lần.
XÁC SUT VS THNG KÊ
XÁC SUT
QUY LUẬT SỐ LỚN
Phân bố xác suất chuẩn
Trung bình, phương sai và độ lệch
chuẩn của biến ngẫu nhiên
Quy luật số lớn chỉ ra rằng trung bnh cc
giá trị của X trong nhiều lần thử phải tiến gần
đến µ.
Quy luật số lớn theo xc suất v thống kê
cho rằng khi kch thước mẫu tăng lên, gi trị
trung bnh của n s gần với mức trung bnh
của ton bộ tổng thể.
THNG KÊ
THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ
XÁC SUT VS THNG KÊ
XÁC SUT
ĐỊNH LÝ GIỚI HẠN TRUNG TÂM
Đnh lý gii hn trung tâm tuyên b rng
đi vi n ln, phân b mu ca 𝑥 gn đúng
phân b Chun N(μ, σ/ 𝑛 ) cho bt kỳ tng
th nào vi trung bình μ và đ lch chun
hu hn σ.
THNG KÊ
THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY
Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bnh sxấp xỉ phân phối chuẩn. Điều này là đúng
không phân biệt hnh dạng phân bố của cc gi trị c thể trong tổng thể.
XÁC SUT VS THNG KÊ
XÁC SUT
Xác sut: Ti sao?
Thng kê không chng minh bt c điu gì ...? Nó
ch hin th ngoài nghi ng hp lý rng mt cái
gì đó là sai
... Do đó, chúng ta s dng xác sut đ nêu rõ mc
đ t tin ca mình trong vic ch ra mt cái gì
đó là sai lm
THNG KÊ
THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN
XÁC SUT VS THNG KÊ
XÁC SUT
Xác sut: Ti sao?
Trong thống kê, tôi không thể chứng minh bất
cứ điều gì là đúng, nhưng chỉ cho thấy ngoài
nghi ngờ hợp lý rằng một cái gì đó là sai
vậy, với mỗi tuyên bố này tôi sẽ nói rằng
không có sự khác biệt giữa các trung bình
mẫu và trung bình tổng thể được giả thuyết
THNG KÊ
THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ
THUYẾT
XÁC SUT VS THNG KÊ
XÁC SUT
Xác sut: Ti sao?
Thng kê không chng minh bt c điu gì ...? Nó
ch hin th ngoài nghi ng hp lý rng mt cái
gì đó là sai
... Do đó, chúng ta s dng xác sut đ nêu rõ mc
đ t tin ca mình trong vic ch ra mt cái gì
đó là sai lm
THNG KÊ
SUY LUẬN THỐNG KÊ CHO HỒI QUI
XÁC SUT VS THNG KÊ
XÁC SUT
Xác suất có điều kiện
Xc suất m biến cố A xảy ra, cho rằng biến c
B đã xảy ra
Xc suất tiên nghiệm (prior probability) hay xác
suất điều kiện (unconditional probability): là
xc suất của một sự kiện trong điều kiện kng
có tri thức bổ sung cho sự mặt hay vắng mặt
của .
Xác suất hu nghiệm (posterior probability )
hay xc suất điều kiện (conditional
probability): là xác suất của một sự kiện khi biết
trước một hay nhiều sự kiện khc
THNG KÊ
SUY LUẬN BAYES
Định lý Bayes điều chỉnh cc xc suất khi được cho
bằng chứng mới theo cch sau đây:
H
0
đại diện cho một giả thuyết, gọi l một giả thuyết
không (null hypothesis)
P(H
0
) được gọi l xc suất tiên nghiệm của H
0
P(E|H
0
) được gọi l xc suất cđiều kiện của việc
quan st thấy bằng chứng E nếu biết rằng giả thuyết
H
0
đúng
P(E) được gọi l xc suất biên của E hay bằng chứng:
xc suất của việc chứng kiến bằng chứng mới E dưới
tất cả cc giả thuyết loại trừ nhau đôi một.
P(H
0
|E) được gọi l xc suất hu nghiệm của H
0
nếu
biết E
( and )
( | )
()
P A B
P A B
PB
XÁC SUT VS THNG KÊ
XÁC SUT
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian
p-value
Trong đó, tính t-score cho một mẫu cụ thtừ một phân bố mẫu
có cỡ mẫu cđịnh đã được tính. Sau đó, p-values được d
đoán. Chúng ta có thể giải thích các p-values như (lấy ví dụ
trường hợp p-value = 0,02 cho một phân bố có mean = 100):
Có 2% xác suất rằng mẫu sẽ có mean = 100.
Sự giải thích y có một khiếm khuyết là đối với phân phối mẫu
của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ
đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value <
0.05 không đảm bảo rằng giả thuyết null sai hoặc p-values lớn
hơn 5% cũng không đảm bảo là giả thuyết null đúng.
Trong bảng A (thể hiện bên): thanh trái (M1) là xác suất prior
của null hypothesis.
Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của
null hypothesis.
Bayes Factor được định nghĩa là tỷ lệ của các posterior
odds/prior odds. Để bác bỏ một giả thiết null, ưu tiên BF <1/10.
THNG KÊ
Bayes Factor (BF)
Bayes Factor tương đương với giá trị p trong thống kê Bayesian.
Hãy hiểu nó một cách toàn diện.
Null hypothesis trong Bayesian giả định phân bố xác suất chỉ
ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất
bằng không ở những nơi khác. (M1)
Giả thuyết thay thế (alternative hypothesis) là tất cả các giá tr
của θ đều có thể, do đó một đường cong dẹt đại diện cho sự
phân bố y. (M2)
Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như
hình dưới.
XÁC SUT VS THNG KÊ
XÁC SUT
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian
Khoảng tin cậy (CI)
Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn
nữa vì CI không phải là một sự phân bố xác suất, nên
không cách nào để biết những giá trị nào có thể
xảy ra nhất.
HDI 95% trong phân phối prior rộng hơn so với
HDI 95% trong phân phối postorior. Điều này có được
là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu
mới.
THNG KÊ
Khoảng mật độ cao (HDI)
HDI được hình thành từ phân phối hậu nghiệm sau
khi quan sát dữ liệu mới. Vì HDI xác suất, HDI 95%
cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo
rằng 95% giá trị sẽ nằm trong khoảng này không
giống như CI.
XÁC SUT VS THNG KÊ
XÁC SUT
Rủi ro Bayes
Định nghĩa : Rủi ro Bayes của hàm quyết định d được
định nghĩa
Trong đó kỳ vọng được thực hiện với đối θ.
Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công
thức như sau:
Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được
viết là
Trong đó f(x) là hàm mật độ xác suất biên của X được tìm
thấy từ mật độ xác suất chung của X và θ.
THNG KÊ
Quyết định Bayes
Định nghĩa: Nguyên tắc quyết định Bayes l một hm
quyết định d* giảm tối thiểu rủi ro Bayes.
Đ l d* thỏa mãn
đây:
)(),(),(
ii
i
dRdR
)),((max),(inf dlowerRdR
d
d
XÁC SUT VS THNG KÊ
XÁC SUT
Triết lý trong ứng dụng của xác suất
Một số nthống kê chỉ gán các xác suất cho các biến cố ngẫu
nhiên, ví dụ, các biến ngẫu nhiên, cho kết quả thử nghiệm
thực hay mang tính lý thuyết; đó là những nhà tần suất học
(frequentist).
Một số khác lại gán xác suất với những mệnh đề không chắc
chắn, tùy theo mức độ chủ quan (personal probability) tin vào
sự đúng đắn của nó. Những người như vậy là các nhà Bayes
(Bayesian).
Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng
ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.
Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết
môi trường hay còn gọi là phân tích đường lối.
Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và
đưa ra các giải pháp nghiên cứu thtrường,...
Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật
toán machine learning để có thđưa ra các dự đoán dễ xảy ra
nhất.
THNG KÊ
ng dụng thống
Thống kê ứng dụngbao gồm thống kê mô tả và các ứng
dụng của thống kê suy luận.
Thống kê được áp dụng cho một loạt các môn học, bao
gồm cả khoa học tự nhiên và xã hội, chính trị và kinh
doanh.
Các ng cụ thống cần thiết cho việc phân tích, dự báo
và đưa ra quyết định dựa trên dữ liệu.
Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ
chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn
bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ
cuối thập kỷ 1950.
Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng
đồng phylogenetics; các ứng dụng như BEAST MrBayes
cho phép ước lượng đồng thời nhiều tham số nhân khẩu
học và tiến hóa.
XÁC SUT VS THNG KÊ
XÁC SUT
Triết trong ứng dụng của xác suất
THNG KÊ
Ứng dụng thống
XÁC SUT VS THNG KÊ
Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
Rất thể hoàn cảnh kinh tế khó khăn hiện tại Mỹ Anh sẽ ảnh hưởng đến số ợng các sinh viên đến
du học. Kết quả lượng sách kỳ vng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn
thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy
được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty thể kỳ vọng khoản lợi nhuận
£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,
khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải mất £2 triệu nếu số sinh viên giảm
lượng lớn.
Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3.
XÁC SUT VS THNG KÊ
Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng
đoán tốt nhấtquan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc
phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.
Nếu họ làm điều y, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập
cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm
không xảy ra.
Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75
triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.
| 1/27

Preview text:

XÁC SUẤT VS THỐNG PHẠM ĐĂNG QUYẾT phamdangquyet@gmail.com GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT THỐNG KÊ ■ Từ xác suất (probability) bắt nguồn từ ■
Thuật ngữ “thống kê” của tiếng Anh “statistics” có gốc từ
chữ probare trong tiếng Latin và có nghĩa là "để chứng
“state” (nghĩa là quốc gia), nguồn gốc La tinh “statisticum minh,
để kiểm chứng". Nói một cách đơn
collegium” nghĩa là “hội đồng quốc gia”. Theo tiếng Đức,
giản, probable là một trong nhiều từ dùng để chỉ những
“statistik” có nghĩa gốc là “công tác dữ liệu của quốc gia”.
sự kiện hoặc kiến thức chưa chắc chắn, và thường đi ■
Ban đầu, thống kê dùng để diễn tả các hoạt động ghi
kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi",
chép số liệu của một quốc gia như dân số, tài sản,
"không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh.
thuế. Thống kê có thể được cho là đã bắt đầu trong nền
"Cơ hội" (chance), "cá cược" (odds, bet) là những từ cho
văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN, khái niệm tương tự.
nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng ■
Xác suất chính là một khái niệm được nói đến khi tính
nhiều hơn từ số học và lý thuyết xác suất. Xác suất đã
khả năng xác suất xảy ra của các sự kiện, sự vật trong
trở thành một trong những công cụ thống kê cơ bản.
tương lai mà khả năng xảy ra những sự kiện này sẽ ■
Thống kê là một phần toán học của khoa học gắn liền với
không có bất kì điều gì có thể dự đoán chính xác được.
tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về ■
Lý thuyết xác suất là ngành toán học chuyên nghiên
một vấn đề nào đó, và trình bày dữ liệu. Có thể xem
cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết
thống kê là một môn khoa học riêng biệt chứ không phải
xác suất biểu diễn các khái niệm xác suất bằng các thuật
là một nhánh của toán học, nó chính là một phần của
ngữ hình thức - nghĩa là các thuật ngữ mà có thể xác
khoa học dữ liệu. Mục tiêu cuối cùng của nó là chuyển
định một cách độc lập với ý nghĩa của nó. Các thuật ngữ
dữ liệu thành kiến thức và hiểu biết về thế giới xung
hình thức này được thao tác bởi các quy luật toán học và quanh chúng ta.
logic, và kết quả thu được sẽ được chuyển dịch trở lại
miền (domain) của bài toán. GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT THỐNG KÊ
John Wilder Tukey (1915 – 2000) was an
American mathematician best known for development of
the Fast Fourier Transform (FFT) algorithm and box plot XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Lý thuyết xác suất là ngành toán học chuyên
Lý thuyết thống kê liên quan tới những lập luận nghiên cứu xác suất
logic cơ bản giải thích của phương pháp tiếp cận
kết luận thống kê, cũng bao gồm toán thống kê. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữThuật ngữ
■ NGẪU NHIÊN VÀ XÁC SUẤT ■ TỔNG THỂ VÀ MẪU
■ Một hiện tượng ngẫu nhiên có các kết cục
■ Toàn bộ nhóm các cá thể mà chúng ta muốn có
không thể dự đoán trước nhưng lại có quy luật
thông tin về nó được gọi là tổng thể.
phân bố nhất định sau nhiều lần lặp lại thử nghiệm.
■ Một mẫu là một phần của tổng thể mà thực tế
■ Xác suất của một biến cố là tỉ lệ số lần xuất
chúng ta khảo sát để thu thập thông tin.
hiện biến cố đó sau nhiều lần lặp đi lặp lại thử
nghiệm về một hiện tượng ngẫu nhiên ■ THAM SỐ VÀ THỐNG KÊ .
■ KHÔNG GIAN MẪU VÀ BIẾN CỐ
■ Tham số là một số diễn tả tổng thể. Một tham số
là một số cố định, nhưng trong thực tế chúng ta
■ Không gian mẫu S của một hiện tượng ngẫu
không biết giá trị của nó.
nhiên là tập hợp của tất cả các kết cục có thể xảy ra.
■ Thống kê là một số diễn tả mẫu. Giá trị của thống
kê được biết khi chúng ta lấy mẫu, nhưng nó có
■ Biến cố là một kết cục hoặc một tập hợp các
thể thay đổi theo từng mẫu. chúng ta thường sử
kết cục của một hiện tượng ngẫu nhiên. Một
dụng một thống kê để ước lượng một tham số
biến cố là tập con của không gian mẫu. chưa biết. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữThuật ngữ ■ MÔ HÌNH XÁC SUẤT ■ THỐNG KÊ MÔ TẢ
■ Sự mô tả một hiện tượng ngẫu nhiên bằng
■ Dữ liệu: Dữ liệu là các con số trong một ngữ
ngôn ngữ toán học gọi là mô hình xác suất.
cảnh cụ thể, và chúng ta cần hiểu ngữ cảnh
■ Biến ngẫu nhiên là biến lấy các giá trị bằng
đó nếu chúng ta muốn làm các con số trở số nên có nghĩa.
xác định bởi kết cục của một hiện tượng ngẫu nhiên.
■ Các biến: Bất kỳ tệp dữ liệu nào cũng đều
■ Phân bố xác suất của một biến ngẫu nhiên X
chứa các thông tin về một nhóm nào đó của
các cá thể. Thông tin được tổ chức vào các
cho ta biết các giá trị có thể có của X là gì và biến.
xác suất được tìm cho các giá trị đó như thế nào.
■ Phân bố của một biến cho chúng ta biết nó
nhận những trị số nào và nhận những trị số đó bao nhiêu lần. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ QUY LUẬT SỐ LỚN
■ THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ
Phân bố xác suất chuẩn
Trung bình, phương sai và độ lệch
chuẩn của biến ngẫu nhiên
Quy luật số lớn chỉ ra rằng trung bình các
giá trị của X trong nhiều lần thử phải tiến gần đến µ.
Quy luật số lớn theo xác suất và thống kê
cho rằng khi kích thước mẫu tăng lên, giá trị
trung bình của nó sẽ gần với mức trung bình
của toàn bộ tổng thể. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
■ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM
■ THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY
Định lý giới hạn trung tâm tuyên bố rằng
đối với n lớn, phân bố mẫu của 𝑥 gần đúng
phân bố Chuẩn N(μ, σ/ 𝑛 ) cho bất kỳ tổng
thể nào với trung bình μ và độ lệch chuẩn hữu hạn σ.
■ Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bình sẽ xấp xỉ phân phối chuẩn. Điều này là đúng
không phân biệt hình dạng phân bố của các giá trị cá thể trong tổng thể. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN
Thống kê không chứng minh bất cứ điều gì ...? Nó
chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ THUYẾT
Trong thống kê, tôi không thể chứng minh bất
cứ điều gì là đúng, nhưng chỉ cho thấy ngoài
nghi ngờ hợp lý rằng một cái gì đó là sai
Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng
không có sự khác biệt giữa các trung bình
mẫu và trung bình tổng thể được giả thuyết ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ SUY LUẬN THỐNG KÊ CHO HỒI QUI
Thống kê không chứng minh bất cứ điều gì ...? Nó
chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Xác suất có điều kiện ■ SUY LUẬN BAYES
■ Xác suất mà biến cố A xảy ra, cho rằng biến cố B đã xảy ra ■
Định lý Bayes điều chỉnh các xác suất khi được cho
bằng chứng mới theo cách sau đây:
P( A and B)
P( A | B)  P(B) ■
H0 đại diện cho một giả thuyết, gọi là một giả thuyết
■ Xác suất tiên nghiệm (prior probability) hay xác không (null hypothesis)
suất vô điều kiện (unconditional probability): là
xác suất của một sự kiện trong điều kiện không ■
P(H0) được gọi là xác suất tiên nghiệm của H0
có tri thức bổ sung cho sự có mặt hay vắng mặt của nó. ■
P(E|H0) được gọi là xác suất có điều kiện của việc
quan sát thấy bằng chứng E nếu biết rằng giả thuyết
■ Xác suất hậu nghiệm (posterior probability ) H
hay xác suất có điều kiện (conditional 0 là đúng
probability): là xác suất của một sự kiện khi biết ■
P(E) được gọi là xác suất biên của E hay bằng chứng:
trước một hay nhiều sự kiện khác
xác suất của việc chứng kiến bằng chứng mới E dưới ■
tất cả các giả thuyết loại trừ nhau đôi một. ■
P(H0|E) được gọi là xác suất hậu nghiệm của H0 nếu biết E XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs BayesianBayes Factor (BF)p-value
Bayes Factor tương đương với giá trị p trong thống kê Bayesian. ■
Hãy hiểu nó một cách toàn diện.
Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu
có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự
đoán. Chúng ta có thể giải thích các p ■
Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ -values như (lấy ví dụ
trường hợp p-value = 0,02 cho một phân bố có mean = 100):
ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất
Có 2% xác suất rằng mẫu sẽ có mean = 100.
bằng không ở những nơi khác. (M1) ■
Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu ■
Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị
của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ
của θ đều có thể, do đó một đường cong dẹt đại diện cho sự
đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value < phân bố này. (M2)
0.05 không đảm bảo rằng giả thuyết nul sai hoặc p-values lớn
hơn 5% cũng không đảm bảo là giả thuyết nul đúng. ■
Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như hình dưới. ■
Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior của nul hypothesis. ■
Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của null hypothesis. ■
Bayes Factor được định nghĩa là tỷ lệ của các posterior
odds/prior odds. Để bác bỏ một giả thiết nul , ưu tiên BF <1/10. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian
Khoảng mật độ cao (HDI)Khoảng tin cậy (CI)
HDI được hình thành từ phân phối hậu nghiệm sau
khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95% ■
Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn
cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo
nữa vì CI không phải là một sự phân bố xác suất, nên
rằng 95% giá trị sẽ nằm trong khoảng này không
không có cách nào để biết những giá trị nào có thể giống như CI. xảy ra nhất. ■
HDI 95% trong phân phối prior là rộng hơn so với
HDI 95% trong phân phối postorior. Điều này có được
là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu mới. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Rủi ro Bayes Quyết định Bayes
Định nghĩa : Rủi ro Bayes của hàm quyết định d được định nghĩa là ■
Định nghĩa: Nguyên tắc quyết định Bayes là một hàm
quyết định d* giảm tối thiểu rủi ro Bayes. ■ Đó là d* thỏa mãn ■
Trong đó kỳ vọng được thực hiện với đối θ. ■
Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công ■ ở đây: thức như sau:
inf R( , d)  max(lowerR( , d)) d d R( , d )  R  ( d   i , ) ( i ) i
Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được viết là ■
Trong đó f(x) là hàm mật độ xác suất biên của X được tìm
thấy từ mật độ xác suất chung của X và θ. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất
Ứng dụng thống kê
Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu ■
“Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng
nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm
dụng của thống kê suy luận.
thực hay mang tính lý thuyết; đó là những nhà tần suất học (frequentist). ■
Thống kê được áp dụng cho một loạt các môn học, bao
gồm cả khoa học tự nhiên và xã hội, chính trị và kinh ■
Một số khác lại gán xác suất với những mệnh đề không chắc
chắn, tùy theo mức độ chủ quan (personal probability) tin vào doanh.
sự đúng đắn của nó. Những người như vậy là các nhà Bayes ■
Các công cụ thống kê cần thiết cho việc phân tích, dự báo (Bayesian).
và đưa ra quyết định dựa trên dữ liệu. ■
Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ■
ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.
Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ
chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn ■
Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết
bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ
môi trường hay còn gọi là phân tích đường lối. cuối thập kỷ 1950. ■
Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và ■
Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng
đưa ra các giải pháp nghiên cứu thị trường,...
đồng phylogenetics; các ứng dụng như BEAST và MrBayes
cho phép ước lượng đồng thời nhiều tham số nhân khẩu ■
Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật học và tiến hóa.
toán machine learning để có thể đưa ra các dự đoán dễ xảy ra nhất. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất
Ứng dụng thống kê XÁC SUẤT VS THỐNG KÊ
Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến
du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn
thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy
được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận
£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,
khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm lượng lớn.
■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3. XÁC SUẤT VS THỐNG KÊ
Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng
đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc
phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.
■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập
cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm không xảy ra.
■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75
triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.