27 trang 163 lượt tải

Bài giảng Xác suất thống kê | Trường Đại học Kiến trúc Đà Nẵng

325

Bài giảng Xác suất thống kê | Trường Đại học Kiến trúc Đà Nẵng.Tài liệu gồm 27 trang, giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời bạn đọc đón xem!

Môn: Xác suất thống kê (KT1) 8 tài liệu

Trường: Trường Đại học Kiến trúc Đà Nẵng 322 tài liệu

Tác giả:

VietJack

1 năm trước

Tải xuống Báo cáo

Danh sách Quiz

XÁC SUẤT VS THỐNG

KÊ

PHẠM ĐĂNG QUYẾT

phamdangquyet@gmail.com

GIỚI THIỆU

XÁC SUẤT

■ Từ xác suất (probability) bắt nguồn từ

chữ probare trong tiếng Latin và có nghĩa là "để chứng

minh, để kiểm chứng". Nói một cách đơn

giản, probable là một trong nhiều từ dùng để chỉ những

sự kiện hoặc kiến thức chưa chắc chắn, và thường đi

kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi",

"không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh.

"Cơ hội" (chance), "cá cược" (odds, bet) là những từ cho

khái niệm tương tự.

■ Xác suất chnh l một khi niệm được ni đến khi tnh

khả năng xc suất xảy ra của cc sự kiện, sự vt trong

tương lai m khả năng xảy ra những sự kiện ny s

không c bất k điều g c thể dự đon chnh xc được.

■ Lý thuyết xác suất là ngành toán học chuyên nghiên

cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết

xác suất biểu diễn các khái niệm xác suất bằng các thut

ngữ hình thức - nghĩa là các thut ngữ mà có thể xác

định một cách độc lp với ý nghĩa của nó. Các thut ngữ

hình thức này được thao tác bởi các quy lut toán học và

logic, và kết quả thu được s được chuyển dịch trở lại

miền (domain) của bài toán.

THỐNG KÊ

■ Thut ngữ “thống kê” của tiếng Anh “statistics” có gốc từ

“state” (nghĩa là quốc gia), nguồn gốc La tinh “statisticum

collegium” nghĩa là “hội đồng quốc gia”. Theo tiếng Đức,

“statistik” có nghĩa gốc là “công tác dữ liệu của quốc gia”.

■ Ban đầu, thống kê dùng để diễn tả các hoạt động ghi

chép số liệu của một quốc gia như dân số, tài sản,

thuế. Thống kê có thể được cho là đã bắt đầu trong nền

văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN,

nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng

nhiều hơn từ số học và lý thuyết xác suất. Xác suất đã

trở thành một trong những công cụ thống kê cơ bản.

■ Thống kê là một phần toán học của khoa học gắn liền với

tp hợp dữ liệu, phân tích, giải thích hoặc thảo lun về

một vấn đề nào đ, và trình bày dữ liệu. Có thể xem

thống kê là một môn khoa học riêng biệt chứ không phải

là một nhánh của toán học, nó chính là một phần của

khoa học dữ liệu. Mục tiêu cuối cùng của nó là chuyển

dữ liệu thành kiến thức và hiểu biết về thế giới xung

quanh chúng ta.

Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt

GIỚI THIỆU

XÁC SUẤT THỐNG KÊ

Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt

John Wilder Tukey (1915 – 2000) was an

American mathematician best known for development of

the Fast Fourier Transform (FFT) algorithm and box plot

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

THỐNG KÊ

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

■ Lý thuyết xác suất là ngành toán học chuyên

nghiên cứu xác suất

THỐNG KÊ

■ Lý thuyết thống kê liên quan tới những lập luận

logic cơ bản giải thích của phương pháp tiếp cận

kết luận thống kê, cũng bao gồm toán thống kê.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

■ Thuật ngữ

■ NGẪU NHIÊN VÀ XÁC SUẤT

■ Một hiện tượng ngẫu nhiên c cc kết cục

không thể dự đon trước nhưng lại c quy lut

phân bố nhất định sau nhiều lần lặp lại thử

nghiệm.

■ Xc suất của một biến cố l tỉ lệ số lần xuất

hiện biến cố đ sau nhiều lần lặp đi lặp lại thử

nghiệm về một hiện tượng ngẫu nhiên.

■ KHÔNG GIAN MẪU VÀ BIẾN CỐ

■ Không gian mẫu S của một hiện tượng ngẫu

nhiên l tp hợp của tất cả cc kết cục c thể

xảy ra.

■ Biến cố l một kết cục hoặc một tp hợp cc

kết cục của một hiện tượng ngẫu nhiên. Một

biến cố là tp con của không gian mẫu.

THỐNG KÊ

■ Thuật ngữ

■ TỔNG THỂ VÀ MẪU

■ Ton bộ nhm cc c thể m chúng ta muốn có

thông tin về n được gọi l tổng thể.

■ Một mẫu l một phần của tổng thể m thực tế

chúng ta khảo st để thu thp thông tin.

■ THAM SỐ VÀ THỐNG KÊ

■ Tham số là một số diễn tả tổng thể. Một tham số

là một số cố định, nhưng trong thực tế chúng ta

không biết giá trị của nó.

■ Thống kê là một số diễn tả mẫu. Giá trị của thống

kê được biết khi chúng ta lấy mẫu, nhưng nó có

thể thay đổi theo từng mẫu. chúng ta thường sử

dụng một thống kê để ước lượng một tham số

chưa biết.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

■ Thuật ngữ

■ MÔ HÌNH XÁC SUẤT

■ Sự mô tả một hiện tượng ngẫu nhiên bằng

ngôn ngữ ton học gọi l mô hnh xc suất.

■ Biến ngẫu nhiên l biến lấy cc gi trị bằng

số xác định bởi kết cục của một hiện tượng

ngẫu nhiên.

■ Phân bố xc suất của một biến ngẫu nhiên X

cho ta biết cc gi trị c thể c của X l g v

xác suất được tm cho cc gi trị đ như thế

nào.

THỐNG KÊ

■ Thuật ngữ

■ THỐNG KÊ MÔ TẢ

■ Dữ liệu: Dữ liệu l cc con số trong một ngữ

cảnh cụ thể, v chúng ta cần hiểu ngữ cảnh

đ nếu chúng ta muốn lm cc con số trở

nên c nghĩa.

■ Cc biến: Bất kỳ tệp dữ liệu no cũng đều

chứa cc thông tin về một nhm no đ của

cc c thể. Thông tin được tổ chức vo cc

biến.

■ Phân bố của một biến cho chúng ta biết n

nhn những trị số no v nhn những trị số

đ bao nhiêu lần.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

■ QUY LUẬT SỐ LỚN

■ Phân bố xác suất chuẩn

■ Trung bình, phương sai và độ lệch

chuẩn của biến ngẫu nhiên

■ Quy luật số lớn chỉ ra rằng trung bnh cc

giá trị của X trong nhiều lần thử phải tiến gần

đến µ.

■ Quy luật số lớn theo xc suất v thống kê

cho rằng khi kch thước mẫu tăng lên, gi trị

trung bnh của n s gần với mức trung bnh

của ton bộ tổng thể.

THỐNG KÊ

■ THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

■ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM

■ Định lý giới hạn trung tâm tuyên bố rằng

đối với n lớn, phân bố mẫu của 𝑥 gần đúng

phân bố Chuẩn N(μ, σ/ 𝑛 ) cho bất kỳ tổng

thể nào với trung bình μ và độ lệch chuẩn

hữu hạn σ.

■

THỐNG KÊ

■ THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY

Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bnh s xấp xỉ phân phối chuẩn. Điều này là đúng

không phân biệt hnh dạng phân bố của cc gi trị c thể trong tổng thể.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Xác suất: Tại sao?

Thống kê không chứng minh bất cứ điều gì ...? Nó

chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái

gì đó là sai

... Do đó, chúng ta sử dụng xác suất để nêu rõ mức

độ tự tin của mình trong việc chỉ ra một cái gì

đó là sai lầm

■

THỐNG KÊ

■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Xác suất: Tại sao?

Trong thống kê, tôi không thể chứng minh bất

cứ điều gì là đúng, nhưng chỉ cho thấy ngoài

nghi ngờ hợp lý rằng một cái gì đó là sai

Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng

không có sự khác biệt giữa các trung bình

mẫu và trung bình tổng thể được giả thuyết

■

THỐNG KÊ

■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ

THUYẾT

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Xác suất: Tại sao?

Thống kê không chứng minh bất cứ điều gì ...? Nó

chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái

gì đó là sai

... Do đó, chúng ta sử dụng xác suất để nêu rõ mức

độ tự tin của mình trong việc chỉ ra một cái gì

đó là sai lầm

■

THỐNG KÊ

■ SUY LUẬN THỐNG KÊ CHO HỒI QUI

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Xác suất có điều kiện

■ Xc suất m biến cố A xảy ra, cho rằng biến cố

B đã xảy ra

■ Xc suất tiên nghiệm (prior probability) hay xác

suất vô điều kiện (unconditional probability): là

xc suất của một sự kiện trong điều kiện không

có tri thức bổ sung cho sự có mặt hay vắng mặt

của nó.

■ Xác suất hu nghiệm (posterior probability )

hay xc suất có điều kiện (conditional

probability): là xác suất của một sự kiện khi biết

trước một hay nhiều sự kiện khc

■

THỐNG KÊ

■ SUY LUẬN BAYES

■ Định lý Bayes điều chỉnh cc xc suất khi được cho

bằng chứng mới theo cch sau đây:

■ H

đại diện cho một giả thuyết, gọi l một giả thuyết

không (null hypothesis)

■ P(H

) được gọi l xc suất tiên nghiệm của H

■ P(E|H

) được gọi l xc suất c điều kiện của việc

quan st thấy bằng chứng E nếu biết rằng giả thuyết

là đúng

■ P(E) được gọi l xc suất biên của E hay bằng chứng:

xc suất của việc chứng kiến bằng chứng mới E dưới

tất cả cc giả thuyết loại trừ nhau đôi một.

■ P(H

|E) được gọi l xc suất hu nghiệm của H

nếu

biết E

( and )

( | )

()

P A B



XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Ý nghĩa của việc kiểm định - Frequentist vs Bayesian

■ p-value

■ Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu

có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự

đoán. Chúng ta có thể giải thích các p-values như (lấy ví dụ

trường hợp p-value = 0,02 cho một phân bố có mean = 100):

Có 2% xác suất rằng mẫu sẽ có mean = 100.

■ Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu

của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ

đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value <

0.05 không đảm bảo rằng giả thuyết null sai hoặc p-values lớn

hơn 5% cũng không đảm bảo là giả thuyết null đúng.

■ Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior

của null hypothesis.

■ Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của

null hypothesis.

■ Bayes Factor được định nghĩa là tỷ lệ của các posterior

odds/prior odds. Để bác bỏ một giả thiết null, ưu tiên BF <1/10.

THỐNG KÊ

■ Bayes Factor (BF)

■ Bayes Factor tương đương với giá trị p trong thống kê Bayesian.

Hãy hiểu nó một cách toàn diện.

■ Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ

ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất

bằng không ở những nơi khác. (M1)

■ Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị

của θ đều có thể, do đó một đường cong dẹt đại diện cho sự

phân bố này. (M2)

■ Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như

hình dưới.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Ý nghĩa của việc kiểm định - Frequentist vs Bayesian

■ Khoảng tin cậy (CI)

■ Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn

nữa vì CI không phải là một sự phân bố xác suất, nên

không có cách nào để biết những giá trị nào có thể

xảy ra nhất.

■ HDI 95% trong phân phối prior là rộng hơn so với

HDI 95% trong phân phối postorior. Điều này có được

là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu

mới.

THỐNG KÊ

■ Khoảng mật độ cao (HDI)

■ HDI được hình thành từ phân phối hậu nghiệm sau

khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95%

cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo

rằng 95% giá trị sẽ nằm trong khoảng này không

giống như CI.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Rủi ro Bayes

■ Định nghĩa : Rủi ro Bayes của hàm quyết định d được

định nghĩa là

■ Trong đó kỳ vọng được thực hiện với đối θ.

■ Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công

thức như sau:

■ Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được

viết là

■ Trong đó f(x) là hàm mật độ xác suất biên của X được tìm

thấy từ mật độ xác suất chung của X và θ.

THỐNG KÊ

■ Quyết định Bayes

■ Định nghĩa: Nguyên tắc quyết định Bayes l một hm

quyết định d* giảm tối thiểu rủi ro Bayes.

■ Đ l d* thỏa mãn

■ ở đây:

)(),(),(

dRdR







)),((max),(inf dlowerRdR





XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Triết lý trong ứng dụng của xác suất

■ Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu

nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm

thực hay mang tính lý thuyết; đó là những nhà tần suất học

(frequentist).

■ Một số khác lại gán xác suất với những mệnh đề không chắc

chắn, tùy theo mức độ chủ quan (personal probability) tin vào

sự đúng đắn của nó. Những người như vậy là các nhà Bayes

(Bayesian).

■ Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng

ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.

■ Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết

môi trường hay còn gọi là phân tích đường lối.

■ Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và

đưa ra các giải pháp nghiên cứu thị trường,...

■ Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật

toán machine learning để có thể đưa ra các dự đoán dễ xảy ra

nhất.

THỐNG KÊ

■ Ứng dụng thống kê

■ “Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng

dụng của thống kê suy luận.

■ Thống kê được áp dụng cho một loạt các môn học, bao

gồm cả khoa học tự nhiên và xã hội, chính trị và kinh

doanh.

■ Các công cụ thống kê cần thiết cho việc phân tích, dự báo

và đưa ra quyết định dựa trên dữ liệu.

■ Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ

chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn

bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ

cuối thập kỷ 1950.

■ Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng

đồng phylogenetics; các ứng dụng như BEAST và MrBayes

cho phép ước lượng đồng thời nhiều tham số nhân khẩu

học và tiến hóa.

XÁC SUẤT VS THỐNG KÊ

XÁC SUẤT

Triết lý trong ứng dụng của xác suất

THỐNG KÊ

■ Ứng dụng thống kê

XÁC SUẤT VS THỐNG KÊ

■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:

■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến

du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn

thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy

được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận

£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,

khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm

lượng lớn.

■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3.

XÁC SUẤT VS THỐNG KÊ

■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:

■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng

đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc

phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.

■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập

cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm

không xảy ra.

■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75

triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.

Bấm Tải xuống để xem toàn bộ.

Preview text:

XÁC SUẤT VS THỐNG KÊ PHẠM ĐĂNG QUYẾT phamdangquyet@gmail.com GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT THỐNG KÊ ■ Từ xác suất (probability) bắt nguồn từ ■
Thuật ngữ “thống kê” của tiếng Anh “statistics” có gốc từ
chữ probare trong tiếng Latin và có nghĩa là "để chứng
“state” (nghĩa là quốc gia), nguồn gốc La tinh “statisticum minh,
để kiểm chứng". Nói một cách đơn
collegium” nghĩa là “hội đồng quốc gia”. Theo tiếng Đức,
giản, probable là một trong nhiều từ dùng để chỉ những
“statistik” có nghĩa gốc là “công tác dữ liệu của quốc gia”.
sự kiện hoặc kiến thức chưa chắc chắn, và thường đi ■
Ban đầu, thống kê dùng để diễn tả các hoạt động ghi
kèm với các từ như "có vẻ là", "mạo hiểm", "may rủi",
chép số liệu của một quốc gia như dân số, tài sản,
"không chắc chắn" hay "nghi ngờ", tùy vào ngữ cảnh.
thuế. Thống kê có thể được cho là đã bắt đầu trong nền
"Cơ hội" (chance), "cá cược" (odds, bet) là những từ cho
văn minh cổ xưa, ít nhất là từ cuối thế kỷ thứ 5 TCN, khái niệm tương tự.
nhưng cho đến thế kỷ 18 thì nó mới chịu ảnh hưởng ■
Xác suất chính là một khái niệm được nói đến khi tính
nhiều hơn từ số học và lý thuyết xác suất. Xác suất đã
khả năng xác suất xảy ra của các sự kiện, sự vật trong
trở thành một trong những công cụ thống kê cơ bản.
tương lai mà khả năng xảy ra những sự kiện này sẽ ■
Thống kê là một phần toán học của khoa học gắn liền với
không có bất kì điều gì có thể dự đoán chính xác được.
tập hợp dữ liệu, phân tích, giải thích hoặc thảo luận về ■
Lý thuyết xác suất là ngành toán học chuyên nghiên
một vấn đề nào đó, và trình bày dữ liệu. Có thể xem
cứu xác suất đã được phát triển vào thế kỷ 17. Lý thuyết
thống kê là một môn khoa học riêng biệt chứ không phải
xác suất biểu diễn các khái niệm xác suất bằng các thuật
là một nhánh của toán học, nó chính là một phần của
ngữ hình thức - nghĩa là các thuật ngữ mà có thể xác
khoa học dữ liệu. Mục tiêu cuối cùng của nó là chuyển
định một cách độc lập với ý nghĩa của nó. Các thuật ngữ
dữ liệu thành kiến thức và hiểu biết về thế giới xung
hình thức này được thao tác bởi các quy luật toán học và quanh chúng ta.
logic, và kết quả thu được sẽ được chuyển dịch trở lại
miền (domain) của bài toán. GIỚI THIỆU
Xác suất và thống kê (Probability and statistics) là hai ngành học liên quan nhưng riêng biệt XÁC SUẤT THỐNG KÊ
John Wilder Tukey (1915 – 2000) was an
American mathematician best known for development of
the Fast Fourier Transform (FFT) algorithm and box plot XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
■ Lý thuyết xác suất là ngành toán học chuyên
■ Lý thuyết thống kê liên quan tới những lập luận nghiên cứu xác suất
logic cơ bản giải thích của phương pháp tiếp cận
kết luận thống kê, cũng bao gồm toán thống kê. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữ ■ Thuật ngữ
■ NGẪU NHIÊN VÀ XÁC SUẤT ■ TỔNG THỂ VÀ MẪU
■ Một hiện tượng ngẫu nhiên có các kết cục
■ Toàn bộ nhóm các cá thể mà chúng ta muốn có
không thể dự đoán trước nhưng lại có quy luật
thông tin về nó được gọi là tổng thể.
phân bố nhất định sau nhiều lần lặp lại thử nghiệm.
■ Một mẫu là một phần của tổng thể mà thực tế
■ Xác suất của một biến cố là tỉ lệ số lần xuất
chúng ta khảo sát để thu thập thông tin.
hiện biến cố đó sau nhiều lần lặp đi lặp lại thử
nghiệm về một hiện tượng ngẫu nhiên ■ THAM SỐ VÀ THỐNG KÊ .
■ KHÔNG GIAN MẪU VÀ BIẾN CỐ
■ Tham số là một số diễn tả tổng thể. Một tham số
là một số cố định, nhưng trong thực tế chúng ta
■ Không gian mẫu S của một hiện tượng ngẫu
không biết giá trị của nó.
nhiên là tập hợp của tất cả các kết cục có thể xảy ra.
■ Thống kê là một số diễn tả mẫu. Giá trị của thống
kê được biết khi chúng ta lấy mẫu, nhưng nó có
■ Biến cố là một kết cục hoặc một tập hợp các
thể thay đổi theo từng mẫu. chúng ta thường sử
kết cục của một hiện tượng ngẫu nhiên. Một
dụng một thống kê để ước lượng một tham số
biến cố là tập con của không gian mẫu. chưa biết. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ Thuật ngữ ■ Thuật ngữ ■ MÔ HÌNH XÁC SUẤT ■ THỐNG KÊ MÔ TẢ
■ Sự mô tả một hiện tượng ngẫu nhiên bằng
■ Dữ liệu: Dữ liệu là các con số trong một ngữ
ngôn ngữ toán học gọi là mô hình xác suất.
cảnh cụ thể, và chúng ta cần hiểu ngữ cảnh
■ Biến ngẫu nhiên là biến lấy các giá trị bằng
đó nếu chúng ta muốn làm các con số trở số nên có nghĩa.
xác định bởi kết cục của một hiện tượng ngẫu nhiên.
■ Các biến: Bất kỳ tệp dữ liệu nào cũng đều
■ Phân bố xác suất của một biến ngẫu nhiên X
chứa các thông tin về một nhóm nào đó của
các cá thể. Thông tin được tổ chức vào các
cho ta biết các giá trị có thể có của X là gì và biến.
xác suất được tìm cho các giá trị đó như thế nào.
■ Phân bố của một biến cho chúng ta biết nó
nhận những trị số nào và nhận những trị số đó bao nhiêu lần. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ ■ QUY LUẬT SỐ LỚN
■ THỐNG KÊ MÔ TẢ - CÁC PHÂN BỐ
■ Phân bố xác suất chuẩn
■ Trung bình, phương sai và độ lệch
chuẩn của biến ngẫu nhiên
■ Quy luật số lớn chỉ ra rằng trung bình các
giá trị của X trong nhiều lần thử phải tiến gần đến µ.
■ Quy luật số lớn theo xác suất và thống kê
cho rằng khi kích thước mẫu tăng lên, giá trị
trung bình của nó sẽ gần với mức trung bình
của toàn bộ tổng thể. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
■ ĐỊNH LÝ GIỚI HẠN TRUNG TÂM
■ THỐNG KÊ SUY LUẬN – KHOẢNG TIN CẬY
■ Định lý giới hạn trung tâm tuyên bố rằng
đối với n lớn, phân bố mẫu của 𝑥 gần đúng
phân bố Chuẩn N(μ, σ/ 𝑛 ) cho bất kỳ tổng
thể nào với trung bình μ và độ lệch chuẩn hữu hạn σ.
■ Khi cỡ mẫu được tăng lên, sự phân bố lấy mẫu của trung bình sẽ xấp xỉ phân phối chuẩn. Điều này là đúng
không phân biệt hình dạng phân bố của các giá trị cá thể trong tổng thể. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ THỐNG KÊ SUY LUẬN – SAI SÔ CHUẨN
Thống kê không chứng minh bất cứ điều gì ...? Nó
chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ THỐNG KÊ SUY LUẬN – KIỂM ĐỊNH GIẢ THUYẾT
Trong thống kê, tôi không thể chứng minh bất
cứ điều gì là đúng, nhưng chỉ cho thấy ngoài
nghi ngờ hợp lý rằng một cái gì đó là sai
Vì vậy, với mỗi tuyên bố này tôi sẽ nói rằng
không có sự khác biệt giữa các trung bình
mẫu và trung bình tổng thể được giả thuyết ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Xác suất: Tại sao?
■ SUY LUẬN THỐNG KÊ CHO HỒI QUI
Thống kê không chứng minh bất cứ điều gì ...? Nó
chỉ hiển thị ngoài nghi ngờ hợp lý rằng một cái gì đó là sai
... Do đó, chúng ta sử dụng xác suất để nêu rõ mức
độ tự tin của mình trong việc chỉ ra một cái gì đó là sai lầm ■ XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Xác suất có điều kiện ■ SUY LUẬN BAYES
■ Xác suất mà biến cố A xảy ra, cho rằng biến cố B đã xảy ra ■
Định lý Bayes điều chỉnh các xác suất khi được cho
bằng chứng mới theo cách sau đây:
P( A and B)
P( A | B)  P(B) ■
H0 đại diện cho một giả thuyết, gọi là một giả thuyết
■ Xác suất tiên nghiệm (prior probability) hay xác không (null hypothesis)
suất vô điều kiện (unconditional probability): là
xác suất của một sự kiện trong điều kiện không ■
P(H0) được gọi là xác suất tiên nghiệm của H0
có tri thức bổ sung cho sự có mặt hay vắng mặt của nó. ■
P(E|H0) được gọi là xác suất có điều kiện của việc
quan sát thấy bằng chứng E nếu biết rằng giả thuyết
■ Xác suất hậu nghiệm (posterior probability ) H
hay xác suất có điều kiện (conditional 0 là đúng
probability): là xác suất của một sự kiện khi biết ■
P(E) được gọi là xác suất biên của E hay bằng chứng:
trước một hay nhiều sự kiện khác
xác suất của việc chứng kiến bằng chứng mới E dưới ■
tất cả các giả thuyết loại trừ nhau đôi một. ■
P(H0|E) được gọi là xác suất hậu nghiệm của H0 nếu biết E XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■ Bayes Factor (BF) ■ p-value ■
Bayes Factor tương đương với giá trị p trong thống kê Bayesian. ■
Hãy hiểu nó một cách toàn diện.
Trong đó, tính t-score cho một mẫu cụ thể từ một phân bố mẫu
có cỡ mẫu cố định đã được tính. Sau đó, p-values được dự
đoán. Chúng ta có thể giải thích các p ■
Null hypothesis trong Bayesian giả định phân bố xác suất ∞ chỉ -values như (lấy ví dụ
trường hợp p-value = 0,02 cho một phân bố có mean = 100):
ở một giá trị cụ thể của một tham số (VD: θ = 0.5) và xác suất
Có 2% xác suất rằng mẫu sẽ có mean = 100.
bằng không ở những nơi khác. (M1) ■
Sự giải thích này có một khiếm khuyết là đối với phân phối mẫu ■
Giả thuyết thay thế (alternative hypothesis) là tất cả các giá trị
của các cỡ mẫu khác nhau, thì phải có t-scores khác nhau và từ
của θ đều có thể, do đó một đường cong dẹt đại diện cho sự
đó có p-values khác nhau. Nó hoàn toàn vô lý. Một p-value < phân bố này. (M2)
0.05 không đảm bảo rằng giả thuyết nul sai hoặc p-values lớn
hơn 5% cũng không đảm bảo là giả thuyết nul đúng. ■
Bây giờ, phân phối hậu nghiệm của dữ liệu mới biểu diễn như hình dưới. ■
Trong bảng A (thể hiện ở bên): thanh trái (M1) là xác suất prior của nul hypothesis. ■
Trong bảng B (hiển thị), thanh bên trái là xác suất posterior của null hypothesis. ■
Bayes Factor được định nghĩa là tỷ lệ của các posterior
odds/prior odds. Để bác bỏ một giả thiết nul , ưu tiên BF <1/10. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Ý nghĩa của việc kiểm định - Frequentist vs Bayesian ■
Khoảng mật độ cao (HDI) ■ Khoảng tin cậy (CI) ■
HDI được hình thành từ phân phối hậu nghiệm sau
khi quan sát dữ liệu mới. Vì HDI là xác suất, HDI 95% ■
Khoảng tin cậy cũng bị khiếm khuyết tương tự. Hơn
cho 95% giá trị đáng tin cậy nhất. Nó cũng đảm bảo
nữa vì CI không phải là một sự phân bố xác suất, nên
rằng 95% giá trị sẽ nằm trong khoảng này không
không có cách nào để biết những giá trị nào có thể giống như CI. xảy ra nhất. ■
HDI 95% trong phân phối prior là rộng hơn so với
HDI 95% trong phân phối postorior. Điều này có được
là do độ tin cậy vào HDI tăng lên khi quan sát dữ liệu mới. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ Rủi ro Bayes ■ Quyết định Bayes ■
Định nghĩa : Rủi ro Bayes của hàm quyết định d được định nghĩa là ■
Định nghĩa: Nguyên tắc quyết định Bayes là một hàm
quyết định d* giảm tối thiểu rủi ro Bayes. ■ Đó là d* thỏa mãn ■
Trong đó kỳ vọng được thực hiện với đối θ. ■
Nếu xác suất phân bố π(θ) là rời rạc, hàm rủi ro có công ■ ở đây: thức như sau:
inf R( , d)  max(lowerR( , d)) d d R( , d )  R  ( d   i , ) ( i ) i ■
Khi phân bố hậu định π(θ|x) là có sẵn, rủi ro Bayes được viết là ■
Trong đó f(x) là hàm mật độ xác suất biên của X được tìm
thấy từ mật độ xác suất chung của X và θ. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất ■
Ứng dụng thống kê ■
Một số nhà thống kê chỉ gán các xác suất cho các biến cố ngẫu ■
“Thống kê ứng dụng” bao gồm thống kê mô tả và các ứng
nhiên, ví dụ, các biến ngẫu nhiên, mà cho kết quả thử nghiệm
dụng của thống kê suy luận.
thực hay mang tính lý thuyết; đó là những nhà tần suất học (frequentist). ■
Thống kê được áp dụng cho một loạt các môn học, bao
gồm cả khoa học tự nhiên và xã hội, chính trị và kinh ■
Một số khác lại gán xác suất với những mệnh đề không chắc
chắn, tùy theo mức độ chủ quan (personal probability) tin vào doanh.
sự đúng đắn của nó. Những người như vậy là các nhà Bayes ■
Các công cụ thống kê cần thiết cho việc phân tích, dự báo (Bayesian).
và đưa ra quyết định dựa trên dữ liệu. ■
Ảnh hưởng chính của lý thuyết xác suất trong cuộc sống hằng ■
ngày đó là việc xác định rủi ro và trong buôn bán hàng hóa.
Suy luận có các ứng dụng trong trí tuệ nhân tạo và các hệ
chuyên gia. Các kỹ thuật suy luận Bayes đã là một phần căn ■
Chính phủ cũng áp dụng các phương pháp xác suất để điều tiết
bản của các kỹ thuật nhận dạng mẫu bằng máy tính kể từ
môi trường hay còn gọi là phân tích đường lối. cuối thập kỷ 1950. ■
Trong kinh tế, xác suất đóng góp rất nhiều cho việc tính toán và ■
Gần đây, suy luận Bayes đã trở nên thông dụng trong cộng
đưa ra các giải pháp nghiên cứu thị trường,...
đồng phylogenetics; các ứng dụng như BEAST và MrBayes
cho phép ước lượng đồng thời nhiều tham số nhân khẩu ■
Lý thuyết xác suất đóng một vai trò trung tâm trong các thuật học và tiến hóa.
toán machine learning để có thể đưa ra các dự đoán dễ xảy ra nhất. XÁC SUẤT VS THỐNG KÊ XÁC SUẤT THỐNG KÊ
Triết lý trong ứng dụng của xác suất ■
Ứng dụng thống kê XÁC SUẤT VS THỐNG KÊ
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Rất có thể hoàn cảnh kinh tế khó khăn hiện tại ở Mỹ và Anh sẽ ảnh hưởng đến số lượng các sinh viên đến
du học. Kết quả là lượng sách kỳ vọng bán cho sinh viên sẽ giảm và/hoặc thay đổi bất thường. Giả định bạn
thực hiện 1 vài nghiên cứu thị trường (ví dụ hỏi các đồng nghiệp của mình) về quan điểm của họ để thấy
được ảnh hưởng đó đến hoạt động của công ty bạn. Gợi ý rằng công ty có thể kỳ vọng khoản lợi nhuận
£1.5 triệu nếu số sinh viên đến học (đối với những người mới tham gia trong năm tới) giảm lượng nhỏ,
khoản lợi nhuận £0.5 triệu nếu số sinh viên giảm lượng vừa phải và mất £2 triệu nếu số sinh viên giảm lượng lớn.
■ Bạn ước tính rằng khả năng có thể xảy ra của các sự kiện này là P(nhỏ)=0.4, P(vừa phải)=0.3, P(lớn )=0.3. XÁC SUẤT VS THỐNG KÊ
■ Phân tích quyết định trong điều kiện không chắc chắn, ví dụ:
■ Do đó trong khi cây bộ giải pháp trên cho biết lợi nhuận có thể, quan tâm với xác suất thị trường ‘phỏng
đoán tốt nhất’ là quan tâm đối với công ty. Để có khả năng bù đắp này công ty của bạn đang xem xét việc
phân bổ lại năng lực sản xuất bằng việc cho thuê nó cho 1 tổ chức khác.
■ Nếu họ làm điều này, tổn thất tiềm năng của lợi nhuận sẽ không đáng kể như dự kiến ở trên (do thu nhập
cho thuê bổ sung), nhưng nó sẽ hạn chế năng lực sản xuất của công ty, nếu số sinh viên kỳ vọng giảm không xảy ra.
■ Trong kịch bản này, bạn có lợi nhuận dự kiến £1 triệu nếu số sinh viên giảm 1 lượng nhỏ, lợi nhuận £0.75
triệu nếu số sinh viên giảm lượng vừa phải và mất £0.5 nếu số sinh viên giảm nhiều.

Bài giảng Xác suất thống kê | Trường Đại học Kiến trúc Đà Nẵng

Tài liệu liên quan:

Ngân hàng bài tập thống kê trong ôn tập | Trường Đại học Kiến trúc Đà Nẵng

Phụ lục Xác suất thống kê | Đại học Kiến trúc Đà Nẵng

Giáo trình môn Xác Suất Thống Kê | Trường Đại học Kiến trúc Đà Nẵng

Tổng hợp Tóm tắt Công thức môn Xác Suất Thống Kê | Trường Đại học Kiến trúc Đà Nẵng