16 trang 9 lượt tải

THỐNG KÊ SUY LUẬN

Thống kê suy luận. Tài liệu tổng hợp được sưu tầm. Mời các bạn tham khảo.

Môn: Toán thống kê (HVCS) 3 tài liệu

Trường: Học viện Chính sách và Phát triển 490 tài liệu

Tác giả:

Trà Phan Hữu Đại- Bình Định

2 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

THỐNG KÊ SUY LUẬN

-Khái niệm:Là việc rút ra kết luận về tống thể dựa trên phân tích

từ mẫu số liệu.

-Trong thống kê suy luận thì có nhiều bước gồm ước lượng,kiểm

định,…

-Kiểm định: Kiểm định phi tham số và Kiểm định tham số

+Tham số:Là đại lượng đặc trưng cho tổng thể như trung bình,

độ lệch chuẩn,phương sai,…Mô tả đặc điểm của dữ liệu.

*Thường khi sử dụng trong thực tế, người ta thường chỉ lấy

tham số mẫu do tham số tổng thể lấy trên N toàn bộ là quá lớn

( Cái để đảm bảo độ chính xác trong việc sử dụng mẫu để phản

ánh tổng thể là Định lý giới hạn trung tâm (CỠ MẪU PHẢI ĐỦ

LỚN), Lấy ngẫu nhiên và mang tính đại diện )

-Đinh lý giói hạn trung tâm: Khi cỡ mẫu đủ lớn thì trung binh

mẫu sẽ bằng hoặc xấp xỉ bằng phân phối chuẩn, kể cả tổng thể

có hình dạng gì chăng nữa.

-Kiểm định giả thuyết tham số:

-Giả thuyết: Một mệnh đề dc coi là giả thuyết khí nó chưa biết

đúng sai. Lien quân tới tham số của quân thể (Phương sai, Độ

lệch chuẩn,..)

-Giả thuyết thống kê: Giả thuyết không(H0) và Giả thuyết đối

(H1) (Thay thế)

+Giả thuyết không: Hiểu đơn giản là ko có sự thay dổi hay các

mối liên hệ giữa các biến và tham số ( Thương là =,<=,>=). Các

nhà nghiên cứu thường tìm cách bác bỏ gt này để cm giả thuyết

thay thế

+Giả thuyết thay thể: Ngược lại với H0, chỉ có ý nghĩa khi có đủ

cơ sở từ dữ liệu để bác bỏ gt Không.

-Mục đích của kiểm định: Bác bỏ gt H0 dựa trên kết quả của

phép kiểm định, nêu ko bác bỏ dc thì là do thiếu cơ sở dữ liệu,

phải tăng mẫu để xét lại.

-Dặc điểm của kiểm định tham số:

*Cách phân biệt dựa vào Bản chất dữ liệu: Dữ liệu phải có phân

phối chuẩn hoặc gần chuẩn, Cỡ mẫu phải lớn và phươn sai các

mẫu đống nhất=>Mạnh hơn,ưu tiên hơn.

-Số lượng mẫu cũng rất quan trọng: Một mẫu (So sánh với một

giá trị ko đổi cho tr) và 2 mẫu (Lấy hai giá trị độc lập rồi đem so

sánh vd: Công ty A năng suất ... Công ty B etc), 3 mẫu thì phải

sử dụng đến phương sai vì khi thực hiện nhiều các loại kiểm

định thì xác suất mắc lỗi loại I (> a=0,05) là cao hơn.

VD :A,B,C nếu so sánh trung bình thì phải thực hiện 3 phép

kiểm (với k=3 và a=0,05):

-Sai lầm trong viêc bác bỏ H0:

-Ko thể cùng tăng hay giảm alpha hay beta ( Quy ước: Cố định

a, tìm MBB sao cho b là nhỏ nhất )

-Các bước kiểm định:

+B1: Xác định bản chất của dữ liệu và Xây dựng giả thuyết

thống kê:

Vai trò của bản chất: Nếu cố gắng tính Trung bình của dữ liệu

Định danh (ví dụ: trung bình của các mã bưu chính), kết quả sẽ

hoàn toàn vô nghĩa. Tương tự, nếu dùng kiểm định t-test (dành

cho dữ liệu định lượng) trên dữ liệu thứ tự, kết quả sẽ kém chính

xác hoặc sai lệch.

-Tham số: Khi bản chất có thể định lượng bằng các con số và

tính dc phương sai và trung bình.

Ví dụ :

-Lập giả thuyết thống kê:

+So sánh 1 mẫu :

+So sánh 2 mẫu:

-Ví dụ khác:

B2: Xác định công thức kiểm định:

-Việc bác bỏ hay ko bác bỏ H0 phụ thuộc vào độ lớn giá trị của

phép kiểm định.

-Phụ thuộc bản chất dữ liệu và mục đích nghiên cứu.

*Có 2 cách để bác bỏ H0 dc sử dụng:

-Sử dụng phân phối thống kê G (Gauss) với dk H0 là đúng và

Nguyên lý xác suất nhỏ

-Sử dụng p-value

*Sử dụng giá trị tới hạn

-Với G là phân phối xác suất nhất định (Z,t,F…)

-ga là giá trị tới hạn chia phân phối lấy mẫu thành hai khu vực:

1. Miền Bác bỏ ( Wa ):Khu vực ở đuôi (tail) của phân phối,

nơi mà xác suất xảy ra các giá trị thống kê kiểm định là

bằng alpha. Nếu thống kê kiểm định của rơi vào miền này,

nó được coi là quá cực đoan để xảy ra một cách ngẫu nhiên

dưới giả định H0 là đúng.

2. Miền Không Bác bỏ (H0): Khu vực ở giữa phân phối, nơi

có xác suất lớn (1 - alpha). Nếu thống kê kiểm định rơi vào

đây, sự khác biệt quan sát được được coi là do biến động

ngẫu nhiên của mẫu.

-Tính Gqs bằng Z,t,.. lớn hơn ga thì Bác bỏ H0 và ngược lại.

*Các công thức kiểm định: Tính giá trị quan sát và sử dụng nó

để bác bỏ hoặc không dựa trên P-value hoặc Critical Value:

+Thống kê Z: Phân phối chuẩn hóa (n>30), So sánh x với u khi

đã biết dc σ

Khi so sánh 1 tham số:

-Trong th ko có phương sai tổng thể, nhờ vào CLT ta có thể thay

σ bằng s (Phương sai mẫu)

-Tính dc giá trị tới hạn của Za rồi giá trị quan sát Zqs , so sánh:

Lớn hơn thì bác bỏ, nhở hơn thì chưa đủ dữ liệu.

-Khi ≠ thì α/2, khi Ha có > hoặc < thì lơn hơn thì thì phải lớn

hơn dương, nhỏ thì nhở hơn âm:

Ví dụ:

-Lập mệnh đề:

+H0:u = 380

+H1:u ≠ 380

-Có n>30, có thể sử dụng x và s làm giá trị tính toán

+Áp dụng ct Z: Ta dc Z quan sát bằng Z=-4,5

+ Với mệnh đệ ≠, chúng ta xét 2 phía là α/2=0,025

+Sử dụng Bảng Z: Các bảng Z (hoặc phần mềm thống kê)

thường cho diện tích từ -∞ đến một giá trị Z nào đó.

- Nếu diện tích đuôi bên phải là 0.025, thì diện tích tích lũy

từ -∞ đến Z phải là 1 - 0.025 = 0.975.

- Khi tra cứu diện tích tích lũy 0.975 trong bảng Z, sẽ tìm

thấy dc giá trị Z tương ứng chính là 1.96.

Do tính đối xứng của Phân phối Chuẩn, giá trị Z ở phía đối diện

là -1.96 (Xét hai phía)

 Z

0,975

=±1,96

-Có dc Z

và Z

0,975

, tiến hành so sánh

Hoặc: (-∞;-1,96) và (1,96;+∞), Nếu nằm trong 1 trong 2 cái:

Xác suất ko phải ngẫu nhiên (Nguyên lý xác suất nhỏ: Quá hiêm

trong TH H0 là đúng) ;Bác bỏ H0 và ngược lại

=> Rơi vào miền bác bỏ, ta bác bỏ H0

*Sử dụng p-value:

P=2*(Z>|4,5|)

Tra bảng Z: P có Xác suất rất nhỏ, so sánh với α=>Bằng chứng

mạnh rằng sẽ bác bỏ dc H0

+Thống kê t: Dưa trên phân phối t của student, các DK: Độ lệch

tổng thể chưa biết, n<30, So sánh 2 tham số, So sánh D (Tb hiệu

số) Vd: Kiểm tra “trước” và “sau”.

Sử dụng công thức t:

-T

: Tính dc xấp xỉ 1,43

- : Tra bảng thi dc xấp xỉ 2,064, ta có thể ghi W

0,05

=(-∞;-

2,064) và (2,064;+∞)

-Sử dụng Pp giá trị tới hạn: 1,43 ko năm trong 1 trong 2

khoảng=> Chưa đủ dữ kiện để bác bỏ H0.

*Sử dụng p-value:

-2*P(T >1,43) =>2*

*Cái này sử dụng Excel để tra: Ra dc 0,083, nhân lên ra 0,166

=>Lớn hơn α nên ko bác bỏ H0

Ví dụ khác:

Một nhóm nghiên cứu muốn kiểm tra xem một loại thực phẩm

chức năng mới có thực sự giúp giảm cân hay không. Họ chọn

ngẫu nhiên n = 5 người và đo cân nặng của họ trước và sau khi

sử dụng thuốc trong 1 tháng.

-Gợi y; Tính TB của D và phương sai, KQ: Bác bỏ H0.

+Thống kê F: Kiểm định ANOVA (Có từ 3 tham số trở lên,

phân phối chuẩn, Sd giá trị định lượng, phương sai giữa các

nhóm phải đồng nhất)

-Nhưng ý quan trọng:

Ví dụ : So sánh năng suất của 3 giống lúa với 4 lần thí nghiệm ở

mỗi giống:

-Tính giá trị trung bình của từng nhóm: X

=19,77 ,X

=22,64,

=19,50, X

=20,64

-CT: (K là số nhóm/cột)

(N là tổng sl các giá

trị trong cột, N=12 và k=3)

-Tính F (8,62) và F

crit

tính bằng: df trong nhóm (N-k) và giữa các nhóm (k-1).

Trong TH này thì 9 và 2, tra bảng F ra 4,26

*p-value:

-Với df1 là (k-1) và df2 (N-k)

-Sử dụng Excel:

=>F

crit

, p-value < 0.05 ( Bác bỏ H0)

*Kiểm định phương sai 2 phía:

VD: Có thêm Chế đố bón phospho và Giống:

-Tổng bình phương theo cột :

-Tổng bình phương theo hàng:

-Tổng bình phương độ lệch giũa các nhóm

-Tổng bình phương toàn bộ

-Còn tbp của tương tác SS

thì sd SS

– đi cho tất cả cái nãy giờ

tính.

-Bậc tự do:

Tính F

crit

Bấm Tải xuống để xem toàn bộ.

Preview text:

THỐNG KÊ SUY LUẬN

-Khái niệm:Là việc rút ra kết luận về tống thể dựa trên phân tích từ mẫu số liệu.

-Trong thống kê suy luận thì có nhiều bước gồm ước lượng,kiểm định,…

-Kiểm định: Kiểm định phi tham số và Kiểm định tham số

+Tham số:Là đại lượng đặc trưng cho tổng thể như trung bình, độ lệch chuẩn,phương sai,…Mô tả đặc điểm của dữ liệu.

*Thường khi sử dụng trong thực tế, người ta thường chỉ lấy tham số mẫu do tham số tổng thể lấy trên N toàn bộ là quá lớn

( Cái để đảm bảo độ chính xác trong việc sử dụng mẫu để phản ánh tổng thể là Định lý giới hạn trung tâm (CỠ MẪU PHẢI ĐỦ LỚN), Lấy ngẫu nhiên và mang tính đại diện )

-Đinh lý giói hạn trung tâm: Khi cỡ mẫu đủ lớn thì trung binh mẫu sẽ bằng hoặc xấp xỉ bằng phân phối chuẩn, kể cả tổng thể có hình dạng gì chăng nữa.

-Kiểm định giả thuyết tham số:

-Giả thuyết: Một mệnh đề dc coi là giả thuyết khí nó chưa biết đúng sai. Lien quân tới tham số của quân thể (Phương sai, Độ lệch chuẩn,..)

-Giả thuyết thống kê: Giả thuyết không(H0) và Giả thuyết đối (H1) (Thay thế)

+Giả thuyết không: Hiểu đơn giản là ko có sự thay dổi hay các mối liên hệ giữa các biến và tham số ( Thương là =,<=,>=). Các nhà nghiên cứu thường tìm cách bác bỏ gt này để cm giả thuyết thay thế

+Giả thuyết thay thể: Ngược lại với H0, chỉ có ý nghĩa khi có đủ cơ sở từ dữ liệu để bác bỏ gt Không.

-Mục đích của kiểm định: Bác bỏ gt H0 dựa trên kết quả của phép kiểm định, nêu ko bác bỏ dc thì là do thiếu cơ sở dữ liệu, phải tăng mẫu để xét lại.

-Dặc điểm của kiểm định tham số:

*Cách phân biệt dựa vào Bản chất dữ liệu: Dữ liệu phải có phân phối chuẩn hoặc gần chuẩn, Cỡ mẫu phải lớn và phươn sai các mẫu đống nhất=>Mạnh hơn,ưu tiên hơn.

-Số lượng mẫu cũng rất quan trọng: Một mẫu (So sánh với một giá trị ko đổi cho tr) và 2 mẫu (Lấy hai giá trị độc lập rồi đem so sánh vd: Công ty A năng suất ... Công ty B etc), 3 mẫu thì phải sử dụng đến phương sai vì khi thực hiện nhiều các loại kiểm định thì xác suất mắc lỗi loại I (> a=0,05) là cao hơn. VD :A,B,C nếu so sánh trung bình thì phải thực hiện 3 phép kiểm (với k=3 và a=0,05):

-Sai lầm trong viêc bác bỏ H0:

-Ko thể cùng tăng hay giảm alpha hay beta ( Quy ước: Cố định a, tìm MBB sao cho b là nhỏ nhất )

-Các bước kiểm định:

+B1: Xác định bản chất của dữ liệu và Xây dựng giả thuyết thống kê:

Vai trò của bản chất: Nếu cố gắng tính Trung bình của dữ liệu Định danh (ví dụ: trung bình của các mã bưu chính), kết quả sẽ hoàn toàn vô nghĩa. Tương tự, nếu dùng kiểm định t-test (dành cho dữ liệu định lượng) trên dữ liệu thứ tự, kết quả sẽ kém chính xác hoặc sai lệch.

-Tham số: Khi bản chất có thể định lượng bằng các con số và tính dc phương sai và trung bình.

Ví dụ :

-Lập giả thuyết thống kê:

+So sánh 1 mẫu :

+So sánh 2 mẫu:

-Ví dụ khác:

B2: Xác định công thức kiểm định:

-Việc bác bỏ hay ko bác bỏ H0 phụ thuộc vào độ lớn giá trị của phép kiểm định.

-Phụ thuộc bản chất dữ liệu và mục đích nghiên cứu.

*Có 2 cách để bác bỏ H0 dc sử dụng:

-Sử dụng phân phối thống kê G (Gauss) với dk H0 là đúng và Nguyên lý xác suất nhỏ

-Sử dụng p-value

*Sử dụng giá trị tới hạn

-Với G là phân phối xác suất nhất định (Z,t,F…)

-ga là giá trị tới hạn chia phân phối lấy mẫu thành hai khu vực:

Miền Bác bỏ ( Wa ):Khu vực ở đuôi (tail) của phân phối, nơi mà xác suất xảy ra các giá trị thống kê kiểm định là bằng alpha. Nếu thống kê kiểm định của rơi vào miền này, nó được coi là quá cực đoan để xảy ra một cách ngẫu nhiên dưới giả định H0 là đúng.
Miền Không Bác bỏ (H0): Khu vực ở giữa phân phối, nơi có xác suất lớn (1 - alpha). Nếu thống kê kiểm định rơi vào đây, sự khác biệt quan sát được được coi là do biến động ngẫu nhiên của mẫu.

-Tính Gqs bằng Z,t,.. lớn hơn ga thì Bác bỏ H0 và ngược lại.

*Các công thức kiểm định: Tính giá trị quan sát và sử dụng nó để bác bỏ hoặc không dựa trên P-value hoặc Critical Value:

+Thống kê Z: Phân phối chuẩn hóa (n>30), So sánh x với u khi đã biết dc σ

Khi so sánh 1 tham số:

-Trong th ko có phương sai tổng thể, nhờ vào CLT ta có thể thay σ bằng s (Phương sai mẫu)

-Tính dc giá trị tới hạn của Za rồi giá trị quan sát Zqs , so sánh: Lớn hơn thì bác bỏ, nhở hơn thì chưa đủ dữ liệu.

-Khi ≠ thì α/2, khi Ha có > hoặc < thì lơn hơn thì thì phải lớn hơn dương, nhỏ thì nhở hơn âm:

Ví dụ:

-Lập mệnh đề:

+H0:u = 380

+H1:u ≠ 380

-Có n>30, có thể sử dụng x và s làm giá trị tính toán

+Áp dụng ct Z: Ta dc Z quan sát bằng Z=-4,5

+ Với mệnh đệ ≠, chúng ta xét 2 phía là α/2=0,025

+Sử dụng Bảng Z: Các bảng Z (hoặc phần mềm thống kê) thường cho diện tích từ -∞ đến một giá trị Z nào đó.

Nếu diện tích đuôi bên phải là 0.025, thì diện tích tích lũy từ -∞ đến Z phải là 1 - 0.025 = 0.975.
Khi tra cứu diện tích tích lũy 0.975 trong bảng Z, sẽ tìm thấy dc giá trị Z tương ứng chính là 1.96.

Do tính đối xứng của Phân phối Chuẩn, giá trị Z ở phía đối diện là -1.96 (Xét hai phía)

Z_0,975=±1,96

-Có dc Z_qs và Z_0,975, tiến hành so sánh

Hoặc: (-∞;-1,96) và (1,96;+∞), Nếu nằm trong 1 trong 2 cái: Xác suất ko phải ngẫu nhiên (Nguyên lý xác suất nhỏ: Quá hiêm trong TH H0 là đúng) ;Bác bỏ H0 và ngược lại

=> Rơi vào miền bác bỏ, ta bác bỏ H0

*Sử dụng p-value:

P=2*(Z>|4,5|)

Tra bảng Z: P có Xác suất rất nhỏ, so sánh với α=>Bằng chứng mạnh rằng sẽ bác bỏ dc H0

+Thống kê t: Dưa trên phân phối t của student, các DK: Độ lệch tổng thể chưa biết, n<30, So sánh 2 tham số, So sánh D (Tb hiệu số) Vd: Kiểm tra “trước” và “sau”.

Sử dụng công thức t:

-T_QS: Tính dc xấp xỉ 1,43

- : Tra bảng thi dc xấp xỉ 2,064, ta có thể ghi W_0,05=(-∞;-2,064) và (2,064;+∞)

-Sử dụng Pp giá trị tới hạn: 1,43 ko năm trong 1 trong 2 khoảng=> Chưa đủ dữ kiện để bác bỏ H0.

*Sử dụng p-value:

-2*P(T >1,43) =>2*

*Cái này sử dụng Excel để tra: Ra dc 0,083, nhân lên ra 0,166

=>Lớn hơn α nên ko bác bỏ H0

Ví dụ khác:

Một nhóm nghiên cứu muốn kiểm tra xem một loại thực phẩm chức năng mới có thực sự giúp giảm cân hay không. Họ chọn ngẫu nhiên n = 5 người và đo cân nặng của họ trước và sau khi sử dụng thuốc trong 1 tháng.