THỐNG KÊ SUY LUẬN
-Khái niệm:Là việc rút ra kết luận về tống thể dựa trên phân tích
từ mẫu số liệu.
-Trong thống kê suy luận thì có nhiều bước gồm ước lượng,kiểm
định,…
-Kiểm định: Kiểm định phi tham số và Kiểm định tham số
+Tham số:Là đại lượng đặc trưng cho tổng thể như trung bình,
độ lệch chuẩn,phương sai,…Mô tả đặc điểm của dữ liệu.
*Thường khi sử dụng trong thực tế, người ta thường chỉ lấy
tham số mẫu do tham số tổng thể lấy trên N toàn bộ là quá lớn
( Cái để đảm bảo độ chính xác trong việc sử dụng mẫu để phản
ánh tổng thể là Định lý giới hạn trung tâm (CỠ MẪU PHẢI ĐỦ
LỚN), Lấy ngẫu nhiên và mang tính đại diện )
-Đinh lý giói hạn trung tâm: Khi cỡ mẫu đủ lớn thì trung binh
mẫu sẽ bằng hoặc xấp xỉ bằng phân phối chuẩn, kể cả tổng thể
có hình dạng gì chăng nữa.
-Kiểm định giả thuyết tham số:
-Giả thuyết: Một mệnh đề dc coi là giả thuyết khí nó chưa biết
đúng sai. Lien quân tới tham số của quân thể (Phương sai, Độ
lệch chuẩn,..)
-Giả thuyết thống kê: Giả thuyết không(H0) và Giả thuyết đối
(H1) (Thay thế)
+Giả thuyết không: Hiểu đơn giản là ko có sự thay dổi hay các
mối liên hệ giữa các biến và tham số ( Thương là =,<=,>=). Các
nhà nghiên cứu thường tìm cách bác bỏ gt này để cm giả thuyết
thay thế
+Giả thuyết thay thể: Ngược lại với H0, chỉ có ý nghĩa khi có đủ
cơ sở từ dữ liệu để bác bỏ gt Không.
-Mục đích của kiểm định: Bác bỏ gt H0 dựa trên kết quả của
phép kiểm định, nêu ko bác bỏ dc thì là do thiếu cơ sở dữ liệu,
phải tăng mẫu để xét lại.
-Dặc điểm của kiểm định tham số:
*Cách phân biệt dựa vào Bản chất dữ liệu: Dữ liệu phải có phân
phối chuẩn hoặc gần chuẩn, Cỡ mẫu phải lớn và phươn sai các
mẫu đống nhất=>Mạnh hơn,ưu tiên hơn.
-Số lượng mẫu cũng rất quan trọng: Một mẫu (So sánh với một
giá trị ko đổi cho tr) và 2 mẫu (Lấy hai giá trị độc lập rồi đem so
sánh vd: Công ty A năng suất ... Công ty B etc), 3 mẫu thì phải
sử dụng đến phương sai vì khi thực hiện nhiều các loại kiểm
định thì xác suất mắc lỗi loại I (> a=0,05) là cao hơn.
VD :A,B,C nếu so sánh trung bình thì phải thực hiện 3 phép
kiểm (với k=3 và a=0,05):
-Sai lầm trong viêc bác bỏ H0:
-Ko thể cùng tăng hay giảm alpha hay beta ( Quy ước: Cố định
a, tìm MBB sao cho b là nhỏ nhất )
-Các bước kiểm định:
+B1: Xác định bản chất của dữ liệu và Xây dựng giả thuyết
thống kê:
Vai trò của bản chất: Nếu cố gắng tính Trung bình của dữ liệu
Định danh (ví dụ: trung bình của các mã bưu chính), kết quả sẽ
hoàn toàn vô nghĩa. Tương tự, nếu dùng kiểm định t-test (dành
cho dữ liệu định lượng) trên dữ liệu thứ tự, kết quả sẽ kém chính
xác hoặc sai lệch.
-Tham số: Khi bản chất có thể định lượng bằng các con số và
tính dc phương sai và trung bình.
Ví dụ :
-Lập giả thuyết thống kê:
+So sánh 1 mẫu :
+So sánh 2 mẫu:
-Ví dụ khác:
B2: Xác định công thức kiểm định:
-Việc bác bỏ hay ko bác bỏ H0 phụ thuộc vào độ lớn giá trị của
phép kiểm định.
-Phụ thuộc bản chất dữ liệu và mục đích nghiên cứu.
*Có 2 cách để bác bỏ H0 dc sử dụng:
-Sử dụng phân phối thống kê G (Gauss) với dk H0 là đúng và
Nguyên lý xác suất nhỏ
-Sử dụng p-value
*Sử dụng giá trị tới hạn
-Với G là phân phối xác suất nhất định (Z,t,F…)
-ga là giá trị tới hạn chia phân phối lấy mẫu thành hai khu vực:
1. Miền Bác bỏ ( Wa ):Khu vực ở đuôi (tail) của phân phối,
nơi mà xác suất xảy ra các giá trị thống kê kiểm định là
bằng alpha. Nếu thống kê kiểm định của rơi vào miền này,
nó được coi là quá cực đoan để xảy ra một cách ngẫu nhiên
dưới giả định H0 là đúng.
2. Miền Không Bác bỏ (H0): Khu vực ở giữa phân phối, nơi
có xác suất lớn (1 - alpha). Nếu thống kê kiểm định rơi vào
đây, sự khác biệt quan sát được được coi là do biến động
ngẫu nhiên của mẫu.
-Tính Gqs bằng Z,t,.. lớn hơn ga thì Bác bỏ H0 và ngược lại.
*Các công thức kiểm định: Tính giá trị quan sát và sử dụng nó
để bác bỏ hoặc không dựa trên P-value hoặc Critical Value:
+Thống kê Z: Phân phối chuẩn hóa (n>30), So sánh x với u khi
đã biết dc σ
Khi so sánh 1 tham số:
-Trong th ko có phương sai tổng thể, nhờ vào CLT ta có thể thay
σ bằng s (Phương sai mẫu)
-Tính dc giá trị tới hạn của Za rồi giá trị quan sát Zqs , so sánh:
Lớn hơn thì bác bỏ, nhở hơn thì chưa đủ dữ liệu.
-Khi ≠ thì α/2, khi Ha có > hoặc < thì lơn hơn thì thì phải lớn
hơn dương, nhỏ thì nhở hơn âm:
Ví dụ:
-Lập mệnh đề:
+H0:u = 380
+H1:u ≠ 380
-Có n>30, có thể sử dụng x và s làm giá trị tính toán
+Áp dụng ct Z: Ta dc Z quan sát bằng Z=-4,5
+ Với mệnh đệ ≠, chúng ta xét 2 phía là α/2=0,025
+Sử dụng Bảng Z: Các bảng Z (hoặc phần mềm thống kê)
thường cho diện tích từ -∞ đến một giá trị Z nào đó.
- Nếu diện tích đuôi bên phải là 0.025, thì diện tích tích lũy
từ -∞ đến Z phải là 1 - 0.025 = 0.975.
- Khi tra cứu diện tích tích lũy 0.975 trong bảng Z, sẽ tìm
thấy dc giá trị Z tương ứng chính là 1.96.
Do tính đối xứng của Phân phối Chuẩn, giá trị Z ở phía đối diện
là -1.96 (Xét hai phía)
Z
0,975
=±1,96
-Có dc Z
qs
và Z
0,975
, tiến hành so sánh
Hoặc: (-∞;-1,96) và (1,96;+∞), Nếu nằm trong 1 trong 2 cái:
Xác suất ko phải ngẫu nhiên (Nguyên lý xác suất nhỏ: Quá hiêm
trong TH H0 là đúng) ;Bác bỏ H0 và ngược lại
=> Rơi vào miền bác bỏ, ta bác bỏ H0
*Sử dụng p-value:
P=2*(Z>|4,5|)
Tra bảng Z: P có Xác suất rất nhỏ, so sánh với α=>Bằng chứng
mạnh rằng sẽ bác bỏ dc H0
+Thống kê t: Dưa trên phân phối t của student, các DK: Độ lệch
tổng thể chưa biết, n<30, So sánh 2 tham số, So sánh D (Tb hiệu
số) Vd: Kiểm tra “trước” và “sau”.
Sử dụng công thức t:
-T
QS
: Tính dc xấp xỉ 1,43
- : Tra bảng thi dc xấp xỉ 2,064, ta có thể ghi W
0,05
=(-∞;-
2,064) và (2,064;+∞)
-Sử dụng Pp giá trị tới hạn: 1,43 ko năm trong 1 trong 2
khoảng=> Chưa đủ dữ kiện để bác bỏ H0.
*Sử dụng p-value:
-2*P(T >1,43) =>2*
*Cái này sử dụng Excel để tra: Ra dc 0,083, nhân lên ra 0,166
=>Lớn hơn α nên ko bác bỏ H0
Ví dụ khác:
Một nhóm nghiên cứu muốn kiểm tra xem một loại thực phẩm
chức năng mới có thực sự giúp giảm cân hay không. Họ chọn
ngẫu nhiên n = 5 người và đo cân nặng của họ trước và sau khi
sử dụng thuốc trong 1 tháng.
-Gợi y; Tính TB của D và phương sai, KQ: Bác bỏ H0.
+Thống kê F: Kiểm định ANOVA (Có từ 3 tham số trở lên,
phân phối chuẩn, Sd giá trị định lượng, phương sai giữa các
nhóm phải đồng nhất)
-Nhưng ý quan trọng:
Ví dụ : So sánh năng suất của 3 giống lúa với 4 lần thí nghiệm ở
mỗi giống:
-Tính giá trị trung bình của từng nhóm: X
1
=19,77 ,X
2
=22,64,
X
3
=19,50, X
T
=20,64
-CT: (K là số nhóm/cột)
(N là tổng sl các giá
trị trong cột, N=12 và k=3)
-Tính F (8,62) và F
crit
*F
crit
tính bằng: df trong nhóm (N-k) và giữa các nhóm (k-1).
Trong TH này thì 9 và 2, tra bảng F ra 4,26
*p-value:
-Với df1 là (k-1) và df2 (N-k)
-Sử dụng Excel:
=>F
qs
>F
crit
, p-value < 0.05 ( Bác bỏ H0)
*Kiểm định phương sai 2 phía:
VD: Có thêm Chế đố bón phospho và Giống:
-Tổng bình phương theo cột :
-Tổng bình phương theo hàng:
-Tổng bình phương độ lệch giũa các nhóm
-Tổng bình phương toàn bộ
-Còn tbp của tương tác SS
i
thì sd SS
r
– đi cho tất cả cái nãy giờ
tính.
-Bậc tự do:
Tính F
crit
:

Preview text:

THỐNG KÊ SUY LUẬN

-Khái niệm:Là việc rút ra kết luận về tống thể dựa trên phân tích từ mẫu số liệu.

-Trong thống kê suy luận thì có nhiều bước gồm ước lượng,kiểm định,…

-Kiểm định: Kiểm định phi tham số và Kiểm định tham số

+Tham số:Là đại lượng đặc trưng cho tổng thể như trung bình, độ lệch chuẩn,phương sai,…Mô tả đặc điểm của dữ liệu.

*Thường khi sử dụng trong thực tế, người ta thường chỉ lấy tham số mẫu do tham số tổng thể lấy trên N toàn bộ là quá lớn

( Cái để đảm bảo độ chính xác trong việc sử dụng mẫu để phản ánh tổng thể là Định lý giới hạn trung tâm (CỠ MẪU PHẢI ĐỦ LỚN), Lấy ngẫu nhiên và mang tính đại diện )

-Đinh lý giói hạn trung tâm: Khi cỡ mẫu đủ lớn thì trung binh mẫu sẽ bằng hoặc xấp xỉ bằng phân phối chuẩn, kể cả tổng thể có hình dạng gì chăng nữa.

-Kiểm định giả thuyết tham số:

-Giả thuyết: Một mệnh đề dc coi là giả thuyết khí nó chưa biết đúng sai. Lien quân tới tham số của quân thể (Phương sai, Độ lệch chuẩn,..)

-Giả thuyết thống kê: Giả thuyết không(H0) và Giả thuyết đối (H1) (Thay thế)

+Giả thuyết không: Hiểu đơn giản là ko có sự thay dổi hay các mối liên hệ giữa các biến và tham số ( Thương là =,<=,>=). Các nhà nghiên cứu thường tìm cách bác bỏ gt này để cm giả thuyết thay thế

+Giả thuyết thay thể: Ngược lại với H0, chỉ có ý nghĩa khi có đủ cơ sở từ dữ liệu để bác bỏ gt Không.

-Mục đích của kiểm định: Bác bỏ gt H0 dựa trên kết quả của phép kiểm định, nêu ko bác bỏ dc thì là do thiếu cơ sở dữ liệu, phải tăng mẫu để xét lại.

-Dặc điểm của kiểm định tham số:

*Cách phân biệt dựa vào Bản chất dữ liệu: Dữ liệu phải có phân phối chuẩn hoặc gần chuẩn, Cỡ mẫu phải lớn và phươn sai các mẫu đống nhất=>Mạnh hơn,ưu tiên hơn.

-Số lượng mẫu cũng rất quan trọng: Một mẫu (So sánh với một giá trị ko đổi cho tr) và 2 mẫu (Lấy hai giá trị độc lập rồi đem so sánh vd: Công ty A năng suất ... Công ty B etc), 3 mẫu thì phải sử dụng đến phương sai vì khi thực hiện nhiều các loại kiểm định thì xác suất mắc lỗi loại I (> a=0,05) là cao hơn. VD :A,B,C nếu so sánh trung bình thì phải thực hiện 3 phép kiểm (với k=3 và a=0,05):

-Sai lầm trong viêc bác bỏ H0:

-Ko thể cùng tăng hay giảm alpha hay beta ( Quy ước: Cố định a, tìm MBB sao cho b là nhỏ nhất )

-Các bước kiểm định:

+B1: Xác định bản chất của dữ liệu và Xây dựng giả thuyết thống kê:

Vai trò của bản chất: Nếu cố gắng tính Trung bình của dữ liệu Định danh (ví dụ: trung bình của các mã bưu chính), kết quả sẽ hoàn toàn vô nghĩa. Tương tự, nếu dùng kiểm định t-test (dành cho dữ liệu định lượng) trên dữ liệu thứ tự, kết quả sẽ kém chính xác hoặc sai lệch.

-Tham số: Khi bản chất có thể định lượng bằng các con số và tính dc phương sai và trung bình.

Ví dụ :

-Lập giả thuyết thống kê:

+So sánh 1 mẫu :

+So sánh 2 mẫu:

-Ví dụ khác:

B2: Xác định công thức kiểm định:

-Việc bác bỏ hay ko bác bỏ H0 phụ thuộc vào độ lớn giá trị của phép kiểm định.

-Phụ thuộc bản chất dữ liệu và mục đích nghiên cứu.

*Có 2 cách để bác bỏ H0 dc sử dụng:

-Sử dụng phân phối thống kê G (Gauss) với dk H0 là đúng và Nguyên lý xác suất nhỏ

-Sử dụng p-value

*Sử dụng giá trị tới hạn

-Với G là phân phối xác suất nhất định (Z,t,F…)

-ga là giá trị tới hạn chia phân phối lấy mẫu thành hai khu vực:

  1. Miền Bác bỏ ( Wa ):Khu vực ở đuôi (tail) của phân phối, nơi mà xác suất xảy ra các giá trị thống kê kiểm định là bằng alpha. Nếu thống kê kiểm định của rơi vào miền này, nó được coi là quá cực đoan để xảy ra một cách ngẫu nhiên dưới giả định H0 là đúng.
  2. Miền Không Bác bỏ (H0): Khu vực ở giữa phân phối, nơi có xác suất lớn (1 - alpha). Nếu thống kê kiểm định rơi vào đây, sự khác biệt quan sát được được coi là do biến động ngẫu nhiên của mẫu.

-Tính Gqs bằng Z,t,.. lớn hơn ga thì Bác bỏ H0 và ngược lại.

*Các công thức kiểm định: Tính giá trị quan sát và sử dụng nó để bác bỏ hoặc không dựa trên P-value hoặc Critical Value:

+Thống kê Z: Phân phối chuẩn hóa (n>30), So sánh x với u khi đã biết dc σ

Khi so sánh 1 tham số:

-Trong th ko có phương sai tổng thể, nhờ vào CLT ta có thể thay σ bằng s (Phương sai mẫu)

-Tính dc giá trị tới hạn của Za rồi giá trị quan sát Zqs , so sánh: Lớn hơn thì bác bỏ, nhở hơn thì chưa đủ dữ liệu.

-Khi ≠ thì α/2, khi Ha có > hoặc < thì lơn hơn thì thì phải lớn hơn dương, nhỏ thì nhở hơn âm:

Ví dụ:

-Lập mệnh đề:

+H0:u = 380

+H1:u ≠ 380

-Có n>30, có thể sử dụng x và s làm giá trị tính toán

+Áp dụng ct Z: Ta dc Z quan sát bằng Z=-4,5

+ Với mệnh đệ ≠, chúng ta xét 2 phía là α/2=0,025

+Sử dụng Bảng Z: Các bảng Z (hoặc phần mềm thống kê) thường cho diện tích từ -∞ đến một giá trị Z nào đó.

  • Nếu diện tích đuôi bên phải là 0.025, thì diện tích tích lũy từ -∞ đến Z phải là 1 - 0.025 = 0.975.
  • Khi tra cứu diện tích tích lũy 0.975 trong bảng Z, sẽ tìm thấy dc giá trị Z tương ứng chính là 1.96.

Do tính đối xứng của Phân phối Chuẩn, giá trị Z ở phía đối diện là -1.96 (Xét hai phía)

  • Z0,975=±1,96

-Có dc Zqs và Z0,975, tiến hành so sánh

Hoặc: (-∞;-1,96) và (1,96;+∞), Nếu nằm trong 1 trong 2 cái: Xác suất ko phải ngẫu nhiên (Nguyên lý xác suất nhỏ: Quá hiêm trong TH H0 là đúng) ;Bác bỏ H0 và ngược lại

=> Rơi vào miền bác bỏ, ta bác bỏ H0

*Sử dụng p-value:

P=2*(Z>|4,5|)

Tra bảng Z: P có Xác suất rất nhỏ, so sánh với α=>Bằng chứng mạnh rằng sẽ bác bỏ dc H0

+Thống kê t: Dưa trên phân phối t của student, các DK: Độ lệch tổng thể chưa biết, n<30, So sánh 2 tham số, So sánh D (Tb hiệu số) Vd: Kiểm tra “trước” và “sau”.

Sử dụng công thức t:

-TQS: Tính dc xấp xỉ 1,43

- : Tra bảng thi dc xấp xỉ 2,064, ta có thể ghi W0,05 =(-∞;-2,064) và (2,064;+∞)

-Sử dụng Pp giá trị tới hạn: 1,43 ko năm trong 1 trong 2 khoảng=> Chưa đủ dữ kiện để bác bỏ H0.

*Sử dụng p-value:

-2*P(T >1,43) =>2*

*Cái này sử dụng Excel để tra: Ra dc 0,083, nhân lên ra 0,166

=>Lớn hơn α nên ko bác bỏ H0

Ví dụ khác:

Một nhóm nghiên cứu muốn kiểm tra xem một loại thực phẩm chức năng mới có thực sự giúp giảm cân hay không. Họ chọn ngẫu nhiên n = 5 người và đo cân nặng của họ trước và sau khi sử dụng thuốc trong 1 tháng.

-Gợi y; Tính TB của D và phương sai, KQ: Bác bỏ H0.

+Thống kê F: Kiểm định ANOVA (Có từ 3 tham số trở lên, phân phối chuẩn, Sd giá trị định lượng, phương sai giữa các nhóm phải đồng nhất)

-Nhưng ý quan trọng:

Ví dụ : So sánh năng suất của 3 giống lúa với 4 lần thí nghiệm ở mỗi giống:

-Tính giá trị trung bình của từng nhóm: X1=19,77 ,X2=22,64, X3=19,50, XT=20,64

-CT: (K là số nhóm/cột)

(N là tổng sl các giá trị trong cột, N=12 và k=3)

-Tính F (8,62) và Fcrit

*Fcrit tính bằng: df trong nhóm (N-k) và giữa các nhóm (k-1).

Trong TH này thì 9 và 2, tra bảng F ra 4,26

*p-value:

-Với df1 là (k-1) và df2 (N-k)

-Sử dụng Excel:

=>Fqs>Fcrit­ , p-value < 0.05 ( Bác bỏ H0)

*Kiểm định phương sai 2 phía:

VD: Có thêm Chế đố bón phospho và Giống:

-Tổng bình phương theo cột :

-Tổng bình phương theo hàng:

-Tổng bình phương độ lệch giũa các nhóm

-Tổng bình phương toàn bộ

-Còn tbp của tương tác SSi thì sd SSr – đi cho tất cả cái nãy giờ tính.

-Bậc tự do:

Tính Fcrit: