Bài 1: Thống kê là gì
1. Thống kê là gì
-Thống kê: KH về thu thập, tchuc, trình bày, pitch, diễn giải dữ liệu phục vụ quá trình ra quyết định
-Thống kê mô tả: pp tchuc, tóm tắt, trình bày dữ liệu
-Tổng thể: toàn bộ các đơn vị thuộc phạm vi đối tượng nghiên cứu
-Mẫu: 1 phần củ tổng thể
-Thống kê suy diễn: là pp được sử dụng để ước lượng các tham số của tổng thể dựa vào thông tin
của mẫu
2. Các loại biến
-Định tính: mô tả = đặc điểm, tchat, thuộc tính
+ Nhãn hiệu máy tình
+ Tình trạng hôn nhân
+ Màu tóc
-Biến định lượng: thể hiện = số
+ Rời rạc (giá trị nguyên): số lượng trẻ em trong gđ, số lỗ trên sân golf
+ Liên tục (bki gtri nào trên trục số): tổng tiền thuế p trả, cân nặng của sinh viên, lượng mưa hàng
năm
-Dữ liệu: giá trị quan sát của biến
3. Các loại thang đo
Thang đo định danh
-Dùng cho biến định tính
-Giữa các đặc đỉnh, tchat của thang đo k có QH hơn kém
-Dữ liệu chỉ đc phân loại theo biểu hiện
-VD: đếm số lượng màu kẹo M&M là tính tỷ trọng
Thang đo thứ bậc
-Các biểu hiện của biến định tính có QH hơn kém
-Dữ liệu đc xếp hạng
-Chênh lệch về khoảng cách giữa các thứ tự là khác nhau, k so sánh đc
-VD: Top 10 bang tốt nhất ở Mỹ
Thang đo khoảng
-Được biểu hiện = con số, có đơn vị đo lường cụ thể
-Chênh lệch giữa các con số có ý nghĩa
-VD: bảng đo size quần áo
-Khoảng cách giữa các cỡ khau nhau là như nhau (2đv)
-Nhưng tỉ lệ giữa các con số k có ý nghĩa (váy cỡ 16 kp to gấp đôi váy cỡ 8)
Thang đo tỉ lệ
-Đc biểu hệ bằng con số, có đơn vị
-Có điểm gốc 0 tuyệt đối
-Tỉ lệ giữa các con số có ý nghĩa
-VD: thu nhập hàng năm của 4 cặp cha con
Bài 2: Mô tả dữ liệ: Trình bày dữ liệu = bảng + đồ
thị
1. y dựng bảng tần số
-Bảng tần số: KQ của việc phân chia dữ liệu định tính thành các tổ khác nhau và đếm sô lượng qsat
trong mỗi tổ
Tần suất: tỷ trọng tần số của từng tổ trong tổng thể
2. Trình bày dữ liệu bằng biểu đồ với biến định tính
Biểu đồ cột:
-Ox: biểu hiện của biến
-Oy: tần số
Biểu đồ tròn: tỉ trọng / % mỗi biểu hiện trong tổng tần số
3. y dụng bản tần số phân phối
-Bảng tần số phân phối: phân chia nhóm dữ liệu định lượng thành các tổ khác nhau và đếm số lượng
quan sát trong mỗi tổ
-Các bước:
+ Xác định số tổ (k): giá trị min của k , sao cho
2k
> số quan sát (n)
+ Xác định khoảng cách tổ (i):
i max min
k
( thường đc làm tròn lên 10 / 100)
+ Chọn giới hạn của các tổ: ví dụ từ 200 đến<600; từ 600 đến < 1000
+ Sắp xếp các đơn vị vào từng tổ + xđ số đơn vị của các tổ (tần số)
-Bảng tần suất phân phối: lấy tần số từng tổ / tổng tần số
4. Trình bày đữ liệu = biểu đồ với biến định lượng
Biểu đồ tần số phân phối (Histogram)
-Ox: giới hạn các t
-Oy: tần số tổ
Đa giác tần số
-Gồm các đoạn thẳng nối tất cả giao điểm của tần số và trị số giữa của tổ
Tần số tích lũy
Bài 3: Mô tả dữ liệu: Các mức độ thống kê mô tả
1. Mức độ trung tâm
Trung bình cộng của tổng thể
μ=x
N
-Tham số: đặc điểm của TT
Trung bình cộng của mẫu
x=x
n
-TK: đặc điểm của mẫu
Đặc điểm của trung bình cộng giản đơn
-Dữ liệu phải đc đo bằng thang đo khoảng / tỉ lệ
μ_Trung bình cộng của tổng thể
N_Số đơn vị trong tổng thể
x Tổng các giá trị trong tổng thể
x _Trung bình cộng của mẫu
n_Số đơn vị trong mẫu
x Tổng các giá trị trong mẫu
f
_Tần số
M_Trị số giữa của từng tổ
-All giá trị trong TT đều tham gia và tính trung bình
-Mỗi bộ dữ liueej chỉ tính đc 1 giá trị trung bình
-Tổng chênh lệch của các giá trị so với trung bình sẽ bằng 0:
(x¿x)=0¿
Trung vị
-Là giá trị của lượng biến đứng ở vị trí chính giữa trong dãy số sau khi dữ liệu đc sắp xếp theo thứ tự
từ min – max
-Dãy lẻ: số ở giữa
-Dãy chẵn: TBC 2 số ở giữa
Mốt
-Là giá trị của quan sát xhien phổ biến nhất trong dãy số (có tần số lớn nhất)
So sánh gtri của trung bình, trung vị, mốt
2. Trung bình cộng gia quyền
-Để tính gtri TBC khi 1 số quan sát trong dãy số có gtri = nhau
-Nhân gtri của qsat với số lần lặp lại của chúng
-Tần số là quyền số (w)
xw=w1x1+w2x2++wnxn
w1+w2++wn
=(w x)
w
3. Trung bình nhân
-Để tính sự thay đổi trung bình của tốc độ phát triển, tỷ lệ phần trăm, các chỉ số / tốc độ tăng giảm
theo TG
GM =n
(x¿¿ 1)
(
x2
)
(xn)¿
Tốc độ tăng giảm trung bình theo TG
G M=n
mức độ cuối kỳ
mức độ đầu kỳ 1
4. Đo độ biến thiên
Khoảng biến thiên = max – min
Phương sai của tổng thể (
σ2
)
σ2=(xμ)2
N
-Phương sai: TBC của tổng bình phương độ lệ so với số trung bình
-Các bước tính phương sai
+ Tính TBC của TT
+ Tính chênh lệch giữa từng giá trị (x) với TBC (μ¿ , sau đó bình phương các chênh lệch
+ Tính tổng bình phương chênh lệch, rồi chia cho tổng đvi trong tổng thể
Độ lệch chuẩn của tổng thể =
σ2
= σ
Phương sai, độ lệch chuẩn của mẫu
s2=(xx)2
n1
5. Trung bình và đội lệch chuẩn với dữ liệu phân tổ
Trung bình cộng của dữ liệu phân tổ
x=fM
n
Độ lệch chuẩn của dữ liệu phân tổ
s=
f(Mx)2
n1
Bài 4: Mô tả dữ liệu: Trình bày và khám phá dữ liệu
1. Đồ thị điểm (Dot plot)
Khái niệm:
-Đồ thị tóm tắt phân phối của 1 biến = cách xếp chồng các dấu chấm nằm trên 1 đg thẳng
-Biểu diễn các qsat có cùng giá trị
-Cho thấy tất cả gtri của biến
2. Các phân vị
Tứ phân vị
-Các gtri chia tập hợp dữ liệu (đã sxep từ min-max) thành 4 phần = nhau
Thập phân vị
Bách phân vị
Vị trí của phân vị thứ p:
Lp=(n+1)P
100
3. Biểu đồ hộp ria mèo
Khái niệm
-Cho thấy hình dáng phân phối dữ liệu của 1 biến
-Biển diễn 5 mức độ TKMT: min, max, tứ phân vị t1, t3 và trung vị
Giá trị đột xuất
-Gtri chênh lệch khá nhiều so với mức độ của các qsat khác
4. Mô tả mối liên hệ giữa 2 biến
-Biểu đồ phân tán: biển diễn MLH giữa 2 biến định lượng
Hệ số tương quan
5. Bảng liên tiếp
-Để phân loại các quan sát theo 2 đặc tính
Bài 12: Tương quan và hồi quy tuyến tính
1. Phân tích tương quan
-Gồm các kĩ thuật đo lường MLH giữa 2 biến
2. Hệ số tương quan
Khái niệm: đo lường mức độ chặt chẽ của MLH tương quan tuyến tính giữa 2 biến
Đặc điểm
-KH: r
-Phán ánh chiều hướng + mức độ chặt chẽ của MLH tuyến tính giữa 2 biến định lượng
-Nhận giá trị từ -1 đến +1
-HSTQ
+ ~0 => k có MLH
+ ~1 => MLH thuận chặt chẽ
+ ~ -1 => MLH nghịch chặt chẽ
3. Phân tích hồi quy
-Phương trình hồi quy: biểu diễn MLHTT giữa 2 biến
Phương pháp bình phương nhỏ nhất
-Xđ vị trí đgth s/c tổng bình phương của các khoảng cách giữa các gtri y thực tế và lý thuyết là min
PTHQTT dạng tổng quát
^y=a+bx
-
^y_gtri ước lương của biến y với 1 gtri x nào đó
-a =
yb x
_hệ số tự do (hệ số chặn), là gtri ước lượng của y x = 0
-b =
rSy
Sx
_hệ số hồi quy (hộ số góc / độ dốc), thể hiện sự tđổi trung bình của biến phụ thuộc y (tăng
giảm) khi biến độ lập x tăng 1 dv
Vẽ đường hồi quy
4. Đánh giá khả năng dự đoán của PTHQ
Sai số chuẩn của ước lượng
-Là thước đo độ phân tán (biến thiên) của các gtri qsat y xquanh đường HQ tại 1 gtri x cụ thể
-CT
Hệ số xác định
-Cho biết sự tđỏi của biến độc lập X gthich đc bnhieu % sự tđổi của biến phụ thuộc Y
Bài 13: Phân tích hồi quy bội
1. Phân tích hồi quy bội
PTHQB tổng quát
^y x=a+b1x1+b2 2++bkxk
Hệ số xđ
-Là % thay đổi của biến PT y được gthich bởi 1 tập hợp các biến ĐL
x1, x2, , xk

Preview text:

Bài 1: Thống kê là gì 1. Thống kê là gì
-Thống kê: KH về thu thập, tchuc, trình bày, pitch, diễn giải dữ liệu phục vụ quá trình ra quyết định
-Thống kê mô tả: pp tchuc, tóm tắt, trình bày dữ liệu
-Tổng thể: toàn bộ các đơn vị thuộc phạm vi đối tượng nghiên cứu
-Mẫu: 1 phần củ tổng thể
-Thống kê suy diễn: là pp được sử dụng để ước lượng các tham số của tổng thể dựa vào thông tin của mẫu 2. Các loại biến
-Định tính: mô tả = đặc điểm, tchat, thuộc tính + Nhãn hiệu máy tình + Tình trạng hôn nhân + Màu tóc
-Biến định lượng: thể hiện = số
+ Rời rạc (giá trị nguyên): số lượng trẻ em trong gđ, số lỗ trên sân golf
+ Liên tục (bki gtri nào trên trục số): tổng tiền thuế p trả, cân nặng của sinh viên, lượng mưa hàng năm
-Dữ liệu: giá trị quan sát của biến 3. Các loại thang đo Thang đo định danh
-Dùng cho biến định tính
-Giữa các đặc đỉnh, tchat của thang đo k có QH hơn kém
-Dữ liệu chỉ đc phân loại theo biểu hiện
-VD: đếm số lượng màu kẹo M&M là tính tỷ trọng Thang đo thứ bậc
-Các biểu hiện của biến định tính có QH hơn kém -Dữ liệu đc xếp hạng
-Chênh lệch về khoảng cách giữa các thứ tự là khác nhau, k so sánh đc
-VD: Top 10 bang tốt nhất ở Mỹ Thang đo khoảng
-Được biểu hiện = con số, có đơn vị đo lường cụ thể
-Chênh lệch giữa các con số có ý nghĩa
-VD: bảng đo size quần áo
-Khoảng cách giữa các cỡ khau nhau là như nhau (2đv)
-Nhưng tỉ lệ giữa các con số k có ý nghĩa (váy cỡ 16 kp to gấp đôi váy cỡ 8) Thang đo tỉ lệ
-Đc biểu hệ bằng con số, có đơn vị
-Có điểm gốc 0 tuyệt đối
-Tỉ lệ giữa các con số có ý nghĩa
-VD: thu nhập hàng năm của 4 cặp cha con
Bài 2: Mô tả dữ liệ: Trình bày dữ liệu = bảng + đồ thị
1. Xây dựng bảng tần số
-Bảng tần số: KQ của việc phân chia dữ liệu định tính thành các tổ khác nhau và đếm sô lượng qsat trong mỗi tổ
Tần suất: tỷ trọng tần số của từng tổ trong tổng thể
2. Trình bày dữ liệu bằng biểu đồ với biến định tính Biểu đồ cột:
-Ox: biểu hiện của biến -Oy: tần số
Biểu đồ tròn: tỉ trọng / % mỗi biểu hiện trong tổng tần số
3. Xây dụng bản tần số phân phối
-Bảng tần số phân phối: phân chia nhóm dữ liệu định lượng thành các tổ khác nhau và đếm số lượng quan sát trong mỗi tổ -Các bước:
+ Xác định số tổ (k): giá trị min của k , sao cho 2k > số quan sát (n) i ≥ max min
+ Xác định khoảng cách tổ (i):
( thường đc làm tròn lên 10 / 100) k
+ Chọn giới hạn của các tổ: ví dụ từ 200 đến<600; từ 600 đến < 1000
+ Sắp xếp các đơn vị vào từng tổ + xđ số đơn vị của các tổ (tần số)
-Bảng tần suất phân phối: lấy tần số từng tổ / tổng tần số
4. Trình bày đữ liệu = biểu đồ với biến định lượng
Biểu đồ tần số phân phối (Histogram) -Ox: giới hạn các tổ -Oy: tần số tổ Đa giác tần số
-Gồm các đoạn thẳng nối tất cả giao điểm của tần số và trị số giữa của tổ Tần số tích lũy
Bài 3: Mô tả dữ liệu: Các mức độ thống kê mô tả 1. Mức độ trung tâm
Trung bình cộng của tổng thể
μ_Trung bình cộng của tổng thể μ=∑x
N_Số đơn vị trong tổng thể N
x Tổng các giá trị trong tổng thể
-Tham số: đặc điểm của TT
Trung bình cộng của mẫu
x _Trung bình cộng của mẫu x=∑x n_Số đơn vị trong mẫu n
x Tổng các giá trị trong mẫu
-TK: đặc điểm của mẫu
Đặc điểm của trung bình cộng giản đơn
-Dữ liệu phải đc đo bằng thang đo khoảng / tỉ lệ
-All giá trị trong TT đều tham gia và tính trung bình
-Mỗi bộ dữ liueej chỉ tính đc 1 giá trị trung bình
-Tổng chênh lệch của các giá trị so với trung bình sẽ bằng 0: ∑(x−¿x)=0¿ Trung vị
-Là giá trị của lượng biến đứng ở vị trí chính giữa trong dãy số sau khi dữ liệu đc sắp xếp theo thứ tự từ min – max -Dãy lẻ: số ở giữa
-Dãy chẵn: TBC 2 số ở giữa Mốt
-Là giá trị của quan sát xhien phổ biến nhất trong dãy số (có tần số lớn nhất)
So sánh gtri của trung bình, trung vị, mốt
2. Trung bình cộng gia quyền
-Để tính gtri TBC khi 1 số quan sát trong dãy số có gtri = nhau
-Nhân gtri của qsat với số lần lặp lại của chúng
-Tần số là quyền số (w)
xw=w1x1+w2x2++wnxn =∑(w x)
w1+w2++wnw 3. Trung bình nhân
-Để tính sự thay đổi trung bình của tốc độ phát triển, tỷ lệ phần trăm, các chỉ số / tốc độ tăng giảm theo TG
GM =n√(x¿¿1) (x2)(xn)¿
Tốc độ tăng giảm trung bình theo TG
G M =nmứcđộ cuốikỳ
mức độ đầu kỳ −1 4. Đo độ biến thiên
Khoảng biến thiên = max – min
Phương sai của tổng thể ( σ2 )
σ2=∑(xμ)2 N
-Phương sai: TBC của tổng bình phương độ lệ so với số trung bình
-Các bước tính phương sai + Tính TBC của TT
+ Tính chênh lệch giữa từng giá trị (x) với TBC (μ¿ , sau đó bình phương các chênh lệch
+ Tính tổng bình phương chênh lệch, rồi chia cho tổng đvi trong tổng thể
Độ lệch chuẩn của tổng thể = √σ2 = σ
Phương sai, độ lệch chuẩn của mẫu
s2=∑(xx)2 n−1
5. Trung bình và đội lệch chuẩn với dữ liệu phân tổ
Trung bình cộng của dữ liệu phân tổ x=∑fM f _Tần số n
M_Trị số giữa của từng tổ
Độ lệch chuẩn của dữ liệu phân tổ
s= √∑f(Mx)2 n−1
Bài 4: Mô tả dữ liệu: Trình bày và khám phá dữ liệu
1. Đồ thị điểm (Dot plot) Khái niệm:
-Đồ thị tóm tắt phân phối của 1 biến = cách xếp chồng các dấu chấm nằm trên 1 đg thẳng
-Biểu diễn các qsat có cùng giá trị
-Cho thấy tất cả gtri của biến 2. Các phân vị Tứ phân vị
-Các gtri chia tập hợp dữ liệu (đã sxep từ min-max) thành 4 phần = nhau Thập phân vị Bách phân vị
Vị trí của phân vị thứ p: Lp=(n+1)P100 3. Biểu đồ hộp ria mèo Khái niệm
-Cho thấy hình dáng phân phối dữ liệu của 1 biến
-Biển diễn 5 mức độ TKMT: min, max, tứ phân vị t1, t3 và trung vị Giá trị đột xuất
-Gtri chênh lệch khá nhiều so với mức độ của các qsat khác
4. Mô tả mối liên hệ giữa 2 biến
-Biểu đồ phân tán: biển diễn MLH giữa 2 biến định lượng Hệ số tương quan 5. Bảng liên tiếp
-Để phân loại các quan sát theo 2 đặc tính
Bài 12: Tương quan và hồi quy tuyến tính 1. Phân tích tương quan
-Gồm các kĩ thuật đo lường MLH giữa 2 biến 2. Hệ số tương quan
Khái niệm: đo lường mức độ chặt chẽ của MLH tương quan tuyến tính giữa 2 biến Đặc điểm -KH: r
-Phán ánh chiều hướng + mức độ chặt chẽ của MLH tuyến tính giữa 2 biến định lượng
-Nhận giá trị từ -1 đến +1 -HSTQ + ~0 => k có MLH
+ ~1 => MLH thuận chặt chẽ
+ ~ -1 => MLH nghịch chặt chẽ 3. Phân tích hồi quy
-Phương trình hồi quy: biểu diễn MLHTT giữa 2 biến
Phương pháp bình phương nhỏ nhất
-Xđ vị trí đgth s/c tổng bình phương của các khoảng cách giữa các gtri y thực tế và lý thuyết là min PTHQTT dạng tổng quát ^y=a+bx -
^y_gtri ước lương của biến y với 1 gtri x nào đó -a =
yb x _hệ số tự do (hệ số chặn), là gtri ước lượng của y  x = 0 rSy -b =
_hệ số hồi quy (hộ số góc / độ dốc), thể hiện sự tđổi trung bình của biến phụ thuộc y (tăng Sx
giảm) khi biến độ lập x tăng 1 dv Vẽ đường hồi quy
4. Đánh giá khả năng dự đoán của PTHQ
Sai số chuẩn của ước lượng
-Là thước đo độ phân tán (biến thiên) của các gtri qsat y xquanh đường HQ tại 1 gtri x cụ thể -CT Hệ số xác định
-Cho biết sự tđỏi của biến độc lập X gthich đc bnhieu % sự tđổi của biến phụ thuộc Y
Bài 13: Phân tích hồi quy bội 1. Phân tích hồi quy bội PTHQB tổng quát
 ^y=a+b1x1+b2x2++bkxk Hệ số xđ
-Là % thay đổi của biến PT y được gthich bởi 1 tập hợp các biến ĐL
x1, x2, … , xk