Báo cáo bài tập lớn môn Đại số tuyến tính đề tài "Nêu cơ sở lý thuyết của phân tích thành phần chính (PCA) và ứng dụng trong giảm chiều dữ liệu"

Báo cáo bài tập lớn môn Đại số tuyến tính đề tài "Nêu cơ sở lý thuyết của phân tích thành phần chính và ứng dụng trong giảm chiều dữ liệu" của Đại học Bách khoa Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!

lOMoARcPSD|36991220
Mc lc:
Li m u .................................................................................................. 4
Phn I.TNG QUAN PCA.............................................................................5
Chương 1: M u :.................................................................................... .5
1.Sơ lược v PCA (Principle component analyst):.............................5
2. Yêu cu ..........................................................................................5
3. Điu kin.........................................................................................5
4. Nhim v ........................................................................................5
Chương 2 Cơ sởthuyết ca PCA trong gim chiu d liu........................6
1.Khái niệm cơ bản:.............................................................................6
2. Áp dng lí thuyết phân tích tài:...............................................6
3. Thuật toán PCA……….....................................................................7
4.Gii thiu v PCA và mt s ng dng ca PCA..............................10
Phn II.NG DNG........................................................................................12
Chương 3: Chương 3: Các bước thc hin và gii thut PCA (Principal Component
Analysis) trong gim chiu d liu..................................................................12
1.Hình thành.........................................................................................12
2.Gii thut...........................................................................................12
Chương 4: Ứng dng và Gii thut mt s bài……………………………........14
1.Vì sao phi gim chiu d liu: ...........................................................14
2 Các ví d v gim chiu d liu: .........................................................14
Chương 5: Kết lun..........................................................................................18
Tài liu tham kho............................................................................................19
Mt s thut ng liên quan...............................................................................19
Nhn xét ging viên..........................................................................................19
Li m u
Đại s tuyến tính là môn hc có tm quan trng i với sinh viên ĐH Bách Khoa
TPHCM nói riêng và sinh viên các ngành khi khoa hc k thut công ngh nói
lOMoARcPSD|36991220
chung. Do ó, vic dành cho môn hc này mt khối lượng thi gian nht nh và thc
hành là iu tt yếu giúp cho sinh viên có ược cơ s vng chc v các môn KHTN
và làm tin hc tốt các môn khác trong chương trình ào tạo.
Trong sut quá trình thc hin bài tp ln nói trên, nhóm chúng em ã nhận ược
rt nhiu s quan tâm và ng h, giúp tn tình ca thy cô, anh ch và bn bè.
Ngoài ra, nhóm cũng xin gửi li tri ân chân thành ến Thầy Đặng Văn Vinh, là giảng
viên và cũng là người hướng dn nhóm em trong tài này. Nh có thy hết lòng
ch bo mà nhóm ã hoàn thành tiu lun úng tiến và gii quyết tt những vướng
mc gp phi. S ng dn ca thy ã là chìa khóa cho mi hành ng ca nhóm
và phát huy tối a ược mi quan h h tr gia thầy và trò trong môi trường giáo
dc.
Sau khi thc hin tài, nhóm em ã có cái nhìn sâu sắc hơn về s gn kết gia
lý thuyết và thc tế. Cũng góp phần cũng cố kiến thc nn tng v chuyên Phân
tích thành phn chính. Bên cạnh ó cũng giúp chúng em phát huy kh năng làm việc
nhóm, x lí thông tin và d liu, nâng cao hiu biết v s dng công ngh thông tin
trong hc tp và công vic sau này.
Li cui, xin mt ln na gi li biết ơn sâu sắc ến các cá nhân, các thy cô ã
dành thi gian ch dẫn cho nhóm. Đây chính là niềm tin, ngun ng lc to ln
nhóm có th ạt ược kết qu này.
Phn I.TNG QUAN PCA
Chương 1: M u
1.Sơ lược v PCA (Principle component analyst):
PCA ược phát trin vào u thế k 20 bi nhà thống kê người Anh Karl Pearson và nhà toán
học người Pháp Henri Hotelling. Pearson ã phát triển PCA như một phương pháp giảm kích
thước ca tp d liu trong khi vn gi li nhng c tính quan trng ca nó. Trong khi ó, Hotelling
ã phát triển PCA như một công c phân tích mối tương quan giữa các biến trong tp d liu.
Tuy nhiên, ý tưởng của PCA ã ược s dng t trước ó trong các lĩnh vực khác như toán học
và vt lý. Ví d, các nhà khoa hc ã s dụng phương pháp này ể giảm kích thước ca các bn
thế gii và các tm hình nh.
lOMoARcPSD| 36991220
T ó, PCA ã ược s dng rng rãi trong nhiều lĩnh vực khác nhau, t khoa hc d liu, thng
kê, máy hc ến các ng dng thc tiễn như xửnh và nhn dng khuôn mt.
Hin nay, PCA vẫn ược s dng ph biến trong các lĩnh vực khác nhau và ã tr thành mt
trong nhng công c quan trng nht trong x lý và phân tích d liu.
2. Yêu cu tài:
1/ Nêu cơ sở lý thuyết ca phân tích thành phn chính (PCA: principle component analysis).
2/ ng dng ca phân tích PCA gim chiu d liu.
3. Điu kin:
Sinh viên cn có kiến thc v b môn Đại s tuyến tính nói chung và hiu biết cơ bản v phép
phân tích thành phn chính trong machine learning nói riêng.
Tìm hiu các ng dng phân tích thành phn chính PCA thc tin. 1.4- Nhim v:
Tìm hiu v cơ sở lý thuyết nn tng ca thuật toán PCA. 8 • Không nhất thiết phi dùng matlab
minh họa, nhưng phải có ít nht 1 ví d thc tế.
Chương 2: Cơ sở lí thuyết & gii thiu
1.Khái niệm cơ bản:
Phương pháp phân tích thành phần chính ( PCA ) là phương pháp biến i t mt không gian
nhiu chiu thành mt không gian mi ít chiu, c th là gim chiu d liu t D v K < D là ch
gi li K là phn t quan trng nht. Tuy nhiên, vic làm này chc chắn chưa phải tt nht vì
chúng ta chưa biết xác nh thành phn nào là quan trng hơn. Hoặc trong trường hp xu nht,
ng thông tin mà mi thành phn mang là như nhau, bỏ i thành phần nào cũng dn ến vic mt
một lượng thông tin ln. Tuy nhiên, nếu chúng ta có th biu din các vector d liu ban u trong
mt h cơ sở mi cái mà có tm quan trng gia các thành phn là khác nhau rõ rt, thì chúng ta
có th b qua nhng thành phn ít quan trng nht. Mc tiêu ca chúng ta là tìm ra K chiu mà có
th m bo rng các d liệu khi ược biu din, không b tr ng lp không b mt mát thông tin (
tách bit nhau hoàn toàn )
2. Áp dng lí thuyết phân tích tài:
PCA là phương pháp biến i giúp gim s ng ln các biến có tương quan với nhau thành
tp ít các biến sao cho các biến mi to ra là t hp tuyến tính ca nhng biến cũ không có
tương quan lẫn nhau. Ví d, chúng ta có 1000 biến ban ầu có tương quan tuyến tính vi nhau, khi
lOMoARcPSD| 36991220
ó chúng ta s dụng phương pháp PCA xoay chiều không gian cũ thành chiều không gian mi mà
ó ch còn 10 biến không có tương quan tuyến tính mà vn d ược nhiu nhất lượng thông tin t
nhóm biến ban ầu. Hay nói cách khác, PCA chính là phương pháp i tìm 1 h cơ sở mi sao cho
thông tin d liu ch yếu tp trung 1 vài ta 1 cách trc quan, phn còn li ch mang mt
ng nh thông tin ( ơn giản trong tính toán, PCA s tìm 1 h trc chuẩn làm cơ sở mi ).
PCA (Principal Component Analysis) là một phương pháp phân tích a biến ược s dng rng rãi
trong x lý d liu và gim chiu d liu. Phương pháp này có những ưu iểm và nhược iểm như
sau:
Ưu iểm:
- Gim chiu d liu: PCA có th gim s chiu ca d liu bng cách chn mt s thành
phn chính có giải thích phương sai cao nhất. Vic gim chiu này giúp cho vic x lý và hin
th d liu tr nên d dàng và nhanh chóng hơn.
- Loi b tương quan giữa các biến: PCA có th loi b s tương quan giữa các biến và to
ra các biến không tương quan mới (thành phn chính), giúp cho vic phân tích và mô hình hóa d
liu tr nên d dàng hơn.
- Gim nhiu: PCA có th gim nhiu trong d liu bng cách loi b các thành phn chính
có giá tr riêng thp.
- Tính toán ơn giản: PCA ược tính toán d dàng và nhanh chóng bằng các phương pháp tính
toán ma trn hiệp phương sai và vector riêng.
Nhược im:
- Đôi khi khó hiểu: PCA có th khó hiu với người mi hc vì nó liên quan ến các khái nim i
s tuyến tính như ma trận và vector riêng.
- Cn chn s thành phn chính: Vic la chn s ng thành phn chính là mt vn quan
trng trong PCA. Vic chn s ng này có th ảnh hưởng ến kết qu cui cùng và cn phải ược
thc hin cn thn.
- Không phù hp vi d liu phi tuyến: PCA ch phù hp vi d liu tuyến tính. Nếu d liu là
phi tuyến, PCA có th không cho kết qu tt.
3. Thut toán PCA
=> Ý tưởng:
Gi s ta có tp d liu gm các im d liu thuc 𝑅
2
, và ây là tp d liệu sau khi ược chun
hóa.
lOMoARcPSD|36991220
Hình 2: D liệu sau khi ược chun hóa. Trc tung và trc hoành là trc th hin thuc tính ca d liu.
Mt cách trc quan, khi nhìn vào tp d liu, ta thy ược thông tin v mi quan h gia hai
thuộc tính ược th hiện qua phương sai ca tp d liu (hay hiu phương sai ca hai thuc tính).
Nói cách khác, nếu mt im d liu có thuc tính 1 ln thì thuộc tính 2 cũng s lớn, ngược li
(hiệu phương sai ơng). lẽ ó, nên khi ta mang nhng im d liu trên vào không gian thp
chiều hơn (trong trường hp này ( R) thì ta muốn ý nghĩa về phương sai trên vẫn ược bo toàn.
C th hơn, ta mun tìm những vector ơn vị u sao cho, khi ta chiếu nhng im d liệu lên ường
thng có u là vector ch ớng thì phương sai của nhng im d liu mới ược ti a.
Để hiểu rõ hơn về cách chn vector u, ta s xem qua hai trường hp mà ó một trường hp
vector u ược chn tốt còn trường hp còn li thì không.
Hình 3: Các im d liệu ược chiếu lên ường thng cóu là vector ch ng tt
Ta thy nhng im d liu mi (chấm en) ược chiếu lên ường thng có u là vector ch ng
vn cách nhau khá xa, hay có phương sai lớn. Nhng im d liu mi (chm en) th hin khá tt
nhng im d liu ban u (dấu x). Ngược li vi cách chn trên, ta có cách chn vector u không
ược tt.
lOMoARcPSD|36991220
Hình 4: Các im d liệu ược chiếu lên ường thng có u là vector ch ng không tt.
Trong trường hp này, nhng im d liu mi (chm en) rt gần nhau, hay có phương sai nhỏ,
ây không phi là cách th hin tt cho nhng im d liu ban u (du x).
Tóm lại, ý tưởng ca PCA là tìm ra nhng vector u sao cho, khi ta chiếu nhng im d liu ban
ầu lên các ường thng có u là vector ch ng thì nhng im d liu mi s có phướng sai ln.
Sau khi tìm ược k vector u lần lượt 𝑢
1
, 𝑢
2
, …. 𝑢
𝑘
thì ta s chiếu im d liệu lên k ường thng
𝑢
1
, 𝑢
2
, …. 𝑢
𝑘
lần lượt là vector ch ng, s có ược im d liu trong ta mi thuc 𝑅
𝑘
(vic làm này s ược c th hơn trong phần trình bày bng toán hc).
𝑋 (𝑖) 𝑅 (𝑑) 𝑋 (𝑖)′ 𝑅 (𝑘)
Qua ó ta rút ra ược nhng nhn xét:
+ Phương sai của tp d liu mi s úng bng trung bình cng của bình phương khoảng cách
ca nhng im d liu mi ến gc ta bi vì tp d liệu ã ược chun hóa cho giá tr trung bình
là 0.
+ Nhng vector là 𝑢
1
, 𝑢
2
, …. 𝑢
𝑘
c lp tuyến tính vi nhau vì mc ích ca PCA là néncác
im d liu vào mt chiu không gian nh hơn nên nếu có mt vector là t hp tuyến tính ca
nhng vector u còn li thì ta ược th hin bằng vector xem như bị “thừa”.
+ K < D . D hiu vì ta ang mun gim chiu ca d liu.
Để thc hin PCA, ta cn thc hiện các bước sau:
- Chun b d liu: chun b ma trn d liu, vi mỗi hàng tương ứng vi mt quan sát, và
mi cột tương ứng vi mt biến.
lOMoARcPSD| 36991220
- Trung bình hóa d liu: tính toán giá tr trung bình ca mi biến và tr giá tr trung bình này
t mi giá tr trong cột tương ứng.
- Tính ma trn hiệp phương sai (covariance matrix): tính toán ma trn hiệp phương sai của
d liệu ã ược trung bình hóa. Ma trn hiệp phương sai có kích thưc bng s biến, vi mi phn
t ti v trí (i,j) tương ứng vi hiệp phương sai giữa biến i và j.
- Tính các giá tr riêng và vector riêng: tính toán các giá tr riêng và vector riêng ca ma trn
hiệp phương sai. Các vector riêng sẽ là các thành phn chính ca d liu.
- La chn s ng thành phn chính: chn s ng thành phn chính da trên t l
phương sai giải thích ca tng thành phần chính. Thông thường, ta chn s ng thành phn
chính sao cho tổng phương sai giải thích ca các thành phần chính ược chn t ti mt mc
nào ó (ví d như 90% hoặc 95%).
- Biến i d liu: biến i d liu ban u sang không gian mới ược to ra t các thành phn
chính bng cách nhân ma trn d liu vi ma trn các thành phần chính ược chn.
4.Gii thiu v PCA và mt s ng dng ca PCA
PCA có nhiu ng dng, ch gii thiu mt vài ng dng.
Đầu tiên, PCA d ng nén d liu qua vic th hin im d liu 𝑥
(𝑖)
bng im d liu 𝑦
(𝑖)
trong không gian mi thp chiều hơn. Nếu ta gim chiu d liu v k=2 hoc k=3, ta có th v các
im d liu mi 𝑦
(𝑖)
trong không gian 𝑅
(2)
hoc 𝑅
(3)
.T ó, qua hình v ta có th ưa ra nhận xét
v cu trúc ca d liệu, như nhng im d liệu tương ồng thường gn nhau thành cm.
Tiếp ến, PCA d ng tin x lý d liu. Ta có th gim chiu cho các im d liu 𝑥
(𝑖)
trước khi
cho vào thut toán hc có giám sát. Ngoài tác dng gim thi gian tính toán, vic gim chiu d
liu còn gim phc tp ca các hàm gi thiết tránh việc overfitting thường xy ra trong các thut
toán hc có giám sát.
PCA còn ược xem như thuật toán gim nhiu cho d liu.
Ngoài ra còn ng dng trong Hi quy tuyến tính, Nhn dng khuôn mt,.......
Sau ây là mt s ví d trc quan giúp ta d tiếp cận hơn với phương pháp này:
lOMoARcPSD|36991220
T mt khi lập phương 3
chiều, sau khi ược gim ch
còn 1 chiều trông như một
hình vuông.
Hình 1. Khi lập phương sau khi ược gim chiu d liu.
Hình 2. ng dng PCA trong gim chiu d liu
Qua hình nh trên ta có th thy d liu t a chiu vi vector PC2, PC1 trong không gian 4
chiều ã ược chuyn thành dng th 2 chiu, t ó trong vic c giúp ta d phân tích d liệu hơn
tuy nhiên cũng làm giảm bớt lượng thông tin t th gc.
Vic i chiu d liu giúp ta
góc nhìn khác thông tin hình
nh em li
lOMoARcPSD|36991220
Hình.. i chiu d liu
Phn II.ng Dng
Chương 3: Các bước thc hin và gii thut PCA (Principal Component
Analysis) trong gim chiu d liu.
1.Hình thành:
Dimensionality Reduction (gim chiu d liu), là mt trong nhng k thut quan trng trong
Machine Learning. Các feature vectors trong các bài toán thc tế có th có s chiu rt ln, ti vài
nghìn. Ngoài ra, s ng các im d liệu cũng tng rt ln. Nếu thc hiện lưu trữ và tính toán
trc tiếp trên d liu có s chiu cao này thì s gặp khó khăn cả v việc lưu trữ và tc tính toán.
Vì vy, gim s chiu d liu là một bước quan trng trong nhiều bài toán. Đây cũng ược coi là
một phương pháp nén d liu. Dimensionality Reduction, nói một cách ơn giản, là vic i tìm mt
hàm s, hàm s này ly u vào là mt im d liu ban u 𝑥 𝑅 𝐷 vi D rt ln, và to ra 1 im d
liu mi 𝑧 𝑅 𝐾 có s chiều K < D. Phương pháp ơn giản nht trong các thut toán
Dimensionality Reduction da trên mt mô hình tuyến tính, có tên là Principal
Component Analysis (PCA), tc Phân tích thành phần chính. Phương pháp này dựa trên quan sát
rng d liệu thường không phân b ngẫu nhiên trong không gian thưng phân b gn các
ường/mt c bit nào ó.
Mu cht ta s phân tích d liu sau ó tìm ra các thành phn chính ca d liu gi li các
thành phn ó. d d liu ca chính ta có N features thì sau khi áp dng PCA s còn K features
chính mà thôi (K<N).
Việc làm như trên sẽ giúp cho chúng ta:
lOMoARcPSD|36991220
Gim chiu d liu mà vn gi ược ặc trưng chính, chỉ mất i “chút ít” ặc trưng.
Tiết kim thi gian, chi phí tính toán
D dàng visualize d liệu hơn ể giúp ta có cái nhìn trực quan hơn.
2 Giải thuật giảm chiều dữ liệu:
Để làm ược vic này, thut toán PCA cn thc hiện qua các bước:
Chun b d liu cn gim chiu là X với kích thước (n_sample, n_feature), tương ứng
mi hàng là 1 mu d liu có n_feature thuc tính
Tr mi im d liu cho vector k vng: 𝑋
𝑘
= 𝑋
𝑘
- 𝑋
𝑚𝑒𝑎𝑛
vi k = 1....n_sample và 𝑋
𝑚𝑒𝑎𝑛
là vector trung bình ca tt c các im d liu
1
𝑇
𝑋
Tính ma trn hiệu phương sai : S = 𝑋
𝑛− 𝑠𝑎𝑚𝑝𝑙𝑒
Tìm tr riêng, vector riêng ca ma trn S
Ly k tr riêng có giá tr ln nht, to ma trn U vi các hàng là các vector riêng ng vi k tr
riêng ã chn
Ánh x không gian ban u sang không gian k chiu: 𝑋
𝑛𝑒𝑤
= X * U.
Note: Nếu không hiu phép nhân Step 6 bn có th ly tng mu d liu nhân vi tng
vector riêng, khi ó mi mu d liu ban u s ược nhân vi k vector nên s có k chiu.
i ây là mt ví d v cách thc hin PCA trong matlab:
lOMoARcPSD|36991220
Chương 4: ng dng ca PCA gim chiu d liu thc tế.
1.Vì sao phi gim chiu d liu:
Như mọi người ã biết, trong các bài toán hc máy thì d liệu có kích thước rt ln. Máy tính
có th hiu và thc thi các thut toán trên d liu này, tuy nhiên i với con người "nhìn" d liu
nhiu chiu tht s là rt khó. Vì vy bài toán gim chiu d liu ra ời giúp ưa ra cái nhìn mới cho
con người v d liu nhiu chiu. Ngoài trc quan d liệu, các phương pháp giảm chiu d liu
còn giúp ưa dữ liu v mt không gian mi giúp khai phá các thuc tính n mà trong chiu d liu
ban u không th hin rõ, hoặc ơn giản là giảm kích thước d liu tăng tốc thc thi cho máy
tính.
2 Các ví d v gim chiu d liu:
lOMoARcPSD|36991220
Ta s tìm hiu v khái nim gim chiu d liu qua ví d. Ta có tp d liu { 𝑥
(1)
, 𝑥
(2)
, . .
𝑥
(𝑛)
} mi im d liu 𝑥
(𝑖)
𝑅
(𝑑)
th hin cho mt khách hàng. Mt khách hàng i có nhng thuc
tính: tui, ngh nghip, thu nhp, tng giá tr sn phẩm ã mua,… tương ứng vi 𝑥
1
𝑖
, 𝑥
2
𝑖
,
𝑥
3
𝑖
, … . 𝑥
𝑑
𝑖
. Trong các thuc tính trên có nhng thuc tính có th ph thuc ln nhau. Ta có th
dùng suy lun nhn xét rng, một người có thu nhp cao s chi ra nhiu tiên mua sn phm
ca công ty, nói cách khác mi quan h ca thuộc tính “thu nhập” và “tổng giá tr sn phm ã
mua” có thể biu din bng hàm y=ax+b. Do ó, ta ch cn một vector d−1 chiu biu din
𝑥(2) ∈𝑅(𝑑) .
Nhng thut toán gim chiu d liu s giúp thc hin vic suy lun mi quan h ca các
thuc tính mt cách t ng tối ưu nhất t ó th gim chiu d liu cho tp d liu ban u.
Tiếp theo ta có ví d gim chiu d liu khác:
Trong ví d này, chúng ta to ra mt ma trn ngu nhiên 100x5 (100 mu và 5 biến), sau ó
thc hin PCA gim chiu d liu t 5 xung 2 chiu bng cách s dng hai thành phn chính
u tiên. Cui cùng, chúng ta v biu các mu d liu mi trên mt trc ta 2D.
th sau khi ược gim chiu:
lOMoARcPSD|36991220
Tương tự như ví dụ trên: chúng ta to ra mt ma trn ngu nhiên 100x5 (100 mu và 5 biến), sau
ó thc hin PCA trên d liu. Tùy chọn 'Centered',false ược s dng không to ra mt ma trn
d liệu trung bình và 'VariableWeights','variance' ược s dng xác nh trng s ca các biến
dựa trên phương sai của chúng.
Sau ó, chúng ta in ra các thành phn chính và giải thích phương sai tương ứng. Cui cùng, chúng ta
v biu các ặc trưng của mu d liu trên các thành phn chính bng cách s dng hàm biplot.
lOMoARcPSD|36991220
Ngoài ra nó còn ng dng vi hình hc không gian:
Hình Gim chiu d liu trong th
d gim chiu ma trn :
Ta có ma trn 109 sau:
0.5557 0.1662 0.4024 0.8711 0.2992 0.1249 0.2405 0.2122 0.7027
0.1844 0.6225 0.9828 0.3508 0.4526 0.0244 0.7639 0.0985 0.1536
0.2120 0.9879 0.4022 0.6855 0.4226 0.2902 0.7593 0.8236 0.9535
0.0773 0.1704 0.6207 0.2941 0.3596 0.3175 0.7406 0.1750 0.5409
0.9138 0.2578 0.1544 0.5306 0.5583 0.6537 0.7437 0.1636 0.6797
0.7067 0.3968 0.3813 0.8324 0.7425 0.9569 0.1059 0.6660 0.0366
0.5578 0.0740 0.1611 0.5975 0.4243 0.9357 0.6816 0.8944 0.8092
0.3134 0.6841 0.7581 0.3353 0.4294 0.4579 0.4633 0.5166 0.7486
lOMoARcPSD|36991220
Sau khi x lí gim xung 3 chiu ta ược:
0.0102 -0.2317 0.2995
-0.8658 -0.3372 -0.1780
-0.1856 0.7779 -0.2182
-0.4413 -0.1373 0.2830
0.3793 -0.1531 0.4154
0.6830 -0.4475 -0.5933
0.6853 0.3136 0.1817
-0.2652 0.2152 -0.1902
Hình 5.3: Kết quả sau khi giảm chiều
Chương 5: Kết lun.
1. Kết lun chung v PCA:
lOMoARcPSD|36991220
PCA (Principal Component Analysis) là một phương pháp ược s dng gim chiu d
liu trong các bài toán phân tích a biến. Phương pháp này hoạt ng bng cách tìm các
thành phn chính ca d liệu, ó là các hướng trong không gian d liệu có phương sai lớn
nht. Sau ó, d liệu ược biu din trong không gian mới ược to ra t các thành phn
chính, vi s chiu d liu gim xung.
PCA ược ng dng rng rãi trong nhiều lĩnh vực, bao gm xnh, nhn dng ging nói,
và phân tích d liu trong khoa hc d liu. PCA có th giúp giảm kích thước ca d liu,
ci thin hiu sut và gim phc tp tính toán trong các bài toán ln.
Tuy nhiên, khi s dng PCA, cần lưu ý rằng vic gim chiu d liu có th dn ến mt mát thông
tin và hiu qu của phương pháp còn ph thuc vào s la chn s ng thành phn chính. Nếu
s ng thành phần chính ược chn quá thp, thì s có mt mát thông tin, và nếu s ng
thành phần chính ược chn quá cao, thì s có nhiu và không giảm ược kích thước d liu.
Tóm li, PCA là một phương pháp hữu ích gim chiu d liu, tuy nhiên cn phải ược s dng
úng cách và vi s la chn s ng thành phn chính phù hp m bo tính hiu qu và chính
xác của phương pháp.
2. Nhng kiến thc nhn li.
Qua tài này nhóm chúng em nhận ược nhng th áng quí: -
Nhng kiến thc v PCA (principle component analysis)
- ng dng vào gim chiu d liu nói riêng và các ng dng khác nói chung -
Kh năng làm việc nhóm hiu qu.
Nh tài v ng dng phân tích thành phn chính PCA gim chiu d liu, nhóm ca
chúng em ã có cái nhìn sâu sắc hơn về s liên kết gia lý thuyết và thc tế trong b môn Đại s
tuyến tính. Trong quá trình thc hin tài, chúng em ã học ược nhiu kiến thc b ích và sâu sc
v phương pháp giảm chiu d liu và phân tích thành phn chính.
Ban ầu, khi ược giao làm bài tp ln cùng nhau, chúng em gp nhiều khó khăn. Tuy nhiên,
chúng em ã học ược cách phân chia nhim v cho nhau, ng thi xây dng tinh thn và trách
nhim trong i nhóm. Chúng em c gng và n lc hoàn thành trách nhim ca mình. Mt ln
na, chúng tôi mun bày t lòng biết ơn ến các giáo viên ã cung cấp cho chúng tôi cơ hội làm
vic và phát trin c ng nhau, giúp nhau tiến b trong hành trình hc tp.
HT
Tài liu tham kho:
[1] B môn Toán ng dng Khoa Khoa hc ng dụng: Giáo trình Đại s tuyến
tính (Tài liệu lưu hành nội bộ), trường ĐH Bách Khoa – ĐH Quốc gia TPHCM, 2020.
lOMoARcPSD|36991220
[2]:https://machinelearningcoban.com/2017/06/15/pca/#241-d-liu-mt-chiu
[3]:https://en.wikipedia.org/wiki/Principal_component_analysis#PCA_and_informatio
n_t heory
[4] Builtin : LINK.
[5]: https://tuanvanle.wordpress.com/2013/12/25/phuong-phap-phan-tich-thanhphan-
chinh-principal-component-analysis-pca/
[6]: Ưu iểm của phương pháp PCA Nhược im ca PCA - Tài liu text (123docz.net)
[7]: [Solved] PCA (Principle Component Analysis) is a dimensionality reduction
technique that projects - Studocu
[8]: https://machinelearningcoban.com/2017/06/15/pca/ Mt
s thut ng liên quan:
PCA (Principal component analyst): Phân tích thành phn chính.
Dimensionality reduction: Gim chiu d liu.
Matrix : ma trn.
Data: d liu
Random: S ngu nhiên Features:
tính năng.
Nhn xét ca ging viên:
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
| 1/17

Preview text:

lOMoARcPSD| 36991220 Mục lục:
Lời mở ầu .................................................................................................. 4
Phần I.TỔNG QUAN PCA.............................................................................5
Chương 1: Mở ầu :.................................................................................... .5
1.Sơ lược về PCA (Principle component analyst):.............................5
2. Yêu cầu ..........................................................................................5
3. Điều kiện.........................................................................................5
4. Nhiệm vụ ........................................................................................5
Chương 2 Cơ sở lí thuyết của PCA trong giảm chiều dữ liệu........................6
1.Khái niệm cơ bản:.............................................................................6
2. Áp dụng lí thuyết ể phân tích ề tài:...............................................6
3. Thuật toán PCA……….....................................................................7
4.Giới thiệu về PCA và một số ứng dụng của PCA..............................10
Phần II.ỨNG DỤNG........................................................................................12
Chương 3: Chương 3: Các bước thực hiện và giải thuật PCA (Principal Component
Analysis) trong giảm chiều dữ liệu..................................................................12
1.Hình thành.........................................................................................12
2.Giải thuật...........................................................................................12
Chương 4: Ứng dụng và Giải thuật một số bài……………………………........14
1.Vì sao phải giảm chiều dữ liệu: ...........................................................14
2 Các ví dụ về giảm chiều dữ liệu: .........................................................14
Chương 5: Kết luận..........................................................................................18
Tài liệu tham khảo............................................................................................19
Một số thuật ngữ liên quan...............................................................................19
Nhận xét giảng viên..........................................................................................19
Lời mở ầu
Đại số tuyến tính là môn học có tầm quan trọng ối với sinh viên ĐH Bách Khoa
TPHCM nói riêng và sinh viên các ngành khối khoa học kỹ thuật – công nghệ nói lOMoARcPSD| 36991220
chung. Do ó, việc dành cho môn học này một khối lượng thời gian nhất ịnh và thực
hành là iều tất yếu ể giúp cho sinh viên có ược cơ sở vững chắc về các môn KHTN
và làm tiền ề ể học tốt các môn khác trong chương trình ào tạo.
Trong suốt quá trình thực hiện bài tập lớn nói trên, nhóm chúng em ã nhận ược
rất nhiều sự quan tâm và ủng hộ, giúp ỡ tận tình của thầy cô, anh chị và bạn bè.
Ngoài ra, nhóm cũng xin gửi lời tri ân chân thành ến Thầy Đặng Văn Vinh, là giảng
viên và cũng là người hướng dẫn nhóm em trong ề tài này. Nhờ có thầy hết lòng
chỉ bảo mà nhóm ã hoàn thành tiểu luận úng tiến ộ và giải quyết tốt những vướng
mắc gặp phải. Sự hướng dẫn của thầy ã là chìa khóa cho mọi hành ộng của nhóm
và phát huy tối a ược mối quan hệ hỗ trợ giữa thầy và trò trong môi trường giáo dục.
Sau khi thực hiện ề tài, nhóm em ã có cái nhìn sâu sắc hơn về sự gắn kết giữa
lý thuyết và thực tế. Cũng góp phần cũng cố kiến thức nền tảng về chuyên ề Phân
tích thành phần chính. Bên cạnh ó cũng giúp chúng em phát huy khả năng làm việc
nhóm, xử lí thông tin và dữ liệu, nâng cao hiểu biết về sử dụng công nghệ thông tin
trong học tập và công việc sau này.
Lời cuối, xin một lần nữa gửi lời biết ơn sâu sắc ến các cá nhân, các thầy cô ã
dành thời gian chỉ dẫn cho nhóm. Đây chính là niềm tin, nguồn ộng lực to lớn ể
nhóm có thể ạt ược kết quả này.
Phần I.TỔNG QUAN PCA Chương 1: Mở ầu
1.Sơ lược về PCA (Principle component analyst):
PCA ược phát triển vào ầu thế kỷ 20 bởi nhà thống kê người Anh Karl Pearson và nhà toán
học người Pháp Henri Hotelling. Pearson ã phát triển PCA như một phương pháp giảm kích
thước của tập dữ liệu trong khi vẫn giữ lại những ặc tính quan trọng của nó. Trong khi ó, Hotelling
ã phát triển PCA như một công cụ ể phân tích mối tương quan giữa các biến trong tập dữ liệu.
Tuy nhiên, ý tưởng của PCA ã ược sử dụng từ trước ó trong các lĩnh vực khác như toán học
và vật lý. Ví dụ, các nhà khoa học ã sử dụng phương pháp này ể giảm kích thước của các bản ồ
thế giới và các tấm hình ảnh. lOMoAR cPSD| 36991220
Từ ó, PCA ã ược sử dụng rộng rãi trong nhiều lĩnh vực khác nhau, từ khoa học dữ liệu, thống
kê, máy học ến các ứng dụng thực tiễn như xử lý ảnh và nhận dạng khuôn mặt.
Hiện nay, PCA vẫn ược sử dụng phổ biến trong các lĩnh vực khác nhau và ã trở thành một
trong những công cụ quan trọng nhất trong xử lý và phân tích dữ liệu. 2. Yêu cầu ề tài:
1/ Nêu cơ sở lý thuyết của phân tích thành phần chính (PCA: principle component analysis).
2/ Ứng dụng của phân tích PCA ể giảm chiều dữ liệu. 3. Điều kiện:
• Sinh viên cần có kiến thức về bộ môn Đại số tuyến tính nói chung và hiểu biết cơ bản về phép
phân tích thành phần chính trong machine learning nói riêng.
• Tìm hiểu các ứng dụng phân tích thành phần chính PCA thực tiễn. 1.4- Nhiệm vụ:
• Tìm hiểu về cơ sở lý thuyết nền tảng của thuật toán PCA. 8 • Không nhất thiết phải dùng matlab
ể minh họa, nhưng phải có ít nhất 1 ví dụ thực tế.
Chương 2: Cơ sở lí thuyết & giới thiệu 1.Khái niệm cơ bản:
Phương pháp phân tích thành phần chính ( PCA ) là phương pháp biến ổi từ một không gian
nhiều chiều thành một không gian mới ít chiều, cụ thể là giảm chiều dữ liệu từ D về K < D là chỉ
giữ lại K là phần tử quan trọng nhất. Tuy nhiên, việc làm này chắc chắn chưa phải tốt nhất vì
chúng ta chưa biết xác ịnh thành phần nào là quan trọng hơn. Hoặc trong trường hợp xấu nhất,
lượng thông tin mà mỗi thành phần mang là như nhau, bỏ i thành phần nào cũng dẫn ến việc mất
một lượng thông tin lớn. Tuy nhiên, nếu chúng ta có thể biểu diễn các vector dữ liệu ban ầu trong
một hệ cơ sở mới cái mà có tầm quan trọng giữa các thành phần là khác nhau rõ rệt, thì chúng ta
có thể bỏ qua những thành phần ít quan trọng nhất. Mục tiêu của chúng ta là tìm ra K chiều mà có
thể ảm bảo rằng các dữ liệu khi ược biểu diễn, không bị tr 甃 ng lắp không bị mất mát thông tin (
tách biệt nhau hoàn toàn )
2. Áp dụng lí thuyết ể phân tích ề tài:
PCA là phương pháp biến ổi giúp giảm số lượng lớn các biến có tương quan với nhau thành
tập ít các biến sao cho các biến mới tạo ra là tổ hợp tuyến tính của những biến cũ không có
tương quan lẫn nhau. Ví dụ, chúng ta có 1000 biến ban ầu có tương quan tuyến tính với nhau, khi lOMoAR cPSD| 36991220
ó chúng ta sử dụng phương pháp PCA xoay chiều không gian cũ thành chiều không gian mới mà
ở ó chỉ còn 10 biến không có tương quan tuyến tính mà vẫn dữ ược nhiều nhất lượng thông tin từ
nhóm biến ban ầu. Hay nói cách khác, PCA chính là phương pháp i tìm 1 hệ cơ sở mới sao cho
thông tin dữ liệu chủ yếu tập trung ở 1 vài tọa ộ 1 cách trực quan, phần còn lại chỉ mang một
lượng nhỏ thông tin ( ể ơn giản trong tính toán, PCA sẽ tìm 1 hệ trực chuẩn làm cơ sở mới ).
PCA (Principal Component Analysis) là một phương pháp phân tích a biến ược sử dụng rộng rãi
trong xử lý dữ liệu và giảm chiều dữ liệu. Phương pháp này có những ưu iểm và nhược iểm như sau: Ưu iểm: -
Giảm chiều dữ liệu: PCA có thể giảm số chiều của dữ liệu bằng cách chọn một số thành
phần chính có ộ giải thích phương sai cao nhất. Việc giảm chiều này giúp cho việc xử lý và hiển
thị dữ liệu trở nên dễ dàng và nhanh chóng hơn. -
Loại bỏ tương quan giữa các biến: PCA có thể loại bỏ sự tương quan giữa các biến và tạo
ra các biến không tương quan mới (thành phần chính), giúp cho việc phân tích và mô hình hóa dữ
liệu trở nên dễ dàng hơn. -
Giảm nhiễu: PCA có thể giảm nhiễu trong dữ liệu bằng cách loại bỏ các thành phần chính có giá trị riêng thấp. -
Tính toán ơn giản: PCA ược tính toán dễ dàng và nhanh chóng bằng các phương pháp tính
toán ma trận hiệp phương sai và vector riêng. Nhược iểm: -
Đôi khi khó hiểu: PCA có thể khó hiểu với người mới học vì nó liên quan ến các khái niệm ại
số tuyến tính như ma trận và vector riêng. -
Cần chọn số thành phần chính: Việc lựa chọn số lượng thành phần chính là một vấn ề quan
trọng trong PCA. Việc chọn số lượng này có thể ảnh hưởng ến kết quả cuối cùng và cần phải ược thực hiện cẩn thận. -
Không phù hợp với dữ liệu phi tuyến: PCA chỉ phù hợp với dữ liệu tuyến tính. Nếu dữ liệu là
phi tuyến, PCA có thể không cho kết quả tốt. 3. Thuật toán PCA => Ý tưởng:
Giả sử ta có tập dữ liệu gồm các iểm dữ liệu thuộc 𝑅2, và ây là tập dữ liệu sau khi ược chuẩn hóa. lOMoARcPSD| 36991220
Hình 2: Dữ liệu sau khi ược chuẩn hóa. Trục tung và trục hoành là trục thể hiện thuộc tính của dữ liệu.
Một cách trực quan, khi nhìn vào tập dữ liệu, ta thấy ược thông tin về mối quan hệ giữa hai
thuộc tính ược thể hiện qua phương sai của tập dữ liệu (hay hiệu phương sai của hai thuộc tính).
Nói cách khác, nếu một iểm dữ liệu có thuộc tính 1 lớn thì thuộc tính 2 cũng sẽ lớn, và ngược lại
(hiệu phương sai dương). Vì lẽ ó, nên khi ta mang những iểm dữ liệu trên vào không gian thấp
chiều hơn (trong trường hợp này là ( R) thì ta muốn ý nghĩa về phương sai trên vẫn ược bảo toàn.
Cụ thể hơn, ta muốn tìm những vector ơn vị u sao cho, khi ta chiếu những iểm dữ liệu lên ường
thẳng có u là vector chỉ hướng thì phương sai của những iểm dữ liệu mới ược tối a.
Để hiểu rõ hơn về cách chọn vector u, ta sẽ xem qua hai trường hợp mà ở ó một trường hợp
vector u ược chọn tốt còn trường hợp còn lại thì không.
Hình 3: Các iểm dữ liệu ược chiếu lên ường thẳng cóu là vector chỉ hướng tốt
Ta thấy những iểm dữ liệu mới (chấm en) ược chiếu lên ường thẳng có u là vector chỉ hướng
vẫn cách nhau khá xa, hay có phương sai lớn. Những iểm dữ liệu mới (chấm en) thể hiện khá tốt
những iểm dữ liệu ban ầu (dấu x). Ngược lại với cách chọn trên, ta có cách chọn vector u không ược tốt. lOMoARcPSD| 36991220
Hình 4: Các iểm dữ liệu ược chiếu lên ường thẳng có u là vector chỉ hướng không tốt.
Trong trường hợp này, những iểm dữ liệu mới (chấm en) rất gần nhau, hay có phương sai nhỏ,
ây không phải là cách thể hiện tốt cho những iểm dữ liệu ban ầu (dấu x).
Tóm lại, ý tưởng của PCA là tìm ra những vector u sao cho, khi ta chiếu những iểm dữ liệu ban
ầu lên các ường thẳng có u là vector chỉ hướng thì những iểm dữ liệu mới sẽ có phướng sai lớn.
Sau khi tìm ược k vector u lần lượt là 𝑢1, 𝑢2, …. 𝑢𝑘 thì ta sẽ chiếu iểm dữ liệu lên k ường thẳng
có 𝑢1, 𝑢2, …. 𝑢𝑘 lần lượt là vector chỉ hướng, sẽ có ược iểm dữ liệu trong tọa ộ mới thuộc 𝑅𝑘
(việc làm này sẽ ược cụ thể hơn trong phần trình bày bằng toán học).
𝑋 (𝑖) 𝑅 (𝑑) → 𝑋 (𝑖)′ 𝑅 (𝑘)
Qua ó ta rút ra ược những nhận xét:
+ Phương sai của tập dữ liệu mới sẽ úng bằng trung bình cộng của bình phương khoảng cách
của những iểm dữ liệu mới ến gốc tọa ộ bởi vì tập dữ liệu ã ược chuẩn hóa cho giá trị trung bình là 0.
+ Những vector là 𝑢1, 𝑢2, …. 𝑢𝑘 ộc lập tuyến tính với nhau vì mục ích của PCA là “nén” các
iểm dữ liệu vào một chiều không gian nhỏ hơn nên nếu có một vector là tổ hợp tuyến tính của
những vector u còn lại thì tọa ộ ược thể hiện bằng vector xem như bị “thừa”.
+ K < D . Dễ hiểu vì ta ang muốn giảm chiều của dữ liệu.
Để thực hiện PCA, ta cần thực hiện các bước sau: -
Chuẩn bị dữ liệu: chuẩn bị ma trận dữ liệu, với mỗi hàng tương ứng với một quan sát, và
mỗi cột tương ứng với một biến. lOMoAR cPSD| 36991220 -
Trung bình hóa dữ liệu: tính toán giá trị trung bình của mỗi biến và trừ giá trị trung bình này
từ mỗi giá trị trong cột tương ứng. -
Tính ma trận hiệp phương sai (covariance matrix): tính toán ma trận hiệp phương sai của
dữ liệu ã ược trung bình hóa. Ma trận hiệp phương sai có kích thước bằng số biến, với mỗi phần
tử tại vị trí (i,j) tương ứng với hiệp phương sai giữa biến i và j. -
Tính các giá trị riêng và vector riêng: tính toán các giá trị riêng và vector riêng của ma trận
hiệp phương sai. Các vector riêng sẽ là các thành phần chính của dữ liệu. -
Lựa chọn số lượng thành phần chính: chọn số lượng thành phần chính dựa trên tỷ lệ
phương sai giải thích của từng thành phần chính. Thông thường, ta chọn số lượng thành phần
chính sao cho tổng phương sai giải thích của các thành phần chính ược chọn ạt tới một mức ộ
nào ó (ví dụ như 90% hoặc 95%). -
Biến ổi dữ liệu: biến ổi dữ liệu ban ầu sang không gian mới ược tạo ra từ các thành phần
chính bằng cách nhân ma trận dữ liệu với ma trận các thành phần chính ược chọn.
4.Giới thiệu về PCA và một số ứng dụng của PCA
PCA có nhiều ứng dụng, ở chỉ giới thiệu một vài ứng dụng.
Đầu tiên, PCA d 甃 ng ể nén dữ liệu qua việc thể hiện iểm dữ liệu 𝑥(𝑖)bằng iểm dữ liệu 𝑦(𝑖)
trong không gian mới thấp chiều hơn. Nếu ta giảm chiều dữ liệu về k=2 hoặc k=3, ta có thể vẽ các
iểm dữ liệu mới 𝑦(𝑖) trong không gian 𝑅(2) hoặc 𝑅(3).Từ ó, qua hình vẽ ta có thể ưa ra nhận xét
về cấu trúc của dữ liệu, như những iểm dữ liệu tương ồng thường ở gần nhau thành cụm.
Tiếp ến, PCA d 甃 ng ể tiền xử lý dữ liệu. Ta có thể giảm chiều cho các iểm dữ liệu 𝑥(𝑖) trước khi
cho vào thuật toán học có giám sát. Ngoài tác dụng ể giảm thời gian tính toán, việc giảm chiều dữ
liệu còn giảm ộ phức tạp của các hàm giả thiết tránh việc overfitting thường xảy ra trong các thuật toán học có giám sát.
PCA còn ược xem như thuật toán giảm nhiễu cho dữ liệu.
Ngoài ra còn ứng dụng trong Hồi quy tuyến tính, Nhận dạng khuôn mặt,.......
Sau ây là một số ví dụ trực quan giúp ta dễ tiếp cận hơn với phương pháp này: lOMoARcPSD| 36991220
Từ một khối lập phương 3
chiều, sau khi ược giảm chỉ
còn 1 chiều trông như một hình vuông.
Hình 1. Khối lập phương sau khi ược giảm chiều dữ liệu.
Hình 2. Ứng dụng PCA trong giảm chiều dữ liệu
Qua hình ảnh trên ta có thể thấy dữ liệu từ a chiều với vector PC2, PC1 trong không gian 4
chiều ã ược chuyển thành dạng ồ thị 2 chiều, từ ó trong việc ọc giúp ta dễ phân tích dữ liệu hơn
tuy nhiên cũng làm giảm bớt lượng thông tin từ ồ thị gốc.
Việc ổi chiều dữ liệu giúp ta có
góc nhìn khác và thông tin hình ảnh em lại lOMoARcPSD| 36991220
Hình.. ổi chiều dữ liệu Phần II.Ứng Dụng
Chương 3: Các bước thực hiện và giải thuật PCA (Principal Component
Analysis) trong giảm chiều dữ liệu. 1.Hình thành:
Dimensionality Reduction (giảm chiều dữ liệu), là một trong những kỹ thuật quan trọng trong
Machine Learning. Các feature vectors trong các bài toán thực tế có thể có số chiều rất lớn, tới vài
nghìn. Ngoài ra, số lượng các iểm dữ liệu cũng thường rất lớn. Nếu thực hiện lưu trữ và tính toán
trực tiếp trên dữ liệu có số chiều cao này thì sẽ gặp khó khăn cả về việc lưu trữ và tốc ộ tính toán.
Vì vậy, giảm số chiều dữ liệu là một bước quan trọng trong nhiều bài toán. Đây cũng ược coi là
một phương pháp nén dữ liệu. Dimensionality Reduction, nói một cách ơn giản, là việc i tìm một
hàm số, hàm số này lấy ầu vào là một iểm dữ liệu ban ầu 𝑥 ∈ 𝑅 𝐷 với D rất lớn, và tạo ra 1 iểm dữ
liệu mới 𝑧 ∈ 𝑅 𝐾 có số chiều K < D. Phương pháp ơn giản nhất trong các thuật toán
Dimensionality Reduction dựa trên một mô hình tuyến tính, có tên là Principal
Component Analysis (PCA), tức Phân tích thành phần chính. Phương pháp này dựa trên quan sát
rằng dữ liệu thường không phân bố ngẫu nhiên trong không gian mà thường phân bố gần các
ường/mặt ặc biệt nào ó.
Mấu chốt là ta sẽ phân tích dữ liệu và sau ó tìm ra các thành phần chính của dữ liệu ể giữ lại các
thành phần ó. Ví dụ dữ liệu của chính ta có N features thì sau khi áp dụng PCA sẽ còn K features
chính mà thôi (KViệc làm như trên sẽ giúp cho chúng ta: lOMoARcPSD| 36991220 •
Giảm chiều dữ liệu mà vẫn giữ ược ặc trưng chính, chỉ mất i “chút ít” ặc trưng. •
Tiết kiệm thời gian, chi phí tính toán •
Dễ dàng visualize dữ liệu hơn ể giúp ta có cái nhìn trực quan hơn.
2 Giải thuật giảm chiều dữ liệu:
Để làm ược việc này, thuật toán PCA cần thực hiện qua các bước: •
Chuẩn bị dữ liệu cần giảm chiều là X với kích thước (n_sample, n_feature), tương ứng
mỗi hàng là 1 mẫu dữ liệu có n_feature thuộc tính •
Trừ mỗi iểm dữ liệu cho vector kỳ vọng: 𝑋𝑘 = 𝑋𝑘 - 𝑋𝑚𝑒𝑎𝑛
với k = 1....n_sample và 𝑋𝑚𝑒𝑎𝑛 là vector trung bình của tất cả các iểm dữ liệu 1 𝑇 ∗ 𝑋 •
Tính ma trận hiệu phương sai : S = ∗ 𝑋
𝑛− 𝑠𝑎𝑚𝑝𝑙𝑒 •
Tìm trị riêng, vector riêng của ma trận S •
Lấy k trị riêng có giá trị lớn nhất, tạo ma trận U với các hàng là các vector riêng ứng với k trị riêng ã chọn •
Ánh xạ không gian ban ầu sang không gian k chiều: 𝑋𝑛𝑒𝑤= X * U. •
Note: Nếu không hiểu phép nhân ở Step 6 bạn có thể lấy từng mẫu dữ liệu nhân với từng
vector riêng, khi ó mỗi mẫu dữ liệu ban ầu sẽ ược nhân với k vector nên sẽ có k chiều.
Dưới ây là một ví dụ về cách thực hiện PCA trong matlab: lOMoARcPSD| 36991220
Chương 4: Ứng dụng của PCA giảm chiều dữ liệu thực tế.
1.Vì sao phải giảm chiều dữ liệu:
 Như mọi người ã biết, trong các bài toán học máy thì dữ liệu có kích thước rất lớn. Máy tính
có thể hiểu và thực thi các thuật toán trên dữ liệu này, tuy nhiên ối với con người ể "nhìn" dữ liệu
nhiều chiều thật sự là rất khó. Vì vậy bài toán giảm chiều dữ liệu ra ời giúp ưa ra cái nhìn mới cho
con người về dữ liệu nhiều chiều. Ngoài ể trực quan dữ liệu, các phương pháp giảm chiều dữ liệu
còn giúp ưa dữ liệu về một không gian mới giúp khai phá các thuộc tính ẩn mà trong chiều dữ liệu
ban ầu không thể hiện rõ, hoặc ơn giản là giảm kích thước dữ liệu ể tăng tốc ộ thực thi cho máy tính.
2 Các ví dụ về giảm chiều dữ liệu: lOMoARcPSD| 36991220
Ta sẽ tìm hiểu về khái niệm giảm chiều dữ liệu qua ví dụ. Ta có tập dữ liệu { 𝑥(1) , 𝑥(2), . .
𝑥(𝑛)} mỗi iểm dữ liệu 𝑥(𝑖)∈ 𝑅(𝑑) thể hiện cho một khách hàng. Một khách hàng i có những thuộc
tính: tuổi, nghề nghiệp, thu nhập, tổng giá trị sản phẩm ã mua,… tương ứng với 𝑥1𝑖 , 𝑥2𝑖 ,
𝑥3𝑖 , … . 𝑥𝑑𝑖 . Trong các thuộc tính trên có những thuộc tính có thể phụ thuộc lẫn nhau. Ta có thể
dùng suy luận ể nhận xét rằng, một người có thu nhập cao sẽ chi ra nhiều tiên ể mua sản phẩm
của công ty, nói cách khác mối quan hệ của thuộc tính “thu nhập” và “tổng giá trị sản phẩm ã
mua” có thể biểu diễn bằng hàm y=ax+b. Do ó, ta chỉ cần một vector d−1 chiều ể biểu diễn 𝑥(2) ∈𝑅(𝑑) .
Những thuật toán giảm chiều dữ liệu sẽ giúp thực hiện việc suy luận mối quan hệ của các
thuộc tính một cách tự ộng và tối ưu nhất từ ó có thể giảm chiều dữ liệu cho tập dữ liệu ban ầu.
Tiếp theo ta có ví dụ giảm chiều dữ liệu khác:
Trong ví dụ này, chúng ta tạo ra một ma trận ngẫu nhiên 100x5 (100 mẫu và 5 biến), sau ó
thực hiện PCA ể giảm chiều dữ liệu từ 5 xuống 2 chiều bằng cách sử dụng hai thành phần chính
ầu tiên. Cuối cùng, chúng ta vẽ biểu ồ các mẫu dữ liệu mới trên một trục tọa ộ 2D.
Và ồ thị sau khi ược giảm chiều: lOMoARcPSD| 36991220
Tương tự như ví dụ trên: chúng ta tạo ra một ma trận ngẫu nhiên 100x5 (100 mẫu và 5 biến), sau
ó thực hiện PCA trên dữ liệu. Tùy chọn 'Centered',false ược sử dụng ể không tạo ra một ma trận
dữ liệu trung bình và 'VariableWeights','variance' ược sử dụng ể xác ịnh trọng số của các biến
dựa trên phương sai của chúng.
Sau ó, chúng ta in ra các thành phần chính và ộ giải thích phương sai tương ứng. Cuối cùng, chúng ta
vẽ biểu ồ các ặc trưng của mẫu dữ liệu trên các thành phần chính bằng cách sử dụng hàm biplot. lOMoARcPSD| 36991220
Ngoài ra nó còn ứng dụng với hình học không gian:
Hình Giảm chiều dữ liệu trong ồ thị Ví
dụ giảm chiều ma trận : Ta có ma trận 109 sau:
0.5557 0.1662 0.4024 0.8711 0.2992 0.1249 0.2405 0.2122 0.7027
0.1844 0.6225 0.9828 0.3508 0.4526 0.0244 0.7639 0.0985 0.1536
0.2120 0.9879 0.4022 0.6855 0.4226 0.2902 0.7593 0.8236 0.9535
0.0773 0.1704 0.6207 0.2941 0.3596 0.3175 0.7406 0.1750 0.5409
0.9138 0.2578 0.1544 0.5306 0.5583 0.6537 0.7437 0.1636 0.6797
0.7067 0.3968 0.3813 0.8324 0.7425 0.9569 0.1059 0.6660 0.0366
0.5578 0.0740 0.1611 0.5975 0.4243 0.9357 0.6816 0.8944 0.8092
0.3134 0.6841 0.7581 0.3353 0.4294 0.4579 0.4633 0.5166 0.7486 lOMoARcPSD| 36991220
Sau khi xử lí giảm xuống 3 chiều ta ược: 0.0102 -0.2317 0.2995 -0.8658 -0.3372 -0.1780 -0.1856 0.7779 -0.2182 -0.4413 -0.1373 0.2830 0.3793 -0.1531 0.4154 0.6830 -0.4475 -0.5933 0.6853 0.3136 0.1817 -0.2652 0.2152 -0.1902
Hình 5.3: Kết quả sau khi giảm chiều
Chương 5: Kết luận.
1. Kết luận chung về PCA: lOMoARcPSD| 36991220 •
PCA (Principal Component Analysis) là một phương pháp ược sử dụng ể giảm chiều dữ
liệu trong các bài toán phân tích a biến. Phương pháp này hoạt ộng bằng cách tìm các
thành phần chính của dữ liệu, ó là các hướng trong không gian dữ liệu có phương sai lớn
nhất. Sau ó, dữ liệu ược biểu diễn trong không gian mới ược tạo ra từ các thành phần
chính, với số chiều dữ liệu giảm xuống. •
PCA ược ứng dụng rộng rãi trong nhiều lĩnh vực, bao gồm xử lý ảnh, nhận dạng giọng nói,
và phân tích dữ liệu trong khoa học dữ liệu. PCA có thể giúp giảm kích thước của dữ liệu,
cải thiện hiệu suất và giảm ộ phức tạp tính toán trong các bài toán lớn.
Tuy nhiên, khi sử dụng PCA, cần lưu ý rằng việc giảm chiều dữ liệu có thể dẫn ến mất mát thông
tin và hiệu quả của phương pháp còn phụ thuộc vào sự lựa chọn số lượng thành phần chính. Nếu
số lượng thành phần chính ược chọn quá thấp, thì sẽ có mất mát thông tin, và nếu số lượng
thành phần chính ược chọn quá cao, thì sẽ có nhiễu và không giảm ược kích thước dữ liệu.
Tóm lại, PCA là một phương pháp hữu ích ể giảm chiều dữ liệu, tuy nhiên cần phải ược sử dụng
úng cách và với sự lựa chọn số lượng thành phần chính phù hợp ể ảm bảo tính hiệu quả và chính xác của phương pháp.
2. Những kiến thức nhận lại.
Qua ề tài này nhóm chúng em nhận ược những thứ áng quí: -
Những kiến thức về PCA (principle component analysis)
- Ứng dụng vào giảm chiều dữ liệu nói riêng và các ứng dụng khác nói chung -
Khả năng làm việc nhóm hiệu quả.
Nhờ ề tài về ứng dụng phân tích thành phần chính PCA ể giảm chiều dữ liệu, nhóm của
chúng em ã có cái nhìn sâu sắc hơn về sự liên kết giữa lý thuyết và thực tế trong bộ môn Đại số
tuyến tính. Trong quá trình thực hiện ề tài, chúng em ã học ược nhiều kiến thức bổ ích và sâu sắc
về phương pháp giảm chiều dữ liệu và phân tích thành phần chính.
Ban ầu, khi ược giao làm bài tập lớn cùng nhau, chúng em gặp nhiều khó khăn. Tuy nhiên,
chúng em ã học ược cách phân chia nhiệm vụ cho nhau, ồng thời xây dựng tinh thần và trách
nhiệm trong ội nhóm. Chúng em cố gắng và nỗ lực ể hoàn thành trách nhiệm của mình. Một lần
nữa, chúng tôi muốn bày tỏ lòng biết ơn ến các giáo viên ã cung cấp cho chúng tôi cơ hội ể làm
việc và phát triển c 甃 ng nhau, giúp ỡ nhau ể tiến bộ trong hành trình học tập. HẾT Tài liệu tham khảo:
[1] Bộ môn Toán ứng dụng – Khoa Khoa học Ứng dụng: Giáo trình Đại số tuyến
tính (Tài liệu lưu hành nội bộ), trường ĐH Bách Khoa – ĐH Quốc gia TPHCM, 2020. lOMoARcPSD| 36991220
[2]:https://machinelearningcoban.com/2017/06/15/pca/#241-d-liu-mt-chiu
[3]:https://en.wikipedia.org/wiki/Principal_component_analysis#PCA_and_informatio n_t heory [4] Builtin : LINK.
[5]: https://tuanvanle.wordpress.com/2013/12/25/phuong-phap-phan-tich-thanhphan-
chinh-principal-component-analysis-pca/
[6]: Ưu iểm của phương pháp PCA Nhược iểm của PCA - Tài liệu text (123docz.net)
[7]: [Solved] PCA (Principle Component Analysis) is a dimensionality reduction
technique that projects - Studocu
[8]: https://machinelearningcoban.com/2017/06/15/pca/ Một
số thuật ngữ liên quan:
PCA (Principal component analyst): Phân tích thành phần chính.
Dimensionality reduction: Giảm chiều dữ liệu. Matrix : ma trận. Data: dữ liệu
Random: Số ngẫu nhiên Features: tính năng.
Nhận xét của giảng viên:
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................
......................................................................................................................................