BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC
Chuyên ngành: CNTT
ĐỀ TÀI
KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC
CBHD: Hoàng Quang Huy
Sinh viên: Nguyễn Thị May
Mã sinh viên: 2018123456
Hà Nội – 2020
Mục Lục
Phần1 GIỚI THIỆU TỔNG QUAN.............................................................................................................6
1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn.................................................................6
1.2 Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục.....................................................6
1.3 Hướng <ếp cận của luận văn........................................................................................................7
Phần2 CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN..............................................................................................8
2.1 Khai phá dữ liệu............................................................................................................................8
2.1.1 Khái niệm khai phá dữ liệu (KPDL )........................................................................................8
2.2 Ứng dụng KPDL trong giáo dục.....................................................................................................8
2.3 Một số kỹ thuật KPDL trong phân lớp, dự báo..............................................................................9
2.4 Cây quyết định..............................................................................................................................9
2.5 Phân lớp Naïve Bayes.................................................................................................................10
2.6 Mạng nơ ron nhân tạo................................................................................................................10
Phần3 XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP..................................................................................11
3.1 Lựa chọn mô hình.......................................................................................................................11
3.2 Sơ đồ hoạt động của hệ thống:...................................................................................................11
3.3 Kết quả đạt được:.......................................................................................................................11
BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
PHIẾU GIAO ĐỀ TÀI TỐT NGHIỆP
Chuyên ngành CNTT
Số: ………
Họ và tên sinh viên: ............................................Lớp: .......................................................
Khóa: ..................................................................Khoa: .....................................................
Giáo viên hướng dẫn:...........................................................................................................
NỘI DUNG
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
THUYẾT MINH
.............................................................................................................................................
.............................................................................................................................................
.............................................................................................................................................
Ngày giao đề tài: .................................................Ngày hoàn thành:....................................
Hà Nội, ngày……tháng …… năm ……
GIÁO VIÊN HƯỚNG DẪN KHOA HIỆU TRƯỞNG
(Ký tên) (Ký tên) (Ký tên)
LỜI NÓI ĐẦU
Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu
từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý
quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng
kỳ.
Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy
trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào
trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ còn rất
mới mẻ. Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn
học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường.
Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học
đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa. Vì vậy em xin chọn đề tài "
KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp chuyên ngành
CNTT.
Đề tài này được trình bày qua 3 phần chính:
Chương I Giới thiệu tổng quan
Chương II Các kiến thức cơ sở liên quan
Chương III Xây dựng hệ thống hỗ trợ học tập
Do thời gian và kiến thức có hạn nên khóa luận này của em còn nhiều thiếu sót, kính
mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn.
Phần1GIỚI THIỆU TỔNG QUAN
1.1Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn
Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viên dựa
trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu cầu đặt
ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đào tạo. Vấn đề nâng cao
chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm.
Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu
chuyển đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạo
theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn
tất việc chuyển đổi này trước năm 2012.
Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu
từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý
quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng
kỳ. Vì vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp
nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm.
Các giảng viên chuyên trách, cố vấn học tập không thể tiếp cận toàn bộ dữ liệu về
điểm của sinh viên.
1.2Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục
Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục. Những khai phá dữ
liệu trong giáo dục đã nổi bật lên như là một lĩnh vực nghiên cứu độc lập trong những
năm gần đây, mà cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá
dữ liệu giáo dục, và những bài báo về khai phá dữ liệu giáo dục. Đó là “Applying Data
Mining Techniques to e-Learning Problems” của Félix Castrol,…
Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề bao gồm
việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy tính,
kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp với các
sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập. Mỗi lĩnh
vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình
hướng đối tượng sinh viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc
trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc
đẩy học tập, quan điểm nguyện vọng của sinh viên…
Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức, doanh
nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tế, thương mại, tài
chính. Nhiều công trình khoa học đã và đang được nghiên cứu để áp dụng vào thực tế.
Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chưa thực sự
hiệu quả, việc áp dụng trong thực tế còn hạn chế.
1.3Hướng tiếp cận của luận văn
Luận văn tập trung nghiên cứu lý thuyết khai phá dữ liểu, sử dụng công cụ khai phá
dữ liệu BIDS của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN.
Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu được
hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quả học tập
của sinh viên.
Nhiệm vụ Thuật toán Microsoft sử dụng
Dự đoán một thuộc tính rời rạc
Microsoft Decision Trees Algorithm
Microsoft Naive Bayes Algorithm
Microsoft Clustering Algorithm
Microsoft Neural Network Algorithm
Dự đoán một thuôc tính liên tục
Microsoft Decision Trees Algorithm Microsoft
Time Series Algorithm
Dự đoán một trình tự Microsoft Sequence Clustering Algorithm
Tìm nhóm của những mục chọn
trong các giao dịch
Microsoft Association Rules Algorithm
Microsoft Decision Trees Algorithm
Tìm những mục giống nhau
Microsoft Clustering Algorithm
Microsoft Sequence Clustering Algorithm
Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chương trình thực nghiệm
để hỗ trợ tư vấn học tập cho sinh viên năm đầu.
Phần2CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN
2.1Khai phá dữ liệu
2.1.1 Khái niệm khai phá dữ liệu (KPDL )
"KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu
trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan
trọng, có giá trị tiềm ẩn bên trong". Do nhu cầu nghiệp vụ cần có cách nhìn thông tin
trên quy mô toàn đơn vị.
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như:
phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ
thống quản lý khách hang hay từ tác công cụ lưu trữ thông tin trên web…
Đây là những khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì lộn
xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng
tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL liệu sẽ giúp trích
xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích. Quá
trình này gồm một số bước được thể hiện trong hình sau.
Ý nghĩa cụ thể của các bước như sau:
- Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
- Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực.
- Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
- KPDL, trích xuất ra các mẫu dữ liệu (mô hình).
- Đánh giá mẫu.
- Sử dụng tri thức khai phá được.
2.2Ứng dụng KPDL trong giáo dục
Tư vấn lựa chọn ngành học
Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt
nghiệp. Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho
đạt được kết quả tốt nhất. Nhằm mục đích này người ta mong muốn nhận được từ dữ
liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh
khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, … Để đạt được những
phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở dữ
liệu.
Tư vấn lựa chọn môn học
Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên. Hãy tư vấn cho
sinh viên lựa chọn các môn học cho học kỳ sau dựa trên kết quả của các học kỳ trước
sao cho kết quả học tập của kỳ sao là cao nhất. Để thực hiện việc này, chúng ta cần sử
dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng
Naive Bayes, Neural Network hay luật kết hợp.
Tư vấn lựa chọn lộ trình học
Cho một kho dữ liệu đào tạo (theo hình thức tín chỉ) bao gồm các môn học (học phần)
tương ứng với các ngành học và các học kỳ (gọi là chương trình đào tạo), cùng với các
thông tin về kết quả học tập của các sinh viên đã tốt nghiệp. Hãy tư vấn cho các sinh
viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngành học mà
sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất.
Đây chính là bài toán mà luận văn hướng đến. Để thực hiện việc này, chúng ta cần sử
dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng
Naive Bayes, Neural Network hay luật kết hợp.
2.3Một số kỹ thuật KPDL trong phân lớp, dự báo
2.4Cây quyết định
Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi nút trong
(internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có
của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của
cây gọi là gốc (root).
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận
về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong (internal node) tương ứng với
một biến, đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi
nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của
các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng
trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định.
Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân
lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đối tượng
(ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác
nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp
phải có kiểu dữ liệu là Binary hoặc Ordinal.
2.5Phân lớp Naïve Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất
của A nếu có B". Đại lượng này được gọi xác suất có điều kiện vì nó được rút ra từ giá
trị được cho của B hoặc phụ thuộc vào giá trị đó.
Phương pháp Naive Bayes phù hợp các bài toán có yêu cầu về chi phí xuất hiện của
các giá trị thuộc tính.
Document Content Data Class
Training d1 hanoi pho chaolong hanoi B
d2 hanoi buncha pho omai B
d3 pho banhgio omai B
d4 saigon hutiu banhbo pho N
Test d5 hanoi hanoi buncha hutiu ?
2.6Mạng nơ ron nhân tạo
Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo
thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra. Chức
năng đầu vào chính là tổng có trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra
tín hiều đầu vào. Chức năng tạo đầu ra được thực hiện bằng hàm truyền đạt.
Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh.
Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạng
Neural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết
quả đầu ra. Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào.
Phần3XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP
3.1Lựa chọn mô hình
Yêu cầu Mô hình Naïve Bayes cho kết quả dự đoán kết quả học tập của sinh viên với
độ chính xác cao nhất nên mô hình này sẽ được lựa chọn để xây dựng hệ thống tư vấn
học tập. Trong khuôn khổ luận văn, để giúp người dùng thấy được sự khác biệt về kết
quả dự đoán giữa các mô hình, hệ thống tư vấn có đưa thêm vào chức năng cho phép
người dùng chọn các mô hình khác nhau (trong 04 mô hình đã xây dựng) để kiểm tra
và so sánh kết quả.
Hệ thống được xây dựng bằng ngôn ngữ Visual C#.NET với hệ quản trị CSDL MS
SQL Server 2008 trên nền Windows Forms (việc xây dựng trên nền Web cũng tương
tự).
3.2Sơ đồ hoạt động của hệ thống:
Để sử dụng hệ thống, người dùng nhập vào các thông tin như: ngành học, điểm thi
tuyển sinh, giới tính và lựa chọn mô hình sử dụng để dự báo (nếu không lựa chọn thì
mặc định hệ thống sẽ sử dụng mô hình Naïve Bayes). Trong phạm vi thử nghiệm,
chương trình vẫn cho hiển thị kết quả dự đoán của cả 03 mô hình không được lựa chọn
là Luật kết hợp, Neural Network và Decision Tree để mang tính chất tham khảo cũng
như đánh giá lại các mô hình trong dự đoán thực tế. Tuy nhiên, như đã phân tích ở
trên, người dùng cần tin tưởng ở mô hình Naïve Bayes hơn do nó được đánh giá là dự
đoán kết quả học tập với độ chính xác tốt nhất.
3.3Kết quả đạt được:
Theo đánh giá mô hình từ trước thì mô hình Naïve Bayes cho kết quả dự báo tốt nhất
nên sinh viên cần lấy kết quả của mô hình này để tham khảo chính. Cũng theo cảm
tính, vì sinh viên thi điểm đầu vào cao và là học sinh nữ, học ngành kế toán nên tỷ lệ
sinh viên này học đạt kết quả giỏi là cao (sinh viên nữ thường chăm chỉ hơn sinh viên
nam và ngành kế toán hợp với sinh viên nữ hơn).
KẾT LUẬN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, từ việc nghiên cứu những yêu
cầu cấp thiết đặt ra trong công tác quản lý vào đào tạo của trường ĐHCNHN, luận văn
đã đạt được một số kết quả chính sau đây:
Xây dựng hệ thống tư vấn học tập với đầu vào là các thông tin cá nhân của sinh viên
như: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mô hình dự báo Naive Bayes.
Hệ thống cũng có chức năng cho phép người quản trị cập nhật cơ sở dữ liệu và cập
nhật lại mô hình khi kết thúc năm học với các khóa đã tốt nghiệp, qua đó giúp hệ
thống ngày càng đạt độ chính xác cao và khách quan.
Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này trong
việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinh viên
mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và
những ai quan tâm.
+ Đối với sinh viên: giúp lựa chọn lộ trình học phù hợp với điều kiện và năng lực của
bản thân để đạt được kết quả học tập tối ưu.
+ Đối với cố vấn học tập: có thể tư vấn cho sinh viên trong việc chọn một lộ trình học
phù hợp.
+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất
lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các
lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên.
Cuối cùng, em xin chân thành cảm ơn thầy Hoàng Quang Huy và các thầy cô khác đã
tận tình giúp đỡ em hoàn thành đề tài này. Do thời gian và kiến thức có hạn nên còn
nhiều thiếu sót, kính mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn.

Preview text:

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC

Chuyên ngành: CNTT

ĐỀ TÀI

KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC

CBHD: Hoàng Quang Huy

Sinh viên: Nguyễn Thị May

Mã sinh viên: 2018123456

Hà Nội – 2020

Mục Lục

LỜI NÓI ĐẦU 5

Phần1 GIỚI THIỆU TỔNG QUAN 6

1.1 Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn 6

1.2 Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục 6

1.3 Hướng tiếp cận của luận văn 7

Phần2 CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN 8

2.1 Khai phá dữ liệu 8

2.1.1 Khái niệm khai phá dữ liệu (KPDL ) 8

2.2 Ứng dụng KPDL trong giáo dục 8

2.3 Một số kỹ thuật KPDL trong phân lớp, dự báo 9

2.4 Cây quyết định 9

2.5 Phân lớp Naïve Bayes 10

2.6 Mạng nơ ron nhân tạo 10

Phần3 XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP 11

3.1 Lựa chọn mô hình 11

3.2 Sơ đồ hoạt động của hệ thống: 11

3.3 Kết quả đạt được: 11

KẾT LUẬN 13

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

PHIẾU GIAO ĐỀ TÀI TỐT NGHIỆP

Chuyên ngành CNTT

Số: ………

Họ và tên sinh viên: Lớp:

Khóa: Khoa:

Giáo viên hướng dẫn:

NỘI DUNG

THUYẾT MINH

Ngày giao đề tài: Ngày hoàn thành:

Hà Nội, ngày……tháng …… năm ……

GIÁO VIÊN HƯỚNG DẪN

(Ký tên)

KHOA

(Ký tên)

HIỆU TRƯỞNG

(Ký tên)

LỜI NÓI ĐẦU

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ.

Đối với mỗi sinh viên, việc lựa chọn cho mình một lộ trình học phù hợp theo đúng quy trình đào tạo là một việc hết sức khó khăn, đặc biệt là với các sinh viên mới vào trường, khi mà kinh nghiệm học tập ở bậc đại học và hình thức đào tạo tín chỉ còn rất mới mẻ. Đó cũng là khó khăn chung không chỉ của sinh viên, mà còn của các cố vấn học tập, giáo viên chủ nhiệm và các tổ chức quản lý trong trường.

Xuất phát từ thực tế đó, việc tư vấn lựa chọn lộ trình học cho sinh viên theo ngành học đã đăng ký là một việc làm hết sức thiết thực và ý nghĩa. Vì vậy em xin chọn đề tài " KHAI PHÁ DỮ LIỆU TRONG GIÁO DỤC" làm đồ án tốt nghiệp chuyên ngành CNTT.

Đề tài này được trình bày qua 3 phần chính:

Chương I Giới thiệu tổng quan

Chương II Các kiến thức cơ sở liên quan

Chương III Xây dựng hệ thống hỗ trợ học tập

Do thời gian và kiến thức có hạn nên khóa luận này của em còn nhiều thiếu sót, kính mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn.

GIỚI THIỆU TỔNG QUAN

Bài toán ứng dụng KPDL để xây dựng hệ thống tư vấn

Một thực tế đặt ra đối với trường đại học là làm sao thu hút được nhiều sinh viên dựa trên “thương hiệu” của nhà trường, để đáp ứng chỉ tiêu đào tạo. Tuy nhiên, yêu cầu đặt ra về số lượng cũng phải kèm theo yêu cầu về chất lượng đào tạo. Vấn đề nâng cao chất lượng đào tạo là một vấn đề luôn được nhà trường quan tâm.

Nhằm đổi mới giáo dục đại học ở Việt Nam, Bộ Giáo dục và Đào tạo đã yêu cầu chuyển đổi từ việc thực hiện chương trình đào tạo theo hệ thống niên chế thành đào tạo theo hệ thống tín chỉ kiểu Hoa Kỳ, bắt đầu từ năm học 2008-2009 và đòi hỏi phải hoàn tất việc chuyển đổi này trước năm 2012.

Trường Đại học Công nghiệp Hà Nội đã triển khai đào tạo theo học chế tín chỉ bắt đầu từ năm học 2008 – 2009. Đào tạo tín chỉ có ưu điểm giúp sinh viên có thể tự quản lý quỹ thời gian và tùy theo khả năng của mình để tự quyết định các môn học theo từng kỳ. Vì vậy, việc tư vấn học tập, chủ yếu liên quan đến lựa chọn lộ trình học phù hợp nhằm đạt được kết quả học tập cao nhất cho mỗi sinh viên được đặc biệt quan tâm. Các giảng viên chuyên trách, cố vấn học tập không thể tiếp cận toàn bộ dữ liệu về điểm của sinh viên.

Một số hướng nghiên cứu về khai phá dữ liệu trong giáo dục

Hiện đã có rất nhiều nghiên cứu về ứng dụng KPDL cho giáo dục. Những khai phá dữ liệu trong giáo dục đã nổi bật lên như là một lĩnh vực nghiên cứu độc lập trong những năm gần đây, mà cao điểm là năm 2008 với sự thành lập hội nghị quốc tế về khai phá dữ liệu giáo dục, và những bài báo về khai phá dữ liệu giáo dục. Đó là “Applying Data Mining Techniques to e-Learning Problems” của Félix Castrol,…

Các nhà nghiên cứu về việc KPDL trong giáo dục tập trung vào nhiều vấn đề bao gồm việc học của cá nhân từ phần mềm giáo dục, học cộng tác với sự giúp đỡ của máy tính, kiểm nghiệm khả năng thích ứng với máy tính, và nhiều nhân tố được kết hợp với các sinh viên không có khả năng hoặc thiếu định hướng trong quá trình học tập. Mỗi lĩnh vực chính của việc ứng dụng khai phá dữ liệu vào giáo dục là phát triển các mô hình hướng đối tượng sinh viên. Các mô hình sinh viên thể hiện thông tin về một nét đặc trưng hay tình trạng của sinh viên, như kiến thức hiện tại của sinh viên, động cơ thúc đẩy học tập, quan điểm nguyện vọng của sinh viên…

Ở Việt Nam, KPDL cũng đã được nghiên cứu và ứng dụng trong nhiều tổ chức, doanh nghiệp và đem lại hiệu quả cao trong các lĩnh vực như giáo dục, y tế, thương mại, tài chính. Nhiều công trình khoa học đã và đang được nghiên cứu để áp dụng vào thực tế. Song bên cạnh đó, việc khai thác các thông tin có giá trị ở một số đơn vị chưa thực sự hiệu quả, việc áp dụng trong thực tế còn hạn chế.

Hướng tiếp cận của luận văn

Luận văn tập trung nghiên cứu lý thuyết khai phá dữ liểu, sử dụng công cụ khai phá dữ liệu BIDS của Microsoft, KPDL điểm thực tế của sinh viên trường ĐHCNHN.

Bên cạnh đó, luận văn sử dụng một số thuật toán điển hình trong khai phá dữ liệu được hỗ trợ sẵn trong SQL Server nhằm giải quyết bài toán dự báo, dự đoán kết quả học tập của sinh viên.

Nhiệm vụ

Thuật toán Microsoft sử dụng

Dự đoán một thuộc tính rời rạc

Microsoft Decision Trees Algorithm

Microsoft Naive Bayes Algorithm

Microsoft Clustering Algorithm

Microsoft Neural Network Algorithm

Dự đoán một thuôc tính liên tục

Microsoft Decision Trees Algorithm Microsoft Time Series Algorithm

Dự đoán một trình tự

Microsoft Sequence Clustering Algorithm

Tìm nhóm của những mục chọn trong các giao dịch

Microsoft Association Rules Algorithm

Microsoft Decision Trees Algorithm

Tìm những mục giống nhau

Microsoft Clustering Algorithm

Microsoft Sequence Clustering Algorithm

Sau khi đánh giá mô hình dự đoán tốt nhất, tác giả xây dựng chương trình thực nghiệm để hỗ trợ tư vấn học tập cho sinh viên năm đầu.

CÁC KIẾN THỨC CƠ SỞ LIÊN QUAN

Khai phá dữ liệu

Khái niệm khai phá dữ liệu (KPDL )

"KPDL là quá trình khảo sát và phân tích một khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu…để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong". Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn đơn vị.

Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính, kế toán, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ thống quản lý khách hang hay từ tác công cụ lưu trữ thông tin trên web…

Đây là những khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì lộn xộn và “nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ. KPDL liệu sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích. Quá trình này gồm một số bước được thể hiện trong hình sau.

Ý nghĩa cụ thể của các bước như sau:

  • Lựa chọn dữ liệu liên quan đến bài toán quan tâm.
  • Tiền xử lý dữ liệu, làm sạch dữ liệu, chiếm tới gần 60% nỗ lực.
  • Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá.
  • KPDL, trích xuất ra các mẫu dữ liệu (mô hình).
  • Đánh giá mẫu.
  • Sử dụng tri thức khai phá được.

Ứng dụng KPDL trong giáo dục

  • Tư vấn lựa chọn ngành học

Cho một kho dữ liệu lưu giữ các thông tin về kết quả học tập của sinh viên đã tốt nghiệp. Hãy tìm ra những quy luật lựa chọn các chuyên ngành một cách hợp lý sao cho đạt được kết quả tốt nhất. Nhằm mục đích này người ta mong muốn nhận được từ dữ liệu những phát biểu như: “80% sinh viên học tốt môn Kinh tế chính trị và Tiếng Anh khá thì tốt nghiệp chuyên ngành Kế toán ngân hàng loại giỏi”, … Để đạt được những phát biểu như trên, chúng ta sử dụng các thuật toán Khai phá luật kết hợp từ cơ sở dữ liệu.

  • Tư vấn lựa chọn môn học

Cho một kho dữ liệu các thông tin về kết quả học tập của sinh viên. Hãy tư vấn cho sinh viên lựa chọn các môn học cho học kỳ sau dựa trên kết quả của các học kỳ trước sao cho kết quả học tập của kỳ sao là cao nhất. Để thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp.

  • Tư vấn lựa chọn lộ trình học

Cho một kho dữ liệu đào tạo (theo hình thức tín chỉ) bao gồm các môn học (học phần) tương ứng với các ngành học và các học kỳ (gọi là chương trình đào tạo), cùng với các thông tin về kết quả học tập của các sinh viên đã tốt nghiệp. Hãy tư vấn cho các sinh viên mới vào trường cách lựa chọn một lộ trình học phù hợp nhất cho ngành học mà sinh viên đã đăng ký sao cho kết quả tốt nghiệp ra trường của sinh viên là cao nhất. Đây chính là bài toán mà luận văn hướng đến. Để thực hiện việc này, chúng ta cần sử dụng các thuật toán KPDL ở dạng phân lớp và dự đoán như Cây quyết định, mạng Naive Bayes, Neural Network hay luật kết hợp.

Một số kỹ thuật KPDL trong phân lớp, dự báo

Cây quyết định

Cây quyết định là một cấu trúc biễu diễn dưới dạng cây. Trong đó, mỗi nút trong (internal node) biễu diễn một thuộc tính, mỗi nhánh (branch) biễu diễn giá trị có thể có của thuộc tính, mỗi lá (leaf node) biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc (root).

Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi nút trong (internal node) tương ứng với một biến, đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

Cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật (series of rules). Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp – Category attribute) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal.

Phân lớp Naïve Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B". Đại lượng này được gọi xác suất có điều kiện vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị đó.

Phương pháp Naive Bayes phù hợp các bài toán có yêu cầu về chi phí xuất hiện của các giá trị thuộc tính.

Document

Content

Data

Class

Training

d1

hanoi pho chaolong hanoi

B

d2

hanoi buncha pho omai

B

d3

pho banhgio omai

B

d4

saigon hutiu banhbo pho

N

Test

d5

hanoi hanoi buncha hutiu

?

Mạng nơ ron nhân tạo

Neural nhân tạo là sự mô phỏng đơn giản của neural sinh học. Mỗi neural nhân tạo thực hiện hai chức năng: chức năng tổng hợp đầu vào và chức năng tạo đầu ra. Chức năng đầu vào chính là tổng có trọng số các tín hiệu vào kết hợp với ngưỡng để tạo ra tín hiều đầu vào. Chức năng tạo đầu ra được thực hiện bằng hàm truyền đạt.

Microsoft Neural Network sử dụng mạng đa tầng bao gồm ba lớp tế bào thần kinh. Các lớp này là một lớp đầu vào, một lớp ẩn và một lớp đầu ra. Trong một mạng Neural, mỗi neural nhận được một hoặc nhiều đầu vào và sản xuất một hoặc nhiều kết quả đầu ra. Mỗi đầu ra là một hàm phi tuyến đơn giản của tổng các đầu vào.

XÂY DỰNG HỆ THỐNG TƯ VẤN HỌC TẬP

Lựa chọn mô hình

Yêu cầu Mô hình Naïve Bayes cho kết quả dự đoán kết quả học tập của sinh viên với độ chính xác cao nhất nên mô hình này sẽ được lựa chọn để xây dựng hệ thống tư vấn học tập. Trong khuôn khổ luận văn, để giúp người dùng thấy được sự khác biệt về kết quả dự đoán giữa các mô hình, hệ thống tư vấn có đưa thêm vào chức năng cho phép người dùng chọn các mô hình khác nhau (trong 04 mô hình đã xây dựng) để kiểm tra và so sánh kết quả.

Hệ thống được xây dựng bằng ngôn ngữ Visual C#.NET với hệ quản trị CSDL MS SQL Server 2008 trên nền Windows Forms (việc xây dựng trên nền Web cũng tương tự).

Sơ đồ hoạt động của hệ thống:

Để sử dụng hệ thống, người dùng nhập vào các thông tin như: ngành học, điểm thi tuyển sinh, giới tính và lựa chọn mô hình sử dụng để dự báo (nếu không lựa chọn thì mặc định hệ thống sẽ sử dụng mô hình Naïve Bayes). Trong phạm vi thử nghiệm, chương trình vẫn cho hiển thị kết quả dự đoán của cả 03 mô hình không được lựa chọn là Luật kết hợp, Neural Network và Decision Tree để mang tính chất tham khảo cũng như đánh giá lại các mô hình trong dự đoán thực tế. Tuy nhiên, như đã phân tích ở trên, người dùng cần tin tưởng ở mô hình Naïve Bayes hơn do nó được đánh giá là dự đoán kết quả học tập với độ chính xác tốt nhất.

Kết quả đạt được:

Theo đánh giá mô hình từ trước thì mô hình Naïve Bayes cho kết quả dự báo tốt nhất nên sinh viên cần lấy kết quả của mô hình này để tham khảo chính. Cũng theo cảm tính, vì sinh viên thi điểm đầu vào cao và là học sinh nữ, học ngành kế toán nên tỷ lệ sinh viên này học đạt kết quả giỏi là cao (sinh viên nữ thường chăm chỉ hơn sinh viên nam và ngành kế toán hợp với sinh viên nữ hơn).

KẾT LUẬN

Sau một thời gian nghiên cứu và làm việc nghiêm túc, từ việc nghiên cứu những yêu cầu cấp thiết đặt ra trong công tác quản lý vào đào tạo của trường ĐHCNHN, luận văn đã đạt được một số kết quả chính sau đây:

Xây dựng hệ thống tư vấn học tập với đầu vào là các thông tin cá nhân của sinh viên như: ngành học, điểm thi tuyển sinh, giới tính, sử dụng mô hình dự báo Naive Bayes.

Hệ thống cũng có chức năng cho phép người quản trị cập nhật cơ sở dữ liệu và cập nhật lại mô hình khi kết thúc năm học với các khóa đã tốt nghiệp, qua đó giúp hệ thống ngày càng đạt độ chính xác cao và khách quan.

Với việc triển khai hệ thống thử nghiệm cho thấy khả năng ứng dụng kết quả này trong việc dự đoán kết quả học tập của sinh viên. Hệ thống không chỉ hỗ trợ cho sinh viên mà còn hỗ trợ cho giáo viên chủ nhiệm, các khoa chuyên ngành, phòng đào tạo và những ai quan tâm.

+ Đối với sinh viên: giúp lựa chọn lộ trình học phù hợp với điều kiện và năng lực của bản thân để đạt được kết quả học tập tối ưu.

+ Đối với cố vấn học tập: có thể tư vấn cho sinh viên trong việc chọn một lộ trình học phù hợp.

+ Đối với các khoa chuyên ngành và phòng đào tạo: hỗ trợ trong việc đánh giá chất lượng cho từng lộ trình học nhằm nâng cao, cải thiện hơn nữa trong việc xây dựng các lộ trình học để phù hợp với mọi điều kiện và năng lực của sinh viên.

Cuối cùng, em xin chân thành cảm ơn thầy Hoàng Quang Huy và các thầy cô khác đã tận tình giúp đỡ em hoàn thành đề tài này. Do thời gian và kiến thức có hạn nên còn nhiều thiếu sót, kính mong được sự góp ý và chỉ bảo từ các thầy cô và các bạn.