ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ XUÂN LÂM
NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT
TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP
CHO SINH VIÊN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội – 2020
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÊ XUÂN LÂM
NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT
TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP
CHO SINH VIÊN
Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý Hệ thống Thông tin
Mã số: 8480205.01
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG
81 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 385 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM
Hà Nội – 2020
1
LỜI CẢM ƠN
Tơi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam, Trường
Đại học Cơng nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều
thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt quá trình tìm
hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều gĩp ý quý báu
trong quá trình tơi thực hiện luận văn.
Tơi xin gửi lời cảm ơn chân thành tới các thầy, cơ ở khoa Cơng nghệ thơng
tin – Trường Đại học Cơng nghệ - ĐHQGHN đã trang bị những kiến thức và tạo
điều kiện thuận lợi cho tơi trong suốt quá trình học tập tại trường.
Tơi cũng xin bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng
nghiệp đã cung cấp dữ liệu, tài liệu và cho tơi những lời khuyên quý báu. Tơi xin
cảm ơn gia đình, người thân, bạn bè luơn động viên và tạo mọi điều kiện tốt nhất
cho tơi.
Tơi xin chân thành cảm ơn!
Hà Nội, tháng 9 năm 2020
Học viên
Lê Xuân Lâm
ii
LỜI CAM ĐOAN
Tơi xin cam kết cơng trình nghiên cứu này là của tơi, được thực hiện dưới sự
hướng dẫn của PGS.TS. Nguyễn Hà Nam.
Các số liệu, kết quả được nêu trong luận văn là trung thực và chưa được ai
cơng bố ở bất cứ cơng trình nào khác.
Hà Nội, tháng 9 năm 2020
Học viên
Lê Xuân Lâm
iii
MỤC LỤC
LỜI CẢM ƠN ........................................................................................................ i
LỜI CAM ĐOAN ................................................................................................. ii
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... v
LỜI MỞ ĐẦU ....................................................................................................... 1
Chương 1. Giới thiệu ............................................................................................. 3
1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I ..................................... 3
1.2. Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường
CĐ.ANND I ....................................................................................................... 6
1.3. Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục ................ 8
1.4. Hướng tiếp cận của luận văn ....................................................................... 9
1.5. Kết luận chương 1 ..................................................................................... 10
Chương 2. Cơ sở lý thuyết .................................................................................. 11
2.1. Khai phá dữ liệu ........................................................................................ 11
2.1.1. Khái niệm .......................................................................................... 11
2.1.2. Những hướng tiếp cận trong KPDL .................................................. 12
2.1.3. Các bước xây dựng một giải pháp về KPDL .................................... 13
2.1.4. Các lĩnh vực ứng dụng của KPDL .................................................... 13
2.2. Một số kỹ thuật KPDL trong phân lớp, dự đốn ...................................... 15
2.2.1. Cây quyết định .................................................................................. 15
2.2.2. Phân lớp Nạve Bayes ....................................................................... 16
2.2.3. Luật kết hợp ...................................................................................... 17
2.2.4 Hồi quy tuyến tính .............................................................................. 19
2.2.5 Mạng nơ-ron nhân tạo ........................................................................ 21
2.3. KPDL với MS SQL Server ....................................................................... 23
2.3.1. Giới thiệu chung ................................................................................ 23
2.3.2. Data Mining eXtensions.................................................................... 25
2.3.3. Bộ cơng cụ SQL Server Data Tool – Business Intelligence ............. 29
2.3.4. Lập trình KPDL với ADODE.NET .................................................. 30
iv
2.3.5. Đánh giá tính hiệu quả các mơ hình KPDL trong SSDT-BI ............ 31
2.4. Kết luận chương 2 ..................................................................................... 32
Chương 3. Giải quyết bài tốn ............................................................................ 33
3.1. Phát biểu bài tốn ...................................................................................... 33
3.2. Mơ tả một số giải thuật sử dụng trong bài tốn 1 và bài tốn 2 ................ 33
3.2.1. Thuật tốn Apriori ............................................................................. 33
3.2.2. Thuật tốn C4.5 ................................................................................. 35
3.2.3. Thuật tốn hồi quy tuyến tính của Microsoft .................................... 36
3.2.4. Thuật tốn Back propagation ............................................................ 38
3.3. Xây dựng CSDL ........................................................................................ 39
3.4. Xây dựng mơ hình KPDL ......................................................................... 43
3.5. Lập trình KPDL với ADOMD.NET ......................................................... 55
3.6. Đánh giá mơ hình ...................................................................................... 57
3.6.1 Đánh giá mơ hình với Lift Chart ........................................................ 57
3.6.2 Đánh giá mơ hình với Classification Matrix ...................................... 63
3.7. Xây dựng ứng dụng hỗ trợ tư vấn học tập ................................................ 64
3.8. Kết luận chương 3 ..................................................................................... 69
KẾT LUẬN ......................................................................................................... 70
HƯỚNG PHÁT TRIỂN ...................................................................................... 70
TÀI LIỆU THAM KHẢO ................................................................................... 71
v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt Ý nghĩa
CĐ.ANND I Cao đẳng An ninh nhân dân I
CSDL Cơ sở dữ liệu
DMX Data Mining eXtensions
DMM Data Mining Model
KPDL Khai phá dữ liệu
MS Microsoft
SSDT-BI SQL Server Data Tool - Bussiness Intelligence
QLĐT Quản lý Đào tạo
vi
DANH MỤC CÁC BẢNG
Bảng 2.1: Lựa chọn các thuật tốn KPDL theo mục đích .................................. 24
Bảng 2.2: Bảng danh sách thư viên API Analysis Services................................ 30
Bảng 3.1: Bảng quy đổi thang điểm .................................................................... 40
Bảng 3.2: Thơng tin dữ liệu cho bài tốn 1 ......................................................... 41
Bảng 3.3: Bảng giá trị Mining Legend................................................................ 59
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Quá trình của khai thác tri thức ........................................................... 11
Hình 2.1: Cấu trúc của cây quyết định ................................................................ 15
Hình 2.2: Cây quyết định dự báo khả năng khách hàng ..................................... 16
Hình 2.3: Biểu đồ hồi quy tuyến tính đơn ........................................................... 20
Hình 2.4: Mơ hình nơ-ron đơn lẻ ........................................................................ 21
Hình 2.5: Mơ hình mạng nơ-ron đa tầng ............................................................. 21
Hình 2.6: Mạng nơ-ron trong MS Neural Network ............................................ 22
Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server ................................ 23
Hình 2.8: Biểu đồ đánh giá Lift Chart................................................................. 31
Hình 2.9: Đánh giá mơ hình với Classification Matrix ....................................... 32
Hình 3.1: Danh sách kết quả các luật .................................................................. 34
Hình 3.2: Kết quả mơ hình cây quyết định ......................................................... 36
Hình 3.3: Kết quả mơ hình hồi quy tuyến tính .................................................... 37
Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp .................. 38
Hình 3.5: Lược đồ CSDL quan hệ ...................................................................... 41
Hình 3.6: Bộ dữ liệu sử dụng cho bài tốn số 1 .................................................. 42
Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm ....................................................... 43
Hình 3.8: Danh sách điểm của các học viên ....................................................... 43
Hình 3.9: Tạo một dự án Data mining ................................................................ 44
Hình 3.10: Tạo Data Source ................................................................................ 44
Hình 3.11: Tạo Data Source View ...................................................................... 45
Hình 3.12: Lựa chọn Mining model structure ..................................................... 45
Hình 3.13: Thiết lập thuộc tính cho dự báo ........................................................ 46
Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo .............................. 46
Hình 3.15: Thiết lập dataset với training và testing ............................................ 47
Hình 3.16: Một Mining Structure và Mining Model được tạo ........................... 47
Hình 3.17: Thêm mới một Mining Model .......................................................... 48
Hình 3.18: Tạo 04 mơ hình cho một Mining Structure ....................................... 49
vii
Hình 3.19: Kết quả viewer mơ hình Cây quyết định .......................................... 49
Hình 3.20: Kết quả viewer mơ hình Luật kết hợp............................................... 50
Hình 3.21: Kết quả viewer mơ hình Nạve Bayes ............................................... 50
Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo ............................... 51
Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình ................................................... 51
Hình 3.24: Kết quả Classification Matrix của 04 mơ hình ................................. 52
Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình ..................... 53
Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình ................................ 53
Hình 3.27: Tạo 3 mơ hình cho bài tốn 2 ............................................................ 54
Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình ...................................................... 54
Hình 3.29: Sử dụng ADMOD.NET trong C# ..................................................... 55
Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định ........................ 57
Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình ................. 58
Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn ........... 60
Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn ........... 60
Hình 3.34: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 61
Hình 3.35: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 62
Hình 3.36: Biểu đồ phân tán đánh giá 3 mơ hình ............................................... 62
Hình 3.37: Đánh giá 3 mơ hình với Classifications Matrix ................................ 64
Hình 3.38: Sơ đồ hoạt động hệ thống.................................................................. 65
Hình 3.39: Giao diện chính của hệ thống ............................................................ 66
Hình 3.40: Kết quả Ví dụ 1 ................................................................................. 67
Hình 3.41: Kết quả Ví dụ 2 ................................................................................. 67
Hình 3.42: Kết quả ví dụ 3 .................................................................................. 68
1
LỜI MỞ ĐẦU
Trong những năm gần đây, việc ứng dụng các kỹ thuật khai phá dữ liệu và
phát hiện tri thức trong các lĩnh vực giáo dục, tài chính, ngân hàng, xây dựngrất
được quan tâm nghiên cứu. Đối với giáo dục, đào tạo sinh viên trong các trường
Đại học, Cao đẳng theo hình thức đào tạo tín chỉ địi hỏi học viên phải cĩ sự chủ
động cao. Sinh viên trong quá trình học tập phải tự mình lựa chọn, phân bổ các
mơn học cho từng kỳ sao cho tích lũy đủ số tín chỉ theo quy chế đào tạo, Sinh viên
hồn tồn cĩ thể ra trường sớm hoặc đúng hạn. Qua quá trình dạy học tại trường
Cao đẳng An ninh nhân dân I, tơi nhận thấy tỉ lệ học viên học tập tại trường đạt
kết quả chưa cao. Nguyên nhân là do các em mới bước chân từ mơi trường giáo
dục THPT vào mơi trường Đại học, Cao đẳng cịn nhiều bỡ ngỡ, khĩ khăn trong
việc định hướng học tập, làm ảnh hưởng tới kết quả học tập của bản thân cũng
như đối với nhà trường. Chúng ta cĩ thể áp dụng lĩnh vực khai phá dữ liệu và phát
hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên cĩ những định
hướng trong việc lựa chọn, xây dựng thời khĩa biểu phù hợp bản thân mang lại
đạt kết quả cao trong quá trình học tập tại trường.
Từ cơ sở thực tiễn đĩ, tơi đã chọn đề tài: “Nghiên cứu ứng dụng các kỹ
thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên”. Mục đích của đề
tài này là đi sâu tìm hiểu việc phân tích dữ liệu thơng tin cá nhân của sinh viên,
kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn
mơn học phù hợp, đạt được kết quả cao nhất.
Nội dung trình bày luận văn “Nghiên cứu ứng dụng các kỹ thuật trong
khai phá dữ liệu hỗ trợ học tập cho học viên” được bố cục gồm 3 chương:
Chương 1: Giới thiệu
Chương này trình bày về hiện trạng cơng tác quản lý đào tạo của trường
CĐ.ANND I, các đối tượng, phạm vi và hướng nghiên cứu của luận văn.
Chương 2: Cơ sở lý thuyết
Chương này trình bày cơ sở về khai phá dữ liệu và phát hiện tri thức, các
kỹ thuật khai phá dữ liệu Cây quyết định, Luật kết hợp, Hồi quy tuyến tính, Neural
Networks và Nạve Bayes, Cơng cụ SSDT-BI của SQL Server 2012.
Chương 3: Giải quyết bài tốn
Mơ tả, xây dựng bài tốn dự đốn kết quả học tập cuối kỳ cho học viên, bài
tốn dự đốn kết quả của một mơn học sắp tới. Tổng hợp và xử lý các dữ liệu liên
2
quan dùng cho phát triển hệ thống. Xây dựng một số mơ hình: Hồi quy tuyến tính,
Luật kết hợp, Neural Networks, Cây quyết định, Nạve Bayes và đưa ra đánh giá
các mơ hình tương ứng
Xây dựng cơ sở dữ liệu quản lý học viên và chuyển cơ sở dữ liệu thành kho
dữ liệu. Sau đĩ tiến hành phân tích báo cáo và xây dựng mơ hình dựa trên cơng
cụ Business Intelligence của SQL Server 2012, đánh giá các mơ hình.
Xây dựng ứng dụng thực nghiệm tư vấn cho học viên, dựa trên mơ hình
đánh giá cho kết quả tốt nhất.
3
Chương 1. Giới thiệu
1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I
Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND
I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng
5 năm 2014 của Bộ trưởng Bộ giáo dục và Đào tạo ban hành Quy chế đào tạo đại
học và cao đẳng hệ chính quy theo hệ thống tín chỉ; Hướng dẫn số 11792/HD-
X11-X14 của Tổng cục Chính trị Cơng an nhân dân hướng dẫn thực hiện quy chế
đào tạo đại học, cao đẳng theo tín chỉ; Quyết định số 499/QĐ-T33(P5), ngày 27
tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I ban hành
Quy định đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ. Lưu đồ sau được
xây dựng quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc
giảng dạy của Phịng Quản lý Đào tạo, các Khoa, Bộ mơn và các Phịng chức năng
khác liên quan.
Bước Cơng đoạn Hồ sơ
1
Quyết định và danh sách thí sinh
trúng tuyển các khĩa.
2
Quyết định thành lập khố học.
3
Đề cương mơn học
Lịch giảng dạy
4
5
Lịch giảng dạy chi tiết
6
7
Phiếu báo giảng dạy
Sổ đầu bài
Thành lập khố học
Kết quả tuyển sinh
Xem xét/ điều chỉnh
C
ĩ
K
hơng
Lập Thời khố biểu chi tiết
Lập khung thời gian khố học
Thực hiện cơng tác giảng dạy
Quản lý tổ
chức
giảng dạy
Quản lý
nội dung
giảng dạy
Quản lý
tiến độ
khố học
4
8
Đề thi
Bài thi
Kết quả thi
9
Bảng điểm
Mạng nội bộ
10
Quy chế xét và cấp bằng tốt nghiệp
11
Báo cáo tổng hợp tình hình giảng
dạy
Mơ tả lưu đồ:
- Bước 1: Hàng năm, căn cứ vào chỉ tiêu tuyển sinh do Bộ Cơng an phê
quyệt, nhà trường thực hiện cơng tác tuyển sinh, họp xét điểm chuẩn, lập quyết
định và danh sách thí sinh trúng tuyển;
- Bước 2: Căn cứ danh sách thí sinh trúng tuyển, phịng QLĐT tiến hành
phân lớp, phân cơng cán bộ quản lý đào tạo theo Quyết định thành lập từng khĩa
học;
- Bước 3: Hàng năm, căn cứ vào chương trình đào tạo và tiến độ đào tạo
của các khĩa học, phịng QLĐT lập kế hoạch giảng dạy dự kiến của cả năm học;
- Bước 4: Kế hoạch giảng dạy dự kiến được cán bộ phịng QLĐT bố trí lịch
giảng cụ thể cho từng mơn học. Sau đĩ chuyển đến các khoa đào tạo để phân cơng
giảng viên và đề nghị điều chỉnh lịch (nếu cĩ);
- Bước 5: Căn cứ kế hoạch lịch giảng của năm học, cán bộ quản lý tiến
hành lập lịch giảng chi tiết cho các khĩa (thực hiện cho cả năm học) kèm với phiếu
báo lịch giảng cho từng mơn học;
- Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết;
- Bước 7: Quản lí quá trình giảng dạy
Phân cấp trách nhiệm quản lí quá trình giảng dạy
+ Trưởng Khoa, Bộ mơn
✓ Phân cơng giảng viên phụ trách các học phần và báo về phịng
QLĐT;
Quản lý đánh giá kết quả giảng dạy
Cập nhật & lưu giữ hồ sơ
Quản lý kết quả học tập
Xét tốt nghiệp
5
✓ Kiểm tra giáo trình, giáo án của các giảng viên, tổ chức kiểm tra việc
thực hiện lịch trình giảng dạy, chất lượng giảng dạy và cơng tác phục
vụ giảng dạy;
✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của
sinh viên thơng qua Giáo vụ khoa, bộ mơn.
✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ mơn;
✓ Tổ chức sinh hoạt bộ mơn theo đúng quy chế của Trường;
+ Giáo vụ khoa, bộ mơn
✓ Cập nhật thời khố biểu, lịch trình, lịch thi;
✓ Theo dõi việc thực hiện cơng tác giảng dạy và học tập của giảng viên
và sinh viên trong Khoa;
✓ Quản lý điểm;
+ Chuyên viên Phịng QLĐT
✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của
năm học;
✓ Kiểm tra tiến độ giảng dạy theo lịch trình giảng dạy và quản lý sổ
theo dõi giảng dạy. Căn cứ vào việc thực hiện giờ lên lớp, thống kê
số giờ cịn thiếu và yêu cầu dạy bù đủ số tiết;
✓ Tổng hợp (1 tháng /1lần) các trường hợp sai phạm và các trường hợp
phát sinh: vắng tiết, quên giờ, bỏ giờ,.... lập báo cáo gửi về phịng
Quản lý học viên.
+ Chuyên viên Phịng thanh tra: Cĩ trách nhiệm kiểm tra:
✓ Việc thực hiện giờ lên lớp theo quy định chung;
✓ Tiến độ giảng dạy theo lịch trình giảng dạy;
✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng.
+ Ban Giám hiệu
✓ Là cấp cĩ thẩm quyền quyết định hình thức kỷ luật khi cĩ các giảng
viên vi phạm. Trong trường hợp nghiêm trọng, Hiệu trưởng - Chủ
tịch Hội đồng khen thưởng, kỷ luật Trường sẽ triệu tập họp để xét
khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan.
Quản lí nội dung giảng dạy
Căn cứ vào phân cơng trách nhiệm, quản lý nội dung giảng dạy gồm:
+ Quản lý khung chương trình.
6
+ Quản lý đề cương chi tiết của các học phần.
+ Quản lý giáo trình, giáo án.
+ Đảm bảo số giáo trình, tài liệu tham khảo của các mơn học.
+ Bổ sung, cập nhật các thay đổi về chương trình giảng dạy sau khi đã cĩ
sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường
Quản lý tiến độ giảng dạy
Căn cứ vào phân cơng trách nhiệm, nội dung quản lý tiến độ gồm:
+ Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng mơn học
được ghi chép vào Sổ theo dõi giảng dạy và học tập.
+ Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện
dạy bù.
+ Phịng QLĐT căn cứ vào theo dõi thực hiện thời khố biểu sẽ thống kê
số giờ cịn thiếu và yêu cầu giảng viên dạy bù đủ số tiết.
- Bước 8: Phịng Khảo thí đảm bảo chất lượng thực hiện việc tổ chức thi
hết học phần cho các khĩa, thực hiện việc chuyển đề thi và nhận bài thi (theo quy
trình phối hợp), tổ chức chấm thi và chuyển điểm về phịng QLĐT theo thời gian
quy định;
- Bước 9: Khi nhận bảng điểm từ phịng Khảo thí đảm bảo chất lượng,
phịng QLĐT photo 2 bản: 1 bản chuyển các khoa, bộ mơn, 1 bản chuyển cơng bố
cho SV. Tổ điểm gốc tiến hành nhập điểm vào hệ thống mạng nội bộ;
- Bước 10: Căn cứ tiến độ đào tạo của từng khĩa học và quy chế đào tạo,
phịng QLĐT tiến hành xét chuyển giai đoạn, xét điều kiện dự thi tốt nghiệp và
xét tốt nghiệp cho học viên. Sau khi được Hội đồng họp xét thơng qua, kết quả
xét được cơng bố cho học viên và phịng QLĐT thực hiện các bước tiếp theo của
khĩa học;
- Bước 11: Cập nhật và lưu trữ hồ sơ.
1.2. Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường
CĐ.ANND I
Trường Cao đẳng An ninh nhân dân I là trường thuộc Bộ Cơng an cĩ nhiệm
vụ đào tạo, huấn luyện chiến sĩ cĩ trình độ cao, phẩm chất chính trị vững vàng,
đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Cơng an nhân dân Việt Nam.
Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà
7
trường đã xây dựng và đào tạo 3 chuyên ngành đào tạo cao đẳng chính quy, 4
chuyên ngành đạo tạo Trung cấp chuyên nghiệp và nhiều chương trình đào tạo
ngắn hạn khác.
Các lĩnh vực đào tạo: An ninh, Ngoại tuyến, Cảnh vệ
Nhiệm vụ đặt ra đối với trường CĐ.ANND I hiện nay là làm sao nâng cao
được chất lượng học tập của học viên trong trường, đáp ứng được nhu cầu đào tạo
trước tình hình mới là điểm trọng tâm hàng đầu được nhà trường quan tâm.
Trường CĐ.ANND I đã triển khai đào tạo tín chỉ từ năm 2013-2018. Qua
thực hiện triển khai mơ hình giảng dạy theo tín chỉ tại Trường cĩ rất nhiều vấn đề
bất cập cần sửa đổi theo đúng nghĩa của mơ hình đào tạo theo tín chỉ, cụ thể như:
- Chưa đáp ứng được yêu cầu đăng ký học tập của học viên (như phần mềm
hỗ trợ đăng ký, theo dõi lịch học)
- Quản lý dữ liệu về học viên chủ yếu cịn thủ cơng bằng Excel gặp nhiều
khĩ khăn.
- Chưa tổ chức cho học viên đăng ký theo khối lượng học tập, rút bớt học
phần đăng ký mà học viên được học theo các học phần Nhà trường bố trí và lựa
chọn.
- Việc tổ chức cho học viên học cùng lúc hai chương trình chưa được thực
hiện do quy định của ngành Cơng an hiện nay.
Chính vì vậy nhu cầu tư vấn học tập của học viên thực sự khơng nhiều, ít
thường xuyên, chủ yếu tập trung trong thời điểm đầu khĩa mới nhập học. Vai trị
của đội ngũ cố vấn học tập cũng chưa thể hiện nhiều trong suốt quá trình đạo tạo.
Thực tế tại các trường Đại học, Cao đẳng ở Việt Nam hiện nay, việc học
viên tự chủ động đăng ký lựa chọn mơn học phù cho bản thân cịn chưa hiệu quả,
chưa tận dụng được ưu điểm của việc học theo tín chỉ, chưa xây dựng được lộ
trình học tập phù hợp với từng sinh viên. Nhằm giúp phần hỗ trợ cho học viên lựa
chọn được những mơn học phù hợp với năng lực, đảm bảo hồn thành khĩa học
sớm hoặc đúng hạn thì rất cần tới sự trợ giúp của giáo viên cố vấn. Tuy nhiên,
ngồi những kinh nghiệm của bản thân mình thì giáo viên cố vấn sẽ phải tra kết
quả học tập của mỗi học viên để trợ giúp tùy theo năng lực cá nhân của mỗi em,
điều đĩ khá tốn thời gian và mất nhiều cơng sức. Việc dự đốn kết quả mơn học
sắp tới của học viên dựa trên các thơng tin về những mơn học đã học và kết quả
của mơn đĩ sẽ giúp cho học viên cĩ thể đánh giá được năng lực của mình để cĩ
8
kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới
các học viên đạt kết quả thấp là một việc làm hết sức thiết thực.
Xuất phát từ những điểm nêu trên tác giả đề xuất 2 bài tốn dự đốn kết quả học
tập của học viên như sau:
Bài tốn 1: Dựa vào các thơng tin nhân khẩu học: Giới tính, điểm thi đầu
vàovà điểm trung bình của học kỳ trước đĩ nhằm dự đốn điểm trung bình kỳ
tới của học viên.
Bài tốn 2: Dựa vào kết quả các mơn học đã học của học viên, dự đốn kết
quả đạt được của mơn học sắp tới.
1.3. Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục
Khai phá dữ liệu cho giáo dục ngày càng được các nhà nghiên cứu trên tồn
thế giới quan tâm. Sự quan tâm đến việc phát triển các kỹ thuật để phân tích dữ
liệu được tạo ra trong mơi trường giáo dục được thể hiện bằng hàng loạt các hội
thảo Education Data Mining. Năm 2008, một nhĩm các nhà nghiên cứu đã thành
lập hội nghị nghiên cứu quốc tế thường niên về Education Data Mining, hội nghị
đầu tiên diễn ra tại Montreal, Quebec, Canada. Rất nhiều các cơng trình, bài báo
về Education Data Mining được xuất bản tại hội nghị International Conference on
Educational Data Mining được tổ chức diễn ra hàng năm. Cĩ thể liệt kê ra một số
cơng trình, bài báo về Educational Data Mining như:
Trong "Conceptual Framework of Data Mining Process in Management
Education in India: An Institutional Perspective" (Ranjan & Khalil, 2008) các tác
giả Ranjan J. và Khalil S. đã sử dụng cây quyết định và mạng Bayes để hỗ trợ quá
trình nhập học, phân tích chất lượng của quá trình giáo dục và kết quả học tập của
học sinh ở Ấn Độ. "Data mining for adaptive learning sequence in English
language instruction" (Y. H. Wang, Tseng, & Liao, 2009) được phát triển bởi
Wang Y., Tseng M. và Liao H., đã sử dụng cây quyết định để đề xuất trình tự học
tối ưu nhằm tạo điều kiện cho quá trình học tập của học sinh và để tối đa hĩa kết
quả học tập của họ. "Recommender system for predicting student performance"
(Thai-Nghe, Drumond, Krohn-Grimberghe, & Schmidt-Thieme, 2010) một bài
báo của các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A. và
Schmidt-Thieme L., đã đề xuất một cách tiếp cận để sử dụng các kỹ thuật khai
thác dữ liệu, đặc biệt là những kỹ thuật dự đốn kết quả hoạt động của học sinh.
"Mining log data for the analysis of learners' Behavior in web-based learning
management systems" (Psaromiligkos, Orfanidou, Kytagias, & Zafiri, 2011) trong
đĩ Psaromiligkos Y., Orfanidou., Kytagias C. và Zafiri E., đã sử dụng các quy tắc
9
kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục.
"Application of data mining in academic educational databases for predicting
trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S. Merchant và
Zahid F. Z. đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của
sinh viên. "Improving the Student's Performance Using Educational Data
Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học
sinh trong các khĩa học. "Data Mining: A prediction for Student's Performance
Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A. và
Elaraby I. phát triển, trong đĩ cây quyết định được sử dụng để dự đốn điểm của
học sinh cuối cấp. "Educational Data Mining: Performance Evaluation of
Decision Tree and Clustering Techniques using WEKA Platform" (Saxena, 2015)
được phát triển bởi Saxena R., bài báo này sử dụng cơng cụ WEKA để so sánh
hiệu suất của cây quyết định và kỹ thuật phân cụm trong dữ liệu từ lĩnh vực giáo
dục.
Cĩ nhiều nghiên cứu điển hình trong đĩ các kỹ thuật khai thác dữ liệu được
áp dụng cho giáo dục, mỗi nghiên cứu sẽ tìm kiếm câu trả lời cho một tình huống
cụ thể trong Educational Data Mining. Việc tri thức được khai phá khơng chỉ
nhằm mục đích cho người khai phá sử dụng mà cịn nhắm tới cả người sử hữu
cũng cĩ thể sử dụng. Do dĩ, việc ứng dụng khai phá dữ liệu trong giáo dục cĩ thể
hướng tới nhiều tác nhân khác nhau dưới các gĩc nhìn như:
Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học,
chọn mơn học, chọn lộ trình học
Hướng tới giáo viên: tư vấn, đề xuất cho giáo viên các phương pháp dạy
học thích hợp dựa trên việc phân lớp các học viên thành những nhĩm theo tùy
mức độ, đưa ra các điểm mâu thuẫn, bất thường trong lộ trình học của học viên,
liệt kê ra các hoạt động hiệu quả giúp giáo viên cải thiện, xây dựng lại nội dung
bài giảng của mình một cách hợp lý, đạt kết quả tốt hơn.
Hướng tới nhà quản lý: giúp nhà quản lý đưa ra các phân tích, đánh giá
chính xác về kết quả học tập của học viên qua đĩ đề ra các định hướng, hoạch
định trong: đầu tư bồi dưỡng giáo viên hàng năm, phát hiện các học viên giỏi để
bồi dưỡng, hoặc các học viên yếu trong diện cần nhắc nhở, cĩ kế hoạch tăng giờ,
tăng số tiết v.v
1.4. Hướng tiếp cận của luận văn
Luận văn trú trọng tới việc nghiên cứu về lý thuyết khai phá dữ liệu bằng
việc sử dụng cơng cụ khai phá dữ liệu SSDT-BI do Microsoft phát triển. Dữ liệu
10
được sử dụng để khai phá dữ liệu là điểm thực tế của học viên trường Cao đẳng
ANND I.
Để giải quyết bài tốn về dự báo, dự đốn kết quả học tập của học viên luận
văn sử dụng một số thuật tốn KDPL được hỗ trợ trong SQL Server.
Từ các mơ hình dự đốn, tác giả sẽ lựa chọn ra mơ hình dự đốn tốt nhất
và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên.
1.5. Kết luận chương 1
Chương này giới thiệu về bài tốn thực tế tại Trường Cao đẳng ANND I,
những vấn đề đặt ra cần giải quyết đối với bài tốn, một số hướng nghiên cứu của
KDPL trong giáo dục hiện nay và hướng tiếp cận của luận văn.
11
Chương 2. Cơ sở lý thuyết
2.1. Khai phá dữ liệu
2.1.1. Khái niệm
Khai phá dữ liệu là một t...ng nhiều trường hợp khác thì ta cĩ thể cung cấp thêm nhiều tham số
và tham trị để truy tìm ra kết quả mà mình mong muốn.
29
SELECT
[TM Decision Tree].[Bike Buyer],
PredictHistogram([Bike Buyer])
FROM
[TM Decision Tree]
NATURAL PREDICTION JOIN
(SELECT 35 AS [Age],
'5-10 Miles' AS [Commute Distance],
'1' AS [House Owner Flag],
2 AS [Number Cars Owned],
2 AS [Total Children]) AS t
Ngồi ra cịn các hàm Predict khác như: PredictProbability,
PredictSupport, PredictAdjustedProbability, PredictVariance và PredictStdevall
trả về các kết quả như là trong quá trình phân tích:
SELECT
[ĐTB 2].[ĐTBKY2],
PredictHistogram([ĐTB 2].[ĐTBKY2]),
PredictProbability([ĐTB 2].[ĐTBKY2])
From [ĐTB 2] NATURAL PREDICTION JOIN
(SELECT 'Kinh' AS [Dantoc], 21.5 AS [Diemthi], 'HSPT' AS [Doituong],
'TB' AS [ĐTBKY1], 'False' AS [Gioitinh], 'A' AS [Khoithi],
'Trinh sát An ninh' AS [Tennganh]) AS t
2.3.3. Bộ cơng cụ SQL Server Data Tool – Business Intelligence
SQL Server Data Tool – Business Intelligence (SSDT-BI) là bộ cơng cụ
thay thế Business Intelligence Development Studio (BIDS) cho các phiên bản từ
Visual Studio 2010 trở lên. SSDT-BI giống như BIDS với mục đích là tạo mơi
trường để phát triển các giải pháp kinh doanh với các dự án về Analysis Services,
Integration Services, và Reporting Services [8].
SSDT-BI cho phép tổ chức, quản lý và khai thác kho dữ liệu, xây dựng các
mơ hình KPDL. Một số mơ hình KPDL được hỗ trợ sẵn trong SSDT-BI bao gồm:
30
1) MS Decision Tree (Cây quyết định)
2) MS Clustering (Phân cụm)
3) MS Naive Bayes (Phân lớp Bayes)
4) MS Time Series (Chuỗi thời gian)
5) MS Association (Luật kết hợp)
6) MS Sequence Clustering (Phân tích chuỗi)
7) MS Neural Network (Mạng Neural)
8) MS Linear Regression (Hồi quy tuyến tính)
9) MS Logistics Regression (Hồi quy logistics)
Qui trình xây dựng mơ hình KPDL với SSDT-BI như sau:
1) Tạo mới Project (Analysis Services Project)
2) Tạo Data Source
3) Tạo Data Source View
4) Tạo một Mining Models Structure.
5) Tạo các Mining Models Structure.
6) Khai thác Mining Models.
7) Đánh giá mức chính xác của Mining Models.
8) Dự đốn với Mining Models.
2.3.4. Lập trình KPDL với ADODE.NET
Để viết một ứng dụng khai phá dữ liệu cĩ rất nhiều loại API được hỗ trợ
với Analysis Services. Tuy nhiên cĩ hai API quan trọng nhất là AMO và
ADOMD.NET. Theo khuyến cáo của Microsoft thì người dùng nên sử dụng AMO
để lập trình, xử lý và quản lý các mơ hình, cấu trúc và thao tác trên máy chủ, sử
dụng ADOMD.NET để tối ưu hĩa cho các truy vấn duyệt, phân tích và dự đốn.
AMO và ADOMD.NET là các API Analysis Services [9, 11]. Để sử dụng
được hai API trong ứng dụng, người dùng cần thêm vào dự án của mình các thư
viện tương ứng trong Bảng 2.2 sau:
Bảng 2.2: Bảng danh sách thư viên API Analysis Services
API References
AMO Microsoft.AnalysisServices
31
ADOMD.NET Microsoft.AnalysisServices.AdomdClient
Ví dụ: Sử dụng ADOMD.NET trong C#:
Using Microsoft.AnalysisServices.AdomdClient.
2.3.5. Đánh giá tính hiệu quả các mơ hình KPDL trong SSDT-BI
Một mơ hình khai phá dữ liệu được coi là hiệu quả hay khơng cần dựa theo
một hay nhiều tiêu chí đánh giá. Cĩ thể kể ra ba tiêu chí thường được dùng đề làm
thước đo đánh giá hiệu quả của mơ hình khai phá dữ liệu là: Tính chính xác; tính
ổn định và tính hữu dụng. Trong 3 tiêu chí trên thì tính chính xác là tiêu chí cĩ
tầm quan trọng được chú trọng đầu tiên đối với đánh giá các mơ hình. Trong
SSDT-BI, cơng cụ thường dùng để đánh giá tính chính xác các mơ hình khai phá
dữ liệu gồm cĩ 2 cơng cụ là: Lift Chart và Classification Matrix.[9]
Lift Chart giúp mơ tả chính xác của mơ hình khai phá dữ liệu dưới dạng
trực quan, thể hiện được nhiều thơng tin về kết quả cùng một lúc của các mơ hình
khai phá dữ liệu, từ đĩ dễ dàng so sánh đưa ra mơ hình phù hợp nhất, tốt nhất.
Hình 2.8: Biểu đồ đánh giá Lift Chart
Classification Matrix thể hiện kết quả dự đốn của mơ hình khai phá dữ
liệu ở dạng ma trận so sánh giữa kết quả thực của Testing Data với kết quả dự
đốn của mơ hình.
32
Hình 2.9: Đánh giá mơ hình với Classification Matrix
2.4. Kết luận chương 2
Chương 2 trình bài khái niệm về KDPL, một số thuật tốn thường được sử
dụng với KDPL ở dạng phân lớn, dự báo đĩ là: Cây quyết định, Hồi quy tuyến
tính, mạng nơ-ron, phân lớp Nạve Bayes, luật kết hợp.
Ngồi ra, chương 2 cịn đề cập đến kỹ thuật KPDL với hệ quản trị cơ sở dữ
liệu SQL Server 2012 thơng qua việc sử dụng bộ cơng cụ SSDT-BI của Microsoft,
ngơn ngữ DMX và các kỹ thuật lập trình KPDL trên máy client với thư viện
ADOMD.NET trong Analysis Services APIs. Hệ thống tư vấn sẽ sử dụng các kỹ
thuật trên để xây dựng, cách thức thực hiện sẽ được giới thiệu ở chương 3 của
luận văn.
33
Chương 3. Giải quyết bài tốn
3.1. Phát biểu bài tốn
Xuất phát từ những vấn đề tồn tại trong hệ thống đào tạo tín chỉ tại trường
Cao đẳng An ninh nhân dân I, hai bài tốn được đề xuất phát biểu như sau:
Bài tốn 1: Dựa vào các thơng tin nhân khẩu học: Giới tính, điểm thi đầu
vàovà điểm trung bình của học kỳ trước nhằm dự đốn kết quả điểm trung bình
của kỳ sau. Bài tốn 1 gồm hai bước:
- Bước 1: Liệt kê danh sách thơng tin nhân khẩu, kết quả điểm trung bình
của kỳ trước của tất cả học viên.
- Bước 2: Dự đốn kết quả điểm trung bình của kỳ sau dựa trên các thơng
tin thu được ở bước 1 nhằm hỗ trợ các học viên đánh giá được năng lực của mình
để cĩ kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm
tới các học viên đạt kết quả thấp. Việc dự đốn sẽ được thực hiện bằng cách áp
dụng các mơ hình khai phá dữ liệu trên SQL Server như: Cây quyết định, luật kết
hợp, mạng Bayes, mạng nơ-ron nhân tạo, từ đĩ so sánh độ chính xác giữa các mơ
hình này và sẽ lựa chọn ra mơ hình cĩ kết quả tốt nhất để áp dụng vào hệ thống
tư vấn học tập cho học viên.
Bài tốn 2: Dựa vào kết quả các mơn học đã học của học viên, dự đốn kết
quả đạt được của mơn học sắp tới. Bài tốn 2 gồm hai bước:
- Bước 1: Liệt kê danh sách điểm các mơn đã học của những học viên cĩ
mơn học giống nhau.
- Bước 2: Dự đốn kết quả mơn học của kỳ sau dựa trên các thơng tin thu
được ở bước 1 nhằm hỗ trợ các học viên đánh giá được năng lực của mình để cĩ
kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới
các học viên đạt kết quả thấp. Việc dự đốn sẽ được thực hiện bằng cách áp dụng
các mơ hình khai phá dữ liệu trên SQL Server như: Hồi quy tuyến tính, cây quyết
định, mạng nơ ron nhân tạo, từ đĩ so sánh độ chính xác giữa các mơ hình này và
sẽ lựa chọn ra mơ hình cĩ kết quả tốt nhất để áp dụng vào hệ thống tư vấn học tập
cho học viên.
3.2. Mơ tả một số giải thuật sử dụng trong bài tốn 1 và bài tốn 2
3.2.1. Thuật tốn Apriori
Thuật tốn Apriori được dùng trong Microsoft Association Algorithm [9]
với việc tìm các luật gồm hai pha: đầu tiền là tìm tập các mục chọn thường xuyên,
sau đĩ từ các tập mục chọn thường xuyên này để sinh ra các luật kết hợp.
34
Thuật tốn Apriori [12]
Input: Cơ sở dữ liệu D và độ hỗ trợ cực tiểu minsupp.
Output: Tập chỉ mục phổ biến trong D.
Giả mã:
Trong mơ hình Luật kết hợp, các luật được xác định dựa trên độ tin cậy
(Confidence) và trong thuật tốn kết hợp Microsoft sử dụng khái niệm xác suất
(Probability) thay cho độ tin cậy.
Để tính độ quan trọng của Luật kết hợp chúng ta sử dụng:
IMPORTANCEA→B = log
𝑃(𝐵|𝐴)
𝑃(𝐵|𝑛𝑜𝑡𝐴)
(11)
Sau khi sử dụng SQL Server 2012 Analysis Services, với tập dữ liệu cho
bài tốn 1 với các bước triển khai mơ hình khai phá dữ liệu được giới thiệu trong
phần 3.4 chúng ta cĩ được các luật được thể hiện trong hình được sắp xếp dựa
trên mức độ quan trọng và xác suất.(Hình 3.1)
Hình 3.1: Danh sách kết quả các luật
35
Luật 1: Gioitinh=False Ten nganh = Trinh sát An ninh → ĐTBKY2=G
(Importance: 91.2%, Probability: 43.1%)
Luật 2: Dantoc=Sán Dìu ĐTBKY1 = K → ĐTBKY2=G (Importance:
88.4%, Probability: 100%)
Luật 1 cĩ nghĩa là với độ hỗ trợ 91.2% của học viên cĩ Giới tính là False
và tên ngành học là Trinh sát An ninh thì khả năng ĐTBKY2 đặt Giỏi=G cĩ độ
tin cậy là 43.1%
Luật 2 cĩ nghĩa là với độ hỗ trợ 88.4% của học viên cĩ Dân tộc là Sán Dìu
và Điểm trung bình kỳ 1 là Khá (K) thì khả năng ĐTBKY2 đặt Giỏi=G cĩ độ tin
cậy là 100%
3.2.2. Thuật tốn C4.5
Thuật tốn C4.5 được phát triển dựa trên phương pháp Hunt với chiến lược
phát triển theo độ sâu (depth-first strategy)
Mã giải của thuật tốn C4.5:
Thuật tốn C4.5 được sử dụng trong Microsoft Decision Trees Algorithm
dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất”, giá trị information
gain được tính tốn dựa trên: Shannon’s entropy đối với thuộc tính rời rạc.
Entropy Shannon H(X) của biến ngẫu nhiên X cĩ phân phối xác suất rời
rạc P(i) = p1,p2,p3,p4pn được cho bởi:
𝐻𝑆ℎ𝑎𝑛𝑛𝑜𝑛(𝑋) = − ∑ 𝑝(𝑖) log2 𝑝(𝑖)
𝑛
𝑖=1 (12)
36
(13)
Ta cĩ:
𝐼𝑔𝑎𝑖𝑛(𝐴, 𝐵) = − ∑ 𝑝(𝑎) log2 𝑝(𝑎)
𝑎
− ∑ 𝑝(𝑏)
𝑏
(− ∑ 𝑝(𝑎|𝑏) log2 𝑝(𝑎|𝑏)
𝑎
)
Cơng thức (13) gồm cĩ:
H(A) là Entropy của phân phối trên thuộc tính A.
H(A|B) là Entropy mong đợi của phân phối trên thuộc tính A nếu biết được
giá trị của thuộc tính B.
H(A) - H(A|B) là mức giảm Entropy dự kiến hoặc information gain.
Ngồi Shannon’s entropy, Microsoft Decision Trees Algorithm cịn sử
dụng Bayesian with K2 Prior, Bayesian Dirichlet Equivalent with Uniform Prior
[6, 13] để lựa chọn thuộc tính tốt nhất thuật tốn C4.5
Bài tốn 1 với dữ liệu đầu vào là các thuộc tính rời rạc. Hình 3.2 thể hiện
kết quả của mơ hình Cây quyết định.
Hình 3.2: Kết quả mơ hình cây quyết định
3.2.3. Thuật tốn hồi quy tuyến tính của Microsoft
Microsoft tạo ra thuật tốn hồi quy tuyến tính từ một biến thể của thuật tốn
Cây quyết định. Khi đĩ các tham số sẽ được lựa chọn sao cho phù hợp và sẽ chỉ
chấp nhập dữ liệu đầu vào là kiểu liên tục, khi đĩ sẽ trở thành bài tốn hồi quy.
H(A|B) H(A)
37
Cơng thức hồi quy tuyến tính được nêu ở mục 2.2.4 được hiểu như sau:
Thơng số 1 (độ dốc) và 0 (hệ số chặn) được tính như sau:
1 = r
𝑆𝑦
𝑆𝑥
(Sx là độ lệch chuẩn của x, Sy là độ lệch chuẩn của y, r là hệ số
tương quan)
r =
1
𝑛−1
∑ (
𝑥𝑖−�̅�
𝑆𝑥
) (
𝑦𝑖−�̅�
𝑆𝑦
)
0 = y - 1x
Cấu trúc của mơ hình hồi quy tuyến tính trong Microsoft Linear cực kỳ đơn
giản: mơ hình khai thác biểu diễn dữ liệu dưới dạng một nút duy nhất, xác định
cơng thức hồi quy.
Tại thẻ Mining Model Viewer, trong Viewer lựa chọn Microsoft Tree
Viewer, sử dụng Mining Legend cho phép xem cơng thức hồi quy hồn
chỉnh.(Hình 3.3)
Hình 3.3: Kết quả mơ hình hồi quy tuyến tính
Tham số tự do
(hệ số chặn)
Độ dốc (Slope)
của mơ hình
Y = 0 + 1X +
Biến phụ thuộc
(kết quả)
Tham số tự
do
(hệ số chặn)
Độ dốc Biến độc lập
(nguyên nhân)
38
Mơ hình hồi quy tuyến tính mơ tả sự phụ thuộc của kết quả mơn học 61 vào
hai mơn học 53 và 67 như sau:
61 = 3.041+0.156*(53-2.826)-0.091*(67-3.241)
3.2.4. Thuật tốn Back propagation
Microsoft Neural Network sử dụng Multilayer Perceptron network hay cịn
được gọi là Back-Propagated Delta Rule network với thuật tốn lan truyền ngược
(Back propagation algorithm) được sử dụng trong huấn luyện mạng nơ-ron với
mục tiêu làm giảm sai số nhỏ nhất cĩ thể giữa giá trị dự báo và giá trị yêu cầu.
Quy tắc Delta rule là phương pháp giảm dần độ dốc, sử dụng đạo hàm của trọng
số của mạng đối với lỗi đầu ra để điều chỉnh trọng số nhằm phân loại các ví dụ
đào tạo tốt hơn.
Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp được mơ tả như
Hình 3.4.
Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp
Trong Hình 3.4 ta cĩ:
P: ma trận đầu vào(R hàng, 1 cột)
Wi: ma trận trọng số của các nơron lớp thứ i
bi: ma trận độ lệch của lớp thứ i
ni : tổng liên kết đầu vào(net input)
fi: hàm kích hoạt của lớp thứ i
39
ai: ma trận đầu ra của lớp thứ i
⊕: Hàm tính tổng liên kết đầu vào
Thuật tốn Lan truyền ngược – Back propagation algorithm [4] cĩ thể được
biểu diễn như sau:
Bước 1: Lan truyền xuơi đầu vào qua mạng
a0 = p
𝑎𝑚+1 = 𝑓𝑚+1(𝑊𝑚+1𝑎𝑚 + 𝑏𝑚+1) 𝑣ớ𝑖 𝑚 = 0,1 . , 𝑀 − 1
a = aM
Bước 2: Lan truyền độ nhạy cảm (lỗi) ngược lại qua mạng:
𝑠𝑀 = −2𝐹𝑀(𝑛𝑀)(𝑡 − 𝑎)
𝑠𝑚 = 𝐹𝑚(𝑛𝑚)(𝑊𝑚+1)𝑇𝑠𝑚+1 𝑣ớ𝑖 𝑚 = 𝑀 − 1, 𝑀 − 2, ,1
Bước 3: Các trong số và độ lệc được cập nhật bởi cơng thức sau:
𝑊𝑚(𝑘 + 1) = 𝑊𝑚(𝑘) − 𝑎𝑠𝑚(𝑎𝑚−1)𝑟
𝑏𝑚(𝑘 + 1) = 𝑏𝑚(𝑘) − 𝑎𝑠𝑚
3.3. Xây dựng CSDL
Dữ liệu sử dụng trong luận văn được thu thập từ thơng tin điểm của học
viên hệ Cao đẳng với 2 chuyên ngành. Trường Cao đẳng ANND I quy định về
việc đánh giá xếp loại học viên như sau:
Sau mỗi học kỳ, căn cứ vào điểm trung bình chung tích lũy, học viên được
xếp hạng về học lực như sau: Loại Xuất sắc: Từ 3.6 đến 4.0; loại Giỏi: từ 3.2 đến
3.59; loại Khá: từ 2.5 đến 3.19; loại Trung bình: từ 2.0 đến 2.49.
Kết quả học tập được đánh giá dựa theo các thang điểm sau:
- Thang điểm hệ 10 (từ 0 đến 10) dùng để tính điểm đánh giá bộ phận và
điểm thi kết thúc học phần.
- Thang điểm hệ chữ (A+, A, B+) được sử dụng cho điểm học phần
- Thang điểm hệ 4 (từ 0 đến 4) được sử dụng cho tính điểm trung bình
chung học kỳ, điểm trung bình chung tích lũy tại thời điểm xét và điểm trung bình
chung tích lũy của tồn khĩa học.
Việc quy đổi giữa các thang điểm được tính theo Bảng 3.1 sau:
40
Bảng 3.1: Bảng quy đổi thang điểm
Do dữ liệu của nhà trường hiện nay vẫn chưa dùng phần mềm quản lý, chủ
yếu lưu trữ dưới dạng tập tin Excel hoặc các bản cứng. Để cĩ nguồn dữ liệu dùng
cho việc khai phá nhằm dự đốn kết quả của học viên, tác giả phải thu thập tổng
hợp từ nhiều nguồn dữ liệu khác nhau, sau đĩ xử lý dữ liệu.
+ Thơng tin cá nhân của học viên: Họ tên, ngày sinh, giới tính, dân tộc, đối
tượng, quên quán, khối thi, điểm thi được tổng hợp và lưu trong bảng HocVien.
Thơng tin về lớp học, ngành học vủa học viên được lưu tại bảng Lop và bảng
Nganh.
+ Kết quả học tập từng mơn học theo từng kỳ bao gồm: id học viên, id mơn
học, điểm được lưu trong bảng KetQua.
+ Dữ liệu về mơn học bao gồm: Mã mơn, tên mơn, mơn học tiên quyết, số
tín chỉ được lưu trong bảng MonHoc.
Lược đồ CSDL quan hệ trong Hình 3.5 được đề xuất để đáp ứng được một
số vấn đề cơ bản trong đào tạo tại trường.
41
Hình 3.5: Lược đồ CSDL quan hệ
Sau khi thu thập dữ liệu, tác giả đã tiền xử lý loại bỏ các giá trị dư thừa và
thiếu, số lượng mẫu tin thu được của 950 học viên thuộc 2 ngành học.
Đối với bài tốn 1, tác giả lấy ra những thơng tin trong Bảng 3.2 để làm
dữ liệu phục vụ cho việc phân tích và dự đốn. Dữ liệu về điểm trung bình của
học kỳ được chuyển từ dạng liên tục (1.0, 1.1,.4.0) thành rời rạc (XS: Xuất
Sắc, G: Giỏi, K: Khá, TB: Trung bình, Y: Yếu) để cĩ thể chạy với 4 mơ hình
khai phá được đề xuất với bài tốn 1.
Bảng 3.2: Thơng tin dữ liệu cho bài tốn 1
STT Thuộc tính Mơ tả Giá trị
1 idhocvien
ID học viên (Thuộc
tính khĩa)
Integer (rời rạc, theo mã)
2 gioitinh Giới tính
True: Nam
False: Nữ
3 dantoc Dân tộc 54 dân tộc: Kinh,
4 doituong Đối tượng dự thi
HSPT: Học sinh phổ thơng
CSNV: Chiến sĩ nghĩa vụ
5 diemthi Điểm dự thi Float
6 khoithi Khối dự thi A, A1, C, D1
42
STT Thuộc tính Mơ tả Giá trị
7 ĐTBKY1
Điểm trung bình của
học kỳ trước
XS: Xuất Sắc
G: Giỏi
K: Khá
TB: Trung bình
Y: Yếu
8 ĐTBKY2
Điểm trung bình của
học kỳ tới (thuộc
tính dự đốn)
XS: Xuất Sắc
G: Giỏi
K: Khá
TB: Trung bình
Y: Yếu
9 quequan Quê quán 64 tỉnh thành.
10 tennganh Tên ngành
11 khoatuyensinh Khĩa tuyển sinh
Kết quả: Bộ dữ liệu sử dụng cho bài tốn số 1 (Hình 3.6)
Hình 3.6: Bộ dữ liệu sử dụng cho bài tốn số 1
Đối với bài tốn 2: Để phục vụ gợi ý cho học viên lựa chọn được mơn học
đạt kết quả khả quan nhất, hệ thống chỉ tập trung xử lý ba nhĩm dữ liệu sau: Học
viên, mơn học và điểm số. (Hình 3.7)
43
Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm
Bộ dữ liệu sử dụng cho bài tốn số 2 là một ma trận gồm danh sách điểm
các mơn của học viên như Hình 3.8.
Hình 3.8: Danh sách điểm của các học viên
3.4. Xây dựng mơ hình KPDL
Xây dựng các mơ hình dự báo kết quả học tập dựa trên các thuật tốn: Cây
quyết định, Hồi quy tuyến tính, Luật kết hợp, Mạng nơ-ron và mạng Nạve Bayes.
Các cơ sở dữ liệu dùng cho hai bài tốn đã giới thiệu ở mục 3.1 được sử
dụng cho việc xây dựng các mơ hình và được chia, lấy ngẫu nhiên theo tỷ lệ 80:20,
80% cho training và 20% cho testing.
Chúng ta tiến hành xây dựng mơ hình KPDL cho bài tốn 1 trên Visual
Studio 2015 sử dụng MS SQL Server 2012 theo các bước sau:
44
- Bước 1: Tạo Project bằng cách khởi động Visual Studio 2015 vào chọn
File/New Project. Trong nhĩm Business Intelligence chọn Analysis Services/
Analysis Services Multidimensional.
Hình 3.9: Tạo một dự án Data mining
- Bước 2: Tạo Data Source
Hình 3.10: Tạo Data Source
45
- Bước 3: Tạo Data Source View
Hình 3.11: Tạo Data Source View
- Bước 4: Tạo một Mining model structure
Trong khung Solution Explorer, bấm phải chuột vào Mining Structures
chọn New Data Mining Structure bấm Next. Trong hộp thoại tiếp theo tích chọn
From existing relational database or data warehouse và bấm Next. Trong cửa
sổ tạo cấu trúc khai phá dữ liệu, chọn Create mining structure with a mining model
và chọn mơ hình khai phá cây quyết định (Microsoft Decision Trees).(Hình 3.12)
Hình 3.12: Lựa chọn Mining model structure
46
Bấm Next để chọn Data Source View đã tạo ở bước 3, bấm Next để chọn
Case, sau đĩ tiến hành tích chọn các cột Input, Key và Predictable như Hình 3.13:
Hình 3.13: Thiết lập thuộc tính cho dự báo
Bấm Next và bấm Detect để tự động xác định nội dung và kiểu dữ liệu các
thuộc tính được sử dụng cho mơ hình khai phá như Hình 3.14:
Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo
47
Hình 3.15 chia tập dữ liệu theo tỷ lệ 80% cho training và 20% cho testing.
Hình 3.15: Thiết lập dataset với training và testing
Bấm Next, đặt tên cho Mining Structure và Mining Model:
Hình 3.16: Một Mining Structure và Mining Model được tạo
48
- Bước 5: Tạo các Mining Model khác
Khi tạo một Mining Structure ban đầu chỉ cĩ một mơ hình KPDL dựa trên
kỹ thuật Decision Tree với tên gọi là CayQD như hình vẽ trên. Trong phần này
ta cĩ thể sử dụng các kỹ thuật KPDL khác để đạt được mục đích nghiên cứu cũng
như so sánh hiệu quả KPDL của các mơ hình để chọn ra mơ hình tốt nhất. Ở đây
ta sử dụng thêm 3 mơ hình nữa là Microsoft Association Rules model, Microsoft
Nạve Bayes model và Microsoft Neural Networks.
Ví dụ: Tạo mới Microsoft Neural Network
- Click Mining Structure tab hoặc Mining Models tab
- Click chuột phải vào tên Mining Structure (nếu đã chuyển sang tab Mining
Structure) hoặc click chuột phải lên vùng view hiển thị nội dung của tab Mining
Models (nếu đang ở tab này), sau đĩ chọn New Mining Model Trong mục
Algorithm name, ta chọn thuật tốn Microsoft Neural Network và đặt tên cho mơ
hình là Neural, rồi click OK:
Hình 3.17: Thêm mới một Mining Model
Tương tự như vậy với mơ hình Microsoft Neural Network. Cuối cùng ta
được 4 mơ hình như Hình 3.18 sau:
49
Hình 3.18: Tạo 04 mơ hình cho một Mining Structure
Bước 6: Khai thác Mining Models.
Nhấn F5 để thực thi (deploy) các Mining Models. Sau đĩ chúng ta tiến hành
kiểm tra kết quả, độ chính xác, sử dụng các Mining Models dự đốn với các tab:
Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra độ chính
xác), Mining Model Prediction (dự đốn).
Ví dụ Mining Model Viewer các mơ hình:
Mơ hình Cây quyết định:
Hình 3.19: Kết quả viewer mơ hình Cây quyết định
50
Mơ hình Luật kết hợp:
Hình 3.20: Kết quả viewer mơ hình Luật kết hợp
Mơ hình Nạve Bayes:
Hình 3.21: Kết quả viewer mơ hình Nạve Bayes
51
Mơ hình Neural Network:
Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo
Bước 7: Kiểm tra độ chính xác của Mining Models.
Sử dụng thẻ Mining Accuracy Chart để kiểm tra độ chính xác của các mơ
hình để biết hiệu quả. Phương pháp kiểm tra này sử dụng Test data. SSDT-BI vẽ
thêm mơ hình lý tưởng (Ideal Model, mơ hình mà dự đốn đúng 100% các mẫu)
để dễ dàng so sánh hiệu quả dự đốn của các Mining models. Hai cơng cụ chính
để mơ tả độ chính xác của các Mining models mà BIDS dùng là Lift Chart và
Classification Matrix.
Chọn tab Mining Accuracy Chart và chọn Lift Chart:
Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình
52
Chọn tab Classification Matrix, ta được:
Hình 3.24: Kết quả Classification Matrix của 04 mơ hình
Dựa vào hai kết quả của Lift Chart và Classification Matrix ta thấy rằng
hiệu quả mơ hình Cây quyết định là cao nhất với Score = 0.79 sau đĩ là mạng nơ-
ron với Score = 0.73, tiếp đến là Nạve Bayes với Score = 0.67, và cuối cùng là
Luật kết hợp với Score = 0.58.
Bước 8: Sử dụng Mining Models để dự đốn.
Để dự đốn chúng ta cần lựa chọn một mơ hình phù hợp và sử dụng ngơn
ngữ truy vấn DMX để tạo các query dự đốn.
Ví dụ: Chúng ta sử dụng mơ hình Cây quyết định và Singleton Query để dự
đốn kết quả học tập cho học viên nam, cĩ điểm trung bình kỳ 1 là TB.
Các bước sử dụng model để dự đốn như sau:
Trong Hình 3.25 tại tab Mining Model Prediction, kích phải chuột vào
Select input Table(s) chọn Singleton Query.
Trong mục Select Model chọn mơ hình CayQD và thiết kế một query DMX
53
trực quan với dữ liệu đầu vào như Hình 3.25.
Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình
Để xem kết quả dự đốn, chọn mục Result ở gĩc trên bên trái của cửa sổ
thiết kế Prediction Query. Kết quả như Hình 3.26:
Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình
54
Các cột ĐTBKY2 và Xắc suất được dùng để xác định học viên đạt kết quả
kỳ 2 loại gì với xác suất dự đốn chính xác là bao nhiêu %.
Tương tự bài tốn 1, chúng ta tiến hành xây dựng mơ hình KPDL cho bài
tốn 2 với dữ liệu ma trận điểm của các học viên. 3 mơ hình xây dựng cho bài
tốn 2 gồm: Mơ hình hồi quy tuyến tính (DiemTest), mạng nơ-ron (Noron) và cây
quyết định (CayQD).
Hình 3.27: Tạo 3 mơ hình cho bài tốn 2
Biểu đồ Lift chart của 3 mơ hình.
Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình
55
3.5. Lập trình KPDL với ADOMD.NET
Analysis Services API cung cấp các thư viện API giúp lập trình với .NET
[7, 9]. ADOMD.NET là một thư viện giúp cho việc xây dựng các ứng dụng KPDL
trên client trở nên dễ dàng hơn.
Để sử dụng ADOMD.NET trong ứng dụng, chúng ta cần thêm thư viện
Microsoft.analysisservices.adomdclient.dll vào các dự án và trong mã nguồn sử
dụng thêm namespace Microsoft.AnalysisServices.AdomdClient như Hình
3.25:
Hình 3.29: Sử dụng ADMOD.NET trong C#
Các bước thao tác với ADOMD.NET như sau:
- Bước 1: Kết nối đến dịch vụ phân tích Analysis Services của hệ quản trị
CSDL MS SQL Server 2012 qua ADOMD.NET:
Ví dụ:
string chuoiketnoi = "Data Source = PC; User Id = sa; Password = 123
;Initial Catalog = Dudoan403";
AdomdConnection con = new AdomdConnection(ketnoi);
con.Open();
Trong đĩ:
+ AdomdConnection: là đối tượng thực hiện kết nối.
+ chuoiketnoi: là chuỗi kết nối đến dịch vụ phân tích Analysis Services với
tên máy chủ là PC, tên dịch vụ phân tích là Dudoan403, tên tài khoản User ID là
sa và mật khẩu truy cập Password là 123.
- Bước 2: Thực hiện các lệnh truy vấn DMX với ADOMD.NET
56
Ví dụ: Tạo truy vấn dự đốn điểm số mơn học 61 sắp tới của một sinh viên
với đầu vào là kết quả các mơn đã học của sinh viên đĩ.
AdomdConnection con = new AdomdConnection(chuoiketnoi);
con.Open();
AdomdCommand cmd = new AdomdCommand();
cmd.CommandText = "SELECT[DiemTest].[61] , PredictProbability(
[DiemTest].[61]) From[DiemTest] NATURAL PREDICTION JOIN (SELECT "
+ dataGridView1.Rows[0].Cells[1].Value + "AS[29]," +
dataGridView1.Rows[0].Cells[2].Value + " AS[37]," +
dataGridView1.Rows[0].Cells[3].Value + " AS[53]," +
dataGridView1.Rows[0].Cells[4].Value + " AS[59]," +
dataGridView1.Rows[0].Cells[5].Value + " AS[60]," +
dataGridView1.Rows[0].Cells[6].Value + " AS[62]," +
dataGridView1.Rows[0].Cells[7].Value + " AS[63]," +
dataGridView1.Rows[0].Cells[8].Value + " AS[67]) AS t";
cmd.Connection = con;
string prob;
string prob1;
AdomdDataReader dr;
dr = cmd.ExecuteReader();
if (dr.Read())
{
prob1 = dr.GetValue(0).ToString();
decimal pera = Convert.ToDecimal(prob1);
decimal perb = System.Math.Round(pera, 2);
prob = dr.GetValue(1).ToString();
decimal per = Convert.ToDecimal(prob);
decimal per1 = System.Math.Round((per * 100), 2);
dataGridView2.Rows.Add(cboHV.Text,Convert.ToString(perb),
Convert.ToString(per1));
}
dr.Close();
Trong đĩ:
57
+ AdomdCommand: đối tượng command thực hiện các truy vấn DMX.
+ Thuộc tính CommandText: giá trị chuỗi truy vấn DMX.
+ Thuộc tính Connection: chứa đối tượng kết nối.
+ Phương thức ExecuteReader: trả về kết quả truy vấn vào đối tượng
AdomdDataReader.
3.6. Đánh giá mơ hình
Trong luận văn, hai phương pháp Lift Chart và Classification Matrix được
sử dụng để đánh giá hiệu quả của mơ hình DMM đối với bài tốn 1 và bài tốn 2.
Luận văn nhằm xác định xem mơ hình nào sẽ cĩ hiệu quả cao nhất trong việc dự
báo kết quả học tập của học viên.
3.6.1 Đánh giá mơ hình với Lift Chart
Đối với đánh giá mơ hình dự báo với Lift Chart chúng ta cĩ hai loại: Lift
Chart trong đĩ cĩ xác định giá trị của thuộc tính dự đốn và Lift Chart cho tất cả
các trường hợp của thuộc tính dự đốn.
Lift Chart cĩ xác định giá trị cụ thể của thuộc tính dự báo:
Đối với bài tốn 1, trong mơ hình tư vấn học tập thì thuộc tính ĐTBKY2
sẽ nhận một trong 5 giá trị là Xuất sắc (XS), Giỏi (G), Khá (K), Trung Bình (TB)
hoặc Yếu (Y). Để đánh giá mơ hình dự báo kết quả học viên cĩ thể đạt là “Khá”
chúng ta sẽ nhập giá trị vào ơ Predict Value = K. Sau đĩ cho chọn thẻ Lift Chart
như Hình 3.30.
Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định
58
Hình 3.31 dưới đây là Lift Chart dự báo kết quả học tập với thuộc tính dự
báo xác định là Khá (K) của 04 mơ hình đã đề xuất:
Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình
Trong Lift Chart, trục X biểu diễn phần trăm của test dataset sử dụng để so
sánh với kết quả dự đốn, trục Y biểu diễn phần trăm của giá trị dự đốn.
Trong Hình 3.31 ta cĩ:
- Đường CayQD: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K”
của mơ hình Cây quyết định.
- Đường KetHop: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K”
của mơ hình Luật kết hợp.
- Đường Neural: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của
mơ hình Luật kết hợp.
- Đường Nạve: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của
59
mơ hình Nạve Bayes.
- Đường Random Guess Model: là đường biểu diễn kết quả của việc chọn
ngẫu nhiên (khơng cần mơ hình).
- Đường Ideal Model: là đường biểu diễn mơ hình lý tưởng (dự đốn chính
xác mọi trường hợp).
- Mining Legend: giúp chúng ta cĩ thể xem các giá trị tại bất cứ điểm nào
trên đồ thị bằng cách di chuyển thanh trượt dọc (Gray line).
Trong Hình 3.31 gray line được đặt ở vị trí 60%, khi đĩ Mining Legend cĩ
các giá trị như Bảng 3.3 sau:
Bảng 3.3: Bảng giá trị Mining Legend
Series, Model Score
Target
population
Predict
probability
CayQD 0.85 67.06% 75.55%
KetHop 0.80 63.53% 75.28%
Neural 0.81 62.35% 67.86%
Naive 0.80 61.18% 72.55%
Random Guess Model 60.00%
Ideal Model for: CayQD, KetHop,
Neural, Navie
81.18%
Từ kết quả trên chúng ta thấy:
- Mơ hình Cây quyết định cĩ tính hiệu quả là Score = 0.85, với 60% tổng
số học viên trong database, mơ hình CayQD cĩ thể dự đốn chính xác 67.06%
kết quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 75.55% mới đủ tin cậy.
- Mơ hình Luật kết hợp cĩ tính hiệu quả là Score = 0.80, với 60% tổng số
học viên trong database, mơ hình KetHop cĩ thể dự đốn chính xác 63.53% kết
quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 75.28% mới đủ tin cậy.
- Mơ hình Mạng nơ-ron cĩ tính hiệu quả là Score = 0.81, với 60% tổng số
học viên trong database, mơ hình Neural cĩ thể dự đốn chính xác 62.35% kết
quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 67.86% mới đủ tin cậy.
- Mơ hình Nạve Bayes cĩ tính hiệu quả là Score = 0.80, với 60% tổng số
học viên trong database, mơ hình Naive cĩ thể dự đốn chính xác 61.18% kết quả
60
ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 72.55% mới đủ tin cậy.
Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn:
Với Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn Để đánh
giá mơ hình dự báo kết quả học viên chúng ta sẽ để trống ơ Predict Value như
Hình 3.32.
Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn
Hình 3.33 là kết quả Lift Chart cho tất cả các trường hợp của thuộc tính dự
đốn với 04 mơ hình đã đề xuất:
Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn
Biểu đồ này mơ tả khả năng dự đốn của các mơ hình đối với tất cả các
trường hợp xếp loại điểm trung bình kỳ 2 (ĐTBKY2) của học viên. Trong đĩ trục
61
X biểu thị giá trị của thuộc tính dự đốn (là phần trăm Test Data set), trục Y bây
biểu thị phần trăm của dự đốn chính xác.
Tương tự như Lift Chart cĩ giá trị của thuộc tính dự đốn. Trong Hình 3.33
chúng ta thấy được mơ hình Cây quyết định cĩ tính hiệu quả cao nhất với Score
= 0.79, tiếp theo là mơ hình Mạng nơ-ron với Score = 0.73, mơ hình Nạve Bayes
với Score = 0.67 và cuối cùng là mơ hình Luật kết hợp với Score = 0.58
Nhận xét:
Qua kết quả trên, đối với bài tốn 1 chúng ta thấy mơ hình Cây quyết định
(CayQD) cho kết quả tốt nhất với tính hiệu quả với cả hai loại Lift Chart trong
đĩ cĩ xác định giá trị của thuộc tính dự đốn và Lift Chart cho tất cả các trư
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_ung_dung_cac_ky_thuat_trong_khai_pha_du.pdf