Luận văn Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ XUÂN LÂM NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP CHO SINH VIÊN LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội – 2020 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ LÊ XUÂN LÂM NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU HỖ TRỢ HỌC TẬP CHO SINH VIÊN Ngành: Công nghệ Thông tin Chuyên ngành: Quản lý Hệ thống Thông tin Mã số: 8480205.01 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG

pdf81 trang | Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 399 | Lượt tải: 0download
Tóm tắt tài liệu Luận văn Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. NGUYỄN HÀ NAM Hà Nội – 2020 1 LỜI CẢM ƠN Tơi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam, Trường Đại học Cơng nghệ - Đại học Quốc gia Hà Nội, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều gĩp ý quý báu trong quá trình tơi thực hiện luận văn. Tơi xin gửi lời cảm ơn chân thành tới các thầy, cơ ở khoa Cơng nghệ thơng tin – Trường Đại học Cơng nghệ - ĐHQGHN đã trang bị những kiến thức và tạo điều kiện thuận lợi cho tơi trong suốt quá trình học tập tại trường. Tơi cũng xin bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tơi những lời khuyên quý báu. Tơi xin cảm ơn gia đình, người thân, bạn bè luơn động viên và tạo mọi điều kiện tốt nhất cho tơi. Tơi xin chân thành cảm ơn! Hà Nội, tháng 9 năm 2020 Học viên Lê Xuân Lâm ii LỜI CAM ĐOAN Tơi xin cam kết cơng trình nghiên cứu này là của tơi, được thực hiện dưới sự hướng dẫn của PGS.TS. Nguyễn Hà Nam. Các số liệu, kết quả được nêu trong luận văn là trung thực và chưa được ai cơng bố ở bất cứ cơng trình nào khác. Hà Nội, tháng 9 năm 2020 Học viên Lê Xuân Lâm iii MỤC LỤC LỜI CẢM ƠN ........................................................................................................ i LỜI CAM ĐOAN ................................................................................................. ii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... v LỜI MỞ ĐẦU ....................................................................................................... 1 Chương 1. Giới thiệu ............................................................................................. 3 1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I ..................................... 3 1.2. Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I ....................................................................................................... 6 1.3. Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục ................ 8 1.4. Hướng tiếp cận của luận văn ....................................................................... 9 1.5. Kết luận chương 1 ..................................................................................... 10 Chương 2. Cơ sở lý thuyết .................................................................................. 11 2.1. Khai phá dữ liệu ........................................................................................ 11 2.1.1. Khái niệm .......................................................................................... 11 2.1.2. Những hướng tiếp cận trong KPDL .................................................. 12 2.1.3. Các bước xây dựng một giải pháp về KPDL .................................... 13 2.1.4. Các lĩnh vực ứng dụng của KPDL .................................................... 13 2.2. Một số kỹ thuật KPDL trong phân lớp, dự đốn ...................................... 15 2.2.1. Cây quyết định .................................................................................. 15 2.2.2. Phân lớp Nạve Bayes ....................................................................... 16 2.2.3. Luật kết hợp ...................................................................................... 17 2.2.4 Hồi quy tuyến tính .............................................................................. 19 2.2.5 Mạng nơ-ron nhân tạo ........................................................................ 21 2.3. KPDL với MS SQL Server ....................................................................... 23 2.3.1. Giới thiệu chung ................................................................................ 23 2.3.2. Data Mining eXtensions.................................................................... 25 2.3.3. Bộ cơng cụ SQL Server Data Tool – Business Intelligence ............. 29 2.3.4. Lập trình KPDL với ADODE.NET .................................................. 30 iv 2.3.5. Đánh giá tính hiệu quả các mơ hình KPDL trong SSDT-BI ............ 31 2.4. Kết luận chương 2 ..................................................................................... 32 Chương 3. Giải quyết bài tốn ............................................................................ 33 3.1. Phát biểu bài tốn ...................................................................................... 33 3.2. Mơ tả một số giải thuật sử dụng trong bài tốn 1 và bài tốn 2 ................ 33 3.2.1. Thuật tốn Apriori ............................................................................. 33 3.2.2. Thuật tốn C4.5 ................................................................................. 35 3.2.3. Thuật tốn hồi quy tuyến tính của Microsoft .................................... 36 3.2.4. Thuật tốn Back propagation ............................................................ 38 3.3. Xây dựng CSDL ........................................................................................ 39 3.4. Xây dựng mơ hình KPDL ......................................................................... 43 3.5. Lập trình KPDL với ADOMD.NET ......................................................... 55 3.6. Đánh giá mơ hình ...................................................................................... 57 3.6.1 Đánh giá mơ hình với Lift Chart ........................................................ 57 3.6.2 Đánh giá mơ hình với Classification Matrix ...................................... 63 3.7. Xây dựng ứng dụng hỗ trợ tư vấn học tập ................................................ 64 3.8. Kết luận chương 3 ..................................................................................... 69 KẾT LUẬN ......................................................................................................... 70 HƯỚNG PHÁT TRIỂN ...................................................................................... 70 TÀI LIỆU THAM KHẢO ................................................................................... 71 v DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa CĐ.ANND I Cao đẳng An ninh nhân dân I CSDL Cơ sở dữ liệu DMX Data Mining eXtensions DMM Data Mining Model KPDL Khai phá dữ liệu MS Microsoft SSDT-BI SQL Server Data Tool - Bussiness Intelligence QLĐT Quản lý Đào tạo vi DANH MỤC CÁC BẢNG Bảng 2.1: Lựa chọn các thuật tốn KPDL theo mục đích .................................. 24 Bảng 2.2: Bảng danh sách thư viên API Analysis Services................................ 30 Bảng 3.1: Bảng quy đổi thang điểm .................................................................... 40 Bảng 3.2: Thơng tin dữ liệu cho bài tốn 1 ......................................................... 41 Bảng 3.3: Bảng giá trị Mining Legend................................................................ 59 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1.1: Quá trình của khai thác tri thức ........................................................... 11 Hình 2.1: Cấu trúc của cây quyết định ................................................................ 15 Hình 2.2: Cây quyết định dự báo khả năng khách hàng ..................................... 16 Hình 2.3: Biểu đồ hồi quy tuyến tính đơn ........................................................... 20 Hình 2.4: Mơ hình nơ-ron đơn lẻ ........................................................................ 21 Hình 2.5: Mơ hình mạng nơ-ron đa tầng ............................................................. 21 Hình 2.6: Mạng nơ-ron trong MS Neural Network ............................................ 22 Hình 2.7: Kiến trúc tổng quan KPDL với MS SQL Server ................................ 23 Hình 2.8: Biểu đồ đánh giá Lift Chart................................................................. 31 Hình 2.9: Đánh giá mơ hình với Classification Matrix ....................................... 32 Hình 3.1: Danh sách kết quả các luật .................................................................. 34 Hình 3.2: Kết quả mơ hình cây quyết định ......................................................... 36 Hình 3.3: Kết quả mơ hình hồi quy tuyến tính .................................................... 37 Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp .................. 38 Hình 3.5: Lược đồ CSDL quan hệ ...................................................................... 41 Hình 3.6: Bộ dữ liệu sử dụng cho bài tốn số 1 .................................................. 42 Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm ....................................................... 43 Hình 3.8: Danh sách điểm của các học viên ....................................................... 43 Hình 3.9: Tạo một dự án Data mining ................................................................ 44 Hình 3.10: Tạo Data Source ................................................................................ 44 Hình 3.11: Tạo Data Source View ...................................................................... 45 Hình 3.12: Lựa chọn Mining model structure ..................................................... 45 Hình 3.13: Thiết lập thuộc tính cho dự báo ........................................................ 46 Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo .............................. 46 Hình 3.15: Thiết lập dataset với training và testing ............................................ 47 Hình 3.16: Một Mining Structure và Mining Model được tạo ........................... 47 Hình 3.17: Thêm mới một Mining Model .......................................................... 48 Hình 3.18: Tạo 04 mơ hình cho một Mining Structure ....................................... 49 vii Hình 3.19: Kết quả viewer mơ hình Cây quyết định .......................................... 49 Hình 3.20: Kết quả viewer mơ hình Luật kết hợp............................................... 50 Hình 3.21: Kết quả viewer mơ hình Nạve Bayes ............................................... 50 Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo ............................... 51 Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình ................................................... 51 Hình 3.24: Kết quả Classification Matrix của 04 mơ hình ................................. 52 Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình ..................... 53 Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình ................................ 53 Hình 3.27: Tạo 3 mơ hình cho bài tốn 2 ............................................................ 54 Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình ...................................................... 54 Hình 3.29: Sử dụng ADMOD.NET trong C# ..................................................... 55 Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định ........................ 57 Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình ................. 58 Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn ........... 60 Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn ........... 60 Hình 3.34: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 61 Hình 3.35: Mạng phụ thuộc mơ hình CayQĐ ..................................................... 62 Hình 3.36: Biểu đồ phân tán đánh giá 3 mơ hình ............................................... 62 Hình 3.37: Đánh giá 3 mơ hình với Classifications Matrix ................................ 64 Hình 3.38: Sơ đồ hoạt động hệ thống.................................................................. 65 Hình 3.39: Giao diện chính của hệ thống ............................................................ 66 Hình 3.40: Kết quả Ví dụ 1 ................................................................................. 67 Hình 3.41: Kết quả Ví dụ 2 ................................................................................. 67 Hình 3.42: Kết quả ví dụ 3 .................................................................................. 68 1 LỜI MỞ ĐẦU Trong những năm gần đây, việc ứng dụng các kỹ thuật khai phá dữ liệu và phát hiện tri thức trong các lĩnh vực giáo dục, tài chính, ngân hàng, xây dựngrất được quan tâm nghiên cứu. Đối với giáo dục, đào tạo sinh viên trong các trường Đại học, Cao đẳng theo hình thức đào tạo tín chỉ địi hỏi học viên phải cĩ sự chủ động cao. Sinh viên trong quá trình học tập phải tự mình lựa chọn, phân bổ các mơn học cho từng kỳ sao cho tích lũy đủ số tín chỉ theo quy chế đào tạo, Sinh viên hồn tồn cĩ thể ra trường sớm hoặc đúng hạn. Qua quá trình dạy học tại trường Cao đẳng An ninh nhân dân I, tơi nhận thấy tỉ lệ học viên học tập tại trường đạt kết quả chưa cao. Nguyên nhân là do các em mới bước chân từ mơi trường giáo dục THPT vào mơi trường Đại học, Cao đẳng cịn nhiều bỡ ngỡ, khĩ khăn trong việc định hướng học tập, làm ảnh hưởng tới kết quả học tập của bản thân cũng như đối với nhà trường. Chúng ta cĩ thể áp dụng lĩnh vực khai phá dữ liệu và phát hiện tri thức để giải quyết vấn đề trên, nhằm hỗ trợ cho học viên cĩ những định hướng trong việc lựa chọn, xây dựng thời khĩa biểu phù hợp bản thân mang lại đạt kết quả cao trong quá trình học tập tại trường. Từ cơ sở thực tiễn đĩ, tơi đã chọn đề tài: “Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho sinh viên”. Mục đích của đề tài này là đi sâu tìm hiểu việc phân tích dữ liệu thơng tin cá nhân của sinh viên, kết hợp với kết quả học tập thực tế trong các kỳ nhằm hỗ trợ sinh viên lựa chọn mơn học phù hợp, đạt được kết quả cao nhất. Nội dung trình bày luận văn “Nghiên cứu ứng dụng các kỹ thuật trong khai phá dữ liệu hỗ trợ học tập cho học viên” được bố cục gồm 3 chương: Chương 1: Giới thiệu Chương này trình bày về hiện trạng cơng tác quản lý đào tạo của trường CĐ.ANND I, các đối tượng, phạm vi và hướng nghiên cứu của luận văn. Chương 2: Cơ sở lý thuyết Chương này trình bày cơ sở về khai phá dữ liệu và phát hiện tri thức, các kỹ thuật khai phá dữ liệu Cây quyết định, Luật kết hợp, Hồi quy tuyến tính, Neural Networks và Nạve Bayes, Cơng cụ SSDT-BI của SQL Server 2012. Chương 3: Giải quyết bài tốn Mơ tả, xây dựng bài tốn dự đốn kết quả học tập cuối kỳ cho học viên, bài tốn dự đốn kết quả của một mơn học sắp tới. Tổng hợp và xử lý các dữ liệu liên 2 quan dùng cho phát triển hệ thống. Xây dựng một số mơ hình: Hồi quy tuyến tính, Luật kết hợp, Neural Networks, Cây quyết định, Nạve Bayes và đưa ra đánh giá các mơ hình tương ứng Xây dựng cơ sở dữ liệu quản lý học viên và chuyển cơ sở dữ liệu thành kho dữ liệu. Sau đĩ tiến hành phân tích báo cáo và xây dựng mơ hình dựa trên cơng cụ Business Intelligence của SQL Server 2012, đánh giá các mơ hình. Xây dựng ứng dụng thực nghiệm tư vấn cho học viên, dựa trên mơ hình đánh giá cho kết quả tốt nhất. 3 Chương 1. Giới thiệu 1.1. Quy trình quản lý đào tạo tại trường CĐ.ANND I Quy trình nghiệp vụ quản lý đào tạo cho hệ Cao đẳng tại trường CĐ.ANND I được tổ chức thực hiện theo Quyết định số 17/VBHN-BGDĐT, ngày 15 tháng 5 năm 2014 của Bộ trưởng Bộ giáo dục và Đào tạo ban hành Quy chế đào tạo đại học và cao đẳng hệ chính quy theo hệ thống tín chỉ; Hướng dẫn số 11792/HD- X11-X14 của Tổng cục Chính trị Cơng an nhân dân hướng dẫn thực hiện quy chế đào tạo đại học, cao đẳng theo tín chỉ; Quyết định số 499/QĐ-T33(P5), ngày 27 tháng 5 năm 2016 của Hiệu trưởng Trường Cao đẳng An ninh nhân dân I ban hành Quy định đào tạo cao đẳng hệ chính quy theo hệ thống tín chỉ. Lưu đồ sau được xây dựng quy định trách nhiệm, phương pháp tổ chức thực hiện và quản lý việc giảng dạy của Phịng Quản lý Đào tạo, các Khoa, Bộ mơn và các Phịng chức năng khác liên quan. Bước Cơng đoạn Hồ sơ 1 Quyết định và danh sách thí sinh trúng tuyển các khĩa. 2 Quyết định thành lập khố học. 3 Đề cương mơn học Lịch giảng dạy 4 5 Lịch giảng dạy chi tiết 6 7 Phiếu báo giảng dạy Sổ đầu bài Thành lập khố học Kết quả tuyển sinh Xem xét/ điều chỉnh C ĩ K hơng Lập Thời khố biểu chi tiết Lập khung thời gian khố học Thực hiện cơng tác giảng dạy Quản lý tổ chức giảng dạy Quản lý nội dung giảng dạy Quản lý tiến độ khố học 4 8 Đề thi Bài thi Kết quả thi 9 Bảng điểm Mạng nội bộ 10 Quy chế xét và cấp bằng tốt nghiệp 11 Báo cáo tổng hợp tình hình giảng dạy Mơ tả lưu đồ: - Bước 1: Hàng năm, căn cứ vào chỉ tiêu tuyển sinh do Bộ Cơng an phê quyệt, nhà trường thực hiện cơng tác tuyển sinh, họp xét điểm chuẩn, lập quyết định và danh sách thí sinh trúng tuyển; - Bước 2: Căn cứ danh sách thí sinh trúng tuyển, phịng QLĐT tiến hành phân lớp, phân cơng cán bộ quản lý đào tạo theo Quyết định thành lập từng khĩa học; - Bước 3: Hàng năm, căn cứ vào chương trình đào tạo và tiến độ đào tạo của các khĩa học, phịng QLĐT lập kế hoạch giảng dạy dự kiến của cả năm học; - Bước 4: Kế hoạch giảng dạy dự kiến được cán bộ phịng QLĐT bố trí lịch giảng cụ thể cho từng mơn học. Sau đĩ chuyển đến các khoa đào tạo để phân cơng giảng viên và đề nghị điều chỉnh lịch (nếu cĩ); - Bước 5: Căn cứ kế hoạch lịch giảng của năm học, cán bộ quản lý tiến hành lập lịch giảng chi tiết cho các khĩa (thực hiện cho cả năm học) kèm với phiếu báo lịch giảng cho từng mơn học; - Bước 6: Giảng viên thực hiện theo các lịch giảng chi tiết; - Bước 7: Quản lí quá trình giảng dạy Phân cấp trách nhiệm quản lí quá trình giảng dạy + Trưởng Khoa, Bộ mơn ✓ Phân cơng giảng viên phụ trách các học phần và báo về phịng QLĐT; Quản lý đánh giá kết quả giảng dạy Cập nhật & lưu giữ hồ sơ Quản lý kết quả học tập Xét tốt nghiệp 5 ✓ Kiểm tra giáo trình, giáo án của các giảng viên, tổ chức kiểm tra việc thực hiện lịch trình giảng dạy, chất lượng giảng dạy và cơng tác phục vụ giảng dạy; ✓ Nắm khối lượng và tình hình giảng dạy của giảng viên, học tập của sinh viên thơng qua Giáo vụ khoa, bộ mơn. ✓ Chịu trách nhiệm về chất lượng giảng dạy của Khoa, Bộ mơn; ✓ Tổ chức sinh hoạt bộ mơn theo đúng quy chế của Trường; + Giáo vụ khoa, bộ mơn ✓ Cập nhật thời khố biểu, lịch trình, lịch thi; ✓ Theo dõi việc thực hiện cơng tác giảng dạy và học tập của giảng viên và sinh viên trong Khoa; ✓ Quản lý điểm; + Chuyên viên Phịng QLĐT ✓ Trực kiểm tra việc thực hiện giờ lên lớp theo kế hoạch giảng dạy của năm học; ✓ Kiểm tra tiến độ giảng dạy theo lịch trình giảng dạy và quản lý sổ theo dõi giảng dạy. Căn cứ vào việc thực hiện giờ lên lớp, thống kê số giờ cịn thiếu và yêu cầu dạy bù đủ số tiết; ✓ Tổng hợp (1 tháng /1lần) các trường hợp sai phạm và các trường hợp phát sinh: vắng tiết, quên giờ, bỏ giờ,.... lập báo cáo gửi về phịng Quản lý học viên. + Chuyên viên Phịng thanh tra: Cĩ trách nhiệm kiểm tra: ✓ Việc thực hiện giờ lên lớp theo quy định chung; ✓ Tiến độ giảng dạy theo lịch trình giảng dạy; ✓ Việc ghi chép, sử dụng theo biểu mẫu, sổ sách và quản lý giờ giảng. + Ban Giám hiệu ✓ Là cấp cĩ thẩm quyền quyết định hình thức kỷ luật khi cĩ các giảng viên vi phạm. Trong trường hợp nghiêm trọng, Hiệu trưởng - Chủ tịch Hội đồng khen thưởng, kỷ luật Trường sẽ triệu tập họp để xét khen thưởng hoặc kỷ luật các đơn vị và cá nhân liên quan. Quản lí nội dung giảng dạy Căn cứ vào phân cơng trách nhiệm, quản lý nội dung giảng dạy gồm: + Quản lý khung chương trình. 6 + Quản lý đề cương chi tiết của các học phần. + Quản lý giáo trình, giáo án. + Đảm bảo số giáo trình, tài liệu tham khảo của các mơn học. + Bổ sung, cập nhật các thay đổi về chương trình giảng dạy sau khi đã cĩ sự thống nhất của Hội đồng khoa học Khoa hoặc Hội đồng khoa học Trường Quản lý tiến độ giảng dạy Căn cứ vào phân cơng trách nhiệm, nội dung quản lý tiến độ gồm: + Tại các lớp học lý thuyết, việc thực hiện giờ giảng cho từng mơn học được ghi chép vào Sổ theo dõi giảng dạy và học tập. + Quản lý danh sách giảng viên báo nghỉ dạy và kiểm tra việc thực hiện dạy bù. + Phịng QLĐT căn cứ vào theo dõi thực hiện thời khố biểu sẽ thống kê số giờ cịn thiếu và yêu cầu giảng viên dạy bù đủ số tiết. - Bước 8: Phịng Khảo thí đảm bảo chất lượng thực hiện việc tổ chức thi hết học phần cho các khĩa, thực hiện việc chuyển đề thi và nhận bài thi (theo quy trình phối hợp), tổ chức chấm thi và chuyển điểm về phịng QLĐT theo thời gian quy định; - Bước 9: Khi nhận bảng điểm từ phịng Khảo thí đảm bảo chất lượng, phịng QLĐT photo 2 bản: 1 bản chuyển các khoa, bộ mơn, 1 bản chuyển cơng bố cho SV. Tổ điểm gốc tiến hành nhập điểm vào hệ thống mạng nội bộ; - Bước 10: Căn cứ tiến độ đào tạo của từng khĩa học và quy chế đào tạo, phịng QLĐT tiến hành xét chuyển giai đoạn, xét điều kiện dự thi tốt nghiệp và xét tốt nghiệp cho học viên. Sau khi được Hội đồng họp xét thơng qua, kết quả xét được cơng bố cho học viên và phịng QLĐT thực hiện các bước tiếp theo của khĩa học; - Bước 11: Cập nhật và lưu trữ hồ sơ. 1.2. Bài tốn ứng dụng KPDL để xây dựng hệ thống tư vấn tại trường CĐ.ANND I Trường Cao đẳng An ninh nhân dân I là trường thuộc Bộ Cơng an cĩ nhiệm vụ đào tạo, huấn luyện chiến sĩ cĩ trình độ cao, phẩm chất chính trị vững vàng, đáp ứng nhu cầu nhân lực cho lực lượng vũ trang Cơng an nhân dân Việt Nam. Về ngành, nghề đào tạo: Trong hơn 50 năm xây dựng và phát triền, nhà 7 trường đã xây dựng và đào tạo 3 chuyên ngành đào tạo cao đẳng chính quy, 4 chuyên ngành đạo tạo Trung cấp chuyên nghiệp và nhiều chương trình đào tạo ngắn hạn khác. Các lĩnh vực đào tạo: An ninh, Ngoại tuyến, Cảnh vệ Nhiệm vụ đặt ra đối với trường CĐ.ANND I hiện nay là làm sao nâng cao được chất lượng học tập của học viên trong trường, đáp ứng được nhu cầu đào tạo trước tình hình mới là điểm trọng tâm hàng đầu được nhà trường quan tâm. Trường CĐ.ANND I đã triển khai đào tạo tín chỉ từ năm 2013-2018. Qua thực hiện triển khai mơ hình giảng dạy theo tín chỉ tại Trường cĩ rất nhiều vấn đề bất cập cần sửa đổi theo đúng nghĩa của mơ hình đào tạo theo tín chỉ, cụ thể như: - Chưa đáp ứng được yêu cầu đăng ký học tập của học viên (như phần mềm hỗ trợ đăng ký, theo dõi lịch học) - Quản lý dữ liệu về học viên chủ yếu cịn thủ cơng bằng Excel gặp nhiều khĩ khăn. - Chưa tổ chức cho học viên đăng ký theo khối lượng học tập, rút bớt học phần đăng ký mà học viên được học theo các học phần Nhà trường bố trí và lựa chọn. - Việc tổ chức cho học viên học cùng lúc hai chương trình chưa được thực hiện do quy định của ngành Cơng an hiện nay. Chính vì vậy nhu cầu tư vấn học tập của học viên thực sự khơng nhiều, ít thường xuyên, chủ yếu tập trung trong thời điểm đầu khĩa mới nhập học. Vai trị của đội ngũ cố vấn học tập cũng chưa thể hiện nhiều trong suốt quá trình đạo tạo. Thực tế tại các trường Đại học, Cao đẳng ở Việt Nam hiện nay, việc học viên tự chủ động đăng ký lựa chọn mơn học phù cho bản thân cịn chưa hiệu quả, chưa tận dụng được ưu điểm của việc học theo tín chỉ, chưa xây dựng được lộ trình học tập phù hợp với từng sinh viên. Nhằm giúp phần hỗ trợ cho học viên lựa chọn được những mơn học phù hợp với năng lực, đảm bảo hồn thành khĩa học sớm hoặc đúng hạn thì rất cần tới sự trợ giúp của giáo viên cố vấn. Tuy nhiên, ngồi những kinh nghiệm của bản thân mình thì giáo viên cố vấn sẽ phải tra kết quả học tập của mỗi học viên để trợ giúp tùy theo năng lực cá nhân của mỗi em, điều đĩ khá tốn thời gian và mất nhiều cơng sức. Việc dự đốn kết quả mơn học sắp tới của học viên dựa trên các thơng tin về những mơn học đã học và kết quả của mơn đĩ sẽ giúp cho học viên cĩ thể đánh giá được năng lực của mình để cĩ 8 kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới các học viên đạt kết quả thấp là một việc làm hết sức thiết thực. Xuất phát từ những điểm nêu trên tác giả đề xuất 2 bài tốn dự đốn kết quả học tập của học viên như sau: Bài tốn 1: Dựa vào các thơng tin nhân khẩu học: Giới tính, điểm thi đầu vàovà điểm trung bình của học kỳ trước đĩ nhằm dự đốn điểm trung bình kỳ tới của học viên. Bài tốn 2: Dựa vào kết quả các mơn học đã học của học viên, dự đốn kết quả đạt được của mơn học sắp tới. 1.3. Một số nghiên cứu về khai phá dữ liệu trong lĩnh vực giáo dục Khai phá dữ liệu cho giáo dục ngày càng được các nhà nghiên cứu trên tồn thế giới quan tâm. Sự quan tâm đến việc phát triển các kỹ thuật để phân tích dữ liệu được tạo ra trong mơi trường giáo dục được thể hiện bằng hàng loạt các hội thảo Education Data Mining. Năm 2008, một nhĩm các nhà nghiên cứu đã thành lập hội nghị nghiên cứu quốc tế thường niên về Education Data Mining, hội nghị đầu tiên diễn ra tại Montreal, Quebec, Canada. Rất nhiều các cơng trình, bài báo về Education Data Mining được xuất bản tại hội nghị International Conference on Educational Data Mining được tổ chức diễn ra hàng năm. Cĩ thể liệt kê ra một số cơng trình, bài báo về Educational Data Mining như: Trong "Conceptual Framework of Data Mining Process in Management Education in India: An Institutional Perspective" (Ranjan & Khalil, 2008) các tác giả Ranjan J. và Khalil S. đã sử dụng cây quyết định và mạng Bayes để hỗ trợ quá trình nhập học, phân tích chất lượng của quá trình giáo dục và kết quả học tập của học sinh ở Ấn Độ. "Data mining for adaptive learning sequence in English language instruction" (Y. H. Wang, Tseng, & Liao, 2009) được phát triển bởi Wang Y., Tseng M. và Liao H., đã sử dụng cây quyết định để đề xuất trình tự học tối ưu nhằm tạo điều kiện cho quá trình học tập của học sinh và để tối đa hĩa kết quả học tập của họ. "Recommender system for predicting student performance" (Thai-Nghe, Drumond, Krohn-Grimberghe, & Schmidt-Thieme, 2010) một bài báo của các tác giả Thai-Nghe N., Drumond L., Krohn-Grimberghe A. và Schmidt-Thieme L., đã đề xuất một cách tiếp cận để sử dụng các kỹ thuật khai thác dữ liệu, đặc biệt là những kỹ thuật dự đốn kết quả hoạt động của học sinh. "Mining log data for the analysis of learners' Behavior in web-based learning management systems" (Psaromiligkos, Orfanidou, Kytagias, & Zafiri, 2011) trong đĩ Psaromiligkos Y., Orfanidou., Kytagias C. và Zafiri E., đã sử dụng các quy tắc 9 kết hợp để cải thiện quy trình phản hồi liên tục trong suốt quá trình giáo dục. "Application of data mining in academic educational databases for predicting trends and patterns" (Parack, Zahid, & Merchant, 2012) Parack S. Merchant và Zahid F. Z. đã sử dụng các quy tắc kết hợp và phân cụm để xác định hồ sơ của sinh viên. "Improving the Student's Performance Using Educational Data Mining" (Priya, 2013) đã sử dụng cây quyết định để cải thiện hiệu suất của học sinh trong các khĩa học. "Data Mining: A prediction for Student's Performance Using Classification Method" (Badr, Din, & Elaraby, 2014) do Ahmed A. và Elaraby I. phát triển, trong đĩ cây quyết định được sử dụng để dự đốn điểm của học sinh cuối cấp. "Educational Data Mining: Performance Evaluation of Decision Tree and Clustering Techniques using WEKA Platform" (Saxena, 2015) được phát triển bởi Saxena R., bài báo này sử dụng cơng cụ WEKA để so sánh hiệu suất của cây quyết định và kỹ thuật phân cụm trong dữ liệu từ lĩnh vực giáo dục. Cĩ nhiều nghiên cứu điển hình trong đĩ các kỹ thuật khai thác dữ liệu được áp dụng cho giáo dục, mỗi nghiên cứu sẽ tìm kiếm câu trả lời cho một tình huống cụ thể trong Educational Data Mining. Việc tri thức được khai phá khơng chỉ nhằm mục đích cho người khai phá sử dụng mà cịn nhắm tới cả người sử hữu cũng cĩ thể sử dụng. Do dĩ, việc ứng dụng khai phá dữ liệu trong giáo dục cĩ thể hướng tới nhiều tác nhân khác nhau dưới các gĩc nhìn như: Hướng tới học viên: tư vấn, đề xuất kinh nghiệm học tập: chọn ngành học, chọn mơn học, chọn lộ trình học Hướng tới giáo viên: tư vấn, đề xuất cho giáo viên các phương pháp dạy học thích hợp dựa trên việc phân lớp các học viên thành những nhĩm theo tùy mức độ, đưa ra các điểm mâu thuẫn, bất thường trong lộ trình học của học viên, liệt kê ra các hoạt động hiệu quả giúp giáo viên cải thiện, xây dựng lại nội dung bài giảng của mình một cách hợp lý, đạt kết quả tốt hơn. Hướng tới nhà quản lý: giúp nhà quản lý đưa ra các phân tích, đánh giá chính xác về kết quả học tập của học viên qua đĩ đề ra các định hướng, hoạch định trong: đầu tư bồi dưỡng giáo viên hàng năm, phát hiện các học viên giỏi để bồi dưỡng, hoặc các học viên yếu trong diện cần nhắc nhở, cĩ kế hoạch tăng giờ, tăng số tiết v.v 1.4. Hướng tiếp cận của luận văn Luận văn trú trọng tới việc nghiên cứu về lý thuyết khai phá dữ liệu bằng việc sử dụng cơng cụ khai phá dữ liệu SSDT-BI do Microsoft phát triển. Dữ liệu 10 được sử dụng để khai phá dữ liệu là điểm thực tế của học viên trường Cao đẳng ANND I. Để giải quyết bài tốn về dự báo, dự đốn kết quả học tập của học viên luận văn sử dụng một số thuật tốn KDPL được hỗ trợ trong SQL Server. Từ các mơ hình dự đốn, tác giả sẽ lựa chọn ra mơ hình dự đốn tốt nhất và xây dựng chương trình thực nghiệm để hỗ trợ học tập cho học viên. 1.5. Kết luận chương 1 Chương này giới thiệu về bài tốn thực tế tại Trường Cao đẳng ANND I, những vấn đề đặt ra cần giải quyết đối với bài tốn, một số hướng nghiên cứu của KDPL trong giáo dục hiện nay và hướng tiếp cận của luận văn. 11 Chương 2. Cơ sở lý thuyết 2.1. Khai phá dữ liệu 2.1.1. Khái niệm Khai phá dữ liệu là một t...ng nhiều trường hợp khác thì ta cĩ thể cung cấp thêm nhiều tham số và tham trị để truy tìm ra kết quả mà mình mong muốn. 29 SELECT [TM Decision Tree].[Bike Buyer], PredictHistogram([Bike Buyer]) FROM [TM Decision Tree] NATURAL PREDICTION JOIN (SELECT 35 AS [Age], '5-10 Miles' AS [Commute Distance], '1' AS [House Owner Flag], 2 AS [Number Cars Owned], 2 AS [Total Children]) AS t Ngồi ra cịn các hàm Predict khác như: PredictProbability, PredictSupport, PredictAdjustedProbability, PredictVariance và PredictStdevall trả về các kết quả như là trong quá trình phân tích: SELECT [ĐTB 2].[ĐTBKY2], PredictHistogram([ĐTB 2].[ĐTBKY2]), PredictProbability([ĐTB 2].[ĐTBKY2]) From [ĐTB 2] NATURAL PREDICTION JOIN (SELECT 'Kinh' AS [Dantoc], 21.5 AS [Diemthi], 'HSPT' AS [Doituong], 'TB' AS [ĐTBKY1], 'False' AS [Gioitinh], 'A' AS [Khoithi], 'Trinh sát An ninh' AS [Tennganh]) AS t 2.3.3. Bộ cơng cụ SQL Server Data Tool – Business Intelligence SQL Server Data Tool – Business Intelligence (SSDT-BI) là bộ cơng cụ thay thế Business Intelligence Development Studio (BIDS) cho các phiên bản từ Visual Studio 2010 trở lên. SSDT-BI giống như BIDS với mục đích là tạo mơi trường để phát triển các giải pháp kinh doanh với các dự án về Analysis Services, Integration Services, và Reporting Services [8]. SSDT-BI cho phép tổ chức, quản lý và khai thác kho dữ liệu, xây dựng các mơ hình KPDL. Một số mơ hình KPDL được hỗ trợ sẵn trong SSDT-BI bao gồm: 30 1) MS Decision Tree (Cây quyết định) 2) MS Clustering (Phân cụm) 3) MS Naive Bayes (Phân lớp Bayes) 4) MS Time Series (Chuỗi thời gian) 5) MS Association (Luật kết hợp) 6) MS Sequence Clustering (Phân tích chuỗi) 7) MS Neural Network (Mạng Neural) 8) MS Linear Regression (Hồi quy tuyến tính) 9) MS Logistics Regression (Hồi quy logistics) Qui trình xây dựng mơ hình KPDL với SSDT-BI như sau: 1) Tạo mới Project (Analysis Services Project) 2) Tạo Data Source 3) Tạo Data Source View 4) Tạo một Mining Models Structure. 5) Tạo các Mining Models Structure. 6) Khai thác Mining Models. 7) Đánh giá mức chính xác của Mining Models. 8) Dự đốn với Mining Models. 2.3.4. Lập trình KPDL với ADODE.NET Để viết một ứng dụng khai phá dữ liệu cĩ rất nhiều loại API được hỗ trợ với Analysis Services. Tuy nhiên cĩ hai API quan trọng nhất là AMO và ADOMD.NET. Theo khuyến cáo của Microsoft thì người dùng nên sử dụng AMO để lập trình, xử lý và quản lý các mơ hình, cấu trúc và thao tác trên máy chủ, sử dụng ADOMD.NET để tối ưu hĩa cho các truy vấn duyệt, phân tích và dự đốn. AMO và ADOMD.NET là các API Analysis Services [9, 11]. Để sử dụng được hai API trong ứng dụng, người dùng cần thêm vào dự án của mình các thư viện tương ứng trong Bảng 2.2 sau: Bảng 2.2: Bảng danh sách thư viên API Analysis Services API References AMO Microsoft.AnalysisServices 31 ADOMD.NET Microsoft.AnalysisServices.AdomdClient Ví dụ: Sử dụng ADOMD.NET trong C#: Using Microsoft.AnalysisServices.AdomdClient. 2.3.5. Đánh giá tính hiệu quả các mơ hình KPDL trong SSDT-BI Một mơ hình khai phá dữ liệu được coi là hiệu quả hay khơng cần dựa theo một hay nhiều tiêu chí đánh giá. Cĩ thể kể ra ba tiêu chí thường được dùng đề làm thước đo đánh giá hiệu quả của mơ hình khai phá dữ liệu là: Tính chính xác; tính ổn định và tính hữu dụng. Trong 3 tiêu chí trên thì tính chính xác là tiêu chí cĩ tầm quan trọng được chú trọng đầu tiên đối với đánh giá các mơ hình. Trong SSDT-BI, cơng cụ thường dùng để đánh giá tính chính xác các mơ hình khai phá dữ liệu gồm cĩ 2 cơng cụ là: Lift Chart và Classification Matrix.[9] Lift Chart giúp mơ tả chính xác của mơ hình khai phá dữ liệu dưới dạng trực quan, thể hiện được nhiều thơng tin về kết quả cùng một lúc của các mơ hình khai phá dữ liệu, từ đĩ dễ dàng so sánh đưa ra mơ hình phù hợp nhất, tốt nhất. Hình 2.8: Biểu đồ đánh giá Lift Chart Classification Matrix thể hiện kết quả dự đốn của mơ hình khai phá dữ liệu ở dạng ma trận so sánh giữa kết quả thực của Testing Data với kết quả dự đốn của mơ hình. 32 Hình 2.9: Đánh giá mơ hình với Classification Matrix 2.4. Kết luận chương 2 Chương 2 trình bài khái niệm về KDPL, một số thuật tốn thường được sử dụng với KDPL ở dạng phân lớn, dự báo đĩ là: Cây quyết định, Hồi quy tuyến tính, mạng nơ-ron, phân lớp Nạve Bayes, luật kết hợp. Ngồi ra, chương 2 cịn đề cập đến kỹ thuật KPDL với hệ quản trị cơ sở dữ liệu SQL Server 2012 thơng qua việc sử dụng bộ cơng cụ SSDT-BI của Microsoft, ngơn ngữ DMX và các kỹ thuật lập trình KPDL trên máy client với thư viện ADOMD.NET trong Analysis Services APIs. Hệ thống tư vấn sẽ sử dụng các kỹ thuật trên để xây dựng, cách thức thực hiện sẽ được giới thiệu ở chương 3 của luận văn. 33 Chương 3. Giải quyết bài tốn 3.1. Phát biểu bài tốn Xuất phát từ những vấn đề tồn tại trong hệ thống đào tạo tín chỉ tại trường Cao đẳng An ninh nhân dân I, hai bài tốn được đề xuất phát biểu như sau: Bài tốn 1: Dựa vào các thơng tin nhân khẩu học: Giới tính, điểm thi đầu vàovà điểm trung bình của học kỳ trước nhằm dự đốn kết quả điểm trung bình của kỳ sau. Bài tốn 1 gồm hai bước: - Bước 1: Liệt kê danh sách thơng tin nhân khẩu, kết quả điểm trung bình của kỳ trước của tất cả học viên. - Bước 2: Dự đốn kết quả điểm trung bình của kỳ sau dựa trên các thơng tin thu được ở bước 1 nhằm hỗ trợ các học viên đánh giá được năng lực của mình để cĩ kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới các học viên đạt kết quả thấp. Việc dự đốn sẽ được thực hiện bằng cách áp dụng các mơ hình khai phá dữ liệu trên SQL Server như: Cây quyết định, luật kết hợp, mạng Bayes, mạng nơ-ron nhân tạo, từ đĩ so sánh độ chính xác giữa các mơ hình này và sẽ lựa chọn ra mơ hình cĩ kết quả tốt nhất để áp dụng vào hệ thống tư vấn học tập cho học viên. Bài tốn 2: Dựa vào kết quả các mơn học đã học của học viên, dự đốn kết quả đạt được của mơn học sắp tới. Bài tốn 2 gồm hai bước: - Bước 1: Liệt kê danh sách điểm các mơn đã học của những học viên cĩ mơn học giống nhau. - Bước 2: Dự đốn kết quả mơn học của kỳ sau dựa trên các thơng tin thu được ở bước 1 nhằm hỗ trợ các học viên đánh giá được năng lực của mình để cĩ kế hoạch học tập phù hợp, đồng thời giúp cho cố vấn học tập cảnh báo sớm tới các học viên đạt kết quả thấp. Việc dự đốn sẽ được thực hiện bằng cách áp dụng các mơ hình khai phá dữ liệu trên SQL Server như: Hồi quy tuyến tính, cây quyết định, mạng nơ ron nhân tạo, từ đĩ so sánh độ chính xác giữa các mơ hình này và sẽ lựa chọn ra mơ hình cĩ kết quả tốt nhất để áp dụng vào hệ thống tư vấn học tập cho học viên. 3.2. Mơ tả một số giải thuật sử dụng trong bài tốn 1 và bài tốn 2 3.2.1. Thuật tốn Apriori Thuật tốn Apriori được dùng trong Microsoft Association Algorithm [9] với việc tìm các luật gồm hai pha: đầu tiền là tìm tập các mục chọn thường xuyên, sau đĩ từ các tập mục chọn thường xuyên này để sinh ra các luật kết hợp. 34 Thuật tốn Apriori [12] Input: Cơ sở dữ liệu D và độ hỗ trợ cực tiểu minsupp. Output: Tập chỉ mục phổ biến trong D. Giả mã: Trong mơ hình Luật kết hợp, các luật được xác định dựa trên độ tin cậy (Confidence) và trong thuật tốn kết hợp Microsoft sử dụng khái niệm xác suất (Probability) thay cho độ tin cậy. Để tính độ quan trọng của Luật kết hợp chúng ta sử dụng: IMPORTANCEA→B = log 𝑃(𝐵|𝐴) 𝑃(𝐵|𝑛𝑜𝑡𝐴) (11) Sau khi sử dụng SQL Server 2012 Analysis Services, với tập dữ liệu cho bài tốn 1 với các bước triển khai mơ hình khai phá dữ liệu được giới thiệu trong phần 3.4 chúng ta cĩ được các luật được thể hiện trong hình được sắp xếp dựa trên mức độ quan trọng và xác suất.(Hình 3.1) Hình 3.1: Danh sách kết quả các luật 35 Luật 1: Gioitinh=False  Ten nganh = Trinh sát An ninh → ĐTBKY2=G (Importance: 91.2%, Probability: 43.1%) Luật 2: Dantoc=Sán Dìu  ĐTBKY1 = K → ĐTBKY2=G (Importance: 88.4%, Probability: 100%) Luật 1 cĩ nghĩa là với độ hỗ trợ 91.2% của học viên cĩ Giới tính là False và tên ngành học là Trinh sát An ninh thì khả năng ĐTBKY2 đặt Giỏi=G cĩ độ tin cậy là 43.1% Luật 2 cĩ nghĩa là với độ hỗ trợ 88.4% của học viên cĩ Dân tộc là Sán Dìu và Điểm trung bình kỳ 1 là Khá (K) thì khả năng ĐTBKY2 đặt Giỏi=G cĩ độ tin cậy là 100% 3.2.2. Thuật tốn C4.5 Thuật tốn C4.5 được phát triển dựa trên phương pháp Hunt với chiến lược phát triển theo độ sâu (depth-first strategy) Mã giải của thuật tốn C4.5: Thuật tốn C4.5 được sử dụng trong Microsoft Decision Trees Algorithm dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất”, giá trị information gain được tính tốn dựa trên: Shannon’s entropy đối với thuộc tính rời rạc. Entropy Shannon H(X) của biến ngẫu nhiên X cĩ phân phối xác suất rời rạc P(i) = p1,p2,p3,p4pn được cho bởi: 𝐻𝑆ℎ𝑎𝑛𝑛𝑜𝑛(𝑋) = − ∑ 𝑝(𝑖) log2 𝑝(𝑖) 𝑛 𝑖=1 (12) 36 (13) Ta cĩ: 𝐼𝑔𝑎𝑖𝑛(𝐴, 𝐵) = − ∑ 𝑝(𝑎) log2 𝑝(𝑎) 𝑎 − ∑ 𝑝(𝑏) 𝑏 (− ∑ 𝑝(𝑎|𝑏) log2 𝑝(𝑎|𝑏) 𝑎 ) Cơng thức (13) gồm cĩ: H(A) là Entropy của phân phối trên thuộc tính A. H(A|B) là Entropy mong đợi của phân phối trên thuộc tính A nếu biết được giá trị của thuộc tính B. H(A) - H(A|B) là mức giảm Entropy dự kiến hoặc information gain. Ngồi Shannon’s entropy, Microsoft Decision Trees Algorithm cịn sử dụng Bayesian with K2 Prior, Bayesian Dirichlet Equivalent with Uniform Prior [6, 13] để lựa chọn thuộc tính tốt nhất thuật tốn C4.5 Bài tốn 1 với dữ liệu đầu vào là các thuộc tính rời rạc. Hình 3.2 thể hiện kết quả của mơ hình Cây quyết định. Hình 3.2: Kết quả mơ hình cây quyết định 3.2.3. Thuật tốn hồi quy tuyến tính của Microsoft Microsoft tạo ra thuật tốn hồi quy tuyến tính từ một biến thể của thuật tốn Cây quyết định. Khi đĩ các tham số sẽ được lựa chọn sao cho phù hợp và sẽ chỉ chấp nhập dữ liệu đầu vào là kiểu liên tục, khi đĩ sẽ trở thành bài tốn hồi quy. H(A|B) H(A) 37 Cơng thức hồi quy tuyến tính được nêu ở mục 2.2.4 được hiểu như sau: Thơng số 1 (độ dốc) và 0 (hệ số chặn) được tính như sau: 1 = r 𝑆𝑦 𝑆𝑥 (Sx là độ lệch chuẩn của x, Sy là độ lệch chuẩn của y, r là hệ số tương quan) r = 1 𝑛−1 ∑ ( 𝑥𝑖−�̅� 𝑆𝑥 ) ( 𝑦𝑖−�̅� 𝑆𝑦 ) 0 = y - 1x Cấu trúc của mơ hình hồi quy tuyến tính trong Microsoft Linear cực kỳ đơn giản: mơ hình khai thác biểu diễn dữ liệu dưới dạng một nút duy nhất, xác định cơng thức hồi quy. Tại thẻ Mining Model Viewer, trong Viewer lựa chọn Microsoft Tree Viewer, sử dụng Mining Legend cho phép xem cơng thức hồi quy hồn chỉnh.(Hình 3.3) Hình 3.3: Kết quả mơ hình hồi quy tuyến tính Tham số tự do (hệ số chặn) Độ dốc (Slope) của mơ hình Y = 0 + 1X +  Biến phụ thuộc (kết quả) Tham số tự do (hệ số chặn) Độ dốc Biến độc lập (nguyên nhân) 38 Mơ hình hồi quy tuyến tính mơ tả sự phụ thuộc của kết quả mơn học 61 vào hai mơn học 53 và 67 như sau: 61 = 3.041+0.156*(53-2.826)-0.091*(67-3.241) 3.2.4. Thuật tốn Back propagation Microsoft Neural Network sử dụng Multilayer Perceptron network hay cịn được gọi là Back-Propagated Delta Rule network với thuật tốn lan truyền ngược (Back propagation algorithm) được sử dụng trong huấn luyện mạng nơ-ron với mục tiêu làm giảm sai số nhỏ nhất cĩ thể giữa giá trị dự báo và giá trị yêu cầu. Quy tắc Delta rule là phương pháp giảm dần độ dốc, sử dụng đạo hàm của trọng số của mạng đối với lỗi đầu ra để điều chỉnh trọng số nhằm phân loại các ví dụ đào tạo tốt hơn. Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp được mơ tả như Hình 3.4. Hình 3.4: Dạng tổng quát của mạng nơ-ron truyền thẳng nhiều lớp Trong Hình 3.4 ta cĩ: P: ma trận đầu vào(R hàng, 1 cột) Wi: ma trận trọng số của các nơron lớp thứ i bi: ma trận độ lệch của lớp thứ i ni : tổng liên kết đầu vào(net input) fi: hàm kích hoạt của lớp thứ i 39 ai: ma trận đầu ra của lớp thứ i ⊕: Hàm tính tổng liên kết đầu vào Thuật tốn Lan truyền ngược – Back propagation algorithm [4] cĩ thể được biểu diễn như sau: Bước 1: Lan truyền xuơi đầu vào qua mạng a0 = p 𝑎𝑚+1 = 𝑓𝑚+1(𝑊𝑚+1𝑎𝑚 + 𝑏𝑚+1) 𝑣ớ𝑖 𝑚 = 0,1 . , 𝑀 − 1 a = aM Bước 2: Lan truyền độ nhạy cảm (lỗi) ngược lại qua mạng: 𝑠𝑀 = −2𝐹𝑀(𝑛𝑀)(𝑡 − 𝑎) 𝑠𝑚 = 𝐹𝑚(𝑛𝑚)(𝑊𝑚+1)𝑇𝑠𝑚+1 𝑣ớ𝑖 𝑚 = 𝑀 − 1, 𝑀 − 2, ,1 Bước 3: Các trong số và độ lệc được cập nhật bởi cơng thức sau: 𝑊𝑚(𝑘 + 1) = 𝑊𝑚(𝑘) − 𝑎𝑠𝑚(𝑎𝑚−1)𝑟 𝑏𝑚(𝑘 + 1) = 𝑏𝑚(𝑘) − 𝑎𝑠𝑚 3.3. Xây dựng CSDL Dữ liệu sử dụng trong luận văn được thu thập từ thơng tin điểm của học viên hệ Cao đẳng với 2 chuyên ngành. Trường Cao đẳng ANND I quy định về việc đánh giá xếp loại học viên như sau: Sau mỗi học kỳ, căn cứ vào điểm trung bình chung tích lũy, học viên được xếp hạng về học lực như sau: Loại Xuất sắc: Từ 3.6 đến 4.0; loại Giỏi: từ 3.2 đến 3.59; loại Khá: từ 2.5 đến 3.19; loại Trung bình: từ 2.0 đến 2.49. Kết quả học tập được đánh giá dựa theo các thang điểm sau: - Thang điểm hệ 10 (từ 0 đến 10) dùng để tính điểm đánh giá bộ phận và điểm thi kết thúc học phần. - Thang điểm hệ chữ (A+, A, B+) được sử dụng cho điểm học phần - Thang điểm hệ 4 (từ 0 đến 4) được sử dụng cho tính điểm trung bình chung học kỳ, điểm trung bình chung tích lũy tại thời điểm xét và điểm trung bình chung tích lũy của tồn khĩa học. Việc quy đổi giữa các thang điểm được tính theo Bảng 3.1 sau: 40 Bảng 3.1: Bảng quy đổi thang điểm Do dữ liệu của nhà trường hiện nay vẫn chưa dùng phần mềm quản lý, chủ yếu lưu trữ dưới dạng tập tin Excel hoặc các bản cứng. Để cĩ nguồn dữ liệu dùng cho việc khai phá nhằm dự đốn kết quả của học viên, tác giả phải thu thập tổng hợp từ nhiều nguồn dữ liệu khác nhau, sau đĩ xử lý dữ liệu. + Thơng tin cá nhân của học viên: Họ tên, ngày sinh, giới tính, dân tộc, đối tượng, quên quán, khối thi, điểm thi được tổng hợp và lưu trong bảng HocVien. Thơng tin về lớp học, ngành học vủa học viên được lưu tại bảng Lop và bảng Nganh. + Kết quả học tập từng mơn học theo từng kỳ bao gồm: id học viên, id mơn học, điểm được lưu trong bảng KetQua. + Dữ liệu về mơn học bao gồm: Mã mơn, tên mơn, mơn học tiên quyết, số tín chỉ được lưu trong bảng MonHoc. Lược đồ CSDL quan hệ trong Hình 3.5 được đề xuất để đáp ứng được một số vấn đề cơ bản trong đào tạo tại trường. 41 Hình 3.5: Lược đồ CSDL quan hệ Sau khi thu thập dữ liệu, tác giả đã tiền xử lý loại bỏ các giá trị dư thừa và thiếu, số lượng mẫu tin thu được của 950 học viên thuộc 2 ngành học. Đối với bài tốn 1, tác giả lấy ra những thơng tin trong Bảng 3.2 để làm dữ liệu phục vụ cho việc phân tích và dự đốn. Dữ liệu về điểm trung bình của học kỳ được chuyển từ dạng liên tục (1.0, 1.1,.4.0) thành rời rạc (XS: Xuất Sắc, G: Giỏi, K: Khá, TB: Trung bình, Y: Yếu) để cĩ thể chạy với 4 mơ hình khai phá được đề xuất với bài tốn 1. Bảng 3.2: Thơng tin dữ liệu cho bài tốn 1 STT Thuộc tính Mơ tả Giá trị 1 idhocvien ID học viên (Thuộc tính khĩa) Integer (rời rạc, theo mã) 2 gioitinh Giới tính True: Nam False: Nữ 3 dantoc Dân tộc 54 dân tộc: Kinh, 4 doituong Đối tượng dự thi HSPT: Học sinh phổ thơng CSNV: Chiến sĩ nghĩa vụ 5 diemthi Điểm dự thi Float 6 khoithi Khối dự thi A, A1, C, D1 42 STT Thuộc tính Mơ tả Giá trị 7 ĐTBKY1 Điểm trung bình của học kỳ trước XS: Xuất Sắc G: Giỏi K: Khá TB: Trung bình Y: Yếu 8 ĐTBKY2 Điểm trung bình của học kỳ tới (thuộc tính dự đốn) XS: Xuất Sắc G: Giỏi K: Khá TB: Trung bình Y: Yếu 9 quequan Quê quán 64 tỉnh thành. 10 tennganh Tên ngành 11 khoatuyensinh Khĩa tuyển sinh Kết quả: Bộ dữ liệu sử dụng cho bài tốn số 1 (Hình 3.6) Hình 3.6: Bộ dữ liệu sử dụng cho bài tốn số 1 Đối với bài tốn 2: Để phục vụ gợi ý cho học viên lựa chọn được mơn học đạt kết quả khả quan nhất, hệ thống chỉ tập trung xử lý ba nhĩm dữ liệu sau: Học viên, mơn học và điểm số. (Hình 3.7) 43 Hình 3.7: Sơ đồ liên quan đến dữ liệu điểm Bộ dữ liệu sử dụng cho bài tốn số 2 là một ma trận gồm danh sách điểm các mơn của học viên như Hình 3.8. Hình 3.8: Danh sách điểm của các học viên 3.4. Xây dựng mơ hình KPDL Xây dựng các mơ hình dự báo kết quả học tập dựa trên các thuật tốn: Cây quyết định, Hồi quy tuyến tính, Luật kết hợp, Mạng nơ-ron và mạng Nạve Bayes. Các cơ sở dữ liệu dùng cho hai bài tốn đã giới thiệu ở mục 3.1 được sử dụng cho việc xây dựng các mơ hình và được chia, lấy ngẫu nhiên theo tỷ lệ 80:20, 80% cho training và 20% cho testing. Chúng ta tiến hành xây dựng mơ hình KPDL cho bài tốn 1 trên Visual Studio 2015 sử dụng MS SQL Server 2012 theo các bước sau: 44 - Bước 1: Tạo Project bằng cách khởi động Visual Studio 2015 vào chọn File/New Project. Trong nhĩm Business Intelligence chọn Analysis Services/ Analysis Services Multidimensional. Hình 3.9: Tạo một dự án Data mining - Bước 2: Tạo Data Source Hình 3.10: Tạo Data Source 45 - Bước 3: Tạo Data Source View Hình 3.11: Tạo Data Source View - Bước 4: Tạo một Mining model structure Trong khung Solution Explorer, bấm phải chuột vào Mining Structures chọn New Data Mining Structure bấm Next. Trong hộp thoại tiếp theo tích chọn From existing relational database or data warehouse và bấm Next. Trong cửa sổ tạo cấu trúc khai phá dữ liệu, chọn Create mining structure with a mining model và chọn mơ hình khai phá cây quyết định (Microsoft Decision Trees).(Hình 3.12) Hình 3.12: Lựa chọn Mining model structure 46 Bấm Next để chọn Data Source View đã tạo ở bước 3, bấm Next để chọn Case, sau đĩ tiến hành tích chọn các cột Input, Key và Predictable như Hình 3.13: Hình 3.13: Thiết lập thuộc tính cho dự báo Bấm Next và bấm Detect để tự động xác định nội dung và kiểu dữ liệu các thuộc tính được sử dụng cho mơ hình khai phá như Hình 3.14: Hình 3.14: Xác định kiểu dữ liệu các thuộc tính cho dự báo 47 Hình 3.15 chia tập dữ liệu theo tỷ lệ 80% cho training và 20% cho testing. Hình 3.15: Thiết lập dataset với training và testing Bấm Next, đặt tên cho Mining Structure và Mining Model: Hình 3.16: Một Mining Structure và Mining Model được tạo 48 - Bước 5: Tạo các Mining Model khác Khi tạo một Mining Structure ban đầu chỉ cĩ một mơ hình KPDL dựa trên kỹ thuật Decision Tree với tên gọi là CayQD như hình vẽ trên. Trong phần này ta cĩ thể sử dụng các kỹ thuật KPDL khác để đạt được mục đích nghiên cứu cũng như so sánh hiệu quả KPDL của các mơ hình để chọn ra mơ hình tốt nhất. Ở đây ta sử dụng thêm 3 mơ hình nữa là Microsoft Association Rules model, Microsoft Nạve Bayes model và Microsoft Neural Networks. Ví dụ: Tạo mới Microsoft Neural Network - Click Mining Structure tab hoặc Mining Models tab - Click chuột phải vào tên Mining Structure (nếu đã chuyển sang tab Mining Structure) hoặc click chuột phải lên vùng view hiển thị nội dung của tab Mining Models (nếu đang ở tab này), sau đĩ chọn New Mining Model Trong mục Algorithm name, ta chọn thuật tốn Microsoft Neural Network và đặt tên cho mơ hình là Neural, rồi click OK: Hình 3.17: Thêm mới một Mining Model Tương tự như vậy với mơ hình Microsoft Neural Network. Cuối cùng ta được 4 mơ hình như Hình 3.18 sau: 49 Hình 3.18: Tạo 04 mơ hình cho một Mining Structure Bước 6: Khai thác Mining Models. Nhấn F5 để thực thi (deploy) các Mining Models. Sau đĩ chúng ta tiến hành kiểm tra kết quả, độ chính xác, sử dụng các Mining Models dự đốn với các tab: Mining Model Viewer (xem kết quả), Mining Accuracy Chart (kiểm tra độ chính xác), Mining Model Prediction (dự đốn). Ví dụ Mining Model Viewer các mơ hình: Mơ hình Cây quyết định: Hình 3.19: Kết quả viewer mơ hình Cây quyết định 50 Mơ hình Luật kết hợp: Hình 3.20: Kết quả viewer mơ hình Luật kết hợp Mơ hình Nạve Bayes: Hình 3.21: Kết quả viewer mơ hình Nạve Bayes 51 Mơ hình Neural Network: Hình 3.22: Kết quả viewer mơ hình mạng nơ-ron nhân tạo Bước 7: Kiểm tra độ chính xác của Mining Models. Sử dụng thẻ Mining Accuracy Chart để kiểm tra độ chính xác của các mơ hình để biết hiệu quả. Phương pháp kiểm tra này sử dụng Test data. SSDT-BI vẽ thêm mơ hình lý tưởng (Ideal Model, mơ hình mà dự đốn đúng 100% các mẫu) để dễ dàng so sánh hiệu quả dự đốn của các Mining models. Hai cơng cụ chính để mơ tả độ chính xác của các Mining models mà BIDS dùng là Lift Chart và Classification Matrix. Chọn tab Mining Accuracy Chart và chọn Lift Chart: Hình 3.23: Biểu đồ Lift Chart cho 04 mơ hình 52 Chọn tab Classification Matrix, ta được: Hình 3.24: Kết quả Classification Matrix của 04 mơ hình Dựa vào hai kết quả của Lift Chart và Classification Matrix ta thấy rằng hiệu quả mơ hình Cây quyết định là cao nhất với Score = 0.79 sau đĩ là mạng nơ- ron với Score = 0.73, tiếp đến là Nạve Bayes với Score = 0.67, và cuối cùng là Luật kết hợp với Score = 0.58. Bước 8: Sử dụng Mining Models để dự đốn. Để dự đốn chúng ta cần lựa chọn một mơ hình phù hợp và sử dụng ngơn ngữ truy vấn DMX để tạo các query dự đốn. Ví dụ: Chúng ta sử dụng mơ hình Cây quyết định và Singleton Query để dự đốn kết quả học tập cho học viên nam, cĩ điểm trung bình kỳ 1 là TB. Các bước sử dụng model để dự đốn như sau: Trong Hình 3.25 tại tab Mining Model Prediction, kích phải chuột vào Select input Table(s) chọn Singleton Query. Trong mục Select Model chọn mơ hình CayQD và thiết kế một query DMX 53 trực quan với dữ liệu đầu vào như Hình 3.25. Hình 3.25: Thiết kế truy vấn Singleton Query DMX với mơ hình Để xem kết quả dự đốn, chọn mục Result ở gĩc trên bên trái của cửa sổ thiết kế Prediction Query. Kết quả như Hình 3.26: Hình 3.26: Kết quả truy vấn Singleton Query với mơ hình 54 Các cột ĐTBKY2 và Xắc suất được dùng để xác định học viên đạt kết quả kỳ 2 loại gì với xác suất dự đốn chính xác là bao nhiêu %. Tương tự bài tốn 1, chúng ta tiến hành xây dựng mơ hình KPDL cho bài tốn 2 với dữ liệu ma trận điểm của các học viên. 3 mơ hình xây dựng cho bài tốn 2 gồm: Mơ hình hồi quy tuyến tính (DiemTest), mạng nơ-ron (Noron) và cây quyết định (CayQD). Hình 3.27: Tạo 3 mơ hình cho bài tốn 2 Biểu đồ Lift chart của 3 mơ hình. Hình 3.28: Biểu đồ Lift chart cho 3 mơ hình 55 3.5. Lập trình KPDL với ADOMD.NET Analysis Services API cung cấp các thư viện API giúp lập trình với .NET [7, 9]. ADOMD.NET là một thư viện giúp cho việc xây dựng các ứng dụng KPDL trên client trở nên dễ dàng hơn. Để sử dụng ADOMD.NET trong ứng dụng, chúng ta cần thêm thư viện Microsoft.analysisservices.adomdclient.dll vào các dự án và trong mã nguồn sử dụng thêm namespace Microsoft.AnalysisServices.AdomdClient như Hình 3.25: Hình 3.29: Sử dụng ADMOD.NET trong C# Các bước thao tác với ADOMD.NET như sau: - Bước 1: Kết nối đến dịch vụ phân tích Analysis Services của hệ quản trị CSDL MS SQL Server 2012 qua ADOMD.NET: Ví dụ: string chuoiketnoi = "Data Source = PC; User Id = sa; Password = 123 ;Initial Catalog = Dudoan403"; AdomdConnection con = new AdomdConnection(ketnoi); con.Open(); Trong đĩ: + AdomdConnection: là đối tượng thực hiện kết nối. + chuoiketnoi: là chuỗi kết nối đến dịch vụ phân tích Analysis Services với tên máy chủ là PC, tên dịch vụ phân tích là Dudoan403, tên tài khoản User ID là sa và mật khẩu truy cập Password là 123. - Bước 2: Thực hiện các lệnh truy vấn DMX với ADOMD.NET 56 Ví dụ: Tạo truy vấn dự đốn điểm số mơn học 61 sắp tới của một sinh viên với đầu vào là kết quả các mơn đã học của sinh viên đĩ. AdomdConnection con = new AdomdConnection(chuoiketnoi); con.Open(); AdomdCommand cmd = new AdomdCommand(); cmd.CommandText = "SELECT[DiemTest].[61] , PredictProbability( [DiemTest].[61]) From[DiemTest] NATURAL PREDICTION JOIN (SELECT " + dataGridView1.Rows[0].Cells[1].Value + "AS[29]," + dataGridView1.Rows[0].Cells[2].Value + " AS[37]," + dataGridView1.Rows[0].Cells[3].Value + " AS[53]," + dataGridView1.Rows[0].Cells[4].Value + " AS[59]," + dataGridView1.Rows[0].Cells[5].Value + " AS[60]," + dataGridView1.Rows[0].Cells[6].Value + " AS[62]," + dataGridView1.Rows[0].Cells[7].Value + " AS[63]," + dataGridView1.Rows[0].Cells[8].Value + " AS[67]) AS t"; cmd.Connection = con; string prob; string prob1; AdomdDataReader dr; dr = cmd.ExecuteReader(); if (dr.Read()) { prob1 = dr.GetValue(0).ToString(); decimal pera = Convert.ToDecimal(prob1); decimal perb = System.Math.Round(pera, 2); prob = dr.GetValue(1).ToString(); decimal per = Convert.ToDecimal(prob); decimal per1 = System.Math.Round((per * 100), 2); dataGridView2.Rows.Add(cboHV.Text,Convert.ToString(perb), Convert.ToString(per1)); } dr.Close(); Trong đĩ: 57 + AdomdCommand: đối tượng command thực hiện các truy vấn DMX. + Thuộc tính CommandText: giá trị chuỗi truy vấn DMX. + Thuộc tính Connection: chứa đối tượng kết nối. + Phương thức ExecuteReader: trả về kết quả truy vấn vào đối tượng AdomdDataReader. 3.6. Đánh giá mơ hình Trong luận văn, hai phương pháp Lift Chart và Classification Matrix được sử dụng để đánh giá hiệu quả của mơ hình DMM đối với bài tốn 1 và bài tốn 2. Luận văn nhằm xác định xem mơ hình nào sẽ cĩ hiệu quả cao nhất trong việc dự báo kết quả học tập của học viên. 3.6.1 Đánh giá mơ hình với Lift Chart Đối với đánh giá mơ hình dự báo với Lift Chart chúng ta cĩ hai loại: Lift Chart trong đĩ cĩ xác định giá trị của thuộc tính dự đốn và Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn. Lift Chart cĩ xác định giá trị cụ thể của thuộc tính dự báo: Đối với bài tốn 1, trong mơ hình tư vấn học tập thì thuộc tính ĐTBKY2 sẽ nhận một trong 5 giá trị là Xuất sắc (XS), Giỏi (G), Khá (K), Trung Bình (TB) hoặc Yếu (Y). Để đánh giá mơ hình dự báo kết quả học viên cĩ thể đạt là “Khá” chúng ta sẽ nhập giá trị vào ơ Predict Value = K. Sau đĩ cho chọn thẻ Lift Chart như Hình 3.30. Hình 3.30: Lựa chọn Lift Chart với thuộc tính dự báo xác định 58 Hình 3.31 dưới đây là Lift Chart dự báo kết quả học tập với thuộc tính dự báo xác định là Khá (K) của 04 mơ hình đã đề xuất: Hình 3.31: Kết quả Lift Chart với ĐTBKY2 = “K” cho 04 mơ hình Trong Lift Chart, trục X biểu diễn phần trăm của test dataset sử dụng để so sánh với kết quả dự đốn, trục Y biểu diễn phần trăm của giá trị dự đốn. Trong Hình 3.31 ta cĩ: - Đường CayQD: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của mơ hình Cây quyết định. - Đường KetHop: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của mơ hình Luật kết hợp. - Đường Neural: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của mơ hình Luật kết hợp. - Đường Nạve: là đường biểu diễn khả năng dự đốn ĐTBKY2 = “K” của 59 mơ hình Nạve Bayes. - Đường Random Guess Model: là đường biểu diễn kết quả của việc chọn ngẫu nhiên (khơng cần mơ hình). - Đường Ideal Model: là đường biểu diễn mơ hình lý tưởng (dự đốn chính xác mọi trường hợp). - Mining Legend: giúp chúng ta cĩ thể xem các giá trị tại bất cứ điểm nào trên đồ thị bằng cách di chuyển thanh trượt dọc (Gray line). Trong Hình 3.31 gray line được đặt ở vị trí 60%, khi đĩ Mining Legend cĩ các giá trị như Bảng 3.3 sau: Bảng 3.3: Bảng giá trị Mining Legend Series, Model Score Target population Predict probability CayQD 0.85 67.06% 75.55% KetHop 0.80 63.53% 75.28% Neural 0.81 62.35% 67.86% Naive 0.80 61.18% 72.55% Random Guess Model 60.00% Ideal Model for: CayQD, KetHop, Neural, Navie 81.18% Từ kết quả trên chúng ta thấy: - Mơ hình Cây quyết định cĩ tính hiệu quả là Score = 0.85, với 60% tổng số học viên trong database, mơ hình CayQD cĩ thể dự đốn chính xác 67.06% kết quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 75.55% mới đủ tin cậy. - Mơ hình Luật kết hợp cĩ tính hiệu quả là Score = 0.80, với 60% tổng số học viên trong database, mơ hình KetHop cĩ thể dự đốn chính xác 63.53% kết quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 75.28% mới đủ tin cậy. - Mơ hình Mạng nơ-ron cĩ tính hiệu quả là Score = 0.81, với 60% tổng số học viên trong database, mơ hình Neural cĩ thể dự đốn chính xác 62.35% kết quả ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 67.86% mới đủ tin cậy. - Mơ hình Nạve Bayes cĩ tính hiệu quả là Score = 0.80, với 60% tổng số học viên trong database, mơ hình Naive cĩ thể dự đốn chính xác 61.18% kết quả 60 ĐTBKY2 = K, kết quả dự đốn cĩ giá trị ít nhất là 72.55% mới đủ tin cậy. Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn: Với Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn Để đánh giá mơ hình dự báo kết quả học viên chúng ta sẽ để trống ơ Predict Value như Hình 3.32. Hình 3.32: Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn Hình 3.33 là kết quả Lift Chart cho tất cả các trường hợp của thuộc tính dự đốn với 04 mơ hình đã đề xuất: Hình 3.33: Biểu đồ Lift Chart tất cả trường hợp của thuộc tính dự đốn Biểu đồ này mơ tả khả năng dự đốn của các mơ hình đối với tất cả các trường hợp xếp loại điểm trung bình kỳ 2 (ĐTBKY2) của học viên. Trong đĩ trục 61 X biểu thị giá trị của thuộc tính dự đốn (là phần trăm Test Data set), trục Y bây biểu thị phần trăm của dự đốn chính xác. Tương tự như Lift Chart cĩ giá trị của thuộc tính dự đốn. Trong Hình 3.33 chúng ta thấy được mơ hình Cây quyết định cĩ tính hiệu quả cao nhất với Score = 0.79, tiếp theo là mơ hình Mạng nơ-ron với Score = 0.73, mơ hình Nạve Bayes với Score = 0.67 và cuối cùng là mơ hình Luật kết hợp với Score = 0.58 Nhận xét: Qua kết quả trên, đối với bài tốn 1 chúng ta thấy mơ hình Cây quyết định (CayQD) cho kết quả tốt nhất với tính hiệu quả với cả hai loại Lift Chart trong đĩ cĩ xác định giá trị của thuộc tính dự đốn và Lift Chart cho tất cả các trư

Các file đính kèm theo tài liệu này:

  • pdfluan_van_nghien_cuu_ung_dung_cac_ky_thuat_trong_khai_pha_du.pdf
Tài liệu liên quan