Luận văn Phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và knn (k - Nearest neighbors)

ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH Thái Nguyên – 2020 ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG SENGTHONG XAYAVONG PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TOÁN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS) LUẬN VĂN THẠC SỸ KHOA

pdf73 trang | Chia sẻ: huong20 | Lượt xem: 925 | Lượt tải: 1download
Tóm tắt tài liệu Luận văn Phân lớp dữ liệu hoa iris sử dụng thuật toán naive bayes, randomforest và knn (k - Nearest neighbors), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HỌC MÁY TÍNH Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 84 8 01 01 Người hướng dẫn khoa học: TS. Nguyễn Văn Núi Thái Nguyên – 2020 I LỜI CAM ĐOAN Họ và tên học viên: Sengthong Xayavong Lớp cao học: CK17A Trường Đại học Cơng nghệ thơng tin và Truyền thơng – Đại học Thái Nguyên. Chuyên ngành: Khoa học máy tính Tên đề tài luận văn: PHÂN LỚP DỮ LIỆU HOA IRIS SỬ DỤNG THUẬT TỐN NAIVE BAYES, RANDOMFOREST VÀ KNN (K - NEAREST NEIGHBORS). Học viên xin cam đoan đây là cơng trình nghiên cứu của bản than học viện. Các kết quả nghiên cứu và các kết luận trong luận văn là trung thực, khơng sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Trong quá trình làm học viên cĩ tham khảo các tài liệu liên quan nhằm khẳng định thêm sự tin cậy và cấp thiết của đề tài. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong xayavong II LỜI CẢM ƠN Tơi xin gửi lời cảm ơn sâu sắc tới TS. Nguyễn Văn Núi, Trường Đại học Cơng nghệ Thơng tin và Truyền thơng, người thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn, giúp đỡ tơi trong suốt quá trình tìm hiểu, nghiên cứu. Thầy là người định hướng và đưa ra nhiều gĩp ý quý báu trong quá trình tơi thực hiện luận văn. Tơi xin chân thành cảm ơn các thầy, cơ ở khoa Cơng nghệ thơng tin – trường Đại học Cơng nghệ Thơng tin và Truyền thơng đã cung cấp cho tơi những kiến thức và tạo cho tơi những điều kiện thuận lợi trong suốt quá trình tơi học tập tại trường. Tơi cũng bày tỏ lịng biết ơn về sự giúp đỡ của lãnh đạo cơ quan, đồng nghiệp đã cung cấp dữ liệu, tài liệu và cho tơi những lời khuyên quý báu. Tơi xin cảm ơn gia đình, người thân, bạn bè và các thành viên trong nhĩm nghiên cứu luơn động viên và tạo mọi điều kiện tốt nhất cho tơi. Tơi xin chân thành cảm ơn! Thái Nguyên, ngày 08 tháng 10 năm 2020 Tác giả luận văn Sengthong Xayavong III MỤC LỤC LỜI CAM ĐOAN ...................................................................................................... I LỜI CẢM ƠN .......................................................................................................... II DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT .......................................... VI DANH MỤC CÁC BẢNG ....................................................................................VII DANH MỤC HÌNH ............................................................................................. VIII MỞ ĐẦU .................................................................................................................... 1 Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức ......................... 3 1.1 Giới thiệu tổng quan ........................................................................................ 3 1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu ........................ 3 1.1.2 Quá trình khám phá tri thức ........................................................................ 3 1.1.3 Khai phá dữ liệu .......................................................................................... 5 1.1.4 Quá trình của khai phá dữ liệu .................................................................... 6 1.1.5 Ứng dụng của khai phá dữ liệu ................................................................... 7 1.2 Một số kỹ thuật khai phá dữ liệu cơ bản ....................................................... 7 1.2.1 Luật kết hợp (Association Rules)................................................................. 7 1.2.2 Khai thác mẫu tuần tự (Sequential / Temporal patterns) ............................ 7 1.2.3 Phân cụm dữ liệu (Clustering) .................................................................... 8 1.2.4 Phân nhĩm- đoạn (Clustering / Segmentation) ........................................... 8 1.2.5 Hồi quy (Regression) .................................................................................. 9 1.2.6 Tổng hợp hĩa (Summarization) ................................................................... 9 1.2.7 Mơ hình hĩa sự phụ thuộc (dependency modeling) .................................... 9 1.2.8 Phát hiện sự biến đổi và độ lệch (Change and deviation detection) ......... 10 1.3. Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác 10 1.3.1. So sánh với phương pháp hệ chuyên gia .................................................. 10 1.3.2. So sánh với phương pháp phân loại thống kê .......................................... 11 1.3.3. So sánh với phương pháp học máy .......................................................... 12 1.3.4 So sánh với phương pháp học sâu ............................................................. 14 Chương 2: Một số kỹ thuật phân lớp dữ liệu ....................................................... 16 2.1 Tổng quan về phân lớp dữ liệu .................................................................... 16 2.2. Phân lớp dữ liệu Naive Bayes ..................................................................... 19 IV 2.2.1 Định nghĩa thuật tốn Nạve Bayes .......................................................... 19 2.2.3 Đặc điểm của thuật tốn Nạve Bayes ....................................................... 22 2.2.4 Ứng dụng của thuật tốn Nạve Bayes ...................................................... 23 2.3 Phân lớp dữ liệu RandomForest ................................................................. 24 2.3.1 Định nghĩa thuật tốn Ramdomforest ....................................................... 24 2.3.2 Đặc điểm của Random Forest ................................................................... 27 2.3.3 Mơ hình phân lớp với Random Forest ...................................................... 29 2.3.4 Ứng dụng thuật tốn Ramdom Forest ....................................................... 29 2.4. Phân lớp dữ liệu KNN (K-nearest neighbor) ............................................ 29 2.4.1 Định nghĩa thuât tốn KNN ...................................................................... 29 2.4.2 Mơ tả thuật tốn K-NN .............................................................................. 31 2.4.3 Đặc điểm của thuật tốn KNN ................................................................. 33 2.4.4 Ứng dụng thuật tốn K-NN ...................................................................... 33 2.5. Một số thuật tốn phân lớp dữ liệu khác ................................................... 34 2.5.1 Cây quyết định ứng dụng trong phân lớp dữ liệu ...................................... 34 2.5.2 Phân lớp với máy vector hỗ trợ (SVM) ..................................................... 34 Chương 3: Ứng dụng phân lớp dữ liệu hoa Iris ................................................... 35 3.1. Giới thiệu về hoa Iris và bài tốn phân lớp hoa Iris .................................. 35 3.1.1. Giới thiệu về tập dữ liệu hoa Iris .............................................................. 35 3.1.2 Sử dụng tập dữ liệu.................................................................................... 36 3.1.3 Tập dữ liệu ................................................................................................. 36 3.1.4 Định nghĩa bài tốn phân lớp hoa Iris ...................................................... 41 3.2. Thu thập và tiền xử lý dữ liệu ...................................................................... 41 3.2.1. Làm sạch dữ liệu ...................................................................................... 42 3.2.2. Chọn lọc dữ liệu ....................................................................................... 42 3.2.3. Chuyển đổi dữ liệu ................................................................................... 43 3.2.4. Rút gọn dữ liệu ......................................................................................... 43 3.3. Giới thiệu về cơng cụ Weka, cấu hình và ứng dụng phân lớp hoa Iris ... 43 3.3.1 Khái niệm .................................................................................................. 43 3.3.2 Ưu điểm của Weka .................................................................................... 44 3.3.3 Những tính năng vượt trội của Weka ........................................................ 45 V 3.3.4 Kiến trúc thư viện Weka ........................................................................... 45 3.3.5 Các mơi trường chức năng chính của Weka ............................................. 46 3.3.6 Định dạng dữ liệu của weka ...................................................................... 48 3.4. Áp dụng các thuật tốn Naive Bayes, RandomForest và KNN trong phân lớp dự đốn hoa Iris ............................................................................................ 49 3.4.1 Áp dụng thuật tốn Naive Bayes trong phân lớp dự đốn hoa Iris ........... 50 3.4.2 Áp dụng thuật tốn RandomForest trong phân lớp dự đốn hoa Iris ........ 53 3.4.3 Áp dụng thuật tốn KNN trong phân lớp dự đốn hoa Iris ....................... 56 3.5 Đánh giá mơ hình phân lớp dữ liệu Hoa IRIS ............................................ 59 3.5.1 Đánh giá hiệu năng mơ hình sử dụng phương pháp đánh giá chéo (k-fold cross-validation) ................................................................................................. 59 3.5.2 Đánh giá mơ hình sử dụng phương pháp Hold-out ................................... 59 3.5.3 Kết luận thực nghiệm phân lớp dữ liệu IRIS ............................................ 60 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ............................................................. 61 TÀI LIỆU THAM KHẢO ...................................................................................... 62 VI DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT TT Chữ viết tắt Ý nghĩa 1. KPDL Khai phá dữ liệu 2. CSDL Cơ sở dữ liệu 3. KNN K-nearest neighbor 4. KDD Knowledge Discovery in Database 5. RF Ramdom Forest 6. SVM Support Vector Machines 7. NBC Naive Bayes Classification VII DANH MỤC CÁC BẢNG Bảng 1:Thơng tin lồi Setosa .......................................................................... 36 Bảng 2:Thơng tin lồi Iris-Versicolor ............................................................. 38 Bảng 3: thơng tin Lồi Iris-Virginica .............................................................. 39 Bảng 4: tổng kết thống kê Giá trị của hoa Iris ................................................ 42 Bảng 5: ý nghĩa các mơi trường chính trên Weka 3.8.4 ................................. 46 Bảng 6: ý nghĩa các mơi trường Explorer trên Weka 3.8.4 ............................ 48 Bảng 7: Tổng hợp đánh giá các thật tốn chia tập dữ liệu thành 10 phần (chọn fold=10) ........................................................................................................... 59 Bảng 8: Tổng hợp kết quả đánh giá hiệu năng phân lớp, dự đốn của mơ hình bằng phương pháp kiểm thử độc lập ............................................................... 60 VIII DANH MỤC HÌNH Hình 1. 1:Quá trình khám phá tri thức ........................................................................ 5 Hình 1. 2:Quá trình khai phá dữ liệu........................................................................... 6 Hình 1. 3: Lược đồ hệ chuyên gia ............................................................................. 11 Hình 2. 1: Bài tốn phân lớp ..................................................................................... 16 Hình 2. 2: Quá trình phân lớp dữ liệu - (a) Bước xây dựng mơ hình phân lớp ........ 18 Hình 2. 3: Quá trình phân lớp dữ liệu - (b1) Ước lượng độ chính xác của mơ hình 19 Hình 2. 4:Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới ........................... 19 Hình 2. 5:Mơ hình rừng ngẫu nhiên .......................................................................... 25 Hình 2. 6:Các bước phân lớp với Random Forest .................................................... 27 Hình 2. 7:Mơ hình phân lớp với Random Forest ...................................................... 29 Hình 2. 8: Bản dổ của KNN nhiễu k =1 .................................................................... 31 Hình 2. 9: Minh họa của KNN .................................................................................. 32 Hình 3. 1: Minh họa về iris flower dataset ................................................................ 35 Hình 3. 2: Lồi chim Mecca được chọn là biểu tượng của ứng dụng Weka ............ 43 Hình 3. 3: mơi trường chính của Weka ..................................................................... 46 Hình 3. 4 : Sơ đồ tổng thể Mơ hình phân lớp dự đốn hoa Iris trong luận văn ........ 50 Hình 3. 5:Cấu hình tham số cho thuật tốn Naive Bayes ......................................... 51 Hình 3. 6: Kết quả phân lớp dữ liệu cho thuật tốn Naive Bayes Tập luyện tập 66% (Tập kiểm chứng 34%) .............................................................................................. 52 Hình 3. 7:Kết quả phân lớp dữ liệu cho thuật tốn Naive Bayes chia tập dữ liệu thành 10 phần (chọn fold=10) ................................................................................... 53 Hình 3. 8:Cấu hình tham số cho thuật tốn Ramdomforest ...................................... 54 Hình 3. 9: Kết quả phân lớp dữ liệu cho thuật tốn Ramdomforest Tập luyện tập 66% (Tập kiểm chứng 34%) ..................................................................................... 55 Hình 3. 10:Kết quả phân lớp dữ liệu cho thuật tốn Ramdomforest chia tập dữ liệu thành 10 phần (chọn fold=10) ................................................................................... 56 Hình 3. 11:Cấu hình tham số cho thuật tốn k-Nearest Neighbors .......................... 57 IX Hình 3. 12: Kết quả phân lớp dữ liệu cho thuật tốn K-NN Tập luyện tập 66% (Tập kiểm chứng 34%) ...................................................................................................... 58 Hình 3. 13:Kết quả phân lớp dữ liệu cho thuật tốn k-Nearest Neighbors chia tập dữ liệu thành 10 phần (chọn fold=10) ............................................................................ 58 1 MỞ ĐẦU Sự phát triển của cơng nghệ thơng tin và việc ứng dụng cơng nghệ thơng tin ở hầu hết các lĩnh vực trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày càng lớn. Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thơng tin nhỏ khơng cịn đáp ứng đầy đủ những yêu cầu, những thách thức mới. Do vậy một khuynh hướng mới được ra đời đĩ là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu. Xin giới thiệu một cách tổng quan về phát hiện tri thức và khai phá dữ liệu cùng một số kỹ thuật cơ bản để trong khai phá dữ liệu để phát hiện tri thức và một số ứng dụng trong thực tế nhằm hỗ trợ cho tiến trình ra quyết định. Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, kỹ thuật này tương đối cịn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining), giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn. Nhưng để làm được điều đĩ, sự phát triển của các mơ hình tốn học và các giải thuật hiệu quả là chìa khố quan trọng. Vì vậy, trong luận văn này, tác giả sẽ đề cập tới hai kỹ thuật thường dùng trong Khai phá dữ liệu, đĩ là Phân lớp (Classification). Trong quá trình hoạt động, con người tạo ra nhiều dữ liệu nghiệp vụ. Các tập dữ liệu được tích lũy cĩ kích thước ngày càng lớn, và cĩ thể chứa nhiều thơng tin ẩn dạng những quy luật chưa được khám phá. Chính vì vậy, một nhu cầu đặt ra là cần tìm cách trích rút từ tập dữ liệu đĩ các luật về phân lớp dữ liệu hay dự đốn những xu hướng dữ liệu tương lai. Những quy tắc nghiệp vụ thơng minh được tạo ra sẽ phục vụ đắc lực cho các hoạt động thực tiễn, cũng như phục vụ đắc lực cho quá trình nghiên cứu khoa học. Cơng nghệ phân lớp và dự đốn dữ liệu ra đời để đáp ứng mong muốn đĩ. 2 Cơng nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics)... Cơng nghệ này cũng ứng dụng trong nhiều lĩnh vực thực tế như: thương mại, nhà băng, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục... Nhiều kỹ thuật phân lớp đã được đề xuất như: Phân lớp : phân lớp dữ liệu hoa iris, phân lớp Bayesian (Bayesian classifier), phân lớp Khàng xĩm gần nhất (K-nearest neighbor classifier), mạng nơron, phân tích thống kê,Trong các kỹ thuật đĩ, cây quyết định được coi là cơng cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining. Trong các mơ hình phân lớp, thuật tốn phân lớp là nhân tố chủ đạo. Do vậy cần xây dựng những thuật tốn cĩ độ chính xác cao, thực thi nhanh, đi kèm với khả năng mở rộng được để cĩ thể thao tác với những tập dữ liệu ngày càng lớn. Bố cục của luận văn cĩ nội dụng chính 3 chương : Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức trong chương này nghiên cứu tổng quan về khái phá dữ liệu và phát hiện tri thức. Bên cạnh đĩ, một số kĩ thuật khái phá dữ liệu cơ bản cũng được trình bày trong chương này. Chương 2: Một số kỹ thuật phân lớp dữ liệu trong chương này trình bày tổng quan về phân lớp dữ liệu và 3 phương pháp : Nạve Bayes, Ramdom Forrest và KNN. Chương 3: Ứng dụng phân lớp dữ liệu hoa Iris, chương này Phát triển và Demo ứng dụng cung cụ Weka xây dựng mơ hình, kiểm tra và đánh giá mơ hình dự dốn hoa Iris. 3 Chương 1: Tổng quan về khai phá dữ liệu và phát hiện tri thức 1.1 Giới thiệu tổng quan 1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu Nếu cho rằng, điện tử và truyền thơng chính là bản chất của khoa học điện tử, thì dữ liệu, thơng tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới để nghiên cứu và ứng dụng, đĩ là khám phá tri thức và khai phá dữ liệu. Thơng thường, chúng ta coi dữ liệu như là một chuỗi các bits, hoặc các số và các ký hiệu hay là các “đối tượng” với một ý nghĩa nào đĩ khi được gửi cho một chương trình dưới một dạng nhất định. Các bits thường được sử dụng để đo thơng tin, và xem nĩ như là dữ liệu đã được loại bỏ phần tử thừa, lặp lại, và rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu. Tri thức được xem như là các thơng tin tích hợp, bao gồm các sự kiện và mối quan hệ giữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu. Nĩi cách khác, tri thức cĩ thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát. Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biết các mẫu hoặc các mơ hình trong dữ liệu với các tính năng: Phân tích, tổng hợp, hợp thức, khả ích và cĩ thể hiểu được. Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm các giải thuật khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính tốn chấp nhận được để tìm ra các mẫu hoặc các mơ hình trong dữ liệu. Nĩi cách khác, mục tiêu của Khai phá dữ liệu là tìm kiếm các mẫu hoặc mơ hình tồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu. 1.1.2 Quá trình khám phá tri thức Quy trình khám phá tri thức tiến hành qua 6 giai đoạn, xem hình 1.1: 1. Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web. 4 2. Trích lọc dữ liệu: Ở giai đọan này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đĩ phục vụ mục đích khai thác, ví dụ chọn tất cả những em học sinh cĩ điểm Trung bình học kỳ lớn hơn 8.0 và cĩ giới tính nữ. 3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nĩ là một bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính khơng đủ chặt chẽ, logíc. Vì vậy, dữ liệu thường chứa các giá trị vơ nghĩa và khơng cĩ khả năng kết nối dữ liệu. Ví dụ : Điểm Trung bình = 12.4. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẻ nĩi trên. Những dữ liệu dạng này được xem như thơng tin dư thừa, khơng cĩ giá trị. Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếu khơng được “làm sạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng. 4. Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra cĩ thể sử dụng và điều khiển được bởi việc tổ chức lại nĩ, tức là dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhĩm hoặc tập hợp. 5. Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật tốn khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật tốn thường dùng là nguyên tắc phân loại, nguyên tắc kết, v.v... 6. Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Khơng phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đơi khi nĩ cịn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đĩ sử dụng các kỹ thuật trình diễn và trực quan hố dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. 5 Hình 1. 1:Quá trình khám phá tri thức 1.1.3 Khai phá dữ liệu KPDL là một khái niệm ra đời vào những năm cuối của thập kỷ 80. Nĩ bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thơng tin cĩ giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, KPDL liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để tìm ra các mẫu hình cĩ tính chính quy (regularities) trong tập dữ liệu. Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dùng khái niệm Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database – KDD) để chỉ tồn bộ quá trình phát hiện các tri thức cĩ ích từ các tập dữ liệu lớn. Trong đĩ, KPDL là một bước đặc biệt trong tồn bộ tiến trình, sử dụng các giải thuật đặc biệt để chiết xuất ra các mẫu (pattern) (hay các mơ hình) từ dữ liệu. Khai phá dữ liệu là một tiến trình sử dụng các cơng cụ phân tích dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều gĩc độ khác nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng bên trong CSDL, kết quả của việc khai phá là xác định các mẫu hay các mơ hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở các CSDL. Để từ đĩ rút trích ra được các mẫu, các mơ hình hay các thơng tin và tri thức từ các CSDL. 6 1.1.4 Quá trình của khai phá dữ liệu Khai phá dữ liệu là một giai đoạn quan trọng trong quá trình khám phá tri thức. Về bản chất là giai đoạn duy nhất tìm ra được thơng tin mới, thơng tin tiềm ẩn cĩ trong cơ sở dữ liệu chủ yếu phục vụ cho mơ tả và dự đốn. Mơ tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người cĩ thể hiểu được. Dự đốn là dựa trên những dữ liệu hiện thời để dự đốn những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đĩ chiết xuất ra các mẫu, dự đốn được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm. Thống kê tĩm tắt Hình 1. 2:Quá trình khai phá dữ liệu - Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết. - Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp. - Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng thành dạng sao cho thuật tốn khai phá dữ liệu cĩ thể hiểu được. Đây là một quá trình rất khĩ khăn, cĩ thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần tồn bộ quá trình (nếu mơ hình dữ liệu thay đổi), v.v.. - Thuật tốn khai phá dữ liệu: Lựa chọn thuật tốn khai phá dữ liệu và thực hiện việc khai phá dữ liệu để tìm được các mẫu cĩ ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định... tương ứng với ý nghĩa của nĩ. 7 1.1.5 Ứng dụng của khai phá dữ liệu KPDL cĩ nhiều ứng dụng trong thực tế, một số ứng dụng điển hình như:  Bảo hiểm, tài chính và thị trường chứng khốn: phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu trong thị trường chứng khốn. Danh mục vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận.  Điều trị y học và chăm sĩc y tế: một số thơng tin về chẩn đốn bệnh lưu trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa triệu chứng bệnh, chẩn đốn và phương pháp điều trị (chế độ dinh dưỡng, thuốc,).  Sản xuất và chế biến: qui trình, phương pháp chế biến và xử lý xử cố Text mining & Web mining: phân lớp văn bản và các trang web, tĩm tắt văn bản.  Lĩnh vực khoa học: quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật học, tìm kiếm, so sánh các hệ gene và thơng tin di truyền, mối liên hệ gene và các bệnh di truyền.  Lĩnh vực khác: viễn thơng, mơi trường, thể thao, âm nhạc, giáo dục 1.2 Một số kỹ thuật khai phá dữ liệu cơ bản 1.2.1 Luật kết hợp (Association Rules) Luật kết hợp là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật KPDL là tập luật kết hợp tìm được. Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa. Thơng tin mà dạng luật này đem lại rất cĩ lợi trong các hệ hỗ trợ ra quyết định.Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thơng tin từ CSDL tác nghiệp là một trong những hướng tiếp cận chính của lĩnh vực khai phá dữ liệu. 1.2.2 Khai thác mẫu tuần tự (Sequential / Temporal patterns) Tương tự như khai thác luật kết hợp nhưng cĩ thêm tính thứ tự và tính thời gian. Một luật mơ tả mẫu tuần tự cĩ dạng tiêu biểu X Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này cĩ tính dự báo cao. 8 1.2.3 Phân cụm dữ liệu (Clustering) Phân cụm dữ liệu là một kỹ thuật trong Data mining nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đĩ cung cấp thơng tin, tri thức cho việc ra quyết định. Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhĩm dữ liệu với trong đĩ các đối tượng tương tự như nhau. Trong mỗi nhĩm, một số chi tiết cĩ thể khơng quan tâm đến để đổi lấy dữ liệu đơn giản hĩa. Hay ta cĩ thể hiểu “Phân cụm dữ liệu là quá trình tổ chức các đối tượng thành từng nhĩm mà các đối tượng ở mỗi nhĩm đều tương tự nhau theo một tính chất nào đĩ, những đối tượng khơng tương tự tính chất sẽ ở nhĩm khác”. Phân cụm dữ liệu là quá trình nhĩm một tập các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương đồng cịn các đối tượng thuộc các cụm khác nhau sẽ khơng tương đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học khơng cĩ thầy. Khơng giống như phân lớp dữ liệu, phân cụm dữ liệu khơng địi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, cĩ thể coi phân cụm dữ liệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ . . . Ngồi ra phân cụm dữ liệu cịn cĩ thể được sử dụng như một bước tiền xử lí cho các thuật tốn khai phá dữ liệu khác như là phân loại và mơ tả đặc điểm, cĩ tác dụng trong việc phát hiện ra các cụm. 1.2.4 Phân nhĩm- đoạn (Clustering / Segmentation) Mục tiêu chính của việc phân nhĩm dữ liệu là nhĩm các đối tượng tương tự nhau trong tập dữ liệu vào các nhĩm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhĩm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhĩm khác nhau là nhỏ nhất. Các nhĩm cĩ thể tách nhau hoặc phân cấp gối lên nhau và số lượng các nhĩm là chưa biết trước. Một đối tượng cĩ thể vừa thuộc nhĩm này, nhưng cũng cĩ thể vừa thuộc nhĩm khác. Khơng giống như phân lớp dữ liệu, phân nhĩm dữ liệu khơng địi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, cĩ thể coi phân nhĩm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). 9 Trong phương pháp này bạn sẽ khơng thể biết kết quả các nhĩm thu được sẽ như thế nào khi bắt đầu quá trình. Vì vậy, thơng thường cần cĩ một chuyên gia về lĩnh vực đĩ để đánh giá các nhĩm thu được. Phân nhĩm cịn được gọi là học khơng cĩ giám sát (unsupervised learning). Phân nhĩm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web, Ngồi ra phân nhĩm dữ liệu cịn cĩ thể được sử dụng như một bước tiền xử lý cho các thuật tốn KPDL khác. 1.2.5 Hồi quy (Regression) Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đốn cĩ giá trị thực. Nhiệm vụ của hồi quy tương tự như phân lớp, điểm k...xuất cho việc cải tiến mơ hình Rừng ngẫu nhiên. Dưới đây sẽ trình bày tĩm tắt một số phương pháp cải tiến mơ hình Rừng ngẫu nhiên.  Các bước thực hiện của thuật tốn RamdomForest: 1. Chọn các mẫu ngẫu nhiên từ tập dữ liệu đã cho. 2. Thiết lập cây quyết định cho từng mẫu và nhận kết quả dự đốn từ mỗi quyết định cây. 27 3. Hãy bỏ phiếu cho mỗi kết quả dự đốn. 4. Chọn kết quả được dự đốn nhiều nhất là dự đốn cuối cùng. Hình 2.6:Các bước phân lớp với Random Forest 2.3.2 Đặc điểm của Random Forest Ưu điểm: Random forest được coi là một phương pháp chính xác và mạnh mẽ vì số cây quyết định tham gia vào quá trình này. Nĩ khơng bị vấn đề overfitting. Lý do chính là nĩ mất trung bình của tất cả các dự đốn, trong đĩ hủy bỏ những thành kiến. Thuật tốn cĩ thể được sử dụng trong cả hai vấn đề phân loại và hồi quy. Random forests cũng cĩ thể xử lý các giá trị cịn thiếu. Cĩ hai cách để xử lý các giá trị này: sử dụng các giá trị trung bình để thay thế các biến liên tục và tính tốn mức trung bình gần kề của các giá trị bị thiếu. Bạn cĩ thể nhận được tầm quan trọng của tính năng tương đối, giúp chọn các tính năng đĩng gĩp nhiều nhất cho trình phân loại. Nhược điểm: Random forest chậm tạo dự đốn bởi vì nĩ cĩ nhiều cây quyết định. Bất cứ khi nào nĩ đưa ra dự đốn, tất cả các cây trong rừng phải đưa ra dự đốn cho cùng một đầu vào cho trước và sau đĩ thực hiện bỏ phiếu trên đĩ. Tồn bộ quá trình này tốn thời gian. Mơ hình khĩ hiểu hơn so với cây quyết định, nơi bạn cĩ thể dễ dàng đưa ra quyết định bằng cách đi theo đường dẫn trong cây. Hạn chế: Dữ liệu huấn luyện cần được đa dạng hĩa và cân bằng về số nhãn lớp. Việc khơng cân bằng nhãn lớp khiến kết quả dự đốn của thuật tốn cĩ thể lệch 28 về số đơng nhãn lớp. Thời gian huấn luyện của rừng cĩ thể kéo dài tùy số cây và số thuộc tính phân chia. Các tính năng quan trọng: Random forest cũng cung cấp một chỉ số lựa chọn tính năng tốt. Scikit-learn cung cấp thêm một biến với mơ hình, cho thấy tầm quan trọng hoặc đĩng gĩp tương đối của từng tính năng trong dự đốn. Nĩ tự động tính tốn điểm liên quan của từng tính năng trong giai đoạn đào tạo. Sau đĩ, nĩ cân đối mức độ liên quan xuống sao cho tổng của tất cả các điểm là 1. Điểm số này sẽ giúp bạn chọn các tính năng quan trọng nhất và thả các tính năng quan trọng nhất để xây dựng mơ hình. Random forest sử dụng tầm quan trọng của gini hoặc giảm tạp chất trung bình (MDI) để tính tốn tầm quan trọng của từng tính năng. Gini tầm quan trọng cịn được gọi là tổng giảm trong tạp chất nút. Đây là mức độ phù hợp hoặc độ chính xác của mơ hình giảm khi bạn thả biến. Độ lớn càng lớn thì biến số càng cĩ ý nghĩa. Ở đây, giảm trung bình là một tham số quan trọng cho việc lựa chọn biến. Chỉ số Gini cĩ thể mơ tả sức mạnh giải thích tổng thể của các biến. Random Forests và cây quyết định Random Forests là một tập hợp của nhiều cây quyết định. Cây quyết định sâu cĩ thể bị ảnh hưởng quá mức, nhưng Random forests ngăn cản việc lấp đầy bằng cách tạo cây trên các tập con ngẫu nhiên. Cây quyết định nhanh hơn tính tốn. Random forests khĩ giải thích, trong khi cây quyết định cĩ thể diễn giải dễ dàng và cĩ thể chuyển đổi thành quy tắc. 29 2.3.3 Mơ hình phân lớp với Random Forest Hình 2. 7:Mơ hình phân lớp với Random Forest 2.3.4 Ứng dụng thuật tốn Ramdom Forest Thuật tốn Random Forest được sử dụng trong rất nhiều lĩnh vực khác nhau, như Ngân hàng, Thị trường chứng khốn, Y học và Thương mại điện tử. Trong Ngân hàng, ví dụ, nĩ được sử dụng để phát hiện những khách hàng sẽ sử dụng dịch vụ của ngân hàng thường xuyên hơn những người khác và trả nợ đúng hạn. Nĩ cũng được sử dụng để phát hiện những khách hàng lừa đảo. Trong lĩnh vực chăm sĩc sức khỏe, nĩ được sử dụng để xác định sự kết hợp chính xác của các thành phần trong y học và để phân tích lịch sử y tế của bệnh nhân. Và cuối cùng, trong thương mại điện tử được sử dụng để xác định xem khách hàng cĩ thực sự thích sản phẩm đĩ hay khơng. 2.4. Phân lớp dữ liệu KNN (K-nearest neighbor) 2.4.1 Định nghĩa thuât tốn KNN K-nearest neighbor là một trong những thuật tốn supervised-learning đơn giản nhất (mà hiệu quả trong một vài trường hợp) trong Machine Learning. Khi training, thuật tốn này khơng học một điều gì từ dữ liệu training (đây cũng là lý do thuật tốn này được xếp vào loại lazy learning), mọi tính tốn được thực hiện khi nĩ cần dự đốn kết quả của dữ liệu mới. K-nearest neighbor cĩ thể áp dụng được vào cả hai loại của bài tốn Supervised learning là Classification và Regression. KNN cịn được gọi là một thuật tốn Instance-based hay Memory-based learning. 30 Classifier k-Nearest Neighbors dựa trên việc học bằng sự giống nhau. Các mẫu huấn luyện được mơ tả bởi các thuộc tính số n - chiều. Mỗi mẫu đại diện cho một điểm trong một khơng gian n - chiều. Vì vậy tất cả các mẫu huấn luyện được lưu trữ trong khơng gian mẫu n - chiều. Khi cĩ một mẫu chưa biết cho trước thì classifier k- Nearest Neighbors sẽ tìm kiếm trong khơng gian mẫu k mẫu huấn luyện gần mẫu chưa biết đĩ nhất. k mẫu huấn luyện này là k "k-Nearest Neighbors " của mẫu chưa biết. "Độ gần" được định nghĩa dưới dạng khoảng cách Euclidean, tại đĩ khoảng cách Euclidean giữa hai điểm X1 = (푥11, 푥12, ..., 푥1n) và X2 = (푥21, 푥22, ..., 푥2n) là: n 2 distXXxx(,) 1212  ii (2.9) i1 Mẫu chưa biết được phân vào lớp phổ biến nhất trong số k láng giềng gần nhất của nĩ. Khi k = 1 thì mẫu chưa biết được ấn định lớp của mẫu huấn luyện gần nhất với nĩ trong khơng gian mẫu. Với KNN, trong bài tốn Classification, label của một điểm dữ liệu mới (hay kết quả của câu hỏi trong bài thi) được suy ra trực tiếp từ K điểm dữ liệu gần nhất trong training set. Label của một test data cĩ thể được quyết định bằng major voting (bầu chọn theo số phiếu) giữa các điểm gần nhất, hoặc nĩ cĩ thể được suy ra bằng cách đánh trọng số khác nhau cho mỗi trong các điểm gần nhất đĩ rồi suy ra label. Chi tiết sẽ được nêu trong phần tiếp theo. Trong bài tốn Regresssion, đầu ra của một điểm dữ liệu sẽ bằng chính đầu ra của điểm dữ liệu đã biết gần nhất (trong trường hợp K=1), hoặc là trung bình cĩ trọng số của đầu ra của những điểm gần nhất, hoặc bằng một mối quan hệ dựa trên khoảng cách tới các điểm gần nhất đĩ. Một cách ngắn gọn, KNN là thuật tốn đi tìm đầu ra của một điểm dữ liệu mới bằng cách chỉ dựa trên thơng tin của K điểm dữ liệu trong training set gần nĩ nhất (K-lân cận), khơng quan tâm đến việc cĩ một vài điểm dữ liệu trong những điểm gần nhất này là nhiễu. Hình dưới đây là một ví dụ về knn trong classification với K = 1. 31 Hình 2. 8: Bản dổ của KNN nhiễu k =1 Ví dụ trên đây là bài tốn Classification với 3 class: Đỏ, Lam, Lục. Mỗi điểm dữ liệu mới (test data point) sẽ được gán label theo màu của điểm mà nĩ thuộc về. Trong hình này, cĩ một vài vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu. Ví dụ cĩ một điểm màu Lục ở gần gĩc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đỏ và Lam. Điểm này rất cĩ thể là nhiễu. Dẫn đến nếu dữ liệu test rơi vào vùng này sẽ cĩ nhiều khả năng cho kết quả khơng chính xác. 2.4.2 Mơ tả thuật tốn K-NN Các mẫu được mơ tả bằng n – chiều thuộc tính số. Mỗi mẫu đại diện cho một điểm trong một chiều khơng gian n – chiều. Theo cách này tất cả các mẫu được lưu trữ trong một mơ hình khơng gian n – chiều.  Các bước thực hiện cảu Thuật tốn K-NN được mơ tả như sau: - Bước 1: Xác định số láng giềng gần nhất K. - Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng trong training data. - Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng cần phân lớp. - Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xác định 32 - Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối tượng cần phân lớp. Để hiểu K-NN được dùng để phân lớp thế nào ta xem minh họa dưới đây: Trong hình dưới đây, training Data được mơ tả bởi dấu (+) và dấu (-), đối tượng cần được xác định lớp cho nĩ (Query point) là hình mặt cười đỏ. Nhiệm vụ của chúng ta là ước lượng (hay dự đốn) lớp của Query point dựa vào việc lựa chọn số láng giềng gần nhất với nĩ. Nĩi cách khác chúng ta muốn biết liệu Query Point sẽ được phân vào lớp (+) hay lớp (-) Hình 2. 9: Minh họa của KNN Ta thấy rằng: 1- Nearest neighbor : Kết quả là + (Query Point được xếp vào lớp dấu +) 2 - Nearest neighbors : khơng xác định lớp cho Query Point vì số láng giềng gần nhất với nĩ là 2 trong đĩ 1 là lớp + và 1 là lớp – (khơng cĩ lớp nào cĩ số đối tượng nhiều hơn lớp kia).vấn đề này sẽ được nĩi rõ cụ thể ở phần sau 5 - Nearest neighbors : Kết quả là – (Query Point được xếp vào lớp dấu – vì trong 5 láng giềng gần nhất với nĩ thì cĩ 3 đối tượng thuộc lớp – nhiều hơn lớp + chỉ cĩ 2 đối tượng). 33 2.4.3 Đặc điểm của thuật tốn KNN  Ưu điểm của KNN - Độ phức tạp tính tốn của quá trình training là bằng 0. - Việc dự đốn kết quả của dữ liệu mới rất đơn giản. - Khơng cần giả sử gì về phân phối của các class.  Nhược điểm của KNN - KNN rất nhạy cảm với nhiễu khi K nhỏ. - Như đã nĩi, KNN là một thuật tốn mà mọi tính tốn đều nằm ở khâu test. Trong đĩ việc tính khoảng cách tới từng điểm dữ liệu trong training set sẽ tốn rất nhiều thời gian, đặc biệt là với các cơ sở dữ liệu cĩ số chiều lớn và cĩ nhiều điểm dữ liệu. Với K càng lớn thì độ phức tạp cũng sẽ tăng lên. Ngồi ra, việc lưu tồn bộ dữ liệu trong bộ nhớ cũng ảnh hưởng tới hiệu năng của KNN. 2.4.4 Ứng dụng thuật tốn K-NN  Trong y tế: xác định bệnh lý của người bệnh mới dựa trên dữ liệu lịch sử của các bệnh nhân cĩ cùng bệnh lý cĩ cùng các đặc điểm đã được chữa khỏi trước đây, hay xác định loại thuốc phù hợp giống ví dụ chúng tơi trình bày ở trên.  Trong lĩnh vực ngân hàng: xác định khả năng khách hàng chậm trả các khoản vay hoặc rủi ro tín dụng do nợ xấu dựa trên phân tích Credit score; xác định xem liệu các giao dịch cĩ hành vi phạm tội, lừa đảo hay khơng.  Trong giáo dục: phân loại các học sinh theo hồn cảnh, học lực để xem xem cần hỗ trợ gì cho những học sinh ví dụ như hồn cảnh sống khĩ khăn nhưng học lực lại tốt.  Trong thương mại điện tử: phân loại khách hàng theo sở thích cụ thể để hỗ trợ personalized marketing hay xây dựng hệ thống khuyến nghị, dựa trên dữ liệu từ website, social media.  Trong kinh tế nĩi chung: giúp dự báo các sự kiện kinh tế trong tương lai, dự báo tình hình thời tiết trong nơng nghiệp, xác định xu hướng thị trường chứng khốn để lên kế hoạch đầu tư thích hợp. 34 2.5. Một số thuật tốn phân lớp dữ liệu khác 2.5.1 Cây quyết định ứng dụng trong phân lớp dữ liệu Trong những năm qua, nhiều mơ hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mơ hình thơng kê tuyến tính /bậc 2, cây quyết định, mơ hình di truyền. Trong số những mơ hình đĩ, cây quyết định với những ưu điểm của mình được đánh giá là một cơng cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining nĩi chung và phân lớp dữ liệu nĩi riêng. Cĩ thể kể ra những ưu điểm của cây quyết định như: xây dựng tương đối nhanh; đơn giản, dễ hiểu. Hơn nữa các cây cĩ thể dễ dàng được chuyển đổi sang các câu lệnh SQL để cĩ thể được sử dụng để truy nhập cơ sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây quyết định đạt được sự tương tự và đơi khi là chính xác hơn so với các phương pháp phân lớp khác. 2.5.2 Phân lớp với máy vector hỗ trợ (SVM) Máy vectơ hỗ trợ (SVM - viết tắt tên tiếng Anh support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học cĩ giám sát liên quan đến nhau để phân loại và phân tích hồi quy. SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau. Do đĩ SVM là một thuật tốn phân loại nhị phân. Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật tốn luyện tập SVM xây dựng một mơ hình SVM để phân loại các ví dụ khác vào hai thể loại đĩ. Một mơ hình SVM là một cách biểu diễn các điểm trong khơng gian và lựa chọn ranh giới giữa hai thể loại sao cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất cĩ thể. Các ví dụ mới cũng được biểu diễn trong cùng một khơng gian và được thuật tốn dự đốn thuộc một trong hai thể loại tùy vào ví dụ đĩ nằm ở phía nào của ranh giới. 35 Chương 3: Ứng dụng phân lớp dữ liệu hoa Iris 3.1. Giới thiệu về hoa Iris và bài tốn phân lớp hoa Iris 3.1.1. Giới thiệu về tập dữ liệu hoa Iris Tập dữ liệu hoa Iris hoặc tập dữ liệu Iris của Fisher là tập dữ liệu đa biến được giới thiệu bởi nhà thống kê và nhà sinh vật học người Anh Ronald Fisher trong bài báo năm 1936 Việc sử dụng nhiều phép đo trong các vấn đề phân loại như một ví dụ về phân tích phân biệt tuyến tính. Đơi khi nĩ được gọi là tập dữ liệu Iris của Anderson vì Edgar Anderson đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris của ba lồi liên quan. Hai trong số ba lồi được thu thập ở Bán đảo Gaspé "tất cả từ cùng một đồng cỏ, và được chọn vào cùng một ngày và được đo cùng lúc bởi cùng một người với cùng một bộ máy". Bộ dữ liệu bao gồm 50 mẫu từ mỗi ba lồi Iris (Iris setosa, Iris virginica và Iris Verscolor). Bốn đặc điểm được đo từ mỗi mẫu: chiều dài và chiều rộng của đài hoa, chiều dài và chiều rộng cánh hoa, tính bằng centimet. Dựa trên sự kết hợp của bốn tính năng này, Fisher đã phát triển một mơ hình phân biệt tuyến tính để phân biệt các lồi với nhau. Hình 3. 1: Minh họa về iris flower dataset 36 3.1.2 Sử dụng tập dữ liệu Dựa trên mơ hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như máy vector hỗ trợ. Tuy nhiên, việc sử dụng tập dữ liệu này trong phân tích cụm khơng phổ biến, vì tập dữ liệu chỉ chứa hai cụm cĩ sự phân tách khá rõ ràng. Một trong những cụm chứa Iris setosa, trong khi cụm cịn lại chứa cả Iris virginica và Iris Versolor và khơng thể tách rời nếu khơng cĩ thơng tin về lồi mà Fisher sử dụng. Điều này làm cho dữ liệu trở thành một ví dụ tốt để giải thích sự khác biệt giữa các kỹ thuật được giám sát và khơng giám sát trong khai thác dữ liệu: Mơ hình phân biệt tuyến tính của Fisher chỉ cĩ thể thu được khi biết các lồi đối tượng: nhãn lớp và cụm khơng nhất thiết giống nhau. Tuy nhiên, cả ba lồi Iris đều cĩ thể tách rời trong hình chiếu trên thành phần chính phân nhánh phi tuyến. Tập dữ liệu được xấp xỉ bởi cây gần nhất với một số hình phạt cho số lượng nút, uốn cong và kéo dài quá mức. Các điểm dữ liệu được chiếu vào nút gần nhất. Đối với mỗi nút, sơ đồ hình trịn của các điểm được chiếu được chuẩn bị. Diện tích của chiếc bánh tỷ lệ thuận với số lượng điểm được chiếu. Rõ ràng từ sơ đồ (bên dưới) rằng phần lớn tuyệt đối các mẫu của các lồi Iris khác nhau thuộc về các nút khác nhau. Chỉ một phần nhỏ Iris-virginica được trộn với Iris- Versolor (các nút màu xanh lam hỗn hợp trong sơ đồ). Do đĩ, ba lồi Iris (Iris setosa, Iris virginica và Iris Verscolor) cĩ thể được phân tách bằng các thủ tục khơng giám sát trong phân tích thành phần chính phi tuyến. Để phân biệt chúng, chỉ cần chọn các nút tương ứng trên cây chính. 3.1.3 Tập dữ liệu Bộ dữ liệu chứa một bộ 150 bản ghi bao gồm các thuộc tính – chiều dài và chiều rộng của đài hoa, chiểu dài và chiều rộng của cánh hoa. Bảng 1:Thơng tin lồi Iris-Setosa Chiều dài đài Chiều rộng đài Chiều dài cánh Chiều rộng cánh Thứ tự hoa hoa hoa hoa 1 5.1 3.5 1.4 0.2 37 2 4.9 3 1.4 0.2 3 4.7 3.2 1.3 0.2 4 4.6 3.1 1.5 0.2 5 5 3.6 1.4 0.2 6 5.4 3.9 1.7 0.4 7 4.6 3.4 1.4 0.3 8 5 3.4 1.5 0.2 9 4.4 2.9 1.4 0.2 10 4.9 3.1 1.5 0.1 11 5.4 3.7 1.5 0.2 12 4.8 3.4 1.6 0.2 13 4.8 3 1.4 0.1 14 4.3 3 1.1 0.1 15 5.8 4 1.2 0.2 16 5.7 4.4 1.5 0.4 17 5.4 3.9 1.3 0.4 18 5.1 3.5 1.4 0.3 19 5.7 3.8 1.7 0.3 20 5.1 3.8 1.5 0.3 21 5.4 3.4 1.7 0.2 22 5.1 3.7 1.5 0.4 23 4.6 3.6 1 0.2 24 5.1 3.3 1.7 0.5 25 4.8 3.4 1.9 0.2 26 5 3 1.6 0.2 27 5 3.4 1.6 0.4 28 5.2 3.5 1.5 0.2 29 5.2 3.4 1.4 0.2 30 4.7 3.2 1.6 0.2 31 4.8 3.1 1.6 0.2 32 5.4 3.4 1.5 0.4 33 5.2 4.1 1.5 0.1 34 5.5 4.2 1.4 0.2 35 4.9 3.1 1.5 0.1 36 5 3.2 1.2 0.2 37 5.5 3.5 1.3 0.2 38 4.9 3.1 1.5 0.1 39 4.4 3 1.3 0.2 40 5.1 3.4 1.5 0.2 41 5 3.5 1.3 0.3 42 4.5 2.3 1.3 0.3 43 4.4 3.2 1.3 0.2 44 5 3.5 1.6 0.6 38 45 5.1 3.8 1.9 0.4 46 4.8 3 1.4 0.3 47 5.1 3.8 1.6 0.2 48 4.6 3.2 1.4 0.2 49 5.3 3.7 1.5 0.2 50 5 3.3 1.4 0.2 Bảng 2:Thơng tin lồi Iris-Versicolor Chiều dài đài Chiều rộng Chiều dài Chiều rộng Thứ tự hoa đài hoa cánh hoa cánh hoa 1 7 3.2 4.7 1.4 2 6.4 3.2 4.5 1.5 3 6.9 3.1 4.9 1.5 4 5.5 2.3 4 1.3 5 6.5 2.8 4.6 1.5 6 5.7 2.8 4.5 1.3 7 6.3 3.3 4.7 1.6 8 4.9 2.4 3.3 1 9 6.6 2.9 4.6 1.3 10 5.2 2.7 3.9 1.4 11 5 2 3.5 1 12 5.9 3 4.2 1.5 13 6 2.2 4 1 14 6.1 2.9 4.7 1.4 15 5.6 2.9 3.6 1.3 16 6.7 3.1 4.4 1.4 17 5.6 3 4.5 1.5 18 5.8 2.7 4.1 1 19 6.2 2.2 4.5 1.5 20 5.6 2.5 3.9 1.1 21 5.9 3.2 4.8 1.8 22 6.1 2.8 4 1.3 23 6.3 2.5 4.9 1.5 24 6.1 2.8 4.7 1.2 39 25 6.4 2.9 4.3 1.3 26 6.6 3 4.4 1.4 27 6.8 2.8 4.8 1.4 28 6.7 3 5 1.7 29 6 2.9 4.5 1.5 30 5.7 2.6 3.5 1 31 5.5 2.4 3.8 1.1 32 5.5 2.4 3.7 1 33 5.8 2.7 3.9 1.2 34 6 2.7 5.1 1.6 35 5.4 3 4.5 1.5 36 6 3.4 4.5 1.6 37 6.7 3.1 4.7 1.5 38 6.3 2.3 4.4 1.3 39 5.6 3 4.1 1.3 40 5.5 2.5 4 1.3 41 5.5 2.6 4.4 1.2 42 6.1 3 4.6 1.4 43 5.8 2.6 4 1.2 44 5 2.3 3.3 1 45 5.6 2.7 4.2 1.3 46 5.7 3 4.2 1.2 47 5.7 2.9 4.2 1.3 48 6.2 2.9 4.3 1.3 49 5.1 2.5 3 1.1 50 5.7 2.8 4.1 1.3 Bảng 3: thơng tin Lồi Iris-Virginica Chiều dài đài Chiều rộng Chiều dài Chiều rộng Thứ tự hoa đài hoa cánh hoa cánh hoa 1 6.3 3.3 6 2.5 2 5.8 2.7 5.1 1.9 3 7.1 3 5.9 2.1 40 4 6.3 2.9 5.6 1.8 5 6.5 3 5.8 2.2 6 7.6 3 6.6 2.1 7 4.9 2.5 4.5 1.7 8 7.3 2.9 6.3 1.8 9 6.7 2.5 5.8 1.8 10 7.2 3.6 6.1 2.5 11 6.5 3.2 5.1 2 12 6.4 2.7 5.3 1.9 13 6.8 3 5.5 2.1 14 5.7 2.5 5 2 15 5.8 2.8 5.1 2.4 16 6.4 3.2 5.3 2.3 17 6.5 3 5.5 1.8 18 7.7 3.8 6.7 2.2 19 7.7 2.6 6.9 2.3 20 6 2.2 5 1.5 21 6.9 3.2 5.7 2.3 22 5.6 2.8 4.9 2 23 7.7 2.8 6.7 2 24 6.3 2.7 4.9 1.8 25 6.7 3.3 5.7 2.1 26 7.2 3.2 6 1.8 27 6.2 2.8 4.8 1.8 28 6.1 3 4.9 1.8 29 6.4 2.8 5.6 2.1 30 7.2 3 5.8 1.6 31 7.4 2.8 6.1 1.9 32 7.9 3.8 6.4 2 33 6.4 2.8 5.6 2.2 34 6.3 2.8 5.1 1.5 35 6.1 2.6 5.6 1.4 36 7.7 3 6.1 2.3 37 6.3 3.4 5.6 2.4 41 38 6.4 3.1 5.5 1.8 39 6 3 4.8 1.8 40 6.9 3.1 5.4 2.1 41 6.7 3.1 5.6 2.4 42 6.9 3.1 5.1 2.3 43 5.8 2.7 5.1 1.9 44 6.8 3.2 5.9 2.3 45 6.7 3.3 5.7 2.5 46 6.7 3 5.2 2.3 47 6.3 2.5 5 1.9 48 6.5 3 5.2 2 49 6.2 3.4 5.4 2.3 50 5.9 3 5.1 1.8 3.1.4 Định nghĩa bài tốn phân lớp hoa Iris Với 1 bộ dữ liệu đồ sộ về hoa Iris đã cĩ về các cá thể hoa thuộc các lồi Iris cụ thể, ta khơng cần phải phân tích về gen hay các phân tích về sinh học phức tạp để nhận biết ra 1 cá thể hoa đang xét thuộc lồi Iris nào, bằng các dữ liệu đã cĩ sẵn và dựa vào các thuộc tính của cá thể, ta cĩ thể đưa ra nhận biết nhanh chĩng cá thể đĩ thuộc lồi hoa Iris nào bằng các tính tốn số học trên máy tính (Machine Learning). 3.2. Thu thập và tiền xử lý dữ liệu Bộ dữ liệu về hoa Iris được thu thập bởi Edgar Anderson – 1 nhà thực vật học người mỹ - trên bán đảo Gaspé (là một bán đảo dọc theo bờ biển phía nam của sơng Saint Lawrence ở Quebec, Canada, mở rộng vào vịnh Saint Lawrence) Sau đĩ bộ dữ liệu trên được Ronald Aylmer Fisher – 1 nhà thống kê người Anh đồng thời là 1 nhà di truyền học rút gọn lại, bỏ đi các thuộc tính mang tính chất mơ tả, khơng đo đạt được giá trị theo số học (như thời điểm gieo trồng, thời điểm nở hoa, màu sắc hoa, tấc độ tăng trưởng, điều kiện ánh sáng, đất nước và độ ẩm,) Bộ dữ liệu sau khi được rút gọn bao gồm 5 thuộc tính:  4 thuộc tính kiểu số: chiều dài đài hoa, chiều rộng đài hoa, chiều dài cánh hoa, chiều rộng cánh hoa (đơn vị là cm) 42  1 thuộc tính cịn lại là tên của lồi hoa Iris (cĩ 3 lồi tất cả: Iris Setosa, Iris Versicolor, Iris Virginica) Bảng 4: tổng kết thống kê Giá trị của hoa Iris Giá trị nhỏ nhất Giá trị lớn nhất Giá trị trung bình chiều dài đài hoa 4.3 7.9 5.84 chiều rộng đài hoa 2.0 4.4 3.05 chiều dài cánh hoa 1.0 6.9 3.76 chiều rộng cánh hoa 0.1 2.5 1.20 Tỷ lệ phân chia cho mỗi lồi trong 3 lồi Iris trên là : 33,3% 3.2.1. Làm sạch dữ liệu  Thiếu giá trị: khi xảy ra sự thiếu thơng tin ở 1 thuộc tính nào đĩ trong 1 bản ghi của bộ dữ liệu thu thập, khi mà tính đảm bảo số bản ghi chia đều cho 3 lồi trên đã cĩ ( 33,3%) và số lượng bản ghi thiếu là ít ta cĩ thể áp dụng phương pháp loại bỏ.(thực tế trong bộ dữ liệu trên, khơng tồn tại giá trị thuộc tính bị thiếu hay khơng được điền). Mặt khác khi cần phải điền vào các giá trị thiếu, ta cĩ thể áp dụng phương pháp điền tự động, thay thế các giá trị thiếu bằng giá trị trung bình đã được thống kê ở trên  Nhiễu dữ liệu: khi xuất hiện 1 giá trị bất ngờ nào đĩ, đột nhiên vượt quá các giá trị biên đã được thống kê, ta cĩ thể sửa lại giá trị đĩ thành các giá trị ở vùng biên theo bảng thống kê ở trên 3.2.2. Chọn lọc dữ liệu Tích hợp và dư thừa dữ liệu: do dữ liệu trên thu thập từ 1 nguồn duy nhất nên việc tích hợp là khơng cần thiết, các thuộc tính của dữ liệu là độc lập nhau, khơng cĩ mối quan hệ tương quan nào, các thuộc tính đã được rút gọn chọn lọc nên khơng cần việc phân tích dư thừa dữ liệu. 43 3.2.3. Chuyển đổi dữ liệu Biến đổi dữ liệu: ta sử dụng phương pháp chuẩn hĩa dữ liệu về khoảng giá trị [0,1], phần này sẽ được nĩi rõ hơn ở phần sau tùy vào phương pháp khai phá dữ liệu được lựa chọn. 3.2.4. Rút gọn dữ liệu Như đã nĩi từ đầu, bộ dữ liệu đã được loại bỏ đi các thuộc tính mang tính chất mơ tả, chỉ giữ lại 1 thuộc tính mơ tả duy nhất là tên lồi Iris cụ thể.các thuộc tính mang tính số học cịn lại vẫn đảm bảo được tính phân loại (đã được Ronald Aylmer Fisher – 1 nhà di truyền học người Anh – chọn lọc) 3.3. Giới thiệu về cơng cụ Weka, cấu hình và ứng dụng phân lớp hoa Iris 3.3.1 Khái niệm Weka là một bộ phần mềm mã nguồn mở miễn phí khai thác dữ liệu, được xây dựng bằng ngơn ngữ lập trình Java, theo kiến trúc hướng đối tượng, được tổ chức thành thư viện phục vụ cho lĩnh vực học máy và khai phá dữ liệu. Weka là phần mềm thuộc dự án phát triển của Đại học Waikato, New Zealand, nĩ là tên viết tắt của Waikato Environment for Knowledge Analysis. Ngồi khuơn khổ trường đại học, Weka được phát âm vần điệu với Mecca, đây là một lồi chim khơng bay với bản chất tị mị chỉ tìm thấy trên các đảo ở New Zealand, đồng thời, lồi chim này cũng chính là biểu tượng cho phần mềm Weka. Hình 3. 2: Lồi chim Mecca được chọn là biểu tượng của ứng dụng Weka 44 Weka cung cấp các thuật tốn học tập mà bạn cĩ thể dễ dàng áp dụng cho các bộ dữ liệu (dataset). Nĩ cũng bao gồm một loạt các cơng cụ để chuyển đổi các bộ dữ liệu như các thuật tốn để phân loại và lấy mẫu mà khơng cần phải viết bất kỳ mã chương trình nào. Theo KDNuggets (2005) đánh giá, Weka là sản phẩm khai thác dữ liệu được sử dụng nhiều nhất, nổi bật và hiệu quả nhất năm 2005. Weka chứa một bộ sưu tập các cơng cụ trực quan và các thuật tốn để phân tích dữ liệu cũng như lập các mơ hình dự đốn, cùng với các giao diện người dung đồ họa để dễ dàng truy cập các chức năng này. 3.3.2 Ưu điểm của Weka Phần mềm mã nguồn mở Weka bắt đầu phát triển mạnh mẽ vào năm 1997 và được sử dụng trong nhiều lĩnh vực ứng dụng khác nhau, đặc biệt cho mục đích giáo dục và nghiên cứu bởi những ưu điểm sau:  Tính khả dụng miễn phí theo Giấy phép Cơng cộng GNU (giấy phép cung cấp bản quyền phần mềm miễn phí, đảm bảo cho người dùng được tự do chạy, nghiên cứu, chia sẻ và thay đổi phần mềm).  Được thực hiện bởi ngơn ngữ lập trình Java nên Weka cĩ tính di động khi nĩ chạy được trên hầu hết bất kỳ nền tảng điện tốn hiện đại nào đã được thử nghiệm như Linux, Windows hay hệ điều hành Macintosh.  Tổng hợp tồn diện các kỹ thuật tiền xử lý và mơ hình hĩa dữ liệu.  Giao diện đồ họa giúp người dùng dễ sử dụng. Weka hỗ trợ một số nhiệm vụ khai thác dữ liệu tiêu chuẩn, cụ thể hơn là xử lý trước dữ liệu, phân cụm, phân loại, hồi quy, trực quan hĩa và lựa chọn tính năng. Tất cả các kỹ thuật của Weka được dựa trên giả định rằng dữ liệu cĩ sẵn dưới dạng một tệp phẳng hoặc quan hệ, trong đĩ mỗi điểm dữ liệu được mơ tả bằng một số thuộc tính cố định (thơng thường là thuộc tính số hoặc danh nghĩa, nhưng một số loại thuộc tính khác cũng được hỗ trợ). Weka cung cấp quyền truy cập vào cơ sở dữ liệu SQL bằng cách sử dụng Java Database Connectivity và cĩ thể xử lý kết quả được trả về bởi truy vấn cơ sở dữ liệu. 45 3.3.3 Những tính năng vượt trội của Weka Như đã nĩi ở trên, Weka được đánh giá là sản phẩm khai thác dữ liệu nổi bật là bởi những tính năng đặc biệt sau: - Hỗ trợ nhiều thuật tốn máy học và khai phá dữ liệu - Được tổ chức theo dạng mã nguồn mở để người dùng dễ dàng download và sử dụng - Độc lập với mơi trường do sử dụng các máy ảo Java (JVM –Java virtual machine) - Dễ sử dụng, kiến trúc dạng thư viện dễ dàng cho việc xây dựng các ứng dụng thực nghiệm -Giao diện đồ họa (gồm cả tính năng hiển thị hĩa dữ liệu) - Mơi trường cho phép so sánh các giải thuật học máy và khai phá dữ liệu. 3.3.4 Kiến trúc thư viện Weka Để thuận tiện cho việc sử dụng của người dùng, kiến trúc thư viện của Weka được xây dựng với hơn 600 lớp và được tổ chức thành 10 gĩi (package), trong đĩ, mỗi package sẽ thực hiện một nhiệm vụ chức năng riêng biệt trong quá trình khai thác dữ liệu. Để người dùng cĩ thể tự xây dựng ứng dụng của bản thân mình thì người dùng cĩ thể trực tiếp sử dụng những package này để xây dựng các chương trình. Weka cĩ một số lượng lớn các cơng cụ hồi quy và phân loại. Các gĩi bản địa là các gĩi được bao gồm trong phần mềm Weka thực thi, trong khi các gĩi khơng phải gốc khác cĩ thể được tải xuống và sử dụng trong mơi trường R. Weka. Trong số các gĩi bản địa, cơng cụ nổi tiếng nhất là gĩi cây mơ hình M5p. Một số cơng cụ hồi quy phổ biến là:  M5Rules (thuật tốn M5' được trình bày dưới dạng hàm tốn học khơng cĩ cây)  DecisionStump (giống như M5' nhưng với một đầu ra số duy nhất trong mỗi nút)  M5P (tách miền thành các vùng nhị phân kế tiếp và sau đĩ phù hợp với các mơ hình tuyến tính cho mỗi nút cây) 46  RandomForest (một số cây mơ hình kết hợp)  RepTree (một số cây mơ hình kết hợp)  ZeroR (giá trị trung bình của kết quả đầu ra)  DecisionRules (chia tách dữ liệu thành nhiều vùng dựa trên một biến độc lập và cung cấp một giá trị đầu ra cho mỗi phạm vi)  LinearRegression  Sự hồi quy vector hỗ trợ  SimpleLinearRegression (sử dụng một biến chặn và chỉ 1 biến đầu vào cho dữ liệu đa biến)  MultiLayerPerceptron (mạng nơron) 3.3.5 Các mơi trường chức năng chính của Weka Hình 3. 3: mơi trường chính của Weka Bảng 5: ý nghĩa các mơi trường chính trên Weka 3.8.4 Mơi trường Mơ tả Explorer là ứng dụng con cho phép thực nghiệm các nhiệm vụ khai thác dữ liệu thường gặp như: Tiền xử lý dữ liệu, Khai thác luật kết hợp, Phân lớp và Gom nhĩm Experimenter Mơi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê (statistical tests) giữa các mơ hình học máy 47 KnowledgeFlow Mơi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước (các thành phần) của một thí nghiệm Workbench được coi là ứng dụng tất cả trong một, Workbench là ứng dụng kết hợp tất cả các ứng dụng ở bên trong nĩ. Simple CLI cung cấp giao diện dịng lệnh để thực thi Weka, tính năng này tương tự như cửa sổ Command Prompt của Windows, nĩ hỗ trợ cho các hệ điều hành khơng cĩ chức năng của các cửa sổ dịng lệnh, SimpleCLI sẽ thực thi trực tiếp các lệnh của Weka mà khơng cần thơng qua giao diện.  Mơi trường trên thì mơi trường Explorer là mơi trường được sử dụng nhiều nhất. Trong Explorer cĩ các chức năng chính là: Hình 3.3: mơi trường Explorer của Weka 48 Bảng 6: ý nghĩa các mơi trường Explorer trên Weka 3.8.4 Mơi trường Mơ tả Preprocess Để chọn và thay đổi (xử lý) dữ liệu làm việc Classify Để huấn luyện và kiểm tra các mơ hình học máy (phân lớp, hoặc hồi quy/dự đốn) Cluster Để học các nhĩm từ dữ liệu (phân cụm) Associate: Để khám phá các luật kết hợp từ dữ liệu Select attributes Để xác định và lựa chọn các thuộc tính liên quan (quan trọng) nhất của dữ liệu Visualize Để xem (hiển thị) biểu đồ tương tác 2 chiều đối với dữ liệu 3.3.6 Định dạng dữ liệu của weka Weka hỗ trợ khá nhiều định dạng như:  ARFF: *.arff  CVS files: *.cvs  C4.5 files: *.name, *.data  XRFF files: *.xrff Trong đĩ, ARFF là định dạng chính được sử dụng phổ biến nhất trong Weka. ARFF là định dạng được sử dụng chính trong Weka, được biểu diễn dưới một dạng file text cĩ thể đọc được một cách đơn giản bằng các chương trình như notepad mà khơng cần phải cĩ chương trình chuyên dụng. Các dữ liệu trong file là giá trị thuộc tính của các thể hiện (instance) cĩ chung tập hợp các thuộc tính. ARFF dễ thao tác và dễ hiểu, người dùng cĩ thể tự tạo cho mình một file ARFF khi hiểu về những quy định chuẩn của nĩ. Tuy nhiên, vì là định dạng chuyên dụng cho mỗi chương trình Weka nên những ứng dụng khác khơng thể đọc được nĩ. Do đĩ, khi sử dụng kết hợp Weka với các chương trình khác thì người dung buộc phải xây dựng các module để chuyển kiểu dữ liệu từ ARFF sang kiểu dữ liệu tương ứng với chương trình đĩ. Cấu trúc tập tin *.ARFF

Các file đính kèm theo tài liệu này:

  • pdfluan_van_phan_lop_du_lieu_hoa_iris_su_dung_thuat_toan_naive.pdf
Tài liệu liên quan