ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
INTHAVONG SOUKSAKHONE
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP
DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN LỚP NẤM
(MUSHROOM) VỚI CÔNG CỤ WEKA
LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH
Thái Nguyên – 2020
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
INTHAVONG SOUKSAKHONE
NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP DỮ
LIỆU VÀ ỨNG DỤNG TRONG PHÂN LỚP NẤM
(MUSHROOM) VỚI CÔNG CỤ WEKA
LUẬN VĂN
85 trang |
Chia sẻ: huong20 | Ngày: 13/01/2022 | Lượt xem: 454 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
THẠC SỸ KHOA HỌC MÁY TÍNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 84 8 01 01
Người hướng dẫn khoa học: TS. Nguyễn Văn Núi
Thái Nguyên – 2020
I
LỜI CẢM ƠN
Trước tiên, tơi xin được gửi lời cảm ơn và lịng biết ơn sâu sắc nhất tới Thầy
giáo, TS. Nguyễn Văn Núi đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ tơi
trong suốt quá trình tơi thực hiện luận văn tốt nghiệp.
Tơi xin gửi lời cảm ơn tới các thầy cơ Trường Đại Học Cơng nghệ Thơng
Tin và Truyền Thơng – Đại học Thái Nguyên, những người đã tận tình giúp đỡ,
hướng dẫn trong quá trình tơi học tập tại trường.
Cuối cùng, tơi muốn gửi lời cảm ơn tới gia đình và bạn bè, những người thân
yêu luơn bên cạnh, quan tâm, động viên tơi trong suốt quá trình học tập và thực hiện
luận văn tốt nghiệp này.
Tơi xin chân thành cảm ơn!
Thái Nguyên, tháng 11 năm 2020
Học viên
Inthavong Souksakhone
II
LỜI CAM ĐOAN
Tơi xin cam đoan kết quả đạt được trong Luận văn là sản phẩm của riêng cá
nhân tơi, khơng sao chép lại của người khác. Những điều được trình bày trong nội
dung Luận văn, hoặc là của cá nhân hoặc là được tổng hợp từ nhiều nguồn tài liệu.
Tất cả các tài liệu tham khảo đều cĩ xuất xứ rõ ràng và được trích dẫn đúng quy
cách. Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Thái Nguyên, tháng 11 năm 2020
Tác giả luận văn
Inthavong Souksakhone
III
MỤC LỤC
LỜI CẢM ƠN ......................................................................................................................... I
LỜI CAM ĐOAN ..................................................................................................................II
MỤC LỤC ............................................................................................................................. III
DANH SÁNH BẢNG .......................................................................................................... VI
DANH SÁNH HÌNH VẼ ................................................................................................... VII
DANH SÁCH TỪ VIẾT TẮT .......................................................................................... IX
CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC ..... 3
1.1 Giới thiệu tổng quan .......................................................................................................... 3
1.1.1 Khái niệm khai phá dữ liệu ................................................................................. 3
1.1.2 Nhiệm vụ của khai phá dữ liệu ........................................................................... 4
1.1.3 Một số ứng dụng khai phá dữ liệu ...................................................................... 4
1.1.4 Bước phát triển của việc tổ chức và khai thác các CSDL .................................. 5
1.1.5 Quá trình phát hiện tri thức ................................................................................. 6
1.1.6 Các bước của quá trình KPDL ............................................................................ 8
1.2. Một số kỹ thuật khai phá dữ liệu cơ bản ...................................................................... 10
1.2.1 Khai phá dữ liệu dự đốn .................................................................................. 10
1.2.1.1 Phân lớp (Classification) ............................................................................ 10
1.2.1.2 Hồi quy (Regression).................................................................................. 11
1.2.2 Khai phá dữ liệu mơ tả ...................................................................................... 11
1.2.2.1 Phân cụm .................................................................................................... 11
1.2.2.2 Khai phá luật kết hợp ................................................................................. 12
1.3 Một số so sánh giữa khai phá dữ liệu và các phương pháp cơ bản khác .................. 12
1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems) ............................. 13
1.3.2 So sánh với phương pháp thống kê (Statistics) ................................................ 14
1.3.3 So sánh với phương pháp học máy (Machine Learning) .................................. 14
1.3.4 So sánh với phương pháp học sâu (Deep Learning) ......................................... 15
IV
1.4 Tổng kết chương .............................................................................................................. 18
CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ
LIỆU ............................................................................................................................. 19
2.1 Tổng quan về phân lớp dữ liệu ....................................................................................... 19
2.2 Phân lớp dữ liệu bằng cây quyết định ........................................................................... 22
2.2.1 Độ lợi thơng tin ................................................................................................. 26
2.2.2 Tỉ số độ lợi ........................................................................................................ 29
2.2.3 Chỉ số Gini ........................................................................................................ 30
2.2.4 Tỉa cây quyết định ............................................................................................ 32
2.3 Phân lớp dữ liệu Bayesian .............................................................................................. 33
2.3.1 Định lý Bayes ................................................................................................... 33
2.3.2 Phân lớp Nạve Bayes ....................................................................................... 34
2.4. Phân lớp dữ liệu sử dụng máy hỗ trợ vector (SVM) .................................................. 36
2.4.1 Phân lớp đa lớp với SVM ................................................................................. 40
2.5. Phân lớp dữ liệu với Random Forest (rừng ngẫu nhiên) ........................................... 40
2.6 Một số phương pháp phân lớp dữ liệu khác ................................................................. 44
2.6.1 Thuật tốn phân lớp k-NN ................................................................................ 44
2.7 Đánh giá mơ hình phân lớp dữ liệu ............................................................................... 44
2.8 Tổng kết chương .............................................................................................................. 46
CHƯƠNG 3 ỨNG DỤNG PHÂN LỚP DỮ LIỆU MUSHROOM VỚI CƠNG
CỤ WEKA VÀ MỘT SỐ THUẬT TỐN CƠ BẢN .................................................... 47
3.1 Giới thiệu bài tốn phân lớp dữ liệu Mushroom .......................................................... 47
3.1.1 Giới thiệu về bài tốn phân lớp dữ liệu Mushroom .......................................... 47
3.1.2. Thu thập, tiền xử lý và mã hĩa dữ liệu ......................................................... 47
3.1.3. Mơ tả sơ lược về dữ liệu ............................................................................... 51
3.2 Giới thiệu về cơng cụ Weka, cấu hình và ứng dụng phân lớp Mushroom .............. 52
3.2.1 Mơi trường Explorer ......................................................................................... 53
V
3.2.2 Khuơn dạng của tập dữ liệu .............................................................................. 54
3.2.3 Tiền xử lý dữ liệu .............................................................................................. 54
3.2.4 Phân tích chức năng phân lớp (Classify) .......................................................... 54
3.2.5 Mơ tả chức năng phân lớp (Classify) ................................................................ 58
3.3 Áp dụng các phương pháp phân lớp trên tập dữ liệu Mushroom .............................. 60
3.3.1 Thực hiện phân lớp bằng thuật tốn Naive Bayes ............................................ 61
3.3.2 Thực hiện phân lớp bằng thuật tốn k-Nearest neighbor ................................. 63
3.3.3 Thực hiện phân lớp bằng thuật tốn Support Vector Machines ....................... 66
3.4 Đánh giá mơ hình phân lớp dữ liệu Mushroom ........................................................... 70
3.4.1 Đánh giá mơ hình bằng phương pháp Hold-out ............................................... 70
3.4.2 Đánh giá mơ hình bằng phương pháp k-fold Cross validation ......................... 71
3.5 Kết luận thực nghiệm phần lớp dữ liệu Mushroom ..................................................... 71
3.6 Tổng kết chương .............................................................................................................. 72
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ....................................................................... 73
TÀI LIỆU THAM KHẢO .................................................................................................. 74
VI
DANH SÁNH BẢNG
Bảng 2.1: Bảng dữ liệu khách hàng .............................................................................. 25
Bảng 2.3: Bảng biểu diễn ma trận nhầm lẫn ................................................................. 45
Bảng 3.1: Bảng tổng hợp dữ liệu thu thập .................................................................... 47
Bảng 3.2: Các tính năng dành cho các dữ liệu nấm ...................................................... 48
Bảng 3.3: Mơ tả ý nghĩa các giá trị dữ liệu nấm ........................................................... 50
Bảng 3.4: Hiệu năng của mơ hình dự đốn, đánh giá bởi kiểm tra 70% ...................... 70
Bảng 3.5: Hiệu năng của mơ hình dự đốn, đánh giá bởi kiểm tra chéo mặt
(fold=10 cross-validation) ............................................................................................. 71
VII
DANH SÁNH HÌNH VẼ
Hinh 1.1: Quá trình phát hiện tri thức ............................................................................. 6
Hinh 1.2: Quá trình khai phá dữ liêu (KPDL) ................................................................ 9
Hinh 1.3: Phân cụm tập dữ liệu cho vay thành 3 cụm .................................................. 12
Hinh 1.4: Một số lĩnh vực ứng dụng của trí tuệ nhân tạo ............................................. 13
Hinh 1.5: Học sau nhận dạng khuơn mặt hoặc biểu hiện cảm xúc trên khuân mặt ...... 16
Hình 2.1: Quá trình phân lớp dữ liệu - (a) Bước xây dựng mơ hình phân lớp ............. 21
Hình 2.2 : Quá trình phân lớp dữ liệu - (b1) Ước lượng độ chính xác của mơ hình .... 22
Hình 2.3: Quá trình phân lớp dữ liệu - (b2) Phân lớp dữ liệu mới ............................... 22
Hình 2.4:Phân lớp cho bài tốn cho vay vốn của ngân hàng ........................................ 23
Hình 2.5:Thuật tốn xây dựng cây quyết định .............................................................. 24
Hình 2.6: Minh họa cây quyết định ............................................................................... 26
Hình 2.7: Thuộc tính tuổi cĩ thơng tin thu được cao nhất ............................................ 29
Hình 2.8 :Các điểm trong khơng gian D chiều ............................................................. 36
Hình 2.9: Siêu phẳng phân lớp các điểm trong khơng gian .......................................... 37
Hình 2.10: Đồ thị biểu diễn các điểm trong mặt phẳng R+ .......................................... 37
Hình 2.11: Các điểm lựa chọn cho siêu phẳng ............................................................. 38
Hình 2.12: Kiến trúc mơ hình SVM .............................................................................. 38
Hình 2.13: Đồ thị biểu diễn siêu phẳng tìm được ......................................................... 39
Hình 2.14: Mơ hình rừng ngẫu nhiên ............................................................................ 42
Hình 2.15: Mơ hình chia tập dữ liệu Hold-out .............................................................. 45
Hình 2.16: Mơ hình chia tập dữ liệu Cross validation .................................................. 46
Hình 3.1: Sơ đồ Phương pháp phân lớp nấm (Mushroom). .......................................... 49
Hình 3.2 : Load Mushroom data ................................................................................... 51
Hình 3.3: Giao diên ban đầu Phần mềm WEKA .......................................................... 52
Hình 3.4: Giao diên của WEKA Explorer .................................................................... 53
Hình 3.5: Biểu diễn tập dữ liệu weather trong tập tin văn bản(text) ............................. 54
Hình 3.6: Biểu diễn đọc dữ liệu vào chương trình Weka ............................................. 55
VIII
Hình 3.7: Biểu diễn chọn tab Classify để phân lớp....................................................... 55
Hình 3.8: Biểu diễn chọn thuật tốn phân lớp và xác định tham số ............................. 56
Hình 3.9: Biểu diễn chọn kiểu test ................................................................................ 56
Hình 3.10: Chạy thuật tốn phân lớp ............................................................................ 57
Hình 3.11: Bảng lưu thơng tin ....................................................................................... 57
Hình 3.12: Bảng kết quả sau chạy thuật tốn phân lớp ................................................. 58
Hình 3.13: Giải thích Running Information .................................................................. 58
Hình 3.14: Giải thích Classifier model (full training set) ............................................. 59
Hình 3.15: Giải thích xem xét tổng kết số liệu thống kế tập dữ liệu ............................ 59
Hình 3.16: Xem độ chính xác chi tiết cho từng phân lớp ............................................. 59
Hình 3.17: Confusion matrix của bộ phân lớp dữ liêu Mushroom ............................... 60
Hình 3.18: Sơ đồ tổng thể Mơ hình phân lớp dự đốn nấm (mushroom) ..................... 60
Hình 3.19: Cấu hình Weka cho thuật tốn Naive Bayes ............................................... 61
Hình 3.20: Kết quả phân lớp Weka cho thuật tốn Naive Bayes với số 70% Split ...... 62
Hình 3.21: Kết quả phân lớp Weka cho thuật tốn Naive Bayes kiểm tra chéo 10
mặt ................................................................................................................................. 63
Hình 3.22: Cấu hình Weka cho thuật tốn k-NN .......................................................... 64
Hình 3.23: Cấu hình Weka cho thuật tốn tìm kiếm trong thuật tốn k-NN ................ 64
Hình 3.24: Kết quả phân lớp Weka cho thuật tốn k-NN với số 70% Split ................. 65
Hình 3.25: Kết quả phân lớp Weka cho thuật tốn k-NN kiểm tra chéo 10 mặt .......... 65
Hình 3.26: Cấu hình Weka cho thuật tốn SVM .......................................................... 66
Hình 3.27: Kết quả phân lớp Weka cho thuật tốn SVM với số 70% Split .................. 67
Hình 3.28: Kết quả phân lớp Weka cho thuật tốn SVM kiểm tra chéo 10 mặt .......... 67
Hình 3.29: Cấu hình Weka cho thuật tốn J48 ............................................................. 68
Hình 3.30: Kết quả phân lớp Weka cho thuật tốn J48 decision với số 70% Split ...... 68
Hình 3.31: Kết quả phân lớp Weka cho thuật tốn J48 kiểm tra chéo 10 mặt.............. 69
Hình 3.32: Mơ hình cây quyết định hiển thị bởi Hold-out J48 ..................................... 69
Hình 3.33: cây quyết định Visualization ....................................................................... 70
IX
DANH SÁCH TỪ VIẾT TẮT
TT Từ viết tắt Dạng đầy đủ Chú thích
1 DM Data Mining Khai thác dữ liệu
2 SVM Supprot Vector Machin Máy hỗ trợ vector
3 KDD Knowlegde Discovery in Phát hiện tri thức trong
Databases CSDL
4 RF Random forest Rừng ngẫu nhiên
5 E Edible Ăn được hoặc khơng cĩ độc
6 P Poisonous Cĩ độc hoặc Khơng ăn được
7 PCA Principal Component Analysis Thuật tốn phân tích thành
phần chính
8 K-NN K-Nearest neighbor K láng giềng gần nhất
9 ACC Accuracy Độ chính xác
10 ARFF Attribute Relation File Format
1
MỞ ĐẦU
Ly do chọn đề tài
Sự bùng nổ và phát triển của ngành cơng nghệ thơng tin trong cách mạng 4.0
và việc ứng dụng cơng nghệ thơng tin ở hầu hết các lĩnh vực trong nhiều năm qua
cũng đồng nghĩa với lượng dữ liệu đã được thu thập và lưu trữ ngày càng lớn. Các
hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thơng tin
nhỏ khơng cịn đáp ứng đầy đủ những yêu cầu, những thách thức mới. Do vậy một
khuynh hướng mới được ra đời đĩ là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu.
Xin giới thiệu một cách tổng quan về phát hiện tri thức và khai phá dữ liệu cùng
một số kỹ thuật cơ bản để trong khai phá dữ liệu để phát hiện tri thức và một số ứng
dụng trong thực tế nhằm hỗ trợ cho tiến trình ra quyết định.
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã đang được nghiên cứu, ứng
dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, kỹ thuật này tương
đối cịn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng.
Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining - DM),
giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc các
nguồn dữ liệu khổng lồ khác. Rất nhiều doanh nghiệp và tổ chức trên thế giới đã
ứng dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và
đã thu được những lợi ích to lớn.
Khai phá dữ liệu và khám phá tri thức (Data mining and Knowledge
discovery) là một lĩnh vực quan trọng của ngành Cơng nghệ thơng tin với mục tiêu
là tìm kiếm các tri thức cĩ ích, cần thiết, tiềm ẩn và chưa được biết trước trong cơ
sở dữ liệu lớn. Đây là lĩnh vực đã và đang thu hút đơng đảo các nhà khoa học trên
thế giới và trong nước tham gia nghiên cứu. Phân lớp (classification) là một trong
những bài tốn cơ bản trong khai phá dữ liệu với mục tiêu là phân loại các đối
tượng vào các lớp cho trước. Nhưng để làm được điều đĩ, sự phát triển của các mơ
hình tốn học và các giải thuật hiệu quả là chìa khố quan trọng. Vì vậy, trong luận
văn này, tác giả sẽ đề cập tới kỹ thuật thường dùng trong khai phá dữ liệu, đĩ là
Phân lớp (Classification).
2
Sau phần mở đầu, kết luận và tài liệu tham khảo nội dung chính của luận văn
được trình bày chi tiết chia thành 3 chương như sau:
Chương 1. Tổng quan về khai phá dữ liệu và phát hiện tri thức
Phần này giới thiệu một cánh tổng quát về quá trình phát hiện tri thức nĩi
chung và khai phá dữ liệu nĩi riêng. Đặc biệt nhấn mạnh về một kỹ thuật chính
được nghiên cứu trong luận văn đĩ là Kỹ thuật phân lớp.
Chương 2. Một số phương pháp và kỹ thuật phân lớp dữ liệu
Trong phần này, sẽ giới thiệu tập trung vào kỹ thuật phân lớp được một số
cách chi tiết. Cĩ nhiều kiểu phân lớp như phân lớp bằng cây quyết định (Decision
Tree), phân lớp dữ liệu Bayesian, phân lớp dữ liệu với Random Forest (rừng ngẫu
nhiên), Phân lớp dữ liệu sử dụng máy hỗ trợ vector (SVM) và một số phương pháp
phân lớp dữ liệu khác. Ngồi ra cịn đánh giá mơ hình của phương pháp phân lớp dữ
liệu.
Chương 3. Ứng dụng phân lớp dữ liệu Mushroom với cơng cụ Weka và một số
thuật tốn cơ bản.
Phần này giới thiệu bài tốn phân lớp dữ liệu Mushroom, giới thiệu về phân
lớp dữ liệu sử dụng cơng cụ Weka, áp dụng các phương pháp phân lớp trên tập dữ
liệu Mushroom. Sau đĩ phân chia tập dữ liệu để đánh giá mơ hình theo hai phương
pháp Hold-out và K-fold cross validation để kết luận phân lớp dữ liệu Mushroom
cho kết quả phân lớp tốt nhất.
3
CHƯƠNG 1
TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC
1.1 Giới thiệu tổng quan
Trong thời đại ngày nay, với sự phát triển vượt bật của cơng nghệ thơng tin,
các hệ thống thơng tin cĩ thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng
ngày của chúng. Khơng cĩ một lĩnh vực nào lại khơng cần đến sự hỗ trợ của cơng
nghệ thơng tin và sự thành cơng của các lĩnh vực đĩ phụ thuộc rất nhiều vào việc
nắm bắt thơng tin một cách nhạy bén, nhanh chĩng và hữu ích. Với nhu cầu như thế
nếu chỉ sử dụng thao tác thủ cơng truyền thống thì độ chính xác khơng cao và mất
rất nhiều thời gian. Từ khối dữ liệu này, các kỹ thuật trong Khai Phá Dữ Liệu
(KPDL) và Máy Học (MH) cĩ thể dùng để trích xuất những thơng tin hữu ích mà
chúng ta chưa biết. Các tri thức vừa học được cĩ thể vận dụng để cải thiện hiệu quả
hoạt động của hệ thống thơng tin ban đầu. Do vậy việc khai phá tri thức từ dữ liệu
trong các tập tài liệu lớn chứa đựng thơng tin phục vụ nhu cầu nắm bắt thơng tin cĩ
vai trị hết sức to lớn. Từ đĩ, các kĩ thuật khai phá dữ liệu đã trở thành một lĩnh vực
thời sự của nền CNTT thế giới hiện nay.
Khai phá dữ liệu (Data Mining) là một lĩnh vực mới xuất hiện, nhằm tự động
khai thác những thơng tin, những tri thức cĩ tính tiềm ẩn, hữu ích từ những CSDL
lớn cho các đơn vị, tổ chức, doanh nghiệp, từ đĩ làm thúc đẩy khả năng sản xuất,
kinh doanh, cạnh tranh cho các đơn vị, tổ chức này. Các kết quả khoa học cùng
những ứng dụng thành cơng trong khám phá tri thức, cho thấy, khai phá dữ liệu là
một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và cĩ nhiều triển vọng,
đồng thời cĩ ưu thế hơn hẳn so với các cơng cụ phân tích dữ liệu truyền thống. Hiện
nay, khai phá dữ liệu đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như:
Thương mại, tài chính, điều trị y học, viễn thơng, tin – sinh
1.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (data mining) là quá trình trích xuất, khai thác các mẫu
trong các bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học,
4
thống kê và các hệ thống cơ sở dữ liệu và sử dụng những dữ liệu cĩ giá trị tiềm ẩn
từ bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu (CSDL), kho dữ
liệu, trung tâm dữ liệu lớn hơn là Big Data dựa trên kĩ thuật như mạng nơ ron, lí
thuyết tập thơ, tập mờ, biểu diễn tri thức. Khai phá dữ liệu là một cơng đoạn trong
hoạt động “làm sạch” dữ liệu giúp cho dữ liệu được truyền dẫn một cách nhanh
nhất. Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thơng tin từ một
bộ dữ liệu và chuyển nĩ thành một cấu trúc dễ hiểu để sử dụng tiếp. Ngồi bước
phân tích thơ, nĩ cịn liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu,
xử lý dữ liệu trước, suy xét mơ hình và suy luận thống kê, các thước đo thú vị, các
cân nhắc phức tạp, xuất kết quả về các cấu trúc được phát hiện, hiện hình hĩa và
cập nhật trực tuyến. Khai thác dữ liệu là bước phân tích của quá trình “khám phá
kiến thức trong cơ sở dữ liệu” hoặc KDD.
Định nghĩa: Khai phá dữ liệu là một quá trình tìm kiếm, phát hiện các tri
thức mới, tiềm ẩn, hữu dụng trong CSDL lớn.
Khai phá tri thức trong CSDL (Knowledge Discovery in Databases - KDD)
là mục tiêu chính của khai phá dữ liệu, do vậy hai khái niệm khai phá dữ liệu và
KDD được các nhà khoa học trên hai lĩnh vực xem là tương đương với nhau. Thế
nhưng, nếu phân chia một cách chi tiết thì khai phá dữ liệu là một bước chính trong
quá trình KDD.
1.1.2 Nhiệm vụ của khai phá dữ liệu
Những nhiệm vụ cơ bản nhất của KPDL là:
• Phân cụm, phân loại, phân nhĩm, phân lớp.
• Khai phá luật kết hợp.
• Lập mơ hình dự báo.
• Phân tích đối tượng ngồi cuộc.
• Phân tích sự tiến hĩa.
1.1.3 Một số ứng dụng khai phá dữ liệu
Mặc dù cịn rất nhiều vấn đề mà KPDL cần phải tiếp tục nghiên cứu để giải
quyết nhưng tiềm năng của nĩ đã được khẳng định bằng sự ra đời của rất nhiều ứng
5
dụng. các ứng dụng của KPDL trong khoa học cũng được phát triển. các cơng ty
phần mềm lớn trên thế giới cũng rất quan tâm và chú trọng tới việc nghiên cứu và
phát triển kỹ thuật khai phá dữ liệu: oracle tích hợp các cơng cụ khai phá dữ liệu
vào bộ oracle 9i, IBM đã đi tiên phong trong việc phát triển các ứng dụng khai phá
dữ liệu với các ứng dụng như Intelligence miner, Ta cĩ thể đưa ra một số ứng
dụng trong các lĩnh vực như:
• Thương mại: Phân tích dữ liệu bán hàng và thi trường, phân tích đầu tư,
quyết định cho vay, phát hiện gian lận.
• Thơng tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích
kết quả thử nghiệm.
• Thơng tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, khoa
học địa lý: dự báo động đất.
• Trong y tế, marketing, ngân hàng, viễn thơng, du lịch, internet.
1.1.4 Bước phát triển của việc tổ chức và khai thác các CSDL
Cùng với việc tăng khơng ngừng khối lượng dữ liệu, các hệ thống thơng tin
cũng được chuyên mơn hĩa, phân hoạch theo các lĩnh vực ứng dụng như sản xuất,
tài chính, buơn bán thị trường v.v. Như vậy, bên cạnh chức năng khai thác dữ liệu
cĩ tính chất tác nghiệp, sự thành cơng trong kinh doanh khơng cịn là năng suất
của các hệ thống thơng tin nữa mà là tính linh hoạt và sẵn sàng đáp lại những yêu
cầu trong thực tế, CSDL cần đem lại những “tri thức” hơn là chính những dữ liệu
đĩ. các quyết định cần phải cĩ càng nhanh càng tốt và phải chính xác dựa trên
những dữ liệu sẵn cĩ. lúc này các mơ hình CSDL truyền thống và ngơn ngữ SQL đã
cho thấy khơng cĩ khả năng thực hiện cơng việc này.
Để lấy được tri thức trong khối dữ liệu khổng lồ này, người ta đã đi tìm
những kỹ thuật cĩ khả năng hợp nhất các dữ liệu từ các hệ thống giao dịch khác
nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, cĩ chất lượng, chỉ
được sử dụng riêng cho một vài mục đích nào đĩ. các kỹ thuật đĩ được gọi chung là
kỹ thuật tạo kho dữ liệu (data warehousing) và mơi trường các dữ liệu cĩ được gọi
là các kho dữ liệu (data warehouse). Với những thách thức như vậy, các nhà nghiên
6
cứu đã đưa ra một phương pháp mới trên kho dữ liệu đáp ứng cả nhu cầu trong khoa
học cũng như trong hoạt động thực tiễn. Đĩ chính là cơng nghệ phát hiện tri thức từ
cơ sở dữ liệu
1.1.5 Quá trình phát hiện tri thức
Một vấn đề rất quan trọng để dẫn đến thành cơng là việc biết sử dụng thơng
tin một cách cĩ hiệu quả. Điều đĩ cĩ nghĩa là từ các dữ liệu sẵn cĩ phải tìm ra
những thơng tin tiềm ẩn cĩ giá trị mà trước đĩ chưa được phát hiện, phải tìm ra
những xu hướng phát triển và những yếu tố tác động lên chúng. Thực hiện cơng
việc đĩ chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu
(Knowledge Discovery in Database – KDD) mà trong đĩ kỹ thuật này cho phép ta
lấy được các tri thức chính là pha khai phá dữ liệu (KPDL).
Quá trình phát hiện tri thức tiến hành qua 6 giai đoạn như Hình 1.1
Hinh 1.1: Quá trình phát hiện tri thức
Quá trình khám phá tri thức từ CSDL là một quá trình cĩ sử dụng nhiều
phương pháp và cơng cụ tin học nhưng vẫn là một quá trình mà trong đĩ con người
là trung tâm. Do đĩ, nĩ khơng phải là một hệ thống phân tích tự động mà là một hệ
thống bao gồm nhiều hoạt động tương tác thường xuyên giữa con người và CSDL,
tất nhiên là với sự hỗ trợ của các cơng cụ tin học. Người sử dụng hệ thống ở đây
7
phải là người cĩ kiến thức cơ bản về lĩnh vực cần phát hiện tri thức để cĩ thể chọn
được đúng các tập con dữ liệu, các lớp mẫu phù hợp và đạt tiêu chuẩn quan tâm so
với mục đích. Tri thức mà ta nĩi ở đây là các tri thức rút ra từ các CSDL, thường để
phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất
định. Do đĩ, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ,
khơng phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức nhằm giải quyết
tốt nhiệm vụ đề ra.
Trong hình 1.1 quá trình phát hiện tri thức bắt đầu của quá trình là kho dữ
liệu thơ và kết thúc với tri thức được chiết xuất ra. Về lý thuyết thì cĩ vẻ rất đơn
giản nhưng thực sự đây là một quá trình rất khĩ khăn gặp phải rất nhiều vướng mắc
như: quản lý các tập dữ liệu, phải lặp đi lặp lại tồn bộ quá trình, v.v...
1.1.5.1 Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là
bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ
liệu từ các nguồn ứng dụng Web.
1.1.5.2 Lựa chọn dữ liệu (Selection)
Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đĩ phục vụ mục đích khai thác, ví dụ chọn tất cả những người cĩ tuổi đời từ 25
- 35 và cĩ trình độ đại học.
1.1.5.3 Làm sạch, tiền xử lý và chuẩn bị dữ liệu (Cleaning, Pre-processing and
Preparation)
Giai đoạn thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nĩ là một
bước rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải
trong khi gom dữ liệu là tính khơng đủ chặt chẽ, logíc. Vì vậy, dữ liệu thường chứa
các giá trị vơ nghĩa và khơng cĩ khả năng kết nối dữ liệu. Ví dụ: điểm = -1. Giai
đoạn này sẽ tiến hành xử lý những dạng dữ liệu khơng chặt chẽ nĩi trên. Những dữ
liệu dạng này được xem như thơng tin dư thừa, khơng cĩ giá trị. Bởi vậy, đây là một
quá trình rất quan trọng vì dữ liệu này nếu khơng được “làm sạch - tiền xử lý -
chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.
1.1.5.4 Chuyển đổi dữ liệu (Transformation)
8
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra cĩ thể sử dụng và
điều khiển được bởi việc tổ chức lại nĩ, tức là dữ liệu sẽ được chuyển đổi về dạng
phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhĩm hoặc tập hợp.
1.1.5.5 Khai phá dữ liệu (Data mining)
Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều
thuật tốn khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật tốn
thường dùng là nguyên tắc phân lớp, nguyên tắc kết, v.v...
1.1.5.6 Đánh giá các luật và biểu diễn tri thức (Evaluation of ... Cụ thể nĩ đã được chia thành 3 loại tuổi rời rạc: trẻ (youth),
trung niên (middle_age) và già (senior).
Điểm mấu chốt trong giải thuật xây dựng cây quyết định ở trên là hàm lựa
chọn thuộc tính tốt nhất để phân chia dữ liệu. Phần tiếp theo sẽ trình bày một số độ
đo dùng để đánh giá “chất lương” của các thuộc tính.
age?
youth senior
Middle_age
student? yes credit_rating?
no yes fair excellent
no yes no yes
Hình 2.6: Minh họa cây quyết định
Trong cây quyết định:
• Nút gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình trịn)
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa
vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng cĩ một đường đi từ gốc đến lá
và lá biểu diễn dự đốn giá trị phân lớp mẫu đĩ.
2.2.1 Độ lợi thơng tin
Độ lợi thơng tin (information gain) là độ đo đước sử dụng trong giải thuật ID3.
Đầu tiên là cơng thức đo lượng thơng tin kỳ vọng để phân lớp một phần tử trong tập
dữ liệu D đước đo bằng cơng thức sau:
27
m
Info( D )=− p log( p ) (2.1)
i=1 ii2
Trong đĩ pi là xác suất một phần tử dữ liệu trong D thuộc vào lớp Ci và nĩ
Di
được ước lượng bằng cơng thức p = , với D là tập các phần tử dữ liệu trong D
i D i
thuộc vào lớp Ci ; m là số lượng các lớp trong D. Hàm logarit cơ số 2 được sử dụng
là do cơng thức trên đo lượng thơng tin theo đơn vị bit (theo lý thuyết thơng tin của
C. Shannon). Hàm info(D) cịn được gọi là entropy của D.
Bây giờ giả sử ta phân chia dữ liệu trong D theo thuộc A nào đĩ, và giả sử
thuộc tính này cĩ v giá trị (rời rạc) khác nhau là {a1, a2, ..., av} Thuộc tính này chia
tập dữ liệu D thành v tập con {D1, D2, ..., Dv} trong đĩ Dj là tập phần tử dữ liệu cĩ
giá trị của thuộc tính A là ai. Tập con này sẽ tương ứng với một nhánh cây được
phát triển từ nút N trong giải thuật tạo cây quyết định. Trường hợp lý tưởng thì ta
muốn tập con này sẽ cĩ khả năng phân lớp chính xác các phần tử trong nĩ, hay nĩi
một cách khác ta muốn tập con này càng đồng nhất (pure) càng tốt, đồng nhất ở đây
cĩ thể hiểu là các phần tử trong trong tập con này đều cùng thuộc về một lớp. Tuy
nhiên trong thực tế thì các tập này thường khơng đồng nhất (impure) vì nĩ chứa các
phần tử dữ liệu thuộc về cac lớp khác nhau, do đĩ chúng ta cần thêm thơng tin để
phân lớp chính xác tập con này. Lượng thơng tin này được đo bởi:
v
Dj
infoAj()() D= info D (2.2)
j=1 D
Dj
Trong đĩ được dùng làm trọng số của tập con D . Giá trị của info (D) là
D J A
lượng thơng tin kỳ vọng để phân lớp một phần tử dữ liệu trong D dựa trên việc chia
dữ liệu bằng thuộc tính A. Giá trị này càng nhỏ thì độ đồng nhất của các tập con
càng cao. Cuối cúng hàm đo độ lợi thơng tin được tính bằng cơng thực:
Gain()()() A=− info D infoA D (2.3)
28
Giá trị Gain(A) cho chúng ta biết ta được lợi bao nhiều nếu chia dữ liệu theo
thuộc tính A. Giá trị này càng lớn thì càng tốt, do đĩ thuộc tính nào cĩ giá trị Gian
() lớn nhất sẽ được chọn để phân nhánh trong quá trình xây dựng cây quyết định.
Để minh họa cho độ đo này ta tính tốn một thuộc tính trên tập dữ liệu ở bảng
2.1. Trong bảng này trường cuối cùng là nhãn của dữ liệu (Mua máy tính), nĩ cĩ 2
giá trị, do đĩ số lớp ở đây là 2. Cĩ 9 phần tử dữ liệu cĩ nhãn là yes và 5 phần tử dữ
liệu cĩ nhãn là no, do đĩ theo cơng thức (1.2) ta cĩ:
9 9 5 5
info( D )= − log22 − log = 0.94 bits
14 14 4 14
Tiếp đến theo cơng thức (2.2) ta tính giá trị của hàm cho thuộc tính tuổi
(age):
5 2 2 3 3
infoage ( D )= − log22 − log
14 5 5 5 5
4 4 4 0 0
+ −log22 − log
14 4 4 4 4
5 3 3 2 2
+ −log22 − log
14 5 5 5 5
= 0.694bits
Tiếp đến theo cơng thức (2.3) ta cĩ độ lời thơng tin theo thuộc tính tuổi sẽ là:
Gain( age )= info ( D ) − infoage ( D ) = 0.940 − 0.694 = 0.246 bits
Tường tự ta cĩ thể tính được giá trị độ lợi thơng tin cho các thuộc tính thu
nhập (income), sinnh viên (student) và đành giá tín dụng (credit_rating)
Gain(income)= 0.092 bits, Gain (student)= 0.151 bits và Gain (credit rating) = 0.048
bits. Từ kết quả này, chúng ta thấy thuộc tính tuổi sẽ được chọn để phan chia dữ
liệu. Lặp lại quá trình xây dựng cây tương ứng với các tập con dữ liệu (đã bỏ đi
thuộc tính tuổi) ta sẽ thu được cây quyết định như hình (2.6)
29
Hình 2.7: Thuộc tính tuổi cĩ thơng tin thu được cao nhất
2.2.2 Tỉ số độ lợi
Độ đo độ lợi thơng tin hoạt động khơng tốt trong trường hợp một thuộc tính
cĩ nhiều giá trị. Vì dụ, thuộc tính mã sản phẩm (product_ID), hay mã giao dịch sẽ
cĩ rất nhiều giá trị. Đặc biệt nữa, khi chia dữ liệu theo thuộc tính này thì mỗi một
tập con dữ liệu sẽ chỉ cĩ tương ứng một bản ghi, do đĩ các tập con này là hồn tồn
đồng nhất. Hay nĩi một cách khác, lượng thơng tin cần để phân lớp tập dữ liệu D
dưa trên cách phân chia dữ liệu trên thuộc tính này InfoProduct_ID(D)= 0. Và giá trị độ
lợi thơng tin sẽ đạt giá tri tối đa:
Gian (Product_ID) = Info(D)- InfoProduct_ID(D)=Info(D)
Nhưng rõ ràng việc phân lớp dựa trên thuộc tính này là vơ nghĩa.
Do đĩ, trong giải thuật C4.5 (hậu duệ của giải thuật ID3) tác giả đã đề xuất
sử dụng một độ đo mới gọi là tỉ số độ lợi (gain ratio) để cố tránh nhược điểm trên.
Hàm này sử dụng một phương pháp chuẩn hĩa độ lợi thơng tin bằng cách sử dụng
giá trị phân chia thơng tin (split information) được định nghĩa tương tự như hàm
Info(D) như sau:
v DD
SplitInfo( D )= −jj log (2.4)
A DD2
j=1
30
Giá trị này biểu diễn thơng tin tiềm năng được sinh ra thơng qua việc chia tập
dữ liệu huấn luyện D thành v tập con tương ứng với các giá trị của thuộc tính A.
Chú ý rằng với mỗi giá trị của thuộc tính j, nĩ tính tốn số lượng các phần tử cĩ giá
trị thuộc tính A là j trên tổng số lượng các phần tử của D. Đây là điểm khác so với
độ lợi thơng tin, do đĩ cơng thức tính tỉ số đọ lợi sẽ là:
Gain() A
GainRatio() A = (2.5)
SplitInfo() A
Trong đĩ, hàm SplitInfoA (D) được viết ngắn gọn thành SplitInfo(A). Dựa
trên độ đo này, các thuộc tính cĩ giá trị tỉ số độ lợi cao sẽ được chọn làm thuộc tính
phân chia dữ liệu. Cĩ một chú ý rằng, nếu hàm SplitInfo(A)=0 thì cơng thức trên
khơng dùng được, do đĩ cĩ thêm rằng bược để tránh trường hợp này. Cụ thể giá trị
độ lợi thơng tin của thuộc tính được chọn phải đủ lớn, ít nhất là lớn hơn giá trị trung
bình độ lợi thơng tin của tất cả các thuộc tính.
Trở lại bảng dữ liệu (2.1), ta tính tỉ số độ lợi cho thuộc tính thu nhập
(Income). Đầu tiên ta sử dụng cơng thức (2.4) để tính SplitInfoincome(D)
4 4 6 6 4 4
SplitInfoincome ( D )= − log222 − log − log
14 14 14 14 14 14
= 0.962
Gain( income ) 0.029
Do đĩ GainRatio( income )= = = 0.031
SplitInfo( income ) 0.962
2.2.3 Chỉ số Gini
Đây là độ đo được sử dụng trong giải thuật CART, chỉ số Gini đo độ khơng
đồng nhất của một tập dữ liệu D bằng cơng thức:
m
2
Gini( D )=− 1 pi (2.6)
i=1
Trong đĩ, pi cĩ ý nghĩa giống như cơng thức (2.1); m là số lượng lớp trong
D. Chỉ số Gini quan tâm đến trường hợp ta sẽ sử dụng một thuộc tính và chia dữ
liệu thành 2 nửa. Để đơn giản, ta xét trường hợp thuộc tính A cĩ v giá trị khác nhau
{a1, a2, ..., av} xuất hiện trong D. Để xác định cách phân chia tốt nhất ta xét tốn bộ
31
các tập con của D phân chia theo của giá trị A. Do đĩ nếu A cĩ v giá tri khác nhau
thì ta sẽ cĩ 2v tập con của D .Vì dụ thuộc tính thu nhập (income) cĩ 3 giá trị {low,
medium, high} thì các tập con cĩ thể sẽ là {low, medium, high}, {low, medium},
{medium, high}, {low, high}, {low}, {medium}, {high}, và tập rỗng {}. Chúng ta
khơng xét 2 tập con {low, medium, high} và {} vì nĩ khơng chia dữ liệu ra 2 tập, do
đĩ ta cĩ tổng số 2v -2 cách để chia tập dữ liệu D thành 2 tập con dựa trên dựa trên
thuộc tính A. Khi chia tập dữ liệu D thành 2 nửa D1 và D2 chúng ta xem xét độ
khơng đồng nhất (impurity) của dữ liệu trong 2 nửa này:
DD
Gini()()() D=+12 Gini D Gini D (2.7)
A DD12
Trong trường hợp thuộc tính A cĩ giá trị liên tục thì chúng ta phải xác định các
điểm (giá trị) split_point đẻ chia tập dữ liệu D thành 2 tập con. Các điểm split_point
cĩ thể lấy là giá trị trung bình giữa 2 giá trị gần nhau nhất của thuộc tính A. Khi xác
định được chia dữ liệu split_point ta cĩ thể chia dữ liệu D thành 2 tập dữ liệu con là
D1 và D2 sao cho: D1 = X D xA split_ point và D1 = X D xA split_ point
trong đĩ vA là giá trị của thuộc tính A. Khi đĩ ta định nghĩa độ giảm của độ bất đồng
nhất của dữ liệu khi chia dữ liệu thành 2 tập con theo thuộc tính A:
Gini()()() A = Gini D − GiniA D (2.8)
Trong đĩ cách phân chia nào mà tạo ra 2 tập con cĩ giá trị Gini() A lớn nhất
(hay GiniA(D) nhỏ nhất) sẽ được chọn. tuy nhiên trong trường hợp này khác với các
độ đo trước, ta cần kết hợp cách phân chia hay giá trị điểm phân chia (split point)
với thuộc tính để dúng làm đều kiện nhánh cây quyết định.
Quy lại cơ sở dữ liệu khách hàng ở bảng (2.1), ta cĩ 9 phần tử dữ liệu thuộc
vào lớp Cyes và 5 phần tử dữ liệu thuộc tính vào lớp Cno do đĩ chỉ số Gini(D) đơ độ
bất đồng nhất trong D là:
22
95
Gini( D )= 1 − − = 0.459
14 14
Tiếp theo ta xét thuộc tính thu nhập (income), bắt đầu bằng cách phân chia
{low, medium} và {high}. Với cách phân chia này thì ta cĩ tập D1 chứa 10 phần tử
32
dữ liệu cĩ thuộc tính income cĩ giá trị nằm trong tập {low, medium} và tập D2 chứa
4 phần tử cĩ giá trị income= high. Khi đĩ chỉ số Gini sẽ được tính tốn là:
10 4
Giniincome low, medium ()()() D=+ Gini D12 Gini D
14 14
22
10 6 4
=1 − −
14 10 10
22
4 1 3
+1 − −
14 4 4
==0.45Giniincome high ( D )
Tương tự, giá trị Gini cho cách chia {medium, high} và {low} là 0.3; giá trị
Gini cho cách chia {low, high} và {medium} là 0,315. Do đĩ cách chia {medium,
high} và {low} sẽ được chọn làm điều kiện để phân nhánh cây quyết định vì nĩ cho
ta giá trị Gini nhỏ nhất. Với thuộc tính tuổi (age) thì cách phân chia {youth, senior}
và {middle_age} cho giá trị tốt nhất là 0.375. Với thuộc tính student và
credit_rating đều là giá trị nhị phân nên chúng ta chỉ cĩ một cách chia duy nhất, giá
trị Gini của 2 thuộc tính này lần lượt là 0.367 và 0.429. Qua kết quả này ta thấy
thuộc tính income cho giá trị Gini nhỏ nhất do đĩ nĩ sẽ được chọn để làm điều kiện
phân nhánh cây quyết định, khác với 2 độ đo ở trên chọn thuộc tính tuổi làm điều
kiện phân nhánh đầu tiên. Một điều chú ý là vời độ đo này thì ta khơng chỉ quan tâm
đến thuộc tính dùng để phân chia tập dữ liệu mà cịn quan tâm đến cách chia dữ liệu
theo thuộc tính đĩ.
2.2.4 Tỉa cây quyết định
Sau khi cây được xây dựng, nĩ cĩ thể chứa nhiều nhánh phản ánh sự bất
thường trong dư liệu huấn luyện: cĩ thể là các trường hợp ngoại lệ, dữ liệu lỗi hay
là dữ liệu nhiều. Hiện tương trên cũng gây ra hệ quả là xảy ra hiện tượng cây thu
được quá phù hợp dữ liệu (overfitting). Để giải quyết vấn đề này phương pháp tỉa
cây (tree pruning) được đề xuất. Phương pháp tỉa cây vầ bản chất là loại bỏ các
nhánh ít tin cây nhất, do đĩ ta khơng những thu được cây cĩ khả năng phân lớp tốt
33
hơn mà cịn làm cho cây cơ đọng hơn và tốc đọ xử lý sẽ nhánh hơn. Phương pháp
tỉa cây được chia thành 2 loại: tỉa trước (prepruning) cây và tỉa sau (postpruning).
Trong phương pháp tỉa cây trước, cây sẽ được tỉa ngay trong giai đoạn xây dựng
cây, nĩ sẽ tương ứng với các điều kiện để dừng phát triển một nhánh nào đĩ. Cịn
phương pháp tỉa cây sau lại xử lý cây sau khi nĩ đã được xây dựng hồn chính.
2.3 Phân lớp dữ liệu Bayesian
Bộ phân lớp Bayesian là một giải thuật thuộc lớp giải thuật phân lớp thống kê,
nĩ cĩ thể dữ đốn xác suất của một phần tử dữ liệu thuộc vào một lớp là bao nhiều.
Phân lớp Bayesian dựa trên định lý Bayes (định lý được đặt theo then tác giả của nĩ
là Thomas Bayes). Một classifier đơn giản của Bayesian đĩ là Naive Bayes, so với
việc thực thi của classifier cây quyết định và mạng nơron, classifier Bayesian đưa ra
độ chính xác cao và nhanh khi áp dụng vào các cơ sở dữ liệu lớn.
Mục 2.3.1 nĩi lại các khái niệm xác suất cơ bản và định lý Bayes. Sau đĩ ta sẽ
xem phân lớp Nạve Bayes trong 2.3.2
2.3.1 Định lý Bayes
Gọi X là một chứng cứ (evidience) (trong bài tốn phân lớp thì X sẽ là một
phần tử đữ liệu), Y là một giả thiết nào để cho X thuộc về một lớp một lớp C nào đĩ.
Trong bài tốn phân lớp chúng ta muốn xác định giá trị P (Y |X) là xác suất để giả
thiết Y là đúng với chứng cứ X thuộc vào lớp C với điều khiện ta biết các thơng tin
mơ tả X. P (Y |X) là một xác suất hậu nghiệm (posterior probability hay posteriori
probability) của Y với điều kiện X.
Giả sử tập dữ liệu khách hàng của chúng ta được mơ tả bởi các thuộc tính
tuổi và thu nhập, và một khách hàng X cĩ tuổi là 35 và thu nhập là $40.000. Giả sử
Y là giả thiết khách hàng đĩ sẽ mua máy tính, thì P (Y /X) phảm ánh xác suất người
dùng X sẽ mua máy tính, thì P (Y |X) phản ánh xác suất người dùng X sẽ mua máy
tính với điều kiện ta biết tuổi và thu nhập của người đĩ.
Ngược lại P(Y) là xác suất tiền nghiệm (prior probability hay priori
probability) của Y. Trong ví dụ trên, nĩ là xác suất một khách hàng sẽ mua máy tính
mà khơng cần biết các thơng tin về tuổi hay thu nhập của họ. Hay nĩi cách khác,
xác suất này khơng phụ thuộc vào X. Tương tự P (X |Y) là xác suất của X với điều
34
kiện Y, nĩ là một xác hậu nghiệm. Vì dụ, nĩ là xác suất người dùng X (cĩ tuổi là 35
và thu thập là $40.000) sẽ mua máy tính với điều kiện ta đã biết là người dùng đĩ sẽ
mua máy tính. Cuối cùng P(X) là xác suất tiền nghiệm cảu X. Trong ví dụ trên, nĩ
sẽ là xác suất một người trong tập dữ liệu sẽ xĩ tuổi 34 và thu nhập $40.000. Các
xác suất này sẽ được tính dựa vào định lý Bayes như sau:
P( XY ) PXYPY( ) ( )
PYX( ) == (2.9)
PXPX( ) ( )
Với:
PX( ) : Xác suất của sử kiện X xảy ra, Khơng quan tâm đến Y
PY( ) : Xác suất của sử kiện Y xảy ra, Khơng quan tâm đến X
PXY( ) : Xác suất (cĩ điều kiện) của sự kiện X xảy ra, nếu biết rằng sự kiện
Y xảy ra
PYX( ) : Xác suất hậu nghiệm của Y nếu biết X
Thuật tốn bayes dựa trên định lý Bayes áp dụng cho các bài tốn giả định
điều kiện độc lập. Nghĩa là giả định đặc trưng của một lớp xảy ra khơng ảnh hưởng
hay phụ thuộc vào đặc trưng của lớp khác
2.3.2 Phân lớp Nạve Bayes
Bộ phân lớp Nạve Bayes hay là bộ phân lớp Bayes đơn giản (simple Bayes
classifier) hoạt động như sau:
1) Gọi D là tâp dữ liệu huấn luyện, trong đĩ mỗi phần tử dữ liệu X được biểu
diễn bằng một vector chứa n giá trị thuộc tính A1, A2, ..., An, X= {x1, x2, ..., xn}.
2) Giả sử cĩ m lớp C1, C2, ..., Cm; Cho một phần tử dữ liệu X, bộ phân lớp sẽ
gán nhãn cho X là lớp cĩ xác suất hậu nghiệm lớn nhất. Cụ thể, bộ phân lớp Bayes
sẽ dự đốn X thuộc vào lớp Ci nếu và chỉ nếu:
PCXPCX( ij) ( ) với (1,i m i j) (2.10)
Ci: Phân lớp i, với i= {1, 2 , m}
Giá trị này sẽ được tình dựa vào định lý Bayes:
35
PXCPC
( ii) ( ) (2.11)
PCX( i ) =
PX( )
3) Để tìm giá trị xác suất lớn nhất, ta nhận thấy trong cơng thức (2.10) thì giá trị
P(X) là giống nhau với mọi lớp nên ta khơng cần tìm. Do đĩ ta chỉ cần tìm giá trị
lớn nhất của P(X|Ci) x P(Ci). chú ý rằng P(Ci) được ước lượng bằng cơng thức
Di
PC( ) = , trong đĩ Di là tập các phần tử dữ liệu thuộc vào lớp Ci. nếu xác suất
i D
tiền nghiệm P(Ci) cũng khơng xác định được thì ta coi chúng bằng nhau P(C1) =
P(C2) = ...=P(Cm), khi đĩ ta chỉ cần tìm giá trị P(X|Ci) lớn nhất.
4) Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì chi phí tính tốn P(X|Ci)
là rất lớn, do đĩ để làm giảm độ phức tạp, giải thuật Nạve Bayes giả thiết các thuộc
tính là độc lập nhau hay khơng cĩ sự phụ thuộc nào giữa các thuộc tính. Khi đĩ ta
cĩ thể tính:
n
PXC( i) = PxC( k i) = PxC( 1 i) ... PxC( n i ) (2.12)
k=1
Khi đĩ xác suất xảy ra của một điều kiện x mới là
n
max (P( ci)) = P( x k C i ) (2.13)
k=1
Trong đĩ:
P(Ci): được tính dựa trên tần suất xuất hiện tài liệu trong tập huấn luyện.
P(xk|Ci): được tính từ những tập thuộc tính đã được tính trong quá trình huấn
luyện
Bước tính thuật tốn Bayes:
Bước 1: Huấn luyện tập dữ liệu:
Tính xác suất P(Ci)
Tính xác suất P(xk|Ci)
Bước 2: Lớp của giá trị mới được gắn cho lớp cĩ xác suất lớn nhật
theo cơng thức:
36
n
max (P( ci)) = P( x k C i )
k=1
2.4. Phân lớp dữ liệu sử dụng máy hỗ trợ vector (SVM)
Support vector machine là một khái niệm trong thống kê và khoa học máy
tính cho một tập hợp các phương pháp học cĩ giám sát liên quan đến nhau để phân
loại và phân tích hồi quy.
Nguyên lý cơ bản của SVM là tìm một siêu phẳng phân hoạch tối ưu cho
phép chia các điểm trong khơng gian nhiều chiều thành 2 lớp nằm ở 2 phía chưa
siêu phẳng.
SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác
nhau. Do đĩ SVM là một thuật tốn phân loại nhị phân.
Hình 2.8 :Các điểm trong khơng gian D chiều
Cho trước n điểm trong khơng gian D chiều (mỗi điểm thuộc vào một lớp kí
hiệu là +1 hoặc -1), mục đích của giải thuật SVM là tìm một siêu phẳng phân hoạch
tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp
nằm về một phía với siêu phẳng này.
n
D=( xi, y i) x i p , y i − 1,1 (2.14)
i=1
Mỗi siêu phẳng đều cĩ thể được viết dưới dạng một tập hợp các điểm x thỏa
mãn:
w• x − b = 0 (2.15)
37
Cơng thức trên là tích vơ hướng với vector pháp tuyến của siêu phẳng (w) và
b đĩng vai trị là tham số.
Ta cần chọn w và b để cực đại hĩa lề, hay khoảng cách giữa hai siêu mặt
song song ở xa nhau nhất cĩ thể trong khi vẫn phân chia được dữ liệu
Các siêu mặt ấy được xác định bằng:
w• x − b =1 (2.16)
w• x − b = −1 (2.17)
Hình 2.9: Siêu phẳng phân lớp các điểm trong khơng gian
Ví dụ: Giả sử ta cĩ một tập được gán nhãn (+1): {(3,1), (3, -1), (6, 1), (6, -1)} Và
tập các điểm được gán nhãn âm (-1): {(1, 0), (0, 1), (0, -1), (-1, 0)} trong mặt phẳng
R+
Hình 2.10: Đồ thị biểu diễn các điểm trong mặt phẳng R+
38
Ta sử dụng SVM để phân biệt hai lớp (+1 và -1). Bởi vì dữ liệu được chia
tách một cách tuyến tính, nên chúng ta sử dụng một hàm tuyến tính để phân tách 2
lớp. Theo quan sát, ta chọn ra ba vector hỗ trợ để thực thi các phép tốn nhằm tìm ra
mặt phẳng phân tách tối ưu nhất:
{s1 = (1,0), s2 = (3,1), s3 = (3, -1)}
Hình 2.11: Các điểm lựa chọn cho siêu phẳng
Các vector hỗ trợ được tăng cường bằng cách thêm 1. Tức là s1 = (1,0), thì
nĩsẽ được chuyển đổi thành s = (1, 0, 1). Theo kiến trúc SVM, Nhiệm vụ là tìm ra
những giá trị αi.
1(s 1). ( s 1) + 2 ( s 2) . ( s 1) + 3 ( s 3) . ( s 1 ) = − 1 (2.18)
1(s 1). ( s 2) + 2 ( s 2) . ( s 2) + 3 ( s 3) . ( s 2 ) = − 1 (2.19)
1(s 1). ( s 3) + 2 ( s 2) . ( s 3) + 3 ( s 3) . ( s 3 ) = − 1 (2.20)
Hình 2.12: Kiến trúc mơ hình SVM
39
Do sử dụng SVM tuyến tính nên hàm Φ () - dùng để chuyển đổi vector
từ khơng gia dữ liệu đầu vào sang khơng gian đặc trưng – sẽ bằngΦ = () I. Biểu thức
trên được viết lại như sau:
1s 1. s 1+ 2 s 2 . s 1 + 3 s 3 . s 1 = − 1 (2.21)
1s 1. s 2+ 2 s 2 . s 2 + 3 s 3 . s 2 = + 1 (2.22)
1s 1. s 3+ 2 s 2 . s 3 + 3 s 3 . s 3 = − 1 (2.23)
Rút gọn biểu thức thơng qua tính tích vơ hướng của các vector:
21+ 4 2 + 4 3 = − 1 (2.24)
41+ 11 2 + 9 3 = + 1 (2.25)
41+ 9 2 + 11 3 = + 1 (2.26)
Giải hệ phương trình trên cĩ: α1 = -3.5, α2 = 0.75, α3 = 0.75. Tiếp đến tính
trọng số ω thơng qua cơng thức:
1 3 3 1
=s = −3.5 0 + 0.75 1 + 0.75 − 1 = 0
ii
i
1 1 1 − 2
Siêu phẳng phân chia hai lớp đĩ là: y = wx + b với w = (1, 0) và b = -2
Hình 2.13: Đồ thị biểu diễn siêu phẳng tìm được
40
2.4.1 Phân lớp đa lớp với SVM
Thuật tốn SVM trình bày ở trên chỉ hoạt động với dữ liệu cĩ 2 lớp, trong
thực tế số lượng lớp của dữ liệu cĩ thể rất lớn. Rất may là cũng cĩ giải pháp để mở
rộng SVM cho bài tốn cĩ nhiều lớp.
Bài tốn phân lớp câu hỏi yêu cầu một bộ phân lớp đa lớp do đĩ cần cải tiến
SVM cơ bản (phân lớp nhị phân) thành bộ phân lớp đa lớp.
Một trong những phương pháp cải tiến đĩ là sử dụng thuật tốn 1-against-all
[Hau02, Milgram06]. Ý tưởng cơ bản là chuyển bài tốn phân lớp nhiều lớp thành
nhiều bài tốn phân lớp nhị phân như sau:
• Giả sử tập dữ liệu mẫu (x1, y1), ..., (xm, ym) với xi là một vector n chiều và
yYi là nhãn lớp được gán cho vector xi (cĩ m nhãn lớp khác nhau)
• Biến đổi tập Y ban đầu thành m tập cĩ hai lớp con Zi=− y i, Y y i
• Áp dụng SVM phân lớp nhị phân cơ bản với m tâp Zi để xây dựng siêu
phẳng cho phân lớp này. Như vậy ta sẽ cĩ m bộ phân lớp nhị phân.
Bộ phân lớp với sự kết hợp của m bộ phân lớp trên được gọi là bộ phân lớp
đa lớp mở rộng với SVM
2.5. Phân lớp dữ liệu với Random Forest (rừng ngẫu nhiên)
Tiếp cận Random Forest (rừng ngẫu nhiên) do (Breiman, 2001) đưa ra là một
trong những phương pháp tập hợp mơ hình thành cơng nhất. Giải thuật random
forest tạo ra một tập hợp các cây quyết định (Breiman et al., 1984), (Quinlan, 1993)
khơng cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy mẫu cĩ hồn
lại từ tập học), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc chọn ngẫu
nhiên một tập con các thuộc tính. Lỗi tổng quát của rừng phụ thuộc vào độ chính
xác của từng cây thành viên trong rừng và sự phụ thuộc lẫn nhau giữa các cây thành
viên. Giải thuật random forest xây dựng cây khơng cắt nhánh nhằm giữ cho thành
phần lỗi bias thấp (thành phần lỗi bias là thành phần lỗi của giải thuật học, nĩ độc
lập với tập dữ liệu học) và dùng tính ngẫu nhiên để điều khiển tính tương quan thấp
giữa các cây trong rừng. Tiếp cận random forest cho độ chính xác cao khi so sánh
với các thuật tốn học cĩ giám sát hiện nay, chịu đựng nhiễu tốt. Như trình bày
41
trong (Breiman, 2001), random forest học nhanh, chịu đựng nhiễu tốt và khơng bị
tình trạng học vẹt. Giải thuật random forest sinh ra mơ hình cĩ độ chính xác cao đáp
ứng được yêu cầu thực tiễn cho vấn đề phân loại, hồi quy.
Rừng ngẫu nhiên (được mơ tả trong hình 2.14) tạo ra một tập hợp các cây
quyết định khơng cắt nhánh, mỗi cây được xây dựng trên tập mẫu bootstrap (lấy
mẫu ngẫu nhiên cĩ hồn lại), tại mỗi nút phân hoạch tốt nhất được thực hiện từ việc
chọn ngẫu nhiên một tập con các thuộc tính.
Lỗi tổng quát của rừng phụ thuộc vào độ chính xác của từng cây thành viên
trong rừng và sự phụ thuộc lẫn nhau giữa các cây thành viên. Giải thuật rừng ngẫu
nhiên cho độ chính xác cao khi so sánh với các thuật tốn học cĩ giám sát hiện nay,
chịu đựng nhiều tốt
NN
Với bài tốn phân lớp: cho một tập dữ liệu huấn luyện D== d x, y
( i)ii==11( i i )
với xi là vector M chiều, yYi , trong đĩ: Y gọi là lớp, giả sử cĩ C nhãn lớp
YCC1,2, ,( 2) . Ý tưởng chính của mơ hình RF là lựa chọn ngẫu nhiên 2 lần
(ngẫu nhiện mẫu và ngẫu nhiện thuộc tính) trong suốt quá trình xây dựng cây gồm
cĩ 3 pha như sau:
Pha 1: Từ dữ liệu ban đầu D, sử dụng kỹ thuật boostrap (lấy mẫu ngẫu nhiên
cĩ hồn lại) để tạo ra t tập dữ liệu con S = {푆1, 푆2..., 푆t }.
Pha 2: Trên mỗi tập dữ liệu Sj, xây dựng một cây quyết định ℎ푗. Mơ hình
hh= t
Rừng ngẫu nhiên là mơ hình i j=1 . Thay vì sử dụng tất cả các biến là biến ứng
cử để lựa chọn điểm chia tốt nhất, tại mỗi nút RF chọn ngẫu nhiên một khơng gian
tập con M’ thuộc tính từ M thuộc tính ban đầu (M’<<M). Bên cạnh đĩ, cây quyết
định trong mơ hình RF là cây quyết định khơng cắt nhánh.
Pha 3: RF dự đốn nhãn lớp của phần tử mới đến bằng chiến lược bình chọn
số đơng của các cây quyết định.
Ưu điểm của RF là xây dựng cây khơng thực hiện việc cắt nhánh từ các tập
dữ liệu con khác nhau, do đĩ thu được những cây với lỗi bias thấp. Bên cạnh đĩ,
mối tương quan giữa các cây quyết định cũng được giảm xuống nhờ việc xây dựng
42
các khơng gian con thuộc tính một cách ngẫu nhiên. Sự chính xác của RF phụ thuộc
vào chất lượng dự đốn của các cây quyết định và mức độ tương quan giữa các cây
trong rừng.
Trong quá trình xây dựng các cây quyết định, RF phát triển các nút con từ
một nút cha dựa trên việc đánh giá chỉ số Gini của một khơng gian con M’ các
thuộc tính được chọn ngẫu nhiên từ khơng gian thuộc tính ban đầu. Thuộc tính được
chọn để tách nút t là thuộc tính cĩ điểm cắt làm cực tiểu độ hỗn tạp của các tập mẫu
sau khi chia. Cơng thức tính chỉ số Gini cho nút t như sau:
c
Gini( t) = cc( t) 1 − ( t) (2.27)
c=1
trong đĩ c ()t là tần suất hiện của lớp cC
Trong nút t
Hình 2.14: Mơ hình rừng ngẫu nhiên
Gọi s là một giá trị của thuộc tính 푋j. Giả sử tách nút t thành 2 nút con: nút
trái 푡L và nút phải 푡R tại s. Tùy thuộc vào 푋j ≤ s hoặc 푋j> s ta cĩ 2 nút con:
푡L = {푋j ∈ 푡, 푋j ≤ 푠} 푣à 푡R = {푋j ∈ 푡, 푋j > 푠}
Khi đĩ, tổng độ đo chỉ số Gini của 2 nút 푡L và 푡R sau khi dùng thuộc tính 푋j
tách nút t tại s là:
Gini( s, t) = p( tLLRR) Gini( t) + p( t) Gini( t ) (2.28)
43
Để đạt được điểm chia tốt, tại mỗi nút RF sẽ tìm tất cả các giá trị phân biệt
của tất cả n’ thuộc tính để tìm ra điểm phân tách nút t (điểm s cĩ độ đo Gini (s, t)
nhỏ nhất). Thuộc tính chứa điểm phân tách nút t được gọi là thuộc tính tách nút t.
Gọi 퐼푆k (푋j), 퐼푆x lần lượt là độ đo sự quan trọng của thuộc tính 푋j trong một
cây quyết định Tk (k=1÷m) và trong một rừng ngẫu nhiên. Cơng thức tính 퐼푆x (푋j)
và 퐼푆xj như sau:
ISk( X j) = Gini( X j, t ) (2.29)
tT k
1 k
ISk( X j) = IS k( X j ) (2.30)
k k=1
Chuẩn hĩa min - max để chuyển độ đo sự quan trọng thuộc tính về đoạn [0,1],
theo cơng thức (2.31):
IS
X−minm IS
j j=1( X j )
VlX (2.31)
j maxmmIS− min ( IS )
j==11( Xjj) j X
Kết quả dự đốn của mơ hình rừng ngẫu nhiên là kết hợp kết quả của một số
lượng lớn những cây quyết định cĩ mối tương quan thấp (do RF lấy ngẫu nhiên mẫu
và xây 33 dựng các khơng gian con thuộc tính cũng ngẫu nhiên) nên RF đạt được cả
độ lệch thấp và phương sai thấp. Trong thực tế RF đã trở thành một cơng cụ tin cậy
cho phân tích dữ liệu chiều cao. Tuy nhiên, tiếp cận cài đặt ban đầu, RF chỉ cho kết
quả tốt trên các dữ liệu cĩ số chiều vừa phải và giảm đáng kể hiệu năng khi xử lý dữ
liệu cĩ số rất chiều cao cỡ hàng nghìn thuộc tính, nhiều nhiễu, dung lượng mẫu ít
(bài tốn phân tích dữ liệu gene là một trường hợp cụ thể). Sự chính xác của RF phụ
thuộc vào chất lượng dự đốn của các cây quyết định và mức độ tương quan giữa
các cây quyết định. Chính vì vậy, đã cĩ nhiều đề xuất cho việc cải tiến mơ hình
Rừng ngẫu nhiên. Dưới đây sẽ trình bày tĩm tắt một số phương pháp cải tiến mơ
hình Rừng ngẫu nhiên.
44
2.6 Một số phương pháp phân lớp dữ liệu khác
2.6.1 Thuật tốn phân lớp k-NN
Classifier k-Nearest Neighbors dựa trên việc học bằng sự giống nhau. Các
mẫu huấn luyện được mơ tả bởi các thuộc tính số n - chiều. Mỗi mẫu đại diện cho
một điểm trong một khơng gian n - chiều. Vì vậy tất cả các mẫu huấn luyện được
lưu trữ trong khơng gian mẫu n - chiều. Khi cĩ một mẫu chưa biết cho trước thì
classifier k-Nearest Neighbors sẽ tìm kiếm trong khơng gian mẫu k mẫu huấn luyện
gần mẫu chưa biết đĩ nhất. k mẫu huấn luyện này là k "k-Nearest Neighbors " của
mẫu chưa biết. "Độ gần" được định nghĩa dưới dạng khoảng cách Euclidean, tại đĩ
khoảng cách Euclidean giữa hai điểm X1 = (푥11, 푥12, ..., 푥1n) và X2 = (푥21, 푥22, ..., 푥2n)
là:
n
2
dist(,) X1 X 2=−( x 1ii x 2 ) (2.32)
i=1
Mẫu chưa biết được phân vào lớp phổ biến nhất trong số k láng giềng gần nhất
của nĩ. Khi k = 1 thì mẫu chưa biết được ấn định lớp của mẫu huấn luyện gần nhất
với nĩ trong khơng gian mẫu.
Classifier k-Nearest Neighbors dựa trên khoảng cách, từ đĩ chúng lưu trữ tất
cả các mẫu huấn luyện. Các kỹ thuật đánh chỉ số hiệu quả được dùng khi số lượng
các mẫu huấn luyện là rất lớn. Khơng giống như cây quyết định quy nạp và lan
truyền ngược, classifier k-Nearest Neighbors ấn định các trọng số bằng nhau cho
từng thuộc tính. Điều này cĩ thể là nguyên nhân gây nhập nhằng khi cĩ nhiều thuộc
tính khơng thích hợp trong dữ liệu. Classifier k-Nearest Neighbors cũng được dùng
để dự đốn, tức là trả lại một dự đốn giá trị thực cho một mẫu chưa biết cho trước.
Lúc này, classifier trả lại giá trị trung bình của các nhãn giá trị thực kết hợp với k-
láng giềng gần nhất của mẫu chưa biết đĩ
2.7 Đánh giá mơ hình phân lớp dữ liệu
Trong thực tế, ta cần áp dụng nhiều thuật tốn Machine learning để chọn ra
được mơ hình phù hợp nhất cho bài tốn của mình. Vấn đề đặt ra, làm thế nào để
đánh giá và chọn ra các mơ hình. Ngồi thuật tốn học máy, sự thực thi của mơ hình
45
cĩ thể phụ thuộc vào các yếu tố khác như sự phân bố của các lớp, chi phí phân loại
sai, kích thước của tập huấn luyện và tập thử nghiệm, độ đo thực thi. Trong bài viết
này, ta sẽ đánh giá thực thi: tập trung vào khả năng dự đốn của mơ hình hơn là tốc
độ phân loại hay xây dựng mơ hình, khả năng cĩ giãn.
• Confusion matrix
Bảng 2.2: Bảng biểu diễn ma trận nhầm lẫn
Predicted Class
Yes No
Actual Class Yes a b
No c d
Đầu tiên, ta hãy làm quen với confusion matrix (ma trận nhầm lẫn).
Quan sát confusion matrix, ta cĩ các thơng tin sau:
− a:TP (true positive) – mẫu mang nhãn dương được phân lớp đúng vào
lớp dương.
− b:FN (false negative) – mẫu mang nhãn dương bị phân lớp sai vào lớp
âm.
− c:FP (false positive) – mẫu mang nhãn âm bị phân lớp sai vào lớp
dương.
− d:TN (true negative) – mẫu mang nhãn âm được phân lớp đúng vào
lớp
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_mot_so_phuong_phap_phan_lop_du_lieu_va_u.pdf