ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Lời cảm ơn
“ðể hồn thành khĩa luận này, tơi xin gửi lời cảm ơn chân thành tới quý thầy cơ
trong trường ðại học Cơng Nghệ - ðHQGHN đã tận tình chỉ bảo tơi trong suốt bốn năm
học đại học. Tơi cũng xin cảm ơn sự hướng dẫn nhiệt tình của thầy Nguyễn Hà Nam,
cùng sự giúp đỡ của anh ðặng Tất ðạt – nghiên cứu sinh khoa Tốn Tin trường ðại học
Tự Nhiên, ðHQGHN.
Tơi cũng thầm biết ơn sự ủng hộ của gia đình, bạn bè – những người thân yêu luơ
62 trang |
Chia sẻ: huyen82 | Lượt xem: 1926 | Lượt tải: 3
Tóm tắt tài liệu Áp dụng phương pháp trích chọn đặc trưng để nâng cao hiệu quả phân lớp khi khai phá dữ liệu lớn, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
n
luơn là chỗ dựa tinh thần vững chắc cho tơi.”
Hà Nội, tháng 05 năm 2009.
Sinh viên
Trần Phương Nhung
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Tĩm tắt khĩa luận
Trong khĩa luận này tơi áp dụng thuật tốn di truyền (Genetic Algorithm) để bước
đầu cải tiến hiệu quả phân lớp của phương pháp minimax probability machine (MPM).
Phần đầu tơi xin giới thiệu tổng quan về khái niệm khai phá dữ liệu. Tiếp đĩ, tơi sẽ trình
bày về cơ sở lý thuyết của thuật tốn di truyền và phương pháp phân lớp minimax
probability machine. Cuối cùng, tơi sẽ mơ tả chi tiết về quá trình xây dựng hệ thống cĩ
ứng dụng thuật tốn di truyền trong phân lớp minimax probability machine để chuẩn
đốn bệnh ung thư. Mơ hình phân lớp mới này sẽ được chạy thử trên một số cơ sở dữ liệu
lớn và đưa ra những số liệu thống kê để cĩ thể thấy được hiệu quả của hệ thống so với
phương pháp phân lớp chỉ sử dụng MPM.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Mục lục
Chương 1: Giới thiệu về khai phá dữ liệu ...................................................................... 10
1.1. Khai phá dữ liệu là gì? ......................................................................................... 10
1.2. Tại sao phải tiến hành khai phá dữ liệu? ............................................................. 10
1.3. Quá trình khai phá dữ liệu ................................................................................... 11
1.4. Kiến trúc điển hình của một hệ khai phá dữ liệu ................................................. 13
1.5. Các bài tốn khai phá dữ liệu điển hình .............................................................. 14
1.6. Các lĩnh vực liên quan đến khai phá dữ liệu........................................................ 16
1.7. Các ứng dụng điển hình của khai phá dữ liệu...................................................... 17
1.8. Các thách thức với khai phá dữ liệu .................................................................... 17
1.9. Kết luận ................................................................................................................ 18
Chương 2: Trích chọn thuộc tính phù hợp .................................................................... 19
2.1. Giới thiệu ............................................................................................................. 19
2.2. Mơ hình trong bài tốn trích chọn ....................................................................... 20
2.2.1. Các mơ hình trong trích chọn ........................................................................... 20
2.2.2. ðánh giá hai mơ hình Filter và Wrapper ......................................................... 22
2.2.2.1. Filter .......................................................................................................... 22
2.2.2.2. Mơ hình Wrapper ...................................................................................... 22
2.3. Một số kỹ thuật xử lý ........................................................................................... 23
2.3.1. Bộ sinh tập con (Feature Subset Generator) .................................................... 23
2.3.2. Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator) ............................. 24
2.3.3. Thuật tốn học điều khiển (Central Machine learning Algorithm) ................. 25
2.4. Kết luận ................................................................................................................ 25
Chương 3: Genetic Algorithms ....................................................................................... 27
3.1. Giới thiệu ............................................................................................................... 27
3.2. ðộng lực ................................................................................................................. 27
3.3. Thuật giải di truyền ................................................................................................ 28
3.3.1. Nội dung thuật tốn ........................................................................................... 28
3.3.2. Thể hiện các giả thuyết ..................................................................................... 30
3.3.3. Các tốn tử di truyền ......................................................................................... 32
3.3.4. Hàm thích nghi và sự chọn lọc .......................................................................... 34
Chương 4: Minimax Probability Machine ..................................................................... 36
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
4.1. Giới thiệu ............................................................................................................... 36
4.2. Nội dung................................................................................................................. 36
4.3. Ưu điểm và nhược điểm của minimax probability machine ................................. 37
4.4. Các phiên bản cải tiến của thuật tốn minimax probability machine .................... 38
4.4.1. Minimum error minimax probability machine (MEMPM) .............................. 38
4.4.2. Biased minimax probability machine (BMPM) ................................................ 39
Chương 5: Phương pháp đề nghị .................................................................................... 41
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Danh sách các hình
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Danh sách các bảng
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Bảng các từ viết tắt
Genetic Algorithm GA
Minimax Probability Machine MPM
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Giới thiệu
Những năm gần đây, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vơ cùng to
lớn cho con người. Song hành cùng sự phát triển nhanh chĩng của cơng nghệ thơng tin và
những ứng dụng của nĩ trong đời sống, kinh tế và xã hội, lượng dữ liệu thu thập ngày
càng nhiều theo thời gian, dẫn đến việc xuất hiện ngày càng nhiều các hệ thống cơ sở dữ
liệu cĩ kích thước lớn. Trong xã hội hiện đại, thơng tin được coi như sức mạnh và là yếu
tố quyết định thành cơng trong mọi lĩnh vực, do đĩ việc tìm ra thơng tin hữu ích trong
khối dữ liệu khổng lồ được xem như mục tiêu hàng đầu của mọi tổ chức và cá nhân.
Trong khĩa luận này, tơi sẽ ứng dụng kỹ thuật giảm chiều trong bài tốn trích chọn để
nhằm cải thiện hiệu quả phân lớp dữ liệu, nền tảng cho hệ thống chuẩn đốn bệnh ung
thư. Hệ thống này sẽ được huấn luyện với tập dữ liệu về các bệnh nhân cĩ từ trước và khi
cĩ dữ liệu của bệnh nhân mới, hệ thống sẽ tự động đưa ra chuẩn đốn người đĩ cĩ bị
bệnh hay khơng? Tơi sử dụng phương pháp phân lớp Minimax Probability Machine
(MPM) kết hợp cùng thuật tốn di truyền (Genetic Algorithm) để xây dựng hệ thống
chuẩn đốn này. Với mục đích làm tăng độ chính xác của quá trình phân lớp dữ liệu và
giảm thời gian huấn luyện của bộ phân lớp, tơi sử dụng thuật tốn di truyền để giảm
chiều của tập dữ liệu ban đầu nhằm tối ưu tập thuộc tính đầu vào cho bộ phân lớp MPM.
Kết quả thực nghiệm đã chứng minh rằng phương pháp phân lớp sử dụng thuật tốn di
truyền để tối ưu tập thuộc tính cho kết quả tốt hơn phương pháp truyền thống.
Nội dung chính của khĩa luận bao gồm sáu chương, với nội dung cụ thể như sau:
Chương 1: Giới thiệu về khai phá dữ liệu. Chương này tập trung mơ tả về khai phá dữ
liệu (data mining), giới thiệu những bài tốn điển hình trong khai phá dữ liệu cũng như
những ứng dụng rộng rãi của lĩnh vực này. Cuối cùng là những thách thức đặt ra cho quá
trình khai phá dữ liệu.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Chương 2: Trích chọn thuộc tính phù hợp. Nội dung chính của chương nhừm giúp
người đọc hiểu về khái niệm trích chọn thuộc tính, những mơ hình trích chọn điển hình
và một số kỹ thuật xử lý trong quá trình trích chọn.
Chương 3: Genetic Algorithm. Ở chương này, người đọc sẽ được giới thiệu về nội dung
và những bước thực hiện của thuật tốn di truyền.
Chương 4: Minimax Probability Machine. Chương này sẽ mơ tả phương pháp phân lớp
minimax probability machine. Phân tích những mặt mạnh và yếu của phương pháp này
để đề ra những cải tiến nhằm nâng cao hiệu quả phân lớp của minimax probability
machine.
Chương 5: Phương pháp đề nghị. Chương này sẽ mơ tả chi tiết quá trình xây dựng mơ
hình phân lớp minimax probability machine kết hợp với thuật tốn di truyền. ðồng thời
mơ tả quá trình đánh giá chất lượng, từ đĩ đưa ra những phân tích kỹ thuật và kết luận về
hiệu quả của mơ hình.
Chương 6: Kết luận. Chương này là phần tổng kết khĩa luận, đồng thời nêu ra những
mặt cịn hạn chế trong phương pháp đề nghị và những cơng việc trong tương lai nhằm cải
tiến hiệu quả của phương pháp này.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Chương 1: Giới thiệu về khai phá dữ liệu
1.1. Khai phá dữ liệu là gì?
Cĩ khá nhiều định nghĩa về khai phá dữ liệu (Data mining), nhưng định nghĩa đơn
giản nhất thì khai phá dữ liệu là việc trích rút thơng tin hay tri thức mới và cĩ ích từ
nguồn dữ liệu khổng lồ.
Ngồi ra, khai phá dữ liệu cịn cĩ thể hiểu là trích rút các thơng tin cĩ ích từ những dữ
liệu khơng tường minh, hoặc trích rút lấy những thơng tin khơng biết trước và tiềm tàng
trong dữ liệu. Cũng cĩ thể hiểu, khai phá dữ liệu là việc phân tích khảo sát một cách tỉ mỉ
số lượng lớn dữ liệu bằng các phương pháp tự động hoặc bán tự động nhằm tìm ra các
mẫu cĩ ích.
Cĩ thể nhận xét rằng, khái niệm khai phá dữ liệu là khá rộng lớn, nhưng khơng phải
tất cả mọi cơng việc liên quan đến dữ liệu đều được coi là khai phá dữ liệu, chẳng hạn
như những việc xử lý truy vấn đơn giản như tra cứu một số điện thoại, hay thống kê ra
những học sinh giỏi của một lớp, thì khơng thể coi đĩ là khai phá dữ liệu. Nhưng những
cơng việc như gom nhĩm các tài liệu trả về từ máy tìm kiếm theo từng ngữ cảnh thì lại
được xem là khai phá dữ liệu.
1.2. Tại sao phải tiến hành khai phá dữ liệu?
Trong những năm gần đây, khai phá dữ liệu trở thành một lĩnh vực nghiên cứu rộng
rãi trong ngành cơng nghiệp thơng tin, nguyên nhân chủ yếu là do khối lượng khổng lồ
của dữ liệu mà con người tạo ra, đi kèm với nĩ là sự cần thiết biến đổi những dữ liệu đĩ
thành tri thức. Thơng tin và tri thức cĩ thể được áp dụng vào nhiều lĩnh vực từ phân tích
thị trường tài chính, phát hiện giả mạo, cho đến điều khiển sản xuất và nghiên cứu khoa
học.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Nhìn vào hai lĩnh vực sinh ra nhiều dữ liệu nhất đĩ là thương mại và khoa học. Trong
lĩnh vực thương mại, hàng ngày hàng giờ con người đang tạo ra, thu thập và lưu trữ lại rất
nhiều dữ liệu, như dữ liệu web, dữ liệu về thương mại điện tử, dữ liệu về việc thanh tốn
tại các cửa hàng và các dữ liệu thanh tốn trong các tài khoản… Tính cạnh tranh trong
kinh doanh là rất cao, cho nên việc phân tích dữ liệu để cung cấp dịch vụ tốt hơn, cĩ
nhiều tiện ích cho khách hàng, và đĩn bắt chính xác nhu cầu của khách hàng rất quan
trọng. Trong lĩnh vực khoa học, dường như lượng dữ liệu sinh ra và thu thập lại cịn lớn
hơn nhiều, lên tới hàng GB/giờ, chẳng hạn như dữ liệu từ vệ tinh, từ các ảnh chụp vũ trụ
và từ các mơ phỏng thử nghiệm khoa học. Khai phá dữ liệu giúp các nhà khoa học trong
việc phân lớp dữ liệu và hỗ trợ trong việc đưa ra các quyết định.
Cùng với sự phát triển của khoa học, của ngành cơ sở dữ liệu khơng thể khơng kể đến
là sự phát triển của ngành cơng nghiệp máy tính, người ta đã tạo ra những phương tiện
lưu trữ lớn hơn, những máy tính rẻ hơn, tốc độ cao hơn, trợ giúp cho quá trình thu thập
dữ liệu cũng như khai phá chúng.
Trong quá trình tác nghiệp, người ta thường phải đưa ra các quyết định, tuy nhiên, với
lượng dữ liệu khổng lồ như thế, người ta khơng thể sử dụng hết, hoặc nếu muốn sử dụng
thì phải mất thời gian quá nhiều, như vậy cĩ nguy cơ đánh mất cơ hội. Do đĩ, việc sử
dụng máy tính để khai phá dữ liệu nhằm giúp đỡ con người trong cơng việc càng được
thúc đẩy mạnh mẽ, làm sao với các dữ liệu đã thu thập được cĩ thể đưa ra một hành động
mang lại lợi ích tối đa.
1.3. Quá trình khai phá dữ liệu
Ở một gĩc độ nào đĩ, khái niệm khai phá dữ liệu và khai phá tri thức nhiều khi được
coi là một. Tuy nhiên, nếu xét kỹ thì khai phá dữ liệu là một bước quan trọng trong khai
phá tri thức. Một quá trình phát hiện tri thức trong cơ sở dữ liệu bao gồm các giai đoạn
chính sau:
(1) Làm sạch dữ liệu (Data Cleaning): Khử nhiều và các dữ liệu mâu thuẫn.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
(2) Tích hợp dữ liệu (Data Integration): Kết hợp nhiều nguồn dữ liệu khác nhau.
(3) Lựa chọn dữ liệu (Data Selection): Chắt lọc lấy những dữ liệu liên quan đến
nhiệm vụ phân tích sau này.
(4) Biến đổi dữ liệu (Data Transformation): Biến đổi dữ liệu thu được về dạng thích
hợp cho quá trình khai phá.
(5) Khai phá dữ liệu (Data Mining): Sử dụng những phương pháp thơng minh để khai
thác dữ liệu nhằm thu được các mẫu mong muốn.
(6) ðánh giá kết quả (Pattern Evaluation): Sử dụng các độ đo để đánh giá kết quả thu
được.
(7) Biểu diễn tri thức (Knowledge Presentation): Sử dụng các cơng cụ biểu diễn trực
quan để biểu diễn những tri thức khai phá được cho người dùng.
Tri thức
ðánh giá &
Trình diễn
Lựa chọn &
Chuyển dạng
Dữ liệu
Kho dữ
liệu
Khai phá
dữ liệu
Dữ liệu
chuyển
dạng
Mẫu
Làm sạch &
Tích hợp
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Hình 1.1. Quá trình phát hiện tri thức trong cơ sở dữ liệu.
Quá trình này cĩ thể được lặp lại nhiều lần một hay nhiều giai đoạn dựa trên phản hồi
từ kết quả của các giai đoạn sau.
1.4. Kiến trúc điển hình của một hệ khai phá dữ liệu
Trong kiến trúc điển hình của một hệ khai phá dữ liệu (hình 1.2), các nguồn dữ liệu
cho hệ thống khai phá dữ liệu bao gồm cơ sở dữ liệu, hoặc kho dữ liệu, hoặc World Wide
Web, hoặc kho chứa dữ liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu dữ liệu nĩi trên.
Cơ sở tri thức bao chứa các tri thức hiện cĩ về miền ứng dụng, được sử dụng trong
thành phần khai phá dữ liệu để tăng tính hiệu quả của thành phần này. Một số tham số
của thuật tốn khai phá dữ liệu tương ứng sẽ tinh chỉnh theo tri thức miền sẵn cĩ từ cơ sở
tri thức trong hệ thống. Cơ sở tri thức cịn được sử dụng trong việc đánh giá các mẫu đã
khai phá được xem chúng cĩ thật sự hấp dẫn hay khơng, trong đĩ cĩ đối chứng với các tri
thức đã cĩ trong cơ sở tri thức. Nếu mẫu khai phá được thực sự là hấp dẫn thì được bổ
sung vào cơ sở tri thức để phục vụ cho hoạt động tiếp theo của hệ thống.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Hình 1.2. Kiến trúc điển hình của hệ thống khai phá dữ liệu.
1.5. Các bài tốn khai phá dữ liệu điển hình
Hai mục tiêu chủ yếu của khai phá dữ liệu là dự báo (prediction) và mơ tả
(description). Dự báo dùng một số biến hoặc trường trong trong cơ sở dữ liệu để dự đốn
về giá trị chưa biết hoặc về giá trị sẽ cĩ trong tương lai của các biến. Mơ tả hướng tới
việc tìm ra các mẫu mơ tả dữ liệu.
Dự báo và mơ tả được thể hiện thơng qua các bài tốn cụ thể sau:
• Mơ tả khái niệm (Summarization)
Mục đích của bài tốn là tìm ra các đặc trưng và tính chất của các khái niệm. ðiển
hình cho bài tốn này là các bài tốn như tổng quát hĩa, tĩm tắt, các đặc trưng dữ liệu
ràng buộc.
Giao diện người dùng
ðánh giá mẫu khai phá được
Thành phần khai phá dữ liệu
Phục vụ Cơ sở dữ liệu/ Kho dữ
Cơ sở dữ
liệu
Kho dữ
liệu
World
Wide
Kiểu kho
chứa thơng tin
Cơ sở tri
thức
Làm sạch, tích hợp và chọn lựa dữ
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
• Quan hệ kết hợp (Dependency relationship)
Một trong những vấn đề của phát hiện mối quan hệ là làm rõ ràng và nguyên nhân.
Bài tốn tìm luật kết hợp là một đại diện điển hình, thực hiện việc phát hiện ra mối
quan hệ giữa các thuộc tính (các biến), cĩ dạng ở phụ thuộc hàm trong cơ sở dữ liệu
quan hệ.
• Phân lớp (Classification)
Phân lớp cịn được gọi là học máy cĩ giám sát (supervised learning). Với một tập
các dữ liệu huấn luyện cho trước và sự huấn luyện của con người, các giải thuật phân
loại sẽ học ra bộ phân loại (classifier) dùng để phân dữ liệu mới vào trong những lớp
(cịn gọi là loại) đã được định trước. Một số phương pháp điển hình là cây quyết định,
luật phân lớp, mạng neuron.
• Phân cụm (Clustering)
Phân cụm cịn được gọi là học máy khơng giám sát (unsupervised learning), thực
hiện việc nhĩm dữ liệu thành các lớp mới để cĩ thể phát hiện các mẫu phân bố. Phân
cụm chỉ là bái tốn mơ tả hướng tới việc nhận biết một tập hữu hạn các loại hoặc các
cụm để mơ tả dữ liệu. Các loại (cụm) cĩ thể rời nhau và tồn phần (tạo nên phân
hoạch) hoặc chồng chéo lên nhau.
• Phân đoạn (Segmentation)
Về bản chất phân đoạn là tổ hợp của phân cụm và phân lớp, trong đĩ phân cụm
được tiến hành trước và sau đĩ là phân lớp.
• Hồi quy (Regression)
Hồi quy là học một hàm ánh xạ dữ liệu nhằm tìm và xác định giá trị thực của một
biến.
• Mơ hình phụ thuộc (Dependency modeling)
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Bài tốn xây dựng mơ hình phụ thuộc hướng tới việc tìm ra một mơ hình mơ tả sự
phụ thuộc cĩ ý nghĩa giữa các biến. Mơ hình phụ thuộc gồm hai mức: mức cấu trúc
của mơ hình mơ tả (thường dưới dạng đồ thị) và mức định lượng.
• Phát hiện biến đổi và độ lệch (Change and Deviation Detection)
Tập trung vào việc phát hiện hầu hết sự thay đổi cĩ ý nghĩa dưới dạng độ đo đã
biết trước hoặc giá trị chuẩn.
1.6. Các lĩnh vực liên quan đến khai phá dữ liệu
Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực như thống kê, trí tuệ nhân
tạo, cơ sở dữ liệu, thuật tốn học, tính tốn song song và tốc độ cao, thu thập tri thức cho
các hệ chuyên gia, quan sát dữ liệu... ðặc biệt khai phá dữ liệu rất gần gũi với lĩnh vực
thống kê, sử dụng các phương pháp thống kê để mơ hình dữ liệu và phát hiện các mẫu,
luật. Ngân hàng dữ liệu (Data Warehousing) và các cơng cụ phân tích trực tuyến (OLAP
– On line Analytical Processing) cũng liên quan chặt chẽ với khai phá dữ liệu.
Hình 1.3. Tính đa/ liên ngành của khai phá dữ liệu.
Khai phá
dữ liệu
Hệ thống cơ
sở dữ liệu
Thống kê
Học máy
Thuật tốn Các bộ mơn
khác
Trực quan hĩa
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Các kỹ thuật truyền thống khơng cịn thích hợp với các loại dữ liệu bị lỗi, bị nhiễu hay
dữ liệu nhiều chiều và các hệ dữ liệu tự nhiên phân tán hay hỗn tạp. Do đĩ khi kết hợp
với nhau, hình thành lĩnh vực mới, đĩ là khai phá dữ liệu.
1.7. Các ứng dụng điển hình của khai phá dữ liệu
Ứng dụng của khai phá dữ liệu được chia thành hai lớp chính bao gồm các ứng dụng
phân tích – hỗ trợ ra quyết định và lớp các lĩnh vực ứng dụng khác.
• Lớp các ứng dụng trong phân tích dữ liệu và hỗ trợ ra quyết định bao gồm các ứng
dụng trong:
- Thơng tin thương mại: Phân tích dữ liệu Marketing, khách hàng; Phân tích đầu
tư; Phê duyệt cho vay vốn hay phát hiện gian lận.
- Thơng tin kỹ thuật: ðiều khiển và lập trình lịch; Quản trị mạng.
- Bảo hiểm y tế.
- Viễn thơng.
- Thể thao
• Lớp các lĩnh vực ứng dụng điển hình khác được kể đến là khai phá văn bản, khai
phá Web, khai phá dữ liệu sinh học và khai phá dữ liệu dịng.
1.8. Các thách thức với khai phá dữ liệu
• Cơ sở dữ liệu lớn.
• Số chiều lớn.
• Thay đổi dữ liệu và tri thức cĩ thể làm cho các mẫu đã phát hiện khơng cịn phù
hợp.
• Dữ liệu bị thiếu hoặc bị nhiễu.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
• Quan hệ giữa các trường phức tạp.
• Giao tiếp với người sử dụng và kết hợp với các tri thức đã cĩ.
• Tích hợp với các hệ thống khác …
1.9. Kết luận
Qua các vấn đề đã trình bày, chúng ta nhận thấy với một lượng dữ liệu thực tế nhỏ và
với mục đích bài tốn cụ thể nhưng ta cĩ thể tiếp cận theo nhiều hướng khác nhau của
cùng một phương pháp khai phá dữ liệu và đạt được kết quả khác nhau, điều đĩ càng làm
sáng tỏ khả năng ứng dụng thực tế to lớn đồng thời với những thách thức đối với kỹ thuật
khai phá dữ liệu trong các bài tốn kinh tế - xã hội và trong nhiều lĩnh vực khác.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Chương 2: Trích chọn thuộc tính phù hợp
2.1. Giới thiệu
Trích chọn đặc trưng (Feature Selection) là phương pháp chọn ra một tập con tốt nhất
từ tập các đặc trưng đầu vào bằng cách lọai bỏ những đặc trưng cĩ rất ít hoặc khơng cĩ
thơng tin dự đốn.
Trích chọn đặc trưng cĩ vai trị quan trọng trong việc chuẩn bị và lựa chọn dữ liệu cho
quá trình khai phá dữ liệu. Nĩ sẽ làm giảm kích cỡ của khơng gian đặc trưng, loại bỏ dư
thừa hay nhiễu của dữ liệu. Phương pháp này cĩ thể tìm chính xác những tập con đặc
trưng cĩ khả năng dự đốn, do đĩ giúp cải thiện đáng kể kết quả thu được trong các mơ
hình phân lớp.
Về cơ bản, quá trình trích chọn đặc trưng bao gồm bốn bước cơ bản: sinh tập con
(subset generation), đánh giá tập con (subset evaluation), điều kiện dừng quá trình trích
chọn (stopping criterion) và kết quả (result validation).
Hình 2.1. Bốn bước cơ bản trong quá trình trích chọn các thuộc tính phù hợp.
Subset generation là một thủ tục tìm kiếm. Về cơ bản, nĩ sinh ra một tập con của tập
các đặc trưng để đánh giá. Giả sử cĩ N đặc trưng trong tập dữ liệu gốc, thì số lượng các
Subset
Generation
Subset
Evaluation
Result
Validation
Stopping
Criterion
YES NO
Goodness of Subset
Subset
Original
Set
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
tập con tiềm năng là 2n. Vì một tập con tối ưu các điểm đặc trưng khơng phải là duy nhất
nên số lượng các tập con cĩ thể thỏa mãn là rất lớn, do đĩ quá trình tìm kiếm trong trích
chọn đặc trưng sẽ tốn nhiều thời gian và cơng sức. Mỗi tập con được sinh ra cần phải
được đánh giá và so sánh với những tập con tốt nhất đã được tìm thấy trước. Nếu tập con
tìm thấy sau là tốt hơn thì nĩ sẽ được thay thế cho tập con tốt nhất trước đây. Nếu khơng
cĩ một điều kiện dừng hợp lý thì quá trình tìm kiếm các tập con tốt nhất sẽ được xem như
là vơ hạn. Một quá trình trích chọn đặc trưng cĩ thể dừng khi thỏa mãn một trong những
điều kiện đánh giá sau: (a) chọn đủ số lượng đã được xác định trước của tập đặc trưng,
(b) thỏa mãn số lần đã được xác định trước của quá trình lặp lại. (c) ở một khía cạnh
(điều kiện) nào đĩ tập con mới được đánh giá là khơng tốt hơn tập con trước, (d) tập con
được bộ đánh giá cho là tốt nhất.
2.2. Mơ hình trong bài tốn trích chọn
2.2.1. Các mơ hình trong trích chọn
Trích chọn đặc trưng thật sự là lý tưởng trong lựa chọn tập con đặc trưng tối ưu từ
một tập ứng cử để mơ tả khái niệm mục tiêu trong hệ thống học. ðộ tốt của một tập con
đặc trưng cĩ thể được đánh giá qua nhiều cách khác nhau, nhờ đĩ mà cĩ nhiều mơ hình
khác nhau được đưa ra trong phương pháp trích chọn. ðiển hình là hai mơ hình: Filter và
Wrapper.
Hình 2.2. Mơ hình Filter
1 2
Filter
3 A
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Hình 2.3. Mơ hình Wrapper
Giải thích hình vẽ:
A: Tập đặc trưng đầu vào.
1: Bộ sinh tập con (Feature Subset Generator).
2: Bộ đánh giá (Feature Subset Evaluator).
3: Các thuật tốn học máy (Followed Machine learning Algorithm)
4: Thuật tốn học máy điều khiển (Central Machine learning Algorithm).
Mơ hình Filter đánh giá mỗi cá thể bằng một vài tiêu chuẩn, rồi chọn ra tập con các
thuộc tính cĩ độ đánh giá cao nhất. Nhìn chung, Filter coi tiến trình của trích chọn thuộc
tính như tiến trình thực thi trước, sau đĩ mới sử dụng thuật tốn để phân lớp.
Wrapper sử dụng một thuật tốn tìm kiếm để đánh giá tập con các thuộc tính coi như
là một nhĩm hơn là một cá thể riêng lẻ. Mơ hình Wrapper được đặt vào trung tâm của
một thuật tốn máy học cụ thể. Nĩ đánh giá độ tốt của những tập con đặc trưng tùy theo
độ chính xác học của tập con, điều này xác định thơng qua tỷ lệ. Những thuật tốn tìm
kiếm cũng sử dụng hàm đánh giá kinh nghiệm (heuristics) để hướng dẫn việc tìm kiếm
tập trung vào các đối tượng cĩ triển vọng.
1
2
4
Wrapper Model
3
A
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
2.2.2. ðánh giá hai mơ hình Filter và Wrapper
2.2.2.1. Filter
• Ưu điểm:
- Khơng cĩ xử lý học máy trong quá trình lựa chọn các đặc trưng.
- Dễ dàng nhận diện và thời gian tiêu thụ ít hơn mơ hình Wrapper.
• Nhược điểm:
- Hiệu suất sản sinh các tập con đặc trưng là khơng đảm bảo vì nĩ thường đánh
giá một tập con đặc trưng chỉ dựa trên đặc trưng nhỏ thiên về nguyên lý mà
khơng tính tới độ chính xác của kết quả học máy.
- Kết quả thu được bị giảm sút về độ chính xác học ở những giai đoạn sau vì các
hàm đánh giá hiện thời được sử dụng thường thiên về giá trị ở một vài phạm vi,
do đĩ sẽ khơng đánh giá một cách khách quan tầm quan trọng của các đặc
trưng.
2.2.2.2. Mơ hình Wrapper
• Ưu điểm:
- ðảm bảo hiệu suất của kết quả học hơn mơ hình Filter.
• Nhược điểm:
- Ít được sử dụng hơn mơt hình Filter trên thực tế vì:
Tiến trình học tốn kém về thời gian đến mức thời gian thực hiện đưa ra bởi
một thuật tốn sử dụng mơ hình Wrapper là khơng chấp nhận được.
Với một hệ thống kích thước cực lớn, mơ hình này khơng thực tế do phạm
vi của nĩ buộc phải thu nhỏ lại trước khi thuật tốn học máy được áp dụng.
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Kết quả đánh giá của mơ hình phụ thuộc nhiều vào thuật tốn học máy điều
khiển.
2.3. Một số kỹ thuật xử lý
2.3.1. Bộ sinh tập con (Feature Subset Generator)
Tùy từng chiến lược cụ thể, bộ sinh tập con sẽ tạo ra những tập con đặc trưng từ một
tập đầu vào tương ứng. ðầu ra của bộ sinh sẽ xác định thuật tốn trích chọn đặc trưng của
việc tìm đường và tìm kiếm phạm vi trong một khơng gian đặc trưng tương ứng. Nĩi
chung, bộ sinh cĩ hai chiến lược để sản sinh ra những tập con đặc trưng:
• ðầy đủ (Completely): Một bộ khởi tạo đầy đủ cĩ thể sản sinh ra tất cả các tập con
từ một tập đặc trưng đầu vào, do vậy phạm vi tìm kiếm của chiến lược này là NP
đầy đủ, tuy nhiên điều này khơng phải lúc nào cũng chứng tỏ tìm kiếm vét cạn là
cần thiết trong thực tế, bởi vì một số cơng nghệ như: đường biên và rẽ nhánh cĩ
thể được áp dụng để lược bớt phạm vi tìm kiếm tốt nhất. Bởi vậy nếu là thuật tốn
trích chọn với bộ khởi tạo đầy đủ, thực nghiệm chỉ ra rằng khơng gian tìm kiếm
lớn nhất là O(2k). Mà đối với hầu hết những hệ thống học máy thực, điều này là
khơng cần thiết phải đánh giá tất cả những tập con từ một tập đặc trưng tương ứng.
Thường thì, thuật tốn trích chọn với bộ khởi tạo đầy đủ cĩ thể tìm ra một tập con
đặc trưng tối ưu của hệ thống học máy nhưng địi hỏi thời gian thực thi phức tạp.
Liu H. [12] đã đưa ra bộ khởi tạo đầy đủ đặc biệt mà sản sinh một cách ngẫu nhiên
ra những tập con đặc trưng dựa vào thuật tốn Las Vegas (LV). Thuật tốn LV cĩ
thể tìm kiếm trên tồn bộ khơng gian đáp án rồi sau đĩ đưa ra kết quả tối ưu đảm
bảo. Tuy nhiên khác với những bộ khởi tạo đầy đủ khác, đối với một ứng dụng
thực tế, khả năng thực thi của bộ khởi tạo Liu là hồn tồn thay đổi, nĩ phụ thuộc
nhiều vào quá trình phân chia dữ liệu ngẫu nhiên trong tồn bộ hệ thống học máy.
• Kinh nghiệm (Heuristically): ðể lược bớt khơng gian tìm kiếm, bộ khởi tạo kinh
nghiệm sản sinh ra các tập con đặc trưng dựa vào những kinh nghiệm chiến lược
nào đĩ. Cĩ ba kỹ thuật tìm kiếm tập con điển hình là:
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
- Lựa chọn tiến (Forward Selection): các tập con đặc trưng được khởi tạo
trước hết là rỗng (null), sau đĩ liên tục gán những tính năng tốt nhất hiện
thời cho tập con đĩ cho đến khi khơng cịn tính năng nào nữa hay các điều
kiện thực thi đưa ra đã được tiếp nhận hết.
- Lược bỏ lùi (Backward Elimination): Các tập con đặc trưng được khởi tạo
trước hết là đầy đủ các đặc trưng, sau đĩ loại bỏ lần lượt những đặc trưng
kém nhất hiện thời từ các tập con đĩ, cho đến khi khơng cịn đặc trưng nào
hoặc các điều kiện thực thi đưa ra đã được triệt tiêu hết.
- Lựa chọn hai hướng (Bi – direction Selection): các tập con đặc trưng được
khởi tạo trước hết là rỗng, đầy, hoặc sản sinh ngẫu nhiên một tập con đặc
trưng, sau đĩ liên tục hoặc là gán tính năng tốt nhất hiện thời cho tập con đĩ
hoặc là triệt tiêu tính năng kém nhất từ các tập con đĩ. ðể từ đĩ đưa ra
những giá trị định hướng tốt nhất ở mỗi lần lặp lại đĩ. Quá trình tiếp tục
cho tới khi tất cả điều kiện được đưa ra từ trước đã được tiếp nhận hết.
Bộ phận khởi tạo kinh nghiệm giảm thiểu phạm vi tìm kiếm đa thức số mũ, do đĩ
giảm thời gian thực hiện thuật tốn phức tạp trong phương pháp trích chọn. Tuy nhiên,
thuật tốn chỉ đưa ra một lượng nhỏ kết quả tối ưu, khi thực hiện tìm đường và tìm kiếm
phạm vi của bộ phận khởi tạo, kết quả này được đảm bảo thơng qua những thuật tốn này.
2.3.2. Bộ đánh giá tập con đặc trưng (Feature Subset Evaluator)
Hiệu suất của một tập con đặc trưng được đánh giá dựa trên cơ sở nào đĩ mà bộ đánh
giá đạt được. Bộ đánh giá của những mơ hình thuật tốn khác nhau là khác nhau. Bộ đánh
giá của mơ hình Filter thường là các hàm đánh giá, trong khi của mơ hình Wrapper là độ
học chính xác đạt được bởi quá trình thực thi thuật tốn học máy điều khiển trên hệ thống
học.
• Hàm đánh giá
ht
t
p
:
/
/
e
t
r
i
t
h
u
c
.
v
n
Những hàm đánh giá điển hình dùng để đo đạc và phân biệt khả năng phân lớp của
những đặc điểm khác nhau trên các mẫu. Thực tế, các hàm đánh giá khác nhau
thường được dùng hiện nay như: xấp xỉ chất lượng (Approximation Quality), độ
quan trọng của thuộc tính (Feature Importance), trọng số của thuộc tính (Feature
Weight) …
• Học chính xác
Trong mơ hình Wrapper, để ước lượng độ học máy chính xác, trước hết, các mẫu
của hệ thống học phải được chia ngẫu nhiên làm hai hệ thống con, chẳng hạn như:
hệ thống huấn luyện và hệ thống kiểm tra, trong đĩ, cấu trúc của hai hệ thống con
cĩ cùng đặc điểm và được tạo ra bởi bộ sinh; sau đĩ thuật tốn học m._.
Các file đính kèm theo tài liệu này:
- CNTT1002.pdf