BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Luận văn Thạc sĩ Công nghệ Thông tin
ĐỒNG NAI, 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC LẠC HỒNG
--------
NGUYỄN THANH PHONG
XÂY DỰNG BỘ LỌC PHÁT HIỆN CÁC WEBSITE CÓ NỘI DUNG
KHIÊU DÂM DỰA TRÊN URL VÀ TEXT CONTENT
Chuyên ngành: Công nghệ Thông tin
Mã số: 60480201
Luận văn Thạc sĩ Công nghệ Thông
73 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 470 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Xây dựng bộ lọc phát hiện các website có nội dung khiêu dâm dựa trên url và text content, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tin
NGƢỜI HƢỚNG DẪN KHOA HỌC
TS. VŨ ĐỨC LUNG
ĐỒNG NAI, 2014
LỜI CẢM ƠN
Với những lời đầu tiên, em xin dành sự cảm ơn chân thành và sâu sắc tới
thầy tiến sỹ Vũ Đức Lung đã hƣớng dẫn và giúp đỡ em tận tình trong quá trình hồn
thành luận văn.
Em cũng xin cảm ơn quý Thầy Cơ Trƣờng Đại học Lạc Hồng đã tận tình
truyền dạy kiến thức trong quá trình em học tập tại trƣờng, những kiến thức đĩ đã
giúp em rất nhiều trong việc học tập và nghiên cứu sau này.
Cuối cùng, xin gửi lời cảm ơn tới những ngƣời thân trong gia đình và bạn bè,
đồng nghiệp đã giúp đỡ và tạo điều kiện tốt trong quá trình làm luận văn.
Đồng Nai, tháng 08 năm 2014
Trân trọng
Nguyễn Thanh Phong
LỜI CAM ĐOAN
Tơi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá
nhân, là kết quả của quá trình học tập và nghiên cứu khoa học độc lập. Trong tồn
bộ nội dung của luận văn, những điều đƣợc trình bày hoặc là của cá nhân hoặc là
đƣợc tổng hợp từ nhiều nguồn tài liệu. Tất cả các tài liệu tham khảo đều cĩ xuất xứ
rõ ràng và đƣợc trích dẫn hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan của mình.
Đồng Nai, tháng 08 năm 2014
Tác giả
Nguyễn Thanh Phong
MỤC LỤC
LỜI CẢM ƠN
LỜI CAM ĐOAN
MỤC LỤC
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
DANH SÁCH CÁC BẢNG BIỂU, HÌNH VẼ
MỞ ĐẦU ..................................................................................................................... 1
Lý do chọn đề tài ......................................................................................................... 1
Mục tiêu đề tài ............................................................................................................. 2
Nội dung thực hiện ...................................................................................................... 2
Phƣơng pháp thực hiện ................................................................................................ 3
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN WEBSITE ..... 4
1.1 Giới thiệu ............................................................................................................. 4
1.2 Các loại bộ lọc WEB cĩ nội dung khiêu dâm ..................................................... 4
1.2.1 Bộ lọc WEB dựa vào địa chị mạng .................................................................. 4
1.2.2 Bộ lọc WEB dựa vào URL .............................................................................. 6
1.2.3 Bộ lọc WEB dựa vào DNS .............................................................................. 9
1.2.4 Bộ lọc WEB dựa vào từ khĩa ........................................................................ 10
1.2.5 Bộ lọc WEB dựa vào nội dung text và hình ảnh ............................................ 10
1.3 Các cơng trình liên quan .................................................................................. 11
CHƢƠNG 2. CÁC LÝ THUYẾT ỨNG DỤNG TRONG LUẬN VĂN ............. 15
2.1 Rút trích nội dung của website .......................................................................... 15
2.1.1 Phân tích mã HTML ...................................................................................... 15
2.1.2 So sánh khung mẫu ........................................................................................ 16
2.1.3 Xử lý ngơn ngữ tự nhiên ................................................................................ 17
2.2 Phân tích nội dung thành các token .................................................................. 18
2.2.1 Tiền xử lý dữ liệu ........................................................................................... 19
2.2.2 Tách câu dựa trên Maximum Entropy ........................................................... 19
2.2.3 Tách từ ........................................................................................................... 21
2.2.3.1 Phƣơng pháp Maximum Matching .............................................................. 25
2.2.3.2 Phƣơng pháp Transformation – based learning – TBL................................ 25
2.2.3.3 Mơ hình tách từ bằng WFST và mạng Neural ............................................. 26
2.2.3.4 Phƣơng pháp tách từ tiếng việt dựa trên thống kê từ Internet và thuật giải di
truyền ........................................................................................................... 28
2.2.4 Thuật tốn KEA ............................................................................................. 29
2.2.4.1 Chọn cụm ứng viên ...................................................................................... 31
2.2.4.2 Tính tốn đặc trƣng ...................................................................................... 33
2.2.4.3 Huấn luyện ................................................................................................... 33
2.2.4.4 Rút trích những cụm từ khĩa ....................................................................... 34
2.2.5 Thuật tốn KIP ............................................................................................... 34
2.2.6 Nhận diện thực thể cĩ tên............................................................................... 36
2.3 Phân tích URL .................................................................................................. 37
CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA TRÊN URL
VÀ TEXT CONTENT ............................................................................................ 38
3.1 Phân tích mơ hình hệ thống .............................................................................. 38
3.2 Module xử lý dựa vào URL .............................................................................. 40
3.3 Module lọc theo nội dung ................................................................................. 40
3.3.1 Giai đoạn huấn luyện ..................................................................................... 41
3.3.1.1 Tiền xử lý văn bản ....................................................................................... 41
3.3.1.2 Trích lọc đặc trƣng ....................................................................................... 42
3.3.1.3 Thuật tốn Nạve Bayes ............................................................................... 44
3.3.2 Giai đoạn phân lớp, nhận dạng ...................................................................... 47
CHƢƠNG 4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ ................................. 50
4.1 Mơi trƣờng thử nghiệm ...................................................................................... 50
4.2 Giao diện chƣơng trình ...................................................................................... 50
4.2.1 Giao diện chính .............................................................................................. 50
4.2.2 Giao diện học từ lấy TOKEN phân lớp nội dung Website ............................ 53
4.2.3 Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách TOKEN ................ 54
4.2.4 Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách TOKEN ............... 54
4.2.5 Giao diện danh sách các TOKEN từ phân lớp nội dung Website................. 55
4.2.6 Giao diện lấy TOKEN URL........................................................................... 55
4.2.7 Giao diện danh sách các TOKEN URL để phân lớp URL của Website ........ 56
4.3 Thu thập dữ liệu ................................................................................................ 56
4.3.1 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN URL ................................... 56
4.3.2 Thu thập dữ liệu để làm cơ sở dữ liệu TOKEN nội dung .............................. 57
4.4 Đánh giá kết quả thực nghiệm .......................................................................... 58
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ............................................................. 60
TÀI LIỆU THAM KHẢO
KÝ HIỆU CÁC CỤM TỪ VIẾT TẮT
Từ viết tắt Ý nghĩa
KNN K-Nearest Neighbor
LDA Latent Drichlet Allocation
LLSF Linear Least Square Fit
LRMM Left Right Maximum Matching
MM Maximum Matching
NB Nạve Bayes
pLSA Probabilistic Latent Semantic Analysis
SVM Support Vector Machine
TBL Transformation -based Learning
TF Term Frequency
WFST Weighted Finit State Transducer
DANH SÁCH CÁC HÌNH VẼ
Hình 2.1 - Hệ thống bĩc tách nội dung của VietSpider ............................................ 16
Hình 2.2 – Mơ hình bĩc tách nội dung chính bằng so sánh khung mẫu ................... 17
Hình 2.3 – Sơ đồ thuật tốn KEA ............................................................................. 30
Hình 3.1 – Mơ hình hệ thống lọc Website cĩ nội dung khiêu dâm .......................... 39
Hình 3.2 – Quy trình huấn luyện lấy TOKEN URL ................................................. 40
Hình 3.3 – Quy trình huấn luyện TOKEN nội dung ................................................. 41
Hình 3.4 – Quy trình tách từ ..................................................................................... 42
Hình 3.5 – Mơ hình huấn luyện từ ............................................................................ 44
Hình 3.6 – Mơ hình giai đoạn phân lớp .................................................................... 48
Hình 4.1 – Giao diện lúc khởi động bộ lọc ............................................................... 50
Hình 4.2 – Giao diện đăng nhập................................................................................ 51
Hình 4.3 – Giao diện khi duyệt một địa chỉ WEB tốt ............................................... 51
Hình 4.4 – Giao diện khi duyệt một địa chỉ WEB xấu ............................................. 52
Hình 4.5 – Giao diện danh sách địa chỉ WEB tốt, xấu ............................................. 52
Hình 4.6 – Giao diện chức năng hệ thống ................................................................. 53
Hình 4.7 – Giao diện huấn luyện từ đơn, từ ghép ..................................................... 53
Hình 4.8 – Giao diện duyệt các TOKEN từ đơn đƣa vào danh sách ToKEN ......... 54
Hình 4.9 – Giao diện duyệt các TOKEN từ ghép đƣa vào danh sách ToKEN ........ 54
Hình 4.10 – Giao diện duyệt TOKEN từ đơn và từ ghép ......................................... 55
Hình 4.11 – Giao diện huấn luyện TOKEN URL ..................................................... 55
Hình 4.12 – Giao diện danh sách các TOKEN URL sau huấn luyện ....................... 56
Hình 4.13 – Địa chỉ URL thu thập đƣợc ................................................................... 56
Hình 4.14 – File tốt thu thập đƣợc ............................................................................ 57
Hình 4.15 – File xấu thu thập đƣợc ........................................................................... 57
Hình 4.16 – Cơ sở dữ liệu TOKEN nội dung sau quá trình huấn luyện .................. 58
DANH SÁCH CÁC BẢNG BIỂU
Bảng 1.1 – Kết quả đánh giá NET PROJECT ............................................................ 5
Bảng 1.2 – Một số sản phẩm lọc WEB theo URL ...................................................... 7
Bảng 2.1 – Xác định cụm ứng viên ........................................................................... 32
Bảng 3.1 – Thống kê một số từ điển thơng dụng tiếng việt ...................................... 43
Bảng 3.2 – Số liệu thống kê bảng từ điển ................................................................. 43
Bảng 3.3 – Ví dụ minh họa tần số xuất hiện các TOKEN ........................................ 46
Bảng 3.4 –Ví dụ minh họa tần số xuất hiện các TOKEN chƣa làm trơn .................. 47
Bảng 3.5 –Ví dụ minh họa tần số xuất hiện các TOKEN đã làm trơn ...................... 47
Bảng 4.1 – Kết quả thực nghiệm File nội dung ........................................................ 59
Bảng 4.2 – Kết quả thực nghiệm URL ...................................................................... 59
1
MỞ ĐẦU
1. Lý do chọn đề tài
Internet bắt đầu xuất hiện từ những năm thập niên 60. Tuy nhiên tại thời
điểm đĩ nĩ chỉ đƣợc sử dụng nội bộ và phục vụ chủ yếu cho quân sự. Ngày
19/11/1997 là ngày đầu tiên Việt Nam chính thức hịa vào mạng Internet tồn cầu,
sau mƣời mấy năm hoạt động Internet trở thành một thuật ngữ hầu nhƣ ai cũng biết,
một phƣơng tiện truyền thơng ai ai cũng đang sử dụng, thậm chí với một số bộ phận
cịn phụ thuộc hồn tồn. Tầm ảnh huởng của Internet phát tán mạnh mẽ khi nĩ bắt
đầu phát huy cơng dụng giải trí của mình, ngƣời ta khơng chỉ cĩ thể tìm tƣ liệu mà
cịn xem phim, nghe nhạc, chơi game trên mạng. Hàng triệu triệu ngƣời vào mạng
mỗi ngày, nhƣng số ngƣời vào mạng để làm việc, học tập, truy cập tài liệu thì rất ít.
Với sự phát triển nhanh chĩng của Internet hiện nay, đĩ là dấu hiệu đáng
mừng trƣớc sự phát triển của cơng nghệ thơng tin trong một xã hội hiện đại. Nhƣng
đằng sau nĩ là những hệ lụy từ Internet mang lại cho con ngƣời, trong đĩ đặc biệt là
giới trẻ. Song song với các trị chơi trên mạng, thì việc tị mị truy cập vào các trang
cĩ nội dung khơng lành mạnh để đọc truyện Sex, xem các hình ảnh khiêu dâm, xem
phim Sex cũng trở nên phổ biến và tác hại làm cho ngƣời xem muốn cĩ hành vi
quan hệ tình dục ngay, dẫn đến tình trạng sa đà vào tệ nạn mại dâm, hiếp dâm khi
chƣa đủ tuổi vị thành niên. 1
Website khiêu dâm khơng chỉ ảnh hƣởng đến hành vi tình dục của giới trẻ
mà cịn ảnh hƣởng đến đạo đức làm việc nơi cơng sở 2. Ngồi ra, nĩ cịn gây mất an
ninh cho máy tính cá nhân của ngƣời sử dụng và hệ thống mạng máy tính nơi cơ
quan, bởi các phần mềm độc hại. Vậy làm sao để ngăn chặn khơng cho ngƣời sử
dụng truy cập vào các Website cĩ nội dung khiêu dâm là vấn đề đang đƣợc xã hội
quan tâm. Hiện nay trong nƣớc và ngồi nƣớc cũng cĩ nhiều phần mềm đƣợc
nghiên cứu nhƣ:
Nghiên cứu trong nƣớc cĩ thể đề cập đến một số phần mềm sau: Phần mềm
Killporn của tác giả Nguyễn Hữu Bình; Phần mềm VwebFilter (viết tắt VWF) của
Cơng ty Điện tốn và Truyền số liệu xây dựng; Phần mềm Depraved Web Killer
1
2
tri-o-chon-cong-so.html
2
(DWK) của Vũ Lƣơng Bằng, nhân viên cơng ty Điện thoại Đơng, quận 10 (TP
HCM); Phần mềm MiniFireWall 4.0 (MFW) của tác giả Huỳnh Ngọc Ẩn (cơng tác
tại phịng Tin học - Bƣu điện tỉnh Đồng Tháp); Bộ lọc phát hiện các Website cĩ nội
dung khơng lành mạnh, luận văn thạc sĩ cơng nghệ thơng tin của Cao Nguyễn Thủy
Tiên.
Nghiên cứu ngồi nƣớc cĩ thể kể đến một số phần mềm sau: STOP P-O-R-
N 5.5 đƣợc phát hành bởi PB Software LLC; K9 Web Protection đƣợc phát hành
bởi Blue Coat Systems; Media Detective 2.3 đƣợc phát hành bởi Tap Tap Software;
Parental Filter 3.0 đƣợc phát hành bởi NWSP Software Design; ScrubLT 3.2.2.0
đƣợc phát hành bởi CrubLT; CyberSitter đƣợc phát hành bởi Solid Oak Software ;
iShield 1.0 đƣợc phát hành bởi Guardware.
Thực tế cho thấy các phần mềm ngồi nƣớc đa phần muốn sử dụng thì phải
trả phí và thƣờng lọc hình ảnh khiêu dâm cịn lọc nội dung khiêu dâm chủ yếu bằng
tiếng anh cịn bằng tiếng việt thì hạn chế, cịn các phần mềm trong nƣớc thì cũng
cịn những hạn chế trong việc chặn từ khĩa khiêu dâm thơng dụng và chặn URL cụ
thể của Website. Qua đĩ cho thấy cịn nhiều vấn đề cần phải nghiên cứu làm sáng
tỏ, làm tốt hơn và đĩ là cũng là lý do mà đề tài “Xây dựng bộ lọc phát hiện các
Website cĩ nội dung khiêu dâm dựa trên URL và TEXT CONTENT” đƣợc lựa
chọn cho luận văn này.
2. Mục tiêu đề tài
Xây dựng bộ lọc WEB cĩ thể tự động phát hiện các Website cần truy cập cĩ
nội dung khiêu dậm dựa trên URL và TEXT CONTENT của Website.
3. Nội dung thực hiện
Thu thập các URL và TEXT CONTENT của các Website cĩ nội dung khiêu
dâm và khơng khiêu dâm để tạo bộ dữ liệu các token từ đã đƣợc huấn luyện để phục
vụ cho việc phân loại các Website cĩ nội dung khiêu dâm và khơng khiêu dâm.
Nghiên cứu cách khai phá URL và TEXT CONTENT của Website từ đĩ đề
xuất mơ hình lọc các Website cĩ nội dung khiêu dâm dựa trên URL và TEXT
CONTENT.
Cài đặt bộ lọc Website hiện thực hĩa vấn đề nghiên cứu.
3
4. Phƣơng pháp thực hiện
Dùng các cơng cụ, phần mềm đã cĩ trong nƣớc và ngồi nƣớc để thu thập dữ
liệu của các trang tin tức, các trang Web cĩ nội dung khiêu dâm. Dữ liệu cần thu
thập là URL và nội dung của Website.
Để phân lớp URL của một Website cần duyệt thuộc lớp tốt hay xấu thì dựa
vào danh sách ToKenURL. Danh sách ToKenURL là các từ, cụm từ đƣợc huấn
luyện từ các URL thu thập đƣợc.
Để phân lớp nội dung của một Website cần duyệt thuộc lớp cĩ nội dung
Khiêu dâm hay khơng thì dựa vào danh sách ToKen nội dung. Danh sách ToKen
nội dung này đƣợc xây dựng từ việc huấn luyện các tập dữ liệu tốt và tập dữ liệu
xấu thu thập đƣợc, tính tỉ lệ xuất hiện của các ToKen từ trên các tập dữ liệu tốt và
xấu để chọn ra các ToKen từ cĩ trọng số cao rồi so sánh với bộ từ điển dữ liệu để
chọn ra các ToKen từ đặc trƣng dùng để phân lớp nội dung của Website.
Nghiên cứu và áp dụng các thuật tốn tách câu, tách từ trong văn bản tiếng
việt, kết hợp với thuật tốn Nạve Bayes để tính xác suất nội dung văn bản của
Website cần duyệt để phân lớp Website là khiêu dâm hay khơng khiêu dâm.
4
CHƢƠNG 1. TỔNG QUAN VỀ TRÍCH LỌC DỮ LIỆU TRÊN
WEBSITE
1.1. Giới thiệu
Lọc trang WEB là một vấn đề khơng phải là mới. Làm sao để phát hiện đƣợc
các trang WEB cĩ nội dung và hình ảnh khiêu dâm là vấn đề cần thiết. Các gia
đình cĩ sử dụng Internet thì cha mẹ khơng muốn con mình tiếp xúc với các trang
WEB cĩ nội dung và hình ảnh khiêu dâm. Hiện nay, một số quốc gia trên thế giới,
trong đĩ cĩ cả Việt Nam đã và đang nghiên cứu các giải pháp ngăn chặn các trang
WEB khiêu dâm sao cho cĩ hiệu quả, vì thế yêu cầu đặt ra là liên tục phát triển các
phần mềm phát hiện và ngăn chặn các trang WEB khiêu dâm là một biện pháp an
tồn bổ sung. Nhiều trang WEB khiêu dâm khơng chỉ cĩ nội dung khiêu dâm và
hình ảnh khiêu dâm mà cĩn chứa cả phần mềm độc hại, phần mềm quảng cáo, phần
mềm gián điệp và Virus
Nĩi chung các trang WEB và các trang WEB cĩ thể đƣợc phân loại là WEB
khiêu dâm chủ yêu dựa trên các yếu tố nhƣ: hình ảnh khiêu dâm và nội dung khiêu
dâm. Trong phạm vi của đề tài này chỉ giới hạn phát hiện và ngăn chặn các trang
WEB cĩ nội dung khiêu dâm dựa trên URL và TEXT CONTENT của trang WEB.
1.2. Các loại bộ lọc WEB cĩ nội dung khiêu dâm
Lọc chặn nội dung khiêu dâm trên mạng khơng phải là vấn đề đơn giản, nguyên
nhân nằm ở chỗ cĩ hàng tỷ liên kết, và thực chẳng dễ dàng chút nào để biết chắc
chắn đâu là liên kết bẩn trong khối lƣợng thơng tin khổng lồ và lộn xộn nhƣ thế.
Dƣới đây là một vài cách thức thƣờng đƣợc dùng trong các bộ lọc WEB đen, WEB
khiêu dâm.
1.2.1. Bộ lọc WEB dựa vào địa chỉ mạng
Bộ lọc dựa vào danh sách đen (Back List) và danh sách trắng (White List)
Đây là biện pháp mà hầu hết các cơng cụ chặn web đen áp dụng, họ xây
dựng, chia nhĩm và phân loại các trang web để biết chắc chắn nội dung chủ yếu của
một tên miền nào đấy thuộc về danh sách đen hay danh sách trắng (danh sách trắng
là danh sách các website đƣợc phép truy cập, danh sách đen là danh sách những trang
cấm), điều này cĩ thể đƣợc thực hiện bằng máy, hoặc thơng qua cộng đồng Internet
đơng đảo giúp sức. Nĩ tỏ ra khá hiệu quả, ngăn chặn hầu nhƣ 99% các trang web
5
sex phổ biến, tuy nhiên nhƣợc điểm của chƣơng trình là đơi khi bỏ sĩt các trang
web sex cỡ nhỏ, bởi vì các trang nhƣ thế sinh ra rất nhiều mỗi ngày, và khơng cĩ
một phần mềm nào cĩ thể thêm đầy đủ tất cả vào danh sách đen của nĩ đƣợc.
Lọc qua địa chỉ IP
Đây là kỹ thuật ngăn chặn trực tiếp trên đƣờng mạng bằng các địa chỉ IP của
một website. Kỹ thuật này cĩ thể là thiết thực trong bối cảnh các website thƣờng bị
truy cập thơng qua địa chỉ IP hay nĩ cĩ thể truy cập thơng qua IP thay cho tên
DSN. Đa số trƣờng hợp, khơng đƣợc khuyến khích dùng do 3 sự kém cỏi sau:
Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thơng mạng đến những site
cĩ host ảo trên cùng IP ngay cả khi nĩ cĩ nội dung liên quan đến vấn đề cấm hay
khơng.
Ngăn chặn truy cập đến một IP cũng sẽ ngăn chặn lƣu thơng mạng đến mỗi thành
viên của cổng thơng tin nằm trên IP đĩ. Nĩ sẽ ngăn chặn một thành phần của website
khơng phải là một phần hay một tập các trang con.
Đĩ là sự thay đổi thƣờng xuyên của các website bị lọc ngay khi chủ nhân website phát
hiện ra bị lọc. Hành động này dựa trên DNS để cho phép ngƣời dùng vẫn cịn truy cập đến
trang web. Bảng thống kê phía dƣới sẽ so sánh kết quả lọc của một số phần mềm theo dự án
khảo sát website của dự án NetProject.
Bảng 1.1 – Kết quả đánh giá của NetProject
Phần mềm lọc Tỉ lệ khĩa dùng Efectiveness Rate
BizGuard 55% 10%
Cyber Patrol 52% 2%
Cyber Sitter 46% 3%
Cyber Snoop 65% 23%
Norton Internet Secủity 45% 6%
SurfMonkey 65% 11%
X-Stop 65% 4%
Bức tường lửa (Firewall)
Firewall là một kỹ thuật đƣợc tích hợp vào hệ thống mạng để chống sự truy cập
trái phép, nhằm bảo vệ các nguồn thơng tin nội bộ và hạn chế sự xâm nhập khơng
6
mong muốn vào hệ thống. Thơng thƣờng Firewall đƣợc đặt giữa mạng bên trong
(Intranet) của một cơng ty, tổ chức, vai trị chính là bảo mật thơng tin, ngăn chặn sự
truy cập khơng mong muốn từ bên ngồi và cấm truy cập từ bên trong (Intranet) tới
một số địa chỉ nhất định trên Internet.
Ưu điểm: Đa số các các hệ thống firewall đều sử dụng bộ lọc packet. Một trong
những ƣu điểm của phƣơng pháp này là chi phí thấp vì cơ chế lọc packet đã đƣợc
bao gồm trong mỗi phần mềm router.
Hạn chế: việc định nghĩa các chế độ lọc packet là một việc phức tạp, địi hỏi
ngƣời quản trị mạng cần cĩ hiểu biết chi tiết về các dịch vụ Internet, các dạng
Packet header,
1.2.2. Bộ lọc WEB dựa vào URL (Universal Resoure Locator)
Dựa vào từ khĩa của URL
Thơng thƣờng các bộ lọc web nhƣ thế này sẽ cĩ một danh sách các từ khĩa
dành cho ngƣời lớn đƣợc tạo ra sẳn để nhận dạng đƣợc những địa chỉ web bị chặn.
Từ khĩa URL là chuỗi con nằm trong một địa chỉ web, những URL của trang web
cĩ chứa chuỗi con này thƣờng là những trang web cĩ nội dung khiêu dâm.
Các trang web cĩ nội dung khiêu dâm thƣờng dùng từ ngữ khiêu dâm, tình
dục làm tên miền cho website với mục đích gợi nhớ để ngƣời dùng dễ tìm kiếm
bằng các cơng cụ tiềm kiếm. Thực tế cho thấy cĩ trang web nào mà nội dung lành
mạnh lại đặt tên miền cho website nhƣ thế. Vì vậy, những trang web cĩ từ khĩa
URL nhƣ vậy cần chặn trực tiếp ngay từ đầu mà khơng cần phải tìm hiểu nội dung
bên trong.
Ví dụ: các trang web này đều là web cĩ nội dung khiêu dâm
www.sexviet.com
www.sex700.com
www.sexygirls.com
do đều chứa các từ khĩa là "sex" Hoặc các trang web khiêu dâm sau đây
www.freeporns.com
www.asiaporns.com
www.childporn.com
các trang này đều chứa các từ khĩa là "porn"
7
Ưu điểm: Đơn giản nhƣng khá tin cậy.
Hạn chế: Đơi khi cĩ một trang nào đấy chẳng chứa bất kỳ từ khĩa khiêu dâm nào trong
URL nhƣng bản thân trang đĩ lại cĩ nội dung bẩn sẽ đƣợc chƣơng trình bỏ qua hoặc ngƣợc lại
một trang web về giáo dục giới tính lành mạnh cĩ thể chứa từ khĩa sex trong URL sẽ lại bị
chặn.
Dựa vào URL
Đây là kỹ thuật lọc bằng cách quan sát lƣu thơng web (HTTP) bằng cách
theo dõi URL và các host field bên trong các yêu cầu HTTP để nhận ra đích đến
của yêu cầu. Host field đuợc dùng riêng biệt bởi các máy chủ web hosting để nhận
ra tài nguyên nào đƣợc trả về.
Lọc web qua URL thƣờng đƣợc xếp vào loại chủ đề rộng lớn về "Content
Management". Các kỹ thuật lọc qua URL ra đời từ 2 kiểu lọc "pass-by" và "pass-
through".
Lọc theo "pass-by": xử lý trên đƣờng mạng mà khơng cần phải trực tiếp trong
đƣờng nối giữa ngƣời dùng và internet. Yêu cầu ban đầu đƣợc chuyển đến máy chủ
web đầu cuối. Nếu yêu cầu bị cho là khơng thích hợp thì bộ lọc sẽ ngăn chặn
những trang gốc từ bất cứ yêu cầu truy cập nào. Kỹ thuật này cho phép thiết bị lọc
khơng bao gồm bộ định hƣớng yêu cầu. Nếu thiết bị lọc bị hỏng, lƣu thơng mạng
vẫn tiếp tục hoạt động một cách bình thƣờng.
Lọc theo "pass-through": gồm việc sử dụng một thiết bị trên đƣờng của tất cả
yêu cầu của ngƣời dùng. Vì thế lƣu thơng mạng đi qua bộ lọc "pass-through" là
thiết bị lọc thực sự. Thƣờng bộ lọc này nằm trong các kiểu firewall, router,
application switch, proxy server, cache server.
Tùy chọn bộ lọc URL
Điểm đặc biệt của các sản phẩm theo phƣơng pháp này cho phép ngƣời dùng
chỉ định các URL bằng cách thêm hay bớt các URL khỏi "danh sách các site xấu" (Bad
Site List) mặc dù các website nguyên thủy trong danh sách khơng thể bị loại bỏ. Dƣới
đây là danh sách các sản phẩm lọc web phổ biến.
Bảng 1.2 - Một số sản phẩm lọc web theo phƣơng thức URL
Sản phẩm Hãng (Cơng ty)
Smartfilter Secure Computing
8
Web Filter SurfControl
Web Security Symatec
Bt-WebFilter Burst Technology
CyBlock WebFilter Wavecrest Computing
Ưu điểm:
Những Website ảo khơng bị ảnh hƣởng: Kỹ thuật này khơng ảnh hƣởng đến
các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một
website bị chặn và website khơng bị chặn cĩ thể chia sẻ cùng một địa chỉ IP.
Khơng ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự thay đổi IP
của website bị hạn chế sẽ khơng ảnh hƣởng đến phƣơng pháp này. Vì phƣơng pháp
lọc này khơng phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web cĩ thể địi bất
cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc khơng thể truy cập đƣợc.
Những Website ảo khơng bị ảnh hƣởng: Kỹ thuật này khơng ảnh hƣởng đến
các máy chủ web ảo khi chúng cùng dùng một IP nhƣ những website hạn chế. Một
website bị chặn và website khơng bị chặn cĩ thể chia sẻ cùng một địa chỉ IP.
Khơng ảnh hƣởng đối với việc thay đổi IP: Trong phần lớn tình huống, sự
thay đổi IP của website bị hạn chế sẽ khơng ảnh hƣởng đến phƣơng pháp này. Vì
phƣơng pháp lọc này khơng phụ thuộc vào địa chỉ IP. Chủ sở hữu những trang web
cĩ thể địi bất cứ IP nào họ muốn, nhƣng ngƣời dùng đứng sau bộ lọc khơng thể
truy cập đƣợc.
Hạn chế:
Thƣờng khơng thể ngăn chặn các cổng phi tiêu chuẩn:
Những Web server làm việc với cổng tiêu chuẩn rất tốt.
Website trên các cổng phi tiêu chuẩn thì khĩ khăn cho việc ngăn cấm
vì chúng yêu cầu một cấp độ cao hơn trong bộ lọc.
Một giải pháp lọc qua URL cĩ thể là kỹ thuật cĩ khả năng cần thiết
cho những kết nối HTTP trên các cổng phi tiêu chuẩn
Khơng làm việc với các lƣu thơng bị mã hĩa: vì HTTP yêu cầu sử dụng
SSL/TLS bị mã hĩa. Phƣơng pháp lọc theo URL khơng thể đọc các hostfield. Cho
nên, bộ lọc khơng cĩ hiệu quả phát hiện một tài nguyên nào trên một địa chỉ IP mà
yêu cầu thực sự định hƣớng vào.
9
Tĩm lại, các server cần cĩ bộ lọc để thực hiện loại bỏ một số trang web
khơng tốt, nhƣng nĩ cĩ thể làm cho hệ thống chậm lại.
1.2.3. Bộ lọc WEB dựa vào DNS
Những website bị lọc sẽ hồn tồn khơng thể truy cập đƣợc đến tất cả các cấu
hình sử dụng bộ lọc nameserver cho bộ phân giải tên do tất cả các bộ lọc
nameserver sẽ trả về thơng tin bất hợp lệ khi yêu cầu phân giải một hostname của
website bị lọc. Nhƣ vậy khơng thể truy cập đến tài liệu trên của máy chủ chứa
Website. Tuy nhiên, các website khơng bị lọc sẽ cho phép truy cập miễn là chúng nĩ
cĩ một hostname khác từ các website bị lọc. Vì tên của chúng khơng đƣợc hỗ trợ
thơng tin bất hợp lệ bởi bộ lọc nameserver nên dữ liệu đúng sẽ trả về cho bất cứ ngƣời
dùng nào yêu cầu phân giải tên và website hiển nhiên là cĩ thể truy cập vào đƣợc.
Ƣu điểm:
Sử dụng đa nghi thức (multi-protocol): http, ftp, gropher và bất kỳ nghi thức
nào khác dựa trên hệ thống tên.
Khơng bị ảnh hƣởng bởi việc thay đổi IP: Khi thay đổi IP của một website
khơng ảnh hƣởng đến phƣơng pháp lọc này, đây là phƣơng pháp lọc hồn tồn độc
lập với địa chỉ IP.
Hạn chế:
Khơng hiệu quả đối với các URL cĩ chứa địa chỉ IP:
Phần lớn những địa chỉ của một website ở dạng DNS (www.lhu.edu.vn), tuy
nhiên cũng cĩ những địa chỉ đƣợc chỉ định bằng một địa chỉ IP thay vì là
dạng DNS (
Trong trƣờng hợp này nĩ đƣợc truy cập đến bằng địa chỉ IP mà khơng phải
dùng địa crhỉ DNS của nĩ.
Tồn bộ web server bị chặn hồn tồn: Kỹ thuật khơng cho phép việc khĩa cĩ chọn lựa các
trang cịn lại trên một webserver. Vì thế, nếu một trang bị cấm là www.exp.com/bad.htm thì
cĩ thể tất cả các truy cập khơng thể truy xuất đến www.exp.com dù nĩ khơng trong danh
sách bị khĩa.
Ảnh hƣởng đến các subdomain: Xét về kỹ thuật, một tên miền đơn nhƣ example.com trong
URL đƣợc dùng truy cập đến web server. Cùng một thời điểm,
domain name cĩ thể phục vụ nhƣ một domain cấp trên của các cổng khác nhƣ
10
host1.example.com. Trong trƣờng hợp này, những địa chỉ DNS dạng www.example.com
cĩ thể bị phân giải sai. Ngồi ra, nĩ cũng làm cho bộ phân giải tên miền bị sai đối với các
miền con. Và nĩ cịn ảnh hƣởng đến các dịch vụ chạy trên mạng nhƣ e-mai
1.2.4. Bộ lọc WEB dựa vào từ khĩa
Tƣơng tự nhƣ cách tiếp cận dựa vào URL keyword cũng cĩ một danh sách
các từ khĩa để nhận ra những trang web bị chặn. Một trang web cấm sẽ chứa nhiều từ
khĩa khơng hợp lệ, đây là cơ sở để nhận ra trang web bị cấm. Điều quan trọng đối
với phƣơng pháp này là ngữ nghĩa của từ khĩa theo ngữ cảnh, điều này làm cho hệ
thống cĩ những nhầm lẫn khi đƣa ra một quyết định về một trang web cĩ đƣợc thể
hiện hay khơng.
Một website chuyên đề bệnh ung thƣ cĩ thể bị khĩa với lý do bài viết về "bệnh
ung thư vú", ta thấy đƣợc rằng nếu trong bài viết cĩ đề cập quá nhiều đến từ khĩa
nằm trong danh sách từ khĩa chặn là "vú" thì vơ tình hệ thống sẽ nhầm lẫn và khĩa
trang này.
Vấn đề tiếp theo đĩ là các từ cố ý hay vơ ý đánh vần sai, ở một số trang chứa
nội dung xấu thì ngơn từ đƣợc dùng trong trang web của nĩ bị thay đổi để đánh lừa hệ
thống lọc, tuy nhiên khi ngƣời sử dụng đọc thì cĩ thể hiểu ngay đĩ chỉ là sai chính tả
thơi cịn đối với hệ thống lọc...háp từ
đầu chuỗi. Đầu tiên kiểm tra xem C1 cĩ phải là từ hay khơng, sau đĩ kiểm tra xem
C1C2 cĩ phải là từ hay khơng. Tiếp tục thực hiện nhƣ thế cho đến khi tìm đƣợc từ
dài nhất.
Dạng phức tạp: Quy tắc của dạng này là phân đoạn từ. Thơng thƣờng ngƣời
ta chọn phân đoạn ba từ cĩ chiều dài tối đa. Thuật tốn bắt đầu từ dạng đơn giản, cụ
thể là nếu phát hiện ra những cách tách từ gây nhập nhằng, nhƣ ở ví dụ trên, giả sử
C1 là từ và C1C2 cũng là một từ, khi đĩ chúng ta kiểm tra ký tự kế tiếp trong chuỗi
C1, C2 , .. , Cn để tìm tất cả các đoạn ba từ cĩ bắt đầu với C1 hoặc C1C2.
Giả sử chúng ta cĩ đƣợc các đoạn sau:
- C1C2 C3C4
-C1C2 C3C4 C5
-C1C2 C3C4 C5C6
Khi đĩ chuỗi dài nhất sẽ là chuỗi thứ ba. Do đĩ từ đầu tiên của chuỗi thứ ba
(C1C2) sẽ đƣợc chọn. Thực hiện các bƣớc cho đến khi đƣợc chuỗi từ hồnh chỉnh.
Ƣu điểm của phƣơng pháp này thực hiện tách từ đơn giản, nhanh và chỉ cần
dựa vào từ điển để thực hiện. Tuy nhiên, khuyết điểm của phƣơng pháp này cũng
chính là từ điển, vì độ chính xác khi thực hiện tách từ phụ thuộc hồn tồn vào tính
đủ và chính xác của từ điển.
2.2.3.2. Phƣơng pháp Transformation – based Learning – TBL:
Phƣơng pháp TBL (Transformation-Based Learning) cịn gọi là phƣơng pháp
học cải tiến, đƣợc Eric Brill giới thiệu lần đầu vào năm 1992. Ý tƣởng của phƣơng
pháp này áp dụng cho bài tốn phân đoạn nhƣ sau: đầu tiên gọi văn bản chƣa đƣợc
phân đoạn là D1 sẽ khởi tạo các xử lý cho chƣơng trình phân đoạn ban đầu P1.
Chƣơng trình P1 cĩ độ phức tạp tùy chọn, cĩ thể chỉ là chú thích văn bản bằng cấu
26
trúc ngẫu nhiên, hoặc phúc tạp hơn là phân đoạn văn bản một cách thủ cơng. Sau
khi qua chƣơng trình P1, ta đƣợc văn bản D2 đã đƣợc phân đoạn. Văn bản D2 đƣợc
so sánh với văn bản đã đƣợc phân đoạn trƣớc một cách chính xác là D3. Chƣơng
trình P2 sẽ thực hiện học từng phép chuyển đổi (transformation) để khi áp dụng thì
D2 sẽ giống với văn bản chuẩn D3 hơn. Quá trình học đƣợc lặp đi lặp lại đến khi
khơng cịn phép chuyển đổi nào tốt hơn nữa và kết quả sẽ thu đƣợc bộ luật R dùng
cho phân đoạn.
Cĩ thể hiểu cách tiếp cận này dựa trên tập ngữ liệu đã đánh dấu, hệ thống cĩ
thể nhận biết ranh giới giữa các từ để việc tách từ chính xác với phƣơng pháp này sẽ
cho máy học các câu mẫu trong tập ngữ liệu đã đƣợc đánh dấu ranh giới giữa các từ
đúng. Ƣu điểm của phƣơng pháp này là đơn giản vì chỉ cần cho máy học các tập câu
mẫu và sau đĩ máy sẽ tự rút ra qui luật của ngơn ngữ để từ đĩ sẽ áp dụng chính xác
khi cĩ những câu đúng dựa theo luật mà máy đã rút ra. Tuy nhiên nhƣợc điểm là
mất rất nhiều thời gian học và tốn nhiều khơng gian bộ nhớ do nĩ phải sinh ra các
luật trung gian trong quá trình học. Để tách từ đƣợc chính xác trong mọi trƣờng hợp
thì địi hỏi phải cĩ một tập ngữ liệu tiếng Việt đầy đủ và phải qua thời gian huấn
luyện lâu để cĩ thể rút ra các luật đầy đủ.
2.2.3.3. Mơ hình tách từ bằng WFST và mạng Neural
Mơ hình mạng chuyển dịch trạng thái hữu hạn cĩ trọng số WFST– Weighted
Finit State Transducer, áp dụng WFST với trọng số là xác suất xuất hiện của mỗi từ
trong kho ngữ liệu, dùng WFST để duyệt qua các câu cần xét, khi đĩ từ cĩ trọng số
lớn nhất là từ đƣợc chọn để tách. Mơ hình WFST đã đƣợc ứng dụng vào việc phân
đoạn từ cho tiếng Trung Quốc đƣợc tác giả Richard Sproat và các cộng sự trình bày
năm 1996. Năm 2001 tác giả Đinh Điền [12] đã cơng bố cơng trình sử dụng mơ
hình lai WFST kết hợp với mạng Neural để khử nhập nhằng khi tách từ, trong cơng
trình này tác giả đã xây dựng hệ thống tách từ gồm tầng WFST để tách từ và xử lý
các vấn đề liên quan đến một số đặc thù riêng của ngơn ngữ tiếng Việt nhƣ từ láy,
tên riêng, ... và tầng mạng Neural dùng để khử nhập nhằng về ngữ nghĩa sau khi đã
tách từ. Mơ hình WFST căn cứ trên các trọng số này để chọn ra một cách tách từ
thích hợp. Sau khi cĩ đƣợc tất cả trạng thái tách từ cĩ thể cĩ của câu, với mỗi trạng
thái, mơ hình tính tổng trọng số và chọn trạng thái tách từ đúng nhất là câu cĩ tổng
trọng số nhỏ nhất.
27
Chi tiết về 2 tầng này nhƣ sau:
Tầng WFST gồm cĩ 3 bƣớc:
- Bƣớc 1: Xây dựng từ điển trọng số theo mơ hình WFST, thao tác phân đoạn
từ đƣợc xem nhƣ là một sự chuyển dịch trạng thái cĩ xác suất. Chúng ta miêu tả từ
điển D là một đồ thị biến đổi trạng thái hữu hạn cĩ trọng số.
Giả sử: H là tập các từ chính tả tiếng Việt cịn gọi là “tiếng”.
+ P là từ loại của từ.
Mỗi cung của D cĩ thể là:
+ Từ một phần tử của H tới một phần tử của H
+ Các nhãn trong D biểu diễn một chi phí đƣợc ƣớc lƣợng theo cơng thức:
Cost =-log(f/N)
Trong đĩ: f là tần số của từ, N là kích thƣớc tập mẫu.
- Bƣớc 2: Xây dựng các khả năng phân đoạn từ: để giảm sự bùng nổ tổ hợp
khi sinh ra dãy các từ cĩ thể từ một dãy các tiếng trong câu, tác giả đã đề xuất
phƣơng pháp kết hợp dùng thêm từ điển để hạn chế sinh ra các bùng nổ tổ hợp, cụ
thể là nếu phát hiện thấy một cách phân đoạn từ nào đĩ khơng phù hợp khơng cĩ
trong từ điển, khơng cĩ phải là từ láy, khơng phải là danh từ riêng thì tác giả loại
bỏ các nhánh xuất phát từ cách phân đoạn đoạn đĩ.
- Bƣớc 3: Lựa chọn khả năng phân đoạn từ tối ƣu: Sau khi cĩ đƣợc danh sách
các cách phân đoạn từ cĩ thể cĩ của câu, tác giả đã chọn trƣờng hợp phân đoạn từ
cĩ trọng số bé nhất.
Tầng mạng Neural: Mơ hình đƣợc sử dụng để khử nhập nhằng khi tách từ bằng
cách kết hợp so sánh với từ điển, đƣợc tác giả đề xuất dùng dùng để luợng giá 3 dãy
từ loại: NNV, NVN, VNN (N: Noun, V:Verb). Mơ hình này đƣợc học bằng chính
các câu mà cách phân đoạn từ vẫn cịn nhập nhằng sau khi qua mơ hình thứ nhất.
Theo nhƣ cơng bố trong cơng trình của tác giả Đinh Điền, mơ hình này đạt
đƣợc độ chính xác trên 97% qua việc sử dụng thêm mạng Neural kết hợp với từ
điển để khử các nhập nhằng cĩ thể cĩ khi tách từ và tƣơng tự nhƣ phƣơng pháp
TBL mơ hình này cần tập ngữ liệu học đầy đủ.
Ƣu điểm của phƣơng pháp: sẽ cho độ chính xác cao nếu xây dựng đƣợc một
dữ liệu học đầy đủ và chính xác. Nhƣợc điểm chính của thuật tốn: việc đánh trọng
28
số dựa trên tần số xuất hiện của từ khi tiến hành phân đoạn, khơng tránh khỏi các
nhập nhằng trong tiếng Việt nếu gặp những văn bản quá dài.
2.2.3.4. Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và
thuật giải di truyền
Phƣơng pháp tách tách từ tiếng Việt dựa trên thống kê từ Internet và thuật
giải di truyền – IGATEC (Internet and Genetics Algorithm based Text
Categorization for Documents in Vietnamese) do H. Nguyễn [13] đề xuất năm 2005
nhƣ một hƣớng tiếp cận mới trong tách từ với mục đích phân loại văn bản mà khơng
cần dùng đến một từ điển hay tập ngữ liệu học nào.Trong hƣớng tiếp cận này, tác
giả kết hợp giữa thuật tốn di truyền với dữ liệu thống kê đƣợc lấy từ Internet.
Trong tiếp cận của mình, tác giả đã mơ tả hệ thống tách từ gồm các thành
phần
2.2.3.4.1. Online Extractor:
Thành phần này cĩ tác dụng lấy thơng tin về tần số xuất hiện của các từ trong
văn bản bằng cách sử dụng một search engine nổi tiếng nhƣ Google hay Yahoo
chẳng hạn. Sau đĩ, tác giả sử dụng các cơng thức dƣới đây để tính tốn mức độ phụ
thuộc lẫn nhau (mutual information) để làm cơ sở tính fitness cho GA engine.
- Tính xác suất các từ xuất hiện trên Internet:
MAX
)w2&w1count()w2&w1p(
MAX
count(w)
wp
Trong đĩ MAX = 4 * 109
count(w) số lƣợng văn bản trên Internet đƣợc tìm thấy cĩ chứa từ w hoặc
cùng chứa w1 và w2 đối với count(w1&w2).
- Tính xác suất độ phụ thuộc của một từ lên một từ khác:
w1p
)w2&w1p()w2|w1p(
Thơng tin phụ thuộc lẫn nhau (mutual information) của các từ ghép đƣợc cấu
tạo bởi n tiếng (cw = w1w2wn)
n
1j
)wn&.....&w2&w1p(w jp
)wn&.....&w2&w1p(MI(cw)
29
2.2.3.4.2. GA Engine for Text Segmentation:
Mỗi cá thể trong quan thể đƣợc biểu diễn bởi chuỗi các bit 0, 1, trong đĩ,
mỗi bit đại diện cho một tiếng trong văn bản, mỗi nhĩm bit cùng loại đại diện cho
cho một segment. Các cá thể trong quần thể đƣợc khởi tạo ngẫu nhiên, trong đĩ mỗi
segment đƣợc giới hạn trong khoảng 5 GA Engine sau đĩ thực hiện các bƣớc đột
biến và lai ghép nhằm mục đích làm tăng giá trị fitness của các cá thể để đạt đƣợc
cách tách từ tốt nhất cĩ thể.
KẾT LUẬN:
Xem xét tổng quan một số phƣơng pháp tiếp cận trong tách từ văn bản tiếng
Việt và dựa trên các nghiên cứu đã đƣợc cơng bố thì phƣơng pháp tách từ dựa trên
từ mang lại kết quả cĩ độ chính xác khá cao. Điều này cĩ đƣợc nhờ vào tập huấn
luyện lớn và các thơng tin đƣợc đánh dấu trong tập dữ liệu giúp cho việc học để rút
ra các luật tách từ cho các văn bản khác đƣợc chính xác, tuy nhiên cũng dễ nhận
thấy kết quả của phƣơng pháp này hồn tồn phụ thuộc vào tập dữ liệu huấn luyện.
Hƣớng tiếp cận dựa trên ký tự cĩ ƣu điểm là dễ thực hiện, thời gian thực hiện
tƣơng đối nhanh, nhƣng lại cho kết qủa khơng chính xác bằng hƣớng tiếp cận dựa
trên từ. Hƣớng tiếp cận này nĩi chung phù hợp cho các ứng dụng khơng cần độ
chính xác tuyệt đối trong tách từ văn bản nhƣ ứng dụng lọc spam mail, firewall,
Nhìn chung với hƣớng tiếp cận này nếu chúng ta cĩ thể cải tiến để nâng cao độ
chính xác trong tách từ thì hƣớng tiếp cận này là hồn tồn khả thi và cĩ khả năng
thay thế hƣớng tiếp cận tách từ dựa trên từ vì khơng phải xây dựng kho ngữ liệu,
một cơng việc địi hỏi nhiều cơng sức, thời gian và sự hỗ trợ của nhiều chuyên gia
trong các lĩnh vực khác nhau.
2.2.4. Thuật tốn KEA
Turney (2000) đƣợc xem là ngƣời đầu tiên giải quyết bài tốn rút trích các
keyphrase dựa trên phƣơng pháp học giám sát [17][18], trong khi các nghiên cứu
khác dùng heuristic, kỹ thuật phân tích n-gram, phƣơng pháp nhƣ mạng Neural
[13][14][15]. KEA [19] là một thuật tốn trích xuất các cụm từ khĩa (keyphrases) từ
dữ liệu văn bản. KEA xác định danh sách các cụm ứng viên dùng các phƣơng pháp
từ vựng học, sau đĩ tiến hành tính tốn giá trị đặc trƣng cho mỗi ứng viên, tiếp đến
dùng thuật tốn học máy để tiên đốn xem các cụm ứng viên nào là các cụm từ
khĩa. Hiện nay KEA đƣợc xem là một thuật tốn đơn giản và hiệu quả nhất để rút
30
các keyphrases [13]. KEA dùng phƣơng pháp học máy Nạve Bayes để huấn luyện
và rút trích các keyphrases.
Theo nhận định của các tác giả, KEA là thuật tốn cĩ khả năng độc lập ngơn
ngữ. Thuật tốn KEA cĩ thể đƣợc tĩm tắt thơng qua các bƣớc sau:
Bƣớc 1: Rút trích cụm ứng viên: KEA rút các cụm ứng viên n-gram (chiều dài 1
đến 3 từ) mà khơng bắt đầu hay kết thúc bằng các “stop word”. Trong trƣờng hợp
bài tốn gán cụm từ khĩa (keyphrase assignment) dùng từ điển định nghĩa trƣớc
(controlled indexing), KEA chỉ chọn ra các cụm ứng viên mà khớp với các thuật
ngữ đã định nghĩa trong từ điển. Với các cụm n-gram thu đƣợc KEA tiến hành loại
bỏ ra khỏi cụm ứng viên các “stop word” và chuyển về dạng gốc của từ (stemming)
cho cụm ứng viên.
Hình 2.3 - Sơ đồ thuật tốn KEA (tham khảo:
Bƣớc 2: Tính tốn đặc trƣng: mỗi cụm ứng viên, KEA tính 4 giá trị đặc trƣng sau:
TF×IDF: thể hiện mức độ quan trọng của một cụm ứng viên trong tài liệu
đang xét so với các tài liệu khác trong tập dữ liệu. Một cụm ứng viên cĩ
TF×IDF càng cao thì càng cĩ khả năng trở thành cụm từ khĩa.
Kho
Tài liệu
Từ điển
lĩnh vực Rút trích ứng viên
Cụm ứng
viên
Huấn
luyện?
Tính đặc trƣng
Tính xác suất
Cụm từ
khĩa
Xây dựng mơ hình
dùng Nạve Bayes Mơ hình
Cĩ
Khơng
Cụm từ khĩa
đƣợc gán nhãn
trƣớc
31
Vị trí xuất hiện đầu tiên: theo quan niệm tác giả các cụm ứng viên mà cĩ vị
trí xuất hiện gần đầu hay cuối tài liệu thì càng cĩ khả năng trở thành cụm từ
khĩa.
Chiều dài cụm: số lƣợng từ trong cụm. Theo tác giả các cụm cĩ chiều dài là
2 thƣờng đƣợc quan tâm.
Độ tƣơng quan: là số lƣợng các cụm trong danh sách các cụm ứng viên cĩ
liên quan ngữ nghĩa với cụm đang xét. Độ tƣơng quan đƣợc tính nhờ vào từ
điển định nghĩa trƣớc. Một cụm ứng viên cĩ độ tƣơng quan cao thì càng cĩ
khả năng trở thành cụm từ khĩa.
Bƣớc 3: Huấn luyện và xây dựng mơ hình: dùng tập tài liệu huấn luyện mà các
cụm từ khĩa đã đƣợc gán bởi tác giả để xây dựng mơ hình. Với danh sách các cụm
ứng viên đã xác định dùng các kỹ thuật n-gram, loại bỏ “stop word” và chuyển về
gốc từ (stemming) ở trên. KEA sẽ đánh dấu những cụm nào là “cụm +” (là cụm từ
khĩa) và những cụm nào là “cụm -“ (khơng là cụm từ khĩa). Mơ hình sẽ đƣợc xây
dựng bằng cách tiến hành phân tích, tính tốn giá trị cho các đặc trƣng cụm (nhƣ mơ
tả phía trên) cho các “cụm +” và “cụm -”. Mơ hình xây dựng sẽ phản ánh phân bố
của các giá trị đặc trƣng cho mỗi cụm từ.
Bƣớc 4: Rút trích cụm từ khĩa: KEA sẽ dùng mơ hình đã xây dựng bƣớc 3 và
tính tốn giá trị đặc trƣng cho các cụm ứng viên. Sau đĩ tính xác suất để cụm ứng
viên là cụm từ khĩa. Các cụm ứng viên với xác suất xếp hạng cao nhất đƣợc chọn
đƣa vào danh sách các cụm từ khĩa. Ngƣời dùng cĩ thể chỉ định số lƣợng các cụm
từ khĩa cho một tài liệu.
2.2.4.1. Chọn cụm ứng viên (candidate phrases)
Việc chọn cụm ứng viên đƣợc tiến hành thơng qua 3 bƣớc nhỏ sau:
Tiền xử lý (Input Cleaning): các files dữ liệu đầu vào đƣợc “dọn dẹp” và chuẩn
hĩa và xác định biên giới ban đầu của các cụm. Chuỗi đầu vào sẽ đƣợc chặt thành
các tokens
Các dấu chấm câu, ngoặc đơn và những con số đƣợc thay thế bởi các
đƣờng biên của các cụm (phrase boundaries).
Xĩa các dấu nháy đơn
Tách những từ cĩ dấu ở giữa thành hai
32
Xĩa những ký tự cịn lại khơng phải là token. (vì khơng cĩ token nào
mà khơng chứa các ký tự).
Kết quả
Tập hợp các lines
Mỗi line là một dãy các token (mỗi token chứa ít nhất 1 ký tự)
Những từ viết tắt chứa các dấu ngăn cách phải đƣợc giữ lại là token
(nhƣ C4.5 chẳng hạn)
Xác định cụm (phrase): KEA xem xét tất cả các dãy con (subsequences) trong mỗi
dịng và xác định dãy con nào thích hợp là một cụm ứng viên. Một số phƣơng pháp
khác cố gắng xác định các noun phrase, tuy nhiên KEA dùng các luật để xác định
các phrase nhƣ sau:
Chiều dài tối đa: phrase ứng viên thƣờng tối đa là 3 từ
Phrase ứng viên khơng thể là tên riêng
Phrase ứng viên khơng đƣợc phép bắt đầu và kết thúc với 1 stopword.
Tất cả các dãy từ liền nhau trong mỗi dịng sẽ đƣợc kiểm tra dùng 3
luật trên. Kết quả là một tập các cụm ứng viên.
Ví dụ: Bảng 2.1 - Xác định cụm ứng viên
Dịng Cụm ứng viên
the programming by demonstration
method
programming
demonstration
method
programming by demonstration
demonstration method
programming by demonstration
method
Xác định gốc từ (stemming): bƣớc sau cùng trong việc xác định các cụm ứng viên
là xác định gốc từ (stemming) dùng thuật tốn Lovins (1968) để bỏ đi các hậu tố.
Việc làm này giúp hệ thống cĩ thể xem nhiều biến thể khác nhau của cụm (phrase)
nhƣ là một. (chẳng hạn cut elimination sẽ trở thành cut elim). Và hệ thống cũng
dùng stemming để so sánh những cụm từ khĩa kết quả của KEA với các cụm từ
khĩa do tác giả định nghĩa.
33
2.2.4.2. Tính tốn đặc trƣng (Feature calculation)
Tính tốn các đặc trƣng cho mỗi cụm ứng viên và chúng sẽ đƣợc dùng trong
huấn luyện và rút trích. Hai đặc trƣng đƣợc dùng đĩ là: tần số tf*idf, vị trí xuất hiện
đầu tiên của cụm.
Tần số TF*IDF (t): đặc trƣng này thể hiện tần suất xuất hiện của một cụm trong
một tài liệu so với tần suất của cụm trong cả kho dữ liệu. Số lƣợng tài liệu chứa một
cụm càng ít thì khả năng cụm đĩ là cụm từ khĩa (keyphrase) cho tài liệu đang xét
càng cao. Thuật tốn KEA đã tạo một tập tin để lƣu trử giá trị tần xuất của đặc trƣng
này.
( )
( )
( )
Freq(P, D) là sồ lần cụm P xuất hiện trong tài liệu D
Size(D) là số lƣợng từ của tài liệu D
df(P) là số lƣợng tài liệu chứa cụm P trong kho dữ liệu.
N: kích thƣớc của kho dữ liệu
Vị trí xuất hiện đầu tiên (d: disttance): đây là đặc trƣng thứ 2, là số lƣợng từ phía
trƣớc vị trí xuất hiện đầu tiên của cụm từ chia cho kích thƣớc của tài liệu (tổng số
từ). Giá trị của đặc trƣng này thuộc khoảng [0, 1].
2.2.4.3 Huấn luyện
Bƣớc huấn luyện dùng một tập tài liệu huấn luyện trong đĩ các cụm từ khĩa đã
đƣợc tác giả xác định trƣớc. Đối với mỗi tài liệu trong tập huấn luyện, những cụm
ứng viên sẽ đƣợc xác định và các giá trị đặc trƣng của từng cụm ứng viên sẽ đƣợc
tính tốn. Để giảm kích thƣớc của tập huấn luyện, tác giả bỏ qua các cụm mà chỉ
xuất hiện một lần trong tài liệu. Mỗi cụm ứng viên sẽ đƣợc gán nhãn là cụm từ khĩa
hay khơng là cụm từ khĩa dựa vào những cụm từ khĩa do tác giả chỉ định. Quá trình
huấn luyện sẽ sinh ra một một mơ hình và mơ hình này đƣợc dùng để tiên đốn
phân lớp cho các mẫu dữ liệu mới dùng các giá trị của hai đặc trƣng. Nhĩm tác giả
đã thử nghiệm với một số phƣơng pháp học máy khác nhau và quyết định chọn kỹ
thuật Nạve Bayes cho thuật tốn KEA, vì theo tác giả phƣơng pháp học dựa trên
xác suất Nạve Bayes đơn giản nhƣng cho kết quả khá tốt.
34
2.2.4.4 Rút trích những cụm từ khĩa
Để rút trích các cụm từ khĩa từ một tài liệu mới, KEA xác định các cụm ứng
viên và các giá trị đặc trƣng, sau đĩ áp dụng mơ hình đã xây dựng trong quá trình
huấn luyện. Mơ hình xác định xác suất mà mỗi ứng viên là một cụm từ khĩa. Sau
đĩ KEA sẽ thực hiên thao tác hậu xử lý để chọn ra tập hợp những cụm từ khĩa tốt
nhất cĩ thể.
Khi mơ hình Nạve Bayes đƣợc áp dụng cho các cụm ứng viên với các giá trị đặc
trƣng t(TF*IDF) và d (distance), hai lƣợng sau đƣợc tính tốn đĩ là
[ ]
[ ] [ ] (1)
[ ]
[ ] [ ]
Y: số lƣợng các cụm là cụm từ khĩa (do tác giả chỉ định)
N: số lƣợng các cụm ứng viên khơng phải là cụm từ khĩa.
Xác suất tổng thể mà cụm ứng viên là cụm từ khĩa đƣợc tính nhƣ sau:
[ ]
[ ] [ ]
(2)
Sau khi tính tốn giá trị xác suất p. Các ứng viên đƣợc sắp theo thứ tự (tăng hay
giảm dần) của giá trị p này. Tiếp sau đĩ sẽ là 2 bƣớc hậu xử lý. Thứ nhất, TF*IDF
sẽ là giá trị quyết định trong trƣờng hợp 2 cụm ứng viên cĩ cùng xác suất p. Thứ
hai, tác giả quyết định loại bỏ ra khỏi danh sách các cụm mà là “cụm con” của một
cụm cĩ xác suất cao hơn. Từ danh sách cịn lại, thuật tốn sẽ chọn ra r cụm cĩ xác
suất cao nhất (với r là số lƣợng các cụm từ khĩa cần xác định theo yêu cầu).
2.2.5 Thuật tốn KIP
2.2.5.1 Ý tƣởng
Một cụm danh từ chứa những từ khĩa hay cụm từ khĩa về một lĩnh vực cụ thể sẽ
cĩ khả năng trở thành cụm từ khĩa trong lĩnh vực đĩ. Một cụm danh từ càng chứa
nhiều từ khĩa hay cụm từ khĩa thì cụm danh từ này càng cĩ nhiều khả năng trở
thành cụm từ khĩa. Hệ thống xây dựng sẵn một cơ sở dữ liệu từ vựng lƣu giữ các từ
khĩa, cụm từ khĩa về một lĩnh vực cụ thể. Và các từ khĩa trong từ điển định nghĩa
trƣớc đĩ sẽ dùng để tính tốn điểm hay trọng số cho một cụm danh từ. Từ đĩ quyết
định cụm ứng viên nào là cụm từ khĩa dựa trên trọng số, điểm số đã tính đƣợc cao
hơn.
2.2.5.2 Mơ tả thuật tốn
35
KIP đơn giản gồm các bƣớc nhƣ: rút trích các cụm danh từ (noun phrase)
ứng viên từ tài liệu đầu vào. Sau đĩ kiểm tra cấu thành của cụm ứng viên và tính
điểm cho nĩ. Từ đĩ quyết định cụm ứng viên nào là cụm từ khĩa dựa trên trọng số,
điểm số đã tính đƣợc cao hơn.
Điểm của một cụm danh từ đƣợc tính dựa vào các yếu tố:
Tần xuất xuất hiện trong tài liệu
Cấu thành của cụm danh từ (chứa từ hay cụm con nào)
Những từ và cụm từ cấu thành cụm danh từ liên quan nhƣ thế nào đến lĩnh
vực của tài liệu
KIP bao gồm các thành phần chính: gán nhãn từ loại (POS tagger), rút trích
cụm danh từ (Noun phrase extractor), cơng cụ rút trích cụm từ khĩa.
Gán nhãn từ loại (POS tagger): KIP đã dùng phƣơng pháp gán nhãn từ loại
dùng phổ biến của Brill [20].
Rút trích cụm danh từ: bộ rút trích cụm danh từ dựa vào các nhãn từ loại đã
gán trong bƣớc trƣớc và rút ra các cụm danh từ dựa vào mẫu {[A]} {N}
(A adjective; N noun; {} lặp lại nhiều lần; [] cĩ thể cĩ hoặc khơng)
Rút trích cụm từ khĩa: để tính trọng số cho các cụm danh từ, thuật tốn xây
dựng một từ điển từ vựng chứa các từ khĩa, cụm từ khĩa với các giá trị khởi
tạo về một lĩnh vực cụ thể. Từ điển bao gồm 2 danh sách: một danh sách các
cụm từ khĩa (chứa 1 hay nhiều từ), một danh sách các từ khĩa (chứa 1 từ
đơn đƣợc phân tích từ danh sách thứ 1, cụm từ khĩa).
Trọng của một cụm danh từ: WNP
= F x S
F: tần số xuất hiện của cụm danh từ trong tài liệu.
S: tổng trọng số của những từ đơn và các kết hợp cĩ thể trong cụm ứng viên.
∑
+ ∑
j
Wi: trọng số của một từ trong cụm danh từ này
Pj: trọng số của của cụm con trong cụm danh từ.
Mục tiêu của việc tính tốn trọng số của tất cả những từ đơn và những
cụm con là nhằm xác định xem một “cụm con” cĩ phải là một cụm từ khĩa
đã đƣợc định nghĩa sẵn trong từ điển hay khơng. Nếu nĩ tồn tại trong từ điển
thì cụm danh từ đang xét càng quan trọng hơn. KIP sẽ truy vấn danh sách các
36
từ khĩa và cụm từ khĩa từ từ điển lĩnh vực để cĩ đƣợc trọng số cho các từ
đơn (Wi) và “cụm con” (Pj).
2.2.6. Nhận diện thực thể cĩ tên
2.2.6.1 Khái niệm
Nhận diện thực thể cĩ tên (NER-Named Entity Recognition)5 là một cơng việc
thuộc lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành
tố trong văn bản khơng cấu trúc thuộc vào các nhĩm thực thể đƣợc xác định trƣớc
nhƣ tên ngƣời, tổ chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần
trăm, v.v. Thực thể cĩ tên (Named Entity) cĩ rất nhiều ứng dụng, đặc biệt trong các
lĩnh vực nhƣ hiểu văn bản, dịch máy, truy vấn thơng tin, và hỏi đáp tự động.
2.2.6.2 Phƣơng pháp tiếp cận và các hệ thống phổ biến
Hiện nay, hầu hết các hệ thống nhận diện thực thể cĩ tên áp dụng các kỹ
thuật khai thác dữ liệu văn bản, xử lý ngơn ngữ tự nhiên và tiếp cận theo các hƣớng
chính sau:
Kỹ thuật dựa trên văn phạm ngơn ngữ: qui tắc, luật văn phạm đƣợc xây dựng
bằng tay nhờ ý kiến chuyên gia ngơn ngữ, và tốn nhiều thời gian cho việc
xây dựng qui tắc văn phạm. Qui tắc văn phạm sẽ phải thay đổi khi cĩ sự thay
đổi vễ lĩnh vực ứng dụng hay ngơn ngữ.
Các mơ hình học thống kê: ít phụ thuộc ngơn ngữ, và cũng khơng phụ thuộc
vào chuyên gia lĩnh vực nhƣng cần chuẩn bị tập dữ liệu huấn luyện thật tốt
vả đủ lớn để cĩ thể xây dựng đƣợc một bộ phân lớp tối ƣu.
Kết hợp máy học và các kỹ thuật xử lý ngơn ngữ tự nhiên.
Hệ thống nhận diện thực thể cĩ tên phổ biến: cĩ thể kể đến các hệ thống phổ
biến hiện nay nhƣ:
Hệ thống Standford NER6: xây dựng bộ phân lớp CRFClassifier dựa trên mơ
hình thuộc tính ngẫu nhiên cĩ điều kiện (CRF-Condictional Random Field)
Hệ thống GATE-ANNIE 7: là một hệ thống con của GATE Framework
(General Architecture of Text Engineering) một trong các dự án lớn nhất
thuộc khoa Khoa học Máy tính, Đại học Sheffield của Anh. Đây là hệ thống
dựa trên các từ điển, Ontology và việc xây dựng luật để đánh dấu
5
6
7
37
(annotation) các thành tố trong văn bản. Việc xác định các thực thể cĩ tên
trong văn bản thực hiện trong quá trình đánh dấu văn bản.
2.3. Phân tích URL
URL, viết tắt của Uniform Resource Locator (Định vị Tài nguyên thống
nhất), đƣợc dùng để tham chiếu tới tài nguyên trên Internet. URL mang lại khả năng
siêu liên kết cho các trang mạng. Các tài nguyên khác nhau đƣợc tham chiếu tới
bằng địa chỉ, chính là URL, cịn đƣợc gọi là địa chỉ web hay là liên kết mạng (hay
ngắn gọn là liên kết).
Về kỹ thuật, URL là một dạng của URI, nhƣng trong nhiều tài liệu kỹ thuật
và các cuộc thảo luận bằng lời nĩi, URL thƣờng đƣợc sử dụng nhƣ một từ đồng
nghĩa với URI, và điều này khơng bị coi là một vấn đề.
Một URL gồm cĩ nhiều phần đƣợc liệt kê dƣới đây:
URL scheme thƣờng là Tên giao thức (ví dụ: http, ftp) nhƣng cũng cĩ thể là
một cái tên khác (ví du: news, mailto). Muốn hiểu rõ về URL scheme xin
xem URI scheme
Tên miền (ví dụ:
Chỉ định thêm cổng (cĩ thể khơng cần)
Đƣờng dẫn tuyệt đối trên máy phục vụ của tài nguyên (ví dụ: thumuc/trang)
Các truy vấn (cĩ thể khơng cần)
Chỉ định mục con (cĩ thể khơng cần)
Cụ thể hơn:
\__/ \______________/\_/\___________/ \____________/ \_____/
| | | | | |
URL scheme tên miền | đường dẫn truy vấn mục con
cổng
Hiện nay trên thế giới mỗi ngày cĩ rất nhiều tên miền (domain) mới xuất
hiện.
Để cĩ thể tìm đến một đƣờng dẫn internet để chỉ mục nội dung cần thiết phục
vụ cho ngƣời sử dụng internet, chúng ta cĩ thể sử dụng các cơng cụ trên mạng
internet. Hiện nay các cơng cụ tìm kiếm trên mạng Internet ngày càng phổ biến và
đƣợc sử dụng rộng rãi. Hoặc chúng ta cĩ thể sử dụng việc tìm kiếm đến URL thích
hợp thơng qua danh bạ các website hay là các cơng cụ tìm kiếm.
38
CHƢƠNG 3. GIẢI PHÁP LỌC WEBSITE KHIÊU DÂM DỰA
TRÊN URL VÀ TEXT CONTENT
3.1. Phân tích mơ hình hệ thống
Bài tốn lọc website thực chất là một bài tốn Phân loại văn bản, là một vấn đề
cấp thiết cho sự bùng nổ thơng tin hiện nay. Vấn đề cần làm của bài tốn là gán
nhãn cho các tài liệu văn bản vào các chủ đề cho trƣớc. Cĩ rất nhiều ứng dụng thực
tế, điển hình nhƣ một ngƣời phân tích chính trị cần tổng hợp rất nhiều tài liệu về
chính trị để đọc nghiên cứu, tuy nhiên anh ta khơng thể lên mạng đọc tất cả các bài
báo bài viết rồi phân loại chúng đâu là tài liệu chính trị, sau đĩ mới đọc kỹ chúng
cho mục đích của mình. Việc này khơng thể bởi vì số lƣợng bài báo, bài viết hiện
nay rất nhiều. Đặc biệt là trên internet, việc đọc tất cả tài liệu gần nhƣ khơng thể và
tốn rất nhiều thời gian .
Trong khuơn khổ luận văn này, chi tiết các bƣớc thực hiện bài tốn “ Phân loại
văn bản” dùng thuật tốn Nạve Bayes và một số cách tiếp cận cải tiến để giải
quyết bài tốn cho việc phân loại nội dung khiêu dâm là mục tiêu chính.
Trong luận văn khái niệm nội dung khơng lành mạnh là các nội dung theo văn
hĩa Việt Nam là đồi trụy nhƣ là các nội dung chứa các thơng tin về sex, và nĩ đặc
biệt cĩ hại cho lứa tuổi chƣa đến vị thành niên (ở Việt Nam là dƣới 18 tuổi). Những
nội dung khiêu dâm hoặc truyện gợi dục bằng tiếng Việt hiện nay rất nhiều. Việc
phân loại các nội dung này để ngăn chặn khơng cho trẻ chƣa đủ tuổi vị thành niên là
một thách thức lớn cho gia đình và xã hội.
Bài tốn phân loại website cĩ nội dung khiêu dâm cĩ thể đƣợc phát biểu nhƣ
sau: cho trƣớc tập các trang web cĩ nội dung D={d1,d2..dn} và đƣợc gán trƣớc
thuộc một trong 2 lớp C={C1=Bad, C2=Good}; tập các URL_Bad chứa nội dung
khơng lành mạnh và tập các URL_Good chứa nội dung lành mạnh.
Nhiệm vụ của bài tốn là gán lớp Di thuộc về Cj đã đƣợc định nghĩa cụ thể
trong đồ án này là là gán lớp Di thuộc về 2 tập đƣợc định nghĩa là Ctốt (nội dung
lành mạnh) và Cxấu (nội dung khiêu dâm)
Cụ thể mục tiêu bài tốn là đi tìm hàm f:
f : (URL,D) C
39
f(URL, D) = {Bad, Good}.
Mơ hình hệ thống lọc website cĩ nội dung khiêu dâm trong luận văn nhƣ trên
hình vẽ 3.1. Trong đĩ chia làm 2 giai đoạn riêng gồm huấn luyện và nhận dạng
nhƣng cĩ cùng 2 bƣớc là tiền xử lý và trích trọng đặc trƣng. Các đặc trƣng ở đây là
các từ đƣợc tách ra dựa vào bộ từ điển sẽ đề cập đến sau. Hệ thống sẽ gồm 2
Module chính là xử lý URL và xử lý dựa vào nội dung của trang web.
40
3.2. Module xử lý dựa vào URL
Module này đơn giản dựa vào số lƣợng các từ khĩa rút trích ra đƣợc từ bộ dữ
liệu URL danh sách đen và danh sách trắng để tìm ra tập các từ khĩa đặc trƣng cho
tên các trang web nhƣ sex, girl, xxl, xx, porn,Giai đoạn huấn luyện là thống kê
xem trong các danh sách đen và trắng thì các từ khĩa này xuất hiện bao nhiêu lần để
từ đĩ cĩ thể tính xác suất của một trang web bất kỳ sẽ cĩ khả năng lớn là web khiêu
dâm hay khơng.
Dữ liệu huấn luyện: là kho dữ liệu tập các URL danh sách đen (địa chỉ các
Website cĩ nội dung khiêu dâm) và tập các URL danh sách trắng (địa chỉ các
Website cĩ nội dung lành mạnh) đƣợc thu thập từ các trang web sex, giáo
dục giới tính, trang báo mạng
Tiền xử lý : chuyển đổi kho dữ liệu thành một hình thức phù hợp để phân
loại.
Trích lọc đặc trƣng: Tiến hành loại bỏ các thành phần (http://, WWW, dấu
“/”, dấu “-“, .com/vn/gov/info/net) để lọc lấy những từ đơn và từ ghép gọi
chung là các Token, mang ý nghĩa bao quát của URL đang trích lọc.
Áp dụng thuật tốn Bayes : Áp dụng cơng thức bayes để tính các xác suất
tiên nghiệm của 2 lớp Bad và Good, cũng nhƣ các giá trị xác suất của từng
Token thuộc từng lớp tƣơng ứng để sử dụng nhận dạng hay phân loại URL
sau này.
CSDL Token URL: là các từ đơn, từ ghép đã qua huấn luyện và chọn lọc.
3.3. Module lọc theo nội dung
Đây là Module chính của luận văn. Dựa vào dữ liệu các trang web thu đƣợc
thuộc cả 2 lớp Bad và Good để huấn luyện tìm ra các từ (gồm từ đơn và từ ghép từ
2 tiếng gọi là Token) cùng tần số xuất hiện tƣơng ứng của các từ này trong 2 lớp để
Dữ liệu huấn
luyện
Tiền xử lý Trích lọc
đặc trƣng
Áp dụng thuật tốn
Bayes huấn luyện
CSDL Token URL
Hình 3.2 – Quy trình huấn luyện lấy Token URL
41
khi gặp một trang web bất kỳ sẽ tình xác suất của trang này thuộc lớp nào nhiều hơn
thì phân vào lớp đĩ. Nếu thuộc lớp Bad thì cần ngăn chặn khơng cho trang web này
hiển thị, ngƣợc lại thì cho hiển thị bình thƣờng. Các giai đoạn của Modue này thực
hiện theo các thứ tự trình bày tiếp theo sau.
3.3.1. Giai đoạn huấn luyện
Mục đích chính của giai đoạn này là dựa vào bộ dữ liệu thu thập cĩ sẵn thuộc
2 lớp Bad và Good để tìm ra các từ khĩa (Token) đại diện cho các dữ liệu.
Trong đĩ:
Dữ liệu huấn luyện: là kho dữ liệu text cĩ nội dung khiêu dâm và lành mạnh
đƣợc thu thập từ các trang web sex, giáo dục giới tính, trang báo mạng
Tiền xử lý : chuyển đổi kho dữ liệu thành một hình thức phù hợp để phân
loại.
Trích lọc đặc trƣng: Tiến hành lọc lấy những từ đơn và từ ghép gọi chung
là các Token, mang ý nghĩa bao quát tồn văn bản.
Áp dụng thuật tốn Bayes : Áp dụng cơng thức bayes để tính các xác suất
tiên nghiệm của 2 lớp Bad và Good, cũng nhƣ các giá trị xác suất của từng
Token thuộc từng lớp tƣơng ứng để sử dụng nhận dạng hay phân loại sau
này.
CSDL Token nội dung: là các từ đơn, từ ghép đã qua huấn luyện và chọn
lọc.
3.3.1.1. Tiền xử lý văn bản
Văn bản
Các file đính kèm theo tài liệu này:
- luan_van_xay_dung_bo_loc_phat_hien_cac_website_co_noi_dung_k.pdf