ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
LÂM TĂNG DOAN
NGHIÊN CỨU CÁC PHƯƠNG PHÁP LỌC THƯ RÁC
TẠI VIỆT NAM VÀ TRÊN THẾ GIỚI, XÂY DỰNG VÀ
ĐỀ XUẤT PHƯƠNG ÁN LỌC THƯ RÁC TIẾNG VIỆT
Ngành: Công nghệ Thông tin
Chuyên ngành: Quản lý hệ thống thông tin
Mã Số: 8480205.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Nguyễn Hà Nam
Hà nội – 11/2020
i
Mục lục
LỜI CẢM ƠN ...............................................................................
73 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 604 | Lượt tải: 2
Tóm tắt tài liệu Luận văn Nghiên cứu các phương pháp lọc thư rác tại Việt Nam và trên thế giới, xây dựng và đề xuất phương án lọc thư rác Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
................. iii
LỜI CAM ĐOAN ........................................................................................... iv
DANH MỤC HÌNH VẼ .................................................................................. v
Chương 1: Giới thiệu ...................................................................................... 1
1.1. Mục tiêu của nghiên cứu .............................................................. 1
1.2. Phương pháp nghiên cứu ............................................................. 2
1.3. Cấu trúc luận văn ......................................................................... 2
1.4. Tổng quan về thư rác ................................................................... 2
1.4.1. Định nghĩa ......................................................................... 2
1.4.2. Thống kê và tác hại của thư rác ...................................... 3
1.4.3. Phương pháp phân loại thư rác ...................................... 6
1.4.4. Các loại thư rác ................................................................. 7
1.4.5. Mơ hình lọc thư rác ........................................................ 10
1.4.6. Quy trình hoạt động của lọc thư rác ............................ 13
1.4.7. Quy trình lọc thư điện tử sử dụng học máy ................. 14
1.4.8. Mơ hình lọc thư rác của Zimbra ................................... 14
Chương 2. Các kỹ thuật lọc thư rác thư rác .............................................. 19
2.1. Các kỹ thuật giảm thiểu thư rác ................................................ 19
2.1.1. Lọc IP ............................................................................... 19
2.1.2. Danh sách xám và phản hồi - thách thức ..................... 20
2.1.3. Cải thiện xác thực thư để phịng chống thư rác .......... 20
2.1.4. Bảo vệ địa chỉ .................................................................. 22
2.2. Các kỹ thuật lọc thư rác ............................................................. 22
2.2.1. Phương thức trích xuất thư điện tử .............................. 23
2.2.2. Các kỹ thuật lọc thư rác cơ bản .................................... 32
2.2.3. Các kỹ thuật lọc thư rác thơng minh ............................ 35
2.3. Các nghiên cứu về lọc thư rác trên thế giới ............................. 40
2.4. Một số nghiên cứu về thư rác tại Việt Nam ............................. 42
ii
Chương 3. Đề xuất và Thực nghiệm ........................................................... 44
3.1. Đề xuất giải pháp lọc thư rác .................................................... 44
3.1.1. Mơ hình thực nghiệm vật lý ........................................... 45
3.1.2. Lọc thư rác sử dụng SVM và Nạve Bayes ................... 46
3.1.3. Xây dựng quy tắc lọc tiếng Việt .................................... 48
3.2. Thực nghiệm ............................................................................... 55
3.2.1. Dữ liệu huấn luyện ......................................................... 55
3.2.2. Kiểm thử hệ thống khi chưa cài Nạve Bayes .............. 55
3.2.3. Kiểm thử hệ thống chỉ cĩ Nạve Bayes ......................... 56
3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB ............................... 59
3.2.5. Kiểm tra các quy tắc tự xây dựng ................................. 61
KẾT LUẬN .................................................................................................... 64
TÀI LIỆU THAM KHẢO ............................................................................ 65
iii
LỜI CẢM ƠN
Trước tiên tơi xin dành lời cảm ơn chân thành và sâu sắc đến thầy giáo,
PGS. TS. Nguyễn Hà Nam – người đã hướng dẫn, khuyến khích, chỉ bảo và
tạo cho tơi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hồn thành cơng
việc của mình.
Tơi xin dành lời cảm ơn chân thành tới các thầy cơ giáo khoa Cơng nghệ
thơng tin, trường Đại học Cơng nghệ, ĐHQGHN đã tận tình huấn luyện, cung
cấp cho tơi những kiến thức vơ cùng quý giá và đã tạo điều kiện tốt nhất cho
tơi trong suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời tơi xin cảm ơn tất cả những người thân yêu trong gia đình tơi
cùng tồn thể bạn bè những người đã luơn giúp đỡ, động viên tơi những khi
vấp phải những khĩ khăn, bế tắc.
Cuối cùng, tơi xin chân thành cảm ơn các đồng nghiệp của tơi tại Trường
Đại Học Kinh tế - Đại học Quốc Gia Hà Nội đã giúp đỡ, tạo điều kiện thuận
lợi cho tơi học tập và nghiên cứu chương trình thạc sĩ tại Đại học Cơng nghệ,
Đại học Quốc Gia Hà Nội.
iv
LỜI CAM ĐOAN
Tơi xin cam đoan rằng luận văn thạc sĩ cơng nghệ thơng tin “Nghiên cứu
các phương pháp lọc thư rác tại việt nam và trên thế giới, xây dựng và đề xuất
phương án lọc thư rác tiếng Việt” là cơng trình nghiên cứu của riêng tơi, khơng
sao chép lại của người khác. Trong tồn bộ nội dung của luận văn, những điều
đã được trình bày hoặc là của chính cá nhân tơi hoặc là được tổng hợp từ nhiều
nguồn tài liệu. Tất cả các nguồn tài liệu tham khảo đều cĩ xuất xứ rõ ràng và
hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo
quy định cho lời cam đoan này.
Hà Nội, ngày 20 tháng 12 năm 2020.
Lâm Tăng Doan
v
DANH MỤC HÌNH VẼ
Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3] ................................................................. 3
Hình 1.2. Thống kê phân loại các nội dung của thư rác năm 2020 [5] .............................................. 7
Hình 1.3. Mơ hình khái quát về gửi, nhận thư điện tử .................................................................... 10
Hình 1.4. Mơ hình lọc thư rác [9] .................................................................................................... 12
Hình 1.8. Quy trình lọc nội dung thư rác [9] ................................................................................... 13
Hình 1.9. Quy trình lọc nội dung thư điện tử [9] ............................................................................. 14
Hình 1.5. Mơ hình xử lý thư của Zimbra ......................................................................................... 15
Hình 1.6. Chi tiết điểm số trên tiêu đề thư rác được đánh dấu bởi Spamassassin ........................... 17
Hình 1.7. Thành phần chính của mơ đun lọc của Spamassassin [11] .............................................. 17
Hình 3.1. Kiến trúc mơ hình lọc thư rác .......................................................................................... 45
Hình 3.2. Tỉ lệ xuất hiện của các cụm từ ......................................................................................... 51
Hình 3.3. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện ............. 51
Hình 3.4. Các quy tắc tạo ra để ổn định hệ thống lọc ...................................................................... 54
Hình 3.5. Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes ............................................................ 55
Hình 3.6. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes ................... 56
Hình 3.7 Thư rác được phân loại là thư rác sau khi huấn luyện Nạve Bayes ................................. 56
Hình 3.8. Kết quả kiểm tra mass-check ........................................................................................... 57
Hình 3.9. Phân bổ điểm của tập thư rác ........................................................................................... 57
Hình 3.10. Điểm của 1 thư rác đã cĩ lọc Nạve Bayes .................................................................... 58
Hình 3.11. Thống kê khả năng lọc thư của hệ thống ....................................................................... 59
Hình 3.12. Tỉ lệ nhận định thư rác đúng .......................................................................................... 59
Hình 3.13. Tỉ lệ chính xác của lọc thư rác hợp lệ ............................................................................ 60
Hình 3.14.Thư rác kiểm thử các quy tắc đã tạo ............................................................................... 62
Hình 3.15. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo .................................................. 62
1
Chương 1: Giới thiệu
Mạng Internet ra đời đã mở ra nhiều phương thức liên lạc mới, cho phép
liên lạc cách xa hàng nghìn kilomet. Một trong những phương tiện được sử
dụng nhiều nhất để giao tiếp trong cơng việc cũng như cá nhân đĩ là thư điện
tử. Thư điện tử cho phép người dùng tiếp cận hàng trăm nghìn người trong
vịng vài giây và hầu như miễn phí. Do đĩ, số lượng người sử dụng thư điện tử
cho cơng việc và giao tiếp ngày càng nhiều. Tuy nhiên, do khả năng tiếp cận
nhiều người dễ dàng và miễn phí nên phương thức liên lạc này hay bị lợi dụng
cho mục đích xấu. Trong vài năm gần đây, thư rác (hay cịn gọi là spam) đã trở
thành một vấn đề đáng lưu tâm đối với doanh nghiệp và người dùng cá nhân.
Một số thư rác cĩ mục đích thương mại, một số khác để để bày tỏ ý kiến chính
trị hoặc tơn giáo, hoặc lừa đảo khán giả hoặc phát tán virus.
Thư rác đã trở thành một cơng cụ phổ biến phục vụ cho mục đích xấu
do thư rác dễ triển khai, cĩ khả năng gửi hàng loạt, chi phí thấp và khả năng
tiếp cận người dùng cao. Hơn nữa do trở ngại về cơng nghệ với cơ sở hạ tầng
thư điện tử, để theo dõi hoặc truy vết cá nhân hoặc nhĩm gửi thư rác rất khĩ và
tốn thời gian. Ngồi ra, những kẻ gửi thư rác thường hay che giấu hoặc giả mạo
địa chỉ của thơng điệp. Ngay cả khi chúng được truy tìm, kiến trúc phi tập trung
của Internet gây khĩ khăn cho việc thực hiện các biện pháp bảo vệ pháp lý.
Tại các trường đại học, các cán bộ cơng nhân viên cũng như sinh viên
đều đang sử dụng thư điện tử để trao đổi cơng việc, học tập. Do đĩ, việc ngăn
chặn thư rác, để làm tăng đường truyền băng thơng cho người dùng, giảm lưu
trữ trên máy chủ thư điện tử ngăn chặn phát tán thư độc hại, nội dung tuyên
truyền phản động, phản cảm hay những hành vi lừa đảo trên mạng là vơ cùng
cần thiết.
Thực tế và qua quá trình thư thập dữ liệu thư tiếng Việt cho thấy cĩ rất
nhiều thư rác Tiếng Anh ở hịm thư người dùng Việt, thậm chí nhiều hơn thư
rác tiếng Việt. Do đĩ, ta cần triển khai một bộ lọc thư rác cĩ thể lọc cả thư rác
Tiếng Việt và Tiếng Anh.
1.1. Mục tiêu của nghiên cứu
Dựa theo bối cảnh trên, căn cứ nhu cầu thực tế, đề tài nghiên cứu và triển
khai được hình thành nhằm xây dựng một hệ thống lọc thư rác tiếng Việt. Hiện
nay các hệ thống lọc thư rác được tích hợp sẵn đã lọc thư rác khá hiệu quả đối
với thư điện tử Tiếng Anh và tuy nhiên chưa được tối ưu hĩa đối với các thư
2
điện tử tiếng Việt. Các tập luận để lọc được xây dựng chỉ cho thư tiếng Anh.
Do đĩ, đề tài này mong muốn sẽ tối ưu và nâng cao khả năng lọc thư rác tiếng
Việt.
1.2. Phương pháp nghiên cứu
Phương pháp luận được sử dụng trong đề tài này bao gồm phương pháp
nghiên cứu và tổng hợp lý thuyết và phương pháp thực nghiệm. Mục lý thuyết
được nghiên cứu và thu thập từ các sách, bài báo tạp chí chuyên ngành.
Sau khi cĩ được nền tảng lý thuyết và mơ hình thực nghiệm sẽ tiến hành.
Mơ hình thực nghiệm được xây dựng, hỗ trợ bởi một số nền tảng lý thuyết. Các
kết quả thực nghiệm thu được sẽ được đánh giá và kiểm chứng lại trên nền lý
thuyết.
1.3. Cấu trúc luận văn
Đề tài bao gồm 3 chương chính. Đề tài được nghiên cứu và xây dựng đi
lên từ những nghiên cứu tổng quan về thư rác, thảo luận tổng quan về thư rác,
mơ hình tổng quan về gửi và nhận thư điện tử cũng như các phương thức xác
thực để phịng chống thư rác (Chương 1).
Chương 2 sẽ trình bày các phương pháp trích xuất thơng tin thư điện tử,
kỹ thuật giảm thiểu thư rác phổ biến như chặn IP, lọc theo luật, lọc theo nhận
dạng và các kỹ thuật lọc rác cơ bản và thơng minh. Tiếp theo, luận văn so sánh,
nghiên cứu về các hướng đi lọc thư rác ở Việt Nam và trên thế giới, để từ đĩ
đưa ra đề xuất phù hợp.
Cuối cùng, Chương 3 mơ tả thực nghiệm bao gồm đề xuất mơ tả kiến
trúc thực nghiệm, kỹ thuật áp dụng trong thực nghiệm và kết luận và đánh giá
kết quả thực nghiệm.
1.4. Tổng quan về thư rác
1.4.1. Định nghĩa
Cĩ rất nhiều định nghĩa khác nhau cho thư rác. Theo [1], thư rác (spam)
là hoạt động gửi thư điện tử khơng được yêu cầu, với số lượng lớn và trong
một số trường hợp liên tục gửi đến những cá nhân mà khơng cĩ liên hệ trước
đĩ và địa chỉ e-mail của họ được thu thập khơng hợp pháp, hoặc spam thường
được hiểu là việc gửi đi hàng loạt các thư thương mại khơng được yêu cầu bởi
một người gửi ngụy trang hoặc giả mạo danh tính, hay được định nghĩa là tin
3
nhắn điện tử khơng được yêu cầu, bất kể nội dung [1] [2]. Định nghĩa này cĩ
tính đến các đặc điểm của thư điện tử hàng loạt [2].
Các định nghĩa về thư rác đều cĩ những đặc điểm chung như sau:
• Gửi bằng thư điện tử
• Sử dụng các địa chỉ được thu thập mà khơng cĩ sự đồng ý
• Gửi hàng loạt
• Khơng mong muốn nhận
• Lặp đi lặp lại
• Nhầm mục đích thương mại hoặc tài chính
• Khơng cĩ mục tiêu và bừa bãi
• Khơng thể ngăn cản
• Ẩn danh và / hoặc ngụy trang
• Nội dung bất hợp pháp hoặc xúc phạm
• Nội dung lừa đảo hoặc gian lận
1.4.2. Thống kê và tác hại của thư rác
Thư rác chiếm một phần rất lớn của băng thơng mạng, theo thống kê của
Statista [3], từ những năm 2012 đến 2018, số lượng thư rác luơn nhiều hơn so
với số lượng thư hợp lệ (ham). Mặc dù số lượng thư rác cĩ giảm xuống so với
những năm trước đây từ 69% giảm xuống 55%, tuy nhiên, cĩ thể thấy thư rác
vẫn chiếm một lượng băng thơng mạng lớn.
Hình 1.1. Tỉ lệ thư rác điện tử từ năm 2012 đến 2018 [3]
Theo thống kê mới nhất của Statista [4], thư rác chiếm 53,95 phần trăm
lưu lượng thư điện tử vào tháng 3 năm 2020. Trong khoảng thời gian gần đây
4
nhất, Nga chiếm phần lớn nhất trong số các thư rác với 20,74 % tổng lượng thư
rác tồn cầu. Bất chấp sự phổ biến của nĩ, tỷ lệ thư rác e-mail tồn cầu thực sự
đang giảm: tỷ lệ thư rác hàng năm tồn cầu trong năm 2018 là 55%, giảm so
với 69% vào năm 2012 [5].
Trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận hàng ngày [6].
Phần lớn trong số đĩ là các e-mail quảng cáo được gửi bởi các nhà tiếp thị mỗi
ngày. Trong khi nhiều người sử dụng cho rằng nội dung đĩ nằm trong thư mục
thư rác của họ, e-mail tiếp thị nĩi chung là vơ hại, tuy gây khĩ chịu cho người
dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp thị đến được hộp thư
đến của khách hàng và 7% đã bị bộ lọc thư rác bắt được [6]. Tuy nhiên, mọi
thứ đang được cải thiện đối với các nhà tiếp thị: vào năm 2018, tỷ lệ gửi thư
rác của các e-mail tiếp thị thương mại đã giảm xuống cịn 9%, giảm từ 14%
vào năm 2017 [6]. Tuy nhiên, khơng phải tất cả các thư rác đều là những e-
mail quảng cáo lành tính. Một phần đáng kể các thư rác cĩ tính chất độc hại
hơn, nhằm phá hoại hoặc chiếm quyền điều khiển hệ thống của người dùng [6].
Thống kê trong quý đầu tiên của năm 2020, về các nguồn của thư rác,
9,64% khối lượng thư rác tồn cầu bắt nguồn từ các IP cĩ trụ sở tại Hoa Kỳ
tuy nhiên phần lớn thư rác bắt nguồn là Nga chiếm 20,74 phần trăm tổng thư
rác tồn cầu [6].
Thư rác là thư điện tử được gửi khơng mong muốn, gây ra nhiều ảnh
hưởng đến nhiều mặt khác nhau:
• Quá tải băng thơng: Thư rác chặn các kênh liên lạc và tạo ra lưu
lượng băng thơng lớn (chi phí băng thơng này cơng ty/doanh
nghiệp phải trả tiền). Ngồi ra, cĩ những máy chủ thư phải xử lý
thư rác và những máy chủ này phải được bảo trì bởi các chuyên
gia được trả lương cao. Do đĩ, chi phí vận hành cơ sở hạ tầng tăng
đáng kể.
• Tốn thời gian. Nếu thư rác đến hộp thư đến của người dùng, người
nhận phải xĩa nĩ theo cách thủ cơng. Một người đọc 10-20 thư
điện tử mỗi ngày cĩ thể nhận được khoảng 160-180 tin nhắn rác
cùng với thư từ cơng việc của họ. Điều đĩ cĩ nghĩa là họ sẽ dành
5-6 giờ mỗi tháng chỉ để xĩa thư rác, gây phương hại đến thời
gian làm việc hiệu quả của họ.
• Khĩ chịu và phiền tối. Bằng cách xĩa thủ cơng thư rác, người
dùng trở thành một kỹ thuật viên xử lý rác thải ‘điện tử’. Việc
buộc phải thực hiện các biện pháp như vậy khơng thể khơng gây
khĩ chịu cho người dùng, dẫn đến những cảm xúc tiêu cực khơng
5
mong muốn. Cũng cĩ thể trong quá trình xĩa, người dùng cũng
cĩ thể vơ tình xĩa mất một thư điện tử quan trọng cùng với vơ số
thư rác. Tất cả những ai đã đối mặt với tình huống như vậy đều
cảm thấy khĩ chịu và phiền tối.
• Ảnh hưởng của thư rác đối với cá nhân:
Thư rác gây tốn kém chi phí cho người dùng và cho xã hội nĩi chung.
Cho dù tài khoản doanh nghiệp hay cá nhân, người nhận thường sẽ tốn thời
gian để phân loại thư điện tử và xĩa các thư khơng mong muốn và do đĩ phải
chịu chi phí cơ hội về thời gian. Thư rác cũng gia tăng chi phí của các nhà cung
cấp dịch vụ Internet (ISP) do tiêu thụ nhiều băng thơng. Cuối cùng, thư rác
được sử dụng để đạt được các mục tiêu gian lận hoặc tội phạm khác, gây ra các
chi phí gián tiếp tiềm ẩn cĩ liên quan đến nĩ.
Theo ước tính [1] rằng các cơng ty và người tiêu dùng Mỹ phải chịu chi
phí gần 20 tỷ đơ la mỗi năm do thư rác. Con số của người tiêu dùng phải gánh
chịu chi phí gần 20 tỷ đơ la hàng năm do thư rác. Ước tính rằng những người
gửi thư rác và người bán quảng cáo bằng thư rác thu thập tổng doanh thu trên
tồn thế giới theo đơn đặt hàng là 200 triệu đơ la mỗi năm. Do đĩ, "tỷ lệ" của
chi phí bên ngồi cho lợi ích bên trong cho thư rác là khoảng 100:1 [1].
• Ảnh hưởng của thư rác đối với doanh nghiệp
Trong mơi trường kinh doanh, thư rác gây ra tốn kém cho chi phí bảo
mật dịch vụ, phần cứng và phần mềm; chi phí huấn luyện; mất năng suất do
mất thời gian xĩa các thư điện tử khơng mong muốn (hoặc tìm kiếm những cái
đã xĩa) và chi phí mua dung lượng lưu trữ bổ sung. Theo ước tính [7] của về
chi phí spam từ các nhà xuất bản và tạp chí lên tới 1,1 tỷ đơ la Mỹ mỗi năm.
Tính tất cả các loại spam, chi phí tăng lên khoảng 2,6 tỷ đơ la Mỹ mỗi năm.
Ngồi ra, các doanh nghiệp cũng bị từ các tác động gián tiếp của thư rác,
chẳng hạn như phải trả giá cao hơn cho các dịch vụ ISP. Ở cấp độ nhà cung
cấp dịch vụ (ISP), chi phí xử lý thư rác là một phần của ngân sách bảo mật.
Cách đây vài năm, ISP coi vẫn coi thư rác là một vấn đề của người dùng cá
nhân [6]. Tuy nhiên, với một lượng lớn thư rác gia tăng, các ISP phải đối mặt
với các khoản đầu tư cĩ thể tốn kém vào cơ sở hạ tầng thư và đầu tư mua thêm
thiết bị lưu trữ, khiến cho các nhà ISP ngày càng quan tâm vấn đề này và giúp
làm sáng tỏ những chi phí tiềm ẩn này.
6
1.4.3. Phương pháp phân loại thư rác
Các phương pháp khác nhau đang được sử dụng để đo lường và phân
tích thư rác. Ba phương pháp tiếp cận chính đang được sử dụng cho việc này:
khảo sát (dựa trên lấy mẫu); phương pháp tiếp cận dựa trên báo cáo; và phương
pháp tiếp cận dựa trên cơng cụ kỹ thuật.
1.4.3.1. Phương pháp khảo sát
Phương pháp khảo sát gắn chặt với kích thước mẫu cũng như thái độ của
những người tham gia khảo sát. Trong phương pháp, điều quan trọng là những
người được chọn trong khảo sát cĩ thể trở thành đại diện mẫu được khơng. So
với các cơng cụ kỹ thuật, cách tiếp cận này ít tốn kém hơn và cĩ thể được thiết
lập và thực hiện trong thời gian tương đối ngắn. Một ví dụ về nghiên cứu dựa
trên khảo sát là khảo sát của AOL và DoubleClick, hai nhà cung cấp giải pháp
tiếp thị qua thư điện tử. Bảng câu hỏi được gửi cho hơn 2000 người, nhằm khảo
sát điều gì khiến người sử dụng phàn nàn, quy trình báo cáo spam cho AOL
hoặc quy trình hủy đăng ký qua thư điện tử (unsubscribe) [2].
1.4.3.2. Phương pháp dựa trên báo cáo
Phương pháp dựa trên báo cáo phụ thuộc vào báo cáo của chính những
người nhận thư rác, sau đĩ được phân tích. Mục đích chính của phương pháp
này là phân tích nội dung của thư rác một cách chi tiết và xác định các loại thư
rác, người gửi thư rác và các đặc điểm của việc gửi thư rác. Phương pháp này
dựa trên cơ sở phân tích thư rác được báo cáo, thay vì cố gắng tính tốn khối
lượng thư rác hoặc xác định phần trăm e-mail là thư rác. Với cách tiếp cận này,
dữ liệu được thu thập trên cơ sở tự nguyện từ người dùng và do đĩ, định nghĩa
về thư rác (theo báo cáo) là chủ quan, dựa trên nhận thức của cá nhân người
nhận. Phương pháp này được sử dụng bởi SpamCop và Abuse.net nhằm thu
thập và phân tích các báo cáo tự nguyện của người dùng [2]. Trên Google thư
điện tử hay các phần mềm thư điện tử đều cĩ mục ‘Report spam’ để gửi báo
cáo cho các nhà cung cấp về một thư điện tử theo cảm nhận cá nhân là thư rác.
Điều này sẽ giúp các nhà cung cấp dịch vụ cĩ những mẫu thu thập về thư rác
đa dạng và tổng quan hơn.
1.4.3.3. Phương pháp kỹ thuật
Phương pháp dựa trên cơng cụ kỹ thuật khơng cần sự tham gia tích cực
của người dùng. Về cơ bản, phương pháp này sẽ chính xác và khách quan hơn
do nĩ khơng địi hỏi chủ quan diễn giải của người dùng so với hai cách tiếp
7
cận cịn lại. Trên mặt khác, tuy nhiên, phương pháp này bị hạn chế ở chỗ khơng
thể đánh giá phản ứng chủ quan đối với thư rác, chẳng hạn như báo cáo thư
rác, hay xĩa bỏ thư rác. Cách tiếp cận kỹ thuật phụ thuộc vào độ chính của các
thuật tốn và kỹ thuật được sử dụng, địi hỏi cập nhật liên tục để nhận ra các
dạng thư rác mới. Các cơng cụ kỹ thuật khơng đảm bảo độ chính xác hồn tồn,
do đĩ dẫn đến nhiều kết quả dương tính giả (thư hợp lệ bị phân loại nhầm thành
spam) và âm tính giả (thư rác bị nhầm lẫn khơng được phân loại) [2].
1.4.4. Các loại thư rác
Thư rác cĩ thể được phân loại theo mục tiêu của người gửi thư rác. Nhiều
người gửi thư rác gửi e-mail hàng loạt vì lý do quảng cáo như gửi quảng cáo
thương mại hoặc mời tham gia vào các chiến dịch chính trị, hoặc nhằm mục
đích lừa đảo hay phân phối phần mềm độc hại như virus hay trojan. Phần này
trình bày các loại thư rác phổ biến và đưa ra số liệu thống kê, nếu cĩ.
Theo Statista [5], trong năm 2018, 281,1 tỷ thư điện tử được gửi và nhận
hàng ngày. Điều này bao gồm hàng tỷ thư quảng cáo được gửi bởi các nhà tiếp
thị mỗi ngày. Trong khi nhiều người dùng e-mail tin rằng nội dung như sẽ nằm
trong mục thư rác (Spam), hay thư tiếp thị nĩi chung là vơ hại, hoặc chỉ là gây
khĩ chịu cho người dùng. Tính đến quý 2 năm 2018, chỉ 85% thư điện tử tiếp
thị nằm trong Hộp thư đến (Inbox) của người dùng và 7% đã bị bộ lọc thư rác
bắt được. Tuy nhiên, mọi thứ đang được cải thiện vào năm 2018, tỷ lệ đặt thư
rác thương mại đã giảm xuống cịn 9%, giảm từ 14% vào năm 2017.
Hình 1.2 Thống kê phân loại các nội dung của thư rác năm 2020 [5]
8
Theo thống kê [4], các danh mục nội dung thư rác năm 2019, đứng đầu
là nội dung về sức khỏe (39%), sau đĩ là quảng cáo các sản phẩm (12%), và
các nội dung khác (người lớn, độc hại, lừa đảo, hẹn hị,) chiếm từ 2% đến
10%.
Nhìn chung, các thư rác được phân thành các loại phổ biến như sau:
1.4.4.1. Thư rác quảng cáo
Thư rác quảng cáo hay cịn được gọi là thư rác mục đích thương mại
(viết tắt là UCE). Hầu hết, các thư rác quảng cáo được coi là một loại hình tiếp
thị trực tiếp và được các cơng ty coi là một cơng cụ quan trọng để tiếp cận
khách hàng (tiềm năng), vì thư điện tử chi phí rẻ (hầu như miễn phí) và dễ dàng
để liên hệ với một nhĩm lớn khách hàng. Tuy nhiên, hầu hết thư rác khơng
được gửi bởi chính các cơng ty quảng cáo, mà bởi những người gửi thư rác
(spammer), là những người nhận hoa hồng từ các cơng ty này [1] một nghiên
cứu ước tính rằng chi phí gửi một thư điện tử là từ 0,01 đơ la Mỹ đến 0,05 đơ
la Mỹ [1]. Vì chi phí gửi thư rác rất thấp nên những người gửi thư rác cĩ thể
kiếm được lợi nhuận mặc dù tỷ lệ phản hồi cực kỳ thấp. Theo [1] chỉ ra mặc
dù chi phí thấp, tỷ lệ phản hồi thấp, tuy nhiên khoảng 8% người trả lời thừa
nhận họ đã thực sự mua một sản phẩm quảng cáo qua thư rác. Miễn là những
kẻ gửi thư rác cĩ thể kiếm được nhiều tiền hơn hơn chi phí của họ, họ cĩ thể
sẽ tiếp tục gửi thư rác. Đây là hành vi “hợp lý” theo nghĩa kinh tế.
Ngồi các thư rác nhằm mục đích quảng cáo trực tiếp cịn cĩ các thư rác
gián tiếp sẽ khuyến nghị mua một cổ phiếu cụ thể, nhằm tác động đến giá cổ
phiếu nào đĩ. Một nghiên cứu thực nghiệm [8] cho thấy trong ngắn hạn, cổ
phiếu thư rác cĩ tác động đáng kể đến cả khối lượng giao dịch và định giá thị
trường. Theo thống kê của Symantec, 80% thư rác về lĩnh vực tài chính, sức
khỏe, Internet và các sản phẩm dành cho người lớn. Theo một thống kê khác
thì thư rác về quảng cáo các loại thuốc chức năng chiếm ưu thế. Hai số liệu
thống kê cĩ sự khác biệt rõ ràng, điều này phụ thuộc vào dữ liệu mẫu của hai
thống kê thu thập được. Tuy nhiên, khơng thể phủ nhận rằng thư rác quảng cáo
chiếm một thị phần rất lớn của thư rác.
1.4.4.2. Thư rác tuyên truyền, vận động
Các thư quảng cáo khơng cần thiết phải cĩ mục đích thương mại. Họ
cũng cĩ thể tuyên truyền các ý tưởng và/hoặc tổ chức chính trị, văn hĩa hoặc
tơn giáo. Ví dụ, vào năm 2003, các thành viên của Quốc hội Hoa Kỳ đã gửi
hàng trăm nghìn thư khơng được yêu cầu cho thành viên nhằm vận động các
9
chiến dịch. Các loại thư điện tử này thường nhằm mục đích kêu gọi sự ủng hộ,
đồng thuận của những người nhận thư.
1.4.4.3. Thư rác lừa đảo
Lừa đảo qua thư điện tử là các tin nhắn lừa đảo cung cấp số tiền lớn và
yêu cầu chi tiết tài khoản ngân hàng hoặc lừa đảo giả mạo các dịch vụ phổ biến
và lừa người nhận cung cấp chi tiết thẻ tín dụng /tài khoản của họ [2]. Một
trong những trị lừa đảo rửa tiền phổ biến là người dùng nhận được thư điện tử
từ một người tự xưng là quan chức chính phủ, thành viên gia đình của một
quan chức đã qua đời hoặc luật sư đại diện cho một khách hàng giàu cĩ đã qua
đời. Thư điện tử hỏi chi tiết ngân hàng hoặc yêu cầu người nhận thanh tốn
trước như một cử chỉ thiện chí, với lời hứa sẽ hồn lại tiền trong tương lai. Nếu
người nhận cung cấp thơng tin chi tiết, thì tài khoản của khách hàng sẽ bị tấn
cơng và trừ tiền. Ở mỗi quốc gia khác nhau lại cĩ nhiều phiên bản lừa đảo khác
nhau tồn tại.
Một dạng lừa đảo qua thư rác nữa là một doanh nghiệp hợp pháp được
thành lập, nhằm lừa người dùng cung cấp thơng tin cá nhân, thơng tin này sẽ
được sử dụng để đánh cắp danh tính. Thư gửi đến sẽ hướng dẫn người dùng
truy cập một trang web nơi họ được yêu cầu cập nhật thơng tin cá nhân, chẳng
hạn như mật khẩu và thẻ tín dụng, số an sinh xã hội và số tài khoản ngân hàng
mà tổ chức hợp pháp đã cĩ. Tuy nhiên, trang web này là giả mạo và được thiết
lập chỉ để lấy cắp thơng tin của người dùng. Sự nguy hiểm của các trị gian lận
lừa đảo là trang web mà nạn nhân hướng đến thường giống thật, vì đĩ là trang
web giả mạo nhằm sao chép trang web của doanh nghiệp hợp pháp. Lừa đảo
qua thư điện tử này được gọi là phishing, là một biến thể của "câu cá", ý tưởng
là mồi được ném ra với hy vọng rằng trong khi hầu hết sẽ bỏ qua mồi, một số
sẽ bị dụ cắn [2].
1.4.4.4. Thư rác chứa mã độc
Tuy nhiên, khơng phải tất cả các thư rác đều là thư quảng cáo lành tính.
Một phần đáng kể các tin nhắn rác cĩ tính chất độc hại hơn, nhằm mục đích
phá hoại hoặc chiếm đoạt hệ thống của người dùng. Các biến thể phổ biến nhất
của thư rác độc hại trên tồn thế giới bao gồm vi rút, trojan, phần mềm gián
điệp và phần mềm tống tiền [2]. Vi rút là một chương trình, giống như vi rút
sinh học, cĩ thể sao chép và đơi khi làm hỏng máy tính bị nhiễm. Bằng phương
thức này, vi rút là một chương trình hoặc tài liệu được đính kèm với một thư
điện tử mà khi mở ra, nĩ sẽ lây lan bằng cách tự chuyển tiếp hàng loạt người
nhận trong danh bạ của người gửi hoặc người dùng sẽ tải xuống và cài đặt giúp
10
kẻ tấn cơng chiếm quyền điều khiển hệ thống. Đối với thư điện tử từ người lạ,
khơng nên mở bất kỳ tệp đính kèm nào nếu khơng chắc chắn là nĩ khơng gây
hại. Thư rác phát tán phần mềm độc hại để lây nhiễm sang máy chủ nhằm
chiếm quyền điều khiển từ xa và được sử dụng để gửi nhiều thư rác hơn. Các
máy chủ bị nhiễm được gọi là "zombie". Nhiều người tin rằng hầu hết thư rác
được gửi qua mạng botnet, là một mạng lưới các máy tính cá nhân bị lây nhiễm
mã độc, tuy nhiên giả thuyết này cũng khĩ được chứng minh.
1.4.4.5. Thư rác bơi nhọ
Thư rác bơi nhọ - “Joe job” là thuật ngữ Internet để chỉ địa chỉ thư giả
mạo, nhìn cĩ vẻ đúng là địa chỉ thư của ai đĩ, nhưng thực sự đĩ là địa chỉ thư
được giả mạo bởi một người khác, với ý định tạo ra các phiền tối, bơi nhọ
hoặc làm tổn hại đến danh tiếng của nạn nhân vơ tội. Ví dụ, kẻ xấu cĩ thể gửi
một thư rác chứa nội dung khiêu dâm trẻ em cho hàng nghìn người sử dụng địa
chỉ trả lại giả mạo để khiến người nhận phẫn nộ và kích động. Tên "joe job"
lần đầu tiên được sử dụng để mơ tả một kế hoạch hướng đến Joe Doll, người
đã cung cấp dịch vụ lưu trữ cho các trang web miễn phí. Một người dùng cĩ
tài khoản bị xĩa vì quảng cáo thơng qua thư rác; để trả đũa, anh ta đã gửi một
thư rác khác cho vài triệu nạn nhân vơ tội, nhưng với tiêu đề "trả lời" được giả
mạo Joe Doll.
1.4.5. Mơ hình lọc thư rác
1.4.5.1. Mơ hình gửi nhận thư điện tử
Để hiểu về phương thức lọc thư rác, cần tìm hiểu mơ hình gửi nhận thư
điện tử. Mơ hình sau biểu diễn khái quát về cách thức gửi nhận thư:
Hình 1.3: Mơ hình khái quát về gửi, nhận thư điện tử
11
- SMTP: là viết tắt của phương thức Send Mail Tranfer Protocol, là
phương thức gửi thư. Để nhận tải thư điện tử xuống chương trình
của người dùng cĩ 2 protocol sau:
- POP: quản lý thư trên máy tính của người dùng.
- IMAP: quản lý thư trên máy chủ.
• MUA (Mail User Agent)
Ứng dụng của người dùng cho phép nhận và gửi email. Nĩ cĩ thể là một
ứng dụng như Microsoft Outlook/Thunderbird / hoặc dựa trên trình duyệt
web như Gmail / Hotmail / (sau này cịn được gọi là Webmail).
• MSA (Mail Subssmions Agent)
Ứng dụng máy chủ nhận thư từ MUA, kiểm lỗi và chuyển tiếp (qua
SMTP) đến MTA được lưu trữ trên cùng server.
• MTA (Máy chủ chuyển thư)
Ứng dụng máy chủ nhận thư từ MSA hoặc từ MTA khác. Nĩ sẽ tìm bản ...dạng nén hình ảnh và các thơng tin
khác. Nghiên cứu này phân tích và so sánh hai phương pháp phát hiện hình ảnh
thư rác. Đầu tiên, họ xem xét phân tích thành phần chính (PCA), trong đĩ họ
xác định các eigenvectơ tương ứng với một tập hợp các hình ảnh của thư rác
và tính tốn điểm bằng cách chiếu hình ảnh lên khơng gian eigens. Cách tiếp
cận thứ hai tập trung vào việc trích xuất một tập hợp chung của các tính năng
hình ảnh và lựa chọn một tập hợp con tối ưu bằng cách sử dụng máy vectơ hỗ
trợ (SVM). Cả hai chiến lược phát hiện này đều cung cấp độ chính xác cao với
độ phức tạp tính tốn thấp. Hơn nữa, nghiên cứu phát triển một bộ dữ liệu hình
ảnh spam mới chưa bị phát hiện bằng cách sử dụng phương pháp PCA hoặc
SVM. Bộ dữ liệu mới này sẽ tỏ ra cĩ giá trị trong việc cải thiện khả năng phát
hiện spam hình ảnh. Tương tự, Uemura et al. sử dụng tên hình ảnh, kích thước
lưu trữ làm các tính năng và đồng thời bổ sung thơng tin tỷ lệ nén hình ảnh
[12]. Họ chỉ ra rằng hình ảnh spam thường cĩ tỷ lệ nén cao hơn của một hình
ảnh bình thường vì nội dung của một hình ảnh spam tương đối đơn giản.
Nghiên cứu cũng chỉ ra rằng tỷ lệ khung hình của một hình ảnh spam là khá
28
khác với hình ảnh bình thường [12]. Cĩ một số lượng lớn các biểu ngữ giữa
các hình ảnh spam và sự khác biệt giữa chiều dài và chiều rộng của một hình
ảnh biểu ngữ là hiển nhiên.
• Tính năng màu sắc và kết cấu của hình ảnh
Phân tích [12] chỉ ra rằng hình ảnh bình thường cĩ màu sắc khác nhau
đáng kể trong khi đĩ cĩ sự khác biệt đáng kể giữa các thư rác hình ảnh và hình
ảnh bình thường về khía cạnh phân bố màu sắc, cường độ màu,.. Sự giống nhau
giữa các vùng của một hình ảnh thư hợp lệ khá cao, trong khi các ảnh thư rác
cĩ màu sắc khơng đồng nhất. Độ bão hịa màu của ảnh thư rác cũng khác với
ảnh bình thường. Hình ảnh được chia thành nhiều danh mục bằng cách trích
xuất các đặc điểm màu này, trong đĩ năm loại hình ảnh thư rác thường thấy
bao gồm hình ảnh tổng hợp, hình nền phức tạp, v.v., và ba loại hình ảnh bình
thường, cụ thể là ảnh chụp, bản đồ và truyện tranh. Nghiên cứu cũng chỉ ra
rằng sự phân bố màu sắc của hình ảnh thư rác khơng mượt như hình ảnh bình
thường, bởi vì các hình ảnh trong thư rác nĩi chung là tổng hợp và chứa các
vật rõ ràng và sắc nét. Vì số lượng thư điện tử rác được gửi là rất lớn, các hình
ảnh thư rác được gửi trong cùng một đợt nĩi chung cĩ rất nhiều điểm tương
đồng. Trong giai đoạn huấn luyện, khoảng cách tương tự giữa hình ảnh thư rác
và hình ảnh bình thường được tính tốn và khoảng cách tương tự tối thiểu được
sử dụng để tạo thành giá trị ngưỡng. Trong giai đoạn phân loại, sẽ tính ra điểm
tương đồng giữa vectơ đặc trưng của hình ảnh mới. Vectơ trong thư viện được
tính tốn và tạo danh mục hình ảnh mới thơng qua trọng số.
• Tính năng cạnh ký tự
Trên cơ sở trích xuất cạnh của ký tự theo chiều dọc, hình ảnh được chia
thành vùng văn bản và vùng khơng phải văn bản bằng cách tính độ giống nhau
của cạnh ký tự trong mỗi vùng và hợp nhất các vùng tương tự [12]. Sau sự
phân chia, các tính năng của mỗi hình ảnh được xây dựng bằng cách tính tốn
kích thước của văn bản vùng trong mỗi hình ảnh cũng như độ bão hịa màu và
độ đồng nhất màu ở các vùng văn bản và vùng khơng phải văn bản tương ứng.
Cuối cùng, vectơ đặc trưng của một thư điện tử đạt được bằng cách tính tổng
trọng số các tính năng liên quan của tất cả các hình ảnh cĩ trong thư điện tử
29
tùy theo diện tích của mỗi hình ảnh sử dụng máy vectơ hỗ trợ (SVM) để phân
loại. Ngồi ra, tuật tốn tăng cường cũng được sử dụng để phát hiện mẫu bằng
cách huấn luyện về mẫu tính năng để phát hiện văn bản các khu vực trong hình
ảnh [12].
• Các tính năng dựa trên OCR
Để tránh bộ lọc thư rác, những người gửi thư rác thường gửi hình ảnh
thay vì văn bản. Các bộ lọc thư rác hình ảnh truyền thống cĩ những điểm yếu
trong việc quét tài liệu và ảnh. Tài liệu [17] đề xuất trích xuất thơng tin văn
bản trong hình ảnh bằng cách sử dụng Quang học nhận dạng ký tự (OCR) và
thơng tin văn bản được xử lý thêm bằng cách áp dụng các phương pháp tiếp
cận dựa trên văn bản. Xem xét tính tốn cao độ phức tạp của cơng nghệ OCR,
họ cũng chỉ ra rằng phương pháp này nên kết hợp với những phương pháp lọc
khác và chỉ áp dụng cho những thư điện tử khĩ phân loại. Do đĩ, trong nghiên
cứu [17] đã đề xuất phân loại ảnh thư theo chữ cái và hình ảnh [18].
Trích xuất tính năng dựa trên OCR chỉ cĩ thể đạt được hiệu suất tốt khi
khơng cĩ tạp âm trong thư rác hình ảnh [12]. Để chống lại phương pháp phát
hiện dựa trên OCR, những kẻ gửi thư rác thêm nhiễu thơng tin vào các hình
ảnh spam, chẳng hạn như phơng chữ hỗn hợp, nền mờ, biến dạng văn bản, v.v.
Tuy nhiên, những thơng tin nhiễu này đã trở thành tính năng phân biệt ảnh
trong thư rác với ảnh bình thường. Phân tích nguyên tắc chính của các kỹ thuật
làm mờ đối với hình ảnh spam cũng như tác động chính của các kỹ thuật này
đối với OCR, và hơn thế nữa, cĩ thể trích xuất các tính năng nhiễu bằng cách
phát hiện bất thường trong các bước xử lý OCR. Một phương pháp được đề
xuất để phát hiện nhiễu trong đĩ hình ảnh được chuyển đổi thành một hình ảnh
nhị phân và độ phức tạp của hình ảnh hiển thị được tính tốn [16] [19]. Vì độ
phức tạp của hình ảnh bình thường nằm trong một phạm vi cĩ giá trị khác với
của hình ảnh thư rác cĩ nhiễu, họ cĩ thể trích xuất các đặc điểm nhiễu của ký
tự cạnh và nền bằng cách sử dụng số liệu này [17].
2.2.1.4. Trích xuất thư điện tử theo hành vi
Cĩ sự khác biệt đáng kể giữa thư rác và thư điện tử bình thường khơng
chỉ trên nội dung mà cịn về mục đích gửi, phương thức truyền tải, phạm vi
30
tương tác, v.v. Ngồi ra, những người gửi spam thường thực hiện các biện pháp
nhất định để tránh bộ lọc thư rác. Do đĩ, cĩ thể phân biệt thư rác và thư điện
tử bình thường bằng cách trích xuất các tính năng hành vi trong quá trình gửi
của thư điện tử.
• Đặc điểm hành vi của người gửi thư rác
Trong quá trình gửi, những kẻ gửi thư rác thường giả mạo thơng tin tiêu
đề của thư điện tử để che giấu danh tính của họ. Điều này làm cho thơng tin
tiêu đề của thư rác cĩ sự khác biệt đáng kể so với thơng tin của thư điện tử
thơng thường và các đặc điểm hành vi tương ứng của thư giả mạo cĩ thể được
trích xuất bằng cách phân tích thơng tin tiêu đề của thư điện tử.
Các tính năng hành vi đã được trích xuất để phát hiện thư rác bằng cách
kiểm tra sự bất thường của mục nhập đơn lẻ được phân biệt và kiểm tra các
trường thơng tin trong thư điện tử header như “From”, “To”, “Delivered-To”,
“Return Path”, “Date” và các thơng tin khác xem cĩ bất thường hay khơng, ví
dụ như độ chính xác của định dạng, liệu nĩ cĩ trống khơng, thời gian cĩ hợp
lý khơng [12] [20]. Thơng qua việc phân tích các đặc điểm của thư điện tử,
người ta thấy rằng cĩ nhiều khả năng những kẻ gửi thư rác xuất hiện trong
nhiều hơn một nhĩm để gửi lại thư rác. Nghiên cứu phân tích các liên kết URL
trong thư điện tử và cụm thư điện tử bằng cách theo dõi máy chủ của các trang
web được liên kết [20]. Họ chỉ ra cĩ một máy chủ thường cung cấp dịch vụ cho
một số trang spam được liên kết, cho phép gửi thư điện tử [12].
• Các đặc điểm hành vi mạng của thư rác
Hành vi, đặc điểm trên mạng của thư rác và thư điện tử thơng thường
khá khác nhau, và các nghiên cứu đã trích xuất các đặc điểm hành vi liên quan
đến địa chỉ IP, phân tích thơng tin đăng nhập của hộp thư và những thay đổi về
IP đăng nhập và kết luận rằng hầu hết các thư điện tử được gửi từ địa chỉ IP
động là thư rác, nghiên cứu cho thấy một nửa số thư rác trong Hotmail được
gửi từ các địa chỉ IP động [12]. Ngồi ra, họ phát hiện ra rằng dữ liệu lịch sử
trong danh sách đen cĩ giá trị tham chiếu tốt trong dự báo thư rác. Họ đề xuất
một phương pháp đánh giá theo khơng gian-thời gian bằng cách kết hợp các
31
đặc điểm khơng gian và dữ liệu lịch sử, kết quả cĩ lỗi tỷ lệ thấp hơn một nửa
so với lọc danh sách đen IP truyền thống. Nghiên cứu các đặc điểm của mạng
hành vi trong quá trình gửi thư rác và họ phân tích việc phân phối các địa chỉ
IP gửi thư rác, định tuyến, sự tồn tại của máy chủ gửi thư rác và đặc điểm của
botnet thư rác. Thơng qua phân tích, họ thu được rằng phần lớn thư rác đến từ
một loạt địa chỉ IP nhỏ (ví dụ: 60. * - 70. *) và quá trình gửi thư rác của botnet
khơng liên tục [12] [20]. Họ chỉ ra rằng những các tính năng liên quan đến
mạng cần được quan tâm trong quá trình lọc thư rác và chú ý để xác định
botnet. Các phương pháp khơng giám sát (unsupervised methods) được sử
dụng để phân tích các đặc điểm liên quan trong quá trình gửi thư rác. Các phân
tích cĩ hệ thống đã chỉ ra các đặc điểm hành vi của những người gửi thư rác về
khía cạnh máy chủ thư và lớp mạng, chẳng hạn như việc phân phối các máy
chủ thư, tỷ lệ thư rác, thời gian hoạt động của những người gửi thư rác, v.v. Họ
chỉ ra rằng các phương pháp mới về cơ chế xác thực người gửi và kiểm sốt
việc gửi thư điện tử cần được nghiên cứu để để giảm thư rác một cách hiệu quả
[12] [20].
• Đặc điểm hành vi dựa trên mạng xã hội
Mạng lưới gửi và nhận thư điện tử thơng thường và mạng thư rác cĩ sự
khác biệt đáng kể. Thư điện tử thơng thường được sử dụng để tương tác giữa
bạn bè, đồng nghiệp và người thân, tạo thành các tính năng mạng xã hội bình
thường, trong khi kẻ gửi thư rác luơn cần trích xuất một số lượng lớn các địa
chỉ thư điện tử từ các trang web để gửi thư rác, tạo thành mạng tương tác bất
thường [12]. Mỗi tài khoản thư điện tử được coi là một nút và các cạnh giữa
các nút được xây dựng phù hợp với việc gửi và nhận thư điện tử. Đối với mạng
gửi thư rác, số lượng nút trong mạng lớn trong khi quan hệ giữa các nút liền kề
là tương đối đơn giản. Các phương pháp về tính tốn hệ số phân cụm được đưa
ra để phân biệt các mạng gửi thư điện tử thơng thường và các mạng gửi thư rác
dựa trên sự liên kết giữa các nút và sự chia sẻ giữa các nút liền kề [12].
Thư rác càng ngày càng gia tăng do sự bùng nổ của nội dung do người
dùng tạo ra trên Internet. Những kẻ gửi thư rác thường chèn các từ khĩa phổ
biến hoặc đơn giản là sao chép và dán các bài báo gần đây từ trang web cĩ chèn
32
các liên kết spam, cố gắng vơ hiệu hĩa tính năng phát hiện thư rác. Để phát
hiện hiệu quả thư rác trong nội dung do người dùng tạo, trước tiên, [20] tiến
hành phân tích tồn diện các hoạt động gửi thư rác trên một trang web thương
mại lớn trong 325 ngày với hơn 6 triệu bài đăng và gần 400 nghìn người dùng.
Phân tích cho thấy rằng những người gửi thư rác thể hiện các đặc tính riêng về
hoạt động đăng bài, số liên kết được quảng cáo và lưu trữ thư. Những kết quả
này càng thúc đẩy sự phát triển BARS, một hệ thống được xây dựng để phát
hiện các bài đăng spam dựa trên các mẫu gửi thư rác này. Kết quả thử nghiệm
chứng minh tính hiệu quả và mạnh mẽ của BARS [20].
• Đặc điểm hành vi dựa trên miễn dịch
Các hành vi của người gửi thư rác cịn được trích xuất từ địa chỉ IP, giao
thức SMTP, liên kết URL và địa chỉ phản hồi và “điểm” [12]. Các điểm thư
rác này được kết hợp để tạo ra các kháng thể. Trên cơ sở này, bộ kháng thể ban
đầu được điều chỉnh bằng cách sử dụng lý thuyết mạng lưới miễn dịch nhân
tạo và các kháng thể cĩ lực cao được nhân bản và được thay đổi bằng cách áp
dụng thuật tốn lựa chọn vơ tính, trong đĩ số lượng các kháng thể cĩ lực thấp
bị triệt tiêu [21]. Cuối cùng, các kháng thể của mạng lưới miễn dịch được nhĩm
lại. Việc sử dụng mạng lưới miễn dịch nhân tạo làm cho các đặc tính hành vi
cĩ mối quan hệ cao được giữ nguyên, trong khi các tính năng hành vi cĩ mối
quan hệ thấp được lọc ra [12] [21].
2.2.2. Các kỹ thuật lọc thư rác cơ bản
2.2.2.1. Lọc theo luật
Đối với lọc thư rác dựa theo luật (rule), các quy tắc được sử dụng để lọc
thư rác cĩ thể tạo theo cách thủ cơng, hoặc tự động.
• Quy tắc cho nội dung thư
Một quy tắc đơn giản cĩ thể trơng như thế này:
body LOCAL_DEMONSTRATION_RULE /thư rác/
score LOCAL_DEMONSTRATION_RULE 0.1
describe LOCAL_DEMONSTRATION_RULE test rule
33
Quy tắc này thực hiện tìm kiếm trong phần thân (body) của thư điện tử
cĩ phân biệt chữ hoa chữ thường cho chuỗi chứa ký tự "thư rác" và thêm 0,1
vào điểm của thư điện tử (score) nếu tìm thấy nĩ. Trong trường hợp này, cĩ
thể khớp với trường hợp “thư rácc”.Từ khĩa describe dùng để mơ tả luật và
thơng tin này sẽ được đưa vào báo cáo chi tiết khi tính điểm cho thư điện tử.
Trong biểu thức chính quy, \b cĩ thể được sử dụng để chỉ ra sự bắt đầu
và kết thúc của từ. Quy tắc sau sẽ khơng khớp với chuỗi ký tự chứa "thư rácc"
hoặc "1thư rác" mà chỉ khớp với chính xác ký tự “thư rác”.
body LOCAL_DEMONSTRATION_RULE /\bthư rác\b/
Để khớp với các chuỗi ký tự chứa “thư rác” khơng phân biệt viết hoa và
viết thường thì cĩ thể sử dụng /i
body LOCAL_DEMONSTRATION_RULE /\bthư rácb/i
score LOCAL_DEMONSTRATION_RULE 0.1
Quy tắc này sẽ khớp với bắt cứ từ “thư rác”, “THƯ RÁC” hay “Thư
rác”, viết hoa hay thường đều được.
• Quy tắc cho tiêu đề thư
Bây giờ chúng ta hãy chuyển sang quy tắc tiêu đề. Quy tắc tiêu đề cho
phép bạn kiểm tra tiêu đề thư. Thơng thường nhất, các quy tắc này kiểm tra
Subject, From hoặc To, nhưng chúng cĩ thể được viết để kiểm tra bất kỳ tiêu
đề thư nào, kể cả những tiêu đề khơng chuẩn. Ví dụ sau đây là quy tắc tiêu đề
cho ký tự "thư rác".
header LOCAL_DEMONSTRATION_SUBJECT Subject =~ /\bthư rácb/i
score LOCAL_DEMONSTRATION_SUBJECT 0.1
Trong các quy tắc này, phần đầu tiên trước dấu = ~ cho biết tên của tiêu
đề bạn muốn kiểm tra là gì và phần cịn lại là một biểu thức chính quy quen
thuộc. Bản thân tên tiêu đề luơn khơng phân biệt chữ hoa chữ thường, vì vậy
quy tắc trên sẽ khớp với chủ đề chứa "thư rác" hoặc “THƯ RÁC”.
Một vài chú ý về cách chấm điểm của quy tắc:
1. Các quy tắc cĩ điểm đặt thành 0 (score=0) hồn tồn khơng được áp
dụng để lọc
2. Các quy tắc khơng ghi điểm sẽ được cho điểm là 1,0, trừ khi 3 hoặc
4 là đúng
3. Các quy tắc bắt đầu bằng dấu gạch dưới kép được đánh giá khơng cĩ
điểm và được sử dụng trong các quy tắc meta mà bạn khơng muốn
các quy tắc phụ cĩ điểm.
34
4. Bất kỳ quy tắc nào bắt đầu bằng T_ sẽ được coi là quy tắc "thử
nghiệm" và sẽ được chạy với điểm 0,01(gần 0). Điều này cĩ thể hữu
ích vì khi đĩ bạn khơng phải lưu điểm cho chúng nếu bạn nghĩ rằng
bạn sẽ khơng giữ chúng.
Khi tạo một quy tắc, nên cho một số điểm thấp để sẽ khơng ảnh hưởng
nhiều đến thư rác, chẳng hạn như 0,1. Xem xét cân nhắc các quy tắc và đảm
bảo quy tắc đĩ kích hoạt khi muốn và khơng kích hoạt khi khơng muốn. Sau
đĩ, bắt đầu tăng điểm để nĩ cĩ tác dụng hơn, nhưng khơng nên tăng quá mức.
Chúng ta nên cân nhắc kỹ khi cĩ một quy tắc tùy chỉnh cĩ điểm trên 1,0
trừ khi phải chắc chắn rằng quy tắc đĩ sẽ khơng nhận được bất kỳ thơng báo
spam nào. Cũng nên nhớ rằng các quy tắc được viết ra để chỉ so sánh với các
tin nhắn khơng phải là spam và cho chúng điểm tiêu cực để tránh các lỗi dương
tính giả. Nĩi chung dương tính giả cĩ thể gây ra vấn đề vì thư cĩ giá trị cĩ thể
bị bỏ qua, nhưng âm tính giả chỉ gây phiền tối nhỏ.
2.2.2.2. Lọc theo nhận dạng
Phương pháp này khơng xử lý tồn bộ thư hoặc từ ngữ cụ thể nhưng biến
đổi thư thành một chữ ký (signature). Điều này cĩ thể được thực hiện theo
nhiều cách khác nhau ví dụ như sử dụng một hàm băm. Tuy nhiên, phương
pháp này hiệu quả khi kiểm tra những thay đổi nhỏ trong e-mail, chẳng hạn
như như một lời chào được cá nhân hĩa hoặc các thay đổi nhỏ của thơng điệp.
Chữ ký này cần được cập nhật và phân phối rất thường xuyên vì nội dung của
thư rác nhanh chĩng thay đổi. Quy trình chung để sàng lọc thư rác là xây dựng
chữ ký của nĩ và so sánh nĩ với các chữ ký của các thư rác trong cơ sở dữ liệu.
Các phương pháp lọc dựa trên chữ ký khơng chỉ khác nhau về cách
chúng xây dựng chữ ký; chúng cĩ thể dựa trên mơ hình máy trạm- máy chủ
hoặc chia sẻ ngang hàng để phân phối chữ ký. Đặc biệt khi người dùng báo cáo
thư rác, điều quan trọng là phải thiết lập ngưỡng báo cáo khi số lượng người
dùng báo cáo thư rác vượt qua ngưỡng, thư đĩ sẽ trở thành thư rác.
Một ví dụ của hệ thống này là Razor, một mạng phân tán, cộng tác, phát
hiện và lọc thư rác. Dự án này thơng qua đĩng gĩp của người dùng, Razor thiết
lập một kênh phân phối và cập nhật liên tục danh mục thư rác được đĩng gĩp
bởi chính người dùng. Việc phát hiện được thực hiện với các chữ ký thống kê
và ngẫu nhiên giúp phát hiện nội dung thư rác đột biến một cách hiệu quả.
Damiani và cộng sự đã đề xuất một mơ hình lọc thư rác cộng tác với các
máy chủ e-mail, chia sẻ thơng tin qua mạng P2P [2]. Đối với mỗi tin nhắn đã
được người dùng báo cáo là thư rác, một chuỗi hàm băm 256 bit được tính
35
tốn. Hai thơng điệp được coi là tương tự nếu hàm băm của chúng khác nhau
nhiều nhất là 74 bit. Các tác giả sử dụng một kiến trúc ba tầng bao gồm một
tầng người dùng, một tầng ngang hàng chứa e-mail máy chủ và một tầng siêu
cấp ngang hàng chứa những máy chủ e-mail đĩng vai trị thu thập và đánh giá
các báo cáo thư rác. Các máy chủ chia sẻ thơng tin (thơng tin về thư rác) với
nhau bằng cách gửi và nhận báo cáo thư rác đến/từ các máy chủ siêu ngang
hàng của họ. Máy chủ siêu ngang hàng chia sẻ thơng tin của họ với nhau. Giao
thức bao gồm chữ ký của thư rác.
Zhou và cộng sự cũng sử dụng mạng P2P [2]. Thay vì một chữ ký duy
nhất, họ tạo một tập hợp các mẫu dấu (fingerprint) cho mỗi tin nhắn và phân
phối mẫu dấu thơng qua hệ thống gọi là DOLR. Mục tiêu là phát hiện thư rác
hiệu quả, các mẫu dấu được phân phối trên tồn mạng, chia sẻ những điểm
tương đồng về nội dung của thư rác. Trong khi đĩ, hệ thống phân phối DCC
dựa trên một số máy chủ mở duy trì cơ sở dữ liệu chữ ký của các thư rác [2].
2.2.3. Các kỹ thuật lọc thư rác thơng minh
Các phương pháp phát hiện thư rác thơng minh đang được đánh giá là
cách hiệu quả nhất và được sử dụng rộng rãi trong lĩnh vực này. Các phương
pháp phát hiện thơng minh cĩ khả năng tự động hĩa cao và khơng cần nhiều
sự can thiệp của con người. Các phương pháp này được đặc trưng bởi độ chính
xác cao và cĩ thể thích ứng với những biến đổi về nội dung thư điện tử và sở
thích của người dùng. Theo quan điểm của các phương pháp tiếp cận thơng
minh, phân loại và phát hiện thư rác là một vấn đề phân loại điển hình, cĩ thể
được giải quyết bằng các phương pháp học máy cĩ giám sát. Thơng thường,
các phương pháp học máy cĩ giám sát trích xuất thơng tin dưới dạng các tính
năng từ tập huấn luyện và xây dựng các bộ phân loại dựa trên các tính năng
được trích xuất theo các nguyên tắc học tập tương ứng. Ngoại trừ sự tham gia
của con người trong quá trình huấn luyện, quá trình học tập và phân loại quy
trình được hồn thành tự động. Trong khi đĩ, mơ hình học tập cĩ thể thích ứng
với những thay đổi động của nội dung thư điện tử và sở thích của người dùng
thơng qua điều chỉnh các tập huấn luyện và cập nhật các bộ phân loại [12]. Rất
nhiều phương pháp học máy cổ điển đã được áp dụng thành cơng trong việc
phát hiện thư rác, bao gồm Naive Bayes, SVM, k-Hàng xĩm gần nhất (k-NN),
Mạng thần kinh nhân tạo (ANN) và Tăng cường [12].
36
2.2.3.1. Lọc thư dựa trên mơ hình phân lớp thống kê Nạve Bayes
Naive Bayes là một phương pháp thống kê cơ bản dựa trên xác suất được
đề xuất bởi Sahami cùng cộng sự [14]. Thuật tốn dự đốn và phân loại thư
mới là thư rác hay hợp pháp bằng cách sử dụng “training set”- là một tập dữ
liệu mẫu và được “huấn luyện”. Từ đĩ, thuật tốn sẽ sử dụng thơng tin từ dữ
liệu mẫu để đưa ra thống kê và so sánh, đối chiếu các đặc điểm của thư mới
với các bộ mẫu [2].
Bộ lọc thống kê dựa trên "Định lý xác suất Nạve Bayes" được coi là rất
hữu ích trong việc phát hiện thư rác từ những năm 1998-2000 [2]. Hiện nay,
nĩ vẫn rất phổ biến và được triển khai rộng rãi và sử dụng phương pháp thống
kê tốn học và vectơ đặc trưng– ví dụ như là cụm từ “ưu đãi”
Cơng thức Nạve Bayes là:
)Pr()|Pr()Pr()|Pr(
)Pr()|Pr(
)|Pr(
HHWSSW
SSW
WS
+
=
4
Với:
P(S) là xác suất xuất hiện của tổng số thư rác
P(H) là xác suất xuất hiện của tổng số thư hợp lệ
P(W|H) là xác suất từ, cụm từ đĩ xuất hiện trong thư hợp lệ
P(W|S) là xác suất từ, cụm từ đĩ xuất hiện trong các thư rác
Với P(S|W) là xác suất thư cĩ chứa từ “ưu đãi” là thư rác
Cho ví dụ cụ thể hơn như sau:
- Số lượng thư thư rác là 5000. Trong đĩ 600 thư điện tử chứa từ “ưu
đãi”
- Số lượng thư hợp lệ là 500, trong đĩ 9 thư cĩ từ “ưu đãi”
Như vậy xác suất một thư chứa từ “ưu đãi” cĩ khả năng là spam được
tính như sau:
𝑃(𝑆|𝑊) =
(600/5000) X (5000/5500)
(
600
5000) x (
5000
5500) + (
9
500) x (
500
5500)
≈ 88%
Trên thực tế, để xem xét một thư cĩ phải là thư rác hay khơng, ta phải
xem xét rất nhiều từ ngữ, dẫn đến việc tính tốn xác suất khả năng của một thư
cĩ phải là thư rác hay khơng như sau:
)1()1)(1( 2121
21
NN
N
pppppp
ppp
p
−−−+
=
5
37
Với: p là xác suất là thư rác của một thư điện tử đang kiểm tra.
p1 là xác suất P(S|W1) thư rác cĩ chứa từ thứ nhất
p2 là xác suất P(S|W2) thư rác cĩ chứa từ thứ hai
pn là xác suất P(S|W2) của thư rác cĩ chứa từ thứ n.
Thuật tốn Nạve Bayes cho phân loại thư rác như sau:
Thuật tốn 1. Nạve Bayes
1. Nhập tập thư điện tử
2. Trích xuất văn bản thành các token thành phần wi
3. Xác suất spam cho mỗi token là P (S/wi), xác suất ham cho mỗi token là P(H|wi)
4. Lưu giá trị xác suất spam cho mỗi token này
5. for each (M) do //chạy vịng lặp duyệt thư từ đầu đến cuối
6. while (M not end) do //chạy vịng lặp cho đến cuối thư
7. Chạy thư cho đến token kế tiếp wi
8. Tìm trong database xác suất spam của P(S|wi)
9. Tính xác suất spam của thư M là P(S|M) và xác suất ham của thư P(H|M)
10. Tính tốn khả năng xác suất thư rác của tồn thư điện tử P(M)
11. if P(M) > ngưỡng
12. thư được đánh dấu là spam
13. else if
14. thư được đánh dấu là ham
15. end if
16. end if
17. end while
18: end for
19. return kết quả phân loại thư rác.
20. Kết thúc chương trình
Thuật tốn trên trải qua những bước sau:
Giai đoạn 1. Huấn luyện
Đầu vào: Thư cần kiểm tra là thư rác hay khơng.
Phân tích cú pháp mỗi email thành các từ, cụm từ hay cịn gọi là token.
Tính tốn xác suất cho các token này.
38
Giai đoạn 2. Lọc
Đối với mỗi thư M, duyệt tuần tự từ đầu cho đến cuối thư và tính tốn
xác suất là spam của từng token wi, sau đĩ tính tốn xác suất ham của từng
token.
Sau đĩ tính tổng giá xác suất của thư, xác tổng xác suất P(M) lớn hơn
ngưỡng, thư sẽ bị đánh dấu là thư rác khác, nếu khơng sẽ được đánh dấu là
thư hợp lệ.
Đầu ra: Trả lại kết quả phân loại là thư rác hay thư hợp lệ.
2.2.3.2. Máy hỗ trợ vectơ
Máy hỗ trợ vectơ (Support Vectơ Machine, viết tắt là SVM) là một
phương pháp học máy cĩ giám sát dựa trên giảm thiểu rủi ro cấu trúc [22], là
một nhĩm các thuật tốn được đề xuất bởi Vapnik năm 1995 để giải quyết các
vấn đề phân loại và hồi quy. SVM tạo danh mục bằng một bộ phân loại nhị
phân. Ưu điểm của SVM là nĩ khơng bị ảnh hưởng bởi kích thước của khơng
gian đối tượng, thay vào đĩ tập trung vào việc tối ưu hĩa ranh giới giữa những
điển hình tích cực và tiêu cực trong các tài liệu huấn luyện. Phương pháp này
cố gắng tránh sử dụng nhiều tài liệu huấn luyện, chỉ sử dụng những tài liệu gần
ranh giới phân loại, để tạo ra một biên giới ngăn cách giữa các mẫu tích cực và
tiêu cực. SVM cĩ thể học bộ phân loại đa thức, hàm cơ sở xuyên tâm và mạng
nơron sigmoid ba cấp, do đĩ cĩ được khả năng học lớn.
SVM được ứng dụng trong việc cung cấp giải pháp cho các vấn đề lập trình
bậc hai cĩ các ràng buộc về đẳng thức và bất đẳng thức tuyến tính bằng mặt
siêu phẳng. SVM vẽ một đường hoặc một siêu phẳng chia một khơng gian ra
làm 2 khơng gian phụ, một khơng gian phụ chứa các vec tơ thuộc 1 nhĩm,
khơng gian kia chứa các vec tơ thuộc nhĩm cịn lại. Những vec tơ sẽ biểu diễn
văn bản huấn luyện và văn bản sẽ được phân chia vào nhĩm định phân loại,
trong trường hợp lọc thư rác là thư hợp lệ hoặc thư rác.
Mặc dù SVM cĩ thể khơng nhanh bằng các phương pháp phân loại khác,
nhưng thuật tốn cĩ độ chính xác cao vì khả năng mơ hình hĩa các đường biên
giới đa chiều khơng tuần tự hoặc đơn giản. SVM khơng dễ bị ảnh hưởng bởi
một tình huống hay mơ hình phức tạp chẳng hạn như cĩ nhiều tham số so với
số lượng quan sát. Những chất lượng làm cho SVM trở thành thuật tốn lý
tưởng để ứng dụng trong các lĩnh vực nhận dạng chữ ký điện tử, phân loại văn
bản, nhận dạng giọng nĩi.
1) SMSVM (SVM phân chia mềm): Vì khơng thể luơn luơn cĩ sự phân
tách rõ, SMSVM cố gắng phân chia rõ ràng nhất cĩ thể đối với các mẫu ví dụ,
39
trong khi cố gắng tối đa hĩa khoảng cách giữa các ví dụ đã được phân chia rõ
ràng [13].
2) Bộ phân loại kết hợp: Tretyakov đã thử kết hợp hai bộ lọc, cả hai đều
hiển thị kết quả xác suất dương tính giả thấp [13]. Sự kết hợp của SMSVM và
Nạve Bayes đã được thử nghiệm trên tập tin PU1. Kết quả thực nghiệm chỉ ra
94,4% phân loại đúng, 12,7% sai và 0,0% dương tính giả. Trong khi đĩ, độ
chính xác của SMSVM là 98,1%, với 1,6% dương tính giả và 2,3% âm tính
giả. Điều chỉnh tham số của SMSVM giảm số dương tính giả xuống 0,0%,
nhưng điều này dẫn đến giảm rõ rệt độ chính xác xuống 90,8% và sai âm tính
giả đến 21%. Do đĩ, phương pháp này cĩ thể giải quyết vấn đề dương tính giả
trong khi vẫn duy trì độ chính xác ở mức chấp nhận được [13].
Do khả năng giải quyết các vấn đề phân loại phi tuyến bằng cách áp
dụng thủ thuật kernel, SVM gần đây đã trở nên phổ biến. Nguyên tắc của SVM
là xây dựng một hypherlane để đảm bảo rằng khoảng cách giữa hai loại cấu
trúc là tối đa. Trong khi tối đa hĩa khoảng cách, SVM vẫn cần giảm nguy cơ
điểm bị phân loại sai nhĩm. Bằng cách này, chúng ta cĩ thể thấy SVM thực
chất là một phương pháp tối ưu hĩa bậc hai.
Thuật tốn Máy hỗ trợ vectơ được sử dụng để phân loại thư rác như sau:
Thuật tốn 2. SVM
1. Nhập thư mẫu để phân loại
2. Tập dữ liệu huấn luyện S, hàm kernel, {c1, c2, cnum} and {γ1, γ2, γnum}.
3. Số lượng của hàng xĩm gần nhất là k
4. for i:=1 to n //chạy vịng lặp n lần
5. set C= Ci // đặt giá trị C= Ci
6. for j:=1 to q //cho chạy j q lần
7. Đặt γ=γ;
8. Tạo ra phân loại SVM f(x) thơng qua tham số merger (C, γ);
9. if (f (x) là hàm phân biệt được tạo ra đầu tiên
10. f (x) là hàm SVM lý tưởng nhất f *(x)
11. else
12. So sánh hàm phân loại f(x) với hàm SVM lý tưởng nhất hiện tại, sử dụng
xác thực chéo k lần.
13. Giữ lại bộ phân loại chính xác hơn
14. end if
15. end for
16. end for
17. return kết quả phân loại thư điện tử là spam hay ham
18. Kết thúc chương trình
Thuật tốn SVM để phân loại thư như sau:
Đầu vào: Thư điện tử cần phân loại
40
Đầu ra: Kết quả phân loại là thư rác hay thư hợp lệ.
Ở đây C biểu thị tham số chi phí để điều chỉnh lỗi mơ hình phát sinh khi
một hàm gần khớp với một tập hợp điểm dữ liệu giới hạn bằng cách phạt lỗi.
Trong quá trình huấn luyện, giả sử chúng ta cĩ một tập dữ liệu cần được
đào tạo, theo giả thuyết chỉ cĩ sự hợp nhất của tham số (C, γ) cĩ khả năng tạo
ra bộ phân loại SVM ưu việt nhất.
Tìm kiếm theo lưới trên tham số C và γ là kỹ thuật khả thi duy nhất thường
được áp dụng trong đào tạo SVM để cĩ được sự hợp nhất của tham số này. Gán
hàm SVM lý tưởng nhất cho hàm SVM đầu tiên.
Ước tính xoay vịng k-lần được sử dụng trong tìm kiếm lưới để chọn bộ
phân loại SVM với ước tính chính xác nhất.
Mỗi lần, giá trị hàm SVM lý tưởng nhất f*(x) được so sánh và tính tốn lại,
để tìm được bộ phân loại chính xác hơn.
Cuối cùng, kết thúc chương trình, bộ phân loại chính xác nhất sẽ được sử
dụng để xác định thư điện tử là thư rác hay khơng.
2.3. Các nghiên cứu về lọc thư rác trên thế giới
Kể từ vài thập kỷ trước, các nhà nghiên cứu đang cố gắng bảo vệ thư
điện tử khỏi thư rác. Về vấn đề này, một số loại nghiên cứu đã được đã tiến
hành nhưng vẫn cịn chưa được quyết liệt. Dần dần theo thời gian, phân loại
thư rác đã trở thành một những lĩnh vực nghiên cứu hẹp với số lượng lớn các
nghiên cứu về các kỹ thuật để phân loại thư rác hiệu quả hơn.
Nhĩm nghiên cứu của Mohammed và cộng sự [23] đã đề xuất phương
thức phân loại thư rác sử dụng kỹ thuật học máy Python bằng cách tạo từ điển
spam-ham từ những từ khĩa trong dữ liệu huấn luyện và áp dụng thuật tốn
khai thác dữ liệu để lọc và thử nghiệm. Sau khi áp dụng nhiều phân loại trên
tập dữ liệu, phương pháp tiếp cận này dự đốn rằng, Nạve Bays và bộ phân
loại SVM là những thuật tốn nổi trội trong việc lọc và phân loại thư.
Phần lớn các nghiên cứu đều đánh giá cao các kỹ thuật học máy sử dụng
thuật tốn Nạve Bayes và SVM. Ví dụ, Rathi và cộng sự giới thiệu bộ lọc xem
xét sử dụng đồng thời Nạve Bayes, Bayes Net, SVM và Rừng ngẫu nhiên để
đạt hiệu quả cao hơn chiếm (99.72% độ chính xác). Một nghiên cứu khác
Adwad đề xuất phương pháp sử dụng “Nạve Bayes”, “SVM”, “K-hàng xĩm
gần nhấ”, “mạng nơ ron nhân tạo”, “rough sets” và đã đạt 99.46% tính chính
xác và hiệu quả tốt. Qua các nghiên cứu đều chỉ ra rằng NB và SVM đều là 2
thuật tốn học máy hiệu quả và đem lại xác suất phân loại cao tuy nhiên NB
41
vẫn được đánh giá nhỉnh hơn SVM [9]. Tuy nhiên, mơ hình Nạve Bayes được
đánh giá là cần cĩ nhiều cải biến hơn để đạt được độ chính xác cao hơn khi
phân loại [13] [24].
Tương tự, theo các nghiên cứu khác [13] [22] cũng đánh giá các phương
pháp phân loại và học máy, cho kết quả là phương pháp Nạve Bayes cĩ độ
chính xác cao hơn cả.
Shahi và đồng nghiệp [25] đã phát triển tính năng Lọc thư rác trên di
động di động cho tiếng Nepal bằng Nạve Bayesian và SVM. Mối quan tâm cơ
bản của nghiên cứu này là xem xét hiệu quả của các bộ lọc Nạve Bayesian và
SVM. Nghiên cứu chỉ ra rằng Nave Bayes tạo ra độ chính xác tốt hơn SVM.
Rusland và nhĩm nghiên cứu [26] đã thực hiện sử dụng thuật tốn Nạve
Bayes để lọc thư rác trên hai tập dữ liệu để đánh giá độ chính ...uật tốn 3. SVM-NB
Với: X = {x1, x2, ··· , xm}, Y = {y1, y2, ··· , ym} và V = {v1, v2, ··· , vm}.
1. for i:=1 to m //chạy vịng lặp m lần
2. for j:=1 to m //chạy vịng lặp con m lần
3. if i #j //so sánh chỉ mục i và j
4. Dij ← D(xi, xj )
5. end if
6. end for
7. end for
8. for i: 1 ← m //chạy vịng lặp m lần
9. Min ← ∞ //chạy Min đến vơ cùng
10. NN ← i //chạy i đến nn
11. for j:=1 ← m //chạy vịng lặp từ 1 đến m lần
12. if Min > D(xi, xj ) //nếu giá trị Min lớn hơn giá trị hiện tại
13. Min ← D(xi, xj ) //gán Min bằng D(xi, xj)
14. NN ← j //chạy j đến nn
15. end if
16. end for
48
17. if yi # yj then ///nếu yi khơng giống giá trị yj
18. Xĩa bỏ vi khỏi vectơ V
19. end if
20. end for
21: return V //trả lại giá trị vec tơ V
Trong thuật tốn, ta sử dụng X = {x1, x2, ···, xm} và Y = {y1, y2, ···, ym}
để biểu thị các vectơ đặc trưng và các danh mục tương ứng.
Cho V = {v1, v2, ···, vm} biểu thị kết quả phân loại.
Kết quả phân loại thu được sẽ được tinh chỉnh bởi thuật tốn SVM-NB, ví
dụ như các vectơ đặc trưng phụ thuộc sẽ bị xĩa khỏi bộ huấn luyện. Sau đĩ,
vectơ kết quả V sẽ được sử dụng bởi thuật tốn để thực hiện nhiệm vụ phân
loại.
3.1.2.2. Thành phần cấu tạo của plugin SVM-NB
Mơ đun plugin SVM-NB, bao gồm 3 tệp như sau:
- svm.cf – Đây là têp cấu hình của plugin.
- svm.pre – Đây là tệp được sử dụng làm preproccessor, gọi đến
plugin SVM
- svm.pm – Đây là tệp plugin được viết bằng code Perl.
Plugin SVM đã được tích hợp hiệu quả với Nạve Bayes nhằm cải thiện
khả năng lọc thư rác của hệ thống.
3.1.3. Xây dựng quy tắc lọc tiếng Việt
Song song với việc sử dụng Nạve Bayes và SVM làm phương pháp lọc
thư rác, hệ thống thực nghiệm sử dụng các luật đã cĩ được nghiên cứu sẵn để
lọc thư rác nhanh hơn mà khơng cần phải trải qua quá trình huấn luyện, học
của Bayes. Ngồi ra, lọc theo quy tắc cũng tăng thêm tính chính xác của Nạve
Bayes vì Nạve Bayes phụ thuộc nhiều vào dữ liệu mẫu, nếu dữ liệu mẫu khơng
cĩ độ chuẩn cao trong trường hợp thư điện tử thu thập được khơng cĩ đủ phổ
rộng cao. Việc xây dựng quy tắc dựa trên n-gram hồn tồn phù hợp với tính
chất của Tiếng Việt bao gồm cả từ đơn và từ ghép.
Ngồi, ra quá trình tự động trích xuất tokens sẽ gặp phải rất nhiều cụm từ
phổ thơng như “dear”, “thân mến”, “kính gửi”, “do not”, “reply”, do đĩ, để
tăng tính chính xác cho bộ lọc, cần cĩ sự can thiệp của con người để loại bỏ
các token này. Do đĩ, luận văn này lấy các token được trích xuất tự động và từ
đĩ xây dựng lên các quy tắc cho các “từ và cụm từ kép” theo thuật tốn Generic
Algorithm.
49
Quá trình để tạo ra 1 quy tắc như sau:
1- Thu thập dữ liệu huấn luyện
Đầu tiên ta phải thu thập một tập các thư rác và thư “ham” (khơng phải
thư rác) và cố gắng thu thập nguồn thư đủ chuẩn để bao trùm được nhiều trường
hợp và lĩnh vực.
2- Tiền xử lý
Sau đĩ, các nội dung văn bản sẽ được tiền xử lý để lấy nội dung chính:
4. Giải mã cấu trúc thư MIME
5. loại bỏ các phần khơng phải văn bản hoặc các phần khơng được hiển thị
cho người xem (chẳng hạn như tệp đính kèm)
6. giải mã văn bản được trích dẫn hoặc mã base64
7. lọc lấy nội dung của trang HTML (nếu cĩ)
8. Chuẩn hĩa khoảng trắng, “đây \nlà \ n1 \ nbài” -> “đây là 1 bài”
3- Phân loại và xử lý
Tiếp theo, tệp dữ liệu được xử lý và phân loại bằng thuật tốn sau:
• Chiết xuất N-gram
Cho chạy tuần từ từng thư điện tử trong tập hợp spam. Mỗi thư được gắn
một ID ngắn. Cắt tất cả ngoại trừ 32 kbytes đầu tiên của văn bản (thuật tốn
này cho rằng nội dung thư của spammers thường khơng quá 32 KBs, nội dung
thể hiện spam chủ yếu ở 32Kbbytes). Lưu bản sao của chuỗi văn bản rút gọn
này.
Chia văn bản thành "từ" – là phần ký tự khơng cĩ khoảng trắng được
phân tách bằng dấu cách. Nén mỗi “từ” thành một ID ngắn hơn để tiết kiệm
dung lượng:
Ví dụ như:
"Đây là một bài kiểm tra" được nén thành "a b c d".
Sau đĩ từ điển nén này được chia sẻ cho tất cả các thư để phục vụ tra
cứu ngược sau này.
Sau đĩ chia ra thành đoạn mã 2 từ hoặc 3 từ (cịn được gọi là N-gram):
Ví dụ như mã rút gọn sẽ "a b c d" được chia thành các cặp mã như sau ["a
b", "b c", "c d", "a b c", "b c d"].
Loại bỏ N-gram trùng lặp, vì vậy mỗi N-gram chỉ xuất hiện một lần trên
mỗi thơng báo. Đếm và tăng bộ đếm mã (token counter) và thêm ID vào
“message subset hit”.
50
Tiếp theo, chúng ta sẽ chạy thuật tốn cho thư hợp lệ. Thực hiện cùng
một thuật tốn, tuy nhiên, khơng cắt gọn văn bản, khơng cắt ở 32KB và thay
vì tăng token counter, khi tìm thấy cụm từ N-gram chỉ cần xĩa danh sách trong
“token counter” và “message subset hit”.
Cuối quy trình, sau khi tất cả thư rác và thư hợp lệ được xử lý, chúng ta sẽ cĩ:
a. Bảng thống kê số lần xuất hiện của các văn bản chứa các cụm từ
N-gram.
b. Bảng thống kê phụ chứa thơng tin chính xác về tập con nào của
văn bản chứa N-gram đĩ.
c. Bảng tra cứu đảo ngược mã (token-to-words).
Sau đĩ chạy tuần tự bảng hit-counts table để loại bỏ các mục khơng thường
xuyên và một lần (loại bỏ những cụm từ cĩ xác suất xuất hiện thấp).
Tạo một băm ánh xạ các tập con với tập các mẫu N-gram của tập con đĩ.
Đối với mỗi tập hợp con, hãy chọn một N-gam duy nhất và lưu lại số lần xuất
hiện.
Chạy lại cho các tập con tin nhắn, theo số lần xuất hiện của chúng. Lấy tất
cả các mẫu của tập con thơng báo, giải mã N-gam trong tất cả các mẫu bằng
cách sử dụng bảng tra cứu ngược và áp dụng bước sau sau cho tập mẫu đĩ:
• Thu gọn các mẫu
Đầu vào là một mảng các mẫu N-gram, cùng các tập con của văn bản.
Chúng ta cũng cĩ một loạt các chuỗi văn bản rút gọn của tất cả các thư rác đã
lưu, từ bước trích xuất N-gram. Do đĩ, chúng ta cĩ thể áp dụng một dạng của
thuật tốn BLAST để tra cứu ngược.
Lấy mẫu đầu tiên, sau đĩ tìm bất kỳ một thư nào từ mảng thư đã lưu so
sánh với mẫu này. Tìm ký tự đơn trước mẫu trong thư và thêm ký tự đĩ vào
mẫu. Xem số lần xuất hiện cho mẫu mới này cĩ bằng mẫu cũ khơng; nếu khơng,
khơi phục lại mẫu cũ và dừng lại. Nếu là đầu văn bản của thư, dừng lại. Sau
đĩ, áp dụng thuật tốn tìm về phía sau của ký tự mẫu.
Cuối cùng, bạn đã mở rộng mơ hình từ N-gram cơ bản đến mức cĩ thể để
đi theo cả hai hướng trước và sau của mẫu cho đến khi chạm đầu hoặc cuối văn
bản.
Tiếp theo, loại bỏ tất cả các mẫu trong mảng mẫu được cộng dồn lại (tức
là xuất hiện trong) mẫu mở rộng mới này.
Thuật tốn này chạy với 3 từ N-gam sẽ cho kết quả nhanh hơn 2 từ N-
gam đơn thuần.
51
Cuối cùng, xuất ra một dịng liệt kê tỷ lệ phần trăm số tin nhắn rác xuất
hiện bằng cách tính:
Tỉ lệ = số lần xuất hiện/ tổng số thư rác
và danh sách các mẫu mở rộng cho tập con của tin nhắn đĩ, sau đĩ để
chuyển sang tin nhắn tiếp theo, cĩ cấu trúc như sau:
Hình 3.11: Tỉ lệ xuất hiện của các cụm từ
Chi tiết về thống kê tỉ lệ phần trăm của các cụm từ tiếng Việt được xuất
hiện nhiều nhất trong thư rác được biểu diễn như hình dưới:
Hình 3.12. Thống kê các cụm từ tiếng Việt xuất hiện nhiều nhất trong dữ liệu huấn luyện
• Cách tính điểm cho các cụm từ
Để tính điểm cho các cụm từ, luận văn này đề xuất sử dụng thuật tốn
Perceptron (sử dụng mơ hình mạng nơron).
52
Perceptron là dạng mạng nơron đơn giản nhất. Nĩ bao gồm một chức
năng chuyển và một chức năng kích hoạt. Chúng mơ phỏng tốc độ phĩng điện
của một nơron sinh học theo thời gian.
Hàm truyền là tổng của các trọng số và đầu vào. Nĩ mơ phỏng điện thế
màng của một tế bào thần kinh. Khi tích lũy điện tích trên màng vượt quá một
ngưỡng nhất định, tế bào thần kinh kích hoạt, gửi một xung điện xuống sợi
trục. Việc triển khai này sử dụng hàm chuyển tuyến tính:
=+=
n
i ii
xwbiasxf
0
*)(
7
Trong đĩ bias là độ biến thiên
wi: là trọng số,
xi: bật hoặc tắt bộ lọc (0 là tắt, 1 là bật).
Điều này khá giống với cách thức hoạt động của hệ thống điểm của lọc
thư rác nếu đặt biến thiên (bias) là là 0, w_i là điểm cho quy tắc i và x_i là bật
hoặc tắt bộ lọc.
Chức năng kích hoạt mơ phỏng luồng điện chạy xuống sợi trục. Nĩ lấy
đầu ra của hàm truyền làm đầu vào và biến đổi nĩ, sử dụng hàm activation sau:
)))(exp(1(
1
)(
xf
xy
−+
=
8
Với y(x) là hàm phi tuyến tính.
Hàm phi tuyến tính này hạn chế đầu ra của hàm truyền từ 0 đến 1. Trên
biểu đồ, nĩ trơng giống hình chữ S, x thì tiến đến âm vơ cùng và 1 khi x tiến
tới dương vơ cùng. Hệ số gĩc của hàm lớn nhất khi x = 0 và giảm dần khi tiếp
cận đường cong.
Phương pháp phổ biến nhất để huấn luyện mạng nơron được gọi là
‘gradient descent’. Nĩ liên quan đến việc điều chỉnh lặp đi lặp lại các tham số
của mạng để rằng tỷ lệ lỗi trung bình luơn giảm. Điều này được thực hiện bằng
cách phương dốc nhất của gradient lỗi, giảm giá trị của hàm lỗi cho lần lặp tiếp
theo của thuật tốn.
Nếu cả chức năng chuyển và chức năng kích hoạt đều khả vi, gradient
lỗi của mạng nơ-ron cĩ thể được tính tốn bằng trọng số và độ chệch. Nếu
khơng đi vào giải tích, lỗi gradient cho một perceptron cĩ chức năng truyền
tuyến tính. Hàm activation logig và hàm lỗi bình phương trung bình là:
53
E (x) = y (x) * (1-y (x)) * (ydự kiến - y (x)) 9
Với E(x) là tỉ lệ lỗi trung bình. Với y(x) là hàm phi tuyến tính.
Các trọng số được cập nhật bằng cách sử dụng hàm:
wi = wi + E (x) * xi * rate 10
Với: wi là trọng số
E(x): tỉ lễ lỗi trung bình
rate: tỉ lệ học
Vì các lần truy cập quy tắc lọc thư rác khơng nhiều nên phần dốc xuống
cơ bản thuật tốn là khĩ khả thi. Do đĩ, cần sử dụng một biến thể được gọi là
Giảm dần độ dốc ngẫu nhiên.f
Thay vì thực hiện cập nhật hàng loạt, tập huấn luyện được thực hiện
một cách ngẫu nhiên, làm tăng dần các bản cập nhật. Ngồi ra, trong việc triển
khai này, tỷ lệ học tập là được sửa đổi bởi số lần xuất hiện của quy tắc cho một
phiên bản huấn luyện nhất định. Kết hợp với nhau, chúng cho phép tính tốn
được trọng số tốt cho các quy tắc khơng thường xuyên xảy ra.
Cuối cùng, trọng số được chuyển đổi thành điểm và xuất ra định dạng
tệp quen thuộc. Trọng số (weight) được chuyển đổi thành điểm (score) bằng
cách sử dụng chức năng này
score = threshold * weight/bias 11
Với score là điểm số,
threshold: ngưỡng
weight: trọng số
bias: độ biến thiên.
Dựa trên thuật tốn trên, luận văn này đã xây dựng được 79 quy tắc cho
bộ lọc tiếng Việt, cĩ nhiều hơn 79 n-grams, tuy nhiên, chỉ những token được
xuất hiện với tỉ lệ cao và cĩ nghĩa sẽ được sử dụng để tạo quy tắc. Quá trình
này phải tự sàng lọc cẩn thận nếu các từ ngữ được gọi là “common words”
khơng phải spam cĩ tỉ lệ xuất hiện cao sẽ dễ dẫn đến kết quả âm tính giả khiến
cho nhiều thư điện tử hợp lệ sẽ bị đánh dấu là spam. Các từ ngữ “chung chung”
được sử dụng thường xuyên khơng cĩ ý nghĩa spam sẽ được loại bỏ, ví dụ như
“Do not”, “thư điện tử”, “sincerely” mặc dù cĩ tần suất xuất hiện cao. Trong
54
giới hạn của luận văn này, 79 quy tắc đã được xây dựng và áp dụng, giúp cho
việc lọc thư rác được nhanh hơn, hiệu quả cao đối với các hệ thống chưa huấn
luyện học Nạve Bayes hoặc hệ thống mới xây dựng lại, ví dụ:
Hình 3.13 Các quy tắc tạo ra để ổn định hệ thống lọc
Các quy tắc trên được viết để lọc nội dung thư (body) do chủ yếu nội
dung thư rác nằm ở nội dung thư, do nội dung trích xuất để xây dựng quy tắc
trên lấy từ nội dung thư.
Sau khi bộ quy tắc được xây dựng, các bộ quy tắc này sẽ được lưu
trong tệp tin cĩ tên là myrules.cf trong đường dẫn
/opt/zimbra/data/spamassassin/localrules/ hoặc
opt/zimbra/data/spamassassin/rules/ hoặc lưu trực tiếp lên file cấu hình của
hệ thống hoặc lưu ở mục ~/.spamassassin/user_pref, nơi lưu trữ những tùy
chỉnh của người dùng.
55
Khi khởi động hệ thống, Spamassassin sẽ kiểm tra thư theo các quy tắc
đã lưu trên các đường dẫn trên, nếu tìm thấy một quy tắc khớp thì điểm sẽ được
cộng lại. Điểm cuối cùng là tổng điểm của các quy tắc và điểm được tạo ra bởi
thuật tốn Nạve Bayes.
3.2. Thực nghiệm
3.2.1. Dữ liệu huấn luyện
Hệ thống được cài đặt sẽ trải qua quá trình huấn luyện. Dữ liệu mẫu thư tiếng
Anh được thu thập từ nguồn Spamassassin corpus. Nguồn dữ liệu tiếng Anh
này được đánh giá cĩ độ chuẩn cao.
Tuy nhiên, việc chia sẻ thư rác tiếng Việt vẫn cịn ít ỏi. Do đĩ, việc thu thập dữ
liệu thư tiếng Việt cịn hạn chế về số lượng. Thống kê và các thư được sử dụng
để huấn luyện như sau:
Tổng số thư Thư rác Thư bình thường
1650
Anh Việt Anh Việt
500 223 642 285
Dữ liệu mẫu sẽ được chia ra làm 2 thư mục: spam và ham. Dữ liệu spam và
ham tiếng Anh và tiếng Việt sẽ được chia khá đồng đều để tránh việc “học
lệch” dẫn đến sai số cao. Sau đĩ phần mềm sẽ được huấn luyện dựa theo thuật
tốn Nạve Bayes.
Hình 3.14. Quá trì huấn luyện dữ liệu mẫu của Nạve Bayes
3.2.2. Kiểm thử hệ thống khi chưa cài Nạve Bayes
Khi chưa cài Nạve Bayes, phần lớn các thư điện tử tiếng Việt đều được
cho là thư điện tử hợp lệ, do hệ thống mặc định chỉ cĩ quy tắc tiếng Anh, chưa cĩ
quy tắc tiếng Việt cũng như hệ thống chưa được huấn luyện nên thư điện tử chưa
được phân loại đúng. Dưới đây là ví dụ về một thư rác tiếng Việt nhưng chưa được
phân loại là spam:
56
Hình 3.15. Thư rác chưa được phân loại đúng khi chưa được huấn luyện Nạve Bayes
3.2.3. Kiểm thử hệ thống chỉ cĩ Nạve Bayes
Sau khi được huấn luyện và tích hợp Nạve Bayes, phần lớn thư rác đã được
phân loại đúng và cho vào folder Junk và đánh dấu là ***SPAM*** ở header.
Hình 3.16 Thư rác được phân loại là thư rác sau khi huấn luyện Nạve Bayes
Tổng kiểm tra trên tồn bộ file dữ liệu spam và ham sử dụng Nạve Bayes,
gồm 1650 thư, kết quả như sau:
57
Hình 3.17: Kết quả kiểm tra mass-check
Tổng số thư spam 723 Tổng số thư ham 927
Số thư điện tử được phát hiện là
spam
655 Số thư điện tử được phát hiện là ham 839
Tỉ lệ phát hiện spam ~91% Tỉ lệ phát hiện ham ~91%
• Độ chính xác là: ~ 91%
• Tỉ lệ recall là: ~91%
Thống kê về sự phân bổ điểm của các thư rác như sau:
Hình 3.18: Phân bổ điểm của tập thư rác
-50
0
50
100
150
200
250
300
350
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Phân bổ điểm của các thư rác
Spam scores Number of Messages
58
Cĩ thể nhận thấy chủ yếu các thư rác cĩ phổ điểm từ 4-8, do đĩ hệ thống
nội bộ đặt threshold trong khoảng ~ 5 để đảm bảo cĩ khả năng lọc được nhiều thư
rác nhất.
Hệ thống đã nhận Nạve Bayes và hiển thị điểm số của BAYES, ví dụ thư
dưới đây đã được lọc Nạve Bayes, và được chấm 3 điểm theo luật của Nạve
Bayes.
Hình 3.19. Điểm của 1 thư rác đã cĩ lọc Nạve Bayes
Kiếm tra thực tế người dùng trải nghiệm hệ thống Zimbra đã tích hợp Nạve
Bayes, kết quả kiểm tra chi tiết như sau:
Tổng số thư
điện tử thực
nghiệm
Số thư
điện tử
được nhận
định là
spam
Số thư
điện tử
được nhận
định là
ham
Số thư
ham được
nhận định
là spam
Số thư
spam được
nhận định
là ham
Tỉ lệ thu
hồi recall
(nhận định
đúng spam)
Độ chính
xác
(Precision
rate)
500 247 253 19 23 91% 91.6%
59
3.2.4. Tỉ lệ lọc sau khi tích hợp SVM-NB
Hình 3.20. Thống kê khả năng lọc thư của hệ thống
Tổng số thư
điện tử thực
nghiệm
Số thư
điện tử
được
nhận định
là spam
Số thư
điện tử
được
nhận
định là
ham
Số thư
ham được
nhận định
là spam
Số thư
spam
được
nhận định
là ham
Tỉ lệ thu
hồi recall
(nhận định
đúng
spam)
Độ chính
xác
500 275 222 13 6 95% 95.6%
Hình 3.21. Tỉ lệ nhận định thư rác đúng
53%
3%
43%
1%
Thống kê khả năng lọc thư của SVM-NB
Tổng số spam được nhận định đúng Spam được nhận định Ham
Tổng số ham được nhận định đúng Ham được nhận định là Spam
95%
5%
Tỉ lệ recall
Thư rác đúng Thư rác sai
60
Hình 3.22. Tỉ lệ chính xác của lọc thư rác hợp lệ
• Đánh giá chung
Luận văn đã đề xuất hệ thống Support Vectơ Machine và Nạve Bayes để
đạt được hiệu quả và lọc thư rác hiệu quả. Sự kết hợp này nhằm mục đích
loại bỏ giả định về tính độc lập giữa các tính năng được trích xuất từ tập huấn
luyện, khi thuật tốn Nạve Bayes được áp dụng. Sử dụng SVM để phân chia
các mẫu huấn luyện thành các loại khác nhau và xác định các mẫu huấn luyện
phụ thuộc. Loại bỏ những mẫu đĩ dẫn đến một tập huấn luyện với ít tính năng
trùng lặp hơn.
Dựa vào thử nghiệm, cĩ thể nhận thấy thuật tốn SVM-NB đạt được độ
chính xác và tỷ lệ thu hồi cao trong việc phát hiện thư rác và SVM-NB là một
hệ thống phân loại hiệu quả hơn, so với giải pháp dựa trên Nạve Bayes thuần
túy. Hệ thống được thiết kế cho các thư điện tử cĩ sự phụ thuộc mạnh mẽ
giữa nhau, điều này thường đúng trong hệ thống thư điện tử hiện tại.
Với sự phát triển nhanh chĩng của hệ thống thư điện tử, thư rác khơng chỉ
giới hạn cho các thư điện tử dựa trên văn bản. Trên thực tế, cĩ những thư điện
tử rác chứa nhiều định dạng dữ liệu khác nhau, ví dụ: hình ảnh và các các loại
tệp đa phương tiện. Hiện tại, thuật tốn SVM-NB là chỉ áp dụng cho phát
hiện thư rác dựa trên text, luận văn vì vậy sẽ cĩ thể mở rộng SVM-NB và làm
cho nĩ phù hợp để lọc thư rác với các định dạng dữ liệu khác nhau.
• Phân tích chi tiết của kết quả lọc thư rác như sau:
Thư hợp lệ: nếu gửi từ thư mail.vnu.vn thì độ chính xác là thư hợp lệ cao
nhưng độ chính xác là thư rác lại thấp. Do quan hệ tin tưởng trong tên miền.
96%
4%
Tỉ lệ lọc thư hợp lệ
Thư hợp lệ nhận định đúng Thư hợp lệ nhận định sai
61
Thư rác gửi từ tên miền khác thì khả năng thư rác sẽ cao hơn là thư cùng
domain.
Chủ yếu thư được lọc là thư tiếng Việt, một số thư Tiếng Anh và cả thư lẫn
tiếng Anh và tiếng Việt để đảm bảo đúng phong cách viết thư hiện hành. Đánh giá
tỉ lệ lọc thư rác khá khả quan.
• Gửi thư rác từ IP trong blacklist
Kết quả: Địa chỉ IP bị chặn nên khơng gửi thư được do IP kết nối sẽ bị kiểm
tra và khi IP nằm trong danh sách đen sẽ bị chặn.
• Gửi thư rác từ địa chỉ IP trong whitelist
Kết quả: Thư rác được cho phép đi qua.
Lý do: IP kết nối sẽ bị kiểm tra và khi IP nằm trong danh sách trắng sẽ được
cho phép đi qua mà khơng cần kiểm tra nội dung.
• Gửi thư rác từ máy khơng phải là máy chủ mail
Kết quả: Thư rác bị chặn, khơng kết nối để gửi được.
• Gửi thư rác từ các máy khơng cĩ hostname hợp lệ
Kết quả: Thư rác khơng gửi được do bị chặn kết nối.
• Gửi thư rác từ from mail.spammer.vn
Kết quả: Thư rác được nhận định là spam. Đây là kết quả chính xác.
• Gửi thư rác from mail.vnu.vn
Kết quả: Thư rác được nhận định là ham do cĩ kết nối nội bộ và thư điện tử từ
cùng tên miền nội bộ.
Lý do: Cĩ thể nhận thấy Nạve Bayes đã huấn luyện đối với thư điện tử từ tên
miền nội bộ (mail.vnu.vn) thì sẽ được huấn luyện là thư hợp lệ, được đánh dấu
auto-learn=ham khi xem thư điện tử header.
• Gửi thư rác từ mạng Ip cục bộ
Kết quả: Thư được nhận định là ham do đối với những IP từ địa chỉ cục bộ
(LAN) sẽ được nhận định là đáng tin cậy, mặc dù địa chỉ thư điện tử khơng
phải là cùng domain.
3.2.5. Kiểm tra các quy tắc tự xây dựng
Để củng cố thêm và tăng khả năng lọc thư điện tử, và cũng như cĩ khả
năng ổn định khi cĩ sự thay đổi về hệ thống sau này do bất cứ lý do gì chẳng
62
hạn như sập máy chủ thì việc tìm lại nguồn data để huấn luyện lại rất tốn nhiều
thời gian và cơng sức, đồng thời cũng các mẫu huấn luyện đều cĩ độ sai lệch
cao, do đĩ, luận văn này đề xuất xây dựng thêm tập luật từ dữ liệu cĩ sẵn, dựa
trên N-grams, đáp ứng được đặc tính của tiếng Việt bao gồm cả từ đơn và từ
kép.
Hệ thống được cấu hình sao cho tự động cập nhật các quy tắc (rule) mới
nhất từ nhà cung cấp. Ngồi ra, 79 quy tắc mới được xây dựng đều đã được
thêm vào. Kết quả, các quy tắc đã được hệ thống lọc nhận và lọc những thư
điện tử phù hợp với quy tắc.
Hình 3.23.Thư rác kiểm thử các quy tắc đã tạo
Kết quả, các quy tắc đã được hệ thống lọc nhận và lọc những thư điện tử
phù hợp với quy tắc.
Hình 3.24. Chi tiết tính điểm cho 1 thư đáp ứng quy tắc được tạo
63
Thư trên đã đáp ứng quy tắc LOCAL_RULE_21, LOCAL_RULE_48,
LOCAL_RULE_72, LOCAL_RULE_74, LOCAL_RULE_79 và được phân
loại vào thư rác sau khi tính tổng score là 5.198 vượt ngưỡng threshold 4.
(Ngưỡng threshold 4 đến 5 chỉ để được đặt cho hệ thống máy chủ nội bộ để
nhằm test thư rác, trong thực tế cần đặt threshold cao hơn để tránh mất thư
hợp lệ, giảm tỉ lệ âm tính giả).
64
KẾT LUẬN
• Nội dung đã thực hiện
Luận văn đã nghiên cứu tổng quan về thư rác, các phương pháp trích xuất thư điện
tử, các mơ hình cũng như kỹ thuật lọc thư rác. Ngồi ra, luận văn cịn nghiên cứu
các bài báo về lọc thư rác trên thế giới và Việt Nam để học tập kinh nghiệm. Luận
văn đã dựa trên bối cảnh nghiên cứu và đặc trưng của ngơn ngữ tiếng Việt, đã tìm
ra hướng đi cho phương án lọc thư rác Tiếng Việt.
Sau khi cân nhắc về khả năng lọc, tốc độ lọc, tính khả thi cũng như tính chính xác,
thuật tốn Nạve Bayes kết hợp SVM (SVM-NB) đã được lựa chọn để lọc thư rác
trong bối cảnh ở Việt Nam thư điện tử được sử dụng cả Tiếng Việt, Tiếng Anh và
tiếng Việt khơng dấu và kết hợp.
Kết quả thử nghiệm cho thấy rằng cách tiếp cận của chúng tơi đạt được độ chính
xác khá cao khi phân loại thư rác bằng tiếng Việt và tiếng Anh.
Ngồi ra, luận văn cịn xây dựng các quy tắc để lọc thư rác dựa trên quy tắc N-
gram, giúp cho hệ thống lọc thư được ổn định, và giúp ích cho các hệ thống lọc
thư mới mà chưa qua huấn luyện dữ liệu mẫu.
• Định hướng tương lai
Thư rác Việt Nam đang trong giai đoạn phát triển, do đĩ, độ chính xác của hệ
thống phụ thuộc rất nhiều vào tập huấn dữ liệu mẫu của thư rác và thư hợp lệ của
người Việt. Thư rác và thư hợp lệ tiếng Anh được chia sẻ nhiều trên các corpus,
tuy nhiên, dữ liệu về thư rác Tiếng Việt chưa được chia sẻ. Do đĩ, mức độ bao
quát vẫn cịn hạn chế. Vì vậy, với các nghiên cứu tiếp theo sẽ tiếp tục tập hợp để
cĩ được bộ huấn luyện lớn và chuẩn hơn nhằm cải thiện độ chính xác của phương
pháp này.
Vấn nạn thư rác ở Việt Nam đang trở thành ngày nay phức tạp. Người dùng cĩ
thể nhận được một thư rác bằng chữ hoặc bằng nhiều định dạng khác nhau như
HTML, ảnh, ảnh động,... Do đĩ, cần cĩ nghiên cứu sâu hơn về vấn đề này để đề
xuất một phương pháp tối ưu lọc thư rác trong bối cảnh trên. Phương hướng
nghiên cứu trong tiếp theo sẽ đề xuất tích hợp thêm modun OCR để cĩ thể lọc
những thư rác bằng ảnh và chữ song song để tăng cường khả năng và mức độ lọc
thư rác của hệ thống.
65
TÀI LIỆU THAM KHẢO
[16] A. Annadatha & M. Stamp, "Image spam analysis and detection," J Comput Virol Hack
Tech , vol. 14, pp. 39-52, 2018.
[37] A. H. A. &. S. A. T., "YouTube Spam Comments Detection Using Artificial Neural
Network," Journal of Engineering and Applied Sciences, , vol. 13, no. 22, pp. 9638-
9642., 2018.
[2] A., Granacher, D. Harz, J., Kader, J., Noll, & M., Usher, Unsolicited bulk email
detection using URL tree hashes, Washington, DC: U.S.: Patent and Trademark Office,
2020.
[21] A.J. Saleh, A. Karim,B., Shanmugam, S., Azam, K., Kannoorpatti, M., Jonkman, M.,
& F.,D., Boer, " An intelligent spam detection model based on artificial immune
system.," Information 10, vol. 10, no. 6, p. 209, 2019.
[14] A.T. Sabri, A.H. Mohammads, B. Al-Shargabi & M.A Hamdeh, "Developing new
continuous learning approach for spam detection using artificial neural network
(CLA_ANN).," European Journal of Scientific Research, vol. 42, no. 3, pp. 525-535,
2010.
[19] Biggio, B., Fumera, G., Pillai, I., & Roli, F. (2011), "A survey and experimental
evaluation of image spam filtering techniques," Pattern recognition letters, vol. 32, no.
10, pp. 1436-1446, 2011.
[39] C. &. C. G. T., "Xgboost: A scalable tree boosting system.," in In Proceedings of the
22nd acm sigkdd international conference on knowledge discovery and data mining ,
785-794, 2016.
[11] C., Taylor, A., McDonald, D., Rusenko, P.B., Koetter, R.,Hildebrandt & M., Back,
Linux Email: Set up and Run a Small Office Email Server., 2005.
[13] D.R. Amancio, C.H. Comin, D. Casanova, G. Travieso, O.M Bruno, and F.A.
Rodrigues, F.A., "A Systematic Comparison of Supervised Classifiers-Supporting
Information," 2014.
[31] DD.Quan, Q. A. Tran and F. Jiang, , "Automated generation of ham rules for
Vietnamese spam filtering," in The 2014 Seventh IEEE Symposium on Computational
Intelligence for Security and Defense Applications (CISDA), Hanoi, 2014.
[20] E. Tan, L. Guo, S. Chen, X. Zhang & Y. Zhao, "Spammer Behavior Analysis and
Detection in User Generated Content on Social Networks," IEEE 32nd International
Conference on Distributed Computing Systems, pp. 305-314, 2012.
[41] E.G.,Dada, J.S., Bassi, H. Chiroma, A.O, Adetunmbi and O.E, Ajibuwa, "Machine
learning for email spam filtering: review, approaches and open research problems,"
Heliyon, vol. 5, no. 6, p. e01802, 2019.
[40] G., Jain, M., Sharma, M., & B., Agarwal., "Spam detection in social media using
convolutional and long short term memory neural network," Annals of Mathematics
and Artificial Intelligence, vol. 85, no. 1, pp. 21-44, 2019.
[9] H. Bhuiyan, A, Ashiquzzaman, T.I. Juthi, S. Biswas, J. Ara, "A survey of existing e-
mail spam filtering methods considering machine learning techniques," Global Journal
of Computer Science and Technology, 2018.
[24] H. Bhuiyan, A.Ashiquzzaman, T.I. Juthi, S.Biswas & J.Ara, "A Survey of Existing E-
Mail Spam Filtering," Global Journal of Computer Science and Technology: Computer
Software & Data Engineering, vol. 18, no. 2, pp. 22-29, 2018.
66
[32] H. Nguyen, H. Nguyen, T., Vu, N. Tran, & K.Hoang, "Internet and genetics algorithm-
based text categorization for documents in Vietnamese," in Research, Innovation and
Vision of the Future, the 3rd Int. Conf. in Computer Science. RIVF, 2005.
[4] J. Clement, "Global spam categories 2019," 14 5 2020. [Online]. Available:
https://www.statista.com/statistics/263452/most-common-content-of-spam-messages-
worldwide-by-category/. [Accessed 5 9 2020].
[5] J. Clement, "Global spam volume as percentage of total e-mail traffic from January
2014 to March 2020, by month," 24 June 2020. [Online]. Available:
https://www.statista.com/statistics/420391/spam-email-traffic-share/. [Accessed 5 9
2020].
[1] J., M., Rao, & D.,H., Reiley, "The economics of spam.," Journal of Economic
Perspectives, vol. 26, no. 3, pp. 87-110, 2012.
[18] K. &. C. D. M., "Image Spam Detection: A Review.," in In International Conference
on Advances in Computer science and electronics engineering., 2017.
[38] M. &. S. S. M.A., "Using an Artificial Neural Network to Improve Email Security.,"
In Implementing Computational Intelligence Techniques for Security Systems Design,
pp. 131-145, 2020.
[33] N. D. L. V. D. V. a. B. N.Long, "Detecting Vietnamses spams using a muti-objective
evolutionary approach," Tạp chí Nghiên cứu KH&CN quân sự, pp. 203-216, 2017.
[26] N.F. Rusland, N. Wahid, S., Kasim, S., & H. Hafit, "Analysis of Nạve Bayes
Algorithm for Email Spam Filtering across Multiple Datasets," IOP Conference Series:
Materials Science and Engineering, vol. 226, no. 1, 2017.
[30] N.T.Anh, T.Q. Anh and N.B. Binh, "Vietnamese spam detection based on language
classification," in Second International Conference on Communications and
Electronics, Hoian, 2008.
[8] R. B¨ohme and T. Holz, "The Effect of Stock Spam on Financial Markets," in The
Workshop on the Economics of Information Security (WEIS) 2006, University of
Cambridge, 2006.
[27] S. C. I. &. Ü. A.S. Yüksel, "Design of a Machine Learning Based Predictive Analytics
System for Spam Problem," Acta Physica Polonica, 2017.
[23] S. Mohammed, O. Mohammed, J. Fiaidhi, S. Fong and T.H. Kim, "Classifying
unsolicited bulk email (UBE) using python machine learning techniques.,"
International Journal of Hybrid Information Technology, vol. 6, no. 1, pp. 43-56, 2013.
[7] Silva, J. A. T.d.,A. Al-Khatib, & P.Tsigaris, " Spam emails in academia: issues and
costs.," Scientometrics, , vol. 122, no. 2, pp. 1171-1188, 2020.
[3] Statista, [Online]. Available: https://www.statista.com/statistics/270899/global-e-
mail-spam-rate/. [Accessed 5 September 2020].
[25] T. B. Shahi & A. Yadav, "Mobile SMS spam filtering for Nepali text using nạve
bayesian and support vector machine," International Journal of Intelligence Science,
vol. 4, no. 1, p. 24, 2013.
[35] T. V. V.D. Lung, "Bayesian Spam Filtering for Vietnamese Emails," in 2012
International Conference on Computer & Information Science (ICCIS), 2012.
[10] T., Ichimura, K., Mera & A., Hara, "A Knowledge Acquisition Method of Judgment
Rules for Spam E-mail by using Self Organizing Map and Automatically Defined
Groups by Genetic Programming," 2010.
[34] T.A. Nguyen, Q.A. Tran and N.B.Nguyen, "Vietnamese spam detection based on
language classifcation," in The Second Internatonal Conference on Communications
and Electronics (ICCE 2008), 2008.
[15] Tan, A. Janecek & Y., "Iterative improvement of the multiplicative update nmf
algorithm using nature-inspired optimization," IEEE, vol. 3, pp. 1688-1672, 2011.
67
[22] U. Pandey and S.Chakraverty, "A review of text classification approaches for e-mail
management. International Journal of Engineering and Technology," vol. 3, no. 2, p.
137, 2011.
[28] U.K. Sah & N. Parmar, "An approach for malicious spam detection in email with
comparison with different classifiers," 2017.
[17] Uehara, P. & M. Wan, "Spam Detection Using Sobel Operators and OCR.," in 2012
26th International Conference on Advanced Information Networking and Applications
Workshops, 2012.
[36] V. Mardi, A., Kini, V.,M., Sukanya & S. Rachana, "Text-Based Spam Tweets
Detection Using Neural Networks," In Advances in Computing and Intelligent
Systems, pp. 401-408, 2020.
[29] V.K. Singh & S.Bhardwaj, "Spam Detection using Classification Techniques and
Global Training set," Intelligent Computing and Information and Communication,
2018.
[12] Y. Tan, Anti-Spam Techniques Based on Artificial Immune System, CRC Press, 2016.
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_cac_phuong_phap_loc_thu_rac_tai_viet_nam.pdf