Mục lục
Danh mục hình vẽ:
Hình 1.1 Mô hình SMTP. 6
Hình 1.2 Bốn trạng thái của IMAP 13
Hình 2.1 Mô hình điểm chuyển tiếp 31
Hình 3.1 Biểu đồ phân cấp chức năng. 43
Hình 3.2 Kiến trúc kĩ thuật tổng thể của chương trình 43
Hình 3.3 Biểu đồ trường hợp sử dụng của phần giao tiếp với người dùng. 44
Hình 3.4 Các đối tượng của Bkas. 45
Hình 3.5 Biểu đồ trình tự thời điểm khởi tạo. 46
Hình 3.6 Biểu đồ trình tự tương tác người dùng. 47
Hình 3.7 Biểu đồ trình tự cho sự kiện có thư mới. 47
Hình
75 trang |
Chia sẻ: huyen82 | Lượt xem: 2059 | Lượt tải: 0
Tóm tắt tài liệu Nghiên cứu spam và xây dựng ứng dụng ngăn chặn spam cho chương trình Microsoft Outlook, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
3.8 Thành phần gói Bkas. 48
Hình 3.9 Thanh công cụ của chuơng trình gắn vào Outlook. 49
Hình 3.10 Thanh công cụ của Bkas. 49
Hình 3.11 Thanh cuộn chính của Bkas 49
Hình 3.12 Bảng cấu hình chính. 50
Hình 3.13 Bảng cấu hình bộ lọc. 50
Hình 3.14 Bảng cấu hình danh sách “Bạn” và “Thù” 51
Hình 3.15 Biểu đồ chức năng của bộ lọc 51
Hình 3.16 Cấu trúc bộ phân tích từ khóa 52
Hình 3.17 Cấu tạo mạng nơ-ron 53
Hình 3.18 Biểu đồ thành phần của thư viện 54
Hình 3.19 Thành phần của gói DataObject 55
Hình 3.20 Thành phần của gói MsgProcessors 56
Hình 3.21 Thành phần của gói NeuralNet 56
Hình 3.22 Thành phần của gói Utility 56
Hình 3.23 Biểu đồ so sánh Bkas và Osfilter2.0 61
Hình 4.1 Xu hướng các bộ lọc cho đến nay 62
Hình 4.2 Phương pháp sinh thư rác. 63
Hình 4.3 Mô hình Bkas phát triển cộng đồng. 63
Hình 4.4 Mô hình Bkas cho doanh nghiệp. 64
Danh mục công thức:
Công thức 21 Công thức Paul Graham áp dụng 37
Công thức 22 Công thức Bayes 37
Công thức 23 Công thức sau khi biến đổi 38
Danh mục ví dụ:
Ví dụ 1.1 Mở một kết nối. 7
Ví dụ 1.2 Đóng một kết nối. 7
Ví dụ 1.3 Một thủ tục SMTP. 8
Ví dụ 1.4 Xác nhận tên. 9
Ví dụ 1.5 Mở rộng danh sách hòm thư. 10
Ví dụ 1.6 Một phiên xác thực. 11
Ví dụ 1.7.Một đoạn hội thoại POP3 12
Ví dụ 1.8 Mã hóa QUOTED-PRINTABLE 20
Ví dụ 1.9. Mã hóa Base64 20
Ví dụ 2.1 Ví dụ về thư rác Nigeria 419. 25
Ví dụ 2.2 Ví dụ thư rác trúng thưởng xổ số. 26
Lời nói đầu
Trong những năm gần đây, mạng Internet đã hoàn thiện và tiếp tục phát triển góp phần thay đổi toàn diện cuộc sống của con người, giúp con người sống trong một thế giới mới, thế giới của tri thức. Cùng với sự phát triển của công nghệ có rất nhiều mặt tích cực chắc chắn kèm theo là tiêu cực, và nhiệm vụ của chúng ta là khắc phục chúng để xây dựng một cuộc sống tốt đẹp hơn.
Gần đây một vấn đề được mọi người quan tâm vì nó trở nên bùng nổ, gây bức xúc cả về phương diện kĩ thuật công nghệ lẫn kinh tế xã hội đó là spam-một hình thức phát tán tin nhắn không được đồng ý của người nhận với mục đích xấu. Spam tràn ngập các hòm thư điện tử của người dùng Internet, nó lan sang các hình thức khác như tin nhắn điện thoại di động và gần đây là cả các cuộc gọi thoại trên Internet (VOIP). Spam gây ra thiệt hại lớn về hiệu suất hệ thống, tốn phí tài nguyên mạng, gây mất thời gian quản trị hệ thống, đánh cắp tài khoản cá nhân. Nó còn gây ra phiền phức xã hội gây khó chịu cho người nhận thư với số lượng thư vô ích cực lớn, phát tán các hình thức đồi trụy và lừa đảo.
Với vấn đề bùng nổ này các tổ chức công ty lớn đã vào cuộc, và bước đầu đã đạt được những thành quả nhất định. Nhưng bắt nguồn từ một số nguyên nhân mà cuộc chiến chống lại spam vẫn chưa đến hồi kết thúc hi vọng phần thắng thuộc về người sử dụng như nhận định của một nhà báo về lĩnh vực công nghệ thông tin.
Trong nội dung đồ án tốt nghiệp tác giả chỉ tập trung vào các vấn đề của thư rác điện tử. Với mục đích tìm hiểu chi tiết về spam và đưa ra các giải pháp ngăn chặn chúng, cùng với việc xây dựng một ứng dụng có khả năng chống lại thư rác một cách hiệu quả.
Đề tài của đồ án là “Nghiên cứu spam và xây dựng ứng dụng ngăn chặn spam cho chương trình Microsoft Outlook.” Bố cục của báo cáo này gồm các phần sau:
Chương một: Các giao thức gửi nhận thư điện tử: Giới thiệu chung và đưa ra nhận xét về giao thức phục vụ cho việc gửi nhận thư.
Chương hai: Thư rác và các phương pháp phòng tránh thư rác: Tìm hiểu các đặc điểm của thư rác. Phân tích và đánh giá các giải pháp phòng tránh thư rác đang được sử dụng.
Chương ba: Thiết kế và triển khai chương trình chống thư rác Bkas: Xây dựng một ứng dụng cho chương trình Microsoft Outlook, có khả năng ngăn chặn hiệu quả thư rác.
Chương bốn: Đề xuất các giải pháp và triển vọng: Phân tích các giải pháp và hướng phát triển của chương trình.
Do đề tài của đồ án có nội dung thông tin rộng và thay đổi nhanh, thời gian cũng như kiến thức có hạn nên chắc chắn đồ án không thể tránh khỏi thiếu xót. Tôi rất mong nhận được sự chỉ bảo của các thầy cô giáo và các bạn để đồ án được chính xác đầy đủ và phong phú hơn.
Tôi xin chân thành cảm ơn các thầy cô giáo trong trường Đại học Bách khoa nói chung và thầy cô giáo của bộ môn Mạng Máy Tính và Truyền Thông-khoa Công nghệ thông tin nói riêng, những người đã đào tạo và giúp đỡ tôi trong suốt thời gian tôi học tập tại trường. Xin đặc biệt cảm ơn thầy giáo Ths.Ngô Văn Dũng đã tận tình hướng dẫn và giúp đỡ tôi trong suốt quá trình nghiên cứu đề tài. Xin gửi lời cảm ơn đến bạn bè và người thân, những người đã kịp thời động viên và giúp đỡ tôi trong thời gian qua.
Các giao thức gửi nhận thư điện tử
Giới thiệu.
Thư điện tử ngày nay đóng vai trò khá quan trong trong các giao dịch trên mạng Internet. Nó đáp ứng được những yêu cầu của thư tín như tính ổn định, chính xác, dễ sử dụng và vượt xa thư tín thông thường về tốc độ vận chuyển, gần như ngay tức thì nó đến được với người nhận. Để có được những ưu điểm trên thư điện tử đã được xây dựng trên nền tảng các giao thức công nghệ khá hoàn chỉnh. Có thể tạm chia các giao thức này thành: các giao thức về phương thức gửi nhận thư và các giao thức về định dạng thư.
Các giao thức gửi nhận thư điện tử.
SMTP (Simple Mail Transfer Protocol).
Mô hình SMTP
Thiết kế của SMTP cơ bản có dạng liên kết như sau: khi có một bên yêu cầu gửi thư sẽ tạo ra một kênh hai chiều SMTP trao đổi với bên nhận. Bên nhận này có thể là điểm cuối hoặc là điểm trung gian. Bên gửi để thực hiện yêu cầu sẽ tạo ra các lệnh SMTP, bên nhận tùy vào khả năng sẽ đáp ứng.
Yêu cầu/Trả lời
SMTP gửi
SMTP nhận
NSD
File system
File system
Hình 1.1 Mô hình SMTP.
Khi một kênh truyền được tạo ra, đầu tiên bên gửi SMTP gửi đi một câu lệnh chỉ ra người gửi lệnh. Nếu được chấp nhận, bên nhận gửi lại thông điệp (“OK”). Tiếp theo bên gửi, gửi đi lệnh (“RCTP”) chỉ ra người nhận. Nếu bên nhận chấp nhận thì trả lời bằng thông điệp (“OK”) nếu không nó sẽ gửi thông điệp từ chối. Sau đó hai bên thỏa thuận cụ thể trong suốt qua trình với thứ tự định trước. Sau mỗi bước nếu hoàn thành quá trình xử lí các bên gửi thông điệp (“OK”). Quá trình hội thoại được thực hiện có chủ định từng bước một.
SMTP cung cấp cơ chế gửi nhận thư điện tử trực tiếp từ máy của người gửi đến máy người nhận không qua máy chủ. Hai máy này phải cung cấp cùng dịch vụ ở tầng giao vận. Nếu không dùng chung tầng giao vận thì có thể thực hiện thông qua các máy chủ SMTP chuyển tiếp.
Khi cùng một lá thư được gửi cho nhiều người sử dụng thì máy chủ chuyển tiếp chỉ giữ một bản sao cho tất cả mọi người dùng cùng trên máy chủ đó.
Các lệnh và đáp ứng được mã hóa bằng các kí tự bằng mã ASCII.
Thủ tục SMTP
Đóng mở kênh.
Ở thời điểm kênh truyền được mở thì một trao đổi được thực hiện để xác nhận giữa các máy chủ với nhau.
Sau đây là các lệnh đóng và mở kênh:
HELO
QUIT
Trong lệnh HELO máy chủ gửi thông tin về nó.
Ví dụ 1.1 Mở một kết nối.
-----------------------------------------------------------
R: 220 BBN-UNIX.ARPA Simple Mail Transfer Service Ready
S: HELO USC-ISIF.ARPA
R: 250 BBN-UNIX.ARPA
-----------------------------------------------------------
Ví dụ 1.2 Đóng một kết nối.
------------------------------------------------------------
S: QUIT
R: 221 BBN-UNIX.ARPA Service closing transmission channel
------------------------------------------------------------
Thủ tục gửi thư.
Thủ tục để gửi một thư gồm có ba bước. Đầu tiên lệnh MAIL được gửi đi thông báo định danh của người gửi. Sau đó lệnh như RCTP cung cấp các thông tin của người nhận. Tiếp theo là lệnh DATA sẽ kèm theo nội dung của lá thư. Cuối của phần dữ liệu là dấu hiệu kết thúc phiên làm việc.
MAIL
Lệnh này có cú pháp như sau:
MAIL FROM:
: Chứa địa chỉ thư của người gửi. Nó có thể chứa hơn một địa chỉ thư, có thể gồm một danh sách các địa chỉ máy chủ mà thư đi qua. Do đó tên của máy chủ đầu tiên trong danh sách là địa chỉ của máy chủ gửi lệnh.
Lệnh trên thông báo với bên nhận SMTP có một phiên làm việc bắt đầu và thông báo xóa bảng trạng thái và các vùng đệm. Nó cung cấp địa chỉ người gửi để trong trường hợp có lỗi thì thông báo lại. Nếu được chấp nhận sẽ trả về mã lệnh “ 250 OK”.
RCTP
Bước thứ hai của thủ tục này là lệnh RCTP có cú pháp như sau:
RCPT TO:
Lệnh này chứa thông tin đường dẫn chuyển tiếp của người nhận thư. Nếu được chấp nhận thì phía nhận SMTP sẽ trả về mã lệnh “250 OK” và lưu đường dẫn này lại. Nếu địa chỉ người nhận này là không rõ nguồn gốc thì trả về mã lỗi “550 Failure”. Bước thứ hai này của thủ tục có thể được lặp lại nhiều lần.
có thể chứa nhiều hơn một điạ chỉ thư. chứa danh sách các địa chỉ máy chủ thư được chuyển qua và hòm thư đến. Máy chủ đầu tiên trong danh sách này là máy chủ nhận lệnh.
DATA
Bước cuối cùng của thủ tục là lệnh DATA:
DATA
Nếu được chấp nhận bên nhận SMTP trả về ”354 Intermediate” yêu cầu các dòng tiếp theo là dòng text. Kết thúc đoạn text này bên nhận gửi mã “250 OK”.
SMTP chỉ ra cuối của đoạn dữ liệu thư bằng cách gửi một dòng chứa một dấu chấm. Kết thúc này cũng xác nhận phiên làm việc và thông báo cho bên nhận quá trình tiếp theo là lưu tên người gửi và dữ liệu của thư. Nếu được chấp nhận bên nhận SMTP trả về “250 OK”. Lệnh DATA chỉ trả về sai khi phiên làm việc chưa hoàn thành (ví dụ không có người nhận nào cả hoặc tài nguyên là không tồn tại).
Ví dụ 1.3 Một thủ tục SMTP.
------------------------------------------------------------
S: MAIL FROM:
R: 250 OK
S: RCPT TO:
R: 250 OK
S: RCPT TO:
R: 550 No such user here
S: RCPT TO:
R: 250 OK
S: DATA
R: 354 Start mail input; end with .
S: Blah blah blah...
S: ...etc. etc. etc.
S: .
R: 250 OK
Mail được chấp nhận gửi Jones và Brown. Green không có hòm thư ở máy chủ Beta.
--------------------------------------------------------
Ví dụ 1.3 chứa một kịch bản gửi nhận như sau: thư do Smith gửi ở máy chủ Alpha.ARPA cho Jones, Green, và Brown ở máy chủ Beta.ARPA. Máy chủ Alpha liên lạc trực tiếp với máy chủ Beta.
Xác nhận người dùng và mở rộng danh sách hòm thư.
SMTP cung cấp thêm các hàm chức năng cho phép xác nhận tên người dùng và mở rộng danh sách thư. Các lệnh này là VRFY và EXPN cùng với các đối số. Với lệnh VRFY xâu kèm theo là tên người dùng, và trả về là tên đầy đủ của người dùng và hòm thư của người dùng. Với lệnh EXPN chuỗi xác nhận danh sách thư gửi đi và trả về gồm tên của nhiều người dùng và các hòm thư trong danh sách.
Ví dụ 1.4 Xác nhận tên.
-----------------------------------------------------------
Ví dụ một
S: VRFY Smith
R: 250 Fred Smith
S: VRFY Smith
R: 251 User not local; will forward to
S: VRFY Jones
R: 550 String does not match anything.
S: VRFY Jones
R: 551 User not local; please try
S: VRFY Gourzenkyinplatz
R: 553 User ambiguous.
-----------------------------------------------------------
Trường hợp sau mở rộng danh sách hòm thư:
Ví dụ 1.5 Mở rộng danh sách hòm thư.
-------------------------------------------------------
S: EXPN Example-People
R: 250-Jon Postel
R: 250-Fred Fonebone
R: 250-Sam Q. Smith
R: 250-Quincy Smith
R: 250-
R: 250
Hoặc
S: EXPN Executive-Washroom-List
R: 550 Access Denied to You.
----------------------------------------------------
Mở rộng dịch vụ.
SMTP được thiết kế từ ban đầu để có thể mở rộng thêm các dịch vụ mà không phá vỡ kiến trúc giao thức ban đầu. Cơ chế mở rộng SMTP (ESMTP- Extended-SMTP) cung cấp thêm các dịch vụ vào SMTP cơ bản. Phần khác biệt chính là lệnh HELO được thay thế bằng lệnh EHLO. Lệnh này khác biệt ở chỗ nó thông báo cho máy chủ thư điện tử biết mong muốn sử dụng các dịch vụ kèm theo. Máy chủ sẽ trả về thông báo các dịch vụ mà nó cung cấp.
POP3 (Post Office Protocol)
Giới thiệu
POP3 (Phiên bản POP đang sử dụng hiện nay) là một giao thức thư điện tử cho phép người sử dụng truy cập và tải thư điện tử được lưu trữ tạm thời trên máy chủ. Sở dĩ POP được xây dựng vì SMTP không có một phương thức nào cho phép tạo ra hàng đợi thư của người dùng trên máy chủ. POP cho phép hệ thống có thể tạo ra hàng đợi và người dùng có thể truy cập vào máy chủ bất kì lúc nào lấy thư và thoát khỏi hệ thống do đó giảm thiểu hoạt động của cả máy chủ và máy người dùng cho việc duy trì một kết nối liên tục giữa hai bên.
Một phiên làm việc của POP được tạo bằng các lệnh và các phúc đáp giữa máy chủ và máy người dùng. Sau đó thì hai bên trao đổi với nhau cho đến khi phiên làm việc kết thúc. Một phiên làm việc được chia làm ba pha trạng thái chính là: trạng thái xác thực, trạng thái giao dịch và trạng thái cập nhật.
Các pha trạng thái của giao thức POP3.
Pha trạng thái xác thực
Một phiên làm việc POP3 bắt đầu khi máy chú lắng nghe ở các kết nối ở cổng 110. Trạng thái này bắt đầu khi người dùng tạo ra kết nối TCP đến cổng 110 và được máy chủ cho phép. Người dùng phải thực hiện lệnh USER kèm theo định danh của mình. Nếu máy chủ trả lời với chỉ định (“OK”) người dùng tiếp tục xuất lệnh PASS kèm theo mật khẩu của mình. Nếu máy chủ tiếp tục trả lời (“OK”) thì nó sẽ xác định thư mục thư của người sử dụng sau đó chuyển sang trạng thái tiếp theo, trạng thái giao dịch. Ví dụ một phiên làm việc xác thực như sau:
Ví dụ 1.6 Một phiên xác thực.
-----------------------------------------------------
Server:
Client:
Server: +OK dewey POP3 server ready
Client: USER mrose
Server: +OK mrose
Client: PASS secret
Server: +OK mrose's maildrop has 2 messages (320 octets)
-----------------------------------------------------
Pha trang thái giao dịch:
Pha này người sử dụng tạo ra một trong tập lệnh máy chủ sẽ trả lời xác nhận hoặc từ chối. Các lệnh này cho phép xác định số thư và truy cập đến các thư này trên máy chủ. Các lệnh có thể sử dụng là:
STAT- máy chủ trả về số thư và tổng dung lượng thư.
LIST [msg]- Nếu không kèm theo tham số thì máy chủ trả về các đáp ứng liệt kê số thư và một số chỉ số của nó. Nếu có tham số thì máy chủ đơn giản chỉ cần trả lời cho thư đã xác định bằng tham số msg hoặc trả về một thông báo lỗi nếu thư đó không tồn tại.
RETR msg- Máy chủ trả về các đáp ứng về nội dung của thư được chỉ ra trong msg hoặc sẽ thông báo lỗi.
DELE msg- Nếu thư được chỉ định bằng tham số msg là hợp lệ máy chủ POP3 sẽ đánh dấu thư đó và trả về xác nhận thành công. Nếu thư đó không tồn tại thì hoặc đã đánh dấu xóa thì máy chủ trả lời có lỗi.
NOOP- Máy chủ trả về với thông báo thành công.
LAST- Trả về thư cuối cùng của danh sách.
RSET- Các thư bị đánh dấu xóa sẽ bỏ đánh dấu này đi.
QUIT- Kết thúc pha giao dịch, chuyển sang pha cập nhật
Sau đây là hội thoại giữa máy chủ và máy người dùng trong phiên làm việc này:
Ví dụ 1.7.Một đoạn hội thoại POP3
-----------------------------------------------------
Client: STAT
Server: +OK 2 320
Client: LIST
Server: +OK 2 messages (320 octets)
Server: 1 120
Server: 2 200
Server: .
Client: RETR 1
Server: +OK 120 octets
Server:
Server: .
Client: DELE 1
Server: +OK message 1 deleted
Client: RETR 2
Server: +OK 200 octets
Server:
Server: .
Client: DELE 2
Server: +OK message 2 deleted
Client: QUIT
Pha cập nhật POP3
-----------------------------------------------------
Trạng thái cập nhật
Trong pha này máy chủ xóa tất cả các thư đánh dấu xóa và cập nhật thông báo rồi đóng kết nối TCP. Phiên làm việc hoàn tất với việc sử dụng lệnh Logout. Thông tin chi tiết của giao thức POP3 tham khảo trong RFC1939.
IMAP (Internet Mail Access Protocol)
Giới thiệu:
IMAP4 (Internet Message Access Protocol) cho phép thao tác từ xa các thư điện tử từ máy trạm đến máy chủ thư điện tử. IMAP có cơ chế đơn giản hơn POP. Để thực hiện thao tác với thư điện tử thì máy trạm gửi yêu cầu và máy chủ tùy vào khả năng sẽ đáp ứng yêu cầu đó. Mỗi câu lệnh của máy trạm đều bắt đầu bằng chỉ số, chỉ số định dạng người dùng (ví dụ: A001) chỉ số này tăng thêm một khi thêm với các câu lệnh tiếp theo. Các câu lệnh này cho phép người dùng tạo và thao tác với thư mục được gọi “mailbox” trên máy chủ như với thư mục trên máy trạm. Các câu lệnh này cũng cho phép được đồng bộ lại giữa máy trạm và máy chủ. Các lệnh này thực hiện trong bốn trạng thái của phiên làm IMAP4 là: chưa xác thực, xác thực, lựa chọn và thoát.
Các trạng thái của giao thức IMAP4:
Đóng.
Thoát
Hợp lệ
Hợp lệ
Trạng thái chưa xác thực
Trạng thái xác thực
Trạng thái lựa chọn
Trạng thái thoát
Máy trạm gửi lệnh:CAPABILITY, NOOP, LOGIN, LOGOUT.
Máy trạm thực hiện các lệnh trên và: SELECT, EXAMINE, CREATE, RENAME
Máy trạm thực hiện tất cả các lệnh trên và:CLOSE,EXPUNGE, SEARCH, FETCH,STORE,COPY.
Hình 1.2 Bốn trạng thái của IMAP
Trạng thái chưa xác thức IMAP4.
Máy trạm tạo kết nối máy chủ qua cổng 143 bắt đầu trạng thái chưa xác thực. Trong trạng thái này có bốn lệnh là:
CAPABILITY : hiển thị khả năng của máy chủ.
NOOP : tạo ra một trả lời xác nhận.
LOGIN : xác thực người dùng.
LOGOUT: kết thúc trạng thái
Để trạng thái xác thực được tiếp tục người dùng phải cung cấp quyền của mình trong lệnh LOGIN. Sau khi được chấp nhận, phiên sẽ chuyển sang trạng thái xác thực.
Trạng thái xác thực.
Bắt đầu trạng thái xác thực người dùng chọn lựa hòm thư của mình trước khi bắt đầu trạng thái tiếp theo. Công việc này được hoàn thành với một trong hai lệnh SELECT hoặc EXAMINE kèm theo tên hợp lệ của hòm thư. Sự khác biệt giữa hai lệnh này là lệnh SELECT cho phép quyền đọc ghi trong khi đó lệnh EXAMINE chỉ cho phép quyền đọc. Sau khi một trong hai lệnh này được thực hiện thành công phiên làm việc sẽ bắt đầu trạng thái lựa chọn. Trong trạng thái xác thực thì người dùng có thể thực hiện tất cả các lệnh ở trạng thái trước đó (trừ lệnh LOGIN). Người dùng cũng có thể thực hiện lệnh tạo hòm thư CREAT, lệnh xem trạng thái STATUS của hòm thư, đổi tên hòm thư RENAME và một số thao tác khác.
Trạng thái lựa chọn.
Trong trạng thái này việc truy cập trực tiếp tới thư điện tử được thực hiện. Người dùng có thể thực hiện lệnh trọng trang thái xác thực và thêm các lệnh như:
CLOSE: đóng hòm thư và quay lại trạng thái xác thực.
EXPUNGE: bỏ tất cả các đánh dấu xóa.
SEARCH: cho phép người dùng tìm kiếm với tiêu chuẩn mình đặt ra.
FETCH: lấy về toàn bộ nội dung thư.
STORE: cho phép cập nhật cờ trạng thái thư.
COPY: cho phép copy một số thư vào hòm thư.
Trong trạng thái lựa chọn này người dùng có thể thực hiện lệnh CLOSE để trở về trạng thái xác thực hoặc lệnh LOGOUT để chuyển máy chủ sang trạng thái thoát.
Trạng thái thoát.
Trong trạng thái này máy chủ đóng kết nối.
Cấu trúc thư điện tử
Giới thiệu:
Được thiết kế dựa trên chuẩn RFC822 xuất bản năm 1982 - chuẩn thư điện tử trên nền tảng Internet cho phép chuyển tải thư - nhưng có một số các hạn chế sau:
Chỉ cho phép gửi thư với các kí tự ASCII.
Không cho phép gửi thư qua 1000 kí tự trên một dòng.
Giới hạn độ dài của thư.
Chính vì những lý do trên năm 1992 một chuẩn thư điện tử mới ra đời tên là MIME. MIME viết tắt của Multipurpose Internet Mail Extensions. Xây dựng dựa trên các giao thức cũ nhưng có thêm các trường cho phép định nghĩa văn bản có nội dung và có cấu trúc.
MIME cho phép thư điện tử có thể:
Có nhiều thành phần trong một bức thư.
Thư không có giới hạn độ dài dòng và độ dài thư.
Hỗ trợ bộ mã khác ASCII cho phép các ngôn ngữ khác thể hiện trên thư.
Cho phép nhiều font chữ trong một bức thư.
Truyền tải dữ liệu nhị phân hoặc dữ liệu chương trình.
Truyền tải ảnh, audio, video và thư đa phương tiện.
MIME định nghĩa thêm các trường tiêu đề sau:
Trường MIME-Version được dùng để chỉ ra đoạn văn bản tuân theo chuẩn MIME nào.
Trường Content-Type dùng để chỉ ra các dư các kiểu dữ liệu trong phần thân của văn bản và kiểu mã hóa dữ liệu. Nó gồm các giá trị sau:
Text, dùng để thông báo số kí tự và loại ngôn ngữ mà văn bản được viết.
Multipart, cho phép biểu diễn các đoạn dữ liệu với các định dạng dữ liệu khác nhau trong cùng một văn bản.
Application, dùng cho việc chuyển tải các loại dữ liệu của ứng dụng hoặc dữ liệu nhị phân.
Message, dùng để đóng gói văn bản.
Image, cho việc truyền tải dữ liệu ảnh.
Audio, truyền tải dữ liệu audio.
Video, truyền tải dữ liệu video hoặc hình ảnh động.
Trường Content-Transfer-Encoding chỉ ra cách thức dữ liệu được mã hóa cho phép chuyển qua các hệ thống chỉ có bộ kí tự giới hạn.
Hai trường cho sử dụng cho việc định nghĩa các dữ liệu chứa trong phần thân của văn bản là: trường Content-ID và Content-Description.
MIME có cấu trúc mở, nó cho phép bộ các trường content-type/subtype cho phép định nghĩa thêm.
Cấu trúc chi tiết của MIME:
MIME định nghĩa chi tiết trong RFC1521. MIME cho phép đưa nhiều đối tượng vào văn bản. Mỗi phần này có tiêu đề và một phần thân. Trong phần thân có thể có tiếp các phần thân nhỏ hơn.
Trường MIME-Version
MIME được thiết kế để tương thích ngược với các chuẩn Internet trước đó như RFC822, do đó dựa vào trường này trình duyệt thư có thể xác định thư có theo định dạng MIME không. Hiện tại chỉ có một phiên bản của MIME là 1.0, nên trường này chỉ có dạng như sau:
MIME-Version: 1.0
Trường MIME-Version yêu cầu đặt ở phần đầu tiên của văn bản và không cần khai báo ở các phần thân.
Trường Content-Type
Trường Content-Type định nghĩa dữ liệu cho phép trình duyệt thư có thể biểu diễn bức thư cho người nhận đúng như định dạng của người gửi.
Mức cao nhất Content-Type dùng để định nghĩa các kiểu dữ liệu thông thường còn các phần phía dưới chỉ ra chi tiết định dạng dữ liệu. Ví dụ Content-Type là Image/xyz thông báo cho trình duyệt thư đây là dữ liệu ảnh, ngay cả khi trình duyệt này không biết chi tiết xyz là loại định dạng ảnh. Với thông tin như vậy thì trình duyệt không hỗ trợ định dạng này vẫn có thể quyết định hoặc cho người sử dụng xem dữ liệu thô hoặc không cho xem. Ví dụ cho người dùng xem ảnh biểu diễn dữ liệu ảnh này dưới dạng kí tự. Với lý do này có thể không cần các thông số kèm theo cũng có thể phân biệt các kiểu dữ liệu với nhau.
Chuẩn MIME định nghĩa 7 loại Conntent-type và theo các tác giả của MIME với 7 loại này nếu muốn biểu diễn loại dữ liệu mới có thể biểu diễn dưới kiểu con của 1 trong 7 kiểu này. Tuy nhiên MIME cung cho phép thêm vào các loại không tiêu chuẩn bằng cách thêm vào chữ X-.
Cấu trúc cú pháp của trường Content-type
Content-Type := type "/" subtype [";" parameter]_
Chi tiết các Content-types:
Application
Chỉ ra dữ liệu không thuộc các bộ còn lại ví dụ dữ liệu dạng nhị phân, dữ liệu được xử lý bằng trình duyệt.
Application/Octet-Stream : Chỉ ra đây là dữ liệu nhị phân trình duyệt thư đơn giản chỉ cần ghi lại các dữ liệu này vào file chương trình.
Audio
Chỉ ra dữ liệu tiếng.
Audio/Basic:Nội dung của trường con Audio/Basic mã hóa sử dụng luật 8-bit ISDN. Khi có trường này thì tốc độ lấy mẫu là 8000 Hz.
Image
Dữ liệu ảnh. Đòi hỏi thiết bị hiển thị như màn hình, máy in… để xem các thông tin này.
Image/Jpeg :Trường con chỉ ra định dạng ảnh là Jpeg.
Image/Gif :Trường con chỉ ra định dạng ảnh là Gif.
Message
Chỉ ra dữ liệu được mã hóa.
Message/RFC822 :Chỉ ra trong phần thân có các thông điệp được đóng gói với cấu trúc thông điệp theo RFC822. Rất hữu dụng khi chuyển tiếp một thư vì nó chỉ ra điểm bắt đầu và kết thúc của lá thư.
Message/Partial: Chỉ ra các phần của một lá thư cho phép chuyển tải lá thư có phần thân dài hơn khả năng của hệ thống truyền tải. Message/Partial chỉ ra phần thân bao gồm các phần nhỏ hơn được đánh dấu.
Message/External-Body: Chỉ ra đây không phải là phần dữ liệu chỉ có tính chất tham khảo. Trong trường hợp này các tham số định nghĩa ra một cơ chế để truy cập vào phần dữ liệu thêm này.
Multipart
Chỉ ra dữ liệu gồm nhiều phần mỗi phần này có định dạng dữ liệu riêng. Dấu hiệu bắt đầu và kết thúc của mỗi phần là các đường bao.
Tham số đường bao chỉ ra xâu được sử dụng cho việc đánh dấu các phần. Giữa hai đường bao là một phần do vậy không có đường bao nằm giữa các phần. Các đường bao có độ dài không hơn 70 kí tự kể cả các dấu cách và các dấu gạch ngang.
Đường bao mở đầu, bắt đầu bằng hai dấu gạch ngang tiếp theo là tham số đường bao. Đường bao kết thúc giống đường bao mở đầu nhưng kết thúc bằng hai dấu gạch ngang.
Ta xem xét trường hợp sau gồm nhiều phần thân Content-Type có dạng sau:
Content-Type:multipart/mixed; boundary=gc0y0pkb9ex
Nó chỉ ra mỗi phần có dấu hiệu mở đầu như sau:
--gc0y0pkb9ex
Và dấu hiệu kết thúc như sau
--gc0y0pkb9ex--
Multipart/Mixed: Chỉ ra các phần này được trình diễn tuần tự.
Multipart/Parallel: Các phần trình diễn đồng thời ví dụ như hình ảnh kèm theo âm thanh.
Multipart/Digest: Chỉ ra mỗi phần là một thông điệp theo định dạng RFC822.
Text
Kiểu này dùng để thông báo bộ kí tự được sử dụng. Bộ các kí tự được chỉ ra bằng tham số Charset. Định dạng ngầm định là :
Content-Type: text/plain; Charset=US-ASCII.
Giá trị Charset thì không phân biệt chữ hoa thường. Các giá trị cho phép sử dụng là US-ASCII, ISO-8859-1, ISO-8859-2, ....
Text/Plain : Văn bản chứa kí tự trong bảng mã ASCII.
Text/Richtext:Chỉ ra định dạng kí tự có định dạng đơn giản được MIME định nghĩa.
Video
Chỉ ra phần thân gồm các hình động với màu mà âm thanh được mã hóa bằng chuẩn kèm theo ví dụ Video/Mpeg.
X-TypeName
Đây bao gồm tất cả các tên kiểu bắt đầu với X-. Các giá trị của Content-Type bắt đầu bằng X- là các giá trị dùng mục đích riêng do các hệ thống thư trao đổi với nhau.
Trường Content-Transfer-Encoding
Rất nhiều Content-Types của MIME được truyền tải dưới dạng các kí tự mã hóa 8 bit hoặc dạng dữ liệu nhị phân nên không thể truyền trên một số các giao thức ví dụ như SMTP chỉ cho phép chuyển thư với kí tự 7-bit ASCII với dữ liệu không quá 1000 kí tự. Do đó MIME cung cấp cơ chế cho phép mã hóa các dữ liệu này dưới dạng dòng có độ dài giới hạn và gồm các kí tự mã hóa 7 bit. Trường Content-Transfer-Encoding chỉ ra cơ chế để thực hiện việc mã hóa.
Các giá trị được sử dụng trong Content-Transfer-Encoding là: BASE64, QUOTED-PRINTABLE, 8BIT, 7BIT, BINARY, x-EncodingName.
7BIT.
Là kiểu mã hóa ngầm định,do vậy khi không có trường này trong thư, thì cũng ngầm định là 7bit.
QUOTED-PRINTABLE
Mã hóa theo kiểu QUOTED-PRINTABLE chứa hầu hết các kí tự trong bảng mã ASCII. Dấu bằng biểu diễn kí tự esc, các kí tự khác không phải kí tự được biểu diễn bằng dấu bằng theo sau là hai số hệ mười sáu. Nếu một dòng có số kí tự nhiều hơn 76 sẽ cắt thành thành 75 kí tự và kết thúc dòng bằng dấu bằng.
Điểm mạnh khi sử dụng mã hóa QUOTED-PRINTABLE khi sử dụng mã ASCII là chỉ cần thêm một số các kí tự vào để biểu diễn. Thư có thể cho phép người sử dụng xem trực tiếp không cần chương trình đọc thư đặc biệt
Sau đây là ví dụ trao đổi theo chuẩn EDI dùng mã hóa QUOTED-PRINTABLE :
Ví dụ 1.8 Mã hóa QUOTED-PRINTABLE
ISA*00* *00* *01*987654321 *12*8005551234 *910=
607*0111*U*00200*110000777*0*T*>
GS*PO*987654321*8005551234*920501*2032*7721*X*002003
ST*850*000000001
BEG*00*NE*MS1112**920501**CONTRACT#
REF*IT*8128827763
N1*ST*MAVERICK SYSTEMS
N3*3312 NEW HAMPSHIRE STREET
N4*SAN JOSE*CA*94811
PO1*1*25*EA***VC*TP8MM*CB*TAPE8MM
PO1*2*30*EA***VC*TP1/4*CB*TAPE1/4INCH
PO1*3*125*EA***VC*DSK31/2*CB*DISK35
CTT*3
SE*11*000000001
GE*1 *7721
IEA*1*110000777
BASE64
Cơ chế mã hóa BASE64 thường được sử dụng để biểu diễn file nhị phân. Nó biểu diễn 3 byte liền nhau bằng bốn kí tự ASCII. Một đoạn dữ liệu được trao đổi có nội dung giống ví dụ trên nhưng mã hóa bằng BASE64 cho ta kết quả :
Ví dụ 1.9. Mã hóa Base64
------------------------------------------------------
SVNBKjAwKiAgICAgICAgICAqMDAqICAgICAgICAgICowMSo5ODc2NTQzMjEgICAgICAqMTIq
ODAwNTU1MTIzNCAgICAgKjkxMDYwNyowMTExKlUqMDAyMDAqMTEwMDAwNzc3KjAqVCo+CkdT
KlBPKjk4NzY1NDMyMSo4MDA1NTUxMjM0KjkyMDUwMSoyMDMyKjc3MjEqWCowMDIwMDMKU1Qq
ODUwKjAwMDAwMDAwMQpCRUcqMDAqTkUqTVMxMTEyKio5MjA1MDEqKkNPTlRSQUNUIwpSRUYq
SVQqODEyODgyNzc2MwpOMSpTVCpNQVZFUklDSyBTWVNURU1TCk4zKjMzMTIgTkVXIEhBTVBT
SElSRSBTVFJFRVQKTjQqU0FOIEpPU0UqQ0EqOTQ4MTEKUE8xKjEqMjUqRUEqKipWQypUUDhN
TSpDQipUQVBFOE1NClBPMSoyKjMwKkVBKioqVkMqVFAxLzQqQ0IqVEFQRTEvNElOQ0gKUE8x
KjMqMTI1KkVBKioqVkMqRFNLMzEvMipDQipESVNLMzUKQ1RUKjMKU0UqMTEqMDAwMDAwMDAx
CkdFKjEqNzcyMQpJRUEqMSoxMTAwMDA3NzcK
------------------------------------------------------
8bit, binary:
Các giá trị như 8bit, 7bit và binary đều chỉ ra văn bản không bị mã hóa.
8bit biểu diễn dòng ngắn và các kí tự không phải mã ASCII. Binary biểu diễn kí tự không phải ASCII nhưng các dòng của nó có độ dài lớn hơn 76 kí tự.
Điểm khác biệt giữa 8bit và binary là binary không cần dấu phân cách cho việc giới hạn dòng. Cả hai thiết kế này đều dùng cho chuẩn thư điện tử trong tương lai, ví dụ như chữ viết tay.
Một vài ứng dụng có thể hỗ trợ thêm một số các giá trị Content-Transfer-Encoding khác nhưng không được khuyến khích. Các giá trị này có tên kèm theo X- chỉ ra là tên này không theo chuẩn. Ví dụ như:
Content-Transfer-Encoding: x-my-new-encoding.
Trường tùy chọn Content-ID
Trong một số trường hợp có thể tạo phần thân tham chiếu đến một phần thân khác. Vì vậy cần thêm trường Content-ID tương tự như trường Message-ID RFC822. Giá trị trường Content-ID là duy nhất.
Mặc dù trường này là tùy chọn nhưng nó là cần thiết đối với kiểu Message/External-Body.
Trường tùy chọn Content-Description
Có khả năng kết hợp với thông tin về phần thân ví dụ như đánh dấu tên của một ảnh.
Kết luận
Với các giao thức SMTP, POP3, IMAP đến này vẫn đáp ứng khá tốt nhu cầu gửi nhận thư ổn định và nhanh chóng cho phép kiểm tra thư trên máy người dùng. Định dạng MIME mở rộng khá hoàn thiện cho phép hỗ trợ hiển thị nhiều loại hình ảnh và định dạng thư khác nhau. Chính nền giao thức và công nghệ này đã tạo cho thư điện tử phát triển và bùng nổ nhanh chóng với tiện ích đem lại quá lớn.
Thư rác và các giải pháp phòng tránh thư rác.
Giới thiệu.
Ở chương này chúng ta sẽ xem xét thư rác các góc độ khác nhau từ kĩ thuật đến kinh tế, tâm lý để tìm ra những nguyên nhân thư rác phát triển với tốc độ nhanh chóng. Với mục đích tìm hiểu thư rác để đưa ra giải pháp phòng tránh thư rác chúng ta sẽ tập chung nghiên cứu các điểm mạnh yếu của các phương pháp và các thủ đoạn những kẻ phát tán thư rác thực hiện để làm yếu các phương pháp này.
Spam và các thông tin liên quan
Hoàn cảnh ra đời
Internet bùng nổ từ khoảng hơn một thập kỷ này, nhưng nó tạo ra một bước tiến vượt bậc cho loài người. Nó là._.m thay đổi cuộc sống của con người biến thể kỷ này trở thành thể kỷ của tri thức. Song hành với Internet, Web không thể không kể đến sự ra đời và phát triển của thư điện tử. Nó cũng là cuộc cách mạng đem loài người đến gần nhau hơn. Để thấy được điều này chúng ta so sánh nếu gửi một lá thư từ Việt nam sang Mĩ chúng ta phải mất hai tuần để đến nơi nhưng với thư điện tử nó đến tức thì.
Theo số liệu thống kê năm 2004: 76,8 tỷ e-mail được gửi đi mỗi ngày Các công ty, tập đoàn là nguồn xuất phát nhiều nhất, chiếm đến 83%. Doanh thu toàn cầu từ dịch vụ thư tín điện tử cũng tăng 15%, đạt giá trị 651 triệu USD. Dự kiến vào năm 2008, thị trường e-mail sẽ đạt 3,6 tỷ USD với khoảng hơn 1,6 tỷ hộp thư điện tử. Với một số liệu như vậy thực sự chúng ta thấy thư điện tử trở thành một phần thực sự quan trọng trong cuộc sống của con người ngày nay. Bên cạnh ích lợi của thư điện tử một vấn để nẩy sinh là thư rác (spam). Thư rác là thư được gửi đi với mục đích quảng cáo và không được sự mong đợi của người nhận. Theo số liệu thống kê 2004 có đến 49% (tương đương với 38 tỷ) là những bức thư rác (spam).
Để xem xét toàn diện về thư rác chúng ta sẽ nhìn lại quá trình phát triển của nó. Chúng ta xem một đoạn tin được đăng trên www.theregister.co.uk. “Ngày 5/3/1994, thư rác đã ra đời. Cái nôi của nó là công ty luật Canter & Siegel (Mỹ), nơi đã phát đi một thông điệp trên vài mạng tin điện tử nội địa Usenet để bố cáo một dịch vụ liên quan đến chương trình quay số trúng thẻ lao động cư trú. Làn sóng spam qua Usenet từ đó ngày một lớn và cuối cùng giết chết tính hữu ích của những mạng tin này. Cũng bắt đầu từ đó, các spammer chuyển hướng hoạt động của họ sang thư điện tử. Ngược trở lại 10 năm trước đây, nội dung spam chủ yếu không khác hiện nay bao nhiêu, cũng vẫn là cho vay, tăng kích cỡ một số bộ phận cơ thể, ấn phẩm đồi trụy và nhiều thứ kỳ dị khác.
Sự căm ghét spam là một cảm giác mà người sử dụng e-mail trên cả thế giới chia sẻ. Tuy nhiên, giảm bớt lượng thư rác xuống một mức độ có thể chấp nhận được vẫn là một trong những thách thức lớn nhất mà cộng đồng Internet phải đối mặt. Đây là một cuộc chiến mà phía người sử dụng nhất định phải thắng.”
Định nghĩa
Thư rác (spam) được từ điển bách kháo toàn thư Wikipedia định nghĩa như sau: Thư rác (spam) là một trong nhưng loại hình sử dụng các phương tiện điện tử để phát tán thông điệp hàng loạt. Thư rác được gửi đi có nội dung giống nhau hoặc gần giống nhau tới hàng nghìn (hoặc hàng triệu) người dùng thư điện tử. Thư rác được gửi đến mà không được sự mong đợi của người nhận.
Đặc điểm của thư rác
Có một số điểm sau thư rác khác với thư hợp lệ:
Địa chỉ người gửi của thư rác thường là không hợp lệ.
Phần tiêu đề của thư rác thường bị giả mạo, như giấu nơi thư được gửi đi cũng như thông tin về đường đi của thư bị làm giả, để không tìm ra tung tích của kẻ gửi thư rác.
Các thư rác gửi cho nạn nhân thường là có nội dung giống hoặc gần giống nhau vì nó được tạo ra tự động để gửi cho rất nhiều khách hàng.
Lời giới thiệu thư (subject) thường không giới thiệu nội dung thư để vượt qua sự kiểm duyệt của người đọc (thường các trình duyệt và các trang web chỉ hiện phần này khi kiểm tra thư mới trước khi chính thức xem thư) và cả các bộ lọc.
Các thư rác thường chứa các đoạn mã ẩn. Các bức thư này thường dưới dạng HTML và chứa các đoạn mã Javascript và nó tự chạy khi mở thư tạo ra các cửa sổ quảng cáo.
Nội dung của các thư rác thường là gian lận hoặc không chính xác.
Nó thường chứa các liên kết đến trang web nơi có thể thực hiện giao dịch điện tử với nạn nhân.
Địa chỉ để gỡ thư rác thường không hoạt động. Với các luật chống thư rác mới bắt buộc các thư này phải có địa chỉ này thì các đường dẫn thường dẫn đến các trang web chẳng liên quan hay không thể gỡ thư.
Một số thống kê về thư rác
Các nước và các nhà cung cấp thư rác lớn nhất trên thể giới:
(Dưới đây là 12 nước gửi nhiều thư rác nhất trên thế giới năm 2004 ):
Mỹ (42,11%)
Hàn Quốc (13,43%)
Trung Quốc (8,44% - gồm cả Hong Kong)
Canada (5,71%)
Brazil (3,34%)
Nhật Bản (2,57%)
Pháp (1,37%)
Tây Ban Nha (1,18%)
Anh (1,13%)
Đức (1,03%)
Đài Loan (1%)
Mexico (0,89%)
Các nước khác: (17,8%)
Mười thư rác thường xuyên xuất hiện năm 2004 nguồn AOL:
"We carry the most popular medications" (Dược phẩm)
"You've been sent an Insta-Kiss!" (Lừa đảo cá cược)
"You Have 17 New Pictures" (Cá cược)
"STEAMY HOT LESBIAN ACTION LIVE ON CAMERA!"
"All orders are shipped from authorized locations" (Bán thuốc qua mạng)
"2005 Digital Cable Filters"
"F R E E* 30 Second Pre-Qualification MORTGAGE Application"
"HURRY HURRY Hot Stock on the RISE"
"Sale PRICES ARE BEST ONLINE!"
"Breaking news on the Top Pick stock"
Một số loại thư rác nguy hiểm.
Các spam điển hình về mức độ nguy hiểm về các vấn đề tình dục, giao bán thuốc và lừa đảo tiền của nạn nhân.
Một trong những loại thư rác đặc biệt nguy hiểm là thư lừa đảo có nội dung như thư mời người nhận tham gia chuyển tiền và chia sẻ một gia tài thừa kế kếch xù. Đối tượng mà nó chú ý là những người nhẹ dạ cả tin. Một thư điển hình dạng này có tên là 419 hay Nigeria (vì chủ yếu xuất xứ từ nước này), tràn ngập và tiếp tục xuất hiện trên Internet với số lượng lên tới hàng triệu thư mỗi tuần. Kẻ gửi thư dạng này thường giả là thân nhân của một nhà lãnh đạo cao cấp mới qua đời hoặc bị bỏ tù, hoặc một nhân viên ngân hàng hay một người thừa kế nào đó, đang cần sự hỗ trợ tài chính ban đầu để giải quyết thủ tục nhận một món tiền lớn.
Ví dụ 2.1 Ví dụ về thư rác Nigeria 419.
----------------------------------------------------------------------
Mr. Joseph Adisa
Tel/Fax: 234 - 1 - 2664409
Lagos - Nigeria.
ATTN: THE PRESIDENT / CEO
Dear Sir,
I know this letter will come to you as a surprise but suffice it to say
that I got your contact from the Nigerian Export Promostion Council who
assured me that you are capable and reliable to assist me in this transaction.
Before I go into details, I will first introduce myself to you. I am
Mr. Joseph Abudulkarim Adisa a son to Minister of Works and Housing of the
Federal of Nigeria.
Recently, my father was probed, guilty and sentenced to five (5) years
imprisonment by the Federal Government, President Olusegun Obasanjo for some
misappropriation while he was in office during the last Military regime of
Gen. Abudusalam Abubakar. Before his ordeal I successfully get hold of a sum
money in one of his duplexes. And since then I have being making arrangement
of how to transfer this money which is ($25,500,000.00) Twenty Five, Million
five hundred thousand United States dollars to a foreign account. Now, all
my fathers account is now under government claim except this one that I
contacted my friends uncle who was a Bank Manager to help me lodge the
said amount in a bank account in his bank and fortunately for me he agreed to
help me if only I can give him 10% of the whole amount. I agree with him on
this basis and he has since being making all necessary arrangement to remit
the amount to a foreign account which I will provide for him.
This is the reason I contacted you to please help me by providing an account
where I will deposit this money. I am soliciting you to please help me for
this is the only hope I have since my father have been jailed. I also have
intention of coming to your country to reside with you immediately after the
remittance of the money for my life is uncomfortable here anymore due to what
has happened, because the government go to an extent of throwing us out of our
house and locked up the house. Please help me I promise to give you 30% of
the total amount.
If you are interested in helping me please reach me through the above
Telephone/Fax number with the Bank Information where I will lodge the
money for this is what I urgently need now.
Once I get these details, I shall contact the Bank Manager who will smoothly
transfer this money into your account within 10 bank working days (He has done
the same deal for my cousin once) from the date I receive your reply. Remember
that I shall come over t
o your country to collect my own share WHICH I WILL INVEST IN A LUCRATIVE BUSINESS based on your advice immediately the money is been tr sferred.an
Your share for this transaction is 30% total sum, 5% for local and international
expenses (incurred by you and me). Note, there is no risk involved at all. Just
comply and keep this strictly confidential.
Best regards,
Mr. Joseph A. Adisa.
----------------------------------------------------------------------
Một loại thư cũng trong dạng này là thư thông báo trúng thưởng xổ số. Sau đây là một thư lừa đảo trúng xổ số xuất hiện ở Anh :
Ví dụ 2.2 Ví dụ thư rác trúng thưởng xổ số.
----------------------------------------------------------------------
* It is a Federal Crime for an United States citizen to participate in an non U.S. Lottery.
* You cannot win a Lottery that you have not entered, especially through email!
* A Legitimate Lottery would never force you to pay Advanced-Fees prior to receiving your winnings.
----------------------------------------------------------------------
Ích lợi và tác hại của thư rác.
Ích lợi của thư rác.
Về kinh tế nếu nhìn nhận thư rác như là quảng cáo thì nó có một số các ưu điểm như nó thúc đẩy buôn bán qua mạng. Nếu nhìn vào quốc gia nào có tỉ lệ thư rác cao cũng chính là quốc gia có sự bùng nổ và phát triển về giao dịch qua mạng, như Mĩ và Trung quốc. Qua thư rác các công ty qua mạng không những bán được hàng mà còn có thể thống kê, tiếp cận khách hàng một cách hiệu quả. Đứng về phía khách hàng có một số mặt hàng nhạy cảm, họ muốn mua qua mạng vì không muốn bị nhòm ngó.
Thư rác (spam) không chỉ là các thư có nội dung thương mại mà còn có thể là các thư với mục đích quyên tiền cho nạn nhân thiên tai ví dụ như sóng thần, hỏa hoạn, dịch bệnh hay kêu gọi tuyên truyền thông tin xã hội..., lúc này lợi ích của spam là rất thiết thực.
Tác hại của thư rác.
Bên cạnh một số ích lợi của spam thì tác hại của nó là quá lớn. Nghiên cứu của tập đoàn Radicati (Mỹ) cho biết, thư điện tử không mời đã làm thiệt hại các công ty châu Âu 20,5 tỷ euro năm 2003 và dự báo năm 2007 sẽ là 198 tỷ USD. Trong khi đó, theo công ty Ferris Research, spam “ngốn” của các doanh nghiệp Mỹ 8,9 tỷ USD năm 2002. Ủy ban kinh tế quốc gia Áo ước tính tổng thiệt hại do thư rác quy ra tiền (tính theo đầu nhân viên trong một công ty) là 620 USD/năm.
Những chi phí thiệt hại kể trên thực sự mới chỉ là những chi phí về tài nguyên hệ thống mà chưa kể đến thiệt hại khi thư cần gửi không đến tay người nhận họ có thể xóa đi thông tin quan trọng vì nghĩ đó là thư rác.
Báo cáo của Ủy ban Thương mại liên bang Mỹ tháng 4/2003 cho thấy 66% thông điệp spam có tính chất lừa đảo. Cũng theo thống kê này thì có 90% thư rác là chứa virus nó thật sự là nguy cơ đe dọa hệ thống và tính riêng tư của người sử dụng.
Các thông tin có nội dụng bạo lực và đồi trụy chiếm một lượng thư quá lớn làm tăng nguy cơ truy cập các trang web đồi trụy đặc biệt nguy hại khi các thông tin này đến tay trẻ em khi thư rác này thâm nhập hòm thư của chúng.
Vấn đề thư rác không đơn thuần là vấn đề về kinh tế kĩ thuật nó trở thành vấn đề xã hội. Theo Sophos thì một nữ phóng viên của một đài phát thanh Philadelphia (Mỹ) đã đã rất tức giận và quyết định thôi việc sau khi bị một nhóm vận động trực tuyến đã “tấn công” cô bằng spam.
Luật pháp trong vấn đề thư rác.
Hiện nay thư rác là một trong những vấn đề “nóng” nhất trong năm nay tại nhiều quốc gia như Mỹ, Australia, New Zealand, Brazil và các thành viên Liên minh châu Âu. Các quốc gia, tổ chức này đang tích cực chuẩn bị cho các điều luật chống thư rác. Mục tiêu của họ là tạo ra các điều luật đảm bảo quyền lợi của người dùng thư sẽ không phải nhận những lá thư không mời mà đến tiếp theo là tạo ra một hành lang pháp lý cho phép dễ dàng lọc thư rác. Đi đầu là Mỹ quyết định đưa luật chống thư rác vào áp dụng từ ngày 1/1/2004. Đạo luật mà Mỹ đưa ra là CAN-SPAM Act. Nội dung cụ thể như sau: thư quảng cáo phải có cơ chế cho phép người nhận từ chối không nhận tiếp các e-mail. Người gửi cũng không được phép ngụy trang tung tích và tiêu đề. Việc thu thập địa chỉ từ các website bị hạn chế. Ngoài ra, hình phạt đối với việc gửi spam sẽ nặng hơn. Sau khi có đạo luật này bắt đầu có một số công ty chuyên cung cấp spam bị khởi kiện. Các quốc gia khác như Hà lan, Hàn quốc, Trung quốc bắt đầu đưa một số đạo luật vào thực thi.
Các kĩ thuật công cụ đối tượng phát tán thư rác (spammer) sử dụng
Phân loại các đối tượng phát tán thư rác:
Tên và chi tiết về các đối tượng phát tán thư rác được giới thiệu chi tiết ở rất nhiều trang web chống thư rác. Người mệnh danh là vua thư rác Stanford Wallace không những phát tán rất nhiều spam mà con giao bán cả phần mềm chống spam như Spy Wiper hay Spy Deleter. Điều này chứng tỏ để chống lại spam cần phải biết đến các spammer giống như cách dùng hacker chống hacker. Mặc dù việc phân loại các spammer là rất khó nhưng có thể chia họ thành các nhóm sau:
Những spammer nghiệp dư là những người gửi thư chuyển tiếp với số lượng lớn. Chẳng hạn thỉnh thoảng người dùng vẫn nhận được các thư lừa đảo như phải chuyển tiếp thư đến 100 người thì mới gặp may mắn. Các đối tượng này trực tiếp hay gián tiếp không phải là đối tượng phát tán thư rác chính nhưng thỉnh thoảng vẫn bị các nhà cung cấp thư, ví dụ như Yahoo chặn lại.
Spammer ở qui mô nhỏ. Đa số các spammer thường bị chia vào loại này. Sở dĩ họ bị chia vào loại này vì tần suất gửi thư rác của họ là không cao. Họ thường sử dụng danh sách thư và các công cụ có sẵn để quảng cáo nhiều khi là cho chính các công ty của họ.
Spammer có liên quan đến hacker. Loại spammer này rất phức tạp để đối phó vì họ thường sử dụng cách thức phức tạp và sáng tạo ra các phần mềm phát tán thư của riêng mình.
Spammer ở qui mô lớn. Đây là các spammer nguy hiểm nhất và cũng chuyên nghiệp nhất. Đa phần các spam tạo ra là do họ và họ thường trong các công ty chuyên kinh doanh các dịch vụ liên quan đến phát tán thư rác. Nơi được xem là thủ phủ của spam là Boca Raton- Florida nơi có đến trên 40 công ty trong lĩnh vực này. Họ liên kết và cung cấp các tài liệu cho nhau như địa chỉ các máy chủ chuyển tiếp thư. Một công ty lớn như Microsoft cũng được coi là spammer vì số lượng hàng triệu thư quảng cáo về sản phẩm họ gửi cho khách hàng mỗi tháng.
Các cách lấy điạ chỉ của nạn nhận.
Các nguồn sau là các nguồn lấy địa chỉ thư nạn nhân:
Cách thông thường nhất là lấy địa chỉ thư bằng cách yêu cầu họ điền vào các trang web cung cấp các dịch vụ miễn phí, hoặc yêu cầu họ gửi các thư chuyển tiếp đến nhiều người.
Mua danh sách thư của nạn nhân. Nếu spammer không muốn đầu tư vào các phần mềm lấy thư điện tử họ có thể mua trực tiếp qua mạng hoặc trong các địa CD. Ví dụ giá một đĩa CD chứa 200 triệu địa chỉ thư có giá là 499 USD.
Lấy thông qua các nhóm tin USENET. Nhưng nhóm tin là nơi dễ bị lấy trộm địa chỉ nhất vị các thông tin này được đăng công cộng và sự tồn tại của các địa chỉ này là chắc chắn.
Lấy qua các trang Web. Spammer dùng các phần mềm thu thập các thông tin thư điện tử một cách tự động.
Lấy thông qua danh sách thư của các máy chủ. Các máy chủ cung cấp danh sách này cho spammer.
Lấy thông qua các phòng chat. Một số nhà cung cấp dịch vụ chat trực tuyến sử dụng luôn tên hòm thư của bản là tên đăng nhập phòng chat. Vì vậy họ lấy tên này ghép với tên miền của nhà cung cấp dịch vụ là có địa chỉ hòm thư.
Lấy theo kiểu từ điển. Cách làm này thường là tìm cơ cấu trộn tên và họ để có địa chỉ hòm thư. Hoặc có địa chỉ hòm thư của một người ở máy chủ này họ sẽ giữ nguyên tên hòm thư và thay đổi tên máy chủ. Ví dụ: vietict@yahoo.com, vietict@gmail.com...
Dựa vào các địa chỉ thư đã trả lời thư rác hoặc đường dẫn gỡ thư rác.
Có một số chuyên gia khuyên người dùng là nên đặt tên khó nhớ và khó bị tấn công ví dụ như vtciei00000000000004@yahoo.com. Nhưng thực ra địa chỉ này là rất khó nhớ đối với con người và nếu nhận được một thư có địa chỉ này thì chưa chắc người dùng đã dám mở ra vì sợ bị hacker tấn công.
Các kĩ thuật để vượt qua bộ phận lọc thư.
Thực ra các kĩ thuật vượt qua các bộ lọc thư rất đa dạng. Các kĩ thuật này thường tìm điểm yếu có thể vượt qua của bộ lọc. Những thông tin dạng này sẽ giúp ích cho chúng ta tạo ra bộ lọc khó bị vượt qua hơn.
Tránh bộ lọc bằng danh sách đen: Thường các spammer gửi cho nạn nhân thư rác đều là các thư đã được làm giả cho phép địa chỉ của spammer gửi được giấu đi. Họ làm những việc này để thứ nhất lừa người dùng mở thư nhưng quan trọng nhất là để giấu nhà cung cấp dịch vụ (ISP) địa chỉ thực của mình, để không bị đưa vào danh sách đen, hoặc họ giả các địa chỉ thư của người gửi thông thường.
Để khắc phục tình trạng trên trên các công ty dẫn đầu là Microsoft đã phát triển một giao thức có tên là Sender Policy Framework (SPF) để kiểm tra tính xác thực của tên miền thư. Nhưng phương pháp này thực sự chưa đạt được hiệu quả, theo kết quả khảo sát số spam vượt qua kiểm tra của SPF nhiều hơn thư hợp pháp tới 34%. Nguyên nhân của vấn đề này là SPF chỉ ngăn chặn các e-mail giả mạo địa chỉ xuất phát, còn nếu e-mail có địa chỉ thực, nó sẽ xem đó là thư hợp pháp. Khiếm khuyết của SPF nằm ở chỗ, nó không kiểm tra xem địa chỉ Internet đó có phải do những kẻ phát tán spam sở hữu hay không. Nhưng công nghệ này có mặt mạnh là đảm bảo thư không phải thuộc dạng phising (thư lừa đảo dưới danh nghĩa của các tổ chức bằng cách giả tên miền).
Tránh các bộ lọc nội dung: Các bộ lọc nội dung thường dựa trên nguyên tắc các từ mà spammer bắt buộc phải sử dụng trong spam. Nhưng spammer lại có thể vượt qua các bộ lọc này bằng các cách sau: Họ tạo ra các hình ảnh liên kết đến nội dung của trang web quảng cáo, các từ nhạy cảm vào các ảnh. Khi đó thực sự khó cho các bộ lọc, nếu họ sử dụng các bộ lọc ảnh thì chặn luôn cả thư hợp lệ. Spammer cũng có thể chèn thêm các kí tự vào giữa các từ làm nó khó nhận ra hơn. Ví dụ như “PORN” đổi thành “P*O*R*N”. Một trường hợp spammer hay dùng với thư có định dạng HTML chứa thông tin dưới dạng bảng rất khó để phân tích nội dung.
Các phương pháp phòng tránh thư rác:
Đóng các điểm chuyển tiếp thư
Điểm chuyển tiếp thư trước đây được sử dụng phổ biến khi một máy chủ xử lý một lá thư mà người nhận hoặc người gửi không nằm trong vùng tầm kiểm soát của nó, nó phải sử dụng một máy chủ trung gian đóng vai trò là điểm chuyển tiếp. …….. ……..
Bên cung cấp dịch vụ thứ 3
ISP
Spammer
Nạn nhân
Điểm chuyển tiếp
người dùng nội mạng
Hình 2.1 Mô hình điểm chuyển tiếp
Trên hình 2.1 điểm chuyển tiếp cho phép người gửi không nằm trong mạng do máy chủ quản lý được chuyển thư qua và đây cũng chính là điểm cho phép kẻ gửi thư rác phát tán thư rác. Sở dĩ các các spammer sử dụng các máy chủ chuyển tiếp này vì nếu chúng gửi thư từ một địa chỉ cố định thì sẽ dễ dàng xác định vị trí và ngăn chặn. Nhưng qua các điạ chỉ chuyển tiếp thư địa chỉ được thay đổi và không bị các bộ lọc chặn lại.
Thêm một lý do mà spammer chọn các máy chủ chuyển tiếp là vì muốn dùng các máy này để tăng số lượng thư rác được gửi đi. Chúng chiếm tài nguyên của các máy chủ này vì thường các máy chủ này có cấu hình mạnh và có đường kết nối thuê bao Internet băng thông rộng. RFC2505 chỉ ra chi tiết làm sao có thể ngăn chặn được việc chuyển tiếp bằng cách phân quyền chuyển tiếp.
Sử dụng danh sách đen
Danh sách đen là một danh sách các địa chỉ IP đã từng gửi thư rác bị các nàh cung cấp dịch vụ Internet (ISP) và các quản trị máy chủ thư điện tử phát hiện. Danh sách này được ghi vào cơ sở dữ liệu các địa chỉ gửi spam (Danh sách đen). Danh sách này gồm cả địa chỉ phát tán thư rác và cả địa chỉ các điểm chuyển tiếp thư có liên quan đến phát tán thư rác.
Một tổ chức cũng khá nổi tiếng trong việc cung câp danh sách đen là ROKSO (Register of known spam operation) cho phép đăng kí sử cập nhật các danh sách đen. Theo thống kê của ROKSO thì 50% số thư rác được gửi trực tiếp từ những kẻ phát tán thư rác (spammer) số còn lại được gửi thông qua các proxy và các điểm chuyển tiếp thư.
Danh sách SBL (Spamhaus Block List) của dựa án Spamhaus Project, là một danh sách gồm các điạ chỉ DNS có cung cấp các dịch vụ thư rác hoặc có liên quan đến thư rác không bao gồm các điểm chuyển tiếp thư rác. Danh sách này cho phép người dùng có thể tạo truy vấn để xác định xem địa chỉ gửi thư đi có phải là địa chỉ gửi thư rác hay không. Tiểu chuẩn của danh sách này là:
Nguồn spam: Gồm địa chỉ IP tĩnh mà spam được gửi đi.
Các dịch vụ phục vụ cho spam: Máy chủ gửi thư, máy chủ web, máy chủ DNS được spammer sử dụng để gửi thư rác.
Spamhaus xác nhận cho đến tháng 12-2004 SBL đã bảo vệ cho 110 triệu người dùng khỏi spam. Danh sách đen hiện vẫn là một giải pháp tốt nhưng theo MAPS RBL, một địa chỉ cung cấp danh sách đen, nếu sử dụng danh sách chỉ bắt được có 24% số thư rác và tỉ lệ sai lên đến 34%. Tỉ lệ 34% này là tỉ lệ của các thư hợp lệ nhưng xếp vào các thư rác. Với tỉ lệ quá cao như vậy chúng khó có thể được các công ty cung cấp dịch vụ thư điện tử chấp nhận.
Để tránh các thư hợp lệ bị xếp nhầm với các thư rác thì cần thiết tạo ra một danh sách trắng. Như cái tên của nó, danh sách này trái với danh sách đen, nó gồm những địa chỉ thư hoặc tên miền thư không có liên quan đến thư rác hoặc được người sử dụng xếp vào loại hợp lệ.
Yếu điểm của phương pháp danh sách trắng là khó áp dụng cho các công ty cung cấp thư lớn có nhiều thư mà nguồn thư không rõ ràng. Thêm vào đó kẻ phát tán thư rác có thể dễ dàng giả địa chỉ có trong danh sách trắng và nghiễm nhiên chúng đi qua danh sách này một cách dễ dàng. Chính vì vậy ví dụ sau khá thú vị là một lượng lớn các điạ chỉ bị xem là phát tán thư rác lại là địa chỉ của các trường đại học của Mĩ, có thể là các địa chỉ này thường được tin cậy nên hay bị giả danh.
Kiểm tra tính xác thực của địa chỉ spam
Thực ra công việc này là dùng một cơ chế nào đó để xác nhận máy chủ vừa gửi thư là hợp lệ và người vừa gửi được chấp nhận. Các công nghệ này thường được các công ty lớn như Yahoo và Microsoft đầu tư vì nó bảo đảm được độ chính xác tuyệt đối. Công nghệ mà Microsoft phát triển là Caller ID (xác nhận thông tin cá nhân cho thư điện tử), công nghệ này kiểm tra nguồn gốc của mỗi bức thư có khớp với tên miền Internet của nó hay không. Nhờ những nỗ lực hạn chế nạn giả mạo tên miền này, người gửi thư hợp pháp sẽ có thể bảo vệ được uy tín và địa chỉ mạng của mình, đồng thời giúp người nhận xác định và sàng lọc bớt số thư không mời. Tuy nhiên, người gửi sẽ cần phải đăng ký địa chỉ IP của các máy chủ gửi thư ra (outgoing mail) với hệ thống tên miền Internet (DNS).
DomainKeys của Yahoo cũng có cơ chế tương tự, sử dụng công nghệ khóa mã công cộng/cá nhân để xử lý chữ ký trong phần tiêu đề thư (header) của một thông điệp điện tử. Khi thư điện tử được gửi đi từ một tên miền nhất định, hệ thống nhận thư sẽ thẩm tra và so sánh chữ ký với mã công cộng của người gửi (được công bố trên hệ thống tên miền công cộng). Nếu thông tin này không qua kiểm tra thì nhận dạng người gửi không được phê chuẩn và lúc đó hệ thống chống spam nội bộ của đơn vị nhận thư sẽ xử lý nó.
Sử dụng các bộ lọc nội dung.
Có rất nhiều phương pháp lọc thư rác bằng cách phân tích nội dung, sau đây là một số các cách chính:
Lọc thư dựa vào đặc điểm do người dùng định nghĩa được sử dụng nhiều trong các trình duyệt thư hiên nay. Người dùng có thể định ra các thừ từ nguồn có đặc điểm nào đó thì coi là thư hợp lệ. Họ có thể xem xét các đặc điểm của thư rác mà họ nhận được và quyết định ra một tiêu chí nào đó để quyết định là thư rác hay không. Ví dụ như họ đặt ra một luật như sau bất kì thư nào xuất hiên mã FF000 thì bị loại - đây là mã HTML cho các thư có màu đỏ sáng một mầu ưa thích của các spam có liên quan đến tình dục. Điểm yếu của cách này là nó sẽ đánh đồng các thư có đặc điểm như vậy và nó cũng không hiệu quả.
Lọc thông qua ngôn ngữ được sử dụng trong thư là lọc các thư có nội dung ngôn ngữ không thuộc ngôn ngữ của người sử dụng. Nhưng cách thức này chỉ chăn được các nguồn mà không chủ định gửi cho người dùng vì người dùng không thể hiểu được ngôn ngữ trong thư.
Lọc dựa vào tiêu đề thư đây là một cách phức tạp hơn hai cách trên. Thường thì phần tiêu để của một thư bị giả mạo để tránh lần ra kẻ gửi thư và đánh lừa người đọc thư. Nhiệm vụ của các bộ lọc phần tiêu đề là chỉ ra và cô lập các thư có phần tiêu đề bị làm giả. Tuy nhiên không phải tất cả các spam đều làm giả phần này nên đây cũng chỉ để kết hợp với các bộ lọc khác.
Lọc theo các thư có thẩm quyền, bộ lọc này sẽ chặn tất cả các thư đến từ nguồn không được phép. Với hệ thống lọc này thì lần đầu tiên khi một thư gửi cho một người sử dụng có sử dụng bộ lọc này thì nó sẽ tự động gửi ngược lại nơi thông tin được gửi đi. Khi mà nó được chấp nhận thì người gửi này sẽ là hợp lệ và tất cả thư gửi từ lúc này trở đi sẽ được chấp nhận.
Lọc theo nội dung phần thân của thư: nó quét nội dung thư với một cơ chế cho phép xác định nội dung này có phải là thư spam hay không. Nó có cơ chế giống như việc một người đọc thư trong một thoáng đọc lướt qua thì có thể xác định được thư đấy có là thư rác hay không. Một trong các bộ lọc kiểu này là Bayes, một bộ lọc rất hiệu quả có sai số nhỏ hơn phương pháp danh sách đen và các phương pháp khác. Nó chỉ ra thư là spam hay không dựa vào xác suất xuất hiện các từ trong thư. Năm 1998, Patel và Lin viết sản phẩm sử dụng bộ lọc Bayes đầu tiên. Bộ lọc của họ có thể lọc được 92% các thư rác và có tỉ lệ lỗi là 1.6%. Một kết quả khá khả quan.
Paul Graham tăng chất lượng bộ lọc này một cách đáng kể sử dụng phương pháp phân tích thống kê. Với tỉ lệ sai là 0 và bỏ qua 5 trên 1000 thư.
Đánh lừa các chương trình thu thập địa chỉ thư
Nguồn cung cấp địa chỉ thư nạn nhân mà kẻ phát tán thư rác hay sử dụng là các chương trình thu thập thư điện tử xuất hiện trên các trang web. Cách giải quyết là sử dụng các cách như: làm cho địa chỉ thư điện tử chỉ được xem bởi người dùng mà không thể thấy được nếu dùng các máy tìm kiếm. Các điạ chỉ thư điện tử thường bắt đầu bằng các thẻ “”. Các thẻ này rất dễ tìm thấy bằng các tời tìm kiếm. Do vậy người ta sử dụng các đoạn Javascript biến đổi địa chỉ thư thành các hình ảnh có hình dạng xộc xệch biến dạng chỉ có thể phân biệt bằng mắt người. Tuy nhiên các chương trình tìm kiếm địa chỉ thư cũng có thể dùng phương pháp phân tích đoạn mã này nhưng là rất phức tạp.
Một cách nữa cũng thường sử dụng để khống chế các chương trình lần tìm điạ chỉ thư là dùng các đoạn mã CGI (Common Gateway Interface) gửi nội dung địa chỉ thư đến các địa chỉ đến các hòm thư của người muốn nhận địa chỉ này.
Cung cấp địa chỉ giả
Phương pháp này có tên tiếng Anh là Spider trap, là trang web chứa một lượng lớn các địa chỉ thư giả để lừa những kẻ gửi thư rác. Trong nhưng trang này lại có đường dẫn tới các trang spider trap khác làm cho danh sách mà những kẻ phát tán thư rác nạn không có ích cho chúng. Một số còn có thể tự tạo ra các đoạn mã sinh ra một lượng lớn thư không có thật cho những máy tìm kiếm. Các đoạn mã này còn tạo ra đường dẫn quay ngược lại chính đoạn mã làm cho quá trình tìm kiếm chỉ chứa toàn các địa chỉ vô ích với spammer.
Một số phần mềm chống lại các máy tìm kiếm địa chỉ thư bằng cách chứa địa chỉ thư vào nơi đánh dấu không truy cập được. Robotcop là một chương trình mã nguồn mở thường được các quản trị web sử dụng để làm nhiệm vụ này. Các máy chủ tìm kiếm (search engine) thường dựa trên các máy lưu giữ thông tin web (web crawler). Các web crawler lưu thông tin truy cập vào tất cả các trang web và lấy ghi lại các thông tin nhưng nó phải tuân theo các luật trong file robots.txt. Nếu như các luật này không được các máy tìm kiếm địa chỉ tuân thủ thì nó xem như là các máy này có ý định lấy thông tin nhậy cảm và sẽ chặn lại kèm theo việc ghi vào file log. Có một số phần mềm còn chỉ các chương trình tìm kiếm thư điện tử vào thư mục toàn thư không có ích.
Hệ thống thu phí thư điện tử và chữ kí điện tử.
Một số hệ thống để chống lại thư rác mong muốn sử dụng hình thức thu phí điện tử với mô hình như tem thư trong thư tín thông thông thường. Lấy ý tưởng từ thư tín bình thường nhưng thực sự thì giá thành của thư điện tử chỉ có thể tính bằng chi phí cho tính toán của CPU. Các thư để gửi được thì máy tính phải tính toàn một số phép toán tốn khoảng vài chục chu kì CPU. Việc này là không đáng kể với người dùng thông thường nên họ dễ chấp nhận. Nhưng đối với những kẻ phát tán thư số lượng phép toán mà họ phải tính toán là quá lớn.
Sử dụng mobile agent
Một cách tiếp cận chống thư rác khác mới được công bố là dùng các agent. Cách làm này được Li Cheng và Wang Weinong, đại học Thượng Hải giới thiệu năm 2002, nguyên tắc như sau: Trong hệ thống thư điện tử SMTP khi máy chủ và máy người dùng (cụ thể là MTA-Mail Trafer Agent) muốn trao đổi sẽ mở kênh truyền. Để thông báo mở một kênh truyền bên gửi gửi lệnh MAIL. Đây là thời điểm đưa vào một agent tham ra vào, nó sẽ thông báo “OK” cho bên gửi. Agent sẽ kiểm tra và lọc thư rác để quyết định bỏ qua hay chuyển thư đó cho bên nhận. Gánh nặng việc xử lý thư rác này chuyển sang các agent này là tránh tốn phí xử lý của các máy chủ chuyển tiếp thư, khi nó phải xử lý hàng nghìn thư rác có cùng nội dung gửi cho những người dùng khác nhau. Một điểm mạnh kèm theo của hệ thống này là nó còn có thể kiểm tra virus và ngăn không để tấn công từ bên trong mạng khi kẻ tấn công gưi virus thông qua các gói tin đính kèm. Nhưng điểm khó khăn với giải pháp này là làm sao để đảm bảo an toàn an ninh cho cả agent và máy chủ.
Các phương pháp khác.
Một xu hướng gần đây của các phần mềm lọc thư là kết hợp các phương pháp lọc khác nhau. TDMA-Tagged Message Delivery Agent là chương trình ứng dụng theo chuẩn OSI nó kết hợp các phương pháp danh sách trắng, danh sách đen, các phương pháp mã hóa. Các thư gửi đến từ những người gửi chưa xác định thì được đặt ở trong một hàng đợi đến khi có xác nhận của người nhận. Khi xác nhận thư là hợp lệ nó cho vào danh sách trắng và không cần phải xử lý ở lần tiếp theo.
SpamAssasin là một chương trình rất phổ biến cho phép kiểm tra thư với các tiêu chuẩn thư rác xác định nó là thư r._.
Các file đính kèm theo tài liệu này:
- 24802.doc