MỤC LỤC
MỤC LỤC ............................................................................................................ 1
MỞ ĐẦU .............................................................................................................. 3
Chương 1: TỔNG QUAN ................................................................................... 5
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information Retrieval): ..............5
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):.....
133 trang |
Chia sẻ: huyen82 | Lượt xem: 1574 | Lượt tải: 1
Tóm tắt tài liệu Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt - Anh - Hoa, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
..........................9
1.2.1 Khái niệm:................................................................................................9
1.2.2 Các vấn đề của CLIR:...........................................................................10
1.3 Các hướng tiếp cận: ......................................................................................11
1.3.1 Dịch máy (Machine Translation for Text Translation):....................11
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri): .............................14
1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):...................................22
1.4 Một số công trình nghiên cứu trong và ngoài nước: .................................30
1.4.1 Ở Việt Nam: ...........................................................................................30
1.4.2 Trên thế giới: .........................................................................................31
1.5 Kết luận: ........................................................................................................32
Chương 2: CƠ SỞ LÝ THUYẾT..................................................................... 35
2.1 Giới thiệu về MRD (Machine Readable Dictionary) .................................35
2.1.1 Sơ lược lịch sử phát triển MRD trên thế giới: ....................................35
2.1.2 Vai trò và cấu trúc của MRD: ..............................................................39
2.1.3 Khai thác tài nguyên từ điển: ...............................................................41
2.1.4 Xây dựng từ điển tự động:....................................................................42
2.1.5 Cấu trúc vĩ mô và vi mô của từ điển MRD:........................................43
2.1.6 Một số từ điển MRD: ............................................................................43
2.2 Các phương pháp tách từ: ...........................................................................51
2.2.1 Mô hình WFST:.....................................................................................51
2.2.2 Mô hình MMSEG: ................................................................................57
2.3 Các phương pháp khử nhập nhằng: ...........................................................64
2.3.1 Giới thiệu: ..............................................................................................64
2.3.2 Khử nhập nhằng:...................................................................................65
2.4 Kết luận: ........................................................................................................70
Chương 3: PHÂN TÍCH và THIẾT KẾ ......................................................... 72
3.1 Tổng quan hệ thống:.....................................................................................72
3.1.1 Phát biểu bài toán: ................................................................................72
3.1.2 Mô hình hệ thống: .................................................................................72
3.1.3 Phát sinh quản lý:..................................................................................73
3.2 Phân tích – thiết kế hệ thống: ......................................................................76
3.2.1 Mô hình Usecase:...................................................................................76
3.2.2 Đặc tả usecase: .......................................................................................77
3.2.3 Sơ đồ tuần tự: ........................................................................................78
3.2.4 Thiết kế lớp: ...........................................................................................81
3.2.5 Thiết kế giao diện: .................................................................................94
3.3 Xây dựng hệ thống: ......................................................................................97
3.3.1 Tổ chức các MRD:.................................................................................97
3.3.2 Phương pháp tìm kiếm dựa trên MRD: ............................................106
3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:.........................................110
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM ............................................... 112
4.1 Cài đặt:.........................................................................................................112
4.1.1 Tiền xử lý: ............................................................................................112
4.1.2 Cấu trúc dữ liệu:..................................................................................112
4.1.3 Dịch từ từ điển: ....................................................................................113
4.1.4 Khử nhập nhằng :................................................................................113
4.1.5 Tìm kiếm: .............................................................................................116
4.2 Thử nghiệm: ................................................................................................117
4.2.1 Module dịch và khử nhập nhằng: ......................................................117
4.2.2 Chương trình demo trên web:............................................................117
4.3 Đánh giá :.....................................................................................................119
4.3.1 Module dịch và khử nhập nhằng: ......................................................119
4.3.2 Chương trình tìm kiểm trên Web:.....................................................120
Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN ................................... 122
5.1 Kết luận: ......................................................................................................122
5.2 Huớng phát triển: .......................................................................................122
5.2.1 Đối với từ điển và ngữ liệu: ................................................................122
5.2.2 Đối với IR Engine: ...............................................................................123
5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống: ......................................124
PHỤ LỤC ......................................................................................................... 125
TÀI LIỆU THAM KHẢO .............................................................................. 132
MỞ ĐẦU
Với sự phát triển nhanh chóng của công nghệ tin học, khối lượng thông tin được lưu trữ trên máy tính ngày càng nhiều. Vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) cho phép người dùng tìm kiếm một cách chính xác và nhanh nhất các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hơn nữa, trong xu thế toàn cầu hóa như hiện nay, rất nhiều các tổ chức, các công ty quốc tế hình thành, lại xuất hiện một nhu cầu mới trong việc tìm kiếm thông tin đó là tìm kiếm thông tin đa ngữ để người dùng có thể khai thác một cách hiệu quả nhất kho tài liệu đa ngữ mà họ có. Một ví dụ cụ thể về kho tư liệu đa ngữ là Internet. Các trang Web bằng nhiều ngôn ngữ khác nhau xuất hiện ngày càng nhiều, trong khi các công cụ tìm kiếm đơn ngữ (search engine) chỉ có thể trả về các tài liệu được viết cùng ngôn ngữ với ngôn ngữ của câu truy vấn (query). Do đó vấn đề đặt ra là liệu có thể xây dựng một hệ tìm kiếm thông tin mà thông tin trả về là tất cả các tài liệu ở các ngôn ngữ khác nhau trong kho tư liệu có liên quan đến câu truy vấn (không phụ thuộc vào ngôn ngữ của câu truy vấn). Đây chính là bài toán đặt ra cho việc nghiên cứu các hệ tìm kiếm đa ngữ/ xuyên ngữ (multilanguage IR/ cross language IR).
Mục tiêu của các hệ thống tìm kiếm xuyên ngữ là cung cấp công cụ cho người dùng để có thể mô tả nhu cầu tìm kiếm thông tin ở ngôn ngữ mà mình diễn đạt giỏi nhất (thường là tiếng mẹ đẻ), hệ thống sẽ phải trả về tất cả các tài liệu ở tất cả các ngôn ngữ có trong kho tư liệu đang tìm kiếm có liên quan đến nhu cầu thông tin của người dùng.
Trên đây là nhu cầu chung của hầu hết các ngôn ngữ và tiếng Việt của chúng ta cũng không phải là ngoại lệ. Khác với các ngôn ngữ khác, tiếng Việt có nhiều đặc điểm riêng biệt và rất khó xử lý bằng máy tính, nên các đề tài nghiên cứu hay các chương trình ứng dụng liên quan đến các hệ thống tìm kiếm bằng tiếng Việt còn rất ít. Mà nhu cầu tìm kiếm tài liệu trên kho tàng kiến thức của thế giới của người Việt là rất lớn. Với mong muốn phát triển nhiều hơn nữa các hệ thống tìm kiếm xuyên ngôn ngữ bằng tiếng Việt, chúng tôi xây dựng “Hệ thống tìm kiếm thông tin xuyên ngôn ngữ Việt –
Anh – Hoa” cho phép người dùng nhập câu truy vấn bằng tiếng Việt và trả về các tài liệu có liên quan bằng tiếng Việt, tiếng Anh và tiếng Hoa. Trong luận văn này chúng tôi lựa chọn tiếng Anh và tiếng Hoa là hai đại diện tiêu biểu cho hai loại hình ngôn ngữ biến hình và đơn lập. Từ đó cho thấy rằng hệ thống tìm kiếm thông tin xuyên ngữ có thể thực thi trên hai loại hình ngôn ngữ khác nhau.
Bố cục của luận văn gồm các chương sau:
Chương 1 – TỔNG QUAN : giới thiệu tổng quan về hệ thống tìm kiếm (IR), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR), các hướng tiếp cận và các vấn đề cần giải quyết của hệ thống.
Chương 2 – CƠ SỞ LÝ THUYẾT: trình bày cơ sở lý thuyết và các phương pháp đã nghiên cứu trong luận văn.
Chương 3 – PHÂN TÍCH VÀ THIẾT KẾ: phân tích và thiết kế hệ
thống.
Chương 4 – CÀI ĐẶT VÀ KIỂM TRA: cài đặt, kiểm thử chương trình.
Chương 5 – KẾT LUẬN và HƯỚNG PHÁT TRIỂN: trình bày các kết quả đạt được, các đánh giá về hệ thống và hướng phát triển trong tương lai.
Phần TÀI LIỆU THAM KHẢO và PHỤ LỤC: trình bày các thông tin có liên quan được sử dụng trong luận văn.
Chương 1: TỔNG QUAN
Trong chương này, chúng tôi sẽ trình bày khái quát về các hệ thống tìm kiếm (Information Retrieval), hệ thống tìm kiếm thông tin xuyên ngôn ngữ (Cross-Language Information Retrieval) và một số khảo sát về tình hình nghiên cứu trong và ngoài nước. Cuối chương chúng tôi sẽ rút ra kết luận chung và lựa chọn hướng tiếp cận cho hệ thống của mình. Nội dung trình bày bao gồm:
9 Giới thiệu mô hình tìm kiếm thông tin.
9 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ.
9 Một số công trình nghiên cứu trong và ngoài nước.
9 Kết luận.
1.1 Giới thiệu mô hình tìm kiếm thông tin (Information
Retrieval):
Hệ thống tìm kiếm thông tin xuyên ngữ (Cross Language Information Retrieval - CLIR) có liên hệ rất mật thiết với hệ thống tìm kiếm thông tin (Information Retrieval - IR) và cũng có rất nhiều đặc trưng của hệ thống này (IR). Qui trình của hệ thống tìm kiếm thông tin như sau:
Người dùng muốn xem những tài liệu liên quan đến một chủ đề nào đó.
Người dùng cung cấp một mô tả về chủ đề đó dưới dạng câu truy vấn.
Từ câu truy vấn này hệ thống sẽ lọc ra những cụm từ chỉ mục.
Những cụm từ chỉ mục này sẽ được so khớp với những cụm từ chỉ mục của các tài liệu đã được xử lý trước đó.
Những tài liệu nào có mức độ liên quan cao nhất sẽ được trả về cho người dùng.
Mục đích của IR là hiển thị cho người dùng một tập các thông tin thỏa mãn nhu cầu của họ. Chúng ta định nghĩa chính xác cho thông tin cần thiết là “câu truy vấn”(query), và các thông tin được chọn là “tài liệu” (documents). Mỗi cách tiếp cận trong IR bao gồm 2 thành phần chính: một là các kỹ thuật để biểu diễn thông tin (câu truy vấn, tài liệu), và hai là phương pháp so sánh các cách biểu diễn này. Mục đích là để tự động qui trình kiểm tra các tài liệu bằng cách tính toán độ tương quan giữa các câu truy vấn và tài liệu. Qui trình tự động này thành công khi nó trả về các kết quả giống với các kết quả được con người tạo ra khi so sánh câu truy vấn với các tài liệu.
Có một vấn đề thường xảy ra đối với hệ thống tìm kiếm là những từ mà người dùng đưa ra trong câu truy vấn thường khác xa những từ trong tập tài liệu chứa thông tin mà họ tìm kiếm. Trường hợp như thế gọi là “paraphrase problem” (vấn đề về diễn giải). Để giải quyết vấn đề này hệ thống đã tạo ra các hàm biểu diễn xử lý các câu truy vấn
và các tài liệu một cách khác nhau để đạt đến một độ tương thích nào đó.
[0,1]
Xử lý của con người j
Không gian câu truy vấn
Q
Câu truy vấn
Tài liệu
Không gian tài liệu
D
Hàm biểu diễn q
câu truy vấn
Hàm biểu d
diễn tài liệu
Biểu diễn 1
Biểu diễn 2
Không gian biểu diễn R
c
Hàm so sánh
[0,1]
Hình 1.1: Mô hình hệ thống tìm kiếm thông tin
Gọi miền xác định của hàm biểu diễn câu truy vấn q là Q, tập hợp các câu truy vấn có thể có; và miền giá trị của nó là R, không gian thống nhất biểu diễn thông tin. Gọi miền xác định của hàm biểu diễn tài liệu d là D, tập hợp các tài liệu; và miền giá trị của nó là R2 . Miền xác định của hàm so sánh c là R x R và miền giá trị của nó là [0,1], tập các số thực từ 0 đến 1. Trong một hệ thống tìm kiếm lí tưởng:
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,
khi j: Q x D --> [0,1] biểu diễn việc xử lý của người dùng giữa các mối quan hệ của 2 thông tin, được tính dựa trên một tiêu chuẩn nào đó (ví dụ: sự giống nhau về nội dung hay sự giống nhau về kiểu …). Hình 1.1 minh họa mối quan hệ này.
Có hai kiểu hệ thống tìm kiếm: tìm kiếm dựa trên so khớp chính xác và dựa trên sắp xếp. Mô hình trên đây có thể mô tả cả 2 cách tiếp cận. Trong hệ thống tìm kiếm dựa trên so khớp chính xác, miền giá trị của c được giới hạn từ 0 đến 1, và nó được chuyển sang nhị phân để quyết định liệu 1 tài liệu có thỏa biểu thức bool được xác định bởi câu truy vấn hay không? Các IR dựa trên so khớp chính xác thường cung cấp các tài liệu không sắp xếp thỏa câu truy vấn của người dùng, hầu hết các hệ thống tìm kiếm hiện nay đều dùng cách này. Cách hoạt động chi tiết của hệ thống sẽ được mô tả ở phần sau.
Đối với hệ thống IR dựa trên sắp xếp, thì các tài liệu sẽ được sắp xếp theo thứ tự giảm dần về mức độ liên quan. Có 3 loại hệ thống tìm kiếm dựa trên sắp xếp: “ranked Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên miền giá trị của c là [0,1], tuy nhiên chúng khác nhau ở cách tính “giá trị trạng thái tìm kiếm” (“retrieval status value”):
Trong hệ thống dựa trên “ranked Boolean” giá trị này là mức độ mà thông tin thỏa mãn biểu thức bool được chỉ ra bởi các thông tin còn lại.
Trong hệ thống dựa trên “probabilistic” , khái niệm này hơi khác một chút, giá trị này là xác suất mà thông tin có liên quan đến một câu truy vấn. Rất nhiều hệ thống tìm kiếm dựa trên xác suất được thiết kế để chấp nhận câu truy vấn được diễn tả bằng ngôn ngữ tự nhiên hơn là một biểu thức bool.
Trong hệ thống tìm kiếm dựa trên sự giống nhau, giá trị trạng thái tìm kiếm được tính bằng cách tính mức độ giống nhau của nội dung thông tin.
Trong các hệ thống tìm kiếm dựa trên so khớp chính xác, việc đánh giá hệ thống chủ yếu dựa trên việc đánh giá mức độ liên quan. Giả sử j là giá trị nhị phân và được cho trước. Nói cách khác, ta giả sử rằng các tài liệu hoặc có hoặc không có liên quan đến câu truy vấn, và độ liên quan giữa tài liệu và câu truy vấn do con người xác định là chính xác. Theo giả định này, tính hiệu quả của các hệ thống tìm kiếm dựa trên so khớp chính xác được đánh giá dựa trên 2 đại lượng thống kê là “độ chính xác” (precision) và “độ bao phủ” (recall). Độ chính xác là tỉ lệ các tài liệu được chọn, các tài liệu thực sự liên quan đến các thông tin mà người dùng cần, độ bao phủ là tỉ lệ tài liệu có liên quan được sắp xếp chính xác theo độ liên quan bởi hệ thống tìm kiếm. Nói cách khác, độ chính xác bằng 1 trừ đi tỉ lệ cảnh báo sai, trong khi đó độ bao phủ đo
mức độ hoàn chỉnh của việc tìm kiếm. Bảng 1.1 minh họa cho các mối quan hệ này.
Selected as
Actually is
Relevant Not relevant
Relevant Found False alarm
Not Relevant Missed
Pr ecision =
Found
Found + False alarm
Re call =
Found
Found + Missed
Bảng 1.1: Tính độ hiệu quả của hệ thống tìm kiếm thông tin
Việc đánh giá tính hiệu quả của hệ thống tìm kiếm dựa trên sắp xếp thì phức tạp hơn. Một cách tính độ hiệu quả phổ biến cho các hệ thống này là “độ chính xác trung bình”. Nó được tính bằng cách chọn một tập lớn hơn các tài liệu ở đầu danh sách có giá trị bao phủ giữa 0 và 1. Phương pháp thường được sử dụng là phương pháp tính dựa trên
5, 7, 11 điểm theo độ bao phủ. Độ chính xác sau đó sẽ được tính cho từng tập một. Qui trình sẽ được lặp lại cho từng câu truy vấn, và tương ứng mỗi độ chính xác trung bình sẽ cho một độ bao phủ. Mỗi giá trị trung bình của những số này sau đó sẽ được tính toán và ghi nhận như là một đặc trưng của hệ thống. Độ chính xác trung bình càng lớn thì càng tốt, và việc so sánh chỉ thực sự có ý nghĩa khi chúng ta sử dụng cùng một tập tài liệu và câu truy vấn. Tuy nhiên độ chính xác trung bình cũng làm giảm đi mức độ thay đổi của các câu truy vấn có các đặc tính khác nhau (ví dụ như số lượng tài liệu có liên quan khác nhau). Hơn thế nữa, các tài liệu có liên quan thường tập trung ở đầu danh sách sắp xếp nên thông thường độ chính xác sẽ giảm mỗi khi tập tài liệu được mở rộng để tăng độ bao phủ.
1.2 Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR):
1.2.1 Khái niệm:
Hệ thống tìm kiếm thông tin xuyên ngôn ngữ (CLIR) là hệ thống tìm kiếm (IR) cho phép người dùng nhập câu truy vấn bằng một ngôn ngữ để tìm kiếm các tài liệu trong một ngôn ngữ khác. Đối tượng sử dụng hệ thống tìm kiếm thông tin xuyên ngữ (CLIR)
là:
Những người có khả năng đọc các tài liệu tiếng nước ngoài, nhưng gặp khó khăn khi tạo câu truy vấn bằng ngôn ngữ đó.
Những người gặp khó khăn khi đọc/ tìm kiếm các tài liệu tiếng nước ngoài nhưng lại cần một số lượng giới hạn các tài liệu được tìm kiếm bằng CLIR để sử dụng trong các hệ thống dịch máy (MT), thay vì phải dịch toàn bộ tập hợp các tài liệu.
Những người biết các từ khóa hoặc cụm từ tiếng nước ngoài, và muốn đọc các tài liệu có liên quan với những từ khóa hoặc cụm từ đó bằng ngôn ngữ bản xứ.
1.2.2 Các vấn đề của CLIR:
Vì câu truy vấn do người dùng nhập vào và các tài liệu được tìm kiếm ở hai ngôn ngữ khác nhau nên CLIR cần phải có qui trình chuyển ngữ cùng với qui trình tìm kiếm theo cách tìm kiếm truyền thống của các hệ đơn ngữ. Các hệ tìm kiếm đơn ngữ hiện nay thực hiện rất tốt qui trình tìm kiếm đơn ngữ. Và vấn đề chính chúng ta cần quan tâm ở đây làm thế nào để qui trình chuyển ngữ có thể được thực hiện tốt nhất.
Chính qui trình chuyển ngữ này đã làm phát sinh rất nhiều vấn đề trong CLIR. Vấn đề đầu tiên là làm sao biết được một từ trong ngôn ngữ này được viết như thế nào trong ngôn ngữ khác? Vấn đề thứ hai là làm sao quyết định được cách dịch nào sẽ được giữ lại? Vấn đề thứ ba là làm sao xác định được tầm quan trọng khác nhau giữa các bản dịch khi có nhiều bản dịch được giữ lại.
Hai vấn đề đầu tiên, làm sao để dịch và làm sao để loại bỏ bớt bản dịch, là hai vấn đề của các hệ thống dịch máy . Hệ thống CLIR có thể loại bỏ một vài cách dịch và giữ lại một số khác bằng cách khử nhập nhằng. Tuy nhiên, việc giữ lại một số cách dịch nhập nhằng giúp cho hệ thống tìm kiếm gia tăng độ bao phủ của nó.
Vấn đề thứ ba của CLIR có liên quan đến cách xử lý các bản dịch tương đương, là điều giúp chúng ta phân biệt CLIR với dịch máy và tìm kiếm thông tin đơn ngữ. Giả sử rằng câu truy vấn ban đầu có hai từ phân biệt. Nếu từ đầu tiên có thể được dịch sang nhiều cách khác nhau, và nếu từ thứ hai chỉ có thể được dịch sang một cách duy nhất, thì hệ thống tìm kiếm sẽ không tăng trọng số cho từ đầu tiên, bởi vì nó có nhiều lựa chọn khi dịch. Điều này minh họa cho vấn đề tính trọng số của các cách dịch, đặc biệt là đối với hệ thống CLIR. Một tài liệu chứa một cách dịch của mỗi từ trong câu truy
vấn có thể sẽ có độ liên quan nhiều hơn một tài liệu chứa nhiều cách dịch khác nhau của từ đầu tiên trong câu truy vấn nhưng không chứa cách dịch nào của từ thứ hai.
1.3 Các hướng tiếp cận:
Việc phân loại các hướng tiếp cận của CLIR dựa trên phương pháp được sử dụng trong quá trình chuyển ngữ.
1.3.1 Dịch máy (Machine Translation for Text Translation):
Giữa tìm kiếm xuyên ngữ và dịch máy hoàn toàn tự động có mối quan hệ gần gũi. Hình 1.2 minh họa cách dịch tự động hoàn toàn và hỗ trợ dịch máy có thể được tích hợp trong hệ thống tìm kiếm xuyên ngữ. Với một hệ thống như thế, các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào. Nếu cần, việc dịch máy hoàn toàn tự động có thể được dùng để tạo ra các bản dịch được hiển thị trên màn hình cho phép người dùng chọn tài liệu. Khi cần một bản dịch tốt hơn thì các tài liệu được chọn có thể được chuyển cho dịch máy dưới sự hỗ trợ của con người.
Hình 1.2 Tích hợp tìm kiếm xuyên ngữ với dịch máy.
Có lẽ hầu hết các hướng tiếp cận trực tiếp đến tìm kiếm xuyên ngôn ngữ là việc thực thi q hoặc d bằng cách sử dụng hệ thống dịch hoàn toàn tự động để mang câu truy vấn và tài liệu vào không gian biểu diễn R dựa trên một ngôn ngữ nhất định. Một điểm yếu của hệ thống dịch tự động là nó chỉ có thể cung cấp việc dịch hiệu quả trong một vùng giới hạn nào đó.
Các hệ thống tìm kiếm văn bản thường bỏ qua các lỗi dịch cú pháp hơn là các lỗi về ngữ nghĩa, nhưng độ chính xác về ngữ nghĩa sẽ giảm sút khi các thông tin không được mã hóa vào hệ thống dịch một cách đầy đủ. Vì việc mã hóa đầy đủ thông tin có thể sẽ mất chi phí khá cao nên tính hiệu quả của hệ thống tìm kiếm xuyên ngữ dựa trên dịch máy sẽ bị giới hạn, đặc biệt là khi dịch các câu truy vấn ngắn. Khuyết điểm này có thể được giảm bớt nếu chúng ta dịch các tài liệu thay vì dịch câu truy vấn. Bởi vì các tài liệu thường dài hơn các câu truy vấn, nên một hệ thống dịch máy được nhúng vào hàm
biểu diễn tài liệu d có thể có nhiều thông tin về ngữ cảnh để chọn lựa ngữ nghĩa hơn là một hệ thống được nhúng vào hàm biểu diễn câu truy vấn q.
Tuy nhiên, độ hiệu quả sẵn có của dịch máy đã trở thành vấn đề tranh luận khi một hệ thống dịch được nhúng vào d, bởi vì thông thường d cần phải được cung cấp cho một số lượng rất lớn các tài liệu. Hơn nữa, một vài công việc do hệ thống dịch máy thực hiện không mang lại sự cải tiến nào cho tính hiệu quả của việc tìm kiếm văn bản. Chẳng hạn như, việc dịch văn bản đòi hỏi phải lựa chọn thứ tự của các từ và thêm vào các từ có quan hệ gần1 trong ngôn ngữ đích. Nhưng cả hai đặc tính này thường bị bỏ đi bởi q và d.
Thật vậy, một vài công việc do hệ thống dịch máy làm thật sự làm giảm tính hiệu quả của việc tìm kiếm văn bản. Vì trong các ngôn ngữ khác nhau nghĩa của từ sẽ không được nhóm theo cùng một cách, nên các hệ thống dịch máy luôn cố gắng đạt được nghĩa dịch tốt nhất cho từ khi từ có nhiều nghĩa. Theo phân tích này thì một nghĩa đơn sẽ được chọn cho mỗi từ đa nghĩa. Tuy nhiên, trong một hệ thống tìm kiếm, q và d có thể được thiết kế để ngăn chặn những thông tin không chắc chắn và c có thể được thiết kế để tận dụng những thông tin đó trong việc cải thiện tính hiệu quả.
Những nghiên cứu này cho thấy rằng khi thiết kế các hàm q và d cho hệ thống tìm kiếm xuyên ngữ thì kiểu và độ sâu của qui trình có thể được quyết định bởi khả năng biểu diễn của không gian R để biểu diễn các kết quả của các qui trình và khả năng sử dụng các thông tin đó của hàm so sánh c. Chúng ta cũng có thể hoặc giới hạn qui trình của chúng ta bằng khả năng của các kĩ thuật hiện có để sử dụng thông tin kết quả, hoặc chúng ta có thể thiết kế các hàm biểu diễn và so sánh mới để tận dụng thông tin mà kĩ thuật dịch máy có thể cung cấp.
Ưu điểm: các câu truy vấn có thể được dịch sang bất cứ ngôn ngữ nào mà người dùng thấy cần thiết, và các tài liệu sẽ được trả về bất cứ ngôn ngữ nào.
1 các từ có quan hệ gần là những từ ít mang nội dung và thường bị loại bỏ bởi danh sách các stopword trong một hệ thống truy xuất.
Khuyết điểm: Hiệu quả dịch còn giới hạn.
1.3.2 Dựa trên từ điển đa ngữ (Multilingual Thesauri):
Ở đây chúng ta định nghĩa một từ điển đồng nghĩa như là một công cụ để mã hóa thông tin tri thức cho một ứng dụng. Vì thế một từ điển đồng nghĩa là một bản thể mà đặc trưng là các thuật ngữ đã được tổ chức. Một từ điển đồng nghĩa đa ngữ là một từ điển tổ chức các thuật ngữ từ một hoặc nhiều thứ tiếng. Từ điển song ngữ, thường định nghĩa các cụm với chi tiết cho các cụm khác, cũng được gộp vào định nghĩa này. Từ vựng trong ngôn ngữ học máy tính, được mã hóa thông tin cú pháp và ngữ nghĩa, cũng nằm trong định nghĩa này. Các từ điển đồng nghĩa phức tạp, được sử dụng như là một danh mục cơ sở trong hệ thống tìm kiếm tự động, cũng nằm trong phạm vi của định nghĩa từ điển đồng nghĩa trên. Thậm chí một danh sách song ngữ đơn giản gồm các thuật ngữ kĩ thuật mà trong đó mỗi thuật ngữ được gán một cách dịch duy nhất cũng là một từ điển đồng nghĩa theo định nghĩa trên. Chúng ta nhận ra rằng đây là một định nghĩa mở rộng không bình thường cho từ “từ điển đồng nghĩa”. Nhưng vì không có một thuật ngữ chuẩn ngắn gọn nào có thể đáp ứng khái niệm chúng ta mô tả nên chúng ta chọn cụm từ có quan hệ gấn nhất với hệ thống tìm kiếm xuyên ngữ hiện tại. Bảng
1.2 cho thấy một vài kiểu từ điển đồng nghĩa phổ biến được sử dụng trong các hệ thống tìm kiếm xuyên ngữ. Các thông tin chi tiết hơn về từ điển xuyên ngữ sẽ được trình bày ở phần sau.
Kiểu từ điển Đặc trưng
Từ điển đồng nghĩa theo
đề tài
Có mối quan hệ kế thừa và kết hợp. Một cụm duy nhất được gán cho 1 nút.
Danh sách khái niệm Không gian của các cụm từ được chia thành các lớp khái niệm.
Danh sách các cụm từ Danh sách các từ đồng nghĩa xuyên ngôn ngữ.
Từ vựng Các cú pháp hoặc ngữ nghĩa mà máy có
thể đọc được (Machine Readable)
Bảng 1.2 Các kiểu từ điển đa ngữ
Kĩ thuật dựa trên từ điển có một số ưu điểm và khuyết điểm nhất định. Vì từ điển có thể biểu diễn các mối quan hệ giữa các cụm từ và các khái niệm theo cách mà con người có thể hiểu được, nên việc tìm kiếm thông tin dựa trên từ điển cho phép người dùng khai thác lợi ích bên trong trong suốt quá trình tìm kiếm để hình thành một câu truy vấn tốt hơn. Hơn thế nữa, vì có một lượng các thông tin quan trọng được mã hóa trong từ điển, nên ở khía cạnh của một người dùng có kĩ năng, một hệ thống tìm kiếm dựa trên từ điển có thể là một công cụ rất mạnh. Mặt khác, việc sử dụng từ điển sẽ áp đặt mức độ giới hạn lên cả từ vựng mà người dùng sử dụng cũng như phạm vi mà hệ thống tìm kiếm có thể cung cấp. Các kỹ thuật hiện nay cho việc xây dựng và duy trì từ điển tập trung mạnh mẽ vào nguồn tài nguyên, và việc huấn luyện; và nỗ lực để sử dụng hiệu quả các mối quan hệ về khái niệm chứa đựng bên trong một từ điển phức tạp là rất trọng yếu.
Một vài khía cạnh về tri thức có thể được mã hóa trong một từ điển. Đặc tính quan trọng của một từ điển xuyên ngữ là một đặc tả của đồng nghĩa xuyên ngữ 2. Các mối
2 Đặc tả của đồng nghĩa xuyên ngữ có thể không hoàn toàn vì có một số cụm từ có thể không có bản dịch trực tiếp trong một ngôn ngữ khác.
quan hệ kế thừa về khái niệm (cụm từ rộng hơn, hay hẹp hơn) và mối quan hệ kết hợp
(cụm từ có liên quan hoặc đồng nghĩa) thường được thêm vào một từ điển phức tạp.
Từ điển có thể được dùng tự động hoặc thủ công. Trong một hệ thống gọi là “vốn từ được quản lý” (“controlled vocabulary”), mỗi khái niệm được gán nhãn bằng một cụm từ có tính mô tả để người dùng có thể chỉ rõ những khái niệm thích hợp nhất cho câu truy vấn của họ. Khi các mối quan hệ về khái niệm được mã hóa trong một từ điển được sử dụng một cách tự động, thì kĩ thuật đó được gọi là “tìm kiếm theo khái niệm” (concept retrieval). Trong một hệ thống tìm kiếm theo khái niệm đơn giản, một danh sách các khái niệm được sử dụng để thay thế mỗi cụm từ bằng lớp khái niệm của nó để tăng độ bao phủ (dựa trên độ quyết định). Có một hướng tiếp cận phức tạp hơn, gọi là “mở rộng câu truy vấn” (query expansion) đã sử dụng mối quan hệ giữa các khái niệm được mã hóa để lựa chọn cụm từ có thể đáp ứng cả độ chính xác và độ bao phủ.
Cả việc thay thế khái niệm lẫn việc mở rộng câu truy vấn đều thể hiện nỗ lực làm tăng độ bao phủ bằng cách làm giảm ảnh hưởng của vấn đề diễn giải. Độ chính xác có thể được tăng bằng cách thêm vào các thông tin về cú pháp và ngữ nghĩa trong từ điển để làm giảm nhẹ ảnh hưởng của từ đa nghĩa 3.Ví dụ, trong một hệ thống thông tin có vốn từ được quản lý thường được cung cấp một từ điển để người dùng có thể chọn ra cụm từ chính xác một cách thủ công. Một hệ thống tìm kiếm khái niệm có thể sử dụng ý tưởng này bằng cách đánh thẻ các từ dựa trên từ loại của chúng và sau đó chọn cách dịch nào có cùng từ loại.
1.3.2.1 Hệ thống vốn từ được quản lí:
Trước năm 1973 người ta cho rằng cả hệ thống vốn từ được quản lý và hệ thống tìm kiếm khái niệm bằng từ điển đa ngữ đều có thể thực thi xuyên ngữ giống như là việc thực thi bên trong một ngôn ngữ với cùng kỹ thuật. Trước năm 1977 đã có 4 hệ thống
tìm kiếm xuyên ngữ được thực thi ở châu Âu. Từ các hệ thống này, nổi lên 6 tiêu chí
3 Giải pháp cho từ đa nghĩa thường được gọi là khử nhập nhằng nghĩa của từ.
căn bản của các nghiên cứu dựa trên từ điển xuyên ngữ : những tiêu chuẩn về thiết kế, các công cụ phát triển và duy trì, phần cứng chuyên dụng, các cặp và các lĩnh vực của ngôn ngữ mới, giao diện người dùng, và việc đánh giá nhu cầu của người dùng.
Trong năm 1970, người ta thấy rõ ràng rằng việc tiêu chuẩn hóa sự phát triển các từ điển để ngăn chặn “việc tạo ra những đề tài lệch hướng và không phù hợp” là cần thiết, và năm 1971 UNESCO đã đề ra các tiêu chuẩn cho việc phát triển từ điển đa ngữ. Trong năm 1973 ISO đã xem xét vấn đề này, và trước năm 1976 bản thảo cho vấn đề này đã được phổ biến một cách rộng rãi. Được thông qua vào năm 1978 như là chuẩn ISO 5964 và được chỉnh sửa gần đây nhất vào năm 1985, tiêu chuẩn này đã mô tả phạm vi tri thức có thể được nội suy bên trong các từ điển đa ngữ như thế nào, và nhận diện những kỹ thuật khác nhau cho việc phát triển từ điển đa ngữ.
Từ điển EUROVOC của quốc hội châu Âu là một ví dụ của một từ điển đa ngữ hiện đại theo chuẩn ISO 5964. Được thiết lập lần đầu vào năm 1984, EUROVOC hiện nay bao gồm 9 ngôn ngữ 4 chính thức của cộng đồng châu Âu, và một phần của nó đã được dịch sang nhiều ngôn ngữ khác. Việc thiết kế từ điển đòi hỏi chi phí cao, và điều này đã làm giới hạn lĩnh vực mà hệ thống tìm kiếm dựa trên vốn từ được quản lí có thể cung cấp. Nhưng EUROVOC chứng minh rằng một khi._. các mối liên hệ cơ bản về khái niệm được định nghĩa trong một pham vi nào đó thì việc mở rộng chuẩn từ điển đa ngữ ISO 5964 cho các ngôn ngữ khác là hoàn toàn thiết thực.
Khi các từ điển đa ngữ gia tăng một cách nhanh chóng, thì các công cụ thiết kế và duy trì cũng trở nên quan trọng hơn. Trong những năm 1970, có rất nhiều các thủ tục cũng như các thuật toán đã được nghiên cứu để dùng cho việc trộn các từ điển đơn ngữ thành một từ điển đa ngữ.
Ngày nay các hệ thống tìm kiếm văn bản xuyên ngữ đã được sử dụng một cách rộng rãi, nhưng hầu hết các hệ thống thương mại đều sử dụng hướng tiếp cận tìm kiếm dựa trên so khớp chính xác. Các từ điển đa ngữ phức tạp đã và đang được phát triển trong
4 9 ngôn ngữ là: Đan Mạch, Hà Lan, Anh, Pháp, Đức, Hy Lạp, Ý, Bồ Đào Nha và Tây Ban Nha.
nhiều ngôn ngữ và lĩnh vực, và các thủ tục dùng để thêm lĩnh vực và ngôn ngữ cũng được hiểu rõ. Có 3 nhân tố quan trọng khi xây dựng từ điển là : chi phí, những tiện lợi cho người dùng chưa được huấn luyện, và độ hiệu quả.
Việc xây dựng từ điển là một việc tốn nhiều chi phí. Nhưng việc sử dụng từ điển có thể tốn nhiều chi phí hơn bởi vì trong một hệ thống có vốn từ được quản lí thì mỗi tài liệu phải được gán các cụm từ phản ánh các khái niệm chứa trong nó. Mặc dù các công cụ tự động có thể hỗ trợ giúp tăng năng suất của con người nhưng vì các hoạt động mang tính trí tuệ của con người đòi hỏi việc tái tổ chức và tổ chức thông tin nên chi phí sẽ vẫn rất cao.
Một giới hạn quan trọng khác của hệ thống tìm kiếm văn bản dựa trên vốn từ được quản lý, và giới hạn này cũng xuất hiện trong kỹ thuật tìm kiếm văn bản dựa trên so khớp chính xác, là những người dùng không được huấn luyện dường như sẽ gặp khó khăn khi khai thác khả năng của từ điển. Những khác nhau quan trọng giữa người dùng có kĩ năng và người dùng không được huấn luyện đã được nghiên cứu dựa trên sự chọn lựa các cụm từ của họ, việc họ sử dụng những mối quan hệ của cụm từ được mã hóa trong một từ điển, và việc sử dụng các toán tử AND, OR hoặc NOT trong việc xây dựng câu truy vấn. Trong nhiều trường hợp người ta chứng minh rằng việc cung cấp những người trung gian được huấn luyện có lợi hơn việc cung cấp những huấn luyện đầy đủ cho mỗi người dùng. Kỹ thuật tìm kiếm dựa trên sắp xếp được mô tả ở phần trước cũng giới thiệu một hướng tiếp cận khác để giải quyết vấn đề này. Các hệ thống tìm kiếm dựa trên sắp xếp thường chấp nhận các câu truy vấn bằng ngôn ngữ tự nhiên và cho phép sự lựa chọn không ràng buộc các cụm từ. Nói chung, mục đích của việc tìm kiếm dựa trên sắp xếp không phải để thay thế kĩ thuật so khớp chính xác mà để làm mạnh thêm các hệ thống bằng những kỹ thuật cải thiện một cách hiệu quả việc tìm kiếm của những người dùng không được huấn luyện.
1.3.2.2 Tìm kiếm khái niệm:
Một cách khác để biểu diễn các khái niệm trong R là biểu diễn các cụm từ bằng cách sử dụng từ điển đa ngữ dẫn dắt cho qui trình chọn lựa cụm từ. Đây là một biến thể của mở rộng câu truy vấn, một kỹ thuật đã được nghiên cứu rất kỹ trong tìm kiếm đơn ngữ
5. Ý tưởng cơ bản của mở rộng câu truy vấn là cung cấp các biến thể sử dụng của cụm
từ bằng cách gia tăng các cụm từ có liên quan trong câu truy vấn.
Gần đây, trong [1] L.Ballesteros đã dùng phương pháp “phản hồi cục bộ ” (local feedback) để mở rộng câu truy vấn. Phương pháp này là sự kết hợp giữa hai phương pháp: sửa đổi câu truy vấn trước khi dịch (pre-translation query modification) và sửa đổi câu truy vấn sau khi dịch (post-translation query modification). Trong nghiên cứu của mình, ông giới hạn trong hai ngôn ngữ là tiếng Anh và tiếng Tây Ban Nha. Các câu truy vấn tiếng Anh được lấy từ hệ thống TREC với chiều dài trung bình là 10.6 từ. Các câu truy vấn tiếng Tây Ban Nha cũng được rút trích từ hệ thống này với chiều dài trung bình là 4.3 từ. Việc đánh giá tính hiệu quả dựa trên các tài liệu tiếng Anh nằm trong tập Tipster (vol. 2) có độ lớn 2GB và tập 208M các bài báo tiếng Tây Ban Nha của báo “El Norte”. Ngữ liệu huấn luyện dùng cho việc phản hồi trước khi dịch là tập các bài báo này và tập 301 MB cơ sở dữ liệu tin tức của San Jose Mercury từ tập hợp Tipster. Toàn bộ câu truy vấn sẽ được thực hiện trên hệ thống INQUIRY. Qua thực nghiệm L.Ballesteros nhận thấy rằng việc sửa đổi câu truy vấn trước khi dịch tạo ra một cơ sở quan trọng cho việc dịch và nâng cao độ chính xác; việc sửa đổi câu truy vấn sau khi dịch dựa trên từ điển máy đọc sẽ nâng cao độ bao phủ của tìm kiếm. Và kỹ thuật này sẽ hiệu quả hơn đối với các câu truy vấn dài vì các câu truy vấn dài sẽ có nhiều ngữ cảnh hơn giúp giảm tính nhập nhằng. Kết hợp hai qui trình này giúp tăng độ chính xác trung bình lên 50%. Điều này cho thấy việc mở rộng câu truy vấn sẽ giúp gia tăng đáng kể độ hiệu quả của hệ tìm kiếm xuyên ngữ.
1.3.2.3 Mã hóa thông tin ngữ nghĩa:
5 Đặc trưng duy nhất của mở rộng câu truy vấn trong truy xuất xuyên ngữ là các cụm từ ban đầu sẽ bị loại ra khỏi câu truy vấn mở rộng nếu nó không mang cùng một nghĩa trong cả 2 ngôn ngữ
Một khía cạnh khác của dự án EMIR[2] là việc ứng dụng việc phân rã nhanh nhưng không sâu để tận dụng thông tin ngữ nghĩa được mã hóa trong từ điển. Số lượng các cụm từ tiếng Anh được giảm bằng cách gán nhãn từng cụm từ tiếng Anh với từ loại tương ứng của nó, và sau đó chỉ chọn những từ tiếng Anh có cách sử dụng cú pháp tương tự các cụm từ tiếng Pháp. Từ điển EMIR là một danh sách song ngữ các cụm từ trong đó thông tin ngữ nghĩa được mã hóa như là các từ ghép, được sử dụng để thay thế các mối quan hệ về khái niệm. Trong EMIR, các cụm từ bao gồm các từ, các ngữ và từ ghép. Bởi vì các từ ghép nối các từ khóa với nhau dựa trên nền tảng là mối quan hệ về ngữ nghĩa thay vì hình thức bề ngoài của chúng, do đó việc đưa ra các công thức cho từ ghép sẽ tốt hơn việc rút trích các ngữ đơn giản. Bởi vì trật tự của các từ trong từ ghép thường thay đổi trong ngôn ngữ đích, nên các mục từ của cụm từ ghép đã được thiết lập để giải thích cho việc chuyển đổi khi cần.
Phiên bản EMIR của SPIRIT đã được đánh giá trên tập 1398 các khái niệm về hàng không của Cranfield bằng cách sử dụng 225 câu truy vấn đã được Trung tâm tư liệu quân đội Pháp dịch sang tiếng Pháp. Các tài liệu tiếng Anh được tìm kiếm đáp ứng các câu truy vấn tiếng Pháp. Để so sánh, các câu truy vấn tiếng Pháp sau đó được dịch trở lại sang tiếng Anh bằng cách sử dụng hệ thống dịch tự động SYSTRAN và các tài liệu được chọn bằng cách sử dụng phiên bản đơn ngữ của hệ thống tìm kiếm SPIRIT. Cụ thể như sau:
0.8
0.7
0.6
Độ chính xác
0.5
0.4
0.3
0.2
0.1
0
EMIR SYSTRAN
SPIRIT Anglais
10 20 30 40 50 60 70 80 90
Độ bao phủ
Hình 1.3 So sánh tìm kiếm đơn ngữ của SPIRIT, tìm kiếm song ngữ của EMIR và dịch câu truy vấn của SYSTRAN
1.3.2.4 Đánh giá ưu khuyết điểm:
Ưu điểm :
Tài nguyên từ điển thì phổ biến và sẵn có hơn ngữ liệu song song do đó hướng tiếp cận dựa trên từ điển có thể được xem là lựa chọn tốt hơn các hướng tiếp cận còn lại. Mặc dù chiều sâu của từ điển là hạn chế nhưng phạm vi của nó thì đủ rộng để chúng ta có thể dịch các câu truy vấn thuộc nhiều đề tài khác nhau. Mặt khác, hiện nay các từ điển điện tử là khá phong phú, chúng ta có thể tận dụng nguồn tài nguyên này để cấu trúc hóa và rút trích các thông tin cần thiết cho từ điển máy đọc dùng trong các hệ xuyên ngữ.
Khuyết điểm:
Việc dịch tự động dựa trên từ điển chỉ đạt 50% hiệu quả do các bản dịch nhập nhằng. Một trong hai nguyên nhân chính là việc chuyển đổi từ vựng dẫn đến việc thêm rất nhiều từ khác. Theo nguyên cứu của L. Ballesteros, điều này dẫn đến việc mất 12-29% thể hiện của câu truy vấn trong khi dịch và gây nên vấn đề khi dịch các câu truy vấn dài. Nguyên nhân thứ hai là việc mất các ngữ khi dịch word by word, dẩn đến việc mất
20 – 25% . Thêm vào đó, các câu truy vấn thường chứa các thuật ngữ, mà các thuật ngữ này thường không có trong từ điển tổng quát. Nếu chúng ta không có từ điển chuyên ngành hoặc từ điển thuật ngữ thì hiệu quả của hệ thống sẽ càng thấp. Tuy nhiên, những khuyết điểm trên đây sẽ là động lực thúc đẩy chúng ta tiếp tục nghiên cứu và tìm hiểu các phương pháp nhằm nâng cao tính hiệu quả của hướng tiếp cận này.
1.3.3 Dựa trên ngữ liệu (Corpus-based techniques):
idf log ⎛ Number of documents ⎞
i = 2 ⎜⎜ Number of documents with term i ⎟⎟
⎝ ⎠
Ngoài cách sử dụng từ điển, chúng ta có thể khai thác trực tiếp thông tin thống kê về cách dùng thông thường của các cụm từ từ ngữ liệu song song. Cách tiếp cận trực tiếp này rất thích hợp để tích hợp với các kỹ thuật tìm kiếm dựa trên việc thống kê cách dùng thông thường của các cụm từ. Kỹ thuật tìm kiếm thống kê thường tận dụng hai nhận xét quan trọng về cách dùng thông thường của cụm từ. Nhận xét đầu tiên là những tài liệu mà người dùng đánh giá là cùng loại thì nhìn chung thường sử dụng các cụm từ tương tự nhau. Quay trở lại mô hình 1.1, q và d được thiết kế một cách đặc trưng để trích ra các thông tin về tần số của cụm từ và c được thiết kế để tận dụng điều này. Nhận xét thứ hai là các cụm từ hiếm và ít phổ biến thì sẽ giúp ích rất nhiều cho việc phân biệt giữa các tài liệu . Các cụm từ phổ biến mang ít nội dung thường bị loại bỏ bởi một danh sách stoplist, và các cụm từ còn lại thường được tính trọng số bằng cách sử dụng “tần số tài liệu đảo ” thường được tính như sau:
tfidfij = tfij * idfi
Kết hợp hai kết quả ta gọi là “tfidf” (term frequency and inverse document frequency - tần số của từ và tần số tài liệu đảo )
tfij là số lần từ i xuất hiện trong tài liệu j.
Một vài kỹ thuật có thể được sử dụng để xây dựng hàm so sánh c cho một thể hiện tfidf. Có thể kỹ thuật đơn giản nhất là kỹ thuật dùng không gian vector, trong đó các vector của trọng số tfidf được thiết lập bởi q và d và kết quả được chuẩn hoá bên trong của 2 vector được tính nhờ vào c. Kết quả này cho ra một giá trị mong muốn, là một hàm tăng nghiêm ngặt đối với bất cứ việc giảm nào của sự khác nhau của 2 giá trị tfidf giống nhau. Nói một cách khác, mang 2 vector lại gần nhau theo bất cứ chiều nào sẽ làm tăng tính tương đồng của chúng. Bởi vì kết quả chuẩn hóa bên trong của 2 vector là cosin của góc giữa 2 vector trong không gian vector, nên kết quả này được biết đến như là phép đo độ tương đồng dùng hàm số cosin. Hệ thống SMART, được Salton phát triển, là một ví dụ về hệ thống tìm kiếm sử dụng không gian vector.
Kỹ thuật tìm kiếm dựa trên xác suất thường thực thi một hàm c phức tạp hơn. Thường dựa trên một giả định đơn giản là j (hoặc r ) là giá trị nhị phân (nghĩa là mọi tài liệu có hoặc có liên quan hoặc không có liên quan ), kỹ thuật tìm kiếm dựa trên xác suất thực hiện việc tìm kiếm để ước lượng xác suất mà một tài liệu cho trước có liên quan dựa trên độ tương quan hoặc tfidf. Hệ thống INQUIRY được Croft và các cộng sự phát triển là một ví dụ cho hệ thống tìm kiếm dựa trên xác suất.
1.3.3.1 Xây dựng từ điển tự động:
Về ý nghĩa, các kỹ thuật dựa trên ngữ liệu có thể được xem như là một loại của kỹ thuật xây dựng từ điển tự động, trong đó thông tin về mối quan hệ giữa các từ được tạo ra từ các con số thống kê cách sử dụng thông thường của từ. Sự khác nhau là ở chỗ từ điển này không cần con người xây dựng. Giống như các kỹ thuật tìm kiếm xuyên ngôn
ngữ khác, kỹ thuật xây dựng từ điển tự động là một nghiên cứu quan trọng kế thừa từ ngữ cảnh của tìm kiếm đơn ngữ. Một số lượng đáng kể các nghiên cứu về đề tài này đã xuất hiện và được công bố trong tài liệu về dịch máy. Ở đây chúng tôi trình bày hai kỹ thuật để xây dựng từ điển đa ngữ từ khía cạnh tìm kiếm.
Kỹ thuật đầu tiên, người ta đã thực nghiệm trên 1.100 ngữ danh từ lấy từ ngữ liệu song song của khoảng 1.000 cặp câu dài tiếng Hà Lan và tiếng Anh trong một tài liệu kỹ thuật 6. Các ngữ danh từ trong mỗi cặp câu được nhận diện bằng cách sử dụng một thẻ từ loại thống kê và một bộ parser đơn giản. Các ứng viên dịch cho mỗi ngữ danh từ tiếng Hà Lan được tạo ra bằng cách so sánh tần số của mỗi cụm tiếng Anh xuất hiện trong một cặp câu tiếng Anh chứa ngữ danh từ, với tần số mà mỗi từ tiếng Anh xuất hiện trong toàn tập tài liệu. Một đặc tính khác được thêm vào giúp cho việc ngăn chặn các chọn lựa ngữ danh từ xuất hiện ở những vị trí liên quan khác nhau trong các cặp câu.
Các tham số được tìm thấy cho các kết quả trong việc nhận diện các bản dịch đơn chính xác đến 45%, và nhiều lựa chọn khác mà các lựa chọn này tạo ra một danh sách các ứng viên của các bản dịch trong đó chứa 66% các bản dịch đơn chính xác. Việc dóng câu, đánh tag từ loại và phân rã lỗi chiếm 85% các lỗi, và các nghiên cứu cho thấy rằng việc chọn lựa chặn trên cho việc biểu diễn kỹ thuật của mình sẽ nâng tỉ lệ các bản dịch đơn chính xác lên 69% hoặc thêm khoảng 95% các bản dịch chính xác vào một danh sách. Bởi vì ngữ liệu song song có kích thước nhỏ nên không thể quyết định việc thực thi của kỹ thuật khi có nhiều hơn một bản dịch của cùng một từ xuất
hiện trong ngữ liệu 7. Kết quả của từ vựng song ngữ không được sử dụng cho việc tìm
kiếm văn bản, vì thế chúng ta không thể quyết định điều gì làm ảnh hưởng đến các lỗi dịch sẽ có hiệu quả cho việc tìm kiếm. Hơn nữa, chúng ta không thể đưa ra các hướng
dẫn về việc liệu việc giảm độ chính xác, kết quả của việc tăng số lượng ứng viên có
6 Chiều dài trung bình của câu là hơn 24 từ. Các câu được gióng hàng bằng cách sử dụng kỹ thuật thống kê, và
7% các cặp câu sau đó được phát hiện là bị gióng hàng sai
7 71% các ngữ danh từ bằng tiếng Hà Lan xuất hiện chỉ 1 lần trong toàn bộ tập tài liệu
thể được bù đắp bằng cách tăng độ bao phủ, kết quả của việc thêm vào bản dịch chính xác trong danh sách.
1.3.3.2 Dịch dựa vào vector thuật ngữ (Term Vector Translation):
Chúng ta quan tâm đến những kỹ thuật tìm kiếm văn bản đa ngữ dựa vào ngữ liệu tạo ra những ánh xạ không phải dành cho người dùng. Nghĩa là chúng ta xem xét những kỹ thuật tìm kiếm văn bản đa ngữ dựa vào thống kê mà mục đích là để ánh xạ thông tin thống kê về thuật ngữ sử dụng giữa các ngôn ngữ. Cụ thể là chúng ta xem xét các kỹ thuật ánh xạ các tập tfidf (term frequency and inverse document frequency) bao gồm các trọng số của các cụm từ từ một ngôn ngữ này sang ngôn ngữ khác, phương pháp này ta gọi là dịch dựa vào vector thuật ngữ.
Xét trường hợp hai ngôn ngữ, chúng ta có ba tập tài liệu tiếng Anh, tiếng Pháp và tập còn lại là song song (nghĩa là mỗi tài liệu trong tập song song là một cặp tiếng Anh và bản dịch tiếng Pháp). Mỗi câu truy vấn đầu tiên thể hiện cho tập song song, và những tài liệu trong đó được sắp xếp dựa trên mức độ giống nhau của câu truy vấn với bản dịch của những tài liệu theo ngôn ngữ của câu truy vấn. Những tài liệu tiếng Pháp có thứ tự sắp xếp cao nhất được ghép lại và được dùng như một câu truy vấn cho những tài liệu tiếng Pháp còn lại. Đây chính là phương pháp phản hồi thích hợp (relevance feedback). Tương tự cho tài liệu tiếng Anh. Sau đó 3 danh sách đã sắp xếp được nối lại và hiển thị cho người dùng.
Phản hồi thích hợp (relevance feedback) là một kỹ thuật thông thường được dùng trong tìm kiếm thông tin dựa vào thống kê. Một vector chuẩn hóa tfidf là một xấp xỉ heuristic cho sự phân bổ mật độ của một từ trong một tài liệu. Theo đó, kết quả bên trong đã chuẩn hóa chỉ đơn giản là sự tương quan giữa 2 tài liệu mô tả bởi những phân bổ này. Vì chất lượng của sự phân bổ theo Heuristic có thể được cải tiến bằng cách thêm những giám sát, nên phản hồi thích hợp có thể được xem là cách tiếp cận heuristic làm mịn hóa những phân bổ không hợp lý trong những câu truy vấn ngắn.
Nói cách khác, những từ ngữ không quan trọng bị bỏ đi và những từ ngữ quan trọng có liên quan ngày càng được chuẩn hóa tốt hơn.
Trong thí nghiệm TREC-4, Davis và Dunning[3] đã thử 3 kỹ thuật dịch vector cho các thuật ngữ khá phức tạp. Sử dụng 80.000 cặp câu đã gióng hàng trong một ngữ liệu bao gồm những tài liệu của Liên Hiệp Quốc, đầu tiên họ chọn 8.000 câu tiếng Anh làm những bản gốc tốt nhất cho mỗi câu truy vấn TREC. Sau đó, họ sử dụng những bản dịch tiếng Tây Ban Nha của 8.000 câu đó để chọn ra 100 từ ngữ thông dụng liên quan đến mỗi câu truy vấn. Những từ ngữ được xóa tương ứng từ tập này bằng cách sử dụng thủ thuật cải tiến chương trình với mục đích tìm ra một câu truy vấn tiếng Tây Ban Nha, sao cho câu truy vấn này có thể chọn những câu tiếng Tây Ban Nha giống như cách mà câu truy vấn tiếng Anh chọn những tài liệu tiếng Anh. Bước lập trình tiến hóa chỉ tăng độ chính xác trung bình từ 0.004 đến 0.02, nhưng theo quan sát cho thấy việc cải tiến thêm có thể chấp nhận được nếu có sẵn một ngữ liệu huấn luyện song song trong phạm vi có liên quan mật thiết đến phạm vi mà ta đang khảo sát.
Kỹ thuật thứ hai dựa vào cùng một ngữ liệu huấn luyện của những câu đã được gióng hàng. Davis và Dunning đã chọn 100 thuật ngữ có xác suất lớn nhất từ tập các từ xuất hiện trong những câu tiếng Tây Ban Nha đã được gióng hàng với 100 câu gần nghĩa nhất với mỗi câu truy vấn tiếng Anh. Kỹ thuật này đạt độ chính xác 0.02.
Kỹ thuật cuối cùng của Davis và Dunning dựa vào việc dịch trực tiếp các vector thuật ngữ sử dụng một toán tử tuyến tính. Họ bắt đầu bằng cách thiết lập một ma trận từ tập các vector tfidf từ những bản dịch tiếng Tây Ban Nha của những câu đã gióng hàng và một ma trận thứ hai là từ những bản dịch tiếng Tây Ban Nha của những câu này. Sau đó, họ giải những phép toán trên tập những vector không xác định để tìm ra một toán tử tuyến tính dùng cho việc dịch ma trận tiếng Tây Ban Nha sang ma trận tiếng Anh. Sau đó, họ dùng toán tử đó để dịch vector tfidf của mỗi câu truy vấn tiếng Anh sang một vector tfidf tiếng Tây Ban Nha và sử dụng vector được dịch để sắp xếp những tài liệu tiếng Tây Ban Nha. Tuy nhiên, họ cảnh báo rằng những giải thuật của họ để tính
toán tử tuyến tính chỉ là một cách ban đầu, còn rất nhiều cách tốt hơn có thể sử dụng kỹ thuật này.
Giáo sư Oard và những giáo sư khác trong trường Đại học University of Maryland đã đưa ra một phương pháp dịch dựa vào vector thuật ngữ khác dựa trên ngữ liệu song song đã được gióng hàng ở mức từ . Xây dựng dựa vào những kỹ thuật gióng hàng cụm từ tương tự với những kỹ thuật của Van de Eijk, họ mô tả một kỹ thuật dùng danh sách các từ (ngữ) song ngữ trong đó những cách dịch khác nhau của mỗi từ được gán những giá trị thích hợp. Họ dùng từ song ngữ này như một toán tử tuyến tính để ánh xạ những vector truy vấn sang ngôn ngữ khác. Họ cho rằng phương pháp này có thể kết hợp với khả năng của một hệ thống tìm kiếm văn bản dựa vào thống kê để khai thác thông tin chính xác, nhưng kỹ thuật này vẫn chưa được thực hiện và cấu trúc của danh sách từ (ngữ) song ngữ được đặt ra cũng đang là một nhiệm vụ khó thực thi.
1.3.3.3 Chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing):
Một kỹ thuật thống kê khác được áp dụng để tìm kiếm tài liệu đa ngôn ngữ là kỹ thuật chỉ mục ngữ nghĩa ngầm (Latent Semantic Indexing – LSI). Ý tưởng cơ bản là sử dụng một ma trận phân tích để xác định những thành phần chính của vector không gian được xác định bởi tập tài liệu, và sau đó chiếu vector lên không gian được mở rộng bởi những thành phần chính đó. Trong kỹ thuật LSI, những thành phần chính được xem là thể hiện cho những khái niệm quan trọng, trong khi những thành phần ít quan trọng hơn được xem là những biến đổi trong cách sử dụng khác nhau của từ. Vì thế LSI nhấn mạnh khía cạnh quan trọng của tfidf và bỏ qua hiệu quả của cách sử dụng từ ngữ khác nhau. Sau đó, các tài liệu được so sánh bằng cách sử dụng phép đo độ tương đồng bằng hàm số cosin và được sắp xếp để hiển thị.
Hướng tiếp cận căn bản đã được Michael L.Littman nêu rõ trong [4]. LSI kiểm tra tính giống nhau của các ngữ cảnh mà trong đó các từ xuất hiện và tạo ra một không gian đặc tính có các từ đồng xuất hiện trong cùng ngữ cảnh thì ở gần nhau. Nghĩa là, đầu tiên phương pháp này tạo ra một biểu diễn giữ lại các đặc điểm giống nhau về nghĩa
của các từ và sau đó sử dụng biểu diễn này để tìm kiếm. Không gian đặc tính ban đầu sẽ phản ánh các mối quan hệ tương quan này. LSI sử dụng một phương pháp từ đại số học tuyến tính, việc phân rã các giá trị đơn (SVD) để tìm ra tầm quan trọng của các mối quan hệ. Không cần phải sử dụng bất cứ từ điển nào, bất cứ cơ sở tri thức nào để quyết định mối kết hợp giữa các từ vì chúng được bắt nguồn từ việc phân tích số học các văn bản tồn tại. Các mối quan hệ đã được biết được xác định cho một lĩnh vực riêng và được tạo ra hoàn toàn tự động.
Kĩ thuật phân rã các giá trị đơn có quan hệ mật thiết với việc phân rã vector và việc phân tích các thừa số. Để có nhiều thông tin tìm kiếm và để lọc các ứng dụng chúng ta tạo một ma trận lớn cụm từ - tài liệu, theo cách mà hướng tiếp cận vector hoặc Boolean làm. Ma trận này được phân rã thành một tập k thường là 200 – 300, các thừa số chung từ tập này có thể được xấp xỉ bằng cách kết hợp tuyến tính; việc phân tích này có liên quan đến cấu trúc ngầm (latent) trong ma trận. Hình 1.4 minh họa ảnh hưởng của LSI lên việc biểu diễn các từ bằng cách sử dụng hình học. Phương pháp vector truyền thống biểu diễn các tài liệu như là sự kết hợp tuyến tính của các cụm từ trực giao, như được trình bày ở phần trên của hình, để góc giữa hai tài liệu sẽ phụ thuộc vào tần số mà hai từ đồng xuất hiện trong hai tài liệu, không quan tâm đến tương quan giữa hai từ. Trong hình ta thấy, Doc 3 liên chứa Term 2, Doc 1 chứa Term 1 và Doc 2 chứa cả hai. Ngược lại, LSI biểu diễn các từ như là các giá trị liên tục trên mỗi chiều k. Vì số các thừa số hoặc các chiều thì nhỏ hơn rất nhiều so với số lượng các từ, nên các từ sẽ không độc lập như mô tả ở hình dưới. Khi hai từ được sử dụng trong cùng một ngữ cảnh (tài liệu), chúng sẽ có cùng một vector trong biểu diễn LSI có chiều tối giản.
Standard Vector Space Mode (ndims=nternns)
Tern2
Doc3
Doc2
Doc1
Term1
Reduced LSI Vector Space Model (ndims<<nterns)
12
Doc1
10
LSI Dimension 2
6
8
Term 1
Term 2
Doc3
Term 3
Doc2
4
2 Doc4
Term 4
0
0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5
LSI Dimension 1
Hình 1.4 Biểu diễn các từ trong vector chuẩn so với vector tối giản LSI
Kết quả của LSI là một tập các vector biểu diễn vị trí của mỗi từ và tài liệu trong biểu diễn LSI có k chiều. Các qui trình tìm kiếm bằng cách sử dụng các từ trong một câu
truy vấn để nhận ra một điểm trong không gian một cách tự động, câu truy vấn sẽ được định vị tại vector tổng được đánh trọng số của các vector thành phần Các tài liệu sau đó sẽ được sắp xếp dựa trên sự giống nhau của chúng đối với câu truy vấn, thường là dùng giá trị cosin để tính. Trong khi hầu hết các ngữ cảnh tìm kiếm phổ biến liên quan đến các tài liệu trả về thỏa các câu truy vấn của người dùng , việc biểu diễn LSI cho phép nhiều ngữ cảnh tìm kiếm hơn. Vì cả vector từ lẫn vector tài liệu đều được biểu diễn trong cùng một không gian, nên chúng ta có thể tìm kiếm sự giống nhau giữa bất cứ sự kết hợp nào của các từ và các tài liệu.
Các tài liệu mới ( hoặc các từ mới ) có thể được thêm vào biểu diễn LSI bằng cách sử dụng một thủ tục gọi là “folding in”. Bất cứ tài liệu nào không được dùng trong việc xây dựng không gian ngữ nghĩa được đặt tại vector tổng của các vector thành phần của nó. Trong tìm kiếm tài liệu đơn ngữ, phương pháp LSI cho hiệu quả tương đương với phương pháp vector chuẩn trong hầu hết các trường hợp, và tốt hơn 30% trong một vài trường hợp.
1.3.3.4 Đánh giá ưu khuyết điểm:
Ưu điểm:
Phương pháp dựa trên ngữ liệu cho độ chính xác của các bản dịch cao hơn so với phương pháp dựa trên MRD. Do đó làm cho độ hiệu quả của hệ thống tìm kiếm khá cao.
Khuyết điểm:
Khuyết điểm lớn nhất của phương pháp này là sự thiếu thốn ngữ liệu lớn. Để xây dựng một ngữ liệu huấn luyện lớn cần rất nhiều thời gian và chi phí rất cao.
1.4 Một số công trình nghiên cứu trong và ngoài nước:
1.4.1 Ở Việt Nam:
Theo tìm hiểu của chúng tôi, trong nước hiện nay đã có một số công trình nghiên cứu liên quan như sau:
1. “Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt”, Hồ Bảo Quốc, Đồng Thị Bích Thủy, Hội thảo quốc gia về Công nghệ thông tin – Thái Nguyên – Việt Nam 8/2003.
2. “An Introduction to Vietnamese Information Retrieval”, Marie-France BRUANDET, Jean-Pierre CHEVALLET, Dong Thi Bich Thuy, Bao-Quoc Ho.
Ngoài các nghiên cứu này, hiện tại còn có đề tài nghiên cứu khoa học trọng điểm đại học quốc gia TPHCM (2005) đang trong giai đoạn phát triển: “Xây dựng chương trình trợ giúp tìm kiếm thông tin bằng tiếng Việt” do PGS.TS Phan Thị Tươi đại học Bách Khoa TPHCM làm chủ nhiệm đề tài.
1.4.2 Trên thế giới:
Đối với tiếng Việt: hiện có hai đề tài liên quan đến tìm kiếm xuyên ngữ
bằng tiếng Việt:
1. “Cross Language Medical Information Retrieval”, Trần Đức Tuấn, Nicolas Goercebu - Đại học Rennes.(đang trong giai đoạn chạy thử nghiệm)
2. “CLIR in English and Vietnamese”, Nguyễn Văn Bé Hai, Ross
Wilkinson, Justin Zabel - RMIT.
Đối với các ngôn ngữ khác: có rất nhiều công trình nghiên cứu đã được công bố cũng như ứng dụng đã được đưa vào sử dụng từ rất sớm:
Liên tục trong các năm 1997, 1998 L.Ballesteros và Bruce Croft[1][5][6] đã đưa ra các bài báo liên quan đến các vấn đề trong hướng tiếp cận dựa trên từ điển: “Phương pháp dựa trên từ điển cho hệ thống tìm kiếm xuyên ngữ”, “Kỹ thuật dịch ngữ và mở rộng câu truy vấn cho hệ thống tìm kiếm xuyên ngữ”, “Giải quyết việc khử nhập nhằng cho
tìm kiếm xuyên ngữ”. Trong đó, họ đã sử dụng từ điển song ngữ Anh-Tây Ban Nha để
tìm kiếm các tài liệu tiếng Anh và tiếng Tây Ban Nha.
Bên cạnh Ballesteros, Davis và Hull, trong năm 1998 này Yamabana [7] đã xây dựng hệ thống tìm kiếm xuyên ngữ Anh – Nhật theo hướng tiếp cận dựa trên dịch máy và kết hợp với việc lựa chọn từ dựa trên tần số rút trích từ ngữ liệu không song song.
Năm 2002, Atsushi Fujii và Tetsuya Ishikawa [8] đã công bố hệ thống tìm kiếm xuyên ngữ Nhật – Anh.theo hướng tiếp cận dựa trên ngữ liệu đơn ngữ. Trong hệ thống này ngoài việc dịch một từ thông thường, Atsushi còn dịch các từ ghép.
1.5 Kết luận:
Các kỹ thuật dựa trên vốn từ được điều khiển đã phát triển rất tốt, nhưng cấu trúc đầy đủ của từ điển đồng nghĩa tự động vẫn còn quá đơn giản. Hơn nữa, những kỹ thuật tìm kiếm khái niệm đa ngữ như kỹ thuật mở rộng câu truy vấn có thể khai thác thông tin được mã hóa trong từ điển mà con người không can thiệp được ở mức index hoặc thời gian truy vấn vì thế giới hạn việc ước lượng tính hiệu quả trong ngôn ngữ của cùng một kỹ thuật trong cùng một phạm vi. Nếu không có một cấu trúc từ điển tự động hiệu quả, miền giới hạn của những kỹ thuật tìm kiếm dựa vào khái niệm sẽ vẫn còn rất lớn.
Sự non nớt của những kỹ thuật dựa vào ngữ liệu cho thấy những từ điển đồng nghĩa trên thực tế vẫn là một thành phần quan trọng với bất kỳ hệ thống tìm kiếm đa ngôn ngữ nào, bất chấp mô hình so khớp chính xác hay mô hình tìm kiếm dựa trên sắp xếp được sử dụng. Hơn nữa, sự tích hợp từ điển với những kỹ thuật dựa trên thống kê ngữ liệu là một phạm vi của những nghiên cứu hiện tại trong ngôn ngữ học tính toán, và có một số tính năng được tận dụng khi kết hợp hai kỹ thuật lại. Bởi vì những từ điển đồng nghĩa phức tạp nhất dùng cho việc tìm kiếm đa ngữ hiện tại bị điều khiển bởi những hệ thống từ vựng nên những hiệu quả của nghiên cứu đang diễn ra là đòn bẩy cho nghiên cứu của chúng ta.
Những phạm vi khác nhau của những ngữ liệu song song có sẵn và ngữ liệu có sẵn những đánh giá thích hợp vẫn là một trở ngại lớn nhất cho việc đánh giá những kỹ thuật dựa vào ngữ liệu. Chúng ta không biết rằng một thể hiện của một ngữ liệu song song lớn ứng với một tập các câu truy vấn có liên quan với những đánh giá thích hợp là sẵn có. Nếu không có một ngữ liệu như thế thì một thiết kế thực nghiệm tốt nhất có thể có được thiết lập là để huấn luyện trên một ngữ liệu song song từ phạm vi giống với phạm vi của ngữ liệu đánh giá. Thật không may, chúng ta không biết được bất kỳ kỹ thuật nào để ước lượng độ hiệu quả, hoặc độ sai lệch khi kết hợp giữa sự huấn luyện và phạm vi đánh giá. Nếu không có ngữ liệu song song có sẵn những đánh giá thích hợp và không có cách tính ước lượng hiệu quả của một phạm vi khác thì sẽ không thể đưa ra những khảo sát cuối cùng từ những nghiên cứu có quy mô lớn như những nghiên cứu của Davis và Dunning .
Việc thực hiện những kỹ thuật đơn ngữ trong điều kiện thí nghiệm tương tự dường như là một điểm chuẩn làm cận trên của hiệu quả tìm kiếm. Không có một bằng chứng nào cho thấy những kỹ thuật đa ngữ có thể vượt qua hẳn những kỹ thuật đơn ngữ. Fluhr và Radwan đã chỉ ra rằng việc hạ thấp biên của độ hiệu quả của một hệ thống tìm kiếm đa ngữ so với độ hiệu quả của hướng tiếp cận theo module (theo hướng tiếp cận này dịch máy hoàn toàn tự động được dùng để tiền xử lý câu truy vấn) là hợp lý. Sự hoà hợp của hai quan điểm này làm việc so sánh những kỹ thuật tìm kiếm đa ngữ qua những thí nghiệm khác nhau dễ dàng hơn. Tuy nhiên, nguồn tài nguyên yêu cầu ở đây để nhận ra khả năng tiềm tàng của những hệ thống dịch máy hiện đại hoàn toàn tự động để có thể giới hạn tiện ích của phương pháp này trong những nghiên cứu nhỏ hơn.
Một sự khác biệt quan trọng giữa tìm kiếm đơn ngữ và tìm kiếm đa ngữ là có nhiều nghĩa xuất hiện tạo ra điểm giới hạn chủ yếu. Cụ thể là tính nhiều nghĩa của từ trở thành một vấn đề lớn trong tìm kiếm đa ngữ hơn là trong tìm kiếm đơn ngữ khi kích cỡ của phạm vi tăng. Ba nhà nghiên cứu thực hiện với những thí nghiệm rất khác nhau đã công bố rằng tính nhiều nghĩa của từ có thể được giảm bớt bằng cách sử dụng thông tin ngữ pháp và ngữ nghĩa trong đó loại đơn giản nhất là cụm từ. Điều này cho thấy
việc khử nhập nhằng nghĩa của từ (cũng như cụm từ) chỉ ra khả năng có hạn trong ngữ
cảnh đơn ngữ, nhưng đó là một bước đi có lợi cho nghiên cứu xa hơn.
Vấn đề quan trọng trong ứng dụng của bất cứ kỹ thuật xử lý ngôn ngữ tự nhiên nào cho việc tìm kiếm đa ngữ là cải thiện độ chính xác mà không bị ảnh hưởng của độ bao phủ. Điều này giải thích cho sự khảo sát những kỹ thuật tương đối đơn giản được thiết kế làm giảm hẳn những ý nghĩa trong phạm vi đó. Một trong những khó khăn thường gặp trong khi dịch câu truy vấn là đối với những câu truy vấn ngắn có thể làm tăng nguy cơ gây ra hiệu quả ngược lại vì tính nhiều nghĩa của từ bằng cách giới hạn ngữ cảnh theo nghĩa của từ. Để giải quyết vấn đề này, ta sử dụng thông tin có cấu trúc từ không gian tài liệu để làm tăng p._.ml:
từ tiếng Việt
từ tham chiếu
nghĩa tiếng Hoa
…
…
3.3.2 Phương pháp tìm kiếm dựa trên MRD:
3.3.2.1 Dịch dựa trên từ điển:
Trình tự dịch dựa trên từ điển như sau:
Bước 1: Tách từ12 câu truy vấn mà người dùng nhập vào.
Bước 2: Loại bỏ các từ có trong stoplist (đây là những từ mang ít nghĩa như : đây, đó, này, …).
Bước 3: Lần lượt tìm các bản dịch của các từ dựa vào MRD.
3.3.2.1.1 Tách từ câu truy vấn:
Để tách từ câu truy vấn chúng tôi sử dụng module tách từ dựa trên mô hình MMSEG (áp dụng cho tiếng Việt) của nhóm VCL13.
3.3.2.1.2 Loại bỏ các từ có trong stoplist:
12 Từ ở đây chúng tôi dùng đó là từ từ điển (từ từ điển là từ mà dựa vào đặc tính của nó mà người ta đưa nó vào từ điển).
13 VCL – Vietnamese Computational Linguistics
Danh sách các stoplist được xây dựng dựa trên từ điển như sau: các từ có từ loại là thán từ, hình thái từ, trợ từ, trạng từ, đại từ,… sẽ được thêm vào stoplist. Đây là những từ ít mang nghĩa và không ảnh hưởng đến kết quả tìm kiếm nên cần được bỏ đi. Trong câu truy vấn nếu có từ xuất hiện trong stoplist thì sẽ bị loại ra khỏi danh sách từ khóa.
3.3.2.1.3 Tìm các bản dịch dựa vào MRD:
Bằng cách so khớp chính xác từ trong danh sách từ khóa (từ khóa là kết quả của tách từ sau khi loại bỏ các từ có trong stoplist) với từ tiếng Việt có trong MRD, chương trình sẽ tìm ra nghĩa tiếng Anh của từ tiếng Việt. Nếu mục từ đó có từ đồng nghĩa thì hệ thống sẽ lấy luôn cả từ đồng nghĩa để thêm vào câu truy vấn.
Ở đây có một số vấn đề cần được giải quyết như sau:
¾ Nếu từ tiếng Việt không có nghĩa tiếng Anh (tiếng Hoa), chỉ có trường REF thì chương trình sẽ tìm nghĩa của REF để lấy ra nghĩa tiếng Anh (tiếng Hoa) của từ tiếng Việt đó.
¾ Chưa xác định được từ loại của các từ khóa, do đó nghĩa tiếng
Anh (tiếng Hoa) của từ tiếng Việt ở tất cả các từ loại sẽ được trả về.
¾ Nếu từ khóa không được tìm thấy trong từ điển, lúc này có hai trường hợp xảy ra:
Từ khóa là tên riêng hoặc là tiếng nước ngoài : trả về chính từ đó.
Từ điển thiếu từ: hiện nay chương trình chúng tôi chấp nhận giải pháp là nếu từ điển thiếu từ nào thì trả về chính từ đó. (Chúng tôi sẽ cố gắng đến tối đa để hạn chế lỗi này, nhưng công việc này chỉ ở mức thủ công).
3.3.2.2 Khử nhập nhằng:
Một trong những khó khăn của việc phát triển CLIR một cách có hiệu quả là việc giải quyết tính nhập nhằng trong quá trình dịch. Và các nguồn tài nguyên sẵn có cũng là một vấn đề. Ở đây chúng tôi chọn kỹ thuật dựa trên số liệu thống kê việc đồng xuất hiện từ ngữ liệu, kỹ thuật này có thể được sử dụng để làm giảm tính nhập nhằng và đạt được hiệu suất khá cao.
Từ công thức của Lisa chúng tôi sử dụng hai ngữ liệu để khử nhập nhằng : ngữ liệu
đơn ngữ và ngữ liệu song song.
* Đơn ngữ: * Song ngữ: B
Target
Language . b1
A B . b2
a1 .
. b1 A. .
a2 . . b2
a3 . . b3
Source .
Language .
. . .
. . .
Target Language Target Language
Hình 3.12: Mô hình khử nhập nhằng dựa trên ngữ liệu đơn ngữ và song ngữ
Đối với ngữ liệu đơn ngữ (khoảng 100.000 câu tiếng Anh và 77.000 câu tiếng Hoa) chúng tôi áp dụng theo đúng công thức (*). Giả sử câu truy vấn do người dùng nhập vào là : “mạng máy tính”, bằng phương pháp dịch “word by word” dựa trên từ điển ta được tập các bản dịch:
“Mạng” có tập bản dịch là T1 = {“net”, “network”, “darn”}
“Máy tính” có tập bản dịch là T2 = {“computer”, “calculator”, “arithmometer” }. Áp dụng (*) ta tính:
⎛ n − En(a, b) ⎞
em(net, computer) = max⎜ ab , 0 ⎟
⎝ na + nb ⎠
Tương tự tính : em(net, calculator), em(net, arithmometer),…. Sau đó chọn cặp có tần số lớn nhất là cặp dịch tốt nhất. Trường hợp tần số của các cặp bằng nhau thì ta chọn cặp đầu tiên là cặp dịch tốt nhất.
Với ngữ liệu song song chúng tôi sử dụng lại công thức tính tần số đồng xuất hiện của Lisa như trên nhưng a, b sẽ là hai từ ở hai ngôn ngữ khác nhau. Ta giả sử a là từ ở ngôn ngữ nguồn và b là bản dịch của nó trong ngôn ngữ đích. Khi đó ta sẽ tính tần số đồng xuất hiện của a và b dựa theo công thức (*) với nab là số lần b là bản dịch của a trong ngữ liệu song song. Cụ thể như sau:
a = “máy tính”
b thuộc tập bản dịch T = {“computer”, “calculator”, “arithmometer”} Ta lần lượt tính tần số đồng xuất hiện của từng cặp từ:
co(máy tính, computer) =
nmay tinh, computer − En((may tinh, computer )
nmay tinh + ncomputer
Tương tự tính co(“máy tính”, “calculator”) và co (“máy tính”, “arithmometer”). Sau đó ta tìm tần số lớn nhất trong ba tần số trên và chọn bản dịch tốt nhất cho “máy tính”. Nếu tần số của các cặp từ bằng nhau thì từ đầu tiên trong từ điển sẽ được chọn là bản dịch tốt nhất.
Sau khi áp dụng cụ thể hai phương pháp trên vào module dịch và khử nhập nhằng chúng tôi nhận thấy phương pháp khử nhập nhằng dựa trên ngữ liệu song song cho kết quả tốt hơn ngữ liệu đơn ngữ. Điều này là hợp lý vì đối với ngữ liệu song song ta đã có các tài liệu được dóng hàng ở mức câu (nghĩa là với một câu tiếng Việt thì ta sẽ có câu tiếng Anh tương ứng của nó), do đó khi a và b đồng xuất hiện trong một cặp câu thì xác suất b là bản dịch của a là rất lớn.
Như đã nói ở trên, ngữ liệu song song là rất hiếm và thường thuộc về một lĩnh vực nào đó nên việc khử nhập nhằng cũng bị giới hạn. Ngữ liệu song song mà chúng tôi sử dụng để khử nhập nhằng các bản dịch tiếng Anh được kế thừa từ [16]. Việc khử nhập nhằng sẽ rất chính xác nếu câu truy vấn cũng nằm trong lĩnh vực này. Còn đối với các lĩnh vực khác việc khử nhập nhằng sẽ có độ chính xác không cao.
Riêng đối với tiếng Hoa, hiện nay chúng tôi vẫn chưa xây dựng được ngữ liệu song song cần thiết cho việc khử nhập nhằng nên chúng tôi sẽ sử dụng phương pháp khử nhập nhằng dựa trên ngữ liệu đơn ngữ cho các bản dịch tiếng Hoa.
3.3.3 Tìm kiếm tài liệu bằng công cụ tìm kiếm:
3.3.3.1 Giới thiệu:
Sau khi câu truy vấn tiếng Việt được dịch và khử nhập nhằng ta sẽ có thêm 2 câu truy vấn: một câu tiếng Anh và một câu tiếng Hoa. Lúc này ta sẽ gửi cả 3 câu truy vấn (Việt – Anh – Hoa) cho hệ thống tìm kiếm đơn ngữ để nhận về các tài liệu có liên quan. Tiếp theo chương trình sẽ trộn cả 3 kết quả tìm được theo trình tự Việt – Anh – Hoa và hiển thị cho người dùng.
Trong các hệ thống tìm kiếm đơn ngữ trên Internet hiện nay, có thể nói Google là công cụ tìm kiếm mạnh nhất và rất được ưa chuộng nhờ vào tính chính xác và tốc độ của nó. Google có khả năng tìm kiếm rất tốt bằng cho nhiều ngôn ngữ khác nhau đặc biệt là tiếng Anh và tiếng Việt của chúng ta cũng được Google hỗ trợ khá tốt. Do đó , chúng tôi chọn Google là công cụ hỗ trợ tìm kiếm cho hệ thống tìm kiếm xuyên ngôn ngữ của mình.
3.3.3.2 Hệ thống tìm kiếm Google:
Nguyên tắc hoạt động của Google [17] là tìm các trang theo đề tài hoặc chủ đề có liên quan đến câu truy vấn. Khi người dùng nhập vào câu truy vấn bình thường thì Google sẽ mặc định dùng toán tử AND. Do đó nếu muốn tìm các tài liệu mà trong đó phải
chứa toàn bộ cụm từ trong câu truy vấn thì chúng ta đặt câu truy vấn trong ngoăc kép (“”). Điểm đặc biệt của Google là có tìm cả từ đồng nghĩa trong câu truy vấn. Kết quả Google trả về là các trang đã được sắp xếp theo mức độ quan trọng của chúng. Mức độ quan trọng này được đánh giá dựa vào số liên kết đến trang đó.
Để tăng hiệu quả cho hệ thống tìm kiếm của mình, chúng tôi còn thêm vào câu truy vấn các từ đồng nghĩa. Kỹ thuật này gọi là “mở rộng câu truy vấn” (query expansion). Đối với các từ đồng nghĩa tìm được chúng tôi sử dụng toán tử OR. Tuy nhiên, do từ điển còn hạn chế, chỉ có một số mục từ có từ đồng nghĩa nên kỹ thuật này vẫn chưa phát huy tính hiệu quả của nó.
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM
Chương này sẽ trình bày cụ thể các kỹ thuật cài đặt cho hệ thống đồng thời trình bày các thử nghiệm cũng như các kết quả đánh giá của hệ thống tìm kiếm. Nội dung cụ thể như sau:
9 Cài đặt.
9 Thử nghiệm.
9 Đánh giá.
4.1 Cài đặt:
Chương trình được cài đặt trên nền ASP.Net (C#) và được chạy trực tuyến (on-line ). Chương trình gồm hai phần : phần chuyển ngữ và phần tìm kiếm. Phần chuyển ngữ có sử dụng DLL tách từ kế thừa từ [16].
4.1.1 Tiền xử lý:
Các ngữ liệu trước khi sử dụng cần phải qua bước tiền xử lý để phù hợp với hệ thống. Các chương trình để tiền xử lý gồm có:
9 Chương trình xử lý tập tin từ điển ban đầu thành tập tin có cấu trúc theo yêu cầu của MRD (đã mô tả ở trên).
9 Chương trình tính tần số xuất hiện của từ (Việt, Anh, Hoa) dựa trên ngữ liệu
(song ngữ, đơn ngữ)
9 Chương trình đánh tag các tập tin kết quả.
4.1.2 Cấu trúc dữ liệu:
Để tăng tốc độ khi tìm kiếm từ điển, cấu trúc của từ điển sẽ được đánh tag và lưu dưới dạng XML, cấu trúc XML đồng thời cũng rất phù hợp với cấu trúc n-phân đã mô tả ở trên (chương 3) của từ điển.
Mỗi từ điển sẽ có nhiều tập tin và mỗi tập tin sẽ được lưu trong một đối tượng XML Document.
Tương tự như từ điển các tập tin lưu tần số xuất hiện cũng được đánh tag và lưu dưới dạng XML.
Ngoài mục đích làm tăng tốc độ tìm kiếm, giảm khối lượng lưu trữ, việc lưu trữ toàn bộ dữ liệu bằng XML còn giúp cho hệ thống có thể dễ cải tiến, mở rộng và ngữ liệu của hệ thống cũng có thể được sử dụng bằng các hệ thống khác mà không cần phải xử lý hay xây dựng lại. Vì hiện nay XML là cấu trúc mà bất cứ ngôn ngữ lập trình nào cũng có thể hiểu được.
4.1.3 Dịch từ từ điển:
Sau khi tách từ và loại bỏ các từ có trong stoplist, danh sách các từ khoá sẽ được dịch sang tiếng Anh và tiếng Hoa dựa vào từ điển Việt – Anh và từ điển Việt – Hoa. Việc tìm kiếm này tương đương với câu SQL:
“select TXT_E from Dic where TXT_V = word”
hoặc “select TXT_C from Dic where TXT_V = word”
4.1.4 Khử nhập nhằng :
Trước khi khử nhập nhằng cần phải lưu ngữ liệu vào bộ nhớ. Ngữ liệu được lưu theo định dạng là mỗi dòng là một câu, để rõ ràng và tiện quản lý, chúng tôi lưu mỗi tâp tin trong ngữ liệu thành một mảng chuỗi, mỗi phần tử mảng là một câu trong ngữ liệu. Lưu ý là đối với ngữ liệu song ngữ thì các phần tử có chỉ số chẵn là phần tử lưu câu tiếng Anh và phần tử có chỉ số lẻ lưu câu tiếng Việt.
Việc khử nhập nhằng dựa trên phương pháp tần số đồng xuất hiện của L. Ballesteros. Thuật toán như sau:
Cách 1: dùng ngữ liệu song ngữ
string KhuNhapNhang(string * arrTran, string word)
{
int i=0;
int max = 0;
int arrFreq[];
Tính tần số của word trong ngữ liệu for(i=0; i < length(arrTran); i++)
{
Tính tần số của bản dịch i;
arrFreq[i]= tần số đồng xuất hiện của word và bản dịch thứ i
Áp dụng công thức (*)
So sánh max với giá trị vừa tính và gán lại giá trị cho max
}
Tìm phần tử có giá trị max trong arrFreq return arrTran[vtmax];
}
Hàm tính tần số đồng xuất hiện:
int TinhTSDXH(string srcWord, string desWord)
{
int count = 0;
Lần lượt duyệt qua các cặp câu có trong ngữ liệu
Nếu srcWord xuất hiện trong câu i+1 VÀ desWord xuất hiện trong câu i thì count++;
return count;
}
Cách 2: đối với ngữ liệu đơn ngữ
void KhuNhapNhang(string * arrTran1, string * arrTran2, string & tran1 , string &
tran2)
{
int i=0, j=0;
int max = 0;
int arrFreq[][];
for(i=0; i < length(arrTran1); i++)
{
for(j=0; j < length(arrTran2); j++)
{
thứ j
Tính tần số của bản dịch i; Tính tần số của bản dịch j;
arrFreq[i][j] = tần số đồng xuất hiện của bản dịch i và bản dịch
Áp dụng công thức (*)
So sánh max với giá trị vừa tính và gán lại giá trị cho max
}
}
Tìm phần tử có giá trị max trong ma trận arrFreq tran1 = arrTran1[vtmaxi];
tran2 = arrTran2[vtmaxj];
}
Hàm tính tần số đồng xuất hiện:
int TinhTSDXH(string word1, string word2)
{
int count = 0;
Lần lượt duyệt qua các câu có trong ngữ liệu
Nếu word1 và word2 đồng xuất hiện trong câu i thì count++;
return count;
}
4.1.5 Tìm kiếm:
Sau khi dịch câu truy vấn sang tiếng Anh và tiếng Pháp, kết quả này sẽ được dùng để tìm kiếm tài liệu từ Google. Đầu tiên câu truy vấn sẽ được tiền xử lý để có thể gọi được trên web:
string GetURL (string strQuery)
{
string URL;
URL =
URL += "?ie=utf-8&oe=utf-8&q="+HttpUtility.UrlEncode(szQuery);
return URL;
}
Sau khi gọi Google chương trình sẽ nhận về file kết quả và thực hiện parser để lấy các tài liệu:
string [] Parser(string strFile)
{
string node[];
int i=0;
Duyệt toàn file.
Tìm vị trí lưu thông tin các tài liệu được trả về Gán phần tử node[i] cho chuỗi vừa lấy được. i++;
return node;
}
4.2 Thử nghiệm:
4.2.1 Module dịch và khử nhập nhằng:
Nhập vào câu truy vấn “phân tích thiết kế hệ thống thông tin”, chọn cách khử nhập nhằng cho tiếng Anh là “Song ngữ” và tiếng Hoa mặc định là “Đơn ngữ” ta có kết quả
như hình 4.1
Hình 4.1 Module dịch và khử nhập nhằng
4.2.2 Chương trình demo trên web:
Bước 1: chạy chương trình ta sẽ có màn hình giao diện sau:
1
2 3
4
5 6
Hình 4.2 Màn hình giao diện
1: Người dùng nhập câu truy vấn
2: Chọn ngôn ngữ đích
3: Chọn ngôn ngữ hiển thị
5: Nút tìm kiếm
4: Chuỗi dịch tiếng Anh
6: Chuỗi dịch tiếng Hoa
Bước 2: Sau khi nhập câu truy vấn: “thiết kế cơ sở dữ liệu phân tán”, chọn ngôn ngữ đích là “Anh - Hoa” và ngôn ngữ hiển thị là “ngôn ngữ nguồn và ngôn ngữ đích”, và nhấn vào nút “Tìm kiếm”. Ta có kết quả sau:
3
1: Tài liệu tiếng Việt
2: Tài liệu tiếng Anh
3: Tài liệu tiếng Hoa
1
2
Hình 4.3 Màn hình kết quả
4.3 Đánh giá :
4.3.1 Module dịch và khử nhập nhằng:
Chúng tôi đã thực hiện việc dịch và khử nhập nhằng trên 100 câu tiếng Việt bao gồm
40 câu trong lĩnh vực tin học và 60 câu trong các lĩnh vực khác.
Kết quả của chuyển ngữ và khử nhập nhằng tiếng Anh được trình bày ở bảng 4.1
Khử nhập nhằng
Lĩnh vực
Song ngữ
Đơn ngữ
Đúng (câu)
Tỉ lệ
Đúng (câu)
Tỉ lệ
Tin học
36
90%
31
77,5%
Các lĩnh vực khác
50
83,33%
40
66,67%
Bảng 4.1: Kết quả dịch và khử nhập nhằng tiếng Anh
Từ các kết quả thống kê của bảng 4.1 ta dễ dàng nhận thấy việc khử nhập nhằng dựa trên ngữ liệu song ngữ cho độ chính xác khá cao, đặc biệt là trong lĩnh vực tin học. Kết quả này là hợp lý vì ngữ liệu song ngữ dùng để khử nhập nhằng thuộc về lĩnh vực tin học. Tuy nhiên, kết quả đối với các lĩnh vực khác cũng khá cao, nguyên nhân là do đối với các lĩnh vực khác thì sự nhập nhằng của các bản dịch cũng không nhiều, và thường bản dịch đầu tiên trong từ điển là bản dịch phổ biến nên cho kết quả dịch là khá chính xác.
Kết quả chuyển ngữ và khử nhập nhằng tiếng Hoa:
Khử nhập nhằng
Lĩnh vực
Song ngữ Đơn ngữ
Đúng (câu) Tỉ lệ Đúng (câu) Tỉ lệ
Tin học 25 62,5%
Các lĩnh vực khác 39 65%
Bảng 4.2: Kết quả dịch và khử nhập nhằng tiếng Hoa
Riêng đối với tiếng Hoa, do vẫn chưa xây dựng được ngữ liệu song ngữ nên chỉ có thể khử nhập nhằng dựa trên ngữ liệu đơn ngữ. Tuy nhiên, ngữ liệu đơn ngữ mà chương trình sử dụng không thuộc một lĩnh vực chuyên nào nên kết quả khử nhập nhằng chưa cao. Trong tương lai, chúng tôi sẽ phát triển và hoàn thiện hơn nữa độ chính xác của qui trình khử nhập nhằng tiếng Hoa
4.3.2 Chương trình tìm kiểm trên Web:
Đối với chương trình tìm kiếm trên web, độ hiệu quả là khá cao, chương trình có thể trả về các tài liệu tiếng Anh và tiếng Hoa tương đương với khi người dùng tìm kiếm trực tiếp bằng tiếng Anh và tiếng Hoa trên Google. Đây là một kết quả đáng khích lệ. Tuy nhiên, tốc độ tìm kiếm của chương trình lại phụ thuộc khá nhiều vào tính ổn định của đường truyền mạng. Với chất lượng của đường mạng khá tốt thì thời gian chương trình download các tài liệu chỉ mất khoảng 10s, thời gian tối đa để lấy tài liệu là 60s. Nếu thời gian lấy tài liệu về từ Google lớn hơn 60s thì chương trình sẽ không hiện được kết quả. Khuyết điểm này hiện nay vẫn chưa được khắc phục.
Chương 5: KẾT LUẬN và HƯỚNG PHÁT TRIỂN
5.1 Kết luận:
Hệ thống tìm kiếm xuyên ngữ Việt – Anh – Hoa là hệ thống tìm kiếm xuyên ngữ đầu tiên ở Việt Nam. Mặc dù vẫn còn một số hạn chế nhưng hệ thống đã đạt được một số thành công nhất định. Hệ thống cho thấy việc tìm kiếm xuyên ngữ bằng tiếng Việt tuy khác các ngôn ngữ khác nhưng hoàn toàn có thể thực hiện được.
Ngoài mục đích minh họa cho hai loại hình ngôn ngữ tiêu biểu, việc lựa chọn tiếng Anh và tiếng Hoa cho hệ thống còn mang nhiều ý nghĩa khác. Tiếng Anh là một ngôn ngữ quốc tế phổ biến và thông dụng, đối với tiếng Hoa, là ngôn ngữ có số lượng người nói nhiều nhất trên thế giới; thông qua hệ thống người dùng có thể tiếp cận với kho thông tin khổng lồ trên thế giới.
Những thành công mà hệ thống đạt được là nhờ may mắn kế thừa các kết quả từ [16]. Việc sử dụng công cụ tách từ đạt độ chính xác đến 98% là một khởi đầu tốt cho hệ thống. Mặt khác điểm chính của hệ thống là khử nhập nhằng các bản dịch, mà qui trình này đòi hỏi phải có ngữ liệu. Nếu không có kho ngữ liệu thì chắc chắn việc khử nhập nhằng sẽ không đạt được độ chính xác cao. Và ngữ liệu song ngữ từ [11] lại là một đóng góp vô cùng quan trọng cho hệ thống. Trong thời gian sắp tới chúng tôi sẽ tiếp tục phát triển và nâng cao tính hiệu quả của hệ thống.
5.2 Huớng phát triển:
5.2.1 Đối với từ điển và ngữ liệu:
MRD Việt – Anh mà chúng tôi xây dựng có cấu trúc khá đầy đủ (gồm cả trường lĩnh vực, tham chiếu và đồng nghĩa) tuy nhiên số lượng các mục từ còn hạn chế đặc biệt là các từ ghép và thuật ngữ chuyên ngành. Một MRD đầy đủ hơn sẽ giúp cho giai đoạn chuyển ngữ đạt độ chính xác cao hơn. Tuy nhiên, việc mở rộng từ điển đòi hỏi thời gian và công sức khá lớn.
MRD Anh – Hoa có cấu trúc khá đơn giản. Việc bổ sung thêm những trường như lĩnh vực, đồng nghĩa là khả thi dựa vào ngữ liệu song song.
Ngữ liệu là nguồn tài nguyên vô cùng quí và hiếm. Những ngữ liệu mà chúng tôi dùng hiện nay là ngữ liệu song ngữ Việt – Anh (về lĩnh vực tin học) và ngữ liệu đơn ngữ tiếng Hoa (thu thập từ các bài báo tiếng Hoa). Trong tương lai, chúng tôi sẽ cố gắng bổ sung một số ngữ liệu ở lĩnh vực khác để việc khử nhập nhằng đạt hiệu quả cao hơn.
5.2.2 Đối với IR Engine:
Trong luận văn này chúng tôi sử dụng Google như là một IR Engine. Ngoài Google hiện nay còn có rất nhiều công cụ mạnh khác có khả năng tìm kiếm trên Internet. Để tăng tính hiệu quả của việc tìm kiếm, chúng ta hoàn toàn có thể gọi thực thi các search engine khác.
Trên thực tế các hệ thống tìm kiếm có IR Engine riêng biệt để làm công việc tìm kiếm cụ thể. Chẳng hạn, hệ thống tìm kiếm xuyên ngữ mà chúng tôi xây dựng có thể dùng ba IR Engine khác nhau (VIR Engine, EIR Engine và CIR Engine) để tìm kiếm thông tin cần tìm cho ba loại ngôn ngữ Việt – Anh – Hoa. Như vậy hướng phát triển trong tương lai là xây dựng các IR Engine chuyên biệt cho từng ngôn ngữ giúp tăng độ chính xác khi tìm kiếm thông tin. Lúc đó hệ thống có thể được xây dựng theo mô hình sau:
Người dùng
Các từ điển
Câu truy vấn bằng tiếng Việt
Bộ dịch
Các tài liệu có liên quan đến câu truy vấn bằng ba ngôn ngữ
Việt - Anh - Hoa
Ngữ liệu
Bộ khử nhập nhằng
Câu truy vấn tiếng Anh
Câu truy vấn tiếng Hoa
EIR Engine
CIR Engine
VIR Engine
Hình 5.1 Mô hình của hệ thống truy xuất xuyên ngữ Việt – Anh – Hoa (dùng ba IR Engine)
Trong các IR Engine chúng ta có thể dùng kỹ thuật local feedback để mở rộng câu truy vấn, làm phong phú hơn tài liệu tìm kiếm .
5.2.3 Mở rộng ngôn ngữ tìm kiếm cho hệ thống:
Với giả thuyết là các nguồn tài nguyên từ điển và ngữ liệu của một ngôn ngữ khác (chẳng hạn như tiếng Pháp) là khá đầy đủ thì hệ thống của chúng tôi hoàn toàn có thể tìm kiếm tài liệu có liên quan đến câu truy vấn trong ngôn ngữ đó. Việc bổ sung các ngôn ngữ khác cho hệ thống chỉ là vấn đề thời gian.
PHỤ LỤC
1. DANH SÁCH CÁC PHỤ TỐ TIẾNG ANH:
HẬU TỐ DẪN XUẤT
Stt
Hậu tố
Nghĩa tiếng Việt
Ghi chú, Ví dụ
1.
ability
khả_năng ~
readability (khả_năng đọc)
2.
able
có_thể ~ được;
khả_~
readable (có_thể đọc được),
transferrable (khả_chuyển)
3.
ably
có_thể ~ được;
khả_~
interchangeably (có_thể hoán_đổi
được), transferrably (khả_chuyển)
4.
al
(thuộc về) ~
national (quốc_gia)
5.
ance
sự ~
assistance (sự trợ_giúp)
6.
ant
~
assistant (trợ_giúp)
7.
ate
Làm cho ~
fascinate (làm cho chặt)
8.
ation
sự ~
decoration (sự-trang_trí)
9.
cation
sự ~
application (sự-áp_dụng)
10.
ed*
(đã được / bị) ~
closed-door (cửa bị đóng)
11.
ee
người/vật được
interviewee (người được phỏng_vấn)
12.
en
Làm bằng ~
golden (làm bằng vàng)
13.
en
Làm cho ~
shorten (làm cho ngắn)
14.
ence
sự ~
dependence (sự-phụ_thuộc)
15.
ent
~
referent (tham_khảo)
16.
er*
người/máy ~
printer (thợ_in, máy_in)
17.
ese
tiếng/người ~
Japanese (tiếng_Nhật), Vietnamese
18.
ful
~ đầy
handful (nắm_tay đầy), cupful
19.
hood
thời_kỳ ~
childhood (thời_kỳ niên_thiếu)
20.
ial
(thuộc về) ~
sentential (thuộc về câu)
21.
ian
người ~, ~_viên
technician (kỹ_thuật_viên)
22.
ibility
khả_năng ~
comprehensibility (khả_năng hiểu)
23.
ible
có_thể ~ được;
khả_~
visible (có_thể nhìn thấy được),
visible (khả_kiến)
24.
ibly
có_thể ~ được;
visibly (có_thể nhìn thấy được),
khả_~ visible (khả_kiến)
25. ic (có tính) ~ graphic (đồ_hoạ)
26. ing* (đang) ~ running car (xe_hơi đang chạy)
27. ion sự ~ action (hành_động)
28. ise/ize ~_hóa normalise/-ize (bình_thường_hoá)
29. ism chủ_nghĩa ~ socialism (chủ_nghĩa xã_hội)
30. ist người ~, nhà_~ scientist (nhà_khoa_học)
31. ity sự ~ activity (sự-hoạt_động)
32. ive ~ active (tích_cực)
33. less không có ~; bất_~, vô_~
careless (bất_cẩn, không cẩn_thận)
34. let ~ nhỏ booklet (cuốn-sách nhỏ)
35. like giống như ~ humanlike (giống như người)
36. ly (một cách) ~ strongly (một cách mạnh_mẽ)
37. Ment sự ~ replacement (sự-thay_thế)
38. ness sự ~ brightness (sự-chói_sáng)
39. Logy (ngành)_~_học etymology (ngành_từ_nguyên_học)
40. or người/máy_~ editor (người_hiệu_đính), generator (máy_phát)
41. st,nd,rd,t h
thứ ~ 31st, 32nd, 33rd ,34th (thứ 31,32,32,34)
42. tion sự ~ evolution (sự-tiến_triển)
43. Tive ~ talkative (hay nói)
44. Y có ~ cloudy, rocky (có mây, có đá)
Lưu ý:
Dấu ~ để đại diện cho thân từ.
Stt
Tiền tố
Nghĩa tiếng Việt
Ghi chú, Ví dụ
1.
Anti
chống ~, kháng_~
antivirus (chống virút),
antibody (kháng_thể)
2.
Auto
~ tự_động
autocar (xe_hơi tự_động)
Các hậu tố đánh dấu * là những hậu tố bị trùng với hậu tố của biến cách. TIỀN TỐ DẪN XUẤT
3.
Bi
Hai ~, lưỡng_~
bicenter (lưỡng_tâm)
4.
Centi
Xen-ti_~
centimeter (xen_ti_mét)
5.
Co
đồng_~
co-author (đồng_tác_giả)
6.
Counter
trái ngược với ~
counterclockwise (ngược chiều kim
đồng_hồ)
7.
De
khử_~, giải_~
decode (giải_mã)
8.
Dis
khử_
discharge (khử_tích_điện)
9.
Former
cựu_~
former-president (cựu_tổng_thống)
10.
Giga
gi_ga_~
gigabyte (gi_ga_byte)
11.
Hexa
sáu ~, lục_~
hexagon (lục_giác)
12.
Hyper
siêu_~
hypertext (siêu_văn bản)
13.
in, il, im,
ir (*)
không ~, bất_~,
vô_~
illiterate (không biết chữ), impatient
(không kiên_nhẫn), irregular
(bất_quy_tắc)
14.
Inter
~ lẫn nhau, liên_~
interconnection (kết_nối lẫn nhau)
15.
Kilo
kí_lô_~
kilogram (kí_lô_gam)
16.
Macro
~ vĩ mô
macro-economy (kinh_tế vĩ_mô)
17.
Mega
mê_ga_~
megawatt (mê_ga_oát)
18.
Meta
siêu ~
metavariable (siêu_biến)
19.
Micro
vi_~
micro-instruction (vi_lệnh)
20.
Mid
giữa ~, trung ~
midterm (giữa kỳ, trung_hạn)
21.
Milli
mi_li ~
millimeter (mi_li_mét)
22.
Mis
~ sai, ~ lầm
mismatch (không trùng nhau)
23.
Mono
đơn_~
monotone (đơn_điệu)
24.
Multi
đa_~
multi-media (đa_phương_tiện)
25.
Nano
na_nô ~
nanofarad (na_nô_fara)
26.
Non
không ~, phi ~
non-profit (không lợi_nhuận)
27.
Oct
tám ~, bát_~
octal (bát_phân)
28.
Over
quá_~
overload (quá_tải)
29.
Pent
năm ~, ngũ_~
pentagon (ngũ_giác)
30.
Photo
quang_~
photo-electronic (quang_điện_tử)
31.
Pico
pi_cô_~
picofarad (pi_cô_farad)
32.
Post
hậu_~, sau ~
post-graduate (sau đại_học)
33.
Pre
tiền_~
pre-process (tiền_xử_lý)
34.
Pseudo
~_giả
pseudo-code (mã_giả)
35. Quad bốn ~, tứ ~ quadruple (bộ bốn)
36. Re ~ lại, tái_~ re-calculate (tính_toán lại)
37. Self tự_~ self-educate (tự_học)
38. Semi bán_~ semi-conductor (bán_dẫn)
39. Stereo ~ nổi stereo-image (hình_ảnh_nổi)
40. Sub ~_con, ~ phụ subprogram (chương_trình_con)
41. Super siêu_~ super-conductor (siêu_dẫn)
42. Tele ~ từ xa, viễn ~ tele-meter (đo_lường từ xa)
43. Tera tê_ra_~ terabyte (tê_ra_byte)
44. Tri ba ~, tam_~ triangle (tam_giác), tripod (ba cực)
45. Ultra cực_~ ultraviolet (cực_tím)
46. Un không ~ unhappy (không hạnh_phúc)
47. Under dưới ~,hạ ~, ~thấp under-estimate (đánh_giá thấp)
48. Vice phó ~ vice-director (phó_giám_đốc)
(*): “in-” biến thể thành “il-” khi đứng trước “l”; thành “im-” khi đứng trước “b”, “m” hay “p” và thành “ir-” khi đứng trước “r”.
Lưu ý: dấu gạch dưới (“_”) để nối các hình vị trong cùng một từ của tiếng Việt.
2. DANH SÁCH CÁC PHÓ TỪ TIẾNG VIỆT:
DANH TỪ CHỈ LOẠI (KHÔNG PHẢI ĐỘNG VẬT )
Stt Loại từ Ví dụ Ghi chú
1. Ang Văn
2. Bài thơ, diễn văn,
3. bản tuyên ngôn, tài liệu, tiểu thuyết
4. bộ từ điển, máy,
5. bông hoa,
6. bức tranh, thư, tượng, vách, ảnh
7. cái Bàn, ghế, đầu, thuyền;
khuyết điểm, tâm trạng
chiếm đa số cho các danh từ cụ
thể cũng như trừu tượng
8. cây nến, đèn, roi, bút, súng, đàn, tăm vật có hình trụ, dài
9. căn phòng, nhà
10. chiếc Bàn, ghế, thuyền, chỉ sự lẻ loi
11. con Dao, thuyền, sông, con đa số được dùng chỉ động vật
12.
cơn
gió,
13.
cuốn
Sách, tập, vở, tiểu thuyết
sự vật đóng thành quyển
14.
đoá
Hoa
15.
hòn
đạn, bi, núi
có dạng tròn
16.
khẩu
súng, đại bác
17.
lá
Bùa, thư, phiếu, đơn
có dạng dẹp giống lá cây
18.
làn
Gió
19.
màn
kịch,
20.
món
Quà, nợ,
21.
nền
Văn hoá, độc lập, khoa học,
chỉ danh từ trừu tượng
22.
nóc
Nhà
23.
ngọn
cờ, núi,
24.
ngôi
Nhà, đền, mộ, (sao)
chỉ công trình xây dựng
25.
pho
tượng, truyện, sách
26.
quả
Bom, núi,
có hình tròn (giống trái cây)
27.
quyển
Sách, vở
28.
tấm
ảnh, tranh, bảng, bìa
29.
tấn
tuồng, kịch
30.
toà
Nhà, lâu đài
chỉ công trình xây dựng
31.
thanh
gươm, kiếm
32.
thửa
ruộng, đất
33.
vì
sao, vua
34.
vở
kịch, tuồng
DANH TỪ CHỈ LOẠI (NGƯỜI/CON VẬT)
Stt
Loại từ
Ví dụ
Ghi chú
1.
anh
Sinh viên, cán bộ
2.
bà
chủ nhiệm, vợ
3.
bác
thợ, phu xe
4.
chị
Giáo viên, nhà báo
5.
bậc
vĩ nhân, anh hùng
trọng
6.
cái
Tí, Tỉu
7.
cậu
học trò, con trai
8.
con
Gián điệp, mẹ mìn
Khinh
9.
con
Trâu, bò, gà
chỉ dùng cho con vật
10.
cô
dược sĩ, y tá
11.
chàng
thi sĩ, văn nhân
văn chương
12.
chú
Liên lạc, tài xế
13.
đấng
Anh hùng, thánh thần
trọng
14.
em
học sinh, nhi đồng
15.
lão
quản gia, tri huyện
khinh
16.
mụ
Đàn bà, vợ
khinh
17.
nàng
công chúa, tiên
văn chương
18.
người
Giáo viên, thợ nề
19.
tay
thầu khoán, nhà buôn
khinh
20.
tên
sĩ quan địch, nguỵ binh
khinh
21.
thằng
quỷ sứ, mật thám
khinh
22.
vị
phụ lão, chủ tịch
trọng
23.
viên
sĩ quan, đại uý
24.
DANH TỪ CHỈ ĐƠN VỊ QUY ƯỚC
Stt
Từ
Tiếng Anh
Ví dụ
Ghi chú
1.
cân
pound
thịt
2.
chai
bottle
rượu
3.
chuyến
time
tàu, hàng
đây là đơn vị lâm thời
4.
cục
clot
Đá
5.
dãy
Row, line
Nhà
dùng với danh từ tập hợp
6.
đàn
herd
Gà
dùng với danh từ tập hợp
7.
đoàn
herd,
người
dùng với danh từ tập hợp
8.
đoạn
section,
Văn
9.
giấc
sleep,slunker
ngủ
đây là đơn vị lâm thời
10.
giọt
drop
nước
11.
gói
pack
thuốc lá
12.
hạt
grain, drop
cát, gạo
13.
hàng
Row, line
Cây
dùng với danh từ tập hợp
14. hột grain gạo
15. hòn Ball, piece Đá
16. lít litter rượu
17. lon jar, pot, can gạo
18. miếng piece thịt
19. sợi string, thread dây, chỉ
20. tấn Ton sắt, vàng
21. thìa spoon Canh
22. thước metter vải
23. thúng basket gạo
24. thùng barrel, cask rượu
25. tờ sheet giấy
26. trận battle Mưa đây là đơn vị lâm thời
27. xâu thread, string Cá
TÀI LIỆU THAM KHẢO
[1] Lisa Ballesteros, W.Bruce Croft . “Statistical Methods for Cross-Language
Information Retrieval ”. Computer Science Department – University of Massachusetts.
[2] Christian Fluhr, Dominique Schmit, Philippe Ortet, Faza Elkateb, Karine Gurtner, Khaled Radwan. “Distributed Cross-Lingual Informtion retrieval”. DIST/SMTI CEA- Saclay France.
[3 ] Mark. W .Davis and Ted. E. Dunning, March 1995. Query translation using an evolutionary programming for multi-lingual information retrieval. In proceeding the Fourth Annual Conference on Evolutionary Programming.
[4] Michael L. Littman, Susan T. Dumais, Thomas K. Landauer, “Automatic Cross- Language Information Retrieval using Latent Semantic Indexing”, Computer Science Department, Brown University.
[5] Lisa Ballesteros, W. Bruce Croft, Resolving Ambiguity for Cross-language
Retrieval, 1997.
[6] Lisa Ballesteros, W. Bruce Croft, Phrase Translation and Query Expansion
Techniques for Cross-Language Information Retrieval, 1997
[7 ] Yamabana Kiyoshi, Muraki Kazunori, Doi Shinichi, Kamei Shin-ichiro . “A
language conversion front-end for Cross-language Information Retrieval ”.
[8] Atsushi Fuiji and Tetsuya Ishikawa. 9.2002. “Japanise/English Cross-Language
Information Retrieval: Exploration of Query Translation and Translisteration”.
[9] J.S.Chang, Y.C.Lin, Y.K.Su (1995). “Automatic Construction of a Chinese
Electronic Dictionary”. Proceedings of Workshop of ACL-1995, pp.107-120.
[10] Hoàng Phê (1998), Từ điển tiếng Việt, Trung tâm từ điển học, NXB Đà Nẵng.
[11] Đinh Điền (2004), “Một số vấn đề trong việc xây dựng từ điển tiếng Việt điện tử”, Tập san Khoa học Xã hội và Nhân văn – ĐH Khoa học Xã hội & Nhân văn TP HCM, 2004 (27), trang 37 – 46.
[12] George Miller (2000): Introduction to WordNet,
[13] Dien Dinh, Kiem Hoang, Toan Nguyen Van (2001), “Vietnamese Word Segmentation”, Proceedings of NLPPRS’01 (The 6th Natural Language Processing Pacific Rim Symposium), Tokyo, Japan, 11/2001, pg 749-756.
[14] Tsai, C. H. (1996), MMSEG: A word identification system for Mandarin Chinese text based on two variations of the maximum matching algorithm, Unpublished manuscript, University of Illinois at Urbana-Champaign.
[15] Mark W. Davis và William C.Ogden , 1997. “Implementing Cross-Language Text Retrieval Systems for Large-scale Text Collections and the World Wide Web”. Computing Research Laboratory – New Mexico State Univeristy
[16] Đinh Điền (2005). “Xây dựng và khai thác kho ngữ liệu song ngữ Anh – Việt”. Luận án tiến sĩ ngôn ngữ học, Trường đại học Khoa học Xã hội và Nhân văn.
[17] Lê Thuý Ngọc, Đỗ Mỹ Nhung, Tìm hiểu về Search Engine và xây dựng ứng dụng minh hoạ cho Search Engine tiếng Việt, Luận văn cử nhân tin học, GVHD: Nguyễn Thị Diễm Tiên.
._.
Các file đính kèm theo tài liệu này:
- 8051.doc