Báo cáo tóm tắt đề tài - Nghiên cứu giải pháp đánh giá chất lượng dịch tự động Tiếng Việt

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  BÁO CÁO TÓM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Mã số: B2016-DNA-48-TT Chủ nhiệm đề tài: ThS. Nguyễn Văn Bình ĐÀ NẴNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG  BÁO CÁO TÓM TẮT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP BỘ Mã số: B2016-DNA-48-TT ĐỀ TÀI NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Chủ nhiệ

pdf29 trang | Chia sẻ: huong20 | Lượt xem: 513 | Lượt tải: 0download
Tóm tắt tài liệu Báo cáo tóm tắt đề tài - Nghiên cứu giải pháp đánh giá chất lượng dịch tự động Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ệm đề tài: ThS. Nguyễn Văn Bình Cán bộ tham gia : PGS.TS. Huỳnh Công Pháp KS. Võ Văn Nam Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Nguyễn Văn Bình ĐÀ NẴNG - 2019 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG DANH SÁCH THÀNH VIÊN THAM GIA - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT - Mã số : B2016-DNA-48-TT STT Họ và tên Trách nhiệm 1 ThS. Nguyễn Văn Bình Chủ nhiệm đề tài 2 PGS.TS. Huỳnh Công Pháp Thành viên 3 KS. Võ Văn Nam Thành viên MỤC LỤC MỞ ĐẦU ........................................................................................ 1 Chương 1. NGHIÊN CỨU TỔNG QUAN .................................... 3 1.1. Tổng quan hệ thống dịch tự động ........................................... 3 1.2. Các phương pháp đánh giá chất lượng hệ thống dịch ........... 3 1.2.1. Phương pháp đánh giá chủ quan ................................... 3 1.2.2. Phương pháp đánh giá khách quan (đánh giá tự động)... 5 1.3. Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt ............................................................................... 7 Chương 2. TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT .................................... 8 2.1. Các hệ thống dịch .................................................................... 8 2.2. Tổ chức đánh giá ..................................................................... 8 2.3. Nhận xét, đánh giá ................................................................ 10 Chương 3. ..................................................................................... 11 ĐỀ XUẤT GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG ................ 11 3.1. Một số tồn tại ......................................................................... 11 3.2. Đề xuất giải pháp đánh giá kết hợp quá trình hiệu đính bản dịch ............................................................................................... 11 3.2.1. Vấn đề xây dựng kho ngữ liệu phục vụ đánh giá ......... 11 3.2.2. Giải pháp đánh giá chất lượng dịch ............................. 11 3.2.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá chất lượng 13 3.2.4. Thực nghiệm .............................................................. 13 Kết luận ........................................................................................ 16 DANH MỤC BẢNG BIỂU Bảng 1.1. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy ................................................................................................ 4 Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá ............................. 8 Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt ......... 9 Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh ......... 9 Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan ................10 Bảng 3.1. Trung bình các chỉ số trên 5 bộ dữ liệu ...........................14 Bảng 3.2. Kết quả sau khi hiệu chỉnh bản dịch ...............................14 DANH MỤC HÌNH Hình 1.1. Cấu trúc mô hình dịch tự động ......................................... 3 Hình 2.2. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống ....................................................................................................... 9 Hình 3.1. Chương trình tính chỉ số Tpe và Ope thông qua quá trình hiệu đính........................................................................................13 Hình 3.2. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch .................................................................................13 Hình 3.3. Sự tương đồng giữa Tpe, Ope và ED, WER ....................15 Hình 3.4. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh .............15 DANH MỤC CÁC TỪ VIẾT TẮT Thuật ngữ Tiếng Anh Tiếng Việt Automatic Language Processing Ủy ban cố vấn xử lý ngôn ALPAC Advisory Committee ngữ tự động BiLingual Evaluation Chỉ số đánh giá chất lượng BLEU Understudy bản dịch BLEU Chỉ số lỗi khi dịch bởi con HTER Human Translation Error Rate người National Institute of Standards Chỉ số đánh giá chất lượng NIST and Technology bản dịch NIST TER Translation Edit Rate Chỉ số đo lỗi bản dịch WER Word Error Rate Chỉ số tỉ lệ lỗi theo từ Workshop on Statistical Hội thảo về dịch máy thống WMT Machine Translation kê BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG DỊCH TỰ ĐỘNG TIẾNG VIỆT - Mã số : B2016-DNA-48-TT - Chủ nhiệm: ThS. Nguyễn Văn Bình - Thành viên tham gia: PGS.TS. Huỳnh Công Pháp, KS. Võ Văn Nam - Cơ quan chủ trì: Đại học Đà Nẵng - Thời gian thực hiện: 24 tháng 2. Mục tiêu: Mục tiêu chính của đề tài nhằm tổ chức đánh giá chất lượng của các hệ thống dịch tự động đang được sử dụng phổ biến hiện nay. Mục tiêu cụ thể:  Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt để giúp quá trình đánh giá được nhanh chóng và khách quan.  Tổ chức đánh giá và phân tích kết quả nhằm nêu lên hạn chế của các hệ thống dịch đang hoạt động. 3. Tính mới và sáng tạo: Đề tài đã có một số đóng góp đáng kể trong lĩnh vực nghiên cứu xử lý ngôn ngữ tự nhiên và dịch máy, đã có một số tính mới và sáng tạo, cụ thể:  Đánh giá được tổng quan chất lượng của các hệ thống dịch tự động hiện nay và đưa ra một số đề xuất chung nhằm cải tiến chất lượng hệ thống dịch.  Đề xuất một số chỉ số để đánh giá chất lượng hệ thống dịch trên cơ sở thừa kế quá trình hiệu đính bản dịch, đồng thời tạo kho ngữ liệu phục vụ cho hệ thống dịch.  Xây dựng công cụ hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt để giúp quá trình đánh giá được nhanh chóng và khách quan. 4. Tóm tắt kết quả nghiên cứu: Kết quả đạt được đã đạt đăng ký so với nội dung trong thuyết minh, cụ thể trong khuôn khổ đề tài đã có tổng cộng 01 bài báo khoa học được công bố; hỗ trợ thực hiện đề tài của 01 nghiên cứu sinh và 01 học viên cao học bảo vệ thành công; xây dựng được công cụ hỗ trợ đánh trích rút dữ liệu các hệ thống dịch và hỗ trợ đánh giá chất lượng; đề xuất quy trình đánh giá chất lượng của các hệ thống dịch tự động; đề xuất các chỉ số đánh giá chất lượng hệ thống dịch kết hợp quá trình hiệu đính bản dịch máy. 5. Tên sản phẩm:  Sản phẩm khoa học: 1 Bài báo: “Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt” Tác giả: Huỳnh Công Pháp; Nguyễn Văn Bình. Tạp chí: Khoa học và Công nghệ Đại học Đà Nẵng, ISSN: 1859- 1531, số 05(114)/2017, trang 46-51. 2 Quy trình đánh giá chất lượng dịch tự động tiếng Việt sang một ngôn ngữ khác (Phụ lục đính kèm)  Sản phẩm đào tạo: - Hỗ trợ thực hiện 01 đề tài nghiên cứu sinh (Nguyễn Văn Bình) - Hướng dẫn thành công 01 Thạc sỹ (Nguyễn Đình Quang Minh, Khóa K34 Khoa học máy tính tại Trường Đại học Bách khoa - ĐHĐN).  Sản phẩm ứng dụng: - Công cụ phần mềm hỗ trợ đánh giá chất lượng dịch tự động tiếng Việt sang một ngôn ngữ khác.  Sản phẩm khác: - Báo cáo tổng kết. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: Đề tài có ý nghĩa khoa học và có tính ứng dụng cao trong lĩnh vực dịch tự động tiếng Việt. Kết quả đề tài có thể được ứng dụng trong thực tiễn và trong lĩnh vực nghiên cứu dịch tự động. Ngày 20 tháng 03 năm 2019 Chủ nhiệm đề tài Cơ quan Chủ trì Nguyễn Văn Bình INFORMATION ON RESEARCH RESULTS 1. General information: Project title: RESEARCH ON METHODS TO IMPROVE QUALITY OF VIETNAMESE-RELATED MACHINE TRANSLATION Code number: B2016-DNA-48-TT Project Leader: Nguyễn Văn Bình Coordinator: Huỳnh Công Pháp, Võ Văn Nam Implementing institution: The University of Danang Duration: 24 months 2. Objectives: The main objective of this project is to research on methods to improve quality of machine translation of translation systems that are in common use today. Namely, this project focuses on 2 aspects as follows: • Develop a tool to support the evaluation process of Vietnamese- related automated translation quality to help this process be quick and objective. • Organize the evaluation campaign and analysis results to address the limitations of current machine translation systems. 3. Creativeness and innovativeness: Some research results of this project importantly contribute to the development of the natural language processing domain and machine translation domain with the creativeness and innovativeness as follows: • Evaluating the quality of current machine translation systems and provide some general suggestions to improve the quality of machine translation system. • Proposing new indicators and solutions to combine improving quality of machine translation and solutions of creating corpora for machine translation evaluation in Vietnamese. • Develop a tool to support evaluation process of machine translation quality related to Vietnamese to help this process be quick and objective. 4. Research results: The obtained results well match with the project proposal, namely in the framework of this project there have been: 01 scientific papers published; 01 PhD candidate participating in this project and 01 masters’ thesises defended; a build system of supporting extract data on translation systems and evaluation process of machine translation quality; proposing new indicators and solutions of evaluation machine translation systems; proposing quality assessment for evaluation machine translation for Vietnamese-related systems. 5. Products:  Research products: - 01 paper: o Nguyen Van Binh, Huynh Cong Phap (2017), Cải tiến chất lượng dịch máy kết hợp giải pháp xây dựng kho ngữ liệu phục vụ đánh giá chất lượng hệ thống dịch tự động tiếng Việt. Tạp chí Khoa học và Công nghệ Đại học Đà Nẵng, ISSN: 1859- 1531, 05(114)/2017, pp 46-51.  Training products: o 01 PhD’s and 01 masters’ thesises sucessfully defended (Nguyễn Văn Bình, Nguyễn Đình Quang Minh).  Applications: o A system for evaluation of machine translation.  Other products: o Quality assessment for evaluation machine translation for Vietnamese-related systems. o A final report. 6. Effects, transfer alternatives of reserach results and applicability: This research project has good scientific significants and applicabilities in the natural language processing and machine translation domain. MỞ ĐẦU Hiện nay, dịch tự động hay dịch máy đã được sử dụng phổ biến trong cuộc sống, thậm chí có thể trợ giúp một cách hiệu quả cho quá trình dịch thuật. Các hệ thống dịch tự động trực tuyến có thể dịch giữa hàng trăm cặp ngôn ngữ khác nhau, đồng thời tích hợp trong nhiều ứng dụng khác như chat song ngữ, dịch từ hình ảnh, dịch tiếng nói Dịch tự động bằng máy tính nếu cho kết quả dịch tốt sẽ mang lại hiệu quả với chi phí bỏ ra ít, có thể dịch nhanh với khối lượng tài liệu lớn thuộc các lĩnh vực chuyên môn khác nhau. Khi đó các hệ dịch máy sẽ trở thành công cụ giúp con người tiếp cận kho tri thức khổng lồ viết bằng các ngôn ngữ khác. Chính vì vậy, khi sử dụng một hệ thống dịch tự động, người dùng quan tâm đến chất lượng của bản dịch. Tuy nhiên hiện nay chất lượng dịch tự động giữa tiếng Việt với các ngôn ngữ khác khá thấp [24] nên kết quả dịch chủ yếu để tham khảo, nắm đại ý của văn bản. Trong một số trường hợp, bản dịch làm cho người đọc hiểu sai nội dung một phần hoặc toàn bộ nội dung chính của văn bản. Đánh giá chất lượng hệ thống dịch máy là một lĩnh vực nghiên cứu quan trọng nhằm xác định mức độ hoàn thiện của bản dịch do máy tính đưa ra, từ đó có thể: - Xác định mức độ chính xác của các bản dịch do hệ thống dịch máy tạo ra, từ đó tư vấn và khuyến cáo người dùng khi sử dụng hệ thống dịch, xác định những lĩnh vực nào mà một hệ thống dịch có thể mang lại kết quả tốt nhất. - So sánh chất lượng dịch giữa các hệ thống dịch tự động, đồng thời làm căn cứ so sánh tính hiệu quả của các mô hình dịch khác nhau khi đánh giá trên cùng tập dữ liệu. 1 - Làm căn cứ để đánh giá chính hệ thống dịch và đưa ra những giải pháp nhằm nâng cao chất lượng của hệ thống dịch. Hiện nay, có nhiều phương pháp và độ đo khác nhau để đánh giá chất lượng dịch tự động, có thể nhóm thành hai loại chính là đánh giá chủ quan (subjective evaluation) và đánh giá khách quan (objective evaluation). Đánh giá chủ quan do con người trực tiếp thực hiện, dựa trên việc đánh giá thang điểm cho các tiêu chí được xây dựng sẵn: đánh giá tính chính xác, đầy đủ thông tin và đánh giá sự trôi chảy của câu dịch. Cách đánh giá chủ quan cho kết quả tin cậy nhưng tốn nhiều thời gian và chi phí, có phụ thuộc vào khả năng của người đánh giá. Đánh giá khách quan là sử dụng các chương trình thay cho con người để đánh giá. Các chương trình sẽ so khớp hoặc đo tỉ lệ lỗi của kết quả từ hệ thống dịch với câu dịch tham khảo đã có sẵn, sử dụng các thang đo như BLEU, NIST, WER, TER Nội dung nghiên cứu của đề tài này tập trung ba phần chính: - Nghiên cứu các phương pháp đánh giá chất lượng hệ thống dịch tự động phổ biến hiện nay - Xây dựng chiến dịch đánh giá chất lượng một số hệ thống dịch Anh – Việt phổ biến hiện nay và thực hiện đánh giá, phân tích kết quả - Đề xuất giải pháp kết hợp đánh giá chất lượng các hệ thống dịch tự động với quá trình cải tiến chất lượng bản dịch máy và xây dựng kho ngữ liệu phục vụ đánh giá chất lượng các hệ thống dịch tự động tiếng Anh – tiếng Việt hiện nay 2 CHƯƠNG 1. NGHIÊN CỨU TỔNG QUAN 1.1. Tổng quan hệ thống dịch tự động Một hệ dịch tự động (hay còn gọi là dịch máy) là một hệ thống sử dụng máy tính để chuyển đổi văn bản được viết trong ngôn ngữ tự nhiên này thành bản dịch tương đương trong ngôn ngữ khác. Hình 1.1. Cấu trúc mô hình dịch tự động Hiện nay đã có nhiều phương pháp dịch được nghiên cứu và ứng dụng ở các hệ thống dịch để dịch giữa hàng trăm ngôn ngữ khác nhau. Những mô hình dịch mang lại hiệu quả cao có thể kể đến là phương pháp dịch dựa trên ví dụ, phương pháp dịch dựa trên luật, phương pháp dịch thống kê và phương pháp dịch sử dụng mạng rơ ron. 1.2. Các phương pháp đánh giá chất lượng hệ thống dịch 1.2.1. Phương pháp đánh giá chủ quan a. Đánh giá tính trôi chảy và tính đầy đủ sử dụng thang điểm Hai trong số các thông số đánh giá thông dụng bằng phương pháp chủ quan do con người thực hiện là tính trôi chảy (fluency) và tính đầy đủ (adequacy). Đánh giá tính trôi chảy yêu cầu người đánh giá phải là một người nói thông thạo ngôn ngữ cần đánh giá, thực hiện 3 việc đánh giá xem kết quả của bản dịch có trôi chảy hay không, bất kể kết quả này có chính xác với câu nguồn hoặc không. Kịch bản đơn giản để thực hiện một bản đánh giá chất lượng bản dịch máy như sau: Dữ liệu đầu vào: - Bản dịch do máy tính tạo ra - Văn bản ở ngôn ngữ nguồn (source language) - Bản dịch chính xác dùng để tham khảo (reference translation) Nhiệm vụ: - Đánh giá chất lượng của bản dịch do máy tính tạo ra Để cụ thể hóa việc đánh giá chất lượng theo phương pháp chủ quan, thông thường người ta sử dụng các thang đo đối với tính đầy đủ và tính trôi chảy. Bảng 1.1. Bảng các thang đo tương ứng với mức độ đầy đủ và trôi chảy Adequacy Fluency (Tính trôi chảy) (Tính đầy đủ thông tin) 5 all meaning 5 flawless English 4 most meaning 4 good English 3 much meaning 3 non-native English 2 little meaning 2 disfluent English 1 none 1 incomprehensible b. Đánh giá bằng hình thức xếp hạng Phương pháp đánh giá bằng hình thức xếp hạng được giới thiệu tại WMT 2007 nhằm khắc phục một số hạn chế khi đánh giá bởi chỉ số tính đầy đủ và tính trôi chảy. Phương pháp này thay thế các thang điểm bằng sự đánh giá tương quan giữa các bản dịch thông qua việc xếp hạng. Đối với phương pháp này, người đánh giá nhận được một bản dịch tham chiếu chính xác (reference translation) và các bản dịch máy cần đánh giá. Người đánh giá thực hiện việc xếp hạng các bản 4 dịch từ tốt nhất đến tệ nhất. c. Đánh giá thông qua hiệu đính bản dịch Hiệu đính bản dịch là quá trình chỉnh sửa bản dịch máy thành một bản dịch chính xác. Thay vì trực tiếp đánh giá các chỉ số chất lượng một cách tương đối hay tuyệt đối, phương pháp đánh giá thông qua hiệu đính bản dịch thực hiện đo đạc số lượng tối thiểu công việc cần thiết để chỉnh sửa một bản dịch máy thành bản dịch chính xác. Một trong các chỉ số thông dụng nhất khi áp dụng phương pháp này là HTER (human-targeted translation edit rate), đây cũng là phương pháp đánh giá bán tự động khi vừa dựa trên sử chỉnh sửa chủ quan của con người, vừa sử dụng các công thức để tính toán tự động. Phương pháp đánh giá chủ quan có những nhược điểm như sau: - Chi phí cao - Không thể tái sử dụng - Tốc độ chậm - Kết quả mang tính chủ quan 1.2.2. Phương pháp đánh giá khách quan (đánh giá tự động) Các chỉ số đánh giá tự động như BLEU, NIST, METEOR, WER, PER, GTM, TER, CDER đã được nghiên cứu và phát triển để cải thiện những nhược điểm của phương pháp đánh giá chủ quan như chi phí cao, không thể tái sử dụng, kết quả mang tính chủ quan, tốc độ thực hiện chậm, đồng thời hướng đến quá trình tự động điều chỉnh các tham số đánh giá phù hợp. Những chỉ số này được đề xuất dựa trên quá trình tự động so sánh giữa kết quả bản dịch với bản dịch tham chiếu do chuyên gia thực hiện, thông thường bằng cách xem xét sự trùng khớp thông qua n-gram. a. Chỉ số WER (Word Error Rate) b. Chỉ số MWER (Multi-Reference WER) c. Chỉ số PER (Position-independent Error Rate) d. Chỉ số TER (Translation Error Rate) 5 e. Chỉ số BLEU BLEU là một phương pháp dùng để đánh giá chất lượng bản dịch được đề xuất bới IBM tại hội nghị ACL ở Philadelphie vào tháng 7-2001. Ý tưởng chính của phương pháp là so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu. Việc so sánh được thực hiện thông qua việc thống kê sự trùng khớp của các từ trong hai bản dịch có tính đến thứ tự của chúng trong câu (phương pháp n-grams theo từ) [11]. Công thức để tính điểm BLEU như sau [22]: Trong đó, pn là điểm số “Precision” phản ánh tỷ lệ trùng khớp của các n-gram của các bản dịch so với bản tham chiếu. wn là trọng số tương ứng với chiều dài của n-gram BP (brevity penalty) là trọng số xác định bởi chiều dài của bản dịch và chiều dài của bản tham chiếu. f. Chỉ số NIST Phương pháp NIST [29] là sự phát triển trên phương pháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa n-grams và thông tin trên mỗi n-gram sẽ được sử dụng để phục vụ việc đánh giá. Công thức để tính điểm của NIST như sau [12]: 6  inf(w ...w )  N  1 n        2 L  score   w1...wn .exp log min tra ,1  log( p )  L  i1   i     ref    w1...wn Dtra  Những trọng số thông tin là được sử dụng để tính toán trên các n- grams trong tập tất cả các các bản dịch tham khảo theo phương trình sau:  N  inf( w ...w )  log  1  1 n 2  N   2  N1 = số lượng các tương ứng của các từ w1wn-1 N2 = số lượng các tương ứng của các từ w1wn  là hệ số được chọn bằng 0.5 khi số lượng các từ trong bản dịch máy nhỏ hơn hoặc bằng 2/3 số lượng các từ trong bản dịch tham khảo, ngược lại thì =1 N=5 Ltra: số lượng các từ trong bản dịch máy, Lref: số lượng từ trong bản dịch tham khảo. 1.3. Các nghiên cứu liên quan đến đánh giá chất lượng dịch tự động tiếng Việt Đã có nhiều nghiên cứu của các tác giả trong và ngoài nước trong lĩnh vực dịch tự động liên quan đến tiếng Việt nhằm đánh giá chất lượng các hệ thống và mô hình dịch hiện nay, đồng thời đề xuất và xây dựng một số hệ thống dịch sử dụng các phương pháp dịch khác nhau. 7 CHƯƠNG 2. TỔ CHỨC ĐÁNH GIÁ CHẤT LƯỢNG CÁC HỆ THỐNG DỊCH TỰ ĐỘNG TIẾNG VIỆT Hiện nay, tiếng Việt đã được hỗ trợ trong các hệ thống dịch của Google, Microsoft, Lạc Việt và một số hệ thống khác. 2.1. Các hệ thống dịch - EVTran: được nghiên cứu và phát triển từ năm 1989. - Cồ Việt: Công ty Cổ phần Tin học Lạc Việt - Google Translation: là một công cụ dịch thuật trực tuyến được Google cung cấp. - Bing Translator: Dịch vụ dịch tự động của Microsoft hỗ trợ dịch 60 ngôn ngữ khác nhau. 2.2. Tổ chức đánh giá Chuẩn bị dữ liệu: tác giả sử dụng 4 bộ dữ liệu song ngữ Anh – Việt phục vụ cho việc đánh giá. Các bộ dữ liệu này được cung cấp sẵn hoặc thu thập từ các trang web, bao gồm: (1) tst2013 – dữ liệu song ngữ phục vụ cho các tác vụ kiểm thử tại IWSLT’15; (2) 1000-cau – tuyển tập 1.000 câu giao tiếp tiếng Anh thông dụng được cung cấp bởi website dạy tiếng Anh. Đối với lĩnh vực chuyên ngành, tác giả sử dụng: (3) tpp-tomtat – bản tóm tắt và (4) tpp-chuong28 – chương 28 của Hiệp định đối tác xuyên Thái Bình Dương. Chi tiết dữ liệu được cung cấp ở Bảng 2.1. Bảng 2.1. Thông tin về dữ liệu phục vụ đánh giá Dữ liệu đánh Số lượng Chiều dài trung Chiều dài trung giá câu bình(tiếng Anh) bình (t. Việt) tst2013 1.268 18.5 24.1 1000-cau 984 5.7 4.9 tpp-tomtat 265 33.4 41.4 tpp-chuong28 210 82.9 130.1 Xử lý dữ liệu: các dữ liệu đánh giá được tác giả kiểm tra để đảm 8 bảo các câu đều được dịch theo từng cặp câu, loại bỏ một số ký tự đặc biệt, chuyển về bảng mã Unicode tiêu chuẩn trước khi tiến hành đánh giá. Nhận kết quả dịch: các câu tiếng Anh của từng tập dữ liệu được dịch sang tiếng Việt thông qua các hàm API của hệ thống Google và Microsoft, sử dụng công cụ do nhóm tác giả xây dựng. Hình 2.2. Chương trình hỗ trợ trích xuất kết quả dịch từ các hệ thống Bảng 2.2. Đánh giá kết quả dịch từ tiếng Anh sang tiếng Việt Google Microsoft Dữ liệu đánh giá Loại BLEU NIST WER BLEU NIST WER tst2013 en-vi 0.32 7.54 0.51 0.27 6.82 0.58 1000-cau en-vi 0.06 2.88 0.75 0.04 2.53 0.82 tpp-tomtat en-vi 0.42 8.29 0.46 0.40 7.90 0.51 tpp-chuong28 en-vi 0.44 7.29 0.47 0.33 6.11 0.58 Bảng 2.3. Đánh giá kết quả dịch từ tiếng Việt sang tiếng Anh Google Microsoft Dữ liệu đánh giá Loại BLEU NIST WER BLEU NIST WER tst2013 vi-en 0.32 7.61 0.47 0.26 6.54 0.56 1000-cau vi-en 0.29 5.59 0.49 0.21 4.55 0.59 tpp-tomtat vi-en 0.30 6.73 0.55 0.23 5.67 0.66 tpp-chuong28 vi-en 0.39 6.84 0.48 0.29 5.56 0.58 Qua các số liệu này, có thể thấy chất lượng các bản dịch tương đối tốt, tuy nhiên còn rất thấp so với các đánh giá chất lượng dịch các cặp câu thông dụng như tiếng Anh – tiếng Pháp hoặc một số ngôn ngữ 9 khác. Hệ thống dịch của Google đều mang lại điểm số tốt hơn hệ thống dịch của Microsoft trong tất cả các tập dữ liệu. Chất lượng dịch từ tiếng Anh sang tiếng Việt tốt hơn dịch từ tiếng Việt sang tiếng Anh ở cả hai hệ thống. Đánh giá kết quả dịch tiếng Anh sang tiếng Việt bằng phương pháp chủ quan do con người thực hiện thể hiện trong bảng sau. Bảng 2.4. Kết quả đánh giá bằng phương pháp chủ quan Số lượng (1) Có (2) Hiểu (3) Dùng câu hiểu đúng được Google 984 789 687 516 Microsoft 984 517 458 308 Như vậy, để dùng được trong giao tiếp thông thường, chỉ có 516 câu (đối với Google) và 308 câu (đối với Microsoft), chiếm tỷ lệ là 52% và 30%. Một số câu còn làm cho người đọc hiểu sai ý nghĩa như ở Bảng 2.5. 2.3. Nhận xét, đánh giá Qua các đánh giá ở trên, có thể thấy rằng mặc dù các hệ thống dịch tự động hiện nay đã được ứng dụng rất rộng rãi, nhưng để sử dụng được kết quả dịch cần phải tiếp tục có nhiều cải tiến, đặc biệt đối với dịch tiếng Việt. Chất lượng các hệ thống dịch tiếng Việt chưa tốt bởi một số nguyên nhân: - Phương pháp dịch chưa phù hợp: các mô hình dịch thống kê hoặc dịch dựa trên mạng nơ ron có nhiều ưu điểm, nhưng muốn áp dụng hiệu quả đối với dịch tiếng Việt cần có thêm các đánh giá và nghiên cứu bổ sung. - Kho ngữ liệu chưa đầy đủ: các kho ngữ liệu sử dụng để huấn luyện cho các hệ thống dịch tự động chưa đầy đủ, vì vậy một số từ các hệ thống chưa nhận diện được. Đặc biệt trong các lĩnh vực chuyên ngành hẹp, như lĩnh vực y tế, kỹ thuật, văn bản hành chính 10 CHƯƠNG 3. ĐỀ XUẤT GIẢI PHÁP ĐÁNH GIÁ CHẤT LƯỢNG 3.1. Một số tồn tại Đánh giá chất lượng các hệ thống dịch tự động bằng các phương pháp và số đo nêu trên đã được nghiên cứu và áp dụng rộng rãi. Tuy nhiên trong một số trường hợp vẫn còn có những hạn chế khi tổ chức đánh giá. - Trong cả phương pháp đánh giá chủ quan và khách quan, cần phải có kho ngữ liệu song ngữ mới có thể tổ chức đánh giá. - Kết quả đánh giá không khách quan vì chỉ so sánh bản dịch của máy tính với tập dữ liệu giả định là những câu dịch tham chiếu có sẵn trong kho ngữ liệu. Trong thực tế, một câu ở ngôn ngữ này có thể có nhiều cách dịch khác nhau ở ngôn ngữ khác tùy theo ngữ cảnh. - Đối với đánh giá chủ quan do con người trực tiếp thực hiện: tốn chi phí về thời gian và nhân lực để thực hiện quá trình đánh giá. - Nhiều hệ thống cho phép người dùng tham gia chỉnh sửa kết quả dịch để cải thiện chất lượng hệ thống dịch. 3.2. Đề xuất giải pháp đánh giá kết hợp quá trình hiệu đính bản dịch 3.2.1. Vấn đề xây dựng kho ngữ liệu phục vụ đánh giá Để phục vụ cho các nghiên cứu trong lĩnh vực dịch tự động tiếng Việt, chúng ta thường sử dụng các kho ngữ liệu song ngữ, chẳng hạn kho ngữ liệu bao gồm các cặp câu tiếng Anh – tiếng Việt. Quá trình hiệu đính bản dịch máy cũng tạo ra các văn bản song ngữ có giá trị, tuy nhiên vẫn chưa được đề cập như là một trong nhữ phương pháp để xây dựng kho ngữ liệu song ngữ. 3.2.2. Giải pháp đánh giá chất lượng dịch 11 Từ các phân tích trên, tác giả đề xuất sử dụng thêm một số chỉ số để đó chi phí của con người khi tham gia chỉnh sửa từ bản dịch của máy tính sang bản dịch hoàn chỉnh. Chỉ số thời gian: đo thời gian cần thiết để con người chỉnh sửa kết quả dịch từ hệ thống dịch tự động thành bản dịch đúng. Tpe = T/N T: Thời gian sửa bản dịch được tính từ khi người dùng chọn chức năng “Sửa bản dịch” cho đến khi người dùng xác nhận “Gửi kết quả”. N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, không tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dòng) và các dấu câu. Chỉ số thao tác: đo số lượng ký tự cần thay đổi để sửa kết quả dịch thành bản dịch đúng. Ope = (D + I) / N Trong đó: (D + I) là số lượng ký tự mà người dùng đã thay đổi, bao gồm thao tác xóa, thêm, sửa để hiệu chỉnh bản dịch. D: số lượng ký tự bị người dùng xóa I: số lượng ký tự được người dùng thêm mới Mỗi thao tác ghi đè được tính bằng một thao tác xóa và một thao tác thêm mới. N: Số lượng ký tự ở bản dịch chính xác sau khi người dùng đã chỉnh sửa xong, không tính đến các ký tự trống (khoảng trắng, tab, ký tự xuống dòng) và các dấu câu. 12 Hình 3.1. Chương trình tính chỉ số Tpe và Ope thông qua quá trình hiệu đính 3.2.3. Giải pháp kết hợp hiệu đính bản dịch máy và đánh giá chất lượng Hình 3.2. Sơ đồ quy trình kết hợp hậu xử lý với đánh giá chất lượng hệ thống dịch 3.2.4. Thực nghiệm 13 Để triển khai thực nghiệm quá trình hiệu đính bản dịch máy kết hợp đánh giá chất lượng bản dịch và xây dựng kho ngữ liệu, nhóm tác giả xây dựng ngữ cảnh như sau: Lấy 500 câu song ngữ tiếng Anh – tiếng Việt từ các đoạn hội thoại đã được dịch trong tài liệu học tiếng Anh ở chủ đề thông dụng là “Cuộc sống hàng ngày”. Dữ liệu này được chia thành 5 bộ để thực nghiệm. - Xây dựng chương trình sử dụng các dịch vụ được cung cấp của hệ thống dịch Google, Microsoft để tự động gửi các câu nguồn tiếng Anh (E) và lấy về các bản dịch tiếng Việt (V1) từ các hệ thống dịch đó. Dùng bản dịch của kho ngữ liệu (V) để làm câu tham chiếu, đo các chỉ số đánh giá (D1) theo thuật toán Edit Distance (ED), Word Error Rate (WER), BLEU, NIST để so sánh sự tương đồng giữa hai câu V và V1. Kết quả thu được ở Bảng 3.1. Bảng 3.1. Trung bình các chỉ số trên 5 bộ dữ liệu BLEU NIST ED WER Test 1 0.242 1.563 6.739 0.886 Test 2 0.542 2.876 5.684 0.561 Test 3 0.292 1.972 7.000 0.814 Test 4 0.273 2.450 9.286 0.757 Test 5 0.380 2.546 8.067 0.634 - Xây dựng hệ thống cho phép người dùng hiệu chỉnh các bản dịch. Quá trình này được tự động đo thời gian và đếm số lượng thao tác mà người dùng thực hiện để hiệu chỉnh. Từ đó tính toán chỉ số Tpe và Ope để đánh giá chất lượng bản dịch. Bản dịch hiệu chỉnh (V2) được đưa vào kho ngữ liệu để làm câu tham chiếu. Bảng 3.2. Kết quả sau khi hiệu chỉnh bản dịch Tpe Ope BLEU NIST ED WER Test 1 0.649 1.385 0.553 2.304 3.913 0.403 Test 2 0.211 0.717 0.789 3.281 1.632 0.142 14 Tpe Ope BLEU NIST ED WER Test 3 0.199 0.945 0.849 3.006 1.071 0.102 Test 4 0.506 1.250 0.631 3.170 3.500 0.301 Test 5 0.550 1.265 0.677 3.130 4.133 0.257 Từ kết quả này, chúng ta có thể thấy được sự tương đồng giữa chỉ số Tpe, Ope với các chỉ số Edit Distance và Word Error Rate thông qua đồ thị ở Hình 3.3. Hình 3.3. Sự tương đồng giữa Tpe, Ope và ED, WER Khi so sánh kết quả bản dịch với câu tham chiếu thu được từ quá trình hiệu chỉnh, các chỉ số BLEU và NIST đã tốt hơn (Hình 7) và việc đánh giá không phụ thuộc vào các bản dịch có sẵn, thể hiện được tính khách quan khi đánh giá kết quả của hệ thống dịch. Hình 3.4. Chỉ số BLEU, NIST trước và sau khi hiệu chỉnh 15 KẾT LUẬN Chất lượng dịch tự động tiếng Việt hiện nay còn thấp và cần được tiếp tục đầu tư nghiên cứu để cải tiến ở hai vấn đề quan trọng là phương pháp dịch và kho ngữ liệu. Thông qua quá trình đánh giá chất lượng dịch, chúng ta có thể xác định được tính hiệu quả của các mô hình dịch khi áp dụng đối với ti

Các file đính kèm theo tài liệu này:

  • pdfbao_cao_tom_tat_de_tai_nghien_cuu_giai_phap_danh_gia_chat_lu.pdf
Tài liệu liên quan