Tóm tắt Luận án - Xây dựng môi trường xử lý tiếng Ê đê ứng dụng trong dạy và học tiếng Ê đê

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG HOÀNG THỊ MỸ LỆ XÂY DỰNG MÔI TRƯỜNG XỬ LÝ TIẾNG ÊĐÊ ỨNG DỤNG TRONG DẠY VÀ HỌC TIẾNG Ê ĐÊ Chuyên ngành : KHOA HỌC MÁY TÍNH Mã số : 62 48 01 01 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm 2017 Công trình được hoàn thành tại: ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TS. PHAN HUY KHÁNH Phản biện 1: PGS. TS. Lê Mạnh Thạnh Phản biện 2: PGS.TS. Huỳnh Xuân Hiệp Phản biện 3: TS. Nguyễn Văn Hiệu Luận án được bảo vệ trước Hội đồn

pdf27 trang | Chia sẻ: huong20 | Ngày: 08/01/2022 | Lượt xem: 357 | Lượt tải: 0download
Tóm tắt tài liệu Tóm tắt Luận án - Xây dựng môi trường xử lý tiếng Ê đê ứng dụng trong dạy và học tiếng Ê đê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ng chấm luận án cấp Đại học Đà Nẵng họp tại: Đại học Đà Nẵng Vào hồi 8 giờ 00 ngày 27 tháng 10 năm 2017 Cĩ thể tìm hiểu luận án tại: - Thư viện Quốc gia - Trung tâm Thơng tin – Học liệu, Đại học Đà Nẵng DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ [1] Hồng Thị Mỹ Lệ, Phan Thị Bơng, Phan Huy Khánh, “Building a Machine Translation System in a Restrict Context from Ka-Tu Language into Vietnamese”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2012, Danang, pp. 167-172, 2012. [2] Hồng Thị Mỹ Lệ, Vilavong Souksan, Phan Huy Khánh, “Using Unicode in Encoding the Vietnamese Ethnic Minority Languages, Applying for the EDe Language”, Proceeding of the International Conference on Knowledge and System Engineering, Springer, KSE 2013, HaNoi, pp. 137-148, 2013. [3] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “A Domain indicating method for Ede terminology in building a Vietnamese-Ede bilingual corpus”, Proceeding of The third Asian Conference on Information Systems, ACIS’2014, NhaTrang, pp. 434-439, 2014. [4] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp xây dựng kho ngữ liệu đa ngữ Việt-ÊĐê gán nhãn theo ngữ cảnh”, Tạp chí Khoa học Cơng nghệ ĐHĐN. Số 1(74), quyển 2, trang: 42-46, 2014. [5] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “Basing on the Ede syllable models to check Ede syllable misspelling, applying to improve the quality of Ede vocabulary corpus”, Proceeding of the International Conference on Advanced Technologies for Communications (ATC’2016), HaNoi, pp 158-162, 2016. [6] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “Xây dựng kho ngữ vựng song ngữ Việt-Ê Đê dựa trên mơ hình tương tác Việt-Ê Đê”, Tạp chí Khoa học Cơng nghệ ĐHĐN, Số 5(114), quyển 2, trang: 36- 40, 2017. [7] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “Deploying environment for processing Ede ethnic minority language in Vietnam”, IEEE International Conference on Systems Science and Engineering (ICSSE), Jul 2017, HoChiMinh, pp. 174-177, 2017. [8] Hồng Thị Mỹ Lệ, Phan Huy Khánh, “Giải pháp chuyển đổi văn bản tiếng Ê Đê dùng phơng chữ riêng sang Unicode”, Tạp chí Hội nghị khoa học quốc gia lần thứ X, Nghiên cứu cơ bản và ứng dụng Cơng nghệ Thơng tin-FAIR, trang: 205-211, 2017. 1 MỞ ĐẦU Xử lý tiếng các dân tộc thiểu số (DTTS) ở Việt Nam nĩi chung và xử lý tiếng Ê Đê nĩi riêng, cho Ďến nay vẫn cĩ rất ít các nhà khoa học quan tâm. Trong bối cảnh bùng nổ sử dụng internet, cùng với nhu cầu phát triển văn hố và hội nhập của cộng Ďồng các DTTS ở Việt Nam, thì lúc này nhu cầu xử lý tiếng các DTTS Ďặt ra càng bức thiết hơn bao giờ hết. Từ tình hình thực tiễn xử lý tiếng DTTS, dựa trên sự gần gũi ngơn ngữ giữa tiếng Việt và tiếng Ê Đê, luận án chọn Ďề tài “Xây dựng mơi trường xử lý tiếng Ê Đê ứng dụng trong dạy và học tiếng Ê Đê” nhằm Ďịnh hƣớng qui trình nghiên cứu trong xử lý tiếng Ê Đê. Từ những Ďịnh hƣớng nghiên cứu Ďƣợc Ďặt ra trong mơi trƣờng này, kho ngữ vựng Việt-Ê Đê Ďƣợc xây dựng dựa trên mơ hình hợp nhất nguồn dữ liệu từ Ďiển giấy Việt-Ê Đê và Ê Đê-Việt. Các ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê Ďƣợc xây dựng dựa trên kho ngữ vựng Việt-Ê Đê cĩ Ďƣợc từ mơ hình hợp nhất. Định hƣớng phát triển kho ngữ vựng thơng qua trang web quản lý kho ngữ vựng Ďể các chuyên gia ngơn ngữ Ê Đê cùng tham gia Ďĩng gĩp, cập nhật dữ liệu vào kho ngữ vựng, gĩp phần nâng cao chất lƣợng kho ngữ vựng Việt-Ê Đê. Bên cạnh việc phát triển kho ngữ vựng, trang web này cịn cĩ chức năng chia sẻ kho ngữ vựng Việt-Ê Đê, các cơng cụ kỹ thuật, các kết quả nghiên cứu về xử lý tiếng Ê Đê cho các hoạt Ďộng nghiên cứu liên quan Ďến xử lý tiếng Ê Đê. 1. Mục tiêu nghiên cứu Luận án hƣớng Ďến nghiên cứu hai mục tiêu chính: - Xây dựng mơi trƣờng xử lý tiếng Ê Đê Ďịnh hƣớng qui trình nghiên cứu cho xử lý tiếng Ê Đê thể hiện ở ba vấn Ďề: soạn thảo văn bản tiếng Ê Đê trong mơi trƣờng Ďa ngữ; hợp nhất nguồn dữ liệu từ Ďiển giấy song ngữ Việt- Ê Đê và Ê Đê-Việt trong xây dựng KNVV-E; nâng cao chất lƣợng KNVV-E với sự tham gia, hỗ trợ của các chuyên gia ngơn ngữ tiếng Ê Đê và Chia sẻ các nguồn tài nguyên, các cơng cụ kỹ thuật, các kết quả nghiên cứu cho các hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê. - Triển khai xây dựng các ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê từ V-EBVB. 2. Đối tượng và phạm vi nghiên cứu 2.1. Đối tượng nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu trong luận án, các Ďối tƣợng gồm: ngơn ngữ Ê Đê và ngơn ngữ DTTS; Unicode, các cơng cụ kỹ thuật XLNNTN và xử lý tiếng Ê Đê; từ Ďiển và các kho ngữ vựng Ďơn ngữ, song ngữ Việt-Ê Đê. 2.2. Phạm vi nghiên cứu Để Ďạt Ďƣợc mục tiêu nghiên cứu trong luận án, luận án xác Ďịnh phạm vi nghiên cứu gồm: xử lý chữ viết theo quan Ďiểm XLNNTN và xử lý tiếng Việt, STVB tiếng Ê Đê sử dụng Unicode, kiểm tra lỗi chính tả âm tiết văn bản tiếng Ê Đê, hạ tầng cơ sở cho xử lý tiếng Ê Đê, ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê. 3. Phương pháp nghiên cứu 2 Phƣơng pháp nghiên cứu cơ bản Ďƣợc sử dụng trong luận án: nghiên cứu lý thuyết, nghiên cứu thực nghiệm. 4. Cấu trúc của luận án Nội dung luận án gồm phần mở Ďầu, nội dung chính, phần kết luận và các phụ lục. Nội dung luận án gồm 4 chƣơng nhƣ sau: Chương 1: Tiếp cận xử lý ngơn ngữ dân tộc thiểu số Chương 2: Mơi trƣờng xử lý tiếng Ê Đê Chương 3: Xử lý tiếng Ê Đê Chương 4: Xây dựng ứng dụng xử lý tiếng Ê Đê 5. Những đĩng gĩp của luận án 1) Đề xuất xây dựng mơi trƣờng xử lý tiếng Ê Đê, gĩp phần Ďịnh hƣớng qui trình nghiên cứu trong xử lý tiếng Ê Đê. 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nĩi chung và tiếng Ê Đê nĩi riêng. 3) Đề xuất xây dựng KNV V-E dựa trên mơ hình hợp nhất nguồn dữ liệu song ngữ Việt-Ê Đê và Ê Đê-Việt Ê Đê. 4) Đề xuất mơ hình kiểm tra lỗi chính tả âm tiết dựa trên mơ hình âm tiết tiếng Ê Đê, gĩp phần phát hiện lỗi chính tả âm tiết trong văn bản tiếng Ê Đê, kiểm tra các âm tiết tiếng Ê Đê trong KNVV-E. Ngồi ra, nhằm gĩp phần ứng dụng CNTT trong việc nâng cao chất lƣợng dạy học tiếng Ê Đê, một số ứng dụng ứng dụng xử lý tiếng Ê Đê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm cĩ: - Tra cứu trực tuyến và ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi chính tả văn bản tiếng Ê Đê, - Trợ giúp dịch máy Việt-Ê Đê hỗ trợ cho việc dịch các bài giảng, giáo án từ tiếng Việt sang tiếng Ê Đê. CHƢƠNG 1 VẤN ĐỀ XỬ LÝ NGƠN NGỮ DÂN TỘC THIỂU SỐ 1.1. Xử lý ngơn ngữ tự nhiên 1.1.1. Mã hĩa và soạn thảo văn bản 1.1.2. Xây dựng kho ngữ liệu 1.1.3. Tách từ và gán nhãn từ loại 1.1.4. Bài tốn dịch máy 1.2. Xử lý tiếng Việt-Kinh 1.2.1. Tiếng Việt trong bối cảnh xử lý ngơn ngữ tự nhiên Ngồi các bài tốn và ứng dụng trong XLNNTN, xử lý tiếng Việt cịn Ďặt ra các vấn Ďề cần Ďƣợc quan tâm nghiên cứu nhƣ: Tự Ďộng thêm dấu do chữ viết tiếng Việt; kiểm lỗi chính tả, ngữ pháp; xây dựng từ Ďiển, các KNV; phân tích ngữ nghĩa nhằm mục Ďích Ďể máy tính hiểu tiếng Việt; dịch tự Ďộng các văn bản sang ngơn ngữ khác; tĩm tắt nội dung các văn bản; nhận dạng chữ in, chữ viết, tiếng nĩi; trích rút tri thức; tạo sinh văn bản tự Ďộng từ các nguồn tài liệu khác nhau theo ngữ cảnh. 3 Để giải quyết các vấn Ďề Ďƣợc Ďặt ra, xử lý tiếng Việt cần phải tập trung vào việc tạo ra các cơng cụ và tài nguyên cho xử lý tiếng Việt. Vì vậy, xử lý tiếng Việt vẫn cịn là thách thức luơn Ďặt ra 1.2.2. Một số kết quả xử lý tiếng Việt Trong bối cảnh phát triển của ngành CNTT ở Việt Nam, một số bài tốn xử lý tiếng Việt Ďã Ďƣợc nghiên cứu và Ďã Ďƣợc một số kết quả: mã hĩa Unicode, tách từ, xây dựng kho ngữ liệu, dịch máy. Vấn Ďề Ďa ngữ trong xử lý tiếng Việt trên các hệ quản trị cơ sở dữ liệu khơng gặp khĩ khăn, kể cả với các kỹ thuật sắp xếp và tìm kiếm. NSD khơng cần phải lập trình cũng vẫn xử lý Ďƣợc tiếng Việt trong mơi trƣờng Ďa ngữ. 1.2.3. Xu thế và triển vọng trong xử lý tiếng Việt Xử lý tiếng Việt là hƣớng nghiên cứu cĩ tầm quan trọng rất lớn Ďối với sự phát triển và ứng dụng CNTT tại Việt Nam. Xử lý tiếng Việt Ďang cĩ nhu cầu rất lớn ở Việt Nam là do sự bùng nổ của cơng nghiệp nội dung số và nhiều doanh nghiệp Ďang quan tâm tới lĩnh vực này. 1.3. Xử lý tiếng dân tộc thiểu số Việt Nam 1.3.1. Bảo tồn tiếng các dân tộc thiểu số ở Việt Nam Đứng trƣớc thực trạng tiếng nĩi của các DTTS ở Việt Nam Ďang Ďứng trƣớc nguy cơ mai một, cộng Ďồng các dân tộc ở Việt Nam và Chính phủ cần cĩ những chƣơng trình nhƣ khuyến khích, vận Ďộng Ďồng bào các DTTS giao tiếp hằng ngày bằng tiếng dân tộc của chính mình. Ngành GDĐT, cần xuất bản nhiều hơn nữa các loại sách song ngữ. Đƣa chƣơng trình giảng dạy tiếng DTTS ở Việt Nam phù hợp với Ďịa bàn vùng DTTS vào các trƣờng phổ thơng, trƣờng phổ thơng Dân tộc nội trú, trung tâm Giáo dục thƣờng xuyên, trung tâm Học tập cộng Ďồng, trƣờng Dạy nghề, Trung học chuyên nghiệp, Cao Ďẳng và Đại học. Đào tạo Ďội ngũ trí thức ngƣời DTTS ở Việt Nam và tạo Ďiều kiện Ďể trí thức, cán bộ ngƣời DTTS ở Việt Nam trở về phục vụ quê hƣơng. 1.3.2. Hệ thống chữ viết các dân tộc thiểu số ở Việt Nam Số lƣợng các dân tộc thiểu số ở Việt Nam Ďã cĩ và chƣa cĩ chữ viết, Ďƣợc trình bày trong bảng 1.1. Bảng 1.1. Các hệ chữ viết DTTS Việt Nam Hệ chữ viết Số lƣợng DTTS Chữ La tinh 17 Chữ Viết cổ 4 Chữ viết La tinh và chữ viết cổ 4 Chƣa cĩ chữ viết 29 1.3.3. Thực trạng tiếng các dân tộc thiểu số ở Việt Nam Với Ďặc Ďiểm Ďa dạng về dân tộc, nên Việt Nam cũng là quốc gia Ďa ngơn ngữ. Dân tộc Việt Nam nĩi các ngơn ngữ khác nhau. Ngồi dân tộc Kinh là dân tộc chiếm gần 86% dân số, cịn cĩ 54 dân tộc khác, thuộc các ngữ hệ khác nhau thể hiện trong bảng các ngơn ngữ các dân tộc Việt Nam. Trên cả nƣớc hiện nay cĩ trên 20 tỉnh thành Ďang tổ chức dạy tiếng 4 DTTS cho gần 110.000 học sinh thuộc 7 dân tộc: H’Mơng, Ê Đê, Gia Rai, Ba Na, Chăm, Khơ Me, Hoa. Nhiều tỉnh thành Ďã triển khai thực hiện dạy tiếng DTTS cho học sinh, cán bộ, cơng chức, viên chức, các sở và các ban ngành dƣới nhiều hình thức. GDĐTcũng Ďã xây dựng một số chƣơng trình giáo dục song ngữ, Ďƣa vào giảng dạy trong các trƣờng tiểu học và trƣờng phổ thơng Dân tộc nội trú. 1.3.4. Xử lý tiếng Ê Đê vận dụng kết quả xử lý tiếng Việt Qua các nghiên cứu tổng quan về XLNNTN, xử lý ngơn ngữ DTTS, xử lý tiếng Việt, xử lý tiếng Ê Đê; dựa vào sự gần gũi giữa tiếng Việt và tiếng Ê Đê; Ďể giảm thiểu kinh phí và Ďiều kiện nghiên cứu kho học; kế thừa và phát triển từ những gì Ďã, Ďang và sẽ cĩ của các kết quả nghiên cứu, vận dụng kết quả xử lý tiếng Việt cho xử lý tiếng Ê Đê Ďƣợc so sánh và nhận Ďịnh trong bảng 1.2. Bảng 1.2. So sánh và nhận định vấn đề xử lý tiếng Việt và tiếng Ê Đê Vấn đề XLNNTN Tiếng Việt Tiếng Ê Đê Mã hố Unicode Đã cĩ Chƣa cĩ Đề xuất: Luận án tập trung nghiên cứu mã hố Unicode các chữ cái tiếng Ê Đê khơng cĩ trong tiếng Việt. Dùng phơng Unicode Đã dùng Chƣa dùng Đề xuất: Luận án tập trung nghiên cứu dùng phơng chữ Unicode cho việc hiển thị chữ viết tiếng Ê Đê, khơng dùng phơng chữ tiếng Ê Đê riêng nhƣ hiện nay. Hiển thị chữ viết với phơng chữ Unicode Đã cĩ bộ gõ Unikey, VietKey, VNWinKey Chƣa cĩ Đè xuất: Luận án tập trung nghiên cứu vấn Ďề hiển thị chữ viết tiếng Ê Đê dùng phơng chữ Unicode và kế thừa bộ gõ tiếng Việt. Xây dựng KNV Đã cĩ Chƣa cĩ Đề xuất: Luận án tập trung xây dựng KNVV-E, kế thừa kho ngữ vựng tiếng Việt Ďã cĩ chia sẻ cho các hoạt Ďộng nghiên cứu. Tách từ Khĩ khăn về vấn Ďề nhập nhằng. Đã cĩ cơng cụ tách từ vnTokenizer chia sẻ cho mục Ďích nghiên cứu. Khĩ khăn về vấn Ďề nhập nhằng. Chƣa cĩ cơng cụ tách từ chia sẻ cho mục Ďích nghiên cứu. Đề xuất: Luận án cần chọn giải pháp kế thừa cơng cụ vnTokenize Ďể tách từ tiếng Việt ứng với từ tiếng Ê Đê, theo cách tiếp cận bổ sung mục từ mới vào KNV mở rộng của cơng cụ vnTokenize. Dịch máy Việt-Anh, chƣa xử lý hết các trƣờng hợp nhập nhằng. Việt-Ê Đê chƣa xử lý các trƣờng hợp nhập nhằng và các từ khơng cĩ trong KNV Đề xuất: Luận án tập trung nghiên cứu ứng dụng trợ giúp dịch Việt- Ê Đê cho việc dịch các bài học song ngữ Việt-Ê Đê, các giáo án, giáo trình từ tiếng Việt sang tiếng Ê Đê. 5 1.4. Xử lý ngơn ngữ dân tộc thiểu số 1.4.1. Vấn đề xử lý ngơn ngữ dân tộc thiểu số Trên thế giới hiện nay Ďã cĩ các hiệp hội, các tổ chức, các dự án với các hoạt Ďộng liên quan Ďến xử lý ngơn ngữ DTTS, cĩ thể kể Ďến: SALTMIL là hiệp hội quốc tế về tiếng nĩi và ngơn ngữ của nhĩm nghiên cứu riêng biệt chủ yếu tập trung vào cơng nghệ ngơn ngữ của các DTTS, MILLE là một dự án của Anh liên quan Ďến xử lý tiếng các DTTS, EMILLE là một dự án hợp tác giữa các trƣờng ĐH Lancaster và Sheffield tập trung chủ yếu vào các vấn Ďề liên quan Ďến mã hĩa Unicode ký tự trong xây dựng các kho ngữ liệu. Khĩ khăn và thách thức Xử lý ngơn ngữ DTTS thƣờng xuyên phải Ďối mặt với khĩ khăn Ďầu tiên là bộ chữ cái tiếng DTTS Ďã cĩ trong bảng mã Unicode hay chƣa, tiếp theo là thiếu nguồn tài nguyên dữ liệu chuẩn hĩa dƣới dạng Ďiện tử, chuyên mơn. Chính sự khan hiếm nguồn tài nguyên dữ liệu là một hạn chế cho phƣơng pháp tiếp cận hƣớng dữ liệu trong xử lý ngơn ngữ DTTS. Khĩ khăn cũng phải Ďƣợc kể Ďến Ďĩ là thiếu sự hỗ trợ về tài chính dành cho các hoạt Ďộng nghiên cứu xử lý ngơn ngữ DTTS. Các phương pháp tiếp cận Nghiên cứu xử lý ngơn ngữ DTTS cĩ thể sử dụng phƣơng pháp tiếp cận khác với phƣơng pháp tiếp cận thƣờng dùng trong xử lý ngơn ngữ tự nhiên (XLNNTN). Tuy nhiên, việc chọn phƣơng pháp tiếp cận nào cĩ thể phụ thuộc vào Ďặc thù ngơn ngữ của từng DTTS, Ďộ phức tạp của từng vấn Ďề hay hƣớng nghiên cứu của các nhà khoa học. 1.4.2. Định hướng nghiên cứu Triển khai hệ thống xử lý ngơn ngữ cho DTTS khơng nên bắt Ďầu phát triển các ứng dụng nếu chƣa cĩ hạ tầng cơ sở cho xử lý ngơn ngữ. Nên thiết kế nguồn tài nguyên CSDL theo hƣớng mở và cĩ thể Ďƣợc sử dụng lại cho bất kỳ các cơng cụ và các ứng dụng khác. Trong xử lý ngơn ngữ DTTS, vấn Ďề chia sẻ các kết quả nghiên cứu là một yếu tố quan trọng, nhằm tận dụng tất cả sự hợp tác cĩ thể nảy sinh giữa các nhà nghiên cứu về xử lý ngơn ngữ DTTS. 1.4.3. Phân cấp chức năng trong mơi trường xử lý tiếng Ê Đê Mơi trƣờng xử lý tiếng Ê Đê trong luận án là một hệ thống phân cấp các chức năng, Ďịnh hƣớng qui trình nghiên cứu trong xử lý tiếng Ê Đê. Hệ thống phân cấp các chức năng của mơi trƣờng xử lý tiếng Ê Đê cĩ bốn mức: - Mức Ďầu tiên là vấn Ďề sử dụng Unicode trong soạn thảo văn bản tiếng Ê Đê làm hạ tầng cơ sở cho việc thu thập, chuyển Ďổi, xử lý các nguồn dữ liệu cho các mức tiếp theo. 6 - Mức tiếp theo là hợp nhất nguồn dữ liệu song ngữ Việt- Ê Đê và Ê Đê-Việt trong xây dựng KNV song ngữ Việt-Ê Đê. - Mức thứ ba là quản lý KNV, xây dựng và chia sẻ các cơng cụ kỹ thuật, các ứng dụng cho các hoạt Ďộng nghiên cứu xử lý tiếng Ê Đê. - Mức cuối cùng Ďại diện cho miền triển khai ứng dụng xử lý tiếng Ê Đê trong dạy và học tiếng Ê Đê, bao gồm các hoạt Ďộng nhƣ: tra cứu vựng, kiểm tra lỗi chính tả văn bản tiếng Ê Đê, hỗ trợ dịch Việt-Ê Đê dựa trên kho ngữ vựng song ngữ Việt- Ê Đê cĩ Ďƣợc từ các mức dƣới. Hình 1.1 thể hiện các mức của hệ thống phân cấp chức năng trong mơi trƣờng xử lý tiếng Ê Đê. 1.5. Kết luận chƣơng 1 Luận án tập trung vào bốn giải pháp chính: 1) Đề xuất xây dựng mơi trƣờng xử lý tiếng Ê Đê, gĩp phần Ďịnh hƣớng qui trình nghiên cứu trong xử lý tiếng Ê Đê. 2) Đề xuất giải pháp sử dụng Unicode cho STVB tiếng DTTS nĩi chung và tiếng Ê Đê nĩi riêng. 3) Đề xuất xây dựng KNV V-E dựa trên mơ hình hợp nhất nguồn dữ liệu song ngữ Việt-Ê Đê và Ê Đê-Việt Ê Đê. 4) Đề xuất mơ hình kiểm tra lỗi chính tả âm tiết dựa trên mơ hình âm tiết tiếng Ê Đê, gĩp phần phát hiện lỗi chính tả âm tiết trong văn bản tiếng Ê Đê, kiểm tra các âm tiết tiếng Ê Đê trong KNVV-E. Ngồi ra, nhằm gĩp phần ứng dụng CNTT trong việc nâng cao chất lƣợng dạy học tiếng Ê Đê, một số ứng dụng ứng dụng xử lý tiếng Ê Đê Ďã Ďƣợc triển khai dựa vào KNV V-E, gồm cĩ: - Tra cứu trực tuyến và ngoại tuyến từ vựng Việt-Ê Đê - Kiểm tra lỗi chính tả văn bản tiếng Ê Đê, - Trợ giúp dịch máy Việt-Ê Đê Từ Ďịnh hƣớng nhiệm vụ nghiên cứu nêu trên, các nội dung nghiên cứu sẽ Ďƣợc trình bày trong các chƣơng tiếp theo. CHƢƠNG 2 MƠI TRƢỜNG SOẠN THẢO TIẾNG Ê ĐÊ 2.1. Giới thiệu tiếng Ê Đê Hình 1.1. Hệ thống phân cấp chức năng trong mơi trường xử lý tiếng Ê Đê 7 2.1.1. Sự ra đời chữ viết Ê Đê 2.1.2. Đặc điểm ngữ âm Ê Đê 2.1.3. Đặc điểm từ vựng Ê Đê 2.1.4. Đặc điểm ngữ pháp Ê Đê 2.2. Soạn thảo văn bản tiếng Ê Đê 2.2.1. Xử lý chữ viết tiếng các dân tộc thiểu số ở Việt Nam Kết quả nghiên cứu về xử lý chữ viết tiếng các DTTS ở Việt Nam cĩ những ƣu Ďiểm và nhƣợc Ďiểm sau: Ưu điểm: gĩp phần tin học hĩa các văn bản tiếng DTTS, giải quyết Ďƣợc vấn Ďề hiển thị chữ DTTS trên máy tính cho các dân tộc Chăm, Thái, Ê Đê, Gia Rai, Ba Na, M’Nơng, Ê Đê, Xơ Đăng, Cơ Ho, Xê Đăng, Sán Chay, tạo Ďiều kiện cho Ďồng bào các DTTS tiếp cận với những ứng dụng trong lĩnh vực CNTT, cũng nhƣ các ứng dụng khoa học cơng nghệ mới. Nhược điểm: sử dụng bộ mã chuẩn cĩ sẵn là ASCII và tạo phơng chữ riêng theo bảng mã này, chỉ khắc phục Ďƣợc tính cục bộ, ứng dụng trong phạm vi hẹp của một số bộ phơng chữ của các cơng trình nghiên cứu xây dựng bộ gõ cho STVB. Để hiển thị Ďƣợc chữ viết tiếng các DTTS ở Việt Nam, trên máy phải cĩ phơng chữ ứng với bộ gõ của tiếng dân tộc Ďĩ. Từ những thực trạng xử lý chữ viết tiếng các DTTS ở Việt Nam trên máy tính, vấn Ďề mã hĩa Unicode trong STVB tiếng các DTTS ở Việt Nam là việc làm rất cần thiết và phải làm càng sớm càng tốt. 2.2.2. Soạn thảo văn bản tiếng dân tộc thiểu số Hầu hết 21 DTTS ở Việt Nam cĩ chữ viết sử dụng bộ chữ cái Latinh, cĩ dấu và thanh âm gần giống tiếng Việt. Một số chữ viết tiếng DTTS cĩ chữ cái, dấu và thanh âm biến Ďổi nhƣng khơng nhiều. Trên cơ sở Ďĩ, luận án Ďề xuất giải pháp hiển thị văn bản Unicode tiếng các DTTS trong mơi trƣờng Ďa ngữ. Các tiêu chí Ďƣợc Ďặt ra trong giải pháp: Áp dụng cho tiếng các DTTS cĩ chữ viết sử dụng bộ chữ cái Latinh. Mã hĩa bộ chữ viết tiếng DTTS trong bảng mã Unicode, kế thừa bộ gõ tiếng Việt, thống nhất dùng phơng chữ Unicode trong STVB. Giải pháp hiển thị chữ viết tiếng DTTS trong mơi trƣờng Ďa ngữ Ďƣợc Ďề xuất theo mơ hình hiển thị chữ viết tiếng DTTS trên văn bản Unicode Hình 2.2. Mơ hình hiển thị chữ viết tiếng DTTS trên văn bản Unicode 8 (Hình 2.2). Hoạt động trong mơ hình Bước 1: nhĩm bộ chữ cái tiếng DTTS theo ba nhĩm Nhĩm 1 là các chữ cái cĩ trong bảng chữ cái tiếng Việt, cĩ trong Unicode. Nhĩm 2 là các chữ cái khơng cĩ trong bảng chữ cái tiếng Việt mà cĩ trong Unicode. Nhĩm 3 là các chữ cái khơng cĩ trong bảng chữ cái tiếng Việt cũng khơng cĩ trong Unicode. Bước 2: ánh xạ chữ cái nhĩm 2 và nhĩm 3 vào Unicode Ďể xác Ďịnh giá trị hexa trong Unicode tƣơng ứng với các chữ cái nhĩm 2 và nhĩm 3. Bước 3: qui Ďịnh cách gõ cho các chữ cái nhĩm 2 và nhĩm 3. Bước 4: xây dựng mơi trƣờng tƣơng tác vào bộ gõ tiếng Việt WinVNKey Ďể hiển thị Ďƣợc chữ viết tiếng DTTS trong văn bản Unicode và trong các trình ứng dụng cĩ STVB tƣơng tự nhƣ tiếng Việt. Giải pháp hiển thị chữ viết tiếng DTTS Việt Nam trong mơi trƣờng Ďa ngữ, gĩp phần giải quyết vấn Ďề sử dụng Unicode cho STVB tiếng các DTTS ở Việt Nam trong mơi trƣờng Ďa ngữ và hiển thị chữ viết tiếng DTTS trong các trình ứng dụng cĩ STVB. 2.2.3. Soạn thảo văn bản tiếng Ê Đê Áp dụng giải pháp hiển thị tiếng DTTS trong văn bản Unicode cho STVB tiếng Ê Đê, các bƣớc Ďƣợc thực hiện nhƣ sau: Bước 1: nhĩm các chữ cái tiếng Ê Đê theo ba nhĩm (Bảng 2.2). Bảng 2.2. Bảng phân nhĩm bảng chữ cái Ê Đê Nhĩ m Chữ cái tiếng Ê Đê 1 A a Ă ă Â â E e Ê ê I i O o Ơ ơ Ơ ơ U u Ƣ ƣ B b D d Đ Ď G g H h J j K k L l M m N n P p R r S s T t W w Y y 2 Ƀ ƀ Č č Ĕ ĕ Ĭ ĭ Đ Đ Ŏ ŏ Ŭ ŭ 3 Ê ê ơ Ơ ơ Ƣ ƣ Bước 2: chữ cái nhĩm 2 và nhĩm 3 Ďƣợc ánh xạ vào bảng mã Unicode trong các phạm vi chứa: kí tự La tinh bổ sung (H00A0:H00FF), kí tự La tinh mở rộng (H0100:H024F), dấu phụ kết hợp (H0300:H036F). Việc ánh xạ chữ cái nhĩm 2 và nhĩm 3 vào Unicode Ďƣợc thực hiện qua bộ cơng cụ ánh xạ Unicode. Các chữ cái thuộc nhĩm 3, Ďƣợc chọn mã hĩa theo dạng mã tổ hợp với hai kí tự: kí tự chữ cái và dấu trăng . Kết quả ánh xạ các chữ cái nhĩm 2 và và nhĩm 3 vào Unicode thể hiện trong bảng 2.3. Bước 3: qui Ďịnh cách gõ cho chữ cái nhĩm 2 và nhĩm 3. Kí tự dấu ngã “~” Ďƣợc chọn thay cho dấu gạch ngang trong chữ Ƀ, ƀ và dấu ~ trên chữ Đ, đ. Kí tự dấu “^” Ďƣợc chọn thay cho dấu trăng trên các chữ cĩ dấu trăng. 9 Bảng 2.3. Ánh xạ chữ cái nhĩm 2 và nhĩm 3 vào Unicode Nhĩm Giá trị hexa của chữ cái tiếng Ê Đê trong Unicode 2 Ƀ H0243 ƀ H0180 Č H010C č H010D Ĕ H0114 ĕ H0115 Ĭ H012C ĭ H012D Đ H00D1 đ H00F1 Ŏ H014E ŏ H014F Ŭ H016C ŭ H016D 3 Ê H00CA H0306 ê H00EA H0306 H00D4 H0306 ơ H00F4 H0306 Ơ H01A0 H0306 ơ H01A1 H0306 Ƣ H016C H0306 ƣ H016D H0306 Cơ sở Luận án chọn hai kí tự này Ďể kết hợp theo dạng mã tổ hợp cho các chữ cái Ê Đê thuộc nhĩm 2 và nhĩm 3, Ďể NSD dễ hình dung gần với chữ cái Ê Đê và Ďể dễ gợi nhớ. Bảng 2.4, qui Ďịnh cách gõ cho chữ cái nhĩm 2 và nhĩm 3. Trợ giúp ánh xạ chữ cái nhĩm 2 và nhĩm 3 và qui Ďịnh cách gõ Ďƣợc thực hiện qua bộ cơng cụ Ďƣợc Ďề xuất xây dựng trong luận án, Ďƣợc Ďặt tên là H&TES. Bộ H&TES, trợ giúp việc lƣu giá trị hexa và cách gõ của các chữ cái thuộc nhĩm 2 và nhĩm 3 vào một tệp văn bản. Tệp này là dữ liệu Ďầu vào cho mơi trƣờng tƣơng tác vào bộ gõ WinVNKey, Ďƣợc Ďặt tên là HTF. Nội dung của tệp HTF gồm các hàng là tổ hợp tổ hợp kí tự qui Ďịnh cách gõ và giá trị hexa của chữ cái nhĩm 2 hay nhĩm 3. Dấu hai chấm “:” Ďể ngăn cách tổ hợp kí tự và giá trị hexa. Riêng với các chữ cái nhĩm 3 vì cĩ hai giá trị hexa, Ďƣợc ngăn cách nhau bằng dấu cộng giữa hai giá trị. Bảng 2.4. Qui định cách gõ cho chữ cái nhĩm 2 và 3 Nhĩm 2 Chữ hoa Ƀ Č Ĕ Đ Ĭ Ŏ Ŭ Tổ hợp kí tự B~ C^ E^ N~ I^ O^ U^ Chữ thường ƀ č ĕ đ Ĭ ŏ ŭ Tổ hợp kí tự b~ c^ e^ n~ i^ o^ u^ Nhĩm 3 Chữ hoa Ê Ơ Ƣ Tổ hợp kí tự Ê^ Ơ^ Ơ^ Ƣ^ Chữ thường ê ơ ơ ƣ Tổ hợp kí tự ê^ ơ^ ơ^ ƣ^ Bước 4: giải quyết vấn Ďề hiển thị tiếng Ê Đê với phơng chữ Unicode trong các trình ứng dụng cĩ STVB, bằng cách xây dựng bộ cơng cụ, Ďặt tên là EIWVNK tƣơng tác HTF vào bộ gõ WinVNKey. Qua các kết quả nghiên cứu hiển thị chữ viết tiếng Ê Đê hiện nay Ďang sử dụng và giải pháp tƣơng tác vào bộ gõ WinVNkey qua bộ EIWVNK, Ďƣợc so sánh Ďánh giá dựa trên các yếu tố liên quan Ďến vấn Ďề hiển thị chữ viết tiếng Ê Đê dùng Unicode, Ďƣợc trình bày qua Bảng 2.6. Bảng 2.6. Đánh giá các yếu tố hiển thị chữ viết tiếng Ê Đê trong Unicode Yếu tố TayNguyenKey VnKey EIWVNK Phơng chữ Unicode Khơng sử dụng Khơng sử dụng Sử dụng Bộ gõ Dùng bộ gõ tiếng Việt (Unikey, Dùng bộ gõ VNKey Dùng bộ gõ WinVNKey 10 ViệtKey) Hướng mở Khơng Khơng Cĩ Phím phụ kết hợp 12 phím Kết hợp nhƣ telex, VNI Phím ~ và phím ^ 2.3. Sử dụng Unicode 2.3.1. Sử dụng Unicode trong soạn thảo văn bản Trong STVB việc sử dụng nhiều bảng mã khác nhau trong cùng một nƣớc là một trở ngại lớn trong việc phát triển các hệ thống thơng tin lớn. Unicode khơng chỉ giải quyết về mặt kĩ thuật hiển thị phơng chữ mà cịn tạo tiền Ďề cho sự phát triển kĩ thuật xử lí ngơn ngữ trên máy tính, xây dựng các giải pháp sửa lỗi chính tả và ngữ pháp tự Ďộng trên máy tính, là xu hƣớng tất yếu trong sự phát triển mạnh mẽ của internet hiện nay... Unicode là giải pháp quốc tế, cho mọi ngơn ngữ trên thế giới trong việc trao Ďổi thơng tin. 2.3.2. Giải pháp chuyển đổi văn bản tiếng DTTS sử dụng phơng chữ riêng sang Unicode Các văn bản tiếng DTTS ở Việt Nam cĩ chữ viết sử dụng ký tự chữ Latinh, phần lớn khơng sử dụng phơng chữ Unicode mà sử dụng phơng chữ riêng. Sử dụng phơng chữ riêng trong STVB là một khĩ khăn trong việc trao Ďổi và phát triển các hệ thống thơng tin. Từ thực trạng trên, Ďể gĩp phần giải quyết những khĩ khăn trong việc trao Ďổi, sử dụng các văn bản tiếng DTTS dùng phơng chữ riêng, luận án Ďề xuất giải pháp chuyển Ďổi văn bản tiếng các DTTS dùng phơng chữ riêng sang phơng chữ Unicode. Giải pháp chuyển Ďổi văn bản tiếng DTTS dùng phơng chữ riêng sang phơng chữ Unicode Ďƣợc trình bày trong Hình 2.4. Trong giải pháp này, cĩ kế thừa chức năng xác Ďịnh giá trị hexa cho các chữ cái nhĩm 2 và nhĩm 3 và chức năng qui Ďịnh cách gõ trong bộ gõ H&TES. Chức năng qui Ďịnh cách gõ trong bộ cơng cụ H&TES, Ďƣợc kế thừa cho chức năng xác Ďịnh kí tự Ďã sử dụng trong văn bản tiếng DTTS với phơng chữ riêng và Ďƣợc ánh xạ vào chữ cái nhĩm 2 và nhĩm 3. Sau khi Ďã xác Ďịnh Ďƣợc giá trị hexa và kí tự Ďã sử dụng trong văn bản cần chuyển Ďổi, sẽ Ďƣợc lƣu vào CSDL. Đây chính là nguồn dữ liệu Ďầu vào Hình 2.4. Mơ hình chuyển đổi văn bản tiếng DTTS dùng phơng chữ riêng sang phơng chữ Unicode 11 cho chức năng chuyển Ďổi văn bản tiếng DTTS dùng phơng chữ riêng sang Unicode. Giải pháp chuyển Ďổi văn bản tiếng DTTS dùng phơng chữ riêng sang Unicode, Ďã gĩp phần giải quyết những khĩ khăn trong việc trao Ďổi các văn bản tiếng DTTS dùng phơng chữ riêng. 2.3.3. Chuyển đổi văn bản tiếng Ê Đê dùng phơng chữ riêng về Unicode Trong soạn thảo văn bản tiếng Ê Đê, việc chuyển từ dùng phơng chữ riêng sang Unicode, là cơng việc chƣa thể thực hiện Ďƣợc trong ngày một ngày hai. Trƣớc mắt, Ďể giải quyết những khĩ khăn trong việc trao các văn bản tiếng Ê Đê dùng phơng chữ riêng trên internet hay giữa các máy tính. Dựa vào giải pháp chuyển Ďổi văn bản tiếng DTTS dùng phơng chữ riêng sang Unicode, luận án Ďề xuất xây dựng bộ chuyển Ďổi văn bản tiếng Ê Đê dùng phơng chữ riêng sang phơng chữ Unicode, Ďƣợc Ďặt tên là CEDU. Kịch bản xây dựng bộ chuyển đổi CEDU Sử dụng bộ chuyển Ďổi H&TES Ďã Ďƣợc Ďề xuất trong mục 2.2.3 Ďể tạo CSDL chứa giá trị hexa và tập kí tự Ďƣợc gõ tƣơng ứng với các chữ cái nhĩm 2 và nhĩm 3. Dựa vào CSDL chứa tập giá trị hexa và tập kí tự Ďƣợc gõ tƣơng ứng với các chữ cái nhĩm 2 và nhĩm 3, Ďể thực hiện chuyển Ďổi file văn bản tiếng Ê Đê ở các dạng (TXT, DOC, DOCX, RFT, XML) dùng phơng chữ riêng sang file văn bản tiếng Ê Đê dùng phơng chữ Unicode. Kết quả thực nghiệm Dữ liệu Ďầu vào Ďƣợc lấy từ các bản tin Hệ phát thanh dân tộc VOV 4. Các bản tin này sử dụng phơng chữ TayNguyenKey, kiểu gõ VNI và bộ gõ UniKey. Kết quả cĩ Ďƣợc sau khi qua bộ CEDU Ďã Ďƣợc kiểm tra thủ cơng trên các bản gốc và nhận thấy rằng CEDU Ďã chuyển Ďổi Ďƣợc hết tất cả các tập kí tự Ďƣợc gõ theo phơng chữ TayNguyenKey về chữ cái tiếng Ê Đê với phơng chữ Unicode. So sánh đánh giá Bộ chuyển Ďổi CEDU thực hiện chuyển Ďổi Ďƣợc cho các tệp cĩ phần mở rộng TXT, DOC, DOCX, RTF, XML, chứ khơng chỉ giới hạn các tệp chỉ cĩ phần mở rộng TXT hoặc RTF nhƣ chức năng chuyển Ďổi bảng mã tiếng Việt của Unikey ToolKit trong bộ gõ Unikey. Bộ chuyển Ďổi CEDU Ďã gĩp phần giải quyết những bất cập trong trao Ďổi các văn bản tiếng Ê Đê dùng phơng chữ riêng trên internet hay giữa các máy tính với nhau, cũng nhƣ việc sử dụng lại các nguồn dữ liệu Ďiện tử hiện cĩ trong nghiên cứu xử lý tiếng Ê Đê. 2.4. Kiểm tra chính tả âm tiết tiếng Ê Đê 2.4.1. Âm tiết tiếng Ê Đê a) Khái niệm âm tiết b) Cấu tạo âm tiết tiếng Ê Đê 12 Cấu tạo âm tiết Ê Đê thể hiện trong hình 2.5. 2.4.2. Phát hiện lỗi chính tả âm tiết tiếng Ê Đê Trong xử lý tiếng Ê Đê, xây dựng các KNV Ďơn ngữ, song ngữ Việt- Ê Đê chủ yếu dựa vào nguồn từ Ďiển giấy. Để chuyển các mục từ trong từ Ďiển giấy vào các KNV, phải cĩ thao tác cập nhật thủ cơng. Trong qúa trình cập nhật thủ cơng khơng thể tránh khỏi các lỗi chính tả. Thêm vào Ďĩ, ngƣời nhập dữ liệu cĩ thể khơng biết tiếng Ê Đê và chƣa quen cách gõ chữ cái tiếng Ê Đê, vì vậy khĩ phát hiện Ďƣợc các lỗi do gõ nhầm ngay tại lúc gõ. Để kiểm tra lỗi chính tả tiếng Ê Đê trong KNVV-E và từng bƣớc giải quyết bài tốn kiểm tra chính tả tiếng Ê Đê, luận án Ďề xuất giải pháp dựa trên mơ hình cấu tạo âm tiết tiếng Ê Đê Ďể kiểm tra chính tả tiếng Ê Đê ở mức âm tiết. Dựa trên 22 kiểu âm tiết khác nhau trong mơ hình âm tiết tiếng Ê Đê và các trƣờng hợp kiểu âm tiết khơng cĩ phần Ďầu, luận án Ďã rút gọn 22 kiểu âm tiết cịn 8 kiểu âm tiết và bổ sung 7 kiểu âm tiết khơng cĩ phần Ďầu. Rút gọn 22 kiểu âm tiết thành 8 kiểu âm tiết là gộp các trƣờng hợp phần Ďầu âm tiết là một phụ âm hay tổ hợp hai phụ âm và ba phụ âm thành một trƣờng hợp chung là phần Ďầu âm tiết. Trong 7 kiểu âm tiết bổ sung cĩ một trƣờng hợp kiểu âm tiết khơng cĩ trong từ Ďiển Ďĩ là trƣờng hợp nguyên âm + bán nguyên âm. Vì vậy trong 7 kiểu âm tiết bổ sung chỉ cịn 6 kiểu âm tiết khơng cĩ phần Ďầu. Tập mơ hình âm tiết tiếng Ê Đê Ďƣợc Ďề xuất trong luận án gồm cĩ 14 mơ hình âm tiết, Ďƣợc trình bày trong Bảng 2.9. Trong Ďĩ, Cb là kí hiệu cho phần Ďầu, S1 là kí hiệu cho âm Ďệm, V là kí hiệu cho âm chính, S2 là kí hiệu cho bán nguyên âm sau âm chính, Ce là kí hiệu cho âm cuối. Bảng 2.9. Mơ hình âm tiết tiếng Ê Đê Stt Mơ hình âm tiết Ví dụ Stt Mơ hình âm tiết Ví dụ 1 V ĭ (sơ sinh) 8 CbVCe mđơt (ngắn) 2 VCe ung (chồng) 9 CbVS2 hmlei (bơng gịn) 3 VS1Ce ơih (vâng) 10 CbVSCe hmiêt (gĩi ghém) 4 S1V iŭ (bơm) 11 CbS1V thiê (xui khiến) 5 S1VS2 iêu (gọi) 12 CbS1VS2 miêu (con mèo) 6 S1VCe uan (số) 13 CbS1VCe Mđhiăr (lặp lại) 7 CbV ƀơ (mặt) 14 CbS1VSCe mbhuơih (chuốt) Tập mơ hình âm tiết tiếng Ê Đê này là cơ sở cho giải pháp kiểm tra lỗi chính tả tiếng Ê Đê ở mức âm tiết. Hình 2.5. Mơ hình cấu tạo âm tiết tiếng Ê Đê 13 2.4.3. Xây dựng mơ hình kiểm tra chính tả âm tiết tiếng Ê Đê Từ thực trạng xử lý ngơn ngữ tiếng các DTTS ở Việt Nam nĩi chung và tiếng Ê Đê nĩi riêng chƣa Ďƣợc sự quan tâm nghiên cứu của các nhà khoa học. Từng bƣớc Ďể gĩp phần giải quyết bài

Các file đính kèm theo tài liệu này:

  • pdftom_tat_luan_an_xay_dung_moi_truong_xu_ly_tieng_e_de_ung_dun.pdf