Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 23
PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU HUẤN LUYỆN DỊCH MÁY
THỐNG KÊ CẶP NGÔN NGỮ VIỆT-ANH BẰNG KỸ THUẬT BACK -
TRANSLATION VÀ LỰA CHỌN THÍCH NGHI
Đặng Thanh Quyền1*, Nguyễn Chí Thành1, Nguyễn Phương Thái2
Tóm tắt: Dịch ngược (Back-translation - BT) đã được sử dụng rộng rãi và trở thành
một trong những kỹ thuật tiêu chuẩn để tăng cường dữ liệu trong dịch máy bằng nơ-ron
(Neural Machine Translati
10 trang |
Chia sẻ: huongnhu95 | Lượt xem: 516 | Lượt tải: 0
Tóm tắt tài liệu Phương pháp tăng cường dữ liệu huấn luyện dịch máy thống kê cặp ngôn ngữ việt-Anh bằng kỹ thuật back-translation và lựa chọn thích nghi, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
on - NMT). Việc sử dụng BT đã được chứng minh là có hiệu
quả trong việc cải thiện hiệu suất dịch thuật, đặc biệt đối với các trường hợp tài nguyên
hạn chế. Hiện nay, phần lớn các nghiên cứu liên quan đến BT chủ yếu tập trung vào các
ngôn ngữ châu Âu, chỉ một số ít nghiên cứu về dịch thuật ngôn ngữ ở các khu vực khác
trên thế giới. Trong bài báo này, chúng tôi nghiên cứu, áp dụng BT để tăng chất lượng dữ
liệu huấn luyện cho dịch máy thống kê cặp ngôn ngữ Việt-Anh (là cặp ngôn ngữ có nguồn
dữ liệu hạn chế). Phương pháp đề xuất sử dụng ngôn ngữ trung gian cho BT là tiếng Đức.
Các câu tiếng Anh ở dữ liệu huấn luyện ban đầu được dịch sang tiếng Đức sau đó dịch trở
lại từ tiếng Đức sang tiếng Anh để tạo ra các câu tiếng Anh mới có nghĩa tương đương với
các câu gốc. Một số độ đo thích nghi được đề xuất để đánh giá tập câu tiếng Anh thu
được, lựa chọn các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện ban đầu. Kết
quả thử nghiệm trên hệ thống dịch máy thống kê MOSES với cặp ngôn ngữ Việt-Anh cho
thấy nếu thêm toàn bộ câu được sinh ra bởi BT vào tập dữ liệu huấn luyện mà không áp
dụng việc lựa chọn dữ liệu thì kết quả không tăng lên so với việc sử dụng dữ liệu huấn
luyện ban đầu. Trong khi đó, việc áp dụng các kỹ thuật lựa chọn dữ liệu thích nghi đạt
được kết quả BLEU tăng lên với kết quả tốt nhất tăng thêm 0.8 điểm BLEU.
Từ khóa: Back-translation; Dịch máy thống kê; Tăng cường dữ liệu.
1. ĐẶT VẤN ĐỀ
Dữ liệu huấn luyện có vai trò quan trọng quyết định chất lượng các hệ thống học máy,
hệ thống học máy thực sự hiệu quả khi chúng ta có lượng dữ liệu đủ lớn để máy học, tuy
nhiên, trong nhiều trường hợp, dữ liệu đã gán nhãn để máy học rất hạn chế. Việc gia tăng
dữ liệu huấn luyện bằng cách bổ sung dữ liệu giả lập đã được quan tâm và áp dụng trong
nhiều mô hình học máy khác nhau. Trong học máy cho nhận dạng hình ảnh, có thể áp
dụng các phương pháp biến đổi ảnh từ ảnh ban đầu (xoay ảnh, lật ảnh, thay đổi độ tương
phản,...) để làm phong phú hơn kho dữ liệu huấn luyện. Đối với dịch máy, việc nâng cao
chất lượng dữ liệu huấn luyện song ngữ phục vụ huấn luyện đã và đang được quan tâm
nghiên cứu nhằm mang lại những hệ thống dịch máy tốt hơn bên cạnh việc nghiên cứu
cải tiến và áp dụng mô hình mới. Trong các phương pháp làm giàu ngữ liệu song ngữ,
dịch ngược được sử dụng rộng rãi với nhiều phương pháp sinh dữ liệu giả lập khác nhau,
ý tưởng của dịch ngược rất đơn giản: câu trong ngôn ngữ ban đầu được dịch sang câu
trong một ngôn ngữ trung gian, sau đó lại được dịch về câu trong ngôn ngữ ban đầu, do
sự phong phú của ngôn ngữ, cũng như khả năng của các hệ thống dịch máy, câu thu
được sau khi dịch ngược thường khác (về mặt hình thức) so với câu ban đầu. Đối với các
ngôn ngữ nhiều tài nguyên, dịch ngược được áp dụng cho cả phía nguồn và phía đích,
toàn bộ câu thu được sau khi dịch ngược được thêm vào dữ liệu huấn luyện, tuy nhiên,
đối với các ngôn ngữ có tài nguyên hạn chế (ví dụ tiếng Việt), chúng tôi đã thử nghiệm
và thấy rằng việc bổ sung toàn bộ dữ liệu sau khi dịch ngược có thể làm cho hệ thống
dịch kém đi, do đó, cần phải có phương pháp lựa chọn ra những câu “tốt” để bổ sung làm
giàu dữ liệu huấn luyện song ngữ. Các phương pháp lựa chọn câu thường được sử dụng
Công nghệ thông tin
24 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
là: lựa chọn câu đầu vào cho hệ thống BT nhằm tăng khả năng dịch trong miền (domain
adaptation) dựa trên sự khác biệt về cross-entropy để lựa chọn câu “trong miền” [1] sau
đó đưa vào dịch ngược nhằm tăng thêm số lượng câu trong miền quan tâm [2], trong [3],
các tác giả đề xuất các chiến lược lựa chọn câu dựa trên sự đánh giá về khả năng “mất”
các từ khó dự đoán trong khi dịch, từ đó lựa chọn các câu để dịch ngược phù hợp với
mục đích giúp hệ thống dịch máy dự đoán tốt hơn cho các từ “khó” này. Có thể thấy
rằng, các phương pháp lựa chọn câu thường tập trung vào việc lựa chọn câu trước khi
đưa vào dịch ngược, điều này phù hợp với những ngôn ngữ giàu tài nguyên, đối với các
ngôn ngữ có tài nguyên hạn chế, phương pháp lựa chọn này không khả thi.
Trong bài báo này, chúng tôi đề xuất một phương pháp lựa chọn câu sau khi đã thực
hiện dịch ngược nhằm làm tăng số lượng (và chất lượng) dữ liệu huấn luyện, từ đó làm
tăng chất lượng của hệ thống dịch máy thống kê. Mô hình của hệ thống được mô tả trong
hình 1. Chúng tôi cũng tiến hành thử nghiệm với các phương án lựa chọn câu khác nhau
từ đó cho thấy việc áp dụng dịch ngược với phương án lựa chọn câu phù hợp có thể làm
tăng chất lượng của hệ thống dịch máy thống kê. Các đóng góp mới của nghiên cứu này
bao gồm:
1. Áp dụng kỹ thuật BT để tăng cường dữ liệu huấn luyện cho dịch máy thống kê cặp
ngôn ngữ Việt-Anh.
2. Đề xuất 02 phương pháp lựa chọn dữ liệu thích nghi sau khi áp dụng kỹ thuật BT
để nâng cao chất lượng dữ liệu huấn luyện cho dịch máy thống kê.
Hình 1. Mô hình tăng cường dữ liệu đề xuất.
2. CÁC NGHIÊN CỨU LIÊN QUAN
Trong phần này, chúng tôi sẽ giới thiệu một số nghiên cứu về dịch ngược và dịch máy
Việt-Anh.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 25
2.1. Dịch ngược
Năm 2016, dịch ngược được Sennrich và các cộng sự [4] sử dụng lần đầu tiên cho
NMT và đã cho thấy hiệu quả đáng kể trong việc cải thiện hiệu suất dịch thuật.
Đặc biệt trong trường hợp dữ liệu song ngữ hạn chế, BT được sử dụng rộng rãi để tận
dụng dữ liệu đơn ngữ làm giàu dữ liệu huấn luyện. Gibadullin và cộng sự [5] thực hiện
một nghiên cứu tổng quan về việc tận dụng dữ liệu đơn ngữ trong NMT.
Gần đây đã có nhiều nghiên cứu chứng minh việc sử dụng BT có tác động tốt hơn đến
hiệu suất NMT. Năm 2017, Park và cộng sự [6] đã xây dựng mô hình NMT chỉ sử dụng
dữ liệu song ngữ tổng hợp từ cả ngôn ngữ nguồn và ngôn ngữ đích. Năm 2018, Edunov
và các cộng sự [7] đã nghiên cứu một số phương pháp để tạo ra các câu nguồn tổng hợp
và các ảnh hưởng tương ứng của chúng trong NMT. Poncelas và các cộng sự [8] đã xây
dựng lộ trình thực nghiệm để đánh giá lượng dữ liệu BT ảnh hưởng đến hiệu suất của hệ
thống cuối cùng, họ tiếp tục nghiên cứu thêm các yếu tố của dữ liệu BT trong các
phương pháp khác nhau: dịch máy thống kê (Statistical Machine Translation - SMT) và
NMT [9]. Nghiên cứu của Cong Duy Vu Hoang và các cộng sự [10] chỉ ra rằng việc
huấn luyện BT lặp lại nhiều lần có thể mang lại hiệu quả cho hệ thống dịch máy. Nghiên
cứu này cũng chỉ ra rằng chất lượng của hệ thống dịch máy được sử dụng trong quá trình
BT có ý nghĩa quan trọng trong việc nâng cao chất lượng bộ dữ liệu huấn luyện, từ đó
nâng cao chất lượng hệ thống dịch máy. Mặc dù BT rất hữu ích, nghiên cứu của
Stahlberg [11] và một số tác giả khác cũng cho thấy hiệu suất sẽ giảm sau khi kích thước
của dữ liệu BT đạt đến giới hạn nhất định.
BT được nghiên cứu và thử nghiệm trên rất nhiều cặp ngôn ngữ khác nhau, trong đó
việc sinh ra dữ liệu giả lập để làm giàu dữ liệu huấn luyện được thực hiện bằng các cách
khác nhau:
- Sử dụng các phương pháp khác nhau trong quá trình giải mã (decode) dữ liệu (beam
search, TopK probability search, Sampling probability search,...)
- Lựa chọn dữ liệu đơn ngữ để đưa vào huấn luyện BT: theo chủ đề, theo độ dài câu,
theo số lượng từ hiếm trong dữ liệu huấn luyện, lựa chọn ngẫu nhiên theo một phép phân
tích và ước lượng,...
- Dữ liệu giả lập được sinh ra trên các mô hình dịch khác nhau để thu được dữ liệu
phong phú và đa dạng cũng như tận dụng được thế mạnh của các mô hình dịch khác.
- Cách lựa chọn ngữ liệu giả lập để đưa vào dữ liệu huấn luyện song ngữ nhằm làm
giàu dữ liệu huấn luyện để từ đó nâng cao chất lượng hệ thống dịch máy: Đưa toàn bộ
ngữ liệu giả lập được sinh ra, lựa chọn theo độ dài câu,...
2.2. Dịch máy Việt-Anh
Dịch máy thống kê được quan tâm và nghiên cứu cách đây hơn 20 năm, trong những
năm gần đây, do xu hướng phát triển của thế giới, dịch máy đã chuyển dịch sang NMT,
tuy nhiên, dịch máy thống kê vẫn có những thế mạnh như: đòi hỏi năng lực tính toán
thấp, không đòi hỏi ngữ liệu huấn luyện nhiều,... bên cạnh đó, việc làm giàu dữ liệu huấn
luyện cho hệ thống dịch máy hoàn toàn không phụ thuộc vào hệ thống dịch hay mô hình
dịch. Kết quả nghiên cứu về dịch máy thống kê có thể kể đến một số nghiên cứu công bố
trong hội nghị IWSLT2015 với kết quả còn hạn chế.
Công nghệ thông tin
26 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
Bảng 1. Kết quả công bố trong hội nghị IWSLT2015, tiểu ban dịch máy
cho cặp ngôn ngữ Việt – Anh với bộ ngữ liệu song ngữ TED (iwslt2015).
Phương pháp BLEU NIST TER
PJAIT[12] 23.46 5.7314 62.20
UMD[13] 21.57 5.7831 59.19
JAIST[14] 21.53 5.6413 62.35
UNETI[15] 20.18 5.1443 66.33
TUT[16] 19.78 5.4559 62.69
BASELINE 24.61 5.9259 59.32
Mặc dù BT được coi là phương pháp hiệu quả để làm giàu dữ liệu huấn luyện song
ngữ cho dịch máy trên các cặp ngôn ngữ tài nguyên hạn chế, tuy nhiên, ứng dụng cho
dịch máy tiếng Việt chưa được đề cập và nghiên cứu.
3. PHƯƠNG PHÁP TĂNG CƯỜNG DỮ LIỆU BẰNG BACK-TRANSLATION VÀ
LỰA CHỌN DỮ LIỆU THÍCH NGHI
Chúng tôi đề xuất một phương pháp tăng cường dữ liệu cho dịch máy thống kê cặp
ngôn ngữ Việt-Anh sử dụng BT. Dữ liệu huấn luyện song ngữ ban đầu là dữ liệu huấn
luyện song ngữ của cặp ngôn ngữ Việt-Anh. Sau khi thực hiện các bước dữ liệu sẽ được
tăng cường, bổ sung thêm các cặp câu mới giúp nâng cao độ chính xác của mô hình dịch
máy thống kê.
Đối với các phương pháp tăng cường dữ liệu bằng BT thông thường, tất cả các dữ liệu
được sinh ra bởi BT sẽ được đưa vào bổ sung cho bộ dữ liệu. Tuy nhiên, trong các dữ
liệu được sinh ra bởi BT có thể có cả các dữ liệu có chất lượng kém làm ảnh hưởng đến
chất lượng của mô hình dịch máy. Cải tiến ở phương pháp đề xuất là thêm vào một bước
lựa chọn dữ liệu với ý tưởng là loại bỏ bớt các dữ liệu có chất lượng kém để nâng cao độ
chính xác của mô hình dịch máy thống kê.
Phương pháp tăng cường dữ liệu đề xuất bao gồm 3 bước như sau (minh họa trong sơ
đồ ở hình 2).
- Bước 1: Back-translation: Bước này sử dụng kỹ thuật BT để sinh ra các câu tiếng
Anh có nghĩa tương đương từ danh sách câu tiếng Anh trong kho dữ liệu song ngữ ban
đầu, giúp làm giàu thêm dữ liệu. Kỹ thuật BT gồm 2 bước. Đầu tiên, câu tiếng Anh được
dịch sang một câu ngôn ngữ trung gian và sau đó, câu thu được lại được dịch ngược lại
tiếng Anh để sinh ra câu tiếng Anh mới. Ngôn ngữ trung gian được lựa chọn cần có kho
dữ liệu song ngữ (giữa ngôn ngữ đó và tiếng Anh) lớn để giúp cho mô hình dịch giữa
tiếng Anh và ngôn ngữ trung gian có chất lượng tốt. Ví dụ có thể lựa chọn tiếng Đức làm
ngôn ngữ trung gian vì dữ liệu huấn luyện song ngữ Anh-Đức có kích thước lớn, mô
hình dịch máy huấn luyện sẵn cho kết quả cao [17]. Hình 3 minh họa việc sử dụng kỹ
thuật BT với ngôn ngữ trung gian là tiếng Đức.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 27
- Bước 2: Lựa chọn dữ liệu: Các câu tiếng Anh mới được sinh ra sẽ được ghép cặp
với các câu tiếng Việt tương ứng trong dữ liệu huấn luyện song ngữ ban đầu để thành
một cặp câu song ngữ Việt-Anh. Việc áp dụng kỹ thuật BT giúp tăng số lượng dữ liệu
huấn luyện cho mô hình học máy thống kê. Tuy nhiên, bên cạnh số lượng thì chất lượng
dữ liệu cũng là một yếu tố rất quan trọng quyết định độ chính xác của các mô hình học
máy. Việc bổ sung các dữ liệu chất lượng kém có thể dẫn tới làm giảm độ chính xác của
mô hình học máy. Do đó, chúng tôi bổ sung thêm bước lựa chọn dữ liệu để loại bỏ bớt
dữ liệu trước khi đưa vào huấn luyện bằng cách đề xuất hai phương pháp lựa chọn thích
nghi dựa trên độ phức tạp (perplexity). Đầu ra của Bước 2 là dữ liệu huấn luyện song
ngữ tăng cường, bao gồm các cặp câu song ngữ Việt-Anh mới được lựa chọn.
Hình 2. Các bước thực hiện của phương pháp tăng cường dữ liệu đề xuất.
Hình 3. Ví dụ về kỹ thuật Back-translation.
- Bước 3: Huấn luyện mô hình dịch máy thống kê: Dữ liệu huấn luyện song ngữ
tăng cường được bổ sung vào dữ liệu huấn luyện ban đầu để tạo thành một dữ liệu huấn
luyện huấn luyện lớn hơn. Dữ liệu huấn luyện này được sử dụng để huấn luyện cho mô
hình dịch máy thống kê Việt-Anh.
Công nghệ thông tin
28 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
Trong bước 2, chúng tôi đề xuất sử dụng độ đo perplexity để lựa chọn các câu. Độ đo
perplexity là một trong những độ đo phổ biến nhất để đánh giá các mô hình ngôn ngữ và
cũng có thể áp dụng cho các câu.
Cho một câu s với n từ 𝑠 = 𝑤1𝑤2𝑤𝑛, độ đo perplexity của câu s được tính như sau [18]:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠) = √
1
𝑃(𝑤1𝑤2𝑤𝑛)
𝑛
Độ đo perplexity càng nhỏ thì xác suất của câu càng lớn, nghĩa là một mặt nào đó câu
có độ tương đồng cao với các câu trong kho dữ liệu huấn luyện. Do đó, chúng tôi chọn
độ đo perplexity để lựa chọn dữ liệu đưa vào bộ huấn luyện và cố gắng chọn các câu có
perplexity thấp, loại bỏ các câu có perplexity cao. Cách đơn giản nhất để thực hiện là so
sánh perplexity của câu với một ngưỡng hằng số 𝜃 và chỉ lựa chọn các câu thỏa mãn
điều kiện sau:
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) < 𝜃
Với 𝑠′ là câu được sinh ra bằng kỹ thuật BT từ câu gốc 𝑠. Tuy nhiên, vấn đề với cách
lựa chọn này là đặc tính của độ đo perplexity là câu càng dài thì perplexity càng cao, do
đó, việc lựa chọn một ngưỡng hằng số là không hợp lý và vì nó sẽ loại bỏ các câu dài.
Do đó, chúng tôi đề xuất hai độ đo thích nghi để lựa chọn dữ liệu là độ đo thích nghi
theo hiệu và độ đo thích nghi theo tỉ lệ để đánh giá perplexity của câu 𝑠′ theo tương quan
với perplexity của câu gốc 𝑠.
Độ đo thích nghi theo hiệu được đề xuất như sau:
𝐻 = 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′) − 𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝐻 < 𝜃𝐻,
trong đó, 𝜃𝐻 là giá trị ngưỡng.
Độ đo thích nghi theo tỉ lệ được đề xuất như sau:
𝑇 =
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠′)
𝑃𝑒𝑟𝑝𝑙𝑒𝑥𝑖𝑡𝑦(𝑠)
Phương pháp lựa chọn thích nghi theo hiệu lựa chọn các câu thỏa mãn điều kiện 𝑇 <
𝜃𝑇, trong đó, 𝜃𝑇 là giá trị ngưỡng.
4. THỬ NGHIỆM, ĐÁNH GIÁ
Trong phần này, chúng tôi tiến hành thử nghiệm dịch thuật Việt-Anh với mô hình
SMT dựa trên cụm từ phân cấp [19] sử dụng phần mềm Moses. Độ đo BLEU [20] được
sử dụng để đánh giá chất lượng hệ dịch máy.
4.1. Dữ liệu và môi trường thử nghiệm
Do cặp ngôn ngữ Việt-Anh là cặp ngôn ngữ có nguồn dữ liệu rất hạn chế, không có
nhiều bộ dữ liệu công khai, một số bộ dữ liệu được sử dụng trong các nghiên cứu trước
đây cũng không có sẵn. Để thử nghiệm và đánh giá, chúng tôi sử dụng dữ liệu huấn
luyện song ngữ IWSLT’15 English-Vietnamese gồm 133.317 cặp câu từ nhóm Stanford
NLP (https://nlp.stanford.edu/projects/nmt/): IWSLT'15 English-Vietnamese data
[Small]. Ban đầu, chúng tôi sử dụng dữ liệu huấn luyện là dữ liệu song ngữ Việt-Anh
gồm 133.317 cặp câu.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 29
Thử nghiệm tiếp theo, chúng tôi áp dụng BT để tăng cường dữ liệu cho dữ liệu huấn
luyện ban đầu. Từ tập tiếng Anh ở dữ liệu huấn luyện gốc, chúng tôi sử dụng một hệ
thống dịch máy đã được huấn luyện trước để dịch sang tiếng Đức, sau đó, dịch trở lại từ
tiếng Đức sang tiếng Anh. Sau đó, sử dụng một số độ đo để đánh giá tập câu tiếng Anh
thu được, sử dụng các câu được đánh giá “tốt” để thêm vào dữ liệu huấn luyện gốc để
làm dữ liệu huấn luyện.
Các mô hình được sử dụng trong thử nghiệm như sau.
Mô hình SMT: Moses ( với mô hình cụm từ phân cấp.
Mô hình BT: Sử dụng các mô hình đã được huấn luyện sẵn cho cặp ngôn ngữ Anh-
Đức của nhóm Facebook Research [17].
Mô hình ngôn ngữ tiếng Anh sử dụng để đánh giá độ đo perplexity : Sử dụng mô hình
ngôn ngữ tiếng Anh đã được huấn luyện sẵn của nhóm Facebook Research [17].
4.2. Kết quả thử nghiệm
4.2.1. Thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc (MOSES - Hierachical)
Đây là kết quả thử nghiệm với dữ liệu huấn luyện IWSLT15 gốc khi chưa áp dụng BT.
Bảng 2. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES
với dữ liệu huấn luyện IWSLT15 gốc.
Số lượng cặp câu song ngữ BLEU BLEU-c
133.317 24.45 24.05
4.2.2. Các thử nghiệm sử dụng BT để làm giàu dữ liệu huấn luyện gốc, kết hợp với tính
điểm perplexity
Trong thử nghiệm này, chúng tôi sử dụng 133.317 cặp câu từ dữ liệu huấn luyện gốc,
và áp dụng phương pháp làm giàu dữ liệu được đề xuất với độ đo thích nghi theo hiệu và
độ đo thích nghi theo tỉ lệ với các giá trị ngưỡng 𝜃𝐻 và 𝜃𝑇 khác nhau (thử nghiệm với
các giá trị 0, -10, -20, -30 của ngưỡng 𝜃𝐻; và các giá trị 0,5, 0,4, 0,3, 0,25, 0,2 của
ngưỡng 𝜃𝑇). Dữ liệu thu được được dùng để huấn luyện mô hình dịch máy thống kê
Việt-Anh và tính điểm BLEU để so sánh, đánh giá hiệu quả của phương pháp tăng
cường dữ liệu đề xuất.
Bảng 3. Kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES.
Số lượng
cặp câu
ban đầu
Số lượng
cặp câu
tăng
cường
Tổng số
lượng cặp
câu của dữ
liệu huấn
luyện
Điểm
BLEU
Điểm
BLEU-c
ΔBLEU
Với dữ liệu
huấn luyện
IWSLT15
(không sử dụng
BT)
133.317 0 133.317 24,45 24,05
Thêm toàn bộ
câu BT vào dữ
liệu huấn luyện
133.317 133.317 266.634 24,39 23,95 -0,06
Công nghệ thông tin
30 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
Với H < 0 133.317 72.394 205.711 24,62 24,22 0,17
Với H < -10 133.317 50144 183.416 24,50 24,04 0,05
Với H < -20 133.317 38.520 171.837 24,76 24,35 0,31
Với H < -30 133.317 31.158 164.475 24,29 23,91 -0,16
Với T < 0,5 133.317 25.093 158.410 24,58 24,20 0,13
Với T < 0,4 133.317 18.314 151.631 24,37 23,95 -0,08
Với T < 0,3 133.317 15.044 148.361 24,55 24,13 0,1
Với T < 0,25 133.317 8.926 142.243 25,24 24,84 0,79
Với T < 0,2 133.317 6.149 139.466 24,76 24,36 0,31
Các kết quả thử nghiệm được trình bày ở bảng 3, trong đó, BLEU = BLEU(Back-
translation) - BLEU(IWSLT15) (hiệu số độ đo BLEU khi áp dụng phương pháp BT và
độ đo BLEU khi sử dụng dữ liệu huấn luyện IWSLT15 gốc).
Bảng kết quả thử nghiệm trên hệ thống dịch máy thống kê MOSES ở trên cho thấy,
việc áp dụng BT mà không áp dụng lựa chọn dữ liệu không làm tăng điểm BLEU của
mô hình (thậm chí giảm 0,06). Khi áp dụng BT với độ đo thích nghi theo hiệu cho kết
quả điểm BLEU tăng lên với giá trị tăng cao nhất là 0.31 điểm khi áp dụng ngưỡng 𝜃𝐻 =
−20. Khi áp dụng BT với độ đo thích nghi theo tỉ lệ (với ngưỡng 𝜃𝑇 = 0,25) cho kết
quả điểm BLEU tăng 0.79 điểm đối với dịch máy cho cặp ngôn ngữ Việt-Anh. Kết quả
thử nghiệm cho thấy việc sử dụng phương pháp tăng cường dữ liệu đề xuất giúp nâng
cao độ chính xác cho mô hình dịch máy thống kê Việt-Anh, trong đó việc sử dụng độ đo
thích nghi theo tỉ lệ cho phép nâng cao điểm BLEU nhiều hơn so với độ đo thích nghi
theo hiệu.
5. KẾT LUẬN
Trong bài báo, chúng tôi đã đề xuất phương pháp tăng cường dữ liệu huấn luyện cho
dịch máy thống kê Việt-Anh bằng kỹ thuật dịch ngược và sử dụng độ đo perplexity với
mô hình ngôn ngữ để tính toán độ thích nghi của câu giả lập so với câu ban đầu. Chúng
tôi cũng thử nghiệm và chỉ ra rằng, đối với cặp ngôn ngữ có tài nguyên hạn chế, việc sử
dụng toàn bộ câu giả lập được sinh ra sau khi dịch ngược có thể không giúp cho hệ thống
dịch tốt hơn, mặc dù dữ liệu huấn luyện được tăng gấp đôi về mặt số lượng. Trong các
thử nghiệm, chúng tôi đã sử dụng độ đo thích nghi đề xuất để lựa chọn các câu giả lập,
bổ sung vào dữ liệu huấn luyện song ngữ ban đầu và đánh giá trên hệ thống SMT, kết
quả thử nghiệm cho thấy việc sử dụng độ đo thích nghi có thể lựa chọn ra các câu giả lập
phù hợp và tăng cường dữ liệu huấn luyện, có hiệu quả trong việc nâng cao chất lượng
hệ thống dịch máy thống kê.
Chất lượng dữ liệu huấn luyện huấn luyện có vai trò quan trọng trong các hệ thống
học máy nói chung, do vậy, chúng tôi sẽ tiếp tục thử nghiệm và đánh giá phương pháp
đã đề xuất trên các hệ thống NMT, bên cạnh đó chúng tôi sẽ tiếp tục nghiên cứu và thử
nghiệm các độ đo khác để tính toán độ thích nghi dựa trên những đặc trưng của tiếng
Việt và tiếng Anh.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san CNTT, 12 - 2020 31
TÀI LIỆU THAM KHẢO
[1]. Moore, Robert C., and Will Lewis. “Intelligent selection of language model training data.”
(2010).
[2]. Axelrod, Amittai, et al. “Class-based n-gram language difference models for data
selection.” IWSLT (International Workshop on Spoken Language Translation). 2015.
[3]. Fadaee, Marzieh, and Christof Monz. “Back-translation sampling by targeting difficult
words in neural machine translation.” arXiv preprint arXiv:1808.09006 (2018).
[4]. Sennrich, Rico, Barry Haddow, and Alexandra Birch. “Improving neural machine
translation models with monolingual data.” arXiv preprint arXiv:1511.06709 (2015).
[5]. Gibadullin, Ilshat, et al. “A Survey of Methods to Leverage Monolingual Data in Low-
resource Neural Machine Translation.” arXiv preprint arXiv:1910.00373 (2019).
[6]. Park, Jaehong, Jongyoon Song, and Sungroh Yoon. “Building a neural machine translation
system using only synthetic parallel data.” arXiv preprint arXiv:1704.00253 (2017).
[7]. Edunov, Sergey, et al. “Understanding back-translation at scale.” arXiv preprint
arXiv:1808.09381 (2018).
[8]. Poncelas, A., et al. “Investigating backtranslation in neural machine translation.” arXiv
preprint arXiv:1804.06189.
[9]. Poncelas, Alberto, et al. “Combining SMT and NMT back-translated data for efficient
NMT.” arXiv preprint arXiv:1909.03750 (2019).
[10]. Hoang, Vu Cong Duy, et al. “Iterative back-translation for neural machine
translation.” Proceedings of the 2nd Workshop on Neural Machine Translation and
Generation. 2018.
[11]. Stahlberg, Felix, James Cross, and Veselin Stoyanov. “Simple fusion: Return of the
language model.” arXiv preprint arXiv:1809.00125 (2018).
[12]. Wołk, Krzysztof, and Krzysztof Marasek. “PJAIT systems for the IWSLT 2015 evaluation
campaign enhanced by comparable corpora.” arXiv preprint arXiv:1512.01639 (2015).
[13]. Axelrod, Amittai, et al. “The UMD Machine Translation Systems at IWSLT
2015.” Proceedings of IWSLT. 2015.
[14]. Trieu, Hai-Long, et al. “The JAIST-UET-MITI machine translation systems for IWSLT
2015.” Proceedings of the 12th International Workshop on Spoken Language Translation
(IWSLT’15). 2015.
[15]. Thuong, Viet Tran Hong Huyen Vu, V. N. Van, and T. Le Tien. “The English-Vietnamese
Machine Translation System for IWSLT 2015.” Proceeding of the 12th International
Workshop on Spoken Language Translation. 2015.
[16]. Nomura, Takahiro, Hajime Tsukada, and Tomoyoshi Akiba. “Improvement of Word
Alignment Models for Vietnamese-to-English Translation.” 2015.
[17]. Ng, Nathan, et al. “Facebook FAIR's WMT19 News Translation Task Submission.” arXiv
preprint arXiv:1907.06616 (2019).
[18]. Jurafsky, Dan, and James H. Martin. “Speech and language processing. Vol. 3.” (2014).
[19]. Chiang, David. “Hierarchical phrase-based translation.” computational linguistics 33.2
(2007): 201-228.
[20]. Papineni, Kishore, et al. “BLEU: a method for automatic evaluation of machine
translation.” Proceedings of the 40th annual meeting of the Association for Computational
Linguistics. 2002.
Công nghệ thông tin
32 Đ. T. Quyền, N. C. Thành, N. P. Thái, “Phương pháp tăng cường lựa chọn thích nghi.”
ABSTRACT
DATA AUGMENTATION FOR VIETNAMESE-ENGLISH
STATISTICAL MACHINE TRANSLATION USING BACK-TRANSLATION AND
ADAPTIVE SELECTION TECHNIQUE
Back-translation (BT) has become one of the effective techniques for data
augmentation in Neural Machine Translation, especially for low resource languages.
Most research related to BT in machine translation mainly focuses on Neural Machine
Translation of European languages. In this article, we study on applying BT to increase
the quality of training data for Vietnamese-English statistical machine translation. Two
adaptive measures were proposed to evaluate the generated English sentence set and
select “good” sentences to enhance the training data. Experimental results on the MOSES
statistical machine translation system with Vietnamese-English language pairs show that
our proposed method yields approximately 0.8 BLEU improvement.
Keywords: Back-translation; Statistical machine translation; Data augmentation.
Nhận bài ngày 20 tháng 10 năm 2020
Hoàn thiện ngày 10 tháng 12 năm 2020
Chấp nhận đăng ngày 15 tháng 12 năm 2020
Địa chỉ: 1Viện Công nghệ thông tin, Viện KH-CN quân sự;
2Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội.
*Email: dangthanhquyen@gmail.com.
Các file đính kèm theo tài liệu này:
- phuong_phap_tang_cuong_du_lieu_huan_luyen_dich_may_thong_ke.pdf