Một tiếp cận tối ưu thành phần sinh tín hiệu cho
hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài
nguyên hạn chế
Nguyễn Tu Trung
Viện CNTT, Viện Hàn Lâm KH&CN VN
Hà Nội, Việt Nam
nttrung@ioit.ac.vn
Ngô Hoàng huy
Viện CNTT, Viện Hàn Lâm KH&CN VN
Hà Nội, Việt Nam
nhhuy@ioit.ac.vn
Tóm tắt— Xử lý tiếng nói nói chung và tổng hợp tiếng
nói nói riêng ở Việt Nam và trên thế giới đã đạt được
những thành tựu rất đáng khích lệ. Khi mà nhu cầu giao
tiếp trên các thiết bị di động
7 trang |
Chia sẻ: huongnhu95 | Lượt xem: 432 | Lượt tải: 0
Tóm tắt tài liệu Một tiếp cận tối ưu thành phần sinh tín hiệu cho hệ tổng hợp ghép nối tiếng Việt trên hệ thống tài nguyên hạn chế, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
và các hệ thống tài nguyên
hạn chế tăng rất nhanh, các nhà nghiên cứu trên thế giới
cũng đang tiếp tục tối ưu các thành phần để xây dựng hệ
xử lý tiếng nói trên các hệ thống dạng này. Do đặc thù của
hệ thống tài nguyên hạn chế, các hệ tổng hợp chạy trên các
hệ thống này cũng cần sử dung lượng bộ nhớ và chí phí
tính toán đủ nhỏ. Các nhà nghiên cứu trên thế giới đã đạt
được những thành công ngay cả trên những hệ thống có
tài nguyên rất khiêm tốn như các loại chip với khả năng
lưu trữ và tính toán rất thấp. Bài báo này trình bày một
tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho
hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng trên
các thiết bị di động và các hệ thống tài nguyên hạn chế.
Từ khóa— tổng hợp tiếng nói, tài nguyên hạn chế,
ADPCM, PSOLA
I. GIỚI THIỆU
Xử lý tiếng nói là sự nghiên cứu tiếng nói của con
người dưới dạng tín hiệu và các phương pháp xử lý tín
hiệu này. Tín hiệu tiếng nói thường được thể hiện dưới
dạng số, tức là được “số hóa”. Do đó, xử lý tiếng nói có
thể được coi là giao của xử lý tín hiệu số và xử lý ngôn
ngữ tự nhiên. Trên thế giới, xử lý tiếng nói đã được
nghiên cứu từ rất lâu. Ở Việt Nam, khoảng hơn chục
năm trở lại đây đã có một số sản phẩm ra đời cả về tổng
hợp và nhận dạng tiếng nói.
Khi mà xử lý tiếng nói trên máy tính đã đạt được
những thành tựu rất khả quan, người ta đã nghĩ đến việc
nghiên cứu xây dựng hệ xử lý tiếng nói trên các hệ
thống có tài nguyên hạn chế để đáp ứng những mục
đích về giao tiếp tiếng nói trên các hệ thống này. Do đặc
thù của hệ thống tài nguyên hạn chế, các hệ tổng hợp
chạy trên các hệ thống này cũng cần sử dụng lượng bộ
nhớ và chí phí tính toán đủ nhỏ. Và các nhà nghiên cứu
trên thế giới đã đạt được những thành công ngay cả trên
những hệ thống có tài nguyên rất khiêm tốn như các loại
chip với khả năng lưu trữ và tính toán rất thấp.
Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây dựng
hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn chế
cũng đã xuất hiện trong một số năm gần đây. Các đề tài
nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các hệ
thống di động cầm tay và hệ thống nhúng đã và đang
triển khai đã minh chứng cho nhu cầu này.
Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ
thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và
các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa
A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra
rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn
bản và chuyển văn bản về âm vị. Sheikhzadeh và cộng
sự [9] đã thiết kế hệ thống tổng hợp tiếng nói theo
phương pháp ghép nối sử dụng thuật toán cơ bản TD-
PSOLA trên chip DSP với DAC 16bit, tần số tối đa 4
MHz. Dey và cộng sự [6] đã đưa ra kiến trúc TTS
nhúng theo phương pháp tổng hợp ghép nối cho chip
ARM. Trong nghiên cứu này, chúng tôi trình bày một
tiếp cận tối ưu lưu trữ và tính toán tín hiệu tiếng nói cho
hệ tổng hợp tiếng Việt dựa trên ghép nối để đáp ứng
trên các thiết bị di động và các hệ thống tài nguyên hạn
chế.
Các phần còn lại của bài báo này được trình bày như
sau. Phần 2 trình bày khái quát về hệ tổng hợp tiếng nói
dựa trên ghép nối. Phần 3 trình bày vấn đề tổng hợp
tiếng nói trên hệ thống có tài nguyên hạn chế. Giải pháp
tối ưu lưu trữ và tính toán cho hệ tổng hợp tiếng nói dựa
trên ghép nối trên hệ thống tài nguyên hạn chế. Thử
nghiệm và đánh giá được trình bày trong phần 5. Phần 6
là kết luận bài báo.
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 432
II. TỔNG HỢP TIẾNG NÓI DỰA TRÊN GHÉP
NỐI
Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn
bản mô tả trong hình 1.
Nói chung, mô đun xử lý tín hiệu số chọn các âm vị
và thông tin ngôn điệu từ đầu ra của mô đun xử lý ngôn
ngữ tự nhiên và đưa chúng thành các tín hiệu tiếng nói.
Các kỹ thuật chính sử dụng trong mô đun xử lý tín hiệu
số: tổng hợp theo luật, tổng hợp ghép nối và tổng hợp
dựa trên thống kê.
Hình 1. Sơ đồ tổng quát hệ thống tổng hợp tiếng nói từ văn bản.
Tổng hợp ghép nối sử dụng tiếng nói ghi âm thực tế
như là các đơn vị tổng hợp và ghép nối đơn vị cùng sinh
ra tiếng nói. Dutoit [7] cho rằng tổng hợp tiếng nói bằng
ghép nối là cách tiếp cận đơn giản nhất và hiệu quả
nhất. Hơn nữa, các hệ thống tổng hợp hiện nay cũng chủ
yếu theo phương pháp ghép nối đơn vị. Vì vậy, trong
tổng hợp ghép nối, việc lựa chọn đơn vị là tiêu chuẩn
sinh tiếng nói chất lượng cao. Các đơn vị tiếng nói được
chọn sao cho cực tiểu các lỗi trong ghép nối như làm
trơn biên độ giữa các đoạn tiếng nói. Thông thường, các
đơn vị tiếng nói được lưu trữ trong cơ sở dữ liệu lớn.
Các mô hình dùng trong tổng hợp ghép nối thường
dựa trên các công cụ xử lý tiếng nói và một số phương
pháp biểu diễn như tổng hợp LPC (Linear Predictive
Coding), Harmonic/Stochastic (H/S), cộng chồng đồng
bộ (PSOLA) và cộng chồng đồng bộ miền thời gian
(TD-PSOLA).
Sau giai đoạn sinh ngữ điệu văn bản, ta thu được
danh sách các bán âm tiết có thứ tự (các phụ âm đầu và
phần vần) và các tham số ngữ điệu tương ứng. Ở giai
đoạn sinh tín hiệu (hình 2), hệ thống tiến hành duyệt các
bán âm tiết. Với mỗi bán âm, hệ thống tìm trong CSDL
đoạn tín hiệu âm thanh tương ứng. Khi này, kết hợp
cùng các thông tin về ngữ điệu, hệ thống thực hiện việc
thay đổi độ dài và cao độ tần số cơ bản của các bán âm
phù hợp với qui luật ngữ cảnh ngữ âm. Công việc này
được thực hiện bằng việc sử dụng thuật toán PSOLA.
Sau đó, hệ thống tiến hành làm trơn biên ghép nối các
bán âm tiết.
Hình 2. Lưu đồ quá trình ghép nối [2].
III. TỔNG HỢP TIẾNG NÓI TRÊN HỆ THỐNG
CÓ TÀI NGUYÊN HẠN CHẾ
Việc tích hợp hệ thống tổng hợp tiếng nói vào các hệ
thống tài nguyên hạn chế gặp phải vấn đề về bộ nhớ và
các yêu cầu tính toán. Burileanu [4] đã sử dụng mã hóa
A-law để nén CSDL đơn vị tiếng nói và họ đã chỉ ra
rằng 80% thời gian tính toán nằm ở khâu chuẩn hóa văn
bản và chuyển văn bản về âm vị. Họ đã sử dụng tính
toán chấm tĩnh cho mạng nơron dùng để chuyển đổi văn
bản sang âm vị. Toàn bộ dung lượng bộ nhớ được dùng
xấp xỉ 1MB. Sơ đồ hệ thống này được thể hiện trong
hình 3.
Sheikhzadeh và cộng sự [9] đã thiết kế hệ thống tổng
hợp tiếng nói theo phương pháp ghép nối sử dụng thuật
toán cơ bản TD-PSOLA trên chip DSP với DAC 16bit,
tần số tối đa 4 MHz. Hệ thống gồm các mô đun liên kết
với host, giải nén CSDL đơn vị âm tiếng nói và xử lý
chấm tĩnh cộng chồng đồng bộ TD-PSOLA. Với tính
năng không có bộ chuẩn hóa văn bản và với nhân DSP
như vậy hệ thống có thể chạy tại mức 1.28MHz, tiêu thụ
điện rất thấp.
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 433
Hình 3: Kiến trúc hệ thống TTS được đơn giản [4].
Dey và cộng sự [6] đã đưa ra kiến trúc TTS nhúng
(hình 4) theo phương pháp tổng hợp ghép nối cho chip
ARM với đầy đủ các mô đun phân tích ngôn ngữ văn
bản đầu vào, chuyển đổi văn bản sang âm vị, điều khiển
ngôn điệu.
Ở Việt Nam, nhu cầu nghiên cứu giải pháp xây
dựng hệ xử lý tiếng nói trên các hệ thống tài nguyên hạn
chế cũng đã xuất hiện trong một số năm gần đây. Các đề
tài nghiên cứu về việc chuyển hệ xử lý tiếng nói lên các
hệ thống di động cầm tay và hệ thống nhúng đã và đang
triển khai đã minh chứng cho nhu cầu này.
Như vây, chúng ta có thể thấy rằng để xây dựng
được hệ tổng hợp tiếng nói trên hệ thống có tài nguyên
hạn chế thì hệ này cần đảm bảo các yêu cầu sau:
Kích thước lưu trữ nhỏ. (1)
Tính toán đơn giản, không sử dụng các thao tác
phức tạp. (2)
Chất lượng giọng tổng hợp vẫn đảm bảo nghe
được. (3)
IV. TỐI ƯU HOÁ LƯU TRỮ VÀ TÍNH TOÁN
Dựa trên thuật toán sinh tiếng nói ghép nối trong
hình 2, chúng tôi đề xuất sinh tiếng nói mới với lưu đồ
như trong hình 4 với sự kết hợp của việc nén tín hiệu
các bán âm và tối ưu thuật toán ghép nối.
Hình 4: Lưu đồ quá trình sinh tiếng nói mới.
Theo lưu đồ trên, sau khi lấy dữ liệu âm thô dạng
ADPCM của mỗi bán âm từ CSDL, hệ tổng hợp cần
thực hiện việc giải mã để nhận được tín hiệu dạng PCM.
Từ đây, tín hiệu PCM sẽ được thay đổi trường độ và cao
độ tần số cơ bản với thuật toán PSOLA đã được tối ưu.
Sau đó, thủ tục làm trơn không cần tính toán các đỉnh
tiếng nói ứng với đoạn cuối bán âm trước và đoạn đầu
bán âm sau mà chỉ cần tải từ CSDL rồi thực hiện việc
làm trơn.
A. Nén tín hiệu tiếng của các bán âm tiết với ADPCM
Hiện nay, có rất nhiều phương pháp mã hóa khác
nhau với những tỉ lệ nén tín hiệu rất tốt mã chất lượng
có thể không suy giảm nhiều. Có những phương pháp
trong quá trình nén và giải nén cần thực hiện các hàm
toán học phức tạp với chi phí tính toán không hề nhỏ,
không phù hợp cho hệ thống tài nguyên hạn chế. Tuy
nhiên, lại có những phương pháp tuy có tỉ lệ nén không
hẳn tối ưu nhất nhưng bù lại chỉ tiêu tốn một lượng chi
phí tính toán không lớn. Một trong những phương pháp
đó là ADPCM (Adaptive Differential Pulse Code
Modulation).
Với bộ mã hóa, đầu vào PCM đươc chuyển đổi
thành PCM thống nhất. Một tín hiệu lệch thu được bằng
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 434
cách trừ một ước lượng của tín hiệu đầu vào từ chính tín
hiệu đầu vào đó. Một bộ lượng tử hóa 31-, 15-, 7-, hoặc
4-mức thích ứng được dùng để gán 5, 4, 3, hoặc 2 số nhị
phân tương ứng để giá trị của tín hiệu lệch được truyền
tới bộ giải mã. Một bộ lượng tử đảo ngược sinh ra tín
hiệu lệch được lượng tử hóa từ 5, 4, 3 hoặc 2 số nhị
phân này. Ước lượng tín hiệu được cộng vào tín hiệu
lệch được lượng tử hóa này để sinh ra phiên bản của tín
hiệu đầu vào được tạo lại. Cả tín hiệu được tạo lại và tín
hiệu lệch được lượng tử hóa được điều khiển bởi bộ dự
báo thích ứng, mà sinh ra ước lượng của tín hiệu đầu
vào, do đó hoàn thành vòng lặp phản hồi.
Như vậy, trong trường hợp xấu nhất, kích thước dữ
liệu ADPCM chỉ giảm xuống còn 2/3 (phải dùng 5 bit
cho mỗi vi sai) so với dữ liệu PCM gốc (8 bit). Còn
trong trường hợp tốt nhất, dữ liệu ADPCM sẽ giảm
xuống còn ¼ (phải dùng 2 bit cho mỗi vi sai) so với dữ
liệu PCM gốc.
Thông thường trên PC, các nhà nghiên cứu sẽ lưu
sẵn các đoạn âm thanh dạng PCM. Chúng ta hoàn toàn
có thể lưu tín hiệu các đoạn âm thanh ở dạng ADPCM.
Trước khi sinh tiếng nói, ta phải thêm một thao tác
chuyển đổi từ ADPCM sang PCM. Tuy nhiên, bản chất
của bộ giải mã là một bộ cộng tích lũy nên chi phí tính
toán là không nhiều.
Trong bài báo này, tôi đã chuyển đổi lưu trữ các
đoạn tín hiệu của các bán âm từ dạng PCM 16bit về
dạng ADPCM 4bit. Như vậy, kích thước dữ liệu giảm đi
bốn lần. Khi này, trong CSDL sẽ lưu dữ liệu âm thô
dạng ADPCM. Khi tổng hợp, sau khi lấy dữ liệu tương
ứng với bán âm tiết, hệ tổng hợp thực hiện việc giải mã
để thu được tín hiệu dạng PCM.
B. Tối ưu tính toán thuật toán ghép nối tín hiệu
Trước khi ghép nối ta cần thực hiện hai thao tác:
thay đổi cao độ tần số cơ bản với PSOLA [8] và làm
trơn biên ghép nối. PSOLA có sử dụng thao tác cửa sổ
hóa còn làm trơn sử dụng các đỉnh tiếng nói ở đầu và
cuối của các đoạn âm thanh.
Giả sử hai bán âm tiết là x1(n) và x2(n) được phân
đoạn đồng bộ cao độ tần số cơ bản với tín hiệu x2(n) bắt
đầu từ điểm cuối của x1(n). Hai nửa cửa sổ Hanning
phân tích tương ứng là Ah1(n-t1+P1) và Ah2(n-t2+P1):
0),cos(5.05.0)(
1
1 n
P
n
nAh
0),cos(5.05.0)(
2
2 n
P
n
nAh
P1 = (N1 - 1)/2
P2 = (N2 - 1)/2
(1)
Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản
tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ
tương ứng. t1 là điểm đánh dấu cao độ tần số cơ bản sát
cuối cùng của x1(n) với đoạn hữu thanh hoặc cách điểm
cuối cùng một đoạn không đổi 16ms nếu là vô thanh, t2
là điểm đánh dấu cao độ tần số cơ bản sát đầu tiên của
x2(n) với đoạn hữu thanh hoặc cách điểm đầu tiên một
đoạn không đổi 16ms nếu là vô thanh. Điểm đánh dấu
cao độ tần số cơ bản chính là các đỉnh tiếng nói. Như
vậy, chúng ta phải tìm được các đỉnh tiếng nói tại cuối
bán âm tiết trước và đầu bán âm tiết sau.
Thao tác dò tìm đỉnh tiếng nói khá phức tạp phải
dùng đến một thuật toán riêng để giải quyết. Như vậy,
chi phí tính toán của thuật toán này cũng không nhỏ.
Nếu như với mỗi đoạn tiếng nói của mỗi bán âm tiết
được lưu trong CSDL, ta tìm trước các đỉnh tiếng nói và
cũng lưu vào CSDL thì chi phí tính toán khi sinh tiếng
nói sẽ giảm đi rất nhiều. Tôi đã sử dụng phần mềm
Praat [10] để xác định các đỉnh tiếng nói ứng với các
bán âm tiết và lưu vào CSDL.
Hai nửa cửa sổ Hanning phân tích tương ứng là
Ah1(n-t1+P1) và Ah2(n-t2+P1):
0),cos(5.05.0)(
1
1 n
P
n
nAh
0),cos(5.05.0)(
2
2 n
P
n
nAh
P1 = (N1 - 1)/2
P2 = (N2 - 1)/2
(2)
Trong đó, P1, P2 là hai chu kì cao độ tần số cơ bản
tại hai điểm nối và N1, N2 là số điểm lấy mẫu của cửa sổ
tương ứng.
Hai nửa cửa sổ Hanning tổng hợp tương ứng là
Sh1(n-t1+P) và Sh2(n-t2), có độ rộng gấp đôi giá trị P:
PnP
P
n
nSh 2),cos(5.05.0)(1
Pn
P
n
nSh 0),cos(5.05.0)(2
P = 0.5 (P1 + P2)
(3)
Biểu thức của tín hiệu tổng hợp như sau:
Ptnt
tnShPtnSh
tnAhPnxPtnAhnx
11
2211
222111 ,
)()(
)()()()(
11 0),( tnnx
nPtnx 12 ),(
(4)
Thao tác cửa sổ tuy chỉ tính toán với một công thức
đơn giản nhưng chi phí để tính hàm cos cũng không nhỏ
trên hệ thống có tài nguyên hạn chế. Để giải quyết vấn
đề này, chúng ta có thể lưu sẵn giá trị của hàm cửa sổ.
Chúng ta biết rằng mỗi frame tiếng nói có độ dài lf từ
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 435
10ms – 30ms để đảm bảo giả thiết tuần hoàn. Số mẫu N
của mỗi frame tính theo công thức:
1000
* fslf
N
(5)
Trong trường hợp của tôi, tần số lấy mẫu fs là 11
kHz, mỗi frame có độ dài lf là 20ms. Khi này, có thể
tính được N bằng 220 và chúng ta có thể dễ dàng lưu lại
220 giá trị của hàm cửa sổ w(n).
Các giá trị thực được biểu diễn dưới dạng số dấu
chấm tĩnh và các phép toán liên quan thao tác trên số
dấu chấm tĩnh.
C. Biểu diễn số dấu chấm tĩnh
Trong C có hai kiểu float (4 byte) và double (8 byte)
để biểu diễn số thực. Một câu hỏi đặt ra là liệu có thể
biểu diễn số thực với ít hơn 4 byte được không? Câu trả
lời là có và phương pháp biểu diễn dấu chấm tĩnh có thể
giải quyết vấn đề này.
Một số thập phân x với a bit cho phần nguyên, b bit
cho phần lẻ. Trong đó, giá trị trong a bit phần nguyên là
p, giá trị trong b bit phần lẻ là q. Khi này, ta có:
x = p +
b
q
2
, với 0 <= p <= 2a – 1, 0 <= q <= 2b – 1 (6)
Bù 1 của x là chuỗi bit thu được sao khi đảo chuỗi
bit của x, dấu chấm vẫn giữ nguyên vị trí.
Bù 2 của x = Bù 1 của x + 2-b.
BẢNG 1. TĂNG CƯỜNG MẪU 2 VỚI THUẬT TOÁN CỦA
CHEN VÀ CẢI TIẾN
Phép
cộng
Phép
trừ
Phép
nhân
Phép
chia
Như vậy, với 2 số x1 = p1 + b
q
2
1
và x2 = p2 + b
q
2
2
,
ta có công thức tính kết quả các phép cộng, trừ, nhân,
chia hai số dấu phảy tĩnh được trình bày trong bảng 1.
Chúng ta thấy, thao tác với số dấu chấm tĩnh giống với
số nguyên. Điều này làm cho việc tính toán thuận lợi và
tốc độ nhanh hơn rất nhiều. Nếu như phương pháp dấu
phảy động rất phù hợp với các chương trình chạy trên
PC thì với các hệ thống tài nguyên hạn chế, phương
pháp biểu diễn với dấu phảy tĩnh lại cho thấy sự hợp lý
hơn.
V. THỬ NGHIỆM
A. Xây dựng hệ tổng hợp VnPDA trên thiết bị di động
Hình 5 minh họa màn hình giao diện thiết kế và mô
phỏng với Emulator. Trong hệ tổng hợp thử nghiệm
này, bài báo không áp dụng giải pháp tối ưu cực tiểu
kích thước lưu trữ các đoạn tín hiệu thô các bán âm tiết.
VnPDA chỉ áp dụng giải pháp nén tín hiệu dạng
ADPCM với việc lưu tất cả các thể hiện thanh điệu cho
mỗi vần. Điều này nghĩa là sẽ vẫn có khoảng 822 bán
âm tiết được lưu. Với thiết kế và xây dựng như trên, hệ
tổng hợp thử nghiệm VnPDA đã có thể sử dụng trên
máy Pocket PC chạy Windows Mobile.
Hình 5: Giao diện hệ tổng hợp trên PDA.
Trong [1], tác giả đã đưa ra một số đánh giá về chất
lượng giọng tổng hợp của các chương trình: VietVoice,
VnVoice1.0, VnSpeech, VnMobileSpeech. Trong đó, về
phương diện bộ nhớ, VnVoice1.0 và VnSpeech hoàn
toàn có thể chuyển đổi để tích hợp trong các hệ thống
tài nguyên hạn chế. Hiện nay, VnSpeech đã có phiên
bản trên WinCE [3] (có thể chạy trên Pocket PC).
Dựa trên cơ sở đó, chúng tôi đã tiến hành khảo sát
để đánh giá chất lượng giọng tổng hợp của VnPDA với
phiên bản VnSpeech trên WinCE và hệ tổng hợp
VnVoice. Trong đó, chúng ta đều biết VnVoice là một
trong những hệ tổng hợp tiếng Việt cho chất lượng
giọng tổng hợp rất tốt.
Các câu, từ được chọn khảo sát cố định được bao
trong bảng 2. Ngoài ra, mỗi người nghe sẽ yêu cầu thêm
khoảng 3 đến 5 câu từ ngẫu nhiên khác.
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 436
BẢNG 2. CÁC ÂM TIẾT, TỪ, CỤM TỪ, CÂU SỬ DỤNG CHO
KHẢO SÁT
STT Nội dung
1 Tôi
2 Tôi yêu em
3 Tôi yêu em đến nay chừng có thể
4 Đừng để tháng năm làm mệt mỏi trái tim chờ đợi
5 Học
6 Tiếng Việt
7 Tôi đang học tiếng Việt
8 Hôm qua
9 Hôm qua em tới trường
10 Sao có thể cùng nhau vượt qua gian khổ
11 Sao khó bên nhau chia ngọt xẻ bùi
12 Tập đọc
13 Sao anh không về chơi thôn vĩ
14 Hoàng Hoa Thám
15 Đội cấn
16 Bưởi
17 Hai Bà Trưng
18 Nguyễn Trường Tộ
19 Phạm Văn Đồng
20 Nguyễn Chí Thanh
Khảo sát được thực hiện với 30 người ở những trình
độ khác nhau. Điểm chất lượng sẽ được tính theo thang
100. Giả sử coi chất lượng giọng tổng hợp của VnVoice
luôn là 100 thì khảo sát cho kết quả trung bình trên số
người như trong bảng 4. Với kết quả này, chúng ta có
thể thấy rằng chất lượng giọng tổng hợp của hệ tổng
hợp VnPDA giảm xuống rất ít so với hệ tổng hợp cơ sở
là VnVoice.
BẢNG 3. THỐNG KÊ CHẤT LƯỢNG GIỌNG
TỔNG HỢP.
Phân loại Số lượng VnVoice VnPDA VnSpeech
Trên 60 tuổi 5 người 100 95 10
Trên 40 tuổi,
dưới 60 tuổi
5 người 100 97 25
Trên 30 tuổi,
dưới 40 tuổi
5 người 100 97 30
Trên 20 tuổi,
dưới 30 tuổi
6 người 100 97 30
Trên 10 tuổi,
dưới 20 tuổi
6 người 100 98 30
Người mù 3 người 100 100 35
B. Xây dựng module phần mềm nhúng phát tiếng nói
trên PSoC
Trong giao tiếp bằng tiếng nói giữa người và thiết bị
với ngữ cảnh giao tiếp hạn chế, thiết bị ngoài khả năng
nhận dạng khẩu lệnh còn phải phát tiếng nói một số câu
được quy định sẵn. Trong nghiên cứu này, chúng tôi
thiết kế và xây dựng module phần mềm nhúng có khả
năng phát đoạn tiếng nói được quy định trước, lưu sẵn
trong bộ nhớ Flash (256KB) dưới dạng ADPCM, ra loa
trên mạch PSoC 050 (hình 10) của hãng Cypress [11].
Yêu cầu cần một DAC cấu hình trên sơ đồ khối (hình
10) và một loa cấu hình vào chân tín hiệu trên mạch
PSoC 050.
Hình 10: Sơ đồ thiết kế module sinh tiếng nói.
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 437
Hình 10: Bo mạch PSoC 050.
Module được nhúng trong hệ thống hội thoại giữa
người và robot hút bụi. Một số câu tiếng nói lưu sẵn như
sau:
BẢNG 3. CÁC CÂU NHÚNG TRÊN ROBOT HÚT
BỤI.
ID Nội dung Giải thích
1 Robot xin lắng nghe
yêu cầu
Sau khi robot khởi động xong và sẵn
sàng đợi lệnh
2 Xin mời đọc lệnh
tiếp theo
Robot trong trạng thái chờ quá lâu
VI. KẾT LUẬN
Trong nghiên cứu này, chúng tôi đã đề xuất giải
pháp tối ưu lưu trữ và tính toán để xây dựng hệ tổng
hợp tiếng nói dựa trên ghép nối trên hệ thống tài nguyên
hạn chế. Trong đó, các bán âm tiết được lưu trong
CSDL dạng nén ADPCM thay vì PCM. Trong giai đoạn
sinh tiếng nói, bán âm được lấy trong CSDL sẽ được
giải nén để thu được tín hiệu PCM và thực hiện việc
ghép nối với sự tối ưu về mặt tính toán để thu được
tiếng nói đầu ra. Kết quả thử nghiệm cho thấy hệ tổng
hợp mới chạy tốt trên thiết bị PDA và chất lượng tiếng
nói tổng hợp suy giảm không đáng kể so với hệ tổng
hợp gốc VnVoice trên PC. Ngoài ra, kết quả thử nghiệm
đã xây dựng module sinh tiếng nói lưu sẵn trên bo mạch
PSoC.
Trong nghiên cứu tiếp theo, chúng tôi dự kiến sẽ xây
dựng bộ tổng hợp trên các vi điều khiển có bộ nhớ và
khả năng tính toán yếu hơn như PSoC và tiến hành tối
ưu tính toán cho giai đoạn phân tích văn bản.
TÀI LIỆU THAM KHẢO
[1] Nguyễn Thị Thanh Mai, Nghiên cứu các phương pháp nâng cao
chất lượng tổng hợp tiếng Việt và thử nghiệm cho phần mềm
VnVoice, Luận văn Thạc sĩ, Trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội.
[2] Trịnh Anh Tuấn, Nghiên cứu các đặc trưng để phân tích và tổng
hợp tín hiệu âm tần, Luận án Tiến sĩ, Học viện Công nghệ Bưu
chính Viễn thông.
[3]
[4] D. Burileanu, Andrei Fecioru, Dragos Ion, Madalin Stoica, and
CostelIlas (2004), An Optimized TTS System Implementation
Using a Motorola Starcore C140-Based Processor, Proceedings
of the International Conference on Acoustics, Speech, and
Signal Processing ICASSP 2004.
[5] P. Dent, Aaron Aboagye (2002), G.726 Adaptive Differential
Pulse Coding Modulation (ADPCM) on the TMS320C54x DSP,
Texas Instrument.
[6] S. Dey, Monu Kedia, Anupam Basu (2007), Architectural
Optimizations for Text to Speech Synthesis in Embedded
Systems, Proceedings of the Asia and South Pacific Design
Automation Conference (ASP-DAC '07) 2007.
[7] T. DUTOIT, H. LEICH (1993), "MBR-PSOLA : Text-To-Speech
Synthesis based on an MBE Re-Synthesis of the Segments
Database", Speech Communication, Elsevier Publisher,
November, vol. 13, n°3-4.
[8] J. Patton (2007), Pitch Synchronous Overlap-Add, ELEC 484
Project, 2007.
[9] H. Sheikhzadeh, Etienne Cornu, Robert Brennan, and Todd
Schneider (2002), Real-Time Speech Synthesis on An Ultra Low-
Resource, Programable DSP System, Proceedings of the
International Conference on Acoustics, Speech, and Signal
Processing ICASSP 2002.
[10]
[11]
Hội thảo quốc gia 2014 về Điện tử, Truyền thông và Công nghệ thông tin (ECIT2014)
ISBN: 978-604-67-0349-5 438
Các file đính kèm theo tài liệu này:
- mot_tiep_can_toi_uu_thanh_phan_sinh_tin_hieu_cho_he_tong_hop.pdf