i
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
KHOA CÔNG NGHỆ THÔNG TIN
PHẠM MẠNH CƯỜNG
NGHIÊN CỨU PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG
KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM
Chuyên ngành: Khoa học máy tính
Mã số: 848 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS PHÙNG TRUNG NGHĨA
ii
LỜI CAM ĐOAN
Tên tôi là: Phạm Mạnh Cường
Sinh ngày: 31/10/1985
Học viên lớp cao học K17A - Trường Đại học Công nghệ thông tin và Truyền
thông -
59 trang |
Chia sẻ: huong20 | Ngày: 13/01/2022 | Lượt xem: 389 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ thuật phân rã ma trận không âm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
- Thái Nguyên.
Tôi xin cam đoan, toàn bộ nội dung liên quan tới đề tài được trình bày trong
luận văn là bản thân tôi tìm hiều và nghiên cứu, dưới sự hướng dẫn khoa học của
Thầy giáo PGS.TS. Phùng Trung Nghĩa.
Các nội dung trong luận văn đúng như nội dung trong đề cương và yêu cầu
của thầy giáo hướng dẫn. Tất cả tài liệu tham khảo đều có nguồn gốc, xuất xứ rõ
ràng. Nếu sai tôi hoàn toàn chịu trách nhiệm trước hội đồng khoa học và trước
pháp luật.
Tác giả luận văn
Phạm Mạnh Cường
iii
LỜI CẢM ƠN
Sau một thời gian nghiên cứu và làm việc nghiêm túc, được sự động viên,
giúp đỡ và hướng dẫn tận tình của Thầy giáo hướng dẫn PGS.TS. Phùng Trung
Nghĩa, luận văn với đề tài “Nghiên cứu phương pháp mã hóa tiếng nói dùng kỹ
thuật phân rã ma trận không âm” đã hoàn thành.
Em xin bày tỏ lòng biết ơn sâu sắc đến: Thầy giáo hướng dẫn PGS.TS.
Phùng Trung Nghĩa đã tận tình chỉ dẫn, giúp đỡ em hoàn thành luận văn này.
Em xin cảm ơn Khoa sau Đại học Trường Đại học Công nghệ - Thông tin và
Truyền thông đã giúp đỡ em trong quá trình học tập cũng như thực hiện luận văn.
Em xin chân thành cảm ơn bạn bè, đồng nghiệp và gia đình đã động viên,
khích lệ, tạo điều kiện giúp đỡ em trong suốt quá trình học tập, thực hiện và hoàn
thành luận văn này.
Em xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2020
Học viên
Phạm Mạnh Cường
iv
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................. i
LỜI CẢM ƠN ................................................................................................. iii
DANH MỤC CÁC BẢNG ............................................................................ vii
DANH MỤC CÁC HÌNH ............................................................................ viii
Ý NGHĨA CÁC TỪ VIẾT TẮT .................................................................... ix
MỞ ĐẦU .......................................................................................................... 2
1. Lý do chọn đề tài ............................................................................................ 2
2. Đối tượng và phạm vi nghiên cứu: ................................................................. 3
3. Hướng nghiên cứu của luận văn: .................................................................... 3
4. Phương pháp nghiên cứu ................................................................................ 3
5. Ý nghĩa khoa học và thực tiễn ........................................................................ 4
CHƯƠNG 1 TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI ............................. 5
1.1. Tổng quan về tiếng nói ................................................................................ 5
1.1.1. Thông tin tiếng nói ............................................................................. 5
1.1.2. Tín hiệu tiếng nói ............................................................................... 6
1.1.2.1. Tín hiệu .................................................................................... 6
1.1.2.2. Nguồn tín hiệu .......................................................................... 7
1.1.2.3. Hệ thống và xử lý tín hiệu ........................................................ 7
1.2. Tổng quan về mã hóa tiếng nói .................................................................... 8
1.3. Mã hóa tiếng nói tốc độ bit thấp .................................................................. 9
1.4. Mục tiêu của luận văn ................................................................................ 10
v
CHƯƠNG 2 PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM NMF ................................................ 12
2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF .......................... 12
2.1.1. Khái niệm ......................................................................................... 12
2.1.2. Lịch sử ............................................................................................. 12
2.1.3. Nền tảng ........................................................................................... 12
2.1.4. Tích chất phân cụm .......................................................................... 14
2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa tiếng
nói 15
2.2.1 Kỹ thuật phân rã ma trận không âm NMF ........................................ 15
2.2.2 Ứng dụng trong mã hóa tiếng nói ..................................................... 21
2.3. Phương pháp mã hóa tiếng nói dùng NMF của Xue ................................. 22
2.4. Phương pháp mã hóa NMF của Chien ...................................................... 28
CHƯƠNG 3 ĐÁNH GIÁ THỰC NGHIỆM PHƯƠNG PHÁP MÃ HÓA
TIẾNG NÓI DÙNG KỸ THUẬT PHÂN RÃ MA TRẬN KHÔNG ÂM
NMF ................................................................................................................ 36
3.1. Thu thập dữ liệu tiếng nói ........................................................................ 36
3.1.1. Ngữ âm tiếng Việt ............................................................................ 36
3.1.1.1. Cấu trúc âm tiết tiếng Việt ..................................................... 36
3.1.1.2. Thanh điệu tiếng Việt ............................................................. 37
3.1.2. Cơ sở dữ liệu tiếng nói tiếng Việt .......................................................... 38
3.1.2.1 Cơ sở dữ liệu tiếng nói phát thanh VOV ................................. 38
3.1.2.2 Cơ sở dữ liệu DEMEN567 ...................................................... 39
3.1.2.3 Cơ sở dữ liệu MICA VNSpeech ............................................. 39
3.1.3. Tổng hợp tiếng nói tiếng Việt ......................................................... 40
3.2. Cài đặt phương pháp mã hóa trên Matlab ................................................. 40
vi
3.3. Đánh giá khách quan, chủ quan và so sánh các phương pháp .................. 42
3.3.1.Đánh giá khách quan và chủ quan .................................................... 42
3.3.2. So sánh với các phương pháp khác. ................................................. 44
3.4. Phân tích, đánh giá ưu nhược điểm ........................................................... 46
KẾT LUẬN .................................................................................................... 47
TÀI LIỆU THAM KHẢO ............................................................................ 48
vii
DANH MỤC CÁC BẢNG
Bảng 2.1. Hiệu suất của hai sơ đồ lượng tử hóa ............................................. 25
Bảng 2.2. Tỉ lệ phân giải cao độ khác nhau .................................................... 26
Bảng 3.1. Cấu trúc âm Tiếng Việt .................................................................. 38
Bảng 3.2. Sáu thanh điệu Tiếng Việt .............................................................. 38
Bảng 3.3. Thang điểm PESQ .......................................................................... 44
viii
DANH MỤC CÁC HÌNH
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt .......................................... 6
Hình 1.2. Tiếng nói hữu thanh ........................................................................ 6
Hình 1.3. Một số ứng dụng của xử lý tiếng nói .............................................. 8
Hình 2.1. NMF tuần tự .................................................................................... 18
Hình 2.2. Dạng sóng lời nói và đường viền cao độ của nó ............................. 25
Hình 2.3. Dấu vết điện .................................................................................... 27
Hình 2.4. Hàm sự kiện có tính chất “hình học chuẩn” và “hình học không
chuẩn” .............................................................................................................. 30
Hình 2.5. Thuật toán chuẩn hóa vector sự kiện trong NMF ........................... 34
Hình 2.6. Hình vẽ các hàm sự kiện nhận được khi NMF phân tích một câu,
chỉ số trên miền thời gian là số khung. ........................................................... 35
Hình 3.1. Đường F0 sáu thanh điệu Tiếng Việt .............................................. 37
Hình 3.2. Thuật toán mã hóa và đánh giá chất lượng tiếng nói mã hóa bằng
NMF ................................................................................................................ 41
Hình 3.3. Mô hình hóa người nghe trong PESQ ............................................. 43
Hình 3.4. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ
nén đầu vào là 20 ............................................................................................. 45
Hình 3.5. Kết quả đánh giá chủ quan bằng phương pháp của Scheffe với tỷ lệ
nén đầu vào là 30 ............................................................................................. 45
Hình 3.6. Hình ảnh dạng sóng tiếng nói có nén, không nén với tỷ lệ nén là 46
ix
Ý NGHĨA CÁC TỪ VIẾT TẮT
Từ viết tắt Ý nghĩa
ASD Phổ trung bình
ADPCM Mã hóa thích nghi
CELP Mã hóa dự đoán tuyến tính kích thích mã
CW Dạng sóng đặc trưng
DCT Phương thức sử dụng phổ biến
FIR Bộ lọc thông thấp
FRV Phương sai dư phân số
HMM Phương pháp thống kê
IDCT Biến đổi cosine rời rạc
LPC Mã hóa dự đoán tuyến tính
LSF Đặc trưng phổ đường
MELP Tuyến tính kích thích hỗn hợp
NCCF Phương pháp hàm tương quan chéo đã chuẩn hóa
NMF Kỹ thuật phân rã ma trận không âm
NQP Phương trình bậc hai không âm
PCA Thành phần chính
PCM Mã hóa theo dạng xung
PESQ Đánh giá cảm quan về chất lượng lời nói
REW Sóng phát triển nhanh
x
SEW Sóng phát triển chậm
SFTR Tỉ lệ dịch phổ
SVM Vector hỗ trợ
WI Bộ mã hóa dựa trên NMF
2
MỞ ĐẦU
1. Lý do chọn đề tài
Tiếng nói là phương tiện giao tiếp cơ bản của con người. Vì vậy tiếng nói
cũng là loại hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông.
Để truyền tiếng nói trong mạng viễn thông, tiếng nói cần phải được số hóa. Phương
pháp số hóa cơ bản mã hóa theo dạng xung (Pulse Code Modulation – PCM) cho
tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ bit của một kênh thông
tin số cơ bản chưa ghép kênh [7]. Với sự bùng nổ về thông tin trong các mạng viễn
thông hiện đại, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản 64 Kbps
là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên một kênh
truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập trung vào
vấn đề mã hóa tiếng nói để đảm bảo tiếng nói được mã hóa có tốc độ bit thấp, có
thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật lý, trong khi vẫn
phải đảm bảo các yêu cầu về chất lượng [8, 9, 10, 12, 17, 18]. Các phương pháp
mã hóa tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính LPC [8],
mã hóa thích nghi ADPCM [12],... Mặc dù các phương pháp mã hóa này là tin cậy
và đã được tiêu chuẩn hóa và sử dụng rộng rãi trong các hệ thống viễn thông. Hiệu
quả nén của các phương pháp mã hóa phổ biến này vẫn chưa đảm bảo trong điều
kiện tài nguyên hạn chế như các hệ thống thông tin di động. Kỹ thuật phân rã ma
trận không âm (Nonnegative Matrix Factorization - NMF) là một kỹ thuật phân
tích tiếng nói được đề xuất bởi Xue năm 2008 [17]. Các kết quả nghiên cứu cho
thấy NMF rất thích hợp để phân tích mô hình hóa tiếng nói cũng như mã hóa nén
tiếng nói. Hướng nghiên cứu này vẫn được tiếp tục phát triển trong những năm
gần đây [10, 18]. Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói tốc
độ bit thấp thời gian thực dùng kỹ thuật NMF, phân tích lý thuyết, cài đặt thực
nghiệm và đánh giá hiệu quả các phương pháp, từ đó đưa ra các khuyến nghị cho
3
việc phát triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ
thuật NMF.
2. Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu của luận văn là các phương pháp mã hóa nén tiếng
nói tốc độ bit thấp thời gian thực dùng kỹ thuật NMF. Đây là đối tượng nghiên
cứu được một số nhà nghiên cứu trên thế giới quan tâm trong thời gian gần đây.
Phạm vi của luận văn bao gồm nghiên cứu tổng quan về mã hóa nén tiếng
nói [7, 8, 12], một số phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực
[8, 10, 12, 17, 18], đặc biệt tập trung vào kỹ thuật mã hóa nén tiếng nói dùng NMF
[10, 17, 18]. Luận văn cũng nghiên cứu cài đặt thực nghiệm phương pháp mã hóa
dùng NMF để có những phân tích, đánh giá, và đưa ra các khuyến nghị.
3. Hướng nghiên cứu của luận văn:
Hướng nghiên cứu của luận văn là nghiên cứu về kỹ thuật phân rã ma trận
không âm NMF và ứng dụng trong mã hóa tiếng nói tốc độ bit thấp. Trong đó,
luận văn tập trung nghiên cứu cả các vấn đề lý thuyết về tiếng nói, về các kỹ thuật
số hóa và mã hóa tiếng nói, về kỹ thuật phân rã ma trận không âm NMF. Luận văn
cũng nghiên cứu đánh giá thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit
thấp dùng NMF.
4. Phương pháp nghiên cứu
Phương pháp nghiên cứu của luận văn là nghiên cứu các lý thuyết đã có trên
thế giới [7, 8, 9, 10, 12, 17, 20] để phân tích, đánh giá về các kỹ thuật mã hóa tiếng
nói tốc độ bit thấp.
Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá, luận văn cũng sẽ
nghiên cứu thực nghiệm phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian
thực dùng kỹ thuât ma trận không âm NMF. Cơ sở dữ liệu để đánh giá thực nghiệm
4
là cơ sở dữ liệu tiếng nói tiếng Việt. Môi trường để thực nghiệm là MATLAB
2012.
5. Ý nghĩa khoa học và thực tiễn
Như đã trình bày trong phần 1, nghiên cứu về mã hóa tiếng nói tốc độ bit thấp
có vai trò quan trọng trong các hệ thống truyền thông hiện đại. Nghiên cứu chuyên
sâu về các phương pháp mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ
thuật NMF chưa được nghiên cứu ở Việt Nam. Do vậy vấn đề nghiên cứu trong
luận văn có ý nghĩa khoa học và thực tiễn.
5
CHƯƠNG 1
TỔNG QUAN VỀ MÃ HÓA TIẾNG NÓI
1.1. Tổng quan về tiếng nói
1.1.1. Thông tin tiếng nói
Tiếng nói là dạng thông tin tự nhiên và phổ biến nhất đối với con người. Từ
khi lịch sử con người hình thành, con người đã biết sử dụng tiếng nói làm phương
tiện giao tiếp chính, trải qua hàng triệu năm trong quá trình tiến hóa và phát triển
của loài người, tiếng nói vẫn luôn giữ vai trò là phương tiện giao tiếp cơ bản nhất.
Do đó tiếng nói là phương tiện giao tiếp cơ bản của con người, nó cũng là loại
hình thông tin cơ bản và phổ biến nhất trong các hệ thống viễn thông từ trước đến
nay.
Kể từ khi máy tính và các ứng dụng của máy tính được nghiên cứu và ứng
dụng rộng rãi, người ta cố gắng để máy tính không chỉ có thể xử lý nhanh, nhiều
mà quan trọng hơn nó đủ thông minh để thay thế con người. Một trong các tiêu
chí quan trọng để đánh giá độ thông minh của máy tính chính là khả năng hiểu
được ngôn ngữ tự nhiên của con người trong đó có tiếng nói. Tuy nhiên, tiếng nói
mang nhiều thông tin, ngoài thông tin ngôn ngữ còn cả các thông tin phi ngôn ngữ
như thông tin về người nói, thông tin về sắc thái tình cảm khi nói
Tín hiệu tiếng nói là loại tín hiệu âm thanh phổ biến nhất trong viễn thông.
Dải tần tín hiệu tiếng nói nằm trong khoảng 300 Hz - 3400 Hz. Tiếng nói bao gồm
hai dạng hữu thanh và vô thanh. Âm hữu thanh có đặc tính tuần hoàn còn âm vô
thanh tương tự nhiễu.
6
Hình 1.1. Dạng sóng tiếng nói một câu tiếng Việt
Hình 1.2.Tiếng nói hữu thanh
1.1.2. Tín hiệu tiếng nói
1.1.2.1. Tín hiệu
Tín hiệu(signal) dùng để chỉ một đại lượng vật lý mang tin tức. Về mặt toán
học, ta có thể mô tả tín hiệu như một hàm theo biến thời gian, không gian hay các
biến độc lập khác.
Chẳng hạn như, hàm: x( t ) 40 t 2 mô tả tín hiệu biến thiên theo biến thời
gian t. Hay một ví dụ khác, hàm: s( x , y ) 2 x 7 xy y2 mô tả tín hiệu là hàm
theo hai biến độc lập x và y, trong đó x và y biểu diễn cho hai tọa độ trong mặt
phẳng.
7
Hai tín hiệu trong ví dụ trên về lớp tín hiệu được biểu diễn chính xác bằng
hàm theo biến độc lập. Tuy nhiên, trong thực tế, các mối quan hệ giữa các đại
lượng vật lý và các biến độc lập thường rất phức tạp nên không thể biểu diễn tín
hiệu như trong hai ví dụ vừa nêu trên.
Lấy ví dụ tín hiệu tiếng nói – đó là sự biến thiên của áp suất không khí theo
thời gian. Chẳng hạn khi ta phát âm câu “Cô ấy đang đi chơi”, dạng sóng của
nó được biểu diễn như Hình 1.1.
1.1.2.2. Nguồn tín hiệu
Tất cả các tín hiệu đều do một nguồn nào đó tạo ra, theo một cách thức nào
đó. Ví dụ tín hiệu tiếng nói được tạo ra băng cách ép không khí đi qua dây thanh
âm. Quá trình tạo tín hiệu như vậy thường liên quan đến một hệ thống, hệ thống
này đáp ứng lại một kích thích nào đó. Trong tín hiệu tiếng nói, hệ thống là
hệ thống phát âm, gồm: môi, răng, lưỡi, còn kích thích là sự rung của dây thanh
1.1.2.3. Hệ thống và xử lý tín hiệu
Hệ thống là một thiết bị vật lý thực hiện một tác động nào đó lên tín hiệu.
Ví dụ, bộ lọc nhiễu tiếng nói dùng để giảm nhiễu trong tín hiệu mang tin được
gọi là một hệ thống. Khi ta truyền tín hiệu qua một hệ thống, như bộ lọc chẳng
hạn, ta nói rằng đã xử lý tín hiệu đó. Trong trường hợp này, xử lý tín hiệu liên
quan đến lọc nhiễu ra khỏi tín hiệu tiếng nói mong muốn.
Xử lý tín hiệu là ý muốn nói đến một loạt các công việc hay các phép toán
được thực hiện trên các tín hiệu nhằm đạt mục đích nào đó, như là tách tin tức
chứa bên trong tín hiệu hoặc là truyền tín hiệu mang tin từ nơi này đến nơi khác.
Xử lý tiếng nói hay xử lý tín hiệu tiếng nói được hiểu là các thao tác, kỹ thuật
xử lý trên máy tính nhằm mục đích đưa tiếng nói vào máy tính, xử lý theo yêu cầu
và phát lại cho con người. Yêu cầu xử lý ở đây phụ thuộc vào từng ứng dụng cụ
thể. Chẳng hạn để có thể truyền tiếng nói tin cậy và hiệu quả trên các hệ thống
viễn thông truyền với khoảng cách rất xa, người ta cần nghiên cứu và xây dựng
8
các giải thuật mã hóa nén tiếng nói. Để xây dựng các ứng dụng nhận dạng tiếng
nói, người ta cần nghiên cứu và xây dựng các giải thuật trích đặc trưng tiếng nói
và huấn luyện tiếng nói. Để biến đổi tiếng nói, người ta cần xác định các đặc trưng
tiếng nói theo các tiêu chí cụ thể khác nhau (như người nói, cảm xúc, ngữ điệu khi
nói) và biến đổi trực tiếp hoặc gián tiếp các đặc trưng này.
Hình 1.3. Một số ứng dụng của xử lý tiếng nói
1.2. Tổng quan về mã hóa tiếng nói
Vào năm 1892 Alexander Graham Bell khai trương tuyến điện thoại thương
mại đầu tiên trên thế giới và cho tới gần đây con người coi điện thoại là một công
cụ truyền tin hữu hiệu.
Nhờ điện thoại mà con người có khả năng trao đổi thông tin giữa các điểm
khác nhau trên toàn thế giới một cách dễ dàng. Ngoài ưu thế như khả năng truyền
thông tin theo thời gian thực và dễ sử dụng, mạng điện thoại ngày nay còn có các
ưu điểm rất cơ bản, đó là được phổ biến trên toàn cầu, giúp ta có khả năng liên lạc
hầu như mọi điểm trên trái đất, thời gian đáp ứng ngắn và thuận tiện cho người sử
dụng.
9
Cũng từ đó tín hiệu tiếng nói trở thành một đối tượng và cũng là một nguồn
tải lớn nhất của mạng viễn thông, cùng với sự phát triển của kỹ thuật số, các công
nghệ bán dẫn thì các phương pháp mã hoá tín hiệu tiếng nói cũng phát triển mạnh.
Bộ mã hoá tiếng nói được phân thành hai loại lớn: bộ mã hoá dạng sóng và
bộ mã hoá tham số nguồn.
Bộ mã hoá dạng sóng nhằm tạo ra dạng sóng thời gian của tín hiệu tiếng nói
càng chính xác càng tốt, chúng được thiết kế độc lập với nguồn tín hiệu (có nghĩa
là có thể áp dụng cho cả loại tín hiệu khác) nên chất lượng không phụ thuộc nhiều
vào nguồn tín hiệu chúng có ưu điểm là chất lượng ổn định với phạm vi rộng của
các đặc trưng tiếng nói, và các môi trường ồn khác nhau.
Còn các bộ mã hoá nguồn tiếng nói thì lại có ưu thế trong việc tiết kiệm băng
tần nhưng lại rất phức tạp và có độ ổn định không cao tuy nhiên chúng ngày càng
được khắc phục, để phục vụ cho các công nghệ viễn thông hiện tại và trong tương
lai.
1.3. Mã hóa tiếng nói tốc độ bit thấp
Mã hóa PCM cho tốc độ bit của tiếng nói đã số hóa là 64 Kbps giống tốc độ
bit của một kênh thông tin số cơ bản chưa ghép kênh [2]. Khoảng 20 năm trở lại
đây với sự phát triển mạnh của mạng viễn thông toàn cầu, mạng Internet các dịch
vụ viễn thông tích hợp thoại, hình, số liệu... thì băng tần truyền dẫn ngày càng trở
nên hạn chế. Khi đó, việc sử dụng phương pháp mã hóa PCM với tốc độ cơ bản
64 Kbps là tiêu tốn lãng phí nguồn tài nguyên, hạn chế dung lượng thông tin trên
một kênh truyền vật lý. Chính vì vậy, rất nhiều nhà nghiên cứu trên thế giới đã tập
trung vào vấn đề mã hóa nguồn tiếng nói để đảm bảo tiếng nói được mã hóa có
tốc độ bit thấp, có thể dễ dàng tăng số kênh truyền logic trên một kênh truyền vật
lý, trong khi vẫn phải đảm bảo các yêu cầu về chất lượng [1, 7, 9, 13]. Các phương
pháp mã hóa nguồn tiếng nói phổ biến được biết đến là mã hóa dự đoán tuyến tính
LPC [11], mã hóa thích nghi CELP [10],...
10
Một trong những phương thức phân tích mạnh nhất là kỹ thuật phân tích dự
đoán tuyến tính LPC [11]. Đây là phương pháp chọn trên phương pháp coi tín hiệu
tiếng nói là hệ thống thay đổi chậm theo thời gian được kích thích bởi xung tựa
tuần hoàn và nhiễu ngẫu nhiên. Mẫu tiếng nói s(n) liên hệ với xung kích thích âm
hữu thanh u(n):
p
s()()() n ak s n k Gu n (1.1)
k1
Ý tưởng cơ bản của việc phân tích dự đoán tuyến tính là một mẫu tiếng nói
có thể xấp xỉ một cách tuyến tính với một mẫu trước đó.
Một bộ dự đoán tuyến tính, với hệ số k được định nghĩa như là một hệ
thống mà đầu ra của nó có phương trình:
p
s()() nk s n k (1.2)
k1
Sai số dự đoán định nghĩa là e(n)
p
e()() nk s n k (1.3)
k1
Bằng việc tối thiểu hóa tổng bình phương sự khác nhau giữa mẫu thực và
mẫu dự đoán được, các hệ số dự đoán sẽ quyết định việc truyền tới thiểu hoá này.
Phương pháp LPC có ưu thế vượt trội cho việc ước lượng các thông số cơ
bản của tiếng nói như cao độ, formants, phổ, và mã hoá tốc độ bít thấp để truyền
dẫn và lưu trữ. Điều quan trọng của phương pháp này là khả năng thực hiện ước
lượng các thông số này một cách chính xác và mối liên hệ trong việc tính toán tín
hiệu tiếng nói. Phương pháp này cũng đã được tiêu chuẩn hóa trong các tiêu chuẩn
của ITU-T.
1.4. Mục tiêu của luận văn
11
Hướng nghiên cứu mã hóa tiếng nói tốc độ bit thấp dùng kỹ thuật phân rã ma
trận không âm hiện vẫn được tiếp tục phát triển trong những năm gần đây nhưng
ở Việt Nam, hướng nghiên cứu này còn khá mới mẻ.
Luận văn này nghiên cứu về phương pháp mã hóa tiếng nói dùng kỹ thuật
phân rã ma trận không âm dùng NMF.
Phân tích lý thuyết, cài đặt thực nghiệm với cơ sở dữ liệu tiếng Việt và đánh
giá hiệu quả của phương pháp NMF, từ đó đưa ra các khuyến nghị cho việc phát
triển hệ thống mã hóa tiếng nói tốc độ bit thấp thời gian thực dùng kỹ thuật phân
rã ma trận không âm cho phù hợp với tiếng nói tiếng Việt.
12
CHƯƠNG 2
PHƯƠNG PHÁP MÃ HÓA TIẾNG NÓI DÙNG KỸ THUẬT
PHÂN RÃ MA TRẬN KHÔNG ÂM NMF
2.1. Tổng quan về kỹ thuật phân rã ma trận không âm NMF
2.1.1. Khái niệm
Phân rã ma trận không âm (NMF), hoặc còn gọi là phép xấp xỉ ma trận không
âm là một nhóm các thuật toán trong phân tích đa biến và đại số tuyến tính trong
đó ma trận V được phân rã thành hai ma trận W và H, với tính chất mà cả ba ma
trận không có phần tử âm. Tính chất không âm này làm cho ma trận kết quả dễ
kiểm tra hơn. Ngoài ra, trong các ứng dụng như xử lý âm thanh tính không âm là
thuộc tính tự nhiên của dữ liệu. Vì vấn đề không thể giải quyết chính xác nói
chung, nên nó thường được tính gần đúng.
NMF có nhiều ứng dụng trong các lĩnh vực như thiên văn học, thị giác máy
tính, phân cụm dữ liệu, hóa học, xử lý tín hiệu âm thanh và tin sinh học.
2.1.2. Lịch sử
Trong phép đo nhân tử ma trận không âm có một lịch sử lâu dài dưới cái tên
"mô hình độ phân giải đường cong". Trong khung này các vectơ trong ma trận bên
phải là các đường cong liên tục chứ không phải là các vectơ rời rạc. Ngoài ra, công
việc ban đầu về các yếu tố ma trận không âm được thực hiện bởi một nhóm các
nhà nghiên cứu Phần Lan vào giữa những năm 1990 dưới tên gọi là phân rã ma
trận dương. Nó được biết đến rộng rãi hơn như là phân rã ma trận không âm sau
khi Lee và Seung kiểm tra các thuộc tính của thuật toán và công bố một số thuật
toán đơn giản và hữu ích cho hai loại phân rã.
2.1.3. Nền tảng
Đặt ma trận V là tích của ma trận W và H
V=W*H (2.1)
13
Phép nhân ma trận có thể được thực hiện khi tính toán các vectơ cột của V
dưới dạng kết hợp tuyến tính của vectơ cột trong W bằng các hệ số được cung cấp
bởi các cột của H. Nghĩa là, mỗi cột của V có thể được tính như sau:
풗풊 = 푾 ∗ 풉풊 (2.2)
Trong đó 풗풊 là vectơ cột thứ i của ma trận sản phẩm V và 풉풊 là vectơ cột thứ
i của ma trận H.
Khi nhân ma trận, kích thước của ma trận phân rã có thể thấp hơn đáng kể so
với ma trận sản phẩm và chính đặc tính này tạo thành nền tảng của NMF. NMF
tạo ra các yếu tố với kích thước giảm đáng kể so với ma trận ban đầu.
Ví dụ: nếu V là ma trận m × n, W là ma trận m × p và H là ma trận p × n thì
p có thể nhỏ hơn đáng kể so với cả m và n.
Dưới đây là một ví dụ dựa trên ứng dụng khai thác văn bản:
Đặt ma trận đầu vào (ma trận được bao thanh toán) là V với 10000 hàng và
500 cột trong đó các từ nằm trong hàng và tài liệu nằm trong các cột. Với hơn 500
tài liệu được lập chỉ mục bởi 10000 từ. Theo sau đó một vectơ cột v trong V đại
diện cho một tài liệu.
Giả sử yêu cầu thuật toán tìm 10 tính năng để tạo ma trận tính năng W với
10000 hàng và 10 cột và ma trận hệ số H với 10 hàng và 500 cột.
Tích của W và H là một ma trận có 10000 hàng và 500 cột, có hình dạng
giống như ma trận đầu vào V và, nếu hệ số hóa hoạt động, đó là một xấp xỉ hợp lý
với ma trận đầu vào V.
Từ việc xử lý nhân ma trận ở trên, theo đó mỗi cột trong ma trận tích WH là
tổ hợp tuyến tính của 10 vectơ cột trong ma trận tính năng W với các hệ số được
cung cấp bởi ma trận hệ số H.
Điểm cuối cùng này là nền tảng của NMF có thể xem xét từng tài liệu gốc
trong ví dụ của mình như được xây dựng từ một tập hợp nhỏ các tính năng ẩn.
NMF tạo ra các tính năng này.
14
Sẽ là rất hữu ích khi từng tính năng (vectơ cột) trong ma trận tính năng W
dưới dạng nguyên mẫu, tài liệu bao gồm một tập hợp các từ trong đó giá trị ô của
mỗi từ xác định thứ hạng của từ trong tính năng đó: Giá trị ô của từ càng cao thì
thứ hạng của từ càng cao trong tính năng. Một cột trong ma trận hệ số H đại diện
cho một tài liệu gốc có giá trị ô xác định thứ hạng của tài liệu cho một tính năng.
Bây giờ có thể xây dựng lại một tài liệu (vectơ cột) từ ma trận đầu vào của mình
bằng cách kết hợp tuyến tính các tính năng (vectơ cột trong W) trong đó mỗi tính
năng được cân bằng giá trị ô của tính năng từ cột của tài liệu trong H.
2.1.4. Tích chất phân cụm
NMF có thuộc tính phân cụm vốn có, tức là, nó tự động phân cụm các cột
của dữ liệu đầu vào 푽 = (푣1, 푣푛).
Cụ thể hơn, gần đúng V bởi V≅ 푾푯 đạt được bằng cách giảm thiểu hàm lỗi
풎풊풏
푾,푯‖푽 − 푾푯‖푭 tùy thuộc vào W≥ 0, H≥ 0 (2.3)
Hơn nữa, H được tính thành viên của cụm, nghĩa là, nếu 퐻푘푗 > 퐻푖푗 cho tất
푡ℎ
cả i ≠ k, điều này cho thấy rằng dữ liệu đầu vào 푣푗 thuộc về 푘 cụm. W được tính
toán cho các cụm trung tâm cụm, nghĩa là cột 푘푡ℎ cung cấp cho cụm trung tâm của
푘푡ℎ. Đại diện của trung tâm này có thể được tăng cường đáng kể bởi NMF lồi.
Khi tính trực giao 푯푯푻 = 푰 không được áp đặt rõ ràng, tính trực giao giữ ở
mức độ lớn và thuộc tính phân cụm cũng giữ. Phân cụm là mục tiêu chính của hầu
hết các ứng dụng khai thác dữ liệu của NMF.
Khi chức năng lỗi được sử dụng là phân kỳ KullbackTHER Leibler, NMF
giống hệt với phân tích ngữ nghĩa tiềm ẩn xác suất, một phương pháp phân cụm
tài liệu phổ biến.
15
2.2. Kỹ thuật phân rã ma trận không âm NMF và ứng dụng trong mã hóa
tiếng nói
2.2.1 Kỹ thuật phân rã ma trận không âm NMF
Xấp xỉ phân rã ma trận không âm
Thông thường số cột của W và số hàng của H trong NMF được chọn để ma
trận tích WH sẽ trở thành xấp xỉ với V. Sự phân tách hoàn toàn của V sau đó lên
tới hai ma trận không âm W và H cũng như U dư, sao cho:
V = WH + U (2.4)
Các phần tử của ma trận dư có thể là âm hoặc dương.
Khi W và H nhỏ hơn V, chúng trở nên dễ dàng hơn để lưu trữ và thao tác.
Một lý do khác để nhân tố V thành các ma trận nhỏ hơn W và H, là nếu có thể biểu
diễn xấp xỉ các phần tử của V bằng dữ liệu ít hơn đáng kể, thì phải suy ra một số
cấu trúc tiềm ẩn trong dữ liệu.
Hệ số ma trận không âm
퐦∗퐤
Trong NMF tiêu chuẩn, hệ số ma trận 퐖 ∈ 퐑+ tức là, W có thể là bất cứ
thứ gì trong không gian đó. Convex NMF giới hạn các cột của W để kết hợp lồi
các vectơ dữ liệu đầu vào (푣1, 푣푛). Điều này cải thiện đáng kể chất lượng biểu
diễn dữ liệu của W. Hơn nữa, yếu tố ma trận kết quả H trở nên thưa thớt và trực
giao hơn.
Hệ số xếp hạng không âm
Trong trường hợp thứ hạng không âm của V bằng với thứ hạng thực tế của
nó, V = WH được gọi là hệ số thứ hạng không âm. Vấn đề tìm NRF của V, nếu nó
tồn tại, được biết đến là có độ phức tạp NP-hard.
Hàm chi phí khác nhau và tiêu chuẩn hóa
Có nhiều loại yếu tố ma trận không âm khác nhau. Các loại khác nhau phát
sinh từ việc sử dụng các hàm chi phí khác nhau để đo độ phân rã giữa V và WH
và có thể bằng cách chính quy hóa ma trận W và/hoặc H.
16
Hai hàm phân kỳ đơn giản được nghiên cứu bởi Lee và Seung là sai số bình
phương (hoặc chỉ tiêu Frobenius) và phần mở rộng của phân kỳ Kullback-Leibler
thành ma trận dương (phân kỳ Kullback-Leibler ban đầu được xác định trên các
phân phối xác suất). Mỗi phân kỳ dẫn đến một thuật toán NMF khác nhau, thường
giảm thiểu phân kỳ bằng cách sử dụng các quy tắ
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_phuong_phap_ma_hoa_tieng_noi_dung_ky_thu.pdf