BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Phạm Ngọc Hưng
NHẬN DẠNG TỰ ĐỘNG TIẾNG NÓI PHÁT ÂM LIÊN TỤC
CHO CÁC PHƯƠNG NGỮ CHÍNH CỦA TIẾNG VIỆT
THEO PHƯƠNG THỨC PHÁT ÂM
Chuyên ngành: Hệ thống thông tin
Mã số: 62480104
LUẬN ÁN TIẾN SĨ HỆ THỐNG THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Trịnh Văn Loan
2. TS. Nguyễn Hồng Quang
Hà Nội - 2017
2
LỜI CAM ĐOAN
Tôi xin cam đoan tất cả các nội dung trong luận án “Nhận dạng tự động tiếng nói
phát âm liên tục
150 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 448 | Lượt tải: 1
Tóm tắt tài liệu Luận án Nhận dạng tự động tiếng nói phát âm liên tục cho các phương ngữ chính của tiếng Việt theo phương thức phát âm, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
c cho các phương ngữ chính của tiếng Việt theo phương thức phát âm” là
cơng trình nghiên cứu của riêng tơi. Các số liệu, kết quả trong luận án là trung thực và
chưa từng được cơng bố trong bất kỳ cơng trình nào. Việc tham khảo các nguồn tài liệu đã
được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định.
TẬP THỂ HƯỚNG DẪN KHOA HỌC TÁC GIẢ LUẬN ÁN
PGS.TS. Trịnh Văn Loan Phạm Ngọc Hưng
TS. Nguyễn Hồng Quang
3
LỜI CẢM ƠN
Tơi xin bày tỏ lịng biết ơn tới Trường Đại học Bách khoa Hà Nội, Viện Cơng nghệ
Thơng tin và Truyền thơng, Bộ mơn Kỹ thuật máy tính, Bộ mơn Hệ thống thơng tin đã tạo
điều kiện thuận lợi cho tơi trong quá trình học tập tại Trường.
Tơi muốn gửi lời cảm ơn đặc biệt tới tập thể hướng dẫn trực tiếp là
PGS.TS. Trịnh Văn Loan và TS. Nguyễn Hồng Quang. Hai Thầy đã luơn tận tình giúp đỡ,
đưa ra những lời khuyên, những định hướng khoa học rất quý báu để tơi cĩ thể triển khai
và hồn thành cơng việc nghiên cứu của mình.
Xin chân thành cảm ơn các thầy cơ, các đồng nghiệp trong Bộ mơn Hệ thống
Thơng tin, Bộ mơn Kỹ thuật máy tính, Viện Cơng nghệ Thơng tin và Truyền thơng,
Trường Đại học Bách khoa Hà Nội nơi tơi học tập, thực hiện đề tài nghiên cứu đã nhiệt
tình giúp đỡ và động viên tơi trong suốt quá trình nghiên cứu.
Cảm ơn Khoa Cơng nghệ Thơng tin và Trường Đại học Sư phạm Kỹ thuật Hưng
Yên, nơi tơi đang cơng tác đã luơn tạo điều kiện cho tơi trong suốt quá trình nghiên cứu và
hồn thành luận án này.
Với tấm lịng biết ơn đến các thầy cơ, các nhà khoa học, các đồng nghiệp và bạn bè
thân hữu đã động viên và giúp đỡ tơi trong quá trình nghiên cứu.
Cuối cùng tơi muốn bày tỏ lịng biết ơn sâu sắc tới gia đình, nơi nuơi dưỡng và là
nguồn động lực để tơi vượt mọi trở ngại khĩ khăn để hồn thành luận án này.
Phạm Ngọc Hưng
4
MỤC LỤC
MỤC LỤC ............................................................................................................................. 4
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ............................................................ 7
DANH MỤC CÁC BẢNG .................................................................................................. 10
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ .......................................................................... 12
MỞ ĐẦU ............................................................................................................................. 14
1. TỔNG QUAN VỀ NHẬN DẠNG TIẾNG NĨI VÀ NHẬN DẠNG PHƯƠNG NGỮ
18
1.1. Nhận dạng tiếng nĩi .............................................................................................. 18
1.1.1. Tổng quan về nhận dạng tiếng nĩi ................................................................ 18
1.1.2. Lịch sử phát triển và các tiến bộ trong nghiên cứu nhận dạng tiếng nĩi ...... 19
1.1.3. Các thách thức đối với nhận dạng tự động tiếng nĩi ..................................... 20
1.1.4. Phân loại hệ thống nhận dạng tự động tiếng nĩi ........................................... 21
1.2. Nhận dạng phương ngữ ......................................................................................... 23
1.2.1. Các mơ hình nhận dạng phương ngữ ............................................................. 23
1.2.2. Nhận dạng phương ngữ theo các phương diện khác nhau ............................. 24
1.3. Nghiên cứu nhận dạng tiếng nĩi và nhận dạng phương ngữ tiếng Việt ............... 29
1.4. Một số mơ hình nhận dạng ................................................................................... 30
1.4.1. Mơ hình GMM .............................................................................................. 30
1.4.2. Bộ phân lớp SVM .......................................................................................... 32
1.4.3. Mạng nơ ron nhận tạo .................................................................................... 38
1.5. Kết chương ............................................................................................................ 54
2. XÂY DỰNG BỘ NGỮ LIỆU CHO NGHIÊN CỨU NHẬN DẠNG PHƯƠNG NGỮ
TIẾNG VIỆT ....................................................................................................................... 56
2.1. Tổng quan phương ngữ tiếng Việt ........................................................................ 56
2.1.1. Phương ngữ và phân vùng phương ngữ tiếng Việt ........................................ 56
2.1.2. Đặc điểm ngữ âm ba vùng phương ngữ chính của tiếng Việt ....................... 57
2.1.3. Sự khác biệt về từ vựng và ngữ nghĩa giữa ba vùng phương ngữ tiếng Việt 58
2.2. Cấu trúc âm tiết, âm vị trong phương ngữ tiếng Việt ........................................... 60
2.2.1. Âm tiết và âm vị trong tiếng Việt .................................................................. 60
2.2.2. Âm đệm và cách kết hợp âm đệm trong các phương ngữ ............................. 64
5
2.3. Phụ âm đầu trong phương ngữ tiếng Việt ............................................................. 65
2.3.1. Hệ thống phụ âm đầu ..................................................................................... 65
2.3.2. So sánh hệ thống phụ âm đầu ba phương ngữ Bắc-Trung-Nam ................... 67
2.4. Hệ thống thanh điệu và các biến thể trong phương ngữ tiếng Việt ...................... 67
2.4.1. Hệ thống thanh điệu Hà Nội .......................................................................... 68
2.4.2. Hệ thống thanh điệu Nghệ - Tĩnh và Huế ...................................................... 68
2.4.3. Hệ thống thanh điệu Đà Nẵng và Thành phố Hồ Chí Minh .......................... 69
2.4.4. Một số nhận xét về hệ thống thanh điệu các phương ngữ ............................. 70
2.5. Ảnh hưởng của phương ngữ tới nhận dạng tiếng nĩi ........................................... 71
2.6. Ngữ liệu phương ngữ trên thế giới và xây dựng bộ ngữ liệu dùng cho nhận dạng
phương ngữ tiếng Việt ..................................................................................................... 71
2.6.1. Phương pháp xây dựng bộ ngữ liệu phương ngữ tiếng Việt ......................... 72
2.6.2. Chuẩn bị và chuẩn hĩa văn bản ..................................................................... 73
2.6.3. Ghi âm ........................................................................................................... 75
2.6.4. Kết quả ghi âm và đặc tính VDSPEC ............................................................ 78
2.7. Phân tích một số đặc trưng phương ngữ tiếng Việt của bộ ngữ liệu VDSPEC .... 79
2.7.1. Biến thiên tần số cơ bản F0 theo thanh điệu của ba phương ngữ .................. 79
2.7.2. Phân tích thống kê phân bố F0 của các thanh điệu ........................................ 81
2.7.3. Phân tích dữ liệu dùng LDA .......................................................................... 83
2.8. Kết chương ............................................................................................................ 87
3. NHẬN DẠNG PHƯƠNG NGỮ TIẾNG VIỆT .......................................................... 89
3.1. Nhận dạng phương ngữ tiếng Việt với GMM ...................................................... 89
3.1.1. Cơng cụ thử nghiệm nhận dạng phương ngữ ALIZE .................................... 89
3.1.2. Lựa chọn số lượng hệ số MFCC .................................................................... 91
3.1.3. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
MFCC với tham số F0 ................................................................................................. 92
3.1.4. Thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thơng tương ứng và tham số F0 .............................................................. 95
3.1.5. Ảnh hưởng của số lượng thành phần Gauss đối với hiệu năng nhận dạng
phương ngữ tiếng Việt ................................................................................................. 96
3.2. SVM nhận dạng phương ngữ tiếng Việt ............................................................... 98
3.2.1. Bộ phân lớp SMO .......................................................................................... 98
6
3.2.2. Thử nghiệm nhận dạng phương ngữ tiếng Việt sử dụng SMO ..................... 99
3.3. lBk nhận dạng phương ngữ tiếng Việt ................................................................ 103
3.3.1. Bộ phân lớp IBk .......................................................................................... 103
3.3.2. Kết quả nhận dạng phương ngữ tiếng Việt sử dụng IBk ............................. 106
3.4. Nhận dạng phương ngữ tiếng Việt với bộ phân lớp MultilayerPerceptron ........ 107
3.4.1. Bộ phân lớp MultilayerPerceptron trong Weka .......................................... 107
3.4.2. MultilayerPerceptron nhận dạng phương ngữ tiếng Việt ............................ 107
3.5. JRip nhận dạng phương ngữ tiếng Việt .............................................................. 108
3.5.1. Bộ phân lớp JRip ......................................................................................... 108
3.5.2. Nhận dạng phương ngữ tiếng Việt với JRip ................................................ 109
3.6. Nhận dạng phương ngữ tiếng Việt với PART .................................................... 110
3.6.1. Bộ phân lớp PART ...................................................................................... 110
3.6.2. Kết quả dùng PART nhận dạng phương ngữ tiếng Việt ............................. 110
3.7. Kết chương .......................................................................................................... 110
4. CẢI THIỆN HIỆU NĂNG NHẬN DẠNG TIẾNG VIỆT VỚI THƠNG TIN VỀ
PHƯƠNG NGỮ ................................................................................................................ 112
4.1. HMM nhận dạng tiếng Việt nĩi .......................................................................... 112
4.1.1. Mơ hình HMM ............................................................................................ 112
4.1.2. HMM nhận dạng tiếng Việt nĩi theo ba phương ngữ chính ........................ 125
4.2. Cải thiện hiệu năng nhận dạng tiếng Việt nĩi thơng qua sử dụng thơng tin phương
ngữ 130
4.2.1. Mơ hình nhận dạng tiếng Việt nĩi với việc sử dụng thơng tin phương ngữ 130
4.2.2. Nhận dạng tiếng Việt nĩi khi cĩ thơng tin phương ngữ .............................. 132
4.3. Kết chương .......................................................................................................... 133
KẾT LUẬN VÀ KIẾN NGHỊ ........................................................................................... 134
TÀI LIỆU THAM KHẢO ................................................................................................. 137
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN ............................ 149
7
GIẢI THÍCH CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Chữ viết tắt Chữ viết đầy đủ Giải thích
AANN Auto-Associative Neural Network
AM Acoustic Model Mơ hình âm học
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
ARFF Attribute-Relation File Format
Định dạng file tham số đặc trưng
trong Weka
ASR Automatic Speech Recognition Tự động nhận dạng tiếng nĩi
BKSPEC Bach Khoa SPEech Corpus
Bộ ngữ liệu được phát triển tại Bộ
mơn Kỹ thuật Máy tính – Viện
Cơng nghệ Thơng tin và Truyền
thơng – Đại học Bách khoa Hà Nội
BKTC Bach Khoa Text Code
BMMI
Boosted Maximum Mutual
Information
Thơng tin tương hỗ cực đại tăng
cường
CD Concept Description Mơ tả khái niệm
CFG Context-Free Grammar Ngữ pháp phi ngữ cảnh
CMS Cepstral Mean Subtraction Trừ trung bình Cepstral
CMU SLM
Carnegie Mellon University
Statistical Language Modeling
Toolkit
Bộ cơng cụ mơ hình hĩa ngơn ngữ
thống kê của trường Carnegie
Mellon
DCF Detection Cost Function Hàm giá phát hiện
DET Detection Error Tradeoff Cân bằng sai số phát hiện
DL Descrition Length Độ dài mơ tả
DNN Deep Neural Networks Mạng nơ-ron sâu
ELRA
European Language Resources
Association
Hội tài nguyên ngơn ngữ châu Âu
EM Expectation Maximization Cực đại hĩa kỳ vọng
ERM Empirical Risk Minimization
Tối thiểu hĩa rủi ro theo kinh
nghiệm
F0 Fundamental frequency Tần số cơ bản
fMLLR feature-space MLLR
fMMI feature-space MMI
fMPE feature-space Minimum Phone Error
FST Finite-State-Transducer Chuyển trạng thái hữu hạn
GMM Gaussian Mixture Model Mơ hình hỗn hợp Gauss
8
HLDA
Heteroscedastic Linear Discriminant
Analysis
Phân tích phân biệt tuyến tính hiệp
phương sai khơng đồng nhất
HMM Hidden Markov Model Mơ hình Markov ẩn
HTK Hidden Markov Model Toolkit Bộ cơng cụ mơ hình Markov ẩn
IBk Instance Based k
Tên gọi bộ phân lớp k láng giềng
gần nhất trong Weka
IBL Instance Based Learning Học dựa trên đối tượng
IREP Incremental Reduced Error Pruning
JRip
KKT Karush–Kuhn–Tucker Điều kiện Karush–Kuhn–Tucker
k-NN k-Nearest Neighbour K láng giềng gần nhất
LDA Linear Discriminant Analysis Phân tích phân biệt tuyến tính
LDC Linguistic Data Consortium Hội đồn dữ liệu ngơn ngữ
LLR Log Likelihood Ratio
LPC Linear Prediction Coding Mã hĩa tiên đốn tuyến tính
MAP Maximum a Posteriori
MFCC Mel Frequency Cepstral Coefficients
Các hệ số Cepstral theo thang đo
tần số Mel
MHAH Mơ hình âm học
MHNN Mơ hình ngơn ngữ
MLLR
Maximum Likelihood Linear
Regression
MLLT
Maximum Likelihood Linear
Transforms
MMI Maximum Mutual Information
MPE Minimum Phone Error Cực tiểu hĩa lỗi âm
NIST
National Institute of Standards and
Technology
Viện Tiêu chuẩn và Cơng nghệ
Quốc gia của Mỹ
NLP Natural Language Processing Xử lý ngơn ngữ tự nhiên
NN Neural Networks
PART
PCA Principal Component Analysis Phân tích các thành phần chính
PLP Perceptual Linear Prediction Tiên đốn cảm thụ tuyến tính
PNB Phương ngữ Bắc
PNN Phương ngữ nam
PNT Phương ngữ Trung
9
PPR Parallel Phone Recognition
PPRLM
Parallel Phone Recognition followed
by Language Modeling
PRLM
Phone Recognition followed by
Language Modeling
QP Quadratic Programming Quy hoạch tồn phương
RBF Radial Basis Function Hàm cơ bản hướng Gauss
RIPPER
Repeated Incremental Pruning to
Produce Error Reduction
RM Risk Minimization Tối thiểu hĩa rủi ro
SAT Speaker Adaptive Training Huấn luyện thích nghi người nĩi
SBS Sequential Backward Selection Lựa chọn lùi lần lượt
SFS Sequential Forward Selection Lựa chọn tiến lần lượt
SMO Sequential Minimal Optimization
Thuật giải tối ưu hĩa cực tiểu lần
lượt
SRILM
Stanford Research Institute
Language Modeling
Bộ cơng cụ tạo mơ hình ngơn ngữ
SRI
SRM Structural Risk Minimization Tối thiểu hĩa rủi ro cấu trúc
SVM Support Vector Machines Máy véc-tơ hỗ trợ
TTS Text-to-Speech Văn bản thành tiếng nĩi
VDSPEC Vietnamese Dialect Speech Corpus Bộ ngữ liệu phương ngữ tiếng Việt
VTLN Vocal Tract Length Normalization Chuẩn hĩa chiều dài tuyến âm
WER Word Error Rate Tỷ lệ lỗi từ
10
DANH MỤC CÁC BẢNG
Bảng 2.1: Sự khác biệt giữa các phương ngữ về từ và cách sử dụng từ .............................. 59
Bảng 2.2: Cấu trúc âm tiết tiếng Việt .................................................................................. 61
Bảng 2.3: Hệ thống phụ âm làm âm đầu ............................................................................. 62
Bảng 2.4: Bảng các âm chính là nguyên âm đơn ................................................................ 63
Bảng 2.5: Cách thể hiện bằng chữ viết các nguyên âm ....................................................... 63
Bảng 2.6: Vị trí các âm vị trong hệ thống âm cuối .............................................................. 64
Bảng 2.7: Hệ thống phụ âm đầu ở Bắc Bộ .......................................................................... 66
Bảng 2.8: So sánh các hệ thống phụ âm đầu giữa PNB, PNT và PNN ............................... 67
Bảng 2.9: Phân loại thanh điệu theo truyền thống ............................................................... 67
Bảng 2.10: Đặc tính văn bản theo chủ đề ............................................................................ 73
Bảng 2.11: Tổ chức lưu dữ liệu của ngữ liệu VDSPEC ...................................................... 78
Bảng 2.12: Thống kê thời lượng ghi âm của VDSPEC theo phương ngữ .......................... 78
Bảng 2.13: Thống kê thời lượng ghi âm của VDSPEC theo chủ đề ................................... 79
Bảng 2.14: Ngữ cảnh chọn từ khảo sát thanh điệu .............................................................. 80
Bảng 3.1: Kết quả nhận dạng dùng GMM với các tham số MFCC, F0 và các giá trị chuẩn
hĩa từ F0 .................................................................................................................... 94
Bảng 3.2: Ma trận nhầm lẫn nhận dạng phương ngữ khơng phụ thuộc giới tính khi sử dụng
hệ số MFCC kết hợp với tham số F0 ......................................................................... 94
Bảng 3.3: Kết quả thử nghiệm nhận dạng phương ngữ tiếng Việt trong trường hợp kết hợp
formant, dải thơng tương ứng và các tham số F0 ....................................................... 96
Bảng 3.4: Tỷ lệ nhận dạng trung bình với số lượng thành phần Gauss khác nhau ............. 98
Bảng 3.5: Bộ phân lớp SMO, kết quả nhận dạng với 384 tham số ................................... 100
Bảng 3.6: Bộ phân lớp SMO, ma trâṇ sai nhầm với 384 tham số ..................................... 101
Bảng 3.7: Bộ phân lớp SMO, kết quả nhận dạng khi khơng cĩ thơng tin liên quan trực tiếp
F0 ............................................................................................................................. 101
Bảng 3.8: Bộ phân lớp SMO, ma trâṇ sai nhầm khi khơng có thơng tin liên quan trực tiếp
F0 ............................................................................................................................. 101
Bảng 3.9: Bộ phân lớp SMO, kết quả thử nghiệm khi chỉ dùng tham số liên quan trực tiếp
F0 ............................................................................................................................. 102
Bảng 3.10: Bộ phân lớp SMO, ma trâṇ sai nhầm khi chỉ sử duṇg tham sớ liên quan trực
tiếp F0 ...................................................................................................................... 102
Bảng 3.11: Bộ phân lớp SMO, kết quả nhận dạng khi chỉ dùng tham số liên quan trực tiếp
MFCC ....................................................................................................................... 102
Bảng 3.12: Bộ phân lớp SMO, ma trâṇ sai nhầm khi chỉ dùng tham sớ liên quan trực tiếp
MFCC. ...................................................................................................................... 102
Bảng 3.13: Thuật giải IBl, CD – Concept Description [8] ................................................ 104
11
Bảng 3.14: Mơ tả thuật giải k-láng giềng gần nhất ........................................................... 105
Bảng 3.15: Bộ phân lớp IBk, kết quả nhận dạng với k = 1 ............................................... 106
Bảng 3.16: Bộ phân lớp IBk, ma trâṇ sai nhầm với k=1 ................................................... 106
Bảng 3.17: Bộ phân lớp IBk, kết quả nhận dạng với k=5 ................................................. 106
Bảng 3.18: Bộ phân lớp IBk, ma trâṇ sai nhầm với k=5 ................................................... 107
Bảng 3.19: Kết quả nhận dạng phương ngữ tiếng Việt dùng MultilayerPerceptron ......... 108
Bảng 3.20: Ma trâṇ sai nhầm nhâṇ daṇg phương ngữ tiếng Việt dùng
MultilayerPerceptron................................................................................................ 108
Bảng 3.21: Kết quả dùng bộ phân lớp JRip nhận dạng phương ngữ tiếng Việt ................ 109
Bảng 3.22: Ma trâṇ sai nhầm khi dùng JRip nhâṇ daṇg phương ngữ tiếng Việt .............. 109
Bảng 3.23: Kết quả sử dụng PART nhận dạng phương ngữ tiếng Việt ............................ 110
Bảng 3.24: Ma trâṇ sai nhầm khi sử dụng PART nhận dạng phương ngữ tiếng Việt ....... 110
Bảng 4.1: Phân chia tập dữ liệu dùng cho huấn luyện và thử nghiệm .............................. 129
Bảng 4.2: Kết quả nhận dạng khi chưa biết thơng tin phương ngữ ................................... 129
Bảng 4.3: Kết quả nhận dạng khi đã biết thơng tin về phương ngữ .................................. 132
12
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1: Quyết định lề mềm .............................................................................................. 33
Hình 1.2: Ba phương pháp khác nhau huấn luyện SVM: Chunking, Osuna và SMO ....... 37
Hình 1.3: Mơ hình một nơ-ron ............................................................................................ 38
Hình 1.4: Biến đổi làm mịn tạo ra do cĩ thiên áp bk ; lưu ý là vk = bk nếu uk = 0. .............. 40
Hình 1.5: Mơ hình nơ-ron phi tuyến .................................................................................... 40
Hình 1.6: Hàm ngưỡng ........................................................................................................ 41
Hình 1.7: Hàm kích tuyến tính đoạn ................................................................................... 42
Hình 1.8: Hàm kích hoạt Sigmoid với tham số độ dốc a ..................................................... 43
Hình 1.9: Mạng nơ-ron truyền thẳng một lớp ..................................................................... 43
Hình 1.10: Mạng nơ-ron truyền thẳng cĩ kết nối đầy đủ bao gồm một lớp ẩn và một lớp ra
.................................................................................................................................... 45
Hình 1.11: Mạng nơ-ron hồi quy khơng cĩ vịng tự phản hồi và khơng cĩ nơ-ron ẩn ........ 46
Hình 1.12: Mạng nơ-ron hồi quy với các nơ-ron ẩn ............................................................ 46
Hình 1.13: Kiến trúc đồ thị của Multilayer Perceptron với hai lớp ẩn. ............................... 49
Hình 1.14: Minh họa chiều của hai luồng tín hiệu cơ bản trong Multilayer Perceptron (hàm
tín hiệu lan truyền thẳng và lan truyền ngược của tín hiệu lỗi) ................................. 49
Hình 1.15: Đồ thị luồng tín hiệu chi tiết của nơ-ron ra j ..................................................... 51
Hình 1.16: Đồ thị chi tiết luồng tín hiệu của nơ-ron ra k kết nối với nơ-ron ẩn j ............... 53
Hình 2.1: Vị trí, vai trị âm đệm trong âm tiết ..................................................................... 62
Hình 2.2: Sơ đồ kết hợp âm đệm /w/ với các nguyên âm ở PNB và PNT .......................... 65
Hình 2.3: So sánh cấu trúc âm tiết PNB, PNT với PNN ..................................................... 65
Hình 2.4: Sơ đồ biến đổi các phụ âm ngạc hĩa trong PNB và PNN ................................... 66
Hình 2.5: Đồ thị hệ thống thanh điệu Hà Nội (a), Huế (b), TP Hồ Chí Minh (c) ............... 70
Hình 2.6: Sự phân bố các âm vị trong VDSPEC ................................................................. 74
Hình 2.7: Đáp ứng tần số của SM48 ................................................................................... 75
Hình 2.8: (a) Dạng sĩng tín hiệu được ghi âm. (b) Tỉ số tín hiệu trên nhiễu tính theo dB và
giá trị trung bình của tỉ số này .................................................................................... 77
Hình 2.9: Biến thiên F0 các thanh điệu của giọng nữ Hà Nội (a), Huế (b) và Thành phố Hồ
Chí Minh (c) ............................................................................................................... 80
Hình 2.10: Biến thiên F0 các thanh điệu của giọng nam Hà Nội (a), Huế (b) và Thành phố
Hồ Chí Minh (c) ......................................................................................................... 80
Hình 2.11: Biến thiên F0 của thanh hỏi ............................................................................... 81
Hình 2.12: Biến thiên F0 của thanh ngã .............................................................................. 81
Hình 2.13: Biến thiên F0 của thanh nặng ............................................................................ 82
Hình 2.14: Biến thiên F0 của thanh ngang .......................................................................... 82
13
Hình 2.15: Biến thiên F0 của thanh huyền .......................................................................... 82
Hình 2.16: Biến thiên F0 của thanh sắc ............................................................................... 82
Hình 2.17: Các bước thực hiện phân lớp theo LDA ............................................................ 85
Hình 2.18: Phân lớp phương ngữ dùng LDA cho thanh sắc (từ “chính”) ........................... 86
Hình 2.19: Phân lớp phương ngữ dùng LDA cho thanh ngang (từ “kinh”) ........................ 86
Hình 2.20: Phân lớp phương ngữ dùng LDA cho thanh nặng (từ “mạnh”) ........................ 86
Hình 2.21: Phân lớp phương ngữ dùng LDA cho thanh huyền (từ “thành”) ...................... 86
Hình 2.22: Phân lớp phương ngữ dùng LDA cho thanh hỏi (từ “tỉnh”) .............................. 87
Hình 2.23: Phân lớp phương ngữ dùng LDA cho thanh ngã (từ “vĩnh”) ............................ 87
Hình 3.1: Sơ đồ hệ thống nhận dạng phương ngữ tiếng Việt .............................................. 90
Hình 3.2: Thử nghiệm đánh giá, lựa chọn số hệ số MFCC ................................................. 91
Hình 3.3: Đồ thị DET với số thành phần Gauss (M) từ 20 đến 4096 .................................. 97
Hình 3.4: Hai nhân tử Lagrange phải đáp ứng tất cả các ràng buộc của bài tốn đầy đủ. . 99
Hình 3.5: Phương pháp k láng giềng gần nhất .................................................................. 105
Hình 4.1: Kiến trúc bộ nhận dạng dựa trên HMM ............................................................ 114
Hình 4.2: Mơ hình âm vị dựa trên HMM .......................................................................... 116
Hình 4.3: Mơ hình âm phụ thuộc ngữ cảnh ....................................................................... 118
Hình 4.4: Tạo mơ hình kết nối các trạng thái .................................................................... 119
Hình 4.5: Phân cụm cây quyết định ................................................................................... 120
Hình 4.6: Minh họa lưới từ ................................................................................................ 123
Hình 4.7: Minh họa mạng nhầm lẫn .................................................................................. 124
Hình 4.8: Cấu trúc lưới từ tạo ra bởi hệ thống HTK ......................................................... 125
Hình 4.9: Mơ hình nhận dạng tự động tiếng nĩi ............................................................... 126
Hình 4.10: Phương pháp huấn luyện của Kaldi ................................................................. 127
Hình 4.11: Sơ đồ hệ thống nhận dạng tiếng Việt nĩi sử dụng thơng tin phương ngữ ....... 130
Hình 4.12: Sơ đồ hệ thống nhận dạng tiếng nĩi sử dụng thơng tin phương ngữ trên bộ ngữ
liệu VDSPEC ........................................................................................................... 131
14
MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, với sự phát triển mạnh mẽ của máy tính, các ứng dụng của máy tính
trong mọi lĩnh vực của cuộc sống đã làm nảy sinh nhiều yêu cầu nhằm đơn giản hố quá
trình sử dụng, tăng hiệu quả khai thác máy tính và các ứng dụng trên máy tính. Trong bối
cảnh đĩ, xử lý tiếng nĩi nĩi chung và nhận dạng tiếng nĩi nĩi riêng là vấn đề đã và đang
được quan tâm nghiên cứu, phát triển ứng dụng nhằm nâng cao hiệu quả sử dụng của máy
tính phục vụ con người trong cuộc sống.
Trên thế giới đã cĩ nhiều nghiên cứu về vấn đề này và đã đạt được nhiều thành
cơng. Nhiều sản phẩm hữu ích từ các kết quả nghiên cứu đã được ứng dụng trong thực tế.
Riêng về nhận dạng tiếng Việt, mặc dù đã cĩ nhiều nghiên cứu và đạt được các thành cơng
nhất định nhưng để triển khai thành các sản phẩm ứng dụng thực tế vẫn cịn nhiều mặt hạn
chế, đặc biệt là độ chính xác, chất lượng nhận dạng. Ngồi các khĩ khăn trong nhận dạng
tiếng nĩi nĩi chung, nhận dạng tiếng Việt nĩi cịn gặp trở ngại lớn phải kể đến là vấn đề về
phương ngữ tiếng Việt.
Tiếng Việt cĩ nhiều phương ngữ khác nhau. Giữa các phương ngữ cĩ sự khác biệt
cả về từ vựng và ngữ âm trong đĩ ngữ âm là yếu tố quan trọng để tạo nên sự khác biệt và
phân chia các phương ngữ. Xét về từ vựng, sự khác nhau cĩ thể ở một số bộ phận cấu
thành từ hay sự biến đổi của từ. Sự khác nhau cũng cĩ thể xuất phát từ nguồn gốc của từ.
Ví dụ khi nĩi về cái kính (để đeo lên mắt), cái gương (để soi), theo cách gọi ở miền Bắc,
chúng được phân biệt rõ ràng bởi từ “kính”, “gương” (“đeo kính”, “soi gương”). Trong khi
đĩ, ở miền Nam, cả hai vật này chỉ được gọi bằng một từ là kiếng (biến thể về âm của
kính). Thay vì nĩi “đeo kính”, phương ngữ Nam lại dùng cách nĩi “đeo kiếng”. Cũng như
vậy, thay vì “soi gương” phương ngữ Nam lại dùng cách nĩi “soi kiếng”. Ở miền Trung,
hai vật kính và gương đều được gọi bằng từ “gương”. Hai thao tác tương ứng đeo kính, soi
gương được diễn đạt bằng “soi gương” và “đeo gương”. Xét về mặt ngữ âm, sự khác biệt
giữa các phương ngữ được thể hiện khá rõ ràng. Chẳng hạn với phương ngữ Nam, hai phụ
âm cuối “nh” và “ch” thường bị biến đổi thành “n” và “t” trong cách phát âm. Do vậy, từ
“tịch” theo cách phát âm giọng miền Nam thì lại là “tựt” (nguyên âm “i” biến thành “ư” và
phụ âm cuối “ch” thành “t”) hoặc “nhanh” thì thành “nhăn”, “m...n cứu của Bailey về
việc cĩ tồn tại phương ngữ Midland hay khơng (năm 1968) và tiếp tục được Davis,
Lawrence M. cùng các đồng sự nhắc lại trong một nghiên cứu năm 1992 [34].
Nhận dạng phương ngữ nhiều ngơn ngữ trên thế giới đã được nghiên cứu như tiếng
Ả rập, tiếng Thái, tiếng Trung Quốc, tiếng Anh,... Cĩ nhiều nghiên cứu phương ngữ tiếng
Ả rập đã được cơng bố như [20, 50, 109]... Nghiên cứu nhận dạng phương ngữ tiếng Ả rập
của tác giả Fadi Biadsy và cộng sự sử dụng câu nhận dạng cĩ độ dài 30 giây. Trong nghiên
cứu [20], nhĩm tác giả đã sử dụng mơ hình ràng buộc âm vị để nhận dạng phương ngữ cho
độ chính xác đạt 81,60%, kết hợp ngơn điệu và ràng buộc âm vị cho độ chính xác nhận
dạng 86,33% [50]. Nghiên cứu của M. Belgacem và các thành viên sử dụng mơ hình GMM
nhận dạng tự động phương ngữ tiếng Ả rập cho độ chính xác 73,33%. Trong nghiên cứu
này, nhĩm tác giả sử dụng bộ cơng cụ mã nguồn mở ALIZE để thực hiện các thử nghiệm
nhận dạng [109].
Với quan điểm ngơn ngữ học, việc phân biệt các phương ngữ cĩ thể dựa trên các
đặc điểm, các thành phần của chính tiếng nĩi được sử dụng như hệ thống nguyên âm, phụ
âm, từ vựng, hệ thống các từ, các đặc trưng âm học, âm vị,...
1) Nhận dạng phương ngữ dựa trên nguyên âm, phụ âm
Một trong các nghiên cứu đầu tiên nhận dạng phương ngữ dựa trên nguyên âm là
nghiên cứu của Peterson và Barney [129]. Các tác giả đã thực hiện nghiên cứu dựa trên đặc
điểm về khoảng cách nguyên âm. Nghiên cứu của họ đã chỉ ra rằng các nguyên âm được
hiểu khác nhau nếu xuất hiện trong vị trí khác nhau trong khơng gian formant. Tương tự,
nguyên âm được phát âm bởi người nĩi khác nhau thì xuất hiện ở vị trí khác nhau trong
khơng gian formant. Nghiên cứu này cĩ một đĩng gĩp đáng kể trong lĩnh vực nhận dạng
và là cơng trình đầu tiên giới thiệu tầm quan trọng của phương ngữ. Hướng đi này cũng
gặp trở ngại là việc xác định sự thay đổi khoảng cách của các nguyên âm diễn ra thế nào sẽ
khĩ khăn. Chính vì vậy, nhĩm tác giả Hillenbrand, Clark và Wheeler [71] đã lặp lại thử
nghiệm tương tự nhằm tìm ra sự thay đổi một cách chính xác khoảng cách của các nguyên
âm. Nghiên cứu của họ đã xác định được sự thay đổi về phổ, độ dài và trạng thái ổn định
của các formant F1, F2 cho mỗi nguyên âm. Nghiên cứu đi đến kết luận sự giảm khoảng
cách của các nguyên âm khơng làm ảnh hưởng tới khả năng nhận thức đối với nguyên âm.
Kết quả họ tìm được cũng trùng với kết luận trước đĩ, độ đo formant F1 và F2 chưa đủ để
mơ tả cho sự phân tách nguyên âm với nhau. Vấn đề này lại tiếp tục được lặp lại trong
nghiên cứu của Hajiwara. Trong nghiên cứu này Hajiwara [66] đã phát hiện ra phương ngữ
Nam California rất hiếm khi phát âm được các nguyên âm trịn mơi. Đây là lý do mà F2
của một số nguyên âm do họ phát âm cĩ tần số cao hơn. Tiếp tục khai thác các đặc trưng
của nguyên âm trong nhận dạng phương ngữ, Fridland cùng đồng sự đã đề cập tới trong
nghiên cứu được cơng bố mới đây vào năm 2014 [56]. Trong nghiên cứu này, các tác giả
26
đã đề cập tới sự khác nhau về thời lượng và phổ của các nguyên âm giữa các phương ngữ.
Họ xây dựng độ đo tỷ lệ F1/F2 và độ dài của nguyên âm để phân biệt các phương ngữ.
Phụ âm đã được xem là thơng tin định danh phương ngữ giúp phân biệt giọng
người nước ngồi và các giai tầng xã hội. Theo hướng này, William Labov đã tiến hành
nghiên cứu sự khác nhau của các giọng theo phương diện xã hội học [173, 174]. Trong
nghiên cứu này, tác giả sử dụng sự khác nhau trong cách phát âm phụ âm "r" khi đi sau
một nguyên âm như các từ "bar", "sort", "churn". Đây là cách đơn giản để phân biệt tiếng
Anh-Mỹ và Anh-Anh [173, 174].
Tĩm lại, các nghiên cứu đã chỉ ra rằng phụ âm và khoảng cách nguyên âm là những
đặc trưng quan trọng trong phân biệt phương ngữ và cĩ thể được sử dụng như các tham số
cho hệ thống nhận dạng phương ngữ.
2) Nhận dạng phương ngữ sử dụng các đặc trưng về âm học và âm vị
Mơ hình âm học đã được quan tâm và đề cập tới trong nhiều cơng trình nghiên cứu
hàng thập kỷ qua cho cả nhận dạng ngơn ngữ và định danh người nĩi. Đây là cách tiếp cận
đơn giản và cho kết quả tương đối tốt. Trong nhận dạng phương ngữ, mơ hình âm học
được sử dụng với giả thiết rằng sự khác biệt của các phương ngữ thể hiện trong phân bố
phổ tiếng nĩi của phương ngữ. Cĩ nhiều nghiên cứu nhận dạng phương ngữ sử dụng các
đặc trưng âm học và âm vị đã được thực hiện như [19, 28, 50, 136, 146].
1.2.2.2. Theo phương diện của phương pháp nhận dạng
Nhiều phương pháp đã được sử dụng trong nhận dạng ngơn ngữ cũng được sử dụng
cho nhận dạng phương ngữ như GMM, HMM, Máy hỗ trợ véc tơ SVM (Support Vector
Machines), mạng nơ ron NN (Neural Networks), mạng nơ ron sâu DNN (Deep Neural
Networks)...
1) Mơ hình hỗn hợp Gauss
Đến nay, đã cĩ nhiều nghiên cứu sử dụng mơ hình GMM để nhận dạng phương
ngữ. Một trong số đĩ cĩ thể kể đến là nghiên cứu của Chen, Chang và Wang phân lớp
phương ngữ tiếng Trung [29]. Mơ hình GMM dựa trên các véc tơ đặc trưng MFCC để
nhận dạng các giọng Beijing, Shanghai, Guangdong và Taiwan của Trung Quốc. Mơ hình
GMM đã được huấn luyện để nhận dạng được hầu hết các giọng được đưa vào thử nghiệm.
Cĩ thể sử dụng các kiểu giọng đã được nhận dạng để lựa chọn mơ hình phụ thuộc giọng
nĩi cho hệ thống nhận dạng tiếng nĩi. Tiếp theo, cĩ thể kể đến nghiên cứu của Faria sử
dụng GMM để nhận dạng giọng nĩi cĩ phải là tiếng Anh chuẩn hay khơng [51]. Nghiên
cứu này nhằm phân biệt tiếng nĩi cĩ phải là giọng Anh Mỹ chuẩn hay khơng từ những
người nĩi tiếng Anh là người Nga, Tây Ban Nha, Pháp, Đức, Trung Quốc, Ấn Độ và từ
một số nước khác. Nghiên cứu này dựa trên các đặc trưng về từ vựng để nhận dạng giọng
của người nĩi. Các thử nghiệm được thực hiện trên bộ ngữ liệu Fisher với độ chính xác
nhận dạng đạt 84,5% cho giọng chuẩn.
27
2) Mơ hình Markov ẩn
Mơ hình Markov ẩn HMM coi phương ngữ như là quá trình ngẫu nhiên cĩ thể
chuyển từ trạng thái này sang trạng thái khác với các xác suất khác nhau. Mỗi trạng thái
tương ứng với một xử lý từ đĩ cĩ thể chuyển sang trạng thái mới với xác suất mới. Trạng
thái được gọi là ẩn là những trạng thái mà việc nhận dạng cho phép tìm ra chúng. HMM
được huấn luyện theo một đặc trưng cụ thể. Với phương ngữ, các mơ hình được thành lập
và hiệu chỉnh cho từng phương ngữ khác nhau. Tiếng nĩi cần được nhận dạng sau đĩ sẽ
đem so khớp với từng mơ hình và đánh giá bằng điểm số. Mơ hình cho điểm số cao nhất
được chọn và phương ngữ tương ứng với mơ hình đã huấn luyện là kết quả nhận dạng.
Nghiên cứu của Nancy F. Chen, Wade Shen, Joseph P. Campbell, Pedro A. Torres-
Carrasquillo sử dụng mơ hình HMM nhận dạng phương ngữ tiếng Ả rập dựa trên đặc điểm
phát âm của từng phương ngữ [28]. Một mơ hình HMM được sử dụng để dĩng các âm vị
với các âm của từng phương ngữ cụ thể để mơ tả hiện tượng chèn, thay thế và xĩa xuất
hiện khi nào với mức độ thường xuyên ra sao. Cây quyết định được sử dụng để tìm ra quy
luật ngữ âm phụ thuộc ngữ cảnh. Các tác giả đã tiến hành nhận dạng cho bốn phương ngữ
của tiếng Ả rập. Kết quả nhận dạng sử dụng mơ hình được đề xuất cho kết quả nhận dạng
tương đối tăng 21-36% so với mức cơ sở.
Cũng sử dụng HMM nhận dạng phương ngữ, Fadi Biadsy và các cộng sự sử dụng
mơ hình ràng buộc âm vị nhận dạng năm phương ngữ tiếng Ả rập [20]. Nhĩm tác giả đã sử
dụng HMM toolkit (HTK) để tiến hành các thử nghiệm. Các mơ hình âm học được xây
dựng sử dụng HMM ba trạng thái liên tục với hỗn hợp 12 thành phần Gauss cho mỗi trạng
thái. Các tác giả đã trích chọn đặc trưng bao gồm 12 hệ số MFCC trên mỗi khung tiếng nĩi
cĩ độ dài 25ms và độ dịch chuyển khung là 10ms. Mỗi véc tơ đặc trưng cĩ kích thước là 39
bao gồm 13 đặc trưng (12 hệ số MFCC với một giá trị năng lượng), 13 giá trị đạo hàm bậc
nhất và 13 giá trị đạo hàm bậc hai của 13 đặc trưng ban đầu. Các thử nghiệm được thực
hiện trên bộ ngữ liệu Broadcast News TDT4 (47,61 giờ tiếng nĩi với tần số lấy mẫu là
8 kHz). Kết quả nhận dạng phương ngữ đạt độ chính xác tổng thể là 81,60% với độ dài
tiếng nĩi nhận dạng là 30 giây.
3) Mơ hình máy hỗ trợ véc tơ
Máy hỗ trợ véc tơ (SVM) cũng là một trong các bộ phân lớp hiệu quả thường được
dùng gần đây. SVM cĩ thể phân chia các đối tượng thành hai lớp bằng một đường biên với
khoảng trống lề vừa đủ. Một trong các ưu điểm chính của SVM là ngay cả khi khơng thể
phân chia một cách tuyến tính các nhĩm thì các nhĩm này cĩ thể được thay đổi bằng cách
sử dụng hàm nhân (kernel function) với các khoảng cách lề khác và khi đĩ chúng cĩ thể
phân chia được.
SVM đã được sử dụng để phân biệt phương ngữ tiếng Anh - Trung, Anh - Ấn Độ
và Anh - Canada [65], nhận dạng phương ngữ và cảm xúc tiếng Hindi [136]. Trong nghiên
cứu [136], các tác giả xây dựng hai hệ thống nhận dạng phương ngữ và nhận dạng cảm xúc
độc lập với nhau. Hệ thống nhận dạng phương ngữ sử dụng đặc trưng về phổ, độ dài âm
tiết, đường bao tần số cơ bản F0 và đường bao năng lượng. Các mơ hình được huấn luyện
28
cho năm phương ngữ cần nhận dạng là Chattisgharhi (C), Bengali (B), Marathi (M),
General (G) và Telugu (T). Trường hợp chỉ sử dụng đặc trưng phổ, tỷ lệ nhận dạng đúng
khoảng 64%. Tỷ lệ nhận dạng trung bình đạt được trong trường hợp sử dụng độ dài âm tiết,
tần số cơ bản và năng lượng lần lượt là 58%, 64% và 49%. Trường hợp kết hợp đồng thời
các tham số trên cho tỷ lệ nhận dạng đúng đến 81%.
4) Mơ hình mạng nơ ron
Trong quá trình tìm kiếm các mơ hình mới, hiệu quả thay thế cho con người trong
nhận dạng, người ta đã khám phá ra một số mơ hình mạng nơ ron (NN) cĩ khả năng sử
dụng trong các hệ thống xử lý tiếng nĩi [135]. Các mơ hình ngơn điệu dựa trên mạng nơ
ron đã chứng minh là cĩ khả năng nắm bắt được các thơng tin về ngơn điệu cụ thể của
người nĩi, ngơn ngữ và các loại đơn vị âm thanh [135]. Với kết quả rất hứa hẹn, các mơ
hình ngơn điệu được đề xuất mở rộng cho các mơ hình thơng thường nhằm nâng cao hiệu
năng cho các hệ thống nhận dạng ngơn ngữ, nhận dạng tiếng nĩi và nhận dạng người nĩi.
Ngồi ra, các nghiên cứu cũng chỉ ra rằng các mơ hình ngơn điệu cĩ thể nâng cao chất
lượng của hệ thống tổng hợp tiếng nĩi. Nghiên cứu của K Sreenivasa Rao và Shashidhar G
Koolagudi sử dụng mạng nơ ron nhận dạng phương ngữ tiếng Hindi (năm 2011) cho tỷ lệ
nhận dạng đúng phương ngữ lên đến 81% [136]. Trong nghiên cứu này các tác giả sử dụng
mơ hình AANN (Auto-Associative Neural Network) bao gồm năm lớp. Lớp thứ nhất và
lớp thứ năm lần lượt là lớp vào và lớp ra. Các lớp ẩn bao gồm lớp thứ ba đến lớp thứ tư. Số
lượng nơ ron ở các lớp khác nhau. Hàm kích hoạt ở lớp vào và lớp ra là hàm tuyến tính cịn
hàm kích hoạt ở các lớp ẩn là hàm phi tuyến tanh(s) trong đĩ s là giá trị kích hoạt. Cũng sử
dụng mạng nơ ron, Sinha, S. và đồng sự đã xây dựng mơ hình mạng nơ ron nạp trước bao
gồm hai lớp để nhận dạng phương ngữ tiếng Hindi [148]. Các tác giả đã thử nghiệm nhận
dạng cho các phương ngữ chính của tiếng Hindi bao gồm Khariboli, Bhojpuri, Haryanvi và
Bagheli với ngữ liệu được thu thập từ 15 người nĩi bao gồm cả nam và nữ cho mỗi phương
ngữ. Nghiên cứu này sử dụng các đặc trưng của tiếng nĩi bao gồm phổ và ngơn điệu cho
độ chính xác nhận dạng đạt 79%.
5) Mơ hình mạng nơ ron sâu
Mạng nơ ron sâu (DNN) là mạng nơ ron nhân tạo ANN (Artificial Neural Network)
với nhiều lớp ẩn nằm giữa lớp vào và lớp ra. DNN thường được thiết kế theo kiểu mạng
nạp trước. Các nghiên cứu gần đây đạt được các thành cơng lớn với kiến trúc mạng hồi quy
cho các ứng dụng như mơ hình hĩa ngơn ngữ [141], nhận dạng tiếng nĩi [64], định danh
ngơn ngữ [99, 152]. DNN đã được nghiên cứu ứng dụng trong nhận dạng phương ngữ.
JING Ya-peng cùng nhĩm nghiên cứu đã sử dụng DNN huấn luyện cĩ giám sát nhận dạng
phương ngữ tiếng Trung [84]. Các tác giả đã thực hiện nghiên cứu của mình dựa trên việc
chỉnh sửa phần mềm QuickNet và sử dụng DNN với phương pháp tiền huấn luyện xây
dựng các lớp mạng cho DNN. Bước tiền huấn luyện được khởi đầu là một mạng gồm 3 lớp
cho đến khi đạt được lớp tối đa. Các trọng số khởi đầu của một lớp mạng mới là kết hợp
một phần trọng số của lớp đã huấn luyện trước đĩ với các trọng số ngẫu nhiên gần với lớp
29
ra. Tiếp theo, sử dụng phương pháp huấn luyện lan truyền ngược truyền thống để huấn
luyện mạng sau khi đã khởi tạo trọng số cho tối đa các lớp mạng.
6) Một số phương pháp khác
Ngồi ra, cĩ thể kể đến một số phương pháp khác được dùng trong nhận dạng
phương ngữ như hiệp biến thống kê (Statistical Covariance), GPU (Graphics Processing
Units)... Kỹ thuật phân cụm cũng là một hướng tiếp cận hiệu quả trong nhận dạng phương
ngữ [112]. Trong nghiên cứu của mình, N. Nagy và các thành viên đã thực hiện phân cụm
các phương ngữ sử dụng các đặc trưng âm vị chung của chúng. Cũng cĩ những nghiên cứu
nhằm tăng tốc hệ thống nhận dạng bằng cách sử dụng cơng nghệ mới. Nghiên cứu của
Hanani sử dụng các bộ xử lý đồ họa (GPU) để tăng tốc độ xử lý của bộ nhận dạng [68].
1.3. Nghiên cứu nhận dạng tiếng nĩi và nhận dạng phương ngữ
tiếng Việt
Nghiên cứu về nhận dạng tiếng Việt nĩi đã được một số nhà nghiên cứu trong và
ngồi nước thực hiện. Các nghiên cứu đã được thực hiện cho tiếng nĩi rời rạc và tiếng nĩi
liên tục.
Để làm tiền đề cho các nghiên cứu sau này đối với tiếng Việt nĩi, trước tiên hệ
thống nguyên âm tiếng Việt đã được phân tích để xác định các đặc trưng cơ bản như phân
bố formant [163], quy luật biến thiên thanh điệu. Đối với nhận dạng tiếng Việt nĩi, đã cĩ
các nghiên cứu như nhận dạng từ tiếng Việt phát âm rời rạc, số lượng từ vựng hạn chế [31,
120]. Nghiên cứu về hệ thống nhận dạng các số phát âm liên tục bằng tiếng Việt thực hiện
ở [121]. Nhĩm tác giả đã thử nghiệm trên 442 câu với 2340 từ tiếng nĩi phát âm qua
đường điện thoại. Kết quả thử nghiệm cho thấy khả năng nhận dạng đạt tới 96,83% các từ
chính xác và 87,67% các câu được nhận dạng đúng. Gần đây, cĩ các nghiên cứu nhận dạng
tiếng Việt phát âm liên tục độc lập người nĩi cĩ số lượng từ vựng lớn (7000 âm tiết tương
ứng khoảng 40000 từ) [115, 116, 117, 118]. Nghiên cứu trong [156] là nhận dạng tiếng nĩi
liên tục tiếng Việt vốn từ vựng lớn, sử dụng bộ cơng cụ HTK trên cơ sở dữ liệu âm thanh
thu từ các đài truyền thanh VOV. Trong trường hợp này, độ chính xác nhận dạng được cải
thiện đến 10% và sai số liên quan giảm 36,5%. Hệ thống nhận dạng tiếng Việt nĩi cũng đã
được thực hiện được bằng hệ nhúng và hoạt động trên thời gian thực [4]. Nghiên cứu nhận
dạng cho ngơn ngữ các nước Đơng Nam Á bao gồm tiếng Trung, tiếng Thái và tiếng Việt
đã được thực hiện theo cách tiếp cận mới [164]. Theo đĩ, các tác giả đã thực hiện nhận
dạng ở mức từ thay vì mức âm tiết như một số nghiên cứu đã cĩ trước đây. Kiến trúc
FlaVoR bao gồm 2 lớp được sử dụng để nhận dạng. Lớp thứ nhất cĩ chức năng tìm kiếm
các nguyên âm đơn. Lớp thứ hai thực hiện nhiệm vụ giải mã từ. Thử nghiệm trên tiếng
Việt (dữ liệu âm thanh lấy từ các bản tin thời sự Việt Nam- VNBN) cho thấy cách tiếp cận
này vừa hiệu quả lại linh hoạt.
30
Nhiều mơ hình, cơng nghệ, giải pháp khác nhau đã được nghiên cứu và thử nghiệm
trong hệ thống nhận dạng tiếng nĩi tự động trong đĩ mơ hình HMM được ứng dụng khá
phổ biến. Theo nội dung nghiên cứu được cơng bố tại [117], các tác giả đã sử dụng mơ
hình HMM trong nhận dạng các giọng của tiếng Việt nĩi phát âm liên tục. Từ các thực
nghiệm, nhĩm tác giả đã chỉ ra phương pháp tốt nhất để học F0 và năng lượng là sử dụng
hàm biến đổi logarit đồng thời cũng chỉ ra việc sử dụng 8 mẫu giọng (thay vì 6 giọng theo
cách bỏ dấu) và sự khác biệt giữa giọng nam và giọng nữ của người nĩi để tăng độ chính
xác của hệ thống nhận dạng tiếng Việt nĩi.
Về phương diện ngơn ngữ, tiếng Việt và phương ngữ tiếng Việt đã cĩ nhiều nghiên
cứu được tổng hợp trong cơng trình của tác giả Hồng Thị Châu [2], các tác giả khác như
Hồng Phê [1], Nguyễn Kim Thản, Nguyễn Trọng Báu, Nguyễn Văn Tu [5], Mai Ngọc
Chừ, Vũ Đức Nghiệu, Hồng Trọng Phiến [3], Trần Thị Ngọc Lang [162], Võ Xuân Trang
[171]. Tuy nhiên, nghiên cứu phương ngữ tiếng Việt theo phương diện xử lý tín hiệu cịn
rất hạn chế.
1.4. Một số mơ hình nhận dạng
1.4.1. Mơ hình GMM
Phân bớ Gauss còn goị là phân bớ chuẩn, đươc̣ sử duṇg rơṇg raĩ cho viêc̣ mơ hình
hóa các phân bớ của các biến liên tuc̣. Trong trường hơp̣ véc tơ 𝑿 là một chiều, phân bớ
Gauss có thể đươc̣ viết dưới daṇg:
𝑔(𝑿|𝝁, 𝚺) =
1
(2𝜋𝚺)1/2
exp {−
1
2𝚺
(𝑿 − 𝝁)2} (1.1)
Trong đó 𝝁 là trung bình, 𝚺 là phương sai. Trường hơp̣ véc tơ 𝑿 có D chiều, phân
bớ Gauss đa thể hiện có daṇg:
𝑔(𝑿|𝝁, 𝚺) =
1
(2𝜋)𝐷/2
1
|𝚺|1/2
exp {−
1
2
(𝑿 − 𝝁)𝑇𝚺−1(𝑿 − 𝝁)} (1.2)
Trong đó 𝝁 là véc tơ trung bình có D chiều, 𝚺 là ma trâṇ hiêp̣ phương sai có kích
thước 𝐷 𝑥 𝐷, |𝚺| là điṇh thức của 𝚺.
Phân bớ Gauss tương ứng với nhiều bới cảnh khác nhau và có thể đươc̣ sử duṇg
trong những tình huớng rất đa daṇg. Chẳng haṇ với trường hơp̣ biến là một chiều và thưc̣,
phân bớ Gauss là phân bớ cưc̣ đaị hóa entropy. Phân bớ Gauss đa chiều cũng có thuơc̣ tính
này.
Mơ hình hỗn hợp Gauss đa thể hiện (multi-variate) GMM được biết đến là một
trong các mơ hình cĩ khả năng phân lớp rất tốt đã được sử dụng trong các nghiên cứu về
nhận dạng người nĩi [80], định danh các phương ngữ tiếng Anh [159], tiếng Trung [102],
tiếng Thái [149], tiếng Hindi [146], nhận dạng ngơn ngữ [25, 160]. Lý do tại sao GMM
thường được dùng trong nhận dạng người nĩi, định danh ngơn ngữ và định danh phương
31
ngữ... cĩ thể được suy diễn như sau. Ngay cả trong trường hợp khơng nghe rõ nội dung câu
nĩi, con người vẫn cĩ khả năng cảm nhận đang nghe giọng người, ngơn ngữ, phương ngữ
nào... mà mình đã biết. Trong trường hợp như vậy, thơng tin tổng quát hay đường bao
thơng tin về ngữ âm đã giúp con người nhận ra giọng, ngơn ngữ, phương ngữ mà chưa cần
dùng đến các thơng tin chi tiết khác về nội dung cũng như về ngữ âm mà người nĩi truyền
tải. Bằng cách lựa chọn thích hợp số các thành phần phân bố Gauss, điều chỉnh trung bình
và phương sai của chúng cũng như các trọng số trong tổ hợp tuyến tính, GMM cĩ thể xấp
xỉ phần lớn các mật độ phân bố liên tục với độ chính xác tùy chọn. Cũng chính vì vậy,
GMM cho phép mơ hình hĩa chỉ các phân bố cơ bản của cảm nhận về ngữ âm của người
nĩi hay cũng là cảm nhận đường bao thơng tin ngữ âm đã nĩi ở trên. Yếu tố của phép trung
bình trong khi xác định mơ hình GMM cĩ thể loại đi các nhân tố chi tiết ảnh hưởng đến
đặc trưng âm học như biến thiên ngữ âm theo thời gian của người nĩi khác nhau và chỉ giữ
lại những gì là đặc trưng cơ bản cho giọng vùng, miền như trong trường hợp định danh
phương ngữ. Mặt khác, việc sử dụng GMM như là hàm khả hiện sẽ cho phép tính tốn
khơng tốn kém, dựa trên mơ hình thống kê đã được biết rõ.
Một mơ hình hỗn hợp Gauss đa thể hiện là tổng cĩ trọng số của M thành phần mật
độ Gauss như biểu thức (1.3):
𝑝(𝑿|𝜆) =∑𝜋𝑖 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊)
𝑀
𝑖=1
(1.3)
Trong (1.3), 𝑿 là véc tơ dữ liệu (chứa tập các véc tơ tham số của đối tượng cần biểu
diễn, mỗi phần tử của tập giả thiết cĩ kích thước D), πi, i=1, ..., M là các trọng số của hỗn
hợp và 𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) là các hàm mật độ Gauss thành phần theo biểu thức (1.4) với véc tơ
trung bình 𝝁𝒊 của véc tơ kích thước D và ma trận hiệp phương sai 𝚺𝒊 kích thước DxD.
𝑔𝑖(𝑿|𝝁𝒊, 𝚺𝒊) =
1
(2𝜋)𝐷/2|𝚺𝒊|1/2
𝑒𝑥𝑝 {−
1
2
(𝑿 − 𝝁𝒊)
𝑇𝚺𝒊
−1(𝑿 − 𝝁𝒊)}
(1.4)
Các trọng số hỗn hợp cần thỏa mãn điều kiện ∑ 𝜋𝑖 = 1
𝑀
𝑖=1 .
Một GMM đầy đủ được tham số hĩa bởi véc tơ trung bình, ma trận hiệp phương sai
và các trọng số hỗn hợp từ tất cả các thành phần Gauss. Các tham số này cĩ thể được biểu
diễn gọn lại theo (1.5):
𝜆 = {𝝅𝒊, 𝝁𝒊, 𝚺𝒊}, 𝑖 = 1,2, ,𝑀
(1.5)
Để định danh phương ngữ, mỗi phương ngữ được biểu diễn bằng một GMM và
được tham chiếu bởi mơ hình 𝜆 của phương ngữ đĩ. Trong trường hợp dùng MFCC như là
véc tơ đặc trưng, đường bao phổ của lớp âm học thứ i được biểu diễn bằng trung bình 𝝁𝒊
của thành phần thứ i, cịn biến thiên của đường bao phổ trung bình được biểu diễn bằng ma
trận hiệp phương sai 𝚺𝒊.
32
Giả thiết 𝑇 là số lượng véc tơ đặc trưng hay cũng là tồn bộ số lượng khung (frame)
tiếng nĩi, M là số thành phần Gauss:
𝑿 = {𝒙1, 𝒙2, , 𝒙𝑇 }
(1.6)
Khả hiện GMM là :
𝑝(𝑿|𝜆) =∏𝑝(𝒙𝑡|𝜆)
𝑇
𝑡=1
(1.7)
Biểu thức (1.7) là hàm phi tuyến đối với 𝜆 nên khơng thể trực tiếp cực đại hĩa mà
các tham số khả hiện cực đại cĩ thể nhận được bằng cách dùng thuật giải cực đại hĩa kỳ
vọng EM (Expectation Maximization).
Ý tưởng của thuật giải EM là bắt đầu với mơ hình khởi đầu λ, đánh giá mơ hình
mới �̅� sao cho
𝑝(𝑿|�̅�) ≥ 𝑝(𝑿|λ) (1.8)
Mơ hình mới lại là mơ hình khởi đầu cho bước lặp tiếp theo và quá trình lặp lại cho
đến khi ngưỡng hội tụ đạt được. Trên thực tế, thuật giải cực đại hĩa kỳ vọng là đi tìm 𝜆sao
cho log 𝑝(𝑿|𝜆) của dữ liệu 𝑿 đạt cực đại.
Trong trường hợp thử nghiệm nhận dạng phương ngữ tiếng Việt với mơ hình
GMM, véc tơ 𝒙𝑡 sẽ chứa các tham số đặc trưng của tín hiệu tiếng nĩi như hệ số MFCC, các
tham số liên quan đến F0, formant và dải thơng tương ứng...
1.4.2. Bộ phân lớp SVM
SVM cơ bản là một bộ phân lớp nhị phân phi tuyến cĩ khả năng đốn nhận liệu một
véc tơ vào x thuộc về lớp 1 (khi đĩ đầu ra mong muốn là y = +1) hoặc thuộc lớp 2 (y = -1)
[150]. Lần đầu tiên thuật giải phân lớp này được đề xuất là vào năm 1992 [21] và là phiên
bản phi tuyến của thuật giải tuyến tính cũ hơn nhiều, cũng chính là thuật giải về luật quyết
định siêu phẳng tối ưu (cịn gọi là thuật giải hướng dọc tổng quát), đã được giới thiệu vào
những năm 60.
Cho một tập dữ liệu khả tách, mục đích là tìm ra hàm quyết định tối ưu. Cĩ thể dễ
dàng nhận thấy, cĩ vơ số lời giải tối ưu cho bài tốn này, nghĩa là chúng cĩ thể tách các
mẫu huấn luyện với sai số bằng khơng. Tuy nhiên, bởi vì ta cần tìm hàm quyết định cĩ khả
năng tổng quát hĩa cho những mẫu chưa biết, nên cĩ thể nghĩ tới các tiêu chí bổ sung để
tìm ra lời giải tốt nhất trong số các lời giải cĩ sai số bằng khơng. Nếu đã biết mật độ xác
suất của các lớp, cĩ thể dùng tiêu chí cực đại hậu nghiệm (Maximum a Posteriori - MAP)
để tìm lời giải tối ưu. Tiếc là, trong phần lớn trường hợp thực tế, thơng tin này khơng cĩ
sẵn. Vì vậy, cĩ thể áp dụng tiêu chí khác đơn giản hơn: trong số những hàm khơng cĩ sai
số huấn luyện, sẽ chọn ra hàm cĩ lề cực đại với lề là khoảng cách giữa mẫu gần nhất và
ranh giới quyết định được xác định bởi hàm đĩ. Tất nhiên, tối ưu theo nghĩa lề cực đại
33
khơng nhất thiết đi với tối ưu theo nghĩa tối thiểu hĩa số sai số khi kiểm thử, nhưng là tiêu
chí đơn giản cho lời giải tốt nhất trên thực tế đối với nhiều bài tốn [49].
Hình 1.1: Quyết định lề mềm
Như cĩ thể suy ra từ Hình 1.1 [151], hàm phân biệt phi tuyến 𝑓(𝒙𝑖) cĩ thể được
viết thành:
𝑓(𝒙𝑖) = 𝒘
𝑇 . ∅(𝒙𝑖) + 𝑏, (1.9)
Trong đĩ, ∅(𝒙𝑖) là ánh xạ ℜ
𝑛 ↦ ℜ𝑛
′
, (𝑛 ≪ 𝑛′), là hàm phi tuyến ánh xạ véc tơ 𝒙𝑖
vào khơng gian đặc trưng (feature space) cĩ kích thước lớn hơn (cĩ thể là vơ hạn) ở đĩ các
lớp được giả thiết là khả tách tuyến tính. Véc tơ w biểu diễn cho siêu phẳng phân tách
trong khơng gian như vậy. Cần lưu ý rằng, nghĩa của khơng gian đặc trưng ở đây khơng
liên quan đến khơng gian đặc trưng của tiếng nĩi thường được gọi là khơng gian vào.
Mặt khác, 𝑟𝑥 là khoảng cách giữa các mẫu được biến đổi ∅(𝒙𝑖) và siêu phẳng phân
tách, cịn ‖𝑤‖ là chuẩn Ơ-Clít của 𝒘. Gọi véc tơ hỗ trợ là những véc tơ gần biên quyết
định nhất. Các véc tơ này xác định lề và là các mẫu duy nhất cần dùng để tìm ra lời giải.
Như vậy, với mỗi mẫu xi ta cĩ 𝑟𝑥 = 𝑓(𝒙𝑖)/||𝑤||. Do đĩ, mục đích là tìm ra bộ phân lớp tối
ưu được thực hiện bằng cách tối tiểu hĩa ‖𝑤‖ cho tất cả các mẫu được phân lớp đúng, tức
là:
𝑦𝑖(𝒘
𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1 (1.10)
Điều này cĩ thể được thiết lập như bài tốn tối ưu hĩa bậc hai:
min
𝑤,𝑏
1
2
‖𝑤‖2,
Yêu cầu là 𝑦𝑖(𝒘
𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1
Để cĩ được bộ phân lớp với khả năng tổng quát hĩa tốt hơn và cĩ thể xử lý được
trường hợp khơng khả tách, nên cho phép một số lượng dữ liệu nào đĩ bị phân loại nhầm.
Điều này được thực hiện bằng cách đưa ra điểm phạt tùy thuộc vào hàm được tối thiểu hĩa:
min
𝑤,𝑏,𝜉𝑖
𝐿𝑃 =
1
2
‖𝑤‖2 + 𝐶∑𝜉𝑖
𝑁
𝑖=1
(1.11)
34
Yêu cầu là 𝑦𝑖(𝒘
𝑇 . ∅(𝒙𝑖) + 𝑏) ≥ 1 − 𝜉𝑖 , 𝜉𝑖 ≥ 0 , với i=1,,N,
Ở đây, 𝒙𝑖 ∈ ℜ
𝑛 (i=1,,N) là các véc tơ huấn luyện tương ứng với nhãn
𝑦𝑖 ∈ {±1}, cịn các biến 𝜉𝑖 được gọi là các biến nới lỏng (slack) cho phép sai số nhất định
cĩ được lời giải trong trường hợp khơng khả tách. 𝜉𝑖 thỏa mãn 0 ≤ 𝜉𝑖 ≤ 1 cho các mẫu
được phân lớp tốt nhưng trong lề và 𝜉𝑖 > 1 cho các mẫu bị phân lớp sai. Mặt khác, số hạng
C biểu diễn cho sự thỏa hiệp giữa số sai số huấn luyện và khả năng tổng quát hĩa.
Bài tốn này thường được giải quyết bằng cách đưa ra ràng buộc cho hàm cần tối
thiểu hĩa với việc sử dụng nhân tử Lagrange, dẫn tới việc cực đại hĩa của đối ngẫu Wolfe:
max
𝛼𝑖
𝐿𝐷 =∑𝛼𝑖 −
1
2
∑∑𝑦𝑖𝑦𝑖𝛼𝑖𝛼𝑖∅
𝑇(𝒙𝑖)∅(𝒙𝑗),
𝑛
𝑗=1
𝑛
𝑖=1
𝑛
𝑖=1
Yêu cầu là ∑𝛼𝑖𝑦𝑖 = 0 𝑣à 0 ≤ 𝛼𝑖 ≤ 𝐶
𝑛
𝑖=1
(1.12)
Đây là bài tốn lồi bậc 2, vì vậy sự hội tụ tới cực tiểu tồn cục sẽ được đảm bảo
bằng cách sử dụng sơ đồ quy hoạch tồn phương (Quadratic Programming - QP). Biên
quyết định cuối cùng 𝒘 được cho bởi:
𝒘 =∑𝛼𝑖𝑦𝑖∅(𝒙𝑖)
𝑛
𝑖=1
(1.13)
Theo (1.13), chỉ các véc tơ với 𝛼𝑖 ≠ 0 liên đới sẽ gĩp phần định xác định véc tơ
trọng số 𝒘 và do vậy xác định được biên phân tách. Đây là các véc tơ hỗ trợ đã được nĩi ở
trên xác định biên giới phân tách và lề.
Nĩi chung, khơng biết hàm ∅(𝑥𝑖) một cách tường minh (thực tế, trong phần lớn các
trường hợp, khơng thể đánh giá hàm này chừng nào mà kích thước của khơng gian đặc
trưng cịn là vơ hạn). Tuy nhiên, thực ra khơng cần phải biết hàm này, bởi vì chỉ cần đánh
giá các tích điểm ∅𝑇(𝑥𝑖). ∅(𝑥𝑗) bằng cách sử dụng thủ thuật kernel, trong đĩ tích này cĩ
thể được đánh giá bằng cách dùng hàm 𝐾(𝑥𝑖, 𝑥𝑗).
Cĩ nhiều cài đặt SVM tính hàm này cho mỗi cặp của các mẫu vào bằng cách tạo ra
ma trận kernel lưu trong bộ nhớ.
Bằng cách sử dụng phương pháp này và thay 𝒘 ở (1.9) bằng biểu thức (1.13), dạng
cuối cùng của SVM như sau:
𝑓(𝒙) =∑𝛼𝑖𝑦𝑖𝐾(𝒙𝑖, 𝒙) + 𝑏
𝑛
𝑖=1
. (1.14)
Các hàm kernel được sử dụng rộng rãi nhất là:
- Hàm kernel tuyến tính đơn giản (Linear Kernel):
35
𝐾𝐿(𝒙𝑖, 𝒙𝑗) = 𝒙𝑖
𝑇 . 𝒙𝑗; (1.15)
- Hàm kernel cơ bản hướng Gauss RBF (Radial Basis Function Kernel):
𝐾𝑅𝐵𝐹(𝒙𝑖, 𝒙𝑗) = 𝑒𝑥𝑝 (−𝛾‖𝒙𝑖 − 𝒙𝑗‖
2
), (1.16)
Ở đây, 𝛾 là tỷ lệ với nghịch đảo của phương sai hàm Gauss và khơng gian đặc trưng
liên kết với nĩ cĩ kích thước vơ hạn;
- Hàm kernel đa thức (polynomial kernel):
𝐾𝑃(𝒙𝑖, 𝒙𝑗) = (1 + 𝒙𝑖
𝑇 . 𝒙𝑗)
𝑃
, (1.17)
Khơng gian đặc trưng liên kết với nĩ là đa thức cho tới bậc p
- Hàm kernel sigmoid (sigmoid kernel):
𝐾𝑆𝐼𝐺(𝒙𝑖, 𝒙𝑗) = 𝑡𝑎𝑛ℎ(𝑎𝒙𝑖
𝑇 . 𝒙𝑗 + 𝑏)
𝑃
, (1.18)
Cần lưu ý rằng, cĩ một số điều kiện mà một hàm cần phải thỏa mãn để được sử
dụng như kernel. Các điều kiện này thường được gọi là KKT (Karush-Kuhn-Tucker) [53]
và cĩ thể được giảm xuống để chỉ kiểm tra ma trận kernel là đối xứng và bán xác định
dương.
Lý do khiến SVM trở nên hiệu quả hơn trong nhiều ứng dụng so với các phương
pháp khác dựa trên biệt thức tuyến tính là tiêu chí học của nĩ. Mục tiêu của bất cứ bộ phân
lớp nào là tối thiểu hĩa được số lượng các phân lớp nhầm lẫn với bất kỳ tập mẫu nào cĩ thể
cĩ. Điều này được gọi là tối thiểu hĩa rủi ro (Risk Minimization - RM). Tuy nhiên, trong
các bài tốn phân lớp điển hình, ta chỉ cĩ số lượng giới hạn các mẫu sẵn cĩ (trong một số
trường hợp cĩ thể cĩ một số lượng vơ hạn các mẫu mà ta cũng chỉ cĩ thể làm với một tập
con) và vì vậy, tất cả những điều cĩ thể làm được là cố gắng cực tiểu số lượng phân lớp
nhầm trong tập huấn luyện. Điều này được gọi tối thiểu hĩa rủi ro theo kinh nghiệm
(Empirical Risk Minimization - ERM) và phần lớn các bộ phân lớp đều dựa trên ERM cho
tiến trình học.
Mặc dầu vậy, việc cĩ bộ phân lớp với ERM tốt (hoặc thậm chí là muốn như vậy) là
khơng đủ. Tính phức tạp của các bộ phân lớp thường phải được cố định từ trước và vì vậy,
hoặc cĩ thể lựa chọn một cấu trúc quá đơn giản nên khơng thể mơ hình hĩa một cách đúng
đắn biên phân lớp của bài tốn, hoặc lại quá phức tạp, vượt trên mức tập huấn luyện và
khơng thể tổng quát hĩa các mẫu thiếu. Điều này được gọi là rủi ro cấu trúc và một bộ
phân lớp tốt phải duy trì được sự thỏa hiệp giữa các ERM và SRM (Structural Risk
Minimization - tối thiểu hĩa rủi ro cấu trúc).
Với SVM, khơng cần phải cố định trước độ phức tạp của máy sinh ra, nhưng cĩ
một tham số (là 𝐶 trong phương trình (1.11)) sẽ thiết lập thỏa hiệp giữa ERM và SRM.
36
Tiếc là khơng cĩ phương pháp nào để biết trước giá trị thích hợp nhất cho tham số này. Vì
vậy, phải chọn ra tham số này bằng quá trình tìm kiếm.
Một số phương pháp huấn luyện SVM:
Do cĩ kích thước rất lớn, bài tốn QP sinh ra từ SVM khơng thể dễ dàng giải được
thơng qua các kỹ thuật QP chuẩn. Dạng bậc hai trong (1.12) kéo theo ma trận cĩ số phần tử
bằng bình phương mẫu huấn luyện. Ma trận này khơng thể chứa gọn trong 128 MB bộ nhớ
nếu cĩ nhiều hơn 4000 mẫu huấn luyện (giả thiết là mỗi phần tử được lưu trữ như là một số
chính xác kép 8-byte).
Vapnik [166] mơ tả một phương pháp để giải bài tốn QP SVM mà từ đĩ cĩ tên gọi
là phân khúc dữ liệu ("chunking"). Cĩ một yếu tố mà thuật giải chunking sử dụng là giá trị
của dạng bình phương là như nhau nếu bỏ các hàng và cột của ma trận tương ứng với các
nhân tử Lagrange bằng khơng. Do vậy, bài tốn QP lớn cĩ thể được chia thành một loạt
các bài tốn QP nhỏ hơn, mà mục đích cuối cùng của các bài tốn này là tìm ra tất cả các
nhân tử Lagrange khác khơng và loạ...er output voting error reduction (ROVER). In Automatic Speech
Recognition and Understanding, IEEE Workshop, pp. 347-354.
[53] Fletcher, Roger (2013) Practical methods of optimization. John Wiley & Sons.
[54] Fox, Robert Allen, and Ewa Jacewicz (2009) Cross-dialectal variation in formant
dynamics of American English vowels. The Journal of the Acoustical Society of
America, vol. 126, no. 5, pp. 2603-2618.
[55] Frederick Jelinek (1997) Statistical Methods for Speech Recognition. MIT Press,
Cambridge, MA.
[56] Fridland, V., Kendall, T., & Farrington, C. (2014) Durational and spectral
differences in American English vowels: Dialect variation within and across
regions. The Journal of the Acoustical Society of America, vol. 136, no. 1, pp. 341-
349.
[57] Furui, Sadaoki (2001) Digital Speech Processing, Synthesis and Recognition, 2nd
ed. New York Marcel Dekker Inc.
[58] Garner, Philip N., and Wendy J. Holmes (1998) On the robust incorporation of
formant features into hidden Markov models for automatic speech recognition.
Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE
International Conference, vol. 1, pp. 1-4.
[59] Gelfer, Marylou Pausewang, and Victoria A. Mikos (2005) The relative
contributions of speaking fundamental frequency and formant frequencies to
gender identification based on isolated vowels. Journal of Voice, vol. 19, no. 4, pp.
544-554.
[60] Glass, James R (2003) A probabilistic framework for segment-based speech
recognition. New Computational Paradigms for Acoustic Modeling in Speech
Recognition, Computer, Speech and Language, vol. 17, no. (2–3), pp. 137–152.
[61] Godfrey, J. J., Holliman, E. C., & McDaniel, J. (1992) SWITCHBOARD:
Telephone speech corpus for research and development. In Acoustics, Speech, and
Signal Processing IEEE, vol. 1, pp. 517-520.
[62] Goel, V., Kumar, S., & Byrne, W. (2000) Segmental minimum Bayes-risk ASR
voting strategies. INTERSPEECH, pp. 139-142.
[63] Gold, B. and N. Morgan (2000) Speech and Audio Signal Processing. New York
John Wiley & Sons.
[64] Graves, A., Mohamed, A. R., & Hinton, G. (2013) Speech recognition with deep
recurrent neural networks. In Acoustics, speech and signal processing (icassp),
IEEE International Conference, pp. 6645-6649.
[65] H. Tang, and A. A. Ghorbani (2003) Accent classification using Support Vector
Machine and Hidden Markov Models. Proceedings 16th Canadian conference on
Artificial Intelligence AI‘03, pp. 629-631.
[66] Hagiwara, Robert (1997) Dialect variation and formant frequency: The American
English vowels revisited. The Journal of the Acoustical Society of America, vol.
102, no. 1, pp. 655-658.
141
[67] Hakkani-Tür, D., Béchet, F., Riccardi, G., & Tur, G. (2006) Beyond ASR 1-best:
Using word confusion networks in spoken language understanding. Computer
Speech & Language, vol. 20, no. 4, pp. 495-514.
[68] Hanani, Abualsoud, Martin J. Russell, and Michael J. Carey (2013) Human and
computer recognition of regional accents and ethnic groups from British English
speech. Computer Speech & Language, vol. 27, no. 1, pp. 59-74.
[69] Haykin, Simon S (2001) Neural networks: a comprehensive foundation, 2nd ed.
Tsinghua University Press.
[70] Hermansky, H. (1990) Perceptual linear predictive analysis of speech. Journal of
the Acoustical Society of America, vol. 87(4), pp. 1738–1752.
[71] Hillenbrand, J., Getty, L. A., Clark, M. J., & Wheeler, K. (1995) Acoustic
characteristics of American English vowels. The Journal of the Acoustical society
of America, vol. 97, no. 5, pp. 3099-3111.
[72] Hillenbrand, James M., and Michael J. Clark (2009) The role of f 0 and formant
frequencies in distinguishing the voices of men and women. Attention, Perception,
& Psychophysics, vol. 71, no. 5, pp. 1150-1166.
[73] Hirayama N., Yoshino K., Itoyama K., Mori S., Okuno, H.G (2015) Automatic
Speech Recognition for Mixed Dialect Utterances by Mixing Dialect Language
Models. Audio, Speech, and Language Processing, IEEE/ACM Transactions, vol.
23, no. 2, pp. 373 - 382.
[74] Huang, X. D. and K.-F. Lee (1993) On speaker-independent, speaker-dependent
and speaker adaptive speech recognition. IEEE Transactions on Speech and Audio
Processing, vol. 1(2), pp. 150–157.
[75] Huang, X. D., A. Acero, and H. Hon (2001) Spoken Language Processing - A
Guide to Theory, Algorithms, and System Development. Prentice Hall, Upper
Saddle River, NJ.
[76] J. K. BAKER (1974) Stochastic Modeling as a Means of Automatic Speech
Recognition. Ph. D.dissertation, Carnegie-Mellon Univ.
[77] J. K. Chambers and P. Trudgill (1998) Dialectology, chapter one, 2nd ed.
Cambridge University press.
[78] J. Li, T. F. Zheng, W. Byrne, and D. Jurafsky (2006) A dialectal chinese speech
recognition framework. Journal of Computer Science and Technology, vol. 21, no.
1, pp. 106-115.
[79] Jacewicz, Ewa, and Robert Allen Fox (2015) The effects of dialect variation on
speech intelligibility in a multitalker background. Applied Psycholinguistics, vol.
36, no. 3, pp. 729-746.
[80] Jean-Franҫois Bonastre, Frédéric Wils (2005) ALIZE, A FREE TOOLKIT FOR
SPEAKER RECOGNITION. IEEE International Conference, pp. I 737 - I 740.
[81] Jean-Luc Rouas (2007) Automatic prosodic variations modelling for language and
dialect discrimination. IEEE Transactions on Audio, Speech and Language
Processing, vol. 15, no. 6, pp. 1904-1911.
[82] Jelinek, F. (1976) Continuous speech recognition by statistical methods.
Proceedings of the IEEE, vol. 64(4), pp. 532–557.
[83] Jelinek, Frederick (1969) A fast sequential decoding algorithm using a stack. IBM
Journal of Research and Development, vol. 13, no. 6, pp. 675–685.
[84] JING, Y. P., ZHENG, J., & HU, W. X. (2014) Belongingness of Chinese dialect
speech recognition based on deep neural network. Journal of East China Normal
University (Natural Science), vol. 1, p. 008.
142
[85] John C. Platt (1998) Microsoft Research, jplatt@microsoft.com, Technical Report
MSR-TR-98-14,April 21, 1998..
[86] Juang, B. H. (1984) On the hidden Markov model and dynamic time warping for
speech recognition - A unified view. Bell Labs Technical Journal, vol. 63, no. 7, pp.
1213-1243.
[87] Juang, B. H. (1985) Maximum-likelihood estimation for mixture multivariate
stochastic observations of Markov chains. AT&T technical journal, vol. 64, no. 6,
pp. 1235-1249.
[88] Juang, B. H., Levinson, S., & Sondhi, M. (1986) Maximum likelihood estimation
for multivariate mixture observations of Markov chains (corresp.). IEEE
Transactions on Information Theory, vol. 32, no. 2, pp. 307-309.
[89] Kingsbury, N. G., & Rayner, P. J. (1971) Digital Filtering Using Logarithmic
Arithmetic. Electronics Letters, vol. 7, no. 2, pp. 56-58.
[90] Kumar, N. and A. Andreou (1998) Heteroscedastic analysis and reduced rank
HMMs for improved speech recognition. Speech Communication, vol. 26(4), pp.
283–297.
[91] L. Mangu, E. Brill, and A. Stolcke (2000) Finding consensus among words:
Latticebased word error minimisation. Computer Speech and Language, vol. 14,
no. 4, pp. 373–400.
[92] L. R. Rabiner, B.-H. Juang, S. E. Levinson, and M. M. Sondhi (1985) Recognition
of isolated digits using HMMs with continuous mixture densities. AT and T
Technical Journal, vol. 64, no. 6, pp. 1211-1233.
[93] L.E. Baum, T. Petrie (1966) Statistical Inference for Probabilistic Functions of
Finite State Markov Chains. Annals of Math. Statistics, vol. 37, pp. 1,554-1,563.
[94] Lee, Chin-Hui, Frank K. Soong, and Kuldip Paliwal, eds (2012) Automatic speech
and speaker recognition: advanced topics. Springer Science & Business Media,
vol. 355.
[95] Lee, Kai-Fu (1988) Automatic Speech Recognition: The Development of the Sphinx
Recognition System. Berlin, Germany Springer Science & Business Media, vol. 62.
[96] Leggetter C. and P. Woodland (1995) Maximum likelihood linear regression for
speaker adaptation of continuous density hidden Markov models. Computer Speech
and Language., ch. 9, pp. 171–185.
[97] Levinson, S. E., Rabiner, L. R., & Sondhi, M. M. (1983) An introduction to the
application of the theory of probabilistic functions of a Markov process to
automatic speech recognition. The Bell System Technical Journal, vol. 62, no. 4,
pp. 1035-1074.
[98] Liu, Gang A., and John HL Hansen (2011) A systematic strategy for robust
automatic dialect identification. 19th European Signal Processing Conference, pp.
138-2141.
[99] Lopez-Moreno, I., Gonzalez-Dominguez, J., Plchot, O., Martinez, D., Gonzalez-
Rodriguez, J., & Moreno, P. (2014) Automatic language identification using deep
neural networks. In Acoustics, Speech and Signal Processing (ICASSP), 2014
IEEE International Conference, pp. 5337-5341.
[100] Luo, X., & Jelinek, F. (1999) Probabilistic classification of HMM states for large
vocabulary continuous speech recognition. In Acoustics, Speech, and Signal
Processing, 1999. Proceedings., 1999 IEEE International Conference on, pp. 353-
356.
143
[101] M. Gales and S. Young (2007) The Application of Hidden Markov Models in
Speech Recognition. Foundations and Trends in Signal Processing, vol. 1, no. 3, pp.
195-304.
[102] Ma, Bin, Donglai Zhu, and Rong Tong (2006) Chinese Dialect Identification Using
Tone Features Based On Pitch. 2006 IEEE International Conference on Acoustics
Speech and Signal Processing Proceedings, vol. 1, pp. I-I.
[103] Mannepalli, Kasiprasad, P. Nrahari Sastry, and V. Rajesh (2015) Accent detection
of Telugu speech using prosodic and formant features. Signal Processing And
Communication Engineering Systems (SPACES), 2015 International Conference
on. IEEE, pp. 318-322.
[104] Martin, Alvin, et al (1997) The DET curve in assessment of detection task
performance. National Inst. Of Standards and Technology Gaithersburg Md.
[105] Martin, S., Liermann, J., & Ney, H. (1998) Algorithms for bigram and trigram
word clustering. Speech communication, vol. 24, no. 1, pp. 19-37.
[106] Matsoukas, S., Gauvain, J. L., Adda, G., Colthurst, T., Kao, C. L., Kimball, O.,. &
Nguyen, L. (2006) Advances in transcription of broadcast news and conversational
telephone speech within the combined EARS BBN/LIMSI system. IEEE
Transactions on Audio, Speech, and Language Processing, vol. 14, no. 5, pp. 1541-
1556.
[107] McCowan, I. A., Moore, D., Dines, J., Gatica-Perez, D., Flynn, M., Wellner, P., &
Bourlard, H. (2004) On the use of information retrieval measures for speech
recognition evaluation. No. EPFL-REPORT-83156,.
[108] Mehrabani, M., Bořil, H., & Hansen, J. H (2010) Dialect distance assessment
method based on comparison of pitch pattern statistical models. Acoustics Speech
and Signal Processing (ICASSP), IEEE International Conference, pp. 5158-5161.
[109] Mohamed BELGACEM, Georges ANTONIADIS, Laurent BESACIER (2010)
Automatic Identification of Arabic Dialects. International Conference on Language
Resources and Evaluation (LREC), MALTA, pp. 17-23.
[110] Mohri, M., Pereira, F., & Riley, M. (2002) Weighted finite-state transducers in
speech recognition. Computer Speech & Language, vol. 16, no. 1, pp. 69-88.
[111] Morgan, N., Q. Zhu, A. Stolcke, K. Sonmez, S. Sivadas, T. Shinozaki, M.
Ostendorf, P. Jain, H. Hermansky, D. Ellis, G. Doddington, B. Chen, O. Cetin, H.
Bourlard, and M. Athineos (2005) Pushing the envelope-Aside. IEEE Signal
Processing Magazine, pp. 22, 81–88.
[112] Nagy, N., Zhang, X., Nagy, G., & Schneider, E. W. (2006) Clustering dialects
automatically: A mutual information approach. University of Pennsylvania
Working Papers in Linguistics, vol. 12, no. 2, p. 12.
[113] Navia-Vázquez, A., Pérez-Cruz, F., Artes-Rodriguez, A., & Figueiras-Vidal, A. R
(2001) Weighted least squares training of support vector classifiers leading to
compact and adaptive schemes. IEEE Transactions on Neural Networks, vol. 12,
no. 5, pp. 1047-1059.
[114] Ney, Hermann (1984) The use of a one-stage dynamic programming algorithm for
connected word recognition. IEEE Transactions on Acoustics, Speech, and Signal
Processing, vol. 32(2), pp. 263–271.
[115] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) A Novel
Approach in Continuous Speech Recognition for Vietnamese, an Isolating Tonal
Language. Proceedings of the INTERSPEECH, Brisbane, Australia, pp. 1149-
1152.
144
[116] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) Large
Vocabulary Continuous Speech Recognition for Vietnamese, a Under-resourced
Language. Proceedings of the 1st International Workshop on Spoken Languages
Technologies for Under-resourced Languages (SLTU-2008), Hanoi, Vietnam, pp.
23-26.
[117] Nguyen Hong Quang, P. Nocera, E. Castelli, Trinh Van Loan (2008) Tone
recognition of Vietnamese continuous speech using hidden Markov model.
Proceedings of the 2nd International Conference on Communication and
Electronics, Hoi An, Vietnam, pp. 235-238.
[118] Nguyen Hong Quang, P. Nocera, E. Castelli,Trinh Van Loan (2008)
Reconnaissance de la parole continue à grand vocabulaire en vietnamien, une
langue syllabique tonale. Actes des XXVIIes Journée d’Etude sur la Parole,
Avignon, France, pp. 281-284.
[119] Nguyen Hong Quang, Pascal Nocera and Eric Castelli (2008) Tone Recognition of
Vietnamese Continuous Speech Using Hidden Markov Model. Communications
and Electronics, 2008. ICCE 2008. Second International Conference on. IEEE, pp.
235-239.
[120] Nguyễn Phú Bình, Trịnh Văn Loan (2006) Vietnamese Speech Recognition using
Subword Models and Test Experiments for Comparing Some Methods of
Vietnamese Recognition. Proceedings of the 3rd National Symposium on Research,
Developpment and Application of Information and Communication Technology
(ICT.rda’06), Hanoi-Vietnam, pp. 187-196.
[121] Nguyễn Phú Bình, Trịnh Văn Loan, E. Castelli (2003) Real-time system for
Vietnamese isolated word recognition. Kỷ yếu Hội thảo khoa học Quốc gia lần thứ
nhất về nghiên cứu, phát triển và ứng dụng Cơng nghệ Thơng tin và truyền thơng
ICT.rda, Hà Nội, pp. 310-316.
[122] Nguyen Quoc Cuong, Pham Thi Ngoc and Castelli, E. (2001) Shape vector
characterization of Vietnamese tones and application to automatic recognition.
Automatic Speech Recognition and Understanding – ASRU'01 IEEE Workshop on,
Italy, pp. 437-440.
[123] Odell, J. J., Valtchev, V., Woodland, P. C., & Young, S. J. (1994) A one pass
decoder design for large vocabulary recognition. In Proceedings of the workshop
on Human Language Technology, pp. 405-410.
[124] Ondřej Plátek (2014) Speech recognition using KALDI. MASTER THESIS,
Charles University in Prague Faculty of Mathematics and Physics.
[125] Ortmanns, S., Ney, H., & Aubert, X. (1997) A word graph algorithm for large
vocabulary continuous speech recognition. Computer Speech & Language, vol. 11,
no. 1, pp. 43-72.
[126] Osuna, E., Freund, R., Girosi, F. (1997) An Improved Training Algorithm for
Support Vector Machines. IEEE NNSP '97, pp. 276-285.
[127] Pallett, D., Fiscuss, J., Garofolo, J., Martin, A., & Przybocki, M. (1999) 1998
broadcast news benchmark test results: English and non-English word error rate
performance measures. In Proc. DARPA Broadcast News Workshop, pp. 5-12.
[128] Paul, D. B. (1991) Algorithms for an optimal A* search and linearizing the search
in the stack decoder. In Acoustics, Speech, and Signal Processing, pp. 693-696.
[129] Peterson, G. E., & Barney, H. L. (1952) Control methods used in a study of the
vowels. The Journal of the acoustical society of America, vol. 24, no. 2, pp. 175-
184.
145
[130] Platt, John C (1999) Fast Training of Support Vector Machines. Advances in
kernel methods, pp. 185-208.
[131] Povey, B., Kingsbury, L. Mangu, G. Saon, H. Soltau, and G. Zweig (2005) FMPE:
Discriminatively trained features for speech recognition. Proceedings of the
International Conference on Acoustics, Speech, and Signal Processing,
Philadelphia, PA, pp. 961-964.
[132] Povey, D., Kanevsky, D., Kingsbury, B., Ramabhadran, B., Saon, G., &
Visweswariah, K. (2008) Boosted MMI for model and feature-space discriminative
training. 2008 IEEE International Conference on Acoustics, Speech and Signal
Processing, pp. 4057-4060.
[133] Quinlan, J. R. (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann
Publishers.
[134] Rabiner, L. and B. Juang (1993) Fundamentals of Speech Recognition. Prentice
Hall, Englewood Cliffs, NJ.
[135] Rao, K. S. (2011) Role of neural network models for developing speech systems.
Sadhana, vol. 36, no. 5, pp. 783-836.
[136] Rao, K. S., & Koolagudi, S. G. (2011) Identification of Hindi dialects and emotions
using spectral and prosodic features of speech. IJSCI: International Journal of
Systemics, Cybernetics and Informatics, vol. 9, no. 4, pp. 24-33.
[137] Richardson, F., Ostendorf, M., & Rohlicek, J. R. (1995) Lattice-based search
strategies for large vocabulary speech recognition. In Acoustics, Speech, and
Signal Processing. ICASSP-95., 1995 International Conference, pp. 576-579.
[138] Rosenberg, A., C. H. Lee, and F. K. Soong (1994) Cepstral channel normalization
techniques for HMMbased speaker verification. Proceedings of the International
Conference on Acoustics. Speech, and Signal Processing, Adelaide, SA, pp. 1835–
1838.
[139] S. Furui (1986) Speaker independent isolated word recognition using dynamic
features of. IEEE Transactions ASSP, vol. 34, pp. 52–59.
[140] S. J. Young and L. L. Chase (1998) Speech recognition evaluation: A review of the
US CSR and LVCSR programmes. Computer Speech and Language, vol. 12, no. 4,
pp. 263-279.
[141] Sak, H., Senior, A. W., & Beaufays, F. (2014) Long short-term memory recurrent
neural network architectures for large scale acoustic modeling. In Interspeech, pp.
338-342.
[142] Sakoe, Hiroaki, and Seibi Chiba (1971) A dynamic programming approach to
continuous speech recognition. Proceedings of the 7th International Congress on
Acoustics, vol. 3, Budapest, Hungary, pp. 65–69.
[143] Saon, G., & Povey, D. (2008) Penalty function maximization for large margin
HMM training. INTERSPEECH, pp. 920-923.
[144] Shen, W., Chen, N. F., & Reynolds, D. A. (2008) Dialect recognition using
adapted phonetic models. In Interspeech , pp. 763-766.
[145] Shweta Sinha (2015) Analysis and Recognition of Dialects of Hindi Speech.
International Journal of Scientific Research in Multidisciplinary Studies, vol. 1, no.
1, pp. 26-33.
[146] Shweta Sinha, Aruna Jain, S. S. Agrawal (2015) Acoustic-Phonetic Feature Based
Dialect Identification in Hindi Speech. International Journal on Smart Sensing &
Intelligent Systems, vol. 8, no. 1, pp. 235-254.
[147] Simon Haykin (2005) Neuron Networks A Comprehensive Foundation, 2nd ed.
146
McMaster University Hamilton.
[148] Sinha, S., Jain, A., & Agrawal, S. S. (2014) Speech Processing for Hindi Dialect
Recognition. Advances in Signal Processing and Intelligent Recognition Systems.
Springer International Publishing., pp. 161-169.
[149] Sittichok Aunkaew, Montri Karnjanadecha, Chai Wutiwiwatchai (2013)
Development of a Corpus for Southern Thai Dialect Speech Recognition: Design
and Text Preparation. The 10th International Symposium on Natural Language
Processing, Phuket, Thailand.
[150] Solera-Uređa, R., Padrell-Sendra, J., Martín-Iglesias, D., Gallardo-Antolín, A.,
Peláez-Moreno, C., & Díaz-de-María, F. (2007) SVMs for Automatic Speech
Recognition: A Survey. Progress in nonlinear speech processing, pp. 190-216.
[151] Soltau, H., Kingsbury, B., Mangu, L., Povey, D., Saon, G., & Zweig, G. (2005) The
IBM 2004 conversational telephony system for rich transcription. In Acoustics,
Speech, and Signal Processing, 2005. Proceedings.(ICASSP'05). IEEE
International, Philadelphia, PA, pp. I-205.
[152] Song, Y., Cui, R., Hong, X., Mcloughlin, I., Shi, J., & Dai, L. (2015) Improved
language identification using deep bottleneck network. In Acoustics, Speech and
Signal Processing (ICASSP), 2015 IEEE International Conference, pp. 4200-4204.
[153] Stantic, Dejan, and Jun Jo (2012) Accent Identification by Clustering and Scoring
Formants. World Academy of Science, Engineering and Technology, International
Journal of Computer, Electrical, Automation, Control and Information Engineering,
vol. 6, no. 3, pp. 379-384.
[154] Stolcke, A., Zheng, J., Wang, W., & Abrash, V. (2011) SRILM at sixteen: Update
and outlook. IEEE Automatic Speech Recognition and Understanding Workshop,
vol. 5.
[155] T.T. Vu, D.T. Nguyen, M.C. Luong, and J-P. Hosom (2005) Vietnamese large
vocabulary continuous speech recognition. INTERSPEECH 2005, Lisbon,
Portugal.
[156] Thang Tat Vu, Dung Tien Nguyen, Mai Chi Luong and John-Paul Hosom (2006)
Vietnamese Large Vocabulary Continuous Speech Recognition. Proceedings of
Eurospeech, Lisboa.
[157] Thompson, Henry (1990) Best-first enumeration of paths through a lattice - An
active chart parsing solution. Computer Speech & Language, vol. 4, no. 3, pp. 263-
274.
[158] Tommie Gannert (2007) A Speaker Verification System under the Scope: Alize.
Stockholm, Sweden School of Computer Science and Engineering.
[159] Torres-Carrasquillo, P. A., Gleason, T. P., and Reynolds, D. A. (2004) Dialect
Identification Using Gaussian Mixture Models. Odyssey: The Speaker and
Language Recognition Workshop, pp. 297-300.
[160] Torres-Carrasquillo, P. A., Singer, E., Kohler, M. A., Greene, R. J., Reynolds, D.
A., and Deller Jr., J. R. (2002) Approaches to Language Identification Using
Gaussian Mixture Models and Shifted Delta Cepstral Features. International
Conference on Spoken Language Processing, Denver, CO, ISCA, pp. 33-36, 82-92.
[161] Trần Đỗ Đạt, Eric Castelli, Trịnh Văn Loan, Lê Việt Bắc (2004) Xây dựng cơ sở dữ
liệu lớn về tiếng nĩi cho tiếng Việt. Tạp chí Khoa học và Cơng nghệ các trường đại
học kỹ thuật, vol. 46+47, pp. 13-17.
[162] Trần Thị Ngọc Lang (1995) Phương ngữ Nam Bộ. Những khác biệt về từ vựng -
ngữ nghĩa so với phương ngữ Bắc Bộ. NXB Khoa học Xã hội.
147
[163] Trịnh Văn Loan, Nguyễn Nam Hà, Phạm Việt Hà (1999) Determining
characteristics of Vietnamese non-accent vowels. Post and telecommunication
Journal, Special issue: R&D on telecommunication and IT, vol. 2, pp. 77-82.
[164] Tuan Vu Hai, Kris Demuynck and Dirk Van Compernolle Vietnamese Automatic
Speech Recognition: the FLaVoR Approach. International Symposium on Chinese
Spoken Language Processing, Singapore, p. 2006.
[165] V.B. Le, D.D. Tran, E. Castelli, L. Besacier, and J-F. Serignat (2004) Spoken and
written language resources for vietnamese. LREC 2004, vol. II, Lisbon, Portugal,
pp. 599–602.
[166] Vapnik, Vladimir Naumovich (1982) Estimation of dependences based on
empirical data. New York Springer-Verlag, vol. 40.
[167] Vijayarani, S., & Muthulakshmi, M. (2013) Comparative analysis of bayes and
lazy classification algorithms. International Journal of Advanced Research in
Computer and Communication Engineering, vol. 2, no. 8, pp. 3118-3124.
[168] Vintsyuk, Taras K. (1968) Speech discrimination by dynamic programming.
Cybernetics and Systems Analysis, vol. 4(1), pp. 52-57.
[169] Viterbi, A. (1967) Error bounds for convolutional codes and an asymptotically
optimum. IEEE transactions on Information Theory, vol. 13, no. 2, pp. 260-269.
[170] Viterbi, Andrew (1967) Error bounds for convolutional codes and an
asymptotically optimum decoding algorithm. IEEE Transactions on Information
Theory, vol. 13(2), pp. 260–269.
[171] Võ Xuân Trang (1997) Phương ngữ Bình Trị Thiên. Nhà xuất bản Khoa học xã hội.
[172] Vu, Quan, Kris Demuynck, and Dirk Van Compernolle (2006) Vietnamese
automatic speech recognition: the FLaVoR approach. ISCSLP 2006, Kent Ridge,
Singapore.
[173] W. Labov (1972) Sociolinguistic Patterns. Philadelphia: University of
Pennsylvania.
[174] W. Labov, C. Boberg, and B. Sharon (2006) The Atlas of North American English.
Walter de Gruyter.
[175] Wang, Y., M. Mahajan, and X. Huang (2000) A unified context-free grammar and
n-gram model for spoken language processing. Proceedings of the International
Conference on Acoustics, Speech, and Signal Processing, vol. 3, Istanbul, Turkey,
pp. 1639-1642.
[176] Witten, Ian H., and Eibe Frank (2005) Data Mining: Practical machine learning
tools and techniques. Morgan Kaufmann.
[177] Woodland, P. C., Gales, M. J. F., Pye, D., & Young, S. J. (1997) The development
of the 1996 HTK broadcast news transcription system. DARPA speech recognition
workshop, pp. 73-78.
[178] Xuedong Huang and Li Deng (2010) Handbook of Natural Language Processing,
Fred J. Damerau Nitin Indurkhya, Ed. Chapman and Hall/CRC, vol. 2.
[179] Xuedong Huang, Alejandro Acero, Hsiao-Wuen Hon (2010) Spoken language
processing. Prentice Hall Ptr.
[180] Young, S. J., Odell, J. J., & Woodland, P. C. (1994) Tree-based state tying for high
accuracy acoustic modelling. In Proceedings of the workshop on Human Language
, pp. 307-312.
[181] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1989) Token passing: a simple
conceptual model for connected speech recognition systems. Cambridge, UK
Cambridge University Engineering Department.
148
[182] Young, S. J., Russell, N. H., & Thornton, J. H. S. (1991) The use of syntax and
multiple alternatives in the VODIS voice operated database inquiry system.
Computer Speech & Language, vol. 5, no. 1, pp. 65-80.
[183] Young, S., Evermann, G., Gales, M., Hain, T., Kershaw, D., Liu, X.,. & Valtchev,
V. (2002) The HTK book, 175th ed., 3, Ed. Cambridge university engineering
department.
[184] Yusnita, M. A., et al (2013) Acoustic analysis of formants across genders and
ethnical accents in Malaysian English using ANOVA. Procedia Engineering 64, pp.
385-394.
[185] Zissman, M. A., Gleason, T. P., Rekart, D. M., & Losiewicz, B. L. (1996)
Automatic dialect identification of extemporaneous conversational, Latin American
Spanish speech. In Acoustics, Speech, and Signal Processing, 1996. ICASSP-96.
Conference Proceedings., pp. 777-780.
149
DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ
CỦA LUẬN ÁN
1. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Trần Xuân Thương
(2011) Một phương pháp lựa chọn nhanh tham số cho hệ thống nhận dạng tiếng
nĩi tiếng Việt. Tạp chí Nghiên cứu khoa học và cơng nghệ quân sự, Số 16 năm
2011 (tháng 12), ISSN 1859-1043, trang 169-178.
2. Nguyễn Hồng Quang, Trịnh Văn Loan, Phạm Ngọc Hưng, Đào Thị Thu Diệp
(2012) Cải thiện hiệu năng của hệ thống nhận dạng tiếng Việt nĩi bằng phương
pháp lưới từ hậu nghiệm. Tạp chí Nghiên cứu khoa học và cơng nghệ quân sự, Số
đặc san ACEIT’12 năm 2012 (tháng 11), ISSN 1859-1043, trang 25-32
3. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2013) Một hướng tiếp
cận dựa trên tần số cơ bản để phân biệt phương ngữ tiếng Việt theo phương thức
phát âm. Kỷ yếu Hội nghị Quốc gia lần thứ VI về Nghiên cứu cơ bản và ứng dụng
Cơng nghệ thơng tin (FAIR) - Huế, ngày 20 – 21/6/2013, ISBN: 978-604-913-165-
3, trang 265-269.
4. Diep Dao Thi Thu, Loan Trinh Van, Quang Nguyen Hong, Hung Pham Ngoc
(2013) Text-dependent Speaker Recognition for Vietnamese. 2013 Fixfth
International Conference of Soft Computing and Pattern Recognition (SoCPaR
2013), Hanoi, Vietnam, 15-18 December 2013, pp. 203-206, ISBN 978-1-4799-
3400-3, IEEE Catalog Number: CFP1395H-ART.
5. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Phạm Quốc Hùng
(2014) Nhận dạng phương ngữ tiếng Việt sử dụng mơ hình Gauss hỗn hợp. Kỷ yếu
Hội nghị Quốc gia lần thứ VII về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng
tin (FAIR) – Thái Nguyên, ngày 19-20/6/2014, ISBN: 978-604-913-300-8, trang
449-552.
6. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang (2015) Nhận dạng
phương ngữ tiếng Việt sử dụng MFCC và tần số cơ bản. Kỷ yếu Hội nghị Quốc gia
lần thứ VIII về Nghiên cứu cơ bản và ứng dụng Cơng nghệ thơng tin (FAIR) – Hà
Nội, 09-10/7/2015, ISBN: 978-604-913-397-8, trang 523-528.
7. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) Corpus and
Statistical Analysis of F0 Variation for Vietnamese Dialect Identification. The 3rd
International Conference on Computer and Computing Science Proceedings, Hanoi,
Vietnam, October 22-24, 2015. ISSN: 2287-1233 ASTL, Vol.111 (COMCOMS
2015), pp.205-210.
8. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2015) “Building of
corpus for Vietnamese dialect identification”, Journal of Science and Technology
Technical Universities, No.109-2015. ISSN 2354-1083, pp.49-55.
9. Nguyễn Hồng Quang, Phạm Ngọc Hưng, Trịnh Văn Loan, Phạm Quốc Hùng
(2016) “So sánh một số bộ phân lớp dùng cho nhận dạng phương ngữ tiếng Việt”.
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Cơng
150
nghệ thơng tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang
663-667.
10. Phạm Ngọc Hưng, Trịnh Văn Loan, Nguyễn Hồng Quang, Trần Vũ Duy (2016)
“Cải thiện hiệu năng hệ thống nhận dạng tiếng việt với thơng tin về phương ngữ”.
Kỷ yếu Hội nghị Quốc gia lần thứ IX về Nghiên cứu cơ bản và ứng dụng Cơng
nghệ thơng tin (FAIR) – Cần Thơ, 4-5/8/2016. ISBN: 978-604-913-472-2, trang
63-69.
11. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Automatic
identification of Vietnamese dialects”. Journal of Computer Science and
Cybernetics, V.32, N.1 (2016), 18-29, DOI: 10.15625/1813-9663/32/1/7905.
12. Pham Ngoc Hung, Trinh Van Loan, Nguyen Hong Quang (2016) “Statistical
Analysis of Vietnamese Dialect Corpus and Dialect Identification Experiments”.
International Journal of Scientific Engineering and Applied Science (IJSEAS) –
Volume-2, Issue-8, August 2016, ISSN: 2395-3470, pp. 255-266.
Các file đính kèm theo tài liệu này:
- luan_an_nhan_dang_tu_dong_tieng_noi_phat_am_lien_tuc_cho_cac.pdf