ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lương Thái Lê
Phân tích ý định từ văn bản ngắn,
trực tuyến tiếng Việt
LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN
Hà Nội - 2021
LỜI CAM ĐOAN
Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định
từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của
riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn
trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.
NCS đã trích dẫn đầy đủ các
173 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 386 | Lượt tải: 0
Tóm tắt tài liệu Luận án Phân tích ý định từ văn bản ngăn, trực tuyến tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tài liệu tham khảo, công trình nghiên cứu
liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này,
luận án hoàn toàn là công việc của riêng NCS.
Trong các công trình khoa học được công bố liên quan đến luận án, NCS
đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì
do NCS đã thực hiện.
Tác giả:
Hà Nội:
i
LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan
Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và
giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không
chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia
sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học.
Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của
Thầy.
Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn
Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành
viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự
giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho
luận án.
Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo
và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và thực hiện luận án.
Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa,
và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học
Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ
vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi
lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của
tôi, về những giúp đỡ hữu ích cho luận án.
Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên
cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt
quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó.
Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên
chia sẻ bất cứ khi nào tôi cần.
Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con
và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều
kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn
thành được luận án này.
ii
Mục lục
Lời cam đoan i
Lời cảm ơn ii
Mục lục ii
Danh mục các từ viết tắt vi
Danh mục các bảng viii
Danh mục các hình vẽ x
Mở đầu 1
Chương 1. Tổng quan về ý định và phân tích ý định 10
1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10
1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12
1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14
1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16
1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21
1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23
1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25
1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chương 2. Phân tích ý định từ văn bản trực tuyến 31
2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31
2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33
2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36
2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38
2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38
2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39
iii
2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39
2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40
2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41
2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42
2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46
2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
Chương 3. Phát hiện ý định và xác định miền quan tâm của
ý định 51
3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền
quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52
3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53
3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55
3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56
3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60
3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61
3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62
3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65
3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65
3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67
3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70
3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71
3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
Chương 4. Phân tích và trích chọn nội dung ý định 79
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81
4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84
4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84
4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84
4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM–
CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92
4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93
iv
4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93
4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95
4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96
4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99
4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100
4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101
4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101
4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109
4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110
4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113
4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125
5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125
5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126
5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131
5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135
5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136
5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138
5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144
5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146
Kết luận 148
Danh mục các công trình khoa học 150
Tài liệu tham khảo 151
Phụ lục 159
v
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch
Bi-LSTM Bidirectional Long Short
Term Memory
Mạng bộ nhớ dài ngắn hai
chiều
Bi-LSTM-CRFs Bidirectional Long Short
Term Memory -
Conditional Random Field
Mạng bộ nhớ dài ngắn hai
chiều trường ngẫu nhiên có
điều kiện
CNN Convolutional Neural Network Mạng nơ ron tích chập
CRFs Conditional Random Fields Trường ngẫu nhiên có điều
kiện
EI Explicit Intent Ý định rõ
EMD Entity Mentioned
Detection
Xác định thực thể được
nhắc đến
IE Information Extraction Trích xuất thông tin
IH Intent Head Đầu của ý định
II Implicit Intent Ý định ẩn
IM Intent Modifiers Bổ nghĩa của ý định
L-BFGS Limited-memory
Broyden-Fletcher
Goldfarb Shanno
Giới hạn bộ nhớ BFGS
LSTM Long Short Term Memory
Mạng bộ nhớ ngắn dài
vi
ME Maximum Entropy Cực đại entropy
NI Non Intent Không có ý định
NER Named Entity Ricognition Nhận diện thực thể có tên
POS Part Of Speech Thành phần của câu
RNN Recurrent Neural Network Mạng nơ ron hồi quy
SVMs Support Vector Machines Máy véc tơ hỗ trợ
vii
DANH MỤC CÁC BẢNG
1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13
3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý
định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66
3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi
miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72
3.5 Precision, recall và F1-score của fold tốt nhất khi dùng SVMs
và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương
pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85
4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85
4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87
4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88
4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93
4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98
4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền
quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98
4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110
4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111
4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112
4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi
sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116
4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi
sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118
viii
4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động
sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119
4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120
5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127
5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128
5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129
5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130
5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan
tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không
phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi
sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương
ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139
5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch
với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và
Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141
5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ
hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145
5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc
miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146
5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159
5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160
5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161
ix
DANH MỤC CÁC HÌNH VẼ
1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24
1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25
1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27
1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28
1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29
2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông
xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34
2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47
2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người
dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57
3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63
3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63
3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64
3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65
3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68
3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75
3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý
định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76
4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82
4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83
4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86
4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89
4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90
4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91
4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92
4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94
x
4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ
phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất
động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100
4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan
tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100
4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102
4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103
4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp
không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104
4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong
ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được
chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114
4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối
với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132
5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134
5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi-
LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm
với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương
ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp
dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143
5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146
xi
Mở đầu
Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn,
và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng
đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền
thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái,
bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc
biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong
muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của
người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà,
vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ
là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ
như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả
nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay
“mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình
đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt
tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa
ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính
của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt
được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều
chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch,
các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm,
y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân
tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là
chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn
cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích
và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn
và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử,
các hệ thống khuyến nghị, quảng cáo trực tuyến...
1
Mở đầu 2
Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn
bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất,
ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều
gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện
ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon,
mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện
diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong
văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào
chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần
tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu
văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ
địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó
khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên
cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức
độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân
tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực
tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa
có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây:
1) Đề xuất định nghĩa hình thức về ý định có khả năng khái
quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong
văn bản.
Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước
tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất,
là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman
(1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện
một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các
hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định
nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và
hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo
hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm
hành động ý định (intended–action), đích của ý định (intention–target), độ
mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời
điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp
với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc
Mở đầu 3
iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention–
target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng
và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ
cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía
cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang
www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho
2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá
khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG -
THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn
chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm
nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và
an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin
cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì
thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần
của ý định cụ thể và bao quát hơn.
2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy
trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định
miền quan tâm, và trích chọn nội dung cụ thể của ý định.
Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các
nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một
lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong
truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định
(intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ
truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai
IM là “alice in wonderland ” (tên bộ phim) và “2010 ” (sản xuất năm 2010).
IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng
buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần
IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của
người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của
các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect)
và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành
động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng
thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012)
[16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ
chứa ý định (intention phrase) và các thành phần khác của ý định (intention
Mở đầu 4
components). Theo tác giả, cụm chứa ý định được trích chọn bằng kỹ thuật
bootstrapping, còn các thành phần khác của ý định được trích chọn bằng
luật hoặc bằng kỹ thuật học máy như CRFs. Các công trình trên đã phân
tích được ý định trong từng phạm vi và lĩnh vực cụ thể. Tuy vậy, chưa có
công trình nào tiếp cận vấn đề phân tích ý định theo một quy trình tổng
quát, xuyên suốt với đầy đủ các bước từ phát hiện (hay lọc) ý định, xác định
miền quan tâm của ý định, và trích chọn nội dung cụ thể của ý định. Trong
đó, mỗi bước cần được mô hình hoá thành bài toán phân loại, phân tích ngôn
ngữ hoặc trích chọn thông tin phù hợp.
3) Phân tích và hiểu ý định trên đa miền quan tâm. Đặc biệt
là khả năng mở rộng phân tích ý định cho các miền dữ liệu mới.
Theo đó, các nghiên cứu của Li (2010) [67], Castellanos và cộng sự (2012)
[16], Chen và cộng sự (2013) [21], Heyrani–Nobari và cộng sự (2014) [76],
Gupta và cộng sự (2014) [35], Wang và cộng sự (2015) [97], Kim và cộng sự
(2016) [55], Shang (2017) [92] Labidi và cộng sự (2018) [65] đã đề xuất các
phương pháp phù hợp cho từng điều kiện bài toán cụ thể. Tuy vậy, mỗi miền
quan tâm (miền ứng dụng) sẽ có một tập thuộc tính hay ràng buộc ý định
riêng. Ví dụ, các thuộc tính về ý định du lịch có thể bao gồm nơi đến, phương
tiện, khách sạn, số lượng người . . . trong khi ý định mua nhà sẽ xem xét các
khía cạnh loại hình bất động sản (nhà đất hay chung cư), địa điểm, diện tích,
hướng nhà . . . . Việc mở rộng miền, học chuyển đổi từ miền này sang miền
khác hay thiết kế cơ chế trích chọn thông tin ý định từ đa miền quan tâm
là những vấn đề hầu như chưa được cộng đồng nghiên cứu xét đến. Một số
ít nghiên cứu về vấn đề học chuyển đổi trong bài toán phân tích ý định hầu
hết mới được khai thác trong những năm gần đây, cụ thể là của các tác giả
Ngo và cộng sự (2017) [71], Song và cộng sự (2018) [93].
Ngoài ra, dù vấn đề phân tích và hiểu ý định từ văn bản gây được nhiều
chú ý trong thời gian gần đây, cộng đồng nghiên cứu vẫn còn thiếu các tập
dữ liệu gán nhãn làm chuẩn mực chung để thử nghiệm, so sánh, đánh giá các
phương pháp. Đặc biệt, chưa có bất cứ tập dữ liệu tiếng Việt được gán nhãn
chuẩn cho hướng nghiên cứu này. Theo hiểu biết của tác giả, luận án này là
công trình đầu tiên đặt vấn đề phân tích và hiểu ý định trong văn bản tiếng
Việt, cụ thể là cho các văn bản ngắn trên các kênh truyền thông xã hội trực
tuyến. Vì thế, luận án xem thử thách về đặc thù ngôn ngữ, về việc thiếu dữ
liệu đánh giá là một trong những nhiệm vụ cần giải quyết và vượt qua.
Mở đầu 5
Mục tiêu và nội dung nghiên cứu của luận án
Từ việc phân tích những vấn đề trọng tâm đề cập ở trên, luận án đặt ra
mục tiêu nghiên cứu chính như sau:
Mục tiêu nghiên cứu: Đề xuất và xây dựng các mô hình tự động phân
tích ý định từ các văn bản (bài đăng/bình luận) tiếng Việt ngắn trên các
phương tiện truyền thông xã hội trực tuyến.
Để đạt được mục tiêu nghiên cứu đề ra, luận án cần giải quyết và thực
hiện những nội dung nghiên cứu quan trọng sau đây:
1) Đề xuất định nghĩa và biểu diễn cấu trúc ý định: Trước tiên, luận án
thực hiện tìm hiểu, khảo sát các định nghĩa về ý định của các nghiên cứu liên
quan. Từ đó, luận án đề xuất một định nghĩa về ý định cũng như cách biểu
diễn ý định phù hợp cho các văn bản trực tuyến tiếng Việt có độ dài ngắn.
2) Đề xuất tiến trình phân tích ý định cũng như cách thức mô hình hoá và
giải quyết các bước cụ thể trong tiến trình đó : Tiến trình này bao hàm đầy
đủ các bước từ phát hiện sự hiện diện của ý định (xác định văn bản chứa
ý định), xác định miền quan tâm của ý định, và đặc biệt là trích chọn các
thông tin cụ thể trong cấu trúc ý định.
3) Đề xuất phân tích và xác định ý định đa miền quan tâm: Luận án cần
làm sáng tỏ những giả thuyết quan trọng về trích chọn thông tin ý định từ
đa miền quan tâm cũng như mối tương quan giữa các mô hình, kết quả phân
tích cho từng miền riêng lẻ và trên nhiều miền ? Liệu chúng ta có thể sử dụng
dữ liệu và tri thức từ một miền đã có để phân tích trên các miền mới ? Một
phần quan trọng của luận án sẽ tìm kiếm câu trả lời cho những câu hỏi này.
Bên cạnh các mục tiêu và nội dung nghiên cứu chính vừa nêu, một trong
những động lực nghiên cứu của luận án là phân tích ý định cho văn bản
truyền thông xã hội tiếng Việt. Theo hiểu biết của nghiên cứu sinh, luận án
này cùng các công trình khoa học đã công bố là những nỗ lực đầu tiên để
phân tích ý định người viết từ văn bản tiếng Việt một cách có hệ thống.
Luận án xem xét các yếu tố như tính đa dạng về ngôn từ, về cách hành văn
tiếng Việt. Và một khó khăn nữa luận án phải khắc phục là việc thiếu hoàn
toàn dữ liệu gán nhãn ý định. Do đó, bên cạnh các phương pháp, kỹ thuật
đề xuất, luận án sẽ xây dựng các tập ngữ liệu gán nhãn ý định để phục vụ
cho thực nghiệm, đánh giá, so sánh cũng như chia sẻ với cộng đồng tạo tiền
Mở đầu 6
đề cho các nghiên cứu về sau.
Phạm vi và phương pháp nghiên cứu
Ý định thể hiện trong văn bản rất đa dạng. Việc phân tích đầy đủ, chính
xác ý định của người viết cần thêm nhiều nghiên cứu từ cộng đồng. Luận án
này hạn chế phạm vi và nội dung nghiên cứu như sau:
Dạng ý định: Luận án chỉ quan tâm các ý định tường minh hay còn gọi là
ý định rõ (explicit intents). Luận án chưa xem xét phân tích các ý định ẩn
(implicit intents). Luận án có thể xử lý trường hợp đa ý định trong văn bản,
nhưng không xử lý trường hợp đa ý định trong cùng một câu hoặc các ý định
có tính lồng nhau. Luận án cũng không xem xét khía cạnh về tính hiệu lực
của ý định, nghĩa là một ý định có thể đề cập trong quá khứ và có thể đã hết
hiệu lực nhưng vẫn được xem là hợp lệ.
Dạng dữ liệu: Dữ liệu văn bản mà luận án đề cập đều là các bài đăng, bình
luận của người dùng trên các phương tiện truyền thông xã hội trực tuyến.
Để ngắn gọn, luận án sử dụng thuật ngữ văn bản trực tuyến hoặc bài đăng.
Độ dài mỗi văn bản trực tuyến cần phải từ 2 đến 500 từ. Tr... tri thức nào đó, một quan điểm, hoặc đơn giản chỉ muốn tìm
sự tương tác xã hội. Câu hỏi locality muốn tìm thông tin về một địa điểm
nhất định nào đó, còn câu hỏi navigationality muốn tìm địa chỉ một trang
web. Câu hỏi thuộc loại ý định procedurality là câu hỏi mong muốn được biết
cách thực hiện một việc nào đó (thường bất đầu bởi từ để hỏi “How”). Tương
tự, câu hỏi causality có ý định muốn biết nguyên nhân xẩy ra một việc nào
đó (thường bắt đầu bẳng từ để hỏi “Why”). Với mỗi loại ý định, tác giả xây
dựng mô hình phân lớp tương ứng. Bằng cách sử dụng các kỹ thuật học máy
tiên tiến như Co-Training và PU-learning, tác giả và cộng sự đã phát triển
được những mô hình phân lớp ổn định và ý nghĩa hơn những mô hình tốt
nhất đã công bố. Hơn nữa, ngoài những đặc trưng về từ vựng, tác giả còn
dùng thêm những đặc trưng siêu dữ liệu (metadata), chẳng hạn như thể loại
mà câu hỏi thuộc vào, từ đó giúp hệ thống CQA có thể gợi ý câu trả lời chính
xác hơn.
1.3.2 Phân tích ý định trong các bài đăng
Khác với câu truy vấn, một bài đăng của người dùng (post, comment,
tweet) trên các phương tiện truyền thông trực tuyến thường dài hơn. Vì vậy,
các bài đăng thường mang nhiều thông tin hơn các truy vấn. Đây là một
thuận lợi giúp việc xác định ý định người dùng được đầy đủ và chính xác
hơn. Tuy nhiên các bài đăng lại chứa nhiều nhiễu hơn, tức là có thể có rất
nhiều câu trong một bài đăng đơn giản chỉ là những câu chào hỏi hoặc chuyện
phiếm trong khi số câu mang ý đinh của người dùng lại rất ít. Điều này gây
ra rất nhiều khó khăn khi xác định ý định của người dùng.
Chương 1. Giới thiệu tổng quan 21
Đó cũng là lý do mà những nghiên cứu về xác định ý định người dùng từ
các bài đăng trực tuyến còn khá ít, điển hình có thể kể đến là nghiên cứu của
Castellanos và cộng sự (2012) [16], Castellanos và cộng sự (2016) [17], Chen
và cộng sự (2013)[21], Cui và cộng sự (2017) [23], Nobari và cộng sự (2014)
[76], Wang và cộng sự (2015) [97], Pearl và cộng sự [77], Purohit và cộng sự
(2015) [81], Ding và cộng sự (2015) [26], Labidi và cộng sự (2016) [64], Ngo
và cộng sự (2017) [71], Yang và cộng sự (2013) [101]. Trong số đó, hầu hết
các nghiên cứu mới chỉ mô hình hóa bài toán thành bài toán phân lớp để tìm
lớp ngữ nghĩa thích hợp cho các bài đăng của người dùng, đó là các nghiên
cứu [21], [40], [97], [81], [26], [71]. Luận án sẽ trình bày cụ thể hơn về những
nghiên cứu này trong chương 3. Ngoài ra, có một số ít nghiên cứu tiếp cận
theo hướng phấn tích và trích xuất thông tin về ngữ nghĩa của ý định người
dùng, đó là [16], [76], [64]. Luận án sẽ trình bày cụ thể về các nghiên cứu
này ở chương 4. Đặc biệt trong số các nghiên cứu tiếp cận theo hướng phân
lớp nói trên, có một số ít nghiên cứu đề xuất giải pháp học chuyển đổi, thích
nghi miền như [21], [26], [71], [93]. Đây cũng là cơ sở để luận án hướng đến
bài toán độc lập miền trong việc xác định ý định người dùng sẽ được giới
thiệu ở chương 5.
1.4 Một số kỹ thuật khai phá dữ liệu và mô hình
học máy
Phần này sẽ giới thiệu về một số kỹ thuật khai phá dữ liệu như kỹ thuật
phân lớp, kỹ thuật trích xuất thông tin. Bên cạnh đó, luận án cũng trình bày
sơ lược về những mô hình học máy được dùng trong toàn bộ luận án.
1.4.1 Cơ bản về kỹ thuật phân lớp
Kỹ thuật phân lớp là một hướng tiếp cận khá phổ biến trong lĩnh vực
khai phá dữ liệu. Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình
giúp cho việc gán nhãn phân loại dữ liệu hay xếp một đối tượng vào một
trong những lớp đã biết trước. Hướng tiếp cận này thường sử dụng một số kỹ
thuật của học máy như cây quyết định (decision tree), cực đại hóa entropy
(maximum entropy), máy véc tơ hỗ trợ (support vector machines)...Phân lớp
Chương 1. Giới thiệu tổng quan 22
còn được gọi là học có giám sát (học có thầy – supervised learning). Một số
kiến thức ở phần này được tham khảo từ [74]
1.4.1.1 Phương pháp cực đại entropy (ME)
Trong lý thuyết thông tin, chúng ta quan tâm tới việc phát triển một
thước đo lượng thông tin thu được từ việc quan sát một sự kiện xảy ra với
một xác suất p. Để đơn giản hóa vấn đề, chúng ta tạm bỏ qua các đặc trưng
của sự kiện mà chỉ quan tâm tới sự kiện xảy ra hay không. Ta có định nghĩa
về entropy do Shannon đưa ra vào năm 1948 như sau: “Entropy của một phân
phối xác suất là giá trị kỳ vọng của thông tin của phân phối đó”.
Từ những tính chất của entropy ta có thể thấy entropy của một phân phối
xác suất còn thể hiện sự đồng đều trong phân phối xác suất. Cụ thể, entropy
càng cao thì phân phối càng đều. Nguyên lý entropy cực đại cho rằng: Với
một tập các dữ liệu đã biết trước, phân phối xác suất tốt nhất trong tập các
phân phối xác suất có thể để biểu diễn trạng thái hiện tại của tri thức, là
phân phối xác suất có entropy cực đại và phân phối này là duy nhất. Mô
hình phân lớp ME là mô hình phân lớp sử dụng nguyên lý cực đại entropy.
Điều đó có nghĩa là mô hình ME là mô hình có entropy cao nhất khi thỏa
mãn các ràng buộc nhận được từ tập dữ liệu thực nghiệm, theo Berger và
cộng sự (1996) [8]. ME có tốc độ huấn luyện và tham chiếu nhanh, và nó
cũng không hề thua kém các phương pháp học máy thống kê nâng cao như
SVMs và Random Forest [75].
1.4.1.2 Phương pháp máy véc tơ hỗ trợ (SVMs)
Thuật toán phân lớp SVMs là một thuật toán thuộc lớp giải thuật phân
lớp thống kê. Nó có khả năng xử lý cả dữ liệu tuyến tính và dữ liệu không
tuyến tính [6]. Bản chất của phương pháp này là xây dựng một siêu phẳng
để phân chia dữ liệu thành 2 nửa, tương ứng với việc phân chia dữ liệu thành
2 lớp. Trong trường hợp dữ liệu không tuyến tính, nó sẽ sử dụng một hàm
nhân (kernel function) để chuyển đổi tập dữ liệu ban đầu sang một không
gian mới có số chiều lớn hơn để xử lý.
SVMs với phân lớp đa lớp
Chương 1. Giới thiệu tổng quan 23
Một trong những giải pháp cải tiến SVMs để giải quyết bài toán phân
lớp đa lớp là sử dụng kỹ thuật 1-against-all. Ý tưởng cơ bản của thuật toán
này là chuyển bài toán phân lớp nhiều lớp thành nhiều bài toán phân lớp nhị
phân như sau:
— Giả sử ta cần phân lớp dữ liệu vào m lớp y1, y2. . . , ym , với yi ∈ Y .
— Biến đổi tập Y ban đầu thành m tập có 2 lớp con Zi = {yi , {Y − yi}}.
— Áp dụng SVMs phân lớp nhị phân cơ bản với m tập Zi để xây dựng
siêu phẳng cho lớp này. Như vậy ta sẽ có m bộ phân lớp nhị phân.
— Bộ phân lớp với sự kết hợp của m bộ phân lớp trên được gọi là bộ phân
lớp đa lớp mở rộng với SVMs
1.4.2 Cơ bản về kỹ thuật trích xuất thông tin
Trích xuất thông tin (IE) là một lĩnh vực nghiên cứu có liên quan đến
Truy hồi thông tin, Khai phá dữ liệu, cũng như Xử lý ngôn ngữ tự nhiên.
Mục tiêu chính của trích xuất thông tin là tìm ra những thông tin có cấu
trúc từ văn bản không có cấu trúc hay bán cấu trúc [51].
1.4.2.1 Các nhiệm vụ chính của Trích xuất thông tin
Named Entity Recognition (NER) – Nhận dạng thực thể có tên
NER là nhiệm vụ xác định, phát hiện và phân lớp các thực thể được đặt tên
(hay thực thể có tên) đã được định nghĩa trước, chẳng hạn như thực thể tổ
chức (World Health Organisation), thực thể người (Obama), thực thể thời
gian (01/08/2017) . . .
Relation Extraction (RE)- Trích xuất quan hệ
RE xác định và phân lớp các mối quan hệ đã được định nghĩa trước giữa
các thực thể trong văn bản. Ví dụ từ đoạn van bản từ “Steve Jobs works for
Apple”, ta có thể trích xuất được quan hệ EmployeeOf(Steve Jobs, Apple)
Event Extraction (EE)- Trích xuất sự kiện
EE là nhiệm vụ xác định các sự kiện trong văn bản tự do, và thu lại các
thông tin cụ thể, có cấu trúc về các sự kiện đó. EE thường liên quan đến việc
trích xuất vài thực thể và các mối liên hệ giữa chúng.
Chương 1. Giới thiệu tổng quan 24
1.4.2.2 Nhiệm vụ NER và cách tiếp cận học máy thống kê
Trước tiên ta có khái niệm thực thể có tên (Named Entity): là một chuỗi
các từ chỉ một thực thể nào đó ở thế giới thực được gọi bằng một tên riêng,
vd: California, Steave Job . . .
NER : là nhiệm vụ xác định tên của các thực thể từ văn bản ở dạng
phi cấu trúc và phân lớp chúng vào các lớp đã được định nghĩa trước, như:
người, tổ chức, và địa điểm...Các kiểu thực thể có tên thường gặp nhất: PER
(người), ORG (tổ chức), LOC (địa điểm). Ngoài ra việc trích xuất các biểu
thức chỉ: DATE (ngày tháng), TIME (thời gian), Tiền tệ...cũng được định
nghĩa là nhiệm vụ NER.
Với phương pháp học máy thống kê NER được chuyển về bài toán gán nhãn
chuỗi (sequence labeling). Bài toán được định nghĩa như sau: cho trước tập
các chuỗi quan sát ký hiệu x = (x1, x2, ..., xn). Thông thường xi được biểu diễn
dưới dạng vector. Ta mong muốn gán nhãn yi , với yi ∈ Y = {y1, y2, ..., ym} là
tập các nhãn định nghĩa trước, cho từ xi tương ứng dựa vào dữ kiện từ các
từ trước hoặc sau nó.
Để gán nhãn cho dữ liệu huấn luyện, ta thường dùng quy tắc B-I-O, ở đó với
mỗi thực thể kiểu T, ta có hai nhãn B-T và I-T. Trong đó B-T là “begin type
T” tức là chỉ từ bắt đầu của thực thể kiểu T, I-T là “inside type T”, tức là
chỉ những từ thuộc thực thể T kể từ từ thứ hai trở đi. Ngoài ra, ta còn có
nhãn O cho biết “outside named entity”, tức là những từ không là thực thể
có tên. Ví dụ trong hình 1.1 thể hiện cách gán nhãn cho một chuỗi văn bản
sử dụng quy tắc B-I-O.
Hình 1.1: Quy tắc gán nhãn BIO
Một số mô hình học máy hiệu quả đối với bài toán nhận dạng thực thể có
tên phải kể đến là: mô hình trường ngẫu nhiên có điều kiện (CRFs), mô hình
Markov ẩn (HMMs)...
Chương 1. Giới thiệu tổng quan 25
1.4.2.3 Mô hình trường ngẫu nhiên có điều kiện (CRFs)
CRFs được đề xuất đầu tiên bởi Lafferty và cộng sự vào năm 2001 [61].
Đây là mô hình xác suất được xây dựng để phân đoạn và gán nhãn cho dữ
liệu dạng chuỗi, vì vậy nó rất thích hợp với bài toán NER. Gọi S là tập hữu
hạn các trạng thái, mỗi trạng thái tương ứng với một nhãn yi trong tập nhãn
Y . Khi đó, ứng với một chuỗi quan sát đầu vào x = (x1, x2, ..., xn), CRFs sẽ
xác định chuỗi trạng thái s = (s1, s2, ..., sn) tương ứng. CRFs cải tiến hơn các
phương pháp trước đó như Maximum Entropy Markov Models (MEMMs) ở
chỗ trạng thái st được xác định không chỉ dựa vào trạng thái trước đó (st−1),
mà còn dựa vào trạng thái phía sau (st+1), hình 1.2.
Hình 1.2: Chuỗi trạng thái tương ứng với chuỗi quan sát
Hiệu quả của mô hình CRFs phụ thuộc rất nhiều vào việc thiết kế tập đặc
trưng tương ứng với dữ liệu. Có hai dạng đặc trưng trong mô hình CRFs đó
là đặc trưng cạnh e (edge feature) và đặc trưng trạng thái s (state feature).
Các đặc trưng cạnh được sinh tự động từ dữ liệu huấn luyện, còn các đặc
trưng trạng thái được tạo bởi việc áp dụng các mẫu vị từ ngữ cảnh (context
predcate template) pi (x , t) trên dữ liệu. Việc này được thực hiện bằng cách
sử dụng một cửa sổ trượt (sliding window) có kích thước xác định để duyệt
qua các ví dụ trong tập dữ liệu huấn luyện. Phần này sẽ được trình bày kỹ
hơn trong chương 4.
1.4.3 Cơ bản về mạng nơ ron
Những năm gần đây, mạng nơ ron là công cụ được lựa chọn để giải quyết
vấn đề về xử lý ngôn ngữ tự nhiên. Phần này sẽ trình bày tổng quan về mạng
nơ ron, phần lớn các công thức được tham chiếu từ [88] và [30]. Một cách
tổng quan, mạng nơ ron có thể được xem như là hợp của các hàm, trong
đó các hàm ràng buộc (affine function) f (.) và các hàm kích hoạt (activation
Chương 1. Giới thiệu tổng quan 26
function) phi tuyến g(.) được sắp xếp xen kẽ nhau, một ví dụ về hai loại hàm
này được trình bày trong công thức 1.1
f (x) = Wx+ b (1.1)
g(y) = softmax (y)
ở đó, W ∈ RC×T , x ∈ RT , b ∈ RC , y ∈ RC . C là số lượng các lớp đầu ra
hay kích thước của véc tơ đầu ra y, T là kích thước của véc tơ đầu vào x,
W được gọi là ma trận trọng số, b được gọi là véc tơ bias. W,b ∈ θ là tập
các tham số của mô hình.
Hàm softmax là một hàm kích hoạt thường được dùng ở tầng cuối cùng
hay ở tầng output của một mạng nơ ron để thu được phân bố có khả năng
phân loại tốt. Những tầng không phải tầng input và output được gọi là tầng
ẩn. Mạng nơ ron thường được đặt tên theo số tầng ẩn của nó. Chẳng hạn,
mạng nơ ron có 1 tầng ẩn được gọi là mạng nơ ron feed − forward một tầng:
h = σ(W1x+ b1) (1.2)
y = softmax (W2x+ b2))
Mạng feed − forward với m tầng ẩn được biểu diễn trong hình 1.3. Ở đó,
h0 là véc tơ đầu vào x; l0 = d là số chiều của véc tơ đầu vào x còn lm+1 là số
chiều cần có của véc tơ tầng ẩn cuối cùng h(m+1) (lm+1 nên được chọn trước).
Mỗi phần tử thứ t của véc tơ h(i) được gọi là một đơn vị ẩn (hidden unit).
Có thể thấy, trong mạng feed − forward các đơn vị ẩn ở tầng thứ i được
kết nối với tất cả các đơn vị ẩn ở tầng thứ i + 1. Nếu mạng nơ ron có nhiều
tầng ẩn, thì mỗi tầng thường có ma trận trọng số W và véc tơ bias b riêng.
Tuy nhiên các tầng khác nhau cũng có thể chia sẻ cùng tham số như nhau.
Kết quả đầu ra của một tầng sẽ là đầu vào cho tầng tiếp theo, và quá trình
đó được lặp lại cho đến tầng cuối cùng để thu được đầu ra của toàn bộ mạng
nơ ron là y, quá trình này được gọi là lan truyền xuôi (forward propagation).
Chương 1. Giới thiệu tổng quan 27
Hình 1.3: Mô hình mạng nơ ron feed − forward nhiều tầng
[72]
1.4.3.1 Véc tơ hóa từ (word embedding)
Khi dùng mạng nơ ron để giải quyết bài toán về ngôn ngữ tự nhiên, mỗi
từ wi xuất hiện trong tập từ vựng V của tập văn bản đầu vào thường được
gán với một véc tơ tương ứng xi , còn được gọi là mã hóa từ của từ wi . Do
đó, một chuỗi các từ w1, ...,wT thường được biểu diễn bởi một chuỗi các véc
tơ mã hóa từ tương ứng x1, ..., xT để làm đầu vào cho mạng nơ ron.
1.4.3.2 Huấn luyện mô hình mạng nơ ron
Tương tự các mô hình học máy, mạng nơ ron cũng thường được huấn luyện
nhờ phương pháp giảm độ dốc ngẫu nhiên (stochastic gradient descent). Tuy
nhiên mỗi mô hình mạng nơ ron gồm nhiều tầng nên việc tính toán gradient
của hàm mất mát loss − function không hề đơn giản. Trong trường hợp này,
phương pháp lan truyền ngược (back propagation) [89] thường được sử dụng.
1.4.3.3 Mạng nơ ron hồi quy (Recurrent Neural Networks - RNNs)
RNNs thuộc lớp các phương pháp dùng mạng nơ ron để xử lý dữ liệu dạng
chuỗi và thường được dùng để xử lý ngôn ngữ tự nhiên. Ý tưởng của RNNs
là chia sẻ các tham số giữa các thành phần khác nhau của mô hình. RNNs
có rất nhiều dạng kiến trúc khác nhau, tuy nhiên trong luận án, tác giả sử
dụng kiến trúc như trong hình 1.4.
Chương 1. Giới thiệu tổng quan 28
Hình 1.4: Đồ thị tính toán trong kiến trúc RNNs
[30]
Ở kiến trúc này, tại mỗi thời điểm t có một đầu ra tương ứng y(t) và các
véc tơ đơn vị ẩn h(t) có kết nối đệ quy với nhau. Quá trình tính toán theo
kiến trúc này được tiến hành như sau. Với mỗi từ x(t), t = 1, ...,T cho trước
tại thời điểm t , và trạng thái khởi tạo h(0), bộ những hàm sau được thực hiện
đệ quy để xác định nhãn y (t) tương ứng:
a(t) = b+Wh(t−1) +Ux(t) (1.3)
h(t) = tanh(a(t)) (1.4)
o(t) = c +Vh(t) (1.5)
y^(t) = softmax (o(t)) (1.6)
trong đó, b, c là các véc tơ bổ trợ, W,U,V lần lượt là các ma trận trọng
số tương ứng 1.4. Mục đích của việc huấn luyện mô hình RNNs là để tìm ra
b, c,W,U,V tối ưu sao cho tối thiểu hóa hàm mất mát:
L = −∑t logpmodel (y(t) | {x(1),x(2), ...,x(T )}) [30]
ở đó, pmodel (y(t) | {x(1),x(2), ...,x(T )}) được tính qua y(t) nhận được từ giá trị
đầu ra của mô hình y^(t)
Mô hình RNNs được huấn luyện bằng phương pháp lan truyền ngược.
Vấn đề “Long-term dependency”
Với cấu trúc quá nhiều tầng với đồ thị tính toán sâu, RNNs gặp phải một
Chương 1. Giới thiệu tổng quan 29
số vấn đề khó khăn. Đặc biệt khi gradient được tính lan truyền qua quá nhiều
giai đoạn sẽ dẫn đến hiện tượng biến mất (vanish) do quá nhỏ hoặc bùng nổ
(explode) do quá lớn. Lý do chính cho hiện tượng vanish là do tính toán hàm
mũ đối với các trọng số nhỏ [30]. Phương pháp Long Short-term Memory do
Hochereiter và cộng sự đề xuất năm 1997 [39] đã chứng minh được khả năng
vượt trội hơn RNNs khi phải giải quyết vấn đề về phụ thuộc dài hạn trong dữ
liệu dạng chuỗi, một yếu tố đặc biệt cần thiết khi xử lý ngôn ngữ tự nhiên.
Tính chất này rất phù hợp và hiệu quả với nhiệm vụ của bài toán gán nhãn
chuỗi [32], [33], khi mà việc xác định nhãn của mỗi từ xi trong chuỗi đầu vào
x phụ thuộc vào các nhãn của các từ đứng trước hoặc sau nó trong dãy.
1.4.3.4 Mô hình Long Short-Term Memory (LSTM)
Như đề cập ở chương 1, kiến trúc tính toán đệ quy trên nhiều tầng với
cùng một phép toán tại mỗi thời điểm t sẽ làm cho RNNs dễ bị bùng nổ tính
toán và không kế thừa được những đặc trưng cần thiết ở phía trước thời điểm
t đó. Để khắc phục nhược điểm đó, mỗi tế bào (cell) của mô hình LSTM được
bổ sung thêm các cổng input gate, forget gate, output gate. Trong đó, cổng
forget được dùng để quyết định xem một trạng thái phía trước thời điểm t
nên được nhớ hay nên bị quên đi. Hình 1.5 biểu diễn một tế bào của mô hình
LSTM.
Hình 1.5: Kiến trúc một tế bào trong mô hình LSTM [46]
Tóm lại, với mỗi đầu vào xt, tế bào của LSTM sẽ xác định trạng thái ht
tương ứng nhờ tính toán lần lượt theo các hàm ở mỗi cổng tương ứng:
it = σ(W
(i)
x xt +W
(i)
h ht−1 +W
(i)
c ct−1 + b(i))
ct = (1− it)
⊙
ct−1 + it
⊙
tanh(W (c)x xt +W
(c)
h ht−1 + b
(c))
Chương 1. Giới thiệu tổng quan 30
ot = σ(W
(o)
x xt +W
(o)
h ht−1 +W
(o)
c ct + b(o))
ht = ot
⊙
tanh(ct)
trong đó it là giá trị nhận được ở input gate, ct là giá trị nhận được ở
forget gate và ot nhận được ở output gate. Ở đây, σ là hàm sigmoid và
⊙
là
tích vô hướng. Các b(i) và các Wi là các véc tơ bổ trợ và các ma trận trọng
số tương ứng sẽ được xác định trong quá trình huấn luyện mô hình LSTM.
1.4.3.5 Mô hình Bidirectional Long Short-termMemory (Bi-LSTM)
Trong nhiệm vụ gán nhãn chuỗi, tại một thời điểm t ta không những cần
ghi nhớ được nhiều đặc trưng cần thiết phía trước mà ta còn cần phải quan
tâm đến cả các đặc trưng phía sau thời điểm t đó, (tức là những đặc trưng
ở tương lai) [44]. Mô hình Bi-LSTM được đề xuất để giải quyết vấn đề này
[31]. Mô hình này là sự kết hợp của 2 mô hình LSTM: (1) mô hình foward
LSTM để tính toán và biểu diễn ngữ cảnh phía bên trái của từ t ; (2) mô hình
backward LSTM để tính toán và biểu diễn ngữ cảnh phía bên phải của từ t .
1.5 Kết luận chương
Chương 1 trình bày tổng quan về bài toán Phân tích và xác định ý định
trong văn bản trực tuyến. Đầu tiên, luận án đưa ra những tìm hiểu và khảo
sát về khái niệm ý định, và thể hiện ý định trong văn bản. Một khảo sát về
các hướng nghiên cứu liên quan và các cách tiếp cận giải quyết bài toán xác
định ý định người dùng trên thế giới cũng được trình bày trong chương này.
Khảo sát này giúp tác giả nhìn nhận được những vấn đề cần phải khai thác
tiếp trong bài toán hiểu ý định người dùng. Cuối cùng, chương 1 nhắc lại
một số kiến thức cơ sở về khai phá dữ liệu và các mô hình học máy được sử
d luận án.
Chương 2
Phân tích ý định từ văn bản trực
tuyến
Để tiếp cận mục tiêu phân tích ý định từ văn bản trực tuyến, việc xây
dựng định nghĩa để mô hình hóa khái niệm ý định là rất quan trọng. Chương
này trình bày và phân tích về định nghĩa ý định hướng miền quan tâm mà
luận án đề xuất, đồng thời giới thiệu tiến trình ba pha để giải quyết xuyên
suốt bài toán phân tích ý định từ văn bản trực tuyến tiếng Việt. Những kết
quả này đã được công bố trong công trình [LTLe1] (2016). Bên cạnh đó, luận
án giới thiệu một khảo sát về định nghĩa ý định theo hướng tiếp cận từ điển
(ngữ nghĩa) và hướng tiếp cận cấu trúc hóa. Ở đó, định nghĩa ý định hướng
miền quan tâm của luận án là định nghĩa theo hướng cấu trúc hóa. Trước
tiên phần đầu của chương sẽ giới thiệu về dữ liệu thực nghiệm của luận án
gồm tiền xử lý và quy tắc gán nhãn dữ liệu. Những khó khăn gặp phải của
bài toán phân tích ý định từ văn bản trực tuyến nói chung và văn bản trực
tuyến tiếng Việt nói riêng cũng được trình bày trong chương này.
2.1 Phân tích ý định từ văn bản trực tuyến tiếng
Việt
Như đã giới thiệu trong phần Mở đầu, việc hiểu được ý định thông qua
các văn bản trực tuyến mà người dùng đăng trên các phương tiện truyền
thông xã hội mang lại rất nhiều ý nghĩa thực tiễn. Tuy nhiên qua việc khảo
sát về những nghiên cứu liên quan đã trình bày ở chương 1, phần 1.3, hầu
31
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 32
hết các nghiên cứu trước đây chỉ tập trung phân lớp ý định người dùng vào
một lớp ngữ nghĩa tương ứng. Trong khi đó số lượng những nghiên cứu quan
tâm phân tích cụ thể về công việc, đối tượng mà ý định người dùng hướng
tới cũng như việc trích xuất các thông tin liên quan đến ý định đó còn rất
khiêm tốn. Một số nghiên cứu điển hình theo hướng này như: X.Li (2010)[67],
Castellanos và cộng sự (2012)[16], Xu và cộng sự (2013)[99], Nobari và cộng
sự (2014)[76], Labidi và cộng sự (2018)[65]. Hơn nữa, theo tìm hiểu của tác
giả, chưa có một nghiên cứu chính thức nào ngoài những công trình đã công
bố của tác giả tiếp cận việc phân tích và hiểu ý định người dùng từ văn bản
truyền thông xã hội Tiếng Việt.
Luận án Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt hướng
tới mục tiêu xây dựng một quá trình xuyên suốt để phân tích và hiểu ý định
người dùng từ các văn bản trực tuyến tiếng Việt.
Xét ví dụ một bài đăng của người dùng trên trang www.webtretho.com,
một diễn đàn nổi tiếng của Việt Nam, hình 2.1
Hình 2.1: Một bài đăng mang ý định rõ trên phương tiện truyền
thông xã hội Việt Nam
Từ bài đăng trong hình 2.1 ta thấy người dùng với nick-name “Vi Lynk ”
đang có ý định thuê phòng trọ với một số tiêu chí như: khép kín, cho 2 người,
giá khoảng 1tr7,..., và số điện thoại liên hệ 0988428107.
Theo tác giả tìm hiểu, dữ liệu gồm các văn bản trực tuyến tiếng Việt chưa
có sẵn nên trước tiên luận án phải thực hiện thu thập dữ liệu để chuẩn bị
cho các thực nghiệm.
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 33
2.1.1 Xây dựng dữ liệu thực nghiệm
• Thu thập và tiền xử lý văn bản trực tuyến Tiếng Việt
Trong các thực nghiệm của luận án, dữ liệu được lấy tự động (crawl) từ một
số phương tiện truyền thông xã hội nổi tiếng ở Việt Nam như: các diễn đàn của
các trang www.webtretho.com, www.lamchame.com, www.batdongsan.com, www.
sotaychame.com ..., các trang facebook mở, ... Như đã trình bày ở phần Mở
đầu, đối tượng dữ liệu của luận án là các văn bản trực tuyến có độ dài từ 2
đến 500 từ (trong phạm vi của luận án, mỗi từ được phân cách với nhau bởi
ít nhất một dấu cách). Sau đó, luận án thực hiện tiền xử lý dữ liệu với các
thao tác:
1. Loại bỏ các ký hiệu lạ, các biểu tượng cảm xúc...;
2. Tách mỗi dấu câu thành mỗi từ riêng (tức là hai bên của 1 dấu câu là
hai dấu trống);
3. Những bài đăng thể hiện nhiều ý định thuộc những miền quan tâm khác
nhau mà các ý định được trình bày ở mỗi đoạn/câu riêng sẽ được tách
ra thành nhiều bài đăng sao cho mỗi bài đăng thể hiện ý định chỉ thuộc
1 miền quan tâm;
4. Đối với các thực nghiệm sử dụng phương pháp học sâu LSTM, luận án
thực hiện chuyển tất cả các chữ cái viết hoa về chữ cái viết thường.Bước
tiền xử lý này nhằm đưa những từ có ngữ nghĩa giống nhau nhưng hình
thái khác nhau về cùng một dạng hình thái để việc mã hóa véc tơ từ
được hiệu quả.
Ví dụ về việc thực hiện các bước tiền xử lý dữ liệu trên được trình bày trong
hình 2.2. Ở đó bốn ví dụ tương ứng với minh họa cho bốn bước tiền xử lý
tương ứng.
Về ý nghĩa khoa học, việc tiền xử lý dữ liệu giúp ta khắc phục khó khăn về
sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến. Ngoài ra, bước
tiền xử lý thứ ba cũng phần nào khắc phục được vấn đề đa ý định. Đó là hai
trong số rất nhiều khó khăn, thách thức được trình bày trong phần 2.1.2.
• Quy tắc gán nhãn cho dữ liệu
Trong tất cả các thực nghiệm của luận án, dữ liệu đều được gán nhãn bởi
một nhóm gồm 3 hoặc 5 sinh viên đã được huấn luyện cẩn thận về phương
pháp và tiêu chí gán nhãn. Tùy vào từng bài toán thực nghiệm, việc gán nhãn
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 34
Hình 2.2: Ví dụ minh họa cho việc tiền xử lý dữ liệu
cho dữ liệu sẽ có bản hướng dẫn riêng, một số bảng hướng dẫn gán nhãn sẽ
được trình bày trong phần phụ lục của luận án:
1. Bài toán phân lớp nhị phân: Dữ liệu gồm các văn bản trực tuyến ngắn
tiếng Việt được lấy tự động từ các phương tiện truyền thông xã hội. Dữ
liệu được gán một trong hai nhãn: NI hoặc EI. Nếu văn bản trực tuyến
không mang ý định hoặc mang ý định ẩn thì sẽ được gán nhãn NI, còn
nếu văn bản trực tuyến mang ý định rõ của người dùng thì sẽ được gán
nhãn EI.
2. Bài toán phân lớp đa lớp: Dữ liệu gồm các văn bản trực tuyến ngắn
tiếng Việt mang ý định rõ của người dùng. Dữ liệu được gán một
trong 13 nhãn: ThietBiDienTu (Thiết bị điện tử), ThoiTrangPhuKien
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 35
(Thời trang & phụ kiện), Tài chính (TaiChinh), PhucVuAnUong (Phục
vụ ăn uống), DoDungTapHoa (Đồ dùng & tạp hóa), SucKhoeSacDep
(Sức khỏe & sắc đẹp), NgheNghiepGiaoDuc (Nghề nghiệp & giáo dục),
ThuCungCayCoi (Thú cưng & cây cối), BatDongSan (Bất động sản),
TheThaoGiaiTri (Thể thao & giải trí), XeCoVanTai (Xe cộ vận tải),
DuLichKhachSan (Du lịch & Khách sạn), Khac (Khác). Việc một văn
bản trực tuyến được gán nhãn nào phụ thuộc vào nội dung của văn bản
đó. Ví dụ, với văn bản ”Mình đang cần tìm một lớp ôn Ielt cấp tốc uy
tín. Mình đang ở trọ ở khu Quan Hoa, Cầu Giấy, nếu có lớp ở khu vực
đó thì tốt quá. Cảm ơn cả nhà !", nhãn được thống nhất lựa chọn là
“NgheNghiepGiaoDuc”. Còn với những văn bản mang ý định rõ mà nội
dung ý định đó không thuộc vào một trong 12 lớp ngữ nghĩa đầu tiên
thì sẽ được gán nhãn “Khac”.
3. Bài toán trích xuất thông tin : Dữ liệu gồm các văn bản trực tuyến mang
ý định rõ thuộc một miền quan tâm đã biết trước. Luận án xây dựng
bộ nhãn tương ứng với các thực thể cần trích xuất, những bộ nhãn này
sẽ được trình bày cẩn thận trong phần thực nghiệm ở chương 4. Sau đó,
các sinh viên sẽ dựa vào hướng dẫn gán nhãn của từng miền quan tâm
để gán nhãn cho từng thực thể của dữ liệu.
Để việc gán nhãn được hiệu quả nhưng không mất quá nhiều thời gian,
trước tiên lượng dữ liệu sẽ được chia đều cho mỗi sinh viên trong nhóm. Sau
khi các sinh viên tự gán nhãn phần dữ liệu được phân công, phần dữ liệu
đã được gán nhãn đó sẽ được chuyển cho sinh viên khác để thực hiện kiểm
tra chéo. Những nhãn gặp phải sự bất đồng trong quá trình kiểm tra chéo
sẽ được ghi lại và được thực hiện tổng đánh giá chéo giữa cả nhóm. Khi đó,
việc lựa chọn nhãn cuối cùng cho mỗi ví dụ dữ liệu dựa vào sự đồng thuận
của cả nhóm sinh viên. Tiêu chí đồng thuận dựa trên sự bình chọn đa số, khi
đó để gán nhãn cho một ví dụ dữ liệu, có những trường hợp sau xẩy ra :
- Nếu cả nhóm sinh viên đều chọn nhãn giống nhau để gán cho dữ liệu thì
nhãn đó được chọn.
- Nếu có sự bất đồng về việc gán nhãn giữa các sinh viên thì nhãn được
chọn là nhãn mà số đông sinh viên cùng lựa chọn.
- Nếu mỗi sinh viên chọn một nhãn khác nhau thì sẽ tiến hành bình chọn
cho từng nhãn. Với mỗi nhãn được chọn để gán cho dữ liệu cả nhóm sinh viên
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 36
sẽ lựa chọn phiếu “Đồng ý” hoặc “Không đồng ý” cho nhãn đó. Nhãn được
chọn sẽ là nhãn có nhiều phiếu “Đồng ý” nhất. Nếu vẫn xẩy ra trường hợp
số nhãn “Đồng ý” bằng nhau cho các nhãn, 2 cố vấn khác sẽ được thêm vào
nhóm bình chọn để chọn ra nhãn hợp lý nhất. Tổng số người bình chọn vẫn
là một số lẻ để đảm bảo tiêu chí lấy kết quả theo bình chọn đa số.
2.1.2 Khó khăn - Thách thức
Việc phân tích và xác định một cách chính xác, đầy đủ, trọn vẹn ý định
của người dùng từ văn bản trực tuyến là một vấn đề khó và nhiều thách thức
trong lĩnh vực xử lý ngôn ngữ tự nhiên. Thực chất, nó được xếp vào lớp các
bài toán hiểu ngôn ngữ tự nhiên (natural language understanding - NLU)
vốn đòi hỏi các kỹ thuật phân tích sâu về ngôn ngữ như phân tích cú pháp,
phân tích ngữ nghĩa. Qua việc khảo sát những nghiên cứu đi trước cũng như
qua quá trình tiếp cận và giải quyết vấn đề trong khuôn khổ luận án, việc
giải quyết bài toán phân tích và xác định ý định từ văn bản truyền thông xã
hội trực tuyến nói chung và văn bản trực tuyến tiếng Việt nói riêng đối mặt
với một số khó khăn, thử thách sau.
1) Sự đa dạng của ý định: Người dùng trên các kênh truyền thông xã hội
có thể chia sẻ ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mục tiêu của
họ. Sự đa dạng về lĩnh vực, về đặc điểm của ý định tạo nên sự phân bố rộng
khắp về mặt từ vựng lẫn nội dung thông tin. Phân tích và hiểu ý định cho
mọi lĩnh vực (tức trên miền mở - open–domain) là bài toán rất khó đạt độ
chính xác mong muốn.
2) Đa ý định: Một bài đăng của người dùng có thể chứa nhiều hơn một ý
định và các ý định này lại thuộc những lĩnh vực khác nhau. Thậm chí nhiều ý
định có thể nằm trong cùng một câu. Ví dụ, “Mình đang cần mua một chiếc
địu trẻ em cỡ khoảng 5-10kg để địu bé nhà mình vì sắp tới gia đình mình tính
đi Đà Nẵng mấy ngày. Bé nhà mình mới được 8 tháng . . . ” Việc chia tách nội
dung các ý định này là một nhiệm vụ không dễ dàng trong tiến trình phân
tích và hiểu ý định.
3) Tính nhập nhằng : Có rất nhiều cách để người dùng diễn đạt ý định
thực sự của mình. Rất nhiều khi, sự phong phú về mặt diễn đạt và sự linh
hoạt về mặt ngôn ngữ vô tình gây ra sự nhập nhằng và làm cho các hệ thống
máy tính đoán nhận sai. Ví dụ, “Mình đang có hoa quả sạch, mẹ nào muốn
Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 37
mua thì inbox mình nhé.” Đối với câu này, người dùng có ý định “bán hoa
quả” nhưng mô hình có thể xác định nhầm thành ý định “mua” vì có cụm từ
“muốn mua” trong nội dung. Những ý định mang tính nhập nhằng như thế
này có thể xuất hiện trong dữ liệu ở nhiều dạng khác nhau.
4) Ý định ẩn (implicit intent): Khác với các ý định rõ (explicit intent), ở
ý định ẩn, người dùng không đề cập một cách tường minh nhu cầu hay mục
tiêu hành động cụ thể mà để người đọc suy diễn. Ví dụ, khi một người viết
“Dòng 7 chỗ con nào chạy êm, ít ồn nhỉ ? ” thì có thể đơn giản chỉ là hỏi
thông tin hoặc có ý định tìm mua một chiếc xe 7 chỗ có đặc điểm như thế.
Việc suy diễn ý định ẩn có thể cần những thông tin ngữ cảnh bên ngoài tại
thời điểm viết thay vì chỉ dựa vào thông tin nội tại của văn bản.
5) Sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến: Khác với
văn bản chính thống, các bài đăng trên các k...bài toán
xác định ý định người dùng khi xét trên ngữ cảnh dữ liệu là tổ hợp của nhiều
miền quan tâm khác nhau.
5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan
tâm
Để mô phỏng mô hình trích xuất ý định đa miền quan tâm, luận án xây
dựng một website ở địa chỉ www.ydinhviet.tk. Giao diện của mô hình được
giới thiệu trong hình 5.5. Ở đó, cửa sổ “Sentence” là nơi để người dùng viết
bài đăng cần trích xuất ý định, còn cửa sổ “Sample Sentence” thể hiện một số
ví dụ về bài đăng mang ý định người dùng. Sau khi nhập bài đăng và nhấn
nút “Submit”, kết quả của quá trình trích chọn ý định được thể hiện ở cửa sổ
“Named Entities”. Trong đó, mỗi thẻ màu thể hiện một thông tin khác nhau
về ý định của người dùng tương ứng với bộ nhãn không phụ thuộc miền mà
luận án đề xuất. Có thể thấy, với bài đăng thuộc miền Bất động sản: “Tôi
đang cần thuê nhà tầm 70 m2 tại khu Văn Phú, giá khoảng 5 triệu/tháng lh
nganhn2004@gmail.com”, mô hình xác định chính xác hoàn toàn các thông
tin ý định, còn bài đăng thuộc miền Đồ điện tử : “mình cần mua iphone4 giá
5tr ở HN” chỉ bị trích xuất nhầm một thông tin, đó là “iphone4”. Điều này là
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 145
Bảng 5.11: Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối
với tổ hợp 3 miền quan tâm.
Bộ nhãn riêng (32) Precision Recall F1-score Support
intent 90,94 89,69 90,31 1.891
object 75,80 79,86 77,78 1.122
acreage 83,64 80,00 81,78 575
brand 74,66 76,39 75,51 216
color 81,00 74,31 77,51 109
contact 94,14 94,72 94,43 966
context 58,22 44,04 50,15 193
description 67,13 40,00 50,13 480
destination 83,70 84,92 84,31 756
equipment 77,97 54,12 63,89 85
facade direction 58,82 62,50 60,61 96
facade size 61,11 56,20 58,56 137
license plate 75,00 75,00 75,00 124
location 61,82 62,54 62,18 1.455
model 71,30 74,21 72,73 663
name of accommodation 45,95 59,30 51,78 68
number of bathrooms 95,45 90,00 92,65 70
number of bedrooms 92,08 89,42 90,73 104
number of facades 50,00 50,00 50,00 32
number of floors 69,23 64,75 66,91 139
number of objects 75,30 71,84 73,53 174
number of people 82,04 86,93 84,41 352
time period 91,01 84,73 87,76 203
price 86,10 83,71 84,88 1.117
origin 76,32 78,38 77,33 111
owner 72,58 68,45 70,45 317
point of departure 72,00 66,67 69,23 81
point of time 86,08 88,04 87,05 794
registration 83,15 69,81 75,90 106
registration year 94,67 78,89 86,06 90
state 60,87 47,30 53,23 148
transport 58,93 60,00 59,46 55
avg/total 79,26 77,57 78,21 12.847
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 146
Bảng 5.12: Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ
thuộc miền đối với tổ hợp 3 miền quan tâm.
Bộ nhãn chung (10) Precision Recall F1-score Support
intent 90,35 91,06 90,70 1.819
object 80,78 77,18 78,94 1.122
brand 85,96 70,83 77,66 216
contact 94,17 95,34 94,75 966
context 56,05 45,60 50,29 193
description 76,58 70,10 73,20 3.960
location 69,69 71,12 70,40 2.292
number of objects 72,84 67,82 70,24 174
other 75,45 72,82 74,11 916
price 87,38 86,12 86,74 1.117
avg/total 79,72 77,08 78,33 12.847
Hình 5.5: Giao diện mô hình trích xuất ý định người dùng
do dữ liệu dùng để huấn luyện mô hình có chứa dữ liệu miền Bất động sản,
còn không chứa dữ liệu miền Đồ điện tử.
5.4 Kết luận chương
Trong chương này, luận án đã đề xuất một phương pháp trích chọn ý định
người dùng không phụ thuộc vào miền quan tâm. Để thực hiện mục tiêu này,
luận án khảo sát dữ liệu ở một số miền quan tâm có nhiều tương tác trên
Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 147
các phương tiện truyền thông xã hội Việt Nam, từ đó đề xuất bộ nhãn chung
(không phụ thuộc miền) để trích xuất nội dung thông tin ý định, bộ nhãn này
sau đó cũng được kiểm nghiệm trên những miền quan tâm khác của ý định
người dùng và cũng cho kết quả phù hợp. Các thực nghiệm cho thấy phương
pháp đa miền quan tâm thực sự hiệu quả khi cần xác định ý định người dùng
trong trường hợp xuất hiện thêm những miền quan tâm mới. Trong chương
này, luận án cũng giới thiệu phần mềm được xây dựng để mô phỏng cho mô
hình xác định ý định đa miền quan tâm mà luận án đề xuất.
Kết luận
Như đã đề cập xuyên suốt trong luận án, phân tích và xác định ý định
từ văn bản là bài toán khó trong lĩnh vực khai phá văn bản và xử lý ngôn
ngữ tự nhiên. Đã có những nghiên cứu tiếp cận bài toán này ở các góc độ
khác nhau và phạm vi khác nhau. Luận án này đã trình bày những đề xuất
về việc mô hình hoá và giải quyết các vấn đề xoay quanh bài toán phát hiện
và phân tích, xác định nội dung ý định từ văn bản truyền thông xã hội trực
tuyến tiếng Việt. Tựu trung lại, luận án đạt được những kết quả và đóng góp
chính như sau:
Thứ nhất, luận án đề xuất một định nghĩa về ý định rõ hướng miền quan
tâm phù hợp cho văn bản truyền thông xã hội trực tuyến, đồng thời đề xuất
tiến trình ba pha gồm ba bài toán nhằm phân tích và xác định thông tin ý
định [LTLe1].
Thứ hai, luận án đề xuất mô hình hóa bài toán một (phát hiện ý định) và
bài toán hai (xác định miền quan tâm của ý định) lần lượt thành bài toán
phân lớp nhị phân và phân lớp đa lớp. Kết quả thực nghiệm cho thấy, hai
phương pháp phân lớp đơn giản nhưng hiệu quả, ME và SVMs, phù hợp với
hai bài toán trên. Đặc biệt, việc sử dụng đặc trưng từ điển rất hiệu quả với
hai bài toán này. Các nội dung và kết quả nghiên cứu này được trình bày
trong các công trình [LTLe1], [LTLe2]. Ngoài ra luận án cũng thử nghiệm
phương pháp học sâu CNN với 2 bài toán này, các kết quả nghiên cứu đã
được trình bày trong công trình [LTLe6].
Thứ ba, luận án đề xuất mô hình hóa bài toán ba (trích chọn thông tin của
ý định) dưới dạng trích chọn thông tin trên dữ liệu chuỗi. Các mô hình học
máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi-LSTM-CRFs
được đề xuất để giải quyết bài toán này. Luận án cũng đề xuất tập nhãn đặc
trưng tương ứng những nội dung ý định cần trích xuất trên từng miền dữ
148
Kết luận 149
liệu. Các nội dung và kết quả này được trình bày trong công trình [LTLe3].
Hơn nữa, luận án đề xuất một phương pháp hiệu quả để nâng cao độ chính
xác của bài toán trích chọn thông tin ý định dựa trên mô hình học kết hợp
(ensemble learning) các mô hình học sâu. Nội dung và kết quả nghiên cứu
này được trình bày trong công trình [LTLe4].
Thứ tư, luận án đề xuất tiếp cận việc phân tích và xác định ý định đa
miền quan tâm dựa trên ý tưởng xây dựng tập nhãn chung cho các miền dữ
liệu. Luận án đã tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu
quả của hai cách tiếp cận phụ thuộc miền và không phụ thuộc miền cũng
như thảo luận về ưu nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả
này được trình bày trong công trình [LTLe5].
Bên cạnh đó, luận án cũng cung cấp một khảo sát tổng quan về hướng
nghiên cứu phân tích và xác định ý định từ văn bản. Có thể nói các đóng góp
của luận án có ý nghĩa trong việc bổ sung và hoàn thiện các kết quả nghiên
cứu về phân tích ý định trên thế giới và đặc biệt là cho tiếng Việt. Các kết
quả của luận án đã công bố trong các công trình khoa học được đăng tải trên
các tạp chí, hội nghị chuyên ngành trong nước và quốc tế có phản biện.
Mặc dù luận án đã đạt được một số kết quả nghiên cứu tích cực, nhưng
vẫn còn tồn tại những hạn chế chưa giải quyết được như: (i) luận án mới
chỉ sử dụng hai loại đặc trưng với bài toán phân lớp ở pha thứ nhất và pha
thứ hai trong khi có rất nhiều loại đặc trưng hiệu quả khác chưa được khai
thác; (ii) luận án chưa xử lý được trường hợp bài đăng mang ý định nhập
nhằng; (iii) chưa giải quyết được vấn đề một bài đăng mang nhiều ý định rõ
cùng một lúc; (iv) luận án cần giải quyết triệt để hơn vấn đề thích nghi miền
trong phân tích ý định , cụ thể như nghiên cứu về vấn đề học chuyển đổi giữa
các miền quan tâm; (v) bộ dữ liệu còn khiêm tốn đối với thực nghiệm theo
phương pháp học sâu. Trong tương lai gần, NCS sẽ tiếp tục tập trung giải
quyết các vấn đề vừa nêu.
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC
1. [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi-
Minh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to
Filter User Explicit Intents in Online Vietnamese Social Media Texts.
The Eighth Asian Conference on Intelligent Information and Database
Systems (ACIIDS), pp.13-24, Springer, 2016. [SCOPUS, DBLP]
2. [LTLe2]Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan-
Hieu Phan; Domain Identification for Intention Posts on Online Social
Media. In Proceedings of the Seventh Symposium on Information and
Communication Technology (SoICT), pp. 52-57, ACM, 2016. [SCO-
PUS, DBLP]
3. [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and Xuan-
Hieu Phan; Intent Extraction from Social Media Texts Using Sequential
Segmentation and Deep Learning Models. In Proceedings of the 9th In-
ternational Conference on Knowledge and Systems Engineering (KSE),
pp. 215-220, Springer LNCS, IEEE, 2017. [SCOPUS, DBLP]
4. [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Im-
proving Intent Extraction Using Ensemble Neural Network. In Procee-
dings of the 19th International Symposium on Communications and
Information Technologies (ISCIT), pp. 58-63, IEEE, 2019. [SCOPUS,
DBLP]
5. [LTLe5]Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long
Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from
Online Texts. Computacion y Systemas, Vol. 24, No. 1, pp.331-347, 2020.
[SCOPUS,DBLP]
6. [LTLe6] Luong Thai Le; Intent domain identification using deep lear-
ning model. The 2020 International Conference on Applications of Ar-
tificial Intelligence in Transportation, pp. 246-254, 2020.
150
TÀI LIỆU THAM KHẢO
[1] M. Araki, Y. Kimura, T. Nishimoto and Y. Niimi, Development of a ma-
chine learnable discourse tagging tool. In Proceedings of the Second SIG-
dial Workshop on Discourse and Dialogue-Volume 16, pp.1–6. Association
for Computational Linguistics, 2001.
[2] A. Ashkan, C.L. Clarke, E. Agichtein and Q. Guo, Classifying and cha-
racterizing query intent. In: The 31th ECIR, pp.578–586, 2008.
[3] A. Ashkan and C. L. Clarke, Term-based commercial intent analysis. In
Proceedings of the 32nd international ACM SIGIR conference on Research
and development in information retrieval, pp.800–801. ACM, 2009.
[4] R. Baeza-Yates, L. Calderón-Benavides and C. González-Caro, The inten-
tion behind web queries. In International Symposium on String Processing
and Information Retrieval, pp. 98–109, Springer, Berlin, Heidelberg, 2006.
[5] R. Baeza-Yates, Semantic query understanding. In Proceedings of the 40th
International ACM SIGIR Conference on Research and Development in
Information Retrieval, pp. 1357–1357). ACM, 2017.
[6] A. Basu, C. Watters and M. Shepherd, Support vector machines for text
catego-rization. In International Conference on System Sciences, Washing-
ton, DC, USA, IEEE Computer Society, 2003.
[7] L.C. Benavides, C.G. Caro and R.B. Yates, Towards a Deeper Understan-
ding of the User’s Query Intent. In The SIGIR Proceeding, 2010.
[8] A. Berger, S.A.D Pietra, V.J.D. Pietra, A maximum entropy approach
to natural language processing. Computational Linguistics, 22(1):39–71,
1996.
[9] A. Bhargava, A. Celikyilmaz, D. Hakkani-Tur and R. Sarikaya, Easy
contextual intent prediction and slot detection. In Acoustics, Speech and
Signal Processing (ICASSP), 2013 IEEE International Conference on, pp.
8337–8341. IEEE,2013.
[10] B. Liu, Sentiment Analysis: mining sentiments, opinions, and emotions.
Textbook, 2015.
[11] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, Enriching word
vectors with subword information, arXiv:1607.04606, 2016.
151
Tài liệu tham khảo 152
[12] A. Broder, A taxonomy of web search. ACM Sigir forum. Vol. 36. No. 2.
ACM, 2002.
[13] M. Bratman, Intention, plans, and practical reason. Harvard University
Press, 1987.
[14] C.G. Caro, Supervised Identification of the User Intent of Web Search
Queries. The PhD Dissertation, Pompeu Farbra University, Spain, 2011.
[15] R. Caruana, A. Niculescu-Mizil, G. Crew and A. Ksikes, Ensemble se-
lection from libraries of models, In Proc. of the 21st ICML, pp.18, 2004.
[16] M. Castellanos, et al. Intention insider: discovering people’s intentions
in the social channel, Proceedings of the 15th International Conference
on Extending Database Technology. ACM, 2012.
[17] M.G. Castellanos, R. Ghosh, M.E Dekhil, U. Dayal, and M.Hsu, Cap-
turing intentions within online text. U.S. Patent No. 9,411,860. 9 Aug.
2016.
[18] Y.S. Chang, K.Y. He, S. Yu and W.H. Lu, Identifying user goals from
Web search results. In Web Intelligence, IEEE/WIC/ACM International
Conference on, pp.1038–1041. IEEE, 2006.
[19] L. Chen, Understanding and exploiting user intent in community ques-
tion answering. PhD Dissertation, Birkbeck University of London, 2014.
[20] Z. Chen, F. Lin, H. Liu, Y. Liu, W.Y. Ma, L. Wenyin, User intention
modeling in web applications using data mining. Journal of WWW, 5(3),
pp. 181–191, 2002.
[21] Z. Chen, B. Liu, M. Hsu, M. Castellanos, and R. Ghosh, Identifying
intention posts in discussion forums, HLT-NAACL, 2013.
[22] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu and P.
Kuksa, Natural language processing (almost) from scratch, JMLR, Vol12,
pp.2493–2537, 2011.
[23] C. Cui, W. Mao, X. Zheng, and D. Zeng, (2017, June). Mining User In-
tents in Online Interactions: Applying to Discussions About Medical Event
on SinaWeibo Platform. In International Conference on Smart Health, pp.
177–183, Springer, 2017.
[24] H. Dai, Z. Nie, L. Wang, J.R Wen, L. Zhao, Y. Li, Detecting online
commercial intention. In: The WWW, 2006.
[25] K. Diederik and B. Jimmy, Adam: A method for stochastic optimization.
arXiv preprint arXiv:1412.6980, 2014.
[26] X. Ding, T. Liu, J. Duan, and J.Y. Nie, Mining user consumption inten-
tion from social media using domain adaptive convolutional neural net-
work. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial
Intelligence, pp.2389–2395, 2015.
Tài liệu tham khảo 153
[27] R. Glater, R. L. Santos and N. Ziviani, Intent-aware semantic query
annotation. In Proceedings of the 40th International ACM SIGIR Confe-
rence on Research and Development in Information Retrieval, pp.485-494,
ACM, 2017.
[28] C. Gonzalez-Caro. Supervised identification of the user intent of web
search queries. Ph.D thesis in Computer Science, Univ. Pompeu Fabra,
Barcelona, Spain, 2011.
[29] C. Gonzalez-Caro and R. Baeza-Yates, A multi-faceted approach to query
intent classification. In International Symposium on String Processing and
Information Retrieval, pp.368–379. Springer, Berlin, Heidelberg, 2011.
[30] I. Goodfellow, Y. Bengio and A. Courville, Deep Learning. MIT Press,
2016.
[31] A. Graves and S. Ju¨rgen. Framewise phoneme classification with bidirec-
tional LSTM networks. In Proc. of IJCNN’05, Vol. 4. IEEE, 2005.
[32] A. Graves, Supervised Sequence Labelling with Recurrent Neural Net-
works. Studies in Computational Intelligence. Springer, 2012.
[33] A. Graves and N. Jaitly, Towards end-to-end speech recognition with re-
current neural networks. In ICML, 2014.
[34] Q. Guo, E. Agichtein, C.L. Clarke, and A. Ashkan, Understanding “aban-
doned” ads: towards personalized commercial intent inference via mouse
movement analysis. Information Retrieval in Advertising, 2008.
[35] V. Gupta, D. Varshney, H. Jhamtani, D. Kedia and S. Karw, Identifying
purchase intent from social posts. In Proc. of ICWSM, 2014.
[36] M. Hamroun, M.S. Gouider, and L.B. Said, Customer intentions analysis
of twitter based on semantic patterns. The 11th International Conference
on Semantics, Knowledge and Grids, 2015.
[37] H.B. Hashemi, A. A.siaee and R. Kraft, Query intent detection using
convolutional neural networks, In Proc. of WSDM QRUMS Workshop,
2016.
[38] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R.R. Sa-
lakhutdinov, Improving neural networks by preventing co–adaptation of
feature detectors, arXiv:1207.0580, 2012.
[39] S. Hochreiter, and S. Jrgen, Long short-term memory, Neural computa-
tion pp.1735–1780, 1997.
[40] B. Hollerit, M. Kroll and M. Strohmaier, Towards linking buyers and
sellers: detecting commercial intent on twitter, In Proc. of WWW, 2013.
Tài liệu tham khảo 154
[41] D.H. Hu, Q. Yang and Y. Li,An algorithm for analyzing personalized on-
line commercial intention. In Proceedings of the 2nd International Work-
shop on Data Mining and Audience Intelligence for Advertising, pp.27–36,
ACM, 2008.
[42] D.H. Hu, D. Shen, J.T. Sun, Q. Yang and Z. Chen, Context–aware online
commercial intention detection. In: The ACML Proceeding, 2009.
[43] J. Hu, G. Wang, F. Lochovsky, J.T. Sun and Z. Chen, Undertanding
user’s query intent with wikipedia. In: The WWW Proceeding, 2009.
[44] Z. Huang, X. Wei, and Y. Kai, Bidirectional LSTM-CRF models for
sequence tagging, arXiv:1508.01991, 2015.
[45] C.K.C. Jackie and X. Li, Sequence clustering and labeling for unsupervi-
sed query intent discovery, In Proc. of WSDM, 2012.
[46] D. Janardhanan and E. Barrett. CPU workload forecasting of machines
in data centers using LSTM recurrent neural networks and ARIMA mo-
dels. In 2017 12th International Conference for Internet Technology and
Secured Transactions (ICITST), pp. 55-60. IEEE, 2017.
[47] B.J. Jansen, A. Spink, and T. Saracevic, Real life, real users, and real
needs: A study and analysis of user queries on the Web. Information Pro-
cessing and Management, 36(2), pp.207-227, 2000.
[48] B. J. Jansen, D. L. Booth, and A. Spink. Determining the User Intent
of Web Search Engine Queries. In:The WWW Proceeding, 2007.
[49] J. Jansen. Understanding sponsored search: Core elements of keyword
advertising. Cambridge University Press, 2011.
[50] V. Jethava, C.B Liliana and B.Y. Ricardo, Scalable multi–dimensional
user intent identification using tree structured distributions. In: The ACM
SIGIR, 2011.
[51] J. Jiang, Information extraction from text. Mining text data. Springer,
Boston, MA, pp. 11–41, 2012.
[52] I. Kang and G. Kim, Query type classiflcation for web document retrieval.
In Proceedings of ACM SIGIR’03, 2003.
[53] A. Kathuria, B. J. Jansen, C. Hafernik, and A. Spink. Classifying the
user intent of web queries using k-means clustering. The Emeral Group
Journal. 20(5):563–581, 2010.
[54] G. Khodabandelou. Mining Intentional Process Models. Ph.D Thesis,
2014.
[55] J.K. Kim, G. Tur, A. Celikyilmaz, B. Cao and Y.Y. Wang, Intent detec-
tion using semantically enriched word embeddings, In Proc. of SLT Work-
shop, IEEE, 2016.
Tài liệu tham khảo 155
[56] Y. Kim, Convolutional neural networks for sentence classification. In
Proceedings of the 2014 Conference on Empirical Methods in Natural
Language Processing (EMNLP), pp. 1746–1751, 2014.
[57] H. Kimura, M. Tokuhisa, K. Mera, K. Kai and N. Okada, Comprehension
of Intentions and Planning for Response in Dialogue. Technical Report of
IEICE, TL98-15, pp.25–32, 1998.
[58] J. Kiseleva, H.T. Lam, M. Pechenizkiy and T. Calders, Predicting current
user intent with contextual markov models. In 2013 IEEE 13th Internatio-
nal Conference on Data Mining Workshops, pp.391–398. IEEE, 2013.
[59] Z. Kozareva, Q. Li, K. Zhai and W. Guo, Recognizing Salient Entities in
Shopping Queries. In Proceedings of the 54th Annual Meeting of the As-
sociation for Computational Linguistics, Volume 2: Short Papers, pp.107–
111, 2016.
[60] M. Kroll and M. Strohmaier. Analyzing human intentions in natural
language text. In: The K–CAP, 2009.
[61] J. Lafferty, M. Andrew, and P. Fernando. Conditional random fields:
probabilistic models for segmenting and labeling sequence data. In Proc. of
ICML, 2001.
[62] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami and C. Dyer,
Neural architectures for named entity recognition. arXiv:1603.01360, 2016.
[63] U. Lee, Z. Liu and J. Cho, Automatic identification of user goals in web
search. In: The WWW, 2005.
[64] N. Labidi, T. Chaari and R. Bouaziz, An NLP-Based Ontology Popula-
tion for Intentional Structure. In International Conference on Intelligent
Systems Design and Applications, pp. 900–910. Springer, Cham, 2016.
[65] N. Labidi, T. Chaari and R. Bouaziz, Linguistic Rules for Ontology Po-
pulation from Customer Request. In Transactions on Computational Col-
lective Intelligence XXX, pp. 72–92. Springer, Cham, 2018.
[66] X. Li, W. Ye-Yi, and A. Alex, Learning query intent from regularized
click graphs, in Proc. of SIGIR, 2008.
[67] X. Li, Understanding the semantic structure of noun phrase queries. In:
ACL 2010.
[68] W. Ling, T. Luis, L. Marujo, R.F. Astudillo, S. Amir, C. Dyer, A.W.
Black, and I. Trancoso, Finding function in form: compositional character
models for open vocabulary word representation, arXiv:1508.02096, 2015.
[69] D. Liu and J. Nocedal. On the limited memory BFGS method for large-
scale optimization. Mathematical Programming, 45:503–528, 1989.
Tài liệu tham khảo 156
[70] T. Mikolov, K. Chen, G. Corrado, and J. Dean, Efficient estimation
of word representations in vector space. arXiv preprint arXiv:1301.3781,
2013.
[71] X.B. Ngo, C.L. Le and M.Ph. Tu, Cross-Domain Intention Detection in
Discussion Forums. In Proceedings of the Eighth International Sympo-
sium on Information and Communication Technology (SoICT), pp. 173–
180, 2017.
[72] T.H. Nguyen, Deep learning for Information Extraction. Phd Thesis,
New York University, 2017.
[73] N. Nguyen and Y. Guo, Comparisons of sequence labeling algorithms and
extensions, In Proceedings of the 24th ICML, pp. 681–688, 2007.
[74] H.N Nguyen, Tr.Th Nguyen and Qu.Th Ha, Giáo trình Khai phá dữ liệu.
NXB Đại học Quốc gia Hà nội, 2013.
[75] K. Nigam, J. Lafferty and A. McCallum, Using maximum entropy for text
classification. In: IJCAI Workshop on Machine Learn. for Info. Filtering,
pp.61–69, 1999.
[76] G.H. Nobari and T.S. Chua, User intent identification from online dis-
cussions using a joint aspect-action topic model, In Proc.of AAAI, 2014.
[77] L. Pearl and M. Steyvers, Identifying emotions, intentions, and attitudes
in text using a game with a purpose. In Proceedings of the naacl hlt 2010
workshop on computational approaches to analysis and generation of emo-
tion in text, pp. 71–79. Association for Computational Linguistics, 2010.
[78] J. Pennington, R. Socher and C. Manning, Glove: Global vectors for word
representation. In Proceedings of the EMNLP, pp. 1532–1543, 2014.
[79] N. Peng and M. Dredze, Named entity recognition for chinese social me-
dia with jointly trained embeddings. In Proceedings of EMNLP, pp.548–
554, 2015.
[80] X.H. Phan, L.M. Nguyen and C.T. Nguyen, Flexible conditional random
fields, 2004.
[81] H. Purohit, G. Dong, V. Shalin, K. Thirunarayan and A. Shethet, Intent
classification of short-text on social media. IEEE International Conference
on. IEEE, 2015.
[82] F. Radlinski, M. Szummer and N. Craswell, Inferring query intent from
reformulations and clicks. In Proceedings of the 19th international confe-
rence on World wide web, pp. 1171–1172. ACM, 2010.
[83] X. Ren, Y. Wang, X. Yu, J. Yan, Z. Chen and J. Han, Heterogeneous
graph-based intent learning with queries, web pages and wikipedia concepts,
In Proc. of ICWSDM, 2014.
Tài liệu tham khảo 157
[84] B.Y. Ricardo, C.B. Liliana and G.C. Cristina, The intention behind web
queries. In: The 13th Conference on String Processing and Information
Retrieval (SPIRE), 2006.
[85] R. Scheer, The ‘Mental State’ Theory of Intentions. Philosophy, null, pp.
121–131, 2004.
[86] D. E. Rose, and D. Levinson, Understanding user goals in web search.
In: The WWW Proceeding, 2004.
[87] S. Ruder and B. Plank, Strong baselines for neural semi-supervised lear-
ning under domain shift. arXiv preprint arXiv:1804.09530, 2018.
[88] S. Ruder, Neural Transfer Learning for Natural Language Processing.
Phd Thesis, National University of Ireland, 2019.
[89] D.E. Rumelhart, G.E. Hinton and R.J. Williams, Learning representa-
tions by back-propagating errors. Nature, 323(6088):533, 1986.
[90] C.F. Schmidt, N.S. Sridharan and J.L. Goodson, The plan recognition
problem: an intersection of psychology and artificial intelligence. Artif In-
tell; 11:45–83, 1978.
[91] Y. Shen, J. Yan, S. Yan, L. Ji, N. Liu and Z. Chen, Sparse hidden–
dynamic conditional random fields for user intent understanding. In: The
WWW, 2011.
[92] Y. Shang, Studies on User Intent Analysis and Mining, Phd thesis, 2017.
[93] H. J. Song and S. B. Park, Identifying intention posts in discussion fo-
rums using multi-instance learning and multiple sources transfer learning.
Soft Computing, 22(24), pp. 8107–8118, 2018.
[94] M. Speretta and S. Gauch, Personalizing search based on user search
history, 2004.
[95] G. Sukthankar, R.P. Goldman, C. Geib, D.V. Pynadath and H.H. Bui,
Plan, Activity, and Intent Recognition Theory and Practice. Elsevier Inc,
2014.
[96] G. Vinodhini and R.M. Chandrasekaran, Sentiment analysis and opinion
mining: a survey. International Journal, 2(6):282–292, 2012.
[97] J. Wang, G. Cong, W.X. Zhao and X. Li, Mining user intents in Twitter:
a semi-supervised approach to inferring intent categories for tweets. In
Proc. of AAAI, 2015.
[98] C.Y. Wu, A. Ahmed, G.R Kumar, and R. Datta, Predicting Latent Struc-
tured Intents from Shopping Queries. In Proceedings of the 26th Interna-
tional Conference onWorldWideWeb, pp.1133–1141. International World
Wide Web Conferences Steering Committee, 2017.
Tài liệu tham khảo 158
[99] J. Xu, Q. Zhang and X. Huang, Understanding the semantic intent of
domain-specific natural language query. In Proc. of IJCNLP, 2013.
[100] K. Yao, G. Zweig and B. Peng, Attention with intention for a neural
network conversation model. arXiv preprint arXiv:1510.08565, 2015.
[101] H. Yang and Y. Li, Identifying user needs from social media. IBM Re-
search Division, San Jose, 11, 2013.
[102] K. Zhai, Z. Kozareva, Y. Hu, Q. Li and W. Guo, Query to Knowledge:
Unsupervised Entity Extraction from Shopping Queries using Adaptor
Grammars. In Proceedings of the 39th International ACM SIGIR confe-
rence on Research and Development in Information Retrieval, pp.255–264,
2016.
[103] C. Zhang, W. Fan, N. Du and P.S. Yu, Mining user intentions from
medical queries: A neural network based heterogeneous jointly modeling
approach. In Proceedings of the 25th International Conference on World
Wide Web, pp. 1373–1384, 2016.
[104] C. Zhang, N. Du, W. Fan, Y. Li, C.T. Lu, and S.Y. Philip, Bringing
semantic structures to user intent detection in online medical queries. In
2017 IEEE International Conference on Big Data (Big Data), pp.1019–
1026. IEEE, 2017.
[105] Z.H. Zhou and M. Li, Tri-training: Exploiting unlabeled data using three
classifiers, IEEE Transactions on Knowledge & Data Engineering vol.11,
pp.1529–1541, 2005.
PHỤ LỤC
Bảng 5.13: Ví dụ gán nhãn cho miền Bất động sản (BĐS)
Nhãn BĐS Viết tắt Mô tả ví dụ dữ liệu
intent int mua, bán, cho thuê..
acreage acr 100 m2, 30 × 12 m, 100 mét vuông...
brand brd VinGroup, Ciputra, Novaland...
contact ctt 0911856500, 0902.792.752,
nguyenvana 79@yahoo.com.vn
context ctx ra nước ngoài định cư, kẹt tiền, (bán)
gấp, ...
description of object obj-des (đất) thổ cư, (đất) nông nghiệp, (nhà)
tái định cư,...)
equipment eqm tủ lạnh, điều hòa, máy giặt,...
facade direction face-dir Đông Nam, Bắc, Đông,...
facade size face-size (mặt tiền rộng) 4.2m, (mặt tiền đường
nhựa) 8m
location loc (ở) Hà Nội, (tại) Đà Nẵng, ngõ 106
Hoàng Quốc Việt,...
number of bedrooms bed-num 4 (phỏng ngủ), 3 (PN), 1 (p.ngủ),...
number of bathrooms bath-num 3 (wc), 2 (phòng tắm), 2 (toilet)...
number of facades face-num 1 (mặt tiền), 2 (mặt tiền), 3 (mặt tiền)...
number of floors fnum 1 (tầng), 2 (tầng), 3 (tầng),...
number of objects obj-num ba (mảnh đất), 2 (căn hộ),...
object obj nhà, mảnh đất, căn hộ,...
owner own Chính chủ
price prc 8 triệu, 22 triệu, 10 triệu/tháng,
159
Phụ lục 160
Bảng 5.14: Ví dụ gán nhãn cho miền Du lịch
Nhãn Du lịch Viết tắt Mô tả ví dụ dữ liệu
intent int đi du lịch, đặt (phòng),...
brand brd Vietnam Airlines, VietTran, FLC...
contact ctt 0911856500, 0902.792.752,
nguyenvana 79@yahoo.com.vn
context ctx nghỉ tuần trăng mật, đang có bầu, có em
nhỏ đi cùng...
description of
object
obj-des có bể bơi, tầm nhìn hướng ra biển,...
destination dest (về) Mũi Né, (đi) Nha Trang,...
name of
accommodation
accom-name Sealink, Sunwah, Ana Mandara,...
number of Objects obj-num 2 (phòng), 3 (vé),...
number of People ppl-num 2 vợ chồng, 8 người lớn 3 trẻ em, nhóm
mình, công ty,...
object obj phòng (khách sạn), vé (máy bay), tour...
point of departure dpt (từ) Hà Nội, (từ) SG,...
point of time time-pnt ngày 14-3, tháng sau, thứ tư tuần sau,
từ 10/5, đến 13/5,...
price prc 50tr/ng, 2 triệu một đêm,...
time period time-prd 3 ngày, 1 tuần, 2 ngày 1 đêm,...
transport trp đường bộ, xe máy, máy bay, tàu hỏa,...
Phụ lục 161
Bảng 5.15: Ví dụ gán nhãn cho miền Xe cộ
Nhãn Xe cộ Viết tắt Mô tả ví dụ dữ liệu
intent int mua, thuê, bán, thanh lý,...
brand brd Yamaha, Honda, Suzuki,...
color clr đỏ đen, trắng, xanh ngọc,...
contact ctt 0167 bốn 361 hai chín chín, 0976.543.167,...
context ctx cần tiền, không có nhu cầu sử dụng,
muốn thay xe...
description of
object
obj-des bô 2543, số khung,...)
location loc (tại) Hà Nội, Quảng Ninh, (ở) Sài Gòn
license plate lpe (biển) tứ quý, (biển) 29E1-40671, 30F1
40646,...
model mdl corola 1.6, wave rsx,...
number of objects obj-num 1 (xe máy), hai (ô tô), một,
object obj xe, xe máy, xe đạp, ô tô, xe ô tô,...
origin orig Nhật, Thái, Việt Nam, liên doanh, nhập
khẩu...
owner own chính chủ, một chủ, cc (chính chủ), 9 chủ
price prc đ10, 000, 000; 15tr; 20 triệu; 3 (đến) 5
triệu,...
registration reg Giấy tờ đầy đủ, không giấy tờ, kgt, k giấy
registration Year reg-year (đk) 2016, (đăng kí) 2014, (dk) đầu
2013, (đăng kí) 95,...
state stt mới hoàn toàn, mới 90%...
Các file đính kèm theo tài liệu này:
- luan_an_phan_tich_y_dinh_tu_van_ban_ngan_truc_tuyen_tieng_vi.pdf