Luận án Phân tích ý định từ văn bản ngăn, trực tuyến tiếng Việt

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lương Thái Lê Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt LUẬN ÁN TIẾN SỸ HỆ THỐNG THÔNG TIN Hà Nội - 2021 LỜI CAM ĐOAN Nghiên cứu sinh (NCS) xin cam đoan luận án Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt là công trình nghiên cứu của riêng NCS. Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác.  NCS đã trích dẫn đầy đủ các

pdf173 trang | Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 400 | Lượt tải: 0download
Tóm tắt tài liệu Luận án Phân tích ý định từ văn bản ngăn, trực tuyến tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
tài liệu tham khảo, công trình nghiên cứu liên quan trong và ngoài nước. Ngoại trừ các tài liệu tham khảo này, luận án hoàn toàn là công việc của riêng NCS.  Trong các công trình khoa học được công bố liên quan đến luận án, NCS đã thể hiện rõ và chính xác đóng góp của các đồng tác giả và những gì do NCS đã thực hiện. Tác giả: Hà Nội: i LỜI CẢM ƠN Lời đầu tiên, tôi xin được bày tỏ sự biết ơn sâu sắc đến PGS.TS. Phan Xuân Hiếu, cán bộ hướng dẫn khoa học, người đã trực tiếp định hướng và giúp đỡ tôi trong suốt quá trình nghiên cứu và thực hiện luận án. Thầy không chỉ truyền đạt cho tôi những kiến thức quan trọng về học thuật mà còn chia sẻ cho tôi nhiều kinh nghiệm quý giá trong con đường nghiên cứu khoa học. Một vinh dự lớn cho tôi được học tập, nghiên cứu dưới sự hướng dẫn của Thầy. Tôi xin bày tỏ sự biết ơn chân thành đến các Thầy, Cô trong Bộ môn Hệ thống thông tin, đặc biệt là PGS.TS. Hà Quang Thụy cùng các thành viên của Phòng thí nghiệm Khoa học Dữ liệu và Công nghệ Tri thức vì sự giúp đỡ cũng như những đóng góp chuyên môn hữu ích của các Thầy Cô cho luận án. Tôi xin trân trọng cảm ơn Khoa Công nghệ Thông tin, Phòng Đào tạo và Ban Giám hiệu Trường Đại học Công nghệ đã tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập và thực hiện luận án. Tôi cũng bày tỏ sự biết ơn đến Ban Giám hiệu, Ban Chủ nhiệm Khoa, và các đồng nghiệp của tôi tại Khoa Công nghệ Thông tin - Trường Đại học Giao thông Vận tải vì đã tạo điều kiện về thời gian, tài chính và đã luôn cổ vũ, hỗ trợ tôi trong suốt quá trình nghiên cứu. Bên cạnh đó, tôi cũng xin gửi lời cảm ơn đến PGS.TS. Trần Văn Long, cán bộ đồng hướng dẫn luận án của tôi, về những giúp đỡ hữu ích cho luận án. Tôi không thể quên cảm ơn những cộng sự của tôi trong nhóm nghiên cứu MDN–Team, những người đã đồng hành, sát cánh cùng tôi trong suốt quá trình nghiên cứu, hoàn thành luận án, và tôi sẽ luôn ghi nhớ điều đó. Ngoài ra, tôi muốn cảm ơn tất cả những người bạn của tôi vì sự động viên chia sẻ bất cứ khi nào tôi cần. Cuối cùng, tôi xin bày tỏ lòng biết ơn vô hạn đối với bố mẹ, chồng, con và gia đình, những người đã luôn ủng hộ và yêu thương tôi một cách vô điều kiện. Nếu không có sự ủng hộ của gia đình và chồng con, tôi không thể hoàn thành được luận án này. ii Mục lục Lời cam đoan i Lời cảm ơn ii Mục lục ii Danh mục các từ viết tắt vi Danh mục các bảng viii Danh mục các hình vẽ x Mở đầu 1 Chương 1. Tổng quan về ý định và phân tích ý định 10 1.1 Ý định và thể hiện ý định trong ngôn ngữ . . . . . . . . . . . . 10 1.2 Ý định trong văn bản trực tuyến . . . . . . . . . . . . . . . . . . 12 1.3 Phân tích ý định: bối cảnh khoa học . . . . . . . . . . . . . . . 14 1.3.1 Phân tích và xác định ý định từ truy vấn tìm kiếm . . . 16 1.3.2 Phân tích ý định trong các bài đăng . . . . . . . . . . . . 20 1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy . . . . . 21 1.4.1 Cơ bản về kỹ thuật phân lớp . . . . . . . . . . . . . . . . 21 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin . . . . . . . . . 23 1.4.3 Cơ bản về mạng nơ ron . . . . . . . . . . . . . . . . . . . 25 1.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 30 Chương 2. Phân tích ý định từ văn bản trực tuyến 31 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt . . . . . . . 31 2.1.1 Xây dựng dữ liệu thực nghiệm . . . . . . . . . . . . . . . 33 2.1.2 Khó khăn - Thách thức . . . . . . . . . . . . . . . . . . . 36 2.2 Định nghĩa ý định người dùng: bối cảnh khoa học . . . . . . . . 38 2.2.1 Định nghĩa ý định người dùng theo tiếp cận từ điển . . . 38 2.2.2 Định nghĩa ý định người dùng theo hướng cấu trúc . . . 39 iii 2.3 Định nghĩa ý định hướng miền quan tâm . . . . . . . . . . . . . 39 2.3.1 Định nghĩa quan điểm của Bing Liu . . . . . . . . . . . . 40 2.3.2 Định nghĩa ý định của Bing Liu . . . . . . . . . . . . . . 41 2.3.3 Định nghĩa ý định hướng miền quan tâm của luận án . . 42 2.4 Tiến trình ba pha phân tích và xác định ý định . . . . . . . . . 46 2.5 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Chương 3. Phát hiện ý định và xác định miền quan tâm của ý định 51 3.1 Nghiên cứu trên thế giới về phát hiện ý định và xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . 52 3.1.1 Phát hiện bài đăng trực tuyến mang ý định . . . . . . . 52 3.1.2 Xác định miền quan tâm của ý định . . . . . . . . . . . . 53 3.2 Phát hiện ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.2.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 55 3.2.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 56 3.2.3 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 60 3.2.4 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 61 3.2.5 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 62 3.3 Xác định miền quan tâm của ý định . . . . . . . . . . . . . . . . 65 3.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 65 3.3.2 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 67 3.3.3 Xây dựng tập các miền quan tâm . . . . . . . . . . . . . 70 3.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 71 3.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 73 3.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 73 3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 Chương 4. Phân tích và trích chọn nội dung ý định 79 4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 4.2 Nghiên cứu trên thế giới về trích chọn nội dung ý định . . . . . 81 4.3 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . 83 4.4 Trích chọn ý định theo tiếp cận học máy thống kê và học sâu . 84 4.4.1 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 84 4.4.2 Trích chọn ý định với phương pháp CRFs . . . . . . . . . 84 4.4.3 Trích chọn ý định với phương pháp học sâu Bi–LSTM– CRFs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.4.4 Độ đo đánh giá mô hình thực nghiệm . . . . . . . . . . . 92 4.4.5 Thời gian thực nghiệm với mỗi mô hình . . . . . . . . . . 93 iv 4.4.6 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 93 4.4.7 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 95 4.4.8 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 96 4.5 Trích chọn ý định dựa trên kết hợp các mô hình học sâu . . . . 99 4.5.1 Kỹ thuật học kết hợp (ensemble learning) . . . . . . . . 100 4.5.2 Xây dựng bộ nhãn thực nghiệm . . . . . . . . . . . . . . 101 4.5.3 Mô hình giải quyết bài toán . . . . . . . . . . . . . . . . 101 4.5.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 109 4.5.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 110 4.5.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 113 4.6 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 121 5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 5.2 Nghiên cứu trên thế giới về thích nghi miền trong xác định ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 5.3 Trích chọn nội dung ý định theo tiếp cận đa miền quan tâm . . 125 5.3.1 Phát biểu bài toán . . . . . . . . . . . . . . . . . . . . . . 125 5.3.2 Xây dựng bộ nhãn không phụ thuộc miền . . . . . . . . 126 5.3.3 Mô hình trích xuất ý định đa miền quan tâm . . . . . . 131 5.3.4 Dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . 135 5.3.5 Thiết kế thực nghiệm . . . . . . . . . . . . . . . . . . . . 136 5.3.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . 138 5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm 144 5.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 Kết luận 148 Danh mục các công trình khoa học 150 Tài liệu tham khảo 151 Phụ lục 159 v DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Dạng đầy đủ Diễn giải/Tạm dịch Bi-LSTM Bidirectional Long Short Term Memory Mạng bộ nhớ dài ngắn hai chiều Bi-LSTM-CRFs Bidirectional Long Short Term Memory - Conditional Random Field Mạng bộ nhớ dài ngắn hai chiều trường ngẫu nhiên có điều kiện CNN Convolutional Neural Network Mạng nơ ron tích chập CRFs Conditional Random Fields Trường ngẫu nhiên có điều kiện EI Explicit Intent Ý định rõ EMD Entity Mentioned Detection Xác định thực thể được nhắc đến IE Information Extraction Trích xuất thông tin IH Intent Head Đầu của ý định II Implicit Intent Ý định ẩn IM Intent Modifiers Bổ nghĩa của ý định L-BFGS Limited-memory Broyden-Fletcher Goldfarb Shanno Giới hạn bộ nhớ BFGS LSTM Long Short Term Memory Mạng bộ nhớ ngắn dài vi ME Maximum Entropy Cực đại entropy NI Non Intent Không có ý định NER Named Entity Ricognition Nhận diện thực thể có tên POS Part Of Speech Thành phần của câu RNN Recurrent Neural Network Mạng nơ ron hồi quy SVMs Support Vector Machines Máy véc tơ hỗ trợ vii DANH MỤC CÁC BẢNG 1.1 Ví dụ về văn bản trực tuyến chứa và không chứa ý định . . . . 13 3.1 Đặc trưng dùng để huấn luyện mô hình lọc bài đăng mang ý định người dùng . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2 Ý định của người dùng thuộc các miền quan tâm khác nhau . . 66 3.3 Ví dụ về một vài đặc trưng từ điển có trọng số cao cho mỗi miền quan tâm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 3.4 Mười ba lớp miền quan tâm của ý định và ví dụ . . . . . . . . . 72 3.5 Precision, recall và F1-score của fold tốt nhất khi dùng SVMs và ME . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 3.6 Độ chính xác của từng lớp miền quan tâm khi sử dụng phương pháp CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 4.1 Bộ 13 nhãn cho miền quan tâm Bất động sản . . . . . . . . . . 85 4.2 Bộ 9 nhãn cho miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . 85 4.3 Ví dụ minh họa cho đặc trưng dạng biểu thức chính quy . . . . 87 4.4 Đặc trưng từ điển . . . . . . . . . . . . . . . . . . . . . . . . . . 88 4.5 Gán nhãn dữ liệu với bộ nhãn tương ứng . . . . . . . . . . . . . 93 4.6 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . 98 4.7 Trung bình F1-score với mỗi mô hình thực nghiệm thuộc miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . 98 4.8 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 110 4.9 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 111 4.10 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 112 4.11 Độ chính xác đối với từng nhãn thu được trên miền Du lịch khi sử dụng phương pháp học kết hợp mà luận án đề xuất . . . . . 116 4.12 Độ chính xác đối với từng nhãn thu được trên miền Xe cộ khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . . . . . 118 viii 4.13 Độ chính xác đối với từng nhãn thu được trên miền Bất động sản khi sử dụng phương pháp kết hợp mà luận án đề xuất . . . 119 4.14 Một số ví dụ về nhãn mô tả . . . . . . . . . . . . . . . . . . . . 120 5.1 Bộ 18 nhãn của miền Bất động sản (BĐS) . . . . . . . . . . . . 127 5.2 Bộ 15 nhãn của miền Du lịch . . . . . . . . . . . . . . . . . . . 128 5.3 Bộ gồm 17 nhãn của miền Xe cộ . . . . . . . . . . . . . . . . . 129 5.4 Bộ 10 nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . 130 5.5 Sử dụng bộ nhãn không phụ thuộc miền trên một số miền quan tâm khác . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131 5.6 Gán nhãn dữ liệu lần lượt với bộ nhãn riêng và bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 5.7 Kết quả F1 trung bình đối với mỗi miền quan tâm cụ thể khi sử dụng bộ nhãn riêng và bộ nhãn không phụ thuộc miền tương ứng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 5.8 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn không phụ thuộc miền . . . . . . . . . . . . . . . . 139 5.9 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Du lịch với bộ nhãn riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 5.10 Kết quả tốt nhất khi trích xuất từng nhãn trên miền Xe cộ và Bất động sản với bộ nhãn riêng . . . . . . . . . . . . . . . . . . 141 5.11 Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . . . . . . . . . . 145 5.12 Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc miền đối với tổ hợp 3 miền quan tâm. . . . . . . . . . . . . . . . 146 5.13 Ví dụ gán nhãn cho miền Bất động sản (BĐS) . . . . . . . . . . 159 5.14 Ví dụ gán nhãn cho miền Du lịch . . . . . . . . . . . . . . . . . 160 5.15 Ví dụ gán nhãn cho miền Xe cộ . . . . . . . . . . . . . . . . . 161 ix DANH MỤC CÁC HÌNH VẼ 1.1 Quy tắc gán nhãn BIO . . . . . . . . . . . . . . . . . . . . . . . 24 1.2 Chuỗi trạng thái tương ứng với chuỗi quan sát . . . . . . . . . . 25 1.3 Mô hình mạng nơ ron feed − forward nhiều tầng . . . . . . . . . 27 1.4 Đồ thị tính toán trong kiến trúc RNNs . . . . . . . . . . . . . . 28 1.5 Kiến trúc một tế bào trong mô hình LSTM [46] . . . . . . . . . 29 2.1 Một bài đăng mang ý định rõ trên phương tiện truyền thông xã hội Việt Nam . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 2.2 Ví dụ minh họa cho việc tiền xử lý dữ liệu . . . . . . . . . . . . 34 2.3 Quy trình ba pha Phân tích và xác định ý định người dùng . . 47 2.4 Ví dụ cụ thể một quá trình phân tích và xác định ý định người dùng trực tuyến . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 3.1 Mô phỏng mô hình phân lớp nhị phân với CNN . . . . . . . . 57 3.2 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp ME 63 3.3 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp SVMs 63 3.4 Độ chính xác của từng lớp con khi sử dụng phương pháp SVMs 64 3.5 Độ chính xác F1 khi đánh giá chéo 4-fold với phương pháp CNN 65 3.6 Sơ đồ khối thể hiện mô hình Xác định miền quan tâm của ý định 68 3.7 Độ chính xác F1 khi đánh giá chéo 5-fold với ME và SVMs . . 75 3.8 Độ chính xác trung bình F1 đối với mỗi miền quan tâm của ý định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76 3.9 Độ chính xác trung bình F1 khi đánh giá chéo 5-fold với CNN 76 4.1 Một số mẫu intention phrase [16] . . . . . . . . . . . . . . . . . 82 4.2 Bản thể mẫu ngữ nghĩa của ý định mua sắm - CI pattern [36] . 83 4.3 Cửa sổ trượt kích thước 5 để xây dựng đặc trưng từ vựng . . . 86 4.4 Kiến trúc mô hình Bi-LSTM-CRFs . . . . . . . . . . . . . . . . 89 4.5 Véc tơ mã hóa được huấn luyện trước của từ “có” . . . . . . . . 90 4.6 Mô hình mã hóa dựa vào ký tự . . . . . . . . . . . . . . . . . . . 91 4.7 Mô phỏng mô hình mạng nơ ron sử dụng kỹ thuật cắt tỉa . . . 92 4.8 Chuyển đổi sang chuẩn B-I-O . . . . . . . . . . . . . . . . . . . 94 x 4.9 Trung bình F1-score của mỗi fold đối với miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.10 Trung bình F1-score của mỗi fold đối với miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 4.11 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Mỹ phẩm & Làm đẹp . . . . . . . . . . . . . . . . . . . . . . 100 4.12 Độ chính xác trung bình F1 đối với mỗi nhãn trong miền quan tâm Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.13 Mô hình trích chọn ý định dựa trên kết hợp các mô hình học sâu 102 4.14 Sơ đồ khối thể hiện pha huấn luyện của mô hình học kết hợp không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 103 4.15 Sơ đồ khối thể hiện pha đoán nhận của mô hình học kết hợp không chia sẻ tài nguyên . . . . . . . . . . . . . . . . . . . . . . 104 4.16 Mô hình trích chọn ý định dựa trên ý tưởng học kết hợp trong ngữ cảnh học sâu với tầng biểu diễn từ dựa trên ký tự được chia sẻ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 4.17 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Bất động sản . . . . . . . . . . . . . . . . . . . . . . . . 114 4.18 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Du lịch . . . . . . . . . . . . . . . . . . . . . . . . . . . 114 4.19 Trung bình F1 qua 5 lần chạy khác nhau của mỗi mô hình đối với miền Xe cộ . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 5.1 Mô hình trích xuất ý định đa miền quan tâm . . . . . . . . . . 132 5.2 Mô hình Bi-LSTM trích xuất ý định đa miền quan tâm . . . . 134 5.3 Kết quả F1 trung bình khi áp dụng các mô hình CRFs, Bi- LSTM, Bi-LSTM-CRFs lần lượt trên 1, 2 và 3 miền quan tâm với bộ nhãn chung (General) và bộ nhãn riêng (Specific) tương ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142 5.4 Kết quả trung bình F1 trên tổ hợp 3 miền quan tâm khi áp dụng lần lượt 3 mô hình Bi-LSTM-CRFs, Bi-LSTM, CRFs . . . 143 5.5 Giao diện mô hình trích xuất ý định người dùng . . . . . . . . . 146 xi Mở đầu Trong hơn một thập kỷ qua, với sự phát triển bùng nổ của blog, diễn đàn, và mạng xã hội, người dùng Internet nói chung và người dùng Việt nói riêng đã hình thành thói quen chia sẻ thông tin thường xuyên trên các kênh truyền thông trực tuyến này. Theo đó, người dùng thường đăng các dòng trạng thái, bài viết, bình luận thể hiện suy nghĩ, quan điểm, sở thích, tình cảm, và đặc biệt là chia sẻ những ý định mà họ muốn thực hiện trong tương lai với mong muốn nhận được phản hồi, tư vấn của những người dùng khác. Ý định của người dùng có thể về bất cứ điều gì như dự tính mua điện thoại, thuê nhà, vay ngân hàng, đi du lịch, học ngoại ngữ, khám chữa bệnh, hay đơn giản chỉ là nghe nhạc, xem phim. Ngày nay, chúng ta dễ dàng bắt gặp những chia sẻ như “nhà em đang tìm chiếc suv rộng rãi, bền bỉ, ăn ít xăng để đi làm và cả nhà đi chơi cuối tuần, bác nào có crv hoặc santafe lướt thì inbox em” hay “mình đang tính tổ chức chuyến du lịch cho cả phòng vào hè này. Bọn mình đi ĐN, tầm tháng 7, khoảng 20 người cả trẻ em. Mẹ nào có kinh nghiệm đặt tour thì tư vấn mình nhé, cảm ơn các mẹ nhiều”. Những bài đăng hàm chứa ý định như trên thể hiện một cách rõ ràng mong muốn, nhu cầu và dự tính của người viết. Từ đó nếu các công ty du lịch và hãng hàng không nắm bắt được nhu cầu, dự định nghỉ hè của các khách hàng tiềm năng, họ có thể điều chỉnh kế hoạch kinh doanh phù hợp hơn với thị trường. Không chỉ du lịch, các lĩnh vực khác như bán lẻ, bất động sản, tài chính - ngân hàng, bảo hiểm, y tế, giáo dục . . . đều được hưởng lợi. Rõ ràng, việc tự động thu thập, phân tích và hiểu được ý định của người dùng thông qua những gì họ chia sẻ là chìa khoá quan trọng giúp chúng ta nắm bắt nhu cầu khách hàng nhanh hơn cũng như định vị các khách hàng tiềm năng hiệu quả hơn. Vì thế, phân tích và hiểu ý định từ các văn bản trực tuyến là vấn đề có nhiều ý nghĩa thực tiễn và có tính ứng dụng cao, đặc biệt đối với các hệ thống thương mại điện tử, các hệ thống khuyến nghị, quảng cáo trực tuyến... 1 Mở đầu 2 Tuy vậy, phân tích và xác định một cách đầy đủ, chính xác ý định từ văn bản là vấn đề khó trong lĩnh vực xử lý và hiểu ngôn ngữ tự nhiên. Thứ nhất, ý định vốn rất đa dạng vì một người có thể thể hiện ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mong muốn của họ. Thứ hai, ngôn ngữ thể hiện ý định có thể gây ra nhập nhằng. Ví dụ, câu “mình đang có hoa quả ngon, mẹ nào muốn mua thì inbox nhé ” có ý định là bán hoa quả, nhưng sự hiện diện của cụm từ muốn mua có thể đánh lừa máy tính. Thứ ba, ý định trong văn bản có thể ở dạng ẩn (implicit) hoặc gián tiếp. Ví dụ “dòng 7 chỗ xe nào chạy êm nhỉ ? ” không thể hiện rõ người viết muốn mua xe hay chỉ đơn thuần tìm hiểu thông tin. Thứ tư, có thể tồn tại nhiều ý định ngay trong một câu văn. Ngoài ra, việc các văn bản trên diễn đàn, mạng xã hội thường dùng từ địa phương, tiếng lóng, từ viết tắt, ngôn ngữ “teen” cũng gây ra không ít khó khăn cho việc phân tích ý định. Vì những thử thách trên, cộng đồng nghiên cứu đang từng bước tìm cách giải quyết vấn đề này ở những phạm vi, mức độ, hay miền lĩnh vực (miền dữ liệu) khác nhau. Chính vì vậy, bài toán phân tích và hiểu ý định từ văn bản nói chung và văn bản truyền thông xã hội trực tuyến nói riêng còn thiếu một cách tiếp cận xuyên suốt và đặc biệt là chưa có giải pháp phù hợp cho ba vấn đề trọng tâm sau đây: 1) Đề xuất định nghĩa hình thức về ý định có khả năng khái quát được cấu trúc ý định vốn được thể hiện rất đa dạng trong văn bản. Để phân tích và xác định ý định một cách hiệu quả và chính xác, trước tiên chúng ta cần hiểu rõ ý định là gì. Ý định, theo cách hiểu chung nhất, là những gì con người dự định sẽ thực hiện trong tương lai. Theo Bratman (1987), “Ý định là trạng thái của trí não biểu thị một sự cam kết sẽ thực hiện một hoặc một chuỗi các hành động trong tương lai. Ý định liên quan đến các hoạt động đầu óc như lên kế hoạch hay sắp đặt chủ ý.” [13]. Tuy vậy định nghĩa này mới chỉ ở dạng mô tả. Để máy tính có thể tự động phân tích và hiểu được ý định, chúng ta cần những định nghĩa ở dạng hình thức hơn. Theo hướng này, Liu mô tả ý định là một cấu trúc gồm năm thành phần bao gồm hành động ý định (intended–action), đích của ý định (intention–target), độ mạnh của ý định (intention–intensity), chủ thể của ý định (holder), và thời điểm phát biểu ý định (time) [10]. Dù vậy, định nghĩa này chỉ mới phù hợp với các câu văn mang ý định ở dạng đơn giản như “tôi muốn mua một chiếc Mở đầu 3 iphone 11 pro” với muốn mua là intended–action, iphone 11 pro là intention– target và tôi là holder. Trong thực tế, các câu mang ý định vốn đa dạng và phức tạp hơn. Ngoài hành động và đích của ý định, miền quan tâm, ngữ cảnh xuất hiện, cùng các thuộc tính hay ràng buộc của ý định là những khía cạnh cần thiết được xem xét. Chẳng hạn, với văn bản được đăng trên trang www.webtretho.com như sau:“Em cũng đang cần thuê phòng trọ khép kín cho 2 chị em gái đều đã đi làm(1 nvvp & 1 giáo viên ĐH). Em cần phòng giá khoảng 1tr7, ở lâu dài khu vực CẦU GIẤY - LÁNG - TRẦN DUY HƯNG - THANH XUÂN. Cả nhà có thông tin gì thì cho em biết với nhé. Em muốn chuyển luôn cuối tuần này ạ. Liên hệ em Linh - 0988 428 197. Em đi làm nên chỉ cần chỗ ở yên tĩnh, thoáng, có internet, có nấu ăn, có chỗ để xe và an ninh tốt là được ạ. Cảm ơn cả nhà.”, ta có thể thấy rất nhiều thông tin cần trích xuất như: giá thuê, địa điểm phòng trọ, số điện thoại liên hệ... Vì thế, chúng ta cần có một định nghĩa, một cấu trúc đặc tả các thành phần của ý định cụ thể và bao quát hơn. 2) Mô hình hoá vấn đề phân tích và hiểu ý định theo một quy trình xuyên suốt với đầy đủ các bước phát hiện ý định, xác định miền quan tâm, và trích chọn nội dung cụ thể của ý định. Như đã đề cập, ý định thể hiện trong văn bản rất đa dạng. Vì thế, các nghiên cứu trước đây thường tiếp cận vấn đề trong một phạm vi hoặc một lĩnh vực ứng dụng cụ thể. Theo đó, Li (2010) [67] phân tích ý định trong truy vấn tìm kiếm bằng việc xác định hai thành phần là trọng tâm của ý định (intent heads – IH) và bổ nghĩa của ý định (intent modifiers – IM). Ví dụ truy vấn “alice in wonderland 2010 cast” có IH là “cast” (diễn viên) và hai IM là “alice in wonderland ” (tên bộ phim) và “2010 ” (sản xuất năm 2010). IH là thành phần máy tìm kiếm cần tìm câu trả lời còn mỗi IM là một ràng buộc hay đặc điểm nào đó của truy vấn. Khi xác định được các thành phần IH và IM trong một câu truy vấn, hệ thống sẽ hiểu được ý định tìm kiếm của người dùng là gì. Heyrani–Nobari và cộng sự (2014) [76] phân tích ý định của các bài đăng trên diễn đàn thảo luận bằng cách xác định khía cạnh (aspect) và hành động (action) liên quan. Ví dụ khía cạnh có thể là “iphone” và hành động có thể là “nâng cấp”. Tác giả áp dụng một mô hình chủ đề để đồng thời xác định được cả hai loại thông tin này. Castellanos và cộng sự (2012) [16] phân tích ý định từ các văn bản trực tuyến bằng cách xác định cụm từ chứa ý định (intention phrase) và các thành phần khác của ý định (intention Mở đầu 4 components). Theo tác giả, cụm chứa ý định được trích chọn bằng kỹ thuật bootstrapping, còn các thành phần khác của ý định được trích chọn bằng luật hoặc bằng kỹ thuật học máy như CRFs. Các công trình trên đã phân tích được ý định trong từng phạm vi và lĩnh vực cụ thể. Tuy vậy, chưa có công trình nào tiếp cận vấn đề phân tích ý định theo một quy trình tổng quát, xuyên suốt với đầy đủ các bước từ phát hiện (hay lọc) ý định, xác định miền quan tâm của ý định, và trích chọn nội dung cụ thể của ý định. Trong đó, mỗi bước cần được mô hình hoá thành bài toán phân loại, phân tích ngôn ngữ hoặc trích chọn thông tin phù hợp. 3) Phân tích và hiểu ý định trên đa miền quan tâm. Đặc biệt là khả năng mở rộng phân tích ý định cho các miền dữ liệu mới. Theo đó, các nghiên cứu của Li (2010) [67], Castellanos và cộng sự (2012) [16], Chen và cộng sự (2013) [21], Heyrani–Nobari và cộng sự (2014) [76], Gupta và cộng sự (2014) [35], Wang và cộng sự (2015) [97], Kim và cộng sự (2016) [55], Shang (2017) [92] Labidi và cộng sự (2018) [65] đã đề xuất các phương pháp phù hợp cho từng điều kiện bài toán cụ thể. Tuy vậy, mỗi miền quan tâm (miền ứng dụng) sẽ có một tập thuộc tính hay ràng buộc ý định riêng. Ví dụ, các thuộc tính về ý định du lịch có thể bao gồm nơi đến, phương tiện, khách sạn, số lượng người . . . trong khi ý định mua nhà sẽ xem xét các khía cạnh loại hình bất động sản (nhà đất hay chung cư), địa điểm, diện tích, hướng nhà . . . . Việc mở rộng miền, học chuyển đổi từ miền này sang miền khác hay thiết kế cơ chế trích chọn thông tin ý định từ đa miền quan tâm là những vấn đề hầu như chưa được cộng đồng nghiên cứu xét đến. Một số ít nghiên cứu về vấn đề học chuyển đổi trong bài toán phân tích ý định hầu hết mới được khai thác trong những năm gần đây, cụ thể là của các tác giả Ngo và cộng sự (2017) [71], Song và cộng sự (2018) [93]. Ngoài ra, dù vấn đề phân tích và hiểu ý định từ văn bản gây được nhiều chú ý trong thời gian gần đây, cộng đồng nghiên cứu vẫn còn thiếu các tập dữ liệu gán nhãn làm chuẩn mực chung để thử nghiệm, so sánh, đánh giá các phương pháp. Đặc biệt, chưa có bất cứ tập dữ liệu tiếng Việt được gán nhãn chuẩn cho hướng nghiên cứu này. Theo hiểu biết của tác giả, luận án này là công trình đầu tiên đặt vấn đề phân tích và hiểu ý định trong văn bản tiếng Việt, cụ thể là cho các văn bản ngắn trên các kênh truyền thông xã hội trực tuyến. Vì thế, luận án xem thử thách về đặc thù ngôn ngữ, về việc thiếu dữ liệu đánh giá là một trong những nhiệm vụ cần giải quyết và vượt qua. Mở đầu 5 Mục tiêu và nội dung nghiên cứu của luận án Từ việc phân tích những vấn đề trọng tâm đề cập ở trên, luận án đặt ra mục tiêu nghiên cứu chính như sau: Mục tiêu nghiên cứu: Đề xuất và xây dựng các mô hình tự động phân tích ý định từ các văn bản (bài đăng/bình luận) tiếng Việt ngắn trên các phương tiện truyền thông xã hội trực tuyến. Để đạt được mục tiêu nghiên cứu đề ra, luận án cần giải quyết và thực hiện những nội dung nghiên cứu quan trọng sau đây: 1) Đề xuất định nghĩa và biểu diễn cấu trúc ý định: Trước tiên, luận án thực hiện tìm hiểu, khảo sát các định nghĩa về ý định của các nghiên cứu liên quan. Từ đó, luận án đề xuất một định nghĩa về ý định cũng như cách biểu diễn ý định phù hợp cho các văn bản trực tuyến tiếng Việt có độ dài ngắn. 2) Đề xuất tiến trình phân tích ý định cũng như cách thức mô hình hoá và giải quyết các bước cụ thể trong tiến trình đó : Tiến trình này bao hàm đầy đủ các bước từ phát hiện sự hiện diện của ý định (xác định văn bản chứa ý định), xác định miền quan tâm của ý định, và đặc biệt là trích chọn các thông tin cụ thể trong cấu trúc ý định. 3) Đề xuất phân tích và xác định ý định đa miền quan tâm: Luận án cần làm sáng tỏ những giả thuyết quan trọng về trích chọn thông tin ý định từ đa miền quan tâm cũng như mối tương quan giữa các mô hình, kết quả phân tích cho từng miền riêng lẻ và trên nhiều miền ? Liệu chúng ta có thể sử dụng dữ liệu và tri thức từ một miền đã có để phân tích trên các miền mới ? Một phần quan trọng của luận án sẽ tìm kiếm câu trả lời cho những câu hỏi này. Bên cạnh các mục tiêu và nội dung nghiên cứu chính vừa nêu, một trong những động lực nghiên cứu của luận án là phân tích ý định cho văn bản truyền thông xã hội tiếng Việt. Theo hiểu biết của nghiên cứu sinh, luận án này cùng các công trình khoa học đã công bố là những nỗ lực đầu tiên để phân tích ý định người viết từ văn bản tiếng Việt một cách có hệ thống. Luận án xem xét các yếu tố như tính đa dạng về ngôn từ, về cách hành văn tiếng Việt. Và một khó khăn nữa luận án phải khắc phục là việc thiếu hoàn toàn dữ liệu gán nhãn ý định. Do đó, bên cạnh các phương pháp, kỹ thuật đề xuất, luận án sẽ xây dựng các tập ngữ liệu gán nhãn ý định để phục vụ cho thực nghiệm, đánh giá, so sánh cũng như chia sẻ với cộng đồng tạo tiền Mở đầu 6 đề cho các nghiên cứu về sau. Phạm vi và phương pháp nghiên cứu Ý định thể hiện trong văn bản rất đa dạng. Việc phân tích đầy đủ, chính xác ý định của người viết cần thêm nhiều nghiên cứu từ cộng đồng. Luận án này hạn chế phạm vi và nội dung nghiên cứu như sau: Dạng ý định: Luận án chỉ quan tâm các ý định tường minh hay còn gọi là ý định rõ (explicit intents). Luận án chưa xem xét phân tích các ý định ẩn (implicit intents). Luận án có thể xử lý trường hợp đa ý định trong văn bản, nhưng không xử lý trường hợp đa ý định trong cùng một câu hoặc các ý định có tính lồng nhau. Luận án cũng không xem xét khía cạnh về tính hiệu lực của ý định, nghĩa là một ý định có thể đề cập trong quá khứ và có thể đã hết hiệu lực nhưng vẫn được xem là hợp lệ. Dạng dữ liệu: Dữ liệu văn bản mà luận án đề cập đều là các bài đăng, bình luận của người dùng trên các phương tiện truyền thông xã hội trực tuyến. Để ngắn gọn, luận án sử dụng thuật ngữ văn bản trực tuyến hoặc bài đăng. Độ dài mỗi văn bản trực tuyến cần phải từ 2 đến 500 từ. Tr... tri thức nào đó, một quan điểm, hoặc đơn giản chỉ muốn tìm sự tương tác xã hội. Câu hỏi locality muốn tìm thông tin về một địa điểm nhất định nào đó, còn câu hỏi navigationality muốn tìm địa chỉ một trang web. Câu hỏi thuộc loại ý định procedurality là câu hỏi mong muốn được biết cách thực hiện một việc nào đó (thường bất đầu bởi từ để hỏi “How”). Tương tự, câu hỏi causality có ý định muốn biết nguyên nhân xẩy ra một việc nào đó (thường bắt đầu bẳng từ để hỏi “Why”). Với mỗi loại ý định, tác giả xây dựng mô hình phân lớp tương ứng. Bằng cách sử dụng các kỹ thuật học máy tiên tiến như Co-Training và PU-learning, tác giả và cộng sự đã phát triển được những mô hình phân lớp ổn định và ý nghĩa hơn những mô hình tốt nhất đã công bố. Hơn nữa, ngoài những đặc trưng về từ vựng, tác giả còn dùng thêm những đặc trưng siêu dữ liệu (metadata), chẳng hạn như thể loại mà câu hỏi thuộc vào, từ đó giúp hệ thống CQA có thể gợi ý câu trả lời chính xác hơn. 1.3.2 Phân tích ý định trong các bài đăng Khác với câu truy vấn, một bài đăng của người dùng (post, comment, tweet) trên các phương tiện truyền thông trực tuyến thường dài hơn. Vì vậy, các bài đăng thường mang nhiều thông tin hơn các truy vấn. Đây là một thuận lợi giúp việc xác định ý định người dùng được đầy đủ và chính xác hơn. Tuy nhiên các bài đăng lại chứa nhiều nhiễu hơn, tức là có thể có rất nhiều câu trong một bài đăng đơn giản chỉ là những câu chào hỏi hoặc chuyện phiếm trong khi số câu mang ý đinh của người dùng lại rất ít. Điều này gây ra rất nhiều khó khăn khi xác định ý định của người dùng. Chương 1. Giới thiệu tổng quan 21 Đó cũng là lý do mà những nghiên cứu về xác định ý định người dùng từ các bài đăng trực tuyến còn khá ít, điển hình có thể kể đến là nghiên cứu của Castellanos và cộng sự (2012) [16], Castellanos và cộng sự (2016) [17], Chen và cộng sự (2013)[21], Cui và cộng sự (2017) [23], Nobari và cộng sự (2014) [76], Wang và cộng sự (2015) [97], Pearl và cộng sự [77], Purohit và cộng sự (2015) [81], Ding và cộng sự (2015) [26], Labidi và cộng sự (2016) [64], Ngo và cộng sự (2017) [71], Yang và cộng sự (2013) [101]. Trong số đó, hầu hết các nghiên cứu mới chỉ mô hình hóa bài toán thành bài toán phân lớp để tìm lớp ngữ nghĩa thích hợp cho các bài đăng của người dùng, đó là các nghiên cứu [21], [40], [97], [81], [26], [71]. Luận án sẽ trình bày cụ thể hơn về những nghiên cứu này trong chương 3. Ngoài ra, có một số ít nghiên cứu tiếp cận theo hướng phấn tích và trích xuất thông tin về ngữ nghĩa của ý định người dùng, đó là [16], [76], [64]. Luận án sẽ trình bày cụ thể về các nghiên cứu này ở chương 4. Đặc biệt trong số các nghiên cứu tiếp cận theo hướng phân lớp nói trên, có một số ít nghiên cứu đề xuất giải pháp học chuyển đổi, thích nghi miền như [21], [26], [71], [93]. Đây cũng là cơ sở để luận án hướng đến bài toán độc lập miền trong việc xác định ý định người dùng sẽ được giới thiệu ở chương 5. 1.4 Một số kỹ thuật khai phá dữ liệu và mô hình học máy Phần này sẽ giới thiệu về một số kỹ thuật khai phá dữ liệu như kỹ thuật phân lớp, kỹ thuật trích xuất thông tin. Bên cạnh đó, luận án cũng trình bày sơ lược về những mô hình học máy được dùng trong toàn bộ luận án. 1.4.1 Cơ bản về kỹ thuật phân lớp Kỹ thuật phân lớp là một hướng tiếp cận khá phổ biến trong lĩnh vực khai phá dữ liệu. Quá trình phân lớp thực hiện nhiệm vụ xây dựng mô hình giúp cho việc gán nhãn phân loại dữ liệu hay xếp một đối tượng vào một trong những lớp đã biết trước. Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), cực đại hóa entropy (maximum entropy), máy véc tơ hỗ trợ (support vector machines)...Phân lớp Chương 1. Giới thiệu tổng quan 22 còn được gọi là học có giám sát (học có thầy – supervised learning). Một số kiến thức ở phần này được tham khảo từ [74] 1.4.1.1 Phương pháp cực đại entropy (ME) Trong lý thuyết thông tin, chúng ta quan tâm tới việc phát triển một thước đo lượng thông tin thu được từ việc quan sát một sự kiện xảy ra với một xác suất p. Để đơn giản hóa vấn đề, chúng ta tạm bỏ qua các đặc trưng của sự kiện mà chỉ quan tâm tới sự kiện xảy ra hay không. Ta có định nghĩa về entropy do Shannon đưa ra vào năm 1948 như sau: “Entropy của một phân phối xác suất là giá trị kỳ vọng của thông tin của phân phối đó”. Từ những tính chất của entropy ta có thể thấy entropy của một phân phối xác suất còn thể hiện sự đồng đều trong phân phối xác suất. Cụ thể, entropy càng cao thì phân phối càng đều. Nguyên lý entropy cực đại cho rằng: Với một tập các dữ liệu đã biết trước, phân phối xác suất tốt nhất trong tập các phân phối xác suất có thể để biểu diễn trạng thái hiện tại của tri thức, là phân phối xác suất có entropy cực đại và phân phối này là duy nhất. Mô hình phân lớp ME là mô hình phân lớp sử dụng nguyên lý cực đại entropy. Điều đó có nghĩa là mô hình ME là mô hình có entropy cao nhất khi thỏa mãn các ràng buộc nhận được từ tập dữ liệu thực nghiệm, theo Berger và cộng sự (1996) [8]. ME có tốc độ huấn luyện và tham chiếu nhanh, và nó cũng không hề thua kém các phương pháp học máy thống kê nâng cao như SVMs và Random Forest [75]. 1.4.1.2 Phương pháp máy véc tơ hỗ trợ (SVMs) Thuật toán phân lớp SVMs là một thuật toán thuộc lớp giải thuật phân lớp thống kê. Nó có khả năng xử lý cả dữ liệu tuyến tính và dữ liệu không tuyến tính [6]. Bản chất của phương pháp này là xây dựng một siêu phẳng để phân chia dữ liệu thành 2 nửa, tương ứng với việc phân chia dữ liệu thành 2 lớp. Trong trường hợp dữ liệu không tuyến tính, nó sẽ sử dụng một hàm nhân (kernel function) để chuyển đổi tập dữ liệu ban đầu sang một không gian mới có số chiều lớn hơn để xử lý. SVMs với phân lớp đa lớp Chương 1. Giới thiệu tổng quan 23 Một trong những giải pháp cải tiến SVMs để giải quyết bài toán phân lớp đa lớp là sử dụng kỹ thuật 1-against-all. Ý tưởng cơ bản của thuật toán này là chuyển bài toán phân lớp nhiều lớp thành nhiều bài toán phân lớp nhị phân như sau: — Giả sử ta cần phân lớp dữ liệu vào m lớp y1, y2. . . , ym , với yi ∈ Y . — Biến đổi tập Y ban đầu thành m tập có 2 lớp con Zi = {yi , {Y − yi}}. — Áp dụng SVMs phân lớp nhị phân cơ bản với m tập Zi để xây dựng siêu phẳng cho lớp này. Như vậy ta sẽ có m bộ phân lớp nhị phân. — Bộ phân lớp với sự kết hợp của m bộ phân lớp trên được gọi là bộ phân lớp đa lớp mở rộng với SVMs 1.4.2 Cơ bản về kỹ thuật trích xuất thông tin Trích xuất thông tin (IE) là một lĩnh vực nghiên cứu có liên quan đến Truy hồi thông tin, Khai phá dữ liệu, cũng như Xử lý ngôn ngữ tự nhiên. Mục tiêu chính của trích xuất thông tin là tìm ra những thông tin có cấu trúc từ văn bản không có cấu trúc hay bán cấu trúc [51]. 1.4.2.1 Các nhiệm vụ chính của Trích xuất thông tin Named Entity Recognition (NER) – Nhận dạng thực thể có tên NER là nhiệm vụ xác định, phát hiện và phân lớp các thực thể được đặt tên (hay thực thể có tên) đã được định nghĩa trước, chẳng hạn như thực thể tổ chức (World Health Organisation), thực thể người (Obama), thực thể thời gian (01/08/2017) . . . Relation Extraction (RE)- Trích xuất quan hệ RE xác định và phân lớp các mối quan hệ đã được định nghĩa trước giữa các thực thể trong văn bản. Ví dụ từ đoạn van bản từ “Steve Jobs works for Apple”, ta có thể trích xuất được quan hệ EmployeeOf(Steve Jobs, Apple) Event Extraction (EE)- Trích xuất sự kiện EE là nhiệm vụ xác định các sự kiện trong văn bản tự do, và thu lại các thông tin cụ thể, có cấu trúc về các sự kiện đó. EE thường liên quan đến việc trích xuất vài thực thể và các mối liên hệ giữa chúng. Chương 1. Giới thiệu tổng quan 24 1.4.2.2 Nhiệm vụ NER và cách tiếp cận học máy thống kê Trước tiên ta có khái niệm thực thể có tên (Named Entity): là một chuỗi các từ chỉ một thực thể nào đó ở thế giới thực được gọi bằng một tên riêng, vd: California, Steave Job . . . NER : là nhiệm vụ xác định tên của các thực thể từ văn bản ở dạng phi cấu trúc và phân lớp chúng vào các lớp đã được định nghĩa trước, như: người, tổ chức, và địa điểm...Các kiểu thực thể có tên thường gặp nhất: PER (người), ORG (tổ chức), LOC (địa điểm). Ngoài ra việc trích xuất các biểu thức chỉ: DATE (ngày tháng), TIME (thời gian), Tiền tệ...cũng được định nghĩa là nhiệm vụ NER. Với phương pháp học máy thống kê NER được chuyển về bài toán gán nhãn chuỗi (sequence labeling). Bài toán được định nghĩa như sau: cho trước tập các chuỗi quan sát ký hiệu x = (x1, x2, ..., xn). Thông thường xi được biểu diễn dưới dạng vector. Ta mong muốn gán nhãn yi , với yi ∈ Y = {y1, y2, ..., ym} là tập các nhãn định nghĩa trước, cho từ xi tương ứng dựa vào dữ kiện từ các từ trước hoặc sau nó. Để gán nhãn cho dữ liệu huấn luyện, ta thường dùng quy tắc B-I-O, ở đó với mỗi thực thể kiểu T, ta có hai nhãn B-T và I-T. Trong đó B-T là “begin type T” tức là chỉ từ bắt đầu của thực thể kiểu T, I-T là “inside type T”, tức là chỉ những từ thuộc thực thể T kể từ từ thứ hai trở đi. Ngoài ra, ta còn có nhãn O cho biết “outside named entity”, tức là những từ không là thực thể có tên. Ví dụ trong hình 1.1 thể hiện cách gán nhãn cho một chuỗi văn bản sử dụng quy tắc B-I-O. Hình 1.1: Quy tắc gán nhãn BIO Một số mô hình học máy hiệu quả đối với bài toán nhận dạng thực thể có tên phải kể đến là: mô hình trường ngẫu nhiên có điều kiện (CRFs), mô hình Markov ẩn (HMMs)... Chương 1. Giới thiệu tổng quan 25 1.4.2.3 Mô hình trường ngẫu nhiên có điều kiện (CRFs) CRFs được đề xuất đầu tiên bởi Lafferty và cộng sự vào năm 2001 [61]. Đây là mô hình xác suất được xây dựng để phân đoạn và gán nhãn cho dữ liệu dạng chuỗi, vì vậy nó rất thích hợp với bài toán NER. Gọi S là tập hữu hạn các trạng thái, mỗi trạng thái tương ứng với một nhãn yi trong tập nhãn Y . Khi đó, ứng với một chuỗi quan sát đầu vào x = (x1, x2, ..., xn), CRFs sẽ xác định chuỗi trạng thái s = (s1, s2, ..., sn) tương ứng. CRFs cải tiến hơn các phương pháp trước đó như Maximum Entropy Markov Models (MEMMs) ở chỗ trạng thái st được xác định không chỉ dựa vào trạng thái trước đó (st−1), mà còn dựa vào trạng thái phía sau (st+1), hình 1.2. Hình 1.2: Chuỗi trạng thái tương ứng với chuỗi quan sát Hiệu quả của mô hình CRFs phụ thuộc rất nhiều vào việc thiết kế tập đặc trưng tương ứng với dữ liệu. Có hai dạng đặc trưng trong mô hình CRFs đó là đặc trưng cạnh e (edge feature) và đặc trưng trạng thái s (state feature). Các đặc trưng cạnh được sinh tự động từ dữ liệu huấn luyện, còn các đặc trưng trạng thái được tạo bởi việc áp dụng các mẫu vị từ ngữ cảnh (context predcate template) pi (x , t) trên dữ liệu. Việc này được thực hiện bằng cách sử dụng một cửa sổ trượt (sliding window) có kích thước xác định để duyệt qua các ví dụ trong tập dữ liệu huấn luyện. Phần này sẽ được trình bày kỹ hơn trong chương 4. 1.4.3 Cơ bản về mạng nơ ron Những năm gần đây, mạng nơ ron là công cụ được lựa chọn để giải quyết vấn đề về xử lý ngôn ngữ tự nhiên. Phần này sẽ trình bày tổng quan về mạng nơ ron, phần lớn các công thức được tham chiếu từ [88] và [30]. Một cách tổng quan, mạng nơ ron có thể được xem như là hợp của các hàm, trong đó các hàm ràng buộc (affine function) f (.) và các hàm kích hoạt (activation Chương 1. Giới thiệu tổng quan 26 function) phi tuyến g(.) được sắp xếp xen kẽ nhau, một ví dụ về hai loại hàm này được trình bày trong công thức 1.1 f (x) = Wx+ b (1.1) g(y) = softmax (y) ở đó, W ∈ RC×T , x ∈ RT , b ∈ RC , y ∈ RC . C là số lượng các lớp đầu ra hay kích thước của véc tơ đầu ra y, T là kích thước của véc tơ đầu vào x, W được gọi là ma trận trọng số, b được gọi là véc tơ bias. W,b ∈ θ là tập các tham số của mô hình. Hàm softmax là một hàm kích hoạt thường được dùng ở tầng cuối cùng hay ở tầng output của một mạng nơ ron để thu được phân bố có khả năng phân loại tốt. Những tầng không phải tầng input và output được gọi là tầng ẩn. Mạng nơ ron thường được đặt tên theo số tầng ẩn của nó. Chẳng hạn, mạng nơ ron có 1 tầng ẩn được gọi là mạng nơ ron feed − forward một tầng: h = σ(W1x+ b1) (1.2) y = softmax (W2x+ b2)) Mạng feed − forward với m tầng ẩn được biểu diễn trong hình 1.3. Ở đó, h0 là véc tơ đầu vào x; l0 = d là số chiều của véc tơ đầu vào x còn lm+1 là số chiều cần có của véc tơ tầng ẩn cuối cùng h(m+1) (lm+1 nên được chọn trước). Mỗi phần tử thứ t của véc tơ h(i) được gọi là một đơn vị ẩn (hidden unit). Có thể thấy, trong mạng feed − forward các đơn vị ẩn ở tầng thứ i được kết nối với tất cả các đơn vị ẩn ở tầng thứ i + 1. Nếu mạng nơ ron có nhiều tầng ẩn, thì mỗi tầng thường có ma trận trọng số W và véc tơ bias b riêng. Tuy nhiên các tầng khác nhau cũng có thể chia sẻ cùng tham số như nhau. Kết quả đầu ra của một tầng sẽ là đầu vào cho tầng tiếp theo, và quá trình đó được lặp lại cho đến tầng cuối cùng để thu được đầu ra của toàn bộ mạng nơ ron là y, quá trình này được gọi là lan truyền xuôi (forward propagation). Chương 1. Giới thiệu tổng quan 27 Hình 1.3: Mô hình mạng nơ ron feed − forward nhiều tầng [72] 1.4.3.1 Véc tơ hóa từ (word embedding) Khi dùng mạng nơ ron để giải quyết bài toán về ngôn ngữ tự nhiên, mỗi từ wi xuất hiện trong tập từ vựng V của tập văn bản đầu vào thường được gán với một véc tơ tương ứng xi , còn được gọi là mã hóa từ của từ wi . Do đó, một chuỗi các từ w1, ...,wT thường được biểu diễn bởi một chuỗi các véc tơ mã hóa từ tương ứng x1, ..., xT để làm đầu vào cho mạng nơ ron. 1.4.3.2 Huấn luyện mô hình mạng nơ ron Tương tự các mô hình học máy, mạng nơ ron cũng thường được huấn luyện nhờ phương pháp giảm độ dốc ngẫu nhiên (stochastic gradient descent). Tuy nhiên mỗi mô hình mạng nơ ron gồm nhiều tầng nên việc tính toán gradient của hàm mất mát loss − function không hề đơn giản. Trong trường hợp này, phương pháp lan truyền ngược (back propagation) [89] thường được sử dụng. 1.4.3.3 Mạng nơ ron hồi quy (Recurrent Neural Networks - RNNs) RNNs thuộc lớp các phương pháp dùng mạng nơ ron để xử lý dữ liệu dạng chuỗi và thường được dùng để xử lý ngôn ngữ tự nhiên. Ý tưởng của RNNs là chia sẻ các tham số giữa các thành phần khác nhau của mô hình. RNNs có rất nhiều dạng kiến trúc khác nhau, tuy nhiên trong luận án, tác giả sử dụng kiến trúc như trong hình 1.4. Chương 1. Giới thiệu tổng quan 28 Hình 1.4: Đồ thị tính toán trong kiến trúc RNNs [30] Ở kiến trúc này, tại mỗi thời điểm t có một đầu ra tương ứng y(t) và các véc tơ đơn vị ẩn h(t) có kết nối đệ quy với nhau. Quá trình tính toán theo kiến trúc này được tiến hành như sau. Với mỗi từ x(t), t = 1, ...,T cho trước tại thời điểm t , và trạng thái khởi tạo h(0), bộ những hàm sau được thực hiện đệ quy để xác định nhãn y (t) tương ứng: a(t) = b+Wh(t−1) +Ux(t) (1.3) h(t) = tanh(a(t)) (1.4) o(t) = c +Vh(t) (1.5) y^(t) = softmax (o(t)) (1.6) trong đó, b, c là các véc tơ bổ trợ, W,U,V lần lượt là các ma trận trọng số tương ứng 1.4. Mục đích của việc huấn luyện mô hình RNNs là để tìm ra b, c,W,U,V tối ưu sao cho tối thiểu hóa hàm mất mát: L = −∑t logpmodel (y(t) | {x(1),x(2), ...,x(T )}) [30] ở đó, pmodel (y(t) | {x(1),x(2), ...,x(T )}) được tính qua y(t) nhận được từ giá trị đầu ra của mô hình y^(t) Mô hình RNNs được huấn luyện bằng phương pháp lan truyền ngược. Vấn đề “Long-term dependency” Với cấu trúc quá nhiều tầng với đồ thị tính toán sâu, RNNs gặp phải một Chương 1. Giới thiệu tổng quan 29 số vấn đề khó khăn. Đặc biệt khi gradient được tính lan truyền qua quá nhiều giai đoạn sẽ dẫn đến hiện tượng biến mất (vanish) do quá nhỏ hoặc bùng nổ (explode) do quá lớn. Lý do chính cho hiện tượng vanish là do tính toán hàm mũ đối với các trọng số nhỏ [30]. Phương pháp Long Short-term Memory do Hochereiter và cộng sự đề xuất năm 1997 [39] đã chứng minh được khả năng vượt trội hơn RNNs khi phải giải quyết vấn đề về phụ thuộc dài hạn trong dữ liệu dạng chuỗi, một yếu tố đặc biệt cần thiết khi xử lý ngôn ngữ tự nhiên. Tính chất này rất phù hợp và hiệu quả với nhiệm vụ của bài toán gán nhãn chuỗi [32], [33], khi mà việc xác định nhãn của mỗi từ xi trong chuỗi đầu vào x phụ thuộc vào các nhãn của các từ đứng trước hoặc sau nó trong dãy. 1.4.3.4 Mô hình Long Short-Term Memory (LSTM) Như đề cập ở chương 1, kiến trúc tính toán đệ quy trên nhiều tầng với cùng một phép toán tại mỗi thời điểm t sẽ làm cho RNNs dễ bị bùng nổ tính toán và không kế thừa được những đặc trưng cần thiết ở phía trước thời điểm t đó. Để khắc phục nhược điểm đó, mỗi tế bào (cell) của mô hình LSTM được bổ sung thêm các cổng input gate, forget gate, output gate. Trong đó, cổng forget được dùng để quyết định xem một trạng thái phía trước thời điểm t nên được nhớ hay nên bị quên đi. Hình 1.5 biểu diễn một tế bào của mô hình LSTM. Hình 1.5: Kiến trúc một tế bào trong mô hình LSTM [46] Tóm lại, với mỗi đầu vào xt, tế bào của LSTM sẽ xác định trạng thái ht tương ứng nhờ tính toán lần lượt theo các hàm ở mỗi cổng tương ứng: it = σ(W (i) x xt +W (i) h ht−1 +W (i) c ct−1 + b(i)) ct = (1− it) ⊙ ct−1 + it ⊙ tanh(W (c)x xt +W (c) h ht−1 + b (c)) Chương 1. Giới thiệu tổng quan 30 ot = σ(W (o) x xt +W (o) h ht−1 +W (o) c ct + b(o)) ht = ot ⊙ tanh(ct) trong đó it là giá trị nhận được ở input gate, ct là giá trị nhận được ở forget gate và ot nhận được ở output gate. Ở đây, σ là hàm sigmoid và ⊙ là tích vô hướng. Các b(i) và các Wi là các véc tơ bổ trợ và các ma trận trọng số tương ứng sẽ được xác định trong quá trình huấn luyện mô hình LSTM. 1.4.3.5 Mô hình Bidirectional Long Short-termMemory (Bi-LSTM) Trong nhiệm vụ gán nhãn chuỗi, tại một thời điểm t ta không những cần ghi nhớ được nhiều đặc trưng cần thiết phía trước mà ta còn cần phải quan tâm đến cả các đặc trưng phía sau thời điểm t đó, (tức là những đặc trưng ở tương lai) [44]. Mô hình Bi-LSTM được đề xuất để giải quyết vấn đề này [31]. Mô hình này là sự kết hợp của 2 mô hình LSTM: (1) mô hình foward LSTM để tính toán và biểu diễn ngữ cảnh phía bên trái của từ t ; (2) mô hình backward LSTM để tính toán và biểu diễn ngữ cảnh phía bên phải của từ t . 1.5 Kết luận chương Chương 1 trình bày tổng quan về bài toán Phân tích và xác định ý định trong văn bản trực tuyến. Đầu tiên, luận án đưa ra những tìm hiểu và khảo sát về khái niệm ý định, và thể hiện ý định trong văn bản. Một khảo sát về các hướng nghiên cứu liên quan và các cách tiếp cận giải quyết bài toán xác định ý định người dùng trên thế giới cũng được trình bày trong chương này. Khảo sát này giúp tác giả nhìn nhận được những vấn đề cần phải khai thác tiếp trong bài toán hiểu ý định người dùng. Cuối cùng, chương 1 nhắc lại một số kiến thức cơ sở về khai phá dữ liệu và các mô hình học máy được sử d luận án. Chương 2 Phân tích ý định từ văn bản trực tuyến Để tiếp cận mục tiêu phân tích ý định từ văn bản trực tuyến, việc xây dựng định nghĩa để mô hình hóa khái niệm ý định là rất quan trọng. Chương này trình bày và phân tích về định nghĩa ý định hướng miền quan tâm mà luận án đề xuất, đồng thời giới thiệu tiến trình ba pha để giải quyết xuyên suốt bài toán phân tích ý định từ văn bản trực tuyến tiếng Việt. Những kết quả này đã được công bố trong công trình [LTLe1] (2016). Bên cạnh đó, luận án giới thiệu một khảo sát về định nghĩa ý định theo hướng tiếp cận từ điển (ngữ nghĩa) và hướng tiếp cận cấu trúc hóa. Ở đó, định nghĩa ý định hướng miền quan tâm của luận án là định nghĩa theo hướng cấu trúc hóa. Trước tiên phần đầu của chương sẽ giới thiệu về dữ liệu thực nghiệm của luận án gồm tiền xử lý và quy tắc gán nhãn dữ liệu. Những khó khăn gặp phải của bài toán phân tích ý định từ văn bản trực tuyến nói chung và văn bản trực tuyến tiếng Việt nói riêng cũng được trình bày trong chương này. 2.1 Phân tích ý định từ văn bản trực tuyến tiếng Việt Như đã giới thiệu trong phần Mở đầu, việc hiểu được ý định thông qua các văn bản trực tuyến mà người dùng đăng trên các phương tiện truyền thông xã hội mang lại rất nhiều ý nghĩa thực tiễn. Tuy nhiên qua việc khảo sát về những nghiên cứu liên quan đã trình bày ở chương 1, phần 1.3, hầu 31 Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 32 hết các nghiên cứu trước đây chỉ tập trung phân lớp ý định người dùng vào một lớp ngữ nghĩa tương ứng. Trong khi đó số lượng những nghiên cứu quan tâm phân tích cụ thể về công việc, đối tượng mà ý định người dùng hướng tới cũng như việc trích xuất các thông tin liên quan đến ý định đó còn rất khiêm tốn. Một số nghiên cứu điển hình theo hướng này như: X.Li (2010)[67], Castellanos và cộng sự (2012)[16], Xu và cộng sự (2013)[99], Nobari và cộng sự (2014)[76], Labidi và cộng sự (2018)[65]. Hơn nữa, theo tìm hiểu của tác giả, chưa có một nghiên cứu chính thức nào ngoài những công trình đã công bố của tác giả tiếp cận việc phân tích và hiểu ý định người dùng từ văn bản truyền thông xã hội Tiếng Việt. Luận án Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt hướng tới mục tiêu xây dựng một quá trình xuyên suốt để phân tích và hiểu ý định người dùng từ các văn bản trực tuyến tiếng Việt. Xét ví dụ một bài đăng của người dùng trên trang www.webtretho.com, một diễn đàn nổi tiếng của Việt Nam, hình 2.1 Hình 2.1: Một bài đăng mang ý định rõ trên phương tiện truyền thông xã hội Việt Nam Từ bài đăng trong hình 2.1 ta thấy người dùng với nick-name “Vi Lynk ” đang có ý định thuê phòng trọ với một số tiêu chí như: khép kín, cho 2 người, giá khoảng 1tr7,..., và số điện thoại liên hệ 0988428107. Theo tác giả tìm hiểu, dữ liệu gồm các văn bản trực tuyến tiếng Việt chưa có sẵn nên trước tiên luận án phải thực hiện thu thập dữ liệu để chuẩn bị cho các thực nghiệm. Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 33 2.1.1 Xây dựng dữ liệu thực nghiệm • Thu thập và tiền xử lý văn bản trực tuyến Tiếng Việt Trong các thực nghiệm của luận án, dữ liệu được lấy tự động (crawl) từ một số phương tiện truyền thông xã hội nổi tiếng ở Việt Nam như: các diễn đàn của các trang www.webtretho.com, www.lamchame.com, www.batdongsan.com, www. sotaychame.com ..., các trang facebook mở, ... Như đã trình bày ở phần Mở đầu, đối tượng dữ liệu của luận án là các văn bản trực tuyến có độ dài từ 2 đến 500 từ (trong phạm vi của luận án, mỗi từ được phân cách với nhau bởi ít nhất một dấu cách). Sau đó, luận án thực hiện tiền xử lý dữ liệu với các thao tác: 1. Loại bỏ các ký hiệu lạ, các biểu tượng cảm xúc...; 2. Tách mỗi dấu câu thành mỗi từ riêng (tức là hai bên của 1 dấu câu là hai dấu trống); 3. Những bài đăng thể hiện nhiều ý định thuộc những miền quan tâm khác nhau mà các ý định được trình bày ở mỗi đoạn/câu riêng sẽ được tách ra thành nhiều bài đăng sao cho mỗi bài đăng thể hiện ý định chỉ thuộc 1 miền quan tâm; 4. Đối với các thực nghiệm sử dụng phương pháp học sâu LSTM, luận án thực hiện chuyển tất cả các chữ cái viết hoa về chữ cái viết thường.Bước tiền xử lý này nhằm đưa những từ có ngữ nghĩa giống nhau nhưng hình thái khác nhau về cùng một dạng hình thái để việc mã hóa véc tơ từ được hiệu quả. Ví dụ về việc thực hiện các bước tiền xử lý dữ liệu trên được trình bày trong hình 2.2. Ở đó bốn ví dụ tương ứng với minh họa cho bốn bước tiền xử lý tương ứng. Về ý nghĩa khoa học, việc tiền xử lý dữ liệu giúp ta khắc phục khó khăn về sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến. Ngoài ra, bước tiền xử lý thứ ba cũng phần nào khắc phục được vấn đề đa ý định. Đó là hai trong số rất nhiều khó khăn, thách thức được trình bày trong phần 2.1.2. • Quy tắc gán nhãn cho dữ liệu Trong tất cả các thực nghiệm của luận án, dữ liệu đều được gán nhãn bởi một nhóm gồm 3 hoặc 5 sinh viên đã được huấn luyện cẩn thận về phương pháp và tiêu chí gán nhãn. Tùy vào từng bài toán thực nghiệm, việc gán nhãn Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 34 Hình 2.2: Ví dụ minh họa cho việc tiền xử lý dữ liệu cho dữ liệu sẽ có bản hướng dẫn riêng, một số bảng hướng dẫn gán nhãn sẽ được trình bày trong phần phụ lục của luận án: 1. Bài toán phân lớp nhị phân: Dữ liệu gồm các văn bản trực tuyến ngắn tiếng Việt được lấy tự động từ các phương tiện truyền thông xã hội. Dữ liệu được gán một trong hai nhãn: NI hoặc EI. Nếu văn bản trực tuyến không mang ý định hoặc mang ý định ẩn thì sẽ được gán nhãn NI, còn nếu văn bản trực tuyến mang ý định rõ của người dùng thì sẽ được gán nhãn EI. 2. Bài toán phân lớp đa lớp: Dữ liệu gồm các văn bản trực tuyến ngắn tiếng Việt mang ý định rõ của người dùng. Dữ liệu được gán một trong 13 nhãn: ThietBiDienTu (Thiết bị điện tử), ThoiTrangPhuKien Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 35 (Thời trang & phụ kiện), Tài chính (TaiChinh), PhucVuAnUong (Phục vụ ăn uống), DoDungTapHoa (Đồ dùng & tạp hóa), SucKhoeSacDep (Sức khỏe & sắc đẹp), NgheNghiepGiaoDuc (Nghề nghiệp & giáo dục), ThuCungCayCoi (Thú cưng & cây cối), BatDongSan (Bất động sản), TheThaoGiaiTri (Thể thao & giải trí), XeCoVanTai (Xe cộ vận tải), DuLichKhachSan (Du lịch & Khách sạn), Khac (Khác). Việc một văn bản trực tuyến được gán nhãn nào phụ thuộc vào nội dung của văn bản đó. Ví dụ, với văn bản ”Mình đang cần tìm một lớp ôn Ielt cấp tốc uy tín. Mình đang ở trọ ở khu Quan Hoa, Cầu Giấy, nếu có lớp ở khu vực đó thì tốt quá. Cảm ơn cả nhà !", nhãn được thống nhất lựa chọn là “NgheNghiepGiaoDuc”. Còn với những văn bản mang ý định rõ mà nội dung ý định đó không thuộc vào một trong 12 lớp ngữ nghĩa đầu tiên thì sẽ được gán nhãn “Khac”. 3. Bài toán trích xuất thông tin : Dữ liệu gồm các văn bản trực tuyến mang ý định rõ thuộc một miền quan tâm đã biết trước. Luận án xây dựng bộ nhãn tương ứng với các thực thể cần trích xuất, những bộ nhãn này sẽ được trình bày cẩn thận trong phần thực nghiệm ở chương 4. Sau đó, các sinh viên sẽ dựa vào hướng dẫn gán nhãn của từng miền quan tâm để gán nhãn cho từng thực thể của dữ liệu. Để việc gán nhãn được hiệu quả nhưng không mất quá nhiều thời gian, trước tiên lượng dữ liệu sẽ được chia đều cho mỗi sinh viên trong nhóm. Sau khi các sinh viên tự gán nhãn phần dữ liệu được phân công, phần dữ liệu đã được gán nhãn đó sẽ được chuyển cho sinh viên khác để thực hiện kiểm tra chéo. Những nhãn gặp phải sự bất đồng trong quá trình kiểm tra chéo sẽ được ghi lại và được thực hiện tổng đánh giá chéo giữa cả nhóm. Khi đó, việc lựa chọn nhãn cuối cùng cho mỗi ví dụ dữ liệu dựa vào sự đồng thuận của cả nhóm sinh viên. Tiêu chí đồng thuận dựa trên sự bình chọn đa số, khi đó để gán nhãn cho một ví dụ dữ liệu, có những trường hợp sau xẩy ra : - Nếu cả nhóm sinh viên đều chọn nhãn giống nhau để gán cho dữ liệu thì nhãn đó được chọn. - Nếu có sự bất đồng về việc gán nhãn giữa các sinh viên thì nhãn được chọn là nhãn mà số đông sinh viên cùng lựa chọn. - Nếu mỗi sinh viên chọn một nhãn khác nhau thì sẽ tiến hành bình chọn cho từng nhãn. Với mỗi nhãn được chọn để gán cho dữ liệu cả nhóm sinh viên Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 36 sẽ lựa chọn phiếu “Đồng ý” hoặc “Không đồng ý” cho nhãn đó. Nhãn được chọn sẽ là nhãn có nhiều phiếu “Đồng ý” nhất. Nếu vẫn xẩy ra trường hợp số nhãn “Đồng ý” bằng nhau cho các nhãn, 2 cố vấn khác sẽ được thêm vào nhóm bình chọn để chọn ra nhãn hợp lý nhất. Tổng số người bình chọn vẫn là một số lẻ để đảm bảo tiêu chí lấy kết quả theo bình chọn đa số. 2.1.2 Khó khăn - Thách thức Việc phân tích và xác định một cách chính xác, đầy đủ, trọn vẹn ý định của người dùng từ văn bản trực tuyến là một vấn đề khó và nhiều thách thức trong lĩnh vực xử lý ngôn ngữ tự nhiên. Thực chất, nó được xếp vào lớp các bài toán hiểu ngôn ngữ tự nhiên (natural language understanding - NLU) vốn đòi hỏi các kỹ thuật phân tích sâu về ngôn ngữ như phân tích cú pháp, phân tích ngữ nghĩa. Qua việc khảo sát những nghiên cứu đi trước cũng như qua quá trình tiếp cận và giải quyết vấn đề trong khuôn khổ luận án, việc giải quyết bài toán phân tích và xác định ý định từ văn bản truyền thông xã hội trực tuyến nói chung và văn bản trực tuyến tiếng Việt nói riêng đối mặt với một số khó khăn, thử thách sau. 1) Sự đa dạng của ý định: Người dùng trên các kênh truyền thông xã hội có thể chia sẻ ý định về bất cứ điều gì tuỳ thuộc vào nhu cầu, mục tiêu của họ. Sự đa dạng về lĩnh vực, về đặc điểm của ý định tạo nên sự phân bố rộng khắp về mặt từ vựng lẫn nội dung thông tin. Phân tích và hiểu ý định cho mọi lĩnh vực (tức trên miền mở - open–domain) là bài toán rất khó đạt độ chính xác mong muốn. 2) Đa ý định: Một bài đăng của người dùng có thể chứa nhiều hơn một ý định và các ý định này lại thuộc những lĩnh vực khác nhau. Thậm chí nhiều ý định có thể nằm trong cùng một câu. Ví dụ, “Mình đang cần mua một chiếc địu trẻ em cỡ khoảng 5-10kg để địu bé nhà mình vì sắp tới gia đình mình tính đi Đà Nẵng mấy ngày. Bé nhà mình mới được 8 tháng . . . ” Việc chia tách nội dung các ý định này là một nhiệm vụ không dễ dàng trong tiến trình phân tích và hiểu ý định. 3) Tính nhập nhằng : Có rất nhiều cách để người dùng diễn đạt ý định thực sự của mình. Rất nhiều khi, sự phong phú về mặt diễn đạt và sự linh hoạt về mặt ngôn ngữ vô tình gây ra sự nhập nhằng và làm cho các hệ thống máy tính đoán nhận sai. Ví dụ, “Mình đang có hoa quả sạch, mẹ nào muốn Chương 2. Định nghĩa và phân tích ý định văn bản trực tuyến 37 mua thì inbox mình nhé.” Đối với câu này, người dùng có ý định “bán hoa quả” nhưng mô hình có thể xác định nhầm thành ý định “mua” vì có cụm từ “muốn mua” trong nội dung. Những ý định mang tính nhập nhằng như thế này có thể xuất hiện trong dữ liệu ở nhiều dạng khác nhau. 4) Ý định ẩn (implicit intent): Khác với các ý định rõ (explicit intent), ở ý định ẩn, người dùng không đề cập một cách tường minh nhu cầu hay mục tiêu hành động cụ thể mà để người đọc suy diễn. Ví dụ, khi một người viết “Dòng 7 chỗ con nào chạy êm, ít ồn nhỉ ? ” thì có thể đơn giản chỉ là hỏi thông tin hoặc có ý định tìm mua một chiếc xe 7 chỗ có đặc điểm như thế. Việc suy diễn ý định ẩn có thể cần những thông tin ngữ cảnh bên ngoài tại thời điểm viết thay vì chỉ dựa vào thông tin nội tại của văn bản. 5) Sự phong phú của ngôn ngữ văn bản truyền thông trực tuyến: Khác với văn bản chính thống, các bài đăng trên các k...bài toán xác định ý định người dùng khi xét trên ngữ cảnh dữ liệu là tổ hợp của nhiều miền quan tâm khác nhau. 5.3.7 Mô phỏng mô hình trích xuất ý định đa miền quan tâm Để mô phỏng mô hình trích xuất ý định đa miền quan tâm, luận án xây dựng một website ở địa chỉ www.ydinhviet.tk. Giao diện của mô hình được giới thiệu trong hình 5.5. Ở đó, cửa sổ “Sentence” là nơi để người dùng viết bài đăng cần trích xuất ý định, còn cửa sổ “Sample Sentence” thể hiện một số ví dụ về bài đăng mang ý định người dùng. Sau khi nhập bài đăng và nhấn nút “Submit”, kết quả của quá trình trích chọn ý định được thể hiện ở cửa sổ “Named Entities”. Trong đó, mỗi thẻ màu thể hiện một thông tin khác nhau về ý định của người dùng tương ứng với bộ nhãn không phụ thuộc miền mà luận án đề xuất. Có thể thấy, với bài đăng thuộc miền Bất động sản: “Tôi đang cần thuê nhà tầm 70 m2 tại khu Văn Phú, giá khoảng 5 triệu/tháng lh nganhn2004@gmail.com”, mô hình xác định chính xác hoàn toàn các thông tin ý định, còn bài đăng thuộc miền Đồ điện tử : “mình cần mua iphone4 giá 5tr ở HN” chỉ bị trích xuất nhầm một thông tin, đó là “iphone4”. Điều này là Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 145 Bảng 5.11: Kết quả tốt nhất khi trích xuất tập 32 nhãn riêng đối với tổ hợp 3 miền quan tâm. Bộ nhãn riêng (32) Precision Recall F1-score Support intent 90,94 89,69 90,31 1.891 object 75,80 79,86 77,78 1.122 acreage 83,64 80,00 81,78 575 brand 74,66 76,39 75,51 216 color 81,00 74,31 77,51 109 contact 94,14 94,72 94,43 966 context 58,22 44,04 50,15 193 description 67,13 40,00 50,13 480 destination 83,70 84,92 84,31 756 equipment 77,97 54,12 63,89 85 facade direction 58,82 62,50 60,61 96 facade size 61,11 56,20 58,56 137 license plate 75,00 75,00 75,00 124 location 61,82 62,54 62,18 1.455 model 71,30 74,21 72,73 663 name of accommodation 45,95 59,30 51,78 68 number of bathrooms 95,45 90,00 92,65 70 number of bedrooms 92,08 89,42 90,73 104 number of facades 50,00 50,00 50,00 32 number of floors 69,23 64,75 66,91 139 number of objects 75,30 71,84 73,53 174 number of people 82,04 86,93 84,41 352 time period 91,01 84,73 87,76 203 price 86,10 83,71 84,88 1.117 origin 76,32 78,38 77,33 111 owner 72,58 68,45 70,45 317 point of departure 72,00 66,67 69,23 81 point of time 86,08 88,04 87,05 794 registration 83,15 69,81 75,90 106 registration year 94,67 78,89 86,06 90 state 60,87 47,30 53,23 148 transport 58,93 60,00 59,46 55 avg/total 79,26 77,57 78,21 12.847 Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 146 Bảng 5.12: Kết quả tốt nhất khi trích xuất tập 10 nhãn không phụ thuộc miền đối với tổ hợp 3 miền quan tâm. Bộ nhãn chung (10) Precision Recall F1-score Support intent 90,35 91,06 90,70 1.819 object 80,78 77,18 78,94 1.122 brand 85,96 70,83 77,66 216 contact 94,17 95,34 94,75 966 context 56,05 45,60 50,29 193 description 76,58 70,10 73,20 3.960 location 69,69 71,12 70,40 2.292 number of objects 72,84 67,82 70,24 174 other 75,45 72,82 74,11 916 price 87,38 86,12 86,74 1.117 avg/total 79,72 77,08 78,33 12.847 Hình 5.5: Giao diện mô hình trích xuất ý định người dùng do dữ liệu dùng để huấn luyện mô hình có chứa dữ liệu miền Bất động sản, còn không chứa dữ liệu miền Đồ điện tử. 5.4 Kết luận chương Trong chương này, luận án đã đề xuất một phương pháp trích chọn ý định người dùng không phụ thuộc vào miền quan tâm. Để thực hiện mục tiêu này, luận án khảo sát dữ liệu ở một số miền quan tâm có nhiều tương tác trên Chương 5. Phân tích và trích chọn ý định đa miền quan tâm 147 các phương tiện truyền thông xã hội Việt Nam, từ đó đề xuất bộ nhãn chung (không phụ thuộc miền) để trích xuất nội dung thông tin ý định, bộ nhãn này sau đó cũng được kiểm nghiệm trên những miền quan tâm khác của ý định người dùng và cũng cho kết quả phù hợp. Các thực nghiệm cho thấy phương pháp đa miền quan tâm thực sự hiệu quả khi cần xác định ý định người dùng trong trường hợp xuất hiện thêm những miền quan tâm mới. Trong chương này, luận án cũng giới thiệu phần mềm được xây dựng để mô phỏng cho mô hình xác định ý định đa miền quan tâm mà luận án đề xuất. Kết luận Như đã đề cập xuyên suốt trong luận án, phân tích và xác định ý định từ văn bản là bài toán khó trong lĩnh vực khai phá văn bản và xử lý ngôn ngữ tự nhiên. Đã có những nghiên cứu tiếp cận bài toán này ở các góc độ khác nhau và phạm vi khác nhau. Luận án này đã trình bày những đề xuất về việc mô hình hoá và giải quyết các vấn đề xoay quanh bài toán phát hiện và phân tích, xác định nội dung ý định từ văn bản truyền thông xã hội trực tuyến tiếng Việt. Tựu trung lại, luận án đạt được những kết quả và đóng góp chính như sau: Thứ nhất, luận án đề xuất một định nghĩa về ý định rõ hướng miền quan tâm phù hợp cho văn bản truyền thông xã hội trực tuyến, đồng thời đề xuất tiến trình ba pha gồm ba bài toán nhằm phân tích và xác định thông tin ý định [LTLe1]. Thứ hai, luận án đề xuất mô hình hóa bài toán một (phát hiện ý định) và bài toán hai (xác định miền quan tâm của ý định) lần lượt thành bài toán phân lớp nhị phân và phân lớp đa lớp. Kết quả thực nghiệm cho thấy, hai phương pháp phân lớp đơn giản nhưng hiệu quả, ME và SVMs, phù hợp với hai bài toán trên. Đặc biệt, việc sử dụng đặc trưng từ điển rất hiệu quả với hai bài toán này. Các nội dung và kết quả nghiên cứu này được trình bày trong các công trình [LTLe1], [LTLe2]. Ngoài ra luận án cũng thử nghiệm phương pháp học sâu CNN với 2 bài toán này, các kết quả nghiên cứu đã được trình bày trong công trình [LTLe6]. Thứ ba, luận án đề xuất mô hình hóa bài toán ba (trích chọn thông tin của ý định) dưới dạng trích chọn thông tin trên dữ liệu chuỗi. Các mô hình học máy thống kê cho dữ liệu chuỗi như CRFs, mô hình học sâu Bi-LSTM-CRFs được đề xuất để giải quyết bài toán này. Luận án cũng đề xuất tập nhãn đặc trưng tương ứng những nội dung ý định cần trích xuất trên từng miền dữ 148 Kết luận 149 liệu. Các nội dung và kết quả này được trình bày trong công trình [LTLe3]. Hơn nữa, luận án đề xuất một phương pháp hiệu quả để nâng cao độ chính xác của bài toán trích chọn thông tin ý định dựa trên mô hình học kết hợp (ensemble learning) các mô hình học sâu. Nội dung và kết quả nghiên cứu này được trình bày trong công trình [LTLe4]. Thứ tư, luận án đề xuất tiếp cận việc phân tích và xác định ý định đa miền quan tâm dựa trên ý tưởng xây dựng tập nhãn chung cho các miền dữ liệu. Luận án đã tiến hành phân tích thực nghiệm, so sánh, đánh giá hiệu quả của hai cách tiếp cận phụ thuộc miền và không phụ thuộc miền cũng như thảo luận về ưu nhược điểm của mỗi cách tiếp cận. Nội dung và kết quả này được trình bày trong công trình [LTLe5]. Bên cạnh đó, luận án cũng cung cấp một khảo sát tổng quan về hướng nghiên cứu phân tích và xác định ý định từ văn bản. Có thể nói các đóng góp của luận án có ý nghĩa trong việc bổ sung và hoàn thiện các kết quả nghiên cứu về phân tích ý định trên thế giới và đặc biệt là cho tiếng Việt. Các kết quả của luận án đã công bố trong các công trình khoa học được đăng tải trên các tạp chí, hội nghị chuyên ngành trong nước và quốc tế có phản biện. Mặc dù luận án đã đạt được một số kết quả nghiên cứu tích cực, nhưng vẫn còn tồn tại những hạn chế chưa giải quyết được như: (i) luận án mới chỉ sử dụng hai loại đặc trưng với bài toán phân lớp ở pha thứ nhất và pha thứ hai trong khi có rất nhiều loại đặc trưng hiệu quả khác chưa được khai thác; (ii) luận án chưa xử lý được trường hợp bài đăng mang ý định nhập nhằng; (iii) chưa giải quyết được vấn đề một bài đăng mang nhiều ý định rõ cùng một lúc; (iv) luận án cần giải quyết triệt để hơn vấn đề thích nghi miền trong phân tích ý định , cụ thể như nghiên cứu về vấn đề học chuyển đổi giữa các miền quan tâm; (v) bộ dữ liệu còn khiêm tốn đối với thực nghiệm theo phương pháp học sâu. Trong tương lai gần, NCS sẽ tiếp tục tập trung giải quyết các vấn đề vừa nêu. DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC 1. [LTLe1] Thai-Le Luong, Thi-Hanh Tran, Quoc-Tuan Truong, Thi- Minh-Ngoc Truong, Thi-Thu Phi and Xuan-Hieu Phan; Learning to Filter User Explicit Intents in Online Vietnamese Social Media Texts. The Eighth Asian Conference on Intelligent Information and Database Systems (ACIIDS), pp.13-24, Springer, 2016. [SCOPUS, DBLP] 2. [LTLe2]Thai-Le Luong, Quoc-Tuan Truong, Hai-Trieu Dang and Xuan- Hieu Phan; Domain Identification for Intention Posts on Online Social Media. In Proceedings of the Seventh Symposium on Information and Communication Technology (SoICT), pp. 52-57, ACM, 2016. [SCO- PUS, DBLP] 3. [LTLe3] Thai-Le Luong, Minh-Son Cao, Duc-Thang Le and Xuan- Hieu Phan; Intent Extraction from Social Media Texts Using Sequential Segmentation and Deep Learning Models. In Proceedings of the 9th In- ternational Conference on Knowledge and Systems Engineering (KSE), pp. 215-220, Springer LNCS, IEEE, 2017. [SCOPUS, DBLP] 4. [LTLe4] Thai-Le Luong, Nhu-Thuat Tran and Xuan-Hieu Phan; Im- proving Intent Extraction Using Ensemble Neural Network. In Procee- dings of the 19th International Symposium on Communications and Information Technologies (ISCIT), pp. 58-63, IEEE, 2019. [SCOPUS, DBLP] 5. [LTLe5]Thai-Le Luong, Nhu-Thuat Tran, Tien-Son Dang, Quoc-Long Tran and Xuan-Hieu Phan; Domain-independent Intent Extraction from Online Texts. Computacion y Systemas, Vol. 24, No. 1, pp.331-347, 2020. [SCOPUS,DBLP] 6. [LTLe6] Luong Thai Le; Intent domain identification using deep lear- ning model. The 2020 International Conference on Applications of Ar- tificial Intelligence in Transportation, pp. 246-254, 2020. 150 TÀI LIỆU THAM KHẢO [1] M. Araki, Y. Kimura, T. Nishimoto and Y. Niimi, Development of a ma- chine learnable discourse tagging tool. In Proceedings of the Second SIG- dial Workshop on Discourse and Dialogue-Volume 16, pp.1–6. Association for Computational Linguistics, 2001. [2] A. Ashkan, C.L. Clarke, E. Agichtein and Q. Guo, Classifying and cha- racterizing query intent. In: The 31th ECIR, pp.578–586, 2008. [3] A. Ashkan and C. L. Clarke, Term-based commercial intent analysis. In Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, pp.800–801. ACM, 2009. [4] R. Baeza-Yates, L. Calderón-Benavides and C. González-Caro, The inten- tion behind web queries. In International Symposium on String Processing and Information Retrieval, pp. 98–109, Springer, Berlin, Heidelberg, 2006. [5] R. Baeza-Yates, Semantic query understanding. In Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1357–1357). ACM, 2017. [6] A. Basu, C. Watters and M. Shepherd, Support vector machines for text catego-rization. In International Conference on System Sciences, Washing- ton, DC, USA, IEEE Computer Society, 2003. [7] L.C. Benavides, C.G. Caro and R.B. Yates, Towards a Deeper Understan- ding of the User’s Query Intent. In The SIGIR Proceeding, 2010. [8] A. Berger, S.A.D Pietra, V.J.D. Pietra, A maximum entropy approach to natural language processing. Computational Linguistics, 22(1):39–71, 1996. [9] A. Bhargava, A. Celikyilmaz, D. Hakkani-Tur and R. Sarikaya, Easy contextual intent prediction and slot detection. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pp. 8337–8341. IEEE,2013. [10] B. Liu, Sentiment Analysis: mining sentiments, opinions, and emotions. Textbook, 2015. [11] P. Bojanowski, E. Grave, A. Joulin, and T. Mikolov, Enriching word vectors with subword information, arXiv:1607.04606, 2016. 151 Tài liệu tham khảo 152 [12] A. Broder, A taxonomy of web search. ACM Sigir forum. Vol. 36. No. 2. ACM, 2002. [13] M. Bratman, Intention, plans, and practical reason. Harvard University Press, 1987. [14] C.G. Caro, Supervised Identification of the User Intent of Web Search Queries. The PhD Dissertation, Pompeu Farbra University, Spain, 2011. [15] R. Caruana, A. Niculescu-Mizil, G. Crew and A. Ksikes, Ensemble se- lection from libraries of models, In Proc. of the 21st ICML, pp.18, 2004. [16] M. Castellanos, et al. Intention insider: discovering people’s intentions in the social channel, Proceedings of the 15th International Conference on Extending Database Technology. ACM, 2012. [17] M.G. Castellanos, R. Ghosh, M.E Dekhil, U. Dayal, and M.Hsu, Cap- turing intentions within online text. U.S. Patent No. 9,411,860. 9 Aug. 2016. [18] Y.S. Chang, K.Y. He, S. Yu and W.H. Lu, Identifying user goals from Web search results. In Web Intelligence, IEEE/WIC/ACM International Conference on, pp.1038–1041. IEEE, 2006. [19] L. Chen, Understanding and exploiting user intent in community ques- tion answering. PhD Dissertation, Birkbeck University of London, 2014. [20] Z. Chen, F. Lin, H. Liu, Y. Liu, W.Y. Ma, L. Wenyin, User intention modeling in web applications using data mining. Journal of WWW, 5(3), pp. 181–191, 2002. [21] Z. Chen, B. Liu, M. Hsu, M. Castellanos, and R. Ghosh, Identifying intention posts in discussion forums, HLT-NAACL, 2013. [22] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu and P. Kuksa, Natural language processing (almost) from scratch, JMLR, Vol12, pp.2493–2537, 2011. [23] C. Cui, W. Mao, X. Zheng, and D. Zeng, (2017, June). Mining User In- tents in Online Interactions: Applying to Discussions About Medical Event on SinaWeibo Platform. In International Conference on Smart Health, pp. 177–183, Springer, 2017. [24] H. Dai, Z. Nie, L. Wang, J.R Wen, L. Zhao, Y. Li, Detecting online commercial intention. In: The WWW, 2006. [25] K. Diederik and B. Jimmy, Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. [26] X. Ding, T. Liu, J. Duan, and J.Y. Nie, Mining user consumption inten- tion from social media using domain adaptive convolutional neural net- work. In Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, pp.2389–2395, 2015. Tài liệu tham khảo 153 [27] R. Glater, R. L. Santos and N. Ziviani, Intent-aware semantic query annotation. In Proceedings of the 40th International ACM SIGIR Confe- rence on Research and Development in Information Retrieval, pp.485-494, ACM, 2017. [28] C. Gonzalez-Caro. Supervised identification of the user intent of web search queries. Ph.D thesis in Computer Science, Univ. Pompeu Fabra, Barcelona, Spain, 2011. [29] C. Gonzalez-Caro and R. Baeza-Yates, A multi-faceted approach to query intent classification. In International Symposium on String Processing and Information Retrieval, pp.368–379. Springer, Berlin, Heidelberg, 2011. [30] I. Goodfellow, Y. Bengio and A. Courville, Deep Learning. MIT Press, 2016. [31] A. Graves and S. Ju¨rgen. Framewise phoneme classification with bidirec- tional LSTM networks. In Proc. of IJCNN’05, Vol. 4. IEEE, 2005. [32] A. Graves, Supervised Sequence Labelling with Recurrent Neural Net- works. Studies in Computational Intelligence. Springer, 2012. [33] A. Graves and N. Jaitly, Towards end-to-end speech recognition with re- current neural networks. In ICML, 2014. [34] Q. Guo, E. Agichtein, C.L. Clarke, and A. Ashkan, Understanding “aban- doned” ads: towards personalized commercial intent inference via mouse movement analysis. Information Retrieval in Advertising, 2008. [35] V. Gupta, D. Varshney, H. Jhamtani, D. Kedia and S. Karw, Identifying purchase intent from social posts. In Proc. of ICWSM, 2014. [36] M. Hamroun, M.S. Gouider, and L.B. Said, Customer intentions analysis of twitter based on semantic patterns. The 11th International Conference on Semantics, Knowledge and Grids, 2015. [37] H.B. Hashemi, A. A.siaee and R. Kraft, Query intent detection using convolutional neural networks, In Proc. of WSDM QRUMS Workshop, 2016. [38] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever and R.R. Sa- lakhutdinov, Improving neural networks by preventing co–adaptation of feature detectors, arXiv:1207.0580, 2012. [39] S. Hochreiter, and S. Jrgen, Long short-term memory, Neural computa- tion pp.1735–1780, 1997. [40] B. Hollerit, M. Kroll and M. Strohmaier, Towards linking buyers and sellers: detecting commercial intent on twitter, In Proc. of WWW, 2013. Tài liệu tham khảo 154 [41] D.H. Hu, Q. Yang and Y. Li,An algorithm for analyzing personalized on- line commercial intention. In Proceedings of the 2nd International Work- shop on Data Mining and Audience Intelligence for Advertising, pp.27–36, ACM, 2008. [42] D.H. Hu, D. Shen, J.T. Sun, Q. Yang and Z. Chen, Context–aware online commercial intention detection. In: The ACML Proceeding, 2009. [43] J. Hu, G. Wang, F. Lochovsky, J.T. Sun and Z. Chen, Undertanding user’s query intent with wikipedia. In: The WWW Proceeding, 2009. [44] Z. Huang, X. Wei, and Y. Kai, Bidirectional LSTM-CRF models for sequence tagging, arXiv:1508.01991, 2015. [45] C.K.C. Jackie and X. Li, Sequence clustering and labeling for unsupervi- sed query intent discovery, In Proc. of WSDM, 2012. [46] D. Janardhanan and E. Barrett. CPU workload forecasting of machines in data centers using LSTM recurrent neural networks and ARIMA mo- dels. In 2017 12th International Conference for Internet Technology and Secured Transactions (ICITST), pp. 55-60. IEEE, 2017. [47] B.J. Jansen, A. Spink, and T. Saracevic, Real life, real users, and real needs: A study and analysis of user queries on the Web. Information Pro- cessing and Management, 36(2), pp.207-227, 2000. [48] B. J. Jansen, D. L. Booth, and A. Spink. Determining the User Intent of Web Search Engine Queries. In:The WWW Proceeding, 2007. [49] J. Jansen. Understanding sponsored search: Core elements of keyword advertising. Cambridge University Press, 2011. [50] V. Jethava, C.B Liliana and B.Y. Ricardo, Scalable multi–dimensional user intent identification using tree structured distributions. In: The ACM SIGIR, 2011. [51] J. Jiang, Information extraction from text. Mining text data. Springer, Boston, MA, pp. 11–41, 2012. [52] I. Kang and G. Kim, Query type classiflcation for web document retrieval. In Proceedings of ACM SIGIR’03, 2003. [53] A. Kathuria, B. J. Jansen, C. Hafernik, and A. Spink. Classifying the user intent of web queries using k-means clustering. The Emeral Group Journal. 20(5):563–581, 2010. [54] G. Khodabandelou. Mining Intentional Process Models. Ph.D Thesis, 2014. [55] J.K. Kim, G. Tur, A. Celikyilmaz, B. Cao and Y.Y. Wang, Intent detec- tion using semantically enriched word embeddings, In Proc. of SLT Work- shop, IEEE, 2016. Tài liệu tham khảo 155 [56] Y. Kim, Convolutional neural networks for sentence classification. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 1746–1751, 2014. [57] H. Kimura, M. Tokuhisa, K. Mera, K. Kai and N. Okada, Comprehension of Intentions and Planning for Response in Dialogue. Technical Report of IEICE, TL98-15, pp.25–32, 1998. [58] J. Kiseleva, H.T. Lam, M. Pechenizkiy and T. Calders, Predicting current user intent with contextual markov models. In 2013 IEEE 13th Internatio- nal Conference on Data Mining Workshops, pp.391–398. IEEE, 2013. [59] Z. Kozareva, Q. Li, K. Zhai and W. Guo, Recognizing Salient Entities in Shopping Queries. In Proceedings of the 54th Annual Meeting of the As- sociation for Computational Linguistics, Volume 2: Short Papers, pp.107– 111, 2016. [60] M. Kroll and M. Strohmaier. Analyzing human intentions in natural language text. In: The K–CAP, 2009. [61] J. Lafferty, M. Andrew, and P. Fernando. Conditional random fields: probabilistic models for segmenting and labeling sequence data. In Proc. of ICML, 2001. [62] G. Lample, M. Ballesteros, S. Subramanian, K. Kawakami and C. Dyer, Neural architectures for named entity recognition. arXiv:1603.01360, 2016. [63] U. Lee, Z. Liu and J. Cho, Automatic identification of user goals in web search. In: The WWW, 2005. [64] N. Labidi, T. Chaari and R. Bouaziz, An NLP-Based Ontology Popula- tion for Intentional Structure. In International Conference on Intelligent Systems Design and Applications, pp. 900–910. Springer, Cham, 2016. [65] N. Labidi, T. Chaari and R. Bouaziz, Linguistic Rules for Ontology Po- pulation from Customer Request. In Transactions on Computational Col- lective Intelligence XXX, pp. 72–92. Springer, Cham, 2018. [66] X. Li, W. Ye-Yi, and A. Alex, Learning query intent from regularized click graphs, in Proc. of SIGIR, 2008. [67] X. Li, Understanding the semantic structure of noun phrase queries. In: ACL 2010. [68] W. Ling, T. Luis, L. Marujo, R.F. Astudillo, S. Amir, C. Dyer, A.W. Black, and I. Trancoso, Finding function in form: compositional character models for open vocabulary word representation, arXiv:1508.02096, 2015. [69] D. Liu and J. Nocedal. On the limited memory BFGS method for large- scale optimization. Mathematical Programming, 45:503–528, 1989. Tài liệu tham khảo 156 [70] T. Mikolov, K. Chen, G. Corrado, and J. Dean, Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 2013. [71] X.B. Ngo, C.L. Le and M.Ph. Tu, Cross-Domain Intention Detection in Discussion Forums. In Proceedings of the Eighth International Sympo- sium on Information and Communication Technology (SoICT), pp. 173– 180, 2017. [72] T.H. Nguyen, Deep learning for Information Extraction. Phd Thesis, New York University, 2017. [73] N. Nguyen and Y. Guo, Comparisons of sequence labeling algorithms and extensions, In Proceedings of the 24th ICML, pp. 681–688, 2007. [74] H.N Nguyen, Tr.Th Nguyen and Qu.Th Ha, Giáo trình Khai phá dữ liệu. NXB Đại học Quốc gia Hà nội, 2013. [75] K. Nigam, J. Lafferty and A. McCallum, Using maximum entropy for text classification. In: IJCAI Workshop on Machine Learn. for Info. Filtering, pp.61–69, 1999. [76] G.H. Nobari and T.S. Chua, User intent identification from online dis- cussions using a joint aspect-action topic model, In Proc.of AAAI, 2014. [77] L. Pearl and M. Steyvers, Identifying emotions, intentions, and attitudes in text using a game with a purpose. In Proceedings of the naacl hlt 2010 workshop on computational approaches to analysis and generation of emo- tion in text, pp. 71–79. Association for Computational Linguistics, 2010. [78] J. Pennington, R. Socher and C. Manning, Glove: Global vectors for word representation. In Proceedings of the EMNLP, pp. 1532–1543, 2014. [79] N. Peng and M. Dredze, Named entity recognition for chinese social me- dia with jointly trained embeddings. In Proceedings of EMNLP, pp.548– 554, 2015. [80] X.H. Phan, L.M. Nguyen and C.T. Nguyen, Flexible conditional random fields, 2004. [81] H. Purohit, G. Dong, V. Shalin, K. Thirunarayan and A. Shethet, Intent classification of short-text on social media. IEEE International Conference on. IEEE, 2015. [82] F. Radlinski, M. Szummer and N. Craswell, Inferring query intent from reformulations and clicks. In Proceedings of the 19th international confe- rence on World wide web, pp. 1171–1172. ACM, 2010. [83] X. Ren, Y. Wang, X. Yu, J. Yan, Z. Chen and J. Han, Heterogeneous graph-based intent learning with queries, web pages and wikipedia concepts, In Proc. of ICWSDM, 2014. Tài liệu tham khảo 157 [84] B.Y. Ricardo, C.B. Liliana and G.C. Cristina, The intention behind web queries. In: The 13th Conference on String Processing and Information Retrieval (SPIRE), 2006. [85] R. Scheer, The ‘Mental State’ Theory of Intentions. Philosophy, null, pp. 121–131, 2004. [86] D. E. Rose, and D. Levinson, Understanding user goals in web search. In: The WWW Proceeding, 2004. [87] S. Ruder and B. Plank, Strong baselines for neural semi-supervised lear- ning under domain shift. arXiv preprint arXiv:1804.09530, 2018. [88] S. Ruder, Neural Transfer Learning for Natural Language Processing. Phd Thesis, National University of Ireland, 2019. [89] D.E. Rumelhart, G.E. Hinton and R.J. Williams, Learning representa- tions by back-propagating errors. Nature, 323(6088):533, 1986. [90] C.F. Schmidt, N.S. Sridharan and J.L. Goodson, The plan recognition problem: an intersection of psychology and artificial intelligence. Artif In- tell; 11:45–83, 1978. [91] Y. Shen, J. Yan, S. Yan, L. Ji, N. Liu and Z. Chen, Sparse hidden– dynamic conditional random fields for user intent understanding. In: The WWW, 2011. [92] Y. Shang, Studies on User Intent Analysis and Mining, Phd thesis, 2017. [93] H. J. Song and S. B. Park, Identifying intention posts in discussion fo- rums using multi-instance learning and multiple sources transfer learning. Soft Computing, 22(24), pp. 8107–8118, 2018. [94] M. Speretta and S. Gauch, Personalizing search based on user search history, 2004. [95] G. Sukthankar, R.P. Goldman, C. Geib, D.V. Pynadath and H.H. Bui, Plan, Activity, and Intent Recognition Theory and Practice. Elsevier Inc, 2014. [96] G. Vinodhini and R.M. Chandrasekaran, Sentiment analysis and opinion mining: a survey. International Journal, 2(6):282–292, 2012. [97] J. Wang, G. Cong, W.X. Zhao and X. Li, Mining user intents in Twitter: a semi-supervised approach to inferring intent categories for tweets. In Proc. of AAAI, 2015. [98] C.Y. Wu, A. Ahmed, G.R Kumar, and R. Datta, Predicting Latent Struc- tured Intents from Shopping Queries. In Proceedings of the 26th Interna- tional Conference onWorldWideWeb, pp.1133–1141. International World Wide Web Conferences Steering Committee, 2017. Tài liệu tham khảo 158 [99] J. Xu, Q. Zhang and X. Huang, Understanding the semantic intent of domain-specific natural language query. In Proc. of IJCNLP, 2013. [100] K. Yao, G. Zweig and B. Peng, Attention with intention for a neural network conversation model. arXiv preprint arXiv:1510.08565, 2015. [101] H. Yang and Y. Li, Identifying user needs from social media. IBM Re- search Division, San Jose, 11, 2013. [102] K. Zhai, Z. Kozareva, Y. Hu, Q. Li and W. Guo, Query to Knowledge: Unsupervised Entity Extraction from Shopping Queries using Adaptor Grammars. In Proceedings of the 39th International ACM SIGIR confe- rence on Research and Development in Information Retrieval, pp.255–264, 2016. [103] C. Zhang, W. Fan, N. Du and P.S. Yu, Mining user intentions from medical queries: A neural network based heterogeneous jointly modeling approach. In Proceedings of the 25th International Conference on World Wide Web, pp. 1373–1384, 2016. [104] C. Zhang, N. Du, W. Fan, Y. Li, C.T. Lu, and S.Y. Philip, Bringing semantic structures to user intent detection in online medical queries. In 2017 IEEE International Conference on Big Data (Big Data), pp.1019– 1026. IEEE, 2017. [105] Z.H. Zhou and M. Li, Tri-training: Exploiting unlabeled data using three classifiers, IEEE Transactions on Knowledge & Data Engineering vol.11, pp.1529–1541, 2005. PHỤ LỤC Bảng 5.13: Ví dụ gán nhãn cho miền Bất động sản (BĐS) Nhãn BĐS Viết tắt Mô tả ví dụ dữ liệu intent int mua, bán, cho thuê.. acreage acr 100 m2, 30 × 12 m, 100 mét vuông... brand brd VinGroup, Ciputra, Novaland... contact ctt 0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn context ctx ra nước ngoài định cư, kẹt tiền, (bán) gấp, ... description of object obj-des (đất) thổ cư, (đất) nông nghiệp, (nhà) tái định cư,...) equipment eqm tủ lạnh, điều hòa, máy giặt,... facade direction face-dir Đông Nam, Bắc, Đông,... facade size face-size (mặt tiền rộng) 4.2m, (mặt tiền đường nhựa) 8m location loc (ở) Hà Nội, (tại) Đà Nẵng, ngõ 106 Hoàng Quốc Việt,... number of bedrooms bed-num 4 (phỏng ngủ), 3 (PN), 1 (p.ngủ),... number of bathrooms bath-num 3 (wc), 2 (phòng tắm), 2 (toilet)... number of facades face-num 1 (mặt tiền), 2 (mặt tiền), 3 (mặt tiền)... number of floors fnum 1 (tầng), 2 (tầng), 3 (tầng),... number of objects obj-num ba (mảnh đất), 2 (căn hộ),... object obj nhà, mảnh đất, căn hộ,... owner own Chính chủ price prc 8 triệu, 22 triệu, 10 triệu/tháng, 159 Phụ lục 160 Bảng 5.14: Ví dụ gán nhãn cho miền Du lịch Nhãn Du lịch Viết tắt Mô tả ví dụ dữ liệu intent int đi du lịch, đặt (phòng),... brand brd Vietnam Airlines, VietTran, FLC... contact ctt 0911856500, 0902.792.752, nguyenvana 79@yahoo.com.vn context ctx nghỉ tuần trăng mật, đang có bầu, có em nhỏ đi cùng... description of object obj-des có bể bơi, tầm nhìn hướng ra biển,... destination dest (về) Mũi Né, (đi) Nha Trang,... name of accommodation accom-name Sealink, Sunwah, Ana Mandara,... number of Objects obj-num 2 (phòng), 3 (vé),... number of People ppl-num 2 vợ chồng, 8 người lớn 3 trẻ em, nhóm mình, công ty,... object obj phòng (khách sạn), vé (máy bay), tour... point of departure dpt (từ) Hà Nội, (từ) SG,... point of time time-pnt ngày 14-3, tháng sau, thứ tư tuần sau, từ 10/5, đến 13/5,... price prc 50tr/ng, 2 triệu một đêm,... time period time-prd 3 ngày, 1 tuần, 2 ngày 1 đêm,... transport trp đường bộ, xe máy, máy bay, tàu hỏa,... Phụ lục 161 Bảng 5.15: Ví dụ gán nhãn cho miền Xe cộ Nhãn Xe cộ Viết tắt Mô tả ví dụ dữ liệu intent int mua, thuê, bán, thanh lý,... brand brd Yamaha, Honda, Suzuki,... color clr đỏ đen, trắng, xanh ngọc,... contact ctt 0167 bốn 361 hai chín chín, 0976.543.167,... context ctx cần tiền, không có nhu cầu sử dụng, muốn thay xe... description of object obj-des bô 2543, số khung,...) location loc (tại) Hà Nội, Quảng Ninh, (ở) Sài Gòn license plate lpe (biển) tứ quý, (biển) 29E1-40671, 30F1 40646,... model mdl corola 1.6, wave rsx,... number of objects obj-num 1 (xe máy), hai (ô tô), một, object obj xe, xe máy, xe đạp, ô tô, xe ô tô,... origin orig Nhật, Thái, Việt Nam, liên doanh, nhập khẩu... owner own chính chủ, một chủ, cc (chính chủ), 9 chủ price prc đ10, 000, 000; 15tr; 20 triệu; 3 (đến) 5 triệu,... registration reg Giấy tờ đầy đủ, không giấy tờ, kgt, k giấy registration Year reg-year (đk) 2016, (đăng kí) 2014, (dk) đầu 2013, (đăng kí) 95,... state stt mới hoàn toàn, mới 90%...

Các file đính kèm theo tài liệu này:

  • pdfluan_an_phan_tich_y_dinh_tu_van_ban_ngan_truc_tuyen_tieng_vi.pdf