ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
PHẠM ĐỨC HỒNG
PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO
PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH
LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH
Hà Nội - 2019
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
———————
PHẠM ĐỨC HỒNG
PHÁT TRIỂN CÁC MÔ HÌNH DỰA TRÊN MẠNG NƠ-RON CHO
PHÂN TÍCH QUAN ĐIỂM THEO KHÍA CẠNH
Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01
LUẬN ÁN TIẾN SĨ NGÀNH KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.
136 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 518 | Lượt tải: 0
Tóm tắt tài liệu Luận án Phát triển các mô hình dựa trên mạng Nơ - Ron cho phân tích quan điểm theo khía cạnh, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TS. Lê Anh Cường
Hà Nội - 2019
LỜI CẢM ƠN
Luận án tiến sĩ ngành Khoa học Máy tính này được Chính phủ Việt Nam hỗ trợ một
phần kinh phí thông qua Đề án 911 và được thực hiện tại Bộ môn Khoa học máy tính,
Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội dưới
sự hỗ trợ về mặt thủ tục của Phòng Tài chính kế toán, Trường Đại học Công nghệ. Bên
cạnh đó còn có sự hỗ trợ kinh phí đối với các công bố có chỉ số SCIE, SCI của Trường
Đại học Điện lực và của đề tài NAFOSTED, mã số 102.01-2014.22 thuộc Quỹ Phát
triển khoa học và công nghệ Quốc gia. Tôi xin chân thành cảm ơn các đơn vị, tổ chức
này đã giúp đỡ tôi trong thời gian nghiên cứu.
Luận án còn có sự hợp tác và hỗ trợ của các cá nhân, những người đã đóng góp rất
nhiều trong quá trình hoàn thành các vấn đề nghiên cứu của luận án. Trước hết tôi xin
chân thành cảm ơn PGS.TS. Lê Anh Cường đã trực tiếp hướng dẫn, giúp đỡ luôn sẵn
lòng và tạo mọi điều kiện thuận lợi nhất cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn chân thành tới PGS.TS. Hoàng Xuân Huấn, PGS.TS. Phan Xuân
Hiếu, TS. Nguyễn Văn Vinh, TS. Lê Nguyên Khôi, TS. Nguyễn Bá Đạt, TS. Nguyễn Thị
Ngọc Điệp (Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội), PGS.TS. Lê Thanh
Hương (Trường Đại học Bách khoa Hà Nội), TS. Nguyễn Thị Minh Huyền (Trường Đại
học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội), PGS. TS. Trần Đăng Hưng (Trường
Đại học Sư Phạm Hà Nội), TS. Đặng Thị Thu Hiền (Trường Đại học Thủy lợi) vì sự góp
ý rất chân thành và thẳng thắn, giúp cho luận án của tôi được hoàn thiện tốt hơn.
Tôi biết ơn chân thành đối với PGS.TS. Nguyễn Lê Minh (Viện Khoa học công nghệ
Tiên tiến Nhật Bản), TS. Trần Quốc Long (Trường Đại học Công nghệ, Đại học Quốc
gia Hà Nội). Hai thầy đã trực tiếp giảng dạy, chia sẻ cho tôi nhiều hiểu biết liên quan
đến nội dung nghiên cứu.
Tôi xin gửi lời cảm ơn đến tất cả anh, chị, em và bạn bè đồng nghiệp, nghiên cứu
sinh ở Bộ môn Khoa học máy tính, Khoa Công nghệ thông tin, Trường Đại học Công
nghệ, Đại học Quốc gia Hà Nội đã giúp đỡ tôi hoàn thành các kế hoạch và thủ tục hành
chính trong thời gian làm nghiên cứu sinh. Tôi cũng muốn cảm ơn đến anh/chị/em đồng
nghiệp, giảng viên khoa Công nghệ Thông tin, Trường Đại học Điện lực đã luôn cổ vũ
động viên và sát cánh bên tôi trong suốt quá trình nghiên cứu.
Cuối cùng, tôi muốn nói lời cảm ơn đặc biệt tới vợ tôi Lê Thị Kim Chung, và con
trai tôi Phạm Công Phúc đã dành cho tôi tình yêu và sự cảm thông, cho phép tôi dành
nhiều thời gian, tập trung cho công việc nghiên cứu. Tôi hết lòng biết ơn bố mẹ tôi về
tình yêu và sự cống hiến to lớn để tôi trưởng thành như ngày hôm nay, cảm ơn các anh,
chị, em của tôi về tình yêu gia đình và sự quan tâm giúp đỡ của họ cho công việc này.
LỜI CAM ĐOAN
Tôi xin cam đoan luận án này là kết quả nghiên cứu của tôi, được thực hiện dưới sự
hướng dẫn của PGS.TS. Lê Anh Cường. Các nội dung trích dẫn từ các nghiên cứu của
các tác giả khác mà tôi trình bày trong luận án này đã được ghi rõ nguồn trong phần tài
liệu tham khảo.
Phạm Đức Hồng
ii
Mục lục
Lời cảm ơn i
Lời cam đoan ii
Mục lục iii
Danh mục các chữ viết tắt vii
Danh mục các bảng ix
Danh mục các hình vẽ xi
Lời mở đầu 1
1 Tổng quan vấn đề nghiên cứu 5
1.1 Giới thiệu bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Các bài toán trong phân tích quan điểm . . . . . . . . . . . . . . . . . 6
1.2.1 Tổng quan một hệ thống phân tích quan điểm . . . . . . . . . . 6
1.2.2 Phân tích quan điểm cho toàn bộ văn bản . . . . . . . . . . . . 8
1.2.3 Phân tích quan điểm theo khía cạnh . . . . . . . . . . . . . . . 8
1.2.4 Các bài toán trong phân tích quan điểm theo khía cạnh . . . . . 8
1.3 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Trích xuất từ thể hiện khía cạnh . . . . . . . . . . . . . . . . . 10
1.3.2 Xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Phân đoạn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.4 Phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . . 12
iii
1.3.5 Xếp hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 12
1.3.6 Xác định hạng và trọng số khía cạnh ẩn . . . . . . . . . . . . . 13
1.4 Các tiếp cận giải quyết bài toán . . . . . . . . . . . . . . . . . . . . . . 14
1.5 Nghiên cứu trên thế giới và Việt nam . . . . . . . . . . . . . . . . . . . 15
1.6 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2 Kiến thức cơ sở 18
2.1 Các ký hiệu và khái niệm liên quan . . . . . . . . . . . . . . . . . . . . 18
2.2 Các mô hình học máy cơ sở cho phân tích quan điểm theo khía cạnh . . 21
2.2.1 Mô hình hồi quy đánh giá ẩn . . . . . . . . . . . . . . . . . . . 21
2.2.2 Thuật toán xác suất xếp hạng khía cạnh . . . . . . . . . . . . . 22
2.3 Các mô hình học biểu diễn mức từ, câu, đoạn/văn bản . . . . . . . . . . 25
2.3.1 Mô hình Word2Vec . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2 Mô hình GloVe . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.3.3 Mô hình véc-tơ Paragraph . . . . . . . . . . . . . . . . . . . . 27
2.3.4 Mô hình mạng nơ-ron tích chập CNN . . . . . . . . . . . . . . 30
2.3.5 Mô hình véc-tơ kết hợp . . . . . . . . . . . . . . . . . . . . . . 33
2.4 Kết luận và thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3 Đề xuất mô hình dựa trên mạng nơ-ron xác định hạng và trọng số khía cạnh
của thực thể 35
3.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.2 Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.2.1 Bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể . . 36
3.2.2 Bài toán xác định trọng số khía cạnh chung của các thực thể . . 37
3.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.3.1 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng
mô hình mạng nơ-ron một lớp ẩn . . . . . . . . . . . . . . . . . 38
3.3.2 Xác định hạng và trọng số khía cạnh ẩn của thực thể sử dụng
mô hình học biểu diễn đa tầng . . . . . . . . . . . . . . . . . . 45
iv
3.3.3 Xác định trọng số khía cạnh chung của thực thể sử dụng mô
hình mạng nơ-ron . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.4.1 Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4.2 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 58
3.4.3 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . 59
3.4.4 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.4.5 Hiệu quả của các tham số trong mô hình LRNN-ASR . . . . . . 63
3.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4 Học véc-tơ biểu diễn từ cho phân tích quan điểm theo khía cạnh 68
4.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2 Mô hình hóa bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
4.2.1 Bài toán tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . . 70
4.2.2 Bài toán học véc-tơ biểu diễn từ . . . . . . . . . . . . . . . . . 71
4.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.3.1 Mô hình tinh chỉnh véc-tơ biểu diễn từ . . . . . . . . . . . . . . 72
4.3.2 Mô hình học véc-tơ biểu diễn từ SSCWE . . . . . . . . . . . . 77
4.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.4.1 Dữ liệu thực nghiệm và các độ đo . . . . . . . . . . . . . . . . 82
4.4.2 Các độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.5 Cài đặt và đánh giá mô hình tinh chỉnh véc-tơ từ WEFT . . . . . . . . . 83
4.5.1 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.5.2 Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.6 Cài đặt và đánh giá mô hình SSCWE . . . . . . . . . . . . . . . . . . . 85
4.6.1 Cài đặt mô hình . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.6.2 Đánh giá mô hình . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.6.3 So sánh hai mô hình WEFT và SSCWE . . . . . . . . . . . . . 88
4.7 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
v
5 Mô hình đa kênh dựa trên CNN nhằm khai thác đa véc-tơ biểu diễn từ và
ký tự cho phân tích quan điểm theo khía cạnh 91
5.1 Giới thiệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.2 Mô tả bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
5.3 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.1 Thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . . 94
5.3.2 Mô hình mạng nơ-ron tích chập đa kênh cho phân tích quan
điểm theo khía cạnh . . . . . . . . . . . . . . . . . . . . . . . 95
5.4 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
5.4.1 Dữ liệu thực nghiệm và cài đặt mô hình MCNN . . . . . . . . . 100
5.4.2 Môi trường và thời gian thực nghiệm . . . . . . . . . . . . . . . 101
5.4.3 Đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.4.4 Hiệu quả của các loại tham số . . . . . . . . . . . . . . . . . . 105
5.5 Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
Kết luận 110
Danh mục công trình khoa học của tác giả liên quan đến luận án 112
Tài liệu tham khảo 113
vi
Danh mục các chữ viết tắt
LRNN Latent Rating Neural Network (Mạng nơ-ron đánh giá ẩn)
LRR Latent Rating Regression (Hồi quy đánh giá ẩn)
ASR Aspect Semantic Representation (Biểu diễn ngữ nghĩa khía cạnh)
NNAWs Neural Network AspectWeights (Mạng nơ-ron trọng số khía cạnh)
CNN Convolutional Neural Network (Mạng nơ-ron tích chập)
MCNN Multichannel Convolutional Neural Network (Mạng nơ-ron đa kênh tích chập)
NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên)
POS Part Of Speech (Nhãn từ loại)
SVM Support VectorMachine (Máy véc-tơ hỗ trợ)
vii
Danh sách bảng
3.1 Các từ hạt nhân được lựa chọn cho thuật toán phân đoạn khía cạnh . . . 55
3.2 Thống kế dữ liệu thực nghiệm . . . . . . . . . . . . . . . . . . . . . . 55
3.3 Kết quả dự đoán hạng của 5 khách sạn . . . . . . . . . . . . . . . . . . 59
3.4 Kết quả xác định trọng số khía cạnh của 5 khách sạn . . . . . . . . . . 59
3.5 So sánh mô hình LRNN với phương pháp LRR trong bốn trường hợp
biểu diễn khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Top 10 từ có trọng số tích cực và tiêu cực của từng khía cạnh . . . . . . 61
3.7 Các kết quả thực nghiệm và so sánh các mô hình trong việc xác định
hạng khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.8 Kết quả so sánh chất lượng trọng số khía cạnh chung . . . . . . . . . . 63
3.9 Các kết quả thực nghiệm trên các trường hợp khởi tạo trọng số khía cạnh 64
3.10 Kết quả thực nghiệm mô hình đề xuất sử dụng trọng số khía cạnh chung
so với sử dụng riêng . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1 Thống kê tập dữ liệu thứ 2 . . . . . . . . . . . . . . . . . . . . . . . . 82
4.2 Kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . 84
4.3 Kết quả phân loại quan điểm theo khía cạnh . . . . . . . . . . . . . . . 84
4.4 Bốn từ gần ngữ nghĩa với từ đã cho đối với từng mô hình . . . . . . . . 85
4.5 Các kết quả xác định khía cạnh . . . . . . . . . . . . . . . . . . . . . . 87
4.6 Các kết quả phân loại quan điểm . . . . . . . . . . . . . . . . . . . . . 87
4.7 Năm từ gần ngữ nghĩa với từ đã cho đối với từng mô hình . . . . . . . . 88
4.8 So sánh kết quả phân loại quan điểm giữa mô hình WEFT và SSCWE . 89
4.9 So sánh thời gian thực hiện giữa mô hình WEFT và SSCWE . . . . . . 90
5.1 Thống kê số lượng câu được sử dụng trong thực nghiệm . . . . . . . . . 100
viii
5.2 Bảng từ điển các ký tự tiếng Anh . . . . . . . . . . . . . . . . . . . . . 100
5.3 Kết quả xác định khía cạnh của mô hình MCNN và các mô hình cơ sở . 104
5.4 Kết quả dự đoán phân loại quan điểm theo khía canh của mô hình
MCNN và các mô hình cơ sở . . . . . . . . . . . . . . . . . . . . . . . 105
5.5 Các từ gần nhau được xác định bằng véc-tơ biểu diễn từ trong kênh CNN3106
5.6 So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mô hình
MCNN đối với cộng việc xác định khía cạnh . . . . . . . . . . . . . . . 106
5.7 So sánh kết quả, thời gian sử dụng kỹ thuật dropout trong mô hình
MCNN đối với công việc phân loại quan điểm khía cạnh . . . . . . . . 106
5.8 Kết quả xác định khía cạnh của mô hình MCNN với các mức lựa chọn
số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107
5.9 Kết quả phân loại quan điểm của mô hình MCNN với các mức lựa chọn
số chiều véc-tơ ký tự nhúng khác nhau . . . . . . . . . . . . . . . . . . 107
5.10 Kết quả xác định khía cạnh của mô hình MCNN khi sử dụng số lượng
bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
5.11 Kết quả phân loại quan điểm của mô hình MCNN khi sử dụng số lượng
bộ lọc khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
ix
Danh sách hình vẽ
1.1 Kiến trúc tổng quan của hệ thống phân tích quan điểm . . . . . . . . . . 7
2.1 Ví dụ một ý kiến khách hàng thể hiện quan điểm về dịch vụ khách sạn
Vinpearl Phu Quoc Resort . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Ví dụ về Hạng chung của sản phẩm iPhone X 64GB . . . . . . . . . . . 20
2.3 Mô hình hồi quy đánh giá khía cạnh ẩn [1] . . . . . . . . . . . . . . . . 22
2.4 Mô hình Word2Vec với hai kiến trúc CBOW và Skip-gram . . . . . . . 25
2.5 Mô hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2] . 28
2.6 Minh họa mô hình túi từ phân phối của các véc-tơ Paragraph [2] . . . . 29
2.7 Minh họa tích chập trong ma trận câu . . . . . . . . . . . . . . . . . . 31
2.8 Minh họa mô hình phân lớp câu sử dụng mạng CNN [3] . . . . . . . . . 32
2.9 Minh họa việc sử dung mô hình véc-tơ kết hợp cho biểu diễn mức câu . 34
3.1 Ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh ẩn . 37
3.2 Ví dụ: đầu vào, đầu ra của toán xác định trọng số khía cạnh chung . . . 38
3.3 Các công việc cần giải quyết của bài toán xác định hạng và trọng số
khía cạnh ẩn của thực thể . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.4 Minh họa mô hình mạng nơ-ron LRNN xếp hạng ẩn . . . . . . . . . . . 41
3.5 Các công việc cần giải quyết của bài toán xác định hạng, trọng số khía
cạnh ẩn sử dụng mô hình học biểu diễn đa tầng . . . . . . . . . . . . . 45
3.6 Minh họa mô hình học biểu diễn đa tầng cho phân tích quan điểm theo
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.7 Minh họa mô hình xác định hạng khía cạnh chung . . . . . . . . . . . . 52
3.8 Quy trình thực nghiệm, đánh giá mô hình LRNN . . . . . . . . . . . . 56
3.9 Quy trình thực nghiệm, đánh giá mô hình LRNN-ASR . . . . . . . . . 56
x
3.10 Quy trình thực nghiệm, đánh giá mô hình NNAWs . . . . . . . . . . . . 57
3.11 Mô hình FULL-LRNN-ASR thực hiện với các giá trị khác nhau của
trọng số γ và β (β + γ = 1) trên độ đo Preview . . . . . . . . . . . . . . 63
3.12 Mô hình FULL-LRNN-ASR thực hiện với số chiều véc-tơ biểu diễn từ
khác nhau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
3.13 Kết quả xác định trọng số khía cạnh chung của dịch vụ khách sạn . . . . 65
4.1 Mô tả đầu vào và đầu ra của của bài toán tính chỉnh véc-tơ biểu diễn từ . 71
4.2 Mô tả đầu vào và đầu ra của của bài toán học véc-tơ biểu diễn từ . . . . 72
4.3 Minh họa mô hình tinh chỉnh véc-tơ biểu diễn từ WEFT . . . . . . . . . 73
4.4 Minh họa thành phần nhúng ngữ nghĩa của véc-tơ biểu diễn từ sử dụng
mô hình CBOW . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.5 Minh họa thành phần nhúng thông khía cạnh và quan điểm theo khía cạnh 79
4.6 Hiệu quả của số chiều véc-tơ từ trong công việc dự đoán quan điểm khía
cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.1 Mô tả đầu vào, đầu ra của công việc khai thác đa véc-tơ biểu diễn từ,
biểu diễn ký tự cho phân tích quan điểm theo khía cạnh . . . . . . . . . 93
5.2 Minh họa thành phần tích chập . . . . . . . . . . . . . . . . . . . . . . 94
5.3 Mô hình mạng nơ-ron tích chập đa kênh MCNN cho công việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
5.4 Minh họa mô hình lai CNN1 + CNN2 + CNN3 cho công việc xác định
khía cạnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
5.5 Hiệu quả của mô hình MCNN với các kích cỡ mini-batching từ 10 đến
100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
xi
Mở đầu
1. Tính cấp thiết của luận án
Dữ liệu đánh giá về các sản phẩm, dịch vụ và sự kiện xã hội trên các hệ thống tin tức
và thương mại trực tuyến ngày càng đa dạng, phong phú. Dữ liệu này bao gồm các bài
bình luận, các bài viết chứa ý kiến đánh giá về các sản phẩm, dịch vụ, sự kiện của người
sử dụng mạng tạo ra trong quá trình sử dụng hệ thống. Sự bùng nổ của các trang Web
thương mại trực tuyến, các trang tin tức, các diễn đàn, các mạng xã hội đã dẫn đến số
lượng các bài viết chứa ý kiến ngày càng nhiều và được cập nhật liên tục. Nguồn thông
tin này thực sự hữu ích, giúp các công ty, tổ chức nắm bắt thông tin khách hàng một cách
kịp thời để cải tiến sản phẩm, nâng cấp dịch vụ; giúp khảo sát quan điểm mọi người về
các sự kiện, hiện tượng xã hội; hỗ trợ tích cực trong việc quản trị thương hiệu. Với số
lượng thông tin rất lớn và cập nhật liên tục thì nhu cầu về xây dựng một hệ thống phân
tích và tổng hợp quan điểm tự động trở nên cấp thiết và đóng một vai trò quan trọng
trong các hệ thống khai thác dữ liệu và khai phá tri thức.
Các nghiên cứu ban đầu về khai phá và phân tích quan điểm (opinion mining and
sentiment analysis) tập trung vào đánh giá toàn bộ bài viết, xem một bài viết về tổng thể
chứa quan điểm tích cực, tiêu cực, hay trung lập. Trong thực tế khách hàng thường bày
tỏ quan điểm về các khía cạnh khác nhau của thực thể (gọi chung cho sản phẩm, dịch
vụ, sự kiện,... được đánh giá), ví dụ như về khía cạnh giá cả, vị trí, nhân viên, phòng ốc
của một dịch vụ khách sạn. Các ý kiến hỗn hợp giữa tích cực và tiêu cực với nhiều cách
thể hiện phong phú là bản chất của ngôn ngữ tự nhiên. Vì vậy các nghiên cứu hiện tại
tập trung nhiều hơn vào phân tích quan điểm theo từng khía cạnh của thực thể (aspect
based sentiment analysis).
Tiếp cận chung của cộng đồng nghiên cứu để giải quyết bài toán phân tích quan điểm
là xác định các đặc trưng thể hiện quan điểm và ứng dụng các phương pháp học máy để
xây dựng mô hình dự đoán, phân loại quan điểm. Các mô hình học sâu (deep learning)
gần đây đã được nghiên cứu và đã chứng tỏ được sức mạnh trong lĩnh vực học máy và
ứng dụng, đồng thời đã được áp dụng hiệu quả nói chung trong xử lý ngôn ngữ tự nhiên
cũng như cụ thể trong bài toán khai phá và phân tích quan điểm. Tuy nhiên, các kết quả
nghiên cứu hiện tại vẫn còn hạn chế và gặp khó khăn trong việc xử lý biểu diễn dữ liệu,
học đặc trưng, mô hình hóa đa khía cạnh của thực thể và sự tương tác giữa các quan
điểm khác nhau.
Đề tài của luận án có nhiệm vụ giải quyết các vấn đề đang đặt ra trong bài toán phân
tích quan điểm theo khía cạnh. Chúng tôi tập trung vào bài toán phân tích quan điểm
theo khía cạnh dựa trên việc phát triển các mô hình học sâu nhằm đồng thời giải quyết
1
bài toán học biểu diễn (representation learning) và bài toán phân loại (classification).
2. Mục tiêu nghiên cứu của luận án
Mục tiêu của luận án là nghiên cứu các kỹ thuật, mô hình học biểu diễn cho mức từ,
mức câu, và mức văn bản. Đề xuất các mô hình mới và cải tiến các mô hình học biểu
diễn hiện có nhằm giải quyết các bài toán phân tích quan điểm theo khía cạnh. Hướng
đến giải quyết hai bài toán chính: (1) Bài toán xếp hạng và xác định trọng số khía cạnh
của thực thể (sản phẩm/dịch vụ); (2) Bài toán xây dựng các mô hình phân tích quan
điểm theo khía cạnh nhằm xác định khía cạnh cho từng câu đầu vào và phân loại quan
điểm theo khía cạnh tương ứng cho nó.
3. Phạm vi và phương pháp nghiên cứu của luận án
Phạm vi nghiên cứu bao gồm:
• Nghiên cứu, đề xuất các mô hình xếp hạng và xác định trọng số khía cạnh của
thực thể, tích hợp biểu diễn đa tầng ngữ nghĩa từ mức từ đến mức câu, mức đoạn,
mức khía cạnh đến mức cuối là tổng hợp quan điểm toàn bộ văn bản.
• Nghiên cứu, đề xuất các mô hình học biểu diễn mức từ cho phân tích quan điểm
theo khía cạnh. Các véc-tơ từ đạt được từ các mô hình đề xuất được đánh giá hiệu
quả thông qua hai bài toán: xác định khía cạnh và phân loại quan điểm theo khía
cạnh.
• Nghiên cứu, đề xuất mô hình phân tích quan điểm theo khía cạnh tích hợp thông
tin từ nhiều nguồn khác nhau. Cụ thể khai thác đồng thời đa véc-tơ biểu diễn từ
và véc-tơ biểu diễn ký tự.
Về phương pháp nghiên cứu, luận án nghiên cứu các mô hình dựa trên mạng nơ-ron
nhân tạo sử dụng các kỹ thuật học biểu diễn hiệu quả, phù hợp cho từng bài toán cụ thể.
Các mô hình đề xuất được thực nghiệm trên các tập dữ liệu thực tế. Các độ đo điển hình
cho tính hiệu quả của mô hình đề xuất cũng sẽ được lựa chọn trong đánh giá kết quả
thực nghiệm.
4. Đóng góp của luận án
Các đóng góp chính của luận án bao gồm:
• Chúng tôi đề xuất mô hình học biểu diễn đa tầng cho bài toán xác định hạng khía
cạnh và trọng số khía cạnh ẩn. Phương pháp đề xuất đã mô hình hóa được tính
phân cấp trong biểu diễn dữ liệu và sự kết nối và chia sẻ thông tin nhằm đưa
đến khả năng dự đoán đồng thời hạng khía cạnh và trọng số (mức độ quan trọng)
tương ứng với khía cạnh đó. Với đề xuất này chúng tôi đã công bố một bài báo
trong tạp chí ISI-SCIE: Data and Knowledge Engineering (DKE) năm 2018.
2
• Để khai thác hiệu quả sự kết hợp nhiều nguồn thông tin khác nhau chúng tôi
đề xuất mô hình tích hợp thông tin dựa trên mạng đa kênh CNN (Convolutional
Neural Network). Các nguồn thông tin khác nhau được đồng thời sử dụng bao gồm
các mô hình Word2Vec khác nhau và mô hình Character2Vec. Các nguồn thông
tin được tích hợp một cách hiệu quả thông qua các tầng CNN và kết hợp giữa
các tầng CNN. Đề xuất này đã được công bố trong tạp chí ISI-SCI: International
Journal of Approximate Reasoning năm 2018.
• Chúng tôi đề xuất mô hình học biểu diễn từ có giám sát cho bài toán phân tích
quan điểm, nhằm khắc phục điểm yếu của các mô hình học biểu diễn từ không
giám sát. Đề xuất này giúp cho các véc-tơ biểu diễn từ chứa nhiều thông tin có
ích cho bài toán phân tích quan điểm, bao gồm: ngữ nghĩa, khía cạnh và quan
điểm. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc tế Text, Speech,
and Dialogue (TSD) năm 2017, và trong kỷ yếu hội nghị quốc tế the Pacific
Association for Computational Linguistics (PACLING) năm 2017.
Bên cạnh các đóng góp chính, chúng tôi còn đề xuất mô hình mạng nơ-ron một lớp ẩn,
sử dụng các biểu diễn khía cạnh được học từ mô hình Pragraph cho bài toán xác định
hạng, trọng số khía cạnh ẩn. Đề xuất này đã được công bố trong kỷ yếu hội nghị quốc
tế Computational Social Network (CSoNet) năm 2016. Đồng thời, để khai thác thông
tin chung về mức độ quan trọng của các khía cạnh thực thể cho các nhà quản lý sản
phẩm/dịch vụ, chúng tôi đề xuất mô hình xác định trọng số khía cạnh chung. Kết quả
đã được công bố trong tạp chí Indian Journal of Science and Technology năm 2016.
5. Bố cục của luận án
Ngoài phần mở đầu và kết luận, luận án được tổ chức thành 5 chương phù hợp với
các công bố liên quan của luận án, với bố cục như sau:
• Chương 1. Giới thiệu tổng quan về các vấn đề nghiên cứu trong luận án. Luận
án phân tích, đánh giá chung các công trình nghiên cứu liên quan; nêu ra một số
vấn đề còn tồn tại mà luận án sẽ tập trung giải quyết.
• Chương 2. Trình bày các ký hiệu và khái niệm liên quan, các mô hình học máy
cơ sở được sử dụng trong công việc đánh giá khía cạnh của thực thể. Một số mô
hình học biểu diễn cơ sở cho mức từ, mức câu và mức đoạn/văn bản cũng sẽ được
trình bày.
• Chương 3. Trình bày nội dung, kết quả nghiên cứu hai mô hình xác định hạng và
trọng số khía cạnh ẩn của thực thể. Bên cạnh đó, mô hình xác định trọng số khía
cạnh chung cũng sẽ được trình bày.
3
• Chương 4. Trình bày nội dung, kết quả nghiên cứu hai mô hình học véc-tơ từ cho
phân tích quan điểm theo khía cạnh.
• Chương 5. Trình bày nội dung, kết quả nghiên cứu mô hình tích hợp nhiều nguồn
thông tin và ứng dụng trong khai thác đa véc-tơ biểu diễn từ và véc-tơ biểu diễn
ký tự cho phân tích quan điểm theo khía cạnh.
4
Chương 1
Tổng quan vấn đề nghiên cứu
Chương này trình bày tổng quan về các vấn đề nghiên cứu trong luận án, bao gồm:
giới thiệu chung về bài toán, kiến trúc chung của một hệ thống phân tích quan điểm; các
bài toán trong phân tích quan điểm theo khía cạnh; các nghiên cứu liên quan; các tiếp
cận; tình hình nghiên cứu trên thế giới và Việt Nam. Sau khi phân tích, đánh giá những
điểm còn tồn tại từ các nghiên cứu liên quan, phần thảo luận sẽ được trình bày, đưa ra
các bài toán mà luận án sẽ giải quyết. Lý do và động lực đề xuất mô hình cho mỗi bài
toán cũng sẽ được đưa ra.
1.1 Giới thiệu bài toán
Các ý kiến phản hồi của khách hàng đối với các sản phẩm, dịch vụ trực tuyến trên
mạng Internet là nguồn thông tin quan trọng đối với các doanh nghiệp bởi vì nó giúp
họ hiểu được điểm mạnh, điểm yếu trong sản phẩm, dịch vụ của mình, đồng thời nhanh
chóng nắm bắt được tâm lý và nhu cầu khách hàng để mang đến cho họ sản phẩm, dịch
vụ tốt hơn. Tuy nhiên với số lượng ý kiến rất lớn và cập nhật liên tục thì sẽ nảy sinh nhu
cầu xây dựng một hệ thống tự động để phân tích và khai phá quan điểm.
Mỗi ý kiến đánh giá thường bao gồm thông tin về các sản phẩm hay dịch vụ, các sự
kiện, sự việc, cơ quan tổ chức được đánh giá và quan điểm của người đánh giá đối với
các loại đối tượng này. Sau đây ta sẽ gọi chung các đối tượng được đánh giá là các thực
thể và khi cần sẽ đề cập riêng để nhấn mạnh thực thể chung hay là khía cạnh (aspect)
của thực thể. Quan điểm là các ý kiến chủ quan mà con người nói về các thực thể. Nhiệm
vụ của phân tích quan điểm là xác định thực thể cùng các khía cạnh của nó nhằm tính
toán quan điểm, đánh giá thái độ và cảm xúc của con người đối với thực thể cũng như
các khía cạnh (thuộc tính, thành phần) của thực thể.
Thông tin quan điểm đối với một thực thể cụ thể có vai trò rất quan trọng, bởi khi
5
chúng ta cần đưa ra một quyết định liên quan tới một thực thể nào đó, chúng ta thường
quan tâm tới ý kiến của người khác đối với thực thể đó, theo dạng như “Những người
khác đã nghĩ và đánh giá về thực thể đó như thế nào?”. Ví dụ khi chúng ta muốn mua
một chiếc điện thoại iPhone X 64GB chúng ta sẽ muốn tìm hiểu hoặc hỏi bạn bè và
người thân “Điện thoại iPhone X 64GB có tốt không? Hệ điều hành IOS của iPhone
thế nào? Camera quay video và chụp ảnh có đẹp không?..v.v”. Như vậy quan điểm của
người khác giúp các cá nhân có thêm thông tin trước khi quyết định một vấn đề. Ngoài
ra khi biết được thông tin quan điểm đối với một sản phẩm, dịch vụ từ các khách hàng
thì rõ ràng nó giúp mang lại các thông tin hữu ích cho các công ty, tổ chức thay đổi hoặc
cải tiến dòng sản phẩm, dịch vụ của mình. Bên cạnh đó thông tin quan điểm phân tích
được trên một cộng đồng dân chúng còn giúp các chính quyền nắm được hiểu quả của
các chính sách khi áp dụng trong xã hội.
1.2 Các bài toán trong phân tích quan điểm
1.2.1 Tổng quan một hệ thống phân tích quan điểm
Ngày nay đã có nhiều hệ thống phân tích quan điểm làm việc với những miền dữ
liệu khác nhau, như hệ thống Smcc1 của công ty InfoRe làm việc trên miền dữ liệu sản
phẩm điện thoại di động, hệ thống Vsocial 2 của công ty Tecapro làm việc trên miền dữ
liệu ngân hàng. Nhìn chung, mô hình biểu diễn kiến trúc chung của một hệ thống khai
phá và phân tích quan điểm được thể hiện như trong Hình 1.1. Xuất phát từ nguồn dữ
liệu đánh giá thực thể của người sử dụng trên các hệ thống như Amazon3, Tripadvisor4,
Youtube5, Thegioididong6. Hệ thống phân tích quan điểm làm việc với các nguồn dữ
liệu này, gồm các thành phần chính như sau:
1smcc.vn
2vsocial.vn
3www.amazon.com
4www.tripadvisor.com
5www.Youtube.com
6www.thegioididong.com
6
Hình 1.1: Kiến trúc tổng quan của hệ thống phân tích quan điểm
• Thu thập (crawler)
• Tiền xử lý (pre-processing)
• Trích chọn đặc trưng (feature extraction, data representation)
• Học máy (machine learning)
Thu thập: Là thành phần tự động lấy dữ liệu đánh giá của người dùng từ các hệ
thống trực tuyến (Web).
Tiền xử lý: Thành phần này có nhiệm vụ xử lý dữ liệu, gồm các công việc như: loại
bỏ từ dừng, chuẩn hóa các từ và dấu cách, tách từ. etc.
Trích chọn đặc trưng: Sử dụng kỹ thuật biểu diễn văn bản (ví dụ mô hình bag of
word) để biểu diễn các văn bản đầu vào thành các véc-tơ đặc trưng.
Học máy: Gồm có hai pha: huấn luyện, và dự đoán. Pha huấn luyện sử dụng tập dữ
liệu huấn luyện làm đầu vào và có nhiệm vụ học một mô hình dự đoán. Pha dự đoán có
nhiệm vụ tính toán để phân loại quan điểm cho các véc-tơ biểu diễn văn bản từ đầu vào.
7
1.2.2 Phân tích quan điểm cho toàn bộ văn bản
Phân tích quan điểm cho toàn bộ văn bản là bài toán cơ bản nhất trong phân tích quan
điểm. Cũng giống bài toán phân lớp văn bản thông thường. Cho trước một tập các văn
bản đánh giá sản phẩm, đối với từng văn bản đầu vào, bài toán yêu cầu tính điểm (phân
loại) quan điểm chung cho nó. Dựa trên điểm quan điểm đã đạt được, từng văn bản sau
đó được gán các nhãn quan điểm hoặc các hạng tương ứng. Các nhãn có thể được gán
như nhãn tích cực (Positive) hoặc tiêu cực (Negative) hoặc trung lập. Trong trường hợp
cần xếp hạng quan điểm cho văn bản thì hạng được gán cho văn bản là “1 sao” (có nghĩa
là rất tiêu cực) hoặc “2 sao” (tiêu cực mức trung bình) hoặc “3 sao” (trung lập) hoặc “4
sao” (tích cực) hoặc “5 sao” (rất tích cực).
Việc phân tích quan điểm theo loại bài toán này thường ở mức tài liệu và không quan
tâm tới vấn đề chi tiết hơn như người đánh g... Ai, xác nhận mức
độ quan trọng chung của khía cạnh Ai trên tập văn bản đánh giá D.
20
2.2 Các mô hình học máy cơ sở cho phân tích quan điểm
theo khía cạnh
2.2.1 Mô hình hồi quy đánh giá ẩn
Mô hình hồi quy đánh giá ẩn (Latent Rating Regression Model (LRR)) là một mô
hình xác suất được Wang và các cộng sự [1] đề xuất năm 2010, mô hình có khả năng
xác định hạng khía cạnh và trọng số khía cạnh ẩn cho từng thực thể (sản phẩm/dịch vụ)
từ một tập văn bản đánh giá cho trước.
Lấy D =
{
d1,d2, ...,d|D|
}
là một tập văn bản đánh giá của thực thể, hạng của khía
cạnh thứ i trong một văn bản đánh giá d ∈ D được tính bởi:
rdi =
n
∑
j=1
βi jWdi j (2.1)
với βi là véc-tơ trọng số phân cực của khía cạnh thứ i vàWdi là véc-tơ trọng số từ của
khía cạnh thứ i xuất hiện trong văn bản đánh giá d.
Hạng chung của văn bản d ∈ D được giả thiết sinh ra từ phân phối Gaussian với giá
trị trung bình (mean) là αTd sd và phương sai (variance) δ
2
Od ∼ N
(
k
∑
i=1
αdi
n
∑
j=1
βi jwdi j,δ 2
)
Trọng số αd của một khía cạnh được giả thiết là một phân phối αd ∼ N (µ,∑)
Xác suất phân phối của hạng chung Od của văn bản đánh giá d được tính bởi công
thức:
p(r|d) = p(Od|µ,∑,δ 2,β ,Wd)
=
∫
p(αd|µ,∑)p(Od|
k
∑
i=1
αdi
n
∑
j=1
βi jWdi j,δ 2)dαd
với rd vàWdi là dữ liệu quan sát được trong văn bản đánh giá d và Θ= (µ,∑,δ 2,β ) là
tham số của mô hình.
21
Hình 2.3: Mô hình hồi quy đánh giá khía cạnh ẩn [1]
Sử dụng mô hình LRR chúng ta xác định được hạng và trọng số khía cạnh ẩn của các
khía cạnh được thảo luận trong văn bản đánh giá d. Hạng khía cạnh rd được xác định
theo công thức 2.1. Hàm ước lượng tham số của mô hình LRR đối với văn bản đánh giá
d được định nghĩa bởi:
L(d) = logP(αd|µ,∑)p(rd|
k
∑
i=1
αdi
n
∑
j=1
βi jWdi j,δ 2)
Trọng số αd trong văn bản đánh giá d được xác định thông qua hàm
∧
αd = argmaxL(αd)
= argmax
[
− (rd−αTd sd)2δ 2 − 12(αd−µ)
2∑−1(αd−µ)
]
Xét trên một tập dữ liệu văn bản đánh giáD=
{
d1,d2, ...,d|D|
}
chúng ta có hàm mục
tiêu sau:
L(D) = ∑
d∈D
log p
(
Od|µ,∑,δ 2,β ,Wd
)
Để xác định được các tham số của mô hình chúng ta cần ước lượng hợp lý cực đại
(Maximum Likelihood Estimation) hàm sau:
∧
Θ= argmax
Θ
∑
d∈D
p
(
Od|µ,∑,δ 2,β ,Wd
)
2.2.2 Thuật toán xác suất xếp hạng khía cạnh
Thuật toán xếp hạng các khía cạnh theo mức độ quan trọng cho các khía cạnh từ một
tập ý kiến đánh giá sản phẩm được giới thiệu trong [26, 71]. Ý tưởng của thuật toán giả
thiết rằng các khía cạnh quan trọng có đặc điểm như sau: (a) Họ có tần xuất hiện nhiều
22
trong các ý kiến đánh giá của khách hàng. (b) Quan điểm của khách hàng trên các khía
cạnh ảnh hưởng đến đánh giá quan điểm chung trên sản phẩm.
Cho trước một tập ý kiến đánh giá D= {(rc,Oc)}|D|c=1, đối với ý kiến đánh giá c ∈ D,
hạng chungOc được giả thiết sinh ra từ phân phốiGaussian với giá trị trung bình (mean)
là αTc rc và phương sai (variance) σ2.
P(Oc) =
1√
2piσ2
exp
{
−(Oc−α
T
c rc)
2
2σ2
}
(2.2)
Để tính được αc, các tác giả đã giả thiết rằng αc được sinh ra từ phân phối Gaussian
p(αc) =
1
(2pi)k/2|∑|1/2
exp
{
−1
2
(αc−µ)T
−1
∑(αc−µ)
}
(2.3)
Với µ,∑ là véc-tơ trung bình và ma trận phương sai. Chúng chưa biết và cần phải được
ước lượng (học).
Như đã giới thiệu, các khía cạnh quan trọng thường được các khách hàng đề cập
trong các ý kiến đánh giá (reviews). Vì vậy, chúng ta khai thác tần suất xuất hiện của các
khía cạnh như là một thông tin quan sát được để học αc. Cụ thể chúng ta mong muốn
xác suất phân phối của N(µ,∑) gần với phân phối N(µ0, I). Từng thành phần trong µ0
được tính bằng xác suất xuất hiện của một khía cạnh cụ thể. Chúng ta xây dựng công
thức phân phối của N(µ,∑) dựa trên độ đo Kullback-Leibler (KL) divergence của nó
đối vớiN(µ0, I) theo công thức sau:
p(µ,∑) = exp
{−φ .KL(N(µ,∑)||N(µ0, I)} (2.4)
Dựa trên các công thức trên, xác suất hạng chung của văn bản đánh giá d như sau:
P(Oc|d) = P(Oc|αc,µ,∑,σ2) =
∫
P(Oc|αTc rc,σ2).p(αc|µ,∑).p(µ,∑)dαc (2.5)
Chúng ta cần xác định αc với {µ,∑,σ2} là tham số của mô hình và chúng được ước
lượng từ một tập ý kiến D = {c1,c2,...,c|D|}. Hàm đối tượng của ước lượng hợp lý cực
đại (Maximum Likelihood Estimation) đối với ý kiến c như sau:
L(αc) = logP(Oc|αTc rc,σ2)p(αc|µ,∑).p(µ,∑) (2.6)
L(αc) =− (Oc−α
T
c .rc)
2
2σ2 − 12(αc−µ)T∑−1(αc−µ)
−φ .KL(N(µ,∑)||N(µ0, I)
− log(σ |∑|1/2(2pi) k+12 )
(2.7)
23
Trọng số khía cạnh được xác định thông qua hàm sau:
αc = argmaxL(αc)
αc
= argmax
αc
{
− (Oc−αTc rc)
2
2σ2 − 12(αc−µ)
T∑−1(αc−µ)
} (2.8)
Đạo hàm của hàm L(α) theo biến α và để ước lượng được α chúng ta cho đạo hàm
bằng 0 như sau:
∂L(αc)
∂αc
=−(α
T
c rc−Oc).rc
σ2
−
−1
∑(αc−µ) = 0 (2.9)
αc =
(
rc.rTc
σ2
+
−1
∑
)−1(
Oc.rc
σ2
+
−1
∑µ
)
(2.10)
∧
µ =
(|D| .∑−1+ϕ.I)−1(∑−1 ∑
c∈D
αc+ϕ.µ0
)
∧
∑=
(
1
ϕ ∑
d∈D
(
(αc−µ)(αc−µ)T
)
+
( |D|−ϕ
2ϕ
)2
.I
)1/2
− |D|−ϕ2ϕ .I
∧
σ
2
= 1|D| ∑
c∈D
(Oc−αTc .rc)2
(2.11)
Ký hiệu α = = {α1,α2, ...,α|D|} là tập véc-tơ trọng số khía cạnh của các ý kiến đánh
giá trong tập dữ liệu D. Từng véc-tơ trong tập α là véc-tơ trọng số khía cạnh tương ứng
của ý kiến đánh giá.
Thuật toán 1: Thuật toán xác suất xếp hạng khía cạnh
Đầu vào: Tập ý kiến đánh giá thực thể D= {(rc,Oc)}|D|c=1, từng ý kiến đánh giá
c ∈ D được gán một nhãn đánh giá quan điểm chung Oc, và một véc-tơ
đánh giá quan điểm theo khía cạnh rc
while not converged do
Cập nhật {αc}|D|c=1 theo công thức (2.10);
Cập nhật {µ,∑,σ2} theo công thức (2.11);
Đầu ra : Tập véc-tơ trọng số khía cạnh α
Sau khi đạt được tập véc-tơ trọng số khía cạnh α , đối với một thực thể cụ thể, chúng
ta gom nhóm các véc-tơ trọng số khía cạnh trên các ý kiến đánh giá của nó lại với nhau
và tính véc-tơ trung bình cộng của nhóm các véc-tơ trọng số khía cạnh này. Cuối cùng
véc-tơ trung bình cộng này được sử dụng là véc-tơ trọng số khía cạnh của thực thể cần
tính.
24
(a) CBOW (b) Skip-gram
Hình 2.4: Mô hình Word2Vec với hai kiến trúc CBOW và Skip-gram
2.3 Các mô hình học biểu diễn mức từ, câu, đoạn/văn
bản
Trong các công việc xử lý ngôn ngữ tự nhiên, trích rút đặc trưng (feature extraction)
và biểu diễn dữ liệu là các công việc cơ bản nhưng quan trọng. Hiệu quả của các phương
pháp học máy truyền thống như decision tree, logistic regression, naive bayes, support
vector machine,... phụ thuộc vào sự thiết kế các đặc trưng, các thuộc tính đầu vào do
con người xây dựng và cung cấp.
Không giống với các phương pháp học máy truyền thống, học biểu diễn nỗ lực học
các biểu diễn tốt nhất, trích xuất ra những đặc trưng tốt nhất của dữ liệu một cách tự
động. Trong phần này chúng tôi trình bày các mô hình học biểu diễn cơ bản cho mức từ,
câu, đoạn/văn bản. Gồm: (1) Hai mô hình học biểu diễn mức từ: Word2Vec và Glove;
(2) Ba mô hình học biểu diễn cho mức câu, đoạn/văn bản: véc-tơ Paragraph, mô hình
mạng nơ-ron tích chập CNN, và mô hình véc-tơ kết hợp.
2.3.1 Mô hình Word2Vec
Mô hình Word2Vec là một mô hình học biểu diễn mỗi từ thành một véc-tơ có các
thành phần là số thực, và có thể sử dụng chúng để xác định mối quan hệ giữa từ này với
các từ khác, do Mikolov và các cộng sự [85] đề xuất. Mô hình Word2Vec có khả năng
làm việc với những tập dữ liệu lớn, và có hai kiến trúc mạng nơ-ron đơn giản: Mô hình
túi từ liên tục (Continuous Bag-of-Words (CBOW)) và mô hình Skip-gram, kiến trúc hai
mô hình được minh họa như trong Hình 2.4.
Ý tưởng của mô hình CBOW là dự đoán một từ đích dựa trên các ngữ cảnh của nó.
Ví dụ: từ “on” được dự đoán dựa trên các từ thuộc ngữ cảnh của nó là “the”, “cat”, và
25
“sat”.
Cho một chuỗi các từ huấn luyện ω1,ω2, ...,ωT , hàm đối tượng của mô hình CBOW
là hàm trung bình cực đại hóa xác suất như sau:
1
T
T−k
∑
t=k
log p(ωt |ωt−k, ...,ωt+k) (2.12)
trong đó k là kích cỡ của ngữ cảnh. Công việc dự đoán của mô hình CBOW được thực
hiện thông qua hàm softmax.
log p(ωt |ωt−k, ...,ωt+k) = e
yωt
∑
i
eyi
Từng giá trị yi là xác suất-log không xác định cho từng từ đầu ra từ i được tính như sau:
y= b+Uh(ωt−k, ...,ωt+k;W) (2.13)
vớiU và b là tham số của hàm softmax, h được tính bằng cách lấy giá trị trung bình hoặc
nối kết hợp của các véc-tơ được trích xuất từ ma trậnW .
Skip-gram là mô hình có kiến trúc đối lập với kiến trúc của mô hình CBOW. Skip-
gram học các véc-tơ từ dựa trên giải thiết: một từ có thể sinh ra được các từ khác thuộc
ngữ cảnh của nó. Hàm đối tượng của mô hình Skip-gram là hàm trung bình cực đại hóa
xác suất như sau:
1
T
T−k
∑
t=k
∑
−k≤ j≤k, j 6=0
log p(ωt+ j|ωt) (2.14)
trong đó k là kích cỡ của ngữ cảnh.
Trong thực nghiệm Mikolov và các cộng sự [85] đã sử dụng softmax phân cấp (hier-
archical softmax) để tính xấp xỉ hiệu quả thay thế cho softmax đầy đủ như đã trình bày
trong công thức 2.13. Với cách sử dụng softmax phân cấp đã giúp cho thuật toán huấn
luyện nhanh hơn so với softmax đầy đủ rất nhiều.
2.3.2 Mô hình GloVe
Mô hình Glove học các véc-tơ biểu diễn từ dựa trên tần suất xuất hiện của từ. Xuất
phát từ một ma trận đồng xuất hiện (co-occurrence matrix), nơi mà tần suất xuất hiện
của từng cặp từ được lưu trữ trong đó. Và một tỉ số xác suất liên quan giữa một từ k với
26
cặp từ i, j như sau:
P(k|i)
P(k| j) (2.15)
trong đó P(k|i) là xác suất xuất hiện của từ k trong ngữ cảnh của từ i, tương tự với P(k| j).
Công thức tính P(k|i) được định nghĩa như sau:
P(k|i) = Xik
Xi
=
Xik
∑mXim
(2.16)
trong đó: Xik là số lần xuất hiện của từ k trong ngữ cảnh của từ i (hoặc ngược lại); Xi là
số lần xuất hiện của từ i trong ngữ cảnh của toàn bộ các từ còn lại, ngoại trừ i.
Mô hình GloVe giả thiết rằng độ tương tự ngữ nghĩa giữa hai từ i, j có thể được xác
định thông qua độ tương tự ngữ nghĩa giữa từ k với mỗi từ i, j, những từ k có thể xác
định ngữ nghĩa tốt nhất là những từ có tỉ số 2.15 lớn hơn hoặc bằng 1.
Khởi nguồn từ tầm quan trọng của tỉ số 2.15, mô hình GloVe thực hiện bắt đầu bằng
việc đi tìm một hàm F sao cho nó ánh xạ từ các vec-tơ từ trong không gianV chiều sang
một giá trị tỉ lệ với tỉ số 2.15. Để xác định được hàm F là rất phức tạp. Do vậy, để đơn
giản hóa, chúng ta có thể đưa nó về bài toán hồi quy với việc cực tiểu hóa hàm giá sau:
E =
V
∑
i, j=1
f (Xij)(wTi w j+bi+b j− logXij)2 (2.17)
trong đó: wi và w j là các véc-tơ từ, bi và b j là các độ lệch tương ứng, Xij là mục nhập
tương ứng của cặp từ i, j trong ma trận đồng xuất hiện. Hàm f là một hàm trọng số
(weighting function) được thêm vào để giảm bớt sự ảnh hưởng của các cặp từ xuất hiện
quá thường xuyên, hàm này thỏa mãn 3 tính chất: (1) có giới hạn tại 0; (2) là hàm
không giảm; (3) có giá trị nhỏ khi x rất lớn. Thực tế, có nhiều hàm số thỏa các tính chất
trên, nhưng thông qua thực nghiệm nghiên cứu [58] lựa chọn được hàm số f như sau:
f (x) =min(1,(x/xmax)
3
4 )
Việc thực hiện cực tiểu hàm giá E để tìm ra các vec-tơ từ wi, w j có thể được thực
hiện bằng nhiều phương pháp, như là bình phương tối thiểu (least square), phương pháp
giảm độ dốc của véc-tơ đạo hàm (gradient descent).
2.3.3 Mô hình véc-tơ Paragraph
Mô hình véc-tơ Paragraph do Lê Việt Quốc và các cộng sự [2] đề xuất dựa trên mô
hình Word2Vec. Bên cạnh việc học biểu diễn từ, mô hình còn có thể học liên hợp cùng
với mức biểu diễn cao hơn, như mức câu, mức đoạn văn, hoặc cả một văn bản. Thông
27
Hình 2.5: Mô hình véc-tơ Paragraph học biểu diễn câu, đoạn hoặc cả văn bản [2]
qua kết quả thực nghiệm, các tác giả đã chỉ ra rằng mô hình véc-tơ Paragraph đạt được
kết quả thực hiện tốt hơn các mô hình trước đó trong bài toán phân loại văn bản và phân
tích ngữ nghĩa.
Các thuật toán phân loại truyền thống như SVMs (support vector machines) hay phân
cụm như k-mean yêu cầu tập dữ liệu văn bản đầu vào biểu diễn dưới dạng các véc-tơ có
độ dài cố định (fixed length vector). Các véc-tơ này thường được biểu diễn dựa trên các
mô hình biểu diễn phổ biến, như bag-of-words và bag-of-n-grams. Trong đó, mô hình
Bag-of-words có điểm yếu là không bắt được ngữ nghĩa của các từ, cũng như mối quan
hệ giữ các từ. Mô hình Bag-of-n-grams chỉ xem xét được ngữ cảnh ngữ nghĩa giữa các
từ ở mức ngắn (short context) và không tốt khi gặp loại dữ liệu thưa thớt và có thể tạo
ra số chiều của véc-tơ biểu diễn là rất lớn.
Trong mô hình véc-tơ Paragraph, các từ được ánh xạ từ các véc-tơ one-hot giống như
mô hình Word2Vec. Nhưng khác là, đối với mỗi câu, đoạn văn hoặc cả văn bản cũng sẽ
được kết nối tới một véc-tơ one-hot. Các véc-tơ từ được giả thiết nằm trong các cột của
ma trậnW , và các véc-tơ mỗi câu, đoạn văn/cả văn bản nằm trong các cột của ma trận
D.
So sánh với mô hình Word2Vec thì mô hình véc-tơ Paragraph có thay đổi là các véc-
tơ biểu diễn câu, đoạn văn (hoặc cả văn bản, sau đây sẽ gọi chung là đoạn văn) được nối
với các véc-tơ từ để dự đoán từ kế tiếp trong một ngữ cảnh của nó. Ngữ cảnh được cố
định độ dài và lấy mẫu từ một cửa sổ trượt trên một câu và đoạn văn. Các véc-tơ câu và
đoạn văn được chia sẻ cho tất cả các cửa sổ được tạo ra từ cùng một câu và đoạn văn,
nhưng việc làm này không bao gồm toàn bộ các câu và đoạn văn. Ngược lại, véc-tơ từ
được chia sẻ thông tin trên tất cả các câu và đoạn văn.
Trong mô hình véc-tơ Paragraph, câu hoặc đoạn văn được xem như là một từ khác.
Nó hoạt động như một bộ nhớ để ghi nhớ những gì còn thiếu trong ngữ cảnh hiện tại.
Vì lý do này, mô hình Paragraph được gọi là mô hình bộ nhớ phân phối của câu và đoạn
28
Hình 2.6: Minh họa mô hình túi từ phân phối của các véc-tơ Paragraph [2]
văn (Distributed Memory Model of Paragraph Vectors (PV-DM)). Hình 2.5 là một minh
họa của PV-DM.
Tại mỗi bước trong việc huấn luyện, chúng ta có một ngữ cảnh có chiều dài cố định
được lấy mẫu từ một đoạn văn ngẫu nhiên và được sử dụng để tính toán độ lệch lỗi để
cập nhật lại các trọng số trong mô hình. Với N đoạn mỗi ánh xạ tới p chiều vàM từ mỗi
ánh xạ tới q chiều, mô hình này có N.p+M.q tham số (không bao gồm các tham số của
hàm softmax được sử dụng trong tầng phân lớp ở đầu ra).
Sau khi mô hình véc-tơ Paragraph đã được huấn luyện, các véc-tơ Paragraph (gồm
các véc-tơ biểu diễn câu và đoạn văn) có thể được sử dụng như là các đặc trưng cho các
đoạn văn trong bất kỳ công việc nào của lĩnh vực xử lý ngôn ngữ ngữ tự nhiên. Đối với
một đoạn văn mới, để tính toán véc-tơ Paragraph biểu diễn cho nó (giả thiết rằng đoạn
văn này chưa được tham gia trong pha huấn luyện trước đó) chúng ta cần phải thêm một
cột véc-tơ mới trong ma trận D, sau đó các tham số của mô hình (gồm ma trận W , và
ma trận trọng số softmaxU và véc-tơ độ lệch b) được giữ cố định và chúng ta cần thực
hiện tiếp các phép toán đạo hàm để cập nhật lại các véc-tơ trong ma trận D. Cuối cùng
véc-tơ của đoạn văn mới cũng được sinh ra trong ma trận D.
Một phiên bản đáng chú ý của mô hình PV-DM là mô hình túi từ phân phối (Dis-
tributed Bag of Words version of Paragraph Vector (PV-DBOW)), nó thực hiện bỏ qua
tất cả các từ ngữ cảnh trong các đoạn văn đầu vào, nó dự đoán từ bằng cách lấy mẫu
ngẫu nhiên từ đoạn văn ở đầu ra. Trong thực tế, mỗi lần lặp lại trong thuật toán học giảm
gradient ngẫu nhiên (tochastic gradient descent), chúng ta lấy mẫu một cửa sổ văn bản,
sau đó lấy mẫu một từ ngẫu nhiên từ cửa sổ văn bản và tạo thành một nhiệm vụ phân
lớp cho véc-tơ đoạn văn. Mô hình PV-DBOW được minh họa trong Hình 2.6. Trong
thực nghiệm, mô hình PV-DM thực hiện cho kết quả tốt hơn so với mô hình PV-DBOW,
nhưng khi kết hợp cả hai mô hình PV-DM và PV-DBOW kết quả thực hiện đạt được ở
mức tốt nhất. Kỹ thuật softmax phân cấp được sử dụng cho các thuật toán huấn luyện
nhưng dưới dạng là một cây Huffman nhị phân [86].
29
2.3.4 Mô hình mạng nơ-ron tích chập CNN
Mô hình mạng CNN lần đầu được giới thiệu vào năm 1988 bởi Lecun và các cộng
sự [87]. CNN là một mô hình học sâu có giám sát, gồm một số tầng tích chập kết hợp
với các hàm kích hoạt phi tuyến (nonlinear activation function) như ReLU hay Tanh để
tạo ra thông tin trừu tượng hơn (abstract/higher-level) cho các tầng tiếp theo, từng tầng
tích chập tương ứng với một vài bộ lọc (filter) tích chập được áp dụng học đặc trưng
(feature) cho đối tượng đầu vào được tốt hơn. Trong phần này, đầu tiên chúng tôi trình
bày về phép toán tích chập trên ma trận cho một câu đầu vào. Sau đó, để dễ minh họa
mô hình CNN, chúng tôi trình bày mô hình phân lớp mức câu sử dụng CNN.
Tích chập (Convolution) trong ma trận câu
Trong lĩnh vực xử lý ngôn ngữ tự nhiên mức câu, khi áp dụng mô hình CNN thì công
việc đầu tiên của mô hình mạng CNN phải thực hiện là phép toán tích chập trên ma trận
câu. Giả sử chúng ta có một ma trận Amxn biểu diễn cho một câu gồm có m từ, từng hàng
biểu diễn cho một véc-tơ từ - n chiều thuộc câu đó. Khi đó, về hình thức, chúng ta có thể
xem tích chập như một cửa sổ trượt (sliding window) whxk áp dụng lên ma trận Amxn,
điều kiện h< m.
Hình 2.7 bên dưới minh họa cho một câu gồm 7 từ, kích thước véc-tơ từ là 5, có 6
loại cửa sổ trượt trên ma trận từ này, trong đó 2 loại cùng kích thước 2x5, 2 loại cùng
kích thước 3x5 và 2 loại cùng kích thước 4x5. Để tạo ra ma trận kích thước 5x5, cửa sổ
2x5 trượt mỗi lần 2 dòng trên ma trận bên tay trái. Ma trận kích thước 3x5 được tạo bởi
cửa sổ 3x5 trượt mỗi lần 3 dòng trên ma trận bên trái. Ma trận kích thước 2x5 được tạo
bởi cửa sổ 4x5 trượt mỗi lần 4 dòng trên ma trận bên trái.
30
Hình 2.7: Minh họa tích chập trong ma trận câu
Cửa sổ trượt (sliding window) còn có tên gọi là nhân, là bộ lọc, hay bộ xác định đặc
trưng ( kernel, filter hay feature detector). Trong Hình 2.7, ứng với một kích thước trượt
chúng ta sử dụng một ma trận bộ lọc nhân từng thành phần tương ứng (element-wise)
với ma trận câu bên trái. Giá trị đầu ra là tích của các thành phần này cộng lại. Kết quả
tích chập của một cửa sổ trượt là một ma trận bên phải, nó được sinh ra từ việc trượt ma
trận bộ lọc. Như vậy tương ứng với 6 ma trận bên phải là 6 ma trận bộ lọc (cụ thể là 2
ma trận bộ lọc 2x5, 2 ma trận bộ lọc 3x5 và 2 ma trận bộ lọc 4x5). Vấn đề xác định ma
trận bộ lọc được xem là công việc trọng tâm trong mô hình mạng CNN, và nó được xác
định trong quá trình huấn luyện mạng CNN.
Mô hình phân lớp câu quan điểm sử dụng mạng tích chập CNN
Lấy xi ∈ Rk là một véc-tơ từ (word vector) - k chiều tương ứng với từ thứ i trong một
câu, khi đó một câu với chiều dài n (một câu gồm n từ) được biểu diễn như sau:
x1:n = x1⊕ x2⊕ ...⊕ xn (2.18)
với ⊕ là một phép toán nối. Trong trường hợp tổng quát, ký hiệu xi:i+ j tương ứng với
phép nối của các từ: xi,xi+1, ...,xi+ j. Một phép toán tích chập bao gồmmột bộ lọc (filter)
được biểu diễn bởi một véc-tơ trọng số w ∈ Rhk (Chú ý rằng)1, bộ lọc này được áp dụng
1Chú ý rằng, véc-tơ bộ lọc ở đoạn này giống ma trận bộ lọc được giới thiệu đoạn trên, nhưng nó là
một véc-tơ vì nó nối h véc-tơ từ có kích thước k chiều lại với nhau.
31
cho một cửa sổ gồm có h từ để sinh ra một đặc trưng (feature) mới. Một đặc trưng ci
được sinh ra từ một của sổ có phép nối xi:i+h−1 là:
ci = f (w.xi:i+h−1+b) (2.19)
Với b là độ lệch và f là một hàm phi tuyến, một số dạng hàm mạng CNN hay sử dụng
như là hàm tanh: f (u) = tanh(u) = e
u−e−u
eu+e−u hoặc là hàm ReLU: f (u) =max(0,u). Bộ bộ
lọc này được áp dụng cho từng cửa sổ từ trong câu {x1:h,x2:h, ...,xn−h+1:n} để sinh ra
một véc-tơ đặc trưng như sau:
c= [c1,c2,...,cn−h+1] (2.20)
Hình 2.8: Minh họa mô hình phân lớp câu sử dụng mạng CNN [3]
Với c ∈ Rn−h+1. Tiếp theo, áp dụng phép toán “a max-overtime pooling” (Collobert
và các cộng sự [88]) qua tất cả các đặc trưng và lấy đặc trưng có giá trị lớn nhất, cụ thể
là
∧
c = max{c} như là một đặc trưng được chọn cho bộ lọc cụ thể này. Ý tưởng là bắt
(capture) lấy đặc trưng tốt nhất trong số các đặc trưng được sinh ra từ một bộ lọc.
Nội dung bên trên, chúng tôi đã mô tả công việc xử lý một đặc trưng được trích xuất
từ một bộ lọc. Mô hình CNN cho một câu sử dụng nhiều bộ lọc (với kích thước từng cửa
32
sổ được cho trước) để đạt được nhiều đặc trưng khác nhau. Các đặc trưng này tạo thành
một lớp áp chót trong mạng CNN, lớp này được hiểu là một véc-tơ đặc trưng và véc-tơ
này được sử dụng làm đầu vào cho một bộ phân lớp, một số bộ phân lớp mà chúng ta có
thể lựa chọn như là Perceptron, mạng nơ ron hay SVM (Support Vector Machine).
Hình 2.8, minh họa mô hình phân lớp câu sử dụng mạng tích chập CNN, bao gồm
đầu vào là một ma trận câu “I like this movie very much !”, tại tầng chập được phân chia
làm 3 vùng kích thước tương ứng là 2, 3, 4. Mỗi vùng gồm 2 ma trận bộ lọc, cụ thể
là vùng thứ nhất gồm 2 ma trận bộ lọc kích thước 2x5, vùng thứ 2 gồm 2 ma trận kích
thước 3x5, vùng thứ 3 gồm 2 ma trận kích thước 4x5. Mỗi ma trận bộ lọc này sinh ra một
véc-tơ đặc trưng, 6 ma trận bộ lọc sẽ sinh ra 6 véc-tơ đăc trưng, thực hiện phép toán “a
max-overtime pooling” trên mỗi véc-tơ đặc trưng thì trên mỗi véc-tơ đặc trưng chúng ta
chọn ra được một đặc trưng (feature) tốt nhất. Tiếp đến chúng ta thực hiện nối đặc trưng
trên mỗi vùng có kích thước ma trận bộ lọc ban đầu. Tiếp theo nữa, chúng ta thực hiện
phép nối đặc trưng trên ba vùng riêng biệt (kích thước: 2,3,4) chúng ta được một véc-tơ
đặc trưng (véc-tơ 6 chiều) tại tầng áp chót. Véc-tơ này làm đầu vào cho một bộ phân lớp
câu. Bộ phân lớp có thể được lựa chọn như hồi quy logistic (Logistic Regression), SVM,
hoặc có thể là một mạng nơ-ron gồm một vài tầng ẩn. Tùy thuộc vào bài toán cụ thể mà
chúng ta có thể lựa chọn được bộ phân lớp phù hợp.
2.3.5 Mô hình véc-tơ kết hợp
Mitchell và các cộng sự [89] đã sử dụng các luật kết hợp với các phép toán cộng và
nhân véc-tơ biểu diễn từ để sinh ra mức biểu diễn tốt hơn, cho các mức cao hơn như
mức câu, đoạn hoặc cả văn bản. Dựa trên các luật kết hợp véc-tơ [89], Hermann và các
cộng sự [90] đã giới thiệu hai hàm kết hợp các véc-tơ biểu diễn từ, tên là ADD và BI
cho học biểu diễn câu và văn bản. Hàm ADD thực hiện biểu diễn câu bằng cách cộng
tất cả các véc-tơ biểu diễn từ lại với nhau, nhưng với hàm này mô hình học biểu diễn
câu cũng như văn bản không thể bắt được thông tin ngữ nghĩa kết hợp giữa các từ. Hàm
BI được thiết kế để bắt lấy thông tin giữa các cặp từ kết hợp với nhau, họ sử dụng một
hàm phi tuyến tính (hàm tanh) thực hiện thông qua các cặp từ (bi-gram pairs). Cụ thể,
ký hiệu x là một câu gồm n véc-tơ biểu diễn từ x1,x2, ...,xn, kích cỡ số chiều của véc-tơ
là m, thì hàm kết hợp BI được định nghĩa như sau:
v(x) =
n
∑
i=1
f (M [xi−1+ xi]+ [b]) (2.21)
vớiM ∈ Rm×m là ma trận trọng số tại mức câu, b ∈ Rm là véc-tơ độ lệch, cảM ∈ Rm×m
và b ∈ Rm được học trong pha huấn luyện. là phép nhân thành phần với tổng của hai
33
véc-tơ xi−1 và xi. f (.) là hàm phi tuyến tính được định nghĩa như sau:
f (y) = tanh(y) =
ey− e−y
ey+ e−y
(2.22)
Hình 2.9: Minh họa việc sử dung mô hình véc-tơ kết hợp cho biểu diễn mức câu
Hình 2.9 là một minh họa việc sử dụng mô hình véc-tơ kết hợp cho biểu diễn mức
câu. Chúng ta thấy rằng mô hình sử dụng hàm BI tương tự như một mô hình CNN với
kích cỡ cửa sổ tích chập là 2, thực hiện trên từng cặp từ, nhưng đơn giản và linh hoạt
hơn mô hình CNN khi nó không sử dụng các ma trận bộ lọc và các phép toán tổng hợp
đặc trưng (max pooling operations) như trong mô hình CNN.
2.4 Kết luận và thảo luận
Chương này luận án đã trình bày các mô hình học biểu diễn cơ sở cho mức từ, mức
câu, mức đoạn/văn bản và hai mô hình đánh giá khía cạnh được xây dựng dựa trên
phương pháp hồi quy xác xuất.
Bên cạnh các mô hình học biểu diễn đã được trình bày, còn có các mô hình học biểu
diễn hiệu quả khác được xây dựng dựa trên mạng bộ nhớ dài-ngắn LSTM (Long Short
Term Memory networks), như trong nghiên cứu [24, 29, 30]. Tuy nhiên hầu hết các mô
hình này xây dựng dựa trên mô hình LSTM đều cần sử dụng rất nhiều tham số [32], chi
phí thời gian cho công việc huấn luyện mô hình là rất lớn. Ngoài ra, xây dựng mô hình
khai thác kết hợp nhiều nguồn thông tin khác nhau (ví dụ: đa mức biểu diễn từ và ký tự)
thì xây dựng mô hình dựa trên LSTM cũng không phù hợp như mô hình xây dựng dựa
trên CNN. Đó là lý do, trong luận án của chúng tôi sử dụng hoặc liên quan đến các mô
hình đã được trình bày trong chương này.
34
Chương 3
Đề xuất mô hình dựa trên mạng nơ-ron
xác định hạng và trọng số khía cạnh
của thực thể
Trong chương này, đầu tiên chúng tôi giới thiệu về hạng và trọng số khía cạnh của
thực thể, xác định bài toán và các yêu cầu đặt ra cần giải quyết. Sau đó trình bày mô
hình hóa hai bài toán: (1) xác định hạng và trọng số khía cạnh ẩn; (2) xác định trọng số
khía cạnh chung. Tiếp theo, trình bày các mô hình đề xuất và các thực nghiệm, kết quả
và đánh giá của các mô hình đề xuất này trên tập dữ liệu sản phẩm/dịch vụ được trích
xuất từ hệ thống thực tế 1.
3.1 Giới thiệu
Nội dung trong các bài bình luận/ý kiến đánh giá trên các trang mạng xã hội hay
website thương mại điện tử chứa quan điểm đánh giá của người sử dụng đối với từng
khía cạnh của sản phẩm/dịch vụ (gọi chung là thực thể) thông thường là khác nhau.
Theo [1, 25, 33, 34] hai thông tin hữu ích về khía cạnh cần được xác định là hạng và
trọng số khía cạnh. Hạng của một khía cạnh có thể là một số nguyên hoặc số thực, có
giá trị trong khoảng từ 1 đến 5. Trọng số của một khía cạnh có giá trị trong khoảng từ
0 đến 1. Dựa trên hạng khía cạnh chúng ta sẽ biết được quan điểm người dùng đã đánh
giá khía cạnh theo nghĩa là rất tiêu cực, hoặc tiêu cực mức trung bình, hoặc trung lập,
hoặc tích cực, hoặc rất tích cực. Trong khi đó, thông tin trọng số khía cạnh sẽ cho chúng
ta thấy được mức độ quan trọng của từng khía cạnh mà người dùng đã quan tâm tới nó.
Nhiều nghiên cứu trước về xếp hạng khía cạnh [33, 34] và xác định trọng số khía
1www.tripadvisor.com
35
cạnh [26,71] xem bài toán như là những bài toán phân lớp văn bản, yêu cầu dữ liệu huấn
luyện được gán nhãn quan điểm khía cạnh. Mặc dù đã đạt được các kết quả tốt, nhưng
việc gán nhãn quan điểm khía cạnh cho dữ liệu huấn luyện có thể tốn rất nhiều công sức
của người làm dữ liệu. Để giải quyết vấn đề này, nghiên cứu [1, 25, 39, 40] coi hạng và
trọng số khía cạnh của thực thể là ẩn. Nhằm ước lượng hạng và trọng số khía cạnh, họ
đã đề xuất các mô hình dựa trên các phương pháp xác suất thống kê (hồi quy, mô hình
chủ đề, phân phối Gaussian,...), với đầu vào là thông tin hạng chung (đánh giá chung)
và nội dung văn bản của các bài bình luận/ý kiến đánh giá. Hạn chế chung của các mô
hình xác suất là sử dụng túi từ (một bộ từ điển) để biểu diễn đặc trưng cho khía cạnh, nó
có thể tạo ra các véc-tơ đặc trưng thưa và thiếu thông tin (thiếu các từ quan trọng) nếu
bộ từ điển đó chỉ được xây dựng trên tập dữ liệu huấn luyện.
Gần đây, các mô hình học biểu diễn Word2Vec [57], véc-tơ Paragraph [2] với kiến
trúc được thiết kế dựa trên mạng nơ-ron nhân tạo có khả năng sinh ra được các véc-tơ
đặc trưng số thực có số chiều nhỏ (thường là nhỏ hơn 600) đã khắc phục được cách biểu
diễn véc-tơ đặc trưng truyền thống. Trong chương này, đầu tiên chúng tôi đề xuất mô
hình mạng nơ-ron một lớp ẩn với giả thiết hạng khía cạnh ẩn tại tầng ẩn, trọng số khía
cạnh ẩn là các tham trong mô hình. Đầu vào của mô hình là các véc-tơ biểu diễn khía
cạnh được học tự động từ mô hình véc-tơ Paragraph [2]. Sau đó, chúng tôi đề xuất mô
hình học biểu diễn đa tầng cho bài toán xác định hạng và trọng số khía cạnh ẩn, và một
mô hình mạng nơ-ron cho công việc xác định trọng số khía cạnh chung.
3.2 Mô hình hóa bài toán
3.2.1 Bài toán xác định hạng và trọng số khía cạnh ẩn của thực thể
Cho trước một tập văn bảnD= {d1,d2,...,d|D|}, chứa quan điểm đánh giá về các khía
cạnh của một tập thực thể. Từng văn bản đánh giá d được gán một hạng chung Od , hạng
chung này xác nhận quan điểm đánh giá chung được đề cập trong d. Giả sử rằng hạng
chung Od được sinh ra từ các đánh giá riêng trên các khía cạnh của thực thể. Cụ thể, khi
quan sát thông thường, các khía cạnh này ảnh hưởng tới hạng chung của văn bản đánh
giá d và sự ảnh hưởng này được thể hiện thông qua các trọng số khía cạnh tương ứng.
Theo các nghiên cứu [1, 26, 39, 71], công thức ràng buộc giữa hạng khía cạnh và trọng
số khía cạnh như sau:
∧
Od =
k
∑
i=1
rdiαdi (3.1)
Bài toán xác định hạng và trọng số khía cạnh ẩn của từng thực thể là bài toán giả
36
thiết hạng khía cạnh rd và trọng số αd ẩn, chưa biết và làm thế nào chúng ta có thể xác
định được các hạng khía cạnh cũng như các trọng số khía cạnh.
Hình 3.1: Ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh ẩn
Hình 3.1 là ví dụ: đầu vào, đầu ra của toán xác định hạng và trọng số khía cạnh
ẩn cho văn bản đánh giá sản phẩm “iPhone 6s Plus 32 GB”. Hạng và trọng số ẩn xác
định được tương ứng của các khía cạnh “Màn hình”, “Hệ điều hành”, “Camera sau”,
“Camera trước”, “Bộ nhớ trong”, và “Dung lượng pin” là “4 sao (0.10)”, “5 sao (0.12)”,
“4 sao (0.09)”, “3 sao (0.35)”, “4 sao (0.13)”, vào “3 sao (0.21)”. Giá trị trong dấu “(”
và “)” là giá trị của trọng số khía cạnh.
3.2.2 Bài toán xác định trọng số khía cạnh chung của các thực thể
Cho một tập văn bản đánh giá D= {d1,d2,...,d|D|} của một tập sản phẩm/dịch vụ cụ
thể (ví dụ dịch vụ Khách sạn) bao gồm các quan điểm về sản phẩm này và các khía cạnh
của nó, từng văn bản đánh giá d ∈ D được gán một hạng chung Od . Yêu cầu xác định
trọng số khía cạnh α của các khía cạnh được thảo luận trong tập dữ liệu D. Bài toán này
có ý nghĩa là xác định mức độ quan trọng chung của các khía cạnh mà các khách hàng
đã thể hiện quan điểm trong tập dữ liệu D.
Lưu ý là trong tập dữ liệu này các văn bản đánh giá cùng về một loại đối tượng (ví
dụ như đối tượng khách sạn), mỗi văn bản đánh giá về một đối tượng cụ thể. Các đối
tượng này có chung (share chung) danh sách các khía cạnh. Từ đó đặt ra vấn đề xây
37
dựng mô hình xác định xem mức độ quan trọng của các khía cạnh của loại đối tượng
đang đánh giá. Chúng ta mô hình hóa bài toán này bằng cách gán mỗi khía cạnh một
trọng số (weight) thể hiện mức độ quan trọng và nhiệm vụ là đi tìm trọng số này.
Hình 3.2: Ví dụ: đầu vào, đầu ra của toán xác định trọng số khía cạnh chung
Hình 3.2 thể hiện ví dụ: đầu vào, đầu ra của bài toán xác định trọng số khía cạnh
chung trên tập vă...của thuật toán giảm khi kích cỡ mini-batching nhỏ hơn 50 và đạt kết quả tốt
nhất khi mini-batching bằng 60.
Hình 5.5: Hiệu quả của mô hình MCNN với các kích cỡ mini-batching từ 10 đến 100
108
5.5 Kết luận
Trong chương 5, luận án đã trình bày mô hình mạng nơ-ron tích chập đa kênh để khai
thác đa véc-tơ biểu diễn từ và các véc-tơ biểu diễn ký tự. Mô hình đề xuất này đã được
công bố trong công trình [1], trong tạp chí quốc tế International Journal of Approximate
Reasoning. Mô hình đã được thực hiện đánh giá thông qua hai công việc của phân tích
quan điểm theo khía cạnh, gồm xác định khía cạnh và phân loại quan điểm khía cạnh.
Các kết quả thực nghiệm đã cho thấy tính hiệu quả của mô hình đề xuất. Đặc biệt thông
tin mức ký tự cũng đã cho thấy vai trò quan trọng trong việc kết hợp với thông tin mức
từ.
Trong tương lai, chúng tôi định hướng áp dụng mô hình MCNN cho nhiều tập dữ
liệu khác và trong các ngôn ngữ khác nhau. Mô hình đề xuất cũng có thể thực hiện cho
các công việc khác của phân tích quan điểm, như dự đoán trọng số khía cạnh và xếp
hạng khía cạnh.
109
KẾT LUẬN
Phân tích quan điểm theo khía cạnh là một bài toán quan trọng trong lĩnh vực xử lý
ngôn ngữ tự nhiên, học máy, khai phá tri thức, và hiện đang thu hút nhiều nghiên cứu và
có nhiều ý nghĩa trong các hệ thống thương mại cũng như quản trị sản phẩm, dịch vụ,
sự kiện, danh tiếng.
Luận án tập trung vào phát triển các mô hình dựa trên học biểu diễn và học sâu nhằm
cải tiến chất lượng cho các hệ thống phân tích quan điểm theo khía cạnh. Hai công việc
cụ thể mà luận án tập trung vào thực hiện bao gồm: (1) xác định hạng (aspect rating) và
xác định trọng số khía cạnh (aspect weight); (2) xây dựng các mô hình hiệu quả cho bài
toán xác định khía cạnh (aspect category detection) và phân loại quan điểm theo khía
cạnh (aspect based sentiment classification).
Chúng tôi đã đề xuất các mô hình, thực hiện các thực nghiệm và so sánh với các
nghiên cứu liên quan nhằm khẳng định độ tin cậy của các mô hình đề xuất. Các đóng
góp của luận án bao gồm:
• Đề xuất mô hình mạng nơ-ron xác định hạng và trọng số khía cạnh ẩn của thực
thể. Sử dụng các véc-tơ biểu diễn khía cạnh được học từ mô hình véc-tơ Paragraph
làm đầu vào.
• Tập trung vào giải quyết các thực thể của cùng một loại đối tượng cùng chia sẻ
các khía cạnh (ví dụ như các khách sạn chia sẻ các khía cạnh), chúng tôi đã đề
xuất mô hình mạng nơ-ron xác định trọng số khía cạnh chung của thực thể.
• Cũng với bài toán xác định hạng và trọng số khía cạnh ẩn, chúng tôi đã đề xuất
một mô hình dựa trên mạng nơ-ron nhằm biểu diễn phân cấp các mức nghĩa ngữ
từ mức từ lên mức câu và mức đoạn, đồng thời tích hợp với biểu diễn khía cạnh
vào một mô hình thống nhất.
• Đề xuất hai mô hình học véc-tơ biểu diễn từ: một mô hình thực hiện tinh chỉnh
các véc-tơ được học từ mô hình Word2Vec và Glove; một mô hình học véc-tơ
biểu diễn từ gồm hai thành phần: một thành phần được thiết kế dựa trên mô hình
Word2Vec thực hiện bắt mối quan hệ ngữ nghĩa giữa các từ, một thành phần sử
dụng các thông tin được giám sát để bắt lấy thông tin khía cạnh và quan điểm khía
cạnh.
• Đề xuất mô hình kết hợp các nguồn biểu diễn dữ liệu khác nhau, gọi là mô hình
đa kênh CNN. Từ đó khai thác đa phiên bản véc-tơ biểu diễn từ và véc-tơ biểu
diễn ký tự.
110
Tất cả các mô hình đề xuất đã được thực nghiệm đánh giá chi tiết thông qua các tập
dữ liệu tiếng Anh, trong miền dữ liệu là các thực thể gồm các khía cạnh đã được các
khách hàng thảo luận/đánh giá trong các ý kiến/văn bản. Các kết quả đạt được trong các
mô hình đề xuất tốt hơn các nghiên cứu liên quan. Đặc biệt với việc sử dụng mô hình
mạng nơ-ron nhiều tầng học biểu diễn xác định hạng và trọng số khía cạnh ẩn đã chứng
tỏ được sự hiệu quả vượt trội so với các phương pháp khác.
Trong tương lai chúng tôi tìm hiểu và thực hiện đánh giá các mô hình đề xuất trên
các tập dữ liệu tiếng Anh khác. Chúng tôi cũng định hướng chú trọng việc áp dụng các
mô hình đề xuất vào các hệ thống phân tích dữ liệu thực tế bằng tiếng Việt, như dữ liệu
về Ngân hàng, Chứng khoán, Điện thoại di động.
111
Danh mục công trình khoa học của tác
giả liên quan đến luận án
[1] Duc-Hong Pham, and Anh-Cuong Le, “Exploiting Multiple Word Embeddings and
One-hot Character Vectors for Aspect-Based Sentiment Analysis”, International
Journal of Approximate Reasoning (IJAR), 103, 2018, pp. 1-10. (ISI-SCI)
[2] Duc-Hong Pham, and Anh-Cuong Le, “Learning Multiple Layers of Knowledge
Representation for Aspect Based Sentiment Analysis”, Journal: Data&Knowledge
Engineering (DKE), 114, 2018, pp. 26-39. (ISI-SCIE)
[3] Duc-Hong Pham, Thi-Thanh-Tan Nguyen, and Anh-Cuong Le, “Fine-Tuning Word
Embeddings for Aspect-based Sentiment Analysis”, Proceedings of the 20th In-
ternational Conference on Text, Speech and Dialogue (TSD), 2017, pp. 500-508.
(Rank B1)
[4] Duc-Hong Pham, Anh-Cuong Le, and Thi-Kim-Chung Le, “Learning Word Em-
beddings for Aspect-based Sentiment Analysis”, Proceedings of the 15th Interna-
tional Conference of the Pacific Association for Computational Linguistics (PA-
CLING), 2017, pp. 28-40. (Rank B)
[5] Duc-Hong Pham, Anh-Cuong Le, and Thi-Thanh-Tan Nguyen, “Determing As-
pect Ratings and Aspect Weights from Textual Reviews by Using Neural Network
with Paragraph Vector Model”, Proceedings of the 5th International Conference
on Computational Social Networks (CSONet), 2016, pp. 309-320.
[6] Duc-Hong Pham, and Anh-Cuong Le, “A Neural Network based Model for Deter-
mining Overall Aspect Weights in Opinion Mining and Sentiment Analysis”, Indian
Journal of Science and Technology, 2016, pp. 1-6.
112
Tài liệu tham khảo
[1] H. Wang, Y. Lu, C. Zhai, Latent aspect rating analysis on review text data: A
rating regression approach, in: Proceedings of the 16th ACM SIGKDD Interna-
tional Conference on Knowledge Discovery and Data Mining, KDD ’10, ACM,
New York, NY, USA, 2010, pp. 783–792.
[2] Q. V. Le, T. Mikolov, Distributed representations of sentences and documents,
in: ICML, Vol. 32 of JMLR Workshop and Conference Proceedings, JMLR.org,
2014, pp. 1188–1196.
[3] Y. Kim, Convolutional neural networks for sentence classification, in: EMNLP,
ACL, 2014, pp. 1746–1751.
[4] T. Wong, W. Lam, Hot item mining and summarization from multiple auction
web sites, in: ICDM, IEEE Computer Society, 2005, pp. 797–800.
[5] W. Jin, H. H. Ho, New York, NY, USA.
[6] F. Li, C. Han, M. Huang, X. Zhu, Y.-J. Xia, S. Zhang, H. Yu, Structure-aware re-
view mining and summarization, in: Proceedings of the 23rd International Con-
ference on Computational Linguistics, COLING ’10, 2010, pp. 653–661.
[7] S. Poria, E. Cambria, A. F. Gelbukh, Aspect extraction for opinion mining with
a deep convolutional neural network, Knowl.-Based Syst. 108 (2016) 42–49.
[8] X. Li, L. Bing, P. Li, W. Lam, Z. Yang, Aspect term extraction with history
attention and selective transformation, in: Proceedings of the 27th International
Joint Conference on Artificial Intelligence, IJCAI’18, AAAI Press, 2018, pp.
4194–4200.
URL
[9] J. Zhang, G. Xu, X. Wang, X. Sun, T. Huang, Syntax-aware representation for
aspect term extraction, in: Q. Yang, Z.-H. Zhou, Z. Gong, M.-L. Zhang, S.-J.
Huang (Eds.), Advances in Knowledge Discovery and Data Mining, Springer
International Publishing, Cham, 2019, pp. 123–134.
113
[10] M. Hu, B. Liu, Mining and summarizing customer reviews, in: Proceedings of
the Tenth ACM SIGKDD International Conference on Knowledge Discovery and
Data Mining, KDD ’04, ACM, New York, NY, USA, 2004, pp. 168–177.
[11] A.-M. Popescu, O. Etzioni, Extracting product features and opinions from re-
views, in: Proceedings of the Conference on Human Language Technology and
Empirical Methods in Natural Language Processing, HLT ’05, Association for
Computational Linguistics, Stroudsburg, PA, USA, 2005, pp. 339–346.
[12] O. Etzioni, M. Cafarella, D. Downey, A.-M. Popescu, T. Shaked, S. Soderland,
D. S. Weld, A. Yates, Unsupervised named-entity extraction from the web: An
experimental study, Artif. Intell. 165 (1) (2005) 91–134.
[13] Q. Mei, X. Ling, M. Wondra, H. Su, C. Zhai, Topic sentiment mixture: modeling
facets and opinions in weblogs, in: WWW, ACM, 2007, pp. 171–180.
[14] Y. Wu, Q. Zhang, X. Huang, L. Wu, Phrase dependency parsing for opinion min-
ing, in: EMNLP, ACL, 2009, pp. 1533–1541.
[15] Z. Luo, S. Huang, F. F. Xu, B. Y. Lin, H. Shi, K. Zhu, ExtRA: Extracting promi-
nent review aspects from customer feedback, in: Proceedings of the 2018 Con-
ference on Empirical Methods in Natural Language Processing, Association for
Computational Linguistics, Brussels, Belgium, 2018, pp. 3477–3486.
[16] M. Dragoni, M. Federici, A. Rexha, An unsupervised aspect extraction strategy
for monitoring real-time reviews stream, Information Processing & Management
56 (3) (2019) 1103 – 1118.
[17] G. Ganu, N. Elhadad, A. Marian, Beyond the stars: Improving rating predictions
using review text content, in: WebDB, 2009.
[18] S. Kiritchenko, X. Zhu, C. Cherry, S. Mohammad, Nrc-canada-2014: Detecting
aspects and sentiment in customer reviews, in: SemEval@COLING, The Asso-
ciation for Computer Linguistics, 2014, pp. 437–442.
[19] J. J. McAuley, J. Leskovec, D. Jurafsky, Learning attitudes and attributes from
multi-aspect reviews, in: 12th IEEE International Conference on Data Mining,
ICDM 2012, Brussels, Belgium, December 10-13, 2012, 2012, pp. 1020–1025.
[20] X. Zhou, X. Wan, J. Xiao, Representation learning for aspect category detection
in online reviews, in: Proceedings of the 29th Conference on Artificial Intelli-
gence, AAAI 2015, Austin, Texas, USA, Association for the Advancement of
Artificial Intelligence, 2015, pp. 417–424.
114
[21] C. Sun, L. Huang, X. Qiu, Utilizing BERT for aspect-based sentiment analysis
via constructing auxiliary sentence, CoRR abs/1903.09588.
[22] J. Devlin, M. Chang, K. Lee, K. Toutanova, BERT: pre-training of deep bidirec-
tional transformers for language understanding, CoRR abs/1810.04805.
[23] M. Hu, S. Zhao, L. Zhang, K. Cai, Z. Su, R. Cheng, X. Shen, CAN: constrained
attention networks for multi-aspect sentiment analysis, CoRR abs/1812.10735.
[24] S. Movahedi, E. Ghadery, H. Faili, A. Shakery, Aspect category detection via
topic-attention network, CoRR abs/1901.01183.
[25] Y. Lu, C. Zhai, N. Sundaresan, Rated aspect summarization of short comments,
in: Proceedings of the 18th International Conference onWorldWideWeb,WWW
’09, ACM, New York, NY, USA, 2009, pp. 131–140.
[26] Z. Zha, J. Yu, J. Tang, M. Wang, T. Chua, Product aspect ranking and its appli-
cations, IEEE Trans. Knowl. Data Eng. 26 (5) (2014) 1211–1224.
[27] X. Ding, B. Liu, P. S. Yu, A holistic lexicon-based approach to opinion mining,
in: WSDM, ACM, 2008, pp. 231–240.
[28] W. Xu, Y. Tan, Semi-supervised target-oriented sentiment classification, Neuro-
computing 337 (2019) 120 – 128.
[29] D. Tang, B. Qin, T. Liu, Aspect level sentiment classification with deep memory
network, in: Proceedings of the 2016 Conference on Empirical Methods in Nat-
ural Language Processing, EMNLP 2016, Austin, Texas, USA, Association for
Computational Linguistics, 2016, pp. 214–224.
[30] Y. Wang, M. Huang, X. Zhu, L. Zhao, Attention-based LSTM for aspect-level
sentiment classification, in: Proceedings of the 2016 Conference on Empirical
Methods in Natural Language Processing, EMNLP 2016, Austin, Texas, USA,
Association for Computational Linguistics, 2016, pp. 606–615.
[31] F. Fan, Y. Feng, D. Zhao, Multi-grained attention network for aspect-level senti-
ment classification, in: Proceedings of the 2018 Conference on Empirical Meth-
ods in Natural Language Processing, Association for Computational Linguistics,
Brussels, Belgium, 2018, pp. 3433–3442.
URL https://www.aclweb.org/anthology/D18-1380
[32] W. Xue, T. Li, Aspect based sentiment analysis with gated convolutional net-
works, in: Proceedings of the 56th Annual Meeting of the Association for Com-
putational Linguistics (Volume 1: Long Papers), Association for Computational
Linguistics, Melbourne, Australia, 2018, pp. 2514–2523.
115
[33] B. Snyder, R. Barzilay, Multiple aspect ranking using the good grief algorithm,
in: Human Language Technology Conference of the North American Chapter of
the Association of Computational Linguistics, Proceedings, April 22-27, 2007,
Rochester, New York, USA, 2007, pp. 300–307.
[34] K. Crammer, Y. Singer, Pranking with ranking, in: Advances in Neural Infor-
mation Processing Systems 14 [Neural Information Processing Systems: Natural
and Synthetic, NIPS 2001, December 3-8, 2001, Vancouver, British Columbia,
Canada], 2001, pp. 641–647.
[35] I. Titov, R. T. McDonald, A joint model of text and aspect ratings for sentiment
summarization, in: ACL, The Association for Computer Linguistics, 2008, pp.
308–316.
[36] W.Wang, H. Wang, Y. Song, Ranking product aspects through sentiment analysis
of online reviews, Journal of Experimental & Theoretical Artificial Intelligence
29 (2) (2017) 227–246.
[37] Y. Liu, J.-W. Bi, Z.-P. Fan, Ranking products through online reviews: A method
based on sentiment analysis technique and intuitionistic fuzzy set theory, Infor-
mation Fusion 36 (2017) 149 – 161.
[38] C. Guo, Z. Du, X. Kou, Products ranking through aspect-based sentiment anal-
ysis of online heterogeneous reviews, Journal of Systems Science and Systems
Engineering 27 (2018) 542–558.
[39] H. Wang, Y. Lu, C. Zhai, Latent aspect rating analysis without aspect keyword
supervision, in: Proceedings of the 17th ACMSIGKDD International Conference
on Knowledge Discovery and Data Mining, KDD ’11, ACM, New York, NY,
USA, 2011, pp. 618–626.
[40] Y. Xu, T. Lin, W. Lam, Z. Zhou, H. Cheng, A. M.-C. So, Latent aspect min-
ing via exploring sparsity and intrinsic information, in: Proceedings of the 23rd
ACM International Conference on Conference on Information and Knowledge
Management, CIKM ’14, ACM, New York, NY, USA, 2014, pp. 879–888.
[41] H. Wang, M. Ester, A sentiment-aligned topic model for product aspect rating
prediction, in: Proceedings of the 2014 Conference on Empirical Methods in Nat-
ural Language Processing (EMNLP), Association for Computational Linguistics,
Doha, Qatar, 2014, pp. 1192–1202.
[42] F. Wang, L. Chen, Review mining for estimating users’ ratings and weights for
product aspects, Web Intelligence 13 (3) (2015) 137–152. doi:10.3233/
web-150317.
116
[43] Y. Li, C. Shi, H. Zhao, F. Zhuang, B. Wu, Aspect mining with rating bias, in:
P. Frasconi, N. Landwehr, G. Manco, J. Vreeken (Eds.), Machine Learning and
Knowledge Discovery in Databases, Springer International Publishing, Cham,
2016, pp. 458–474.
[44] D. Xiao, J. Yugang, Y. Li, F. Zhuang, C. Shi, Coupled matrix factorization and
topic modeling for aspect mining, Information Processing and Management 54
(2018) 861–873. doi:10.1016/j.ipm.2018.05.002.
[45] B. Pang, L. Lee, S. Vaithyanathan, Thumbs up? sentiment classification using
machine learning techniques, in: EMNLP, 2002.
[46] V. Narayanan, I. Arora, A. Bhatia, Fast and accurate sentiment classification us-
ing an enhanced naive bayes model, in: Proceedings of the 14th International
Conference on Intelligent Data Engineering and Automated Learning — IDEAL
2013 - Volume 8206, IDEAL 2013, Springer-Verlag New York, Inc., New York,
NY, USA, 2013, pp. 194–201.
[47] J. Kramer, C. Gordon, Improvement of a naive bayes sentiment classifier using
mrs-based features, 2014, pp. 22–29.
[48] Y. Bengio, A. C. Courville, P. Vincent, Representation learning: A review and
new perspectives, IEEE Trans. Pattern Anal. Mach. Intell. 35 (8) (2013) 1798–
1828.
[49] A. Hyva¨rinen, E. Oja, Independent component analysis: Algorithms and applica-
tions, Neural Netw. 13 (4-5) (2000) 411–430.
[50] G. Hinton, R. Salakhutdinov, Reducing the dimensionality of data with neural
networks, Science (New York, N.Y.) 313 (2006) 504–7.
[51] M. Weimer, A. Karatzoglou, Q. V. Le, A. J. Smola, Cofi rank - maximum margin
matrix factorization for collaborative ranking, in: J. C. Platt, D. Koller, Y. Singer,
S. T. Roweis (Eds.), Advances in Neural Information Processing Systems 20,
Curran Associates, Inc., 2008, pp. 1593–1600.
[52] Y. Bengio, A connectionist approach to speech recognition, International Journal
on Pattern Recognition and Artificial Intelligence 7 (4) (1993) 647–667.
[53] G. E. Hinton, R. R. Salakhutdinov, Reducing the dimensionality of data with
neural networks, Science 313 (5786) (2006) 504–507.
[54] Y. Bengio, P. Lamblin, D. Popovici, H. Larochelle, Greedy layer-wise training
of deep networks, in: Advances in Neural Information Processing Systems, MIT
Press, 2006, pp. 153–160.
117
[55] G. E. Hinton, Learning distributed representations of concepts, in: Proceedings
of the eighth annual conference of the cognitive science society, Vol. 1, Amherst,
MA, 1986, p. 12.
[56] Y. Bengio, R. Ducharme, P. Vincent, C. Janvin, A neural probabilistic language
model, Journal of Machine Learning Research 3 (2003) 1137–1155.
[57] T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word represen-
tations in vector space, CoRR abs/1301.3781.
[58] J. Pennington, R. Socher, C. D. Manning, Glove: Global vectors for word rep-
resentation, in: Proceedings of the 2014 Conference on Empirical Methods in
Natural Language Processing, EMNLP 2014, Doha, Qatar, Association for Com-
putational Linguistics, 2014, pp. 1532–1543.
[59] J. Pavlopoulos, I. Androutsopoulos, Aspect term extraction for sentiment anal-
ysis: New datasets, new evaluation measures and an improved unsupervised
method, in: Proceedings of the 5th Workshop on Language Analysis for Social
Media (LASM), Association for Computational Linguistics, Gothenburg, Swe-
den, 2014, pp. 44–52.
[60] L. Zhuang, F. Jing, X.-Y. Zhu, Movie review mining and summarization, in: Pro-
ceedings of the 15th ACM International Conference on Information and Knowl-
edge Management, CIKM ’06, ACM, New York, NY, USA, 2006, pp. 43–50.
[61] P. D. Turney, Thumbs up or thumbs down? semantic orientation applied to unsu-
pervised classification of reviews, in: ACL, ACL, 2002, pp. 417–424.
[62] R. Mihalcea, C. Banea, J. Wiebe, Learning multilingual subjective language via
cross-lingual projections, in: ACL, The Association for Computational Linguis-
tics, 2007.
[63] F. Su, K. Markert, From words to senses: A case study of subjectivity recog-
nition, in: Proceedings of the 22nd International Conference on Computational
Linguistics (Coling 2008), Coling 2008 Organizing Committee, Manchester, UK,
2008, pp. 825–832.
[64] B. Pang, L. Lee, A sentimental education: Sentiment analysis using subjectiv-
ity summarization based on minimum cuts, in: Proceedings of the 42nd An-
nual Meeting of the Association for Computational Linguistics, 21-26 July, 2004,
Barcelona, Spain., 2004, pp. 271–278.
[65] B. Pang, L. Lee, Opinion mining and sentiment analysis, Found. Trends Inf. Retr.
2 (1-2) (2008) 1–135.
118
[66] N. Jindal, B. Liu, Review spam detection, in: Proceedings of the 16th Interna-
tional Conference on World Wide Web, WWW ’07, ACM, New York, NY, USA,
2007, pp. 1189–1190.
[67] E.-P. Lim, V.-A. Nguyen, N. Jindal, B. Liu, H.W. Lauw, Detecting product review
spammers using rating behaviors, in: Proceedings of the 19th ACM International
Conference on Information and Knowledge Management, CIKM ’10, ACM, New
York, NY, USA, 2010, pp. 939–948.
[68] N. Jindal, B. Liu, Opinion spam and analysis, in: Proceedings of the 2008 Inter-
national Conference on Web Search and Data Mining, WSDM ’08, ACM, New
York, NY, USA, 2008, pp. 219–230.
[69] W. Jin, H. H. Ho, A novel lexicalized hmm-based learning framework for web
opinion mining, in: Proceedings of the 26th Annual International Conference on
Machine Learning, ICML ’09, ACM, New York, NY, USA, 2009, pp. 465–472.
[70] M. Hu, B. Liu, Mining and summarizing customer reviews, in: KDD, ACM,
2004, pp. 168–177.
[71] J. Yu, Z. Zha, M. Wang, T. Chua, Aspect ranking: Identifying important prod-
uct aspects from online consumer reviews, in: The 49th Annual Meeting of the
Association for Computational Linguistics: Human Language Technologies, Pro-
ceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA, 2011, pp.
1496–1505.
[72] N. X. Bach, P. D. Van, N. D. Tai, T. M. Phuong, Mining vietnamese comparative
sentences for sentiment analysis, in: 2015 Seventh International Conference on
Knowledge and Systems Engineering (KSE), 2015, pp. 162–167.
[73] V. D. Nguyen, K. V. Nguyen, N. L. Nguyen, Variants of long short-term memory
for sentiment analysis on vietnamese students’ feedback corpus, in: 2018 10th
International Conference on Knowledge and Systems Engineering (KSE), 2018,
pp. 306–311.
[74] K. V. Nguyen, V. D. Nguyen, P. X. V. Nguyen, T. T. H. Truong, N. L. Nguyen,
Uit-vsfc: Vietnamese students’ feedback corpus for sentiment analysis, in: 2018
10th International Conference on Knowledge and Systems Engineering (KSE),
2018, pp. 19–24.
[75] Q. Vo, H. Nguyen, B. Le, M. Nguyen, Multi-channel lstm-cnn model for viet-
namese sentiment analysis, in: 2017 9th International Conference on Knowledge
and Systems Engineering (KSE), 2017, pp. 24–29.
119
[76] L. Mai, B. Le, Aspect-Based Sentiment Analysis of Vietnamese Texts with Deep
Learning, 2018, pp. 149–158.
[77] D. Van Thin, V. Duc Nguye, K. Nguyen, N. Luu-Thuy Nguyen, Deep learning for
aspect detection on vietnamese reviews, 2018, pp. 104–109.
[78] A. L. Maas, R. E. Daly, P. T. Pham, D. Huang, A. Y. Ng, C. Potts, Learning word
vectors for sentiment analysis, in: ACL, The Association for Computer Linguis-
tics, 2011, pp. 142–150.
[79] D. Tang, F. Wei, N. Yang, M. Zhou, T. Liu, B. Qin, Learning sentiment-specific
word embedding for twitter sentiment classification, in: Proceedings of the 52nd
Annual Meeting of the Association for Computational Linguistics, ACL 2014,
June 22-27, 2014, Baltimore, MD, USA, Volume 1: Long Papers, 2014, pp.
1555–1565.
[80] Y. Ren, Y. Zhang, M. Zhang, D. Ji, Improving twitter sentiment classification
using topic-enriched multi-prototype word embeddings, in: Proceedings of the
Thirtieth AAAI Conference on Artificial Intelligence, February 12-17, 2016,
Phoenix, Arizona, USA., 2016, pp. 3038–3044.
[81] X. Zhang, J. J. Zhao, Y. LeCun, Character-level convolutional networks for text
classification, in: Proceedings of the 28th International Conference on Neural In-
formation Processing Systems, NIPS 2015, Montreal, Canada, Curran Associates
Inc., 2015, pp. 649–657.
[82] C. N. dos Santos, M. Gatti, Deep convolutional neural networks for sentiment
analysis of short texts, in: Proceedings of 25th International Conference on Com-
putational Linguistics, COLING 2014, Dublin, Ireland, Association for Compu-
tational Linguistics, 2014, pp. 69–78.
[83] Y. Kim, Y. Jernite, D. Sontag, A. M. Rush, Character-aware neural language mod-
els, in: AAAI, AAAI Press, 2016, pp. 2741–2749.
[84] K. Ganesan, C. Zhai, Opinion-based entity ranking, Information Retrieval 15 (2)
(2012) 116–150.
[85] T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word represen-
tations in vector space, CoRR abs/1301.3781.
[86] X. Rong, word2vec parameter learning explained, CoRR abs/1411.2738.
[87] Y. Lecun, L. Bottou, Y. Bengio, P. Haffner, Gradient-based learning applied to
document recognition, in: Proceedings of the IEEE, 1998, pp. 2278–2324.
120
[88] R. Collobert, J. Weston, L. Bottou, M. Karlen, K. Kavukcuoglu, P. Kuksa, Natural
language processing (almost) from scratch, J. Mach. Learn. Res. 12 (2011) 2493–
2537.
[89] J. Mitchell, M. Lapata, Vector-based models of semantic composition, in: ACL
2008, Proceedings of the 46th Annual Meeting of the Association for Computa-
tional Linguistics, June 15-20, 2008, Columbus, Ohio, USA, 2008, pp. 236–244.
[90] K. M. Hermann, P. Blunsom, Multilingual models for compositional distributed
semantics, in: Proceedings of the 52nd Annual Meeting of the Association for
Computational Linguistics, ACL 2014, June 22-27, 2014, Baltimore, MD, USA,
Volume 1: Long Papers, 2014, pp. 58–68.
[91] T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word represen-
tations in vector space, CoRR abs/1301.3781.
[92] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, J. Dean, Distributed repre-
sentations of words and phrases and their compositionality, in: NIPS, 2013, pp.
3111–3119.
[93] C.-Y. Liou, W.-C. Cheng, J.-W. Liou, D.-R. Liou, Autoencoder for words, Neuro-
comput. 139 (2014) 84–96.
[94] L. Bottou, Stochastic learning, in: Advanced Lectures on Machine Learning, Vol.
3176 of Lecture Notes in Computer Science, Springer, 2003, pp. 146–168.
[95] A. Cotter, O. Shamir, N. Srebro, K. Sridharan, Better mini-batch algorithms via
accelerated gradient methods, in: Proceedings of the 24th International Confer-
ence on Neural Information Processing Systems, NIPS’11, Curran Associates
Inc., USA, 2011, pp. 1647–1655.
[96] K. Toutanova, D. Klein, C. D. Manning, Y. Singer, Feature-rich part-of-speech
tagging with a cyclic dependency network, in: Human Language Technology
Conference of the North American Chapter of the Association for Computa-
tional Linguistics, HLT-NAACL 2003, Edmonton, Canada, May 27 - June 1,
2003, 2003.
[97] H. Wang, M. Ester, A sentiment-aligned topic model for product aspect rating
prediction, in: Proceedings of the 2014 Conference on Empirical Methods in Nat-
ural Language Processing, EMNLP 2014, October 25-29, 2014, Doha, Qatar, A
meeting of SIGDAT, a Special Interest Group of the ACL, 2014, pp. 1192–1202.
[98] D. E. Rumelhart, G. E. Hinton, R. J. Williams, Neurocomputing: Foundations of
research, MIT Press, Cambridge, MA, USA, 1988, Ch. Learning Representations
by Back-propagating Errors, pp. 696–699.
121
[99] R. Collobert, J. Weston, A unified architecture for natural language processing:
deep neural networks with multitask learning, in: ICML, Vol. 307 of ACM Inter-
national Conference Proceeding Series, ACM, 2008, pp. 160–167.
[100] C. D. Manning, P. Raghavan, H. Schu¨tze, Introduction to information retrieval,
Cambridge University Press, 2008.
[101] N. Kalchbrenner, E. Grefenstette, P. Blunsom, A convolutional neural network
for modelling sentences, in: Proceedings of the 52nd Annual Meeting of the As-
sociation for Computational Linguistics (Volume 1: Long Papers), Association
for Computational Linguistics, Baltimore, Maryland, 2014, pp. 655–665.
[102] M. Lakshmana, S. Sellamanickam, S. K. Shevade, K. Selvaraj, Learning seman-
tically coherent and reusable kernels in convolution neural nets for sentence clas-
sification, CoRR abs/1608.00466.
[103] Y. Shen, X. He, J. Gao, L. Deng, G. Mesnil, Learning semantic representations
using convolutional neural networks for web search, in: 23rd International World
Wide Web Conference, WWW ’14, Seoul, Republic of Korea, April 7-11, 2014,
Companion Volume, 2014, pp. 373–374.
[104] W. Yin, H. Schu¨tze, Multichannel variable-size convolution for sentence classi-
fication, in: Proceedings of the 19th Conference on Computational Natural Lan-
guage Learning, CoNLL 2015, Beijing, China, Association for Computational
Linguistics, 2015, pp. 204–214.
[105] Y. Zhang, S. Roller, B. C. Wallace, MGNC-CNN: A simple approach to exploit-
ing multiple word embeddings for sentence classification, in: Proceedings of the
2016 Conference of the North American Chapter of the Association for Compu-
tational Linguistics: Human Language Technologies, NAACL-HLT 2016, San
Diego California, USA, Association for Computational Linguistics, 2016, pp.
1522–1527.
[106] W. X. Zhao, J. Jiang, H. Yan, X. Li, Jointly modeling aspects and opinions with a
maxent-lda hybrid, in: Proceedings of the 2010 Conference on Empirical Meth-
ods in Natural Language Processing, EMNLP 2010, 9-11 October 2010, MIT
Stata Center, Massachusetts, USA, A meeting of SIGDAT, a Special Interest
Group of the ACL, 2010, pp. 56–65.
[107] R. Collobert, J. Weston, A unified architecture for natural language processing:
deep neural networks with multitask learning, in: ICML, Vol. 307 of ACM Inter-
national Conference Proceeding Series, ACM, 2008, pp. 160–167.
122
[108] N. Srivastava, G. E. Hinton, A. Krizhevsky, I. Sutskever, R. Salakhutdinov,
Dropout: a simple way to prevent neural networks from overfitting, Journal of
Machine Learning Research 15 (1) (2014) 1929–1958.
[109] S. Brody, N. Elhadad, An unsupervised aspect-sentiment model for online re-
views, in: Human Language Technologies: The 2010 Annual Conference of the
North American Chapter of the Association for Computational Linguistics, HLT
’10, Association for Computational Linguistics, Stroudsburg, PA, USA, 2010, pp.
804–812.
[110] L. Wang, K. Liu, Z. Cao, J. Zhao, G. de Melo, Sentiment-aspect extraction based
on restricted boltzmann machines, in: Proceedings of the 53rd Annual Meeting
of the Association for Computational Linguistics and the 7th International Joint
Conference on Natural Language Processing of the Asian Federation of Natural
Language Processing, ACL 2015, July 26-31, 2015, Beijing, China, Volume 1:
Long Papers, 2015, pp. 616–625.
[111] X. Glorot, A. Bordes, Y. Bengio, Domain adaptation for large-scale sentiment
classification: A deep learning approach, in: Proceedings of the 28th Interna-
tional Conference on Machine Learning, ICML 2011, Bellevue, Washington,
USA, June 28 - July 2, 2011, 2011, pp. 513–520.
[112] R. Astudillo, S. Amir, W. Ling, M. Silva, I. Trancoso, Learning word representa-
tions from scarce and noisy data with embedding subspaces, in: Proceedings of
the 53rd Annual Meeting of the Association for Computational Linguistics and
the 7th International Joint Conference on Natural Language Processing (Volume
1: Long Papers), Association for Computational Linguistics, 2015, pp. 1074–
1084.
123
Các file đính kèm theo tài liệu này:
- luan_an_phat_trien_cac_mo_hinh_dua_tren_mang_no_ron_cho_phan.pdf