BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
ĐỒ ÁN TỐT NGHIỆP
NGHÀNH CÔNG NGHỆ THÔNG TIN
HẢI PHÒNG 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
PHÁT HIỆN TỪ QUAN ĐIỂM MỚI CHO PHÂN TÍCH
CẢM XÚC
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Nghành : Công Nghệ Thông Tin
Hải Phòng 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHÒNG
-------o0o-------
PHÁT HIỆN TỪ QUAN ĐIỂM MỚI CHO PHÂN TÍCH
55 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 429 | Lượt tải: 0
Tóm tắt tài liệu Đồ án Phát hiện từ quan điểm mới cho phân tích cảm xúc, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
H
CẢM XÚC
ĐỒ ÁN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Nghành : Cơng Nghệ Thơng Tin
Sinh viên thực hiện : Nguyễn Danh Long
Giáo viên hướng dẫn : Ths. Nguyễn Thị Xuân Hương
Mã số sinh viên : 1413101003
BỘ GIÁO DỤC VÀ ĐÀO TẠO CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC DÂN LẬP HẢI PHỊNG Độc lập – Tự do – Hạnh phúc
-------o0o-------
NHIỆM VỤ THIẾT KẾ TỐT NGHIỆP
Sinh viên : Nguyễn Danh Long Mã số : 1413101003
Lớp: CLT 801 Nghành: Cơng Nghệ Thơng Tin
Tên đề tài : Phát hiện từ quan điểm mới cho phân tích cảm xúc
NHIÊM VỤ ĐỀ TÀI
1. Nội dung và các yêu cầu cần giải quyết trong nhiệm vụ đề tài tốt nghiệp
a. Nội dung
b. Các yêu cầu cần giải quyết
2. Các số liệu cần thiết để thiết kế , tình tốn
3. Địa điểm thực tập
CÁN BỘ HƯỚNG DẪN ĐỀ TÀI TỐT NGHIỆP
Người hướng dẫn thứ nhất:
Họ và tên:....................................................................................................................
Học hàm, học vị:.........................................................................................................
Cơ quan cơng tác:.......................................................................................................
Nội dung hướng dẫn:
Người hướng dẫn thứ hai:
Họ và tên:
Học hàm, học vị
Cơ quan cơng tác:
Nội dung hướng dẫn: .....................................................................
Đề tài tốt nghiệp được giao ngày 18 tháng 04năm 2016
Yêu cầu phải hồn thành trước ngày 9 tháng 07 năm 2016
Đã nhận nhiệm vụ: Đ.T.T.N Đã nhận nhiệm vụ: Đ.T.T.N
Sinh viên Cán bộ hướng dẫn Đ.T.T.N
Hải Phịng, ngày ............tháng.........năm 2016
HIỆU TRƯỞNG
GS.TS.NGƯT Trần Hữu Nghị
PHẦN NHẬN XÉT TĨM TẮT CỦA CÁN BỘ HƯỚNG DẪN
1. Tinh thần thái độ của sinh viên trong quá trình làm đề tài tốt nghiệp:
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
2. Đánh giá chất lượng của đề tài tốt nghiệp (so với nội dung yêu cầu
đã đề ra trong nhiệm vụ đề tài tốt nghiệp)
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
...................................................................................................................
3. Cho điểm của cán bộ hướng dẫn:
( Điểm ghi bằng số và chữ )
...................................................................................................................
...................................................................................................................
Ngày.......tháng.........năm 2016
Cán bộ hướng dẫn chính
( Ký, ghi rõ họ tên )
7
PHẦN NHẬN XÉT ĐÁNH GIÁ CỦA CÁN BỘ CHẤM PHẢN
BIỆN ĐỀ TÀI TỐT NGHIỆP
1. Đánh giá chất lượng đề tài tốt nghiệp (về các mặt như cơ sở lý
luận, thuyết minh chương trình, giá trị thực tế, ...)
2. Cho điểm của cán bộ phản biện
( Điểm ghi bằng số và chữ )
..............................................................................................................
..............................................................................................................
Ngày.......tháng.........năm 2016
Cán bộ chấm phản biện
( Ký, ghi rõ họ tên )
8
MỤC LỤC
DANH MỤC BẢNG .......................................................................................... 11
LỜI CẢM ƠN .................................................................................................... 12
LỜI NĨI ĐẦU ..................................................................................................... 13
CHƯƠNG 1 : TỔNG QUAN VỀ PHÂN TÍCH QUAN ĐIỂM .................. 15
1.1 Nhu cầu về thơng tin quan điểm và nhận xét ..................................... 15
1.2 Lịch sử của phân tích quan điểm và khai thác quan điểm ................. 17
1.3 Một số nghiên cứu trong phân tích quan điểm ................................... 18
1.3.1 Xác định cụm từ, quan điểm ....................................................... 18
1.3.2 Sử dụng tính từ và phĩ từ ........................................................... 19
1.3.3 Sử dụng các động từ ................................................................... 20
1.3.4 Xác định chiều hướng, cụm từ, quan điểm ................................. 21
1.4. Nhiệm vụ của phân tích quan điểm ................................................... 21
1.5. Bài tốn phân lớp quan điểm............................................................. 21
1.5.1 Phân cực quan điểm và mức độ phân cực .................................. 22
1.5.2 Nhiệm vụ của bài tốn phân lớp quan điểm ............................... 23
CHƯƠNG 2 : PHÁT HIỆN TỪ MỚI CHO PHÂN TÍCH QUAN ĐIỂM . 25
2.1. Giới thiệu phương pháp .................................................................... 25
2.2 Phương pháp....................................................................................... 28
2.2.1. Các định nghĩa ........................................................................... 28
2.2.2. Tổng quan thuật tốn ................................................................. 28
2.2.3. Độ đo tính hữu ích của một mẫu ............................................... 29
2.3 Độ đo khả năng để là các từ mới. ....................................................... 31
2.3.1. Kiểm tra tỷ lệ thích hợp (LRT) .................................................. 31
2.3.2. Entropy mẫu bên trái (Left pattern Entropy) ............................. 32
2.3.3. Xác xuất của một từ mới ............................................................ 32
2.3.4. Các độ đo nguyên tắc khơng cấu thành. .................................... 33
9
2.3.5 Cấu hình để kết hợp các yếu tố khác nhau ................................. 34
2.4. Thực nghiệm ..................................................................................... 35
2.4.1 Chuẩn bị dữ liệu .......................................................................... 35
2.4.2. Các độ đo ................................................................................... 35
2.4.3. Đánh giá các độ đo và so sánh với các phương pháp cĩ bản .... 36
2.4.4 Điều chỉnh tham số ..................................................................... 37
2.4.5. Dự đốn mức độ cảm xúc của các từ quan điểm mới. ............... 37
2.4.6. Ứng dụng của các từ quan điểm mới cho phân tích cảm xúc. ... 38
CHƯƠNG 3 : ỨNG DỤNG TÌM TỪ QUAN ĐIỂM MỚI CHO DỮ LIỆU
TIẾNG VIỆT ................................................................................................................... 40
3.1. Đặt vấn đề ......................................................................................... 40
3.2. Phương pháp...................................................................................... 41
3.3. Thực nghiệm ..................................................................................... 44
3.3.1. Dữ liệu ....................................................................................... 44
3.3.2. Xử lý dữ liệu .............................................................................. 45
KẾT LUẬN ......................................................................................................... 49
PHỤ LỤC ............................................................................................................. 50
TÀI LIỆU THAM KHẢO ................................................................................. 55
10
DANH MỤC BẢNG
Bảng 1 : Các ví dụ của từ quan điểm mới ................................................. 27
Bảng 2: Tần xuất của một mẫu từ vựng trên các bình luận của mạng Weibo. .. 28
Bảng 3: Bảng ngẫu nhiên kiểm tra tỷ lệ thích hợp. ................................... 30
Bảng 4: Các kết quả với việc cĩ sử và khơng sử dụng đánh giá độ đo phù hợp. . 39
Bảng 5: Các nhãn từ loại Tiếng Việt. ........................................................ 42
11
LỜI CẢM ƠN
Trước tiên, em xin gửi lời cảm ơn chân thành và biết ơn sâu sắc nhất tới
Cơ Nguyễn Thị Xuân Hương, Trường Đại học Dân lập Hải Phịng đã chỉ bảo
và hướng dẫn tận tình cho em trong suốt quá trình tìm hiểu và thực hiện khĩa
luận này.
Em xin chân thành cảm ơn các Thầy, Cơ trong Khoa Cơng nghệ Thơng
tin đã tận tình giảng dạy và truyền cho em những kiến thức quý báu cho em
trong suốt quá trình học tập và làm luận văn tốt nghiệp
Em xin chân thành cảm ơn tới các Thầy, Cơ và các Cán bộ, Nhân viên
của trường Đại học Dân Lập Hải Phịng đã tạo cho em những điều kiện thuận
lợi để học tập và nghiên cứu.
Cuối cùng em muốn gửi lời cảm ơn tới gia đình và bạn bè những người
thân yêu đã luơn bên cạnh động viên trong suốt quá trình học tập và làm khĩa
luận tốt nghiệp.
Mặc dù em đã rất cố gắng hồn thành luận văn trong phạm vi và khả
năng cho phép nhưng chắc chắn sẽ khơng tránh khỏi những thiếu sĩt. Em kính
mong nhận được sự cảm thơng và tận tình chỉ bảo, gĩp ý của quý Thầy Cơ và
các bạn.
Em xin chân thành cảm ơn!
Hải Phịng , ngày.. tháng.. năm.
Sinh viên
Nguyễn Danh Long
12
LỜI NĨI ĐẦU
Ngày nay, với sự phát triển mạnh mẽ của Internet, các hình thức kết nối
và chia sẻ thơng tin trong cộng đồng mạng ngày càng phát triển đã thu hút một
lượng lớn người dùng tham gia. Qua đĩ, họ cĩ thể dễ dàng trao đổi, chia sẻ
thơng tin, thảo luận các vấn đề và sở thích cùng quan tâm. Một số mạng xã hội
phổ biến trên thế giới như: facebook, twitter và ở Việt Nam như Zing cĩ số
lượng người tham gia ngày càng đơng đảo. Các bài nhận xét thảo luân trên các
trang mạng tin tức, dịch vụ hay các diễn đàn cũng là một hình thức thể hiện
khác rất phát triển.
Các thơng tin được chia sẻ và thảo luận trên các trang mạng xã hội, trên
các diễn đàn thuộc rất nhiều chủ đề từ các lĩnh vực kinh tế, chính trị, xã hội
đến các vấn đề kỹ thuật, dịch vụ, cuộc sống hàng ngày.... Từ đĩ hình thành
nên các xu hướng, quan điểm của cộng đồng đối với việc đánh giá nhận xét
một vấn đề, một đối tượng, một sản phẩm hay một hiện tượng nào đĩ. Các
quan điểm, xu hướng này sẽ cĩ tác động mạnh mẽ đến định hướng, quan điểm
của người dùng khác.
Người dùng, hay chính các nhà cung cấp sản phẩm, dịch vụ cũng cĩ xu
hướng khai thác ý kiến đánh giá của người khác để sử dụng vào nhiều mục
đích khác nhau. Người dùng cần biết nhận xét về sản phẩm, dịch vụ cho lựa
chọn của mình, cịn các nhà sản xuất, cung cấp dịch vụ thì thu thập thơng tin
để phân tích nhu cầu, thị hiếu của khách hàng, phân tích các đối thủ cạnh
tranh để từ đĩ cĩ chiến lược nâng cao chất lượng sản phẩm và dịch vụ của
mình Và với lượng dữ liệu khổng lồ được tạo ra mỗi ngày thì nhu cầu cần
cĩ các hệ thống khai thác và phân tích quan điểm một cách tự động là rất cần
thiết.
Để phân tích quan điểm ta cần phải trích các thơng tin chứa quan điểm
để phân loại cĩ quan điểm hay khơng. Các thơng tin chưa quan điểm cĩ thể là
từ hoặc một cụm từ cĩ chứa quan điểm cảm xúc tích cực, tiêu cực, trung lập.
Trong khi người dùng cập nhật và chia sẻ thơng tin của họ trên các trang web
13
xã hội họ thường sử dụng lối hành văn tự do theo phong cách ngơn ngữ riêng
của họ. Do đĩ xuất hiện các từ mới thể hiện quan điểm trong các lĩnh vực.
Việc xuất hiện ngày càng nhiều các từ quan điểm mới nên việc nghiên cứu các
phương pháp trích rút tự động các từ quan điểm mới là rất cần thiết.
Chính vì lý do trên, em đã chọn đề tài “Phát hiện từ quan điểm mới cho
phân tích cảm xúc” cho đồ án tốt nghiệp của mình.
Nội dung đồ án bao gồm 3 chương :
Chương 1 : Tổng quan về phân tích quan điểm
Chương 2 : Phát hiện từ mới cho phân tích quan điểm
Chương 3 : Ứng dụng tìm từ quan điểm mới cho dữ liệu Tiếng Việt
Cuối cùng là phần kết luận.
14
CHƯƠNG 1 : TỔNG QUAN VỀ PHÂN TÍCH
QUAN ĐIỂM
1.1 Nhu cầu về thơng tin quan điểm và nhận xét
Những thơng tin nhận xét gĩp ý đã luơn luơn là một phần quan trọng
trong viêc̣ cung cấp thơng tin cho quá trình ra quyết điṇ h của hầu hết chúng ta.
Trướ c khi Internet trở lên phở biến, chúng ta thườ ng yêu cầu baṇ bè hay ngườ i
thân giới thiệu một thợ cơ khí tự động hoặc yêu cầu tài liệu tham khảo liên
quan đến xin việc từ các đồng nghiệp, hoặc tư vấn tiêu dùng. Ngày nay,
Internet và Web đa ̃ giúp cho chúng ta có thể dê ̃ dàng tiếp câṇ các ý kiến và
kinh nghiêṃ của những người khác mà khơng nhất thiết phải là những ngườ i
quen biết cá nhân, khơng phải là các nhà phê bình chuyên nghiêp̣ nởi tiếng,
những ngườ i mà chúng ta chưa bao giờ nghe nói tớ i trong khơng gian rộng
lớn. Và ngược lại, ngày càng nhiều và nhiều hơn nữa những ngườ i sẵn sàng
cung cấp các ý kiến của mình cho những ngườ i khác qua Internet.
Theo hai cuộc khảo sát của hơn 2000 người Mỹ trưởng thành mỗi: 81%
người dùng Internet (hoặc 60% người Mỹ) đã thực hiện nghiên cứ u trực tuyến
về một sản phẩm ít nhất một lần; 20% (15% của tất cả các người Mỹ) làm như
vậy trong một ngày. Trong số các độc giả đánh giá trực tuyến của nhà hàng,
khách sạn, và các dịch vụ khác nhau (ví dụ như, các cơ quan du lịch hoặc bác
sĩ), giữa 73% và 87% báo cáo đánh giá đã cĩ một ảnh hưởng đáng kể mua
hàng của họ. Người tiêu dùng sẵn sàng trả từ 20% đến 99% một mục đươc̣
đánh giá 5 sao cao hơn so với một mục đánh giá 4 sao, 32% đã cung cấp một
đánh giá về một sản phẩm, dịch vụ thơng qua một hệ thống xếp hạng trực
tuyến, trong đĩ cĩ 18% của cơng dân trực tuyến cao cấp, cĩ đăng một bình
luận trực tuyến hoặc xem xét về một sản phẩm hay dịch vụ.
Thớng kê nhanh chỉ ra rằng viêc̣ tiêu thu ̣ hàng hĩa và dịch vụ khơng
phải là động cơ duy nhất khi ngườ i dùng tìm kiếm hoặc thể hiện ý kiến trực
tuyến. Sư ̣ cần thiết của những thơng tin chính tri ̣ cũng là mơṭ yếu tớ quan
troṇ g. Ví dụ, trong một cuộc khảo sát hơn 2500 người Mỹ trưởng thành,
Rainie và Horrigan nghiên cứu có 31% người Mỹ - trên 60 triệu người - 2006
người dùng Internet vâṇ đơṇ g tranh cử , là những người thu thập thơng tin về
15
cuộc bầu cử năm 2006 trực tuyến và trao đổi nhâṇ xét thơng qua email. Trong
số này:
• 28% nĩi rằng nguyên nhân chính cho các hoạt động trực tuyến này để
thu nhâṇ được quan điểm từ bên trong cộng đồng của họ, và 34% cho biết một
lý do chính là để nhâṇ được quan điểm từ bên ngồi cộng đồng của họ.
• 27% đã xem đánh giá trực tuyến cho sự tán thành hoặc xếp hạng của
các tổ chức bên ngồi.
• 28% cho biết rằng hầu hết các trang web mà họ sử dụng để chia sẻ
quan điểm, nhưng 29% nĩi rằng phần lớn các trang web mà họ sử dụng thách
thức quan điểm của họ, chỉ ra rằng nhiều người khơng chỉ đơn giản là tìm
kiếm để xác nhận các quan điểm có trướ c của ho.̣
• 8% đăng bình luâṇ trực tuyến bình luận chính trị riêng của họ.
Đới vớ i ngườ i dùng tìm kiếm sư ̣ tin câỵ trong những lờ i khuyên và tư
vấn trưc̣ tuyến quan tâm đến viêc̣ xây dưṇ g mơṭ hê ̣ thớng mớ i để xử lý trưc̣
tiếp các quan điểm trướ c tiên là phân loaị chúng. Theo Horrigan thớng kê rằng
trong khi đa số người sử dụng internet của Mỹ cho rằng kinh nghiệm tích cực
trong nghiên cứ u sản phẩm trực tuyến, 58% cho rằng thơng tin trực tuyến là
thiếu, khó tìm, khĩ hiểu và hoăc̣ quá nhiều. Vì vậy, nhu cầu có mơṭ hê ̣thớng
để hỡ trơ ̣ ngườ i tiêu dùng tìm kiếm thơng tin là rất cần thiết.
Các nhà cung cấp sản phẩm ngày càng chú ý hơn đến sự quan tâm mà
người dùng cá nhân thể hiêṇ trong các nhận xét trực tuyến về sản phẩm và
dịch vụ, và sư ̣ ảnh hưởng như xu thế sử duṇ g.
Với sự bùng nổ của nền tảng Web 2.0 như các blog, diễn đàn thảo luận,
peer-to-peer mạng, và các loại khác nhau của các maṇ g xa ̃ hơị ...
• Thống kê của Facebook: cĩ hơn 500 triệu người dùng ở trạng thái
hoạt động (active) mỗi người cĩ trung bình 130 bạn (friends), trao đổi qua lại
trên 900 triệu đối tượng.
• Twitter (5/2011): cĩ hơn 200 triệu người dùng. Một ngày cĩ hơn 300
nghìn tài khoản mới, trung bình hơn 190 triệu tin nhắn, xử lý trung bình
khoảng 1,6 tỷ câu hỏi.
16
• Ở Việt Nam: các mạng xã hội zing.vn, go.vn thu hút được đơng
đảo người dùng tham gia.
Mơṭ lươṇ g đơng đảo ngườ i dùng gia tăng chưa từng cĩ và có quyền
chia sẻ kinh nghiệm và nhận xét của riêng họ về bất kỳ sản phẩm hoăc̣ dic̣ h
vu,̣ là tích cực hay tiêu cực. Khi các cơng ty lớn đang ngày càng nhận ra,
những tiếng nĩi của người tiêu dùng cĩ thể vận dụng rất lớn ảnh hưởng trong
việc hình thành nhận xét của người tiêu dùng khác, cuới cùng để trung thành
vớ i thương hiệu của họ, ho ̣ quyết định mua, và vận động cho chính thương
hiệu của họ... Cơng ty cĩ thể đáp ứng với những hiểu biết của người tiêu
dùng mà họ tạo ra thơng qua điều khiển phương tiện truyền thơng xã hội và
phân tích các thơng điêp̣ maketing của ho,̣ điṇ h vi ̣thương hiêụ , phát triển sản
phẩm và các hoaṭ đơṇ g phù hơp̣ khác.
Tuy nhiên, các nhà phân tích ngành cơng nghiệp lưu ý rằng việc tận
dụng các phương tiện truyền thơng mới cho mục đích theo dõi hình ảnh sản
phẩm địi hỏi cần phải có cơng nghệ mới.
Các nhà tiếp thị luơn luơn cần giám sát các phương tiện truyền thơng
cho thơng tin liên quan đến thương hiệu của mình - cho dù đĩ là đối với các
hoạt động quan hệ cơng chúng, vi phạm gian lận, hoặc tình báo cạnh tranh.
Nhưng phân mảnh các phương tiện truyền thơng và thay đổi hành vi của
người tiêu dùng đã loaị trừ các phương pháp giám sát truyền thống.
Technorati ước tính rằng 75. 000 blog mới được tạo ra mỗi ngày, cùng với 1,
2 triệu bài viết mỗi ngày, trong đó có nhiều nhận xét người tiêu dùng thảo
luận về sản phẩm và dịch vụ.
Vì vậy, khơng chỉ có cá nhân, mà các cơng ty, các tở chứ c đều quan
tâm đến mơṭ hệ thống cĩ khả năng tự động phân tích quan điểm của người tiêu
dùng.
1.2 Lịch sử của phân tích quan điểm và khai thác quan điểm
Liñ h vưc̣ phân tích quan điểm (sentiment analysis) hay khai thác quan
điểm (opinion mining) gần đây đã thu hút được sự quan tâm rộng rãi của các
nhà nghiên cứ u. Năm 2001 bắt đầu đánh dấu sư ̣ lan rộng nhận thức về các vấn
đề nghiên cứu và cơ hội nâng cao phân tích tình cảm và khai thác quan điểm.
17
Các nhân tớ đươc̣ nghiên cứ u gờm:
• Sự gia tăng của các phương pháp học máy, xử lý ngơn ngữ tự nhiên
và khơi phục thơng tin.
• Sự sẵn cĩ của các tâp̣ dữ liệu đào taọ cho các thuật tốn học máy, sư ̣
phát triển của Internet, cụ thể là sự phát triển của tâp̣ hơp̣ các trang Web thu
thâp̣ các ý kiến và quan điểm.
• Thực hiện những thách thức trí tuệ, thương mại và các ứng dụng
thơng minh trong liñ h vưc̣ này.
Thuâṭ ngữ khai thác quan điểm (Dave et al. 2003) là các cơng cu ̣ khai
thác quan điểm se ̃ xử lý một tập hợp các kết quả tìm kiếm cho một đới tươṇ g
nhất định, sinh ra một danh sách các thuộc tính sản phẩm (chất lượng, đăc̣
trưng, vv) và các quan điểm tổng hợp về chúng (kém, bình thườ ng, tớt).
“Phân tích quan điểm” là cụm từ song song của "khai thác quan điểm"
ở những khía cạnh nhất định (Das và Chen Tong, 2001). “Phân tích quan
điểm" và "khai thác quan điểm" biểu thị cùng một lĩnh vực nghiên cứu.
1.3 Một số nghiên cứu trong phân tích quan điểm
Gần đây, khai thác quan điểm đã trở thành chủ đề nĩng giữa các nhà
nghiên cứu xử lý ngơn ngữ tự nhiên và trích chọn thơng tin. Có khá nhiều các
bài báo được xuất bản và những ứng dụng khác nhau cĩ sử dụng hệ thống
đánh giá quan điểm được phát triển và đưa vào trong hoạt động thương mại.
Các tiếp câṇ chủ yếu vớ i bài toán này là:
Phân lớ p quan điểm thơng qua viêc̣ xá c điṇ h từ, cụm từ chỉ quan điểm
Xác định quan điểm vớ i cá c thể hiêṇ trong từ ng thuơc̣ tính của đới
tươṇ g cần tìm kiếm quan điểm.
1.3.1 Xác định cụm từ, quan điểm
Những từ, cụm từ chỉ quan điểm là những từ ngữ được sử dụng để diễn
tả cảm xúc, ý kiến người viết, những quan điểm chủ quan đĩ dựa trên những
vấn đề mà anh ta hay cơ ta đang tranh luận. Việc rút ra những từ, cụm từ chỉ
quan điểm là giai đoạn đầu tiên trong hệ thống đánh giá quan điểm, vì những
18
từ, cụm từ này là những chìa khĩa cho cơng việc nhận biết và phân loại tài
liệu sau đĩ.
Ứng dụng dựa trên hệ thống đánh giá quan điểm hiện nay tập trung vào
các từ chỉ nội dung câu: danh từ, động từ, tính từ và phĩ từ. Phần lớn cơng
việc sử dụng từ loại để rút chúng ra (Hu và Liu, 2004, Turney, 2002). Việc
gán nhãn từ loại cũng được sử dụng trong cơng việc này, điều này cĩ thể giúp
cho việc nhận biết xu hướng quan điểm trong giai đoạn tiếp theo. Những kĩ
thuật phân tích ngơn ngữ tự nhiên khác như xĩa: stopwords, stemming cũng
được sử dụng trong giai đoạn tiền xử lý để rút ra từ, cụm từ chỉ quan điểm
1.3.2 Sử dụng tính từ và phĩ từ
Những hệ thống hiện tại dùng để nhận biết những từ chỉ quan điểm hay
xu hướng quan điểm tập trung chủ yếu vào các tính từ và phĩ từ vì chúng
được xem là sự biểu lộ rõ ràng nhất của tính chủ quan ( Hatzivassiloglou and
McKeown, 1997, Wiebe and Bruce, 1999 ).
Hu và Liu (2004) áp dụng việc gán nhãn từ loại và kĩ thuật xử lý ngơn
ngữ tự nhiên nhằm rút ra những tính từ cũng như những từ chỉ quan điểm.
Phương pháp của ho ̣ dưạ vào viêc̣ phân loaị dưạ trên dấu hiêụ quan điểm về
sản phẩm:
. Định nghĩa một câu mà chứa một hay nhiều dấu hiệu sản phẩm và từ
chỉ quan điểm được xem là một câu chỉ quan điểm.
. Vớ i mỗi câu trong dữ liệu chỉ quan điểm, rút ra tất cả những tính từ
được coi là những từ chỉ quan điểm.
. Kết quả thực nghiệm việc rút ra những câu đánh giá quan điểm cĩ độ
chính xác (precision) khoảng 64.2% và recall là 69.3%.
. Sử dụng WordNet (Fellbaum, 1998) để xác định các tính từ được rút ra
mang chiều hướng tích cực (positive) hay tiêu cực (negative).
Trong WordNet, các tính từ được tổ chức thành các cụm từ lưỡng cực,
nửa cụm thứ hai phần đầu là từ trái nghĩa của cụm thứ nhất. Mỗi nửa cụm là
phần đầu của tập từ đồng nghĩa chính, tiếp theo là tập từ đồng nghĩa kèm theo,
đại diện cho ngữ nghĩa tương tự như những tính từ quan trọng. Ngược với
cách tiếp cận dựa trên từ điển, họ sử dụng định hướng quan điểm của những
từ đồng nghĩa và từ trái nghĩa để dự đốn định hướng của các tính từ. Họ bắt
19
đầu với một danh sách khởi đầu gồm 30 tính từ thơng dụng được chọn thủ
cơng (bằng tay). Sau đĩ sử dụng WordNet để dự đốn định hướng của tất cả
các tính từ trong danh sách từ quan điểm được rút ra bằng cách tìm kiếm qua
cụm lưỡng cực để tìm ra liệu các từ đồng nghĩa hay trái nghĩa cĩ trong danh
sách khởi đầu hay khơng. Khi định hướng của tính từ được dự đốn, nĩ sẽ
được bổ sung vào danh sách khởi đầu và cĩ thể được sử dụng để xác định
định hướng của các tính từ khác. Trong phương pháp này, danh sách khởi đầu
sẽ dần tăng lên khi sự định hướng của các tính từ được nhận dạng, và khi nĩ
ngừng gia tăng, tức qui mơ của danh sách khởi đầu trùng với qui mơ của danh
sách từ chỉ quan điểm, thì tất cả định hướng của các tính từ đã được nhận biết
và quá trình này kết thúc.
Những từ quan điểm thường tập trung chủ yếu vào hai từ loại: tính từ
và phĩ từ vì vậy càng nhận dạng chính xác được nhiều hai loại từ này hệ
thống càng cĩ độ chính xác cao
1.3.3 Sử dụng các động từ
Các tính từ và phĩ từ đĩng một vai trị quan trọng trong việc phân tích
quan điểm và là các loại từ cĩ lợi thế trong việc nhận biết định hướng và rút ra
các từ chỉ quan điểm trong các nghiên cứu hiện nay. Tuy nhiên, các loại từ
khác, ví dụ như động từ cũng được sử dụng để diễn tả cảm xúc hay ý kiến
trong các bài viết.
Nasukawa và Yi (2003) xem xét rằng bên cạnh các tính từ và phĩ từ,
thì các động từ cũng cĩ thể diễn tả quan điểm trong hệ thống đánh giá quan
điểm của họ. Họ phân loại các động từ cĩ liên quan đến quan điểm thành 2
loại. Loại thứ nhất trực tiếp thể hiện quan điểm tích cực hay tiêu cực, theo lý
giải của họ thì “beat” trong “X beats Y”. Loại thứ hai khơng thể hiện quan
điểm trực tiếp nhưng dẫn đến những quan điểm, giống như “is” trong “X is
good”.
Họ sử dụng gán nhañ từ loaị dựa trên mơ hình Markov (HMM)
(Manning and Schutze, 1999) và phân tích cú pháp nơng dựa trên luật (Neff et
al., 2003) cho bước tiền xử lý. Sau đĩ họ phân tích tính phụ thuộc về mặt cú
pháp giữa các cụm từ và tìm kiếm các cụm từ cĩ một từ chỉ quan điểm mà nĩ
bổ nghĩa hoặc được bổ nghĩa bởi một thuật ngữ chủ thể.
20
1.3.4 Xác định chiều hướng, cụm từ, quan điểm
Trong phân tích quan điểm, xu hướng của những từ, cụm từ trực tiếp
thể hiện quan điểm, cảm xúc của người viết bài. Phương pháp chính để nhận
biết xu hướng quan điểm của những từ, cụm từ chỉ cảm nghĩ là dựa trên thống
kê hoặc dựa trên từ vựng.
1.4. Nhiệm vụ của phân tích quan điểm
Phân tích quan điểm là những nghiên cứ u nhằm phát hiêṇ ra quan điểm
hay xu hướ ng của ngườ i dùng dưạ trên các kỹ thuâṭ liên quan đến vấn đề xử lý
ngơn ngữ tư ̣ nhiên. Cĩ hai hướng tiếp câṇ chính cho bài tốn này là : Phân lớ p
quan điểm (Sentiment Classification) và trích quan điểm (Sentiment
Extraction).
Trích quan điểm: bao gồm 3 nhiệm vụ chính là:
- Trích cá c đăc̣ trưng đới tươṇ g có nhâṇ xé t trong mơĩ quan điểm.
- Xá c điṇ h có hay khơng cá c quan điểm trong cá c đăc̣ trưng là
positive, negative hay neutral (phu ̣ thuơc̣ và o điṇ h daṇ g của cá c
quan điểm)
- Nhóm cá c cuṃ từ cù ng nghiã đăc̣ trưng
1.5. Bài tốn phân lớp quan điểm
Phân lớp là quá trình "nhĩm” các đối tượng "giống” nhau vào "một lớp”
dựa trên các đặc trưng dữ liệu của chúng. Tuy nhiên, phân lớp là một hoạt
động tiềm ẩn trong tư duy con người khi nhận dạng thế giới thực, đĩng vai trị
quan trọng làm cơ sở đưa ra các dự báo, các quyết định. Phân lớp và cách mơ
tả các lớp giúp cho tri thức được định dạng và lưu trữ trong đĩ.
Khi nghiên cứu một đối tượng, hiện tượng, chúng ta chỉ cĩ thể dựa vào
một số hữu hạn các đặc trưng của chúng. Nĩi cách khác, ta chỉ xem xét biểu
diễn của đối tượng, hiện tượng trong một khơng gian hữu hạn chiều, mỗi
chiểu ứng với một đặc trưng được lựa chọn. Khi đĩ, phân lớp dữ liệu trở thành
phân hoạch tập dữ liệu thành các tập con theo một tiêu chuẩn nhận dạng được.
Nhiệm vụ phân lớ p quan điểm đươc̣ xem xét vớ i hai tiếp câṇ chính là:
- Phân lớ p câu chứ a quan điểm
21
- Phân lớ p tài liêụ chứ a quan điểm.
Phân lớp câu/tài liệu chứa quan điểm có thể đươc̣ phát biểu như sau: Cho
mơṭ câu hay mơṭ tài liêụ chứ a quan điểm, haỹ phân loaị xem câu hay tài liêụ
đó thể hiêṇ quan điểm mang xu hướ ng tích cực(positive) hay tiêu cực
(negative), hoăc̣ trung lâp̣ (neutral).
Theo Bo Pang và Lillian Lee (2002) phân lớp câu/tài liệu chỉ quan điểm
khơng cĩ sự nhận biết của mỗi từ/ cụm từ chỉ quan điểm. Họ sử dụng học máy
cĩ giám sát để phân loại những nhận xét về phim ảnh. Khơng cần phải phân
lớp các từ hay cụm từ chỉ quan điểm, họ rút ra những đặc điểm khác nhau của
các quan điểm và sử dụng thuật tốn Nạve Bayes (NB), Maximum Entropy
(ME) và Support Vector Machine (SVM) để phân lớp quan điểm. Phương
pháp này đạt độ chính xác từ 78, 7% đến 82, 9%.
Input: Cho mơṭ tâp̣ các văn bản chứ a các ý kiến đánh giá về mơṭ đới tươṇ g
nào đó.
Output: Mỡi văn bản đươc̣ chia vào mơṭ lớ p theo mứ c đơ ̣ phân cưc̣
(polarity) về tiếp cận ngữ nghĩa nào đĩ (tích cưc̣ , tiêu cưc̣ hay
trung lâp̣ ).
Phân lớp tài liệu theo hướng quan điểm thật sự là vấn đề thách thức và
khĩ khăn trong lĩnh vự xử lý ngơn ngữ đĩ chính là bản chất phức tạp của ngơn
ngữ của con người, đặc biệt là sự đa nghĩa và nhập nhằng nghĩa của ngơn ngữ.
Sự nhập nhằng này rõ ràng sẽ ảnh hưởng đến độ chính xác bộ phân lớp của
chúng ta một mức độ nhất định. Một khía cạnh thách thức của vấn đề này
dường như là phân biệt nĩ với việc phân loại chủ đề theo truyền thống đĩ là
trong khi những chủ đề này được nhận dạng bởi những từ khĩa đứng một
mình, quan điểm cĩ thể diễn tả một cách tinh tế hơn. Ví dụ câu sau: “Làm thế
nào để ai đĩ cĩ thể ngồi xem hết bộ phim này ?”khơng chứa ý cĩ nghĩa duy
nhất mà rõ ràng là nghĩa tiêu cực. Theo đĩ, qua
Các file đính kèm theo tài liệu này:
- do_an_phat_hien_tu_quan_diem_moi_cho_phan_tich_cam_xuc.pdf