ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THANH HUYỀN
PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
TRONG HỆ THÔNG TIN TƢ VẤN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN
ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ THANH HUYỀN
PHƢƠNG PHÁP LỌC CỘNG TÁC VÀ ỨNG DỤNG
TRONG HỆ THÔNG TIN TƢ VẤN
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01
LUẬN VĂN THẠC SĨ KH
69 trang |
Chia sẻ: huong20 | Ngày: 13/01/2022 | Lượt xem: 381 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Phương pháp lọc cộng tác và ứng dụng trong hệ thông tin tư vấn, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
HOA HỌC MÁY TÍNH
Ngƣời hƣớng dẫn khoa học: PGS.TS ĐOÀN QUANG BAN
THÁI NGUYÊN - 2015
Số hóa bởi Trung tâm Học liệu – ĐHTN
i
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này c a t n th n tôi t m hi u, nghi n c u
i s h ng n c a PGS TS Đoàn Văn an c ch ng tr nh o ch nh
n th n tôi lập tr nh c c k t qu là hoàn toàn trung th c c tài liệu tham
kh o đ c tr ch n và ch th ch đ y đ .
Tác giả
Lê Thanh Huyền
Số hóa bởi Trung tâm Học liệu – ĐHTN
ii
LỜI CẢM ƠN
Tôi xin y t l i c m n ch n thành t i tập th c c Th y cô Viện ông
nghệ thông tin - Viện Hàn L m Khoa h c và công nghệ Việt Nam c c Th y cô
gi o Đ i h c ông nghệ thông tin và truy n thông - Đ i h c Th i Nguy n đ y
ch ng tôi trong su t qu tr nh h c tập ch ng tr nh cao h c t i tr ng.
Đ c iệt tôi xin ày t l ng i t n s u sắc t i Th y gi o PGS TS
Đoàn Văn an đ quan t m đ nh h ng và đ a ra nh ng g p g i
ch nh s a qu u cho tôi trong qu tr nh làm luận văn t t nghiệp ng
nh n đ ng nghiệp gia đ nh và ng i th n đ quan t m gi p đ chia
s v i tôi trong su t qu tr nh làm luận văn t t nghiệp
đ c gắng nh ng chắc chắn s không tr nh kh i nh ng thi u s t v
vậy r t mong nhận đ c s đ ng g p ki n c a c c Th y ô và c c n đ
luận văn đ c hoàn thiện h n
Tôi xin ch n thành c m n
Th i Ngu n th ng n m 5
L Th nh Hu ền
Số hóa bởi Trung tâm Học liệu – ĐHTN
iii
MỤC LỤC
Trang
LỜI AM ĐOAN ................................................................................................. i
LỜI M N ..................................................................................................... ii
MỤC LỤC ......................................................................................................... iii
DANH MỤC CÁC CHỮ VIẾT TẮT .................................................................. vi
DANH MỤC CÁC B NG ................................................................................. vii
DANH MỤC CÁC HÌNH ................................................................................. viii
MỞ ĐẦU .......................................................................................................... 1
Chƣơng 1: PHƢƠNG PHÁP LỌC TIN ........................................................ 4
1 1 c ph ng ph p l c thông tin ................................................................ 4
1 1 1 Ph ng ph p l c tin theo nội dung ....................................................... 4
1.1.1.1 Bài toán l c theo nội dung .................................................................. 4
1 1 1 2 c ph ng ph p ph p l c theo nội dung .......................................... 5
1 1 2 Ph ng ph p l c tin theo cộng tác ....................................................... 6
1.1.2.1 Bài toán l c cộng tác........................................................................... 6
1 1 2 2 c ph ng ph p l c cộng tác. ........................................................... 7
1 1 3 Ph ng pháp l c tin k t h p ............................................................... 11
1.1.3.1 Bài toán l c k t h p .......................................................................... 11
1 1 3 2 c ph ng ph p l c k t h p ........................................................... 12
1.1.4. Ứng dụng c a c c ph ng ph p l c tin .............................................. 13
1.2. Hệ th ng thông tin t v n ...................................................................... 13
1.2.1. Ki n trúc tổng quan c a hệ th ng l c thông tin.................................. 13
1.2.2. L c thông tin và các hệ t v n ............................................................ 15
Chƣơng 2: MỘT SỐ PHƢƠNG PHÁP LỌC CỘNG TÁC ...................... 17
2.1. L c cộng tác d a trên s n phẩm. ........................................................... 17
2.1.1.Thuật to n t nh độ t ng t ................................................................. 19
Số hóa bởi Trung tâm Học liệu – ĐHTN
iv
2 1 1 1 Độ t ng t Cosine. .......................................................................... 19
2 1 1 2 Độ t ng t t ng quan ................................................................... 20
2 1 1 3 Độ t ng t osine đi u ch nh. ........................................................ 21
2.1.2.Tính toán d đo n và t v n ................................................................ 23
2.1.2.1 Công th c d đo n a tr n trung nh đ nh gi s n phẩm lân cận .... 23
2.1.2.2 Công th c d đo n a trên tổng tr ng s . ...................................... 24
2.1.2.3 Công th c d đo n a trên tổng tr ng s v i đ nh gi trung nh
c a ng i dùng ............................................................................................. 25
2.1.2.4 Công th c d đo n a trên tổng tr ng s v i trung nh đ nh gi
lên s n phẩm ................................................................................................. 26
2.1.3. Thuật toán l c cộng tác d a trên s n phẩm ........................................ 27
2 1 3 1 Độ t ng t Cosine ........................................................................... 28
2.1.3.2 Độ t ng t osine đi u ch nh ......................................................... 28
2.1.3.3 D đo n a tr n trung nh đ nh gi s n phẩm lân cận ................. 29
2.1.3.4 D đo n a trên tổng tr ng s ........................................................ 29
2.1.3.5 D đo n a trên tổng tr ng s v i trung nh đ nh gi l n ng i dùng . 30
2 1 4 Đ nh gi c c y u t nh h ởng đ n độ chính xác k t qu t v n ..... 31
2 1 4 1 Đ nh gi ch t l ng c a hệ th ng t v n ......................................... 31
2.1.4.2 Các y u t nh h ởng đ n độ ch nh x c t v n ................................ 31
2.2. L c cộng tác d a tr n mô h nh đ th .................................................... 32
2 2 1 Ph ng ph p i u diễn đ th ............................................................. 32
2 2 2 Ph ng pháp d đo n tr n đ th ng i dùng - s n phẩm ................. 34
2 2 2 1 T ch đ th Ng i dùng-S n phẩm thành c c đ th con ................ 35
2 2 2 2 Ph ng ph p đo n tr n đ th có tr ng s ng G+ ................. 37
2 2 2 3 Ph ng ph p đo n tr n đ th các c nh có tr ng s âm G- ........ 39
2 2 2 4 Ph ng ph p đo n theo t t c đ nh gi ...................................... 41
2.3. L c cộng tác d a vào l c đ ng hu n luyện ........................................... 43
Số hóa bởi Trung tâm Học liệu – ĐHTN
v
2.3.1. Mô t thuật to n đ ng hu n luyện ...................................................... 44
2.3.2. Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo
ng i dùng .................................................................................................... 44
2.3.3 L c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm ..... 46
Chƣơng 3: XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA
DÀNH CHO NGƢỜI TIÊU DÙNG ............................................................ 51
3.1. Phát bi u bài toán. .................................................................................. 51
3.2. Phân tích thi t k hệ th ng t v n s n phẩm s a................................... 51
3.2.1. Phân tích các yêu c u .......................................................................... 51
3.2.2. Thi t k hệ th ng t v n s n phẩm s a. ............................................. 53
3.3. Xây d ng ch ng tr nh ng dụng .......................................................... 54
3.4. K t luận. ................................................................................................... 56
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................... 57
TÀI LIỆU THAM KHẢO ............................................................................ 57
Số hóa bởi Trung tâm Học liệu – ĐHTN
vi
DANH MỤC CÁC CHỮ VIẾT TẮT
KÝ HIỆU DIỄN GI I
IF Information Filtering (L c thông tin)
IR Information Retrieval (Truy v n thông tin)
RS Recommender System (Hệ th ng t v n)
u User (Ng i dùng)
i Item (S n phẩm)
Số hóa bởi Trung tâm Học liệu – ĐHTN
vii
DANH MỤC CÁC BẢNG
Trang
B ng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác ....................................... 7
B ng 2.1. B ng đ nh gi ng i dùng v i các s n phẩm ................................. 18
B ng 2.2. B ng t nh độ t ng t theo công th c Cosine ................................ 20
B ng 2.3. B ng t nh độ t ng t theo công th c t ng quan ......................... 21
B ng 2.4. B ng t nh độ t ng t theo công th c osine đi u ch nh .............. 22
B ng 2.5. B ng d đo n và t v n theo ph ng ph p t nh trung nh đo n . 24
B ng 2.6. B ng d đo n và t v n theo ph ng pháp Weigth Sum ............... 25
B ng 2.7. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh giá
trung bình c a ng i dùng và s dụng độ t ng t Ajusted Cosine. ...... 26
B ng 2.8. B ng d đo n và t v n theo ph ng ph p tổng tr ng s v i đ nh
giá trung bình s n phẩm và s dụng độ t ng t Ajusted Cosine. .... 27
B ng 2.9. Ma trận đ nh gi R ......................................................................... 33
B ng 2.10. Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm ............ 33
B ng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p .............................. 36
B ng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p ..................... 36
B ng 2.13: Ng i dùng và s n phẩm .............................................................. 48
B ng 2.14: B ng giá tr đ nh gi theo ng i dùng. ........................................ 48
B ng 2.15: B ng giá tr đ nh gi theo s n phẩm ............................................ 49
Số hóa bởi Trung tâm Học liệu – ĐHTN
viii
DANH MỤC CÁC HÌNH
Trang
Hình 1.1. Ki n trúc tổng quát c a hệ th ng l c thông tin. .............................. 14
Hình 2.1. Mô hình hệ th ng l c cộng tác d a trên s n phẩm ......................... 31
Hình 2.2. Đ th ng i dùng - s n phẩm ......................................................... 34
Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p .................................... 36
Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p ......................... 37
Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a. ............................. 55
Hình 3.4: Ng i ng đăng nhập vào hệ th ng. ............................................. 55
Hình 3.5: Hệ th ng l c cộng tác d a vào bộ nh ........................................... 55
Hình 3.6: Hệ th ng l c cộng tác d a vào đ th ............................................. 56
Số hóa bởi Trung tâm Học liệu – ĐHTN
1
MỞ ĐẦU
Xã hội loài ng i ch ng ki n s ph t tri n m nh m và sôi động c a
thông tin trong m i l nh v c đ c biệt là s gia tăng không ngừng l ng thông
tin khổng l đ n từ hàng trăm k nh truy n hình, hàng triệu ăng h nh s ch
báo, t p chí, tài liệu thông qua các hệ th ng giao d ch điện t . Vì vậy ng i
dùng s g p kh khăn trong việc l a ch n thông tin h u ch Nhi u nhà khoa
h c m y t nh tr n th gi i nhiệt t nh h ởng ng và quan t m nghi n c u
ph ng ph p h n ch nh h ởng c a v n đ quá t i thông tin đ i v i ng i
ng th c đẩy một l nh v c nghiên c u m i đ là l c thông tin.
L c thông tin (Infomation Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu
qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay.
Hệ t v n (Recommender System) [1,2] là hệ th ng có kh năng t
động phân tích, phân lo i, l a ch n và cung c p cho ng i dùng nh ng thông
tin, hàng hóa hay d ch vụ mà h quan tâm. Hệ t v n đ c xem nh một bi n
th đi n hình có vai trò quan tr ng trong l c thông tin. Nhi u hệ t v n đ
đ c th ng m i hóa và tri n khai thành công, tiêu bi u là hệ t v n c a các
hãng Amazon.com, Netflix.com, Procter & Gamble.
Hệ t v n đ c xây d ng d a trên hai kỹ thuật l c thông tin chính: L c
theo nội dung (Content-Based Filtering) và l c cộng tác (Collaborative
Filtering) [1]. L c theo nội dung khai thác nh ng khía c nh li n quan đ n nội
dung thông tin s n phẩm ho c ng i ng đ từng s dụng hay truy nhập
trong quá kh đ t o n n t v n. Trái l i, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm c a cộng
đ ng ng i dùng có cùng sở th ch đ t o nên t v n.
Số hóa bởi Trung tâm Học liệu – ĐHTN
2
So v i l c theo nội dung, l c cộng tác không ph i phân tích, bóc tách,
hi u đ nh ch mục cho c c đ c tr ng nội dung s n phẩm, l c cộng tác có th
l c hiệu qu trên nhi u d ng s n phẩm kh c nhau nh hàng h a s a, nh, tài
liệu. Chính vì vậy tác gi đ l a ch n đ tài “Phương ph p lọc cộng tác và
ứng dụng trong hệ thông tin tư vấn” đ th c hiện trong khuôn khổ luận văn
th c s chuy n ngành khoa h c máy tính.
Đối tƣợng và phạm vi nghiên cứu
- Nghiên c u ph ng ph p l c cộng tác d a trên bộ nh ph ng pháp
l c cộng tác d a trên mô hình và ph ng ph p l c cộng tác k t h p bộ nh và
mô hình.
- Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ t ng
t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh đ th
ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin cho hệ
t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n phẩm và
ng i dùng Đ c biệt xây d ng ng dụng hệ thông tin t v n s n phẩm s a
ành cho ng i tiêu dùng.
Hƣớng nghiên cứu củ đề tài
Tập trung nghiên c u hai v n đ chính.
1. Trình bày c c ph ng ph p l c thông tin, ng dụng c a c c ph ng
pháp l c thông tin, hệ th ng thông tin t v n v i ki n trúc tổng quan c a hệ
th ng l c thông tin, l c thông tin và các hệ t v n.
2. Nghiên c u l c cộng tác d a trên s n phẩm v i thuật to n t nh độ
t ng t , l c cộng tác d a tr n mô h nh đ th v i thuật toán d a trên mô hình
đ th ng i dùng - s n phẩm nhằm c i thiện độ chính xác c a l c thông tin
cho hệ t v n và thuật toán l c bằng ph ng ph p đ ng hu n luyện theo s n
phẩm và ng i dùng.
Phƣơng pháp nghi n cứu
Số hóa bởi Trung tâm Học liệu – ĐHTN
3
- Nghiên c u lý thuy t: Nghiên c u các khái niệm v l c thông tin,
trong đ đi s u vào nghi n c u l c cộng tác. Nghiên c u thuật toán tính
độ t ng t ph ng ph p i u diễn đ th và ph ng ph p l c d a vào
l c đ ng hu n luyện.
- Nghiên c u th c nghiệm: Xây d ng ph n m m ng dụng hệ thông tin
t v n s n phẩm s a ành cho ng i tiêu dùng.
Ý nghĩ kho học củ đề tài
- Khai th c đ c thuật to n t nh độ t ng t .
- Khai th c ph ng pháp bi u diễn đ th và ph ng ph p đo n tr n
đ th ng i dùng.
- Khai th c đ c thuật toán l c đ ng hu n luyện theo s n phẩm và l c
đ ng hu n luyện theo ng i dùng.
Bố cục luận văn
h ng 1: Ph ng ph p l c tin.
Trình bày tổng quan v c c ph ng ph p l c thông tin và hệ th ng
thông tin t v n.
h ng 2: Một s ph ng ph p l c cộng tác.
Trình bày thuật toán l c cộng tác d a trên s n phẩm, thuật toán d a
tr n mô h nh đ th ng i dùng - s n phẩm và thuật to n đ ng hu n luyện.
h ng 3: h ng tr nh ng dụng.
Xây d ng ch ng tr nh ng dụng s n phẩm s a ành cho ng i tiêu dùng.
Số hóa bởi Trung tâm Học liệu – ĐHTN
4
Chƣơng 1
PHƢƠNG PHÁP LỌC TIN
1.1. Các phƣơng pháp lọc thông tin
L c thông tin (Information Filtering) [1] là l nh v c nghiên c u quá
trình l c b nh ng thông tin không thích h p và cung c p thông tin thích h p
đ n v i m i ng i dùng. L c thông tin đ c xem là một ph ng ph p hiệu
qu h n ch tình tr ng quá t i thông tin đ c quan tâm nhi u nh t hiện nay.
3 ph ng ph p l c thông tin.
1.1.1. Phương pháp lọc tin theo nội dung
L c theo nội ung là ph ng ph p th c hiện d a trên việc so sánh nội
dung thông tin hay mô t hàng hóa, nhằm tìm ra nh ng s n phẩm t ng t v i
nh ng gì mà ng i ng đ từng quan tâm đ gi i thiệu cho h nh ng s n
phẩm này [3]. Các ph ng ph p ti p cận cho l c theo nội dung có ngu n g c
từ l nh v c truy v n thông tin trong đ m i s n phẩm đ c bi u diễn bằng
một h s s n phẩm, m i ng i dùng đ c bi u diễn bằng một h s ng i
ng Ph ng ph p đo n nội dung nguyên b n c a s n phẩm th c hiện
d a vào việc xem xét các h s s n phẩm có m c độ phù h p cao v i h s
ng i dùng.
1.1.1.1 Bài toán lọc theo nội dung
Bài toán l c theo nội ung đ c phát bi u nh sau ho P = {p1, p2,..,
pN} là tập g m N s n phẩm. Nội dung s n phẩm p∈ P đ c ký hiệu là
Content(p) đ c bi u diễn thông qua tập K đ c tr ng nội dung c a P. Tập các
đ c tr ng s n phẩm p đ c xây d ng bằng các kỹ thuật truy v n thông tin đ
th c hiện mục đ ch đo n nh ng s n phẩm kh c t ng t v i p.
Cho U = { u1, u2,.., uM} là tập g m M ng i dùng. V i m i ng i
dùng u∈ U, g i ContentBasedProfile(u) là h s ng i dùng u. H s c a
ng i dùng u th c ch t là l ch s truy cập ho c đ nh gi c a ng i đ đ i v i
Số hóa bởi Trung tâm Học liệu – ĐHTN
5
các s n phẩm. ContentBasedProfile(u) đ c xây d ng bằng cách phân tích
nội dung các s n phẩm mà ng i dùng u đ từng truy nhập ho c đ nh gi a
trên các kỹ thuật truy v n thông tin.
Bài toán l c theo nội dung khi đ là đo n nh ng s n phẩm m i có
nội dung thích h p v i ng i dùng d a trên tập h s s n phẩm Content(p) và
h s ng i dùng ContendBasedProfile(u).
1.1.1.2 C c phương ph p ph p lọc theo nội dung
L c theo nội ung đ c ti p cận theo hai xu h ng: L c d a trên bộ
nh và l c d a trên mô hình.
Lọc nội dung dựa vào bộ nhớ
L c nội dung d a vào bộ nh là ph ng ph p s dụng toàn bộ tập h
s s n phẩm và tập h s ng i ng đ th c hiện hu n luyện và d đo n
Trong ph ng ph p này c c s n phẩm m i đ c tính toán và so sánh v i t t
c h s ng i dùng. Nh ng s n phẩm m i có m c độ t ng t cao nh t v i
h s ng i dùng s đ c dùng đ t v n cho ng i dùng này.
Lọc nội dung dựa vào mô hình
L c nội dung d a tr n mô h nh là ph ng ph p s dụng tập h s s n
phẩm và tập h s ng i dùng đ xây d ng nên mô hình hu n luyện. Mô hình
d đo n sau đ s s dụng k t qu c a mô hình hu n luyện đ sinh ra t v n
cho ng i dùng. Trong cách ti p cận này, l c nội dung có th s dụng các kỹ
thuật h c m y nh m ng Bayes, phân cụm, cây quy t đ nh, m ng n ron nh n
t o đ t o nên d đo n
Pazzani và Billsus [9] s dụng bộ phân lo i Bayes d a trên nh ng đ nh
gi “thích” ho c “không thích” c a ng i ng đ phân lo i các s n phẩm.
Trong đ ph ng ph p c l ng xác su t s n phẩm pj có thuộc l p Ci hay
không d a vào tập c c đ c tr ng nội dung k1j,..,knj c a s n phẩm đ
P( Ci| k1j&k2j & .. &knj ) (1.1)
Số hóa bởi Trung tâm Học liệu – ĐHTN
6
Panzanni và Billsus gi thi t c c đ c tr ng nội dung xu t hiện độc lập nhau, vì
vậy xác su t ở tr n t ng ng v i:
P( Ci) ∏ P(kxj| Ci) (1.2)
x: là ng i dùng ch y từ 1 n
Vì P(kxj| Ci) và P(Ci) có th c l ng d a vào tập d liệu hu n luyện. Do
vậy, s n phẩm pj đ c xem là thuộc l p Ci n u xác su t P( Ci| k1j&k2 j & .. &kn
j ) có giá tr cao nh t thuộc l p này.
Solombo[5] đ xu t mô hình l c thích nghi, trong đ ch tr ng đ n việc
quan sát m c phù h p c a t t c các s n phẩm.
1.1.2. Phương pháp lọc tin theo cộng tác
Không gi ng nh l c theo nội dung, l c cộng tác khai thác nh ng khía
c nh li n quan đ n thói quen sở thích c a ng i s dụng s n phẩm đ đ a ra
d đo n c c s n phẩm m i cho ng i dùng này. So v i l c theo nội dung, l c
cộng tác không ph i phân tích, bóc tách, hi u, đ nh ch mục cho c c đ c
tr ng nội dung s n phẩm. Chính vì vậy, l c cộng tác có th l c hiệu qu trên
nhi u d ng s n phẩm kh c nhau nh hàng hóa, s a, nh, tài liệu [4]. Cùng
trên một hệ t v n ng i dùng s đ c t v n nhi u lo i m t hàng khác nhau
cho dù các m t hàng này có th bi u diễn tr n không gian c c đ c tr ng nội
dung khác nhau.
1.1.2.1 Bài toán lọc cộng tác
Ký hiệu U= {u1, u2 uN} là tập g m N ng i dùng, P= {p1, p2,..,
pM} là tập g m M s n phẩm mà ng i dùng có th l a ch n. M i s n phẩm
pi∈ P có th là hàng hóa, s a, nh, t p chí, tài liệu, sách, báo, d ch vụ ho c b t
kỳ d ng thông tin nào mà ng i dùng c n đ n.
Ti p theo, ký hiệu R={rij}, i = 1..N, j = 1..M là ma trận đ nh gi trong
đ m i ng i dùng ui∈ U đ a ra đ nh gi c a mình cho một s s n phẩm pj∈
P bằng một tr ng s rij. Giá tr rij ph n ánh m c độ a th ch c a ng i dùng ui
Số hóa bởi Trung tâm Học liệu – ĐHTN
7
đ i v i s n phẩm pj. Giá tr rij có th đ c thu thập tr c ti p bằng cách h i ý
ki n ng i dùng ho c thu thập gián ti p thông qua c ch ph n h i c a ng i
dùng. Giá tr rij = Ø trong tr ng h p ng i dùng ui ch a đ nh gi ho c ch a
bao gi bi t đ n s n phẩm pj.
V i một ng i dùng c n đ c t v n ua (đ c g i là ng i dùng hiện
th i ng i dùng c n đ c t v n hay ng i dùng tích c c), bài toán l c
cộng tác là bài toán d đo n đ nh gi c a ua đ i v i nh ng m t hàng mà ua
ch a đ nh gi (raj = Ø) tr n c sở đ t v n cho ua nh ng s n phẩm đ c
đ nh gi cao
B ng 1.1 th hiện một ví dụ v i ma trận đ nh gi R = (rij) trong hệ g m
5 ng i dùng U = {u1, u2, u3, u4, u5} và 4 s n phẩm P= {p1, p2, p3, p4}. M i
ng i dùng đ u đ a ra c c đ nh gi c a mình v các s n phẩm theo thang bậc
{Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ c hi u là ng i dùng ui ch a đ nh gi
ho c ch a bao gi bi t đ n s n phẩm pj. Các giá tr r5,2 = ? là s n phẩm hệ
th ng c n d đo n cho ng i dùng u5.
Bảng 1.1.Ví dụ v ma trận đ nh gi c a l c cộng tác
p1 p2 p3 p4
u1 2 1 3 5
u2 4 2 1 Ø
u3 3 Ø 2 4
u4 4 4 Ø Ø
u5 4 ? 5 5
Ma trận đ nh gi R= (rij) là thông tin đ u vào duy nh t c a c c ph ng
pháp l c cộng tác. D a trên ma trận đ nh gi c c ph ng ph p l c cộng tác th c
hiện hai tác vụ: D đo n quan đi m c a ng i dùng hiện th i (Active User) v
các s n phẩm mà h ch a đ nh gi đ ng th i đ a ra một danh sách các s n
phẩm có đ nh gi cao nh t phân bổ cho ng i dùng hiện th i.
1.1.2.2 C c phương ph p lọc cộng tác
Số hóa bởi Trung tâm Học liệu – ĐHTN
8
ng gi ng nh l c theo nội dung, l c cộng tác ti p cận theo hai xu
h ng chính: L c cộng tác d a trên bộ nh và l c cộng tác d a trên mô hình.
M i ph ng ph p ti p cận có nh ng u đi m và h n ch riêng, khai thác các
m i liên hệ trên ma trận đ nh gi ng i dùng. Cách ti p cận cụ th m i
ph ng ph p đ c th c hiện nh sau.
Lọc cộng tác dựa trên bộ nhớ
c ph ng ph p l c d a trên bộ nh s dụng toàn bộ ma trận đ nh gi
đ sinh ra d đo n c c s n phẩm cho ng i dùng hiện th i. V th c ch t đ y
là ph ng ph p h c l i hay h c d a trên ví dụ đ c s dụng trong h c máy.
Ph ng ph p đ c th c hiện theo hai c: Tính toán m c độ t ng t và
c t o nên d đo n
• T nh to n m c độ t ng t sim(x, y): Mô t kho ng cách, s liên quan, hay
tr ng s gi a hai ng i dùng x và y (ho c gi a hai s n phẩm x và y).
• đo n: Đ a ra đo n cho ng i dùng c n đ c t v n bằng cách xác
đ nh tập láng gi ng c a ng i dùng này. Tập láng gi ng c a ng i dùng c n
t v n đ c xác đ nh d a trên m c độ t ng t gi a các c p ng i dùng ho c
s n phẩm.
Việc tính toán m c độ t ng t gi a hai ng i dùng x và y đ c xem
xét d a vào tập s n phẩm c hai ng i dùng đ u đ nh gi T ng t , việc tính
toán m c độ t ng t gi a hai s n phẩm x và y đ c xem xét d a vào tập
ng i dùng cùng đ nh gi c hai s n phẩm Sau đ s dụng một độ đo cụ th
đ xác đ nh m c độ t ng t gi a hai ng i dùng ho c s n phẩm.
Chú ý rằng c hai ph ng ph p l c theo nội dung và l c cộng tác đ u
s dụng độ đo cosin gi ng nhau trên tập các s n phẩm. Tuy nhiên, l c theo
nội dung s dụng độ t ng t cosin cho các véc t c a tr ng s đ c tính
theo độ đo t n su t và t n su t xu t hiện ng c, l c cộng tác s dụng cosin
gi a hai véc t i u diễn đ nh gi c a ng i dùng.
Lọc cộng tác dựa vào mô hình
Số hóa bởi Trung tâm Học liệu – ĐHTN
9
Khác v i ph ng ph p a trên bộ nh ph ng ph p l c d a trên mô
hình [2] s dụng tập đ nh giá đ xây d ng mô hình hu n luyện. K t qu c a
mô hình hu n luyện đ c s dụng đ sinh ra d đo n quan đi m c a ng i
dùng v các s n phẩm ch a đ c h đ nh gi Ưu đi m c a c a ph ng ph p
này là mô hình hu n luyện c k ch th c nh h n r t nhi u so v i ma trận
đ nh gi và th c hiện d đo n nhanh Mô h nh ch c n cập nhật l i khi có
nh ng thay đổi l n và ch th c hiện l i ph n xây d ng mô hình.
Mô hình mạng Bayes
Mô hình m ng Bayes [6] bi u diễn m i s n phẩm nh một đ nh c a đ
th , tr ng thái c a đ nh t ng ng v i giá tr đ nh gi c a ng i dùng đ i v i
s n phẩm đ đ c đ nh gi u trúc c a m ng đ c phận bi t từ tập d liệu
hu n luyện. Breese [6] đ xu t ph ng ph p m ng ayes đ n gi n cho l c
cộng t c trong đ nh ng đ nh gi ch a i t đ c tính toán theo công th c
(1.3). Breese gi thi t các giá tr đ nh gi đ c xem xét nh nh ng s nguyên
nằm gi a 0 và n. Đ nh gi ch a bi t c a ng i dùng u đ i v i s n phẩm p là
ru,p đ c c l ng thông qua nh ng đ nh gi tr c đ c a ng i dùng u.
G i Pu= { p’∈ P| rup’ ≠ Ø} Khi đ đ nh gi ch a i t c a ng i dùng u đ i
v i s n phẩm p đ c tính theo công th c
n
rup = E(rup) = i Prrup i rup', p' Pu (1.3)
i0
Billsus và Pazzani [9] chuy n đổi d liệu có nhi u m c đ nh giá thành d liệu
nh ph n Khi đ ma trận đ nh gi đ c chuy n đổi thành ma trận bao g m
đ c tr ng nh phân. Việc chuy n đổi này làm cho việc s dụng mô hình m ng
r trở nên thuận tiện h n Tuy nhi n k t qu phân lo i theo c c đ c tr ng nh
phân không ph n nh đ ng c c ộ d liệu th c
Mô hình phân cụm
Một cụm là tập các đ i t ng d liệu có các ph n t trong cụm gi ng
nhau nhi u nh t, và khác nhau nhi u nh t đ i v i các ph n t thuộc các cụm
khác c ph ng ph p ph n cụm cho l c cộng t c đ c s dụng đ phân
Số hóa bởi Trung tâm Học liệu – ĐHTN
10
chia tập ng i dùng (ho c tập s n phẩm) thành các cụm ng i dùng (ho c s n
phẩm) có sở th ch t ng t nhau Khi đ ng i dùng (ho c s n phẩm) thuộc
cụm nào s đ c d đo n và t v n các s n phẩm đ c đ nh gi cao trong
cụm đ [7] Độ đo ng đ c l ng m c độ gi ng nhau gi a c c đ i t ng
d liệu th ng đ c s dụng là kho ng cách Minkowski và độ t ng quan
Pearson.
Cho hai đ i t ng d liệu X = (x1, x2,..,xn), Y = (y1, y2,..,yn). Khi
đ kho ng c ch Minkowski đ c đ nh ngh a theo công th c
n
q
q
d(X,Y) = xi yi
i1
Trong đ n là s chi u c a X và Y; xi, yi là giá tr thành ph n th i c a
X và Y; q là một s nguyên ng N u q =1, thì d(X,Y) là kho ng cách
Minkowski. N u q =2, thì d(X,Y)là kho ng cách Euclid.
Sarwar và Herlocker [7] cùng các cộng s s dụng các kỹ thuật phân
cụm chia tập ng i dùng thành các cụm Ph ng ph p đo n s dụng các
thuật toán d a trên bộ nh nh độ t ng quan Pearson đ th c hiện trên m i
cụm d liệu.
Si và Jin [8] đ xu t mô hình phân cụm bằng mô hình pha trộn linh
ho t (Flexible Mixture Mo el) Ph ng ph p ph n cụm đ ng th i cho c
ng i dùng và s n phẩm và cho phép m i ng i dùng ho c s n phẩm có th
thuộc nhi u cụm khác nhau, sau đ mô h nh h a c c cụm ng i dùng và các
cụm s n phẩm độc lập nhau đ th c hiện d đo n K t qu th nghiệm đ
ch ng t ph ng ph p cho l i k t qu t t h n so v i ph ng ph p a trên độ
t ng quan Pearson và mô h nh đ nh h ng (Aspect Model).
Mô hình ngữ nghĩa ẩn:
Mô hình ng ngh a ẩn cho l c cộng tác d a vào các kỹ thuật th ng kê,
trong đ c c tham i n ẩn đ c thi t lập trong một mô hình h n h p đ khám
phá ra cộng đ ng ng i dùng phù h p v i m u h s thích h p.
Số hóa bởi Trung tâm Học liệu – ĐHTN
11
Si và Jin [8] đ xu t mô h nh đa th c (Multinomial Model) phân lo i
tập ng i dùng v i gi thi t ch có một ki u ng i dùng duy nh t. Marlin [5]
đ xu t mô hình pha trộn đa th c (Multinomial Mixture Model), k t h p v i
mô hình đ nh h ng đ t o nên mô hình h s đ nh gi ng i dùng(User
Rating Profile) v i gi thi t có nhi u ki u ng i ng và c c đ nh giá m i
ng i dùng độc lập nhau. Marlin khẳng đ nh, h s đ nh gi ng i dùng
th c hiện t t h n so v i mô h nh đ nh h ng và mô hình pha trộn đa th c.
Mô hình phân lo i và h i qui: Cho tập g m N véct M chi u {xi}. Mục tiêu
c a phân lo i hay h i qui là d đo n ch nh x c gi tr đ u ra t ng ng {ci}.
Trong tr ng h p phân lo i, ci nhận một giá tr từ một tập h u h n g i là tập
các nhãn. Trong tr ng h p h i qui, ci có th nhận một giá tr th c Đ áp
dụng mô hình phân lo i cho l c cộng tác, m i s n phẩm (ho c ng i dùng)
đ c xây d ng một bộ phân lo i riêng. Bộ phân lo i cho s n phẩm y phân
lo i tập ng i dùng d a trên nh ng ng i dùng kh c đ đ nh gi s n phẩm
y. Các bộ phân lo i đ c ti n hành hu n luyện độc lập nhau trên tập các ví
dụ hu n luyện.
1.1.3. Phương pháp lọc tin kết hợp
L c k t h p hay còn g i là ph ng ph p lai [1] là ph ng ph p k t h p
gi a cộng tác và l c nội dung nhằm tận dụng l i th và tránh nh ng h n ch
c a m i ph ng ph p So v i c c ph ng pháp khác, l c k t h p cho l i k t
qu d đo n t t và có nhi u tri n v ng áp dụng trong các ng dụng th c t .
1.1.3.1 Bài toán lọc kết hợp
Ngoài ng i dùng U, tập s n phẩm P, ma trận l c cộng t c R nh đ
đ c trình bày ở trên, kí hiệu C = {c1,c2 ck} là tập K đ c tr ng bi u diễn
nội dung thông tin các s n phẩm p P ho c ng i dùng uU . Ví dụ n u
p P là một lo i s a khi đ ta c th bi u diễn s a thông qua c c đ c tr ng ci
”thể loại", "thành phần", "hãng sản xuất" và c c đ c tr ng khác c a s a; n u
Số hóa bởi Trung tâm Học liệu – ĐHTN
12
uU là một ng i dùng thì ta có th xem xét c c đ c tr ng ci: "tuổi", " giới
tính", "nghề nghiệp" và c c đ c tr ng kh c ph n nh thông tin ng i dùng.
Bài toán c a l c k t h p là d đo n cho ng i dùng hiện th i ua nh ng
s n phẩm pkP ch a đ c ua đ nh gi a trên ma trận đ nh gi rij và c c đ c
tr ng nội dung C = {c1,c2 ck}.
1.1.3.2 C c phương ph p lọc kết hợp
L c k t h p đ c ti p cận theo 4 xu h ng chính: K t h p tuy n tính,
k t h p đ c tính c a l c nội dung vào l c cộng tác, k t h p đ c tính c a l c
cộng tác vào l c nội dung và xây d ng mô hình h p nh t gi a l c cộng tác và
l c nội dung.
Kết hợp tuyến tính [3] là ph ng ph p x y ng hai l c đ l c nội dung và
l c cộng t c độc lập nhau. K t qu d đo n c a toàn bộ mô hình có th đ c
l a ch n từ ph ng ph p cho k t qu t t h n Ưu đi m c a ph ng ph p này
là k thừa đ c ph ng ph p i u diễn và tính toán v n có c a c c ph ng
ph p Nh c đi m l n nh t c a mô hình này là cho k t qu không cao v ch a
có s k t h p hiệu qu gi a nội ung và đ nh gi ng i dùng.
K t h p đ c tính c a l c n... u diễn ng i dùng ui “không th ch”
s n phẩm pj.
Ví dụ 2.2. Hệ g m 5 ng i dùng U = {u1, u2, u3, u4, u5}, 7 lo i s a P
={p1, p2, p3, p4, p5, p6, p7,}. Ma trận đ nh giá rij đ c cho trong b ng 2.9. Gi
s p1, p2, p4, p5, p6 có đ c tr ng s a dành cho tr c1 "suy dinh d ng"; p3, p4,
p5, p7 có đ c tr ng c2 "cao to kh e".
Bảng 2.9. Ma trận đ nh gi R
Ng i S n phẩm
dùng p1 p2 p3 p4 p5 p6 p7
u1 1 Ø Ø 1 Ø 1 Ø
u2 Ø 1 1 1 1 Ø 1
u3 1 1 1 1 Ø Ø 1
u4 1 1 Ø Ø 1 1 1
u5 ? 1 ? 1 1 1 ?
v i ma trận đ nh gi R đ c cho trong B ng 2.9 thì ma trận X đ c th hiện
nh B ng 2.10.
Bảng 2.10. Ma trận X bi u diễn đ nh đ th Ng i dùng- S n phẩm
Ng i S n phẩm
dùng p1 p2 p3 p4 p5 p6 p7
u1 1 0 0 1 0 1 0
u2 0 1 1 1 1 0 1
u3 1 1 1 1 0 0 1
u4 1 1 0 0 1 1 1
u5 0 1 0 1 1 1 0
Đ th Ng i dùng- S n phẩm có hai lo i c nh: C nh có tr ng s
ng rij = +1 bi u diễn ng i dùng ui“th ch” s n phẩm pj, c nh có tr ng s
âm rij = -1 bi u diễn ng i dùng ui “không th ch” s n phẩm pj. Khi đ đ th
đ c bi u diễn nh Hình 2.2.
Số hóa bởi Trung tâm Học liệu – ĐHTN
34
p1 p2 p3 p4 p5 p6 p7
+1 +1 +1
+1 -1 -1 +1 -1 +1 -1 -1 +1 -1 -1 +1
+1 -1
-1 -1
-1 +1 -1 +1 +1
u1 u2 u3 u4 u5
Hình 2.2. Đ th ng i dùng - s n phẩm
2.2.2. Phương pháp dự đoán trên đồ thị người dùng - sản phẩm
c ph ng ph p l c cộng tác d a tr n độ t ng quan th c hiện bằng
c ch x c đ nh nh ng ng i ng t ng t nh t v i ng i dùng hiện th i đ
t o n n t v n. Trong ví dụ trên dễ dàng nhận th y u5 t ng t nh t v i u2, u3
và u4 vì u5, u2, u3 c ng “th ch” p2 và u5, u4 c ng “th ch” p5. D a trên m c độ
t ng t này, các s n phẩm p3, p4 và p7 s đ c t v n cho ng i dùng u5.
Cách làm trên có th đ c th c hiện dễ dàng trên mô hình đ th bằng
cách xem xét các đ ng đi độ dài 3 từ đ nh ng i dùng đ n đ nh s n phẩm,
nh ng s n phẩm nào có nhi u s đ ng đi độ dài 3 từ đ nh ng i dùng hiện
th i đ n đ nh s n phẩm s đ c dùng đ t o n n t v n. Ví dụ ta c n phân bổ
s n phẩm cho ng i dùng u5, các đ ng đi u5-p5-u4-p7, u5-p2-u2-p4, u5-p2-u3-
p3, u5-p2-u3-p7 đ c xem xét đ n trong khi d đo n c c s n phẩm cho u5.
Nh ng s n phẩm có nhi u đ ng đi nh t đ n u5 s đ c ng đ t v n. Ví
dụ p7 có nhi u đ ng đi độ ài 3 h n so v i p3và p4(u5-p5-u4-p7, u5-p2-u3-
p7) s đ c t v n cho u5.
H n th n a ph ng ph p l c d a trên độ t ng quan s không bao
gi đ c xem xét đ n p1 trong các kh năng t v n vì u5 và u1 đ c xác đ nh
là không t ng t nhau. Đi u này không đ ng trong tr ng h p d liệu th a
c a l c cộng tác, u5 và u1 không t ng t nhau vì chúng có quá ít d liệu đ nh
Số hóa bởi Trung tâm Học liệu – ĐHTN
35
gi đ th c hiện t nh to n Nh c đi m này có th khắc phục tr n mô h nh đ
th bằng cách mở rộng ph ng ph p đo n đ n c c đ ng đi độ dài l l n
h n 3 (5 7 9 ) Nh ng s n phẩm có nhi u đ ng đi nh t đ n n đ c dùng
đ t v n cho ng i dùng hiện th i. V i cách làm này, p1 c ng đ c xem xét
đ n v c đ ng đi độ dài 5 (u5-p2-u2-p4-u1-p1) Ph ng ph p đo n tr n đ
th Ng i dùng - S n phẩm có th đ c th c hiện thông qua c c c sau:
2.2. . . T ch đồ thị Người dùng-Sản phẩm thành c c đồ thị con
Trong s các đ ng đi từ ui đ n pj, ta xem xét đ n hai lo i đ ng đi:
Đ ng đi theo các c nh có tr ng s ng (v ụ đ ng đi u5-p2-u3-p3) và
đ ng đi theo c c c nh có tr ng s âm (ví dụ đ ng đi u5-p4-u3-p1) Đ tính
toán hiệu qu cho m i lo i đ ng đi ta t ch đ th Ng i dùng-S n phẩm
thành hai đ th con: Đ th con ch bao g m các c nh có tr ng s ng và
đ th con ch bao g m các c nh có tr ng s âm.
Cho đ th Ng i dùng - S n phẩm G =(V, E) đ c bi u diễn theo ma
+ +
trận X= (xij) c p N×M. Ký hiệu X = (x ij ) ma trận c p N×M đ c xác đ nh
- -
theo công th c (2.9).Ký hiệu X = (x ij ) là ma trận c p N×M đ c x c đ nh
theo công th c (2.10).
1 if rij > 0
x ij = (2.9)
0 otherwise
1
if rij < 0
x ij = (2.10)
0 otherwise
Đ th G+ = (V, E+) đ c bi u diễn theo ma trận X+ có tập đ nh đ ng ằng
tập đ nh c a G, có tập c nh E+ bao g m các c nh có tr ng s ng c a G.
+
E = e (ui, pj)E r ij 1 (2.11)
Đ th G- = (V, E-) đ c bi u diễn theo ma trận X có tập đ nh đ ng ằng tập
đ nh c a G, có tập c nh E bao g m các c nh có tr ng s âm c a G.
-
E = E ij 1 (2.12)
Ví dụ 2.3: V i ma trận đ nh gi R đ c cho trong B ng 2.9 đ th G đ c
bi u diễn theo ma trận X trong B ng 2.10 thì ma trận X+, X- đ c th hiện
Số hóa bởi Trung tâm Học liệu – ĐHTN
36
trong B ng 2.11 và B ng 2.12 Đ th G+, G t ng ng đ c bi u diễn theo
Hình 2.3 và Hình 2.4.
Bảng 2.12. Ma trận X+ bi u diễn c c đ nh gi th ch h p S n phẩm Ng i dùng
Ng i S n phẩm
dùng p1 p2 p3 p4 p5 p6 p7
u1 1 0 0 1 0 0 0
u2 0 1 0 1 0 0 0
u3 0 1 1 0 0 0 1
u4 0 0 0 0 1 0 1
u5 0 1 0 0 1 1 0
p1 p2 p3 p4 p5 p6 p7
+1
+1
+1 +1 +1 +1 +1
+1 +1 +1 +1 +1
-1
u1 u2 u3 u4 u5
Hình 2.3. Đ th G bi u diễn c ch đ nh gi th ch h p
Bảng 2.12. Ma trận X- bi u diễn c c đ nh gi không th ch h p
Ng i S n phẩm
dùng p1 p2 p3 p4 p5 p6 p7
u1 0 0 1 0 0 1 0
u2 0 0 1 0 1 0 1
u3 1 0 0 1 1 0 0
u4 1 1 0 0 1 1 0
u5 0 0 0 1 1 0 0
Số hóa bởi Trung tâm Học liệu – ĐHTN
37
p1 p2 p3 p4 p5 p6 p7
-1 -1
-1 -1 -1 -1 -1
-1 -1 -1 -1
u1 u2 u3 u4 u5
Hình 2.4. Đ th G bi u diễn c ch đ nh gi không th ch h p
2.2. . . Phương ph p dự đo n tr n đồ thị có trọng số dương G+
Tr ng s đ ng đi từ đ nh ng i dùng ui đ n đ nh s n phẩm pj theo các
c nh có tr ng s ng đ c ghi nhận là một s ng ph n ánh m c độ
“th ch”c a s n phẩm đ i v i ng i dùng. Nh ng đ ng đi c độ dài l n s
đ c đ nh tr ng s th p, nh ng đ ng đi c độ dài nh đ c đ nh tr ng s
cao. Nh ng s n phẩm nào có tr ng s cao s đ c ng đ t v n cho ng i
dùng hiện th i.
Ph ng pháp d đo n tr n đ th G+ đ c Huang đ xu t d a trên việc
tính toán tr ng s các đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm [7].
Nh ng s n phẩm nào có tr ng s cao nh t s đ c dùng đ t v n cho ng i
dùng hiện th i.
Đ ý rằng, đ th G, G+, G- đ u là nh ng đ th hai phía, một phía là các
đ nh ng i dùng, phía còn l i là các đ nh s n phẩm. Do vậy, các đ ng đi từ
đ nh ng i ng đ n đ nh s n phẩm luôn c độ dài l .
Đ i v i đ th hai phía, s c c đ ng đi độ dài L xu t phát từ một đ nh
b t kỳ thuộc ph a ng i dùng đ n đ nh b t kỳ thuộc phía s n phẩm đ c xác
đ nh theo công th c 2.13, trong đ X là ma trận bi u diễn đ th hai phía, XT
là ma trận chuy n v c a X, L là độ ài đ ng đi
if L=1
Số hóa bởi Trung tâm Học liệu – ĐHTN
if L=3 5 7
38
X
X = T L2 (2.13)
X.X X
Đ ghi nhận tr ng s c a các đ ng đi từ đ nh s n phẩm đ n đ nh
ng i ng tr n đ th G+ sao cho nh ng đ ng đi ài có tr ng s th p, nh ng
đ ng đi ngắn có tr ng s cao, ta s dụng hằng kh nhiễu α(0<α≤1) theo
công th c (2.14) trong đ X+ là ma trận bi u diễn đ th G+,(X+)T là ma trận
chuy n v c a X+, L là độ ài đ ng đi Thuật toán d đo n tr n đ th G+
đ c th hiện trong:
+ L .X if L=1
(X ) = (2.14)
2 T L2
.X .(X ) (X )
if L=3 5 7
Thuật toán dự đoán tr n đồ thị G+
Đầu vào:
• Ma trận X+ là biểu diễn của đồ thị G+;
Đầu ra:
• K sản phẩm có trọng số cao nhất chưa được người dùng đ nh gi
C c bước thực hiện:
Bước 1. Tìm trọng số c c đường đi độ dài lẻ L tr n đồ thị G+ sao cho các
đường đi độ có dài nhỏ được đ nh trọng số cao, các đường đi có độ dài lớn
được đ nh trọng số thấp.
if L=1
(X+) =
if L=3 5 7
Bước 2. Sắp xếp các sản phẩm theo thứ tự giảm dần của trọng số (X+)
Bước 3. Chọn K sản phẩm có trọng số cao nhất chưa được đ nh gi để tư
vấn cho người dùng hiện thời.
Độ ph c t p thuật toán d đo n tr n đ th G+ là O(L.N2.376) Trong đ
L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là s l ng
ng i dùng.
Ví dụ 2.4:
Số hóa bởi Trung tâm Học liệu – ĐHTN
39
Ví dụ v i ma trận X+ bi u diễn đ th G+ trong B ng 2.12, l y α = 0.5, L
= 5. Gi s ta c n t v n K = 2 s n phẩm cho ng i ng u5 khi đ thuật
toán th c hiện nh sau:
Bước 1: s c c đ ng đi độ dài 5 từ đ nh ng i ng đ n đ nh s n
phẩm đ c x c đ nh theo công th c (2.14) Khi đ
0.250 0.125 0.000 0.375 0.000 0.000 0.000
0.125 0.500 0.125 0.375 0.125 0.125 0.125
+ 3
(X ) 0.5 = 0.000 0.625 0.375 0.125 0.250 0.125 0.500
0.000 0.250 0.125 0.000 0.375 0.125 0.375
0.000 0.625 0.125 0.125 0.500 0.375 0.250
0.15625 0.18750 0.03125 0.28125 0.03125 0.03125 0.03125
0.12500 0.59375 0.18750 0.34375 0.25000 0.18750 0.25000
+ 5
(X ) 0.5 = 0.03125 0.81250 0.37500 0.21875 0.43750 0.25000 0.56250
0.00000 0.43750 0.18750 0.06250 0.37500 0.18750 0.37500
0.03125 0.81250 0.25000 0.21875 0.56250 0.37500 0.43750
Bước 2: Sắp x p các s n phẩm theo th t gi m d n c a tr ng s cho
ng i dùng u5 ta nhận đ c: p2, p5, p7, p6, p3, p4, p1.
Bước 3: Ch n K=2 s n phẩm ch a đ c ng i ng đánh giá có
5
tr ng s cao đ t v n cho u ta nhận đ c: p3, p7.
2.2. .3. Phương pháp dự đo n tr n đồ thị có trọng số âm G-
Tr ng s đ ng đi từ đ nh ng i ng ui đ n đ nh s n phẩm theo các
c nh có tr ng s m đ c ghi nhận là một s âm ph n ánh m c độ “không
th ch” c a ng i ng đ i v i s n phẩm. Nh ng đ ng đi c độ dài l n s
đ c đ nh tr ng s cao, nh ng đ ng đi c độ dài nh đ c đ nh tr ng s
th p. Nh ng s n phẩm nào có tr ng s th p đ c lo i b ra kh i danh sách
các s n phẩm c n t v n cho ng i dùng hiện hiện th i.
Đ xem xét nh h ởng c c đ nh gi “không th ch” vào qu tr nh
đo n ta c th c l ng m c độ đ ng g p c a c c đ nh gi này tr n đ th G
+
bằng cách ph đ nh l i ph ng ph p đo n tr n đ th G .
Số hóa bởi Trung tâm Học liệu – ĐHTN
40
Cụ th ph ng pháp thay th việc d đo n tr n đ th G+ bằng đ th G-
Thay việc c l ng tr ng s đ ng đi từ đ nh ng i ng đ n đ nh s n
phẩm dài s có tr ng s th p đ ng đi ngắn có tr ng s cao bằng việc c
l ng tr ng s các đ ng đi ài có tr ng s cao, đ ng đi ngắn có tr ng s
th p. Thay việc s dụng hằng s kh nhiễu +α bằng hằng s kh nhiễu -α đ
tr ng s c c đ ng đi luôn m và tăng n theo độ ài đ ng đi Thay việc
sắp x p các s n phẩm theo th t gi m d n c a tr ng s bằng việc sắp x p các
s n phẩm theo th t tăng n c a tr ng s .Thay quá trình phân bổ các s n
phẩm có tr ng s cao cho ng i dùng hiện th i bằng việc lo i b các s n
phẩm có tr ng s th p.
Thuật toán dự đoán tr n đồ thị G-.
Đầu vào:
• Ma trận X- là biểu diễn của đồ thị G-;
Đầu ra:
• K sản phẩm có trọng số nhỏ nhất chưa được người dùng đ nh gi
C c bước thực hiện:
Bước 1. Tìm trọng số c c đường đi độ dài lẻ L tr n đồ thị G- sao cho các
đường đi độ có dài nhỏ được đ nh trọng số thấp c c đường đi có độ dài lớn
- L
được đ nh trọng số cao. (X )
.X
(X+) = if L=1
2 T L2
.X .(X ) (X ) if L=3 5 7
Bước 2. Sắp xếp các sản phẩm theo thứ tự t ng dần của trọng số
Bước 3. Loại bỏ K sản phẩm có trọng số (X-) thấp nhất chưa được đ nh gi
để tư vấn cho người dùng hiện thời.
Độ ph c t p thuật toán d đo n tr n đ th G là O(L.N2.376). Trong đ
L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là s l ng
ng i dùng.
Ví dụ 2.5:
Số hóa bởi Trung tâm Học liệu – ĐHTN
41
Ví dụ v i ma trận X- trong B ng 2.13, l y L= 5 và α=0 5 Gi s ta c n g
b K=2 các s n phẩm cho ng i dùng u5 Khi đ
- 5
Bước 1: T nh đ c: (X ) 0.5
-0.18750 -0.15625 -0.34375 -0.03125 -0.15625 -0.34375 -0.15625
-0.03125 -0.03125 0.46875 -0.00000 -0.31250 -0.18750 -0.31250
+ 5
(X ) 0.5 = -0.34375 -0.15625 -0.03125 -0.28125 -0.00000 -0.18750 -0.00000
-0.50000 -0.34375 -0.18750 -0.18750 -0.03125 -0.50000 -0.03125
-0.12500 -0.03125 -0.00000 -0.15625 -0.00000 -0.03125 -0.00000
Bước 2: Sắp x p các s n phẩm theo th t tăng n c a tr ng s , ta nhận
đ c: p4, p1, p2, p6, p3, p5, p7.
Bước 3: Ch n các s n phẩm có tr ng s nh nh t ch a đ c u5 đ nh gi đ a
ra kh i danh sách các s n phẩm c n t v n cho u5, ta nhận đ c: p1, p3.
2.2. .4. Phương ph p dự đo n theo tất cả đ nh gi
Một s n phẩm ng i ng “th ch” v n có th xu t hiện trong danh sách
các s n phẩm lo i b kh i qu tr nh t v n, một s n phẩm ng i ng “không
th ch” v n có th xu t hiện trong danh sách các s n phẩm c n t v n Đ ngăn
ngừa tình tr ng này, luận văn đ xu t ph ng ph p đo n tr n t t c đ nh gi
Ph ng pháp d đo n tr n đ th G+ ch đ c th c hiện trên nh ng
đ nh gi “th ch” c a ng i dùng đ i v i s n phẩm ph ng ph p đo n tr n
đ th G ch đ c th c hiện trên nh ng đ nh gi “không th ch” c a ng i
ng đ i v i s n phẩm. Việc b qua nh ng đ nh gi “không th ch” c a ng i
dùng đ i v i s n phẩm có nh ng nh h ởng không nh đ n ch t l ng d
đo n v đ nh gi “th ch” hay “không th ch” đ u ph n ánh thói quen và sở
thích s dụng s n phẩm c a ng i dùng.
+
Trong ví dụ trên, n u th c hiện d đo n tr n đ th G thì p3 đ c xem
là ph ng n ng đ t v n cho u5. N u th c hiện d đo n tr n đ th G thì
p3 đ c xem là ph ng n lo i b ra kh i danh sách các s n phẩm dùng đ t
v n cho u5. Đ khắc phục mâu thu n này, ta có th mở rộng ph ng ph p
đo n cho t t c các đ nh gi “th ch” và “không th ch” c a ng i dùng.
Số hóa bởi Trung tâm Học liệu – ĐHTN
42
c c cụ th c a ph ng ph p đ c ti n hành.
Đầu vào:
• Ma trận X+, X - là biểu diễn của đồ thịG+, G-
Đầu ra:
• K sản phẩm có trọng số cao nhất chưa được người dùng đ nh gi
Các bƣớc thực hiện:
+ L
Bƣớc 1. Tính toán ma trận trọng số(X ) của c c đường đi độ dài lẻ L trên
ma trận X+ sao cho các đường đi có độ dài nhỏ được đ nh trọng số cao, các
đường đi có độ dài lớn được đ nh trọng số thấp.
if L=1
.X
(X+) =
2 T L2
.X .(X ) (X ) if L=3 5 7
Bƣớc 2. Tính toán ma trận trọng số (X+) của c c đường đi độ dài lẻ L trên
ma trận X- sao cho các đường đi có độ dài nhỏ được đ nh trọng số thấp, các
đường đi có độ dài lớn được đ nh trọng số cao.
if L=1
.X
(X-) =
2 T L2
.X .(X ) (X ) if L=3 5 7
Bƣớc 3 .Kết hợp ma trận trọng số (X) = (X-) + (X-)
L
Bƣớc 4. Sắp xếp các sản phẩm theo thứ tự t ng dần của trọng số x a
L
Bƣớc 5. Chọn K sản phẩm có trọng số x a cao nhất chưa được đ nh gi để tư
vấn cho người dùng hiện thời.
Độ ph c t p thuật toán d đo n tr n t t c đ nh gi là O(L.N2.376).
Trong đ L là độ dài đ ng đi từ đ nh ng i dùng đ n đ nh s n phẩm, N là
s l ng ng i dùng.
Ví dụ 2.6:
V i ma trận X+ trong B ng 2.12, X- trong B ng 2.13, l y L= 5 và
α=0 5 Gi s ta c n t v n K=2 các s n phẩm cho ng i dùng u5 Khi đ
Số hóa bởi Trung tâm Học liệu – ĐHTN
43
Bước 1:
0.15625 0.18750 0.03125 0.28125 0.03125 0.03125 0.03125
0.12500 0.59375 0.18750 0.34375 0.25000 0.18750 0.25000
(X+) 5
0.5 = 0.03125 0.81250 0.37500 0.21875 0.43750 0.25000 0.56250
0.00000 0.43750 0.18750 0.06250 0.37500 0.18750 0.37500
0.03125 0.81250 0.25000 0.21875 0.56250 0.37500 0.43750
Bước 2:
-0.18750 -0.15625 -0.34375 -0.03125 -0.15625 -0.34375 -0.15625
-0.03125 -0.03125 0.46875 -0.00000 -0.31250 -0.18750 -0.31250
(X-) = -0.34375 -0.15625 -0.03125 -0.28125 -0.00000 -0.18750 -0.00000
-0.50000 -0.34375 -0.18750 -0.18750 -0.03125 -0.50000 -0.03125
-0.12500 -0.03125 -0.00000 -0.15625 -0.00000 -0.03125 -0.00000
Bước 3:
-0.03125 +0.03125 -0.03125 +0.25000 -0.12500 -0.32150 -0.12500
+0.09375 +0.56250 -0.28125 +0.34375 -0.62550 +0.00000 -0.00625
(X) = -0.31250 +0.65625 +0.34375 -0.06250 +0.43750 +0.62500 +0.56250
-0.50000 -0.09375 +0.00000 -0.12500 +0.34375 -0.31250 +0.34375
-0.09375 -0.78125 +0.25000 +0.06250 +0.56250 +0.37500 +0.43750
Bước 4: Sắp xếp được: p2, p5, p7, p6, p3, p4, p1.
Bước cuối cùng của thuật toán ta chọn p7 và p3 tư vấn cho u5.
L c cộng tác trong tr ng h p d liệu th a th ng d a vào ph ng
pháp gi m s chi u ma trận đ nh gi H n ch l n nh t c a ph ng ph p này
là có th m t thông tin trong khi gi m s chi u ma trận. H n ch này c ng c
th khắc phục d a trên việc xem xét và mở rộng độ ài đ ng đi tr n mô h nh
đ th trên.
2.3. Lọc cộng tác dựa vào lọc đồng huấn luyện
H c n a gi m s t đ thu h t nhi u s chú ý từ các nhà nghiên c u bởi
một s l ng l n các ví dụ không có nhãn có th làm tăng hiệu su t cho thuật
Số hóa bởi Trung tâm Học liệu – ĐHTN
44
toán h c khi ch có một s ví dụ nh h n là có nhãn. Blum và Mitchell là
nh ng ng i đ u tiên xem xét việc thi t đ nh bài toán mà tập đ c tr ng c a
m i ví dụ có th đ c chia thành 2 khung nhìn khác biệt. Xem xét bài toán
l c cộng t c theo cách ti p cận đ ng hu n luyện, thì 2 khung nh n đ c xác
đ nh ở đ y là khung nh n theo ng i dùng và khung nhìn theo s n phẩm. Tập
c c nh n đ c x c đ nh có th là nh ng giá tr rõ ràng (các giá tr nằm trong
đo n [1,5]). Và c p ng i dùng - s n phẩm mà ng i ng ch a đ nh gi s n
phẩm là nh ng m u hu n luyện c n đ c x c đ nh nhãn.
2.3.1. Mô tả thuật toán đồng huấn luyện
Thuật to n đ ng hu n luyện áp dụng khi tập d liệu có s phân chia
đ c tr ng t nhiên. Quá trình đ ng hu n luyện đ c mô t hình th c nh sau:
Qu tr nh đ ng hu n luyện đ c th c hiện nh sau. Cho không gian m u X =
X1 x X2 trong đ : X1, X2 t ng ng là 2 khung nhìn khác nhau c a một m u.
M i m u x đ cho là một c p (x1, x2). Gi s rằng m i khung nhìn là đ y đ
đ phân lo i đ ng ho là một phân ph i trên X, và cho C1, C2 l n l t là
các l p khái niệm đ c đ nh ngh a t ng ng trên X1, X2.
Gi s rằng t t c các nhãn c a các m u có xác su t kh c 0 i D là
phù h p v i hàm mục đ ch f1 1 và c ng ph h p v i hàm mục đ ch f2 C2.
Hay nói cách khác, n u f bi u th cho khái niệm mục đ ch k t h p trên toàn bộ
m u, thì v i b t kỳ m u x = (x1, x2) đ c quan sát v i nh n ℓ chúng ta có
f(x) = f(x1) = f(x2) = ℓ. Trong th c t , thì đi u này c ngh a là D gán xác su t
bằng 0 cho b t kỳ m u nào mà f(x1) f(x2).
2.3.2. Thuật toán lọc cộng tác bằng phương pháp đồng huấn luyện theo
người dùng
Ph ng ph p l c cộng tác bằng đ ng hu n luyện theo ng i ng đ c th c
hiện thông qua các vòng l p t. T i c khởi t o t=0, ma trận d đo n R(0) =
(0)
(r ij) đ c l y bằng chính ma trận đ nh gi an đ u R=(rij).
c c cụ th c a ph ng ph p đ c ti n hành.
Số hóa bởi Trung tâm Học liệu – ĐHTN
45
Đầu vào:
(0) (0)
• Khởi tạo ma trận đ nh gi R = (r ij) = (rij)
Đầu ra:
(t) (t)
• Ma trận dự đo n R = (r ij)
Thuật toán
Bƣớc 1: Khởi t o s c l p an đ u: t0;
Bƣớc 2: L p
2.1. Hu n luyện theo ng i dùng:
(t)
a) Tìm tập c c ng i dùng c ng đ nh gi cho s n phẩm S i
Si = j u : Pi Pj (2.15)
: Hằng s ng i ng c ng đ nh gi s n phẩm
S dụng công th c độ t ng t t ng quan đ tính tập t t c c c ng i dùng
c ng đ nh gi s n phẩm i và j ( u ij )
0 if j S
i
rix ri r jxrj j
uij = xPi Pj , otherwise (2.16)
2 2
r r r r
ix i jx j
xPi Pj xPi Pj
b) Tìm Ki là ng i ng đ nh gi s n phẩm cao nh t
Ki = j Si :uij max (2.17)
c) D đo n ng i dùng x v i s n phẩm i
rjx rj uij
jKi
rix = ri (2.18)
uij
jKi
ri : là đ nh gi trung nh cộng cho s n phẩm i.
2.2. Hu n luyện theo s n phẩm:
(t)
a) Tìm tập các s n phẩm đ c ng i dùng đ nh gi C x .
Cx=y P : ux u y (2.19)
S dụng công th c osin đi u ch nh đ t nh độ t ng t gi a hai s n phẩm
Số hóa bởi Trung tâm Học liệu – ĐHTN
46
0 if C
y x
r r r r
ix x jy y j
Pxy = iPx Py , otherwise (2.20)
2 2
r r r r
ix x jy y
iPx Py xPi Pj
b) Tìm Ki là s n phẩm mà ng i ng đ nh gi cao nh t
Ki=j Si :uij max (2.21)
c) D đo n ng i dùng x v i s n phẩm i
rjx rj uij
jKi
rix= ri (2.22)
uij
jKi
ri : là đ nh gi trung nh cộng cho s n phẩm i.
2 3 Tăng c l p: tt+1;
Until Converges: không có nhãn phân lo i nào đ c bổ sung vào ma trận d đo n
2.3.3 Lọc cộng tác bằng phương pháp đồng huấn luyện theo sản phẩm
G n gi ng v i l c cộng tác bằng ph ng ph p đ ng hu n luyện theo
ng i ng ph ng ph p này ch có một đi m khác trong quá trình hu n
luyện đ là th t th c hiện hu n luyện, quá trình hu n luyện theo s n phẩm
s đ c th c hiện tr c quá trình hu n luyện theo ng i dùng.
Thuật toán l c cộng tác bằng ph ng ph p đ ng hu n luyện theo s n phẩm.
Đầu vào:
(0) (0)
• Khởi tạo ma trận đ nh gi R = (r ij) = (rij)
Đầu ra:
(t) (t)
• Ma trận dự đo n R = (r ij)
Thuật toán
Bƣớc 1: Khởi t o s c l p an đ u: t0;
Bƣớc 2: L p.
2.1. Hu n luyện theo s n phẩm:
(t)
a) Tìm tập các s n phẩm đ c ng i ng đ nh gi x .
Số hóa bởi Trung tâm Học liệu – ĐHTN
47
Cx=y P : U x U y (2.19)
: Hằng s s n phẩm đ c ng i ng đ nh gi
S dụng công th c cosin đi u ch nh đ tính tập các s n phẩm đ c ng i
ng đánh giá
0 if yC
x
rix r x r jyry j
Pxy = iPx Py , otherwise (2.20)
2 2
r r r r
ix x jy y
iPx Py xPi Pj
b) Tìm Ki là s n phẩm đ c ng i ng đ nh gi cao nh t.
Ki=j Si :uij max (2.21)
c) D đo n s n phẩm i v i ng i dùng x
rjx rj uij
jKi
rix= ri (2.22)
uij
jKi
2.2. Hu n luyện theo ng i dùng:
(t)
a) Tìm tập c c ng i dùng c ng đ nh gi cho s n phẩm S i
Si = j U : Pi Pj (2.15)
: Hằng s ng i ng c ng đ nh gi s n phẩm
S dụng công th c độ t ng t t ng quan đ tính tập t t c c c ng i dùng
c ng đ nh gi s n phẩm i và j ( u ij )
0 if j S
i
rix ri r jxrj j
uij = xPi Pj , otherwise (2.16)
2 2
r r r r
ix i jx j
xPi Pj xPi Pj
b) Tìm Ki là ng i ng đ nh gi s n phẩm l n nh t
Ki = (2.17)
c) D đo n ng i dùng x v i s n phẩm i
Số hóa bởi Trung tâm Học liệu – ĐHTN
48
rjx rj uij
jKi
rix= ri (2.18)
uij
jKi
ri : là đ nh gi trung nh cộng cho s n phẩm i.
2 3 Tăng c l p: tt+1;
Until Converges: không có nhãn phân lo i nào đ c bổ sung vào ma trận d đo n.
Ví dụ 2.6:
Xét bài toán l c cộng tác v i ma trận đ nh gi R = (rij) trong hệ g m 5
ng i dùng U = {u1, u2, u3, u4, u5} và 7 s n phẩm P = {p1, p2, p3, p4, p5,
p6, p7}. M i ng i ng đ u đ a ra c c đ nh gi c a mình v các s n phẩm
theo thang bậc {Ø, 1, 2, 3, 4, 5}. Giá tr rij = Ø đ c hi u là ng i dùng ui
ch a đ nh gi ho c ch a ao gi bi t đ n s n phẩm pj. Các giá tr r5,1 = ? là
s n phẩm hệ th ng c n d đo n cho ng i dùng u5.
Bảng 2.13: Ng i dùng và s n phẩm
p1 p2 p3 p4 p5 p6 p7
u1 4 2 5 Ø 3 Ø 3
u2 5 Ø 5 5 4 Ø Ø
u3 4 Ø Ø 4 3 4 3
u4 Ø 3 5 5 Ø 5 Ø
u5 ? 5 ? ? Ø 4 4
Lọc cộng tác bằng phƣơng pháp đồng huấn luyện theo ngƣời dùng:
Ch n = 3 v i ng i dùng u1 c a b ng (2.13), theo công th c (2.15)
thì: S1 = {u2, u3}, S2 = {u1}, S3 = {u1, u2}, S4 = { }, S5 = { }. Khi đ m c
độ t ng t gi a hai ng i dùng đ c xác đ nh theo công th c (2.16).
Các nhãn phân lo i chắc chắn ch đ c d đoán từ nh ng ng i dùng j
Si theo công th c (2.18).
V i tập ng i dùng đ cho trong b ng (2.13), tìm Kj theo (2.17) ta
đ c K1 = {u3}, K2 = {u1}, K3 = {u1}.
Bảng 2.14: B ng giá tr đ nh gi theo ng i dùng.
Số hóa bởi Trung tâm Học liệu – ĐHTN
49
p1 p2 p3 p4 p5 p6 p7
u1 4 2 5 4 3 4 3
u2 5 2 5 5 4 Ø 3
u3 4 2 5 4 3 4 3
u4 Ø 3 5 5 Ø 5 Ø
u5 ? 5 ? ? Ø 4 4
Lọc cộng tác bằng phƣơng pháp đồng huấn luyện theo sản phẩm:
Ch n = 3 v i s n phẩm p1 c a b ng (2.13), theo công th c (2.19) thì:
C1= {p5},C2= {Ø},C3= {Ø},C4= {Ø},C5= {Ø}.
Tuy vậy việc quan sát theo s n phẩm đ c th c hiện sau quá trình quan sát
theo ng i dùng ta s xác đ nh đ c:
C1= {p2, p3, p4, p5, p7}, C2= {p1, p3, p4, p5, p7}, C3= {p1, p2, p4, p5, p7},
C4= {p1, p2, p3, p5, p6, p7}, C5= {p1, p2, p3, p4, p7}, C6= {p2, p3, p4, p7},
C7= {p1, p2, p3, p4, p5, p6}.
M c độ t ng t gi a hai s n phẩm đ c xác đ nh theo công th c (2.20)
Các nhãn phân lo i chắc chắn ch đ c d đoán từ các s n phẩm y Cx theo
công th c (2.21) và (2.22)
D a theo k t qu quan sát theo ng i dùng ta tìm đ c:
K1={p4}, K2={p7}, K3={p4}, K4={p1}, K5={p7}, K6={p4}, K7={p5}.
Bảng 2.15: B ng giá tr đ nh gi theo s n phẩm
p1 p2 p3 p4 p5 p6 p7
u1 4 2 5 4 3 4 3
u2 5 2 5 5 4 5 3
u3 4 2 5 4 3 4 3
u4 5 3 5 5 Ø 5 Ø
u5 ? 5 ? ? 4 4 4
Nh vậy, quá trình l c cộng tác bằng đ ng hu n luyện v i 1 c l p
đ ổ sung đ c các giá tr đ nh gi c n thi u vào tập d liệu hu n luyện.
2.5. Kết luận
Số hóa bởi Trung tâm Học liệu – ĐHTN
50
h ng này t c gi đ tr nh ày ph ng ph p l c cộng tác d a trên s n
phẩm v i các thuật to n t nh độ t ng t và d đo n ph ng ph p l c cộng
tác d a tr n mô h nh đ th v i thuật toán d a tr n mô h nh ng i dùng - s n
phẩm đ xu t ph ng ph p đo n tr n t t c c c đ nh gi và thuật toán
đ ng hu n luyện d a trên ng i dùng và s n phẩm. V i m i thuật to n đ u có
ví dụ minh h a quá trình x l đ đ a ra c c k t qu t v n.
Số hóa bởi Trung tâm Học liệu – ĐHTN
51
Chƣơng 3
XÂY DỰNG HỆ THÔNG TIN TƢ VẤN SẢN PHẨM SỮA
DÀNH CHO NGƢỜI TIÊU DÙNG
3.1. Phát biểu bài toán
Hiện nay trên th tr ng có r t nhi u các lo i s a, ng i tiêu dùng g p
nhi u khó khăn cho việc l a ch n s n phẩm s a phù h p cho b n thân và gia
đ nh, m i ng i dùng l i có một nhu c u và sở thích khác nhau. V n đ đ t ra
là c n l a ch n nh ng s n phẩm s a phù h p cho từng đ i t ng ng i tiêu
dùng đ ng th i c n s đ nh gi c a khách hàng v s n phẩm.
D a tr n c sở nghiên c u v ph ng ph p l c cộng tác và ng dụng trong
l c thông tin t v n tác gi mu n xây d ng ph n m m th nghiệm hệ thông
tin t v n s n phẩm s a ành cho ng i tiêu dùng.
3.2. Phân tích thiết kế hệ thống tƣ vấn sản phẩm sữa
3.2.1 Xác định bài toán
- D liệu đ u vào: B ng đ nh gi c c s n phẩm c a ng i dùng
- D liệu đ u ra: T v n các s n phẩm mà ng i ng ch a đ nh gi
3.2.2. Phân tích các yêu cầu
Ng i dùng là các khách hàng đăng nhập vào 1 hệ th ng We stie đ mua
s a. M i ng i ng đ c l u tr trên hệ th ng v i các h s ao g m thông
tin c nh n và c c đ nh gi c a ng i ng đ v i các lo i s a Đánh giá
theo thang đi m từ 0 đ n 5, v i ngh a là đ nh gi càng cao th ng i dùng
càng thích lo i s a đ đi m 0 dành cho lo i s a mà ng i ng ch a đ nh
giá ho c ch a i t v lo i s a đ Hệ th ng c n ph i d đo n cho kh ch hàng
các s n phẩm s a mà kh ch hàng ch a đ nh gi . Tuy nhiên có r t nhi u lo i
s a đ đ c đ nh giá ch bởi một vài ng i và nh ng s a này kh năng đ c
t v n là r t ít, thậm chí ngay c khi trong s đ c nh ng ng i ng đ a ra
đ nh gi r t cao v ch ng ng nh vậy đ i v i nh ng ng i dùng mà th
hi u c a h kh c th ng so v i một s đông ng i khác thì s không có
Số hóa bởi Trung tâm Học liệu – ĐHTN
52
ng i dùng nào đ c t v n v nh ng th hi u gi ng h , d n đ n việc t v n
nghèo nàn. Một ph ng ph p v t qua t nh th a th t trong đ nh gi là s
dụng thông tin cá nhân c a ng i dùng khi tính toán s t ng đ ng gi a
nh ng ng i dùng. Hai ng i ng đ c xem là gi ng nhau không khi đ c
đ nh gi c sở thích v các lo i s a là gi ng nhau mà chúng còn ph i thuộc
cùng một đ i t ng.
Một v n đ tr c khi xây d ng ma trận đ nh gi v i nh ng s n phẩm ít
đ c đ nh gi ho c nh ng ng i dùng t đ nh gi s n phẩm, nh ng ng i
dùng và s n phẩm này s không h u ch trong qu tr nh t v n. V n đ c n
ch n l c ra nh ng s n phẩm và ng i ng đ tham gia trong qu tr nh t
v n. Rõ ràng nh ng s n phẩm m i ho c ng i dùng m i không th tham gia
trong quá trình d đo n ho c nh ng s n phẩm hay ng i ng c đ nh gi t
h n 1 ng ng nào đ c ng đ c lo i ra t v n cho h trong nh ng s n phẩm
mà h ch a đ nh gi th s n phẩm nào là phù h p nh t d a trên nh ng ng i
có sở thích gi ng h .
Công việc của hệ thông tin tƣ vấn:
Ng i dùng m i s đăng k thông tin c nh n c a m nh đ t o nên một
bộ h s ng i ng đ c l u tr trong c sở d liệu
Khi một ng i dùng đăng nhập vào hệ th ng, hệ th ng có nhiệm vụ t
v n nh ng lo i s a mà ng i dùng đ ch a từng bi t đ n và nh ng lo i s a t
v n đ đ c d đo n là ng i dùng s đ nh gi cao
Các b c đ c th c hiện nh sau:
B c 1: Hệ th ng s xem xét các lo i s a mà ng i dùng ch a đ nh
giá so s nh độ t ng t gi a lo i s a đ v i nh ng s a khác, độ t ng t 2
lo i s a đ c tính d a trên nh ng ng i dùng từng đ nh gi tr n c 2 lo i s a
đ theo một thuật toán tính xác su t.
Số hóa bởi Trung tâm Học liệu – ĐHTN
53
B c 2: Hệ th ng t v n s d đo n đ nh gi c a ng i dùng v i
nh ng s a mà ng i ng ch a s dụng, l a ch n nh ng s a đ c d đo n
có đ nh gi cao đ đ a vào anh s ch t v n cho ng i dùng
3.2.3. Thiết kế hệ thống tư vấn sản phẩm sữa
Thiết kế cơ sở dữ liệu
S dụng ph n m m Acsess t o c sở d liệu “L c cộng tác” v i b ng
“Ng i dùng” đ l u tr thông tin c a khách hàng.
Hình 3.1: B ng Ng i dùng ở ch độ thi t k
Hình 3.2: B ng Ng i dùng ở ch độ trang d liệu
Thiết kế chức năng.
Các ch c năng chính c a ch ng trình:
Số hóa bởi Trung tâm Học liệu – ĐHTN
54
Đ ng ký: Ng i dùng m i đăng kí thông tin khách hàng và đ nh giá một s
lo i s a mà h đ s dụng đ t o nên bộ h s ng i dùng
Đ ng nhập: Ng i dùng đăng nhập vào hệ th ng v i tên truy nhập và mật
khẩu c a riêng mình, n u mu n ng i dùng có th thay đổi các đ nh giá s n
phẩm tr c đ .
- Hệ th ng cho phép khách hàng l a ch n l c trên bộ nh ho c đ th .
- Ng i dùng yêu c u t v n s n phẩm s a ch a đ nh giá hệ th ng s tính
toán đ a ra k t qu .
- B c cu i cùng hệ th ng s t v n cho khách hàng s n phẩm mà khách
hàng s đ nh gi cao
3.3. Xây dựng chƣơng trình ứng dụng
h ng tr nh đ c ch y trên bộ visual studio 2012, ngôn ng lập C#
th c hiện cài đ t thuật toán l c cộng tác d a trên s n phẩm và l c cộng tác
d a trên mô hình đ th đ t v n s n phẩm s a cho ng i tiêu dùng.
Các thuật toán sử dụng để cài đặt
- Thuật to n t nh độ t ng t cosine đi u ch nh, kho ng giá tr luôn
nằm trong đo n [-1,1] th hiện m c độ t ng t theo m c tăng n giá tr độ
t ng t , giá tr độ t ng t càng l n th hiện s t ng đ ng v m t đ nh gi
c a 2 s n phẩm. Tác gi s dụng thuật toán này bởi công th c cosin đi u
ch nh có thêm thêm trung bình cộng c c đ nh gi kh c r ng c a ng i dùng.
- Thuật d đo n a trên tổng tr ng s v i việc đ nh gi c a ng i
dùng lên s n phẩm d a vào nh ng đ nh gi c a ng i ng đ l n c c s n
phẩm t ng t .
- Thuật toán d a tr n mô h nh đ th v i ph ng pháp d đo n theo t t
c đ nh gi (đ th có tr ng s ng và đ th có tr ng s âm).
Demo chƣơng trình
Số hóa bởi Trung tâm Học liệu – ĐHTN
55
Hình 3.3: Giao diện ch ng tr nh đo n s n phẩm s a cho ng i tiêu dùng.
Hình 3.4: Ng i ng đăng nhập vào hệ th ng.
Hình 3.5: Hệ th ng
Các file đính kèm theo tài liệu này:
- luan_van_phuong_phap_loc_cong_tac_va_ung_dung_trong_he_thong.pdf