Luận án Một số phương pháp xử lý tri thức không nhất quán trong ontology

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN VĂN TRUNG MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN TRONG ONTOLOGY LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH HUẾ - NĂM 2018 ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC NGUYỄN VĂN TRUNG MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN TRONG ONTOLOGY CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH MÃ SỐ: 62.48.01.01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Người hướng dẫn khoa học: PGS. TS. HOÀNG HỮU HẠNH HUẾ - NĂM 2018 LỜI CAM ĐOAN Tôi xin cam đoan đây là công tr

132 trang | Chia sẻ: huong20 | Lượt xem: 417 | Lượt tải: 0

Tóm tắt tài liệu Luận án Một số phương pháp xử lý tri thức không nhất quán trong ontology, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

ình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS. TS. Hoàng Hữu Hạnh. Những nội dung trong các công trình đã công bố chung với các tác giả khác đã được sự đồng ý của đồng tác giả khi đưa vào luận án. Các số liệu và kết quả nghiên cứu trình bày trong luận án là trung thực, khách quan và chưa được công bố bởi tác giả nào trong bất cứ công trình nào khác. Nghiên cứu sinh Nguyễn Văn Trung i LỜI CẢM ƠN Luận án này được thực hiện và hoàn thành tại Khoa Công nghệ Thông tin, Trường Đại học Khoa học, Đại học Huế. Trong suốt quá trình học tập và thực hiện luận án, tôi đã nhận được rất nhiều sự quan tâm, động viên, giúp đỡ của thầy giáo hướng dẫn, thầy cô giáo trong Khoa Công nghệ Thông tin, Phòng Đào tạo Sau đại học và Ban giám hiệu Trường Đại học Khoa học. Tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Hoàng Hữu Hạnh là người thầy tận tình hướng dẫn, động viên và truyền đạt những kinh nghiệm quý báu trong nghiên cứu khoa học để tôi có thể hoàn thành luận án này. Tôi xin chân thành cảm ơn quý thầy cô giáo trong Khoa Công nghệ Thông tin đã tạo điều kiện thuận lợi trong công tác để tôi có thể hoàn thành công việc nghiên cứu của mình. Tôi xin cảm ơn quý thầy cô và cán bộ của Phòng Đào tạo Sau đại học, Ban giám hiệu Trường Đại học Khoa học đã giúp đỡ tôi trong việc hoàn thành kế hoạch học tập. Tôi xin trân trọng cảm ơn quý thầy cô giáo trong Hội đồng Khoa học của Khoa Công nghệ Thông tin đã đọc và đưa ra những góp ý xác đáng cho luận án này. Tôi xin trân trọng cảm ơn quý thầy cô giáo và các anh chị đồng nghiệp trong Khoa Công nghệ Thông tin đã giúp đỡ, chia sẻ trong quá trình công tác, học tập, nghiên cứu và thực hiện luận án. Cuối cùng tôi xin cảm ơn những người thân trong gia đình đã luôn ủng hộ, chia sẻ khó khăn trong suốt quá trình học tập, nghiên cứu và thực hiện luận án. Nghiên cứu sinh Nguyễn Văn Trung ii MỤC LỤC Lời cam đoan i Lời cảm ơn ii Mục lục iii Danh mục từ viết tắt, thuật ngữ v Danh mục ký hiệu vi Danh mục bảng, biểu vii Danh mục hình vẽ viii Mở đầu 1 Chương 1. TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN TRONG ONTOLOGY 9 1.1 Ontology và tri thức không nhất quán . . . . . . . . . . . . . . . . . . 9 1.2 Khung lập luận với ontology không nhất quán sử dụng chiến lược phát triển tuyến tính tập tiên đề diễn giải . . . . . . . . . . . . . . . . . . . 15 1.2.1 Các khái niệm cơ bản . . . . . . . . . . . . . . . . . . . . . . . . 15 1.2.2 Hàm chọn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.2.3 Phép suy luận không chuẩn sử dụng hàm chọn đơn điệu . . . . 20 1.2.4 Phép suy luận không chuẩn sử dụng hàm chọn dựa trên sự liên quan cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 1.2.5 Các nghiên cứu liên quan đến khung lập luận với ontology không nhất quán sử dụng chiến lược mở rộng tuyến tính tập tiên đề diễn giải . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 1.3 Xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo phương pháp đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.1 Hồ sơ xung đột . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 1.3.2 Sự không nhất quán tri thức . . . . . . . . . . . . . . . . . . . . 33 1.3.3 Hàm đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . 40 1.3.4 Các nghiên cứu liên quan xử lý không nhất quán tri thức trong quá trình tích hợp ontology bằng phương pháp đồng thuận . . . 44 1.4 Tiểu kết Chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Chương 2. SUY LUẬN VỚI ONTOLOGY KHÔNGNHẤT QUÁN SỬ DỤNG HÀM CHỌN DỰA TRÊN ĐỘ LIÊN QUAN NGỮ NGHĨA 47 2.1 Khoảng cách ngữ nghĩa giữa hai khái niệm trong ontology . . . . . . . 48 iii 2.2 Khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm theo ontology tham chiếu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 2.3 Khoảng cách ngữ nghĩa giữa hai tiên đề theo ontology tham chiếu . . . 55 2.4 Suy luận với ontology không nhất quán sử dụng hàm chọn dựa trên khoảng cách ngữ nghĩa . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.5 Thực nghiệm và đánh giá kết quả . . . . . . . . . . . . . . . . . . . . . 67 2.6 Tiểu kết Chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 Chương 3. XỬ LÝ XUNG ĐỘT MỨC KHÁI NIỆM TRONG QUÁ TRÌNH TÍCH HỢP ONTOLOGY 72 3.1 Mô hình tích hợp tri thức dựa trên lý thuyết đồng thuận . . . . . . . . 72 3.2 Các mức xung đột trong quá trình tích hợp ontology . . . . . . . . . . 75 3.3 Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology . . . 78 3.4 Vấn đề xây dựng hàm đánh giá khoảng cách cho các miền giá trị của các thuộc tính . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 3.4.1 Hàm đánh giá khoảng cách giữa hai biểu thức khái niệm . . . . 85 3.4.2 Hàm đánh giá khoảng cách giữa hai khoảng dữ liệu . . . . . . . 86 3.5 Tiểu kết Chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 Chương 4. XỬ LÝ XUNGĐỘTMỨC TIÊN ĐỀ TRONGQUÁ TRÌNH TÍCH HỢP ONTOLOGY 94 4.1 Mô hình xử lý xung đột tri thức cấp độ cú pháp . . . . . . . . . . . . . 95 4.1.1 Bài toán tìm đồng thuận của các công thức hội và các tiêu chuẩn cho đồng thuận . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.1.2 Phân tích các tiêu chuẩn đồng thuận . . . . . . . . . . . . . . . 100 4.1.3 Thuật toán xác định đồng thuận . . . . . . . . . . . . . . . . . 109 4.2 Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology . . . . . 115 4.3 Tiểu kết Chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119 KẾT LUẬN 120 DANHMỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 122 TÀI LIỆU THAM KHẢO 123 iv DANH MỤC TỪ VIẾT TẮT, THUẬT NGỮ Từ viết tắt, thuật ngữ Diễn giải ODP Over-determined Processing Quy trình xử lý quá xác định OWL Ontology Web Language Ngôn ngữ ontology dùng cho Web W3C World Wide Web Consortium Tổ chức tiêu chuẩn quốc tế về World Wide Web Conflict profile Hồ sơ xung đột Consensus theory Lý thuyết đồng thuận Data property Thuộc tính dữ liệu Domain Miền xác định (của thuộc tính) Object property Thuộc tính đối tượng Open World Assumption Giả thiết thế giới mở Range Miền giá trị (của thuộc tính) Semantic wiki Wiki ngữ nghĩa v DANH MỤC KÝ HIỆU Ký hiệu Diễn giải ý nghĩa O Ontology Σ Ontology không nhất quán Σ′,Σ′′ Ontology nhất quán với các tiên đề được chọn từ một ontology không nhất quán khác |≈ Phép suy luận không chuẩn |≈Syn Phép suy luận không chuẩn sử dụng hàm chọn dựa trên độ liên quan cú pháp |≈O Phép suy luận không chuẩn sử dụng hàm chọn dựa trên khoảng cách ngữ nghĩa của ontology tham chiếu O R, S Các tên vai trò, thuộc tính A,B Các tên cá thể DPO(C) Tập khái niệm cha trực tiếp của khái niệm trên một ontology DCO(C) Tập khái niệm con trực tiếp của khái niệm trên một ontology LCPO(C,D) Tập khái niệm cha chung tối thiểu của hai khái niệm trên một ontology C,D Các tên khái niệm CE1, CE2 Các biểu thức khái niệm DR1, DR2 Các khoảng dữ liệu DT Kiểu dữ liệu U Tập vũ trụ X,Y Các hồ sơ xung đột P1a,P1b Các tiêu chuẩn cho hàm nhất quán T1,T2 Các tiêu chuẩn cho bộ tri thức tích hợp H1,H2 Các tiêu chuẩn cho công thức hội vi DANH MỤC BẢNG, BIỂU Bảng 1.1. Tính thoả tiêu chuẩn của một số hàm nhất quán thông dụng . . . . . 40 Bảng 2.1. Các tiên đề về biểu thức khái niệm . . . . . . . . . . . . . . . . . . . 58 Bảng 2.2. Các tiên đề về thuộc tính đối tượng . . . . . . . . . . . . . . . . . . . 59 Bảng 2.3. Các tiên đề về thuộc tính dữ liệu, định nghĩa kiểu dữ liệu, khoá của biểu thức khái niệm, phát biểu về dữ kiện . . . . . . . . . . . . . . . 60 Bảng 2.4. Các ontology thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 68 Bảng 2.5. So sánh theo số lượng kết quả xác định của truy vấn . . . . . . . . . 69 Bảng 2.6. So sánh sự phát triển tập tiên đề diễn giải . . . . . . . . . . . . . . . 69 Bảng 3.1. Cấu trúc của khái niệm Course trong 5 ontology . . . . . . . . . . . . 91 Bảng 4.1. Ví dụ về các công thức hội của 3 tác tử mô tả tính chất của thuộc tính hasSpouse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 Bảng 4.2. Trạng thái tri thức của các tác tử cho bài toán minh hoạ . . . . . . . 114 vii DANH MỤC HÌNH VẼ Hình 1.1. Truy vấn với ontology không nhất quán . . . . . . . . . . . . . . . . . 13 Hình 1.2. Chiến lược mở rộng tuyến tính [21] . . . . . . . . . . . . . . . . . . . 21 Hình 1.3. Sơ đồ áp dụng hàm đồng thuận . . . . . . . . . . . . . . . . . . . . . 43 Hình 1.4. Trích dẫn của ontology tham chiếu OREF−TREE . . . . . . . . . . . . 44 Hình 1.5. Trích dẫn ontology của 4 chuyên gia . . . . . . . . . . . . . . . . . . . 45 Hình 2.1. Cây phân cấp khái niệm minh hoạ . . . . . . . . . . . . . . . . . . . . 50 Hình 2.2. Ontology tham chiếu O . . . . . . . . . . . . . . . . . . . . . . . . . . 65 viii MỞ ĐẦU 1. Tính cấp thiết của đề tài Năm 2001, Tim Berners Lee cùng cộng sự đã đưa ra phác thảo cho một “dạng thức mới về nội dung web mà dạng thức này có ý nghĩa đối với máy tính” [4]. Thế hệ web sử dụng dạng thức nội dung này – gọi là Web ngữ nghĩa (Semantic Web) – cho phép máy tính có thể “hiểu” tri thức được lưu trữ, theo đó có thể chia sẻ và tái sử dụng các cơ sở tri thức trong các hệ thống thông tin thuộc nhiều lĩnh vực khác nhau. So với Web hiện tại – là một kho tài liệu được liên kết với nhau – Web ngữ nghĩa là một nền tảng dữ liệu mà trong đó thông tin được lưu ở dạng định nghĩa tường minh, cho phép máy tính và con người có thể làm việc được cùng nhau [4]. Web ngữ nghĩa là một lĩnh vực nghiên cứu đang phát triển nhanh và nhận được sự quan tâm của cộng đồng nghiên cứu trong thập niên vừa qua. Công nghệ Web ngữ nghĩa đang được áp dụng vào nhiều lĩnh vực khác nhau trong thực tế như tin-sinh học, tin học trong y tế, quản trị tri thức, công nghệ phần mềm, . . . Thành phần quan trọng trong các ứng dụng web ngữ nghĩa là ontology. Trong một ontology người ta định nghĩa các thực thể (bao gồm khái niệm, thuộc tính, cá thể) và mối quan hệ giữa các thực thể này theo ngữ nghĩa được quy định tường minh bởi một ngôn ngữ logic xác định. Ngôn ngữ ontology được sử dụng phổ biến và chuẩn hoá bởi tổ chức tiêu chuẩn quốc tế W3C (World Wide Web Consortium) là OWL, được xây dựng dựa trên logic mô tả: Phiên bản đầu tiên của OWL (được giới thiệu vào năm 2004) dựa trên logic mô tả SHOIN (D), trong khi đó phiên bản thứ hai là OWL2 (được giới thiệu vào năm 2009) dựa trên logic mô tả SROIQ(D). Các tác vụ lập luận cơ bản với một ontology OWL – bao gồm kiểm tra tính nhất quán và truy vấn tri thức không được phát biểu tường minh trong ontology – đã được cài đặt trong các bộ lập luận RACER [15], FaCT+ [59], Pellet [56], HermiT [36], . . . Danh sách đầy đủ các bộ lập luận dùng với ontology OWL được tổ chức W3C cập nhật thường xuyên tại địa chỉ https://www.w3.org/2001/sw/wiki/OWL/Implementations. 1 Theo [13], vấn đề quan trọng của Web ngữ nghĩa là phải xử lý tri thức không nhất quán trong các ontology. Điều này bắt nguồn từ chính đặc điểm xây dựng và sử dụng ontology trong các ứng dụng Web ngữ nghĩa: Đặc tính có thể mở rộng, có thể chia sẻ, tái sử dụng, phân tán và đa người dùng luôn tiềm ẩn khả năng làm xuất hiện tri thức không nhất quán trong các ontology [22]. Trên thực tế, nếu một ontology là không nhất quán, các truy vấn trên nó là không có nghĩa [26]. Điều này là bởi bất kỳ tiên đề nào cũng là hệ quả logic của một ontology không nhất quán. Nói cách khác, sự không nhất quán làm mất đi ý nghĩa sử dụng của ontology trong các ứng dụng Web ngữ nghĩa. Chính vì vậy, xử lý tri thức không nhất quán trong ontology là bài toán quan trọng, có ý nghĩa thực tiễn và được cộng đồng khoa học máy tính quan tâm nghiên cứu. 2. Động lực nghiên cứu và cách tiếp cận nghiên cứu của luận án Các phương pháp xử lý tri thức không nhất quán trong ontology có thể được phân làm hai nhóm: (1) nhóm phương pháp chấp nhận tồn tại tri thức không nhất quán trong ontology, và (2) nhóm phương pháp tìm cách loại bỏ tri thức không nhất quán khỏi ontology: (1)Các giải pháp thuộc nhóm thứ nhất – chấp nhận tồn tại tri thức không nhất quán trong ontology. Một số tiếp cận thuộc nhóm này định nghĩa các logic mô tả với ngữ nghĩa nửa nhất quán và xây dựng ontology dựa trên các logic đó [31, 32, 38, 50]. Tác vụ truy vấn với các ontology dựa trên logic nửa nhất quán vẫn có thể sử dụng các bộ lập luận dành cho logic mô tả xây dựng nên OWL (bằng cách chuyển các bài toán lập luận trên các logic này về bài toán lập luận trên các logic mô tả của OWL). Việc sử dụng logic với ngữ nghĩa nửa nhất quán để xây dựng ontology, mặc dù tạo ra được mô hình biểu diễn tri thức toàn diện nhưng lại khó triển khai trong thực tế do tính phổ biến của các ngôn ngữ ontology đã được chuẩn hoá và khuyến nghị sử dụng bởi tổ chức W3C. Trong rất nhiều trường hợp thực tế, các ứng dụng Web ngữ nghĩa cần truy vấn thông tin được tổng hợp từ các ontology đến từ nhiều nguồn khác nhau (và có thể không nhất quán) mà không được phép chỉnh sửa hay tạo mới ontology. Một giải pháp phù hợp cho vấn đề này là khung lập luận với ontology không nhất quán sử dụng chiến lược phát triển tuyến tính tập tiên đề diễn giải, được 2 đề xuất bởi nhóm tác giả Zhisheng Huang, Frank van Harmelen và cộng sự [21]. Khung lập luận này tìm câu trả lời có nghĩa cho truy vấn với ontology không nhất quán bằng cách chọn ra một tập con gồm các tiên đề nhất quán từ ontology đầu vào – gọi là tập tiên đề diễn giải truy vấn: tập tiên đề này có liên quan với truy vấn theo một tiêu chí cụ thể cho trước và có thể trả lời được truy vấn. Quá trình chọn tập tiên đề diễn giải có thể được diễn ra trong nhiều bước theo chiến lược gọi là chiến lược mở rộng tuyến tính. Phần quan trọng nhất của khung lập luận với ontology không nhất quán là hàm chọn để xây dựng tập tiên đề diễn giải truy vấn. Hai hàm chọn điển hình được nhóm tác giả phát triển là hàm chọn dựa trên sự liên quan cú pháp [21] và hàm chọn dựa trên khoảng cách ngữ nghĩa theo máy tìm kiếm Google [23]. Hai hàm chọn này đều có chung nhược điểm là phụ thuộc vào cú pháp (tên khái niệm trong tiên đề) trong quá trình phát triển tập tiên đề diễn giải. Khắc phục nhược điểm này chính là một động lực nghiên cứu của luận án: Luận án đề xuất xây dựng tập tiên đề diễn giải theo độ liên quan ngữ nghĩa giữa các tiên đề với truy vấn đầu vào. Độ liên quan này được xác định dựa trên khoảng cách ngữ nghĩa giữa các khái niệm, giữa các biểu thức khái niệm khi đặt chúng trên cây phân cấp khái niệm của một ontology, ontology này được gọi là ontology tham chiếu. (2)Các giải pháp thuộc nhóm thứ hai – tìm cách loại bỏ tri thức không nhất quán thông qua việc xây dựng mới ontology từ một hoặc nhiều ontology đầu vào. Việc tạo mới ontology như vậy diễn ra theo hai chiến lược: chiến lược thứ nhất, dò tìm, đề xuất chỉnh sửa hoặc loại bỏ một số tiên đề gây nên sự không nhất quán khỏi ontology [25, 29, 51, 54]; và chiến lược thứ hai, áp dụng lý thuyết đồng thuận để xây dựng tập tiên đề hợp lý nhất (theo một tiêu chuẩn xác định trước) có thể đại diện cho các ontology đầu vào [39, 40, 41, 43, 45, 46, 47, 48, 49]. Chiến lược thứ nhất thường được sử dụng để duy trì sự nhất quán của một ontology, trong khi đó, chiến lược thứ hai thường được sử dụng để xử lý xung đột trong quá trình tích hợp ontology đến từ nhiều nguồn phân tán, độc lập nhau. Xử lý tri thức không nhất quán theo phương pháp đồng thuận được thực hiện thông qua việc xây dựng mô hình biểu diễn sự không nhất quán tri thức (gọi là xung đột tri thức) – dưới dạng hồ sơ xung đột. Dựa vào độ sai khác giữa các trạng thái tri thức (xác định bởi hàm đánh giá khoảng cách giữa hai trạng 3 thái tri thức) và tập tiêu chuẩn cho tri thức đồng thuận, người ta sẽ đề xuất phương pháp xác định trạng thái tri thức đồng thuận có thể đại diện cho tập trạng thái tri thức đầu vào. Phương pháp này được tác giả Nguyễn Ngọc Thành đề xuất vào năm 2002 [40] và cùng với các cộng sự mở rộng trong các công trình sau đó [42, 43, 46, 47]. • Trong các công trình [44, 45, 48], tác giả Nguyễn Ngọc Thành đã phân loại xung đột trong quá trình tích hợp ontology theo các mức (mức khái niệm, mức quan hệ, mức cá thể) và đề xuất các phương pháp để xử lý xung đột theo các mức này. Xung đột mức khái niệm là chủ đề được đặc biệt quan tâm xử lý bởi các khái niệm là thành phần quan trọng trong ontology. Nhóm tác giả Dương Trọng Hải, Nguyễn Ngọc Thành và cộng sự [9] kết hợp lý thuyết đồng thuận và xét thêm phân loại khái niệm của các ontology đầu vào để cải tiến chất lượng của quá trình tích hợp. Nhóm tác giả Nguyễn Ngọc Thành và Trương Hải Bằng [49, 58], Dương Trọng Hải, Nguyễn Ngọc Thành và Kozierk [9] đã mở rộng các kết quả trên để xử lý xung đột mức khái niệm trong quá trình tích hợp ontology mờ. Trong bài toán xử lý xung đột mức khái niệm, cấu trúc khái niệm được xét theo hai khía cạnh: tập thuộc tính mô tả khái niệm và miền giá trị của thuộc tính. Tuy vậy, các nghiên cứu xử lý xung đột mức khái niệm trong quá trình tích hợp ontology hiện nay chỉ tập trung xây dựng danh sách thuộc tính của khái niệm cần tích hợp. Trong khi đó, miền giá trị của các thuộc tính chỉ được xác định bằng cách lấy hợp của các miền giá trị thành phần. Điều này có nghĩa xung đột về miền giá trị của thuộc tính là chưa được xét đến. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp đồng thuận [45] và đề xuất phương án xử lý xung đột mức khái niệm trong quá trình tích hợp ontology, trong đó có xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá trị của thuộc tính. • Một mức xung đột khác cũng có thể xảy ra trong quá trình tích hợp ontology đó là xung đột mức tiên đề, theo đó, tập tiên đề của các ontology tham gia tích hợp là có sai khác nhau hoặc thậm chí mâu thuẫn nhau. Tình huống này cũng có thể thường xuyên xảy ra trong quá trình xây dựng ontology theo kiểu phân tán, cộng tác, đa người dùng [6, 60, 61] mà 4 trong đó, một ontology có thể được xây dựng bởi nhiều người dùng tự nguyện thông qua một wiki ngữ nghĩa [17, 27, 37] hoặc bởi các chuyên gia được thuê [34]. Tuy nhiên, xung đột mức tiên đề trong quá trình tích hợp ontology hiện vẫn là bài toán chưa có giải pháp tốt và thuyết phục như các mức khái niệm, quan hệ hay cá thể. Bằng cách biểu diễn một tiên đề dưới dạng một literal , mỗi ontology thành phần có thể được biểu diễn dưới dạng hội của các literal đó. Như vậy, bài toán xử lý xung đột tập tiên đề có thể được dẫn về bài toán xử lý xung đột ở cấp độ cú pháp của các công thức hội [45]. Luận án sẽ xây dựng khoảng cách giữa hai công thức hội, phân tích các tiêu chuẩn cho công thức hội đồng thuận và đề xuất phương án tìm công thức hội đồng thuận. Kết quả này có thể áp dụng cho bài toán xử lý xung đột mức tiên đề. 3. Mục tiêu, đối tượng và phạm vi nghiên cứu của luận án Đối tượng nghiên cứu của luận án là ontology, tri thức không nhất quán trong ontology, và các phương pháp xử lý tri thức không nhất quán trong ontology. Trên cơ sở phân tích các động lực nghiên cứu, luận án xác định mục tiêu xử lý tri thức không nhất quán trong ontology theo hai tác vụ truy vấn và tích hợp. Mục tiêu nghiên cứu cụ thể của luận án được giới hạn theo ba bài toán sau đây: • Bài toán thứ nhất: Xác định câu trả lời có nghĩa khi truy vấn với ontology không nhất quán. Trong bài toán này, luận án nghiên cứu đề xuất phương pháp sử dụng ontology tham chiếu để tính khoảng cách ngữ nghĩa giữa hai khái niệm, giữa hai biểu thức khái niệm, giữa hai tiên đề. Khoảng cách ngữ nghĩa này sẽ được dùng để xây dựng hàm chọn của khung lập luận với ontology không nhất quán [21]. • Bài toán thứ hai: Xử lý xung đột mức khái niệm trong quá trình tích hợp ontology. Luận án sẽ áp dụng mô hình tổng quát tích hợp tri thức theo phương pháp đồng thuận [45] để tìm đồng thuận cho cấu trúc khái niệm. Sự không nhất quán trong cấu trúc khái niệm sẽ được giải quyết ở cả danh sách thuộc tính và miền giá trị của các thuộc tính. • Bài toán thứ ba: Xử lý xung đột mức tiên đề trong quá trình tích hợp 5 ontology. Trên cơ sở biểu diễn xung đột mức tiên đề trong quá trình tích hợp ontology dưới dạng xung đột về cú pháp [45], luận án đánh giá độ sai khác của các tập tiên đề và xây dựng phương pháp tìm tập tiên đề đồng thuận theo các tiêu chuẩn dựa trên độ sai khác này. 4. Ý nghĩa khoa học và thực tiễn của luận án Luận án nghiên cứu về các phương pháp xử lý tri thức không nhất quán trong ontology. Các điểm mới trong nghiên cứu của luận án là: • Đề xuất phương pháp sử dụng khoảng cách ngữ nghĩa theo ontology tham chiếu trong hàm chọn của khung lập luận với ontology không nhất quán. Hàm chọn được xây dựng sẽ không bị phụ thuộc cú pháp biểu diễn của các tiên đề trong ontology. • Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột mức khái niệm trong quá trình tích hợp ontology ở cả hai khía cạnh: danh sách thuộc tính và miền giá trị của các thuộc tính. • Đề xuất phương pháp dựa trên lý thuyết đồng thuận để xử lý xung đột mức tiên đề trong quá trình tích hợp ontology. Các đóng góp về mặt lý thuyết của luận án có ý nghĩa lớn trong các vấn đề thực tiễn: • Góp phần giải quyết bài toán truy vấn với ontology không nhất quán. Đây là vấn đề bức thiết trong thời đại dữ liệu liên kết mở (open linked data), trong đó tri thức không nhất quán được xem là một đặc tính phải chấp nhận. • Góp phần giải quyết xung đột trong quá trình tích hợp ontology theo hướng xây dựng trí tuệ nhóm (collective intelligence): Các kết quả lý thuyết về xử lý xung đột mức khái niệm và về mức tiên đề có thể được áp dụng trong bài toán xây dựng ontology theo kiểu cộng tác, đa người dùng của một wiki hay wiki ngữ nghĩa – một nền tảng đang rất phổ biến hiện nay. 5. Nội dung và bố cục của luận án Chương 1 trình bày tổng quan về xử lý tri thức không nhất quán trong 6 ontology theo hai hướng: (1) lập luận với ontology không nhất quán sử dụng chiến lược mở rộng tuyến tính tập tiên đề diễn giải theo truy vấn đầu vào, và (2) xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo phương pháp đồng thuận. Trong chương này luận án trình bày các khái niệm cơ bản về khung lập luận với ontology không nhất quán sử dụng hàm chọn để mở rộng tuyến tính tập tiên đề diễn giải. Hàm chọn dựa trên sự liên quan cú pháp được giới thiệu trong chương như là ví dụ áp dụng khung lập luận và cũng làm cơ sở để so sánh với hàm chọn dựa trên khoảng cách ngữ nghĩa sẽ được xây dựng trong luận án. Luận án cũng trình bày phương pháp biểu diễn sự không nhất quán tri thức theo mô hình hồ sơ xung đột. Phương pháp xây dựng đồng thuận từ hồ sơ xung đột thông qua hàm đồng thuận cùng với các tiêu chuẩn cho hàm đồng thuận cũng sẽ được trình bày trong chương. Các cơ sở lý thuyết này được liên hệ đến bài toán xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo phương pháp đồng thuận. Trong Chương 2, luận án trình bày cách xác định khoảng cách ngữ nghĩa giữa hai thực thể trên ontology (dựa vào số cung nối của chúng trên cây phân cấp). Trên cơ sở đó luận án xây dựng phương pháp hiệu quả để tính khoảng cách ngữ nghĩa giữa hai biểu thức thực thể bất kỳ khi đặt trên cây phân cấp của ontology này – gọi là ontology tham chiếu. Biểu thức thực thể ở đây có thể là biểu thức lớp, biểu thức thuộc tính đối tượng hoặc thuộc tính dữ liệu trong ontology OWL. Phần nội dung quan trọng của chương trình bày phương pháp xác định tập biểu thức thực thể của một tiên đề trong ontology OWL và xây dựng hàm chọn tập tiên đề diễn giải dựa vào khoảng cách ngữ nghĩa theo ontology tham chiếu. Chương này cũng trình bày các kết quả thực nghiệm cho việc áp dụng hàm chọn được đề xuất của luận án khi truy vấn với một số ontology không nhất quán. Chương 3 trình bày phương pháp đồng thuận xử lý tri thức không nhất quán mức khái niệm trong quá trình tích hợp ontology. Trong chương này, luận án giới thiệu mô hình tổng quát tích hợp tri thức theo phương pháp đồng thuận. Luận án áp dụng mô hình này để xử lý tri thức không nhất quán mức khái niệm theo hai khía cạnh: về danh sách thuộc tính và về miền giá trị của thuộc tính trong đặc tả khái niệm cần tích hợp. Phương pháp xác định khoảng cách 7 giữa hai miền giá trị của thuộc tính đối tượng và thuộc tính dữ liệu trong các ontology OWL cũng được trình bày trong chương này. Trong Chương 4, luận án trình bày mô hình biểu diễn sự không nhất quán tri thức mà trong đó một trạng thái tri thức được biểu diễn bằng một cấu trúc hội của các literal. Sau khi xây dựng hàm đánh giá khoảng cách với cấu trúc này, luận án phân tích các tiêu chuẩn của hàm đồng thuận và đưa ra phương pháp xây dựng đồng thuận của hồ sơ các cấu trúc hội. Áp dụng kết quả này luận án đề xuất phương pháp xử lý sự không nhất quán mức tiên đề trong quá trình tích hợp ontology. Phần kết luận trình bày tóm tắt những đóng góp chính của luận án, hướng phát triển và những vấn đề cần giải quyết trong tương lai. 8 Chương 1. TỔNG QUAN VỀ XỬ LÝ TRI THỨC KHÔNG NHẤT QUÁN TRONG ONTOLOGY 1.1. Ontology và tri thức không nhất quán Có nhiều định nghĩa về ontology, nhưng định nghĩa thể hiện rõ bản chất của ontology và được trích dẫn nhiều nhất là của T. Gruber và W. Brost [5, 14]: “Ontology là một đặc tả hình thức, tường minh về một sự khái niệm hoá được chia sẻ”. Một “sự khái niệm hoá” nói đến một mô hình trừu tượng của một hiện tượng, chủ đề cụ thể bằng cách chỉ ra các khái niệm có liên quan của chủ đề đó. Tính “tường minh” được hiểu theo nghĩa, các kiểu khái niệm được sử dụng, các ràng buộc giữa chúng là được định nghĩa rõ ràng. Tính “hình thức” cho phép ontology có thể được sử dụng bởi máy tính. Cuối cùng, tính “được chia sẻ” cho biết, tri thức được mô tả bởi ontology được sự chấp nhận của một cộng đồng chứ không phải một cá nhân đơn lẻ. Các thành phần cấu trúc nên một ontology bao gồm tập các khái niệm, tập các cá thể, tập các quan hệ và tập các tiên đề như định nghĩa dưới đây. Định nghĩa 1.1 (Ontology [45]). Một ontology là một bộ bốn 〈C, I,R,Z〉, trong đó: • C là tập hợp các khái niệm (các lớp). • I là tập hợp các cá thể của các khái niệm. • R là tập hợp các quan hệ. • Z là tập hợp các tiên đề biểu diễn các ràng buộc toàn vẹn dùng để mô tả các thực thể (khái niệm, cá thể, quan hệ). 9 Ở Định nghĩa 1.1, R còn được gọi là tập thuộc tính. Các thuộc tính p ∈ R được định nghĩa bởi ánh xạ p : D → R, trong đó: D ⊆ C được gọi là miền xác định của thuộc tính và R được gọi là miền giá trị của thuộc tính. Người ta phân biệt hai loại thuộc tính: thuộc tính đối tượng dùng để liên kết các cá thể với nhau, và thuộc tính dữ liệu dùng để liên kết các cá thể với các giá trị dữ liệu. Một ontology có thể được xem là một tập tiên đề mô tả một tình huống cụ thể, gọi là một trạng thái tri thức – trong một lĩnh vực đang được quan tâm nào đó [26]. Chẳng hạn, ontology ở ví dụ dưới đây mô tả trạng thái tri thức cụ thể thuộc lĩnh vực sở hữu thú nuôi của con người. Ví dụ 1.1. Xét ontology Σ = 〈C, I,R,Z〉 với: • C = {Animal,Person,AnimalLover,Pet,Cat,Dog }. • I = { TOM,KITTY,MARY, JOHN }. • R = { hasPet, hasAge }. • Z = { Person v Animal, Pet v Animal, Cat v Pet, Dog v Pet, AnimalLover ≡ Person u (>3 hasPet.>), Pet u Person v ⊥, Dog u Cat v ⊥, ∃hasPet.> v Person, > v ∀ hasPet.Pet, ∃hasAge.> v Person, > v ∀hasAge.unsignedInt, Cat(TOM), Cat(KITTY), Person(MARY), Person(JOHN), hasPet(MARY,KITTY), hasAge(MARY,25) }. 10 Ý nghĩa của các tiên đề trong ontology Σ là như sau: • Cat(TOM),Cat(KITTY): TOM và KITTY là các cá thể của khái niệm Cat. • Person(MARY),Person(JOHN): MARY và JOHN là các cá thể của khái niệm Person. • AnimalLover ≡ Person u (>3 hasPet.>): Khái niệm AnimalLover gồm những cá thể thuộc khái niệm Person và có quan hệ với ít nhất 3 cá thể tuỳ ý thông qua thuộc tính hasPet. • ∃hasPet.> v Person: miền xác định của thuộc tính hasPet là khái niệm Person. • > v ∀hasPet.Pet: miền giá trị của thuộc tính hasPet là khái niệm Pet. • ∃hasAge.> v Person: miền xác định của thuộc tính hasAge là khái niệm Person. • > v ∀hasAge.unsignedInt: miền giá trị của thuộc tính hasAge là tập số nguyên không âm. • Pet u Person v ⊥: hai khái niệm Pet và Person không có chung cá thể nào. • Cat u Dog v ⊥: hai khái niệm Cat và Dog không có chung cá thể nào. • hasPet(MARY,KITTY): Cá thể MARY có quan hệ với cá thể KITTY thông qua thuộc tính hasPet. • hasAge(MARY,25): Cá thể MARY có quan hệ với cá thể số không âm 25 thông qua thuộc tính hasAge. Các thuộc tính hasPet, hasAge trong ontology tương ứng là thuộc tính đối tượng và thuộc tính dữ liệu. Ý nghĩa hình thức của các tiên đề trong ontology được quy định cụ thể bởi ngôn ngữ xây dựng nên ontology. Ngôn ngữ ontology thông dụng nhất hiện nay là OWL2 được dựa trên logic mô tả SROIQ(D). Ngữ nghĩa của OWL2 được định nghĩa thông qua các phép diễn dịch, theo đó, các phép diễn dịch sẽ nêu tường minh mối quan hệ giữa cú pháp và ngữ nghĩa [19]: Một phép diễn dịch I = 〈∆I , ·I〉 gồm một miền diễn dịch khác rỗng 11 ∆I và một hàm diễn dịch ·I . Hàm diễn dịch ánh xạ (1) mỗi tên khái niệm A với một tập AI là tập con của ∆I , (2) mỗi tên thuộc tính p với một tập pI là tập con của một quan hệ nhị phân trên ∆I , và (3) mỗi tên khái niệm a với một đối tượng aI trong miền diễn dịch ∆I . Hàm diễn dịch được mở rộng với các khái niệm phức, vai trò phức (thông qua các tạo tử khái niệm, tạo tử vai trò của ngôn ngữ ontology) cũng như các tiên đề trong ontology. Định nghĩa chi tiết về ngữ nghĩa của OWL2 được nêu ở https://www.w3.org/TR/2012/ REC-owl2-direct-semantics-20121211. Một phép diễn dịch thoả tất cả các tiên đề trong ontology được gọi là một mô hình của ontology đó. Một ontology được gọi là không nhất quán nếu không có mô hình nào. Nguyên nhân dẫn đến điều này là do tập tiên đề của ontology có chứa mâu thuẫn. Tri thức không được phát biểu tường minh bởi các tiên đề trong ontology có thể được kiểm tra bằng cách đánh giá kết quả truy vấn: Gọi α là một tiên đề. Truy vấn α với ontolog... thực thể (tên khái niệm, tên vai trò, tên cá thể) trong tổng thể biểu thức của chúng. Chẳng hạn, với C và D là hai tên khái niệm bất kỳ, Cunionsq¬D được xét theo tập {C,D} thay vì tổng thể biểu thức này! Hơn nữa, máy tìm kiếm Google không thể giúp ích được trong việc đánh giá độ liên quan ngữ nghĩa của các ”từ khoá” vô nghĩa như “C”, “D”! Một ví dụ đơn giản khác cũng chỉ ra sự bất hợp lý khi không xét các thực thể trong tổng thể biểu thức của chúng : Với C và D là hai khái niệm bất với sự liên quan về cú pháp chỉ được đánh giá bằng hai trạng thái “Có liên quan” hoặc “Không liên quan” 30 kỳ, chúng ta sẽ không thấy sự liên quan nào giữa C unionsq ¬C và D unionsq ¬D (do về mặt cú pháp thì “C” 6= “D” ), trong khi về mặt ngữ nghĩa, hai biểu thức khái niệm này cùng biểu diễn khái niệm đỉnh (>). Để khắc phục các nhược điểm nêu trên, luận án đề xuất phương án đánh giá sự liên quan của hai tiên đề trong quá trình mở rộng tuyến tính tập tiên đề diễn giải dựa trên khoảng cách ngữ nghĩa của một ontology tham chiếu: Thay vì sử dụng tri thức đa dụng được đánh chỉ mục bởi Google, luận án sẽ dùng các cây phân cấp khái niệm, cây phân cấp thuộc tính của một ontology – gọi là ontology tham chiếu – để đánh giá khoảng cách giữa hai khái niệm và khoảng cách giữa hai thuộc tính. Luận án sử dụng phương pháp của Wu và Palmer [62] để tính khoảng cách ngữ nghĩa của hai khái niệm trên ontology: phương pháp này tính khoảng cách ngữ nghĩa giữa hai khái niệm dựa vào số cung nối giữa chúng trên cây phân cấp khái niệm của ontology tham chiếu. Cách tiếp cận này của luận án hoàn toàn có thể được áp dụng để tính khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm hoặc hai biểu thức thuộc tính nhờ vậy tránh được nhược điểm của các hàm chọn trước đó (không thể tính được khoảng cách giữa hai biểu thức khái niệm, biểu thức thuộc tính trong các tiên đề). Các vấn đề đặt ra cho luận án để xây dựng hàm chọn dựa trên khoảng cách ngữ nghĩa của ontology tham chiếu là: • Cần phải có phương pháp tính hiệu quả khoảng cách ngữ nghĩa của hai biểu thức khái niệm khi xét chúng trên ontology tham chiếu. Điều này thực sự quan trọng về mặt hiệu năng do việc tính khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm được sử dụng nhiều lần, với nhiều biểu thức khái niệm khác nhau trong quá trình mở rộng tập tiên đề diễn giải. • Cần phải xác định tập biểu thức khái niệm, tập biểu thức thuộc tính trong các tiên đề. • Cần phải xác định độ liên quan ngữ nghĩa của hai tiên đề theo khoảng ngữ nghĩa của các biểu thức khái niệm, biểu thức thuộc tính xuất hiện trong hai tiên đề đó. 31 Những vấn đề này sẽ được phân tích và giải quyết chi tiết trong Chương 2 của luận án. 1.3. Xử lý tri thức không nhất quán trong quá trình tích hợp ontology theo phương pháp đồng thuận Việc tích hợp tri thức đến từ nhiều nguồn độc lập nhau không đơn giản là phép tổng gộp, giữa các nguồn này có thể không nhất quán nhau. Nói cách khác, chúng ta cần phải xử lý tri thức không nhất quán trong quá trình tích hợp. Mục này của luận án sẽ trình bày hồ sơ xung đột [45] như là mô hình hình thức để biểu diễn sự không nhất quán tri thức. Một số công cụ xử lý hồ sơ xung đột thuộc phương pháp đồng thuận sẽ được giới thiệu và làm cơ sở để đề xuất ý tưởng xử lý tri thức không nhất quán trong quá trình tích hợp ontology. 1.3.1. Hồ sơ xung đột Gọi U là một tập hữu hạn các đối tượng biểu diễn các ý kiến tiềm năng về chủ đề xung đột đã xác định trước. U được gọi là tập vũ trụ. Gọi ∏ k(U) là tập hợp tất cả các bộ gồm k phần tử lập được từ tập hợp U, với k ∈ N∗. Gọi ∏ (U) là tập hợp tất cả các bộ lập được từ tập hợp U:∏ (U) = ⋃ k∈N∗ (∏ k(U) ) Mỗi phần tử trong ∏ (U) được gọi là một hồ sơ xung đột, hoặc gọi ngắn gọn là một hồ sơ. Một hồ sơ xung đột biểu diễn một nội dung xung đột về một chủ đề đã được xác định trước. Chúng ta biểu diễn hồ sơ xung đột và sử dụng một số phép toán với các hồ sơ xung đột được định nghĩa bởi Lipski và Marek [30] như mô tả sau đây. Biểu thức X = {x, x, y, y, y, z} biểu diễn một hồ sơ với lực lượng là 6, viết là card(X) = 6. Trong hồ sơ này phần tử x xuất hiện 2 lần, y xuất hiện 3 lần, và z xuất hiện 1 lần. X còn có thể được viết dưới dạng X = {2 ∗ x, 3 ∗ y, 1 ∗ z} . Phép tổng hai hồ sơ được ký hiệu là ∪˙ và được định nghĩa như sau: Nếu phần tử x xuất hiện trong hồ sơ X n lần, trong hồ sơ Y n′ lần thì trong hồ sơ 32 tổng X ∪˙ Y phần tử này xuất hiện n+ n′ lần. Ví dụ, với X = {2 ∗ x, 3 ∗ y, 1 ∗ z} và Y = {4 ∗ x, 2 ∗ y} thì X ∪˙ Y = {6 ∗ x, 5 ∗ y, 1 ∗ z}. Phép hiệu của hai hồ sơ được ký hiệu là − và được định nghĩa như sau: Nếu phần tử x xuất hiện trong X n lần, trong Y n′ lần thì trong tập hợp hiệu của chúng X−Y, x xuất hiện n− n′ lần nếu n ≥ n′, và 0 lần trong trường hợp ngược lại. Chúng ta phân biệt những lớp hồ sơ xung đột theo định nghĩa sau đây. Định nghĩa 1.13 (Phân loại hồ sơ xung đột [45]). Một hồ sơ xung đột X ∈∏(U) được gọi là: (1) Hồ sơ đồng nhất nếu mọi phần tử của nó là giống nhau; nghĩa là X = {n ∗ x} với x ∈ U và n ∈ N. (2) Hồ sơ phân biệt được, nếu các phần tử của nó là khác nhau từng đôi một. (3) Bội của một hồ sơ Y, viết là X = n ∗ Y, nếu Y = {x1, x2, . . . , xk} và X = {n ∗ x1, n ∗ x2, . . . , n ∗ xk} với k, n ∈ N và n > 1. (4) Hồ sơ chính tắc, nếu nó là phân biệt được hoặc là bội của một hồ sơ phân biệt được. 1.3.2. Sự không nhất quán tri thức Giả sử có một tập cho trước A gồm các tác tử hoạt động trong môi trường phân tán. Thuật ngữ “tác tử” ở đây được hiểu theo nghĩa là một chuyên gia hoặc một chương trình máy tính thông minh, có thể hoạt động tự chủ và độc lập. Những tác tử này được giả thiết là có cơ sở tri thức riêng. Một trạng thái của cơ sở tri thức phản ánh một trạng thái của thế giới thực của tác tử tại một mốc thời gian nào đó. Trạng thái này có thể được xem như là một khung nhìn hoặc một ý kiến của tác tử về một vấn đề nào đó. Về mặt tổng quát, cấu trúc của cơ sở tri thức của tác tử có thể khác nhau. 33 Giả sử các tác tử trong tập hợp A làm việc với một tập hợp hữu hạn các chủ đề mà chúng quan tâm. Tập hợp này ký hiệu là S. Gọi U là tập hợp các phần tử biểu diễn tất cả các trạng thái tri thức mà tác tử có thể dùng để đưa ra ý kiến về các chủ đề. Chúng ta giả thiết hai phần tử khác nhau của U sẽ biểu diễn hai trạng thái tri thức với “nội dung” khác nhau. Với mỗi phần tử u ∈ U, ta gọi ngắn gọn “trạng thái u” thay cho “trạng thái tri thức biểu diễn bởi phần tử u”. Một tác tử a ∈ A tham chiếu đến chủ đề s ∈ S có thể sinh ra các loại tri thức sau: • Tri thức khẳng định: một trạng thái u ∈ U được gọi là tri thức khẳng định của tác tử a về chủ đề s nếu theo ý kiến của tác tử, trạng thái u là mô tả hợp lý nhất liên quan đến chủ đề s. • Tri thức phủ định: một trạng thái u ∈ U được gọi là tri thức phủ định của tác tử a về chủ đề s nếu theo ý kiến của tác tử, trạng thái u không thể là mô tả hợp lý nhất liên quan đến chủ đề s. • Tri thức không chắc chắn: một trạng thái u ∈ U được gọi là tri thức không chắc chắn của tác tử a về chủ đề s nếu nó không biết trạng thái u là mô tả hợp lý hay không hợp lý liên quan đến chủ đề s. Tri thức khẳng định biểu diễn loại ý kiến của tác tử mà thứ gì đó phải diễn ra, trong khi đó tri thức phủ định của tác tử diễn đạt ý kiến phản đối của nó. Cùng một tác tử, trạng thái biểu diễn tri thức khẳng định phải khác với trạng thái biểu diễn tri thức phủ định của nó. Theo cách này đối với một chủ đề s ∈ S chúng ta có thể định nghĩa những hồ sơ sau đây: • Hồ sơ khẳng định X+(s): tập hợp các trạng thái tri thức từ U biểu diễn tri thức khẳng định của các tác tử tham chiếu đến chủ đề s. • Hồ sơ phủ định: X−(s): tập hợp các trạng thái tri thức từ U biểu diễn tri thức phủ định của các tác tử tham chiếu đến chủ đề s. • Hồ sơ không chắc chắn X±(s): tập hợp các trạng thái tri thức từ U biểu diễn tri thức không chắc chắn của các tác tử về chủ đề s. Các hồ sơ khẳng định, phủ định và không chắc chắn về chủ đề s phải đảm bảo các điều kiện: • Rời nhau từng đôi một. 34 • Chúng là những bộ có lặp vì một số tác tử có thể sinh ra cùng trạng thái tri thức. Sự không nhất quán tri thức hay xung đột tri thức về một chủ đề cho trước được định nghĩa trên cơ sở hồ sơ xung đột như sau. Định nghĩa 1.14 (Sự không nhất quán tri thức [45]). Chúng ta gọi có sự không nhất quán tri thức hay xung đột tri thức về chủ đề s xuất hiện nếu ít nhất một trong hai hồ sơ X+(s) và X−(s) là không đồng nhất. Định nghĩa 1.14 cho thấy một xung đột diễn ra nếu tối thiểu có hai tác tử sinh ra các trạng thái tri thức (khẳng định hoặc phủ định) về cùng chủ đề. Định nghĩa này không nói đến hồ sơ không chắc chắn X±(s) với lý do vai trò của tri thức không chắc chắn không quan trọng bằng vai trò của hai loại tri thức kia. Khi nói về một chủ đề, các tác tử có cùng tri thức khẳng định và tri thức phủ định thì mặc dù trạng thái không chắc chắn của chúng là khác nhau, ta có thể nói không có xung đột giữa chúng. Các tập hợp X+(s) và X−(s) còn được gọi tương ứng là hồ sơ xung đột khẳng định và hồ sơ xung đột phủ định của chủ đề s. Ví dụ 1.7. Xét một nhóm chuyên gia phân tích tình hình kinh tế của một quốc gia và dự đoán mức tăng trưởng GDP trong một năm cho trước. Một chuyên gia có thể đưa ra một khoảng giá trị dự đoán sẽ chứa mức tăng trưởng GDP trong năm này. Ông ta cũng có thể đưa ra một khoảng giá trị khác dự đoán không chứa mức tăng trưởng GDP. Chúng ta sử dụng các tập con của tập số thực để định nghĩa trạng thái của tri thức. Bảng sau đây trình bày ý kiến của 5 chuyên gia: Chuyên gia X+ X− X± E1 [3, 5] (−∞, 3), (5,+∞) ∅ E2 [2, 6] (−∞, 2), (6, 8) [8,+∞) E3 4 (1, 3), (7,+∞) (−∞, 1), (3, 4), (4, 7] E4 [3, 5] (−∞, 3), (5,+∞) ∅ E5 [3, 5] (−∞, 3), (10,+∞) (5, 10] Ở đây ta có một xung đột vì các hồ sơ X+ và X− là không đồng nhất. Để ý 35 rằng các ý kiến của các chuyên gia E2, E3, E5 không phủ hết tập số thực. Điều này có nghĩa là, các chuyên gia có thể bỏ qua một số giá trị. Chẳng hạn, chuyên gia E5 không biết liệu mức tăng trưởng GDP có thể thuộc về khoảng (5, 10] hay không. Để đánh giá khoảng cách giữa hai phần tử trong tập vũ trụ U, người ta sử dụng một nửa-mêtric được định nghĩa như sau. Định nghĩa 1.15 (Hàm đánh giá khoảng cách [45]). Hàm d : U × U → [0, 1] được gọi là hàm đánh giá khoảng cách giữa hai phần tử trong tập vũ trụ U nếu thoả các tính chất: 1) Không âm: ∀x, y ∈ U : d(x, y) ≥ 0 ; 2) Phản xạ: ∀x, y ∈ U : d(x, y) = 0 nếu và chỉ nếu x = y ; 3) Đối xứng: ∀x, y ∈ U : d(x, y) = d(y, x) . Cặp (U, d) còn được gọi là một không gian nửa-mêtric. Hàm d có thể dùng để đánh giá mức độ sai khác giữa hai trạng thái tri thức trong tập vũ trụ U cũng như dùng để đánh giá độ nhất quán của một hồ sơ xung đột. Việc đánh giá độ nhất quán của hồ sơ xung đột là cần thiết cho rất nhiều tình huống: chẳng hạn, giúp đánh giá mức gắn kết, độ hội tụ tri thức của các phần tử trong một hồ sơ, hoặc giúp so sánh độ nhất quán của hai hồ sơ. Độ nhất quán của hồ sơ xung đột cũng có thể là cơ sở để thực hiện bước xử lý tiếp theo trong quá trình xử lý tri thức [1]. Độ nhất quán của hồ sơ xung đột được đánh giá thông qua hàm c định nghĩa như sau: c : ∏ (U)→ [0, 1]. Định nghĩa dưới đây mô tả bộ tiêu chuẩn cho hàm nhất quán. Định nghĩa 1.16 (Tiêu chuẩn của hàm nhất quán [45]). Giả sử tập vũ trụ U chứa tối thiểu 2 phần tử, (U, d) là một không gian nửa-mêtric. Các tiêu chuẩn cho hàm nhất quán được định nghĩa như sau. 36 P1a. Tiêu chuẩn về độ nhất quán cực đại: Nếu X là hồ sơ đồng nhất thì c(X) = 1. P1b. Tiêu chuẩn mở rộng về độ nhất quán cực đại: Với x ∈ U, Y,Z ∈∏(U), Y = {x} và X(n) = (n ∗Y) ∪˙ Z là hồ sơ có phần tử x xuất hiện ít nhất n lần, số lần xuất hiện của các phần tử khác trong Z là cố định. Khi đó: lim n→+∞ c(X (n)) = 1 . P2a. Tiêu chuẩn về độ nhất quán cực tiểu: Nếu X = {a, b} và d(a, b) = max{d(u, v) | u, v ∈ U} và X 6= n ∗U,∀n ∈ N∗ thì c(X) > 0. P2c. Tiêu chuẩn thay thế cho nhất quán cực tiểu: Nếu X = U thì c(X) = 0. P3. Tiêu chuẩn về độ nhất quán khác 0: Nếu tồn tại các phần tử a, b ∈ X mà d(a, b) < max{d(u, v) | u, v ∈ U} và X 6= n ∗U,∀n ∈ N∗ thì c(X) > 0. P4. Tiêu chuẩn về hồ sơ không đồng nhất: Nếu X là một hồ sơ không đồng nhất thì c(X) < 1. P5. Tiêu chuẩn về hồ sơ bội: Nếu hồ sơ X là bội của hồ sơ Y thì c(X) = c(Y). P6. Tiêu chuẩn về độ tin cậy lớn hơn: Ký hiệu − d(u,X) :=∑x∈X d(u, x) (biểu diễn tổng khoảng cách giữa một phần tử u ∈ U đến các phần tử của hồ sơ X). − D(X) := {d(u,X) | u ∈ U}. Với mọi hồ sơ X,Y ∈∏(U), ta có:( min{D(X)} card(X) ≤ min{D(Y)} card(Y) ) ⇒ (c(X) ≥ c(Y)) . P7a. Tiêu chuẩn về cải thiện tính nhất quán: 37 Cho a và a′ là những phần tử trong tập vụ trụ U sao cho: d(a,X) = min{d(x,X) | x ∈ X} và d(a′,X) = min{d(x,X) | x ∈ U} . Khi đó: c(X− {a}) ≤ c(X) ≤ c(X ∪˙ {a′}). P7b. Tiêu chuẩn thứ hai về cải thiện tính nhất quán: Cho b và b′ là những phần tử trong tập vũ trụ U sao cho: d(b,X) = max{d(x,X) | x ∈ X} và d(b′,X) = max{d(x,X) | x ∈ U} . Khi đó: c(X ∪˙ {b′}) ≤ c(X) ≤ c(X− {b}) . P8. Tiêu chuẩn về đơn giản hoá: Cho Y,Z ∈∏(U) là những hồ sơ và X(n) = (n ∗ Y) ∪˙ Z. Khi đó: lim n→+∞ c(X (n)) = c(Y) . Gọi X = {x1, x2, . . . , xM} là một hồ sơ xung đột. Các thông số dưới đây thường được dùng để định nghĩa hàm nhất quán [45]: • Ma trận khoảng cách giữa các phần tử của hồ sơ X là: DX = [ dXij ] =  d(x1, x1) d(x1, x2) · · · d(x1, xM ) d(x1, x1) d(x1, x2) · · · d(x1, xM ) ... ... . . . ... d(xM , x1) d(xM , x2) · · · d(xM , xM )  (1.9) • Vector gồm các khoảng cách trung bình giữa một phần tử đến các phần tử còn lại trong hồ sơ (với M > 1) là: WX = {wX1 , wX2 , . . . , wXM} (1.10) 38 trong đó, wXi = 1 M − 1 M∑ j=1 dXji = 1 M − 1 ( d(x1, xi) + d(x2, xi) + · · ·+ d(xM , xi) ) với i = 1, 2, . . . ,M. Lưu ý rằng mặc dù tổng trên cóM phần tử nhưng giá trị trung bình chỉ được tính choM−1 phần tử với lý do dXii = 0 ∀i = 1, 2, . . . ,M . • Đường kính của hồ sơ X được định nghĩa là: Diam(X) = max{d(x, y) | x, y ∈ X} (1.11) và phần tử lớn nhất của vector WX: Diam(WX) = max{wXi | i = 1, 2, . . . ,M} (1.12) biểu diễn phần tử trong hồ sơ X sinh ra tổng khoảng cách lớn nhất đến các phần tử còn lại. Do các giá trị của hàm khoảng cách d thuộc về đoạn [0, 1] nên chúng ta quy ước đường kính của U là 1, nghĩa là: Diam(U) = 1 . • Khoảng cách trung bình trong hồ sơ X là: dmean(X) =  1 M(M−1) M∑ i=1 M∑ j=1 dXij = 1 M M∑ i=1 WXi , với M > 1 0 , với M = 1 (1.13) Giá trị dmean(X) biểu diễn giá trị trung bình của tất cả khoảng cách giữa những phần tử khác nhau của hồ sơ. Lưu ý rằng từ “khác nhau” ở đây có ý nghĩa là “chỉ số khác nhau” chứ không phải “khác nhau về nội dung”. • Khoảng cách trung bình tổng trong hồ sơ X: dt_mean(X) = ∑ x,y∈X d(x, y) M(M + 1) = M − 1 M + 1 .dmean(X) . (1.14) • Tổng khoảng cách của một phần tử u thuộc vũ trụ U đến các phần tử trong hồ sơ X là d(u,X) = ∑ x∈X d(u, x) . (1.15) 39 • Cực tiểu tổng khoảng cách đến các phần tử trong hồ sơ X là dmin(X) = min{d(u,X) | u ∈ U} . (1.16) • Tập hợp các tổng khoảng cách đến hồ sơ X là D(X) = {d(u,X) | u ∈ U} . (1.17) Có 5 hàm nhất quán thường được sử dụng trong thực tế là: • c1(X) = 1−Diam(X) = 1−max{d(x, y) | x, y ∈ X} . • c2(X) = 1−Diam(WX) = 1−max{wXi | i = 1, 2, . . . ,M} . • c3(X) = 1− dmean(X) . • c4(X) = 1− dt_mean(X) . • c5(X) = 1− dmin(X) . Người ta đã chứng minh được rằng, các tiêu chuẩnP1a,P1b,P2a,P2b,P2c, P3, P4, P5, P6, P7a, P7b, P8 là độc lập nhau, theo nghĩa hàm nhất quán nếu thoả tiêu chuẩn này thì không chắc chắn sẽ thoả tiêu chuẩn khác [45]. Bảng 1.1 cho thấy tính thoả của các hàm nhất quán c1, c2, c3, c4, c5 so với bộ tiêu chuẩn này [45], trong đó, ký hiệu + cho biết hàm thoả tiêu chuẩn, ký hiệu - cho biết hàm không thoả tiêu chuẩn, và ký hiệu ± cho biết hàm chỉ thoả một phần tiêu chuẩn tương ứng. Bảng 1.1: Tính thoả tiêu chuẩn của một số hàm nhất quán thông dụng [45] P1a P1b P2a P2b P2c P3 P4 P5 P6 P7a P7b P8 c1 + - + + + - + + - - - - c2 + - + - - - + + - + + - c3 + + + - - + + - - + + + c4 + + - + - + + - + + + + c5 + + - - - + + + + ± ± - 1.3.3. Hàm đồng thuận Với một hồ sơ xung đột thể hiện một sự không nhất quán tri thức, điều người ta quan tâm là cần đánh giá xem liệu có thể tìm được trạng thái tri thức 40 đồng thuận từ các trạng thái tri thức trong hồ sơ hay không, và nếu có thì đồng thuận đó được xác định như thế nào. Khả năng tìm được đồng thuận từ hồ sơ xung đột có thể được quyết định theo độ nhất quán của hồ sơ đó. Trong khi đó hàm đồng thuận thể hiện các lựa chọn đồng thuận dựa trên hồ sơ đầu vào. Định nghĩa 1.17. Hàm đồng thuận trong không gian nửa-mêtric (U, d) là ánh xạ C : ∏ (U)→ 2U trong đó, 2U ký hiệu tập hợp gồm tất cả các tập con của U. Với mỗi hồ sơ xung đột X ∈∏(U), tập hợp C(X) được gọi là đại diện của X, và một phần tử của C(X) được gọi là một đồng thuận của hồ sơ X. Ký hiệu Con(U) biểu diễn tập tất cả các hàm đồng thuận trong không gian nửa-mêtric (U, d). Định nghĩa dưới đây mô tả bộ tiêu chuẩn cho hàm đồng thuận trong (U, d). Định nghĩa 1.18 (Tiêu chuẩn cho hàm đồng thuận [45]). Gọi U là tập vũ trụ, (U, d) là một không gian nửa-mêtric. Một hàm đồng thuận C ∈ Con(U) cần thoả mãn một hoặc nhiều tiêu chuẩn trong bộ tiêu chuẩn sau đây (gọi là bộ tiêu chuẩn cho hàm đồng thuận): 1. Tính tin cậy (Re - Reliability) nếu: C(X) 6= ∅ với ∀X ∈ ∏ (U), card(X) > 0 . 2. Tính nhất trí (Un - Unanimity) nếu: C{n ∗ u} = {u} với ∀n ∈ N,∀u ∈ U . 3. Tính đơn giản (Sim - Simplification) nếu: (Hồ sơ X là bội của hồ sơ Y)⇒ (C(X) = C(Y)) . 4. Tính gần-nhất trí (Qu - Quasi-Unanimity) nếu: ∀u ∈ U : (u /∈ C(X))⇒ (∃n ∈ N : u ∈ C(X ∪˙ (n ∗ u))) . 41 5. Tính nhất quán (Co - Consistency) nếu: ∀u ∈ U : (u ∈ C(X))⇒ (u ∈ C(X ∪˙ {u})) . 6. Tính nhất quán Condorcet (Cc - Condorcet consistency) nếu: C(X1) ∩ C(X2) 6= ∅ ⇒ C(X1 ∪˙ X2) = C(X1) ∪ C(X2) . 7. Tính nhất quán chung (Gc - General consistency) nếu: C(X1) ∩ C(X2) ⊆ C(X1 ∪˙ X2) ⊆ C(X1) ∪ C(X2) . 8. Tính đồng biến (Pr - Proportion) nếu: (X1 ⊆ X2 ∧ x ∈ C(X1) ∧ y ∈ C(X2))⇒ d(x,X1) ≤ d(x,X2) 9. Tính tối ưu - 1 (Tiêu chuẩn O1) nếu: ∀u ∈ U : u ∈ C(X)⇒ d(u,X) = min{d(v,X) | v ∈ U} . 10. Tính tối ưu - 2 (Tiêu chuẩn O2) nếu: ∀u ∈ U : u ∈ C(X)⇒ d2(u,X) = min{d2(v,X) | v ∈ U}, trong đó d2(v,X) ký hiệu cho ( d(v,X) )2 với v ∈ U. Tiêu chuẩn O1 thường được áp dụng cho các bài toán trong thực tế khi cần lựa chọn phần tử đại diện từ một hồ sơ xung đột. Hàm C(X), X ∈∏(U) được gọi là hàm đồng thuận-O1 nếu thoả tiêu chuẩn O1, tức là: ∀u ∈ U : u ∈ C(X)⇒ d(u,X) = min{d(v,X) | v ∈ U} . Ví dụ dễ thấy nhất trong thực tế sử dụng tiêu chuẩn O1 là bài toán bầu cử, trong đó, các thành viên cần bầu ra một hội đồng. Rõ ràng, các thành viên trong hội đồng chính là sự đồng thuận được lấy từ các lá phiếu (ý kiến của các thành viên). Tương tự như vậy, hàm đồng thuận C(X) được gọi là hàm đồng thuận-O2 nếu ∀u ∈ U : u ∈ C(X)⇒ d2(u,X) = min{d2(v,X) | v ∈ U} . 42 Hàm đồng thuận-O2 thường được dùng để xác định đồng thuận của các ý kiến xây dựng phương án mà trong đó, phương án cần tìm là độc lập với phương án của các thành viên tham gia. Chẳng hạn, đồng thuận được xác định trong Ví dụ 1.7 cần phải được xác định theo tiêu chuẩn O2 do mức GDP của quốc gia trong một năm cụ thể trên thực tế không bị ảnh hưởng bởi ý kiến của các chuyên gia. Sơ đồ ở Hình 1.3 mô tả chiến lược sử dụng tiêu chuẩn O1 hay O2 trong các bài toán thực tế [45]. Hình 1.3: Sơ đồ áp dụng hàm đồng thuận O1 và O2 Nói chung, không phải từ bất kỳ hồ sơ xung đột nào chúng ta cũng có thể chọn ra được một giải pháp đồng thuận. Định nghĩa dưới đây cho biết tính khả đồng thuận theo tiêu chuẩn O1 của một hồ sơ X. 43 Định nghĩa 1.19 (Tiêu chuẩn khả đồng thuận [45]). Trên không gian nửa- mêtric (U, d), hồ sơ X ∈∏(U) là khả đồng thuận theo tiêu chuẩn O1 nếu và chỉ nếu: dt_mean(X) ≥ dmin(X) . (1.18) 1.3.4. Các nghiên cứu liên quan xử lý không nhất quán tri thức trong quá trình tích hợp ontology bằng phương pháp đồng thuận Đặc tính có thể mở rộng, có thể chia sẻ được của ontology là một trong những nhân tố thúc đẩy cho sự phát triển và hiện thực hoá tầm nhìn của web ngữ nghĩa [4]. Người ta đã xây dựng các ontology mức cao như DOLCE [11], SUMO [28], BFO [12], GFO [18], Cyc [33], . . . đóng vai trò như là tri thức cơ sở để xây dựng các ontology khác. Bằng cách này, cơ sở tri thức có thể được tạo và chia sẻ bởi nhiều tổ chức, trải rộng trên nhiều lĩnh vực mà, về mặt lý thuyết, vẫn đảm bảo được sự nhất quán, không xung đột lẫn nhau. Tuy vậy, trên thực tế, việc tái sử dụng tri thức từ các ontology mức cao lại không làm giảm đi các nguy cơ tiềm tàng gây xung đột. Điều này là bởi trong quá trình xây dựng ontology luôn có yếu tố tự quyết định của các chuyên gia hoặc tác tử tri thức. Chẳng hạn, Hình 1.5 cho thấy bốn chuyên gia khi xây dựng ontology về lĩnh vực đào tạo có thể mô tả khái niệm Course (khoá học) theo những cách khác nhau khi tái sử dụng ontology OREF−TREE (Hình 1.4). Bài toán đặt ra ở đây là: làm thế nào để có thể tích hợp được ý kiến của các chuyên gia này? hay, làm thế nào để giải quyết sự không nhất quán giữa các ontology được mô tả? Hình 1.4: Trích dẫn của ontology tham chiếu OREF−TREE Dạng xung đột ở bài toán nêu trên chính là xung đột mức khái niệm trong quá trình tích hợp ontology. Một mức xung đột khác cũng phổ biến trong quá trình 44 Hình 1.5: Trích dẫn ontology của 4 chuyên gia tích hợp ontology đó là xung đột về tập tiên đề. Xung đột mức tiên đề thường xảy ra trong các môi trường xây dựng ontology theo kiểu cộng tác, đa người dùng [6, 60, 61]. Trong những môi trường này, một ontology có thể được xây dựng bởi nhiều người dùng tự nguyện thông qua một wiki ngữ nghĩa (semantic wiki) [17, 27, 37] hoặc bởi các chuyên gia được thuê [34]. Thách thức lớn nhất trong mô hình xây dựng ontology này nằm ở giai đoạn tổng hợp tri thức: người tổng hợp cần xử lý tình huống mà trong đó một số tiên đề và phủ định của nó cùng được phát biểu bởi các người dùng tham gia xây dựng ontology. Cả hai bài toán nêu trên đều thuộc loại điển hình để có thể giải quyết bằng phương pháp đồng thuận. Các tác giả Nguyễn Ngọc Thành và Trương Hải Bằng [49, 58], Dương Trọng Hải, Nguyễn Ngọc Thành và Kozierk [9] đã đưa ra các phương án xử lý xung đột mức khái niệm trong quá trình tích hợp ontology theo phương pháp đồng thuận. Tuy vậy, các tác giả chỉ tập trung xây dựng danh sách thuộc tính của khái niệm cần tích hợp. Trong khi đó, miền giá trị của các thuộc tính được xác định bằng cách lấy hợp của các miền giá trị thành phần. Điều này có nghĩa sự xung đột về miền giá trị của thuộc tính là chưa được xử lý. Trên cơ sở mô hình tích hợp tri thức tổng quát theo phương pháp đồng thuận [45] luận án sẽ đề xuất phương án xử lý xung đột mức khái niệm trong quá trình tích hợp ontology, trong đó có xét đến cả hai khía cạnh: danh sách thuộc tính và miền giá trị của thuộc tính. Thách thức chính để xử lý xung đột về miền giá trị của các thuộc tính là phải xây dựng được hàm đánh giá khoảng cách cho các miền giá trị. Nội dung này sẽ được trình bày trong Chương 3 của luận án. 45 Hiện nay vẫn chưa có công trình nghiên cứu đầy đủ phương án giải quyết cho bài toán xử lý xung đột về tập tiên đề trong quá trình tích hợp ontology nói chung, cũng như trong quá trình xây dựng ontology cộng tác nói riêng. Luận án đề xuất một phương án đơn giản để có thể giải quyết các bài toán này theo phương pháp đồng thuận. Bằng cách biểu diễn một tiên đề dưới dạng một literal , tri thức đóng góp của mỗi người dùng có thể được biểu diễn dưới dạng hội của các literal đó. Như vậy, bài toán xử lý xung đột về tập tiên đề trong quá trình xây dựng ontology cộng tác có thể được dẫn về bài toán tìm đồng thuận của hồ sơ xung đột gồm các công thức hội của các literal , còn được gọi là bài toán xử lý xung đột ở cấp độ cú pháp [45]. Các thách thức đặt ra của bài toán này là: • Xây dựng hàm đánh giá khoảng cách giữa hai cấu trúc hội của các literal . • Phân tích mối quan hệ của hàm đánh giá khoảng cách này với các tiêu chuẩn đồng thuận, từ đó đề ra phương pháp xây dựng đồng thuận cho một hồ sơ xung đột đầu vào. Chương 4 của luận án sẽ trình bày chi tiết nội dung này. 1.4. Tiểu kết Chương 1 Chương này đã trình bày tổng quan về ontology và sự không nhất quán tri thức trong ontology. Hai vấn đề được luận án đặt ra cần giải quyết liên quan đến sự không nhất quán tri thức với ontology là tìm kết quả có nghĩa khi truy vấn với ontology không nhất quán và xử lý xung đột trong quá trình tích hợp ontology. Các khái niệm cơ bản và tổng quan về các cách tiếp cận để giải quyết các vấn đề này cũng đã được giới thiệu trong chương: (1)Khung lập luận với ontology không nhất quán sử dụng chiến lược phát triển tuyến tính tập tiên đề diễn giải và (2) Phương pháp đồng thuận để xử lý sự không nhất quán tri thức. Chương này cũng phác thảo cách tiếp cận của luận án cũng như thách thức đặt ra cho các tiếp cận để giải quyết các bài toán không nhất quán tri thức trong ontology. 46 Chương 2. SUY LUẬN VỚI ONTOLOGY KHÔNG NHẤT QUÁN SỬ DỤNG HÀM CHỌN DỰA TRÊN KHOẢNG CÁCH NGỮ NGHĨA CỦA ONTOLOGY THAM CHIẾU Trong chương này luận án xây dựng một hàm chọn dựa trên khoảng cách ngữ nghĩa của một ontology tham chiếu để áp dụng vào khung lập luận với ontology không nhất quán. Nội dung của chương được trình bày theo trình tự như sau: Mục 2.1 trình bày phương pháp đánh giá khoảng cách ngữ nghĩa giữa hai thực thể có tên (named entity) trong một ontology. Trên cơ sở đó, Mục 2.2 trình bày phương pháp quy hoạch động để đánh giá khoảng cách ngữ nghĩa giữa hai biểu thức thực thể bất kỳ (biểu thức khái niệm, biểu thức thuộc tính đối tượng, biểu thức thuộc tính dữ liệu) khi đặt chúng trên cây phân cấp tương ứng của một ontology – gọi là ontology tham chiếu. Trong Mục 2.3, bằng cách xét các tiên đề dưới dạng các biểu thức thực thể, luận án trình bày phương pháp đánh giá khoảng cách giữa hai tiên đề theo ontology tham chiếu. Mục này cũng phân loại và trình bày cách xác định tập biểu thức thực thể trong 32 dạng tiên đề của ontology OWL2. Cuối cùng, Mục 2.4 mô tả phép suy luận không chuẩn sử dụng hàm chọn dựa trên khoảng cách ngữ nghĩa của ontology tham chiếu. Ontology có thể được xem là một tập các tiên đề, mà mỗi tiên đề được xây dựng từ các thực thể khái niệm, vai trò, cá thể theo quy tắc cú pháp và ngữ nghĩa được quy định bởi ngôn ngữ ontology cụ thể. Ngôn ngữ ontology thông dụng nhất hiện nay là OWL2 được dựa trên logic mô tả SROIQ. Các tiên đề bao hàm của ontology OWL2 cấu trúc nên các cây phân cấp1 của các thực thể: cây phân cấp của các lớp/khái niệm2, cây phân cấp các thuộc tính đối tượng và 1Trên thực tế, hầu hết các tiên đề của ontology OWL (ngôn ngữ ontology được sử dụng rộng rãi nhất hiện nay) đều có thể biểu diễn được dưới dạng quan hệ bao hàm, tức là có dạng: C v D (với C, D là các biểu thức khái niệm), hoặc R v S (với R, S là các biểu thức thuộc tính). 2Luận án sử dụng hai thuật ngữ “class” và “concept” với nghĩa tương đương nhau, và tương ứng 47 cây phân cấp các thuộc tính dữ liệu. Vì tính tương tự của khái niệm và thuộc tính trên cây phân cấp của chúng nên trong các mục tiếp theo, luận án chỉ phân tích khoảng cách ngữ nghĩa giữa hai khái niệm trên cây phân cấp. Có nhiều phương pháp đánh giá khoảng cách ngữ nghĩa của hai khái niệm. Danh sách các phương pháp và đặc điểm của từng phương pháp đánh giá khoảng cách ngữ nghĩa của hai khái niệm trong ontology có thể xem tại [57]. Luận án sử dụng phương pháp của Wu và Palmer [62] để đánh giá khoảng cách ngữ nghĩa của hai khái niệm có tên trong ontology. Phương pháp này đánh giá khoảng cách ngữ nghĩa của hai khái niệm dựa vào số cung nối thuộc đường đi giữa chúng trên cây phân cấp khái niệm của ontology. Đặc điểm này cho phép luận án có thể áp dụng nguyên lý quy hoạch động để tính khoảng cách ngữ nghĩa giữa hai biểu thức khái niệm bất kỳ. Điều này sẽ được phân tích cụ thể ở các mục tiếp theo của chương. 2.1. Khoảng cách ngữ nghĩa giữa hai khái niệm trong ontology Gọi O là một ontology, CO là tập tất cả khái niệm có tên trong O. Với c1, c2 ∈ CO là hai khái niệm có tên trong ontology O, chúng ta sử dụng một số ký hiệu sau: • DPO(c1) là tập các khái niệm có tên trong O là khái niệm cha trực tiếp (direct parent concept) của c1. • DCO(c1) là tập các khái niệm có tên trong O là khái niệm con trực tiếp (direct child concept) của c1. • LCPO(c1, c2) là tập các khái niệm có tên trong O là khái niệm cha chung tối thiểu (least common parent concept) của c1 và c2: LCPO(c1, c2) = {c ∈ CO | c1 v c ∧ c2 v c ∧ (∀c′ ∈ CO : c1 v c′ ∧ c2 v c′ ⇒ c v c′)} . Khi đã xác định rõ ontology O, chúng ta có thể bỏ qua chỉ số O trong các ký hiệu DPO, DCO, LCPO. với thuật ngữ tiếng Việt là “khái niệm”. 48 Định nghĩa 2.1 (Số cung nối trực tiếp tối thiểu µ giữa hai khái niệm trên ontology). Gọi O là một ontology. Với hai khái niệm c1, c2 ∈ CO, ta nói k ∈ N là số cung nối trực tiếp tối thiểu từ c1 đến c2 trên cây phân cấp khái niệm của O, ký hiệu µO(c1, c2) = k, nếu tồn tại d1, d2, . . . , dk là dãy ngắn nhất các khái niệm có tên trong O sao cho: c1 ≡ d1 c2 ≡ dk di ∈ DCO(di+1) với ∀i = 1, 2, . . . , k − 1. Ta quy ước: • µO(c, c) = 0 với ∀c ∈ CO. • µO(c1, c2) = +∞ khi c1 ≡ ⊥ hoặc O 6|= c1 v c2 (không tồn tại đường đi từ c1 đến c2 trên cây phân cấp khái niệm của O). • Trong trường hợp đã xác định rõ ontology O, ta có thể viết µ thay vì µO . Với một ontology O cùng với tập khái niệm có tên CO, chúng ta có thể tính được các giá trị µO(c1, c2) (c1, c2 ∈ CO) bằng cách áp dụng các thuật toán như Floyd [10], Ford-Bellman [3], . . . trên đồ thị lập được từ quan hệ bao hàm (@) giữa các khái niệm của ontology. Khoảng cách ngữ nghĩa của hai khái niệm có tên trong ontology được xác định thông qua µO như định nghĩa dưới đây. Định nghĩa 2.2 (Khoảng cách ngữ nghĩa δ của hai khái niệm trên ontology [62]). Khoảng cách ngữ nghĩa δ của hai khái niệm có tên c1, c2 trong ontology O, ký hiệu ...hất, giả sử rằng⋂ x∈X x+ * x∗+; (4.5) Điều này có nghĩa, tồn tại một ký hiệu t ∈ ⋂x∈X x+ sao cho t /∈ x∗+. Khi đó, ta tạo công thức hội x′∗ = (x′∗+, x∗−) với x′∗+ = x∗+ ∪ {t}. Với mỗi x ∈ X, ta có, theo Định nghĩa 4.4 về hàm khoảng cách giữa hai tập hợp: η(x′∗+, x+) = card(x′∗+4 x+) card(L) = card((x∗+ ∪ {t})4 x+) card(L) . Do t /∈ x∗+ và t ∈ ⋂x∈X x+ (theo giả thiết) nên ta có ∀x ∈ X: card((x∗+ ∪ {t})4 x+) = card(x∗+4 x+)− 1 . 102 Như vậy, ∀x ∈ X: η(x′∗+, x+) = card((x∗+ ∪ {t})4 x+) card(L) = card(x∗+4 x+)− 1 card(L) < card(x∗+4 x+) card(L) = η(x∗+, x+) . Do đó: ∑ x∈X η(x′∗+, x+) < ∑ x∈X η(x∗+, x+) d∧(x′∗,X) = ∑ x∈X (1 2 .η(x′∗+, x+) + 1 2 .η(x∗−, x−) ) < ∑ x∈X (1 2 .η(x∗+, x+) + 1 2 .η(x∗−, x−) ) = d∧(x∗,X) Điều này trái với giả thiết (( (x∗+, x∗−) ∈ C(X)) ∧ (C(X) ` H5)). Vậy (4.3) là đúng (đpcm). Chứng minh tương tự ta cũng có (4.4) là đúng. (b) C `H5 ⇒ C `H2 Gọi X ∈ ∏(Conj(L) là một hồ sơ tuỳ ý, C ∈ Cco là một hàm đồng thuận thoả tiêu chuẩn H5. Gọi (x∗+, x∗−) ∈ C(X) là một đồng thuận của hồ sơ X. Để chứng minh H2 cũng thoả bởi C, ta phải chứng minh⋃ x∈X x+ ⊇ x∗+ (4.6) và ⋃ x∈X x− ⊇ x∗− (4.7) Với phụ thuộc thứ nhất, giả sử rằng⋃ x∈X x+ + x∗+; (4.8) Điều này có nghĩa, tồn tại một ký hiệu t ∈ x∗+ sao cho t /∈ ⋃x∈X x+. Khi đó, ta tạo công thức hội x′∗ = (x′∗+, x∗−) với x′∗+ = x∗+ \ {t}. 103 Với mỗi x ∈ X, ta có: η(x′∗+, x+) = card(x′∗+4 x+) card(L) = card((x∗+ \ {t})4 x+) card(L) Do t ∈ x∗+ và t /∈ ⋃x∈X x+ (theo giả thiết) nên ta có ∀x ∈ X: card((x∗+ \ {t})4 x+) = card(x∗+4 x+)− 1 Như vậy, ∀x ∈ X: η(x′∗+, x+) = card((x∗+ \ {t})4 x+) card(L) = card(x∗+4 x+) + 1 card(L) < card(x∗+4 x+) card(L) = η(x∗+, x+) Do đó: ∑ x∈X η(x′∗+, x+) > ∑ x∈X η(x∗+, x+) d∧(x′∗,X) = ∑ x∈X (1 2 .η(x′∗+, x+) + 1 2 .η(x∗−, x−) ) < ∑ x∈X (1 2 .η(x∗+, x+) + 1 2 .η(x∗−, x−) ) = d∧(x∗,X) Điều này trái với giả thiết (( (x∗+, x∗−) ∈ C(X)) ∧ (C(X) ` H5)). Do đó, giả thiết (4.8) là sai. Vậy (4.6) là đúng (đpcm). Chứng minh tương tự ta cũng có (4.7) là đúng. Định lý 4.3. Thành phần khẳng định và thành phần phủ định của một đồng thuận thoả tiêu chuẩn H5 có thể được xác định độc lập nhau; nghĩa là, một công thức hội (x∗+, x∗−) là một đồng thuận của X nếu và chỉ nếu công thức hội (x∗+, ∅) là đồng thuận của X′ = {(xi+, ∅) | i = 1, 2, . . . , n}, và công thức hội (∅, x∗−) là đồng thuận của X′′ = {(∅, xi−) | i = 1, 2, . . . , n}. 104 Chứng minh. Định lý sẽ được chứng minh theo hai chiều (a) và (b) như sau: (a) Nếu (x∗+, x∗−) là một đồng thuận H5 của hồ sơ X thì • (x∗+, ∅) là một đồng thuận H5 của hồ sơ X′ = {(xi+, ∅) | i = 1, 2, . . . , n}, và • (∅, x∗−) là một đồng thuậnH5 của hồ sơ X′′ = {(∅, xi−) | i = 1, 2, . . . , n}; Mệnh đề đầu tiên được chứng minh bằng phản chứng như dưới đây. Với X ∈∏(Conj(L)) là một hồ sơ các công thức hội, (x∗+, x∗−) là một đồng thuận H5 của hồ sơ X. Giả sử (x∗+, ∅) không phải là một đồng thuận H5 của hồ sơ X′ = {(xi+, ∅) : i = 1, 2, . . . , n}. Gọi y∗ = (y∗+, y∗−) là một đồng thuận H5 của hồ sơ X′: y∗ 6= (x∗+, ∅). Do y∗ là đồng thuận H5 của X′ nên theo Định lý 4.2 (C ` H5 ⇒ C ` H2), ta có: y∗− = ∅. Ngoài ra, theo định nghĩa của một đồng thuận H5, ta có: ∑ x∈X′ η(y∗+, x+) + ∑ x∈X′ η(∅, x−) < ∑ x∈X′ η(x∗+, x+) + ∑ x∈X′ η(∅, x−) Điều này có nghĩa:∑ x∈X′ η(y∗+, x+) < ∑ x∈X′ η(x∗+, x+) ⇔ n∑ i=1 η(x′∗+, x+) < n∑ i=1 η(x∗+, xi+) ⇔ n∑ i=1 η(y∗+, xi+) + n∑ i=1 η(x∗−, xi+) < n∑ i=1 η(x∗+, xi+) + n∑ i=1 η(x∗−, xi+) ⇔ d∧ ( (y∗+, x∗−),X ) < d∧ ( (x∗+, x∗−),X ) . Như vậy, tồn tại công thức hội (y∗+, x∗−) mà d∧ ( (y∗+, x∗−),X ) < d∧ ( (x∗+, x∗−),X ) . Điều này mâu thuẫn với giả thiết rằng (x∗+, x∗−) là một đồng thuận H5 của X. Vậy, mệnh đề đầu tiên là đúng. Một cách tương tự, ta cũng chứng minh được mệnh đề thứ hai. (b) Nếu • (x∗+, ∅) là đồng thuận H5 của hồ sơ X′ = {(xi+, ∅) | i = 1, 2, . . . , n}, và • (∅, x∗−) là đồng thuận H5 của hồ sơ X′′ = {(∅, xi−) | i = 1, 2, . . . , n}; 105 thì (x∗+, x∗−) là đồng thuận H5 của hồ sơ X = {(xi+, xi−) | i = 1, 2, . . . , n}. Điều này được chứng minh như sau: Với mỗi công thức hội (y+, y−) ∈ Conj(L), ta có: • d∧ ( (x∗+, ∅),X′() ≤ d∧(((y+, ∅),X′) , và • d∧ ( (∅, x∗−),X′′() ≤ d∧(((∅, y−),X′′) Vì vậy, d∧ ( (x∗+, ∅),X′)+ d∧((∅, x∗−),X′′) ≤ d∧((y+, ∅),X′)+ d∧((∅, y−),X′′) hay là d∧ ( (x∗+, x∗−),X ) ≤ d∧((y+, y−),X) Bất đẳng thức cuối cùng chứng tỏ rằng (x∗+, x∗−) là một đồng thuận H5 của hồ sơ X. Định lý 4.2 cho thấy nếu đồng thuận thoả tiêu chuẩn H5 thì cũng thoả hai tiêu chuẩn H1 và H2. Trong khi đó, Định lý 4.3 chỉ ra rằng hai thành phần khẳng định và phủ định của đồng thuận thoả tiêu chuẩn H5 có thể được xác định độc lập nhau. Định lý dưới đây sẽ chỉ ra cách để xác định đồng thuận thoả tiêu chuẩn H5 của hồ sơ xung đột. Định lý 4.4. Cho X = {xi ∈ Conj(L) | i = 1, 2, . . . , n} là một hồ sơ xung đột gồm các công thức hội, X ∈∏(Conj(L)). Gọi: • Z+ (tương ứng, Z−) là tập hợp tất cả các literal xuất hiện trong các thành phần dương (tương ứng, thành phần âm) của các công thức hội thuộc hồ sơ X. • f+(z) (tương ứng, f−(z)) là số lần xuất hiện của phần tử z trong các thành phần dương (tương ứng, thành phần âm) của các công thức hội thuộc hồ sơ X. Giả sử C(X) là một hàm chọn đồng thuận thoả tiêu chuẩn H5. Khi đó, x∗ = (x∗+, x∗−) ∈ C(X) nếu và chỉ nếu: (a) x∗+ = { z ∈ Z+ | f+(z) >= n 2 } , và 106 (b) x−+ = { z ∈ Z− | f−(z) >= n 2 } . Chứng minh. Theo Định lý 4.3, ta có thể xây dựng đồng thuận x∗ = (x∗+, x∗−) thoả tiêu chuẩn H5 bằng cách xây dựng một cách độc lập hai đồng thuận x∗+ và x∗− của tương ứng hai hồ sơ X+ = {xi+ | i = 1, 2, . . . , n} và X− = {xi− | i = 1, 2, . . . , n}. Ta sẽ phải chứng minh (a) x∗+ = { z ∈ Z+ | f+(z) >= n 2 } . Việc chứng minh (b) là hoàn toàn tương tự. Trước hết, theo Định lý 4.2, x∗+ chỉ có thể chứa các literal thuộc về Z+. Mặt khác, ta sẽ chứng minh thêm, với một công thức hội bất kỳ x ∈ Conj(L), ta có: (i) Nếu z ∈ Z+ thoả f+(z) ≥ n 2 mà z /∈ x+ thì d∧((x+, x−),X+) ≤ d∧ ( (x+ ∪ {z}, x−),X+) . (ii) Nếu z ∈ Z+ thoả f+(z) < n 2 mà z /∈ x+ thì d∧((x+, x−),X+) > d∧ ( (x+ ∪ {z}, x−),X+) . Thật vậy, với X ∈∏(Conj(L)), x ∈ Conj(L), z ∈ L, xét khoảng cách d∧((x+∪ {z}, x−),X): d∧((x+ ∪ {z}, x−),X) = ∑ y∈X ( 1 2 . card((x+ ∪ {z})4 y+) card(L) + 1 2 . card(x−4 y−) card(L) ) . Nhận thấy: card((x+ ∪ {z})4 y+) card(L) =  card(x+4 y+)− 1 card(L) nếu y+ 3 z card(x+4 y+) + 1 card(L) nếu y+ = z Gọi Xz := {x ∈ X | x+ 3 z} và Xz := {x ∈ X | x+ = z}. Ta có, card(Xz) = f+(z) và card(Xz) = n− f+(z). 107 Như vậy: ∑ y∈X card((x+ ∪ {z})4 y+) card(L) = ∑ y∈Xz card((x+ ∪ {z})4 y+) card(L) + ∑ y∈Xz card((x+ ∪ {z})4 y+) card(L) = ∑ y∈Xz card(x+4 y+)− 1 card(L) + ∑ y∈Xz card(x+4 y+) + 1 card(L) = ∑ y∈X card(x+4 y+) card(L) + −f+(z) + n− f+(z) card(L) = ∑ y∈X card(x+4 y+) card(L) + n− 2.f+(z) card(L) . Do đó: d∧((x+ ∪ {z}, x−),X) = ∑ y∈X ( 1 2 . card((x+ ∪ {z})4 y+) card(L) + 1 2 . card(x−4 y−) card(L) ) = ∑ y∈X ( 1 2 .( card(x+4 y+) card(L) + n− 2.f+(z) card(L) ) + 1 2 . card(x−4 y−) card(L) ) =d∧(x,X) + 1 2 . n− 2.f+(z) card(L) . Như vậy, khi n − 2.f+(z) ≤ 0, hay f+(z) ≥ n 2 thì việc bổ sung z vào x+ sẽ không làm tăng tổng khoảng cách của x đến hồ sơ X. Ngược lại, khi f+(z) < n 2 thì việc bổ sung z vào x+ sẽ làm tăng tổng khoảng cách của x đến hồ sơ X. Nói cách khác, (i) và (ii) được chứng minh. Trở lại việc chứng minh (a). Có thể thấy rằng, xuất phát từ tập hợp { z ∈ Z+ | f+(z) >= n 2 } , ta không thể loại bỏ bớt phần thuộc tập hợp này, hoặc bổ sung thêm phần tử ngoài Z+ trong quá trình thành lập thành phần khẳng định của đồng thuận. Nói cách khác, đây chính là thành phần khẳng định của đồng thuận. Do đó (a) là đúng (đpcm). Nhận xét về các tiêu chuẩn đồng thuận Trong mục này, luận án đã phân tích mối liên quan của các tiêu chuẩn đồng thuận, thể hiện qua các định lý 4.1, 4.2, 4.3 và 4.4. Có một điểm lưu ý rằng, các 108 mối liên quan này có được là do cách xây dựng khoảng cách giữa hai tập hợp các ký hiệu trong Định nghĩa 4.4. Trên thực tế, để đánh giá khoảng cách giữa hai tập hợp, người ta có thể sử dụng tiếp cận khác như ở [45]: η(X1,X2) = card(X14X2) card(X1 ∪X2 , (4.9) Cách đánh giá khoảng cách giữa hai tập hợp như công thức (4.9) có ưu điểm là không phụ thuộc vào lực lượng của tập literal . Tuy nhiên nếu áp dụng cách tiếp cận này để tính khoảng cách giữa hai cấu trúc hội thì sẽ bài toán tìm đồng thuận hồ sơ cấu trúc hội trở nên phức tạp: Định lý 4.4 sẽ không còn đúng nữa! Ngoài ra, trong công trình [45] tác giả Nguyễn Ngọc Thành cũng đã chỉ ra rằng bài toán tìm đồng thuận H5 trong trường hợp này là bài toán thuộc lớp NP-đầy đủ! Phần tiếp theo sau đây, luận án sẽ trình thuật toán hiệu quả để xây dựng đồng thuận cho hồ sơ các công thức hội nhờ tận dụng các đặc trưng có được nhờ Định nghĩa 4.4. 4.1.3. Thuật toán xác định đồng thuận Dựa vào các tính chất của các tiêu chuẩn đã được phân tích ở Tiểu mục 4.1.2, phần này sẽ trình bày cách xây dựng đồng thuận x∗ = (x∗+, x∗−) của một hồ sơ xung đột X ∈∏(Conj(L)) theo chiến lược ưu tiên các tiêu chuẩn với thứ tự như sau: H5, H4, H1, H2, H3 và H6. Định lý 4.2 cho thấy điều kiện được định nghĩa trong tiêu chuẩn H5 là rất quan trọng, bởi vì nói chung một đồng thuận thoả tiêu chuẩn này thì cũng thoả tiêu chuẩn H1 và H2. Ngoài ra, theo Định lý 4.3, việc xác định các thành phần dương và âm của một đồng thuận có thể được thực hiện một cách độc lập. Vì thế, việc tính toán công thức hội tối ưu (x∗+, x∗−) ∈ C(X) mà X = {xi = (xi +, xi −) ∈ Conj(L) | i = 1, 2, . . . , n} có thể được chia ra làm 2 việc nhỏ tương tự nhau: xác định thành phần dương của đồng thuận và xác định thành phần âm của đồng thuận: ∑ x∈X η(x∗+, x+) = min {∑ x∈X η(x′+, x+) | x′ ⊆ L } 109 và ∑ x∈X η(x∗−, x−) = min {∑ x∈X η(x′−, x−) | x′ ⊆ L } . Định lý 4.4 chỉ ra cách tìm các thành phần này, tuy nhiên, định lý này lại không đảm bảo được đồng thuận tìm được thoả tiêu chuẩn H4. Trên cơ sở của các phân tích này, luận án đề xuất thuật toán xác định đồng thuận. Ý tưởng của thuật toán là như sau: • Trước hết, chúng ta xác định tập hợp Z+ và Z− gồm tương ứng các literal âm và literal dương có trong các công thức hội thuộc hồ sơ xung đột X. • Với mỗi literal z trong Z+ và Z− thống kê tần số xuất hiện của nó trong các thành phần dương và thành phần âm của các công thức hội thuộc hồ sơ X. • Nếu có literal trong Z+ hoặc Z− xuất hiện quá bán thì sẽ tồn tại đồng thuận thoả tiêu chuẩn P5 cho hồ sơ xung đột. Gọi đồng thuận đó là x∗, khi đó x∗+ sẽ chứa các literal xuất hiện quá bán trong thành phần dương của các công thức hội thuộc hồ sơ X. Tương tự, thành phần âm của đồng thuận, x∗− sẽ chứa các literal xuất hiện quá bán trong các thành phần âm của các công thức hội thuộc X. Tuy nhiên, sẽ có trường hợp mà một literal cùng xuất hiện trong cả hai thành phần x∗+ và x∗− (do literal này cùng xuất hiện quá bán trong các thành phần dương và âm của các công thức hội thuộc hồ sơ X). Để đảm bảo đồng thuận x∗ là nhất quán (thoả tiêu chuẩn P4), chúng ta phải loại các literal đó ra khỏi x∗+ hoặc x∗−. Giả sử z ∈ x∗+ ∩ x∗−. Bằng cách xem xét d+ = d∧ ( (x∗+ \{z}, x∗−),X) và d− = d∧((x∗+, x∗− \{z}),X), nếu d+ > d− thì chúng ta sẽ loại z khỏi thành phần dương của x∗. Trong trường hợp ngược lại, z sẽ bị loại khỏi thành phần âm của x∗. Đồng thuận thu được sẽ thoả các tiêu chuẩn H5 (do đó cũng thoả tiêu chuẩn H1, H2), H4 và H6. • Trong trường hợp không có literal nào xuất hiện quá bán ở hai thành phần âm hoặc dương của các công thức hội thì chúng ta ưu tiên tìm đồng thuận thoả tiêu chuẩn H3 của hồ sơ xung đột: − Nếu Z+ ∩Z− = ∅ thì x∗ = (Z+,Z−) chính là đồng thuận H3 của hồ sơ. 110 − Ngược lại, đồng thuận của hồ sơ xung đột là công thức được chọn ra từ X và có tổng khoảng cách đến các công thức khác đạt cực tiểu. Các ý tưởng này được thể hiện trong Thuật toán 4.1: Thuật toán 4.1: Xác định đồng thuận từ hồ sơ gồm các công thức hội Đầu vào: Hồ sơ xung đột X ∈∏(Conj(L)), X = { (xi +, xi −) | i = 1, 2, . . . , n;n ∈ N∗}, xi + ∩ xi− = ∅ ∀i = 1, 2, . . . , n. Đầu ra: Đồng thuận x∗ ∈ Conj(L) thoả một hoặc nhiều tiêu chuẩn trong tập hợp {H1,H2,H3,H4,H5,H6}. begin Z+ := ⋃ x∈X x+; Z− := ⋃ x∈X x−; foreach z ∈ Z+ do f+(z) := card{x ∈ X | x+ 3 z}; foreach z ∈ Z− do f−(z) := card{x ∈ X | x− 3 z}; Bước 1 x∗+ := {z ∈ Z+ | f+(z) ≥ n 2 }; x∗− := {z ∈ Z− | f−(z) ≥ n 2 }; if (x∗+ ∪ x∗− 6= ∅) then Bước 2 foreach z ∈ x∗+ ∩ x∗− do if d∧ ( (x∗+ \ {z}, x∗−),X) < d∧((x∗+, x∗− \ {z}),X) then x∗+ := x∗+ \ {z}; else x∗− := x∗− \ {z}; else if (Z+ ∩ Z− = ∅) then Bước 3 x∗ := (Z+,Z−); else Bước 4 x∗ := x1; for i := 2 to n do if d∧(x∗,X) > d∧(x,X) then x∗ := xi 111 Chứng minh tính đúng của thuật toán Theo cách hoạt động được chỉ ra ở Thuật toán 4.1, chúng ta bắt đầu tìm đồng thuận thoả tiêu chuẩn H5 (phần (a)). Sau đó: (i) Nếu cả hai thành phần dương và âm của đồng thuận H5 đều rỗng, thuật toán sẽ ưu tiên xét tìm đồng thuận thoả tiêu chuẩn H3 (phần (c)) nếu hồ sơ X là nhất quán. Trong trường hợp hồ sơ là không nhất quán, theo phần (d), chúng ta sẽ chọn từ hồ sơ X một phần tử có tổng khoảng cách đến các phần tử còn lại trong hồ sơ là cực tiểu. Đồng thuận trong trường hợp này luôn luôn thoả tiêu chuẩn H4 (do các xi đều là các công thức hội thoả xi+ ∩ xi− = ∅, ∀i = 1, 2, . . . , n, theo giả thiết). (ii) Nếu ở phần (a) xác định được một trong hai thành phần, phần dương và âm của đồng thuận là khác rỗng, chúng ta phải tìm cách làm mịn hai thành phần này để đảm bảo tiêu chuẩn H4 được thoả, đồng thời cũng đảm bảo tổng khoảng cách từ đồng thuận đến các phần tử trong hồ sơ là cực tiểu. Ngoài ra, trong tất cả các trường hợp xử lý thuộc hai nhánh phân tích (i) và (ii) ở trên, chúng ta đều xây dựng x∗+ (tương ứng, x∗−) từ các phần tử thuộc Z+ (tương ứng, Z−). Vì vậy đồng thuận luôn luôn thoả tiêu chuẩn H2. Đồng thuận cũng luôn luôn thoả tiêu chuẩn H1 vì nó được xây dựng từ đồng thuận thoả tiêu chuẩn H5, sau đó, các phần tử bị loại đi chỉ là những phần tử có tần số xuất hiện ít hơn n 2 . Độ phức tạp của Thuật toán 4.1 Với n là lực lượng của hồ sơ X, m = max { card( ⋃ x∈X x+), card( ⋃ x∈X x−) } . Các bước trong thuật toán có độ phức tạp như sau: • Bước khởi tạo: thống kê tần số xuất hiện các literal trong các thành phần của các công thức hội trong hồ sơ. Độ phức tạp của thủ tục này là O(m.n.m) = O(n.m2). • Bước 1 dùng để tạo ra các tập hợp khởi đầu cho x∗+, x∗− dựa trên tần số xuất hiện của các literal . Độ phức tạp của bước này là O(m). • Trong Bước 2, với mỗi literal chung z của x∗+ và x∗−, chúng ta so sánh 112 khoảng cách với X khi loại bỏ z ở một trong hai thành phần này để tìm được thành phần tốt hơn. Độ phức tạp của bước này là O(m.n.m2) = O(n.m3). • Bước 3 kiểm tra sự giao nhau của hai tập hợp Z+, Z−, có độ phức tạp là O(m2). • Bước 4 tính khoảng cách của từng công thức hội x với hồ sơ xung đột X (để tìm ra công thức hội đạt cực tiểu khoảng cách đến X). Độ phức tạp của bước này là O(n.n.m2) = O(n2.m2). Sau bước khởi tạo và Bước 1, thuật toán chỉ thực hiện một trong ba bước: hoặc Bước 2 hoặc Bước 3 hoặc Bước 4. Độ phức tạp của thuật toán tương ứng cho ba trường hợp này là: • O(max{n.m2,m, n.m3}) = O(n.m3) • O(max{n.m2,m,m2}) = O(n.m2) • O(max{n.m2,m, n2.m2}) = O(n2.m2) Như vậy, độ phức tạp của thuật toán sẽ là O(max{n.m3, n.m2, n2.m2}). Nếu m < n thì độ phức tạp của thuật toán là O(n2.m2). Trong trường hợp còn lại, độ phức tạp của thuật toán là O(n.m3). Ví dụ minh hoạ cho Thuật toán 4.1 Sử dụng các ký hiệu L = {t1, t2, t3, t4} để biểu diễn các tính chất của thuộc tính hasSpouse như ở Ví dụ 4.1, 6 tác tử a1, a2, . . . , a6 đưa ra ý kiến dưới dạng các công thức hội như Bảng 4.2 bên dưới. Chúng ta sẽ áp dụng Thuật toán 4.1 để tìm tri thức đồng thuận từ các ý kiến của các tác tử. Hồ sơ X được thành lập gồm các công thức hội như sau: X = { ({t1, t3, t4}, {t2}), 2 ∗ ({t1}, {t3, t4}), ({t1}, {t3}), ({t3}, {t1}), ({t3}, ∅) } Sau bước (a) của thuật toán, chúng ta có: x∗+ = {t1, t3} và x∗− = {t3, t4}. Do x∗+ ∪ x∗− 6= ∅ nên chúng ta sẽ tìm cách loại những literal chung ở một trong hai thành phần của đồng thuận (theo bước (b)): Với x∗+ ∩ x∗− = {t3}, ta xét hai tổng khoảng cách sau đây: d∧ ( ({t1}, {t3, t4}),X ) và d∧ ( ({t1, t3}, {t4}),X ) 113 Bảng 4.2: Trạng thái tri thức của các tác tử cho bài toán minh hoạ Tác tử Trạng thái tri thức a1 t1 ∧ ¬t2 ∧ t3 ∧ t4 a2 t1 ∧ ¬t3 ∧ ¬t4 a3 t1 ∧ ¬t3 a4 t1 ∧ ¬t3 ∧ ¬t4 a5 ¬t1 ∧ t3 ∧ ¬t4 a6 t3 Với chú ý card(L) = 4, ta lần lượt tính: d∧ ( ({t1}, {t3, t4}), ({t1, t3, t4}, {t2}) ) = 1 2 . card({t1} 4 {t1, t3, t4}) 4 + 1 2 . card({t3, t4} 4 {t2}) 4 = 5 8 Tương tự, • d∧ ( ({t1}, {t3, t4}), ({t1}, {t3, t4}) ) = 0 • d∧ ( ({t1}, {t3, t4}), ({t1}, {t3}) ) = 28 • d∧ ( ({t1}, {t3, t4}), ({t3}, {t1, t4}) ) = 48 • d∧ ( ({t1}, {t3, t4}), ({t3}, ∅) ) = 48 • d∧ ( ({t1, t3}, {t4}), ({t1, t3, t4}, {t2}) ) = 28 • d∧ ( ({t1, t3}, {t4}), ({t1}, {t3, t4}) ) = 28 • d∧ ( ({t1, t3}, {t4}), ({t1}, {t3}) ) = 38 • d∧ ( ({t1, t3}, {t4}), ({t3}, {t1, t4}) ) = 28 • d∧ ( ({t1, t3}, {t4}), ({t3}, ∅) ) = 28 Như vậy: 114 • d∧ ( ({t1}, {t3, t4}),X ) = 5 8 + 2 ∗ 0 + 2 8 + 4 8 + 4 8 = 15 8 • d∧ ( ({t1, t3}, {t4}),X ) = 2 8 + 2 ∗ 2 8 + 3 8 + 2 8 + 2 8 = 13 8 Do d∧ ( ({t1, t3}, {t4}),X ) = 13 8 < 15 8 = d∧ ( ({t1}, {t3, t4}),X ) nên ta quyết định loại t3 khỏi x∗−. Cuối cùng, đồng thuận của hồ sơ X là ({t1, t3}, {t4}), hay là t1 ∧ t3 ∧ ¬t4. 4.2. Xử lý xung đột mức tiên đề trong quá trình tích hợp ontology Một ontology có thể được xem xét như là một tập các tiên đề biểu diễn tri thức về một lĩnh vực cụ thể. Nếu dùng một literal để biểu diễn một tiên đề trong ontology, tri thức của ontology có thể được biểu diễn dưới dạng công thức hội của các literal đó. Chính vì vậy, sự không nhất quán về tập tiên đề của các ontology có thể được biểu diễn như là một hồ sơ xung đột của các công thức hội của các literal . Với nhận xét này, bài toán xử lý xung đột mức tiên đề trong quá trình tích hợp ontology có thể được giải quyết dựa trên kết quả của Mục 4.1. Xét n (n ∈ N∗) ontologyO1,O2, . . . ,On, trong đó mỗi ontologyOi (i = 1, 2, . . . , n) được biểu diễn bằng một bộ bốn 〈Ci, Ii,Ri,Zi〉, với: • Ci là tập khái niệm trong ontology Oi • Ii là tập cá thể trong ontology Oi • Ri là tập mối quan hệ trong ontology Oi • Zi = {zi1, zi2, . . . , zini} là tập tiên đề trong ontology Oi, gồm ni tiên đề. Ontology Oi (i = 1, 2, . . . , n) thể hiện một trạng thái tri thức biểu diễn bằng một công thức zi1 ∧ zi2 ∧ · · · ∧ zini . Việc tích hợp n ontology O1,O2, . . . ,On được hiểu là tìm tập tiên đề có thể đại diện cho n tập tiên đề Z1,Z2, . . . ,Zn. Gọi Z := {t1, t2, . . . , tm} (m ∈ N∗) là tập các literal sao cho mọi tiên đề trong ontology Oi (i = 1, 2, . . . , n) đều có thể biểu diễn dưới dạng literal hoặc phủ định của literal trong Z: ∀α ∈ Zi(i = 1, 2, . . . , n), ∃t ∈ Z : (t ≡ α) ∨ (¬t ≡ α). Với tập hợp Z này, chúng ta có thể xem một ontology Oi là một trạng thái tri thức được biểu diễn bằng một công thức hội xi ∈ Conj(Z) với xi ≡ zi1∧zi2∧· · ·∧zini. Như vậy, với n ontology O1,O2, . . . ,On chúng ta có thể lập được một hồ sơ 115 X = {x1, x2, . . . , xn} trong đó xi ≡ zi1∧zi2∧· · ·∧zini. Đồng thuận x∗ của hồ sơ X xác định được bằng Thuật toán 4.1 sẽ là tập tiên đề tốt nhất về mặt cú pháp từ các ontology đã cho. Tuy nhiên, x∗ có thể là không nhất quán về mặt ngữ nghĩa. Đối với trường hợp này, chúng ta có thể khắc phục bằng chọn ra trong Z1,Z2, . . . ,Zn một tập tiên đề ít sai khác nhất so với x∗ (tập tiên đề có tổng khoảng cách đến x∗ đạt cực tiểu). Từ phân tích nêu trên, luận án đề xuất Thuật toán 4.2 xác định đồng thuận về mặt cú pháp của các tập tiên đề Z1,Z2, . . . ,Zn. Ý tưởng của thuật toán là như sau: • Xây dựng tập literal Z sao cho mọi tập tiên đề của các ontology đều có thể biểu diễn dưới dạng một công thức hội Conj(Z). • Với mỗi tập tiên đề Zi, (i = 1, 2, . . . , n), cho bổ sung α ∈ L nếu α là một hệ quả logic của tập tiên đề Zi (nghĩa là, α có thể suy ra được từ tập hợp các tiên đề Zi). Tương tự như vậy, bổ sung ¬α vào tập tiên đề Zi nếu ¬α là hệ quả logic của tập tiên đề Zi. Việc bổ sung tiên đề α hoặc ¬α vào tập Zi là để đảm bảo tính được tần suất xuất hiện thực sự của các tiên đề còn tiềm ẩn trong ontology. Điều này là quan trọng vì thuật toán xác định đồng thuận (Thuật toán 4.1) có xét đến tần suất xuất hiện của các literal trong các công thức hội thuộc hồ sơ xung đột. Chẳng hạn, nếu β ∧ γ ⇒ α thì chúng ta có thể xem tập tiên đề {β, γ} là có chứa tiên đề α. • Thành lập hồ sơ xung đột X ∈ Conj(Z) từ n tập tiên đề của các ontology O1,O2, . . . ,On: X = {Z1,Z2, . . . ,Zn}. • Sử dụng Thuật toán 4.1 để xây dựng đồng thuận x∗ của hồ sơ X. Nếu x∗ là nhất quán thì kết luận x∗ là tập tiên đề tốt nhất, ngược lại, tìm Zi (i = 1, 2, . . . , n) sao cho tập tiên đề này có khoảng cách nhỏ nhất đến x∗ và kết luận đó là tập tiên đề tốt nhất. 116 Nội dung của thuật toán được trình bày cụ thể như sau: Thuật toán 4.2: Xác định tập tiên đề đồng thuận của các ontology Đầu vào: Ontology O1,O2, . . . ,On với các tập tiên đề Z1,Z2, . . . ,Zn (n ∈ N∗) Đầu ra: Tập tiên đề x∗ đại diện tốt nhất cho tập tiên đề của các ontology O1,O2, . . . ,On begin Bước 1 Z := ∅; foreach Oi ∈ {O1,O2, . . . ,On} do foreach α ∈ Zi do needAdd := true; foreach z ∈ Z do if (z ≡ α) or (¬z ≡ α) then needAdd := false; break; if (needAdd = true) then Z := Z ∪ {α}; Bước 2 foreach Oi ∈ {O1,O2, . . . ,On} do foreach z ∈ Z \ Zi do if (Zi |= z) then Zi := Zi ∪ {z}; if (Zi |= ¬z) then Zi := Zi ∪ {¬z}; Bước 3 Lập hồ sơ xung đột X := {x1, x2, . . . , xn} với xi ∈ Conj(Z) biểu diễn trạng thái tri thức tương ứng tập tiên đề Zi của ontology Oi; Bước 4 Xác định x∗ là đồng thuận của hồ sơ xung đột X theo Thuật toán 4.1; Bước 5 if (x∗ là nhất quán) then Z∗ := x∗; else Z∗ := Z1; foreach Z′ ∈ {Z2,Z3, . . . ,Zn} do if ( η(x∗,Z′) < η(x∗,Z∗) ) then Z∗ := Z′; 117 Chúng ta phân tích độ phức tạp của Thuật toán 4.2. Gọi: • m = card(Z) là số lượng literal dùng để biểu diễn các tiên đề trong các ontology đầu vào; • O(f(m)) là độ phức tạp của thuật toán lập luận với ontology có chứa m tiên đề. Độ phức tạp của các bước trong thuật toán được xác định như sau: • Bước 1 dùng để xác định tập hợp Z, là tập cực tiểu các literal mà có thể dùng để biểu diễn mọi tiên đề trong các ontology Oi(i = 1, 2, . . . , n). Độ phức tạp của bước này là O(n.m2). • Trong Bước 2, với mỗi ontology Oi, chúng ta xem xét bổ sung các tiên đề z ∈ Z nếu z là một hệ quả logic của tập tiên đề Zi (kiểm tra xem z có thể suy ra được từ tập hợp các tiên đề Zi hay không). Độ phức tạp của bước này là O ( n.m.f(m) ) . • Bước 3 lập hồ sơ xung đột X có độ phức tạp O(n). • Bước 4 xác định đồng thuận của hồ sơ các công thức hội X với n công thức hội sử dụng m literal bằng cách sử dụng Thuật toán 4.1. Độ phức tạp của bước này sẽ là O ( max{n.m3, n2.m2}). • Bước 5 của thuật toán kiểm tra sự nhất quán của x∗ tìm được. Nếu x∗ là không nhất quán, thuật toán sẽ phải duyệt qua n tập tiên đề để tìm ra tập tiên đề có tổng khoảng cách đến các tập tiên đề còn lại đạt cực tiểu. − Độ phức tạp của thủ tục kiểm tra sự nhất quán của tập tiên đề tương ứng với x∗ là O(f(m)). − Độ phức tạp của thủ tục tìm tập tiên đề có khoảng cách cực tiểu đến các tập tiên đề còn lại là O(n.m2) Do đó, độ phức tạp của Bước 5 là O(max{f(m), n.m2}). Các bước nêu trên của thuật toán được thực hiện tuần tự. Do đó độ phức tạp của thuật toán sẽ là: O ( max { n.m2, n.m.f(m), n, n.m3, n2.m2, f(m), n.m2 }) = O ( max { n.m.f(m), n.m3, n2.m2 }) 118 Độ phức tạp của thuật toán lập luận ontology có m tiên đề (chẳng hạn như HermiT [55], Pellet [56]) là lớn hơn so với O(m2). Do đó độ phức tạp của thuật toán có thể viết lại thành O ( max{n.m.f(m), n2.m2}): Nếu f(m) < n.m thì độ phức tạp của thuật toán là O(n2.m2), ngược lại thuật toán sẽ có độ phức tạp là O(n.m.f(m)). 4.3. Tiểu kết Chương 4 Trong chương này, luận án đã trình bày mô hình xác định đồng thuận của tri thức biểu diễn dưới dạng hội của các literal . Sau khi định nghĩa khoảng cách giữa hai tập hợp (là tập con của tập ký hiệu L cho trước), luận án đã phân tích tính chất và chứng minh một số định lý thể hiện mối quan hệ giữa các tiêu chuẩn xác định đồng thuận của hồ sơ công thức hội. Trên cơ sở đó luận án đề xuất thuật toán xác định đồng thuận của hồ sơ công thức hội. Từ mô hình xác định đồng thuận của tri thức biểu diễn dưới dạng hội của các literal , luận án đã đề xuất một phương pháp xử lý xung đột cấp độ cú pháp trong quá trình tích hợp ontology. Phương pháp này có thể được áp dụng để hỗ trợ xác định phiên bản tốt nhất từ những đóng góp của các tác tử phân tán trong quá trình xây dựng ontology dạng cộng tác [61]. Kết quả của chương này đã được trình bày ở Hội thảo Artificial Intelligence in Theory and Practice IV (2015) [CT4] và đăng ở tạp chí Khoa học Đại học Huế (2015) [CT3]. 119 KẾT LUẬN Kết luận Ontology là thành phần quan trọng trong nền tảng ứng dụng web ngữ nghĩa. Đặc trưng có thể mở rộng, có thể tái sử dụng của ontology một mặt giúp các hệ thống có thể trao đổi và chia sẻ tri thức, nhưng mặt khác cũng tiềm ẩn khả năng làm xuất hiện tri thức không nhất quán. Xử lý tri thức không nhất quán nói chung và xử lý tri thức không nhất quán trong ontology nói riêng là bài toán phức tạp của khoa học máy tính. Hai tình huống điển hình về xử lý tri thức không nhất quán trong ontology là: (1) xác định kết quả có nghĩa khi truy vấn với ontology không nhất quán, và (2) tích hợp các ontology không nhất quán đến từ nhiều nguồn độc lập nhau. Luận án đã đề xuất các phương án giải quyết cho hai tình huống nêu trên. Các kết quả chính của luận án có thể được tóm tắt như sau: 1) Xây dựng hàm chọn sOSem dựa trên khoảng cách ngữ nghĩa theo ontology tham chiếu và áp dụng hàm chọn này vào khung lập luận với ontology không nhất quán. Kết quả thực nghiệm đã chỉ ra rằng việc áp dụng hàm chọn sOSem vào khung lập luận với ontology không nhất quán sẽ giúp trả về nhiều kết quả xác định hơn so với các hàm chọn đã được công bố trước đó. Trong quá trình xây dựng hàm chọn, Luận án đã trình bày phương pháp quy hoạch động để tính khoảng cách ngữ nghĩa theo ontology tham chiếu giữa hai biểu thức khái niệm, đồng thời phân loại và trình bày cách xác định tập biểu thức khái niệm trong các tiên đề của ontology OWL2 – ngôn ngữ ontology thông dụng nhất hiện nay và được chuẩn hoá bởi tổ chức W3C [CT6]. 2) Xây dựng phương pháp đồng thuận để xử lý xung đột mức khái niệm trong quá trình tích hợp ontology. Cấu trúc khái niệm đồng thuận được xác định với danh sách thuộc tính và miền giá trị của các thuộc tính tương ứng. Luận án đã đề xuất thuật toán và chứng minh tính thoả các tiêu chuẩn của đồng thuận được xây dựng bởi thuật toán. Luận án cũng trình bày 120 phương pháp xây dựng hàm đánh giá khoảng cách cho các miền giá trị của thuộc tính kiểu dữ liệu và thuộc tính đối tượng trong ontology OWL2 [CT1, CT2, CT5]. 3) Xây dựng phương pháp đồng thuận để xử lý xung đột cấp độ cú pháp trong quá trình tích hợp tri thức. Luận án đề xuất sử dụng một phương pháp tính khoảng cách giữa hai tập ký hiệu, khoảng cách giữa hai cấu trúc hội của các literal và chứng minh được một số mối quan hệ của các tiêu chuẩn đồng thuận dựa theo các khoảng cách này. Trên cơ sở đó, luận án đề xuất thuật toán xác định đồng thuận của hồ sơ xung đột gồm các cấu trúc hội. Bằng cách áp dụng thuật toán tìm đồng thuận của hồ sơ xung đột gồm các cấu trúc hội của các literal , luận án đề xuất phương án để xử lý xung đột mức tiên đề trong quá trình tích hợp ontology [CT3, CT4]. Những vấn đề cần tiếp tục nghiên cứu Kết quả của luận án có thể được mở rộng theo những hướng sau đây: • Nghiên cứu thêm về các dạng truy vấn khác với ontology không nhất quán, đặc biệt là truy vấn SPARQL với ontology OWL không nhất quán. • Xét thêm mối quan hệ của các literal trong quá trình xử lý xung đột cấp độ cú pháp. • Đề xuất khung xử lý xung đột tri thức trong ontology. Khung xử lý như vậy áp dụng các chiến lược khác nhau cho từng tác vụ khác nhau với ontology: tích hợp, truy vấn, tiến hoá ontology. 121 DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN CT1. Nguyễn Văn Trung, Phan Bá Trí, Hoàng Hữu Hạnh. Tích hợp ontology với tiếp cận lý thuyết đồng thuận. Tạp chí Tin học và Điều khiển học T.30, S.3 (2014), 239-252. CT2. Trung Van Nguyen, Hanh Huu Hoang. A Consensus-based Method for Solving Concept- level Conflict in Ontology Integration, In Proceeding of 6th International Conference on Computational Collective Intelligence Technologies and Applications, Seoul, Korea, 2014, LNCS 8733, Springer (2014). p414-423. CT3. Nguyễn Văn Trung, Hoàng Hữu Hạnh. Một phương pháp xử lý không nhất quán tri thức ở mức cú pháp. Tạp chí Khoa học Đại học Huế, T.106, S.7 (2015), 241-251. CT4. Trung Van Nguyen, Jason J. Jung, Hanh Huu Hoang. A Novel Approach for Resolving Knowledge Inconsistency on Ontology Syntactic Level. In Proceeding of Artificial Intel- ligence in Theory and Practice IV (IFIP Advances in Information and Communication Technology), Springer (2015) p39-49. CT5. Trung Van Nguyen, Hanh Huu Hoang. A Consensus-Based Method for Solving Concept- Level Conflict in Ontology Integration. Transactions of Computational Collective In- telligence XXII, LNCS 9655, Springer (2016) p106-124. CT6. Nguyễn Văn Trung, Hoàng Hữu Hạnh. Một phương pháp truy vấn ontology không nhất quán sử dụng độ liên quan ngữ nghĩa. Tạp chí Khoa học và Công nghệ Trường Đại học Khoa học, Đại học Huế, T.9. S.1 (2017), 51-62. 122

Các file đính kèm theo tài liệu này:

luan_an_mot_so_phuong_phap_xu_ly_tri_thuc_khong_nhat_quan_tr.pdf