Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung

Tài liệu Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung: ... Ebook Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung

pdf111 trang | Chia sẻ: huyen82 | Lượt xem: 2555 | Lượt tải: 4download
Tóm tắt tài liệu Nghiên cứu xây dựng hệ thống tìm kiếm video theo nội dung, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Bé GI¸O DôC Vµ §µO T¹O TR¦êNG §¹I HäC B¸CH KHOA Hµ NéI LUËN V¡N TH¹C SÜ KHOA HäC NGHI£N CøU, X¢Y DùNG HÖ THèNG T×M KIÕM VIDEO THEO NéI DUNG NGµNH: Xö Lý TH¤NG TIN Vµ TRUYÒN TH¤NG §ç V¡N H¶I Ng−êi h−íng dÉn khoa häc: TS. HUúNH QUYÕT TH¾NG HÀ NỘI - 2006 i LỜI CẢM ƠN Em xin bày tỏ lòng biết ơn sâu sắc tới TS. Huỳnh Quyết Thắng người thày kính mến đã hướng dẫn, chỉ dạy tận tình để em hoàn thành luận văn này. Em xin chân thành cảm ơn các thày, cô giáo khoa Công nghệ Thông tin, Trung tâm Bồi dưỡng và Đào tạo Sau đại học, Trường Đại học Bách khoa Hà nội đã đón nhận và truyền thụ kiến thức cho em trong suốt quá trình học tập vừa qua. Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành nhiệm vụ học tập và bản luận văn này. Hà nội, ngày 22 tháng 11 năm 2006 Học viên Đỗ Văn Hải ii MỞ ĐẦU Khoảng hơn một thập kỷ gần đây, cùng với sự phát triển nhanh chóng của công nghệ thông tin và truyền thông, các nghiên cứu về công nghệ liên quan đến video đã đạt được những thành tựu nhất định. Hiện nay với những phương tiện truyền thông mới cho phép kết nối Internet với tốc độ cao như: kênh thuê riêng, xDSL,... người sử dụng có thể xem video trực tuyến trên Internet với chất lượng cao. Cùng với đó, video số ngày càng trở nên thông dụng trong cuộc sống như truyền thông, giáo dục đào tạo, giải trí, xuất bản,... đã tạo nên một lượng dữ liệu khổng lồ video. Dữ liệu càng nhiều, càng phong phú đa dạng thì con người càng khó khăn trong việc quản lý, tìm kiếm. Một học giả nước ngoài đã từng nói “Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”. Do vậy, một yêu cầu bức thiết được đặt ra: làm sao có thể quản lý, tìm kiếm tự động được các đối tượng video một cách nhanh chóng và tiện lợi? Luận văn này sẽ giải quyết được phần nào đó cho câu hỏi trên. Luận văn sẽ tập trung vào tìm hiểu các đặc trưng cơ bản nhất của video, đưa ra một số phương pháp trích rút các đặc trưng của video phục vụ cho việc tìm kiếm. Việc tìm kiếm video có nhiều cấp độ, tuy nhiên trong luận văn chỉ tập trung nghiên cứu và đưa ra một số giải pháp phục vụ cho việc tìm kiếm video ở mức thấp. Mục lục iii MỤC LỤC LỜI CẢM ƠN.........................................................................................I MỞ ĐẦU ...............................................................................................II MỤC LỤC.............................................................................................III DANH SÁCH HÌNH VẼ ..................................................................... VIII DANH SÁCH BẢNG BIỂU ................................................................. XI DANH MỤC CÁC TỪ VIẾT TẮT........................................................ XII CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO THEO NỘI DUNG..1 1.1 Đặt vấn đề .................................................................................................. 1 1.2 Giới thiệu sơ lược về CBVR ..................................................................... 1 1.3 Các nghiên cứu trên thế giới về CBVR................................................... 3 1.4 Hướng nghiên cứu và nội dung của luận văn......................................... 4 Kết luận chương .............................................................................................. 7 CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NỘI DUNG ÁP DỤNG TRONG BÀI TOÁN TÌM KIẾM VIDEO THEO NỘI DUNG ........8 2.1 Đặt vấn đề .................................................................................................. 8 2.2 Tổng quan về tìm kiếm ảnh theo nội dung ............................................. 8 2.2.1 Giới thiệu.............................................................................................. 8 Mục lục iv 2.2.2 Cơ chế tính toán chung của CBIR........................................................ 9 2.2.3 Một số đặc trưng của ảnh ................................................................... 10 2.3 Đặc tính màu sắc của ảnh....................................................................... 11 2.3.1 Không gian màu ................................................................................. 12 2.3.2 Biểu đồ màu (Color Histogram)......................................................... 17 2.3.3 Biểu đồ tương quan màu (Color Correlogram).................................. 19 2.4 Đặc trưng Entropy của ảnh.................................................................... 20 2.4.1 Đặt vấn đề........................................................................................... 20 2.4.2 Lý thuyết thông tin và hàm Entropy .................................................. 21 2.4.3 Entropy ảnh là một đặc trưng............................................................. 22 2.5 Phép đo khoảng cách .............................................................................. 23 2.5.1 Đặt vấn đề........................................................................................... 23 2.5.2 Một số tính chất của độ đo ................................................................. 23 2.5.3 Một số độ đo thông dụng ................................................................... 24 2.5.4 Các độ đo được sử dụng trong tìm kiếm ảnh theo nội dung.............. 25 2.6 Xây dựng phần mềm tìm kiếm ảnh ứng dụng trong hệ thống tìm kiếm video................................................................................................................ 27 2.6.1 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu RGB............................................................................................. 28 2.6.2 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu CIELAB....................................................................................... 30 2.6.3 Tìm kiếm ảnh sử dụng phương pháp Entropy ................................... 32 2.6.4 Tìm kiếm ảnh kết hợp hai phương pháp Entropy và so sánh biểu đồ màu .............................................................................................................. 37 2.7 Thử nghiệm, so sánh, đánh giá các phương pháp tìm kiếm ảnh........ 39 2.7.1 Đánh giá trong hệ thống tìm kiếm ảnh............................................... 40 Mục lục v 2.7.2 Cơ sở dữ liệu ảnh thử nghiệm............................................................ 41 2.7.3 So sánh, đánh giá về tốc độ tìm kiếm ................................................ 42 2.7.4 So sánh, đánh giá về độ chính xác ..................................................... 42 2.7.5 Nhận xét ............................................................................................. 46 Kết luận chương ............................................................................................ 46 CHƯƠNG 3. PHÂN ĐOẠN VIDEO.....................................................47 3.1 Giới thiệu sơ lược phân đoạn video....................................................... 47 3.1.1 Một số khái niệm................................................................................ 47 3.1.2 Một số hình thức chuyển cảnh ........................................................... 48 3.1.3 Các hướng tiếp cận trong phân đoạn video........................................ 50 3.2 Một số phương pháp phân đoạn video.................................................. 50 3.2.1 So sánh điểm ảnh ............................................................................... 51 3.2.2 So sánh khối ....................................................................................... 52 3.2.3 So sánh biểu đồ màu .......................................................................... 53 3.2.4 Một số phương pháp khác.................................................................. 55 3.3 Đề xuất phương pháp phân đoạn video trong chuyển cảnh đột ngột 55 3.3.1 Thuật toán phát hiện chuyển cảnh đột ngột sử dụng ngưỡng đơn giản ..................................................................................................................... 56 3.3.2 Phát hiện chuyển cảnh đột ngột sử dụng cửa sổ trượt ....................... 56 3.3.3 Thuật toán cải tiến đề xuất ................................................................. 60 3.4 Xây dựng và đánh giá hệ thống ............................................................. 61 3.4.1 Các tham số đánh giá ......................................................................... 61 3.4.2 Sơ đồ hệ thống cải tiến....................................................................... 62 3.4.3 Các tham số của thuật toán ................................................................ 62 3.4.4 Kết quả thử nghiệm............................................................................ 64 Mục lục vi 3.4.5 Nhận xét ............................................................................................. 66 Kết luận chương ............................................................................................ 67 CHƯƠNG 4. TRÍCH CHỌN KHUNG HÌNH CHÍNH TRONG VIDEO.68 4.1 Đặt vấn đề ................................................................................................ 68 4.2 Một số kỹ thuật trích chọn khung hình chính hiện nay ...................... 69 4.3 Trích chọn khung hình chính bằng việc khảo sát đường sai khác tích luỹ.................................................................................................................... 71 4.3.1 Đặt vấn đề........................................................................................... 71 4.3.2 Xây dựng được sai khác tích luỹ........................................................ 71 4.3.3 Thuật toán trích chọn khung hình chính ............................................ 72 4.4 Xây dựng phần mềm trích chọn khung hình chính............................. 76 Kết luận chương ............................................................................................ 79 CHƯƠNG 5. XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO THEO NỘI DUNG DỰA TRÊN PHƯƠNG PHÁP TÌM KIẾM ẢNH TRONG CÁC KHUNG HÌNH CHÍNH.........................................................................80 5.1 Lựa chọn phương pháp xây dựng.......................................................... 80 5.2 Các mô-đun của hệ thống....................................................................... 80 5.2.1 Mô-đun phân đoạn video ................................................................... 81 5.2.2 Mô-đun trích chọn khung hình chính................................................. 82 5.2.3 Mô-đun tìm kiếm ảnh theo nội dung.................................................. 83 5.2.4 Mô-đun cơ sở dữ liệu ......................................................................... 83 5.3 Giao diện hệ thống .................................................................................. 85 Mục lục vii Kết luận chương ............................................................................................ 86 KẾT LUẬN..........................................................................................88 TÀI LIỆU THAM KHẢO ......................................................................91 PHỤ LỤC ............................................................................................96 TÓM TẮT LUẬN VĂN.........................................................................97 Danh sách hình vẽ viii DANH SÁCH HÌNH VẼ Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn......... 6 Hình 2.1 Cơ chế hoạt động của hệ thống CBIR ......................................... 10 Hình 2.2 Không gian màu RGB................................................................... 13 Hình 2.3 Không gian màu CMY .................................................................. 14 Hình 2.4 Một số cách biểu diễn không gian màu HSV.............................. 15 Hình 2.5 Không gian màu CIELAB ............................................................ 16 Hình 2.6 Mô tả biểu đồ màu......................................................................... 18 Hình 2.7 Những ảnh khác nhau nhưng có biểu đồ màu giống nhau........ 19 Hình 2.8 Hàm Entropy trong không gian hai chiều .................................. 21 Hình 2.9 Mô tả một số hàm khoảng cách thuộc họ Ls ............................... 24 Hình 2.10 Tính và so sánh ảnh bằng biểu đồ màu cục bộ ......................... 27 Hình 2.11 Biểu đồ màu Red, Green, Blue độc lập...................................... 28 Hình 2.12 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu RGB.................................. 29 Hình 2.13 Kết quả tìm kiếm ảnh dựa trên không gian màu RGB (ảnh truy vấn bên phải) ................................................................................. 30 Hình 2.14 Biểu đồ màu trong không gian màu CIELAB.......................... 31 Hình 2.15 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu CIELAB ........................... 31 Hình 2.16 Kết quả tìm kiếm ảnh dựa trên không gian màu CIELAB (ảnh truy vấn bên phải) ................................................................................. 32 Hình 2.17 Giá trị Entropy ứng với các biểu đồ màu R, G, B.................... 33 Hình 2.18 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh Entropy.......................................................................................... 33 Hình 2.19 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy (ảnh truy vấn bên phải) ................................................................................. 34 Danh sách hình vẽ ix Hình 2.20 Hai ảnh có biểu đồ màu khác nhau nhưng lại có Entropy giống nhau ........................................................................................................ 34 Hình 2.21 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy kết hợp với giá trị trung bình (ảnh truy vấn bên phải) ................................... 36 Hình 2.22 Kết hợp giải thuật tìm kiếm ảnh sử dụng đặc trưng Entropy- giá trị trung bình và giải thuật so sánh biểu đồ màu......................... 37 Hình 2.23 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng thuật toán kết hợp “Entropy-giá trị trung bình” và “So sánh biểu đồ màu”................. 38 Hình 2.24 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy-giá trị trung bình kết hợp với phương pháp so sánh biểu đồ màu (ảnh truy vấn bên phải) ......................................................................................... 39 Hình 2.25 Biểu đồ precision-recall............................................................... 41 Hình 2.26 Giá trị precision của các phương pháp khi số lượng ảnh lấy ra khác nhau............................................................................................... 44 Hình 2.27 Giá trị precision đối với các loại ảnh khác nhau khi lấy ra 50 ảnh .......................................................................................................... 45 Hình 3.1 Khái niệm về khung hình.............................................................. 47 Hình 3.2 Khái niệm về đoạn cơ sở và chuyển cảnh.................................... 48 Hình 3.3 Chuyển cảnh dần dần fade ........................................................... 49 Hình 3.4 Chuyển cảnh dần dần dissolve ..................................................... 49 Hình 3.5 Chuyển cảnh dần dần wipe........................................................... 50 Hình 3.6 Phát hiện chuyển cảnh bằng ngưỡng đơn giản .......................... 56 Hình 3.7 Cửa sổ truy vấn trượt với HWS=5 ............................................. 57 Hình 3.8 Cửa sổ truy vấn trượt với HWS=10 ............................................ 58 Hình 3.9 Biểu đồ biến đổi của PFC trong 200 khung hình ....................... 59 Hình 3.10 Ví dụ về trường hợp thuật toán cửa sổ trượt nhận dạng nhầm trong phân đoạn video. ......................................................................... 60 Hình 3.11 Hệ thống phát hiện chuyển cảnh đột ngột dựa vào thuật toán cửa sổ trượt kết hợp với ngưỡng so sánh............................................ 62 Danh sách hình vẽ x Hình 3.12 Giao diện hệ thống phát hiện chuyển cảnh............................... 64 Hình 3.13 Thuật toán cửa sổ trượt phát hiện nhầm là chuyển cảnh ....... 66 Hình 3.14 Cả hai thuật toán đều phát hiện nhầm là chuyển cảnh ........... 67 Hình 4.1 Đường cong sai khác tích luỹ........................................................ 71 Hình 4.2 Thuật toán dò tìm các điểm có độ cong lớn ................................ 73 Hình 4.3 Ví dụ về việc trích chọn khung hình chính dựa vào giải thuật tìm các điểm có độ cong lớn trên trong sai khác tích luỹ .................. 75 Hình 4.4 Giao diện chương trình trích chọn khung hình chính............... 77 Hình 5.1 Sơ đồ hệ thống tìm kiếm video theo nội dung trong luận văn .. 81 Hình 5.2 Mối quan hệ giữa các bảng trong cơ sở dữ liệu.......................... 85 Hình 5.3 Giao diện cửa sổ tìm kiếm video .................................................. 86 Danh sách bảng biểu xi DANH SÁCH BẢNG BIỂU Bảng 2.1 So sánh giữa các không gian màu................................................ 17 Bảng 2.2 Giá trị Entropy của một số ảnh ................................................... 22 Bảng 2.3 Thời gian tìm kiếm ảnh của các phương pháp........................... 42 Bảng 2.4 Giá trị precision của các phương pháp khi số lượng ảnh lấy ra khác nhau............................................................................................... 43 Bảng 2.5 Giá trị precision đối với các loại ảnh khác nhau khi lấy ra 50 ảnh .......................................................................................................... 45 Bảng 3.1 Kết quả thử nghiệm phân đoạn với một số loại video khác nhau ................................................................................................................. 65 Bảng 4.1 Kết quả thử nghiệm trích chọn khung hình chính với một số video........................................................................................................ 78 Danh mục các từ viết tắt xii DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt CBIR Content-Based Image Retrieval Tìm kiếm ảnh theo nội dung CBVR Content-Based Video Retrieval Tìm kiếm video theo nội dung CIELAB Commission Internationale de l’Eclairage L*-a*-b* Không gian màu đồng nhất L*a*b* CIELUV Commission Internationale de l’Eclairage L*-u*-v* Không gian màu đồng nhất L*u*v* CMY Cyan-Magenta-Yellow color space Không gian màu CMY HSB Hue-Saturation-Brightness color space Không gian màu HSB HSV Hue-Saturation-Value color space Không gian màu HSV HWS Half-Window Size Kích thước nửa cửa sổ LB Lower Bound Ngưỡng dưới MPEG Motion Picture Experts Group Tiêu chuẩn mã hoá video NVLV Người viết luận văn PFC Pre-Frame Count Đếm các khung hình phía trước RGB Red-Green-Blue color space Không gian màu RGB SQL Structure Query Language Ngôn ngữ truy vấn có cấu trúc UB Upper Bound Ngưỡng trên Chương 1. Tổng quan về tìm kiếm video theo nội dung 1 CHƯƠNG 1. TỔNG QUAN VỀ TÌM KIẾM VIDEO THEO NỘI DUNG 1.1 Đặt vấn đề Với sự phát triển nhanh chóng của máy tính cùng với đó là các chuẩn nén hiệu quả hơn đã làm gia tăng nhanh chóng việc lưu trữ, sử dụng các đối tượng đa phương tiện (multimedia) như: âm thanh, hình ảnh, video,... đặc biệt là video. Tuy nhiên, chúng thường không được sắp xếp, phân loại theo một trình tự nào và việc truy cập thường được tiến hành bằng việc xem xét tuần tự. Để có thể tạo được những cơ sở dữ liệu video lớn chúng ta cần tự động hoá được quá trình đánh chỉ mục, tìm kiếm trong video. Vấn đề “tìm kiếm video theo nội dung” (Content-Based Video Retrieval – CBVR) được tập trung nghiên cứu trong 15 năm trở lại đây. Tuy đã có khá nhiều các nghiên cứu tập trung vào lĩnh vực này nhưng những kết quả đạt được còn hạn chế. Việc chuyển tự động những đặc trưng cấp thấp như: màu sắc, chuyển động,... sang các đặc trưng cấp cao mà người sử dụng mong muốn như: đối tượng, sự kiện là rất khó khăn. Chương này sẽ chỉ ra quá trình hình thành và phát triển của CBVR cũng như những khó khăn trong nghiên cứu lĩnh vực này. 1.2 Giới thiệu sơ lược về CBVR Hiện nay, phần lớn cơ sở dữ liệu video số được lưu trữ dưới dạng thô và được gán nhãn đánh chỉ mục bằng văn bản. Đó là thế hệ thứ nhất của CBVR, trong thế hệ này các thông tin thị giác được tách ra một cách thủ công. Xác định các thông tin ngữ nghĩa chứa trong ảnh hay video (một đối tượng, sự vật,...), các phần của đối tượng (đôi mắt trên khuôn mặt, chiếc thuyền trên hồ,...) hoặc các cảnh miêu tả các khái niệm (phong cảnh, trận bão,...). Thể hiện những thông tin đó thường dựa trên mô hình quan hệ và mô hình hướng đối tượng. Việc tìm kiếm được thực hiện thông qua việc tìm kiếm văn bản sử Chương 1. Tổng quan về tìm kiếm video theo nội dung 2 dụng các ngôn ngữ truy vấn truyền thống như SQL. Tuy nhiên, đánh chú thích thủ công thường tốn rất nhiều công sức và toàn bộ quá trình đó phụ thuộc vào chủ quan của người chú thích, mà trình độ và sự cảm nhận của mỗi người chú thích là khác nhau. Khác với thế hệ thứ nhất, trong thế hệ thứ hai của CBVR việc đánh chỉ mục được thực hiện dựa trên các thuộc tính như màu sắc, kết cấu, hình dạng, các quan hệ không gian,... Các phương pháp tập trung vào việc tự động hoá việc đánh chỉ mục và tìm kiếm dựa vào các đặc trưng đó. Hiện nay CBVR đang bước vào giai đoạn thứ ba, tự động hoá trong việc đánh chỉ mục và tìm kiếm video ở mức cao (mức độ ngữ nghĩa). Tuy nhiên các kết quả thu được còn rất khiêm tốn chỉ dừng lại ở một lĩnh vực rất hẹp nào đó [16]. Việc mô hình hoá nội dung video là một trong những công việc quan trọng nhất trong tìm kiếm video. M.Petkovic [1] đưa ra mô hình nội dung video dưới dạng các mức: • Dữ liệu thô: Bao gồm các thành phần cơ bản của video như: định dạng, số khung hình trong một giây,... • Các thông tin thị giác mức thấp: màu sắc, hình dạng, kết cấu,... • Các thông tin mức ngữ nghĩa: các đối tượng và sự kiện. Quá trình trích chọn các thông tin ngữ nghĩa là quá trình phức tạp nhất, trong khi có thể tự động hoá trích chọn các thông tin thị giác ở mức thấp thì việc chuyển các thông tin đó lên mức cao hơn (ngữ nghĩa) là khó khăn hơn rất nhiều. Hiện nay trên thế giới vẫn chưa có một hệ thống nào có thể được coi là công cụ vạn năng để thực hiện công việc đó. Chương 1. Tổng quan về tìm kiếm video theo nội dung 3 1.3 Các nghiên cứu trên thế giới về CBVR Trước nhu cầu ngày càng lớn trong việc quản lý dữ liệu video, nhiều nhóm nghiên cứu đã nhảy vào cuộc. Đã có nhiều thuật toán về nén dữ liệu video số cho kết quả rất khả quan và đang được áp dụng rộng rãi. Các định dạng file video MPEG1, MPEG2, MPEG4, WMV, MOV, ... góp phần làm giảm đáng kể kích thước của dữ liệu video. Nhưng chúng chỉ giúp cho việc lưu trữ nhiều hơn trong một không gian nhỏ hơn, chứ không giải quyết được việc lưu trữ hiệu quả để tìm kiếm. Tuy nhiên, hiện nay một số nhóm đang tiến hành việc nghiên cứu và áp dụng vào thực tế một số phương pháp lưu trữ và tìm kiếm video dựa vào nội dung, cho thấy đây là một hướng phát triển mới và rất có triển vọng. Sau đây là một số nhóm tiêu biểu: • Đại học Carnegie Mellon [2]: Đang thực hiện một dự án thư viện thông tin cho phép người dùng truy tìm video bằng ngôn ngữ tự nhiên. Các bước xử lý để tạo nên thư viện video: phát hiện các đoạn cơ sở bằng cách sử dụng phương pháp độ sai khác về biểu đồ màu, trích chọn khung hình chính, nhận dạng khuôn mặt, nhận dạng chữ viết qua video và tìm ảnh dựa vào đặc trưng biểu đồ màu trong các không gian màu và vân khác nhau. • Nhóm nghiên cứu của IBM [3]: Nhóm nghiên cứu của IBM đã phát triển một hệ thống truy tìm video theo nội dung tự động và tương tác dựa vào những đặc điểm trực quan và mô hình thống kê. Hệ thống sử dụng IBM Cue Video để phát hiện đoạn cơ sở và lựa chọn khung hình chính một cách tự động. • Đại học Johns Hopkins [4]: Nhóm nghiên cứu đã phát triển một hệ thống truy tìm tự động video dựa vào nội dung của các khung hình video số. Mỗi khung hình chính được đánh chỉ số bởi chính đặc trưng lược đồ màu và vân ảnh của nó. Chương 1. Tổng quan về tìm kiếm video theo nội dung 4 • Đại học Maryland [5]: Đại học Maryland đang làm việc với những nhà nghiên cứu từ đại học Oulu, mở rộng các phương thức được dùng cho việc truy tìm ảnh. • Đại học Bắc Texas [6]: Nhóm Đại học Bắc Texas trích các khung hình từ dữ liệu video theo chu kỳ 5 giây. Những khung hình này sẽ qua tiến trình chọn khung hình chính để bỏ đi những khung hình thừa. Những khung hình chính sau đó sẽ được đưa vào ứng dụng UNT’s Brighton Image Searcher, dựa vào các độ đo toán học tương ứng với những đặc tính quan trọng của ảnh. Độ chính xác của quá trình chọn khung hình chính tương đối khả quan. Có thể thấy rằng hiện nay, lĩnh vực tìm kiếm video theo nội dung khá hấp dẫn và thu hút được sự quan tâm của ngày càng nhiều nhóm nghiên cứu vì những nhu cầu và ứng dụng thực tế của nó. Tuy nhiên những kết quả đạt được còn hạn chế, do vậy việc nghiên cứu, phát triển tìm kiếm video theo nội dung là một công việc cấp thiết, cần có nhiều sự đầu tư nghiên cứu nhiều hơn nữa. 1.4 Hướng nghiên cứu và nội dung của luận văn Như trình bày ở phần trên, trên thế giới hiện nay có rất nhiều phương pháp tiếp cận trong việc tìm kiếm video theo nội dung. Trong luận văn này người viết đưa ra một phương pháp tìm kiếm video dựa trên cơ chế tìm kiếm ảnh. Như chúng ta đã biết, video được hình thành từ các ảnh (khung hình – frame) liên tiếp nhau, tuỳ theo các chuẩn video khác nhau mà số khung hình trong một giây cũng khác nhau. Các khung hình liên tiếp về mặt thời gian tạo thành một đoạn cơ sở (shot). Một video có thể gồm nhiều đoạn cở sở ghép nối lại, chuyển từ đoạn này sang đoạn kia có thể là chuyển cảnh đột ngột hoặc chuyển cảnh dần dần bằng việc sử dụng một số hiệu ứng khi biên tập video Chương 1. Tổng quan về tìm kiếm video theo nội dung 5 (dissolve, fade, wipe,...). Việc phát hiện các chuyển cảnh gọi là phân đoạn video theo thời gian (temporal video segmentation). Đây là bước đầu tiên trong việc tự động hoá đánh chỉ mục và tìm kiếm video. Các khung hình trong cùng một đoạn cở sở thì thường có độ tương quan cao với nhau. Do vậy việc tóm tắt video có thể được thực hiện bằng cách biểu diễn mỗi đoạn cơ sở chỉ bằng một vài khung hình đại diện, gọi là các khung hình chính (key-frame). Kỹ thuật lấy ra các khung hình chính trong đoạn video gọi là kỹ thuật trích chọn khung hình chính (key-frame extraction). Người sử dụng thông qua việc xem các khung hình chính có thể hiểu nhanh được nội dung của toàn bộ video. Và thông qua việc liệt kê các khung hình chính người sử dụng cũng có thể tìm được khung hình chính có nội dung mà mình đang tìm kiếm. Do vậy tìm được đoạn video tương ứng chứa khung hình chính đó. Nhưng trong một cơ sở dữ liệu lớn video thì sao? Khi đó số lượng khung hình chính là rất lớn, người sử dụng sẽ tốn nhiều thời gian để tìm kiếm được khung hình có nội dung mà mình mong muốn. Giải pháp mà Người viết luận văn (NVLV) đưa ra là sử dụng cơ chế tìm kiếm ảnh theo nội dung (Content-Based Image Retrieval) để tự động hoá công việc tìm kiếm các khung hình chính. Do vậy, hệ thống tìm kiếm video mà NVLV xây dựng được hình thành từ các thành phần: • Tìm kiếm ảnh theo nội dung • Phân đoạn video • Trích chọn khung hình chính Sơ đồ khối của hệ thống được trình bày trong hình 1.1. Chương 1. Tổng quan về tìm kiếm video theo nội dung 6 Hình 1.1 Sơ đồ hệ thống tìm kiếm video nghiên cứu trong luận văn Với những phân tích như trên, luận văn gồm các nội dung chính như sau: Chương 1: Tổng quan về tìm kiếm video theo nội dung Trình bày các khái niệm và ý nghĩa của lĩnh vực CBVR, các nghiên cứu về lĩnh vực này trên thế giới hiện nay, hướng nghiên cứu trong luận văn Chương 2: Tìm kiếm ảnh theo nội dung áp dụng trong tìm kiếm video theo nội dung Chương này sẽ tìm hiểu một số phương pháp tìm kiếm ảnh hiện nay trên thế giới, các đặc tính của ảnh, các không gian màu sắc, biểu đồ màu, Entropy của ảnh. Phân tích các phương pháp lựa chọn và xây dựng ra một phương pháp tìm kiếm phù hợp áp dụng trong bài toán tìm kiếm video theo nội dung. Video Files Phân đoạn Video Trích chọn key-frame Keyframes Browser Đánh chỉ mục Tìm kiếm ảnh theo nội dung CSDL Keyframe và đoạn Kết quả: Các đoạn Video Chương 1. Tổng quan về tìm kiếm video theo nội dung 7 Chương 3: Phân đoạn video Chương này sẽ tìm hiểu, phân tích và đánh giá các phương pháp phân đoạn video hiện nay. Đưa ra một số cải tiến nhằm nâng cao độ chính xác trong phân đoạn Chương 4: Trích chọn khung hình chính trong video Trong chương này sẽ tìm hiểu một số phương pháp trích chọn khung hình chính ứng dụng vào việc tóm tắt và đánh chỉ mục video. Việc trích chọn khung hình chính tập trung vào giải thuật tìm các điểm có độ cong lớn trên đường sai khác tích luỹ. Chương 5: Xây dựng hệ thống tìm kiếm video theo nội dung dựa trên phương pháp tìm kiếm ảnh trong các khung hình chính Từ các lý thuyết và thử nghiệm ở các chương trước, chương này NVLV sẽ lựa chọn và tổng hợp thành một hệ thống tìm kiếm video khá hoàn chỉnh. Kết luận chương Chương này đã chỉ ra mục đích ý nghĩa của hệ thống tìm kiếm video theo nội dung cũng như những khó khăn trong nghiên cứu lĩnh vực này. Các nghiên cứu trên thế giới hiện nay về lĩnh vực này cũng được đề cập. Chương này cũng trình bày phạm vi nghiên cứu và cách tiếp cận của NVLV để xây dựng hệ thống tìm kiếm video. Chương sau sẽ tìm hiểu cơ chế tìm kiếm ảnh theo nội dung, ứng dụng trong việc tìm kiếm video. Chương 2. Tìm kiếm ảnh theo nội dung 8 CHƯƠNG 2. PHƯƠNG PHÁP TÌM KIẾM ẢNH THEO NỘI DUNG ÁP DỤNG TRONG BÀI TOÁN TÌM KIẾM VIDEO THEO NỘI DUNG 2.1 Đặt vấn đề Như đã đề cập ở chương trước, tìm kiếm ảnh theo nội dung là một phần của ._.hệ thống tìm kiếm video mà NVLV xây dựng. Mặt khác, các kiến thức về CBIR là những kiến thức rất quan trọng trong việc nghiên cứu xử lý video ở các chương tiếp, ví dụ như: cảm thụ của con người về màu sắc, tìm kiếm trong không gian độ đo,... 2.2 Tổng quan về tìm kiếm ảnh theo nội dung 2.2.1 Giới thiệu Trong cơ sở dữ liệu, ảnh số đóng một vai trò rất quan trọng, đặc biệt khi khả năng lưu trữ dữ liệu của máy tính được tăng lên một cách nhanh chóng. Khi nhu cầu về ảnh số tăng lên với khối lượng dữ liệu lớn đòi hỏi phải có một phương pháp hiệu quả trong việc lưu trữ và tìm kiếm ảnh. Một vấn đề đặt ra là làm sao để có thể quản lý và sử dụng chúng một cách hiệu quả khi người sử dụng có nhu cầu tìm kiếm thông tin mà họ cần. Hiện nay phần lớn các hệ thống mới chỉ đáp ứng tốt nhu cầu của người dùng với loại thông tin văn bản. Từ nhu cầu thực tiễn đã có rất nhiều cố gắng nhằm giải quyết bài toán tìm kiếm thông tin dạng hình ảnh. Bài toán này được gọi là bài toán “tìm kiếm ảnh theo nội dung” (Content-Based Image Retrieval - CBIR). Các yêu cầu chính đối với bài toán này là phải tìm kiếm chính xác và trả lời trong khoảng thời gian cho phép trên một cơ sở dữ liệu ảnh lớn. Hiện nay, có một số hệ thống tìm kiếm ảnh dựa vào từ khoá điển hình hệ thống tìm kiếm ảnh của Google. Việc tìm kiếm này tỏ ra khá hiệu quả với Chương 2. Tìm kiếm ảnh theo nội dung 9 người sử dụng, tuy nhiên việc xây dựng cơ sở dữ liệu ảnh đó phải thực hiện bằng cách đánh chú thích cho từng ảnh. Công việc này thực hiện một cách thủ công rất mất nhiều thời gian và công sức vả lại còn phụ thuộc vào chủ quan của người nhập chú thích cho ảnh. Ở đây NVLV đi theo hướng tự động hoá trong việc tìm kiếm và xây dựng cơ sở dữ liệu ảnh. Để làm được điều đó phải tự động hoá trong việc trích chọn ra các đặc trưng của ảnh và bài toán tìm kiếm ảnh trở thành bài toán tìm kiếm các đặc trưng của ảnh. Các đặc trưng của ảnh có thể là: màu sắc, kết cấu bề mặt, hình dạng,... Đối với con người việc nhận biết và so sánh các đặc trưng đó được thực hiện khá dễ dàng tuy nhiên với máy tính việc nhận biết các đặc trưng đó lại không hề đơn giản. 2.2.2 Cơ chế tính toán chung của CBIR Việc tìm kiếm ảnh được thực hiện bằng cách: người sử dụng đưa vào hệ thống một ảnh (từ file hoặc vẽ vào) gọi là ảnh truy vấn. Sau đó hệ thống sẽ tìm kiếm trong cơ sở dữ liệu ảnh của mình và trả lại những ảnh giống với ảnh truy vấn nhất. Quá trình tìm kiếm và xây dựng cơ sở dữ liệu ảnh dựa vào việc trích chọn các đặc trưng của ảnh. Cơ chế hoạt động của hoạt hệ thống CBIR được mô tả trong hình 2.1 [17]. Toàn bộ quá trình này bắt đầu với việc phân tích và trích chọn các đặc trưng của ảnh được xử lý bằng các thuật toán trích chọn đặc trưng, những đặc trưng này được lưu vào cơ sở dữ liệu. Việc sử dụng thuật toán trích chọn đặc trưng cũng được sử dụng để lấy các đặc trưng của ảnh truy vấn. Phương pháp đo xấp xỉ sau đó sẽ so sánh những đặc trưng của truy vấn với các đặc trưng trong cơ sở dữ liệu. Với những ảnh có đặc trưng trong cơ sở dữ liệu được cho là “giống” với ảnh truy vấn sẽ được gửi lại cho người sử dụng như là một kết quả cuối cùng. Chương 2. Tìm kiếm ảnh theo nội dung 10 Trích chọn đặc trưng Ảnh truy vấn Trích chọn đặc trưng Phép đo xấp xỉ Kết quả tìm kiếm 87 23 27 19 40 54 56 10 76 23 23 34 43 12 54 86 22 26 20 40 Hình 2.1 Cơ chế hoạt động của hệ thống CBIR 2.2.3 Một số đặc trưng của ảnh Việc trích chọn những đặc trưng từ ảnh là mục tiêu cơ bản của hệ thống CBIR. Những đặc trưng của ảnh được trích chọn để sử dụng trong nhiều ứng dụng như xử lý ảnh, nhận dạng ảnh,... Hầu hết các phương pháp trích chọn các đặc trưng của ảnh tập trung vào: màu sắc, kết cấu, hình dạng [20]. a. Đặc trưng về màu sắc [17][18] Cho đến nay màu sắc là đặc tính hình ảnh được thể hiện nhiều nhất trong công nghệ CBIR, đầu tiên là vì tính đơn giản của việc trích thông tin màu của ảnh đưa ra phân tích và đã có hiệu quả thông qua biểu đồ màu. Các biểu đồ màu miêu tả các điểm màu trên những vùng màu của ảnh. Không gian màu RGB được sử dụng rộng rãi trong việc miêu tả màu sắc của ảnh. Nó gồm ba thành phần màu cơ bản là đỏ (Red), lục (Green), lam (Blue). Các màu khác được tạo ra bằng cách tổng hợp ba thành phần màu cơ Chương 2. Tìm kiếm ảnh theo nội dung 11 bản này. Tuy nhiên không gian màu RGB biến đổi không phù hợp với cảm nhận của mắt con người. Không gian màu CIELAB và CIELUV được nghiên cứu phát triển để phù hợp với cảm nhận của mắt người. Việc tính toán so sánh “khoảng cách” giữa các ảnh sử dụng đặc trưng màu sắc có thể sử dụng các phương pháp như: mô men màu, biểu đồ màu,... Mỗi phương pháp có những đặc điểm riêng chúng ta sẽ xem xét cụ thể ở các phần tiếp theo. b. Đặc trưng về hình dạng [7] Hình dạng của đối tượng trong ảnh cũng là một đặc trưng có thể được xét đến. Đối tượng của ảnh thể hiện nội dung ảnh nhiều nhất. Ảnh được chụp hoặc tranh được vẽ luôn với mục đích mô tả lại các đối tượng trong đó. Việc tách riêng các đối tượng và hình dạng của chúng trong ảnh là rất khó khăn. Và khó hơn là so sánh các đặc trưng đó thế nào. Phương pháp này chỉ nên áp dụng cho loại ảnh đặc biệt có đặc trưng hình dạng nổi bật, dễ phân tích. c. Đặc trưng về kết cấu (texture) [8] Khái niệm chung về kết cấu bề mặt là phản ánh sự biểu diễn một mẫu về không gian có vài thuộc tính đồng đều. Vào các trường hợp đặc biệt, tính đồng đều không thể có được từ sự biểu diễn bằng một màu đơn hoặc một độ sáng trong vùng mà yêu cầu sự tương tác của nhiều màu, độ sáng khác nhau. Để sử dụng kết cấu trong tìm kiếm ảnh, ta cần có các đặc tính kết cấu của một đối tượng hoặc một vùng quan tâm đến trong ảnh cung cấp đặc tính để tìm kiếm ảnh. Ví dụ đặc trưng kết cấu tách ra từ một cảnh của đồng cỏ thì ta có thể phân biệt được đồng cỏ và cây cối. Trong khi nếu chỉ dùng màu sắc thì có thể tìm kiếm không chính xác. 2.3 Đặc tính màu sắc của ảnh Con người chỉ có khả năng cảm nhận được ánh sáng có bức xạ điện từ với bước sóng trong khoảng 350 – 780 nanomet. Cơ quan thị giác cảm nhận Chương 2. Tìm kiếm ảnh theo nội dung 12 được ánh sáng là do bề mặt đối tượng phát ra ánh sáng, là kết quả của sự tương tác giữa năng lượng chiếu sáng và những phân tử của bề mặt đối tượng. Một đối tượng màu xanh dương sẽ có bề mặt màu xanh dương khi chiếu ánh sáng trắng vào. Nhưng đối tượng đó sẽ có màu tím khi chiếu ánh sáng đỏ vào. Với sự phát triển mạnh mẽ của khoa học kỹ thuật, máy móc xử lý màu sắc trở nên thông dụng. Chúng ta có các thiết bị như máy quay phim màu, thiết bị chiếu màu và những phần mềm xử lý ảnh màu. Máy móc có thể dùng màu sắc cho những mục đích như là con người. Đặc biệt, màu sắc thuận tiện bởi vì nó cung cấp phép đo lường đa dạng tại mỗi điểm ảnh đơn, có thể phân lớp, phân loại mà không cần đến những sự xử lý không gian phức tạp để đưa đến quyết định. Do đó, việc lựa chọn mô hình màu thích hợp và sử dụng biểu đồ lượng hoá màu thích hợp sẽ giảm bớt độ phân giải màu. Đây là các vấn đề quan trọng trong việc tìm kiếm ảnh dựa trên màu sắc. Màu sắc thường được biểu diễn như là các điểm trong không gian màu ba chiều gọi là các không gian màu. 2.3.1 Không gian màu a. Các đặc tính của không gian màu • Tính đồng nhất (uniform): Một không gian màu đồng nhất là một không gian mà trong đó khoảng cách giữa các điểm trong không gian màu là tương đương với khoảng cách nhận thức được giữa các điểm đó của con người. • Tính đầy đủ (complete): Một không gian màu đầy đủ là một không gian biểu diễn được tất cả các màu mà con người có thể cảm nhận được. • Tính duy nhất (unique): Một không gian màu có tính duy nhất nếu hai điểm riêng biệt trong không gian màu đại diện cho hai màu khác nhau theo cảm nhận của con người. Chương 2. Tìm kiếm ảnh theo nội dung 13 b. Không gian màu RGB Phần lớn không gian màu dùng cho ảnh số và đồ hoạ máy tính là RGB (Red-Green-Blue). Đó là không gian màu mà trong đó các màu được tạo ra khi kết hợp tuyến tính ba thành phần màu đỏ (red), xanh lục (green), xanh lam (blue). Hình 2.2 Không gian màu RGB Tuy không gian màu RGB đơn giản và được sử dụng rộng rãi nhưng nó lại không đồng nhất về mặt nhận thức. Khoảng cách giữa hai điểm trong không gian màu chưa chắc đã ám chỉ rằng hai màu đó là giống nhau hay không giống nhau. Thêm vào đó, ba kênh của không gian màu RGB không biến đổi phù hợp về mặt độ sáng. c. Không gian màu CMY Không gian CMY được dùng chủ yếu trong in ấn. CMY là viết tắt của Cyan-Magenta-Yellow (màu lục lam, màu đỏ tươi, màu vàng), đó là ba màu chính tương ứng với ba màu mực in. Hệ thống màu CMY theo mô hình in trên giấy trắng và theo cách thức trừ màu từ màu trắng thay vì thêm vào từ màu đen như hệ thống màu RGB. Chương 2. Tìm kiếm ảnh theo nội dung 14 Hình 2.3 Không gian màu CMY d. Không gian màu HSV Mô hình HSV (Hue, Saturation, Value) được tạo ra từ năm 1978 bởi Alvy Ray Smith. Nó là một phép biến đổi phi tuyến của không gian màu RGB. Mô hình HSV giúp tách bạch màu (H, S) và độ sáng (V). Không gian màu HSV, còn gọi là HSB (Hue, Saturation, Brightness) định nghĩa một không gian màu gồm có ba thành phần tạo nên: • Hue: loại màu (chẳng hạn màu đỏ, xanh, hay vàng). Có giá trị từ 0 - 360 • Saturation: độ bão hoà của màu. Có giá trị từ 0 - 100%. Độ bão hoà của một màu càng thấp, độ xám của màu đó càng nhiều và màu đó càng mờ (càng giống với ảnh đen trắng) • Value, độ sáng của màu. Có giá trị từ 0 - 100%. Chương 2. Tìm kiếm ảnh theo nội dung 15 Hình 2.4 Một số cách biểu diễn không gian màu HSV Không gian màu HSV được sử dụng khá rộng rãi trong các ứng dụng đồ hoạ máy tính vì nó cung cấp sự điều khiển trực tiếp đến độ chói và màu sắc. Có một số phương pháp biểu diễn không gian màu này như bánh xe màu, hình nón và hình trụ (hình 2.4). Không gian màu HSV có vẻ phù hợp với cảm nhận của mắt con người hơn không gian màu RGB, tuy nhiên người ta đã chứng minh được rằng không gian màu này cũng không phải là không gian màu đồng nhất về nhận thức. Do vậy, cần thiết phải xây dựng không gian màu phù hợp với cảm nhận của con người, đó chính là không gian màu ta sẽ nghiên cứu sau đây. e. Không gian màu có thang chia màu đồng nhất CIE Trong một cố gắng định nghĩa một không gian màu đồng nhất về cảm nhận, Uỷ ban Commission Internationale de l’Eclairage (CIE) đã phát triển không gian màu L*-u*-v* (CIELUV) và L*-a*-b* (CIELAB). Không gian màu là một hình trụ với L* hình thành nên trục đầu tiên (thẳng đứng), L* xác định độ sáng của màu từ đen đến trắng (hình 2.5). Không gian màu CIELUV và CIELAB được đưa ra như những sự lựa chọn cho các không gian màu mà độ chói được thừa nhận là không đổi cho tất cả các màu. Tầm quan trọng của màu sắc và độ chói là cân bằng nhau. Kết quả là, trong không gian màu CIELUV và CIELAB ba đặc tính biểu diễn một không gian màu sắc là tính đồng nhất, tính đầy đủ và tính duy nhất được đáp ứng. Luận văn này sẽ sử dụng không gian màu CIELAB như một cơ sở cho Chương 2. Tìm kiếm ảnh theo nội dung 16 việc miêu tả các đặc trưng màu sắc và các phép đo. Lý do cho việc lựa chọn này bởi vì nó đáp ứng hầu hết tính thống nhất về cảm giác của không gian màu, một đặc trưng đã không được đáp ứng ở hầu hết các không gian khác. Để chuyển đổi từ không gian màu RGB sang không gian hai không gian màu này phải thông qua không gian màu trung gian XYZ. Sự chuyển đổi từ không gian màu RGB sang không gian màu CIELAB được trình bày chi tiết trong phần phụ lục. Hình 2.5 Không gian màu CIELAB f. So sánh các không gian màu Có rất nhiều không gian màu tồn tại, mỗi cái có ưu điểm và nhược điểm riêng. Như đã đề cập, không gian màu RGB là không gian được sử dụng rộng rãi tuy nhiên nó lại không tuyến tính về mặt cảm nhận thị giác. Thêm vào đó không gian màu này lại phụ thuộc vào thiết bị hiển thị. Không gian màu CMY được sử dụng hầu hết trong các máy in màu. Tuy nhiên nó cũng không thống nhất về mặt cảm nhận. Không gian màu HSB có vài phần tương tự với không gian màu HSV và HSI, các không gian màu này có đặc điểm và tách biệt giữa sắc độ (màu sắc và độ bão hoà) và độ chói. Tuy nhiên các không gian màu này cũng không đồng nhất về cảm nhận. Các không gian màu YIQ, YUV và Chương 2. Tìm kiếm ảnh theo nội dung 17 YCrCb được sử dụng lần lượt cho các tiêu chuẩn NTSC, PAL và JPEG. Chúng đều phụ thuộc vào thiết bị hiển thị và không đồng nhất về cảm nhận. Thống kê so sánh giữa các không gian màu được tổng kết trong bảng 2.1. Bảng 2.1 So sánh giữa các không gian màu Không gian màu Đồng nhất Đầy đủ Duy nhất Độc lập thiết bị RGB Không Có Không Không CMY Không Có Không Không HSL, HSV, HSI Không Có Có Không YIQ, YUV, YCrCb Không Có Không Không CIELAB, CIELUV Có Có Có Có 2.3.2 Biểu đồ màu (Color Histogram) a. Định nghĩa Biểu đồ màu của ảnh cho biết sự phân bố của các màu trong ảnh. Biểu đồ màu H là một vector: H={hi} Trong đó n nh ii = • i là thứ tự màu được lượng tử hoá (bin màu). Nếu Nc là số lượng màu được lượng tử hoá thì ]1,0[ −∈ cNi • ni: số điểm ảnh có giá trị màu là i • n: tổng số điểm ảnh có trong ảnh Chương 2. Tìm kiếm ảnh theo nội dung 18 Hình 2.6 Mô tả biểu đồ màu b. Ý nghĩa của biểu đồ màu Đối với một màu ci, hi thể hiện phần trăm số điểm ảnh có màu ci trong ảnh I. Nói cách khác với mỗi điểm ảnh trong ảnh I thì hi thể hiện xác suất để điểm ảnh đó có màu là ci. Biểu đồ màu là một đặc trưng rất quan trọng của ảnh. Có thể dùng nó để thực hiện tìm kiếm ảnh theo nội dung. c. Ưu điểm, nhược điểm của biểu đồ màu • Ưu điểm o Tính toán biểu đồ màu ít tốn chi phí, đơn giản, nhanh chóng. o Biểu đồ màu bất biến đối với một số phép biến đổi như: xoay, co, giãn. • Nhược điểm Biểu đồ màu chỉ xét phân bố toàn cục về màu của ảnh mà không xét đến yếu tố cục bộ về vị trí, làm mất thông tin về quan hệ không gian giữa các màu. Dẫn đến việc có thể có nhiều ảnh khác nhau nhưng lại có cùng biểu đồ màu (hình 2.7). Chương 2. Tìm kiếm ảnh theo nội dung 19 Hình 2.7 Những ảnh khác nhau nhưng có biểu đồ màu giống nhau 2.3.3 Biểu đồ tương quan màu (Color Correlogram) a. Giới thiệu Biểu đồ màu đơn giản nhưng thiếu thông tin về không gian. Một đặc trưng mới được giới thiệu gọi là biểu đồ tương quan màu. Biểu đồ tương quan màu hứa hẹn mô tả không chỉ là phân phối màu của các điểm ảnh mà còn là sự tương quan về không quan giữa các cặp màu. b. Cách tính Gọi [D] là tập gồm D khoảng cách d1, d2,..., dD. Biểu đồ tương quan màu của ảnh I được xác định với cặp màu (ci, cj) và khoảng cách d là: xác suất cặp điểm ảnh bất kỳ p1 có màu là ci và p2 có màu là cj và khoảng cách giữa p1, p2 là d. Chương 2. Tìm kiếm ảnh theo nội dung 20 c. Biểu đồ tự tương quan màu Nếu chúng ta xét đến tất cả sự kết hợp có thể có của các cặp màu, kích thước của biểu đồ tương quan màu sẽ rất lớn, thời gian tính toán sẽ lâu. Do đó, một phiên bản đơn giản hơn được sử dụng, gọi là biểu đồ tự tương quan màu. Biểu đồ này chỉ quan tâm đến sự tương quan về không gian giữa những màu giống nhau và do đó giảm được số chiều và chi phí tính toán. d. So sánh với biểu đồ màu So với biểu đồ màu thì biểu đồ (tự) tương quan màu không những có được thông tin về phân bố màu của ảnh mà còn có được thông tin về không gian của ảnh. Do vậy, việc sử dụng biểu đồ (tự) tương quan màu để tìm kiếm ảnh theo nội dung sẽ chính xác hơn. Tuy nhiên, một nhược điểm rất lớn của biểu đồ (tự) tương quan màu đó là chi phí tính toán lớn hơn nhiều so với việc tính toán biểu đồ màu. 2.4 Đặc trưng Entropy của ảnh 2.4.1 Đặt vấn đề Như đã đề cập ở phần trên, biểu đồ màu được biết đến như là một đặc trưng quan trọng của ảnh có thể dùng để đánh chỉ số phục vụ xây dựng cơ sở dữ liệu ảnh. Tuy nhiên, nhược điểm của biểu đồ màu đó là kích thước số chiều lớn, do đó việc tìm kiếm so sánh ảnh mất nhiều thời gian đặc biệt với cơ sở dữ liệu ảnh lớn. Trong một vài thập kỷ trở lại đây đã có nhiều nghiên cứu về giảm số chiều của biểu đồ màu xuống, các kỹ thuật này có khả năng giảm không gian biểu đồ màu từ n xuống k>1. Trong phần này ta sẽ tìm hiểu cách thức để giảm số chiều của không gian biểu đồ màu xuống 1 bằng việc sử dụng lý thuyết Entropy. Chương 2. Tìm kiếm ảnh theo nội dung 21 Ở đây, Entropy của một ảnh được hiểu là độ đo lượng thông tin của ảnh đó. Như ta đã biết hàm Entropy Shannon ánh xạ một vector n chiều đến tập số thực và do đó có thể hiểu như là giảm số chiều không gian xuống 1. 2.4.2 Lý thuyết thông tin và hàm Entropy a. Định nghĩa Cho x là một biến ngẫu nhiên với không gian mẫu X={x1,..., xN} và độ đo xác suất P(xn)=pn. Entropy của x được định nghĩa là: ∑ = −= N n nn ppxH 1 )log()( (2.1) Ví dụ: Cho X={0,1}, P(0)=p còn P(1)=1-p thì Entropy của x được tính như sau: )1log()1()log()( ppppxH −−−−= Hình 2.8 Hàm Entropy trong không gian hai chiều b. Một số tính chất của hàm Entropy • H(x) ≥ 0. Entropy là một đại lượng không âm. • H(p1,..., pn) ≤ H(1/n,...., 1/n) = log(n). Entropy của hàm mật độ xác suất lớn nhất khi các giá trị được phân bố đều. Chương 2. Tìm kiếm ảnh theo nội dung 22 2.4.3 Entropy ảnh là một đặc trưng Như ta đã biết biểu đồ màu có thể coi là một hàm mật độ xác suất phân bố màu của ảnh, do vậy có thể tính được Entropy của ảnh dựa trên biểu đồ màu. Giả sử một ảnh có biểu đồ màu V={vi}, số bin màu là n thì Entropy của ảnh đó được tính như sau: ∑− = −= 1 0 )( )log( n k iiv vvH (2.2) Bảng 2.2 đưa ra Entropy của một số ảnh được tính bởi công thức trên. Ta thấy ảnh Clown, Lena, Mandril có phân bố màu phức tạp do đó chúng có giá trị Entropy cao hơn còn các ảnh như Pleides có giá trị Entropy thấp hơn. Bảng 2.2 Giá trị Entropy của một số ảnh Đối với các ảnh số Entropy có một số ý nghĩa như sau: • Ước lượng số bit cần thiết để mã hoá điểm ảnh • Đo sự phân bố ngẫu nhiên của của màu trong ảnh Chương 2. Tìm kiếm ảnh theo nội dung 23 Trong bảng 2.2 ta thấy sự khác nhau giữa các giá trị Entropy của các ảnh dẫn đến sự khác nhau của các ảnh tương ứng. Ví dụ ảnh Mona Lisa có Entropy = 3.63569 thì rất khác biệt so với ảnh Pleides có Entropy = 2.13897. Tóm lại, Entropy là một đặc trưng quan trọng của ảnh có số chiều bằng 1. Có thể dùng Entropy thực hiện tìm kiếm ảnh theo nội dung với tốc độ rất nhanh để thu gọn vùng tìm kiếm. 2.5 Phép đo khoảng cách 2.5.1 Đặt vấn đề Để thực hiện tìm kiếm ảnh ta phải lượng hoá được sự giống nhau hay khác nhau giữa các ảnh. Làm sao phải tìm ra một độ đo để dựa vào đó ta có thể chỉ ra rằng ảnh này giống với ảnh truy vấn hơn là ảnh khác. Điều này không chỉ hữu ích trong việc tìm kiếm ảnh mà nó còn rất quan trọng trong các ngành khoa học máy tính khác đặc biệt là trong lĩnh vực nhận dạng. 2.5.2 Một số tính chất của độ đo Giả sử có một tập các đối tượng {X}. x, y là các đối tượng thuộc X. Hàm khoảng cách d giữa x và y là một số thực thoả mãn các tính chất sau (d càng nhỏ thì các đối tượng càng giống nhau và ngược lại) [19]: • 0y)(x,,, ≥∈∀ dXyx • x)(y,y) (x,,, ddXyx =∈∀ • 0 x)(x,, =∈∀ dXx • 0y) (x,,, >⇒≠∈∀ dyxXyx Nếu d thực sự là một hàm của độ đo mét (metric) thì nó phải thoả mãn bất đẳng thức tam giác sau: • ),(),(y) (x,,,, yzdzxddXzyx +≤∈∀ Chương 2. Tìm kiếm ảnh theo nội dung 24 Và cặp (X, d) được gọi là không gian độ đo mét (metric space). 2.5.3 Một số độ đo thông dụng Trong một không gian thuộc tính k chiều, mỗi đối tượng trong không gian đó là một điểm và được biểu diễn bởi một vector k chiều. Việc tính toán khoảng cách giữa các điểm trong không gian đó được thực hiện bằng một số hàm khoảng cách. Được sử dụng rộng rãi nhất là họ các hàm khoảng cách Ls [19]: ssk i iikks yxyyxxL /1 1 11 )),...,(),,...,(( ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −= ∑ = (2.3) Trong hình dưới, bên trái biểu diễn kết quả tìm kiếm với điểm truy vấn là q khoảng cách truy vấn d. Hình bên phải miêu tả tập hợp các điểm có cùng khoảng cách với điểm trung tâm cho một số hàm khoảng cách trong họ Ls. Với s khác nhau ta có các hàm khoảng cách khác nhau. Hình 2.9 Mô tả một số hàm khoảng cách thuộc họ Ls a. Khoảng cách Manhattan (L=1) Còn được gọi là khoảng cách “city-block” ∑ = −= k i iikk yxyyxxL 1 111 )),...,(),,...,(( (2.4) Chương 2. Tìm kiếm ảnh theo nội dung 25 b. Khoảng cách Ơcơlit (Euclidean) (L=2) 2/12 1 112 )),...,(),,...,(( ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −= ∑ = k i iikk yxyyxxL (2.5) c. L=∞ Khi ∞→L thì khoảng cách giữa hai điểm trở thành sự khác nhau lớn nhất của hai toạ độ tương ứng của hai điểm. ii k ikk yxyyxxL −= =∞ 111 max)),...,(),,...,(( (2.6) 2.5.4 Các độ đo được sử dụng trong tìm kiếm ảnh theo nội dung Trong quá trình tìm kiếm ảnh dựa vào nội dung điều quan trọng là xác định mức độ giống nhau giữa hai ảnh dựa vào hai đặc trưng của hai ảnh cần so sánh. Do đó, cần một giá trị để biểu thị cho sự giống nhau này, có nhiều cách để tính giá trị này. a. So sánh điểm ảnh Trong phương pháp này việc tính toán khoảng cách dựa trên sự so sánh từng cặp điểm ảnh (pixel) tương ứng trong hai ảnh. YX yxPyxP jiD X x Y y ji . ),(),( ),( 1 1 ∑∑ = = − = với ảnh đen trắng (2.7) YX cyxPcyxP jiD X x Y y c ji . ),,(),,( ),( 1 1 ∑∑∑ = = − = với ảnh màu Trong đó: • i, j là hai ảnh cần so sánh có kích thước là X × Y. • Pi(x,y) là giá trị cường độ của điểm ảnh tại toạ độ (x,y) của ảnh i • c là thành phần màu (ví dụ { }BGRc ,,∈ ) Chương 2. Tìm kiếm ảnh theo nội dung 26 Phương pháp này có một số nhược điểm: • Yêu cầu các ảnh phải có kích thước giống nhau • Khối lượng tính toán lớn • Cơ sở dữ liệu đánh chỉ mục ảnh lớn b. So sánh biểu đồ màu Giả sử n là số bin màu của biểu đồ màu. Việc so sánh sự khác nhau giữa hai ảnh được thực hiện bằng cách so sánh biểu đồ màu của chúng. Do vậy trong cơ sở dữ liệu ta sẽ lưu trữ biểu đồ màu của các ảnh. Ta có thể sử dụng các hàm khoảng cách như L1, L2 hay L∞ như phần 2.5.3 đã đề cập. Dùng khoảng cách Ls: ssn k jis kHkHjiD /1 1 0 )()(),( ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ −= ∑− = (2.8) Như chúng ta đã biết việc so sánh biểu đồ màu được thực hiện khá đơn giản và thuận tiện, tuy nhiên nó lại có một nhược điểm là không chứa thông tin về không gian của ảnh do vậy hai ảnh khác nhau có thể có biểu đồ màu như nhau. Để khắc phục tình trạng đó có thể thêm thông tin về không gian vào trong biểu đồ màu bằng cách đơn giản như sau: Ta chia ảnh thành các vùng xác định và tính biểu đồ màu cục bộ của từng vùng và so sánh biểu đồ màu giữa các vùng tương ứng trong hai ảnh khác nhau [18]. Ví dụ trong hình dưới ta chia ảnh thành bốn vùng như sau: R1 R2 R3 R4 Chương 2. Tìm kiếm ảnh theo nội dung 27 Hình 2.10 Tính và so sánh ảnh bằng biểu đồ màu cục bộ Phương pháp tính biểu đồ màu cục bộ này có ưu điểm đã có được thông tin về không gian của ảnh. Tuy nhiên có một số nhược điểm sau: • Khối lượng tính toán lớn • Nhạy cảm với các phép xoay, thu phóng ảnh 2.6 Xây dựng phần mềm tìm kiếm ảnh ứng dụng trong hệ thống tìm kiếm video Sau khi đã nghiên cứu, tìm hiểu cơ sở lý thuyết một số phương pháp tìm kiếm ảnh theo nội dung tập trung vào phương pháp tìm kiếm ảnh dựa trên đặc trưng màu sắc và đặc trưng Entropy của ảnh. Trong phần này sẽ tổng hợp và xây dựng một kiến trúc phần mềm tìm kiếm ảnh theo nội dung đưa ra mô hình giải thuật thực hiện việc thử nghiệm và đánh giá kết quả nhận được. Phần mềm này sẽ là một phần trong hệ thống tìm kiếm video mà người viết xây dựng. Một số câu hỏi sẽ phải được giải quyết trong phần này: • Sử dụng không gian màu nào? • Sử dụng phương pháp tiếp cận nào? Chương 2. Tìm kiếm ảnh theo nội dung 28 • Làm sao tăng được tốc độ tìm kiếm? Ở đây, NVLV thử nghiệm với hai không gian màu là: RGB và CIELAB. Dùng hai phương pháp là: so sánh biểu đồ màu và so sánh Entropy. Cơ sở dữ liệu ảnh thử nghiệm là 1000 ảnh gồm 10 nhóm khác nhau, mỗi nhóm gồm 100 ảnh được lấy từ [35]. Phần tiếp theo sẽ trình bày các cách tiếp cận khác nhau trong tìm kiếm ảnh theo nội dung dựa trên phần mềm mà NVLV xây dựng. 2.6.1 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu RGB Việc tính biểu đồ màu với không gian màu RGB được thực hiện bằng cách tính thành 3 biểu đồ màu RGB độc lập (hình 2.11). Số bin màu cho mỗi biểu đồ là 256 (từ 0 đến 255). Hình 2.11 Biểu đồ màu Red, Green, Blue độc lập Hệ thống tìm kiếm ảnh theo nội dung phải thực hiện hai giai đoạn: giai đoạn thứ nhất là xây dựng cơ sở dữ liệu ảnh, giai đoạn thứ hai là tìm kiếm ảnh theo yêu cầu của người dùng. Quá trình này được thể hiện trên hình 2.12. Chương 2. Tìm kiếm ảnh theo nội dung 29 Xây dựng cơ sở dữ liệu ảnh được thực hiện bằng cách đọc lần lượt từng ảnh → tính biểu đồ màu R, G, B → lưu vào cơ sở dữ liệu ba biểu đồ màu ứng với mỗi ảnh, mỗi biểu đồ màu kích thước 256. Hình 2.12 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu RGB Sau khi xây dựng xong cơ sở dữ liệu ảnh, ta có thể thực hiện việc tìm kiếm ảnh bằng cách đưa vào chương trình một ảnh truy vấn, chương trình sẽ tính ba biểu đồ màu R, G, B của ảnh truy vấn và tính khoảng cách giữa ảnh truy vấn với các ảnh trong cơ sở dữ liệu dựa trên công thức ở mục 2.5.4 { }∑∑ = −= 255 0,, 1 )()(),( k ji BGR kHkHjiD (2.9) Việc tính khoảng cách dựa vào khoảng cách L1. Sau khi đã tính xong khoảng cách của ảnh truy vấn với tất cả các ảnh trong cơ sở dữ liệu kết quả sẽ là các ảnh được sắp xếp theo chiều tăng dần của khoảng cách với ảnh truy vấn. Hình 2.13 là kết quả tìm kiếm với 20 ảnh có khoảng cách gần nhất với ảnh truy vấn (giao diện “Kết quả tìm kiếm” trong phần mềm “Tìm kiếm ảnh theo nội dung” mà NVLV xây dựng). Các ảnh trong CSDL Tính biểu đồ màu R, G, B CSDL So sánh Ảnh truy vấn Tính biểu đồ màu R, G, B Các ảnh kết quả Chương 2. Tìm kiếm ảnh theo nội dung 30 Hình 2.13 Kết quả tìm kiếm ảnh dựa trên không gian màu RGB (ảnh truy vấn bên phải) 2.6.2 Tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu CIELAB Như trong phần 2.3.1 đã phân tích, không gian màu RGB là không đồng nhất với cảm nhận của mắt con người do đó uỷ ban CIE đã đưa ra không gian màu CIELAB có đặc tính đồng nhất với cảm nhận của mắt người. Công việc đầu tiên khi xây dựng biểu đồ màu là sử dụng không gian màu nào và lượng tử hoá không gian màu đó ra sao. Ở đây ta sử dụng không gian màu CIELAB, khi đọc ảnh từ file ta thu được dữ liệu ảnh dưới dạng RGB do vậy cần có sự chuyển đổi sang không gian màu CIELAB vấn đề này được đề cập trong phần phụ lục. Việc lượng tử hoá để phục vụ việc xây dựng biểu đồ màu NVLV lượng tử hoá như sau: • Lượng tử hoá L* thành 4 mức đều nhau • Lượng tử hoá a* thành 8 mức đều nhau • Lượng tử hoá b* thành 8 mức đều nhau Chương 2. Tìm kiếm ảnh theo nội dung 31 Kết quả có tổng cộng 4×8×8 màu tức biểu đồ màu có 256 bin màu. Hình 2.14 Biểu đồ màu trong không gian màu CIELAB Sơ đồ khối hệ thống được trình bày trong hình 2.15. Hình 2.15 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh biểu đồ màu trong không gian màu CIELAB Hình 2.16 là kết quả tìm kiếm ảnh với không gian màu CIELAB 256 mức Các ảnh trong CSDL Tính biểu đồ màu CIELAB CSDL So sánh Ảnh truy vấn Tính biểu đồ màu CIELAB Các ảnh kết quả Chương 2. Tìm kiếm ảnh theo nội dung 32 Hình 2.16 Kết quả tìm kiếm ảnh dựa trên không gian màu CIELAB (ảnh truy vấn bên phải) Nhận xét: Sau khi thử nghiệm với nhiều ảnh truy vấn khác nhau, NVLV nhận thấy so sánh với phương pháp sử dụng không gian màu RGB, thì trong hầu hết trường hợp phương pháp sử dụng không gian màu CIELAB cho kết quả chính xác hơn. Tuy nhiên việc xây dựng cơ sở dữ liệu khi sử dụng không gian màu CIELAB mất nhiều thời gian hơn RGB do quá trình chuyển đổi từ RGB sang CIELAB khá phức tạp và phải thực hiện với từng điểm ảnh. 2.6.3 Tìm kiếm ảnh sử dụng phương pháp Entropy Như đã phân tích Entropy là một đặc trưng của ảnh có số chiều bằng 1. Do vậy sử dụng Entropy sẽ cho kết quả tìm kiếm rất nhanh. Tuy nhiên đôi khi nó cũng đem lại những kết quả không chính xác. Để tăng độ chính xác NVLV sử dụng ba giá trị Entropy ứng với ba biểu đồ màu R, G, B để đặc trưng cho mỗi ảnh. Chương 2. Tìm kiếm ảnh theo nội dung 33 Hình 2.17 Giá trị Entropy ứng với các biểu đồ màu R, G, B Sơ đồ khối của hệ thống tìm kiếm ảnh dựa vào đặc trưng Entropy được thể hiện trên hình 2.18. Hình 2.18 Sơ đồ khối hệ thống tìm kiếm ảnh sử dụng phương pháp so sánh Entropy Việc tính khoảng cách giữa hai ảnh i và j dựa trên đặc trưng Entropy được tính theo công thức sau: )()()()()()(),( BBGGRR jEiEjEiEjEiEjiD −+−+−= (2.10) Tính Entropy ER,EG,EB Các ảnh trong CSDL Tính biểu đồ màu R, G, B CSDL So sánh Ảnh truy vấn Tính biểu đồ màu R, G, B Các ảnh kết quả Tính Entropy ER,EG,EB Chương 2. Tìm kiếm ảnh theo nội dung 34 Trong đó ER, EG, EB là Entropy ứng với biểu đồ màu R, G, B của ảnh. Hình 2.19 Kết quả tìm kiếm ảnh dựa trên phương pháp Entropy (ảnh truy vấn bên phải) Sau khi thử nghiệm với một số ảnh truy vấn có thể thấy rằng có nhiều trường hợp có kết quả tìm kiếm không chính xác. Ví dụ trên hình 2.19 ảnh truy vấn là “con ngựa trên cánh đồng” tuy nhiên trong 20 kết quả đầu tiên trả về có khá nhiều ảnh hoàn toàn khác với nội dung ở trên như ảnh về bãi biển, món ăn,... Điều đó chứng tỏ một điều rằng có những ảnh có Entropy giống nhau nhưng lại có nội dung hoàn toàn khác nhau. Ví dụ hai ảnh có biểu đồ màu như hình 2.20 sẽ có Entropy giống nhau: Hình 2.20 Hai ảnh có biểu đồ màu khác nhau nhưng lại có Entropy giống nhau Bin H Bin H Chương 2. Tìm kiếm ảnh theo nội dung 35 Để nâng cao hiệu qu._.h chọn khung hình chính Khi xem xét đường sai khác tích luỹ ta có thể biết được sự thay đổi về nội dung qua các khung hình trong toàn bộ đoạn video. Các chỗ có độ dốc lớn chỉ ra rằng có những sự thay đổi đáng kể trong video có thể do: một vật chuyển động, sự di chuyển của camera. Việc xác định các điểm có độ cong lớn trên đường sai khác tích luỹ có thể được sử dụng trong việc xác định khung hình nào là khung hình chính trong đoạn video. Khung hình chính được chọn là khung hình nằm chính giữa hai điểm có độ cong lớn liên tiếp [14]. Để tìm các điểm có độ cong lớn ta sử dụng thuật toán được đưa ra bởi Chetverikov và các cộng sự [30]. Thuật toán được phát triển để phân tích các điểm nhô lên trong đường cong trong mặt phẳng hai chiều. Các điểm có độ cong lớn được xác định bởi hai quá trình: Quá trình thứ nhất: thuật toán sẽ xác định các điểm có thể là (ứng cử viên) các “điểm có độ cong lớn”. Với mỗi điểm P trên đường cong thuật toán sẽ cố gắng nội tiếp một tam giác vào đường cong và nhận P làm đỉnh. Với Chương 4. Trích chọn khung hình chính trong video 73 mỗi một tam giác ta sẽ xác định được một góc mở α(P) tương ứng với điểm P. Các tam giác khác có đỉnh là P và các đỉnh khác là các điểm trong cửa sổ kích thước w mà P làm điểm giữa sẽ xem xét; tam giác có góc nhọn nhất sẽ được giữ lại có thể là điểm có độ cong lớn. Quá trình này được miêu tả trong hình 4.2. Hình 4.2 Thuật toán dò tìm các điểm có độ cong lớn Giả sử khoảng cách giữa P và O là dPO, khoảng cách giữa P và R là dPR và giữa O và R là dOR, góc mở α ứng với tam giác OPR là: PROP ORPROP dd ddd ..2 arccos 222 −+=α (4.2) Một tam giác thoả mãn ràng buộc về khoảng cách giữa các điểm (chỉ quan tâm theo phương trục hoành) maxmin dOPd xx ≤−≤ (4.3) maxmin dRPd xx ≤−≤ Chương 4. Trích chọn khung hình chính trong video 74 và thoả mãn về góc maxαα ≤ (4.4) được gọi là một tam giác có thể được chấp nhận. Ràng buộc (4.3) nói về độ mở của cửa sổ; ràng buộc (4.4) được sử dụng để loại bỏ các góc quá tù (độ cong nhỏ). Góc mở nhọn nhất của các tam giác có thể được chấp nhận ứng với điểm P ⎭⎬ ⎫ ⎩⎨ ⎧ == ^OPRmin)( αα αP (4.5) Nếu một điểm mà không có tam giác có thể được chấp nhận, điểm đó sẽ bị loại bỏ và gán cho nó một góc mặc định là π . Quá trình thứ hai: các điểm có thể là (ứng cử viên) các “điểm có độ cong lớn” mà có góc nhọn hơn các điểm lân cận nó (trong một khoảng cách xác định) sẽ được phân loại là các điểm có độ cong lớn thực sự. Một điểm P là điểm ứng cử cho điểm có độ cong lớn sẽ bị loại bỏ nếu nó có một điểm lân cận N mà N có góc nhọn hơn P tức: )()( NP αα > (4.6) Một điểm N được gọi là lân cận P nếu thoả mãn: maxdNP xx ≤− (4.7) Trong thử nghiệm khoảng cách nhỏ nhất giữa các điểm dmin được lấy luôn luôn bằng 1, do đó chỉ còn hai tham số ảnh hưởng đến kết quả của thuật toán đó là dmax và αmax. Trong đó tham số quan trọng nhất là αmax nó quyết định đến tập các góc có thể được chấp nhận nhiều hay ít. Nếu αmax lớn sẽ nhiều điểm hơn trở thành điểm ứng cử có độ cong lớn, và ngược lại αmax nhỏ hơn thì chỉ những góc rất nhọn mới được chọn. Khi các điểm có độ cong lớn được xác định, khung hình chính có thể được lấy ra bằng cách lấy khung hình ở điểm chính giữa hai điểm có độ cong Chương 4. Trích chọn khung hình chính trong video 75 lớn liền nhau [14]. Hình 4.3 miêu tả quá trình làm việc của thuật toán. Hình phía trên miêu tả một đoạn video dưới dạng các khung hình. Hình 4.3 Ví dụ về việc trích chọn khung hình chính dựa vào giải thuật tìm các điểm có độ cong lớn trên trong sai khác tích luỹ Chú ý rằng khung hình đầu tiên và cuối cùng của đoạn video luôn được gán là điểm có độ cong lớn. Các khung hình là điểm giữa của của hai điểm có độ cong lớn liền nhau được lựa chọn là khung hình chính (ở trong hình giữa của hình 4.3 các điểm hình tam giác là các điểm có độ cong lớn, các điểm hình tròn là các điểm tại đó khung hình được chọn làm khung hình chính). ∇ - điểm có độ cong lớn Ο - điểm lấy khung hình chính Chương 4. Trích chọn khung hình chính trong video 76 Nếu đoạn video không có nhiều nội dung biến đổi thì các khung hình sẽ có độ tương quan cao với nhau do vậy đường sai khác tích luỹ giữa các khung hình sẽ không có các điểm có độ cong lớn, và khung hình có thể được tóm tắt chỉ bằng một khung hình chính (đó là khung hình nằm chính giữa đoạn). Một ưu điểm của thuật toán này là việc trích chọn khung hình chính được thực hiện mà chưa cần xử lý toàn bộ đoạn video. Để dò tìm các điểm có độ cong lớn ta có thể giới hạn việc xử lý tính toán khoảng cách giữa các khung hình trong một cửa sổ định trước. Do đó điểm có độ cong lớn có thể được xác định trong khi tính toán khoảng cách giữa các khung hình và khung hình chính được lấy ra ngay khi điểm có độ cong lớn thứ hai được phát hiện ra. 4.4 Xây dựng phần mềm trích chọn khung hình chính Thuật toán trích chọn khung hình chính được sử dụng để xây dựng hệ thống là thuật toán tìm các điểm cong lớn trên đường sai khác tích luỹ đã đề cập chi tiết trong phần 4.3.3. Để xây dựng đường sai khác tích luỹ giữa các khung hình trước hết ta tính khoảng cách giữa các khung hình liền nhau dựa vào công thức (4.1). Ở đây ta sử dụng phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB do tính đồng nhất, tính đầy đủ và tính duy nhất được đáp ứng [17]. Như đã nói phần 4.3.3, thuật toán trích chọn khung hình chính dựa vào phương pháp tìm các điểm có độ cong lớn trên đường sai khác tích luỹ ảnh hưởng bởi hai tham số: kích thước của của cửa sổ (dmax) và giá trị lớn nhất của góc (αmax). Việc thử nghiệm được thực hiện với kích thước cửa sổ là 3 và góc αmax=176o đó là sự cân bằng giữa độ phức tạp tính toán và số lượng các khung hình chính được lấy ra trong mỗi đoạn video. Chương 4. Trích chọn khung hình chính trong video 77 Hình 4.4 Giao diện chương trình trích chọn khung hình chính Thuật toán được chạy thử nghiệm với một số loại video khác nhau, kết quả được trình bày trong bảng 4.1 Chương 4. Trích chọn khung hình chính trong video 78 Bảng 4.1 Kết quả thử nghiệm trích chọn khung hình chính với một số video STT Loại video Số khung hình Số đoạn Số khung hình chính Số khung hình chính/đoạn Số khung hình/Số khung hình chính Tỷ lệ nén 1 Động vật 1301 4 5 1.25 260.2 99.62% 2 Cánh đồng 750 3 3 1.00 250.0 99.60% 3 Trong nhà 2300 6 6 1.00 383.3 99.74% 4 Đồi núi 1050 3 3 1.00 350.0 99.71% 5 Quay từ máy bay 199 2 2 1.00 99.5 98.99% 6 Nấu ăn 1250 3 23 7.67 54.3 98.16% 7 Dưới đáy biển 300 2 2 1.00 150.0 99.33% 8 Phong cảnh 1750 9 11 1.22 159.1 99.37% Chương 4. Trích chọn khung hình chính trong video 79 Kết luận chương Trong chương này chúng ta đã tìm hiểu một số phương pháp trích chọn khung hình chính ứng dụng vào việc tóm tắt và đánh chỉ mục video. Đây là một phần hết sức quan trọng trọng trong việc xây dựng hệ thống tìm kiếm video. Việc trích chọn khung hình chính tập trung vào giải thuật tìm các điểm có độ cong lớn trên đường sai khác tích luỹ. Tại những điểm có độ cong lớn có những sự thay đổi đáng kể trong video. Khung hình chính được chọn là khung hình nằm chính giữa hai điểm có độ cong lớn liên tiếp. Từ những cơ sở lý thuyết đó đã xây dựng được chương trình trích trọn khung hình chính thử nghiệm, đánh giá trên một số loại video khác nhau. Chương sau sẽ trình bày cách thức tổng hợp các nghiên cứu trong các chương trước để xây dựng nên hệ thống tìm kiếm video hoàn chỉnh. Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 80 CHƯƠNG 5. XÂY DỰNG HỆ THỐNG TÌM KIẾM VIDEO THEO NỘI DUNG DỰA TRÊN PHƯƠNG PHÁP TÌM KIẾM ẢNH TRONG CÁC KHUNG HÌNH CHÍNH 5.1 Lựa chọn phương pháp xây dựng Như đã đề cập trong chương 1, trên thế giới hiện nay có rất nhiều phương pháp tiếp cận trong việc tìm kiếm video theo nội dung. Trong luận văn này người viết đưa ra một phương pháp tìm kiếm video dựa trên việc tìm kiếm ảnh, tuy nhiên không phải tìm kiếm trên mọi khung hình mà chỉ tìm trong các khung hình chính. Điều này làm giảm thời gian tìm kiếm đi rất nhiều lần. Do vậy hệ thống là sự kết hợp của các lĩnh vực: • Tìm kiếm ảnh theo nội dung: đề cập trong chương 2 • Phân đoạn video: đề cập trong chương 3 • Trích chọn khung hình chính: đề cập trong chương 4 5.2 Các mô-đun của hệ thống Sơ đồ khối của hệ thống được trình bày trong hình 5.1. Đầu vào của hệ thống là các file video từ nhiều nguồn khác nhau. Các video này được phân đoạn thành các đoạn cơ sở, sau đó trong mỗi đoạn sẽ trích chọn ra một số các khung hình đại diện (key-frame). Các khung hình đại diện này được trích chọn đặc trưng và lưu vào trong cơ sở dữ liệu. Việc tìm kiếm được thực hiện theo hai cách: • Cách thứ nhất: người sử dụng có thể liệt kê (browsing) các khung hình chính của các đoạn video. Khi quan sát các khung hình chính Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 81 người sử dụng có thể hình dung được nội dung của đoạn video chứa khung hình đó là gì và có thể lựa chọn một đoạn video nào đó. • Cách thứ hai: người sử dụng đưa vào một ảnh và mong muốn tìm các đoạn video có chứa các khung hình có nội dung gần giống với ảnh đưa vào truy vấn. Hệ thống sẽ trích chọn đặc trưng của ảnh truy vấn đó so sánh với các khung hình chính trong cơ sở dữ liệu và trả lại các đoạn video có chứa các khung hình chính gần giống với ảnh truy vấn nhất. Hình 5.1 Sơ đồ hệ thống tìm kiếm video theo nội dung trong luận văn 5.2.1 Mô-đun phân đoạn video Việc phân đoạn video đã được để cập chi tiết trong chương 3. Để xây dựng hệ thống này, mô-đun phân đoạn video sử dụng giải thuật “cửa sổ trượt Video Files Phân đoạn Video Trích chọn keyframe Keyframes Browser Đánh chỉ mục Tìm kiếm bằng ảnh Trích chọn đặc trưng CSDL Keyframe và đoạn So sánh Trích chọn đặc trưng Kết quả: Các đoạn Video Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 82 kết hợp với ngưỡng” nhằm tăng độ chính xác trong phân đoạn. Giải thuật không chỉ quan tâm đến sự khác nhau tương đối giữa các khung hình mà còn xét đến sự khác nhau tuyệt đối giữa chúng. Trong đó sử dụng tính khoảng cách giữa các khung hình dựa vào phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB với số màu lượng tử hoá là 256 mức. Các tham số để xây dựng mô-đun này được lựa chọn theo mục 3.4.3 trong chương 3. 5.2.2 Mô-đun trích chọn khung hình chính Trong chương 4 đã đề cập chi tiết về việc trích chọn khung hình chính trong video. Để xây dựng hệ thống tìm kiếm video theo nội dung ở đây sử dụng giải thuật tìm các điểm có độ cong lớn trên đường sai khác tích luỹ để trích chọn khung hình chính. Khi xem xét đường sai khác tích luỹ ta có thể biết được sự thay đổi về nội dung qua các khung hình trong toàn bộ đoạn video. Các chỗ dốc lớn chỉ ra rằng có những sự thay đổi đáng kể trong video có thể do: một vật chuyển động, sự di chuyển của camera. Khung hình chính được chọn là khung hình nằm chính giữa hai điểm có độ cong lớn liên tiếp Việc xây dựng đường sai khác tích luỹ giữa các khung hình đòi hỏi phải tính toán được sự khác nhau giữa các khung hình liên tiếp. Trong thử nghiệm này việc tính khoảng cách giữa các khung hình sử dụng phương pháp so sánh biểu đồ màu trong không gian màu đồng nhất CIELAB với số màu lượng tử hoá là 256 mức. Do việc tính sự sai khác giữa các khung hình có phương pháp giống nhau nên có thể sử dụng trực tiếp kết quả tính sự sai khác giữa các khung hình trong phần phân đoạn video mà không cần phải tính lại. Các tham số để xây dựng mô-đun này được lựa chọn theo mục 4.4 trong chương 4. Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 83 5.2.3 Mô-đun tìm kiếm ảnh theo nội dung Mô-đun tìm kiếm ảnh theo nội dung được sử dụng để tìm kiếm trong các khung hình chính xem có khung hình nào gần giống với ảnh truy vấn nhất. Cơ sở lý thuyết xây dựng mô-đun này đã được đề cập chi tiết trong chương 2. Ở đây, việc tìm kiếm dựa vào phương pháp cải tiến là sự kết hợp của hai thuật toán “Entropy-giá trị trung bình” và “So sánh biểu đồ màu” được đề cập chi tiết trong chương 2 phần 2.6.4. 5.2.4 Mô-đun cơ sở dữ liệu Việc thiết kế cơ sở dữ liệu nhằm lưu trữ, đánh chỉ mục video, thuận lợi cho việc tìm kiếm video. Trong cơ sở dữ liệu phải lưu được các đối tượng: • Các file video • Các đoạn cơ sở • Các khung hình chính • Các đặc trưng của các khung hình chính Do đó cơ sở dữ liệu được thiết kế thành bốn bảng như sau: Bảng VIDEO chứa các thông tin về các file video Tên trường Kiểu Ý nghĩa ID Số nguyên Khoá chính Video_Name Chuỗi Tên của video Filename Chuỗi Đường dẫn của file video Length Số thực Chiều dài đoạn video Frames_Per_Sec Số thực Số khung hình / giây Description Memo Thông tin thêm Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 84 Bảng SHOT chứa các thông tin về các đoạn cơ sở Tên trường Kiểu Ý nghĩa ID Số nguyên Khoá chính VideoID Số nguyên ID của video chứa đoạn (khoá ngoại) Begin_Frame Số nguyên Khung hình bắt đầu của đoạn End_Frame Số nguyên Khung hình kết thúc của đoạn Bảng KEYFRAME chứa các thông tin về các khung hình chính Tên trường Kiểu Ý nghĩa ID Số nguyên Khoá chính ShotID Số nguyên ID của đoạn cơ sở chứa khung hình chính (khoá ngoại) Frame_Position Số nguyên Vị trí của khung hình trong video Filename Chuỗi Để thuận tiện hơn cho việc truy xuất khung hình chính, các khung hình chính sau khi được chọn sẽ được lưu vào máy dưới dạng ảnh. Entropy_Value Số thực Giá trị Entropy của ảnh Mean_Value Số thực Giá trị trung bình của biểu đồ màu Bảng HISTOGRAM chứa các thông tin về các đặc trưng của khung hình chính (Ở đây sử dụng đặc trưng biểu đồ màu trong không gian màu CIELAB) Tên trường Kiểu Ý nghĩa ID Số nguyên Khoá chính KeyframeID Số nguyên ID của khung hình chính (khoá ngoại) Bin Số nguyên Bin màu (chỉ số màu) LAB_Value Số thực Giá trị của biểu đồ ứng với bin màu trên Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 85 Về mối quan hệ giữa các bảng trong ảnh, từ nhận xét: Có nhiều file video, mỗi video có nhiều đoạn cơ sở (shot), mỗi đoạn cở sở có nhiều khung hình chính (keyframe), mỗi khung hình chính có nhiều đặc trưng. Do đó ta có mối quan hệ giữa các bảng như sau: Hình 5.2 Mối quan hệ giữa các bảng trong cơ sở dữ liệu 5.3 Giao diện hệ thống Các giao diện để phục vụ cho việc xây dựng cơ sở dữ liệu như giao diện phân đoạn video, giao diện trích chọn khung hình chính đã được trình bày trong chương 3 và chương 4. Phần này chỉ giới thiệu giao diện dành cho người sử dụng truy vấn, tìm kiếm video mà NVLV xây dựng. Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 86 Hình 5.3 Giao diện cửa sổ tìm kiếm video Kết luận chương Từ các lý thuyết và thử nghiệm ở các chương trước, chương này NVLV đã lựa chọn và tổng hợp thành một hệ thống tìm kiếm video khá hoàn chỉnh. Việc xây dựng hệ thống dựa vào ý tưởng sử dụng phương pháp tìm kiếm ảnh theo nội dung để tìm kiếm video. Tuy nhiên, không phải tìm kiếm trên toàn bộ các khung hình mà chỉ tìm kiếm trong phạm vi các khung hình chính (do các khung hình gần nhau thường có độ tương quan rất cao với nhau). Do đó, hệ thống là sự kết hợp của các thành phần: tìm kiếm ảnh theo nội dung, phân đoạn video, trích chọn khung hình chính. Danh sách các video và các đoạn trong CSDL Liệt kê các khung hình chính Chi tiết về các đoạn (shot) video Cửa sổ kết quả phóng to Lựa chọn ảnh truy vấn Mở đoạn video tìm được Chương 5. Xây dựng hệ thống tìm kiếm video theo nội dung 87 Việc xây dựng phần mềm khá hoàn chỉnh đã cho phép người sử dụng có thể xem nhanh (browsing) các khung hình chính trong video do đó hiểu nhanh được nội dung của video. Hoặc người sử dụng có thể dùng ảnh để tìm kiếm (searching) trong cơ sở dữ liệu lớn. Kết luận 88 KẾT LUẬN Kết luận Việc tự động hoá trong đánh chỉ mục và tìm kiếm video theo nội dung là một lĩnh vực rất khó và đồ sộ. Đến thời điểm này trên thế giới vẫn chưa có một hệ thống nào có thể coi là công cụ vạn năng để đánh chỉ mục và tìm kiếm video tự động ở mức cao (ngữ nghĩa), các hướng tiếp cận hiện nay chỉ dừng lại trong một lĩnh vực hẹp hoặc là tìm kiếm mức thấp. Trong luận văn này người viết đã phân tích và đánh giá một số phương pháp hiện nay trên thế giới và đã đưa một hướng tiếp cận phù hợp. Đó là sử phương pháp tìm kiếm ảnh theo nội dung để tìm kiếm các khung hình chính và đạt được những kết quả nhất định. Các vấn đề mà luận văn đã làm được: 1. Nghiên cứu các hệ thống tìm kiếm video theo nội dung trên thế giới. 2. Đưa ra mô hình tìm kiếm video dựa trên cơ chế tìm kiếm ảnh. 3. Nghiên cứu, phát triển một số phương pháp tìm kiếm ảnh theo nội dung ứng dụng trong tìm kiếm video. 4. Nghiên cứu và đưa ra giải thuật cải tiến trong phân đoạn video với độ chính xác cao. 5. Nghiên cứu kỹ thuật trích chọn khung hình chính trong video. 6. Cài đặt hệ thống và chứng minh tính đúng đắn của các giải thuật. Đóng góp khoa học của luận văn 1. Đưa ra được một mô hình tìm kiếm video dựa trên cơ chế tìm kiếm ảnh. Video được phân đoạn thành các đoạn cơ sở, mỗi đoạn cơ sở được đại diện bằng một số khung hình chính. Người sử dụng có thể tìm kiếm video thông qua việc tìm kiếm trên các khung hình chính dựa vào cơ chế tìm kiếm ảnh. Kết luận 89 2. Đưa ra giải thuật tìm kiếm ảnh kết hợp tìm kiếm ảnh sử dụng đặc trưng Entropy-giá trị trung bình và giải thuật so sánh biểu đồ màu tăng nhanh tốc độ tìm kiếm. Entropy là một đặc trưng của ảnh có số chiều bằng 1, do đó tìm kiếm ảnh dựa trên Entropy có tốc độ tìm kiếm rất cao. Tuy nhiên, đôi khi phương pháp này lại không chính xác. NVLV đưa ra giải pháp kết hợp đặc trưng Entropy và giá trị trung bình nhằm tăng độ chính xác mà vẫn không giảm tốc độ tìm kiếm. Phương pháp Entropy-giá trị trung bình được thực hiện trước để thu hẹp không gian tìm kiếm sau đó sẽ dùng phương pháp so sánh biểu đồ màu để đưa ra kết quả tìm kiếm cuối cùng đến người sử dụng. 3. Đưa ra giải thuật phân đoạn video kết hợp giữa phương pháp cửa sổ trượt và ngưỡng so sánh để tăng độ chính xác của phân đoạn. Phương pháp cửa sổ trượt xác định chuyển cảnh đột ngột dựa trên sự khác nhau tương đối giữa các khung hình trong cửa sổ truy vấn. Tuy nhiên, có những trường hợp phương pháp này đưa ra kết quả sai ví dụ trong các trường hợp video có đối tượng nhỏ chuyển động nhanh. NVLV đề xuất thuật toán cải tiến: ngoài việc so sánh tương đối giữa các khung hình còn cần xét đến sự sai khác tuyệt đối giữa nhằm tăng độ chính xác trong phân đoạn. Hướng phát triển của đề tài Như đã trình bày, hệ thống tìm kiếm video được xây dựng trong Luận văn là sự kết hợp của các thành phần: tìm kiếm ảnh, phân đoạn video, trích chọn khung hình chính. Do đó để nâng cao chất lượng của hệ thống cần cải thiện từng thành phần: 1. Tìm kiếm ảnh: Nghiên cứu sử dụng các đặc trưng khác của ảnh như: kết cấu, hình dạng,... Tiếp cận theo hướng tìm kiếm theo các thông tin ngữ nghĩa có trong ảnh. Kết luận 90 2. Phân đoạn video: • Tăng cường độ chính xác trong phân đoạn. • Phân đoạn được nhiều loại chuyển cảnh khác nhau. • Tăng cường tốc độ phân đoạn: cải tiến giải thuật, sử dụng trực tiếp video nén. 3. Trích chọn khung hình chính: Cải tiến giải thuật theo hướng trích chọn những khung hình tiêu biểu nhất, đặc biệt tiêu biểu về mặt ngữ nghĩa. Tóm lại hướng nghiên cứu tương lai là tập trung vào hướng đưa các thông tin về mặt ngữ nghĩa (đối tượng, sự kiện) vào trong việc đánh chỉ mục và tìm kiếm video. Tài liệu tham khảo 91 TÀI LIỆU THAM KHẢO [1] Milan Petkovic. (2000), Content-based Video Retrieval, (EDBT) PhD Workshop [2] Hauptmann, A., Jin, R., N. Papernick, D. Ng, Y. Qi, Houghton, RThornton, S. (2001), Video Retrieval with the Informedia Digital Video Library System, Proceedings of the Tenth Text Retrieval Conference (TREC-2001). [3] Abraham Ittycheriah, Martin Franz, Wei-Jing Zhu, and Adwait Ratnaparkhi. (2000), IBM's statistical question answering system. In 9th Text REtrieval Conference, Gaithersburg. [4] Mayfield, J., McNamee, P., Costello, C., Piatko, C., and Banerjee. A. (2001), JHU/APL at TREC 2001: Experiments in Filtering and in Arabic, Video and Web retrieval. In TREC 2001 Proceedings. [5] Kareem Darwish and David S. Doermann and Ryan C. Jones and Douglas W. Oard and Mika Rautiainen. (2001), {TREC}-10 Experiments at University of Maryland {CLIR} and Video. [6] Mark E. Rorvig, Ki-Tau Jeong, Anup Pachlag, Ramprasad Anusuri, Diane Jenkins, Sara Oyarce. (2001), UNT TRECvid: A Brighton Image Searcher Application. [7] D. Tegolo. (1994), Shape analysis for image retrieval, Proc. of SPIE, Storage and Retrieval for Image and Video Databases -II, no. 2185, San Jose, CA, pp. 59-69. [8] T. Chang, and C.C.J. Kuo. (1993), Texture analysis and classification with tree-structured wavelet transform, IEEE Trans. on Image Processing, vol. 2, no. 4, pp. 429-441. Tài liệu tham khảo 92 [9] I.Koprinska and S.Carrato. (2001), Temporal Video Segmentation: A Survey, Signal Processing Image Communication, Elsevier Science [10] T. Kikukawa, S. Kawafuchi. (1992), Development of an automatic summary editing system for the audio-visual resources, Transactions on Electronics and Information J75-A, 204-212, 1992. [11] A. Nagasaka, Y. Tanaka. (1995), Automatic video indexing and full-video search for object appearances, in Visual Database Systems II (E. Knuth and L.M. Wegner, eds.), pp. 113-127, Elsevier. [12] R. Kasturi, R. Jain. (1991), Dynamic vision, in Computer Vision: Principles, R. Kasturi and R. Jain, eds.), pp. 469-480, IEEE Computer Society Press, Washington DC. [13] M. J. Swain. (1993), Interactive indexing into image databases, in: Proc. SPIE Conf. Storage and Retrieval in Image and Video Databases, pp.173-187. [14] Gianluigi Ciocca, Raimondo Schettini. (2004), Dynamic Key-frame Extraction for Video Summarization, Proceedings of the SPIE, Volume 5670, pp. 137-142 [15] S.M.M Tahaghoghi et al. (2005), Video Cut Detection using Frame Windows, Proceedings of the Twenty-eighth Australasian conference on Computer Science, pp. 193 – 199. [16] Janko Calic. (2004), Highly Efficient Low-level Feature Extraction for Video Representation And Retrieval, PhD thesis, University of London [17] John M. Zachary. (2000), An Information Theoretic Approach to Content Based Image Retrieval, PhD thesis, Louisiana State University Tài liệu tham khảo 93 [18] Shengjiu Wang. (2001), A Robust CBIR Approach Using Local Color Histograms, Technical Report TR 01-13, Department Of Computing Science, University of Alberta, Edmonton, Alberta, Canada [19] Edgar Chávez, Gonzalo Navarro, Ricardo Baeza-Yates, José Luis Marroquín. (2001), Searching in Metric Spaces, ACM Computing Surveys, Vol. 33, No. 3, pp. 273–321. [20] F. Long, H. Zhang & D. Feng (2003), Chapter 1 - Fundamental of Content-Based Image Retrieval, pp.1-26, in “Multimedia Information Retrieval and Management – Technological Fundamentals and Applications”, Edited by David Dagan Feng, W. C. Siu & Hongjing Zhang, Springer-Verlag, Germany. [21] T. Deselaers, D. Keysers, and H. Ney. (2004), Classification error rate for quantitative evaluation of content-based image retrieval systems. In Int. Conf. on Pattern Recognition, Cambridge, UK. [22] Tonomura Y., Akutsu A., Otsugi K., and Sadakata T. (1993), VideoMAP and VideoSpaceIcon: Tools for automatizing video content. Proc. ACM INTERCHI ’93 Conference, 131-141. [23] Rui Y., Huang T. S. and Mehrotra S. (1998), Exploring Video Structure Beyond the Shots. Proc. IEEE Int. Conf. on Multimedia Computing and Systems (ICMCS), Texas USA, 237-240 [24] Pentland A., Picard R., Davenport G. and Haase K. (1994), Video and Image Semantics: Advanced Tools for Telecommunications. IEEE MultiMedia; 1(2):73-75 [25] Zhonghua Sun, Fu Ping. (2004), Combination of Color and Object Outline Based Method in Video Segmentation. Proc. SPIE Storage and Retrieval Methods and Applications for Multimedia; 5307:61-69. Tài liệu tham khảo 94 [26] Li Zhao, Wei Qi, Stan Z. Li, S.Q.Yang, H.J. Zhang. (2000), Key- frame Extraction and Shot Retrieval Using Nearest Feature Line (NFL). Proc. ACM Int. Workshops on Multimedia Information Retrieval; 217-220. [27] Hanjalic A., Lagendijk R. L., Biemond J. (1998), A new Method for Key Frame Based Video Content Representation. In: Image Databases and Multimedia Search, World Scientific Singapore. [28] Hoon S. H., Yoon K., and Kweon I. (2000), A new Technique for Shot Detection and Key Frames Selection in Histogram Space. Proc. 12th Workshop on Image Processing and Image Understanding; 475- 479. [29] Narasimha R., Savakis A., Rao R. M. and De Queiroz R. (2004), A Neural Network Approach to Key Frame extraction. Proc. of SPIE- IS&T Electronic Imaging Storage and Retrieval Methods and Applications for Multimedia; 5307:439-447. [30] Chetverikov D. and Szabo Zs. (1999), A Simple and Efficient Algorithm for Detection of High Curvature Points in Planar Curves, Proc. 23rd Workshop of the Austrian Pattern Recognition Group, ;175-184. [31] A. Nagasaka, Y. Tanaka. (1992), Automatic Video Indexing and Full- Video Search for Object Appearances, Visual Database Systems, vol. II, pp. 113-127 [32] K. Otsuji, Y. Tonomura, and Y. Ohba. (1991), Video browsing using brightness data, in Proc. SPIE-IST VCIP91, vol. 1606, pp. 980-989 [33] A.Akutsu, Y.Tonomura, H.Hashimoto and Y.Ohba. (1992), Video indexing using motion vectors, Proc. SPIE: Visual Communication and Image Processing '92 1818, pp1522-1530 Tài liệu tham khảo 95 [34] không gian màu CIELAB [35] , cơ sở dữ liệu hình ảnh [36] TREC Video Retrieval Evaluation, website: nlpir.nist.gov/projects/trecvid/ Phụ lục 96 PHỤ LỤC Chuyển đổi từ không gian màu RGB sang CIELAB Việc chuyển đổi từ RGB sang CIELAB phải qua không gian màu trung gian XYZ. Sự chuyển đổi từ RGB sang XYZ được thực hiện bằng một ánh xạ tuyến tính như sau: ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ = ⎥⎥ ⎥ ⎦ ⎤ ⎢⎢ ⎢ ⎣ ⎡ B G R Z Y X 0.950227 0.11919 0.019334 0.072169 0.71516 0.212671 0.180423 0.35758 0.412453 Từ XYZ chuyển đổi sang CIELAB 16116* 3 1 −⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= nY YL với 0.008856> nY Y ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= nY YL 3.903* với nY Y còn lại ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛−⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= nn Y Yf X Xfa 500* ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛ ⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛−⎟⎟⎠ ⎞ ⎜⎜⎝ ⎛= nn Z Zf Y Yfb 200* Trong đó 3 1 )( ttf = với 008856.0>t 116 16787.7)( += ttf với t còn lại (Xn, Yn, Zn) là giá trị của (X, Y, Z) tại điểm trắng tham chiếu (reference white point). Trong luận văn sử dụng điểm trắng tham chiếu tại (R, G, B) = (255, 255, 255). Tính được (Xn, Yn, Zn) = (242.366, 255.000, 277.632) Tóm tắt luận văn 97 TÓM TẮT LUẬN VĂN Tiếng Việt: Sự phát triển của Công nghệ thông tin và Truyền thông đã làm gia tăng nhanh chóng việc lưu trữ, sử dụng, truyền tải một lượng lớn video số. Do đó việc sắp xếp, quản lý, tìm kiếm video càng ngày càng trở nên phức tạp và nặng nhọc. Luận văn này với tên gọi “Nghiên cứu, xây dựng hệ thống tìm kiếm video theo nội dung” (Content-Based Video Retrieval) sẽ tập trung vào việc tự động hoá đánh chỉ mục và tìm kiếm video. Luận văn gồm ba phần chính. Phần một: Tìm kiếm ảnh theo nội dung. Phần này nghiên cứu các vấn đề đánh chỉ mục và tìm kiếm ảnh, đây là một phần quan trọng của hệ thống tìm kiếm video mà NVLV xây dựng. Phần hai: Phân đoạn video. Phần này tập trung vào việc phân đoạn video theo thời gian thành các đoạn cơ sở, tập trung vào nghiên cứu các giải thuật nhằm tăng cường độ chính xác trong phân đoạn. Phần ba: Trích chọn khung hình chính. Nghiên cứu các giải thuật trích chọn các khung hình đại diện cho đoạn video với mục đích làm giảm khối lượng lưu trữ. Hệ thống tìm kiếm video mà NVLV xây dựng là sự kết hợp của ba thành phần trên, video sau khi được phân đoạn thành các đoạn cơ sở sẽ được trích chọn ra các khung hình đại diện cho các đoạn cơ sở. Người sử dụng có thể xem được tóm tắt đoạn video qua các khung hình đại diện hoặc có thể tìm kiếm đoạn video thông qua phương pháp tìm kiếm ảnh trên các khung hình đại diện đó. Từ khoá: Tìm kiếm video theo nội dung, tóm tắt video, phân đoạn video, trích chọn khung hình chính, tìm kiếm ảnh theo nội dung. Tóm tắt luận văn 98 English: Information and communication technology are developing very quickly hence storing, using and transfering digital video are increasing quickly too. Therefore video arrangement, management, search become complicated and exhausting. This thesis with name “Content-Based Video Retrieval” will concentrate to automate video indexing and searching. The thesis contains three main parts. Part one: “Content-base image retrieval”. This part research problems in indexing and searching images, it is a important part in thesis writer’s video retrieval system. Part two: “Video segmentation”. This part researchs how to segment video into shots. Proposes some algorithms with high accurate. Part three: “Key-frame extraction”. This part researchs key- frame extraction algorithms in the world and proposes appropriate approachs. Thesis writer’s video retrieval system is combined from these three parts. Video is segmented in to shots, and each shot is presented by some key- frames. Users can browse video by using key-frames or using image retrieval mechanism to search video. Keywords: Content-Based Video Retrieval, video summarization, shot segmentation, key frames extraction, Content-Based Image Retrieval ._.

Các file đính kèm theo tài liệu này:

  • pdfLA3256.pdf