Luận án Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH THÁI NGUYÊN - 2020 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC THÁI NGUYÊN TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG LÊ ĐÌNH NGHIỆP NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Chuyên ngành: Khoa học máy tính Mã số: 9

pdf138 trang | Chia sẻ: huong20 | Ngày: 13/01/2022 | Lượt xem: 440 | Lượt tải: 1download
Tóm tắt tài liệu Luận án Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9 48 01 01 LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. PGS.TS. Phạm Việt Bình 2. PGS.TS. Đỗ Năng Toàn THÁI NGUYÊN - 2020 i LỜI CAM ĐOAN Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả. Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Thái Nguyên, ngày tháng 08 năm 2020 Tác giả luận án ii LỜI CẢM ƠN Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới hai Thầy. Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá trình thực hiện luận án. Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong quá trình hoàn thành và bảo vệ luận án. Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để tôi có thời gian tập trung nghiên cứu, thực hiện luận án. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng gửi tặng đến các thành viên trong Gia đình. Tôi xin trân trọng cảm ơn! iii MỤC LỤC LỜI CAM ĐOAN .............................................................................................. i LỜI CẢM ƠN ................................................................................................... ii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ......................................... vi DANH MỤC CÁC BẢNG............................................................................. viii DANH MỤC HÌNH VẼ ................................................................................... ix PHẦN MỞ ĐẦU ............................................................................................... 1 1. Tính cấp thiết ............................................................................................. 1 2. Mục tiêu nghiên cứu của luận án ............................................................... 2 3. Đối tượng, phạm vi nghiên cứu của luận án .............................................. 3 4. Đóng góp chính của luận án ...................................................................... 4 5. Phương pháp và nội dung nghiên cứu ....................................................... 5 6. Cấu trúc luận án ......................................................................................... 5 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO ........................................................................ 7 1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video .................................................................................................................. 7 1.1.1. Khái quát về video ........................................................................ 7 1.1.2. Bài toán thay thế đối tượng trong video ..................................... 12 1.1.3. Một số khái niệm ........................................................................ 16 1.1.3.1. Dò tìm đối tượng trong video ............................................ 16 1.1.3.2. Nhận dạng hình dạng đối tượng trong video ..................... 16 1.1.3.3. Phát hiện đối tượng trong video......................................... 16 1.1.3.4. Phân vùng đối tượng .......................................................... 17 1.1.3.5. Video inpainting ................................................................ 18 1.1.3.6. Thay thế đối tượng trong video ......................................... 19 1.1.4. Các thách thức cho bài toán thay thế đối tượng ......................... 19 1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng trong video ....................................................................................................... 22 iv 1.2.1. Dò tìm đối tượng ......................................................................... 22 1.2.1.1. Dựa trên điểm đặc trưng .................................................... 22 1.2.1.2. Dựa trên các mô hình từng phần của đối tượng................. 23 1.2.1.3. Dựa trên mạng nơron nhân chập ........................................ 24 1.2.1.4. Phát hiện đối tượng quảng cáo........................................... 25 1.2.2. Nhận dạng hình dạng đối tượng ................................................. 26 1.2.2.1. Lượng tử hóa vector ........................................................... 26 1.2.2.2. Lượng tử hóa tích đề các.................................................... 29 1.2.2.3. Độ đo khoảng cách ............................................................ 30 1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN .................. 32 1.2.3. Các kỹ thuật hoàn thiện video .................................................... 34 1.2.3.1. Video inpainting dựa trên lấy mẫu .................................... 35 1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36 1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ....... 37 Kết luận chương 1 ........................................................................................ 38 CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO .......................... 39 2.1. Dò tìm đối tượng trong video ............................................................... 39 2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO .......................... 40 2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv .......................... 42 2.1.2.1. Cải tiến trong hàm loss ...................................................... 42 2.1.2.2. Cải tiến trong kiến trúc mạng ............................................ 46 2.1.2.3. Trích chọn đặc trưng .......................................................... 49 2.1.3. Ước lượng, đánh giá mô hình cải tiến ........................................ 49 2.1.3.1. Dữ liệu kiểm thử ................................................................ 49 2.1.3.2. Độ đo ước lượng ................................................................ 50 2.1.3.3. Môi trường cài đặt.............................................................. 52 2.1.3.4. Ước lượng, đánh giá .......................................................... 52 2.2. Nhận dạng hình dạng đối tượng ........................................................... 59 2.2.1. Mô hình lập chỉ mục PSVQ ........................................................ 60 v 2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ......................... 64 2.2.3. Ước lượng, đánh giá ................................................................... 68 2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử .............................. 69 2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ .......... 71 2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73 2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ bậc kết hợp PSVQ ........................................................................... 75 Kết luận chương 2 ........................................................................................ 80 CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81 3.1. Phân vùng đối tượng ............................................................................. 81 3.1.1. Các kỹ thuật phân vùng thực thể ................................................ 82 3.1.2. Mô hình phân vùng thực thể ....................................................... 84 3.1.2.1. Phát sinh mặt nạ vùng ........................................................ 85 3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ............................ 87 3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................... 90 3.2. Mô hình hoàn thiện video ..................................................................... 92 3.2.1. Kiến trúc mô hình V-RBPconv................................................... 94 3.2.2. Mô hình kiến trúc mạng RBPconv ............................................. 95 3.2.3. Hàm loss...................................................................................... 99 3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ....................... 100 3.2.4.1. Môi trường thực nghiệm .................................................. 101 3.2.4.2. Kết quả so sánh định tính ................................................ 103 3.2.4.3. Kết quả so sánh định lượng ............................................. 104 Kết luận chương 3 ...................................................................................... 109 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 110 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN ..................................................................................................... 112 TÀI LIỆU THAM KHẢO ............................................................................. 113 PHỤ LỤC ...................................................................................................... 122 vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU Từ viết Tên đầy đủ (và tạm dịch) tắt ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất) ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng) Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và AVI hình ảnh bên trong) CAM Class Activation Map (Bản đồ kích hoạt lớp) CPU Central processing unit (Bộ vi xử lý trung tâm) CNN Convolution Neural Network (Mạng nơron tích chập) DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu) FID Frechet Inception Distance (khoảng cách Frechet) Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất FVI kỳ) FCN Fully Convolutional Network (Mạng tích chập đầy đủ) GAN Generative Adversarial Networks (Mạng sinh đối kháng) GPU Graphics processing unit (Bộ xử lý đồ họa) HD High Definition (chuẩn độ nét cao) HOG Histogram of oriented gradients (Biểu đồ hướng gradient) IoU Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao) Inverted file index Asymmetric distance computation (Chỉ mục IVFADC danh sách ngược của ADC) Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng LPIPS đồng các mẫu ảnh) MSE Mean square error (Lỗi bình phương trung bình) MPEG Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động) NMS Non-Maxima Suppression (Loại bỏ các điểm không cực trị) vii Từ viết Tên đầy đủ (và tạm dịch) tắt National Television System Committee (Ủy ban quốc gia về các hệ NTSC thống truyền hình) PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa) PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu) PAL Phase Alternation Line (Hệ truyền hình màu xoay pha) PQ Product quantization (Lượng tử hóa tích đề các) PSL Peak Simulation Layer (Tầng kích hoạt cực đại) Product sub-vector quantization (Lượng tử hóa tích đề các cụm PSVQ vector) RGB Red, Green, Blue (Hệ màu RGB) RoI Region of Interest (Vùng chứa đối tượng) Region-based Convolutional Neural Networks (Mạng nơron tích R-CNN chập dựa trên đề xuất vùng) SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ) SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD) SURF Speeded up robust features (Đặc trưng SURF) SD Standard Denfinition (Độ nét tiêu chuẩn) SSIM Structural Similarity Index (Chỉ số đồng nhất có cấu trúc) VGG Visual Geometry Group (Nhóm hình học trực quan) YOLO You only look once (Mạng nhìn đối tượng chỉ một lần) viii DANH MỤC CÁC BẢNG Số hiệu Tên bảng Trang bảng 2.1 Thông số phần cứng thực nghiệm mô hình YOLO-Adv 52 2.2 Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 55 So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu 2.3 58 Flickrlogos-32 2.4 Các tập dữ liệu đặc trưng 69 2.5 Các tham số dùng để xây dựng các bộ lượng tử 75 So sánh kết quả của mô hình sử dụng với các phương pháp 3.1 khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện 90 khác nhau. Kết quả định lượng trên tập dữ liệu Places2 của các mô 3.2 106 hình: CA, Pconv, EC và RBPConv. Kết quả định lượng trên tập dữ liệu FVI với các mô hình: 3.3 107 EC, CombCN, 3Dgated và V- RBPConv Số lượng đối tượng cho các tập huấn luyện và kiểm thử của A.1 124 tập dữ liệu FlickrLogo-47. ix DANH MỤC HÌNH VẼ Số hiệu Tên hình vẽ Trang hình vẽ 1.1 Cấu trúc phân cấp của video 7 1.2 Sơ đồ chuyển đổi dữ liệu video 11 1.3 Một số ứng dụng chèn/thay thế logo trong video 12 1.4 Mô hình phát hiện và thay thế đối tượng trong video 13 1.5 Các kiểu phân vùng ảnh 17 1.6 Các ví dụ về hoàn thiện, tái tạo ảnh/video 18 1.7 Một số trở ngại trong phát hiện đối tượng quảng cáo 19 1.8 Mô hình lượng tử hóa tích đề các 28 1.9 Mô hình nhận dạng hình dạng đối tượng 32 1.10 Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting 34 2.1 Ý tưởng chính của mô hình YOLO 40 2.2 Cách tính IoU 41 2.3 Kiến trúc chi tiết mạng YOLO-Adv 47 2.4 Mô hình trích chọn đặc trưng 48 2.5 Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 53 2.6 Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 54 2.7 Một số hình ảnh phát hiện Logo 57 2.8 Chất lượng mã hóa PSVQ 70 2.9 Tốc độ tìm kiếm ANN trên các tập đặc trưng 72 2.10 Ảnh hưởng của tham số (d,k) trên các tập dữ liệu 74 x Số hiệu Tên hình vẽ Trang hình vẽ 2.11 Hiệu năng thực thi trên các tập đặc trưng 77 Một số kết quả trực quan nhận dạng hình dạng đối tượng 2.12 78 quảng cáo 3.1 Mô hình huấn luyện mạng phân vùng ảnh 83 3.2 Ví dụ về làm tinh mặt nạ 85 3.3 Mô hình phân vùng thực thể Mask R-CNN 87 Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu 3.4 89 PASCAL VOC 2012 3.5 Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012 91 3.6 Kiến trúc mô hình video inpainting 3DGated 92 3.7 Kiến trúc mô hình video inpainting V-RBPconv 93 3.8 Kiến trúc mô hình RBPconv 95 3.9 Kiến trúc khối residual cải tiến 96 3.10 Một số mặt nạ minh họa 101 3.11 So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình 102 3.12 So sánh trực quan của các mô hình video inpainting 103 Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 A.1 122 (bên dưới) được thể hiện trong các bounding box A.2 Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47 123 1 PHẦN MỞ ĐẦU 1. Tính cấp thiết Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu, ... (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng, người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và dự báo sẽ tiếp tục tăng mạnh trong những năm tới. Tận dụng những video sẵn có với nội dung hấp dẫn thu hút được khối lượng lớn người xem như phim ảnh, video thể thao, video về các sự kiện đặc biệt, ... các đối tượng quảng cáo ngày nay được tích hợp trực tiếp trong nội dung của các video này. Các ví dụ điển hình là chèn billboard, nhãn hiệu, ảnh quảng cáo vào vị trí thích hợp quanh sân vận động trong video thể thao khi không thể đặt trực tiếp tại sân; loại bỏ hoặc thay thế các trademark trong một đoạn phim bằng một biểu tượng khác. Việc thay thế, chèn thêm này phần lớn được hoàn thiện một cách thủ công thông qua các công nghệ hiệu chỉnh trong quá trình hậu xử lý video. Quá trình thay thế thủ công thường được thực hiện bằng cách duyệt qua tất cả các khung hình (frame) để nhận diện các frame tiềm năng, thích hợp cho việc tích hợp hình ảnh quảng cáo. Sau đó dò tìm vùng thích hợp trong các frame này để đặt hình ảnh quảng cáo hoặc tìm các hình ảnh quảng cáo, đối tượng không phù hợp để thay thế bằng hình ảnh quảng cáo mới. Cuối 2 cùng là hoàn thiện, làm mượt, tạo tính chân thực cho video. Quá trình xử lý này được xem là một tiến trình con trong bài toán hậu xử lý video đã và đang thu hút được nhiều nghiên cứu trong cộng đồng thị giác máy tính với mục đích tạo ra các công cụ xử lý tự động, giảm thiểu tối đa sự can thiệp của con người nhưng vẫn thu được ảnh kết quả có độ chân thực cao hơn. Tuy nhiên, các hệ thống công nghệ thị giác vẫn còn nhiều hạn chế và giới hạn khi xử lý video. Phát hiện và thay thế đối tượng trong video nói chung và video có nội dung tích hợp đối tượng quảng cáo nói riêng là một chuỗi các tiến trình cốt lõi trong quá trình hậu xử lý video. Nó bao hàm các kỹ thuật phân tích, xử lý video để dò tìm, nhận dạng các đối tượng cũng như tư thế, hình dạng của chúng trong video từ đó có những tác động hợp lý vào đối tượng và hoàn thiện video sau khi có những tác động này. Ngoài ra, từng tiến trình con trong quá trình hậu xử lý video này còn có thể được ứng dụng rời rạc trong nhiều lĩnh vực khác như nhận dạng hành động, phân tích video, tóm tắt video, giám sát trực quan, thống kê đối tượng, xóa bỏ đối tượng khỏi video, hiệu chỉnh cảnh sau quay. Với sự bùng nổ số lượng video có sẵn cả trực tuyến và ngoại tuyến như đã minh họa bên trên làm cho việc phân tích, xử lý tất cả nội dung video theo cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung. 2. Mục tiêu nghiên cứu của luận án Mục tiêu cụ thể của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho bài toán phát hiện và thay thế đối tượng trong video nhằm đạt được hiệu năng cao trên hai phương diện tốc độ và độ chính xác. Cải tiến các mô hình dùng để phát hiện đối tượng trong video gồm: dò tìm và nhận dạng hình dáng của đối tượng. Nghiên cứu cải tiến các kỹ thuật liên quan đến bài toán thay thế đối 3 tượng gồm: phân vùng, trích chọn phần hiển thị của đối tượng trong các vùng ảnh; hoàn thiện các vùng bị phá hủy do quá trình xử lý như loại bỏ hoặc thay thế tạo ra. Các cải tiến trên cũng có thể được mở rộng, ứng dụng vào để giải quyết một số bài toán trong lĩnh vực thương mại như: tích hợp đối tượng quảng cáo vào vị trí thích hợp trong video có sẵn nội dung; phân tích thị trường, nhận dạng, thống kê sản phẩm trong các video quảng cáo; chèn đối tượng quảng cáo vào vùng ảnh thích hợp, thay thế đối tượng quảng cáo trong các video thể thao; hiệu chỉnh cảnh quay, xóa bỏ đối tượng không mong muốn xuất hiện trong các cảnh quay của video phim ảnh, quảng cáo. 3. Đối tượng, phạm vi nghiên cứu của luận án Do giới hạn về thời gian, luận án không tập trung nhiều vào nghiên cứu cấu trúc, định dạng, sự cấu thành của video, phân đoạn cảnh quay, trích chọn frame, đồng bộ phần hình ảnh và âm thanh. Luận án sử dụng dữ liệu đầu vào là phần hình ảnh của đoạn video đã được ghi lại theo chuẩn MPEG-4 (Moving Picture Experts Group) dùng cho truyền hình vô tuyến, mạng và Internet. Phần hình ảnh video đầu vào được mã hóa kích thước 720p hoặc 480p với tỷ lệ khung hình 16:9, tức là có độ phân giải 1280 x 720px hoặc 854 x 480px và giả thiết đã được phân thành một chuỗi các frame liên tiếp nhau. Đối tượng được luận án tập trung nghiên cứu là các kỹ thuật dò tìm, nhận dạng đối tượng tự động, các kỹ thuật hoàn thiện video theo hướng tiếp cận đối tượng trên chuỗi frame ảnh liên tục đã được trích chọn. Hướng tới mục tiêu phát triển hệ thống thay thế đối tượng trong các video thể thao, quảng cáo, phim ảnh phục vụ mục đích thương mại, phân tích thị trường, phạm vi của đối tượng nhận dạng, thay thế được giới hạn là các hình ảnh tĩnh, hai chiều của đối tượng quảng cáo. Đối tượng này thường được thể hiện nổi bật trong video để thu hút người xem nên có tính phân biệt với các đối tượng khác và với nền mà nó hiển thị. Bên cạnh đó kích thước của đối tượng 4 nghiên cứu trong video không quá nhỏ, giới hạn trong khoảng từ 20px đến 400px mỗi chiều vì nếu quá nhỏ thì sẽ không thu hút được người xem. Vùng phá hủy sinh ra sau khi xóa bỏ hoặc thay thế đối tượng cần được hoàn thiện trong quá trình hậu xử lý video được luận án tập trung nghiên cứu sẽ có kích thước và hình dạng bất kỳ. Tuy nhiên khi thay thế hai đối tượng thường có tính tương đồng cao về kích thước, vì vậy luận án tập trung nhiều vào nghiên cứu các vùng trống có hình dạng chủ yếu dưới dạng đường cong, đường kẻ, đường thẳng, hình điểm với độ dày không quá lớn. 4. Đóng góp chính của luận án Xuất phát từ phạm vi nghiên cứu, các vấn đề luận án nghiên cứu gồm: Vấn đề 1: Nghiên cứu, cải tiến mô hình dò tìm, định vị đối tượng trong video theo thời gian thực. Vấn đề 2: Nghiên cứu, cải tiến kỹ thuật đối sánh, tìm kiếm ứng dụng cho bài toán nhận dạng hình dạng của đối tượng tìm thấy trong video. Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để trích chọn vùng hiển thị của đối tượng. Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video sau hiệu chỉnh video. Trên cơ sở nghiên cứu các vấn đề nêu trên, luận án đã có ba đóng góp chính là: (i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo hướng tiếp cận mạng tích chập học sâu (Deep Convolution Neural Network – DCNN). Trong mô hình cải tiến tốc độ dò tìm đối tượng không những vẫn đạt được theo thời gian thực mà độ chính xác cũng được gia tăng đáng kể, có tính bền vững cao trong dò tìm lớp đối tượng phổ quát, ảnh đầu vào không cần qua bước tiền xử lý. Kết quả đưa ra của mô hình bao gồm: tọa độ bao đóng hình 5 chữ nhật quanh các thể hiện của lớp đối tượng truy vấn trong ảnh và kèm theo vector đặc trưng rất giàu thông tin của nó (CT1). (ii) Cải tiến kỹ thuật nhận dạng hình dạng của đối tượng dựa trên phương pháp lập chỉ mục vector đặc trưng. Tập dữ liệu về hình dạng của đối tượng sau khi trích chọn đặc trưng được lập chỉ mục bằng kỹ thuật lượng tử hóa tích đề các cụm vector (Product sub-vector quantization – PSVQ). Kỹ thuật này kết hợp với cây phân cụm thứ bậc được sử dụng để tìm ra hình dạng tương đồng nhất với đối tượng truy vấn (CT2, CT3, CT4 và CT6). iii) Cải tiến mô hình hoàn thiện vùng bị phá hủy trong ảnh với hình dạng và kích thước bất kỳ sinh, áp dụng trong video inpainting nhằm bảo toàn tính kết cấu về không gian và thời gian trong tái tạo vùng bị phá hủy sinh ra trong video sau hiệu chỉnh (CT5). 5. Phương pháp và nội dung nghiên cứu Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên cứu lý thuyết và thực nghiệm. Phương pháp lý thuyết: Tổng hợp một số công bố liên quan đến bài toán dò tìm, nhận dạng đối tượng, hoàn thiện vùng bị phá hủy trong ảnh, video. Cụ thể nghiên cứu các mạng tích chập học sâu ứng dụng trong dò tìm đối tượng, hoàn thiện ảnh, video, các kỹ thuật lập chỉ mục trên tập dữ liệu lớn các vector đặc trưng và các thuật toán tìm kiếm ảnh theo nội dung, một số thuật toán về hoàn thiện các vùng mất mát thông tin trong video. Phương pháp thực nghiệm: Thực hiện cài đặt các thuật toán của luận án, chạy thử nghiệm trên các tập dữ liệu được sử dụng phổ biến trong cộng đồng nghiên cứu. 6. Cấu trúc luận án Cấu trúc luận án được tổ chức thành 3 chương như sau: 6 Chương 1: Tổng quan về bài toán phát hiện và thay thế đối tượng trong video. Trình bày các nghiên cứu liên quan đến bài toán phát hiện đối tượng bao gồm hai pha dò tìm và nhận dạng, bài toán thay thế đối tượng quảng cáo trong các video thuộc lĩnh vực thương mại gồm các công đoạn phân vùng, thay thế và hoàn thiện video. Bên cạnh đó, luận án đưa ra mô hình tổng quát cho hệ thống thay thế đối tượng trong video cùng các khái niệm liên quan. Thông qua đó xác định rõ vấn đề đặt ra cần nghiên cứu, vị trí nghiên cứu, xu hướng phát triển để đưa ra các giải pháp giải quyết vấn đề đặt ra. Chương 2: Phát hiện đối tượng trong video. Trình bày chi tiết mô hình YOLO-Adv cải tiến, phát triển từ mô hình dò tìm đối tượng YOLO tương thích với lớp bài toán dò tìm đối tượng quảng cáo trong video. Các kết quả thực nghiệm trên tập dữ liệu flickrlogos-47 được phân tích, chứng minh độ chính xác và tốc độ dò tìm đối tượng của mô hình cải tiến là nhanh hơn các phiên bản của mô hình YOLO và các mô hình hiện tại khác. Tiếp theo, kỹ thuật lập chỉ mục dữ liệu PSVQ (Product sub-vector quantization) cải tiến, phát triển từ phương pháp lập chỉ mục lượng tử hóa tích đề các (product quantization-PQ) trên tập dữ liệu vector đặc trưng có số chiều lớn ứng dụng cho bài toán nhận dạng hình dạng của đối tượng được trình bày chi tiết. Các kết quả thực nghiệm trên tập dữ liệu có số chiều lớn như ANN_GIST, VGG cũng được trình bày ngay sau phần trình bày lý thuyết. Chương 3: Thay thế đối tượng và hoàn thiện video. Trình bày kỹ thuật phân vùng thực thể áp dụng để trích chọn vùng đối tượng xuất hiện trong ảnh. Tiếp theo, kỹ thuật hoàn thiện, tái tạo video V-RBPconv dựa trên nền tảng của mô hình RBPConv được sử dụng cho bài toán tái tạo các vùng bị phá hủy. Những vùng này có sự đa dạng về hình dạng và kích thước sinh ra sau trong quá trình hậu xử lý như loại bỏ, thay thế đối tượng không mong muốn khỏi video. Cuối cùng, các kết quả thực nghiệm của mô hình trên các tập dữ liệu phổ biến cũng được trình bày. 7 CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ ĐỐI TƯỢNG TRONG VIDEO Trong chương tổng quan này luận án trình bày mô hình tổng quan cho bài toán phát hiện và thay thế đối tượng trong video, mô tả chi tiết các thành phần trong hệ thống cũng như đưa ra các khái niệm có liên quan. Bên cạnh đó luận án hệ thống lại các nghiên cứu liên quan đến các mô hình, kỹ thuật áp dụng trong hệ thống phát hiện và thay thế đối tượng, phân tích ưu, nhược điểm của các kỹ thuật này làm tiền đề cho những nội dung nghiên cứu trong các chương sau đó. Cụ thể, tổng quan về bài toán phát hiện và thay thế đối tượng trong video được trình bày trong phần 1.1. Các nghiên cứu liên quan đến mô hình dò tìm đối tượng trong video được phân tích trong phần 1.2. Tiếp theo, các kỹ thuật nhận dạng đối tượng được trình bày trong phần 1.3. Cuối cùng các nghiên cứu liên quan đến hoàn thiện vùng bị phá hủy trong video được trình bày trong phần 1.4. Hình 1.1. Cấu trúc phân cấp của video 1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong video 1.1.1. Khái quát về video Video là sự phối hợp đồng bộ thu hoặc phát một chuỗi các hình ảnh và âm thanh theo thời gian thực để thể hiện thế giới thực. Bản chất của video là 8 tập hợp các khung hình (frame), mỗi khung hình tương ứng là một ảnh tĩnh. Tập hợp các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với một thao tác camera đơn tạo thành một lia (Shot). Tập các shot liên quan về không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc một tình tiết tạo thành một cảnh quay (Scene). Cấu trúc phân cấp của video được thể hiện trong hình 1.1. Video truyền thống các tín hiệu thu và phát dưới dạng tương tự. Tín hiệu hình ảnh và tín hiệu âm thanh được phát đồng bộ nhau. Tuy nhiên, các thao tác với video ở dạng tương tự như điều khiển, khử nhiễu, ... rất phức tạp. Vì vậy, ngày nay các video tương tự ít được sử dụng mà thay bằng các video số. Với video số các tín hiệu thu và phát chuỗi hình ảnh âm thanh được số hóa thành dãy bít 0 và 1. Dữ liệu video được lưu trữ ở dạng bít 0 và 1 nên việc tác động lên video đơn giản hơn nhiều so với video tương tự. Dữ liệu video số là các đoạn phim đã được số hóa, ghi thành tệp trên đĩa cứng, đĩa CD, đĩa DVD, hoặc các thiết bị lưu trữ khác mà máy tính có thể hiểu được. Một tệp video thông thường có hai phần: dữ liệu hình ảnh và dữ liệu âm thanh. Khi phát, các dữ liệu hình ảnh và các dữ liệu âm thanh được phát đồng bộ nhau. Kích cỡ khuôn hình của video phải được xác định rõ theo định dạng chuẩn của video xuất ra. Ví dụ: kích cỡ khuôn hình 720x480 điểm ảnh cho hệ NTSC, 720x576 điểm ảnh cho hệ PAL. Hoặc có thể xác định khuôn hình 320x240 điểm ảnh cho các video có kích cỡ nhỏ, có thể sử dụng trên Web. Kích cỡ khuôn hình tăng đồng nghĩa với việc tiêu tốn nhiều bộ nhớ và thời gian xử lý hơn kh...cách tiếp cận dựa trên học tập sâu với nền tảng là các mạng R-CNN [26] và Fast R-CNN [25] để phát hiện logo quảng cáo. Bombonato và các cộng sự [12] áp dụng mô hình SSD [52] cho bài toán nhận dạng logo của công ty. Mặc dù các cách tiếp cận này đạt được độ chính xác chấp nhận được trên mức ảnh nhưng tốc độ xử lý là một trở ngại lớn khi xử lý trên video. 1.2.2. Nhận dạng hình dạng đối tượng Quá trình nhận dạng hình dạng đối tượng quảng cáo trong video được thực hiện dựa trên vector đặc trưng đã được trích chọn trong pha dò tìm đối tượng. Bản chất là quá trình tìm ra một số vector đặc trưng gần nhất với vector đặc trưng truy vấn trong tập dữ liệu vector đặc trưng khổng lồ. Các vector đặc trưng này có số chiều lớn (lên đến hàng nghìn chiều), do đó để tiến trình tìm kiếm có hiệu quả, đáp ứng trong khoảng thời gian mong đợi, tập dữ liệu vector đặc trưng phải được mã hoá, lập chỉ mục. Nhiều kỹ thuật lập chỉ mục hiệu quả đã được nhiều tác giả nghiên cứu như: dựa trên hàm băm, dựa trên phân cụm, dựa trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các (product quatization - PQ). Trong số đó phương pháp tìm kiếm dựa trên PQ trên tập dữ liệu vector số chiều lớn đạt được kết quả tối ưu hơn các kỹ thuật khác nên được luận án nghiên cứu chi tiết để phát triển cho bài toán nhận dạng hình dạng đối tượng. Vì vậy trong phần này tổng quan về phương pháp lượng tử hóa tích đề các được trình bày trước khi các kỹ thuật đối sánh vector đặc trưng được xem xét tổng quan. 1.2.2.1. Lượng tử hóa vector Lượng tử hoá vector (Vector Quantization - VQ) được nghiên cứu rất kỹ trong lý thuyết thông tin. VQ thường được sử dụng để nén dữ liệu nhằm gia tăng tốc độ truyền dữ liệu cũng như giảm không gian lưu trữ. Mục tiêu là đưa ra được cách biểu diễn dữ liệu nén nhằm tối thiểu hóa sự mất mát thông tin và 27 độ lỗi chênh lệch giữa vector gốc và vector lượng tử. Đây được xem là bài toán tối ưu hóa, tối ưu lỗi bình phương trung bình (Mean square error - MSE) giữa 2 dữ liệu huấn luyện Z và dữ liệu mã hóa, ∑푥∈푍‖푥 − 푄(푥, 퐶)‖2 Về mặt hình thức, một bộ lượng tử hóa vector là một hàm 푄(푥, 퐶) ánh xạ một vector 푥 ∈ 푅(퐷) thành một vector khác thuộc tập vector 퐶. Trong đó 퐷 là số chiều của không gian vector đang xét, tập các giá trị 퐶 được gọi là codebook. Trong nhiều trường hợp ký hiệu codebook 퐶 trong bộ lượng tử hóa là hiển nhiên, mặc định nên có thể bỏ qua, lúc này chúng ta thể viết gọn hàm lượng tử thành 푄(푥). Mỗi vector trong codebook 퐶 được biểu diễn bởi 푐푘, trong đó 푘 ∈ {1, , |퐶|} gọi là “trọng tâm (centroids)”. Các vector 푐푘 được gọi là các codeword. Lúc này hàm lượng tử cho một codebook 퐶 được định nghĩa: Q(x, 퐶) = 푐푘(푥) (1.1) Trong đó 푘(푥) là chỉ số hay id của codeword được xác định bởi 푘(푥) = argmin 푑(푥, 푐푘) (1.2) 푘 Với hàm khoảng cách 푑(푥, 푦) thường được sử dụng là khoảng cách Euclid, tức là 푑(푥, 푦) = ‖푥 − 푦‖2 Tập các vector 푉푘 được ánh xạ tới một chỉ số 푘 được gọi là một “ô Voronoi” (Voronoi cell), được định nghĩa: (퐷) 푉푘 ≜ {푥 ∈ 푅 : 푞(푥) = 푐푘} (1.3) 푘 "ô" của bộ lượng tử xác định một phân vùng của 푅(퐷). Theo định nghĩa, tất cả các vector nằm trong cùng một “ô” 푉푘 được đặt trong cùng một trọng tâm 푐푘. Chất lượng của một bộ lượng tử hóa được đo bằng giá trị MSE giữa vector đầu vào 푥 và giá trị sau khi được lượng tử hóa của nó 푄(푥). Codebook được huấn luyện để tối thiểu giá trị MSE trên tập huấn luyện Z, 28 2 min ∑푥∈푍‖푥 − 푄(푥, 퐶)‖2 (1.4) 퐶 Bộ lượng tử hóa rất phổ biến, hiệu quả và đơn giản nhất dựa trên K- means, tức là codebook được huấn luyện với giải thuật phân cụm K-means. Trong giai đoạn huấn luyện, codebook được huấn luyện bằng cách hoán đổi các điểm dữ liệu như trong biểu thức (1.2) và codebook được cập nhật bằng giá trị trung bình của các cụm mới, là nghiệm của phương trình (1.4). Trong giai đoạn mã hóa, các vector cơ sở dữ liệu được mã hóa bởi chỉ số (ID) của codeword gần nhất theo phương trình (1.2). Lúc này mỗi vector nhiều chiều số thực trong cơ sở dữ liệu được đại diện bởi một số nguyên là chỉ mục của codeword. Vì chỉ mục của codeword nằm trong khoảng từ 1 đến 퐾, trong đó 퐾 là kích thước của codebook |퐶| (số lượng codeword), do đó chỉ cần 푙표𝑔2(퐾) bit để lưu trữ trên mỗi điểm dữ liệu. Điểm dữ liệu được tái tạo bởi codeword có ID tương ứng. Để thu được dữ liệu sau khi tái tạo lại tốt hơn hay lỗi tái tạo thấp hơn, codebook tạo ra cần phải có kích thước đủ lớn. Nhưng khi 퐾 tăng lên thì dữ liệu huấn luyện cần phải lớn, khi đó cần nhiều không gian lưu trữ hơn cho dữ liệu huấn luyện và codeword, đồng thời thời gian huấn luyện codebook cũng tăng lên. Độ phức tạp về thời gian và lưu trữ cho giai đoạn huấn luyện và mã hóa tăng tuyến tính với 퐾 mặc dù yêu cầu về bộ nhớ cho biểu diễn dữ liệu nén chỉ tăng theo logarit. Hình 1.8. Mô hình lượng tử hóa tích đề các 29 Có nhiều cách tiếp cận nhằm cải thiện chất lượng mã hóa dữ liệu theo phương pháp VQ. Cách tiếp cận hiệu quả nhất là sử dụng nhiều codebook cho nhiều không gian con khác nhau nhằm đạt được độ phức tạp về lưu trữ và thời gian là tuyến tính trong pha huấn luyện và mã hóa. Phương pháp tiêu biểu sử dụng ý tưởng này dựa trên lượng tử hoá tích đề các được trình bày trong phần tiếp theo. 1.2.2.2. Lượng tử hóa tích đề các Lượng tử hoá tích đề các - PQ [38] là một cách tiếp cận đơn giản, hiệu quả dựa trên VQ. Không gian dữ liệu đơn giản được chia thành 푀 không gian con trực giao bằng cách phân đoạn từng vector dữ liệu thành 푀 vector con (trực quan như trong hình 1.8). Cụ thể hơn, vector dữ liệu 푥 ∈ 푅(퐷) được chia thành 푥(푖), 푖 = {1, . . . , 푀} vector con với 푥 là một phép nối các vector con này, 푥 = [푥(1), . . . , 푥(푀)]. Để đơn giản, 퐷 được lấy là bội số của 푀, khi đó mỗi vector 퐷 ( ) con 푥(푖) thuộc không gian 푅 푀 . Một codebook được tạo ra trên mỗi không gian con của các vector con từ dữ liệu huấn luyện. Gọi 퐶(푖) là codebook của không gian con thứ 푖. Do các không gian con là trực giao, nên các codebook tạo ra cũng trực giao với nhau. Một điểm dữ liệu được biểu diễn bằng cách ghép 푀 codeword thuộc 푀 codebook khác nhau. Như vậy, biểu diễn của một điểm dữ liệu là tích đề các của các codeword, 퐶 = 퐶(1) × . . .× 퐶(푀). Trong đó, Codeword thứ 푖, 퐶(푖) được huấn luyện bằng cách sử dụng giải thuật phân cụm K-means trên tập vector con thứ 푖. Cho trước các codebook là trực giao 푐푖푇푐푗 = 0, 푖 ≠ 푗 & 푖, 푗 ∈ {1, , 푀} (1.5) 푘푖 푘푗 Chúng ta có thể viết lại biểu thức tối thiểu hóa MSE trong phương trình (1.4) như sau: 푀 (푖) (푖) 2 ∑푖=1 min ∑푥∈푍‖푥 − 푄(푥, 퐶 )‖ (1.6) 퐶푖 2 30 Việc tối thiểu hóa cho mỗi codebook là độc lập với các codebook khác vì chúng trực giao với nhau. Do sử dụng tích đề các của codebook, PQ đạt được khả năng biểu diễn cao hơn nhiều trong khi sử dụng rất ít codeword. Ví dụ, xem xét PQ với 푀 = 8 codebook và mỗi codebook có 퐾 = 256 codeword. Khi đó chỉ cần 푀 × 퐾 codeword phải huấn luyện và lưu trữ, do tích đề các của codebook, nên có khả (푀) 64 năng tạo ra 퐾 = 2 codeword. Trong khi đó chỉ cần 푀 × 푙표𝑔2(퐾) bit để mã hóa một vector dữ liệu, trong ví dụ này số bit cần dùng là 64 bit. Do khả năng truy cập được đến một lượng lớn các biểu diễn dữ liệu, PQ cung cấp một cách tiếp cận tốt hơn cho bài toán nén dữ liệu với lỗi tái tạo vector dữ liệu thấp. Chính vì vậy có rất nhiều nghiên cứu tập trung mở rộng ý tưởng của PQ để gia tăng chất lượng mã hóa dữ liệu nhằm tăng tốc độ tìm kiếm và độ chính xác. Luận án cũng đi theo hướng tiếp cận này cho bài toán nhận dạng hình dạng của đối tượng. 1.2.2.3. Độ đo khoảng cách Cho trước vector đặc trưng 푦 ∈ 푅(퐷) và một tập dữ liệu vector đặc trưng 푋, bài toán tìm kiếm lân cận gần nhất là tìm ra một vector 푥(∗) ∈ 푋 thỏa mãn 푑(푥(∗), 푦) = min {푑(푥, 푦) | 푥 ∈ 푋}, với 푑(푥, 푦) là một độ đo khoảng cách. Do không gian dữ liệu rất lớn trong đó số chiều của mỗi điểm dữ liệu lớn nên việc tìm kiếm chính xác một lân cận gần nhất là không khả thi. Vì vậy, phương pháp tìm kiếm lân cận xấp xỉ gần đúng (ANN) thường sử dụng thay cho phương pháp tìm kiếm lận cận chính xác. Các phương pháp tìm kiếm ANN tìm ra các lân cận dựa trên tính toán khoảng cách xấp xỉ giữa hai vector. VQ được sử dụng rất hiệu quả cho bài toán tìm kiếm ANN. Lần đầu tiên ANN được đề xuất trong nghiên cứu [38] kết hợp với phương pháp lập chỉ mục PQ. Sau đó nhiều nghiên cứu được phát triển nhằm cải tiến tốc độ và độ chính xác [16]. 31 Như đã thảo luận về cách sử dụng PQ cho bài toán nén dữ liệu để tạo ra các biểu diễn xấp xỉ. Để việc tìm kiếm có hiệu quả, cơ sở dữ liệu trước hết cần được lượng tử hóa, lập chỉ mục. Quá trình lượng tử hóa hay nén dữ liệu này được thực hiện offline nên tốc độ không phải là vấn đề trọng tâm cần nghiên cứu. Khi thực hiện tìm kiếm ANN, truy vấn 푦 được so sánh với các vector xấp xỉ của các vector trong cơ sở dữ liệu, như vậy kết quả nhận được là khoảng cách xấp xỉ giữa chúng. Có hai cách để tính khoảng cách xấp xỉ này dựa trên việc vector truy vấn được lượng tử hóa hay không. Tính khoảng cách đối xứng (Symmetric distance computation - SDC). Với SDC, vector truy vấn cũng được lượng tử và so sánh kết quả lượng tử này với các biểu diễn lượng tử của các vector trong cơ sở dữ liệu, 푑(푦, 푥) ≈ 푑(푄(푦), 푄(푥)) (1.7) Do 푄(. ) là một codeword trong một codebook hữu hạn, nên SDC giữa tất cả các cặp codeword thể được tính trước được chứa chúng trong một bảng tra cứu (look-up table). Tại thời điểm tra cứu, 푦 được lượng tử hóa và giá trị của 푑(푄(푦), 푄(푥)) với 푥  푋 được lấy từ bảng tra cứu, vì vậy SDC được tính toán rất nhanh. Trong trường hợp có nhiều codebook, mỗi bảng tra cứu tương ứng với mỗi codebook được tạo ra. Tính khoảng cách bất đối xứng (Asymmetric distance computation - ADC). Với ADC, vector truy vấn gốc chưa lượng tử hóa được so sánh với các vetor trong cơ sở dữ liệu đã được lượng tử hóa. 푑(푦, 푥) ≈ 푑(푦, 푄(푥)) (1.8) Với 푑(, ) là khoảng cách Euclidean, khi đó phương trình 1.8 có thể được viết lại thành, 2 푑(푦, 푥) ≈ ‖푦 − 푄(푥)‖2 (1.9) Nếu bộ lượng tử hóa có nhiều codebook trực giao giống như trong PQ, thì phương trình 1.12 có thể được viết lại như sau: 32 2 2 푑(푦, 푥) ≈ ∑푀 ‖푦(푚) − 푄(푥, 퐶(푚))‖ = ∑푀 ‖푦(푚) − 푐 ‖ (1.10) 푚=1 2 푚=1 푘푚(푥) 2 2 Với mỗi vector 푦 chúng ta có thể tính ‖푦(푚) − 푐 ‖ cho tất cả 푘푚(푥) 2 codeword với 푚 = {1, 2, . . . , 푀}, và lưu trữ 퐾 ∗ 푀 giá trị này trong các bảng tra cứu. Tại thời điểm tìm kiếm, 푑(푦, 푥) được tính bằng tổng của 푀 giá trị nhận được từ bảng tra cứu này. So sánh giữa ADC và SDC. Trong ADC vector truy vấn không cần phải lượng tử hóa, nên nó cho khoảng cách xấp xỉ chính xác hơn khi so sánh với SDC. Trong khi đó, độ phức tạp về thời gian tìm kiếm là giống nhau cho cả hai, vì đều được tìm thấy trong bảng tra cứu đã được tính toán và lưu trữ trước đó. Vì vậy ADC thường được sử dụng cho tìm kiếm ANN dựa trên PQ. Xử lý offline Xử lý online Tập ảnh Trích chọn đặc Mô hình lập Tập vector đối tượng trưng chỉ mục đặc trưng Vector đặc trưng truy vấn ID tìm thấy Hình 1.9. Mô hình nhận dạng hình dạng đối tượng 1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN Sử dụng kiến trúc mạng DCNN chúng ta đã phát hiện ra được lớp của đối tượng cần truy vấn mà nó thuộc vào và xác định vị trí chính xác của chúng trong từng frame của video. Tuy nhiên yếu điểm của mạng này là mới chỉ xác định được có tồn tại hay không tồn tại lớp đối tượng truy vấn trong các frame mà chưa thể hiểu được đối tượng tìm thấy. Để nhận dạng và mô tả chính xác hình thái, tư thế hay hình dạng của đối tượng tìm thấy (trở thành đối tượng truy vấn) chúng ta cần tiếp tục phân lớp đối tượng này vào các lớp hình thái, tư thế, hình dạng. Để giải quyết bài toán này, tận dụng các vector đặc trưng trích chọn 33 được trong quá trình dò tìm đối tượng, luận án đề xuất giải pháp dựa trên việc đối sánh vector đặc trưng (hình 1.9). Tuy nhiên, khi kích thước tập dữ liệu đối sánh càng nhiều (lên đến hàng triệu bản ghi) và số chiều lớn (có thể lên đến hàng nghìn chiều) thì thời gian đối sánh là một vấn đề quan trọng cần phải giải quyết, đặc biệt là đối với ứng dụng yêu cầu thời gian thực như xử lý video. Để tối ưu hóa thời gian đối sánh mẫu, các vector đặc trưng thường được lập chỉ mục (feature indexing) nhằm tăng tốc độ đối sánh trên cơ sở dữ liệu các bản mẫu. Mục tiêu của việc lập chỉ mục là sắp xếp, tổ chức lại cơ sở dữ liệu các bản mẫu, và xây dựng các thuật toán đối sánh hiệu quả sao cho quá trình đối sánh chỉ cần thực hiện trên một phần nhỏ các bản mẫu tiềm năng mà không cần phải duyệt trên toàn bộ cơ sở dữ liệu. Xuất phát từ ý tưởng nêu trên, cũng như kết quả nghiên cứu ưu, nhược điểm của các giải thuật lập chỉ mục, luận án phát triển kỹ thuật đối sánh mẫu dựa trên phương pháp lập chỉ mục lượng tử tích đề các PQ, một trong những giải pháp hiệu quả cho việc mã hóa đặc trưng và tìm kiếm ANN. Tìm kiếm ANN cho hiệu quả cao với cấu trúc file đảo ngược đa chiều (multiple inverted file structure), một danh sách ngắn dựa trên bảng tra cứu và phương pháp tính khoảng cách bất đối xứng. PQ đã được chứng minh là có nhiều ưu điểm nhất so với các phương pháp khác và hoạt động rất hiệu quả cho nhiều cơ sở dữ liệu đặc trưng. Sau sự thành công của kỹ thuật PQ, nhiều tác giả đã đề xuất các cải tiến PQ, điển hình là tối ưu hóa PQ (optimized product quantization - OPQ) [24] và tối ưu hóa cục bộ PQ (local optimization product quantization - LOPQ) [41]. Ý tưởng chính của kỹ thuật OPQ là tối ưu hóa quá trình phân hoạch không gian của PQ sao cho các không gian con có thể mô tả tốt nhất/chính xác nhất các phân bố thuộc về bản chất bên trong của dữ liệu. Mặc dù OPQ cho kết quả tốt hơn PQ nhưng nó lại không hiệu quả trong trường hợp dữ liệu hình thành các 34 phân bố đa mô hình (mutli-model distribution). Do vậy, kỹ thuật LOPQ tiếp tục tối ưu hóa kỹ thuật OPQ bằng cách áp dụng tư tưởng của OPQ cho các phân bố hay cụm cục bộ của dữ liệu thay vì thực hiện trên toàn bộ dữ liệu. Dù đã được cải tiến nhiều nhưng tất các các kỹ thuật PQ ở trên đều có chung nhược điểm đó là chi phí bộ nhớ và thời gian khá cao khi huấn luyện các codebooks. 1.2.3. Các kỹ thuật hoàn thiện video Như đã được đề cập trong phần giới thiệu bài toán, sau khi phát hiện đối tượng trong video, hiểu được nội dung video thông qua quá trình phân tích thì video có thể được hiệu chỉnh tùy theo mục đích sử dụng như thay thế, loại bỏ đối tượng tìm thấy khỏi video, chèn đối tượng mới vào video, thêm hiệu ứng, nâng cao chất lượng ... a) video gốc b) video hoàn thiện Hình 1.10. Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting [92] Tiến trình hiệu chỉnh video sẽ làm xuất hiện các vùng trống hay bị phá hủy cần được hoàn thiện trong quá trình hậu xử lý. Tiến trình khôi phục, tái tạo, 35 hoàn thiện các vùng này được thực hiện bằng kỹ thuật video inpainting. Hình 1.10 minh hoạ một ứng dụng của kỹ thuật video inpainting. Trong ứng dụng này đối tượng được định vị trong hình vuông màu đỏ (ảnh 1.10.a) bị loại bỏ. Các điểm ảnh bị mất mát thông tin trong video được hoàn thiện bởi dữ liệu lân cận theo một cách nào đó nhằm tạo ra ảnh mới tương đồng với ảnh gốc nhất theo cách hợp lý, có thể chấp nhận được so theo cảm nhận của thị giác. Để đạt được mục tiêu khôi phục ảnh bị phá hủy thành ảnh nguyên bản, các khoảng trống hay phần bị phá hủy phải được lấp đầy bằng các điểm ảnh tương tự. Dựa trên nguyên lý lấp đầy các vùng ảnh bị phá hủy theo cấu trúc và kết cấu của vùng ảnh lân cận, các kỹ thuật inpainting đã được nghiên cứu và phát triển theo hai cách tiếp cận dựa trên lấy mẫu (Patch-based inpainting) [21] [7] [6] [47] [8] [64], hoặc dựa trên mạng CNN (CNN-based inpainting) [87] [64] [90] [36] [73] [18] [81] [29]. 1.2.3.1. Video inpainting dựa trên lấy mẫu Lấp đầy các vùng trống được tạo ra do bị phá hủy sử dụng tổng hợp kết cấu dựa trên lấy mẫu là kỹ thuật truyền thống được sử dụng nhiều nhất cho bài toán inpainting ảnh. Kỹ thuật này được giới thiệu lần đầu trong nghiên cứu [21], trong đó các phần ảnh bị mất được khôi phục theo cách gia tăng vùng hoàn thiện từ mép ngoài vào trong tâm vùng bằng cách tìm kiếm các bản mẫu thích hợp và ghép chúng với nhau theo một thứ tự ưu tiên nhất định. Để tìm kiếm nhanh các mảnh ghép phù hợp, Barnes và các cộng sự đã đề xuất một thuật toán PatchMatch [7] nhằm khai thác sự kết dính trong ảnh, và được tổng quát hóa [6] để tìm ra K mẫu lân cận gần nhất. Dựa trên các nghiên cứu này, có nhiều khuynh hướng khác nhau để cải thiện việc tìm kiếm và tối ưu hóa thứ tự ghép mẫu [47] [8]. Phương pháp này cũng được điều chỉnh phù hợp với bài toán video inpainting bằng cách thay thế quá trình tổng hợp mẫu 2D bằng quá trình tổng hợp mẫu không gian-thời gian 3D qua các frame. Sự mở rộng này lần đầu tiên được đề xuất trong [86] nhằm duy trì tính nhất quán 36 về thời gian của video tái tạo. Sau đó chúng được cải thiện trong nghiên cứu [81] để xử lý video đầu vào phức tạp hơn. Điểm nổi bật của phương pháp này là có thể áp dụng hiệu quả cho các vùng trống kích thước lớn, nhưng chỉ cho các vùng có cấu trúc và kết cấu đơn giản và phải tìm được đầy đủ các mẫu để lấp đầy vùng trống. Đặc biệt, hiệu quả cao với video có thường nội dung lặp đi lặp lại qua các frame. Phần lớn các giải thuật dựa trên lấy mẫu đều vận dụng chiến lược tham lam xử lý vấn đề ưu tiên vị trí cần hoàn thiện trước. Vì vậy các giải thuật này chịu sự tác động của chiến lược tham lam, chiến lược tốt cho kết quả tốt và ngược lại. Chúng không thể giải quyết trường hợp các phần bị mất mát không thể được thay thế bằng nội dung tương tự từ dữ liệu đầu vào tức là thiếu mẫu ghép. Nhằm khắc phục nhược điểm này, để khôi phục một tập dữ liệu video lớn, phương pháp tối ưu là huấn luyện một mạng CNN để dự đoán các thông tin bị mất dựa trên sự thấu hiểu ngữ cảnh mức cao. 1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D Thời gian gần đây, với sự phát triển mạnh của DCNN cũng như rất nhiều thành tựu mà DCNN mang lại trong lĩnh vực thị giác máy tính, nhiều nghiên cứu đã áp dụng mạng này cho bài toán inpainting ảnh và đạt được nhiều thành công vượt bậc so với cách tiếp cận truyền thống. DCNN lần đầu được giới thiệu trong nghiên cứu [87] cho bài toán inpainting ảnh nhưng với các vùng trống có kích thước nhỏ. Sau đó Pathak và các cộng sự trong nghiên cứu [64] đã đề xuất phương pháp giải quyết bài toán hoàn thiện các vùng trống kích thước lớn sử dụng một kiến trúc mạng encoder-decoder có thể học các đặc trưng ngữ cảnh của ảnh rất hiệu quả. Đối với bài toán inpainting ảnh độ phân giải cao, Yang và các cộng sự [90] kết hợp giữa inpainting dựa trên lấy mẫu và inpainting dựa trên DCNN, kết quả từ bộ mã hóa nội dung được lấy làm đầu vào cho tiến trình thẩm thấu thông tin kết cấu từ các vùng nguồn sang làm đầy các vùng đích. Mặc dù các thành phần lạ không thường xuyên xuất hiện nhưng vẫn còn tồn tại một số vùng có vết mờ. Thuật toán được đề xuất trong [36] tiếp tục cải thiện 37 hiệu năng bằng cách kết hợp hai hàm mất mát thông tin đối kháng để ước lượng tính nhất quán toàn cục và cục bộ thu được. Khác với các nghiên cứu trước đây chỉ tập trung vào lấp đầy các vùng trống dạng hộp, nghiên cứu này còn phát triển một chiến lược để xử lý các vùng trống với hình dạng tùy ý. Mở rộng các phương pháp này cho video là một tác vụ đầy khó khăn, thử thách, bởi hoàn thiện video không chỉ cần hiểu ngữ cảnh của cả các frame và các chuyển động, mà còn đòi hỏi phải đảm bảo sự mượt mà theo thời gian của video đầu ra. 1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D Một loạt các nghiên cứu khác liên quan đến vấn đề video inpainting là sử dụng DCNN với bộ lọc 3D để hoàn thiện các hình dạng 3D. Tương tự như các phương pháp image inpainting dựa trên học sâu, hầu hết các phương pháp như [73] [18] sử dụng kiến trúc encoder-decoder nhưng với bộ lọc 3D để giải quyết vấn đề này. Tuy nhiên, tất cả các kỹ thuật này chỉ có thể xử lý các lưới ma trận ảnh có độ phân giải thấp (thường là 303 voxels – điểm ảnh ba chiều) do chi phí tính toán cao của các phép tích chập 3D. Để giảm chi phí tính toán, nhiều cách tiếp cận mới gần đây nhất được đề xuất. Sử dụng một bộ dữ liệu, Dai và các cộng [18] đã sử dụng truy xuất mẫu và ráp các bản mẫu như một quá trình hậu xử lý để tinh chỉnh đầu ra có độ phân giải thấp của kiến trúc encoder-decoder. Đối với quá trình hậu tinh chỉnh như vậy, nghiên cứu [83] đã đề xuất một chiến lược chia đầu ra độ phân giải thấp thành một chuỗi ảnh và thực hiện siêu phân giải và hoàn thiện từng ảnh với mạng nơron hồi quy. Han và cộng sự [29] đã thiết kế một mạng lai để kết hợp dự đoán cấu trúc toàn cục và trích xuất không gian cục bộ. 38 Kết luận chương 1 Trong chương này tổng quan về mô hình phát hiện và thay thế đối tượng đã được đề xuất gồm 4 pha và được luận án tập trung nghiên cứu các kỹ thuật phù hợp cho từng pha. Các kỹ thuật sử dụng trong tiến trình phát hiện đối tượng như: mô hình dò tìm đối tượng trong video, các kỹ thuật nhận dạng hình thể của đối tượng trong video được trình bày. Các kỹ thuật trong tiến trình thay thế đối tượng gồm: phân vùng, trích chọn vùng hiển thị của đối tượng, mô hình hoàn thiện vùng bị phá hủy trong video tạo ra khi xóa bỏ, thay thế đối tượng đã được nghiên cứu, trình bày tổng quan. Thông qua tìm hiểu và đánh giá ở mức tổng quan này, ưu điểm, hạn chế của các nghiên cứu liên quan đến các kỹ thuật dò tìm đối tượng, nhận dạng hình dạng của đối tượng và hoàn thiện video đã được nhận diện và từ đó đưa ra hướng nghiên cứu phù hợp nhất cho bài toán phát hiện và thay thế đối tượng tự động trong video. Cụ thể, luận án nghiên cứu cải tiến mô hình dò tìm đối tượng dựa trên DCNN, kỹ thuật nhận dạng hình dáng đối tượng bằng phương pháp tìm kiếm ANN trên tập dữ liệu vector đặc trưng đã được lập chỉ cho bài toán phát hiện đối tượng. Nghiên cứu cải tiến mạng DCNN sử dụng trong pha thay thế đối tượng và hoàn thiện video. 39 CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO Phát hiện đối tượng bao gồm hai tiến trình dò tìm và nhận dạng hình dạng đối tượng là nhiệm vụ cốt lõi trong các hệ thống thị giác máy tính nói chung và trong hệ thống thay thế đối tượng nói riêng. Mục đích của chương này là trình bày các mô hình cải tiến dùng để dò tìm và nhận dạng hình dạng đối tượng theo thời gian thực với độ chính xác cao. Tốc độ phát hiện (>30 frame mỗi giây) là yếu tố then chốt trong việc lựa chọn mô hình để cải tiến. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLOv3 phù hợp với các ràng buộc đã được đưa ra trong phần mở đầu cho bài toán dò tìm và trích chọn đặc trưng đối tượng quảng cáo nhằm gia tăng độ chính xác trong khi vẫn duy trì tốc độ theo thời gian thực. Sau đó kỹ thuật PSVQ được phát triển dựa trên cách tiếp cận PQ kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng trong tập đối tượng có sẵn có hình dạng tương đồng nhất với đối tượng đã được tìm thấy trong video theo các đặc trưng đã trích chọn. Cụ thể, mô hình dò tìm đối tượng cải tiến được trình bày chi tiết trong phần 2.1 cùng với các thực nghiệm dùng để đánh giá, ước lượng mức độ hiệu quả cua mô hình cải tiến và so sánh với các mô hình khác trên tập dữ liệu mới Flickrlogo-47. Tiếp theo phần 2.2 trình bày chi tiết kỹ thuật PSVQ và phương pháp tìm kiếm ANN dựa trên cây phân cụm thứ bậc sự kết hợp với PSVQ cho bài toán tìm kiếm, nhận dạng hình dạng của đối tượng. Cuối cùng là các kết quả thực nghiệm chứng minh mức độ hiệu quả của các giải thuật cải tiến. 2.1. Dò tìm đối tượng trong video Các mô hình dò tìm đối tượng hai trạng thái và một trạng thái đều có ưu điểm và nhược điểm riêng của nó. Với mô hình hai trạng thái cho độ chính xác cao tuy nhiên tốc độ thực thi lại rất chậm. Trong khi đó mô hình một trạng thái đặc biệt là họ mô hình dò tìm đối tượng YOLO cho độ chính xác thấp hơn nhưng lại đạt tốc độ xử lý rất nhanh phù hợp cho các ứng dụng xử lý video. Vì vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO phiên bản mới nhất 40 YOLOv3 nhằm cân bằng giữa hiệu suất thực thi và độ chính xác phù hợp với đối tượng quảng cáo. Tốc độ của mô hình cải tiến được duy trì theo thời gian thực (>30 frame trong một giây), độ chính xác cũng cải thiện, mAP đạt ở mức cao (>80%) khi áp dụng cho bài toán phát hiện đối tượng quảng cáo. Trong nội dung phần này, mô hình dò tìm đối tượng YOLO cùng các phiên bản của nó YOLOv2, YOLOv3 được trình bày khái quát trong phần 2.1.1. Chi tiết các cải tiến phù hợp với bài toán nhận dạng đối tượng quảng cáo được trình bày trong phần 2.1.2. Cuối cùng, các kết quả thực nghiệm trên tập flickrlogos-47 được trình bày trong phần 2.1.3. 2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO Năm 2016, Redmon và các cộng sự đã đề xuất mô hình dò tìm đối tượng đầu-cuối YOLO [68]. Đây là mô hình dò tìm đối tượng một trạng thái, thống nhất toàn bộ các thành phần riêng biệt trong quá trình dò tìm đối tượng vào một mạng nơron duy nhất. YOLO sử dụng đặc trưng từ toàn bộ bức ảnh để dự đoán bounding box cho tất cả các lớp đối tượng. Hình 2.1. Ý tưởng chính của mô hình YOLO Ý tưởng chính của mô hình YOLO được biễu diễn trong hình 2.1. Ảnh đầu vào sẽ được chia thành một lưới gồm 푆푥푆 ô vuông (grid cell), dự đoán B bounding box và C xác suất phân lớp cho mỗi grid cell. Mỗi bounding box trong cell thứ i chứa 5 thành phần dự đoán: 푥, 푦, 푤, ℎ và chỉ số đối tượng (Confidence score). Trong đó, các giá trị 푤 và ℎ biểu diễn kích thước chiều ngang và chiều dọc tương đối của bounding box so với kích thước toàn bộ bức ảnh. Các giá trị (푥, 푦) biểu diễn tọa độ tương đối của tâm đối tượng so với viền 41 grid cell. Confidence score phản ánh độ tin cậy tồn tại đối tượng chứa bên trong bounding box, và được định nghĩa theo công thức sau: 푡푟푢푡ℎ Confidence score = Pr(표푏푗) ∗ 퐼표푈푝푟푒푑 (2.1) Hình 2.2. Cách tính IoU Trong phương trình (2.1), Pr(표푏푗) có giá trị trong khoảng [0,1] là xác 푡푟푢푡ℎ xuất đối tượng rơi vào trong ô hiện tại. 퐼표푈푝푟푒푑 (Intersection Over Union - IoU) là tỉ lệ trùng khớp của bounding box dự đoán so với hộp bao thực tế (ground-truth box) (được minh họa trong hình 2.2). Tỷ lệ IoU càng cao thì độ so khớp càng tốt. Kết quả dự đoán đưa ra rất nhiều bounding box, các bounding box với chỉ số đối tượng bé hơn một ngưỡng xác định trước sẽ bị loại bỏ. Sau đó, thuật toán loại bỏ điểm không cực đại (Non-Maxima Suppression - NMS) [61] được sử dụng để loại bỏ các bounding box không cần thiết. Để cải tiến độ chính xác dự đoán của mô hình YOLO, Redmon và các cộng sự đã đề xuất một phiên bản YOLOv2 vào năm 2017 [69]. Kiến trúc mạng Darknet-19 cải tiến bằng cách loại bỏ các tầng kết nối đầy đủ của mạng Darknet-19 nguyên bản để thay thế cho kiến trúc mạng VGG-16 trong phiên bản YOLO. Đồng thời chuẩn hóa cụm (batch normalization-BN) [37] được áp dụng cho từng tầng. Bên cạnh đó, sử dụng ý tưởng cơ chế hộp neo (anchor box) của mạng dò tìm đối tượng CNN nhanh dựa trên đề xuất vùng (Faster R-CNN), giải thuật phân cụm k-means được sử dụng để xác định các hộp neo này. So với YOLO, YOLOv2 có sự cải thiện lớn cả về độ chính xác và tốc độ dò tìm đối tượng. 42 YOLOv3 [70] tiếp tục được phát triển với một số cải tiến từ YOLOv2 nhằm gia tăng độ chính xác trong dò tìm đối tượng đặc biệt với các đối tượng nhỏ. Cải tiến cốt lõi là sử dụng kiến trúc mạng dạng hình tháp đặc trưng, biến thể của kiến trúc Darknet-53, gồm 106 tầng nhân chập đầy đủ để nhận dạng đối tượng ở ba mức tỷ lệ khác nhau. Trong đó tầng 13x13 chịu trách nhiệm dò tìm đối tượng lớn, trong khi tầng 52x52 dò tìm đối tượng nhỏ và 26x26 dò tìm các đối tượng vừa. Ngoài ra còn một số cải tiến nhỏ khác như: sử dụng bộ phân lớp logistic thay cho softmax tạo ra phân lớp đa tỷ lệ, sử dụng 9 anchor box với 3 anchor box cho mỗi tỷ lệ. Do sử dụng kiến trúc mạng lớn, phân lớp 3 tầng nên độ chính xác trong dò tìm các đối tượng nhỏ được cải thiện nhưng tốc độ thực thi lại giảm đi đáng kể. Bên cạnh đó, họ YOLO là mô hình dò tìm đối tượng tổng quát, ứng dụng thích hợp cho các trường hợp mà các đối tượng dò tìm có sự đa dạng, phức tạp về hình thể và sự khác biệt giữa các lớp đối tượng là tương đối lớn như lớp người, con vật, đồ vật. Tuy nhiên, với các đối tượng quảng cáo không quá phức tạp về cấu trúc. Hơn nữa, sự khác biệt giữa các lớp đối tượng quảng cáo không quá lớn. Do đó, để dò tìm đối tượng quảng cáo tốt hơn, luận án đã cải tiến mô hình YOLOv3 thành mô hình YOLO-Adv, dò tìm đối tượng quảng cáo qua các frame của video đạt được hiệu năng tốt trên cả tập dữ liệu kiểm thử và một số tập dữ liệu tương tự khác. 2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv 2.1.2.1. Cải tiến trong hàm loss Với bài toán dò tìm đối tượng quảng cáo đính kèm với nội dung trong video, hình ảnh quảng cáo xuất hiện thường xuyên có sự thay đổi về kích thước do sự phóng to thu nhỏ theo sự tập trung vào đối tượng cần theo dõi hay sự di chuyển camera lại gần hoặc ra xa đối tượng này mặc dù các đối tượng là cố định. Kích thước đối tượng có tác động không nhỏ khi huấn luyện mô hình dò tìm đối tượng CNN. Đối tượng có kích thước càng lớn thì độ lỗi càng lớn so 43 với các đối tượng nhỏ làm cho mức độ hội tụ của mô hình sẽ chậm hơn. Để giảm sự ảnh hưởng về kích thước đối tượng lên mô hình, hàm lỗi theo kích thước của bounding box được cải tiến bằng cách so sánh độ đo tương đối giữa các cạnh của bounding box thay vì độ đo tuyệt đối giữa chúng như trong hàm loss gốc. Hàm loss nguyên bản trong họ YOLO được tổng hợp từ: độ lỗi dự đoán vị trí (localization loss) gồm: tọa độ, chiều dọc, chiều ngang của bounding box, độ lỗi xác định ô đang xét có chứa đối tượng hay không (confidence loss), và độ lỗi trong việc dự đoá...h đường. Nguyên nhân là do bị ảnh hưởng của kích thước mặt nạ - vùng tái tạo. Khi kích thước càng lớn thì mức độ hiệu quả, tính chân thực của video tái tạo càng giảm. Mô hình cải tiến chỉ đặt biệt hiệu quả khi độ dày của vùng bị phá huỷ là bé. 109 Kết luận chương 3 Trong chương này, để trích chọn chính xác vùng chứa đối tượng, luận án đã sử dụng, kế thừa mô hình phân vùng thực thể đối tượng được trong nghiên cứu [15]. Chi tiết mô hình này được trình bày một cách khái quát. Mặc dù độ chính xác và thời gian phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp hơn so với mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm về chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn luyện nên giải thuật vẫn được luận án sử dụng để phân vùng đối tượng. Tiếp theo, mô hình cải tiến video inpainting V-RBPConv gồm hai bộ phận là bộ phận sinh ảnh và bộ phận đối sánh ảnh theo thời gian được được trình bày chi tiết. Trong cải tiến này mô hình tái tạo, hoàn thiện ảnh RBPconv được sử dụng thay thế cho mô hình 3Dgated trong phần sinh ảnh. Bộ đối sánh Temporal PathGAN được sử dụng nguyên bản trong nghiên cứu [39] để duy trì tính kết cấu về mặt thời gian trong video. Hàm loss trong mạng V-RBPConv được mở rộng từ hàm loss trong mô hình kiến trúc RBPconv bằng cách bổ sung thêm thành phần lỗi trong GAN. Cuối cùng, các kết quả thực nghiệm cho các mô hình cải tiến RBPConv và V-RBPCon được trình bày. Cụ thể, mô hình RBPConv cho thấy kết quả ảnh tái tạo có tính chân thực cao thể hiện qua các kết quả định tính dựa trên ảnh tái tạo trực quan và định lượng thông qua các chỉ số đo SSIM hay PSNR. Mô hình V-RBPCon tái tạo ra video có tính nhất quán cao về thời gian, ước lượng định tính và định lượng qua thực nghiệm trên tập dữ liệu FVI với các dạng mặt nạ hình đường và hình điểm đã minh chứng cho kết quả này. 110 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Luận án đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán hậu xử lý, hiểu video gồm các kỹ thuật dò tìm đối tượng, nhận dạng tư thế/hình dạng của đối tượng trong video và hoàn thiện video sau khi thay thế đối tượng. Trên cơ sở khảo sát và phân tích các nghiên cứu liên quan, luận án đã tập trung nghiên cứu, giải quyết hai vấn đề quan trọng trong lĩnh vực thị giác máy tính liên quan đến bài toán hiểu video gồm: phát hiện đối tượng trong video và hoàn thiện video sau khi chỉnh sửa, thay thế đối tượng nhận dạng được. Cụ thể, cải tiến các kỹ thuật dò tìm đối tượng trong video dựa trên DCNN tiên tiến. Cải tiến các kỹ thuật nhận dạng tư thế/hình dạng của đối tượng trong video dựa trên cách tiếp cận lập chỉ mục, tìm kiếm và đối sánh mẫu. Sử dụng mô hình sẵn có để phân vùng đối tượng trong ảnh. Cải tiến kỹ thuật video inpainting dựa trên DCNN sau khi hiệu chỉnh nội dung như xóa bỏ chèn đối tượng vào video. Một số kết quả đạt của luận án cụ thể như sau: - Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo hướng tiếp cận sử dụng mạng DCNN. Mô hình YOLO-Adv cải tiến từ kiến trúc mạng YOLO được dùng để phân lớp, xác định vị trí bao quanh đối tượng tìm thấy và trích trọn ra vector đặc trưng của đối tượng này. Mô hình cải tiến có tính tổng quát cao, tốc độ thực thi đáp ứng thời gian thực được áp dụng cho nhận dạng đối tượng quảng cáo trong video. - Nâng cao độ chính xác, tốc độ thực thi phương pháp lập chỉ mục vector đặc trưng ứng dụng để nhận dạng tư thế/hình dạng của đối tượng. Tập dữ liệu các tư thế/hình dạng của đối tượng được trích chọn đặc trưng, lập chỉ mục bằng kỹ thuật PSVQ cải tiến từ PQ. Sau đó, tiến trình tìm kiếm xấp xỉ dựa trên cây phân cấp thứ bậc được sử dụng để tìm ra tư thế/hình dạng thích hợp nhất của đối tượng. - Cải tiến mô hình video inpainting V-RBPconv gia tăng tốc độ, độ chính xác, hiệu năng thực thi, bảo toàn tính kết cấu về không gian và thời gian khi 111 hoàn thiện, tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng và kích thước bất kỳ, độ dày không quá lớn. Mô hình cải tiến là sự kết hợp giữa kỹ thuật inpainting ảnh RBPconv với bộ phân biệt Temporal PatchGAN. Tuy nhiên, luận án còn một số hạn chế: - Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho cả 2 pha: phát hiện, thay thế đối tượng trong video - Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành video để phân đoạn video, trích chọn key frame và tính nhất quán về thời gian trong nhận dạng hình thể của đối tượng chưa được xét đến; - Chưa đề xuất được mô hình đầu cuối cho bài toán nhận dạng, phân vùng đối tượng. Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là: (1) Phát triển bộ dữ liệu huấn luyện gồm bộ ảnh huấn luyện cho bài toán phát hiện đối tượng, bộ dữ liệu video chứa các vùng trống do ảnh thay thế ảnh trong giai đoạn phát hiện. (2) Nghiên cứu các yếu tố cấu thành video, định dạng video, tính nhất quán về thời gian trong nhận dạng hình thể của đối tượng trong video; (3) Nghiên cứu đề xuất mô hình DCNN để có thể đồng thời dò tìm, nhận dạng và phân vùng các đối tượng tìm thấy. 112 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN [CT1] “Cải tiến kiên trúc mạng Yolo cho bài toán nhận dạng logo” TNU Journal of Science and Technology, vol. 200, no. 07, pp. 199-205, 2019. [CT2] “A review of feature indexing methods for fast approximate nearest neighbor search” 5th NAFOSTED Conference on Information and Computer Science (NICS), pp. 372 – 377, 2018. [CT3] “Hierarchical product quantization for effective feature indexing” ICT, 26th International Conference on Telecommunications, pp. 386 – 390, April 8-10-2019. [CT4] “Product sub-vector quatization for feature indexing” Jounal of Computer Science and Cybernetics, vol. 35, no. 11, pp. 69-83, 2019. [CT5] “Hoàn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng kiến trúc mạng thặng dư và tích chập từng phần” TNU Journal of Science and Technology, vol. 208, no. 15, pp. 19-26, 2019. [CT6] “A study on parameter tuning for optimal indexing on large scale datasets”, Journal of Science and Technology on Information and Communications, 2020. 113 TÀI LIỆU THAM KHẢO Tiếng Anh [1] Anh P. T. (2017), "Pair-wisely optimized clustering tree for feature indexing," Computer Vision and Image Understanding, vol. 154, no. 1, pp. 35-47. [2] Anh P. T. (2018), "Improved embedding product quantization," Machine Vision and Applications, In Press. [3] Anh P. T., Toan D. N. (2018), "Embedding hierarchical clustering in product quantization for feature indexing," Multimed Tools Appl. [4] Arafat S. Y., Husain S. A., Niaz I. A., Saleem M. (2010), "Logo detection and recognition in video stream," IEEE International Conference on Digital Information Management, pp. 163-168. [5] Bao Y., Li H., Fan X., Liu R., Jia Q. (2016), "Region-based cnn for logo detection," ACM International Conference on Internet Multimedia Computing and Service, ICIMCS’16, p. 319–322. [6] Barnes C., Shechtman E., Goldman D. B., Finkelstein A. (2010), "The generalized patchmatch correspondence algorithm.," European Conference on Computer Vision,Springer, pp. 29-43. [7] Barnes C., Shechtman,E., Finkelstein A., Goldman D. B. (2009), "Patchmatch: a randomized correspondence algorithm for structural image editing," ACM Transactions on Graphics (TOG), vol. 28, p. 24. [8] Barnes C., Zhang F. L., Lou L., Wu X., Hu S. M. (2015), "Patchtable: Efficient patch queries for large datasets and applications.," ACM Transactions on Graphics (TOG), vol. 34, no. 4, p. 97. [9] Bay H., Ess A., Tuytelaars T., Gool L. V. (2008), "Speeded-Up Robust Features (SURF)," Computer Vision and Image Understanding, vol. 110, no. 3, pp. 346-359. [10] Bertalmio M., Sapiro G., Ballester C., Caselles V. (2000), "Image inpainting," ACM Trans. on Graphics (SIGGRAPH), pp. 417-424. [11] Bolya D., Zhou C., Xiao F., Lee Y. J. (2019), "Yolact: Real-time instance segmentation," arXiv preprint arXiv:1904.02689. 114 [12] Bombonato L., Camara-Chavez G., Silva P. (2018), "Real-time brand logo recognition," Progress in Pattern Recognition, Image Analysis, Computer Vision, and Applications, p. 111–118. [13] Cai G., Chen L., Li J. (2003), "Billboard advertising detection in sport tv," Signal Processing and Its Applications, 2003 Proceedings. Seventh International Symposium on, vol. 1, pp. 537-540. [14] Chang Y. L., Liu Z. Y., Hsu W. (2019), "Free-form Video Inpainting with 3D Gated Convolution and Temporal PatchGAN," arXiv:1904.10247v3. [15] Chen L. C., Papandreou G., Kokkinos I., Murphy K., Yuile A. L. (2018), "Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs," PAMI, vol. 40, no. 4, pp. 834-848. [16] Chen Y., Guan T., Wang C. (2010), "Approximate nearest neighbor search by residual vector quantization," Sensors, vol. 10, no. 12, pp. 11259- 11273. [17] Covell M., Baluja S., Fink M. (2006), "Advertisement detection and replacement using acoustic and visual repetition," Multimedia Signal Processing, 2006 IEEE 8th workshop on, pp. 461-466. [18] Dai A., Qi C. R., Nießner M. (2017), "Shape completion using 3d- encoder-predictor cnns and shape synthesis," Proc. IEEE Conf. on Computer Vision and Pattern Recognition (CVPR), vol. 3. [19] Dalal N., Triggs B. (2005), "Histograms of oriented gradients for human detection," IEEE Conference on Computer Vision and Pattern Recognition, vol. 1, p. 886–893. [20] Deng J., Dong W., Socher R., Li L. J., Li K., and Fei-Fei L. (2009), "Imagenet: A large-scale hierarchical image database," CVPR. [21] Efros A. A., Leung T. K. (1999), "Texture Synthesis by Non- parametric Sampling," Computer Vision, 1999. The Proceedings of the Seventh IEEE International Conference, vol. 2, pp. 1033-1038. [22] Felzenszwalb P. F., Huttenlocher D. P. (2005), "Pictorial structures for object recognition," International Journal of Computer Vision, vol. 61, no. 1, pp. 55-79. 115 [23] Feng Z., Neumann J. (2013), "Real time commercial detection in videos,". [24] Ge T., He K., Ke Q., Sun J. (2014), "Optimized product quantization," IEEE Trans. Pattern Anal. Mach. Intell, vol. 36, no. 4, pp. 744-755. [25] Girshick R. (2015), "Fast r-cnn," ICCV. [26] Girshick R., Donahue J., Darrell T., Malik J. (2014), "Rich feature hierarchies for accurate object detection and semantic segmentation," IEEE Conference on Computer Vision and Pattern Recognition, p. 580–587. [27] Gonzalez R., and Wood R. (2009), "Digital Image Processing," Pearson Edn. [28] Haar A. (1910), "Zur theorie der orthogonalen funktionensysteme," Mathematische Annalen, vol. 69, no. 3, p. 331–371. [29] Han X., Li Z., Huang H., Kalogerakis E., Yu Y. (2017), "High- resolution shape completion using deep neural networks for global structure and local geometry inference," IEEE International Conference on Computer Vision (ICCV). [30] He K., Gkioxari G., Dollar P.,Girshick R. B. (2017), "Mask r-cnn," ICCV. [31] He K., Zhang X., Ren S., Sun J. (2016), "Deep residual learning for image recognition," Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778. [32] Heusel M., Ramsauer H., Unterthiner T., Nessler B., and Hochreiter S. (2017), "Gans trained by a two time-scale update rule converge to a local nash equilibrium," Advances in Neural Information Processing Systems, p. 6626–6637. [33] Hoi S. C. H., Wu X., Liu H., Wu Y., Wang H., Xue H., Wu Q. (2015), "Logo-net: Large-scale deep logo detection and brand recognition with deep region-based convolutional networks," abs/1511.02462. [34] Hussain Z., Zhang M., Zhang X., Ye K., Thomas C., Agha Z., Ong N., Kovashka A. (2017), "Automatic understanding of image and video advertisements," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1100-1110. 116 [35] Iandola F. N., Shen A., Gao P., Keutzer K. (2015), "Deeplogo: hitting logo recognition with the deep neural network hammer," arXiv preprint arXiv: 1510.02131. [36] Iizuka S., Simo-Serra E., Ishikawa H. (2017), "Globally and locally consistent image completion," ACM Transactions on Graphics (TOG), vol. 36, no. 4. [37] Ioffe S., Szegedy C. (2005), "Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift," Proceedings of the International Conference on Machine Learning, p. 448–456. [38] Jégou H., Douze M., Schmid C. (2011), "Product Quantization for Nearest Neighbor Search," IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 1, p. 117–128. [39] Johnson J., Alahi A., Fei-Fei L. (2016), "Perceptual losses for real- time style transfer and super-resolution," European Conference on Computer Vision, p. 694–711. [40] Joly A., Buisson O. (2009), "Logo retrieval with a contrario visual query expansion.," ACM International Conference on Multimedia, pp. 581- 584. [41] Kalantidis Y., Avrithis Y. (2014), "Locally optimized product quantization for approximate nearest neighbor search," Proceedings of International Conference on Computer Vision and Pattern Recognition (CVPR 2014), Columbus, Ohio. [42] Ke Y., Sukthankar R. (2004), "PCA-SIFT: A More Distinctive Representation for Local Image Descriptors," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, vol. 2, pp. 506- 513. [43] Kent A., Berry M. M., Luehrs Jr., Fred U., Perry J. W. (1995), "Machine literature searching VIII. Operational criteria for designing information retrieval systems," American Documentation, vol. 6, no. 2, p. 93. [44] Khoreva A., Benenson R., Hosang J. H., Hein M., Schiele B. (2017), "Simple does it: Weakly supervised instance and semantic segmentation," In CVPR. 117 [45] Kingma D. P., Ba J. L., Adam (2015), "A method for stochastic optimization," international conference on learning representations. [46] Krizhevsky A., Sutskever I., Hinton G. E. (2012), "Imagenet classifcation with deep convolutional neural networks," Advances in Neural Information Processing Systems, p. 1097–1105. [47] Kwatra V., Essa I., Bobick A., Kwatra N. (2005), "Texture optimization for example-based synthesis," ACM Transactions on Graphics (ToG), vol. 2005, pp. 795-802. [48] Laradji I. H., Vazquez D., Schmidt M. (2019), "Where are the Masks: Instance Segmentation with Image-level Supervision," arXiv:1907.01430. [49] Lienhart R., Maydt J. (2002), "An extended set of haar-like features for rapid object detection," IEEE International Conference on Image Processing, vol. 1. [50] Liu G., Reda F. A., Shih K. J., Wang. T. C., Tao. A., Catanzaro B. (2018), "Image inpainting for irregular holes using partial convolutions," arXiv preprint arXiv:1804.07723. [51] Liu H., Jiang S., Huang Q., Xu C. (2008), "A generic virtual content insertion system based on visual attention analysis," ACM MM’08, pp. 379- 388,. [52] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C, Y., and Berg, A, C. (2016), "Ssd: Single shot multibox detector", ECCV. [53] Long J., Shelhamer E., Darrell T. (2015), "Fully convolutional networks for semantic segmentation," IEEE Conference on Computer Vision and Pattern Recognition (CVPR), p. 3431–3440. [54] Lowe D. G. (2004), "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. 91- 110. [55] Mahajan K. S., Vaidya M. B. (2012), "Image in Painting Techniques: A survey," IOSR Journal of Computer Engineering, vol. 5, no. 4, pp. 45-49. [56] Medioni G., Guy G., Rom H.(1998), "Real-Time Billboard Substitution in a Video Stream," Digital Communications. [57] Muja M., Lowe D. G. (2009), "Fast approximate nearest neighbors with automatic algorithm configuration," VISAPP International Conference on Computer Vision Theory and Applications, p. 331–340. 118 [58] Muja M., Lowe D. G. (2014), "Scalable nearest neighbor algorithms for Scalable nearest neighbor algorithms for," IEEE Trans. Pattern Anal. Mach. Intell. 36, p. 2227–2240. [59] Muja M., Lowe, D. G. (2012), "Fast matching of binary features," Proceedings of the Ninth Conference on Computer and Robot Vision (CRV), p. 404–410. [60] Nazeri K., Eric Ng., Joseph T., Qureshi F., Ebrahimi M. (2019), "EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning," arXiv preprint arXiv:1901.00212. [61] Neubeck A., Van Gool L. (2006), "Efficient non-maximum suppression," Proceedings of the International Conference on Pattern Recognition (ICPR); Hong Kong, China. 20–24 August 2006, p. 850–855. [62] Norouzi M., Fleet D. J. (2013), "Cartesian k-means," Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition, CVPR’13, p. 3017–3024. [63] Oliveira G., Frazao X., Pimentel A., Ribeiro B. (2016), "Automatic graphic logo detection via fast region-based convolutional networks," International Joint Conference on Neural Networks, p. 985–991. [64] Pathak D., Krahenbuhl P., Donahue J., Darrell T., Efros A. A. (2016), "Context encoders: Feature learning by inpainting," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, p. 2536–2544. [65] Patwardhan K. A., Sapiro G., Bertalmio M. (2007), "Video inpainting under constrained camera motion," IEEE Trans. on Image Proc. (TIP), vol. 16, no. 2, pp. 545-553. [66] Pinheiro P. O., Lin T. Y., Collobert R., Dollár P. (2016), "Learning to refine object segments," ECCV. [67] Real E., Shlens J., Mazzocchi S., Pan X., Vanhoucke V. (2017), "Youtube-boundingboxes: A large high-precision human-annotated data set for object detection in video," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5296-5305. [68] Redmon J., Divvala S., Girshick R., Farhadi A. (2016), "You only look once: Unifed, real-time object detection.," EEE Conference on Computer Vision and Pattern Recognition, p. 779–788. 119 [69] Redmon J., Farhadi A. (2017), "Yolo9000: better, faster, stronger," Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), p. 6517–6525, 21–26 July. [70] Redmon J., Farhadi A. (2018), "YOLOv3: An Incremental Improvement," arXiv:1804.02767v1. [71] Ren S., He K., Girshick R., Sun J. (2015), "Faster r-cnn: Towards real time object detection with region proposal networks," NIPS, pp. 91-99. [72] Romberg S., Pueyo L. G., Lienhart R., van Zwol R. (2011), "Scalable logo recognition in real-world images," ACM International Conference on Multimedia Retrieval, vol. 8, pp. 1-25. [73] Sharma A., Grau O., Fritz M. (2016), "Vconv-dae: Deep volumetric shape learning without object labels," European Conference on Computer Vision, p. 236–250. [74] Simonyan K., Zisserman A. (2014), "Very deep convolutional networks for large-scale image recognition," CoRR arXiv:1409.1556. [75] Su H., Zhu X., Gong S. (2017), "Deep learning logo detection with data expansion by synthesising context," IEEE Winter Conference on Applications of Computer Vision, p. 530–539. [76] Szegedy C., Wei L., Yangqing J., Sermanet P., Reed S., Anguelov D., Erhan D., Vanhoucke V., Rabinovich A. (2015), "Going deeper with convolutions," IEEE Conference on Computer Vision and Pattern Recognition, pp. 1-9. [77] Timothy K., Shih N. C., Tan J. C., Zhong H. J. (2003), "Video Falsifying by Motion Interpolation and Inpainting". [78] Tursun O., Kalkan S. (2015), "Metu dataset: A big dataset for benchmarking trademark retrieval," IAPR International Conference on Machine Vision Applications, pp. 514-517. [79] Tuzko A., Herrmann C., Manger D., Jurgen B. (2018), "Open Set Logo Detection and Retrieval," International Joint Conference on Computer Vision, Imaging and Computer Graphics Theory and Applications. [80] Uijlings J. R. R., van de Sande K. E. A., Gevers T., Smeulders A. W. M. (2013), "Selective search for object recognition," International Journal of Computer ViVision, vol. 2, no. 104, p. 154–171, September. 120 [81] Venkatesh M. V., Cheung S. S., Zhao J. (2009), "Efficient objectbased video inpainting," Pattern Recognition Letters, vol. 30, no. 2, pp. 168-179. [82] Wang C., Huang H., Han X., and Wang J. (2019), "Video inpainting by jointly learning temporal structure and spatial details," Proceedings of the 33th AAAI Conference on Artificial Intelligence. [83] Wang W., Huang Q., You S., Yang C., Neumann U. (2017), "Shape inpainting using 3d generative adversarial network and recurrent convolutional networks," arXiv preprint arXiv:1711.06375. [84] Watve A., Sural S.( 2008), "Soccer video processing for the detection of advertisement billboards," Pattern Recognition Letters , vol. 29, no. 7, pp. 994-1006. [85] Weber M., Welling M., Perona P. (2000), "Towards automatic discovery of object categories," IEEE Conference on Computer Vision and Pattern Recognition, vol. 2, p. 101–108. [86] Wexler Y., Shechtman E., Irani M. (2007), "Space-time completion of video," IEEE Transactions on pattern analysis and machine intelligence, vol. 29, no. 3. [87] Xie J., Xu L., Chen E. (2012), "Image denoising and inpainting with deep neural networks," Advances in neural information processing systems, pp. 341-349. [88] Xu N., Yang L., Fan Y., Yang J., Yue D., Liang Y., Price B., Cohen S., Huang T. (2018), "Youtube-vos: Sequence-tosequence video object segmentation.," Proceedings of the European Conference on Computer Vision (ECCV), p. 585–601. [89] Yan W. Q., Wang J., Kankanhalli M. S. (2005), "Automatic video logo detection and removal," Springer-Verlag. [90] Yang C., Lu X., Lin Z., Shechtman E., Wang O., Li H. (2017), "High- resolution image inpainting using multi-scale neural patch synthesis," The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 1, p. 3. [91] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Free- form image inpainting with gated convolution," arXiv preprint arXiv:1806.03589. 121 [92] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Generative image inpainting with contextual attention," arXiv preprint arXiv:1801.07892. [93] Zeiler M. D., Fergus R. (2014), "Visualizing and understanding convolutional networks," In Proceedings of the European Conference on Computer Vision, pp. 818-833. [94] Zheng C., Cham T., and Cai J. (2019), "Pluralistic Image Completion," CoRR abs/1903.04227. [95] Zhou W., Bovik A. C., Sheikh H. R., and Simoncelli E. P. (2004), "Image Qualifty Assessment: From Error Visibility to Structural Similarity.," IEEE Transactions on Image Processing, vol. 13, no. 4, p. 600– 612. [96] Zhou Y., Zhu Y., Ye Q., Qiu Q., Jiao J. (2018), "Weakly supervised instance segmentation using class peak response," CVPR. [97] Zhu Q., Wang L., Wu Y., Shi J. (2008), "Contour context selection for object detection: A set-to-set contour matching approach," European Conference on Computer Vision, pp. 774-787. 122 PHỤ LỤC A. Bộ dữ liệu kiểm thử Flickrlogos-47 Flickrlogos-47 được mở rộng, hiệu chỉnh từ bộ dữ liệu flickrlogos-32 rất phổ biến cho bài toán truy vấn ảnh logo. Do được thiết kế cho bài toán truy vấn logo trong ảnh nên yếu điểm lớn nhất của bộ dữ liệu flickrlogos-32 là các chú giải ở mức đối tượng chưa đầy đủ, chi tiết cho bài toán phát hiện logo. Thêm vào đó với flickrlogos-32, mỗi ảnh chỉ xác định một thể hiện logo thuộc duy nhất một nhãn nào đó mặc dù trong ảnh có nhiều thể hiện của một logo hay nhiều logo khác nhau. Điều đó có ý nghĩa trong ngữ cảnh truy vấn ảnh nhưng là một hạn chế cho bài toán nhận dạng. Hình A.1. Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 (bên dưới) được thể hiện trong các bounding box Flickrlogos-47 ra đời không những cập nhật các chú thích còn thiếu cho các nhãn trong ảnh mà còn tách rời, đánh nhãn riêng cho biểu tượng và dòng văn bản minh họa logo, bổ sung thêm nhiều mẫu dữ liệu khác nhằm khắc phục các hạn chế của tập dữ liệu flickrlogos-32. Số lớp trong flickrlogos-47 được nâng lên 47 lớp bằng cách bổ sung thêm ảnh, tách số lớp có trong flickrlogos- 32. Các nhãn hiệu trong flickrlogos-32 gồm cả biểu tượng và ký tự thì được tách thành 2 lớp trong flickrlogos-47. Mỗi ảnh trong flickrlogos-32 chỉ chứa một logo thuộc về một lớp duy nhất thì trong flickrlogos-47 một ảnh có thể có nhiều thể hiện thuộc về cùng một logo hoặc các lớp logo khác nhau. Ảnh nhiễu trong flickrlogos-32 bị loại bỏ trong flickrlogos-47. Một khác biệt nữa của bộ 123 dữ liệu flickrlogos-47 so với flickrlogos-32 là sự đa dạng về kích thước, đặc biệt là xuất hiện nhiều ảnh chứa các logo nhỏ nhằm tạo thêm độ khó cho việc nhận dạng (hình A.1). Hình A.2. Một số ảnh ví dụ trong tập dữ liệu flickrlogos-47 Flickrlogos-47 thực hiện chú thích lại, mỗi ảnh có thể chứa nhiều thể hiện của logo và có thể thuộc vào nhiều lớp khác nhau vì vậy việc gắn các ảnh vào tập huấn luyện và tập kiểm thử cũng phải thay đổi, một ảnh có thể nằm trong đồng thời cả hai tập. Tập ảnh huấn luyện lúc này được hình thành từ 833 ảnh, tập kiểm thử gồm 1402 ảnh. Một thử thách lớn nhất khi phát hiện đối tượng trên tập dữ liệu flickrlogos-47 là các thể hiện của logo thường có kích thước ở nhiều tỷ lệ khác nhau, độ chênh lệch tỷ lệ có thể lớn. Trong đó nhiều thể hiện logo có kích thước tương đối nhỏ, mà các thể hiện của đối tượng có kích thước nhỏ thông thường khó nhận dạng hơn rất nhiều so với các thể hiện có kích thước lớn. Thể hiện logo nhỏ nhất đơn lẽ trong một ảnh trong tập huấn luyện có chiều dài là 15px trong khi thể hiện lớn nhất có chiều dài là 834px. Độ dài trung bình là 99px. Kích thước ảnh trong tập dữ liệu flickrlogos-47 rất đa dạng. Ảnh có kích thước lớn nhất là 1024x768px. Một số hình ảnh minh họa được thể hiện trong hình A.2. Chi tiết về số lượng từng đối tượng được cho trong bảng A.1. 124 Tên lớp Huấn Kiểm Tên lớp Huấn Kiểm luyện thử luyện thử Adidas (Symbol) 37 104 Adidas (Text) 34 71 Aldi 38 88 Apple 30 47 Becks (Symbol) 52 98 Becks (Text) 54 118 BMW 29 51 Carlsberg (Symbol) 30 92 Carlsberg (Text) 40 112 Chimay (Symbol) 45 79 Chimay (Text) 56 83 CocaCola 62 91 Corona (Symbol) 32 54 Corona (Text) 35 59 DHL 51 93 Erdinger (Symbol) 48 70 Erdinger (Text) 33 50 Esso (Symbol) 32 63 Esso (Text) 8 34 FedEx 36 60 Ferrari 29 44 Ford 30 47 Fosters (Symbol) 33 99 Fosters (Text) 43 98 Google 33 50 Guinness (Symbol) 37 80 Guinness (Text) 38 103 Heineken 63 103 HP 43 75 Milka 89 275 nVidia (Symbol) 40 97 nVidia (Text) 40 92 Paulaner (Symbol) 48 69 Paulaner (Text) 30 63 Pepsi (Symbol) 57 194 Pepsi (Text) 54 140 Rittersport 87 202 Shell 34 66 Singha (Symbol) 26 56 Singha (Text) 26 57 Starbucks 43 65 Stellaartois (Symbol) 43 72 Stellaartois (Text) 33 66 Texaco 33 56 Tsingtao (Symbol) 39 91 Tsingtao (Text) 49 95 UPS 34 57 Tổng 1936 4032 Bảng A.1. Số lượng đối tượng cho các tập huấn luyện và kiểm thử của tập dữ liệu FlickrLogo-47. Với mỗi lớp đối tượng, tập huấn luyện chiếm khoảng 33% tổng số đối tượng trong lớp đó. 125 B. Kiến trúc mạng Darknet-53 Kiểu Bộ lọc Kích thước Đầu ra Convolution 32 3 x 3 256 x 256 Convolution 64 3 x 3 / 2 128 x 128 Convolution 32 1 x 1 1x Convolution 64 3 x 3 Residual 128 x 128 Convolution 128 3 x 3 / 2 64 x 64 Convolution 64 1 x 1 2x Convolution 128 3 x 3 Residual 64 x 64 Convolution 256 3 x 3 / 2 32 x 32 Convolution 128 1 x 1 8x Convolution 256 3 x 3 Residual 32 x 32 Convolution 512 3 x 3 / 2 16 x 16 Convolution 256 1 x 1 8x Convolution 512 3 x 3 Residual 16 x 16 Convolution 1024 3 x 3 / 2 8 x 8 Convolution 512 1 x 1 4x Convolution 1024 3 x 3 Residual 8 x 8 Avgpool Global 1000 Connected 1000 Softmax 126 C. Chi tiết kiến trúc mạng RBPconv Input: ảnh (512 x 512 x 3) Kích thước [Tầng 1] ERB(64); 512x512x64 [Tầng 2] ERB(128); Max-pooling 2x2, stride = 2; 256 x 256 x 128 [Tầng 3] ERB(256); Max-pooling 2x2, stride = 2; 128 x 128 x 256 [Tầng 4] ERB (512); Max-pooling 2x2, stride = 2; 64 x 64 x 512 [Tầng 5] ERB (512); Max-pooling 2x2, stride = 2; 32 x 32 x 512 [Tầng 6] ERB (512); Max-pooling 2x2, stride = 2; 16 x 16 x 512 [Tầng 7] ERB (512); Max-pooling 2x2, stride = 2; 8 x 8 x 512 [Tầng 8] ERB (512); Max-pooling 2x2, stride = 2; 4 x 4 x 512 [Tầng 9] ERB (512); Max-pooling 2x2, stride = 2; 2 x 2 x 512 [Tầng 10] ERB (1024);Max-pooling 2x2, stride = 2; 1 x 1 x 1024 [Tầng 11] DRB(512); up-conv 2x2, stride = 2; 2 x 2 x 512 Concatenate (tầng 11, tầng 9) 2 x 2 x 1024 [Tầng 12] DRB(512); up-conv 2x2, stride = 2; 4 x 4 x 512 Concatenate (tầng 12, tầng 8); 4 x 4 x 1024 [Tầng 13] DRB(512); up-conv 2x2, stride = 2; 8 x 8 x 512 Concatenate (tầng 13, tầng 7); 8 x 8 x 1024 [Tầng 14] DRB(512); up-conv 2x2, stride = 2; 16 x 16 x 512 Concatenate (tầng 14, tầng 6); 16 x 16 x 1024 [Tầng 15] DRB(512); up-conv 2x2, stride = 2; 32 x 32 x 512 Concatenate (tầng 15, tầng 5); 32 x 32 x 1024 [Tầng 16] DRB(512); up-conv 2x2, stride = 2; 64 x 64 x 512 Concatenate (tầng 16, tầng 4); 64 x 64 x 1024 [Tầng 17] DRB(256); up-conv 2x2, stride = 2; 128 x 128 x 256 Concatenate (tầng 17, tầng 3); 128 x 128 x 512 [Tầng 18] DRB(128); up-conv 2x2, stride = 2; 256 x 256 x 128 Concatenate (tầng 18, tầng 2); 256 x 256 x 256 [Tầng 19] DRB(64); up-conv 2x2, stride = 2; 512 x 512 x 64 Concatenate (tầng 19, tầng 1); 512 x 512 x 128 [Tầng 20] DRB(3); 512 x 512 x 3 Output: ảnh (512 x 512 x 3)

Các file đính kèm theo tài liệu này:

  • pdfluan_an_nghien_cuu_cai_tien_ky_thuat_phat_hien_va_thay_the_d.pdf