BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ ĐÌNH NGHIỆP
NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ
THAY THẾ ĐỐI TƯỢNG TRONG VIDEO
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2020
BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LÊ ĐÌNH NGHIỆP
NGHIÊN CỨU CẢI TIẾN KỸ THUẬT PHÁT HIỆN VÀ
THAY THẾ ĐỐI TƯỢNG TRONG VIDEO
Chuyên ngành: Khoa học máy tính
Mã số: 9
138 trang |
Chia sẻ: huong20 | Ngày: 13/01/2022 | Lượt xem: 469 | Lượt tải: 1
Tóm tắt tài liệu Luận án Nghiên cứu cải tiến kỹ thuật phát hiện và thay thế đối tượng trong video, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
9 48 01 01
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Phạm Việt Bình
2. PGS.TS. Đỗ Năng Toàn
THÁI NGUYÊN - 2020
i
LỜI CAM ĐOAN
Tác giả xin cam đoan đây là công trình nghiên cứu của bản thân tác giả.
Các kết quả nghiên cứu và các kết luận trong luận án này là trung thực, không
sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo
các nguồn tài liệu đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo
đúng quy định.
Thái Nguyên, ngày tháng 08 năm 2020
Tác giả luận án
ii
LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TS. Phạm
Việt Bình và PGS.TS. Đỗ Năng Toàn. Lời đầu tiên, tôi xin bày tỏ lòng kính
trọng và biết ơn sâu sắc tới hai Thầy.
Tôi xin chân thành cảm ơn TS. Phạm Thế Anh đã đóng góp những ý kiến
quý báu cả về học thuật và kinh nghiệm nghiên cứu giúp đỡ tôi trong suốt quá
trình thực hiện luận án.
Tôi xin chân thành cảm ơn Ban lãnh đạo trường Đại học Công nghệ
thông tin và Truyền thông, Khoa Công nghệ thông tin, Bộ môn Khoa học máy
tính, Bộ phận quản lý nghiên cứu sinh – trường Đại học Công nghệ thông tin
và Truyền thông – Đại học Thái Nguyên đã tạo mọi điều kiện thuận lợi trong
quá trình hoàn thành và bảo vệ luận án.
Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp
tại Phòng Đảm bảo chất lượng và Khảo thí, giảng viên khoa Công nghệ thông
tin và Truyền thông – Trường Đại học Hồng Đức, cán bộ Viện Công nghệ thông
tin – Đại học Quốc gia Hà Nội đã luôn động viên giúp đỡ tôi trong công tác để
tôi có thời gian tập trung nghiên cứu, thực hiện luận án.
Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các
anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng
ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi
trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng
gửi tặng đến các thành viên trong Gia đình.
Tôi xin trân trọng cảm ơn!
iii
MỤC LỤC
LỜI CAM ĐOAN .............................................................................................. i
LỜI CẢM ƠN ................................................................................................... ii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU ......................................... vi
DANH MỤC CÁC BẢNG............................................................................. viii
DANH MỤC HÌNH VẼ ................................................................................... ix
PHẦN MỞ ĐẦU ............................................................................................... 1
1. Tính cấp thiết ............................................................................................. 1
2. Mục tiêu nghiên cứu của luận án ............................................................... 2
3. Đối tượng, phạm vi nghiên cứu của luận án .............................................. 3
4. Đóng góp chính của luận án ...................................................................... 4
5. Phương pháp và nội dung nghiên cứu ....................................................... 5
6. Cấu trúc luận án ......................................................................................... 5
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY THẾ
ĐỐI TƯỢNG TRONG VIDEO ........................................................................ 7
1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong
video .................................................................................................................. 7
1.1.1. Khái quát về video ........................................................................ 7
1.1.2. Bài toán thay thế đối tượng trong video ..................................... 12
1.1.3. Một số khái niệm ........................................................................ 16
1.1.3.1. Dò tìm đối tượng trong video ............................................ 16
1.1.3.2. Nhận dạng hình dạng đối tượng trong video ..................... 16
1.1.3.3. Phát hiện đối tượng trong video......................................... 16
1.1.3.4. Phân vùng đối tượng .......................................................... 17
1.1.3.5. Video inpainting ................................................................ 18
1.1.3.6. Thay thế đối tượng trong video ......................................... 19
1.1.4. Các thách thức cho bài toán thay thế đối tượng ......................... 19
1.2. Tổng quan về các kỹ thuật áp dụng trong hệ thống thay thế đối tượng
trong video ....................................................................................................... 22
iv
1.2.1. Dò tìm đối tượng ......................................................................... 22
1.2.1.1. Dựa trên điểm đặc trưng .................................................... 22
1.2.1.2. Dựa trên các mô hình từng phần của đối tượng................. 23
1.2.1.3. Dựa trên mạng nơron nhân chập ........................................ 24
1.2.1.4. Phát hiện đối tượng quảng cáo........................................... 25
1.2.2. Nhận dạng hình dạng đối tượng ................................................. 26
1.2.2.1. Lượng tử hóa vector ........................................................... 26
1.2.2.2. Lượng tử hóa tích đề các.................................................... 29
1.2.2.3. Độ đo khoảng cách ............................................................ 30
1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN .................. 32
1.2.3. Các kỹ thuật hoàn thiện video .................................................... 34
1.2.3.1. Video inpainting dựa trên lấy mẫu .................................... 35
1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D ......... 36
1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D ....... 37
Kết luận chương 1 ........................................................................................ 38
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO .......................... 39
2.1. Dò tìm đối tượng trong video ............................................................... 39
2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO .......................... 40
2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv .......................... 42
2.1.2.1. Cải tiến trong hàm loss ...................................................... 42
2.1.2.2. Cải tiến trong kiến trúc mạng ............................................ 46
2.1.2.3. Trích chọn đặc trưng .......................................................... 49
2.1.3. Ước lượng, đánh giá mô hình cải tiến ........................................ 49
2.1.3.1. Dữ liệu kiểm thử ................................................................ 49
2.1.3.2. Độ đo ước lượng ................................................................ 50
2.1.3.3. Môi trường cài đặt.............................................................. 52
2.1.3.4. Ước lượng, đánh giá .......................................................... 52
2.2. Nhận dạng hình dạng đối tượng ........................................................... 59
2.2.1. Mô hình lập chỉ mục PSVQ ........................................................ 60
v
2.2.2. Tìm kiếm ANN dựa trên cây phân cụm thứ bậc ......................... 64
2.2.3. Ước lượng, đánh giá ................................................................... 68
2.2.3.1. Dữ liệu và cấu hình hệ thống kiểm thử .............................. 69
2.2.3.2. Ước lượng, đánh giá chất lượng mã hóa của PSVQ .......... 71
2.2.3.3. Ước lượng, đánh giá tốc độ tìm kiếm với PSVQ .............. 73
2.2.3.4. Ước lượng, đánh giá giải thuật tìm kiếm cây phân cụm thứ
bậc kết hợp PSVQ ........................................................................... 75
Kết luận chương 2 ........................................................................................ 80
CHƯƠNG 3. THAY THẾ ĐỐI TƯỢNG VÀ HOÀN THIỆN VIDEO ......... 81
3.1. Phân vùng đối tượng ............................................................................. 81
3.1.1. Các kỹ thuật phân vùng thực thể ................................................ 82
3.1.2. Mô hình phân vùng thực thể ....................................................... 84
3.1.2.1. Phát sinh mặt nạ vùng ........................................................ 85
3.1.2.1. Phân vùng thực thể bằng Mask R-CNN ............................ 87
3.1.3. Kết quả thực nghiệm mô hình phân vùng ................................... 90
3.2. Mô hình hoàn thiện video ..................................................................... 92
3.2.1. Kiến trúc mô hình V-RBPconv................................................... 94
3.2.2. Mô hình kiến trúc mạng RBPconv ............................................. 95
3.2.3. Hàm loss...................................................................................... 99
3.2.4. Ước lượng, đánh giá mô hình hoàn thiện video ....................... 100
3.2.4.1. Môi trường thực nghiệm .................................................. 101
3.2.4.2. Kết quả so sánh định tính ................................................ 103
3.2.4.3. Kết quả so sánh định lượng ............................................. 104
Kết luận chương 3 ...................................................................................... 109
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .................................................... 110
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN
LUẬN ÁN ..................................................................................................... 112
TÀI LIỆU THAM KHẢO ............................................................................. 113
PHỤ LỤC ...................................................................................................... 122
vi
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU
Từ viết
Tên đầy đủ (và tạm dịch)
tắt
ANN Approximate Nearest Neighbor (Lân cận xấp xỉ gần nhất)
ADC Asymmetric distance computation (Tính khoảng cách bất đối xứng)
Audio Video Interleave (tệp tin đa phương tiện chứa cả âm thanh và
AVI
hình ảnh bên trong)
CAM Class Activation Map (Bản đồ kích hoạt lớp)
CPU Central processing unit (Bộ vi xử lý trung tâm)
CNN Convolution Neural Network (Mạng nơron tích chập)
DCNN Deep Convolution Neural Network (Mạng nơron tích chập sâu)
FID Frechet Inception Distance (khoảng cách Frechet)
Free-form video inpainting (hoàn thiện/tái tạo video với mặt nạ bất
FVI
kỳ)
FCN Fully Convolutional Network (Mạng tích chập đầy đủ)
GAN Generative Adversarial Networks (Mạng sinh đối kháng)
GPU Graphics processing unit (Bộ xử lý đồ họa)
HD High Definition (chuẩn độ nét cao)
HOG Histogram of oriented gradients (Biểu đồ hướng gradient)
IoU Intersection over Union (Tỷ lệ trùng khớp giữa hai hộp bao)
Inverted file index Asymmetric distance computation (Chỉ mục
IVFADC
danh sách ngược của ADC)
Learned Perceptual Image Patch Similarity (Chỉ số đo sự tượng
LPIPS
đồng các mẫu ảnh)
MSE Mean square error (Lỗi bình phương trung bình)
MPEG Moving Picture Experts Group (Nhóm chuyên gia hình ảnh động)
NMS Non-Maxima Suppression (Loại bỏ các điểm không cực trị)
vii
Từ viết
Tên đầy đủ (và tạm dịch)
tắt
National Television System Committee (Ủy ban quốc gia về các hệ
NTSC
thống truyền hình)
PRM Peak Response Mapping (Ánh xạ độ nhạy tối đa)
PSNR Peak signal-to-noise ratio (Tỉ số tín hiệu cực đại trên nhiễu)
PAL Phase Alternation Line (Hệ truyền hình màu xoay pha)
PQ Product quantization (Lượng tử hóa tích đề các)
PSL Peak Simulation Layer (Tầng kích hoạt cực đại)
Product sub-vector quantization (Lượng tử hóa tích đề các cụm
PSVQ
vector)
RGB Red, Green, Blue (Hệ màu RGB)
RoI Region of Interest (Vùng chứa đối tượng)
Region-based Convolutional Neural Networks (Mạng nơron tích
R-CNN
chập dựa trên đề xuất vùng)
SIFT Scale-Invariant Feature Transform (Biến đổi đặc trưng bất biến tỷ lệ)
SSD Single Shot Detector (Bộ dò điểm đặc trưng SSD)
SURF Speeded up robust features (Đặc trưng SURF)
SD Standard Denfinition (Độ nét tiêu chuẩn)
SSIM Structural Similarity Index (Chỉ số đồng nhất có cấu trúc)
VGG Visual Geometry Group (Nhóm hình học trực quan)
YOLO You only look once (Mạng nhìn đối tượng chỉ một lần)
viii
DANH MỤC CÁC BẢNG
Số hiệu
Tên bảng Trang
bảng
2.1 Thông số phần cứng thực nghiệm mô hình YOLO-Adv 52
2.2 Hiệu năng thực thi trên tập dữ liệu Flickrlogos-47 55
So sánh mAP của mô hình dò tìm đối tượng trên tập dữ liệu
2.3 58
Flickrlogos-32
2.4 Các tập dữ liệu đặc trưng 69
2.5 Các tham số dùng để xây dựng các bộ lượng tử 75
So sánh kết quả của mô hình sử dụng với các phương pháp
3.1 khác sử dụng nhiều phương pháp tạo mặt nạ huấn luyện 90
khác nhau.
Kết quả định lượng trên tập dữ liệu Places2 của các mô
3.2 106
hình: CA, Pconv, EC và RBPConv.
Kết quả định lượng trên tập dữ liệu FVI với các mô hình:
3.3 107
EC, CombCN, 3Dgated và V- RBPConv
Số lượng đối tượng cho các tập huấn luyện và kiểm thử của
A.1 124
tập dữ liệu FlickrLogo-47.
ix
DANH MỤC HÌNH VẼ
Số hiệu
Tên hình vẽ Trang
hình vẽ
1.1 Cấu trúc phân cấp của video 7
1.2 Sơ đồ chuyển đổi dữ liệu video 11
1.3 Một số ứng dụng chèn/thay thế logo trong video 12
1.4 Mô hình phát hiện và thay thế đối tượng trong video 13
1.5 Các kiểu phân vùng ảnh 17
1.6 Các ví dụ về hoàn thiện, tái tạo ảnh/video 18
1.7 Một số trở ngại trong phát hiện đối tượng quảng cáo 19
1.8 Mô hình lượng tử hóa tích đề các 28
1.9 Mô hình nhận dạng hình dạng đối tượng 32
1.10 Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting 34
2.1 Ý tưởng chính của mô hình YOLO 40
2.2 Cách tính IoU 41
2.3 Kiến trúc chi tiết mạng YOLO-Adv 47
2.4 Mô hình trích chọn đặc trưng 48
2.5 Giá trị hàm loss trung bình huấn luyện trên tập Flicrklogos-47 53
2.6 Biểu đồ giá trị IoU huấn luyện trên tập FlicrkLogos-47 54
2.7 Một số hình ảnh phát hiện Logo 57
2.8 Chất lượng mã hóa PSVQ 70
2.9 Tốc độ tìm kiếm ANN trên các tập đặc trưng 72
2.10 Ảnh hưởng của tham số (d,k) trên các tập dữ liệu 74
x
Số hiệu
Tên hình vẽ Trang
hình vẽ
2.11 Hiệu năng thực thi trên các tập đặc trưng 77
Một số kết quả trực quan nhận dạng hình dạng đối tượng
2.12 78
quảng cáo
3.1 Mô hình huấn luyện mạng phân vùng ảnh 83
3.2 Ví dụ về làm tinh mặt nạ 85
3.3 Mô hình phân vùng thực thể Mask R-CNN 87
Một số kết quả phân vùng thực thể trực quan trên tập dữ liệu
3.4 89
PASCAL VOC 2012
3.5 Hiệu năng phân lớp trên dữ liệu PASCAL VOC2012 91
3.6 Kiến trúc mô hình video inpainting 3DGated 92
3.7 Kiến trúc mô hình video inpainting V-RBPconv 93
3.8 Kiến trúc mô hình RBPconv 95
3.9 Kiến trúc khối residual cải tiến 96
3.10 Một số mặt nạ minh họa 101
3.11 So sánh trực quan tái tạo, hoàn thiện ảnh của các mô hình 102
3.12 So sánh trực quan của các mô hình video inpainting 103
Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47
A.1 122
(bên dưới) được thể hiện trong các bounding box
A.2 Một số ảnh ví dụ trong tập dữ liệu Flickrlogos-47 123
1
PHẦN MỞ ĐẦU
1. Tính cấp thiết
Với sự phát triển nhanh chóng của các thiết bị có khả năng thu nhận hình
ảnh kỹ thuật số, dữ liệu đa phương tiện đã trở nên phổ biến, có mặt ở mọi nơi
và ảnh hưởng tới nhiều mặt của cuộc sống. Những dữ liệu này ngày càng được
các nhà sản xuất hàng hóa, nhà quảng cáo, nhà tiếp thị sử dụng như một phương
tiện truyền thông hiệu quả để quảng bá về sản phẩm, nhãn hiệu, thương hiệu,
... (gọi tắt là đối tượng quảng cáo trong luận án này) đến đông đảo khách hàng,
người tiêu dùng. Bên cạnh đó các nhà nghiên cứu thị trường cũng đã sử dụng
nguồn tài nguyên video phong phú để nghiên cứu, phân tích nội dung quảng
cáo bên trong nhằm tiếp cận thị trường, thu thập các thông tin hữu ích để nâng
cao tính cạnh tranh. Nhiều nghiên cứu đã cho thấy sự tăng trưởng mạnh mẽ
trong doanh thu được tạo ra từ quảng cáo trên các phương tiện truyền hình và
trên Internet thông qua các trang mạng, mạng xã hội trong thập kỷ vừa qua và
dự báo sẽ tiếp tục tăng mạnh trong những năm tới.
Tận dụng những video sẵn có với nội dung hấp dẫn thu hút được khối
lượng lớn người xem như phim ảnh, video thể thao, video về các sự kiện đặc
biệt, ... các đối tượng quảng cáo ngày nay được tích hợp trực tiếp trong nội
dung của các video này. Các ví dụ điển hình là chèn billboard, nhãn hiệu, ảnh
quảng cáo vào vị trí thích hợp quanh sân vận động trong video thể thao khi
không thể đặt trực tiếp tại sân; loại bỏ hoặc thay thế các trademark trong một
đoạn phim bằng một biểu tượng khác. Việc thay thế, chèn thêm này phần lớn
được hoàn thiện một cách thủ công thông qua các công nghệ hiệu chỉnh trong
quá trình hậu xử lý video. Quá trình thay thế thủ công thường được thực hiện
bằng cách duyệt qua tất cả các khung hình (frame) để nhận diện các frame tiềm
năng, thích hợp cho việc tích hợp hình ảnh quảng cáo. Sau đó dò tìm vùng thích
hợp trong các frame này để đặt hình ảnh quảng cáo hoặc tìm các hình ảnh quảng
cáo, đối tượng không phù hợp để thay thế bằng hình ảnh quảng cáo mới. Cuối
2
cùng là hoàn thiện, làm mượt, tạo tính chân thực cho video. Quá trình xử lý này
được xem là một tiến trình con trong bài toán hậu xử lý video đã và đang thu
hút được nhiều nghiên cứu trong cộng đồng thị giác máy tính với mục đích tạo
ra các công cụ xử lý tự động, giảm thiểu tối đa sự can thiệp của con người
nhưng vẫn thu được ảnh kết quả có độ chân thực cao hơn. Tuy nhiên, các hệ
thống công nghệ thị giác vẫn còn nhiều hạn chế và giới hạn khi xử lý video.
Phát hiện và thay thế đối tượng trong video nói chung và video có nội
dung tích hợp đối tượng quảng cáo nói riêng là một chuỗi các tiến trình cốt lõi
trong quá trình hậu xử lý video. Nó bao hàm các kỹ thuật phân tích, xử lý video
để dò tìm, nhận dạng các đối tượng cũng như tư thế, hình dạng của chúng trong
video từ đó có những tác động hợp lý vào đối tượng và hoàn thiện video sau
khi có những tác động này. Ngoài ra, từng tiến trình con trong quá trình hậu xử
lý video này còn có thể được ứng dụng rời rạc trong nhiều lĩnh vực khác như
nhận dạng hành động, phân tích video, tóm tắt video, giám sát trực quan, thống
kê đối tượng, xóa bỏ đối tượng khỏi video, hiệu chỉnh cảnh sau quay.
Với sự bùng nổ số lượng video có sẵn cả trực tuyến và ngoại tuyến như
đã minh họa bên trên làm cho việc phân tích, xử lý tất cả nội dung video theo
cách thủ công rất tốn kém và không khả thi. Điều này đã thúc đẩy luận án
nghiên cứu các kỹ thuật hỗ trợ quá trình hậu xử lý video tự động áp dụng trong
lĩnh vực thương mại như phân tích nội dung quảng cáo trong video hay tích
hợp, thay thế đối tượng quảng cáo vào video đã sẵn có nội dung.
2. Mục tiêu nghiên cứu của luận án
Mục tiêu cụ thể của luận án là tập trung nghiên cứu, cải tiến các kỹ thuật
xử lý các vấn đề quan trọng trong bài toán hậu xử lý, hiểu video ứng dụng cho
bài toán phát hiện và thay thế đối tượng trong video nhằm đạt được hiệu năng
cao trên hai phương diện tốc độ và độ chính xác. Cải tiến các mô hình dùng để
phát hiện đối tượng trong video gồm: dò tìm và nhận dạng hình dáng của đối
tượng. Nghiên cứu cải tiến các kỹ thuật liên quan đến bài toán thay thế đối
3
tượng gồm: phân vùng, trích chọn phần hiển thị của đối tượng trong các vùng
ảnh; hoàn thiện các vùng bị phá hủy do quá trình xử lý như loại bỏ hoặc thay
thế tạo ra.
Các cải tiến trên cũng có thể được mở rộng, ứng dụng vào để giải quyết
một số bài toán trong lĩnh vực thương mại như: tích hợp đối tượng quảng cáo
vào vị trí thích hợp trong video có sẵn nội dung; phân tích thị trường, nhận
dạng, thống kê sản phẩm trong các video quảng cáo; chèn đối tượng quảng cáo
vào vùng ảnh thích hợp, thay thế đối tượng quảng cáo trong các video thể thao;
hiệu chỉnh cảnh quay, xóa bỏ đối tượng không mong muốn xuất hiện trong các
cảnh quay của video phim ảnh, quảng cáo.
3. Đối tượng, phạm vi nghiên cứu của luận án
Do giới hạn về thời gian, luận án không tập trung nhiều vào nghiên cứu
cấu trúc, định dạng, sự cấu thành của video, phân đoạn cảnh quay, trích chọn
frame, đồng bộ phần hình ảnh và âm thanh. Luận án sử dụng dữ liệu đầu vào là
phần hình ảnh của đoạn video đã được ghi lại theo chuẩn MPEG-4 (Moving
Picture Experts Group) dùng cho truyền hình vô tuyến, mạng và Internet. Phần
hình ảnh video đầu vào được mã hóa kích thước 720p hoặc 480p với tỷ lệ khung
hình 16:9, tức là có độ phân giải 1280 x 720px hoặc 854 x 480px và giả thiết
đã được phân thành một chuỗi các frame liên tiếp nhau. Đối tượng được luận
án tập trung nghiên cứu là các kỹ thuật dò tìm, nhận dạng đối tượng tự động,
các kỹ thuật hoàn thiện video theo hướng tiếp cận đối tượng trên chuỗi frame
ảnh liên tục đã được trích chọn.
Hướng tới mục tiêu phát triển hệ thống thay thế đối tượng trong các video
thể thao, quảng cáo, phim ảnh phục vụ mục đích thương mại, phân tích thị
trường, phạm vi của đối tượng nhận dạng, thay thế được giới hạn là các hình
ảnh tĩnh, hai chiều của đối tượng quảng cáo. Đối tượng này thường được thể
hiện nổi bật trong video để thu hút người xem nên có tính phân biệt với các đối
tượng khác và với nền mà nó hiển thị. Bên cạnh đó kích thước của đối tượng
4
nghiên cứu trong video không quá nhỏ, giới hạn trong khoảng từ 20px đến
400px mỗi chiều vì nếu quá nhỏ thì sẽ không thu hút được người xem.
Vùng phá hủy sinh ra sau khi xóa bỏ hoặc thay thế đối tượng cần được
hoàn thiện trong quá trình hậu xử lý video được luận án tập trung nghiên cứu
sẽ có kích thước và hình dạng bất kỳ. Tuy nhiên khi thay thế hai đối tượng
thường có tính tương đồng cao về kích thước, vì vậy luận án tập trung nhiều
vào nghiên cứu các vùng trống có hình dạng chủ yếu dưới dạng đường cong,
đường kẻ, đường thẳng, hình điểm với độ dày không quá lớn.
4. Đóng góp chính của luận án
Xuất phát từ phạm vi nghiên cứu, các vấn đề luận án nghiên cứu gồm:
Vấn đề 1: Nghiên cứu, cải tiến mô hình dò tìm, định vị đối tượng trong
video theo thời gian thực.
Vấn đề 2: Nghiên cứu, cải tiến kỹ thuật đối sánh, tìm kiếm ứng dụng cho
bài toán nhận dạng hình dạng của đối tượng tìm thấy trong video.
Vấn đề 3: Nghiên cứu, áp dụng kỹ thuật phân vùng đối tượng dùng để
trích chọn vùng hiển thị của đối tượng.
Vấn đề 4: Nghiên cứu, cải tiến kỹ thuật tái tạo/hoàn thiện video sau hiệu
chỉnh video.
Trên cơ sở nghiên cứu các vấn đề nêu trên, luận án đã có ba đóng góp
chính là:
(i) Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo
hướng tiếp cận mạng tích chập học sâu (Deep Convolution Neural Network –
DCNN). Trong mô hình cải tiến tốc độ dò tìm đối tượng không những vẫn đạt
được theo thời gian thực mà độ chính xác cũng được gia tăng đáng kể, có tính
bền vững cao trong dò tìm lớp đối tượng phổ quát, ảnh đầu vào không cần qua
bước tiền xử lý. Kết quả đưa ra của mô hình bao gồm: tọa độ bao đóng hình
5
chữ nhật quanh các thể hiện của lớp đối tượng truy vấn trong ảnh và kèm theo
vector đặc trưng rất giàu thông tin của nó (CT1).
(ii) Cải tiến kỹ thuật nhận dạng hình dạng của đối tượng dựa trên phương
pháp lập chỉ mục vector đặc trưng. Tập dữ liệu về hình dạng của đối tượng sau
khi trích chọn đặc trưng được lập chỉ mục bằng kỹ thuật lượng tử hóa tích đề
các cụm vector (Product sub-vector quantization – PSVQ). Kỹ thuật này kết
hợp với cây phân cụm thứ bậc được sử dụng để tìm ra hình dạng tương đồng
nhất với đối tượng truy vấn (CT2, CT3, CT4 và CT6).
iii) Cải tiến mô hình hoàn thiện vùng bị phá hủy trong ảnh với hình dạng
và kích thước bất kỳ sinh, áp dụng trong video inpainting nhằm bảo toàn tính
kết cấu về không gian và thời gian trong tái tạo vùng bị phá hủy sinh ra trong
video sau hiệu chỉnh (CT5).
5. Phương pháp và nội dung nghiên cứu
Phương pháp luận trong nghiên cứu của luận án là kết hợp giữa nghiên
cứu lý thuyết và thực nghiệm.
Phương pháp lý thuyết: Tổng hợp một số công bố liên quan đến bài toán
dò tìm, nhận dạng đối tượng, hoàn thiện vùng bị phá hủy trong ảnh, video. Cụ
thể nghiên cứu các mạng tích chập học sâu ứng dụng trong dò tìm đối tượng,
hoàn thiện ảnh, video, các kỹ thuật lập chỉ mục trên tập dữ liệu lớn các vector
đặc trưng và các thuật toán tìm kiếm ảnh theo nội dung, một số thuật toán về
hoàn thiện các vùng mất mát thông tin trong video.
Phương pháp thực nghiệm: Thực hiện cài đặt các thuật toán của luận án,
chạy thử nghiệm trên các tập dữ liệu được sử dụng phổ biến trong cộng đồng
nghiên cứu.
6. Cấu trúc luận án
Cấu trúc luận án được tổ chức thành 3 chương như sau:
6
Chương 1: Tổng quan về bài toán phát hiện và thay thế đối tượng trong
video. Trình bày các nghiên cứu liên quan đến bài toán phát hiện đối tượng bao
gồm hai pha dò tìm và nhận dạng, bài toán thay thế đối tượng quảng cáo trong
các video thuộc lĩnh vực thương mại gồm các công đoạn phân vùng, thay thế
và hoàn thiện video. Bên cạnh đó, luận án đưa ra mô hình tổng quát cho hệ
thống thay thế đối tượng trong video cùng các khái niệm liên quan. Thông qua
đó xác định rõ vấn đề đặt ra cần nghiên cứu, vị trí nghiên cứu, xu hướng phát
triển để đưa ra các giải pháp giải quyết vấn đề đặt ra.
Chương 2: Phát hiện đối tượng trong video. Trình bày chi tiết mô hình
YOLO-Adv cải tiến, phát triển từ mô hình dò tìm đối tượng YOLO tương thích
với lớp bài toán dò tìm đối tượng quảng cáo trong video. Các kết quả thực
nghiệm trên tập dữ liệu flickrlogos-47 được phân tích, chứng minh độ chính
xác và tốc độ dò tìm đối tượng của mô hình cải tiến là nhanh hơn các phiên bản
của mô hình YOLO và các mô hình hiện tại khác. Tiếp theo, kỹ thuật lập chỉ
mục dữ liệu PSVQ (Product sub-vector quantization) cải tiến, phát triển từ
phương pháp lập chỉ mục lượng tử hóa tích đề các (product quantization-PQ)
trên tập dữ liệu vector đặc trưng có số chiều lớn ứng dụng cho bài toán nhận
dạng hình dạng của đối tượng được trình bày chi tiết. Các kết quả thực nghiệm
trên tập dữ liệu có số chiều lớn như ANN_GIST, VGG cũng được trình bày
ngay sau phần trình bày lý thuyết.
Chương 3: Thay thế đối tượng và hoàn thiện video. Trình bày kỹ thuật
phân vùng thực thể áp dụng để trích chọn vùng đối tượng xuất hiện trong ảnh.
Tiếp theo, kỹ thuật hoàn thiện, tái tạo video V-RBPconv dựa trên nền tảng của
mô hình RBPConv được sử dụng cho bài toán tái tạo các vùng bị phá hủy.
Những vùng này có sự đa dạng về hình dạng và kích thước sinh ra sau trong
quá trình hậu xử lý như loại bỏ, thay thế đối tượng không mong muốn khỏi
video. Cuối cùng, các kết quả thực nghiệm của mô hình trên các tập dữ liệu phổ
biến cũng được trình bày.
7
CHƯƠNG 1. TỔNG QUAN VỀ BÀI TOÁN PHÁT HIỆN VÀ THAY
THẾ ĐỐI TƯỢNG TRONG VIDEO
Trong chương tổng quan này luận án trình bày mô hình tổng quan cho
bài toán phát hiện và thay thế đối tượng trong video, mô tả chi tiết các thành
phần trong hệ thống cũng như đưa ra các khái niệm có liên quan. Bên cạnh đó
luận án hệ thống lại các nghiên cứu liên quan đến các mô hình, kỹ thuật áp dụng
trong hệ thống phát hiện và thay thế đối tượng, phân tích ưu, nhược điểm của
các kỹ thuật này làm tiền đề cho những nội dung nghiên cứu trong các chương
sau đó. Cụ thể, tổng quan về bài toán phát hiện và thay thế đối tượng trong
video được trình bày trong phần 1.1. Các nghiên cứu liên quan đến mô hình dò
tìm đối tượng trong video được phân tích trong phần 1.2. Tiếp theo, các kỹ
thuật nhận dạng đối tượng được trình bày trong phần 1.3. Cuối cùng các nghiên
cứu liên quan đến hoàn thiện vùng bị phá hủy trong video được trình bày trong
phần 1.4.
Hình 1.1. Cấu trúc phân cấp của video
1.1. Tổng quan về video và bài toán phát hiện và thay thế đối tượng trong
video
1.1.1. Khái quát về video
Video là sự phối hợp đồng bộ thu hoặc phát một chuỗi các hình ảnh và
âm thanh theo thời gian thực để thể hiện thế giới thực. Bản chất của video là
8
tập hợp các khung hình (frame), mỗi khung hình tương ứng là một ảnh tĩnh.
Tập hợp các chuỗi các khung hình liên tiếp, không thể chia nhỏ hơn, ứng với
một thao tác camera đơn tạo thành một lia (Shot). Tập các shot liên quan về
không gian và liền kề về thời gian, cùng mô tả một nội dung ngữ nghĩa hoặc
một tình tiết tạo thành một cảnh quay (Scene). Cấu trúc phân cấp của video
được thể hiện trong hình 1.1.
Video truyền thống các tín hiệu thu và phát dưới dạng tương tự. Tín hiệu
hình ảnh và tín hiệu âm thanh được phát đồng bộ nhau. Tuy nhiên, các thao tác
với video ở dạng tương tự như điều khiển, khử nhiễu, ... rất phức tạp. Vì vậy,
ngày nay các video tương tự ít được sử dụng mà thay bằng các video số. Với
video số các tín hiệu thu và phát chuỗi hình ảnh âm thanh được số hóa thành
dãy bít 0 và 1. Dữ liệu video được lưu trữ ở dạng bít 0 và 1 nên việc tác động
lên video đơn giản hơn nhiều so với video tương tự.
Dữ liệu video số là các đoạn phim đã được số hóa, ghi thành tệp trên đĩa
cứng, đĩa CD, đĩa DVD, hoặc các thiết bị lưu trữ khác mà máy tính có thể hiểu
được. Một tệp video thông thường có hai phần: dữ liệu hình ảnh và dữ liệu âm
thanh. Khi phát, các dữ liệu hình ảnh và các dữ liệu âm thanh được phát đồng
bộ nhau.
Kích cỡ khuôn hình của video phải được xác định rõ theo định dạng
chuẩn của video xuất ra. Ví dụ: kích cỡ khuôn hình 720x480 điểm ảnh cho hệ
NTSC, 720x576 điểm ảnh cho hệ PAL. Hoặc có thể xác định khuôn hình
320x240 điểm ảnh cho các video có kích cỡ nhỏ, có thể sử dụng trên Web. Kích
cỡ khuôn hình tăng đồng nghĩa với việc tiêu tốn nhiều bộ nhớ và thời gian xử
lý hơn kh...cách tiếp cận dựa trên học tập sâu
với nền tảng là các mạng R-CNN [26] và Fast R-CNN [25] để phát hiện logo
quảng cáo. Bombonato và các cộng sự [12] áp dụng mô hình SSD [52] cho bài
toán nhận dạng logo của công ty. Mặc dù các cách tiếp cận này đạt được độ
chính xác chấp nhận được trên mức ảnh nhưng tốc độ xử lý là một trở ngại lớn
khi xử lý trên video.
1.2.2. Nhận dạng hình dạng đối tượng
Quá trình nhận dạng hình dạng đối tượng quảng cáo trong video được
thực hiện dựa trên vector đặc trưng đã được trích chọn trong pha dò tìm đối
tượng. Bản chất là quá trình tìm ra một số vector đặc trưng gần nhất với vector
đặc trưng truy vấn trong tập dữ liệu vector đặc trưng khổng lồ. Các vector đặc
trưng này có số chiều lớn (lên đến hàng nghìn chiều), do đó để tiến trình tìm
kiếm có hiệu quả, đáp ứng trong khoảng thời gian mong đợi, tập dữ liệu vector
đặc trưng phải được mã hoá, lập chỉ mục. Nhiều kỹ thuật lập chỉ mục hiệu quả
đã được nhiều tác giả nghiên cứu như: dựa trên hàm băm, dựa trên phân cụm,
dựa trên phân hoạch không gian, và dựa trên lượng tử hóa tích đề các (product
quatization - PQ). Trong số đó phương pháp tìm kiếm dựa trên PQ trên tập dữ
liệu vector số chiều lớn đạt được kết quả tối ưu hơn các kỹ thuật khác nên được
luận án nghiên cứu chi tiết để phát triển cho bài toán nhận dạng hình dạng đối
tượng. Vì vậy trong phần này tổng quan về phương pháp lượng tử hóa tích đề
các được trình bày trước khi các kỹ thuật đối sánh vector đặc trưng được xem
xét tổng quan.
1.2.2.1. Lượng tử hóa vector
Lượng tử hoá vector (Vector Quantization - VQ) được nghiên cứu rất kỹ
trong lý thuyết thông tin. VQ thường được sử dụng để nén dữ liệu nhằm gia
tăng tốc độ truyền dữ liệu cũng như giảm không gian lưu trữ. Mục tiêu là đưa
ra được cách biểu diễn dữ liệu nén nhằm tối thiểu hóa sự mất mát thông tin và
27
độ lỗi chênh lệch giữa vector gốc và vector lượng tử. Đây được xem là bài toán
tối ưu hóa, tối ưu lỗi bình phương trung bình (Mean square error - MSE) giữa
2
dữ liệu huấn luyện Z và dữ liệu mã hóa, ∑푥∈푍‖푥 − 푄(푥, 퐶)‖2
Về mặt hình thức, một bộ lượng tử hóa vector là một hàm 푄(푥, 퐶) ánh
xạ một vector 푥 ∈ 푅(퐷) thành một vector khác thuộc tập vector 퐶. Trong đó 퐷
là số chiều của không gian vector đang xét, tập các giá trị 퐶 được gọi là
codebook. Trong nhiều trường hợp ký hiệu codebook 퐶 trong bộ lượng tử hóa
là hiển nhiên, mặc định nên có thể bỏ qua, lúc này chúng ta thể viết gọn hàm
lượng tử thành 푄(푥).
Mỗi vector trong codebook 퐶 được biểu diễn bởi 푐푘, trong đó 푘 ∈
{1, , |퐶|} gọi là “trọng tâm (centroids)”. Các vector 푐푘 được gọi là các
codeword. Lúc này hàm lượng tử cho một codebook 퐶 được định nghĩa:
Q(x, 퐶) = 푐푘(푥) (1.1)
Trong đó 푘(푥) là chỉ số hay id của codeword được xác định bởi
푘(푥) = argmin 푑(푥, 푐푘) (1.2)
푘
Với hàm khoảng cách 푑(푥, 푦) thường được sử dụng là khoảng cách
Euclid, tức là 푑(푥, 푦) = ‖푥 − 푦‖2
Tập các vector 푉푘 được ánh xạ tới một chỉ số 푘 được gọi là một “ô
Voronoi” (Voronoi cell), được định nghĩa:
(퐷)
푉푘 ≜ {푥 ∈ 푅 : 푞(푥) = 푐푘} (1.3)
푘 "ô" của bộ lượng tử xác định một phân vùng của 푅(퐷). Theo định nghĩa,
tất cả các vector nằm trong cùng một “ô” 푉푘 được đặt trong cùng một trọng tâm
푐푘. Chất lượng của một bộ lượng tử hóa được đo bằng giá trị MSE giữa vector
đầu vào 푥 và giá trị sau khi được lượng tử hóa của nó 푄(푥). Codebook được
huấn luyện để tối thiểu giá trị MSE trên tập huấn luyện Z,
28
2
min ∑푥∈푍‖푥 − 푄(푥, 퐶)‖2 (1.4)
퐶
Bộ lượng tử hóa rất phổ biến, hiệu quả và đơn giản nhất dựa trên K-
means, tức là codebook được huấn luyện với giải thuật phân cụm K-means.
Trong giai đoạn huấn luyện, codebook được huấn luyện bằng cách hoán đổi
các điểm dữ liệu như trong biểu thức (1.2) và codebook được cập nhật bằng giá
trị trung bình của các cụm mới, là nghiệm của phương trình (1.4). Trong giai
đoạn mã hóa, các vector cơ sở dữ liệu được mã hóa bởi chỉ số (ID) của
codeword gần nhất theo phương trình (1.2). Lúc này mỗi vector nhiều chiều số
thực trong cơ sở dữ liệu được đại diện bởi một số nguyên là chỉ mục của
codeword. Vì chỉ mục của codeword nằm trong khoảng từ 1 đến 퐾, trong đó 퐾
là kích thước của codebook |퐶| (số lượng codeword), do đó chỉ cần 푙표𝑔2(퐾)
bit để lưu trữ trên mỗi điểm dữ liệu. Điểm dữ liệu được tái tạo bởi codeword
có ID tương ứng.
Để thu được dữ liệu sau khi tái tạo lại tốt hơn hay lỗi tái tạo thấp hơn,
codebook tạo ra cần phải có kích thước đủ lớn. Nhưng khi 퐾 tăng lên thì dữ
liệu huấn luyện cần phải lớn, khi đó cần nhiều không gian lưu trữ hơn cho dữ
liệu huấn luyện và codeword, đồng thời thời gian huấn luyện codebook cũng
tăng lên. Độ phức tạp về thời gian và lưu trữ cho giai đoạn huấn luyện và mã
hóa tăng tuyến tính với 퐾 mặc dù yêu cầu về bộ nhớ cho biểu diễn dữ liệu nén
chỉ tăng theo logarit.
Hình 1.8. Mô hình lượng tử hóa tích đề các
29
Có nhiều cách tiếp cận nhằm cải thiện chất lượng mã hóa dữ liệu theo
phương pháp VQ. Cách tiếp cận hiệu quả nhất là sử dụng nhiều codebook cho
nhiều không gian con khác nhau nhằm đạt được độ phức tạp về lưu trữ và thời
gian là tuyến tính trong pha huấn luyện và mã hóa. Phương pháp tiêu biểu sử
dụng ý tưởng này dựa trên lượng tử hoá tích đề các được trình bày trong phần
tiếp theo.
1.2.2.2. Lượng tử hóa tích đề các
Lượng tử hoá tích đề các - PQ [38] là một cách tiếp cận đơn giản, hiệu
quả dựa trên VQ. Không gian dữ liệu đơn giản được chia thành 푀 không gian
con trực giao bằng cách phân đoạn từng vector dữ liệu thành 푀 vector con (trực
quan như trong hình 1.8). Cụ thể hơn, vector dữ liệu 푥 ∈ 푅(퐷) được chia thành
푥(푖), 푖 = {1, . . . , 푀} vector con với 푥 là một phép nối các vector con này, 푥 =
[푥(1), . . . , 푥(푀)]. Để đơn giản, 퐷 được lấy là bội số của 푀, khi đó mỗi vector
퐷
( )
con 푥(푖) thuộc không gian 푅 푀 . Một codebook được tạo ra trên mỗi không gian
con của các vector con từ dữ liệu huấn luyện. Gọi 퐶(푖) là codebook của không
gian con thứ 푖. Do các không gian con là trực giao, nên các codebook tạo ra
cũng trực giao với nhau.
Một điểm dữ liệu được biểu diễn bằng cách ghép 푀 codeword thuộc 푀
codebook khác nhau. Như vậy, biểu diễn của một điểm dữ liệu là tích đề các
của các codeword, 퐶 = 퐶(1) × . . .× 퐶(푀). Trong đó, Codeword thứ 푖,
퐶(푖) được huấn luyện bằng cách sử dụng giải thuật phân cụm K-means trên tập
vector con thứ 푖. Cho trước các codebook là trực giao
푐푖푇푐푗 = 0, 푖 ≠ 푗 & 푖, 푗 ∈ {1, , 푀} (1.5)
푘푖 푘푗
Chúng ta có thể viết lại biểu thức tối thiểu hóa MSE trong phương trình
(1.4) như sau:
푀 (푖) (푖) 2
∑푖=1 min ∑푥∈푍‖푥 − 푄(푥, 퐶 )‖ (1.6)
퐶푖 2
30
Việc tối thiểu hóa cho mỗi codebook là độc lập với các codebook khác
vì chúng trực giao với nhau.
Do sử dụng tích đề các của codebook, PQ đạt được khả năng biểu diễn
cao hơn nhiều trong khi sử dụng rất ít codeword. Ví dụ, xem xét PQ với 푀 =
8 codebook và mỗi codebook có 퐾 = 256 codeword. Khi đó chỉ cần 푀 × 퐾
codeword phải huấn luyện và lưu trữ, do tích đề các của codebook, nên có khả
(푀) 64
năng tạo ra 퐾 = 2 codeword. Trong khi đó chỉ cần 푀 × 푙표𝑔2(퐾) bit để
mã hóa một vector dữ liệu, trong ví dụ này số bit cần dùng là 64 bit.
Do khả năng truy cập được đến một lượng lớn các biểu diễn dữ liệu, PQ
cung cấp một cách tiếp cận tốt hơn cho bài toán nén dữ liệu với lỗi tái tạo vector
dữ liệu thấp. Chính vì vậy có rất nhiều nghiên cứu tập trung mở rộng ý tưởng
của PQ để gia tăng chất lượng mã hóa dữ liệu nhằm tăng tốc độ tìm kiếm và độ
chính xác. Luận án cũng đi theo hướng tiếp cận này cho bài toán nhận dạng
hình dạng của đối tượng.
1.2.2.3. Độ đo khoảng cách
Cho trước vector đặc trưng 푦 ∈ 푅(퐷) và một tập dữ liệu vector đặc trưng
푋, bài toán tìm kiếm lân cận gần nhất là tìm ra một vector 푥(∗) ∈ 푋 thỏa mãn
푑(푥(∗), 푦) = min {푑(푥, 푦) | 푥 ∈ 푋}, với 푑(푥, 푦) là một độ đo khoảng cách.
Do không gian dữ liệu rất lớn trong đó số chiều của mỗi điểm dữ liệu lớn
nên việc tìm kiếm chính xác một lân cận gần nhất là không khả thi. Vì vậy,
phương pháp tìm kiếm lân cận xấp xỉ gần đúng (ANN) thường sử dụng thay
cho phương pháp tìm kiếm lận cận chính xác. Các phương pháp tìm kiếm ANN
tìm ra các lân cận dựa trên tính toán khoảng cách xấp xỉ giữa hai vector.
VQ được sử dụng rất hiệu quả cho bài toán tìm kiếm ANN. Lần đầu tiên
ANN được đề xuất trong nghiên cứu [38] kết hợp với phương pháp lập chỉ mục
PQ. Sau đó nhiều nghiên cứu được phát triển nhằm cải tiến tốc độ và độ chính
xác [16].
31
Như đã thảo luận về cách sử dụng PQ cho bài toán nén dữ liệu để tạo ra
các biểu diễn xấp xỉ. Để việc tìm kiếm có hiệu quả, cơ sở dữ liệu trước hết cần
được lượng tử hóa, lập chỉ mục. Quá trình lượng tử hóa hay nén dữ liệu này
được thực hiện offline nên tốc độ không phải là vấn đề trọng tâm cần nghiên
cứu. Khi thực hiện tìm kiếm ANN, truy vấn 푦 được so sánh với các vector xấp
xỉ của các vector trong cơ sở dữ liệu, như vậy kết quả nhận được là khoảng
cách xấp xỉ giữa chúng. Có hai cách để tính khoảng cách xấp xỉ này dựa trên
việc vector truy vấn được lượng tử hóa hay không.
Tính khoảng cách đối xứng (Symmetric distance computation -
SDC). Với SDC, vector truy vấn cũng được lượng tử và so sánh kết quả lượng
tử này với các biểu diễn lượng tử của các vector trong cơ sở dữ liệu,
푑(푦, 푥) ≈ 푑(푄(푦), 푄(푥)) (1.7)
Do 푄(. ) là một codeword trong một codebook hữu hạn, nên SDC giữa
tất cả các cặp codeword thể được tính trước được chứa chúng trong một bảng
tra cứu (look-up table). Tại thời điểm tra cứu, 푦 được lượng tử hóa và giá trị
của 푑(푄(푦), 푄(푥)) với 푥 푋 được lấy từ bảng tra cứu, vì vậy SDC được tính
toán rất nhanh. Trong trường hợp có nhiều codebook, mỗi bảng tra cứu tương
ứng với mỗi codebook được tạo ra.
Tính khoảng cách bất đối xứng (Asymmetric distance computation
- ADC). Với ADC, vector truy vấn gốc chưa lượng tử hóa được so sánh với các
vetor trong cơ sở dữ liệu đã được lượng tử hóa.
푑(푦, 푥) ≈ 푑(푦, 푄(푥)) (1.8)
Với 푑(, ) là khoảng cách Euclidean, khi đó phương trình 1.8 có thể được
viết lại thành,
2
푑(푦, 푥) ≈ ‖푦 − 푄(푥)‖2 (1.9)
Nếu bộ lượng tử hóa có nhiều codebook trực giao giống như trong PQ,
thì phương trình 1.12 có thể được viết lại như sau:
32
2 2
푑(푦, 푥) ≈ ∑푀 ‖푦(푚) − 푄(푥, 퐶(푚))‖ = ∑푀 ‖푦(푚) − 푐 ‖ (1.10)
푚=1 2 푚=1 푘푚(푥) 2
2
Với mỗi vector 푦 chúng ta có thể tính ‖푦(푚) − 푐 ‖ cho tất cả
푘푚(푥) 2
codeword với 푚 = {1, 2, . . . , 푀}, và lưu trữ 퐾 ∗ 푀 giá trị này trong các bảng tra
cứu. Tại thời điểm tìm kiếm, 푑(푦, 푥) được tính bằng tổng của 푀 giá trị nhận
được từ bảng tra cứu này.
So sánh giữa ADC và SDC. Trong ADC vector truy vấn không cần phải
lượng tử hóa, nên nó cho khoảng cách xấp xỉ chính xác hơn khi so sánh với
SDC. Trong khi đó, độ phức tạp về thời gian tìm kiếm là giống nhau cho cả hai,
vì đều được tìm thấy trong bảng tra cứu đã được tính toán và lưu trữ trước đó.
Vì vậy ADC thường được sử dụng cho tìm kiếm ANN dựa trên PQ.
Xử lý offline
Xử lý online
Tập ảnh Trích chọn đặc Mô hình lập Tập vector
đối tượng trưng chỉ mục đặc trưng
Vector đặc trưng
truy vấn ID tìm thấy
Hình 1.9. Mô hình nhận dạng hình dạng đối tượng
1.2.2.4. Nhận dạng hình dạng dựa trên tìm kiếm ANN
Sử dụng kiến trúc mạng DCNN chúng ta đã phát hiện ra được lớp của
đối tượng cần truy vấn mà nó thuộc vào và xác định vị trí chính xác của chúng
trong từng frame của video. Tuy nhiên yếu điểm của mạng này là mới chỉ xác
định được có tồn tại hay không tồn tại lớp đối tượng truy vấn trong các frame
mà chưa thể hiểu được đối tượng tìm thấy. Để nhận dạng và mô tả chính xác
hình thái, tư thế hay hình dạng của đối tượng tìm thấy (trở thành đối tượng truy
vấn) chúng ta cần tiếp tục phân lớp đối tượng này vào các lớp hình thái, tư thế,
hình dạng. Để giải quyết bài toán này, tận dụng các vector đặc trưng trích chọn
33
được trong quá trình dò tìm đối tượng, luận án đề xuất giải pháp dựa trên việc
đối sánh vector đặc trưng (hình 1.9).
Tuy nhiên, khi kích thước tập dữ liệu đối sánh càng nhiều (lên đến hàng
triệu bản ghi) và số chiều lớn (có thể lên đến hàng nghìn chiều) thì thời gian
đối sánh là một vấn đề quan trọng cần phải giải quyết, đặc biệt là đối với ứng
dụng yêu cầu thời gian thực như xử lý video. Để tối ưu hóa thời gian đối sánh
mẫu, các vector đặc trưng thường được lập chỉ mục (feature indexing) nhằm
tăng tốc độ đối sánh trên cơ sở dữ liệu các bản mẫu. Mục tiêu của việc lập chỉ
mục là sắp xếp, tổ chức lại cơ sở dữ liệu các bản mẫu, và xây dựng các thuật
toán đối sánh hiệu quả sao cho quá trình đối sánh chỉ cần thực hiện trên một
phần nhỏ các bản mẫu tiềm năng mà không cần phải duyệt trên toàn bộ cơ sở
dữ liệu.
Xuất phát từ ý tưởng nêu trên, cũng như kết quả nghiên cứu ưu, nhược
điểm của các giải thuật lập chỉ mục, luận án phát triển kỹ thuật đối sánh mẫu
dựa trên phương pháp lập chỉ mục lượng tử tích đề các PQ, một trong những
giải pháp hiệu quả cho việc mã hóa đặc trưng và tìm kiếm ANN. Tìm kiếm
ANN cho hiệu quả cao với cấu trúc file đảo ngược đa chiều (multiple inverted
file structure), một danh sách ngắn dựa trên bảng tra cứu và phương pháp tính
khoảng cách bất đối xứng. PQ đã được chứng minh là có nhiều ưu điểm nhất
so với các phương pháp khác và hoạt động rất hiệu quả cho nhiều cơ sở dữ liệu
đặc trưng.
Sau sự thành công của kỹ thuật PQ, nhiều tác giả đã đề xuất các cải tiến
PQ, điển hình là tối ưu hóa PQ (optimized product quantization - OPQ) [24] và
tối ưu hóa cục bộ PQ (local optimization product quantization - LOPQ) [41]. Ý
tưởng chính của kỹ thuật OPQ là tối ưu hóa quá trình phân hoạch không gian
của PQ sao cho các không gian con có thể mô tả tốt nhất/chính xác nhất các
phân bố thuộc về bản chất bên trong của dữ liệu. Mặc dù OPQ cho kết quả tốt
hơn PQ nhưng nó lại không hiệu quả trong trường hợp dữ liệu hình thành các
34
phân bố đa mô hình (mutli-model distribution). Do vậy, kỹ thuật LOPQ tiếp
tục tối ưu hóa kỹ thuật OPQ bằng cách áp dụng tư tưởng của OPQ cho các phân
bố hay cụm cục bộ của dữ liệu thay vì thực hiện trên toàn bộ dữ liệu. Dù đã
được cải tiến nhiều nhưng tất các các kỹ thuật PQ ở trên đều có chung nhược
điểm đó là chi phí bộ nhớ và thời gian khá cao khi huấn luyện các codebooks.
1.2.3. Các kỹ thuật hoàn thiện video
Như đã được đề cập trong phần giới thiệu bài toán, sau khi phát hiện đối
tượng trong video, hiểu được nội dung video thông qua quá trình phân tích thì
video có thể được hiệu chỉnh tùy theo mục đích sử dụng như thay thế, loại bỏ
đối tượng tìm thấy khỏi video, chèn đối tượng mới vào video, thêm hiệu ứng,
nâng cao chất lượng ...
a) video gốc b) video hoàn thiện
Hình 1.10. Ví dụ hoàn thiện ảnh với kỹ thuật video inpainting [92]
Tiến trình hiệu chỉnh video sẽ làm xuất hiện các vùng trống hay bị phá
hủy cần được hoàn thiện trong quá trình hậu xử lý. Tiến trình khôi phục, tái tạo,
35
hoàn thiện các vùng này được thực hiện bằng kỹ thuật video inpainting. Hình
1.10 minh hoạ một ứng dụng của kỹ thuật video inpainting. Trong ứng dụng
này đối tượng được định vị trong hình vuông màu đỏ (ảnh 1.10.a) bị loại bỏ.
Các điểm ảnh bị mất mát thông tin trong video được hoàn thiện bởi dữ liệu lân
cận theo một cách nào đó nhằm tạo ra ảnh mới tương đồng với ảnh gốc nhất
theo cách hợp lý, có thể chấp nhận được so theo cảm nhận của thị giác.
Để đạt được mục tiêu khôi phục ảnh bị phá hủy thành ảnh nguyên bản, các
khoảng trống hay phần bị phá hủy phải được lấp đầy bằng các điểm ảnh tương
tự. Dựa trên nguyên lý lấp đầy các vùng ảnh bị phá hủy theo cấu trúc và kết cấu
của vùng ảnh lân cận, các kỹ thuật inpainting đã được nghiên cứu và phát triển
theo hai cách tiếp cận dựa trên lấy mẫu (Patch-based inpainting) [21] [7] [6]
[47] [8] [64], hoặc dựa trên mạng CNN (CNN-based inpainting) [87] [64] [90]
[36] [73] [18] [81] [29].
1.2.3.1. Video inpainting dựa trên lấy mẫu
Lấp đầy các vùng trống được tạo ra do bị phá hủy sử dụng tổng hợp kết
cấu dựa trên lấy mẫu là kỹ thuật truyền thống được sử dụng nhiều nhất cho bài
toán inpainting ảnh. Kỹ thuật này được giới thiệu lần đầu trong nghiên cứu [21],
trong đó các phần ảnh bị mất được khôi phục theo cách gia tăng vùng hoàn
thiện từ mép ngoài vào trong tâm vùng bằng cách tìm kiếm các bản mẫu thích
hợp và ghép chúng với nhau theo một thứ tự ưu tiên nhất định.
Để tìm kiếm nhanh các mảnh ghép phù hợp, Barnes và các cộng sự đã đề
xuất một thuật toán PatchMatch [7] nhằm khai thác sự kết dính trong ảnh, và
được tổng quát hóa [6] để tìm ra K mẫu lân cận gần nhất. Dựa trên các nghiên
cứu này, có nhiều khuynh hướng khác nhau để cải thiện việc tìm kiếm và tối
ưu hóa thứ tự ghép mẫu [47] [8]. Phương pháp này cũng được điều chỉnh phù
hợp với bài toán video inpainting bằng cách thay thế quá trình tổng hợp mẫu
2D bằng quá trình tổng hợp mẫu không gian-thời gian 3D qua các frame. Sự
mở rộng này lần đầu tiên được đề xuất trong [86] nhằm duy trì tính nhất quán
36
về thời gian của video tái tạo. Sau đó chúng được cải thiện trong nghiên cứu
[81] để xử lý video đầu vào phức tạp hơn. Điểm nổi bật của phương pháp này
là có thể áp dụng hiệu quả cho các vùng trống kích thước lớn, nhưng chỉ cho
các vùng có cấu trúc và kết cấu đơn giản và phải tìm được đầy đủ các mẫu để
lấp đầy vùng trống. Đặc biệt, hiệu quả cao với video có thường nội dung lặp đi
lặp lại qua các frame. Phần lớn các giải thuật dựa trên lấy mẫu đều vận dụng
chiến lược tham lam xử lý vấn đề ưu tiên vị trí cần hoàn thiện trước. Vì vậy các
giải thuật này chịu sự tác động của chiến lược tham lam, chiến lược tốt cho kết
quả tốt và ngược lại. Chúng không thể giải quyết trường hợp các phần bị mất
mát không thể được thay thế bằng nội dung tương tự từ dữ liệu đầu vào tức là
thiếu mẫu ghép. Nhằm khắc phục nhược điểm này, để khôi phục một tập dữ
liệu video lớn, phương pháp tối ưu là huấn luyện một mạng CNN để dự đoán
các thông tin bị mất dựa trên sự thấu hiểu ngữ cảnh mức cao.
1.2.3.2. Inpainting ảnh sử dụng DCNN cho không gian 2D
Thời gian gần đây, với sự phát triển mạnh của DCNN cũng như rất nhiều
thành tựu mà DCNN mang lại trong lĩnh vực thị giác máy tính, nhiều nghiên
cứu đã áp dụng mạng này cho bài toán inpainting ảnh và đạt được nhiều thành
công vượt bậc so với cách tiếp cận truyền thống. DCNN lần đầu được giới thiệu
trong nghiên cứu [87] cho bài toán inpainting ảnh nhưng với các vùng trống có
kích thước nhỏ. Sau đó Pathak và các cộng sự trong nghiên cứu [64] đã đề xuất
phương pháp giải quyết bài toán hoàn thiện các vùng trống kích thước lớn sử
dụng một kiến trúc mạng encoder-decoder có thể học các đặc trưng ngữ cảnh
của ảnh rất hiệu quả. Đối với bài toán inpainting ảnh độ phân giải cao, Yang và
các cộng sự [90] kết hợp giữa inpainting dựa trên lấy mẫu và inpainting dựa
trên DCNN, kết quả từ bộ mã hóa nội dung được lấy làm đầu vào cho tiến trình
thẩm thấu thông tin kết cấu từ các vùng nguồn sang làm đầy các vùng đích.
Mặc dù các thành phần lạ không thường xuyên xuất hiện nhưng vẫn còn tồn tại
một số vùng có vết mờ. Thuật toán được đề xuất trong [36] tiếp tục cải thiện
37
hiệu năng bằng cách kết hợp hai hàm mất mát thông tin đối kháng để ước lượng
tính nhất quán toàn cục và cục bộ thu được. Khác với các nghiên cứu trước đây
chỉ tập trung vào lấp đầy các vùng trống dạng hộp, nghiên cứu này còn phát
triển một chiến lược để xử lý các vùng trống với hình dạng tùy ý. Mở rộng các
phương pháp này cho video là một tác vụ đầy khó khăn, thử thách, bởi hoàn
thiện video không chỉ cần hiểu ngữ cảnh của cả các frame và các chuyển động,
mà còn đòi hỏi phải đảm bảo sự mượt mà theo thời gian của video đầu ra.
1.2.3.3. Video inpainting sử dụng DCNN cho không gian 3D
Một loạt các nghiên cứu khác liên quan đến vấn đề video inpainting là sử
dụng DCNN với bộ lọc 3D để hoàn thiện các hình dạng 3D. Tương tự như các
phương pháp image inpainting dựa trên học sâu, hầu hết các phương pháp như
[73] [18] sử dụng kiến trúc encoder-decoder nhưng với bộ lọc 3D để giải quyết
vấn đề này. Tuy nhiên, tất cả các kỹ thuật này chỉ có thể xử lý các lưới ma trận
ảnh có độ phân giải thấp (thường là 303 voxels – điểm ảnh ba chiều) do chi phí
tính toán cao của các phép tích chập 3D. Để giảm chi phí tính toán, nhiều cách
tiếp cận mới gần đây nhất được đề xuất. Sử dụng một bộ dữ liệu, Dai và các
cộng [18] đã sử dụng truy xuất mẫu và ráp các bản mẫu như một quá trình hậu
xử lý để tinh chỉnh đầu ra có độ phân giải thấp của kiến trúc encoder-decoder.
Đối với quá trình hậu tinh chỉnh như vậy, nghiên cứu [83] đã đề xuất một chiến
lược chia đầu ra độ phân giải thấp thành một chuỗi ảnh và thực hiện siêu phân
giải và hoàn thiện từng ảnh với mạng nơron hồi quy. Han và cộng sự [29] đã
thiết kế một mạng lai để kết hợp dự đoán cấu trúc toàn cục và trích xuất không
gian cục bộ.
38
Kết luận chương 1
Trong chương này tổng quan về mô hình phát hiện và thay thế đối tượng
đã được đề xuất gồm 4 pha và được luận án tập trung nghiên cứu các kỹ thuật
phù hợp cho từng pha. Các kỹ thuật sử dụng trong tiến trình phát hiện đối tượng
như: mô hình dò tìm đối tượng trong video, các kỹ thuật nhận dạng hình thể
của đối tượng trong video được trình bày. Các kỹ thuật trong tiến trình thay thế
đối tượng gồm: phân vùng, trích chọn vùng hiển thị của đối tượng, mô hình
hoàn thiện vùng bị phá hủy trong video tạo ra khi xóa bỏ, thay thế đối tượng đã
được nghiên cứu, trình bày tổng quan. Thông qua tìm hiểu và đánh giá ở mức
tổng quan này, ưu điểm, hạn chế của các nghiên cứu liên quan đến các kỹ thuật
dò tìm đối tượng, nhận dạng hình dạng của đối tượng và hoàn thiện video đã
được nhận diện và từ đó đưa ra hướng nghiên cứu phù hợp nhất cho bài toán
phát hiện và thay thế đối tượng tự động trong video. Cụ thể, luận án nghiên cứu
cải tiến mô hình dò tìm đối tượng dựa trên DCNN, kỹ thuật nhận dạng hình
dáng đối tượng bằng phương pháp tìm kiếm ANN trên tập dữ liệu vector đặc
trưng đã được lập chỉ cho bài toán phát hiện đối tượng. Nghiên cứu cải tiến
mạng DCNN sử dụng trong pha thay thế đối tượng và hoàn thiện video.
39
CHƯƠNG 2. PHÁT HIỆN ĐỐI TƯỢNG TRONG VIDEO
Phát hiện đối tượng bao gồm hai tiến trình dò tìm và nhận dạng hình
dạng đối tượng là nhiệm vụ cốt lõi trong các hệ thống thị giác máy tính nói
chung và trong hệ thống thay thế đối tượng nói riêng. Mục đích của chương
này là trình bày các mô hình cải tiến dùng để dò tìm và nhận dạng hình dạng
đối tượng theo thời gian thực với độ chính xác cao. Tốc độ phát hiện (>30 frame
mỗi giây) là yếu tố then chốt trong việc lựa chọn mô hình để cải tiến. Vì vậy,
luận án tập trung nghiên cứu cải tiến mô hình YOLOv3 phù hợp với các ràng
buộc đã được đưa ra trong phần mở đầu cho bài toán dò tìm và trích chọn đặc
trưng đối tượng quảng cáo nhằm gia tăng độ chính xác trong khi vẫn duy trì tốc
độ theo thời gian thực. Sau đó kỹ thuật PSVQ được phát triển dựa trên cách
tiếp cận PQ kết hợp với cây phân cụm thứ bậc để tìm ra đối tượng trong tập đối
tượng có sẵn có hình dạng tương đồng nhất với đối tượng đã được tìm thấy
trong video theo các đặc trưng đã trích chọn. Cụ thể, mô hình dò tìm đối tượng
cải tiến được trình bày chi tiết trong phần 2.1 cùng với các thực nghiệm dùng
để đánh giá, ước lượng mức độ hiệu quả cua mô hình cải tiến và so sánh với
các mô hình khác trên tập dữ liệu mới Flickrlogo-47. Tiếp theo phần 2.2 trình
bày chi tiết kỹ thuật PSVQ và phương pháp tìm kiếm ANN dựa trên cây phân
cụm thứ bậc sự kết hợp với PSVQ cho bài toán tìm kiếm, nhận dạng hình dạng
của đối tượng. Cuối cùng là các kết quả thực nghiệm chứng minh mức độ hiệu
quả của các giải thuật cải tiến.
2.1. Dò tìm đối tượng trong video
Các mô hình dò tìm đối tượng hai trạng thái và một trạng thái đều có ưu
điểm và nhược điểm riêng của nó. Với mô hình hai trạng thái cho độ chính xác
cao tuy nhiên tốc độ thực thi lại rất chậm. Trong khi đó mô hình một trạng thái
đặc biệt là họ mô hình dò tìm đối tượng YOLO cho độ chính xác thấp hơn
nhưng lại đạt tốc độ xử lý rất nhanh phù hợp cho các ứng dụng xử lý video. Vì
vậy, luận án tập trung nghiên cứu cải tiến mô hình YOLO phiên bản mới nhất
40
YOLOv3 nhằm cân bằng giữa hiệu suất thực thi và độ chính xác phù hợp với
đối tượng quảng cáo. Tốc độ của mô hình cải tiến được duy trì theo thời gian
thực (>30 frame trong một giây), độ chính xác cũng cải thiện, mAP đạt ở mức
cao (>80%) khi áp dụng cho bài toán phát hiện đối tượng quảng cáo. Trong nội
dung phần này, mô hình dò tìm đối tượng YOLO cùng các phiên bản của nó
YOLOv2, YOLOv3 được trình bày khái quát trong phần 2.1.1. Chi tiết các cải
tiến phù hợp với bài toán nhận dạng đối tượng quảng cáo được trình bày trong
phần 2.1.2. Cuối cùng, các kết quả thực nghiệm trên tập flickrlogos-47 được
trình bày trong phần 2.1.3.
2.1.1. Khái quát về mô hình dò tìm đối tượng YOLO
Năm 2016, Redmon và các cộng sự đã đề xuất mô hình dò tìm đối tượng
đầu-cuối YOLO [68]. Đây là mô hình dò tìm đối tượng một trạng thái, thống
nhất toàn bộ các thành phần riêng biệt trong quá trình dò tìm đối tượng vào một
mạng nơron duy nhất. YOLO sử dụng đặc trưng từ toàn bộ bức ảnh để dự đoán
bounding box cho tất cả các lớp đối tượng.
Hình 2.1. Ý tưởng chính của mô hình YOLO
Ý tưởng chính của mô hình YOLO được biễu diễn trong hình 2.1. Ảnh
đầu vào sẽ được chia thành một lưới gồm 푆푥푆 ô vuông (grid cell), dự đoán B
bounding box và C xác suất phân lớp cho mỗi grid cell. Mỗi bounding box
trong cell thứ i chứa 5 thành phần dự đoán: 푥, 푦, 푤, ℎ và chỉ số đối tượng
(Confidence score). Trong đó, các giá trị 푤 và ℎ biểu diễn kích thước chiều
ngang và chiều dọc tương đối của bounding box so với kích thước toàn bộ bức
ảnh. Các giá trị (푥, 푦) biểu diễn tọa độ tương đối của tâm đối tượng so với viền
41
grid cell. Confidence score phản ánh độ tin cậy tồn tại đối tượng chứa bên trong
bounding box, và được định nghĩa theo công thức sau:
푡푟푢푡ℎ
Confidence score = Pr(표푏푗) ∗ 퐼표푈푝푟푒푑 (2.1)
Hình 2.2. Cách tính IoU
Trong phương trình (2.1), Pr(표푏푗) có giá trị trong khoảng [0,1] là xác
푡푟푢푡ℎ
xuất đối tượng rơi vào trong ô hiện tại. 퐼표푈푝푟푒푑 (Intersection Over Union -
IoU) là tỉ lệ trùng khớp của bounding box dự đoán so với hộp bao thực tế
(ground-truth box) (được minh họa trong hình 2.2). Tỷ lệ IoU càng cao thì độ
so khớp càng tốt.
Kết quả dự đoán đưa ra rất nhiều bounding box, các bounding box với
chỉ số đối tượng bé hơn một ngưỡng xác định trước sẽ bị loại bỏ. Sau đó, thuật
toán loại bỏ điểm không cực đại (Non-Maxima Suppression - NMS) [61] được
sử dụng để loại bỏ các bounding box không cần thiết.
Để cải tiến độ chính xác dự đoán của mô hình YOLO, Redmon và các
cộng sự đã đề xuất một phiên bản YOLOv2 vào năm 2017 [69]. Kiến trúc mạng
Darknet-19 cải tiến bằng cách loại bỏ các tầng kết nối đầy đủ của mạng
Darknet-19 nguyên bản để thay thế cho kiến trúc mạng VGG-16 trong phiên
bản YOLO. Đồng thời chuẩn hóa cụm (batch normalization-BN) [37] được áp
dụng cho từng tầng. Bên cạnh đó, sử dụng ý tưởng cơ chế hộp neo (anchor box)
của mạng dò tìm đối tượng CNN nhanh dựa trên đề xuất vùng (Faster R-CNN),
giải thuật phân cụm k-means được sử dụng để xác định các hộp neo này. So
với YOLO, YOLOv2 có sự cải thiện lớn cả về độ chính xác và tốc độ dò tìm
đối tượng.
42
YOLOv3 [70] tiếp tục được phát triển với một số cải tiến từ YOLOv2
nhằm gia tăng độ chính xác trong dò tìm đối tượng đặc biệt với các đối tượng
nhỏ. Cải tiến cốt lõi là sử dụng kiến trúc mạng dạng hình tháp đặc trưng, biến
thể của kiến trúc Darknet-53, gồm 106 tầng nhân chập đầy đủ để nhận dạng đối
tượng ở ba mức tỷ lệ khác nhau. Trong đó tầng 13x13 chịu trách nhiệm dò tìm
đối tượng lớn, trong khi tầng 52x52 dò tìm đối tượng nhỏ và 26x26 dò tìm các
đối tượng vừa. Ngoài ra còn một số cải tiến nhỏ khác như: sử dụng bộ phân lớp
logistic thay cho softmax tạo ra phân lớp đa tỷ lệ, sử dụng 9 anchor box với 3
anchor box cho mỗi tỷ lệ. Do sử dụng kiến trúc mạng lớn, phân lớp 3 tầng nên
độ chính xác trong dò tìm các đối tượng nhỏ được cải thiện nhưng tốc độ thực
thi lại giảm đi đáng kể.
Bên cạnh đó, họ YOLO là mô hình dò tìm đối tượng tổng quát, ứng dụng
thích hợp cho các trường hợp mà các đối tượng dò tìm có sự đa dạng, phức tạp
về hình thể và sự khác biệt giữa các lớp đối tượng là tương đối lớn như lớp
người, con vật, đồ vật. Tuy nhiên, với các đối tượng quảng cáo không quá phức
tạp về cấu trúc. Hơn nữa, sự khác biệt giữa các lớp đối tượng quảng cáo không
quá lớn. Do đó, để dò tìm đối tượng quảng cáo tốt hơn, luận án đã cải tiến mô
hình YOLOv3 thành mô hình YOLO-Adv, dò tìm đối tượng quảng cáo qua các
frame của video đạt được hiệu năng tốt trên cả tập dữ liệu kiểm thử và một số
tập dữ liệu tương tự khác.
2.1.2. Mô hình dò tìm đối tượng cải tiến YOLO-Adv
2.1.2.1. Cải tiến trong hàm loss
Với bài toán dò tìm đối tượng quảng cáo đính kèm với nội dung trong
video, hình ảnh quảng cáo xuất hiện thường xuyên có sự thay đổi về kích thước
do sự phóng to thu nhỏ theo sự tập trung vào đối tượng cần theo dõi hay sự di
chuyển camera lại gần hoặc ra xa đối tượng này mặc dù các đối tượng là cố
định. Kích thước đối tượng có tác động không nhỏ khi huấn luyện mô hình dò
tìm đối tượng CNN. Đối tượng có kích thước càng lớn thì độ lỗi càng lớn so
43
với các đối tượng nhỏ làm cho mức độ hội tụ của mô hình sẽ chậm hơn. Để
giảm sự ảnh hưởng về kích thước đối tượng lên mô hình, hàm lỗi theo kích
thước của bounding box được cải tiến bằng cách so sánh độ đo tương đối giữa
các cạnh của bounding box thay vì độ đo tuyệt đối giữa chúng như trong hàm
loss gốc.
Hàm loss nguyên bản trong họ YOLO được tổng hợp từ: độ lỗi dự đoán
vị trí (localization loss) gồm: tọa độ, chiều dọc, chiều ngang của bounding box,
độ lỗi xác định ô đang xét có chứa đối tượng hay không (confidence loss), và
độ lỗi trong việc dự đoá...h đường. Nguyên nhân
là do bị ảnh hưởng của kích thước mặt nạ - vùng tái tạo. Khi kích thước càng
lớn thì mức độ hiệu quả, tính chân thực của video tái tạo càng giảm. Mô hình
cải tiến chỉ đặt biệt hiệu quả khi độ dày của vùng bị phá huỷ là bé.
109
Kết luận chương 3
Trong chương này, để trích chọn chính xác vùng chứa đối tượng, luận án
đã sử dụng, kế thừa mô hình phân vùng thực thể đối tượng được trong nghiên
cứu [15]. Chi tiết mô hình này được trình bày một cách khái quát. Mặc dù độ
chính xác và thời gian phân vùng đã đáp ứng được kỳ vọng nhưng vẫn còn thấp
hơn so với mạng phân vùng Mask R-CNN. Tuy nhiên, với ưu điểm tiết kiệm
về chi phí và thời gian rất nhiều để tạo ra tập dữ liệu mặt nạ vùng huấn luyện
nên giải thuật vẫn được luận án sử dụng để phân vùng đối tượng.
Tiếp theo, mô hình cải tiến video inpainting V-RBPConv gồm hai bộ
phận là bộ phận sinh ảnh và bộ phận đối sánh ảnh theo thời gian được được
trình bày chi tiết. Trong cải tiến này mô hình tái tạo, hoàn thiện ảnh RBPconv
được sử dụng thay thế cho mô hình 3Dgated trong phần sinh ảnh. Bộ đối sánh
Temporal PathGAN được sử dụng nguyên bản trong nghiên cứu [39] để duy
trì tính kết cấu về mặt thời gian trong video. Hàm loss trong mạng V-RBPConv
được mở rộng từ hàm loss trong mô hình kiến trúc RBPconv bằng cách bổ sung
thêm thành phần lỗi trong GAN.
Cuối cùng, các kết quả thực nghiệm cho các mô hình cải tiến RBPConv
và V-RBPCon được trình bày. Cụ thể, mô hình RBPConv cho thấy kết quả ảnh
tái tạo có tính chân thực cao thể hiện qua các kết quả định tính dựa trên ảnh tái
tạo trực quan và định lượng thông qua các chỉ số đo SSIM hay PSNR. Mô hình
V-RBPCon tái tạo ra video có tính nhất quán cao về thời gian, ước lượng định
tính và định lượng qua thực nghiệm trên tập dữ liệu FVI với các dạng mặt nạ
hình đường và hình điểm đã minh chứng cho kết quả này.
110
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Luận án đã trình bày khái quát các vấn đề cơ bản liên quan đến bài toán
hậu xử lý, hiểu video gồm các kỹ thuật dò tìm đối tượng, nhận dạng tư thế/hình
dạng của đối tượng trong video và hoàn thiện video sau khi thay thế đối tượng.
Trên cơ sở khảo sát và phân tích các nghiên cứu liên quan, luận án đã tập trung
nghiên cứu, giải quyết hai vấn đề quan trọng trong lĩnh vực thị giác máy tính
liên quan đến bài toán hiểu video gồm: phát hiện đối tượng trong video và hoàn
thiện video sau khi chỉnh sửa, thay thế đối tượng nhận dạng được. Cụ thể, cải
tiến các kỹ thuật dò tìm đối tượng trong video dựa trên DCNN tiên tiến. Cải
tiến các kỹ thuật nhận dạng tư thế/hình dạng của đối tượng trong video dựa trên
cách tiếp cận lập chỉ mục, tìm kiếm và đối sánh mẫu. Sử dụng mô hình sẵn có
để phân vùng đối tượng trong ảnh. Cải tiến kỹ thuật video inpainting dựa trên
DCNN sau khi hiệu chỉnh nội dung như xóa bỏ chèn đối tượng vào video. Một
số kết quả đạt của luận án cụ thể như sau:
- Cải tiến hiệu năng thực thi mô hình dò tìm đối tượng trong video theo
hướng tiếp cận sử dụng mạng DCNN. Mô hình YOLO-Adv cải tiến từ kiến trúc
mạng YOLO được dùng để phân lớp, xác định vị trí bao quanh đối tượng tìm
thấy và trích trọn ra vector đặc trưng của đối tượng này. Mô hình cải tiến có
tính tổng quát cao, tốc độ thực thi đáp ứng thời gian thực được áp dụng cho
nhận dạng đối tượng quảng cáo trong video.
- Nâng cao độ chính xác, tốc độ thực thi phương pháp lập chỉ mục vector
đặc trưng ứng dụng để nhận dạng tư thế/hình dạng của đối tượng. Tập dữ liệu
các tư thế/hình dạng của đối tượng được trích chọn đặc trưng, lập chỉ mục bằng
kỹ thuật PSVQ cải tiến từ PQ. Sau đó, tiến trình tìm kiếm xấp xỉ dựa trên cây
phân cấp thứ bậc được sử dụng để tìm ra tư thế/hình dạng thích hợp nhất của
đối tượng.
- Cải tiến mô hình video inpainting V-RBPconv gia tăng tốc độ, độ chính
xác, hiệu năng thực thi, bảo toàn tính kết cấu về không gian và thời gian khi
111
hoàn thiện, tái tạo video sau hiệu chỉnh với vùng tái tạo có hình dạng và kích
thước bất kỳ, độ dày không quá lớn. Mô hình cải tiến là sự kết hợp giữa kỹ
thuật inpainting ảnh RBPconv với bộ phân biệt Temporal PatchGAN.
Tuy nhiên, luận án còn một số hạn chế:
- Chưa xây dựng được bộ dữ liệu đặc trưng xuyên xuốt cho cả 2 pha:
phát hiện, thay thế đối tượng trong video
- Vấn đề ảnh hưởng của các yếu tố liên quan đến cấu thành video để phân
đoạn video, trích chọn key frame và tính nhất quán về thời gian trong nhận dạng
hình thể của đối tượng chưa được xét đến;
- Chưa đề xuất được mô hình đầu cuối cho bài toán nhận dạng, phân
vùng đối tượng.
Từ những hạn chế trên, hướng nghiên cứu tiếp theo của luận án là:
(1) Phát triển bộ dữ liệu huấn luyện gồm bộ ảnh huấn luyện cho bài toán
phát hiện đối tượng, bộ dữ liệu video chứa các vùng trống do ảnh thay thế ảnh
trong giai đoạn phát hiện.
(2) Nghiên cứu các yếu tố cấu thành video, định dạng video, tính nhất
quán về thời gian trong nhận dạng hình thể của đối tượng trong video;
(3) Nghiên cứu đề xuất mô hình DCNN để có thể đồng thời dò tìm, nhận
dạng và phân vùng các đối tượng tìm thấy.
112
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN
LUẬN ÁN
[CT1] “Cải tiến kiên trúc mạng Yolo cho bài toán nhận dạng logo” TNU
Journal of Science and Technology, vol. 200, no. 07, pp. 199-205, 2019.
[CT2] “A review of feature indexing methods for fast approximate
nearest neighbor search” 5th NAFOSTED Conference on Information and
Computer Science (NICS), pp. 372 – 377, 2018.
[CT3] “Hierarchical product quantization for effective feature indexing”
ICT, 26th International Conference on Telecommunications, pp. 386 – 390,
April 8-10-2019.
[CT4] “Product sub-vector quatization for feature indexing” Jounal of
Computer Science and Cybernetics, vol. 35, no. 11, pp. 69-83, 2019.
[CT5] “Hoàn thiện các vùng phá hủy hình dạng bất kỳ trong ảnh sử dụng
kiến trúc mạng thặng dư và tích chập từng phần” TNU Journal of Science and
Technology, vol. 208, no. 15, pp. 19-26, 2019.
[CT6] “A study on parameter tuning for optimal indexing on large scale
datasets”, Journal of Science and Technology on Information and
Communications, 2020.
113
TÀI LIỆU THAM KHẢO
Tiếng Anh
[1] Anh P. T. (2017), "Pair-wisely optimized clustering tree for feature
indexing," Computer Vision and Image Understanding, vol. 154, no. 1, pp.
35-47.
[2] Anh P. T. (2018), "Improved embedding product quantization,"
Machine Vision and Applications, In Press.
[3] Anh P. T., Toan D. N. (2018), "Embedding hierarchical clustering in
product quantization for feature indexing," Multimed Tools Appl.
[4] Arafat S. Y., Husain S. A., Niaz I. A., Saleem M. (2010), "Logo
detection and recognition in video stream," IEEE International Conference
on Digital Information Management, pp. 163-168.
[5] Bao Y., Li H., Fan X., Liu R., Jia Q. (2016), "Region-based cnn for
logo detection," ACM International Conference on Internet Multimedia
Computing and Service, ICIMCS’16, p. 319–322.
[6] Barnes C., Shechtman E., Goldman D. B., Finkelstein A. (2010),
"The generalized patchmatch correspondence algorithm.," European
Conference on Computer Vision,Springer, pp. 29-43.
[7] Barnes C., Shechtman,E., Finkelstein A., Goldman D. B. (2009),
"Patchmatch: a randomized correspondence algorithm for structural image
editing," ACM Transactions on Graphics (TOG), vol. 28, p. 24.
[8] Barnes C., Zhang F. L., Lou L., Wu X., Hu S. M. (2015), "Patchtable:
Efficient patch queries for large datasets and applications.," ACM
Transactions on Graphics (TOG), vol. 34, no. 4, p. 97.
[9] Bay H., Ess A., Tuytelaars T., Gool L. V. (2008), "Speeded-Up
Robust Features (SURF)," Computer Vision and Image Understanding, vol.
110, no. 3, pp. 346-359.
[10] Bertalmio M., Sapiro G., Ballester C., Caselles V. (2000), "Image
inpainting," ACM Trans. on Graphics (SIGGRAPH), pp. 417-424.
[11] Bolya D., Zhou C., Xiao F., Lee Y. J. (2019), "Yolact: Real-time
instance segmentation," arXiv preprint arXiv:1904.02689.
114
[12] Bombonato L., Camara-Chavez G., Silva P. (2018), "Real-time brand
logo recognition," Progress in Pattern Recognition, Image Analysis,
Computer Vision, and Applications, p. 111–118.
[13] Cai G., Chen L., Li J. (2003), "Billboard advertising detection in sport
tv," Signal Processing and Its Applications, 2003 Proceedings. Seventh
International Symposium on, vol. 1, pp. 537-540.
[14] Chang Y. L., Liu Z. Y., Hsu W. (2019), "Free-form Video Inpainting
with 3D Gated Convolution and Temporal PatchGAN,"
arXiv:1904.10247v3.
[15] Chen L. C., Papandreou G., Kokkinos I., Murphy K., Yuile A. L.
(2018), "Deeplab: Semantic image segmentation with deep convolutional
nets, atrous convolution, and fully connected crfs," PAMI, vol. 40, no. 4, pp.
834-848.
[16] Chen Y., Guan T., Wang C. (2010), "Approximate nearest neighbor
search by residual vector quantization," Sensors, vol. 10, no. 12, pp. 11259-
11273.
[17] Covell M., Baluja S., Fink M. (2006), "Advertisement detection and
replacement using acoustic and visual repetition," Multimedia Signal
Processing, 2006 IEEE 8th workshop on, pp. 461-466.
[18] Dai A., Qi C. R., Nießner M. (2017), "Shape completion using 3d-
encoder-predictor cnns and shape synthesis," Proc. IEEE Conf. on Computer
Vision and Pattern Recognition (CVPR), vol. 3.
[19] Dalal N., Triggs B. (2005), "Histograms of oriented gradients for
human detection," IEEE Conference on Computer Vision and Pattern
Recognition, vol. 1, p. 886–893.
[20] Deng J., Dong W., Socher R., Li L. J., Li K., and Fei-Fei L. (2009),
"Imagenet: A large-scale hierarchical image database," CVPR.
[21] Efros A. A., Leung T. K. (1999), "Texture Synthesis by Non-
parametric Sampling," Computer Vision, 1999. The Proceedings of the
Seventh IEEE International Conference, vol. 2, pp. 1033-1038.
[22] Felzenszwalb P. F., Huttenlocher D. P. (2005), "Pictorial structures
for object recognition," International Journal of Computer Vision, vol. 61,
no. 1, pp. 55-79.
115
[23] Feng Z., Neumann J. (2013), "Real time commercial detection in
videos,".
[24] Ge T., He K., Ke Q., Sun J. (2014), "Optimized product
quantization," IEEE Trans. Pattern Anal. Mach. Intell, vol. 36, no. 4, pp.
744-755.
[25] Girshick R. (2015), "Fast r-cnn," ICCV.
[26] Girshick R., Donahue J., Darrell T., Malik J. (2014), "Rich feature
hierarchies for accurate object detection and semantic segmentation," IEEE
Conference on Computer Vision and Pattern Recognition, p. 580–587.
[27] Gonzalez R., and Wood R. (2009), "Digital Image Processing,"
Pearson Edn.
[28] Haar A. (1910), "Zur theorie der orthogonalen funktionensysteme,"
Mathematische Annalen, vol. 69, no. 3, p. 331–371.
[29] Han X., Li Z., Huang H., Kalogerakis E., Yu Y. (2017), "High-
resolution shape completion using deep neural networks for global structure
and local geometry inference," IEEE International Conference on Computer
Vision (ICCV).
[30] He K., Gkioxari G., Dollar P.,Girshick R. B. (2017), "Mask r-cnn,"
ICCV.
[31] He K., Zhang X., Ren S., Sun J. (2016), "Deep residual learning for
image recognition," Proceedings of the IEEE conference on computer vision
and pattern recognition, pp. 770-778.
[32] Heusel M., Ramsauer H., Unterthiner T., Nessler B., and Hochreiter
S. (2017), "Gans trained by a two time-scale update rule converge to a local
nash equilibrium," Advances in Neural Information Processing Systems, p.
6626–6637.
[33] Hoi S. C. H., Wu X., Liu H., Wu Y., Wang H., Xue H., Wu Q. (2015),
"Logo-net: Large-scale deep logo detection and brand recognition with deep
region-based convolutional networks," abs/1511.02462.
[34] Hussain Z., Zhang M., Zhang X., Ye K., Thomas C., Agha Z., Ong
N., Kovashka A. (2017), "Automatic understanding of image and video
advertisements," IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), pp. 1100-1110.
116
[35] Iandola F. N., Shen A., Gao P., Keutzer K. (2015), "Deeplogo: hitting
logo recognition with the deep neural network hammer," arXiv preprint
arXiv: 1510.02131.
[36] Iizuka S., Simo-Serra E., Ishikawa H. (2017), "Globally and locally
consistent image completion," ACM Transactions on Graphics (TOG), vol.
36, no. 4.
[37] Ioffe S., Szegedy C. (2005), "Batch Normalization: Accelerating
Deep Network Training by Reducing Internal Covariate Shift," Proceedings
of the International Conference on Machine Learning, p. 448–456.
[38] Jégou H., Douze M., Schmid C. (2011), "Product Quantization for
Nearest Neighbor Search," IEEE Trans. Pattern Anal. Mach. Intell., vol. 33,
no. 1, p. 117–128.
[39] Johnson J., Alahi A., Fei-Fei L. (2016), "Perceptual losses for real-
time style transfer and super-resolution," European Conference on
Computer Vision, p. 694–711.
[40] Joly A., Buisson O. (2009), "Logo retrieval with a contrario visual
query expansion.," ACM International Conference on Multimedia, pp. 581-
584.
[41] Kalantidis Y., Avrithis Y. (2014), "Locally optimized product
quantization for approximate nearest neighbor search," Proceedings of
International Conference on Computer Vision and Pattern Recognition
(CVPR 2014), Columbus, Ohio.
[42] Ke Y., Sukthankar R. (2004), "PCA-SIFT: A More Distinctive
Representation for Local Image Descriptors," Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, vol. 2, pp. 506-
513.
[43] Kent A., Berry M. M., Luehrs Jr., Fred U., Perry J. W. (1995),
"Machine literature searching VIII. Operational criteria for designing
information retrieval systems," American Documentation, vol. 6, no. 2, p.
93.
[44] Khoreva A., Benenson R., Hosang J. H., Hein M., Schiele B. (2017),
"Simple does it: Weakly supervised instance and semantic segmentation," In
CVPR.
117
[45] Kingma D. P., Ba J. L., Adam (2015), "A method for stochastic
optimization," international conference on learning representations.
[46] Krizhevsky A., Sutskever I., Hinton G. E. (2012), "Imagenet
classifcation with deep convolutional neural networks," Advances in Neural
Information Processing Systems, p. 1097–1105.
[47] Kwatra V., Essa I., Bobick A., Kwatra N. (2005), "Texture
optimization for example-based synthesis," ACM Transactions on Graphics
(ToG), vol. 2005, pp. 795-802.
[48] Laradji I. H., Vazquez D., Schmidt M. (2019), "Where are the Masks:
Instance Segmentation with Image-level Supervision," arXiv:1907.01430.
[49] Lienhart R., Maydt J. (2002), "An extended set of haar-like features
for rapid object detection," IEEE International Conference on Image
Processing, vol. 1.
[50] Liu G., Reda F. A., Shih K. J., Wang. T. C., Tao. A., Catanzaro B.
(2018), "Image inpainting for irregular holes using partial convolutions,"
arXiv preprint arXiv:1804.07723.
[51] Liu H., Jiang S., Huang Q., Xu C. (2008), "A generic virtual content
insertion system based on visual attention analysis," ACM MM’08, pp. 379-
388,.
[52] Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C, Y.,
and Berg, A, C. (2016), "Ssd: Single shot multibox detector", ECCV.
[53] Long J., Shelhamer E., Darrell T. (2015), "Fully convolutional
networks for semantic segmentation," IEEE Conference on Computer Vision
and Pattern Recognition (CVPR), p. 3431–3440.
[54] Lowe D. G. (2004), "Distinctive image features from scale-invariant
keypoints," International Journal of Computer Vision, vol. 60, no. 2, pp. 91-
110.
[55] Mahajan K. S., Vaidya M. B. (2012), "Image in Painting Techniques:
A survey," IOSR Journal of Computer Engineering, vol. 5, no. 4, pp. 45-49.
[56] Medioni G., Guy G., Rom H.(1998), "Real-Time Billboard
Substitution in a Video Stream," Digital Communications.
[57] Muja M., Lowe D. G. (2009), "Fast approximate nearest neighbors
with automatic algorithm configuration," VISAPP International Conference
on Computer Vision Theory and Applications, p. 331–340.
118
[58] Muja M., Lowe D. G. (2014), "Scalable nearest neighbor algorithms
for Scalable nearest neighbor algorithms for," IEEE Trans. Pattern Anal.
Mach. Intell. 36, p. 2227–2240.
[59] Muja M., Lowe, D. G. (2012), "Fast matching of binary features,"
Proceedings of the Ninth Conference on Computer and Robot Vision (CRV),
p. 404–410.
[60] Nazeri K., Eric Ng., Joseph T., Qureshi F., Ebrahimi M. (2019),
"EdgeConnect: Generative Image Inpainting with Adversarial Edge
Learning," arXiv preprint arXiv:1901.00212.
[61] Neubeck A., Van Gool L. (2006), "Efficient non-maximum
suppression," Proceedings of the International Conference on Pattern
Recognition (ICPR); Hong Kong, China. 20–24 August 2006, p. 850–855.
[62] Norouzi M., Fleet D. J. (2013), "Cartesian k-means," Proceedings of
the 2013 IEEE Conference on Computer Vision and Pattern Recognition,
CVPR’13, p. 3017–3024.
[63] Oliveira G., Frazao X., Pimentel A., Ribeiro B. (2016), "Automatic
graphic logo detection via fast region-based convolutional networks,"
International Joint Conference on Neural Networks, p. 985–991.
[64] Pathak D., Krahenbuhl P., Donahue J., Darrell T., Efros A. A. (2016),
"Context encoders: Feature learning by inpainting," Proceedings of the IEEE
Conference on Computer Vision and Pattern Recognition, p. 2536–2544.
[65] Patwardhan K. A., Sapiro G., Bertalmio M. (2007), "Video inpainting
under constrained camera motion," IEEE Trans. on Image Proc. (TIP), vol.
16, no. 2, pp. 545-553.
[66] Pinheiro P. O., Lin T. Y., Collobert R., Dollár P. (2016), "Learning
to refine object segments," ECCV.
[67] Real E., Shlens J., Mazzocchi S., Pan X., Vanhoucke V. (2017),
"Youtube-boundingboxes: A large high-precision human-annotated data set
for object detection in video," Proceedings of the IEEE Conference on
Computer Vision and Pattern Recognition, pp. 5296-5305.
[68] Redmon J., Divvala S., Girshick R., Farhadi A. (2016), "You only
look once: Unifed, real-time object detection.," EEE Conference on
Computer Vision and Pattern Recognition, p. 779–788.
119
[69] Redmon J., Farhadi A. (2017), "Yolo9000: better, faster, stronger,"
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition (CVPR), p. 6517–6525, 21–26 July.
[70] Redmon J., Farhadi A. (2018), "YOLOv3: An Incremental
Improvement," arXiv:1804.02767v1.
[71] Ren S., He K., Girshick R., Sun J. (2015), "Faster r-cnn: Towards real
time object detection with region proposal networks," NIPS, pp. 91-99.
[72] Romberg S., Pueyo L. G., Lienhart R., van Zwol R. (2011), "Scalable
logo recognition in real-world images," ACM International Conference on
Multimedia Retrieval, vol. 8, pp. 1-25.
[73] Sharma A., Grau O., Fritz M. (2016), "Vconv-dae: Deep volumetric
shape learning without object labels," European Conference on Computer
Vision, p. 236–250.
[74] Simonyan K., Zisserman A. (2014), "Very deep convolutional
networks for large-scale image recognition," CoRR arXiv:1409.1556.
[75] Su H., Zhu X., Gong S. (2017), "Deep learning logo detection with
data expansion by synthesising context," IEEE Winter Conference on
Applications of Computer Vision, p. 530–539.
[76] Szegedy C., Wei L., Yangqing J., Sermanet P., Reed S., Anguelov D.,
Erhan D., Vanhoucke V., Rabinovich A. (2015), "Going deeper with
convolutions," IEEE Conference on Computer Vision and Pattern
Recognition, pp. 1-9.
[77] Timothy K., Shih N. C., Tan J. C., Zhong H. J. (2003), "Video
Falsifying by Motion Interpolation and Inpainting".
[78] Tursun O., Kalkan S. (2015), "Metu dataset: A big dataset for
benchmarking trademark retrieval," IAPR International Conference on
Machine Vision Applications, pp. 514-517.
[79] Tuzko A., Herrmann C., Manger D., Jurgen B. (2018), "Open Set
Logo Detection and Retrieval," International Joint Conference on Computer
Vision, Imaging and Computer Graphics Theory and Applications.
[80] Uijlings J. R. R., van de Sande K. E. A., Gevers T., Smeulders A. W.
M. (2013), "Selective search for object recognition," International Journal
of Computer ViVision, vol. 2, no. 104, p. 154–171, September.
120
[81] Venkatesh M. V., Cheung S. S., Zhao J. (2009), "Efficient
objectbased video inpainting," Pattern Recognition Letters, vol. 30, no. 2,
pp. 168-179.
[82] Wang C., Huang H., Han X., and Wang J. (2019), "Video inpainting
by jointly learning temporal structure and spatial details," Proceedings of the
33th AAAI Conference on Artificial Intelligence.
[83] Wang W., Huang Q., You S., Yang C., Neumann U. (2017), "Shape
inpainting using 3d generative adversarial network and recurrent
convolutional networks," arXiv preprint arXiv:1711.06375.
[84] Watve A., Sural S.( 2008), "Soccer video processing for the detection
of advertisement billboards," Pattern Recognition Letters , vol. 29, no. 7, pp.
994-1006.
[85] Weber M., Welling M., Perona P. (2000), "Towards automatic
discovery of object categories," IEEE Conference on Computer Vision and
Pattern Recognition, vol. 2, p. 101–108.
[86] Wexler Y., Shechtman E., Irani M. (2007), "Space-time completion
of video," IEEE Transactions on pattern analysis and machine intelligence,
vol. 29, no. 3.
[87] Xie J., Xu L., Chen E. (2012), "Image denoising and inpainting with
deep neural networks," Advances in neural information processing systems,
pp. 341-349.
[88] Xu N., Yang L., Fan Y., Yang J., Yue D., Liang Y., Price B., Cohen
S., Huang T. (2018), "Youtube-vos: Sequence-tosequence video object
segmentation.," Proceedings of the European Conference on Computer
Vision (ECCV), p. 585–601.
[89] Yan W. Q., Wang J., Kankanhalli M. S. (2005), "Automatic video
logo detection and removal," Springer-Verlag.
[90] Yang C., Lu X., Lin Z., Shechtman E., Wang O., Li H. (2017), "High-
resolution image inpainting using multi-scale neural patch synthesis," The
IEEE Conference on Computer Vision and Pattern Recognition (CVPR),
vol. 1, p. 3.
[91] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018), "Free-
form image inpainting with gated convolution," arXiv preprint
arXiv:1806.03589.
121
[92] Yu J., Lin Z., Yang J., Shen X., Lu X., Huang T. S. (2018),
"Generative image inpainting with contextual attention," arXiv preprint
arXiv:1801.07892.
[93] Zeiler M. D., Fergus R. (2014), "Visualizing and understanding
convolutional networks," In Proceedings of the European Conference on
Computer Vision, pp. 818-833.
[94] Zheng C., Cham T., and Cai J. (2019), "Pluralistic Image
Completion," CoRR abs/1903.04227.
[95] Zhou W., Bovik A. C., Sheikh H. R., and Simoncelli E. P. (2004),
"Image Qualifty Assessment: From Error Visibility to Structural
Similarity.," IEEE Transactions on Image Processing, vol. 13, no. 4, p. 600–
612.
[96] Zhou Y., Zhu Y., Ye Q., Qiu Q., Jiao J. (2018), "Weakly supervised
instance segmentation using class peak response," CVPR.
[97] Zhu Q., Wang L., Wu Y., Shi J. (2008), "Contour context selection
for object detection: A set-to-set contour matching approach," European
Conference on Computer Vision, pp. 774-787.
122
PHỤ LỤC
A. Bộ dữ liệu kiểm thử Flickrlogos-47
Flickrlogos-47 được mở rộng, hiệu chỉnh từ bộ dữ liệu flickrlogos-32 rất
phổ biến cho bài toán truy vấn ảnh logo. Do được thiết kế cho bài toán truy vấn
logo trong ảnh nên yếu điểm lớn nhất của bộ dữ liệu flickrlogos-32 là các chú
giải ở mức đối tượng chưa đầy đủ, chi tiết cho bài toán phát hiện logo. Thêm
vào đó với flickrlogos-32, mỗi ảnh chỉ xác định một thể hiện logo thuộc duy
nhất một nhãn nào đó mặc dù trong ảnh có nhiều thể hiện của một logo hay
nhiều logo khác nhau. Điều đó có ý nghĩa trong ngữ cảnh truy vấn ảnh nhưng
là một hạn chế cho bài toán nhận dạng.
Hình A.1. Chú giải của FlickrLogos-32 (bên trên) và FlickrLogos-47 (bên
dưới) được thể hiện trong các bounding box
Flickrlogos-47 ra đời không những cập nhật các chú thích còn thiếu cho
các nhãn trong ảnh mà còn tách rời, đánh nhãn riêng cho biểu tượng và dòng
văn bản minh họa logo, bổ sung thêm nhiều mẫu dữ liệu khác nhằm khắc phục
các hạn chế của tập dữ liệu flickrlogos-32. Số lớp trong flickrlogos-47 được
nâng lên 47 lớp bằng cách bổ sung thêm ảnh, tách số lớp có trong flickrlogos-
32. Các nhãn hiệu trong flickrlogos-32 gồm cả biểu tượng và ký tự thì được
tách thành 2 lớp trong flickrlogos-47. Mỗi ảnh trong flickrlogos-32 chỉ chứa
một logo thuộc về một lớp duy nhất thì trong flickrlogos-47 một ảnh có thể có
nhiều thể hiện thuộc về cùng một logo hoặc các lớp logo khác nhau. Ảnh nhiễu
trong flickrlogos-32 bị loại bỏ trong flickrlogos-47. Một khác biệt nữa của bộ
123
dữ liệu flickrlogos-47 so với flickrlogos-32 là sự đa dạng về kích thước, đặc
biệt là xuất hiện nhiều ảnh chứa các logo nhỏ nhằm tạo thêm độ khó cho việc
nhận dạng (hình A.1).
Hình A.2. Một số ảnh ví dụ trong tập dữ liệu flickrlogos-47
Flickrlogos-47 thực hiện chú thích lại, mỗi ảnh có thể chứa nhiều thể
hiện của logo và có thể thuộc vào nhiều lớp khác nhau vì vậy việc gắn các ảnh
vào tập huấn luyện và tập kiểm thử cũng phải thay đổi, một ảnh có thể nằm
trong đồng thời cả hai tập. Tập ảnh huấn luyện lúc này được hình thành từ 833
ảnh, tập kiểm thử gồm 1402 ảnh. Một thử thách lớn nhất khi phát hiện đối tượng
trên tập dữ liệu flickrlogos-47 là các thể hiện của logo thường có kích thước ở
nhiều tỷ lệ khác nhau, độ chênh lệch tỷ lệ có thể lớn. Trong đó nhiều thể hiện
logo có kích thước tương đối nhỏ, mà các thể hiện của đối tượng có kích thước
nhỏ thông thường khó nhận dạng hơn rất nhiều so với các thể hiện có kích thước
lớn. Thể hiện logo nhỏ nhất đơn lẽ trong một ảnh trong tập huấn luyện có chiều
dài là 15px trong khi thể hiện lớn nhất có chiều dài là 834px. Độ dài trung bình
là 99px. Kích thước ảnh trong tập dữ liệu flickrlogos-47 rất đa dạng. Ảnh có
kích thước lớn nhất là 1024x768px. Một số hình ảnh minh họa được thể hiện
trong hình A.2. Chi tiết về số lượng từng đối tượng được cho trong bảng A.1.
124
Tên lớp Huấn Kiểm Tên lớp Huấn Kiểm
luyện thử luyện thử
Adidas (Symbol) 37 104 Adidas (Text) 34 71
Aldi 38 88 Apple 30 47
Becks (Symbol) 52 98 Becks (Text) 54 118
BMW 29 51 Carlsberg (Symbol) 30 92
Carlsberg (Text) 40 112 Chimay (Symbol) 45 79
Chimay (Text) 56 83 CocaCola 62 91
Corona (Symbol) 32 54 Corona (Text) 35 59
DHL 51 93 Erdinger (Symbol) 48 70
Erdinger (Text) 33 50 Esso (Symbol) 32 63
Esso (Text) 8 34 FedEx 36 60
Ferrari 29 44 Ford 30 47
Fosters (Symbol) 33 99 Fosters (Text) 43 98
Google 33 50 Guinness (Symbol) 37 80
Guinness (Text) 38 103 Heineken 63 103
HP 43 75 Milka 89 275
nVidia (Symbol) 40 97 nVidia (Text) 40 92
Paulaner (Symbol) 48 69 Paulaner (Text) 30 63
Pepsi (Symbol) 57 194 Pepsi (Text) 54 140
Rittersport 87 202 Shell 34 66
Singha (Symbol) 26 56 Singha (Text) 26 57
Starbucks 43 65 Stellaartois (Symbol) 43 72
Stellaartois (Text) 33 66 Texaco 33 56
Tsingtao (Symbol) 39 91 Tsingtao (Text) 49 95
UPS 34 57 Tổng 1936 4032
Bảng A.1. Số lượng đối tượng cho các tập huấn luyện và kiểm thử của tập
dữ liệu FlickrLogo-47. Với mỗi lớp đối tượng, tập huấn luyện chiếm
khoảng 33% tổng số đối tượng trong lớp đó.
125
B. Kiến trúc mạng Darknet-53
Kiểu Bộ lọc Kích thước Đầu ra
Convolution 32 3 x 3 256 x 256
Convolution 64 3 x 3 / 2 128 x 128
Convolution 32 1 x 1
1x Convolution 64 3 x 3
Residual 128 x 128
Convolution 128 3 x 3 / 2 64 x 64
Convolution 64 1 x 1
2x Convolution 128 3 x 3
Residual 64 x 64
Convolution 256 3 x 3 / 2 32 x 32
Convolution 128 1 x 1
8x Convolution 256 3 x 3
Residual 32 x 32
Convolution 512 3 x 3 / 2 16 x 16
Convolution 256 1 x 1
8x Convolution 512 3 x 3
Residual 16 x 16
Convolution 1024 3 x 3 / 2 8 x 8
Convolution 512 1 x 1
4x Convolution 1024 3 x 3
Residual 8 x 8
Avgpool Global 1000
Connected 1000
Softmax
126
C. Chi tiết kiến trúc mạng RBPconv
Input: ảnh (512 x 512 x 3) Kích thước
[Tầng 1] ERB(64); 512x512x64
[Tầng 2] ERB(128); Max-pooling 2x2, stride = 2; 256 x 256 x 128
[Tầng 3] ERB(256); Max-pooling 2x2, stride = 2; 128 x 128 x 256
[Tầng 4] ERB (512); Max-pooling 2x2, stride = 2; 64 x 64 x 512
[Tầng 5] ERB (512); Max-pooling 2x2, stride = 2; 32 x 32 x 512
[Tầng 6] ERB (512); Max-pooling 2x2, stride = 2; 16 x 16 x 512
[Tầng 7] ERB (512); Max-pooling 2x2, stride = 2; 8 x 8 x 512
[Tầng 8] ERB (512); Max-pooling 2x2, stride = 2; 4 x 4 x 512
[Tầng 9] ERB (512); Max-pooling 2x2, stride = 2; 2 x 2 x 512
[Tầng 10] ERB (1024);Max-pooling 2x2, stride = 2; 1 x 1 x 1024
[Tầng 11] DRB(512); up-conv 2x2, stride = 2; 2 x 2 x 512
Concatenate (tầng 11, tầng 9) 2 x 2 x 1024
[Tầng 12] DRB(512); up-conv 2x2, stride = 2; 4 x 4 x 512
Concatenate (tầng 12, tầng 8); 4 x 4 x 1024
[Tầng 13] DRB(512); up-conv 2x2, stride = 2; 8 x 8 x 512
Concatenate (tầng 13, tầng 7); 8 x 8 x 1024
[Tầng 14] DRB(512); up-conv 2x2, stride = 2; 16 x 16 x 512
Concatenate (tầng 14, tầng 6); 16 x 16 x 1024
[Tầng 15] DRB(512); up-conv 2x2, stride = 2; 32 x 32 x 512
Concatenate (tầng 15, tầng 5); 32 x 32 x 1024
[Tầng 16] DRB(512); up-conv 2x2, stride = 2; 64 x 64 x 512
Concatenate (tầng 16, tầng 4); 64 x 64 x 1024
[Tầng 17] DRB(256); up-conv 2x2, stride = 2; 128 x 128 x 256
Concatenate (tầng 17, tầng 3); 128 x 128 x 512
[Tầng 18] DRB(128); up-conv 2x2, stride = 2; 256 x 256 x 128
Concatenate (tầng 18, tầng 2); 256 x 256 x 256
[Tầng 19] DRB(64); up-conv 2x2, stride = 2; 512 x 512 x 64
Concatenate (tầng 19, tầng 1); 512 x 512 x 128
[Tầng 20] DRB(3); 512 x 512 x 3
Output: ảnh (512 x 512 x 3)
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_cai_tien_ky_thuat_phat_hien_va_thay_the_d.pdf