Báo cáo Nghiên cứu khoa học - Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ SÀI GÒN --------------------------- Lê Bùi Phương An Nguyễn Lê Huy Phất KỸ THUẬT ĐỊNH DANH KHUÔN MẶT DỰA VÀO MẪU NHỊ PHÂN BÁO CÁO NGHIÊN CỨU KHOA HỌC Ngành: Khoa học máy tính TP. HỒ CHÍ MINH, tháng 5 năm 2021 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC QUỐC TẾ SÀI GÒN --------------------------- VÕ ANH TIẾN KỸ THUẬT ĐỊNG DANH KHUÔN MẶT DỰA VÀO MẪU NHỊ PHÂN BÁO CÁO NGHIÊN CỨU KHOA HỌC Ngành: Khoa học máy

pdf80 trang | Chia sẻ: huong20 | Ngày: 04/01/2022 | Lượt xem: 435 | Lượt tải: 0download
Tóm tắt tài liệu Báo cáo Nghiên cứu khoa học - Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
y tính CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS. VĂN THIÊN HOÀNG TP. HỒ CHÍ MINH, tháng 5 năm 2021 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC QUỐC TẾ SÀI GÒN Giảng viên hướng dẫn khoa học: ThS. Võ Anh Tiến (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Đề tài được bảo vệ tại tr ườ ng Đại học Quốc tế Sài Gòn ngày tháng năm Thành phần Hội đồng đánh giá đề tài gồm: TT Họ và tên Chức danh Hội đồng 1 Chủ tịch 2 Phản biện 1 3 Phản biện 2 4 Ủy viên 5 Ủy viên, Thư ký Xác nhận của Chủ tịch Hội đồng đánh giá đề tài sau khi đề tài đã được sửa chữa (nếu có). Chủ tịch Hội đồng đánh giá đề tài TRƯỜNG ĐH QUỐC TẾ SÀI GÒN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc TP. HCM, ngày.. tháng.. năm 20.. NHIỆM VỤ ĐỀ TÀI Họ tên học viên: Giới tính: Ngày, tháng, năm sinh: Nơi sinh: Ngành: Khoa học máy tính MSSV: I- Tên đề tài: Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân. ................................................................................................................................................. ................................................................................................................................................. II- Nhiệm vụ và nội dung: Nhiệm vụ tổng quát của đề tài là: Đề xuất được phương pháp mới để định danh khuôn mặt dựa vào mẫu nhị phân, trên cơ sở nghiên cứu các hướng tiếp cận mẫu nhị phân liên quan nhằm đạt độ chính xác nhận dạng khuôn mặt cao (so với phương pháp của Kra'l và các đồng sự). III- Ngày giao nhiệm vụ: IV- Ngày hoàn thành nhiệm vụ: V- Giảng viên hướng dẫn: ThS. Võ Anh Tiến ................................................................................................................................................. ................................................................................................................................................. GIẢNG VIÊN HƯỚNG DẪN KHOA QUẢN LÝ (Họ tên và chữ ký) (Họ tên và chữ ký) LỜI CAM ĐOAN Chúng tôi xin cam đoan đây là công trình nghiên cứu của riêng chúng tôi. Các số liệu, kết quả nêu trong đề tài là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Chúng tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện đề tài này đã được cảm ơn và các thông tin trích dẫn trong đề tài đã được chỉ rõ nguồn gốc. Sinh viên thực hiện i LỜI CẢM ƠN Để hoàn thành đề tài này, chúng em xin tỏ lòng biết ơn sâu sắc nhất đến ThS. Võ Anh Tiến, người đã tận tình hướng dẫn trong suốt quá trình viết luận văn. Tôi cũng xin chân thành cảm ơn quý Thầy, Cô trong khoa Công nghệ thông tin, trường Đại học Quốc tế Sài Gòn đã tận tình truyền đạt kiến thức. Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu mà còn là hành trang quý báu để chúng em có thể bước vào đời một cách vững chắc và tự tin. Cuối cùng, tôi xin kính chúc quý Thầy, Cô dồi dào sức khỏe và thành công trong sự nghiệp, đạt được nhiều thành công tốt đẹp trong công việc và cuộc sống. Sinh viên thực hiện ii TÓM TẮT Nghiên cứu này trình bày phương pháp mới cho nhận dạng khuôn mặt dựa vào mẫu nhị phân cục bộ (LBP). Mẫu nhị phân cục bộ xem xét các điểm xung quanh điểm trung tâm trong vùng nhị phân cục bộ để tính toán các đặc trưng và đặc điểm riêng biệt trên khuôn mặt, nhưng bị ảnh hưởng bởi nhiễu, độ lệch và điều kiện ánh sáng. Trong nghiên cứu này, đề xuất phương pháp mẫu nhị phân bền vững (RLBP) nhằm mở rộng, xem xét nhiều điểm ảnh khác nhau để tính vector đặc trưng, đồng thời xét thêm điểm trung tâm so với trung bình các điểm trong vùng cục bộ. Nhờ việc giảm cường độ điểm ảnh và xem xét giá trị điểm trung tâm nên phương pháp được đề xuất loại bỏ nhiễu tốt, không bị ảnh hưởng bởi điều kiện ánh sáng. Phương pháp đề xuất được thử nghiệm trên hai bộ dữ liệu: ORL [1], YaleB [2]. Qua thực nghiệm cho thấy, phương pháp đề xuất trong đề tài này đạt độ đo chính xác tốt hơn các phương pháp khác. iii ABSTRACT This paper presents a new method for face recognition based on local binary pattern (LBP). Local binary samples look at points around the central point in the binary locality to calculate specific facial features and characteristics, but are affected by noise, deviation, and light conditions. In this study, a robust binary sample (RLBP) model was proposed to expand, considering various pixels for vector specificity, while adding a central point to the average of points in the lump area. By reducing the pixel intensity and considering the center point value, the proposed method eliminates interference, which is not affected by lighting conditions. The proposed method was tested on three sets of data: ORL [1], YaleB [2]. Experimental results show that the method proposed in this thesis has better accuracy than other methods. iv MỤC LỤC LỜI CAM ĐOAN .......................................................................................................... i LỜI CẢM ƠN ...............................................................................................................ii TÓM TẮT .................................................................................................................. iii ABSTRACT ................................................................................................................ iv MỤC LỤC ................................................................................................................... v DANH MỤC TỪ VIẾT TẮT VÀ TỪ KHÓA ...........................................................viii DANH MỤC BẢNG .................................................................................................... x DANH MỤC HÌNH VẼ .............................................................................................. xi CHƯƠNG 1. TỔNG QUAN .................................................................................... 1 1.1 Giới thiệu ........................................................................................................ 1 1.2 Hệ thống nhận dạng khuôn mặt ....................................................................... 5 1.3 Mục tiêu của đề tài .......................................................................................... 7 1.4 Bố cục luận văn ............................................................................................... 7 CHƯƠNG 2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ........................... 9 2.1 Các hướng tiếp cận rút trích đặc trưng mặt người ............................................ 9 2.1.1 Hướng tiếp cận biểu diễn đặc trưng không gian ........................................ 9 2.1.2 Biểu diễn đặc trưng dựa vào không gian – thời gian ................................ 16 2.1.3 Hướng tiếp cận rút trích đặc trưng dựa vào giảm chiều ........................... 22 2.2 Các hướng tiếp cận liên quan đến phương pháp nghiên cứu của đề tài ........... 24 2.2.1 Đặc trưng mẫu nhị phân cục bộ ............................................................... 24 v 2.2.2 Đặc trưng mẫu nhị phân bất biến ............................................................ 27 2.2.3 Đặc trưng mẫu nhị phân cải tiến.............................................................. 28 2.2.4 Đặc trưng mẫu tam phân cục bộ .............................................................. 29 2.2.5 Đặc trưng mẫu nhị phân cục bộ chuẩn hóa .............................................. 30 2.2.6 Đặc trưng mẫu nhị phân tăng cường ....................................................... 30 2.3 Kết luận ......................................................................................................... 32 CHƯƠNG 3. PHƯƠNG PHÁP RÚT TRÍCH ĐẶC TRƯNG ĐỀ XUẤT ............... 33 3.1 Ý tưởng thuật toán ......................................................................................... 33 3.2 Ví dụ minh họa .............................................................................................. 36 3.3 Kết luận ......................................................................................................... 37 CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM ............................................................ 38 4.1 Môi trường và cơ sở dữ liệu thực nghiệm ...................................................... 38 4.2 Kết quả thực nghiệm trên cơ sở dữ liệu ORL ................................................. 38 4.2.1 Thống kê vét lân cận cạn......................................................................... 40 4.2.2 Thống kê vét lân cận sâu ......................................................................... 44 4.2.3 Phương pháp thống kê ............................................................................ 45 4.2.4 Nhận xét ................................................................................................. 45 4.3 Kết quả thực nghiệm trên cơ sở dữ liệu yaleB ............................................... 46 4.3.1 Thống kê lân cận cạn .............................................................................. 48 4.3.2 Thống kê lân cận sâu .............................................................................. 51 4.3.3 Phương pháp thống kê ............................................................................ 52 4.3.4 Nhận xét ................................................................................................. 53 vi 4.4 Thời gian thực hiện ....................................................................................... 53 CHƯƠNG 5. KẾT LUẬN...................................................................................... 55 5.1 Kết quả làm được .......................................................................................... 55 5.2 Hướng phát triển ........................................................................................... 55 TÀI LIỆU THAM KHẢO .......................................................................................... 55 vii DANH MỤC TỪ VIẾT TẮT VÀ TỪ KHÓA STT Từ viết tắt Tiếng Anh Ý nghĩa tiếng Việt 1 LBP Local binary patterns Mẫu nhị phân cục bộ 2 PCA Principal Components Analysis Phân tích thành phần chính Phân tích tách lớp tuyến 3 LDA Linear Discriminant Analysis tính Phân biệt bộ mô tả khuôn 4 DFD Discriminant face descriptor mặt 5 BoW Bag of Words Đặc trưng túi từ 6 LQP Local quantized pattern Mẫu lượng tử cục bộ Biểu đồ mật độ lệch mức 7 HOG Histogram of Oriented Gradient xám theo hướng 8 LPQ Local Phase Quantization Định lượng đoạn cục bộ 9 NMF Nonnegative Matrix Factorization Hệ số ma trận không âm Phép biến đổi đặc trưng bất 10 SIFT Scale Invariant Feature Transform biến về tỉ lệ. 11 AU Action Units Đơn vị hành động Two-dimensional Principle Kỹ thuật phân tích thành 12 2D-PCA Component Analysis phần chính hai chiều Two-dimensional Linear Kỹ thuật phân tích tách lớp 13 2DLDA Discriminant Analysis tuyến tính hai chiều 14 VAR-LBP Variance Local Binary Patterns Mẫu nhị phân bất biến Cải tiến mẫu nhị phân cục 15 ILBP Improve Local Binary Patterns bộ 16 NILBP Neighbors Local Binary Patterns Mẫu nhị phân chuẩn hóa viii 17 EN-LBP Enhanced Local Binary Patterns Mẫu nhị phân tăng cường 18 LTP Local Ternary Patterns Mẫu tam phân cục bộ 19 RLBP Robust Local Binary Patterns Mẫu nhị phân bền vững ix DANH MỤC BẢNG Bảng 4.1: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. ...................................................................... 41 Bảng 4.2: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. ......................................................... 42 Bảng 4.3: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn. .................. 43 Bảng 4.4: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. ......................................................... 44 Bảng 4.5: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB..................................................................... 48 Bảng 4.6: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB. ....................................................... 49 Bảng 4.7: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn. .................. 50 Bảng 4.8: Liệt kê độ đo phần trăm đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB. ............................................................. 51 Bảng 4.13 : So sánh thời gian thực hiện rút trích đặc trưng của các phương pháp trên tổng số ảnh mẫu của một người cho từng cơ sở dữ liệu được tính bằng ( mini giây). .. 53 x DANH MỤC HÌNH VẼ Hình 1.1: Các dạng sinh trắc học phổ biến. ................................................................... 1 Hình 1.2: Hệ thống nhận dạng khuôn mặt. .................................................................... 5 Hình 1.3: Minh họa bài toán định danh (a) và xác thực (b). .......................................... 6 Hình 2.1: Đặc trưng hình học [29]. ............................................................................... 9 Hình 2.2: Biểu đồ đặc trưng mật độ cấp thấp ((a) LBP, (b) LPQ, (c) HoG) [29]. ........ 10 Hình 2.3: Biễu diển đặc trưng dựa vào bộ lọc Gabor [29]. .......................................... 12 Hình 2.4: Biểu diễn đặc trưng túi từ BoW [29]. .......................................................... 13 Hình 2.5: Đặc trưng GP-NMF [29]. ............................................................................ 13 Hình 2.6: Đặc trưng mã hóa phân rã [29]. ................................................................... 14 Hình 2.7: Đặc trưng thành phần dựa vào (a) SIFT và dựa vào (b) NMF [29]. ............ 15 Hình 2.8: Đặc trưng không gian-thời gian sử dụng đặc trưng hình học từ các điểm mặt [29]............................................................................................................................. 17 Hình 2.9: Đặc trưng không gian thời-gian (a) LBP-TOP và (b) LPQ-TOP [29]. ......... 17 Hình 2.10: Bộ lọc làm trơn IC [29]. ............................................................................ 18 Hình 2.11: Đặc trưng Haar động (a), và đặc trưng tương tự (b) [29]. .......................... 19 Hình 2.12: Biểu diễn biến đổi tự do [29]. .................................................................... 20 Hình 2.13: Đặc trưng BoW theo thời gian [29]. .......................................................... 21 Hình 2.14: Ví dụ LBP và độ tương phản cục bộ C. ..................................................... 24 Hình 2.15: Tập hợp các điểm xung quang Ptt. ............................................................. 25 Hình 2.16: Các biến thể của LBP. ............................................................................... 26 Hình 2.17: Bảng thống kê các mẫu của uniform LBP. ................................................ 27 Hình 2.18: Thể hiện trọng số của ILBP8,1 và ILBP4,1 ................................................... 29 Hình 2.19: Ví dụ minh họa LTP cơ bản ...................................................................... 30 Hình 2.20: Biểu đồ thể hiện thủ tục EN_LBP. ............................................................ 31 Hình 3.1: Minh họa ý tưởng thuật toán đề xuất. .......................................................... 34 Hình 3.2: Biểu đồ thể hiện thủ tục. ............................................................................. 34 xi Hình 3.3: Ví dụ RLBP. ............................................................................................... 37 Hình 4.1: Minh họa các tư thế khuôn mặt một người trong cơ sở dữ liệu ORL. ......... 38 Hình 4.2: Minh họa hình ảnh đặc trưng khuôn mặt với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu ORL. ................................................................ 39 Hình 4.3: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. .............................................................................................................. 41 Hình 4.4: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. .......................................................................................................... 42 Hình 4.5: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu ORL. 43 Hình 4.6: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. .......................................................................................................... 44 Hình 4.7: Minh họa các kiểu biểu hiện khuôn mặt trong cơ sở dữ liệu YaleB. ............ 46 Hình 4.8: Minh họa hình ảnh đặc trưng với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu YaleB. ................................................................................. 47 Hình 4.9: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. ............................................................................................................ 49 Hình 4.10: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. ........................................................................................................ 50 Hình 4.11: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu YaleB. ................................................................................................................................... 51 Hình 4.12: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. ........................................................................................................ 52 xii CHƯƠNG 1. TỔNG QUAN 1.1 Giới thiệu Sinh trắc học hay còn gọi là Công nghệ sinh trắc học (Biometric) là công nghệ sử dụng những thuộc tính vật lý, đặc điểm sinh học đặc trưng riêng của mỗi cá nhân như vân tay, mống mắt, khuôn mặt, giọng nói, dáng đi,.. để nhận dạng. Sinh trắc học được xem là công cụ xác thực cá nhân hữu hiệu nhất hiện nay. Sinh trắc học được phát triển lâu dài, đã được nghiên cứu và ứng dụng trong các lĩnh vực anh ninh, quốc phòng, thương mại. Trong những năm gần đây, công nghệ này đã đáp ứng được những yếu tố và nhu cầu cần thiết về chi phí, sự vận hành và khả năng xác thực cho độ chính xác cao. Vì vậy trong tương lai sinh trắc học sẽ hiện hữu và được ứng dụng mạnh mẽ hơn. Một số loại sinh trắc học phổ biến hiện nay như: Dấu vân tay ( Finger print), lồng bàn tay ( Palm print), khuôn mặt ( Face), hành vi ( Behavioral), nhịp tim ( Cardiac Rhythm), võng mạc ( Retiane),... Những đáp ứng nhu cầu thực tế vô cùng hữu hiệu của các loại sinh trắc học trên, đã thôi thúc các nhà nghiên cứu không ngừng tìm hiểu và phát triển ngành công nghệ này lên tầm cao mới. Và nhận dạng khuôn mặt trở thành chủ đề tiềm năng trong nghiên cứu thị giác máy tính [3]. Hình 1.1: Các dạng sinh trắc học phổ biến. 1 Nhận dạng khuôn mặt là một vấn đề nghiên cứu từ máy tính khá lâu đời, nhưng được xem là khá mới mẻ khi một số phương pháp nhận dạng khuôn mặt đã được đề xuất trong hai thập kỷ qua [4], [5], [17], [18], [22], [25]. Có bốn giai đoạn trong một hệ thống nhận dạng khuôn mặt thông thường: Phát hiện khuôn mặt, canh chỉnh khuôn mặt, đặc trưng khuôn mặt, và so khớp khuôn mặt. Giai đoạn rút trích đặc trưng khuôn mặt và so khớp là hai giai đoạn quan trọng trong một hệ thống nhận dạng khuôn mặt. Đối với đặc trưng khuôn mặt ( mắt, mũi, miệng, cằm...), mục tiêu là để rút trích các đặc điểm phân biệt để làm cho hình ảnh khuôn mặt được phân tách nhiều hơn. Giai đoạn so khớp khuôn mặt có mục tiêu là thiết kế thuật toán phân lớp hiệu quả để phân biệt các khuôn mặt khác nhau. So khớp khuôn mặt đóng vai trò quan trọng, ảnh hưởng đến độ đo chính xác (%) của một hệ thống nhận dạng khuôn mặt vì hình ảnh khuôn mặt bị chụp trong các môi trường thế giới thực thường bị ảnh hưởng bởi nhiều biến thể như tư thế khác nhau, biểu hiện, độ sáng, sự bịt kín, độ phân giải, và nguồn gốc. Những biến thể làm giảm sự giống nhau của các mẫu khuôn mặt từ cùng một người và làm tăng sự giống nhau của các mẫu khuôn mặt từ những người khác nhau, đó là một trong những thách thức quan trọng trong nhận dạng khuôn mặt. Trong những năm gần đây, một số phương pháp đặc trưng khuôn mặt đã được đề xuất [4], [5], và chủ yếu được phân thành hai loại: Đặc trưng toàn cục [5], [22] và Đặc trưng cục bộ [4], [17]. Đặc trưng toàn cục bao gồm phân tích chính thành phần (PCA) [22] và phân tích tách lớp tuyến tính (LDA) [5], và các đặc trưng cục bộ là mô hình mẫu nhị phân cục bộ (LBP) [13] và biến đổi sóng wavelets (Gabor Wavelets) [17]. Các phương pháp nhận dạng khuôn mặt trong môi trường có kiểm soát đã được phát triển nhiều, nhưng độ đo chính xác (%) của chúng vẫn còn chưa hiệu quả trong môi trường không bị giới hạn. Do đó, làm thế nào để rút trích các đặc trưng bền vững với nhiễu và phân biệt là bài toán quan trọng và thách thức trong nhận dạng khuôn mặt. Có 3 vấn đề liên quan đến nhận dạng khuôn mặt mà chúng ta cần chú ý: 2  Đặc trưng khuôn mặt Làm việc với đặc trưng khuôn mặt trong kho tàng khoa học rộng lớn, các phương pháp này có thể được chia thành hai loại: Đặc trưng toàn cục [5], [22] và Đặc trưng cục bộ [13], [17]. Đặc trưng toàn cục chuyển đổi từng hình ảnh khuôn mặt vào một vector đặc trưng và một không gian con đòi hỏi sự đặc trưng để bảo vệ thông tin thống kê của hình ảnh khuôn mặt. Phương pháp đặc trưng khuôn mặt trong không gian con dựa trên các đại diện bao gồm PCA [22] và LDA [5]. Không giống như các đặc trưng toàn cục, đặc trưng cục bộ đầu tiên mô tả mô hình cấu trúc của mỗi bản vá lỗi cục bộ và sau đó kết hợp số liệu thống kê của tất cả các bản vá lỗi vào một bản vá các đặc trưng vector. Đặc trưng cục bộ điển hình là LBP [13] và Gabor wavelets [17]. Tuy nhiên, các đặc trưng cục bộ được làm thủ công và thường đòi hỏi kiến thức rộng để thiết kế chúng bằng tay. Hơn nữa, một số trong số chúng khá là đắt tiền, mà có thể hạn chế các ứng dụng thực tế.  Đặc trưng học thống kê Đã có một số phương pháp học thống kê được đề xuất trong những năm gần đây [6], [9], [10], [12], [14], [20]. Tiêu biểu là phương pháp đặc trưng học thống kê bao gồm bộ mẫu hóa tự động thưa thớt [6], giảm nhiễu mẫu hóa tự động [20], máy Boltzmann [9], mạng nơron xoắn [10], phân tích không gian con độc lập [12], và xây dựng lại phân tích thành phần độc lập [14]. Gần đây, cũng đã có một số công trình về đặc trưng học tập dựa trên đặc trưng khuôn mặt, và một số trong số đó đã đạt được độ đo chính xác (%) khá tốt trong nhận dạng khuôn mặt. Ví dụ, Lei và đồng sự [15] đề xuất một phương pháp biệt số mô tả khuôn mặt (DFD) bằng cách lọc ảnh sử dụng LDA tạo ra tiêu chí để có được đặc trưng như LBP. Cao và các đồng sự [7] trình bày một phương pháp biểu diễn đặc trưng học tập bằng cách áp dụng các khuôn khổ bag-of-word (Bow). Hussain và các đồng sự [11] đề xuất một phương pháp mô hình lượng tử (LQP) bằng cách thay đổi phương pháp LBP với một chiến lược mẫu hóa. So với các mô tả đặc trưng bằng tay, các phương 3 pháp biểu diễn đặc trưng học thống kê dựa trên độ đo chính xác (%) hiển thị được công nhận tốt hơn bởi vì các thông tin dữ liệu thích nghi hơn có thể được khai thác dựa vào các đặc trưng đã học.  Mẫu nhị phận So với các mô tả đặc trưng giá trị thực, có ba lợi thế cho mẫu nhị phân: 1) Tiết kiệm bộ nhớ. 2) Có tốc độ tính toán nhanh hơn. 3) Chúng đủ mạnh để biến thể cục bộ. Gần đây, đã có một sự quan tâm ngày càng cao đối với mẫu nhị phân trong thị trường máy tính [8], [21], [23], [24]. Ví dụ, Weiss và đồng sự [24] đề xuất phương pháp học thống kê mẫu hóa nhị phân bằng cách lưu giữ sự giống nhau của các đặc trưng ban đầu cho tìm kiếm hình ảnh. Norouzi và đồng sự [19] đề xuất mẫu nhị phân bằng cách giảm thiểu một thứ hạng bộ ba tổn thất của cặp tương tự. Wang và đồng sự [23] trình bày một phương pháp học thống kê mẫu nhị phân bằng cách tối đa hóa sự giống nhau của cặp lân cận và giảm thiểu sự giống nhau của cặp phi lân cận để thu hồi hình ảnh. Trzcinski và Lepetit [21] mô tả mẫu nhị phân từ các bản vá lỗi bằng cách duyệt qua một vài đối chiếu tuyến tính dựa trên bộ lọc giả định quá trình huấn luyện. Tuy nhiên, hầu hết các phương pháp học thống kê mẫu nhị phân hiện đang được phát triển cho tìm kiếm tương tự [8], [21] và theo dõi trực quan [16]. Trong khi đặc trưng nhị phân như LBP và Haar-like được sử dụng trong nhận dạng khuôn mặt và đạt được hiệu quả đáng khích lệ, hầu hết trong số đó là làm thủ công. Hơn thế, ngày nay công nghệ phát triển mạnh mẽ, thiết bị di động đã trở nên đa năng và được tích hợp nhiều ứng dụng mạnh mẽ giúp cho con người trong việc bảo mật hoặc ghi nhớ thông tin... đặc biệt là các hệ thống xác thực người dùng trên thiết bị di động đã và đang ngày càng tiến bộ. 4 Vì những nhu cầu thực tế đó, tôi đã chọn đề tài nghiên cứu “ Kỹ thuật định danh khuôn mặt dựa vào mẫu nhị phân cục bộ cho ứng dụng trên thiết bị di động”. 1.2 Hệ thống nhận dạng khuôn mặt Hệ thống nhận dạng khuôn mặt là tự động xử lý thông tin từ các ảnh mặt người với một cơ sở dữ liệu để tìm ra sự tương đồng và từ đó đưa ra kết quả đồng nhất. Một hệ thống nhận dạng mặt người gồm các bước sau: Hình 1.2: Hệ thống nhận dạng khuôn mặt. Phát hiện khuôn mặt ( Face detection): là dò tìm và xác định vị trí các khuôn mặt có trong ảnh. Tiền xử lý ảnh ( PreProcessing): mục đích là lọc nhiễu, nâng cao chất lượng hình ảnh và thực hiện các bước canh chỉnh, chuẩn hóa ánh sáng. Trích rút đặc trưng (Feature extraction): Các thông tin về các thành phần trên khuôn mặt sau khi qua các công đoạn phát hiện khuôn mặt và bước tiền xử lý, chúng ta có thể dễ dàng tính được các vector đặc trưng trong giai đoạn rút trích đặc trưng. Những vector đặc trưng này sẽ là dữ liệu đầu vào cho mô hình đã huấn luyện trước để phân lớp khuôn mặt. Sau khi phân lớp sẽ nhận dạng khuôn mặt đó là ai, là đối tượng nào. Ở bước rút trích đặc trưng này, một phương pháp trích rút đặc trưng được chọn để xử lý như: mẫu nhị phân cục bộ (LBP) [13], hoặc phân tích thành phần chính (PCA) [22], hoặc phân tích tách lớp tuyến tính (LDA) [5], hoặc biến đổi sóng wavelets (Gabor Wavelets) [17] để trích xuất các thông tin đặc trưng trên khuôn mặt và sau đó mỗi đặc trưng ảnh đó sẽ được biễu diễn dưới dạng một vector. Trong luận văn này, sẽ chọn phương pháp LBP [13] để thực hiện cải tiến và trình bày trong quá trình nghiên cứu. 5 Ngoài ra có 2 phương pháp định danh và xác thực [26] tương quan trong hệ thống nhận dạng khuôn mặt : Hình 1.3: Minh họa bài toán định danh (a) và xác thực (b).  Định danh Người dùng cung cấp định danh của mình cho hệ thống với mục đích là tìm kiếm sự tồn tại và quyền hạn của người dùng đó. Có 2 phương pháp định danh: Người dùng tự nhập thông tin về định danh là phương pháp phổ biến hiện nay ( ví dụ: username, số tài khoản...). Bởi đối với các hacker khi muốn xâm nhập vào hệ thống là thu thập danh sách những người hợp lệ của hệ thống. Định danh số hóa là sử dụng công nghệ sinh trắc học ( nhận dạng khuôn mặt, quét tròng mắt, nhận dạng vân tay, hình học lồng bàn tay,...), hoặc định danh trên máy tính ( tên máy tính, địa chỉ ip,...), hay định danh số ( chứng nhận số, thẻ thông minh,...). 6  Xác thực Người dùng chứng minh định danh đó là đúng, nhằm xác thực sự hợp lệ và phù hợp với người dùng đó, đưa ra quyết định cho phép người dùng đó có quyền truy cập vào tài nguyên của hệ thống hay không. Các phương pháp xác thực có thể nói đến như: Chỉ những gì người dùng biết( password, số pin,...), những gì người dùng có ( thẻ thông minh, địa chỉ ip,...), những gì là của chính người dùng ( trong đó bao gồm các yếu tố sinh trắc học: khuôn mặt, vân tay, lồng bàn tay, tròng mắt). 1.3 Mục tiêu của đề tài Trên nền tảng nghiên cứu nhận dạng khuôn mặt, đề tài hướng đến mục tiêu nghiên cứu cải tiến phương pháp nhận dạng khuôn mặt dựa vào LBP [13] để áp dụng phát triển ứng dụng điểm danh trên thiết bị di động qua chứng thực quét khuôn mặt. Theo phương pháp điểm danh truyền thống, giáo viên tốn khá nhiều thời gian để điểm danh sinh viên vào mỗi buổi học và cũng làm giảm năng lượng cũng như sức lực của mỗi giáo viên. Thay vì phải gọi tên từng sinh viên, nay tôi nghiên cứu phương pháp nhận dạng khuôn mặt cho ứng dụng trên thiết bị di động có tích hợp camera, mà đa phần mỗi chúng ta ai cũng sở hữu để điểm danh sinh viên. Với ưu điểm: Điểm danh nhanh gọn, tiện lợi, tiết kiệm thời gian và công sức chỉ “cần quét” khuôn mặt các sinh viên qua một lần. Tuy nhiên tài nguyên của thiết bị di động thấp, vì vậy cần phát triển kỹ thuật nhận dạng khuôn mặt dựa vào mẫu nhị phân để tốn ít bộ nhớ và so khớp nhanh. 1.4 Bố cục luận văn Luận văn gồm 5 chương: Chương 1: Tổng quan 7 Giới thiệu nghiên cứu sinh trắc học và nhận dạng mặt người, hệ thống nhận dạng khuôn mặt được thực hiện như thế nào và trình bày mục tiêu của đề tài. Chương 2: Các công trình nghiên cứu liên quan Trình bày các hướng tiếp cận rút trích đặc trưng mặt người và các hướng tiếp cận nghiên cứu liên quan đến mẫu nhị phân cục bộ. Đề ra phươ...mean và dựa vào s(x) được xét như trên và nhân với 2 ( 2 = 256). Cuối cùng tính tổng kết quả hai công thức lại sẽ cho giá trị điểm ảnh mới. Qua biểu đồ hình 2.18, thể hiện sự cải tiến LBP, trong đó x là giá trị pixel tùy ý. 28 Hình 2.18: Thể hiện trọng số của ILBP8,1 và ILBP4,1 Thuật toán ILBP rút trích các nét đặc trưng để phát hiện khuôn mặt thay vì sử dụng các tính năng mức xám thô. Ngoài ra, các đặc tính của ILBP không bị ảnh hưởng bởi ánh sáng, vì vậy không cần phải cân bằng ánh sáng để loại bỏ sự ảnh hưởng. 2.2.4 Đặc trưng mẫu tam phân cục bộ Năm 2007, Tan và đồng sự đã đề xuất thuật toán mẫu nhị phân với bộ tam phân có 3 giá trị ( Local Ternary Patterns viết tắt là LTP) [84] dựa trên nền tảng thuật toán LBP, nhằm phân đoạn ảnh xám vùng khuôn mặt làm 3 đoạn riêng biệt, trong đó sau vùng mức xám được lấy ngưỡng sẽ được phân đoạn với +t là ngưỡng đoạn trên, -t là ngưỡng đoạn dưới và ngưỡng trung tâm ic, cứ như thế lập lại cho đến hết toàn bộ giá trị ảnh mức xám. Chỉ số s(u) được thay thế với 3 giá trị 1, 0, -1, hàm phân đoạn có điều kiện như công thức (2.7): 1, uitc  su'(,,)0,|| ituitcc (2.7)  1, uit c dưới đây, t là ngưỡng mà người dùng tự xác định ( vì vậy LTP lọc nhiễu tốt hơn, nhưng không còn bất biến để mức xám biến đổi). Giá trị lấy ngưỡng nhị phân được tính theo điều kiện phân đoạn như sau: ở phân đoạn trên nếu u ≥ ic + t ( giá trị điểm ảnh lân cận lớn hơn hoặc bằng giá trị điểm ảnh trung tâm cộng với giá trị ngưỡng t) là 1, ở phân đoạn giữa nếu |u – ic|< t ( giá trị điểm ảnh trung tâm – giá trị điểm ảnh trung tâm nhỏ hơn ngưỡng t) là 0 và phân đoạn dưới nếu u ≤ ic – t ( giá trị điểm ảnh lân cận nhỏ hơn giá trị 29 điểm ảnh trung tâm – ngưỡng t) là -1. Ví dụ sau thể hiện rõ hơn về thuật toán LTP và ngưỡng t được thiết lập là 5, hình 2.19. Hình 2.19: Ví dụ minh họa LTP cơ bản LTP bao gồm các bước tiền xử lý, lấy ngưỡng, biểu đồ cục bộ hoặc giảm kích thước và được kiểm tra cho việc nhận dạng khuôn mặt. 2.2.5 Đặc trưng mẫu nhị phân cục bộ chuẩn hóa Mẫu nhị phân cục bộ chuẩn hóa (NILBP) [85] được đề xuất bởi Liu và các đồng sự năm 2012. Phương pháp này chuẩn hóa mô hình phân phối của điểm ảnh trung tâm và các điểm ảnh xung quanh, để kiểm tra các điều kiện xác suất của quá trình phân phối nhằm phân lớp chúng. Cũng thực hiện tương tự như LBP, nhưng NILBP dựa vào độ quay bất biến để xác định giá trị ngưỡng đạt được với thuật toán 2.8 và công thức điều kiện 2.9: p1 n NILBPs xp,, rr n  ()2  (2.8) n0 1,0x  sx()  0,0x  (2.9) 1 p1 Trong đó    xrn, , µ là giá trị trung bình của các điểm ảnh xung quanh. 2 n0 2.2.6 Đặc trưng mẫu nhị phân tăng cường Mẫu nhị phân tăng cường (EN_LBP) [86] được Kra'l và đồng sự đề xuất năm 2017 nhằm mở rộng mẫu nhị phân ban đầu bằng cách tập hợp các vị trí điểm ảnh thay vì sử dụng các điểm ảnh đơn, đồng thời cũng xem xét kích cỡ của vị trí điểm ảnh trung tâm. 30 Hình 2.20: Biểu đồ thể hiện thủ tục EN_LBP. Qua đó bài toán có thể giải quyết 3 vấn đề mà LBP chưa làm được như:  LBP hỗ trợ không gian nhỏ, do đó không phát hiện được các cấu trúc không gian lớn.  Nó làm mất các thông tin cục bộ, vì chỉ xét sự khác biệt của các điểm lân cận.  Nhạy cảm với tiếng ồn, bởi vì sự thay đổi nhỏ đối với giá trị ở trên hoặc dưới của điểm ảnh trung tâm được xem xét là tương đương với sự tương phản lớn giữa điểm ảnh trung tâm so với giá trị xung quanh nó. Ở đây, nhóm tác giả thực hiện giải quyết bài toán bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như sau: ' gmeangii () (2.10) và ' gcc mean() g (2.11) Vector tính năng của EN_LBP sau đó được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về 1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel như LBP ban đầu. 31 Đặt x4 ,9 là cường độ đại diện cho tập các pixel lân cận, y 4 ,9 là cường độ đại diện cho các pixel trung tâm, r là khoảng cách giữa Ci và Cc. Tính giá trị LBP cho tất cả các điểm ảnh trên khuôn mặt. Các hình ảnh sau đó được chia thành một tập hợp các ô vuông nằm trên cùng một ma trận. Các vector được tính cho mỗi ô, mỗi ô sau đó được đại diện bởi một vector đặc trưng có kích thước 256. Biểu đồ thể hiện thủ tục của thuật toán đề xuất EN_LBP, hình 2.20. 2.3 Kết luận Các thuật toán được đề xuất của các hướng đặc trưng trong các nghiên cứu liên quan đã đạt được các kết quả khả quan, nhưng vẫn còn những hạn chế về sự loại bỏ nhiễu và độ đo chính xác (%) đạt được chưa cao và không ổn định khi cho thống kê với từng kích thước đặc trưng khác nhau theo từng trường hợp khác nhau. Điều đó thể hiện rõ trong các bảng kết quả thống kê của phần thực nghiệm Chương 4. Trong phần thực nghiệm Chương 4 cho thấy, kết quả đạt được của thuật toán RLBP đề xuất trong nghiên cứu này với các thuật toán của các nghiên cứu liên quan. Trong luận văn này áp dụng hướng tiếp cận mẫu nhị phân cho quá trình nghiên cứu nhận dạng khuôn mặt. 32 CHƯƠNG 3. PHƯƠNG PHÁP RÚT TRÍCH ĐẶC TRƯNG ĐỀ XUẤT 3.1 Ý tưởng thuật toán 33 Hình 3.1: Minh họa ý tưởng thuật toán đề xuất. Mô tả ý tưởng: Hình 3.2: Biểu đồ thể hiện thủ tục. P1 iP (3.1) LBPsPR, gts gt ()2()2i meancmean i0 1, 푥 > 0 푠(푥) = { (3.2) 0, 푥 ≤ 0 1 P1 tgg () meanc  i (3.3) P 1i0 Thừa kế từ thuật toán ILBP [83] và EN_LBP [86], nghiên cứu này đề xuất thuật toán mẫu nhị phân bền vững (RLBP). Bài toán này cũng được giải quyết bằng cách đặt gi là tập hợp từ các pixel lân cận với Ci là trung tâm, gc là tập hợp các pixel trung tâm với Cc là trung tâm và r là bán kính giữa Ci và Cc. Lần lượt tính giá trị từng tập hợp và lấy giá trị trung bình từng tập hợp gán cho từng pixel mới như công thức (3.4) và (3.5): ' gmeanii g () (3.4) và ' gcc mean() g (3.5) 34 Vector tính năng của RLBP sau đó cũng được tính giống như cách tính của LBP ban đầu được giới thiệu ở mục 2.2.1. Trong thuật toàn này chỉ sử dụng tính giá trị tập hợp theo hình vuông 2 x 2 pixel, tức là lấy 4 điểm để chuyển về 1 điểm và cuối cùng đưa về được kích thước 3 x 3 pixel và 5 x 5 pixel như LBP ban đầu. Đặt x4 ,9 là cường độ đại diện cho tập các pixel lân cận, y 4 ,9 là cường độ đại diện cho các pixel trung tâm, r là khoảng cách giữa Ci và Cc. Tính giá trị LBP cho tất cả các điểm ảnh trên khuôn mặt. Các hình ảnh sau đó được chia thành một tập hợp các ô vuông nằm trên cùng một ma trận. Các vector được tính cho mỗi ô, mỗi ô sau đó được đại diện bởi một vector đặc trưng có kích thước 256. Biểu đồ thể hiện thủ tục của thuật toán đề xuất EN_LBP, hình 3.2. Sau khi có được ma trận các vector đặc trưng, lấy kích thước ngưỡng là 3 x 3 pixel, 5 x 5 pixel, giá trị pixel ban đầu của LBP8,1 nằm trong khoảng [0 , 255]. Tuy nhiên sau khi RLBP được áp dụng thì giá trị pixel lúc này ánh xạ trong khoảng [0 , 510], điều đó làm thay đổi cả về cấu trúc cũng như hình dạng ảnh. Ngoài ra, có thể sử dụng LBP4,1 để ánh xạ giá trị pixel trong khoảng [0 , 30]. Thuật toán áp dụng công thức (3.1), (3.2), (3.3). Áp dụng sự cải tiến này, lần lượt xét từng giá trị các điểm xung quanh vòng tròn gi so với giá trị trung bình ( giá trị trung bình tmean là tổng 8 giá trị mức xám xung quanh gi cộng với giá trị mức xám trung tâm gc sau đó chia cho 9) và dựa vào s(x) xét điều kiện để đưa giá trị mức xám về dạng chuỗi bit 0, 1, đồng thời nhân với 2i ( i là giá trị nằm P-1 trong khoảng [0, 2 ]. Ngoài ra thuật toán cũng xét thêm giá trị mức xám trung tâm gc P 8 so với giá trị trung bình tmean và dựa vào s(x) được xét như trên và nhân với 2 ( 2 = 256). Cuối cùng tính tổng kết quả hai công thức lại sẽ cho giá trị điểm ảnh mới.  Thuật toán đề xuất (Robust LBP) Dựa trên ý tưởng trình bày thuật toán được thực hiện như sau: Đầu vào: Tập dữ liệu huấn luyện X = {x1, x2, , xN). Đầu ra: Tập vector đặc trưng mẫu nhị phân bền vững {RLBP1, .., RLBP N}. Bước 1: Lấy giá trị vector đặc trưng và lập ma trận W. Khởi tạo P = 8 hoặc 16 theo 35 kích thước ma trận nhị phân thu được. Bước 2: Tính trung bình 4 điểm: - Cho for t = 1, 2,... D. - Tiếp tục cho for u = 1, 2,.. U. - Xác định điểm đầu và điểm cuối thứ t và u ( dòng và cột). - Tính trung bình và xác định điểm trung tâm x0. - Cho for f = 1, 2,.F. với F = 8 hoặc 16. - Tính trung bình từng điểm lân cận và xác định được các điểm lân cận. - Sau đó tính trung bình tổng các giá trị điểm ảnh thu được t_mean ( Áp dụng công thức (3.3)). Sau khi có được t_mean thì đến bước 3. Bước 3: Dựa vào bước so sánh và điều kiện xét, ta được ma trận đặc trưng nhị phân. - So sánh giá trị điểm trung tâm với t_mean theo điều kiện ( Áp dụng công thức (3.2)) và nhân với 2P. - Tiếp theo so sánh từng giá trị lân cận với t_mean theo điều kiện (Áp dụng công thức (3.3)) và nhân với 2i. ( với i = P-1 là trọng số). Bước 4: Áp dụng theo công thức (3.1). - Ta có được giá trị vector đặc trưng nhị phân mới. - Cuối cùng chuẩn hóa giá trị điểm ảnh nằm trong khoảng [ 0, 255]. Bước 5: Trả về mẫu ảnh đặc trưng nhị phân có tính bền vững. 3.2 Ví dụ minh họa Ví dụ minh họa quá trình thực hiện giảm cường độ các giá trị pixel, giảm số dòng, số cột của ma trận. Áp dụng công thức (3.1), (3.2), (3.3), chuyển về ma trận chuỗi bit. Ví dụ có các giá trị điểm ảnh xám, lấy trung bình 4 giá trị điểm ảnh trung tâm và lấy giá trị trung bình 4 điểm lần lượt cho đến hết toàn bộ các giá trị điểm ảnh lân cận, sẽ trở về ma trận với kích thước 3 x 3 pixel. Sau đó áp dụng công thức lấy ngưỡng, trọng số và tính được giá trị đặc trưng nhị phân bền vững (RLBP). 36 Pattern(gc) = 1. S(gc) = 256. Pattern(gi) = 11010101. S(gi) = 1 + 2 + 8 + 32 + 128 = 171. RLBP(gc, gi) = 256 + 171 = 427. Chuẩn hóa RLBP = (427/512)*256 = 214. Hình 3.3: Ví dụ RLBP. 3.3 Kết luận Ưu điểm: Với thuật toán được đề xuất này, nhờ giảm cường độ điểm ảnh cho nên không bị ảnh hưởng bởi nhiễu, giảm đáng kể sự ảnh hưởng của ánh sáng. Điều đó giúp cho việc so khớp khuôn mặt đạt độ chính xác cao và ổn định đối với kích thước 3 x 3 pixel. Nhược điểm: Đạt được kết quả độ đo chính xác cao đối với trường hợp xét vùng lân cận 3 x 3 pixel, nhưng đối với vùng lân cận lớn hơn chưa đạt được tối ưu tuyệt đối. Có thể làm phân rã vùng khuôn mặt, mặc dù cũng đạt được kết quả tốt nhưng không thật sự tuyệt đối trong nhiều trường hợp. 37 CHƯƠNG 4. KẾT QUẢ THỰC NGHIỆM 4.1 Môi trường và cơ sở dữ liệu thực nghiệm Kết quả thực nghiệm được thực hiện trên bộ sơ sở dữ liệu công khai ORL và YaleB. Ngoài kết quả của thuật toán đề xuất, ở đây cũng thể hiện kết quả các thuật toán liên quan trong quá trình nghiên cứu ở chương 2, giúp chúng ta có cái nhìn tổng quan hơn về độ đo chính xác (%) thực hiện việc nhận dạng khuôn mặt. Thí nghiệm minh họa được thực hiện trên máy tính có bộ xử lý Intel® CoreTM i5-3210M CPU @ 2.50GHz (4 CPUs), Ram 4GB, sử dụng ngôn ngữ java trên phần mềm NetBeans IDE 8.2. Dữ liệu hình ảnh khuôn mặt có nhiều biểu hiện hình thái khác nhau như chịu sự tác động của tư thế, góc chụp, ánh sáng, sự che khuất, biểu cảm 4.2 Kết quả thực nghiệm trên cơ sở dữ liệu ORL Cơ sở dữ liệu ORL [1] ( Olivetti Research Laboratory) là bộ dữ liệu chuẩn được công bố công khai bởi AT&T. Cơ sở dữ liệu ORL là một tập dữ liệu hình ảnh của 40 người gồm 400 ảnh, mỗi người có 10 ảnh đại diện khác nhau về thời điểm, biểu cảm khuôn mặt ( buồn, vui), độ sáng và các chi tiết trên khuôn mặt như đeo kính hoặc không đeo kính. Cơ sở dữ liệu ORL được dùng để thử nghiệm với điều kiện thay đổi ( như tỉ lệ, độ sáng, góc chụp), ảnh mẫu có kích thước 100 x 100 pixel. Và 10 ảnh mẫu của một người trong cơ sở dữ liệu ORL được minh họa như hình 4.1. Hình 4.1: Minh họa các tư thế khuôn mặt một người trong cơ sở dữ liệu ORL. 38 Hình ảnh minh họa cơ sở dữ liệu ORL sẽ được sử dụng để kiểm chứng đặc trưng thông qua từng thuật toán của các tác giả trong quá trình nghiên cứu và thuật toán RLBP được đề xuất trong nghiên cứu này. Ở đây tôi sử dụng một ảnh mẫu được lấy ra từ 10 ảnh mẫu của cùng một người ở hình 4.1, kết quả hình ảnh đặc trưng khuôn mặt nhị phân tương ứng với từng thuật toán được minh họa trong hình 4.2. Hình 4.2: Minh họa hình ảnh đặc trưng khuôn mặt với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu ORL. Trong hình 4.2, Thuật toán LBP được sử dụng rút trích đặc trưng với LBP8,1 ( kích thước ma trận 3 x 3 pixel với 8 điểm lân cận), đồng thời cũng xem xét mở rộng thêm lân cận LBP16,1 ( kích thước ma trận 5 x 5 pixel với 16 điểm lân cận và các thuật toán khác cũng được thực hiện rút trích đặc trưng tương tự. Bên cạnh đó với nghiên cứu này, thuật toán RLBP được đề xuất cũng thực hiện xem xét tương tự với các kích thước 3 x 3 pixel lân cận RLBP8,1 và kích thước 5 x 5 pixel lân cận RLBP16,1. Với sự tương quan như thế giúp cho chúng ta có cái nhìn trực quan trong phương pháp rút trích đặc trưng giữa các 39 thuật toán LBP liên quan và thuật toán RLBP được đề xuất bằng hình ảnh với các lân cận 8 bit, 16 bit. Khi đó với kết quả rút trích đặc trưng thu được bằng hình ảnh, chúng ta có thể thấy thuật toán cải tiến được đề xuất trong nghiên cứu này đã loại bỏ được sự ảnh hưởng của ánh sáng, giảm đáng kể sự tác động của nhiễu và thể hiện rõ nét các đặc trưng của khuôn mặt như đường viền, mắt, mũi, miệng, cằm, từ những đặc điểm đó đã cho thấy sự biểu hiện đặc trưng khá tương đồng với ảnh mẫu ban đầu được xét. Để kiểm chứng kết quả đạt được từ hình ảnh rút trích đặc trưng. Trong thực nghiệm trên cơ sở dữ liệu ORL, mỗi người có 10 ảnh mẫu, chúng tôi chọn ra 5 ảnh của mỗi người làm tập huấn luyện, 5 ảnh còn lại dùng để kiểm tra. Tiếp theo thống kê tìm xác suất giống và khác nhau giữa các ảnh trong quá trình huấn luyện với nhiều kích thước có giá trị đặc trưng khác nhau, tương tự khoảng cách cũng có nhiều giá trị khác nhau nhằm có tỉ lệ tương đồng trong quá trình thống kê để cho ra độ đo chính xác (%) cao nhất của từng thuật toán. Dưới đây là kết quả thống kê được xét. Ảnh khuôn mặt được chia ra với kích thước 10 x 10 ( sẽ có 100 pixel với 100 vùng điểm ảnh xám), tiếp đó phân đoạn từng vùng điểm ảnh xám với nhiều kích thước đặc trưng khác nhau ( 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 đoạn), tương ứng với từng phân đoạn như thế sẽ có các vector đặc trưng ( 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000) và được xét thống kê với 2 trường hợp: 4.2.1 Thống kê vét lân cận cạn 4.2.1.1 Thống kê lân cận 8 Thống kê lân cận 8, ta xét kích thước 3 x 3 pixel với 8 giá trị điểm ảnh xung quanh giá trị điểm ảnh trung tâm như LBP8,1. Sau đây là kết quả độ đo chính xác theo tỉ lệ % đạt được của thuật toán RLBP được đề xuất so với các thuật toán khác được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.1. 40 Bảng 4.1: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 8, như hình 4.3. Hình 4.3: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. 4.2.1.2 Thống kê lân cận 16 Đối với thống kê lân cận 16 không xét lân cận trong ( Lân cận trong là lân cận 8). Ví dụ, Thống kê LBP16,1 không tính LBP8,1 trong trường hợp này. Kết quả độ đo chính xác phần trăm (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL, được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.2. 41 Bảng 4.2: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 16, như hình 4.4. Hình 4.4: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. 4.2.1.3 Thống kê vét cạn tổng hợp Đây là bảng thống kê vét cạn, tổng hợp độ đo chính xác (%) đạt được của thuật toán RLBP8,1, RLBP16,1 được đề xuất với các thuật toán khác, bảng 4.3. 42 Bảng 4.3: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn. Và biểu đồ so sánh kết quả đạt được sau khi thống kê độ đo chính xác (%) đạt được của thuật toán RLBP8,1, RLBP16,1 được đề xuất với các thuật toán khác, hình 4.5. Hình 4.5: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu ORL. 43 4.2.2 Thống kê vét lân cận sâu 4.2.2.1 Thống kê lân cận 16 Đối với thống kê lận cận 16, xét lận cận trong ( là lân cận 8). Sau đó lấy giá trị trung bình của hai lân cận, kết quả đạt được như bảng 4.4. Ví dụ: d(LBP16,1) = (LBP16,1 + LBP8,1)/2. Bảng 4.4: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu ORL. Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 16, như hình 4.6. Hình 4.6: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu ORL. 44 4.2.3 Phương pháp thống kê  Chúng tôi thực hiện thống kê giống và thống kê khác trên toàn bộ cơ sở dữ liệu: Với thống kê giống, dùng 5 ảnh huấn luyện so khớp với 5 ảnh kiểm tra còn lại của chính người đó. Cứ như thế thực hiện thống kê cho hết tất cả 40 người có trong cơ sở dữ liệu, mỗi người sẽ so khớp 5 lần, như vậy sẽ có 200 giá trị thống kê giống đạt được của từng phương pháp. Với thống kê khác, dùng 5 ảnh huấn luyện của một người so khớp với 5 ảnh kiểm tra của mỗi người. Cứ như thế thực hiện lặp lại cho hết tất cả 40 người có trong cơ sở dữ liệu, mỗi người sẽ so khớp 5 lần, như vậy sẽ có 200 giá trị thống kê khác đạt được của từng phương pháp. Sau khi có được giá trị thống kê giống và giá trị thống kê khác, chúng tôi cho so sánh nếu giá trị thống kê giống lớn hơn giá trị thống kê khác là 1, ngược lại là 0, thực hiện so sánh tương tự cho hết tổng số lần của thống kê giống và thống kê khác. Có được tổng số lần so sánh đem chia tổng số lần thống kê và nhân với 100 sẽ có được độ đo chính xác phần trăm (%) cho từng phương pháp. 4.2.4 Nhận xét Xét cả 2 trường hợp thống kê số liệu của thống kê lân cận cạn và thống kê lân cận sâu trên cơ sở dự liệu ORL, thì thuật toán RLBP được đề xuất cho thấy độ chính xác đạt độ đo chính xác (%) có tính ổn định và cao hơn các thuật toán còn lại qua từng kích thước đặc trưng khác nhau cùng với các vùng lận cận khác nhau ( xét thêm vùng lân cận như kích thước 5 x 5 pixel) , mặc dù cũng có một vài thuật toán có độ đo chính xác (%) cao nhưng không ổn định qua từng kích thước đặc trưng phân đoạn trong từng trường hợp khác nhau. Như vậy có thể kết luận rằng với phân đoạn càng lớn thì độ đo chính xác của thuật toán RLBP được đề xuất trong nghiên cứu này càng cao, hơn nữa xét trong hai trường hợp được thực hiện trên cơ sở dữ liệu ORL thì RLBP8,1 đã đạt được kết quả như mong đợi và nhận dạng khuôn mặt có độ chính xác cao 95%. 45 4.3 Kết quả thực nghiệm trên cơ sở dữ liệu yaleB Cơ sở dữ liệu YaleB [2] chứa 2470 hình ảnh khuôn mặt của 38 người khác nhau với các điều kiện biểu hiện trên khuôn mặt với cấu trúc ánh sáng khác nhau ( có ảnh sáng rõ, sáng mờ hoặc bị che khuất một phần hay một bên của khuôn mặt). Mỗi người có 65 ảnh khuôn mặt đại diện khác nhau, kích thước mỗi ảnh là 168 x 192 pixel. Trong nghiên cứu này, tôi chọn 30 ảnh khuôn mặt rõ nét nhất của mỗi người để làm dữ liệu mẫu thống kê. Hình 4.7, minh họa 30 ảnh khuôn mặt của một người trên cơ sở dữ liệu YaleB. Hình 4.7: Minh họa các kiểu biểu hiện khuôn mặt trong cơ sở dữ liệu YaleB. Hình ảnh minh họa cơ sở dữ liệu YaleB sẽ được sử dụng để kiểm chứng đặc trưng thông qua từng thuật toán của các tác giả trong quá trình nghiên cứu và thuật toán RLBP được đề xuất trong nghiên cứu này. Ở đây tôi sử dụng một ảnh mẫu được lấy ra từ 30 ảnh mẫu của cùng một người ở hình 4.7, kết quả hình ảnh đặc trưng khuôn mặt tương ứng với từng thuật toán được minh họa trong hình 4.8. Trong hình 4.8, thuật toán LBP được sử dụng rút trích đặc trưng với LBP8,1 ( kích thước ma trận 3 x 3 pixel với 8 điểm lân cận), đồng thời cũng xem xét mở rộng thêm lân cận LBP16,1 ( kích thước ma trận 5 x 5 pixel với 16 điểm lân cận) và các thuật toán khác cũng được thực hiện rút trích đặc trưng tương tự. Bên cạnh đó với nghiên cứu này, thuật toán RLBP được đề xuất cũng thực hiện xem xét tương tự với các kích thước 3 x 3 pixel lân cận RLBP8,1, kích thước 5 x 5 pixel lân cận RLBP16,1. Với sự tương quan như thế 46 giúp cho chúng ta có cái nhìn trực quan trong phương pháp rút trích đặc trưng giữa các thuật toán LBP liên quan và thuật toán RLBP được đề xuất bằng hình ảnh với các lân cận 8 bit, 16 bit. Khi đó với kết quả rút trích đặc trưng thu được bằng hình ảnh, chúng ta có thể thấy thuật toán cải tiến được đề xuất trong nghiên cứu này đã loại bỏ được sự ảnh hưởng của ánh sáng, giảm đáng kể sự tác động của nhiễu và thể hiện rõ nét các đặc trưng của khuôn mặt như đường viền, mắt, mũi, miệng, cằm, từ những đặc điểm đó đã cho thấy sự biểu hiện đặc trưng khá tương đồng với ảnh mẫu ban đầu được xét. Hình 4.8: Minh họa hình ảnh đặc trưng với các thuật toán liên quan và thuật toán đề xuất RLBP trên cơ sở dữ liệu YaleB. Để kiểm chứng kết quả đạt được từ hình ảnh rút trích đặc trưng. Trong thực nghiệm trên cơ sở dữ liệu YaleB, với 30 ảnh khuôn mặt của mỗi người được chọn, tôi lấy 15 ảnh của mỗi người làm tập huấn luyện, 15 ảnh còn lại dùng để kiểm tra. Tiếp theo thống kê tìm xác suất giống và khác nhau giữa các ảnh trong quá trình huấn luyện với nhiều kích thước có giá trị đặc trưng khác nhau, tương tự khoảng cách cũng có nhiều giá trị khác nhau nhằm có tỉ lệ tương đồng trong quá trình thống kê để cho ra độ đo chính xác phần trăm (%) cao nhất của từng thuật toán. 47 Dưới đây là kết quả thống kê được xét. Ảnh khuôn mặt được chia ra với kích thước 10 x 10 ( sẽ có 100 pixel với 100 vùng điểm ảnh xám), tiếp đó phân đoạn từng vùng điểm ảnh xám với nhiều kích thước đặc trưng khác nhau ( 10, 20, 30, 40, 50, 60, 70, 80, 90, 100 đoạn), tương ứng với từng phân đoạn như thế sẽ có các vector đặc trưng ( 1000, 2000, 3000, 4000, 5000, 6000, 7000, 8000, 9000, 10000) và được xét thống kê với 2 trường hợp: 4.3.1 Thống kê lân cận cạn 4.3.1.1 Thống kê lận cận 8 Thống kê lân cận 8, ta xét kích thước 3 x 3 pixel với 8 giá trị điểm ảnh xung quanh giá trị điểm ảnh trung tâm như LBP8,1. Sau đây là kết quả độ đo chính xác theo tỉ lệ % đạt được của thuật toán RLBP được đề xuất so với các thuật toán khác được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.5. Bảng 4.5: Liệt kê độ chính xác đạt được của thuật toán RLBP8,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB. Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 8, như hình 4.9. 48 Hình 4.9: Biểu đồ so sánh Thuật toán RLBP8,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. 4.3.1.2 Thống kê lân cận 16 Đối với thống kê lân cận 16 không xét lân cận trong ( Lân cận trong là lân cận 8). Ví dụ, Thống kê LBP16,1 không tính LBP8,1 trong trường hợp này. Kết quả độ đo chính xác phần trăm đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB, được xét với nhiều kích thước đặc trưng phân đoạn khác nhau, như bảng 4.6. Bảng 4.6: Liệt kê độ đo chính xác (%) đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB. 49 Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 16, như hình 4.10. Hình 4.10: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. 4.3.1.3 Thống kê vét cạn tổng hợp Đây là bảng thống kê vét cạn, tổng hợp độ đo chính xác (%) đạt được của thuật toán RLBP8,1, RLBP16,1 được đề xuất với các thuật toán khác, bảng 4.7. Bảng 4.7: Liệt kê tổng hợp độ đo chính xác (%) thống kê vét lân cận cạn. 50 Và biểu đồ so sánh kết quả đạt được sau khi thống kê độ đo chính xác (%) đạt được của thuật toán RLBP8,1, RLBP16,1 được đề xuất với các thuật toán khác, hình 4.11. Hình 4.11: Biểu đồ so sánh thống kê vét lân cận cạn tổng hợp trên cơ sở dữ liệu YaleB. 4.3.2 Thống kê lân cận sâu 4.3.2.1 Thống kê lân cận 16 Đối với thống kê lận cận 16, xét lận cận trong ( là lân cận 8). Sau đó lấy giá trị trung bình của hai lân cận, kết quả đạt được như bảng 4.8. Ví dụ: d(LBP16,1) = (LBP16,1 + LBP8,1)/2. Bảng 4.8: Liệt kê độ đo phần trăm đạt được của thuật toán RLBP16,1 được đề xuất so với các thuật toán khác trên cơ sở dữ liệu YaleB. 51 Và biểu đồ so sánh kết quả đạt được sau khi thống kê lân cận 16, như hình 4.12. Hình 4.12: Biểu đồ so sánh Thuật toán RLBP16,1 đề xuất với các thuật toán khác trên cơ sở dữ liệu YaleB. 4.3.3 Phương pháp thống kê  Chúng tôi thực hiện thống kê giống và thống kê khác trên toàn bộ cơ sở dữ liệu: Với thống kê giống, dùng 15 ảnh huấn luyện so khớp với 15 ảnh kiểm tra còn lại của chính người đó. Cứ như thế thực hiện thống kê cho hết tất cả 38 người có trong cơ sở dữ liệu, mỗi người sẽ so khớp 15 lần, như vậy sẽ có 570 giá trị thống kê giống đạt được của từng phương pháp. Với thống kê khác, dùng 15 ảnh huấn luyện của một người so khớp với 15 ảnh kiểm tra của mỗi người. Cứ như thế thực hiện lặp lại cho hết tất cả 40 người có trong cơ sở dữ liệu, mỗi người sẽ so khớp 15 lần, như vậy sẽ có 570 giá trị thống kê khác đạt được của từng phương pháp. Sau khi có được giá trị thống kê giống và giá trị thống kê khác, chúng tôi cho so sánh nếu giá trị thống kê giống lớn hơn giá trị thống kê khác là 1, ngược lại là 0, thực hiện so sánh tương tự cho hết tổng số lần của thống kê giống và thống kê khác. Có được tổng số 52 lần so sánh đem chia tổng số lần thống kê và nhân với 100 sẽ có được độ đo chính xác phần trăm (%) cho từng phương pháp. 4.3.4 Nhận xét Xét cả 2 trường hợp thống kê số liệu của thống kê lân cận cạn và thống kê lân cận sâu trên cơ sở dự liệu YaleB, thì thuật toán RLBP được đề xuất cho thấy độ chính xác đạt độ đo chính xác (%) cao hơn các thuật toán còn lại qua từng kích thước đặc trưng khác nhau cùng với các vùng lận cận khác nhau ( xét thêm vùng lân cận như kích thước 5 x 5 pixel). Tuy nhiên xét kích thước 5 x 5 pixel thì RLBP16,1 chưa đạt được kết quả cao tuyệt đối so với các phương pháp khác cùng cùng kích thước tương tự. Như vậy có thể kết luận rằng thuật toán RLBP8,1 được đề xuất trong nghiên cứu này đã đạt được kết quả như mong đợi và nhận dạng khuôn mặt có độ chính xác cao 100%. 4.4 Thời gian thực hiện Thời gian trung bình thực hiện rút trích đặc trưng trên tổng số ảnh mẫu của từng người, được áp dụng qua từng phương pháp cho từng cơ sở dữ liệu. So sánh thời gian giữa các phương pháp được tính bằng ( mini giây), có thể thấy rằng các phương pháp nhị phân khi rút trích đặc trưng khuôn mặt tiêu tốn rất ít thời gian ( được tính là nhỏ nhất). Các số liệu thời gian được chứng minh trong bảng 4.13. Bảng 4.9 : So sánh thời gian thực hiện rút trích đặc trưng của các phương pháp trên tổng số ảnh mẫu của một người cho từng cơ sở dữ liệu được tính bằng ( mini giây). 53 54 CHƯƠNG 5. KẾT LUẬN 5.1 Kết quả làm được Nhận dạng khuôn mặt là bài toán đặt ra nhiều thách thức cho nhiều nhà nghiên cứu trong việc phát triển, bởi vì khuôn mặt được thu nhận theo nhiều điều kiện và góc độ khác nhau nên chịu ảnh hưởng khá nhiều về sự tác động của ánh sáng , tư thế, biểu cảm và sự che khuất. Chính vì vậy đã có rất nhiều nhà nghiên cứu đưa ra nhiều phương pháp đề xuất khác nhau nhằm giải quyết bài toán đầy phức tạp và thách thức cho nhận dạng khuôn mặt. Trong luận văn này, đã nghiên cứu và tìm hiểu một số công trình nghiên cứu liên quan đã được thực hiện đề xuất trước đây và gần đây trong năm 2017. Dựa vào các nền tảng đã có, trong nghiên cứu này đề xuất phương pháp mẫu nhị phân bền vững ( RLBP) nhằm giảm cường độ điểm ảnh, loại bỏ nhiễu và không bị ảnh hưởng bởi ánh sáng và ít chịu sự tác động của môi trường xung quanh. Qua đó, kết quả thực nghiệm đã thực hiện trên hai bộ dữ liệu ORL [1] và YaleB [2], điều đó chứng minh sự hiệu quả của phương pháp được đề xuất nhằm giải quyết cho bài toán nhận dạng mặt người. Tuy nhiên, theo hướng mở rộng kích thước 5 x 5 pixel, độ đo chính xác khá cao nhưng không thật sự ổn định trên nhiều cơ sở dữ liệu khác nhau, điều đó đã được thử nghiệm trên hai bộ cơ sở dữ liệu trong luận văn này. Như vậy có thể khẳng định rằng, với phương pháp đề xuất trong luận văn này, xét đặc trưng kích thước 3 x 3 pixel đáp ứng yêu cầu nhận dạng khuôn mặt ổn định và độ đo chính xác cao hơn so với các phương pháp khác cùng kích thước. 5.2 Hướng phát triển Mục tiêu cho sự phát triển nghiên cứu này, sẽ chú trọng đến sự canh chỉnh độ quay của khuôn mặt, sự che khuất toàn diện nhằm tạo ra ảnh chuẩn và nâng cao hiệu quả nhận dạng đạt độ chính xác tốt nhất. TÀI LIỆU THAM KHẢO A. Internet 55 . [1]. [2]. B. Tiếng Anh [3]. S.Z. Li and A.K. Jain, eds (2005). Handbook of Face Recognition, Springer, London. [4]. T. Ahonen, A. Hadid, and M. Pietikainen (2006). ‘Face description with local binary patterns: Application to face recognition’. IEEE Trans. Pattern Anal. Mach. Intell., vol. 28, no. 12, pp. 2037– 2041. [5]. P. N. Belhumeur, J. Hespanha, and D. J. Kriegman (1997). ‘Eigenfaces vs. fisherfaces: Recognition using class specific linear projection’. IE

Các file đính kèm theo tài liệu này:

  • pdfbao_cao_nghien_cuu_khoa_hoc_ky_thuat_dinh_danh_khuon_mat_dua.pdf
Tài liệu liên quan