5LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2
Face Mask Detector using Deep Learning model MobileNetV2
Phạm Thị Hường
Email: pthuong@saodo.edu.vn
Trường Đại học Sao Đỏ
Ngày nhận bài: 13/4/2020
Ngày nhận bài sửa sau phản biện: 26/9/2020
Ngày chấp nhận đăng: 30/9/2020
Tóm tắt
Nghiên cứu này trình bày phương pháp học sâu (deep learning - DL) MobileNetV2 n
8 trang |
Chia sẻ: huongnhu95 | Lượt xem: 871 | Lượt tải: 0
Tóm tắt tài liệu Phát hiện khẩu trang sử dụng mô hình học sâu MobileNetV2, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
hằm phát hiện người
đeo khẩu trang trên ảnh và video thời gian thực. Mạng được huấn luyện để thực hiện nhận dạng hai lớp
gồm những người đeo khẩu trang và những người không đeo khẩu trang, đầu vào là các ảnh mầu RBG
với độ phân giải 224×224. Các ảnh mẫu được lấy từ cơ sở dữ liệu Real World Masked Face Dataset. Kết
quả thử nghiệm trên bộ mẫu gồm 4.591 mẫu cho khả nĕng phát hiện chính xác đạt 99,22% cho thấy đây
là một trong những phương pháp góp phần hạn chế lây nhiễm dịch bệnh COVID-19 nhằm bảo vệ sức
khỏe cộng đồng.
Từ khóa: COVID-19; học sâu; phát hiện khẩu trang.
Abstract
This study presents a deep learning method to detect people who wear masks on images and real-
time videos. A MobileNetV2 network was used to train a binary recognition task (people with mask or
without mask). The input RGB color images were at resolution of 224×224. The set of 4.591 images was
taken from Real World Fase Dataset to train and test the network. Numerical results showed an accurate
detection at 99,22%, whichproves that this could be one of the measures contributing to the limit of
COVID-19 disease transmission to protect public health.
Keywords: COVID-19; deep learning; face mask detection.
1. ĐẶT VẤN ĐỀ
Hiện tại, dịch bệnh COVID-19 vẫn có diễn biến
phức tạp trên toàn thế giới, nó không chỉ ảnh
hưởng đến kinh tế, thương mại, dịch vụ mà còn
ảnh hưởng không nhỏ đến tâm lý xã hội của người
dân và chưa có vacxin điều trị cho nên cần kiểm
soát tốt nguồn lây nhiễm. Leung et al. [1] cho rằng
khẩu trang có thể làm giảm sự lây lan của vi-rút
Corona vì đa số các ca lây nhiễm COVID-19 do
tiếp xúc rất gần và không đeo khẩu trang khi nói
chuyện. Theo trung tâm kiểm soát bệnh tật CDC
(Centers for Disease Control and Prevention),
khẩu trang được khuyến nghị là một rào chắn đơn
giản để giúp ngĕn các giọt bắn từ đường hô hấp
bay vào không khí và lên người khác. Khuyến nghị
này dựa trên nghiên cứu vai trò của các giọt bắn
từ đường hô hấp đối với sự lây lan của vi-rút gây
ra COVID-19, kết hợp với bằng chứng mới xuất
hiện từ các nghiên cứu lâm sàng và trong phòng
thí nghiệm cho thấy khẩu trang làm giảm việc phun
các giọt bắn khi đeo qua mũi và miệng [2]. Các
giọt cũng có thể rơi xuống các bề mặt nơi vi-rút có
thể tồn tại. Do đó, môi trường trực tiếp của một cá
nhân bị nhiễm bệnh có thể đóng vai trò là nguồn
lây truyền do tiếp xúc. Theo các chuyên gia của Tổ
chức Y tế thế giới (WHO), đeo khẩu trang có thể
hạn chế sự lây lan của một số bệnh đường hô hấp
trong đó có COVID-19. Dịch bệnh này lây lan chủ
yếu giữa những người tiếp xúc gần với nhau (trong
khoảng 6 feet), vì vậy việc sử dụng khẩu trang đặc
biệt quan trọng ở những nơi mọi người gần nhau
hoặc nơi khó có thể duy trì cách ly xã hội. WHO
cũng khuyến cáo mọi người nên đeo khẩu trang
nếu họ có triệu chứng hô hấp, hoặc họ đang chĕm
sóc những người có triệu chứng [3].
Như vậy, phát hiện người đeo khẩu trang đề cập
đến việc phát hiện xem một người đeo khẩu trang
hay không và vị trí của khuôn mặt đó [4] trở thành
Người phản biện: 1. PGS. TS. Trần Hoài Linh
2. TS. Đỗ Văn Đỉnh
6NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
một nhiệm vụ quan trọng nhưng nghiên cứu liên
quan đến vấn đề này chưa phổ biến. Trên thế giới,
đã có một số nghiên cứu phát hiện người đeo hay
không đeo khẩu trang. Trong [5] đã xây dựng mô
hình CNN để phát hiện khuôn mặt đeo khẩu trang,
mô hình có độ chính xác 98,86% với bộ huấn luyện
và 96,19% với bộ thử nghiệm. Tác giả sử dụng đặc
trưng Haar để phát hiện khuôn mặt và CNN với các
lớp khác nhau như Conv2D, MaxPooling2D, Flatten,
Dropout và Dense. Trong [6] sử dụng PyTorch và
CNN để cài đặt học sâu. Các mô hình đã được thử
nghiệm với hình ảnh và video thời gian thực với độ
chính xác của mô hình là 60%. Trong [7] dùng mô
hình học sâu thay vì mô hình Haar-Cascade, CNN
sử dụng 4 lớp chập theo sau là 2 lớp tuyến tính,
dùng ReLU làm chức nĕng kích hoạt và MaxPool2
là lớp tổng hợp. Huấn luyện mô hình trong 10 lần
lặp và độ chính xác đạt cao nhất tại lần lặp thứ 8
là 99%. Trong [8], sử dụng deepleaning và bộ dữ
liệu của tác giả Prajna Bhandary là bộ dữ liệu đào
tạo có phần hạn chế bởi nhãn lớp có khẩu trang
được tạo một cách nhân tạo. Cụ thể, chụp ảnh
bình thường của khuôn mặt sau đó tùy chỉnh để
thêm khẩu trang cho chúng. Phương pháp này
dễ hơn nhiều so với áp dụng các mốc trên khuôn
mặt. Các mốc trên khuôn mặt cho phép chúng ta
tự động suy ra vị trí của các cấu trúc khuôn mặt,
bao gồm: Đôi mắt, lông mày, mũi, miệng, hàm.
Dựa vào các mốc trên khuôn mặt để xây dựng bộ
dữ liệu khuôn mặt đeo khẩu trang. Ngoài ra, bộ dữ
liệu nhân tạo hình ảnh khuôn mặt đeo khẩu trang
không chứa các hình ảnh có thể khiến phân loại
nhầm. Ở Pháp cũng sử dụng AI để kiểm tra xem
mọi người có đeo khẩu trang trên phương tiện giao
thông công cộng hay không như tại ga tàu điện
ngầm Chatelet-Les Halles. Tại Việt Nam, Robot do
Đại học Công nghệ (ĐH Quốc gia) chế tạo để phát
hiện người không đeo khẩu trang và nhắc nhở sử
dụng những thiết bị, linh kiện có sẵn. Camera tích
hợp cảm biến laser để đo khoảng cách, phát hiện
người ra vào cửa. Cùng lúc, camera sẽ thu lại hình
ảnh và truyền tới máy tính. Các chi tiết chính trên
khuôn mặt như mắt, mũi, miệng sẽ được số hóa
và xử lý. Nếu máy tính phát hiện mũi và miệng bị
che, có nghĩa là người đó đang đeo khẩu trang.
Còn trong trường hợp miệng bị che nhưng mũi
hở, hoặc cả mũi và miệng đều hở, nghĩa là người
đó đeo chưa đúng cách hoặc không đeo. Khi đó
máy tính sẽ lập tức kích hoạt loa và phát ra thông
báo. Độ chính xác phụ thuộc nhiều vào bối cảnh,
chẳng hạn ánh sáng, cách di chuyển của người
ra vào cao nhất đã đạt 95%. Như vậy, phát hiện
khẩu trang là một nhiệm vụ cần thiết trong tình hình
hiện nay, mục tiêu ngoài nhắc nhở những cá nhân
không đeo khẩu trang, mà còn tạo ra dữ liệu thống
kê giúp chính quyền dự đoán sự bùng phát của
COVID-19 trong tương lai. Nghiên cứu này tiếp
cận theo phương pháp học sâu sử dụng mô hình
MobileNetV2, một mô hình khá nhẹ, số lượng tham
số ít, tốc độ tính toán nhanh và dễ triển khai ứng
dụng real time trên các thiết bị di động hoặc thống
nhúng có khả nĕng tính toán thấp để tự động phát
hiện cùng lúc nhiều người không đeo khẩu trang
trên ảnh và video thời gian thực với bộ dữ liệu
người đeo khẩu trang thực.
Hình 1. Sơ đồ thuật toán phát hiện khẩu trang
Begin
Load ảnh/video
Dự đoán
Có khẩu trang
Có Không
Thông báo with _mask
Kết thúc
Thông báo with _mask
Lưu hình ảnh, thời gian hiện tại
7LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
2. NỘI DUNG NGHIÊN CỨU
2.1. Bài toán phát hiện khẩu trang
Phát hiện đối tượng là để trả lời câu hỏi: “Đối tượng
cần tìm có ở trong ảnh hay video hay không?” và
“Nếu có thì nằm ở vị trí nào?” Trong bài toán phát
hiện người đeo khẩu trang cần trả lời câu hỏi người
trong ảnh/video có hay không đeo khẩu trang? Bài
toán phân loại này gồm hai bước là xây dựng mô
hình và vận hành mô hình. Cho sẵn một tập dữ liệu
các khuôn mặt được gán nhãn là không đeo khẩu
trang hay có đeo khẩu trang gọi tắt là lớp không
khẩu trang và lớp có khẩu trang. Cần một phương
pháp huấn luyện để xây dựng một mô hình phân
lớp từ tập dữ liệu mẫu đó, sau đó dùng mô hình
này dự đoán lớp của những khuôn mặt mới chưa
biết nhãn.
2.2. Tiền xử lý dữ liệu
Cơ sở dữ liệu hình ảnh thu thập tại Real World
Masked Face Dataset (RMFD) chứa 5.000 khuôn
mặt đeo khẩu trang của 525 người và 90.000
khuôn mặt bình thường, sau đó tiến hành tiền xử
lý để đưa vào mô hình huấn luyện [11]. Các bước
xử lý trước bao gồm thay đổi kích thước thành
224 × 224 pixel, chuyển đổi sang định dạng mảng,
chuyển kênh màu BGR sang RGB và chia tỷ lệ
cường độ pixel trong hình ảnh đầu vào thành phạm
vi [-1, 1]. Sau đó sử dụng scikit-learn One-Hot-
Encoding để tạo nhãn lớp cho mỗi hình ảnh. Trong
chiến lược này, mỗi véc-tơ giá trị nhãn đầu ra được
chuyển đổi thành dạng mới, trong đó chỉ có 1 đầu
ra bằng “1” ứng với mã phân loại của véc-tơ đầu
vào tương ứng còn các đầu ra khác đều bằng “0”.
Tập hình ảnh này gọi là tập huấn luyện. Trong
nghiên cứu này tác giả sử dụng 686 hình ảnh khuôn
mặt không đeo khẩu trang và 3.905 hình ảnh đeo
khẩu trang làm dữ liệu huấn luyện mô hình.
Hình 2. (a) Mặt không có khẩu trang và (b) mặt có khẩu trang
(a) (b)
Hình 3. (a), (b), (c), (d) Minh họa các ảnh trong bộ dữ liệu phát hiện khẩu trang
(a) Mặt không có khẩu trang
(b) Mặt có khẩu trang
(c) Mặt có và không có khẩu trang
(d) Mặt nhầm lẫn là khẩu trang
8NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
2.3. Huấn luyện mô hình
CNN (Mạng nơron tích chập) có nhiều phiên bản
của mạng được đào tạo trước và kiến trúc tốt như
AlexNet, ResNet, Inception, LeNet, MobileNet,
Trong trường hợp này sử dụng MobileNetV2 là mô
hình hướng di động, nhẹ và hiệu quả do số lượng
tham số ít. MobileNetV2 xây dựng dựa trên các ý
tưởng từ MobileNetV1 [10], sử dụng tích chập có
thể phân tách theo chiều sâu với các đặc trưng mới
cho kiến trúc.
Trong bước này, chia dữ liệu thành tập huấn luyện
chứa các hình ảnh mà mô hình CNN sẽ được huấn
luyện và tập kiểm tra với các hình ảnh mà mô hình
sẽ kiểm tra. Cụ thể lấy split_size = 0.8, có nghĩa là
80% tổng số hình ảnh cho huấn luyện và 20% còn
lại của hình ảnh cho kiểm tra một cách ngẫu nhiên.
Sau đó, xây dựng mô hình CNN với các lớp khác
nhau như AveragePooling2D với trọng số 7×7,
Flatten, Dropout và Dense. Trong lớp Dense cuối
cùng, sử dụng hàm softmax để xuất ra một véc - tơ
thể hiện xác suất của mỗi lớp.
Ảnh huấn luyện
Tiền xử lý ảnh
Trích chọn đặc trưng
Huấn luyện mô hình
Lưu mô hình
Hình 4. Huấn luyện mô hình
2.4. Vận hành mô hình
Tải hình ảnh, video đầu vào sau đó phát hiện
khuôn mặt trong ảnh. Áp dụng bộ phát hiện khẩu
trang để phân loại khuôn mặt đeo khẩu trang (with_
mask) hoặc là không đeo khẩu trang (without_
mask). Tiền xử lý được thực hiện là chuẩn hóa
kích thước và hoán đổi kênh màu. Để giảm nhiễu
cho ảnh do chiếu sáng cần chuyển ảnh sang dạng
ảnh blob thông qua hàm blobFromImage của
OpenCV.
Hình 5. Vận hành mô hình
2.5. Phát hiện khẩu trang trên ảnh
Với mỗi hình ảnh trong bộ kiểm tra, cần tìm chỉ
mục của nhãn với xác suất dự đoán lớn nhất tương
ứng, đánh giá và lưu mô hình. Sơ đồ phát hiện
khẩu trang trên ảnh như trên hình 6.
2.6. Phát hiện khẩu trang trên ảnh
Đối với vấn đề xác định người trong video/webcam
có đeo khẩu trang hay không cần xác định các
khuôn mặt trong webcam và phân loại khuôn mặt
đeo khẩu trang. Đầu tiên, lặp qua các frame từ
video và thay đổi kích thước để có chiều rộng tối đa
400 pixel, phát hiện khuôn mặt trong frame và xác
định xem họ có đang đeo khẩu trang hay không?
Quy trình chi tiết được thể hiện trên hình 7.
Hình 6. Sơ đồ phát hiện người đeo khẩu trang trên ảnh
Load ảnh/video cần kiểm tra
Phát hiện mặt từ ảnh/video
Áp dụng mô hình để dự đoán
Đưa ra kết quả dự đoán
Ảnh nguồn
Kết quả
MobileNetV2
Hàm kích hoạt
Softmax 2 kênh ra
Pooling theo
giá trị trung bình
Dropout
p = 0,5
Phẳng hóa ma trận
thành véc - tơ
Kích hoạt phi tuyến
Relu 128 kênh ra
9LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Hình 7. Sơ đồ phát hiện người đeo khẩu trang trên video/webcam
3. KẾT QUẢ NGHIÊN CỨU VÀ THẢO LUẬN
Dữ liệu thực hiện huấn luyện được lấy tại Real
World Masked Face Dataset với nhiều ánh sáng,
tư thế, sự che khuất khác nhau, một số khuôn mặt
được che bằng tay hoặc các vật thể khác thay vì
khẩu trang thực. Dữ liệu bao gồm các mặt có khẩu
trang, mặt không có khẩu trang, mặt có và không
có khẩu trang trong một hình ảnh và hình ảnh nhầm
là khẩu trang nhưng thực tế thì không có.
Để đánh giá tập trọng số cần xác định lỗi cho cả
huấn luyện (loss) và kiểm tra (val_loss) ta sử dụng
hàm Cross Entropy là nhị phân chéo binary_cros-
sentropy. Cụ thể, tính toán loss của mỗi trường
hợp bằng cách tính giá trị trung bình như sau:
𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦 () = −,1𝑛𝑛 .0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log (1 − 𝑦𝑦4!)6
Với n là số lượng giá trị vô hướng trong đầu ra
của mô hình, hàm loss trả về một số thực không
âm thể hiện sự chênh lệch giữa hai đại lượng yˆ là
xác suất nhãn được dự đoán và y là xác suất của
nhãn đúng. Sau đó sử dụng thuật toán gradient
descent “adam” (Adaptive Mô - ment Estimator)
để tối ưu [13].
Hơn nữa, để kiểm định hiệu nĕng của mô hình
phân loại, cần tính toán tỷ lệ chính xác trung bình
trên tất cả các dự đoán sử dụng thang đo ma trận
nhầm lẫn như sau:
Bảng 1. Ma trận nhầm lẫn
Dự đoán là
Positive
Dự đoán là
Negative
Thực tế là Positve TP FN
Thực tế là Negative FP TN
Trong đó:
Các hàng của ma trận là nhãn lớp thực tế, các cột
của ma trận là nhãn lớp dự đoán.
- TN: Số lượng khuôn mặt không đeo khẩu trang
được phân loại chính xác.
- FN: Số lượng khuôn mặt đeo khẩu trang bị phân
loại nhầm là khuôn mặt không đeo khẩu trang.
- TP: Số lượng khuôn mặt đeo khẩu trang được
phân loại chính xác.
- FP: Số lượng khuôn mặt không đeo khẩu trang bị
phân loại nhầm là khuôn mặt đeo khẩu trang.
Từ đó, độ chính xác của mô hình được tính theo
công thức sau:𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = 𝑇𝑇𝑇𝑇 + 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 + 𝑇𝑇𝑇𝑇 + 𝐹𝐹𝑇𝑇 Đây là tỉ lệ của tất cả trường hợp phân loại đúng
(không phân biệt negative/positive) trên toàn bộ
trường hợp trong mẫu kiểm tra.
Một độ đo cũng thường được dùng để đánh giá mô
hình phân lớp đó là F-measure hay F-core được
tính dựa trên 2 độ đo khác là precision và recall, và
được tính như sau:
Bảng 2. Đánh giá huấn luyện mô hình
Thời
gian (s) loss acc val_loss val_acc
49 0,8343 0,6261 0,3932 0,8050
50 0,4339 0,7987 0,2218 0,9300
53 0,2503 0,9007 0,1433 0,9450
52 0,1726 0,9490 0,1104 0,9550
52 0,1405 0,9582 0,0907 0,9700
59 0,1336 0,9490 0,0770 0,9800
57 0,0957 0,9752 0,0674 0,9800
48 0,0802 0,9752 0,0595 0,9850
49 0,0718 0,0718 0,0548 0,9850
46 0,0843 0,9673 0,0481 0,9800
43 0,0728 0,9778 0,0428 0,9850
𝑙𝑙𝑜𝑜𝑜𝑜𝑜𝑜(𝑦𝑦, 𝑦𝑦 () = −,1𝑛𝑛 .0𝑦𝑦! . log(𝑦𝑦4!)"!#$ + (1 − 𝑦𝑦!). log (1 − 𝑦𝑦4!)6 (1)
(2)
𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝑃𝑃 𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 + 𝐹𝐹𝐹𝐹 𝐹𝐹!"#$% = 21𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 + 1𝑅𝑅𝑃𝑃𝑃𝑃𝑅𝑅𝑅𝑅𝑅𝑅 = 𝑇𝑇𝑃𝑃𝑇𝑇𝑃𝑃 + 𝐹𝐹𝐹𝐹 + 𝐹𝐹𝑃𝑃2
(3)
(4)
(5)
Khởi tạo
video
Hiện thị
kết quả
Trích xuất ảnh
từ các frame
Chuyển kết quả
vào frame
Load phát hiện
khuôn mặt
Load mô hình
MobileNetV2
Ảnh khuôn mặt
Tiền xử lý ảnh
10
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Thời
gian (s) loss acc val_loss val_acc
48 0,0507 0,9817 0,0399 0,9950
60 0,0423 0,9869 0,0372 0,9900
74 0,0555 0,9843 0,0373 0,9900
77 0,0420 0,9883 0,0333 0,9950
71 0,0406 0,9869 0,0307 0,9950
57 0,0383 0,9895 0,0331 0,9900
57 0,0407 0,9869 0,0286 0,9950
55 0,0324 0,9900 0,0290 0,9922
42 0,0322 0,9900 0,0297 0,9922
Tiến hành huấn luyện với tốc độ học 0.0001, sau
20 lần lặp với số số lượng mẫu (Batch_size) sử
dụng cho mỗi lần cập nhật trọng số là 32 ta thu
được kết quả (bảng 3). Như bảng 3 có thể thấy,
sau 20 lần lặp, mô hình đạt được độ chính xác
khoảng 99% trên bộ thử nghiệm (bộ kiểm tra). Đây
là một giá trị tương đối cao.
Bảng 3. Đánh giá mô hình
Precision Recall Fscore
Có khẩu trang 0,97 1,00 0,98
Không khẩu trang 1,00 0,99 0,99
Trọng số trung bình 0,99 0,99 0,99
Hình 8. Đồ thị độ chính xác và giá trị lỗi
Kết quả cài đặt phát hiện khẩu trang trên ảnh:
Hình 9. Kết quả phát hiện người đeo khẩu trang trên ảnh
Hình 10. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối khoảng cách 3 m
11
LIÊN NGÀNH ĐIỆN - ĐIỆN TỬ - TỰ ĐỘNG HÓA
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
Hình 11. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng tối
Hình 12. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình
Hình 13. Kết quả phát hiện người đeo khẩu trang trên webcam điều kiện ánh sáng trung bình
Với những khuôn mặt không đeo khẩu trang, hệ
thống phát hiện và lưu dữ liệu ảnh là một trong
những cơ sở thống kê dự đoán sự bùng phát trong
tương lai.
Hình 14. Kết quả lưu người không đeo khẩu trang trên webcam
12
NGHIÊN CỨU KHOA HỌC
Tạp chí Nghiên cứu khoa học, Trường Đại học Sao Đỏ, ISSN 1859-4190, Số 3 (70) 2020
4. KẾT LUẬN
Kết quả nghiên cứu cho thấy: Phát hiện người đeo
khẩu trang sử dụng mô hình học sâu MobileNetV2
có độ chính xác khá cao, số lượng tham số ít, giảm
chi phí sản xuất các hệ thống phát hiện nếu triển
khai trên các thiết bị nhúng, có thể phát hiện nhiều
khuôn mặt trên ảnh và video với bộ dữ liệu đeo
khẩu trang thực tế. Hơn nữa, nghiên cứu cũng
thực hiện việc thu thập mặt không đeo khẩu trang
và lưu trữ vào thư mục máy chủ nhằm tạo dữ liệu
thống kê để dự đoán sự bùng phát của dịch bệnh
mà không cần xác định danh tính cá nhân của họ.
TÀI LIỆU THAM KHẢO
[1] N. H. Leung, D. K. Chu, E. Y. Shiu, K.-H. Chan,
J. J. Mc Devitt, B. J. Hau, H.-L. Yen, Y. Li, D. KM,
J. Ip et al.(2020), Respiratory virus shedding in
exhaled breath and efficacy of face masks.
[2] S. Feng, C. Shen, N. Xia, W. Song, M. Fan,
and B. J. Cowling (2020), Rational use of face
masks in the covid-19 pandemic, The Lancet
Respiratory Medicine.
[3] https://vietnamese.cdc.gov/coronavirus/2019-
ncov/prevent-getting-sick/cloth-face-cover-
guidance.html.
[4] Z. Wang, G. Wang, B. Huang, Z. Xiong, Q.
Hong, H. Wu, P. Yi, K. Jiang, N. Wang, Y.
Pei et al. (2020), Masked face recognition
dataset and application, arXiv preprint
arXiv:2003.09093.
[5] https://towardsdatascience.com/covid-19-
face-mask-detection-using-tensorflow-and-
opencv-702dd833515b.
[6] https://www.ideas2it.com/blogs/face-
mask-detector-using-deep- learning-
pytorch-and-computer-vision-opencv/
[7] https://towardsdatascience.com/how-i-
built-a-face-mask-detector-for-covid-19-
using-pytorch-lightning-67eb3752fd61
[8] h t t p s : / / w w w . p y i m a g e s e a r c h .
com/2020/05/04/covid-19-face-mask-
detector-with-opencv-keras-tensorflow-
and-deep-learning/
[9] https://vnexpress.net/dung-robot-de-phat-
hien-nguoi-khong-deo-khau-trang-4099618.
html, đăng ngày 15/5/2020.
[10] A. G. Howard, M. Zhu, B. Chen, D.
Kalenichenko, W. Wang, T. Weyand, M.
Andreetto, and H. Adam (2017), Mobilenets:
Efficient convolutional neural networks for
mobile vision applications, arXiv preprint
arXiv:1704.04861.
[11] https://github.com/X-zhangyang/Real-
World-Masked-Face-Dataset.
[12] h t t p s : // t o w a r d s d a t a s c i e n c e . c o m /
categorical-encoding-using-label-encoding-
and-one-hot-encoder-911ef77fb5bd.
[13] https://phantichdautu.com/2019/07/24/
cac-thuat-toan-toi-uu-trong-tensorflow-
voi-cong-thuc/
THÔNG TIN TÁC GIẢ
Phạm Thị Hường
- Tóm tắt quá trình đào tạo, nghiên cứu (thời điểm tốt nghiệp và chương trình đào
tạo, nghiên cứu):
+ Năm 2004: Tốt nghiệp Đại học chuyên ngành Tin học, Trường Đại học Sư Phạm
Quy Nhơn.
+ Năm 2017: Tốt nghiệp Thạc sĩ ngành Công nghệ thông tin, Trường Đại học sư
phạm Hà Nội.
- Tóm tắt công việc hiện tại: Giảng viên bộ môn Công nghệ thông tin, Trường Đại
học Sao Đỏ.
- Lĩnh vực quan tâm: Tin học, toán học.
- Email: phamthihuongdtth@gmail.com.
- Điện thoại: 0972306806.
Các file đính kèm theo tài liệu này:
- phat_hien_khau_trang_su_dung_mo_hinh_hoc_sau_mobilenetv2.pdf