ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
NGHIÊN CỨU ỨNG DỤNG THUẬT TOÁN MẠNG NƠ RON
TÍCH CHẬP NHẬN DẠNG CÁC ĐỐI TƯỢNG DI ĐỘNG
Mã số: T2019-06-130
Chủ nhiệm đề tài: KS. Nguyễn Văn Nam
Đà Nẵng, 6/2020
ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
NGHIÊN CỨU ỨNG DỤNG THUẬT TOÁN MẠNG NƠ RON
TÍCH CHẬP NHẬN DẠNG CÁC ĐỐI TƯỢNG DI ĐỘNG
Mã s
80 trang |
Chia sẻ: huong20 | Ngày: 04/01/2022 | Lượt xem: 413 | Lượt tải: 0
Tóm tắt tài liệu Báo cáo tổng kết đề tài - Nghiên cứu ứng dụng thuật toán mạng nơ ron tích chập nhận dạng các đối tượng di động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
số: T2019-06-130
Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
(ký, họ tên, đóng dấu) (ký, họ tên)
Nguyễn Văn Nam
DANH SÁCH THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
STT Họ và tên Đơn vị
Khoa Điện – Điện tử Trường Đại học Sư phạm Kỹ
1 KS. Nguyễn Văn Nam
thuật
Khoa Điện – Điện tử Trường Đại học Sư phạm Kỹ
2 TS. Nguyễn Đức Quận
thuật
MỤC LỤC
MỞ ĐẦU ......................................................................................................................... 1
1. Tính cấp thiết của đề tài .............................................................................................. 1
2. Mục tiêu của đề tài ...................................................................................................... 3
3. Đối tượng, phạm vi nghiên cứu .................................................................................. 3
3.1 . Đối tượng nghiên cứu.......................................................................................... 3
3.2 . Phạm vi nghiên cứu ............................................................................................. 4
4. Cách tiếp cận, phương pháp nghiên cứu ..................................................................... 4
4.1 . Cách tiếp cận ....................................................................................................... 4
4.2 . Phương pháp nghiên cứu ..................................................................................... 4
5. Nội dung nghiên cứu ................................................................................................... 4
CHƯƠNG 1 - MẠNG NƠ RON VÀ MẠNG NƠ RON TÍCH CHẬP ........................... 5
1.1. Mạng Nơ ron............................................................................................................. 5
1.2. Mạng Nơ ron tích chập (CNN) ................................................................................. 8
1.2.1. Kiến trúc mạng Nơ ron tích chập ...................................................................... 8
1.2.2. Rút trích đặc trưng............................................................................................. 9
1.2.3. Phân loại .......................................................................................................... 12
1.3. Mạng Nơ ron tích chập khu vực nhanh hơn (Faster R-CNN) ................................ 13
1.3.1. Bài toán nhận dạng vật thể (Object Detection) ............................................... 13
1.3.2. Mạng Nơ ron tích chập khu vực (R-CNN) ..................................................... 15
1.3.3. Mạng Nơ ron tích chập khu vực nhanh (Fast R-CNN) ................................... 17
1.3.4. Mạng Nơ ron tích chập khu vực nhanh hơn .................................................... 20
CHƯƠNG 2 - TỔNG QUAN VỀ NHẬN DẠNG CÁC ĐỐI TƯỢNG ........................ 25
2.1. Khái niệm về nhận dạng đối tượng ........................................................................ 25
2.2. Các khó khăn trong việc nhận dạng đối tượng ....................................................... 26
2.2.1. Tư thế, góc chụp .............................................................................................. 26
2.2.2. Sự xuất hiện hoặc thiếu một số thành phần .................................................... 26
2.2.3. Sự biến dạng của đối tượng ............................................................................. 27
2.2.4. Sự che khuất .................................................................................................... 27
2.2.5. Sự phức tạp của hình nền ................................................................................ 28
2.2.6. Môi trường của ảnh ......................................................................................... 29
2.3. Các ứng dụng trong nhận dạng đối tượng hiện nay ............................................... 29
2.4. Tổng quan kiến trúc một hệ thống nhận dạng đối tượng ....................................... 30
2.4.1. Khâu xử lý ảnh đầu vào .................................................................................. 31
2.4.2. Khâu trích lọc các đặc trưng ........................................................................... 32
2.4.3. Phát hiện và phân loại đối tượng ..................................................................... 39
CHƯƠNG 3 - ỨNG DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG NHẬN DẠNG
CÁC ĐỐI TƯỢNG DI ĐỘNG ...................................................................................... 42
3.1. Xây dựng môi trường thực nghiệm mô hình Faster R_CNN ................................. 42
3.1.1. Cấu hình phần cứng cho môi trường thực nghiệm mô hình ........................... 42
3.1.2. Các phần mềm hỗ trợ và phần mềm lập trình ................................................. 42
3.1.3. Cài đặt file môi trường .................................................................................... 45
3.1.4. Cài đặt các thư viện hỗ trợ .............................................................................. 46
3.2. Huấn luyện cho mô hình học nhận dạng ................................................................ 47
3.2.1. Thu thập dữ liệu .............................................................................................. 48
3.2.2. Thực hiện gán nhã cho các đối tượng ............................................................. 49
3.2.3. Xây dựng chương trình huấn luyện ................................................................. 50
3.2.4. Huấn luyện cho mô hình ................................................................................. 50
3.2.5. Dừng huấn luyện mô hình ............................................................................... 52
3.2.6. Kết quả sau khi huấn luyện ............................................................................. 53
3.3. Xây dựng chương trình nhận dạng cho đối tượng .................................................. 53
3.4. Thực nghiệm nhận dạng các đối tượng .................................................................. 53
3.4.1. Thực nghiệm mô hình Faster R-CNN với đối tượng tĩnh ............................... 54
3.4.2. Thực nghiệm mô hình với đối tượng di động ................................................. 58
KẾT LUẬN ................................................................................................................... 62
1. Thuận lợi của đề tài ................................................................................................... 62
2. Hạn chế của đề tài ..................................................................................................... 62
3. Kết quả đạt được ....................................................................................................... 62
4. Hướng phát triển của đề tài ....................................................................................... 62
TÀI LIỆU THAM KHẢO ............................................................................................. 64
DANH MỤC CÁC TỪ VIẾT TẮT
CNN : Convolutional Neural Network.
R-CNN : Regional Convolutional Neural Network.
ROI : Region of Interest.
RPN : Region Proposal Network.
SVM : Support Vector Machine.
DANH MỤC CÁC BẢNG
Bảng 3.1: Bảng tổng hợp đánh giá độ chính xác kết quả nhận dạng của mô hình ........ 56
DANH MỤC CÁC HÌNH
Hình 1.1: Cách thức perceptron hoạt động [11] .............................................................. 5
Hình 1.2: Đồ thị hàm sigmoid [11] ................................................................................. 7
Hình 1.3: Cấu trúc mạng Nơ ron đề xuất dựa trên [11] .................................................. 7
Hình 1.4: Mạng Nơ ron thông thường (trái) và mạng Nơ ron tích chập (phải) .............. 8
Hình 1.5: Kiến trúc mạng CNN ....................................................................................... 9
Hình 1.6: Lớp rút trích đặc trưng của ảnh (Conv, Relu và Pool) và Lớp phân loại (FC và
softmax) ........................................................................................................................... 9
Hình 1.7: Phép tích chập ............................................................................................... 10
Hình 1.8: Ảnh RGB và ảnh xám ................................................................................... 10
Hình 1.9: Phép gộp lấy giá trị lớn nhất kích thước 2×2 ................................................ 11
Hình 1.10: Ví dụ cho tích chập với 2 bộ lọc, 3 cột, 2 bước nhảy, lề = 1....................... 12
Hình 1.11: Nhận dạng hoa đồng tiền ............................................................................. 14
Hình 1.12: Hình ảnh trước (a) và sau khi thực hiện thuật toán tìm kiếm chọn lọc (b) . 15
Hình 1.13: Các khu vực đặc trưng mạng Nơ ron tích chập ........................................... 16
Hình 1.14: Khu vực quan tâm (ROI) ............................................................................. 18
Hình 1.15: Vùng quan tâm (ROI pooling)..................................................................... 19
Hình 1.16: So sánh thời gian huấn luyện và kiểm tra giữa R-CNN và Fast R-CNN .... 19
Hình 1.17: Mô hình ROI pooling .................................................................................. 20
Hình 1.18: Lấy vị trí ...................................................................................................... 21
Hình 1.19: Vị trí cửa sổ trượt (sliding window) ............................................................ 21
Hình 1.20: Các khu vực RPN ........................................................................................ 22
Hình 1.21: Hệ số IoU ..................................................................................................... 23
Hình 1.22: Mô tả hệ số IoU ........................................................................................... 23
Hình 1.23: Thử thời gian R-CNN [10] .......................................................................... 23
Hình 2.1: Minh họa sự thay đổi góc chụp ..................................................................... 26
Hình 2.2: Minh họa sự thiếu thành phần ....................................................................... 27
Hình 2.3: Minh họa sự biến dạng .................................................................................. 27
Hình 2.4: Minh họa sự che khuất .................................................................................. 28
Hình 2.5: Minh họa hình nền phức tạp .......................................................................... 28
Hình 2.6: Minh họa độ sáng khác nhau ......................................................................... 29
Hình 2.7: Các bước trong hệ thống nhận dạng đối tượng ............................................. 31
Hình 2.8: Hình ảnh đưa vào để máy tính nhận dạng ..................................................... 32
Hình 2.9: Cách xử lý của máy tính với ảnh đưa vào để nhận dạng ............................... 32
Hình 2.10: Thực hiện việc nhân chập các giá trị pixel đầu vào với pixel tính năng: .... 33
Hình 2.11: Kết quả sau khi nhân chập giữa bộ lọc với biểu đồ đặc trưng .................... 33
Hình 2.12: Giá trị đặc trưng thu được sau nhân chập .................................................... 34
Hình 2.13: Kêt quả sau nhân chập và tính giá trị đặc trưng .......................................... 34
Hình 2.14: Giá trị đặc trưng thu được ........................................................................... 34
Hình 2.15: Biểu đồ đặc trưng sau trích lọc .................................................................... 35
Hình 2.16: Giá trị đặc trưng thu được sau khi cho qua hàm kích hoạt ......................... 35
Hình 2.17: Biểu đồ đặc trưng thu được sau khi cho qua hàm kích hoạt ....................... 36
Hình 2.18: Kết quả đặc trưng thu được với ảnh RGB đưa vào để nhận dạng ............... 36
Hình 2.19: Thực hiện phép gộp lấy giá trị lớn nhất ...................................................... 37
Hình 2.20: Kết quả thu được sau khi thực hiện max pooling ........................................ 37
Hình 2.21: Kích thước đầu ra 4x4 khi cho qua một lớp ẩn ........................................... 38
Hình 2.22: Kích thước đầu ra 2x2 khi cho qua hai lớp ẩn ............................................ 38
Hình 2.23: Tạo véc tơ đặc trưng cho đối tượng ............................................................ 39
Hình 2.24: Giá trị véctơ đặc trưng của xe ô tô và xe máy ............................................. 39
Hình 2.25: Giá trị đạt được giữa ảnh đưa vào với đối tượng là ô tô ............................. 40
Hình 2.26: Giá trị đạt được giữa ảnh đưa vào với đối tượng là xe máy ........................ 40
Hình 3.1: Bắt đầu cài đặt file môi trường ...................................................................... 45
Hình 3.2: Cài đặt file môi trường thành công................................................................ 45
Hình 3.3: Kích hoạt file môi trường thực nghiệm ......................................................... 46
Hình 3.4: Cài đặt thư viện Tensorflow-gpu từ công cụ pip ........................................... 46
Hình 3.5: Quá trình cài đặt thư viện Tensorflow-gpu kết thúc ..................................... 47
Hình 3.6: Các bước thực hiện trong hệ thống huấn luyện mô hình học ........................ 48
Hình 3.7: Thu thập dữ liệu hình ảnh hoa hồng và hoa hướng dương............................ 48
Hình 3.8: Thu thập dữ liệu hình ảnh con người và xe ô tô ............................................ 49
Hình 3.9: Gán nhãn cho hoa hồng và hoa cẩm tú cầu ................................................... 49
Hình 3.10: Gán nhãn cho xe gắn máy và xe ô tô ........................................................... 49
Hình 3.11: File chương trình huấn luyện ...................................................................... 50
Hình 3.12: Quá trình chuyển đến file môi trường trên nền Anaconda Prompt ............. 50
Hình 3.13: Tạo đường dẫn đến các cơ sở dữ liệu .......................................................... 51
Hình 3.14: a) Thực hiện lệnh gọi chạy mô hình thuật toán Faster R-CNN; b) Mô hình
bắt đầu học nhận dạng các đối tượng từ cơ sở dữ liệu .................................................. 51
Hình 3.15: a) Quá trình bắt đầu huấn luyện dữ liệu mô hình; b) Quá trình kết thúc huấn
luyện dữ liệu mô hình .................................................................................................... 52
Hình 3.16: Biểu đồ mất mát theo thời gian của mô hình Faster R-CNN ...................... 52
Hình 3.17: Cơ sở dữ liệu sau khi huấn luyện mô hình học ........................................... 53
Hình 3.18: Các file chương trình nhận dạng đối tượng ................................................. 53
Hình 3.19: Hình ảnh hoa đưa vào mô hình nhận dạng .................................................. 55
Hình 3.20: Kết quả nhận dạng bởi mô hình .................................................................. 55
Hình 3.21: Kết quả nhận dạng các đối tượng: a) con người; b) xe ô tô, con người; c) xe
máy, con người; d) xe đạp, con người ........................................................................... 57
Hình 3.22: Nguồn video hoa cẩm tú cầu di động .......................................................... 59
Hình 3.23: Kết quả nhận dạng hoa cẩm tú cầu bởi mô hình ......................................... 59
Hình 3.24: Nguồn video người, xe di động ................................................................... 60
Hình 3.25: Kết quả nhận dạng người, xe di động bởi mô hình ..................................... 61
ĐẠI HỌC ĐÀ NẴNG CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT Độc lập - Tự do - Hạnh phúc
THÔNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thông tin chung:
- Tên đề tài: Nghiên cứu ứng dụng thuật toán mạng Nơ ron tích chập nhận dạng các
đối tượng di động
- Mã số: T2019-06-130
- Chủ nhiệm: KS. Nguyễn Văn Nam
- Thành viên tham gia: TS. Nguyễn Đức Quận
- Cơ quan chủ trì: Trường Đại học Sư Phạm Kỹ thuật – Đại học Đà Nẵng
- Thời gian thực hiện: Tháng 8/2019 đến tháng 8/2020
2. Mục tiêu: Mục tiêu của đề tài là xây dựng mô hình thuật toán mạng Nơ ron tích chập
khu vực nhanh hơn (Faster R-CNN - Faster region-based convolutional neural networks)
để nhận dạng các đối tượng tĩnh và di động, đánh giá độ chính xác của mô hình trong
trường hợp tín hiệu đầu vào lúc bình thường và nhiễu. Từ đó, tiến hành thực nghiệm mô
hình nhận dạng các đối tượng tĩnh (nhận dạng đối tượng từ hình ảnh), thực nghiệm nhận
dạng các đối tượng di động (nhận dạng các đối tượng từ một video hoặc từ một camera
online). Đánh giá về khả năng ứng dụng mô hình thuật toán Faster R-CNN để nhận dạng
hệ động thực vật rừng di động.
3. Tính mới và sáng tạo: Nghiên cứu này đã nghiên cứu thực nghiệm nhận dạng thành
công có các đối tượng tĩnh và di động. Nghiên cứu đã cho các kết quả đánh giá độ chính
xác nhận dạng của mô hình đối với hình ảnh ở chế độ bình thường và hình ảnh ở chế độ
nhiễu.
4. Tóm tắt kết quả nghiên cứu: Sản phẩm nghiên cứu đã hoàn thiện gồm: Một mô hình
thuật toán nhận dạng đối tượng ở chế độ tĩnh và di động; Một tập cơ sở dữ liệu sau huấn
luyện nhận dạng cho mười loài hoa khác nhau; Một tập cơ sở dữ liệu sau huấn luyện
nhận dạng cho các đối tượng như con người, xe ô tô, xe mô tô, xe đạp
5. Tên sản phẩm: Thuật toán mạng Nơ ron tích chập nhanh hơn nhận dạng đối tượng
tĩnh và di động
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
- Giáo dục, đào tạo: Tài liệu tham khảo tốt cho giảng viên, sinh viên ngành tự động hóa,
ngành khoa học máy tính
- Kinh tế, xã hội: Áp dụng tích hợp trong robot thông minh nhận dạng đối tượng từ hình
ảnh phục vụ trong công nghiệp, nông nghiệp. Tích hợp trong các drone phục vụ trong
công tác cảnh báo cháy rừng, phục vụ công các điều tra và kiểm kê rừng thay cho con
người.
- Địa chỉ ứng dụng: Kết quả nghiên cứu có thể ứng dụng mô hình để nhận dạng các hệ
động thực vật rừng phục vụ trong giảng dạy và nghiên cứu, đặc biệt là công tác kiểm kê,
thống kê tài nguyên rừng. Huấn luyện mô hình này định danh các loài cây rừng từ hoa,
lá, thân
7. Hình ảnh, sơ đồ minh họa chính
- Nhận dạng các loài hoa di động
- Nhận dạng các đối tượng con người, xe ô tô, xe máy, xe đạp di động
Ngày tháng năm 2020
Hội đồng KH&ĐT đơn vị Chủ nhiệm đề tài
(ký, họ và tên) (ký, họ và tên)
XÁC NHẬN CỦA TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
INFORMATION ON RESEARCH RESULTS
1. General information:
- Project title: Researching on application of convolution neural network algorithm
to identify mobile objects
- Code number: T2019-06-130
- Coordinator: Nguyen Van Nam
- Implementing institution: Nguyen Duc Quan
- Duration: from August 2019 to August 2020
2. Objective(s): The objective of the project is to build a Faster region-based
convolutional neural networks for identifying static and mobile objects, assessing the
accuracy of the model in the case of normal input signals and noise. From there, conduct
practices on the identification of static objects (object recognition from image), practices
on the identification of mobile objects (identify objects from a video or from an online
camer). Evaluation of the application of Faster R-CNN algorithm model to identify
mobile forest fauna and flora.
3. Creativeness and innovativeness: This study, has successfully empirically identified
static and moving objects. The study gave the results evaluating the model's accuracy of
identification for images in normal mode and images in noise mode.
4. Research results: Completed research products include as follows: An
algorithmic model of object recognition in static and mobile mode; A set of post-training
databases to identification for ten different flower species; A set of post-training
databases to identification for objects such as people, cars, motorcycles, bicycles etc.
5. Products: Algorithm Faster region-based convolutional neural networks to
identification for objects static and mobile objects.
6. Effects, transfer alternatives of reserach results and applicability:
- Educations: Good references for lecturers, students of automation, computer
science.
- Socioeconomic: Applied integration in intelligent robots to identify objects from
images serving in industry and agriculture. Integrating in drones to serve forest fire
warnings, serving surveys and inventory of forests on behalf of humans.
- Socioeconomic: Applied integration in intelligent robots to identify objects from
images serving in industry and agriculture. Integrating in drones to serve forest fire
warnings, serving surveys and inventory of forests on behalf of humans.
- Application address: Research results can apply models to identify forest flora and
fauna serving in teaching and research, especially forest inventory and statistics.
Training for identification models of forest trees from flowers, leaves, stems, etc.
7. Photos, diagrams illustrate the main
- Identification of mobile flowers
- Identify human objects, cars, motorcycles, and mobile bicycles
MỞ ĐẦU
Hiện nay, việc ứng dụng công nghệ trí tuệ nhân tạo vào thực tế đang được các nhà
khoa học quan tâm và tham gia nghiên cứu phát triển để tạo ra sản phẩm có khả năng
làm việc thay thế cho con người trong nhiều lĩnh vực như: Công nghiệp; dân dụng; y tế;
v.v Với những hiệu năng mà nó mang lại ở hiện tại thì khả năng trong tương lai không
xa chúng ta sẽ có những thiết bị máy móc không những làm việc hiệu quả mà còn khả
năng thông minh. Để có được những thiết bị thông minh và có khả năng làm việc như
con người thì những yêu cầu đặt ra để cho máy học cũng không hề đơn giản. Thứ nhất
về xây dựng tập dữ liệu để cho máy học, nó là một tập cơ sở dữ liệu lớn (big database)
cho máy học nhận biết nhiều đối tượng khác nhau (hàng ngàn đến chục ngàn đối
tượng). Thứ hai là về cấu hình phần cứng, để đáp ứng xử lý được các tập dữ liệu lớn
thì yêu câu về cấu hình phần cứng cũng tương xứng và nếu cơ sở dữ liệu quá lớn thì
hiện nay chưa thể thực hiện được. Do vậy, việc nhận dạng các đối tượng là một phần
không thể thiếu đối với trí tuệ nhân tạo, deep learning.
1. Tính cấp thiết của đề tài
Những năm gần đây, việc ứng dụng các mô hình Deep Learning vào trong thực tế
được nhiều nhà khoa học quan tâm tham gia nghiên cứu, nổi trội trong đó là mô hình
mạng Nơ ron tích chập (CNN - Convolutional Neural Networks) [1], [2], [3] như một
ứng cử viên sáng giá để giải quyết các vấn đề như: xử lý dữ liệu đầu vào lớn; xử lý
online; nâng cao độ chính xác và khả năng xử lý nhiễu đầu vào. Để thực hiện được
những yêu cầu trên mô hình CNN cũng trải qua các cải tiến cụ thể: Mạng Nơ ron tích
chập khu vực (R-CNN - Regional convolutional neural networks) [4], [5], [6]; Mạng Nơ
ron tích chập khu vực nhanh (Fast R-CNN - Fast region-based convolutional neural
networks) [7]; Mạng Nơ ron tích chập khu vực nhanh hơn (Faster R-CNN - Faster
region-based convolutional neural networks) [8], [9].
Trong đó, mô hình Faster R-CNN không dùng thuật toán tìm kiếm chọn lọc để lấy
ra các khu vực, mà nó thêm một mạng CNN mới gọi là mạng đề xuất khu vực (RPN -
Region Proposal Networks) để tìm các khu vực [8]. Đầu tiên cả bức ảnh được cho qua
mô hình huấn luyện trước để lấy bản đồ đặc trưng. Sau đó bản đồ đặc trưng được dùng
cho RPN để lấy được các khu vực, sau khi lấy được vị trí các khu vực thì thực hiện
1
tương tự Fast R-CNN [7].
Một kết quả thử nghiệm về thời gian của R-CNN [10] được thể hiện tại hình 1.
Hình 1: Thử thời gian R-CNN
Hình 1 ta thấy Faster R-CNN nhanh hơn hẳn các dòng R-CNN trước đó, vì vậy có
thể dùng cho nhận dạng đối tượng ở thời gian thực.
Độ chính xác nhận dạng là một yếu tố quan trọng của mô hình khi ứng dụng vào
trong thực tế, khi đầu vào bị nhiễu (nhiễu: hình ảnh trong môi trường trời tối, trời mưa
hoặc ảnh bị che khuất một phần) nó ảnh hưởng đến quá trình nhận dạng như thế nào?
Do vậy, trong nghiên cứu này sẽ cho thấy được sự ảnh hưởng của nhiễu ở đầu vào lên
độ chính xác trong nhận dạng của mô hình Faster R-CNN.
Để thực hiện nghiên cứu trên trên đầu tiên tác giả tiến hành huấn luyện cho mô
hình Faster R-CNN nhận dạng mười loài hoa khác nhau, vì loài hoa rất phổ biến và dễ
tiếp cận nên sẽ thuận lợi trong quá trình thu thập dữ liệu để phục vụ cho việc nghiên
cứu. Sau khi thực nghiệm mô hình trên các loài hoa tác giả sẽ tiến hành nghiên cứu bước
tiếp theo là thực nghiệm cho các đối tượng di động. Đề tài này tác giả muốn hướng đến
ứng dụng mô hình này vào phục vụ trong ngành lâm nghiệp, muốn huấn luyện mô hình
này định danh các loài cây rừng từ hoa, lá, thân bởi vì muốn định danh được một số
loài cây rừng thì hiện nay phải nhờ đến các chuyên gia mới định danh được. Ngoài ra,
ứng dụng các mô hình nhận dạng định danh cho các loài cây rừng hay nhận dạng các
loài động vật vẫn chưa được áp dụng phục vụ trong ngành lâm nghiệp. Việc điều tra,
kiểm kê tài nguyên rừng hiện tại đang rất cần sự hỗ trợ của công nghệ hiện đại để giải
2
quyết những khó khăn trong công tác quản lý tài nguyên rừng, công việc mà lâu nay hầu
như do con người thực hiện. Để việc ứng dụng vào thực tế mang lại được hiệu quả tốt
thì cũng cần có các đánh giá trong quá trình thực nghiệm.
Ngoài ra, chúng ta có thể ứng dụng kết hợp mô hình nhận dạng vào chế tạo máy
thu hoạch hoa tươi cho các nhà vườn trồng hoa theo mô hình công nghiệp hoặc ứng
dụng vào phục vụ cho các shop, siêu thị kinh doanh hoa tươi tự động thông qua các phần
mềm ứng dụng trên máy tính, các phần mềm App trên điện thoại di động là một hướng
nghiên cứu ứng dụng mới sẽ góp phần mang lại hiệu quả cao trong sản xuất, kinh doanh.
Với những lý do trên, tôi quyết định chọn nghiên cứu đề tài: “Nghiên cứu ứng
dụng thuật toán mạng Nơ ron tích chập nhận dạng các đối tượng di động”. Mục
tiêu của đề tài là thực nghiệm mô hình Faster R-CNN nhận dạng các đối tượng tĩnh và
di động, đưa ra các đánh giá độ chính xác của mô hình trong trường hợp tín hiệu đầu
vào lúc bình thường và nhiễu.
2. Mục tiêu của đề tài
Mục tiêu của đề tài là xây dựng mô hình thuật toán mạng Nơ ron tích chập khu
vực nhanh hơn (Faster R-CNN - Faster region-based convolutional neural networks) để
nhận dạng các đối tượng tĩnh và di động, đánh giá độ chính xác của mô hình trong trường
hợp tín hiệu đầu vào lúc bình thường và nhiễu. Từ đó, tiến hành thực nghiệm mô hình
nhận dạng các đối tượng tĩnh (nhận dạng đối tượng từ hình ảnh), thực nghiệm nhận dạng
các đối tượng di động (nhận dạng các đối tượng từ một video hoặc từ một camera
online). Đánh giá về khả năng ứng dụng mô hình thuật toán Faster R-CNN để nhận dạng
hệ động thực vật rừng di động.
3. Đối tượng, phạm vi nghiên cứu
3.1 . Đối tượng nghiên cứu
- Cơ sở dữ liệu trên hình ảnh, video trên Google
- Cơ sở lý thuyết về nhận dạng các đối tượng
- Các phương pháp, giải thuật về nhận dạng đối tượng
- Thuật toán mạng Nơ ron tích chập
3
3.2 . Phạm vi nghiên cứu
- Nghiên cứu về các kỹ thuật nhận dạng các đối tượng từ hình ảnh
- Nghiên cứu nhận dạng đối tượng tĩnh và di động
4. Cách tiếp cận, phương pháp nghiên cứu
4.1 . Cách tiếp cận
- Tìm hiểu nghiên cứu các tài liệu liên quan đến đề tài trên các tạp chí trong và
ngoài nước, trên các trang diễn đàn kỹ thuật, nguồn tư liệu từ các trang mạng internet
như Google, YouTube
4.2 . Phương pháp nghiên cứu
4.2.1 Phương pháp lý thuyết:
- Tìm hiểu cơ sở lý thuyết về xử lý hình ảnh, xử lý video
- Tìm hiểu cơ sở lý thuyết về thuật toán mạng Nơ ron tích chập
- Các tài liệu liên quan đến nhận dạng các đối tượng từ hình ảnh, video, từ kho dữ
liệu Google
4.2.2 Phương pháp thực nghiệm
- Xây dựng mô hình Faster R-CNN để nhận dạng đối tượng tĩnh và di động
- Kiểm tra đánh giá độ chính xác mô hình Faster R-CNN nhận dạng thực nghiệm
10 loài hoa trong trường hợp hình ảnh đưa vào lúc bình thường và nhiễu.
5. Nội dung nghiên cứu
Nội dung của đề tài bao gồm:
Mở đầu
Chương 1: Mạng Nơ ron và mạng Nơ ron tích chập
Chương 2: Tổng quan về thuật toán nhận dạng
Chương 3: Ứng dụng mạng Nơ ron tích chập trong nhận dạng các đối tượng di
động
Kết luận
4
CHƯƠNG 1 - MẠNG NƠ RON VÀ MẠNG NƠ RON TÍCH
CHẬP
1.1. Mạng Nơ ron
Mạng Nơ ron được xây dựng dựa trên những hiểu biết về bộ não con người. Mạng
bao gồm một loạt các đơn vị liên kết khác nhau, nó là một ánh xạ giữa tập đầu vào và
tập đầu ra. Mỗi đơn vị này gọi là một Nơ ron. Hai loại Nơ ron nhân tạo quan trọng là
perceptron và sigmoid Nơ ron.
Perceptron được phát triển trong những năm 1950-1960 bởi nhà khoa học Frank
Rosenblatt dựa trên cảm hứng từ nghiên cứu trước đó của Warren McCulloch và Walter
Pitts. Cách thức hoạt động của perceptrons là sử dụng một vài đầu vào nhị phân x1, x2
và tạo ra một đầu ra nhị phân như Hình 1.1.
Hình 1.1: Cách thức perceptron hoạt động [11]
Giả sử perceptrons có ba đầu vào: 푥1, 푥2, 푥3. Để tính toán đầu ra chúng ta giả sử
các trọng số 푤1, 푤2, 푤3 là các số thực diễn tả độ quan trọng của đầu vào tương
ứng. Đầu ra của Nơ ron là 0 hay 1 được xác định thông qua so sánh tổng xích ma của
các tích 푤푗 ∗ 푥푗 với một giá trị ngưỡng (threshold) theo biểu thức:
0 if w xthreshold
j jj
output
1 if w xthreshold (1.1)
j jj
Chúng ta thấy khi thay đổi các giá trị trọng số, hay ngưỡng chúng ta có thể tạo ra
các đầu ra khác nhau. Hay nói cách khác là tạo ra các quyết định khác nhau.
Chúng ta có thể đơn giản hóa mô tả perc
Các file đính kèm theo tài liệu này:
- bao_cao_tong_ket_de_tai_nghien_cuu_ung_dung_thuat_toan_mang.pdf