BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG
TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội − 2016
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG
TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
Chuyên ngành: Khoa học Máy tính
Mã số chuyên ngành: 62480101
212 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 377 | Lượt tải: 0
Tóm tắt tài liệu Luận án Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. TS. Trần Thị Thanh Hải
2. PGS.TS. Nguyễn Quang Hoan
Hà Nội −2016
LỜI CAM ĐOAN
Tôi xin cam đoan luận án: “Nghiên cứu phát triển một số kỹ thuật định vị dựa
trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị” là công trình nghiên
cứu của riêng tôi.
Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công
bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước và
quốc tế.
Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứu
trong và ngoài nước.
Hà Nội, ngày 20 tháng 7 năm 2016
NGHIÊN CỨU SINH
Nguyễn Quốc Hùng
TẬP THỂ HƯỚNG DẪN KHOA HỌC
TS. Trần Thị Thanh Hải PGS.TS. Nguyễn Quang Hoan
i
LỜI CẢM ƠN
Luận án tiến sĩ được thực hiện tại Viện Nghiên cứu Quốc tế MICA, trường Đại
học Bách khoa Hà Nội dưới sự hướng dẫn khoa học của TS. Trần Thị Thanh Hải và
PGS.TS. Nguyễn Quang Hoan. Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các
thầy, cô về định hướng khoa học trong suốt quá trình nghiên cứu. Nghiên cứu sinh xin
được trân trọng cảm ơn các nhà khoa học, tác giả các công trình công bố đã được trích
dẫn và cung cấp nguồn tư liệu quý báu trong quá trình hoàn thành luận án.
Nghiên cứu sinh xin trân trọng cảm ơn Viện Nghiên cứu Quốc tế đa phương tiện
MICA; Viện Đào tạo sau Đại học Trường Đại học Bách Khoa Hà Nội; GS.TS. Phạm Thị
Ngọc Yến; GS.TS. Eric Castelli; đề tài KHCN tiềm năng mã số: KC.01.TN19/11-15,
đề tài VLIR mã số: ZEIN2012RIP19; đề tài hợp tác Việt - Bỉ mã số: FWO.102.2013.08;
Quỹ phát triển KH&CN quốc gia Việt Nam; Trường THCS Nguyễn Đình Chiểu Hà
Nội; nhóm nghiên cứu IPI Đại học GENT Vương quốc Bỉ...đã tạo điều kiện thuận lợi
về thời gian, địa điểm thực tập, trang thiết bị, hỗ trợ về mặt nhân lực để NCS thực
hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiên cứu.
Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Cao
đẳng Y tế Thái Nguyên; gia đình và đồng nghiệp đã động viên khích lệ, tạo mọi điều
kiện thuận lợi để NCS yên tâm công tác và học tập.
Hà Nội, ngày 20 tháng 7 năm 2016
NGHIÊN CỨU SINH
Nguyễn Quốc Hùng
ii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii
DANH MỤC CÁC BẢNG ix
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xv
MỞ ĐẦU 1
1 TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP NGƯỜI KHIẾM THỊ 4
1.1 Đặt vấn đề . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Các nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.1 Các nghiên cứu trên thế giới . . . . . . . . . . . . . . . . . . . . 4
1.2.1.1 Siêu âm . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1.2 Hồng ngoại . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.3 Laser . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.4 Camera . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.1.5 Đa cảm biến . . . . . . . . . . . . . . . . . . . . . . . 9
1.2.2 Các nghiên cứu trong nước . . . . . . . . . . . . . . . . . . . . . 10
1.2.3 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3 Mục tiêu nghiên cứu và phương pháp đề xuất . . . . . . . . . . . . . . 12
1.3.1 Mục tiêu và phạm vi nghiên cứu . . . . . . . . . . . . . . . . . . 12
1.3.2 Phương pháp đề xuất . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4 Kết luận chương 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2 BIỂU DIỄN MÔI TRƯỜNG VÀ ĐỊNH VỊ 14
2.1 Giới thiệu chung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 15
2.2.1 Hướng tiếp cận sử dụng bản đồ số liệu . . . . . . . . . . . . . . 15
2.2.2 Hướng tiếp cận sử dụng bản đồ topo . . . . . . . . . . . . . . . 17
2.2.3 Hướng tiếp cận lai . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.4 Thảo luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
iii
2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường . . . . . . . 22
2.4 Phương pháp xây dựng bản đồ môi trường . . . . . . . . . . . . . . . . 23
2.4.1 Xây dựng bản đồ số liệu . . . . . . . . . . . . . . . . . . . . . . 23
2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô
hình không chắc chắn . . . . . . . . . . . . . . . . . . 24
2.4.1.2 Thích nghi VO cho môi trường trong nhà . . . . . . . 27
2.4.2 Xây dựng bản đồ topo . . . . . . . . . . . . . . . . . . . . . . . 29
2.4.2.1 Giải thuật FAB-MAP . . . . . . . . . . . . . . . . . . 30
2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo 39
2.4.3 Bổ sung thông tin đối tượng vật cản tĩnh trên bản đồ . . . . . . 44
2.5 Phương pháp định vị . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.6 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.1 Môi trường đánh giá . . . . . . . . . . . . . . . . . . . . . . . . 45
2.6.2 Thu thập dữ liệu đánh giá . . . . . . . . . . . . . . . . . . . . . 46
2.6.2.1 Hệ thống thu thập dữ liệu . . . . . . . . . . . . . . . . 46
2.6.2.2 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 47
2.6.3 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.6.3.1 Đánh giá phương pháp xây dựng bản đồ số liệu . . . . 48
2.6.3.2 Đánh giá phương pháp định vị hình ảnh . . . . . . . . 53
2.7 Kết luận chương 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3 PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN 60
3.1 Định nghĩa bài toán và các thách thức . . . . . . . . . . . . . . . . . . 60
3.2 Những nghiên cứu liên quan . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.1 Các phương pháp sử dụng 01 camera . . . . . . . . . . . . . . . 61
3.2.1.1 Hướng nghiên cứu sử dụng stereo camera . . . . . . . 62
3.2.1.2 Hướng nghiên cứu sử dụng cảm biến Kinect . . . . . . 64
3.2.1.3 Phân tích và đánh giá các phương pháp . . . . . . . . 65
3.3 Đề xuất phương pháp phát hiện và ước lượng khoảng cách . . . . . . . 66
3.4 Phát hiện vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.4.1 Phát hiện vật cản cố định . . . . . . . . . . . . . . . . . . . . . 67
3.4.1.1 Đối sánh các điểm đặc trưng . . . . . . . . . . . . . . 68
3.4.1.2 Phát hiện vật cản từ kết quả đối sánh . . . . . . . . . 71
3.4.1.3 Xác định vùng chứa đối tượng . . . . . . . . . . . . . . 74
3.4.2 Phát hiện vật cản động . . . . . . . . . . . . . . . . . . . . . . . 75
3.4.2.1 Trích chọn đặc trưng HoG . . . . . . . . . . . . . . . . 75
3.4.2.2 Bộ phân loại SVM . . . . . . . . . . . . . . . . . . . . 76
3.5 Uớc lượng khoảng cách vật cản . . . . . . . . . . . . . . . . . . . . . . 77
3.5.1 Nguyên lý ước lượng khoảng cách . . . . . . . . . . . . . . . . . 77
iv
3.5.2 Xây dựng bản đồ chênh lệch . . . . . . . . . . . . . . . . . . . . 79
3.5.2.1 Thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . 80
3.5.2.2 Hiệu chỉnh hình ảnh . . . . . . . . . . . . . . . . . . . 80
3.5.2.3 Đối sánh hình ảnh . . . . . . . . . . . . . . . . . . . . 84
3.5.2.4 Tính toán độ sâu . . . . . . . . . . . . . . . . . . . . . 86
3.6 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
3.6.1 Xây dựng cơ sở dữ liệu vật cản . . . . . . . . . . . . . . . . . . 88
3.6.2 Đánh giá giải thuật phát hiện đối tượng . . . . . . . . . . . . . 90
3.6.3 Đánh giá giải thuật ước lượng khoảng cách vật cản . . . . . . . 93
3.7 Kết luận chương 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4 PHÁT TRIỂN VÀ THỬ NGHIỆM HỆ THỐNG DẪN ĐƯỜNG 99
4.1 Hệ thống tích hợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.1 Tích hợp phần cứng . . . . . . . . . . . . . . . . . . . . . . . . 99
4.1.2 Kiến trúc tổng thể . . . . . . . . . . . . . . . . . . . . . . . . . 101
4.2 Phát triển hệ thống dẫn đường sử dụng robot . . . . . . . . . . . . . . 102
4.2.1 Tìm đường cho robot . . . . . . . . . . . . . . . . . . . . . . . . 102
4.2.2 Điều khiển robot . . . . . . . . . . . . . . . . . . . . . . . . . . 103
4.2.2.1 Điều khiển trực tiếp dựa trên đường đi xác định . . . . 103
4.2.2.2 Điều khiển theo dự báo và hiệu chỉnh vị trí của bộ lọc
Kalman . . . . . . . . . . . . . . . . . . . . . . . . . . 105
4.2.3 Tương tác người-robot . . . . . . . . . . . . . . . . . . . . . . . 111
4.3 Thử nghiệm và đánh giá hệ thống dẫn đường . . . . . . . . . . . . . . 112
4.3.1 Môi trường và quy trình thử nghiệm . . . . . . . . . . . . . . . 112
4.3.1.1 Môi trường thử nghiệm . . . . . . . . . . . . . . . . . 112
4.3.1.2 Quy trình thử nghiệm . . . . . . . . . . . . . . . . . . 115
4.3.2 Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . 116
4.3.2.1 Đánh giá khả năng xác định vị trí xuất phát của robot 116
4.3.2.2 Đánh giá khả năng điều khiển robot . . . . . . . . . . 117
4.3.2.3 Đánh giá khả năng tương tác người-robot . . . . . . . 119
4.3.2.4 Đánh giá hệ thống dẫn đường trợ giúp NKT bằng robot 121
4.3.3 Bàn luận hệ thống robot dẫn đường . . . . . . . . . . . . . . . . 130
4.4 Kết luận chương 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 133
TÀI LIỆU THAM KHẢO 136
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 148
PHỤ LỤC 151
v
A MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG 151
A.1 Đặc trưng Harris Corner . . . . . . . . . . . . . . . . . . . . . . . . . . 151
A.2 Đặc trưng SIFT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
A.3 Đặc trưng SURF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
A.4 Đặc trưng GIST . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163
A.5 Đặc trưng HoG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
A.6 Đặc trưng Haar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170
B ĐÁNH GIÁ HIỆU NĂNG NHẬN DẠNG TRÊN MỘT SỐ CSDL 173
B.1 Giới thiệu 3 CSDL thử nghiệm . . . . . . . . . . . . . . . . . . . . . . 173
B.2 Khung nhận dạng đối tượng tổng quát . . . . . . . . . . . . . . . . . . 177
B.3 Độ đo đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182
B.4 Kết quả đánh giá . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
C THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU 188
C.1 Xe camera thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 188
C.2 Hiệu chỉnh camera góc rộng . . . . . . . . . . . . . . . . . . . . . . . . 191
C.3 Robot PC-Bot914 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193
vi
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
TT Viết tắt Nghĩa đầy đủ (tiếng Việt/tiếng Anh)
1 AM Appearance based Mapping
2 AP Average Precision
3 BOW Bag of Words
4 CSDL Cơ sở dữ liệu
5 ED Euclidean Distance
6 FAB-MAP Fast Appearance Based Mapping
7 FLANN Fast Library for Approximate Nearest Neighbors
8 FN False Negative
9 FP False Positive
10 GPS Global Positioning System
11 HOG Histogram of Oriented Gradients
12 HSI Hue Saturation and Intensity
13 KF Kalman Filter
14 KH&CN Khoa học và Công nghệ
15 k-NN K-Nearest Neighbors
16 LASER Light Amplification by Stimulated Emission of Radiation
17 LATS Luận án tiến sĩ
18 LIDAR Light Detection And Ranging
19 MICA Multimedia, Information, Communication & Applications
20 MUT Motion Uncertainty Tetragon
21 NCS Nghiên cứu sinh
22 NĐC Nguyễn Đình Chiểu
23 NKT Người khiếm thị
24 PUT Perspective Uncertainty Tetragons
25 RANSAC RANdom SAmple Consensus
26 RFID Radio Frequency Identification
27 RGB Red Green and Blue
28 RMSE Root Mean Square Error
29 SAD Sum of Absolute Differences
30 SIFT Scale Invariant Feature Transforms
31 SLAM Simultaneous Localization and Mapping
32 SURF Speeded Up Robust Features
33 SVM Support Vector Machine
34 TP True Positive
35 TQB Tạ Quang Bửu
36 VO Visual Odometry
37 WIFI Wireless Fidelity
vii
DANH MỤC CÁC BẢNG
Bảng 2.1 Bảng tổng hợp thông tin về 03 môi trường thử nghiệm . . . . . . 46
Bảng 2.2 Tốc độ lấy mẫu (fps) của các camera tại các môi trường thử nghiệm 47
Bảng 2.3 Dữ liệu thu thập tại E1:NĐC . . . . . . . . . . . . . . . . . . . . 47
Bảng 2.4 Dữ liệu thu thập tại E2:TQB . . . . . . . . . . . . . . . . . . . . 47
Bảng 2.5 Dữ liệu thu thập tại E3:MICA . . . . . . . . . . . . . . . . . . . 47
Bảng 2.6 Kết quả đánh giá RMSE tại E1:NĐC . . . . . . . . . . . . . . . . 48
Bảng 2.7 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E2:TQB . . . . 50
Bảng 2.8 Kết quả đánh giá độ sai số tiêu chuẩn RMSE tại E3:MICA . . . . 52
Bảng 2.9 So sánh khả năng định vị của giải thuật FAB-MAP* tại E1:NĐC 54
Bảng 2.10 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E2:TQB 56
Bảng 2.11 Kết quả đánh giá so sánh giải thuật định vị FAB-MAP* tại E3:MICA 57
Bảng 3.1 Kết quả thu nhận dữ liệu khung cảnh/đường đi phục vụ đánh giá 88
Bảng 3.2 Thu thập dữ liệu đánh giá phát hiện và ước lượng khoảng cách
vật cản . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
Bảng 3.3 Kết quả phát hiện đối tượng theo phương pháp đề xuất . . . . . 91
Bảng 3.4 Kết quả phát đánh giá so sánh với phương pháp Haar-AdaBoost 91
Bảng 3.5 Kết quả dự đoán độ sai số ước lượng khoảng cách vật cản . . . . 93
Bảng 4.1 Danh sách tham gia thử nghiệm dẫn đường tại E1:NĐC . . . . . 112
Bảng 4.2 Danh sách tham gia đánh giá hệ thống dẫn đường tại E2:TQB . 113
Bảng 4.3 Danh sách tham gia đánh giá hệ thống dẫn đường tại E3:MICA . 114
Bảng 4.4 Kết quả đánh giá điểm xuất phát của robot . . . . . . . . . . . . 117
Bảng 4.5 Kết quả đánh giá vai trò lọc Kalman trong điều khiển robot . . . 118
Bảng 4.6 Kết quả sai số định vị sử dụng sai số trung vị . . . . . . . . . . . 118
viii
Bảng 4.7 Kết quả sai số định vị sử dụng sai số trung bình . . . . . . . . . . 119
Bảng 4.8 Bảng câu hỏi phỏng vấn trước và sau khi sử dụng hệ thống . . . 119
Bảng 4.9 Tổng hợp kết quả tần số rung (Hz) phản hồi thông tin môi trường 121
Bảng 4.10 Kết quả đánh giá độ sai số RMSE khi robot chuyển động tịnh tiến 122
Bảng 4.11 Kết quả đánh giá hiệu năng robot dẫn đường chuyển động tịnh tiến122
Bảng 4.12 Kết quả đánh giá robot dẫn đường chuyển động tịnh tiến . . . . 123
Bảng 4.13 Kết quả đánh giá độ sai số RMSE với kịch bản robot chuyển động
tịnh tiến và quay tại E1:NĐC . . . . . . . . . . . . . . . . . . . . . . . 123
Bảng 4.14 Kết quả robot dẫn đường chuyển động quay và tịnh tiến tại E1:NĐC124
Bảng 4.15 Đánh giá các lần thử nghiệm hệ thống dẫn đường tại E1:NĐC . . 125
Bảng 4.16 Kết quả sai số RMSE robot phát hiện vật cản xuất hiện bất ngờ
tại E1:NĐC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
Bảng 4.17 Kết quả đánh giá hiệu năng dẫn đường robot phát hiện vật cản . 126
Bảng 4.18 Kết quả đánh giá robot dẫn đường chuyển động quay và tịnh tiến 127
Bảng 4.19 Kết quả đánh giá độ sai số RMSE tại E2:TQB . . . . . . . . . . 127
Bảng 4.20 Kết quả đánh giá hiệu năng dẫn đường robot tại E2:TQB . . . . 128
Bảng 4.21 Tổng hợp kết quả robot dẫn đường tại E2:TQB . . . . . . . . . . 129
Bảng 4.22 Kết quả đánh giá độ sai số RMSE tại E3:MICA . . . . . . . . . . 129
Bảng 4.23 Kết quả đánh giá hiệu năng dẫn đường của robot tại E3:MICA . 129
Bảng 4.24 Tổng hợp kết quả robot dẫn đường tại E3:MICA . . . . . . . . . 130
Bảng 4.25 Bảng tổng hợp thông số kỹ thuật . . . . . . . . . . . . . . . . . . 131
Bảng B.1 Quy định thang tính điểm phần thi nhận dạng RobotVision2013 182
Bảng B.2 Kết quả nhận dạng tượng CSDL Naiscorp 2012 . . . . . . . . . . 183
Bảng B.3 Kết quả điểm nhận dạng đối tượng CSDL Robot Vision 2013 . . 185
ix
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Các thành phần chính của hệ thống đề xuất Robot trợ giúp NKT 13
Hình 2.1 Mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa . 22
Hình 2.2 Minh họa di chuyển của robot với vận tốc v và góc lái α . . . . . 24
Hình 2.3 Các bước giải thuật đo hành trình bằng thông tin hình ảnh VO . 25
Hình 2.4 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ . . . . . . . . 26
Hình 2.5 Một số cấu trúc mặt nền thử nghiệm thuật toán VO . . . . . . . 27
Hình 2.6 Tạo các điểm đánh dấu dọc hành trình . . . . . . . . . . . . . . . 28
Hình 2.7 Minh họa số điểm đặc trưng phát hiện trên mặt sàn . . . . . . . . 28
Hình 2.8 Minh họa phương pháp thử nghiệm khi tạo các mẫu đánh dấu . . 29
Hình 2.9 Các bước của giải thuật FAB-MAP [29] . . . . . . . . . . . . . . 30
Hình 2.10 Xây dựng từ điển và biểu diễn quan sát theo mô hình túi từ . . . 32
Hình 2.11 Một số những thách thức khi nhận dạng vị trí trong môi trường . 33
Hình 2.12 Cây nhị phân Chow liu theo hướng đồ thị có hướng . . . . . . . . 34
Hình 2.13 Biểu diễn các quan sát cùng xuất hiện tại một thời điểm . . . . . 34
Hình 2.14 Biểu diễn vị trí Li thành phần quan sát eq và quan sát có nhiễu zq 35
Hình 2.15 Xác định khung cảnh phân biệt: (a) Chuỗi hình ảnh khung cảnh;
(b) Khung cảnh đại diện . . . . . . . . . . . . . . . . . . . . . . . . . . 40
Hình 2.16 Xác định các khung cảnh có cấu trúc giống nhau . . . . . . . . . 41
Hình 2.17 Minh họa các bước trích chọn đặc trưng GIST . . . . . . . . . . . 42
Hình 2.18 Minh họa kết quả loại bỏ khung cảnh có cấu trúc giống nhau . . 42
Hình 2.19 Minh họa các bước thực hiện giải thuật FAB-MAP* . . . . . . . . 43
Hình 2.20 Minh họa bước thực hiện cập nhật điểm mốc quan trọng . . . . . 44
Hình 2.21 Mô hình định vị sử dụng thông tin hình ảnh sử dụng robot . . . . 45
x
Hình 2.22 Hệ thống thu thập dữ liệu . . . . . . . . . . . . . . . . . . . . . . 46
Hình 2.23 Biểu đồ so sánh RMSE giữa VO và VO* tại E1:NĐC . . . . . . . 49
Hình 2.24 Minh họa giá trị ngưỡng θV O quyết định số điểm đặc trưng . . . . 49
Hình 2.25 Kết quả xây dựng bản đồ sử dụng VO và VO* tại E1:NĐC . . . . 50
Hình 2.26 Biểu đồ so sánh RMSE giữa VO và VO* tại E2:TQB . . . . . . . 51
Hình 2.27 Kết quả xây dựng bản đồ sử dụng VO và VO* tại E2:TQB . . . . 51
Hình 2.28 Biểu đồ so sánh sai số RMSE giữa VO và VO* tại E3:MICA . . . 52
Hình 2.29 Kết quả xây dựng bản đồ sử dụng VO và VO* tại E3:MICA . . . 53
Hình 2.30 Biểu đồ so sánh giải thuật định vị FAB-MAP* tại E1:NĐC . . . . 55
Hình 2.31 Minh họa kết quả định vị FAB-MAP* tại E1:NĐC . . . . . . . . 55
Hình 2.32 Biểu đồ so sánh giải thuật định vị FAB-MAP* tại E2:TQB . . . . 56
Hình 2.33 Minh họa kết quả định vị FAB-MAP* tại E2:TQB . . . . . . . . 57
Hình 2.34 Biểu đồ so sánh hai phương pháp định vị FAB-MAP* tại E3:MICA 58
Hình 2.35 Minh họa kết quả định vị giải thuật FAB-MAP* tại E3:MICA . . 58
Hình 3.1 Định nghĩa bài toán phát hiện và ước lượng khoảng cách . . . . . 61
Hình 3.2 Mô hình phát hiện và ước lượng khoảng cách vật cản . . . . . . . 66
Hình 3.3 Sơ đồ các bước thực hiện phát hiện vật cản cố định . . . . . . . . 68
Hình 3.4 Kết quả trích chọn đặc trưng SIFT . . . . . . . . . . . . . . . . . 69
Hình 3.5 Minh họa giải thuật đối sánh các điểm đặc trưng . . . . . . . . . 70
Hình 3.6 Kết quả đối sánh các điểm đặc trưng phát hiện . . . . . . . . . . 70
Hình 3.7 Kết quả loại bỏ một số cặp điểm đối sánh (matching) yếu . . . . 71
Hình 3.8 Lưu đồ giải thuật tính ma trận H . . . . . . . . . . . . . . . . . . 72
Hình 3.9 Minh họa kết quả xác định vùng chứa đối tượng . . . . . . . . . . 74
Hình 3.10 Sơ đồ các bước phát hiện người sử dụng HoG-SVM . . . . . . . . 75
Hình 3.11 Mô hình ước lượng khoảng cách vật cản từ hai quan sát . . . . . 77
Hình 3.12 Hình ảnh của đối tượng (cây) quan sát từ hai góc thu nhận . . . 78
xi
Hình 3.13 Sơ đồ các bước tính bản đồ chênh lệch và ước lượng khoảng cách 80
Hình 3.14 Minh họa hai quan sát khi camera chuyển động . . . . . . . . . . 81
Hình 3.15 Kết quả tìm đường eplipolar trên mô hình camera chuyển động . 82
Hình 3.16 Minh họa hiệu chỉnh hình ảnh trên cùng mặt phẳng ngang . . . . 82
Hình 3.17 Kết quả hiệu chỉnh hình ảnh . . . . . . . . . . . . . . . . . . . . . 84
Hình 3.18 Dò tìm khối dữ liệu trên hai ảnh được hiệu chỉnh . . . . . . . . . 85
Hình 3.19 Kết quả đối sánh ảnh sử dụng giải thuật SAD . . . . . . . . . . . 85
Hình 3.20 Minh họa phương pháp tính bản độ chênh lệch . . . . . . . . . . 86
Hình 3.21 Kết quả phát hiện & ước lượng khoảng cách vật cản trên ảnh độ sâu 87
Hình 3.22 Minh họa hình ảnh thu nhận dữ liệu tại khung hình 289 . . . . . 88
Hình 3.23 Minh họa chuẩn bị dữ liệu đánh giá phát hiện đối tượng . . . . . 89
Hình 3.24 Minh họa phương pháp đo khoảng cách vị trí vật cản trên thực địa 89
Hình 3.25 Biểu đồ đánh giá so sánh hai phương pháp phát hiện đối tượng . 92
Hình 3.26 Một số hình ảnh phát hiện đối tượng của hai phương pháp. Hình
chữ nhật màu xanh là kết quả phát hiện bằng tay, màu đỏ là kết quả
phát hiện tự động . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
Hình 3.27 Các vị trí phát hiện và dự đoán khoảng cách thuộc lớp Chậu hoa 94
Hình 3.28 Minh họa dự đoán khoảng cách lớp đối tượng chậu hoa . . . . . . 94
Hình 3.29 Các vị trí phát hiện và dự đoán khoảng cách thuộc lớp Bình cứu hỏa 95
Hình 3.30 Minh họa dự đoán khoảng cách lớp đối tượng bình cứu hỏa . . . . 95
Hình 3.31 Các vị trí phát hiện và dự đoán khoảng cách thuộc lớp thùng rác 96
Hình 3.32 Minh họa dự đoán khoảng cách lớp đối tượng thùng rác . . . . . 96
Hình 3.33 Các vị trí phát hiện và dự đoán khoảng cách thuộc lớp người . . . 97
Hình 3.34 Minh họa dự đoán khoảng cách lớp đối tượng người . . . . . . . . 97
Hình 4.1 Tích hợp các thiết bị phần cứng lên robot . . . . . . . . . . . . . 100
Hình 4.2 Mô hình tổng quát của hệ thống đề xuất . . . . . . . . . . . . . . 101
Hình 4.3 Minh họa đường đi từ hai điểm biết trước trên bản đồ môi trường 103
xii
Hình 4.4 Lược đồ điều khiển robot . . . . . . . . . . . . . . . . . . . . . . 104
Hình 4.5 Các bước tính toán chính của giải thuật của lọc Kalman . . . . . 106
Hình 4.6 Minh họa các bước điều khiển sử dụng lọc Kalman . . . . . . . . 107
Hình 4.7 Lược đồ điều khiển robot sử dụng lọc Kalman . . . . . . . . . . . 109
Hình 4.8 Minh họa tương tác giữa người-robot . . . . . . . . . . . . . . . 111
Hình 4.9 Bản đồ tầng 2 khu nội trú Trường THCS Nguyễn Đình Chiểu . . 112
Hình 4.10 Bản đồ thử nghiệm robot dẫn đường hành lang tầng 5 tại E2:TQB 113
Hình 4.11 Kịch bản thử nghiệm robot dẫn đường tại E3:MICA . . . . . . . 114
Hình 4.12 Kết quả đánh giá việc xác định vị trí xuất phát của robot . . . . 116
Hình 4.13 Vai trò của lọc Kalman trong điều khiển robot . . . . . . . . . . . 117
Hình 4.14 Một số học sinh khiếm thị tham gia đánh giá tương tác người-robot120
Hình 4.15 Thử nghiệm các tần số rung trên điện thoại di động với NKT . . 121
Hình 4.16 Một số hình ảnh robot chuyển động tịnh tiến tại E1-NĐC . . . . 122
Hình 4.17 Hình ảnh thử nghiệm robot dẫn đường gặp sự cố tại E1-NĐC . . 123
Hình 4.18 Minh họa robot chuyển động quay và tịnh tiến tại E1:NĐC . . . . 124
Hình 4.19 Một số hình ảnh robot chuyển động quay và tịnh tiến tại E1-NĐC 125
Hình 4.20 Kịch bản robot phát hiện vật cản tại E1:NĐC . . . . . . . . . . . 126
Hình 4.21 Minh họa trường hợp vật cản xuất hiện bất ngờ E1:NĐC . . . . . 127
Hình 4.22 Minh họa hình ảnh robot dẫn đường tại E2:TQB . . . . . . . . . 128
Hình 4.23 Minh họa hình ảnh robot dẫn đường tại E3:MICA . . . . . . . . . 130
Hình 4.24 Lược đồ thời gian trung bình vận hành điều khiển robot dẫn đường131
Hình 4.25 Một số hình ảnh trong phóng sự “cuộc sống tươi” đẹp phát trên
kênh VTV4 - Đài truyền hình Việt Nam . . . . . . . . . . . . . . . . . 149
Hình A.1 Minh họa phát hiện các điểm đặc trưng Harris-Corner . . . . . . 151
Hình A.2 Một số trường hợp phát hiện đặc trưng Harris-Corner . . . . . . . 152
Hình A.3 Một số trường hợp phát hiện đặc trưng Harris-Corner . . . . . . . 152
xiii
Hình A.4 Minh họa đặc trưng biểu diễn các điểm đặc biệt trong ảnh . . . . 154
Hình A.5 Mô tả tạo bộ mô tả các điểm đặc trưng (nguồn [87]) . . . . . . . 157
Hình A.6 Minh họa đặc trưng SURF biểu diễn các điểm đặc biệt trong ảnh 158
Hình A.7 Minh họa xấp xỉ đạo hàm cấp 2 hàm Gaussian [5] . . . . . . . . . 158
Hình A.8 Minh họa giảm không gian không gian trong biểu diễn đặc trưng 159
Hình A.9 Minh họa các điểm quan tâm được phát hiện quanh tâm . . . . . 160
Hình A.10 Phép lọc Haar wavelet: x (trái) và y hướng (phải). Vùng đen trọng
số -1 và vùng trắng trọng số +1 . . . . . . . . . . . . . . . . . . . . . . 161
Hình A.11 Gán hướng: một cửa sổ kích thước pi
3
. . . . . . . . . . . . . . . . 161
Hình A.12 Xác định ô 4× 4 hình vuông con xung quanh điểm đặc trưng . . 162
Hình A.13 Các mô tả của miền đại diện cho tính chất của mẫu . . . . . . . . 163
Hình A.14 Một số trường hợp so khớp giữa các đặc trưng . . . . . . . . . . . 163
Hình A.15 Minh họa các tính chất của khung cảnh . . . . . . . . . . . . . . 164
Hình A.16 Bộ lọc Gabor 4 tỉ lệ, 8 hướng . . . . . . . . . . . . . . . . . . . . 165
Hình A.17 Minh họa quá trình trích chọn đặc trưng HoG . . . . . . . . . . . 166
Hình A.18 Thứ tự các Histogram với các góc khác nhau (0o đến 180o) . . . . 167
Hình A.19 Hai loại hình học khối chính của đặc trưng HoG . . . . . . . . . . 168
Hình A.20 Ví dụ minh họa các bước trích chọn đặc trưng HoG . . . . . . . . 169
Hình A.21 Tính góc và biên độ theo Gradient-X và Gradient-Y . . . . . . . . 169
Hình A.22 Một số ứng dụng phát hiện đối tượng sử dụng đặc trưng Haar . . 170
Hình A.23 Các kiểu cơ bản của đặc trưng Haar . . . . . . . . . . . . . . . . 171
Hình A.24 Cách tính tổng các điểm ảnh trong một hình chữ nhật bất kì . . . 171
Hình B.1 Minh họa cơ sở dữ liệu Robot Vision 2013 . . . . . . . . . . . . . 173
Hình B.2 Minh họa 20 lớp đối tượng trong Pascal VOC . . . . . . . . . . . 174
Hình B.3 Những khó khăn thách thưc trên 3 CSDL đề xuất . . . . . . . . . 175
Hình B.4 Các lớp đối tượng trong CSDL Naicorp 2012 . . . . . . . . . . . . 176
xiv
Hình B.5 Khung làm việc tổng quát phát hiện và nhận dạng đối tượng . . . 177
Hình B.6 Minh họa giải thuật Adaboost . . . . . . . . . . . . . . . . . . . . 178
Hình B.7 Mô hình phân tầng CascadeAdaboost . . . . . . . . . . . . . . . . 179
Hình B.8 Siêu phẳng tách với khoảng cách lề cực đại SVM . . . . . . . . . 180
Hình B.9 Phân tách theo siêu phẳng (w,b) trong không gian 2 chiều tập mẫu 181
Hình B.10 Minh họa các bước tính toán k-NN . . . . . . . . . . . . . . . . . 181
Hình B.11 Một số kết quả nhận dạng đúng/sai CSDL Naicorp 2012 . . . . . 184
Hình B.12 Một số kết quả nhận dạng đúng/sai CSDL RobotVision2013 . . . 184
Hình B.13 Đồ thị AP của 20 lớp đối tượng CSDL PascalVOC 2007 . . . . . 186
Hình B.14 Đồ thị AP từng lớp đối tượng CSDL PascalVOC 2007 . . . . . . 186
Hình B.15 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007 . . . 187
Hình B.16 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007 . . . 187
Hình C.1 Một số giải pháp thu thập dữ liệu từ 2 camera . . . . . . . . . . . 188
Hình C.2 Một số lỗi khi xây dựng bản đồ tại môi trường trong nhà . . . . . 189
Hình C.3 Một số lỗi khi xây dựng bản đồ tại môi trường ngoài trời . . . . . 189
Hình C.4 Thiết kế xe camera thu thập dữ liệu . . . . . . . . . . . . . . . . 190
Hình C.5 Mô hình thu nhận ảnh của camera . . . . . . . . . . . . . . . . . 191
Hình C.6 Các loại biến dạng khi thu nhận ảnh . . . . . . . . . . . . . . . . 192
Hình C.7 Quá trình hiệu chỉnh méo hình ảnh từ camera góc nhìn rộng . . . 193
Hình C.8 Các phiên bản của robot PC-Bot 914 . . . . . . . . . . . . . . . . 194
Hình C.9 Vị trí lắp các cảm biển hồng ngoại IR . . . . . . . . . . . . . . . 195
Hình C.10 Cơ cấu bánh xe điều khiển của robot PC-Bot 914 . . . . . . . . . 195
xv
MỞ ĐẦU
Tính cấp thiết, ý nghĩa khoa học của luận án
Năm 2013, theo công bố của Tổ chức Y tế thế giới (WHO) trên thế giới có khoảng
285 triệu người suy giảm thị lực, trong đó 246 triệu người có thị lực kém ở mức độ vừa
phải đến mức độ nặng và 39 triệu người mù [107]. Tại Việt Nam, theo số liệu của Viện
mắt Trung ương cung cấp, có khoảng 1.2 triệu NKT, trong đó 820.503 người không
còn khả năng nhìn thấy ánh sáng. Nếu tính cả những người bị các tật về mắt như cận
hoặc viễn thì con số này còn lớn hơn rất nhiều.
Số lượng NKT lớn, bản thân NKT gặp nhiều khó khăn trong cuộc sống cũng như
nắm bắt các cơ hội việc làm. Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan
tâm của nhiều nhà khoa học trong thời gian gần đây. Trong số các yêu cầu trợ giúp,
trợ giúp định hướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường
đi hay đưa ra các thông báo về môi trường xung quanh.
Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ
định hướng cho NKT, như sử dụng gậy [32], chó dẫn đường [32], hay thiết bị điện tử
[14]. Mỗi phương pháp có những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm
vi phát hiện vật cản theo kích thước của gậy; chó dẫn đường thường có chi phí cao và
gây trở ngại về tâm sinh lý đối với người dùng; thiết bị điện tử như các điện cực đặt
trên lưỡi có thể gây tâm lý ngại ngần khi sử dụng.
Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường
hiệu quả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS
thực hiện đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh,
ứng dụng trợ giúp dẫn đường cho người khiếm thị”.
Mục tiêu và những thách thức
Xuất phát từ ý tưởng tạo ra một hệ thống hỗ trợ giống như một người bạn đồng
hành có khả năng giao tiếp thân thiện và hiệu quả. Luận án hướng đến phát triển một
hệ thống trợ giúp định hướng và cảnh báo vật cản cho NKT sử dụng robot di động.
Để đạt được mục tiêu này, robot cần có khả năng nhận biết và di chuyển giữa các
vị trí trong môi trường và nhận dạng được các vật cản trên đường đi. Do vậy, chúng
tôi chia các mục tiêu đạt được thành ba bài toán cụ thể:
1
1. Biểu diễn môi trường và định vị: Với mục tiêu dẫn đường cho NKT đi từ vị
trí hiện tại đến vị trí mong muốn trong môi trường, robot phải biết mình đang
ở đâu trong môi trường và đường đi đến vị trí đích như thế nào.
Để giải quyết vấn đề này, bản đồ môi trường phải được xây dựng từ trước và
robot phải có khả năng định vị từ một vị trí bất kỳ trên bản đồ. Mặc dù có nhiều
phương pháp đã được đề xuất, hướng tiếp cận tổng quát và bền vững với các yếu
tố môi trường đang là những mục tiêu mà...thứ hai chỉ cho phép dẫn
hướng cho robot nhưng không cho phép tìm đường đi giữa hai vị trí trong môi trường.
Trong khi ngữ cảnh bài toán đặt ra là robot dẫn đường từ hai vị trí biết trước, vì vậy
phải có một bản đồ môi trường được xây dựng ở pha ngoại tuyến và được sử dụng ở
pha trực tuyến để định vị và tìm đường.
Trong khuôn khổ luận án, chúng tôi đi theo hướng tiếp cận xây dựng bản đồ môi
trường ở pha ngoại tuyến và định vị sử dụng nguồn thông tin hình ảnh thu thập được
từ camera. Ưu điểm chính của việc sử dụng camera là giá thành rẻ hơn rất nhiều so
với các cảm biến khác trong khi cung cấp nguồn thông tin hình ảnh có giá trị phục
vụ cho nhiều bài toán khác nhau như xây dựng bản đồ, định vị và phát hiện vật cản.
14
Đặc biệt có thể sử dụng các thiết bị thông thường để thu thu thập xử lý dữ liệu như
camera cầm tay, camera gắn trên điện thoại hay camera mạng có vùng quan sát rộng.
Sử dụng camera dễ lắp đặt và triển khai ở các môi trường khác nhau như trong nhà
hay ngoài trời. Tuy nhiên việc sử dụng camera phải đối mặt với nhiều thách thức như
đòi hỏi tính toán lớn vì bản thân cảm biến không cho phép xác định một cách trực
tiếp đối tượng quan tâm; chuyển động của robot không chính xác, độ phức tạp và biến
động của môi trường, yêu cầu đáp ứng thời gian thực.
2.2 Những nghiên cứu liên quan
Phần dưới đây chúng tôi chia các hướng tiếp cận biểu diễn môi trường theo ba
nhóm: i) hướng tiếp cận sử dụng bản đồ số liệu; ii) hướng tiếp cận sử dụng bản đồ topo;
iii) hướng tiếp cận lai.
2.2.1 Hướng tiếp cận sử dụng bản đồ số liệu
Bản đồ số liệu loại bản đồ mô tả thế giới theo khoảng cách (theo đơn vị mét);
khoảng cách trên bản đồ tương ứng với khoảng cách trên thế giới thực. Các loại bản
đồ số liệu chia thành hai nhóm chính [65]: bản đồ lưới (grid map) và bản đồ đặc trưng
(feature map).
− Bản đồ dựa theo đặc trưng: thường được sử dụng bởi các nhà nghiên cứu trong
lĩnh vực robot di động. Ý tưởng cơ bản của hướng tiếp cận là sử dụng các đặc
trưng như tường, góc, cạnh trong không gian để tái tạo lại bản đồ thường được sử
dụng trong bài toán điều khiển, tự động định vị và xây dựng bản đồ môi trường
được phát triển trong thời gian khá dài. Phần dưới đây là các nghiên cứu tiêu
biểu
John Leonard và đồng nghiệp 1991 [83] trình bày phương pháp vừa định vị vừa
xây dựng bản đồ môi trường sử dụng tường và góc cạnh là đặc trưng biểu diễn.
Robot di động được trang bị cảm biến siêu âm thu thập thông tin môi trường
phục vụ cho việc xây dựng bản đồ từ vị trí robot đến các vị trí tiếp theo trên
hành trình di chuyển.
W.D Rencken 1994 [116] đề xuất phương pháp sử dụng cảm biến siêu âm tự động
điều hướng trong môi trường không có cấu trúc, và không biết sử dụng robot.
Bản đồ môi trường được xây dựng nhờ vào các đặc trưng của môi trường như
góc, cạnh và mặt sàn. Với mô hình robot sử dụng bộ lọc Kalman mở rộng đề cập
nhật và dự đoán vị trí của nó trên bản đồ. Các cảm biến siêu âm sẽ trả về giá
trị đo lường, đối với mỗi lần đo có nhiều cách cách biểu diễn như: đặc trưng đã
15
biết của mặt sàn, góc, cạnh; đặc trưng không biết của mặt sàn, góc, cạnh; đặc
trưng không phân loại được. Robot điều khiển di chuyển xung quanh một văn
phòng có cấu trúc không đổi bên trong là bàn ghế, vách ngăn. Robot di chuyển
với tốc độ 12cm/s, thời gian tính toán là 1.5 giây thực hiện định vi với độ sai số
là 2.66m.
Jorge Gasós và Alejandro Martín 1996 [51] đề xuất giải thuật hệ mờ xây dựng
bản đồ cho robot di động sử dụng thông tin thu thập từ cảm siêu âm để phác
thảo môi trường bằng việc tính toán xấp xỉ đa giác 2D. Hệ mờ sử dụng để đại
diện cho sự không chắc chắn về các vị trí ranh giới thực sự của đối tượng. Phần
thực nghiệm được triển khai biểu diễn bản đồ trong môi trường văn phòng chứa
các tập đối tượng như bàn, vách ngăn, ô làm việc, kệ để sách, máy in, bàn làm
việc, ghế.
Dulimart 1997 [40] trình bày sử dụng bản đồ môi trường dựa theo đặc trưng là
biển số của cửa và ánh sáng đèn trần nhằm xây dựng bài toán định vị robot di
dộng trong nhà. Phần thử nghiệm được tiến hành đánh giá trên 3 tầng của tòa
nhà cho robot chuyển động 0.3-0.4m/s thu nhận hình từ camera gắn trên robot
xử lý theo mô hình máy chủ/máy trạm. Kết quả độ sai số định vị từ 0.6-1m, thời
gian phát hiện biển số cửa và đèn 50ms/ảnh.
− Bản đồ lưới: được định nghĩa là bản đồ 2D trong đó không gian được chia thành
lưới các ô có kích thước nhất định. Tọa độ của các ô trên lưới được xác định theo
một hệ quy chiếu đã định nghĩa từ trước. Mỗi ô (x, y) trên lưới có một giá trị thể
hiện xác suất mà ô đó có chứa vật cản. Nói cách khác, giá trị đó thể hiện khả
năng mà robot có nên di chuyển qua ô đó trong môi trường hay không. Giá trị
này được xác định thông qua việc phân tích dữ liệu từ cảm biến. Cụm từ bản đồ
lưới được đề cập đầu tiên bởi Nilsson 1969 [102] nơi bản đồ lưới được định nghĩa
bởi một lưới kích thước (4× 4). Nếu một ô lưới được xem là sử dụng thì nó được
chia thành 16 tế bào mới bằng một giải thuật đệ quy.
Elfes và Moreavec 1985 [94] trình bày lần đầu tiên một phương pháp sử dụng
cảm biến siêu âm và cảm biến laser sử dụng nhiều phép đo góc rộng các khu
vực là rỗng, bị chiếm dụng hoặc chưa định nghĩa nhằm xây dựng bản đồ lưới và
hướng di chuyển xung quanh robot.
Borenstein 1991 [12] đề xuất phương pháp xây dựng bản đồ HIMM (Histogramic
In-Motion Mapping) trong thời gian thực cho robot tự hành, biểu diễn bởi một
mảng hai chiều hay còn lưới tần suất lược đồ màu được cập nhật nhanh thông
việc lấy mẫu chuyển động của cảm biến siêu âm nhằm biểu diễn thông tin môi
trường như vị trí vật cản, đường đi của robot. HMIMM triển khai trên robot di
động với tính năng kép như biểu diễn vật cản chưa biết trên bản đồ môi trường
16
được tạo ra và đồng thời robot di chuyển tránh vật cản với vận tốc 0.78m/s.
Cyrill Stachniss và Wolfram Burgard 2003 [127] trình bày phương pháp xây dựng
bản đồ lưới với tỷ lệ che phủ trên các ô đại diện bao phủ bởi vật cản trong môi
trường. Lilienthal và Duckett 2004 [84] đề xuất phương pháp lập bản đồ lưới sử
dụng cảm biến laser và siêu âm để thu thập thông tin môi trường. Kỹ thuật xây
dựng bản đồ sử dụng hàm trọng số Gauss để mô hình hóa khả năng suy giảm đại
diện cho khoảng cách trên bản đồ xây dựng tính từ điểm đo. Phần thực nghiệm
tiến hành tại trong phòng thí nghiệm kích thước (10.6× 4.5m2) robot xây dựng
bản đồ môi trường, các chiến lược khác nhau tổng thời gian là 70h.
2.2.2 Hướng tiếp cận sử dụng bản đồ topo
Bản đồ topo mô tả mối liên hệ giữa các điểm (vị trí) hay các đối tượng liên quan
với nhau để mô tả cấu trúc của môi trường. Bản đồ topo không bao gồm thông tin
số liệu, thông tin khoảng cách giữa các điểm trên bản đồ. Thay vào đó, các thông tin
chính đại diện trong bản đồ topo là quan hệ giữa các địa điểm, nơi mà robot có thể di
chuyển trực tiếp từ nơi này đến nơi khác.
Brooks 1984 [16] biểu diễn môi trường sử dụng thông tin thị giác nhằm xây dựng
một bản đồ topo trong đó vị trí như xa lộ được định nghĩa là các khối, đường cao tốc
là các cạnh và đồng cỏ là các nút của bản đồ. Ý tưởng này có thể được kết hợp trong
biểu diễn bản đồ bằng cách tránh việc sử dụng một hệ tọa độ 2-D. Thay vào đó, chỉ
có các mối quan hệ giữa các phần của bản đồ được lưu trữ, trong một đại diện đồ
thị. Các mối quan hệ bao gồm phần dự đoán trên các thành phần không chắc chắn
(uncertainty).
Để hiểu và di chuyển trong môi trường dễ dàng, thì robot di động phải có được
một mô hình thông nhất. Chatila 1985 [23] đề xuất phương pháp biểu diễn môi trường
với khái niệm vị trí được định nghĩa là một vùng của bản đồ topo như là một đơn vị
riêng biệt. Trong đó phương pháp biểu diễn môi trường được thực hiện làm 2 pha: thứ
nhất, việc sử dụng một hệ thống cảm biến, ưu tiên các dữ liệu thu thập bởi các cản
biến có độ chính xác trong một số tình huống cụ thể, trung bình của các phép khác
nhau nhưng nhất quán của cùng một đối tượng không chắc chắn; thứ hai, phương pháp
cho phép robot di động để xác định mốc tham chiếu trong việc khám phá môi trường
khi di chuyển.
Trong khi đó Kuipers và Byun 1991 [77] lại định nghĩa các nút của bản đồ như
một phòng hoặc một hành lang, các cửa ra vào và lối đi được định nghĩa là các cạnh.
Các tác giả đã phát triển một phương pháp định tính trong bài toán biểu diễn môi
trường, lập bản đồ ngữ nghĩa và điều hướng cho robot di dộng trong môi trường có
17
không gian quy mô lớn. Bằng phương pháp thực nghiệm định lượng, các tác giả của
bài báo đã xây dựng một bản đồ trong môi trường biết trước với độ chính xác cao.
Phương pháp thực hiện bằng việc mô tả mạng topo được hình thành bằng các liên kết
những vị trí đặc biệt khi di chuyển qua các cạnh. Bản đồ số liệu sau đó tăng dần đồng
hóa thông tin của các vị trí và các cạnh. Cuối cùng một bản đồ ngữ nghĩa được trồng
ghép thành bản đồ ngữ nghĩa của môi trường.
Với những phương pháp được công bố trên các tạp chí và hội nghị uy tín thì bài
toán biểu diễn môi trường cho robot di động thu hút được các nhà nghiên cứu lớn như
Kortenkamp 1994 [75] đề xuất sử dụng kết hợp hai luồng thông tin siêu âm và hình
ảnh nhằm biểu diễn môi trường, trong đó nguồn dữ liệu siêu âm không đủ dồi dào và
phạm vi bị giới hạn tại các góc dẫn tới sự phân biệt khó khăn tại các địa điểm đặc
biệt. Việc sử dụng cảm biến hình ảnh cho phép nhận dạng các vị trí mà cảm biến siêu
âm không thực hiện được, thông tin của hai luồng dữ liệu này được kết hợp lại bằng
mạng Bayes đơn giản.
Hay Simmons 1995 [125] phát triển một phương pháp sử dụng mô hình Markov
để biểu diễn môi trường , giám sát và theo vết vị trí di chuyển của robot, trong đó ba
nguồn thông tin được sử dụng để xây dựng mô hình Markov bao gồm: bản đồ topo môi
trường, thông tin đã biết về môi trường và những thông tin gần đúng liên quan đến
độ dài môi trường. Ngoài ra phương pháp này tích hợp các thông tin bản đồ topo và
thông tin số liệu gần đúng giải quyết các tình huống dự đoán không chắc chắn trong
bài toán mô tả thông tin môi trường. Năm 1996 Thrun [130] xây dựng bản đồ phân
vùng sau đó ánh xạ vào một đồ thị đẳng cấu. Đây là phương pháp áp dụng kỹ thuật
cấu trúc đồ thị liên thông đại diện cho môi trường, trong đó các nút đồ thị tương ứng
với địa điểm, đường nối giữa các địa điểm là các cạnh.
Vào đầu thế kỷ XXI, Ulrich 2000 [134] trình bày kỹ thuật định vị dựa trên bản đồ
topo môi trường sử dụng thông tin hình ảnh trong bài toán nhận dạng vị trí, phương
pháp biểu diễn môi trường sử dụng một hệ thống hình ảnh toàn cảnh (Panoramic) để
mô hình hóa môi trường, hình ảnh được thu thập và phân loại trong thời gian thực
bằng phương pháp láng giềng gần nhất kết hợp với biểu đồ sắc tố màu và một cơ chế
bình chọn quyết định vị trí trong môi trường.
Cũng cùng năm đó E.Fabrizi và A. Saffiotti 2000 [46] đề xuất xây dựng bản đồ
topo dựa trên việc biểu diễn mới của không gian làm việc cho robot di động, bản đồ
này tự động trích xuất thông từ một bản đồ lưới từ các dữ liệu hình ảnh thu thập từ
camera. Tiếp theo sử dụng hệ mờ để định nghĩa các vị trí trên môi trường, với cách
tiếp cận này bản đồ môi trường được biểu diễn tạo ra có khẳng năng xử lý nhiễu thu
thập và các thay đổi trong môi trường nhỏ hẹp.
Duckett 2003 [37] đề xuất một hệ thống mà một nút mới trên bản đồ được đặt
18
sau khi robot đã đi qua vị trí đó, tác giả đã sử dụng một thuật toán học nhanh trực
tuyến cho tập bản đồ hình học sử dụng thông tin số liệu cục bộ. Thuật toán hoạt động
bằng cách sử dụng kỹ thuật giảm thiểu năng lượng thu nhận thông qua một hàm năng
lượng qua nhiều bước nhỏ. Các thí nghiệm được thực hiện trong môi trường lớn, phức
tạp đã ánh xạ được vị trí robot lên bản đồ xây dựng trong thời gian thực.
2.2.3 Hướng tiếp cận lai
Ý tưởng chính bản đồ lai nhằm biểu diễn môi trường hiệu quả trong những năm
gần đây xu hướng tạo ra bản đồ lai tận dụng những ưu điểm của hai loại bản đồ số liệu
và bản đồ topo giải quyết các vấn đề trong lĩnh vực robot di động thường tập trung
vào 3 kiểu lai: lai đầu, lai song song, lai chắp vá.
− Bản đồ lai đầu: Giralt 1979 [56] và Chatila và Laumond 1985 [23] trình bày tổng
quan về bản đồ lai, ngoài việc phân tích các ưu nhược điểm của bản đồ số liệu
và bản đồ topo các tác giả còn đưa thêm khái niệm về bản đồ ngữ nghĩa với khái
niệm ràng buộc mối quan hệ về không gian và đối tượng. Đây cũng là tiền đề
xây dựng các bài toán SLAM cho robot di động. Kuipers và Byun 1991 [77] đã
chứng minh được để xây dựng hiệu quả một bản đồ lai thì một bản đồ topo được
xây dựng bằng cách sử dụng các phương pháp phân biệt cho các nút của đồ thị,
mỗi nút của bản đồ được gắn các thông tin số liệu, do đó bản đồ số liệu sẽ thực
hiện lai sau bản đồ topo. Cùng với nghiên cứu kết hợp giữa bản đồ topo và bản
đồ số liệu còn có các nghiên cứu tiêu biểu, như: Kuipers và Benjamin 2000 trình
bày phương phương biểu diễn môi trường cho bài toán robot di động sử dụng
bản đồ lai toàn diện nhất [76], tác giả đã đề xuất tính tổng quát của không gian
SSH (Spatial Semantic Hierarchy) là một mô hình quy mô lớn bao gồm nhiều đại
diện tương tác cả về định tính và định lượng. Bản đồ lai được xây dựng từ phép
lai giữa bản đồ hình học tham chiếu đến bản đồ topo nhằm xây dựng một tham
chiếu phục vụ mức độ kiểm soát các luật cấu thành nên các thành phần của môi
trường, SHH là cơ sở cho một số hướng nghiên cứu sau này.
Kuipers 2004 [78] mô tả phương pháp xây dựng bản đồ lai từ việc chiết xuất
thông tin bản đồ cục bộ số liệu kết hợp với không gian SSH để tạo ra bản đồ
topo trong điều khiển robot di động. Phương pháp Metrical SLAM được sử dụng
để xây dựng bản đồ cục bộ với không gian quy mô nhỏ, trong khi đó phương
pháp topo được sử dụng để đại diện cho cấu trúc không gian quy mô lớn. Với
cách làm này, bản đồ được tạo ra phù hợp hơn với giả thuyết khi thực hiện việc
khai phá dữ liệu trong môi trường. Beeson 2005 [6] trình bày phương pháp biểu
diễn môi trường bằng hướng tiếp cận bản đồ lai trên cơ sở hệ mở rộng của đồ
thị Voronoi được sử dụng trong bài toán phát hiện vị trí. Các tác giả đã đề xuất
19
một thuật toán tin cậy phát hiện các vị trí từ các cảm biến trên các vùng độc
lập.
− Bản đồ lai song song: được xây dựng từ ít nhất hai bản đồ khác nhau thực hiện
trên cùng một môi trường, điều này thích hợp cho tình huống cụ thể được sử
dụng. Hầu hết các bản đồ được xây dựng tự động hoặc được xây dựng từ việc
chiết xuất thông tin từ một bản đồ khác như trường hợp bản đồ topo được chiết
xuất ra khỏi bản đồ số liệu. Ví dụ như trong nghiên cứu của Thrun và Bu¨cken
1996 [130] và Thrun 1998 [129] xây dựng bản đồ lai từ việc chiết xuất thông tin
từ đồ thị Voronoi của phần thông tin trống trên bản đồ số liệu được chia thành
các phân đoạn mà cực đại có thể tìm thấy trong sơ đồ.
Poncela 2002 [112] bản đồ số liệu được chia thành các ô trong bản đồ lưới và được
định nghĩa thành 3 loại (rỗng, chiếm dụng, chưa khai phá), tất cả các những bản
đồ topo được trích xuất có thể sử dụng trong bài toán xây dựng đường đi tối ưu.
Ngược lại để trích xuất các bản đồ số liệu trên bản đồ topo ít thực hiện được
trình bày trong Duckett và Saffiotti 2000 [38]. Lập và tìm đường đi hiệu quả là
trọng tâm chính trong bản đồ lai song song trong Fernández-Madrigal 2004 [47];
Galindo 2004 [50] đưa ra khái niệm AH-graph (Annotated Hierarchical-graph)
sắp xếp theo chiều dọc khi thực hiện mức độ gia tăng các điểm trên bản đồ topo
và kết hợp với bản đồ số liệu cục bộ hỗ trợ cho việc định vị.
− Bản đồ lai chắp vá: thực chất là bản đồ số liệu hình thành từ bản đồ topo bao
gồm toàn bộ khu vực cộng với tập hợp các bản vá lỗi số liệu nhỏ cho mỗi nút
topo, với ưu điểm là cấu trúc được thu nhỏ khi làm việc ở môi trường lớn. Tiêu
biểu như nghiên cứu của Dudek 1996 đã mô tả bản đồ lai bao gồm một số loại
bản đồ ở mức độ trừu tượng khác nhau như: cảm quan, hình học (số liệu), quan
hệ cục bộ, topo và ngữ nghĩa [39]. Theo hướng tiếp cận khác, bản đồ lai được
xây dựng từ đồ thị Voronoi được đề cập trong Nagatani 1999 [99] có nghĩa các
nút tương ứng trong bản đồ topo kết hợp với một đặc trưng của bản đồ số liệu.
Tomatis 2002 [132] và Tomatis 2003 [131] trình bày về phương pháp xây dựng
bản đồ lai nơi các nút trong bản đồ topo tương ứng với khe hở giữa hai phòng
hoặc hành lang, mỗi phòng đều có một bản đồ số liệu liên quan, các cạnh có
thông tin về điểm mốc có thể được phát hiện từ hai nút. “The Hierarchical Atlas”
định nghĩa cấu trúc của bản đồ được trình bày trong Lisien 2005 [85] là một
dạng bản đồ lai giữa số liệu và topo nhắm tới mục tiêu xây dựng hệ thống SLAM
trong điều khiển và khai phá thông tin môi trường.
20
2.2.4 Thảo luận
Để lựa chọn phương pháp biểu diễn môi trường phù hợp với ngữ cảnh của bài toán
đặt ra, chúng tôi tiến hành đánh giá ưu nhược điểm của từng phương pháp cụ thể như
sau:
− Về ưu điểm:
+ Đối với bản đồ số liệu: thường được sử dụng cho các bài toán xác định vị trí,
định tuyến và tìm đường tối ưu. Cung cấp thông tin chính xác về khoảng
cách. Hỗ trợ bài toán tìm đường ngắn nhất. Bản đồ số liệu dễ dàng xây
dựng, biểu diễn và bảo trì cho các môi trường phạm vi nhỏ hẹp.
+ Đối với bản đồ topo: dễ dàng mở rộng bản đồ đối với các môi trường có
phạm vi lớn hơn. Đây là loại bản đồ phù hợp cho bài toán tìm đường đi tối
ưu khi biết trước hai điểm. Không cần một mô hình cấu trúc dữ liệu tin cậy
và dự đoán chính xác vị trí khi xây dựng bản đồ môi trường.
+ Đối với bản đồ lai : phù hợp với các bài toán robot tự hành, có khả năng kết
hợp nhiều loại bản đồ phục vụ một mục đích chung. Có khả năng mở rộng
và thu nhỏ phạm vi biểu diễn môi trường với nhiều chiều nhìn tại các góc
khác nhau.
− Về nhược điểm:
+ Đối với bản đồ số liệu: rất khó mở rộng đối với môi trường có quy mô lớn,
bài toán tìm đường tối ưu tính toán lâu, chiếm dụng nhiều bộ nhớ. Cần có
một mô hình số liệu tin cậy và xác định chính xác vị trí khi xây dựng bản
đồ môi trường.
+ Đối với bản đồ topo: độ chính xác không cao, cung cấp các đường đi dưới
mức tối ưu. Khó khăn khi xây dựng và duy trì.
+ Đối với bản đồ lai : không đưa ra được nguyên tắc chung để kết hợp các bản
đồ khác nhau. Khó khăn khi đánh giá và so sánh với các hệ thống khác.
Căn cứ vào các phân tích đánh giá phía trên, luận án lựa chọn hướng tiếp cận thứ
ba theo hướng tiếp cận lai và bổ sung thêm các thành phần của môi trường với mục
đích biểu diễn được các thông tin của môi trường phục vụ cho các bài toán định vị,
dẫn đường cho robot, phần tiếp theo sẽ trình bày chi tiết của phương pháp đề xuất.
21
2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn môi trường
Xuất phát từ mục tiêu của luận án nghiên cứu phương pháp định vị sử dụng hình
ảnh hỗ trợ cho bài toán trợ giúp dẫn đường cho NKT, chúng tôi đề xuất mô hình biểu
diễn môi trường theo hướng tiếp cận lai ngữ nghĩa.
Ý nghĩa của cụm từ lai, ngữ nghĩa được giải thích như sau. Bản đồ của môi trường
được cấu thành từ bản đồ số liệu và bản đồ topo. Ngoài ra, các thông tin vật cản tĩnh
của môi trường ở từng vị trí trên bản đồ cũng được xác định và đưa vào mô hình biểu
diễn môi trường như mô tả trong Hình 2.1 dưới đây:
bb b
bbb
Li = {Mi, Z
i, Oi}
b
b
b
L1
LN
b
LN = {L1, L2, ..., LN}
◦ Bản đồ được biểu diễn theo cấu trúc topo gồm một tập
N điểm trong môi trường sao cho tồn tại đường đi giữa
hai điểm kề cận:
Li
Điểm mốcbb
◦ Mỗi điểm Li với i = 1, N chứa các thông tin sau:
Trong đó:
1. Mi = {xi, yi, zi} tọa độ điểm mốc trong hệ quy chiếu
đã được định nghĩa. Tọa độ được tính theo đơn vị (m)
2. Zi: Mô hình quan sát tại vị trí Li
3. Oi = {Oi1 , Oi2 .., Oij}: Tập vật cản xuất hiện trên ảnh Ii
thu nhận tại vị trí Li
ĐỊNH NGHĨA CÁC THÀNH PHẦN:
Phòng ngủ
Phòng ngủ
Phòng ngủ
Phòng ngủ
Phòng họpWC
WC
Ii
b
b
b
b
b
b
b
b
b
số 6
số 5
số 4
số 3
x(m)
(0, 0)
y(m)
Hội trường
Hình 2.1 Mô hình biểu diễn môi trường theo hướng tiếp cận lai ngữ nghĩa
Để biểu diễn môi trường theo mô hình này, các nhiệm vụ sau cần thực hiện:
1. Xác định các vị trí mốc trong môi trường Li với i = 1, N
2. Xác định tọa độ các vị trí mốc trong môi trường Mi = (xi, yi, zi).
3. Xác định các vật cản Oi = {Oi1, Oi2...Oij} trên ảnh Ii thu tại vị trí Li. Tập vật
22
cản Oi thuộc lớp đối tượng đã định nghĩa từ trước và hình dạng vật cản không
ảnh hưởng đến mô hình biểu diễn, chi tiết phương pháp xác định vật cản được
trình bày tại CHƯƠNG III của luận án.
Như đã trình bày ở các phần trước, luận án đi theo hướng tiếp cận chỉ sử dụng
thông tin hình ảnh để biểu diễn môi trường và định vị. Với bài toán xác định vị trí
mốc trong môi trường nhằm tạo bản đồ topo thì các phương pháp xây dựng bản đồ
topo dựa trên hình ảnh AM (Appearance based Mapping) thường được sử dụng. Với
bài toán xác định tọa độ các vị trí mốc nhằm tạo thông tin số liệu, các phương pháp
đo hành trình sử dụng hình ảnh VO thường được sử dụng.
Thông thường, góc nhìn của camera hướng mặt đường đối với các bài toán VO
trong khi các bài toán AM camera thường quan sát khung cảnh phía trước. Để giải
quyết đồng thời cả hai bài toán trong một khung làm việc đồng nhất, chúng tôi thiết
kế hệ thống thu thập dữ liệu gồm hai camera lắp vuông góc (một nhìn xuống mặt
đường, một nhìn về phía trước). Chi tiết kỹ thuật thiết kế hệ thống thu thập dữ liệu
để biễu diễn môi trường trình bày trong PHỤ LỤC C của luận án.
Trong các phần trình bày tiếp theo, chúng tôi sử dụng hình ảnh thu thập từ
camera nhìn xuống mặt đường phục vụ cho bài toán đo hành trình để tạo bản đồ số
liệu. Hình ảnh thu được từ camera nhìn về phía trước phục vụ cho bài toán xác định
các vị trí mốc trong môi trường để tạo bản đồ topo. Việc sử dụng tương ứng các khung
hình thu tại cùng một thời điểm cho phép ánh xạ các vị trí mốc trên bản đồ topo sang
bản đồ số liệu để có được vị trí thực của điểm mốc trên hệ quy chiếu.
2.4 Phương pháp xây dựng bản đồ môi trường
2.4.1 Xây dựng bản đồ số liệu
Bài toán đo hành trình sử dụng hình ảnh được phát biểu như sau: Cho trước chuỗi
hình ảnh liên tiếp thu thập từ camera I = {I1, I2, ..., IN} trong đó N là tổng số ảnh thu
thập được. Xác định vị trí camera của trong quá trình di chuyển P = {P1, P2, ...PN}.
Nếu vị trí ban đầu được biết trước, vị trí tiếp theo được xác định bởi một phép biến
đổi T trừ đi vị trí trước đó đến vị trí hiện tại, trong đó T cấu thành từ chuyển động
tịnh tiến tii−1 và chuyển động quay R
i
i−1 của camera giữa thời điểm hiện tại i và thời
điểm trước đó i− 1.
T ii−1 =
[
Rii−1 t
i
i−1
0 1
]
(2.1)
trong đó T ii−1 ∈ ℜ3×3, tii−1 ∈ ℜ1×3, Rii−1 ∈ ℜ2×3.
23
bα
α
b
b
I1
I2
v
[R|t]
P1(x1, y1)
P2(x2, y2)
Hình 2.2 Minh họa di chuyển của robot với vận tốc v và góc lái α
Như vậy, nếu xe chỉ chuyển động trên mặt phẳng (z=0) như minh họa Hình 2.2
thì việc xác định được các vị trí Pi chỉ cần xác định hai tham số là vận tốc v và góc
lái α, hai tham số này được tính toán bởi một phép biến đổi T gồm ma trận quay R
và vector dịch chuyển t trong công thức (2.1).
Trong số rất nhiều các kỹ thuật sử dụng hình ảnh để xây dựng bản đồ số liệu, phương
pháp đo hành trình bằng thông tin thị giác do Van Hamme và các đồng nghiệp đề
xuất năm 2011 [57] chỉ sử dụng 01 camera thông thường cho phép tái tạo lại quỹ đạo
camera nhanh chóng và chính xác phù hợp với ngữ cảnh của bài toán. Vì vậy chúng tôi
dựa trên phương pháp này đề xây dựng bản đồ số liệu. Phương pháp [57] được đánh
giá trong môi trường ngoài trời với camera lắp đặt trên xe chạy với tốc độ 70km/h.
Khi áp dụng vào môi trường trong nhà với camera gắn trên robot đi với tốc độ chậm,
phương pháp này gặp một số khó khăn và thách thức. Trong phần dưới đây, chúng tôi
sẽ trình bày phương pháp của Van Hamme và các đồng nghiệp, sau đó là các thích
nghi của phương pháp.
2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mô hình không chắc chắn
Ý tưởng của giải thuật VO đề xuất trong [57] sử dụng mô hình không chắc chắn
của chuyển động của camera và chuyển động của xe, để tính toán các tứ giác tương ứng
với các điểm đặc trưng tại khung hình hiện tại, cũng như chuyển động của các điểm
đặc trưng trong khung hình trước. Sau đó chuyển động của camera giữa hai khung
hình liên tiếp được ước lượng từ sự chồng lấp của các tứ giác.
24
Với chuỗi hình ảnh liên tiếp thu thập được I = {I1, I2, ..., IN}, thuật toán VO gồm
N − 1 bước lặp minh họa như trong Hình 2.3.
Bước lặp thứ i:
Ii,MUTi−1,k
k = 1,Mi−1
Ii Trích chọn đặc trưng
Harris trên ảnh Ii
KPij
j = 1,Mi
Tính các PUT
trên ảnh Ii
Tính các MUT
trên ảnh Ii
KeyPoint(Harris corners)
PUTi MUTi
PUTij
j = 1,Mi
MUTij
j = 1,Mi
Tính ảnh tương đồng từ
PUTij
j = 1,Mi
và MUTi−1
i = 1,Mi−1
Xếp chồng PUTi và MUTi Ảnh
tương đồng
-60 -50 -40 -30 -20 -10 0 10
-10
0
10
20
30
40
50
60
70
80
90
Hành trình đo được
Ước lượng tham số
góc lái α; vận tốc v
PUT: Perspective Uncertainty Tetragons
MUT: Motion Uncertainty Tetragon
Hình 2.3 Các bước giải thuật đo hành trình bằng thông tin hình ảnh VO
Tại bước lặp thứ i với i = 2, N thực hiện các bước:
1. Trích chọn đặc trưng Harris Corner[59] trên khung hình Ii tính toán như sau:
− Với mỗi điểm (x, y), cho trước một cửa sổ W quanh tâm (x, y), tính ma trận
đạo hàm M tại vị trí này:[
M =
∑
W (Ix(xi, yi))
2
∑
W Ix(xi, yi)Iy(xi, yi)∑
W Ix(xi, yi)Iy(xi, yi)
∑
W (Iy(xi, yi))
2
]
=
[
A C
C B
]
(2.2)
− Tính Det(M) = A+B; Tr(M) = AB − C2
25
− Tính đáp ứng góc tại (x, y) : R(x, y) = Det(M)− k ∗ Tr(M)2
− So sánh đáp ứng góc R với giá trị ngưỡng θV O. Nếu R > θV O thì kết luận
(x, y) là điểm đặc trưng.
Kết quả thu được là tập Mi điểm đặc trưng {KPij} với j = 1,Mi. Như vậy số
điểm đặc trưng trích chọn được phụ thuộc vào θV O. Cách tính R và các giá trị
λ1 và λ2 được trình bày chi tiết trong PHỤ LỤC A.1 của luận án.
2. Tính toán các PUTij tương ứng với các đặc trưng KPij dựa trên mô hình không
chắc chắn của camera. Cụ thể mỗi PUTij là một hình tứ giác bao quanh điểm
KPij. Mỗi góc của tứ giác được xác định từ một tổ hợp của bộ (góc ngẩng, góc
nghiêng) của camera.
3. Tính toán cácMUTij tương ứng với các đặc trưng Harris KPij dựa trên mô hình
chuyển động không chắc chắn của robot. Cụ thể mỗi MUTij là một hình tứ giác
bao quanh điểm KPij. Mỗi góc của tứ giác được xác định từ một tổ hợp của bộ
(vận tốc, góc lái) của robot.
4. Tạo ảnh tương đồng giữa các PUTij ở thời điểm i với các MUTi−1j ở thời điểm
trước đó i − 1. Ảnh này thể hiện mức độ tương đồng trong không gian của góc
lái và vận tốc, Giá trị điểm ảnh lớn nhất biểu thị tọa độ sự tương đồng giữa PUT
và MUT lớn nhất, tương ứng với giá trị góc lái α và vận tốc v cần xác định cho
phép ước lượng tham số chuyển động của camera, từ đó tái tạo lại hành trình.
Giải thuật VO gốc đã được thử nghiệm thành công ở môi trường ngoài trời, trong
điều kiện ánh sáng tốt, mặt phẳng đường có cấu trúc. Khi triển khai giải thuật VO ở
một số môi trường trong nhà khác nhau (hành lang của tòa nhà) thì hành trình tái
tạo được bị sai số nhiều so với thực tế, nhất là tại một số vị trí khi robot thực hiện
phép quay (xem Hình 2.4).
140
120
100
80
60
40
20
5025
y(m)
Thöïc ñòa
Baûn ñoà
(a) Tröôøng THCS Nguyeãn Ñình Chieåu
0-25-50
x(m)
120
100
80
60
40
20
5025
y(m)
0-25-50
x(m)
(b) Thö vieän Taï Quang Böûu – ÑHBK Haø Noäi
140 140
60
50
40
30
20
10
10
y(m)
0-30-40
x (m)
-10-20
(c) Vieän nghieân cöùu MICA – ÑHBK Haø Noäi
Thöïc ñòa
Baûn ñoà
Thöïc ñòa
Baûn ñoà
RMSE
= 1.23 m RMSE = 1.78 m
RMSE
= 0.68 m
Hình 2.4 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ
26
Chúng tôi đã nghiên cứu và phân tích kỹ nguyên nhân dẫn đến các sai số và nhận thấy
với các môi trường có cấu trúc mặt đường nhẵn bóng, hoặc trải thảm, một số trường
hợp độ chiếu sáng yếu, số điểm đặc trưng trích chọn được rất ít (xem Hình 2.5) dẫn
đến sai số lớn trong việc tái tạo hành trình.
(a) Maët neàn boùng – Soá ñieåm ñaëc tröng :4
(Tröôøng THCS Nguyeãn Ñình Chieåu)
(b) Maët ñoä chieáu saùng yeáu– Soá ñieåm ñaëc tröng :3
(Thö vieän Taï Quang Böûu)
(d) Maët neàn traûi thaûm – Soá ñieåm ñaëc tröng : 3
(Tröôøng Ñai hoïc Gent – Vöông quoác Bæ)
(c) Maët neàn nhaün– Soá ñieåm ñaëc tröng : 2
(Vieän nghieân cöùu quoác teá MICA)
Hình 2.5 Một số cấu trúc mặt nền thử nghiệm thuật toán VO
* Nhận xét : Độ chính xác của hành trình tái tạo lại bởi giải thuật VO phụ thuộc rất
nhiều vào số đặc trưng trích chọn được trên mỗi khung hình. Trong điều kiện ánh sáng
không tốt, mặt đường đồng đều, số lượng đặc trưng trích chọn bị hạn chế dẫn đến sai
số trong việc ước lượng các tham số dịch chuyển của camera. Do vậy, luận án trình
bày giải pháp thích nghi VO tại môi trường trong nhà ở mục dưới đây.
2.4.1.2 Thích nghi VO cho môi trường trong nhà
Để nâng cao độ chính xác của bản đồ tái tạo, chúng tôi đề xuất một giải pháp
đơn giản dễ thực hiện để nâng số điểm đặc trưng phát hiện được trên mỗi khung hình.
Cụ thể chúng tôi tạo các điểm đánh dấu trên đường đi (xem Hình 2.6) với quy trình
tạo các điểm đánh dấu trên mặt sàn như sau:
− Số lượng điểm đánh dấu trên mặt sàn diện tích S = 1m2 có từ 16-20 điểm đánh
dấu dán cách đều nhau từ 15-20 cm (xem Hình 2.7).
27
(b) Phóng to vùng đánh dấu(a) Tạo các điểm đánh dấu
trên dọc hành trình
Hình 2.6 Tạo các điểm đánh dấu dọc hành trình
− Hình dáng của điểm đánh dấu là hình có góc cạnh chữ nhật, hình vuông, bình
hành (do ưu điểm của đặc trưng Harris Corner [59] phát hiện góc). Các mẫu
khác như hình tròn, elip...không khuyến khích sử dụng vì số phát hiện trên các
điểm đánh dấu này là rất ít (xem Hình 2.8d)
− Không phân biệt màu sắc của các điểm đánh dấu như trắng, đen, vàng, đỏ...(xem
Hình 2.8b)
− Tạo các điểm đánh dấu quá dày (số điểm đánh dấu > 100 điểm/1m2) hoặc quá
thưa (số điểm đánh dấu <= 3 điểm /1m2) đều ảnh hưởng đến việc đối sánh ảnh
liên tiếp (xem Hình 2.8c), nếu giải ngẫu nhiên khó kiểm soát phân bố đặc trưng
(xem Hình 2.8a).
Dưới đây là kết quả khi thực hiện thích nghi giải thuật VO* trong nhà với phương
pháp tạo điểm đánh dấu.
(a) Chưa đánh dấu (b) Đã tạo các điểm đánh dấu
Hình 2.7 Minh họa số điểm đặc trưng phát hiện trên mặt sàn
28
Hình 2.7 (a) minh họa khi chưa tạo các điểm đánh dấu thì số lượng điểm đặc trưng rất
í...giá trị điểm ảnh trong vùng D được tính toán như sau:
+ P1 =A;
+ P2 = A+B;
+ P3=A+C;
+ P4= A+B+C+D
+ Khi đó, tổng các điểm ảnh trong một hình chữ nhật bất kì có thể tính nhanh
dựa trên ảnh tích phân tại 4 đỉnh được tính theo công thức:
SUM(D) = P4 + P1 − P2− P3 (A.32)
172
PHỤ LỤC B
ĐÁNH GIÁ HIỆU NĂNG NHẬN DẠNG
ĐỐI TƯỢNG TRÊN MỘT SỐ CƠ SỞ DỮ LIỆU
TRONG VÀ NGOÀI NƯỚC
B.1 Giới thiệu 3 CSDL thử nghiệm
Để xây dựng được bộ CSDL vật cản hiệu quả nhằm phục vụ việc phát hiện nhận
dạng các đối tượng và dự đoán được khoảng cách, chúng tôi tiến hành khảo sát và
đánh giá trên 03 CSDL nhằm tìm ra được các vật cản có khả năng nhận dạng tốt nhất
có trong môi trường thực, bao gồm:
• Robot Vision 2013 [90] [19] được chia làm 2 tập dữ liệu chính như mô tả ở
Hình B.1.
01. Haønh lang 02. Saûnh 03. Phoøng giaùo sö
04. Phoøng sinh vieân 05. Phoøng thieát bò 06. Nhaø veä sinh
07. Phoøng thö kyù 08. Phoøng hoäi thaûo
09. Kho löu tröõ 10. Thang maùy
(a). Cô sôû döõ lieäu 10 lôùp khung caûnh (b). Cô sôû döõ lieäu 08 lôùp ñoái töôïng
01. Bình cöùu hoûa 02. Maùy tính
03. Gheá 04. Maùy in
05. Boàn tieåu 06. Maøn hình
07. Thuøng raùc 08. Tuû laïnh
Hình B.1 Minh họa cơ sở dữ liệu Robot Vision 2013
− Dữ liệu khung cảnh: 01. Hành lang; 02. Sảnh; 03. Phòng Giáo sư; 04. Phòng
173
sinh viên; 05. Phòng thiết bị; 06. Phòng thư ký; 07. Phòng hội thảo; 08.
Thang máy; 09. Kho; 10. Nhà vệ sinh.
− Dữ liệu đối tượng : 01. Ghế; 02. Máy tính; 03.Bình chữa cháy; 04. Tủ lạnh;
05. Máy in; 06. Màn hình; 07. Thùng rác; 08. Bồn tiểu.
Tổng số 5263 ảnh cho 2 lần thu (Visual-1 và Visual-2) bao gồm ảnh màu (RGB)
và ảnh độ sâu (Depth- Point Cloud Data) được chia làm 02 phần: 1947 ảnh
(Visual-1) huấn luyện tách được 2363 đối tượng, 3515 ảnh (Visual-2) phục vụ
cho thử nghiệm.
• PascalVOC 2007 [44] [45] [43]: gồm có 20 lớp đối tượng được chia làm 04
nhóm chính như mô tả trong Hình B.2:
01. Maùy bay 02. Xe buyùt 03. OÂ toâ 04. Xe ñaïp 05. Xe maùy
06. Thuyeàn 07. Xe löûa 08. Chaäu caây 09. Chai loï 10. Gheá
11. Baøn aên 12. Gheá Soâ-pha 13. Tivi/maøn hình 14. Chim 15. Meøo
16. Boø 17. Choù 18. Ngöïa 19. Cöøu 20. Ngöôøi
Hình B.2 Minh họa 20 lớp đối tượng trong Pascal VOC
− Nhóm phương tiện giao thông : 01. Máy bay; 02. Xe buýt; 03. Ô tô; 04. Xe
đạp; 05. Xe máy; 06. Tàu thuyền; 07. Xe lửa
− Nhóm các đối tượng trong nhà : 08. Chai lọ; 09. Ghế; 10. Bàn ăn; 11. Chậu
cây; 12. Ghế sô-pha; 13. Tivi/Màn hình
− Nhóm đối tượng con người : 20. Người
174
− Nhóm các đối tượng động vật : 14. Chim; 15. Mèo; 16. Bò; 17.Chó; 18. Ngựa;
19. Cừu
Tổng số 7453 ảnh chứa 15 509 đối tượng chia ra làm 02 loại: 2501 ảnh huấn luyện
và 4952 ảnh thử nghiệm.
• Naiscorp 2012: xây dựng dịch vụ quảng cáo trực tuyến nằm trong khuôn khổ
đề tài tiền năng của Bộ Khoa học và Công nghệ mã số: KC.01.TN19/11-15,
bao gồm 10 lớp đối tượng, mỗi đối tượng có 500 ảnh, tổng số ảnh trong cơ sở dữ
liệu là 5000 ảnh, trong đó 2500 ảnh cho phần thử nghiệm, 2500 ảnh cho phần
huấn luyện và được tổ chức theo các thư mục được chỉ ra trong Hình B.4.
− Nhóm các đối tượng trong nhà : 00. Hoa; 01. Điện thoại; 02. Đồng hồ; 03.
Giày dép; 04. Kính; 08. Máy tính xách tay;
− Nhóm đối tượng con người : 05. Người;
− Nhóm phương tiện giao thông : 09. Xe máy; 06. Ô tô; 07. Thuyền;
Nhận xét: Cả ba CSDL Naiscorp 2012, Pascal VOC 2007 và Robot Vision 2013
phải đảm bảo yêu tố đặt ra như các CSDL đủ lớn, đa dạng về góc chụp, kiểu
dáng, về phông nền, về hướng, về khoảng cách, về điều kiện chiếu sáng thu nhận
ảnh của đối tượng mô tả Hình B.3
(a) Söï ña daïng trong Naicorp 2012
(b) Söï thay ñoåi goùc nhìn trong Robot Vison 2013
(c) Ñoä chieáu saùng trong Pascal VOC 2007
Hình B.3 Những khó khăn thách thưc trên 3 CSDL đề xuất
175
Hoa
Ñieän thoaïi
Ñoàng hoà
Giaày deùp
Kính
Ngöôøi
OÂ toâ
Thuyeàn
Maùy tính xaùch tay
Xe maùy
Hình B.4 Các lớp đối tượng trong CSDL Naicorp 2012
176
B.2 Khung nhận dạng đối tượng tổng quát
Trong khuôn khổ luận án, chúng tôi đề xuất nghiên cứu và thử nghiệm các phương
pháp kết hợp giữa đặc trưng và bộ phân loại nhằm tăng hiệu năng nhận dạng đối tượng
như mô tả Hình B.5:
Tröôït cöûa soå
Haar,
HoG,
Gist
Cô sôû döõ lieäu
Tieàn xöû lyù
Trích choïn
ñaëc tröng
Huaán luyeän
(Adaboost, SVM, k-NN)
Moâ hình
huaán luyeän
Pha huaán luyeän Pha nhaän daïng
Trích choïn
ñaëc tröng
Nhaän daïng
(Adaboost, SVM, k-NN)
Ñaàu vaøo
Aûnh/Video
Keát quaû
Hình B.5 Khung làm việc tổng quát phát hiện và nhận dạng đối tượng
Quá trình nhận dạng bao gồm 2 pha:
• Huấn luyện: Cơ sở dữ liệu mẫu được đưa vào bộ tiền xử lý để làm sạch (màu
sắc, ánh sáng, kích thước, dung lượng...) sau đó chuyển sang phần trích chọn đặc
trưng. Tại đây, các đặc trưng đề xuất Haar, HoG, GIST được trích chọn đưa vào
phần huấn luyện. Kết quả cho ta một tập các vector đặc trưng sử dụng cho pha
nhận dạng.
• Nhận dạng: Ảnh/Video cần nhận dạng đưa qua bộ trượt cửa sổ, dữ liệu được
quét với nhiều kích thước khác nhau. Mỗi cửa sổ được trích chọn ra các đặc trưng
và đưa vào phần nhận dạng. Tại đây mô hình nhận dạng sẽ thực hiện việc đánh
giá so sánh với mô hình đã học theo một ngưỡng cho trước, ngưỡng này quyết
định kết quả nhận dạng các đối tượng.
Hình B.5 đưa ra mô hình khung nhận dạng kết hợp các phương pháp nhận dạng đối
tượng, dưới đây chúng tôi sẽ trình bày tóm tắt các phương pháp nhận dạng đối tượng
kết hợp bao gồm:
− Kết hợp giữa Haar- AdaBoost : Haar [135] là một loại đặc trưng thường
177
được dùng cho bài toán nhận dạng đối tượng trên ảnh, xây dựng từ các hình chữ
nhật có kích thước bằng nhau, để tính độ chênh lệch giữa các giá trị mức xám
của các điểm ảnh trong các vùng kề nhau. Đặc trưng này có ưu điểm là tính toán
nhanh thông qua việc sử dụng kỹ thuật ảnh tích phân, chi tiết có trong PHỤ
LỤC A.6 của luận án.
Đặc trưng Haar thường được sử dụng trong giải thuật học Boosting để lựa chọn
ra một số đặc trưng tiêu biểu để biểu diễn đối tượng.
Adaboost (Adaptive Boost): là một tiếp cận boosting [49] được Freund và Schapire
đưa ra vào năm 1995. Adaboost hoạt động trên nguyên tắc kết hợp tuyến tính
các bộ phân loại yếu để có một bộ phân loại mạnh mô tả như Hình B.6. Là
một cải tiến của tiếp cận boosting, Adaboost sử dụng thêm khái niệm trọng số
(weight) để đánh dấu các mẫu khó nhận dạng.
H(x) = sign(
T∑
t=1
αtht(x)) (B.1)
T số lượng bộ phân loại yếu ht(x) tại thời điểm t; hệ số αt = 12 ln(
1−εj
εj
); εj lỗi.
Trong quá trình huấn luyện, cứ mỗi bộ phân loại yếu được xây dựng, thuật toán
sẽ tiến hành câp nhật lại trọng số để chuẩn bị cho việc xây dựng bộ phân loại
yếu kế tiếp: tăng trọng số của các mẫu bị nhận dạng sai và giảm trọng số của
các mẫu được nhận dạng đúng bởi bộ phân loại yếu vừa xây dựng.
h
;
(x) h
<
(x) h
=
(x) H(x)
Boä phaân
loaïi yeáu
Boä phaân
loaïi yeáu
Boä phaân
loaïi yeáu
Boä phaân
loaïi maïnh
Hình B.6 Minh họa giải thuật Adaboost
Bằng cách này, các bộ phân loại yếu sau có thể tập trung vào các mẫu mà các
bộ phân loại yếu trước nó chưa làm tốt. Các bộ phân loại yếu sẽ được kết hợp
tùy theo mức độ tốt của chúng để tạo dựng nên bộ phân loại mạnh.
Mô hình Cascade Adaboost [135]: được xây dựng chính là nhằm rút ngắn thời
gian xử lý, giảm thiểu tỉ lệ nhận dạng sai cho bộ phân loại. Cascade gồm nhiều
178
tầng (stage), mỗi tầng của cây sẽ là một bộ phân loại. Một mẫu để được phân
loại là đối tượng thì cần phải đi qua hết tất cả các tầng của cây.
Caùc vuøng aûnh
khoâng chöùa
ñoái töôïng
phaùt hieän
Caùc vuøng
aûnh chöùa ñoái
töôïng phaùt
hieän
Boä phaân
lôùp 1
Taát caû
caùc vuøng
aûnh
S
Ð T
S S
ÑBoä phaân
lôùp 2
Boä phaân
lôùp 3
Ð Ð Boä phaân
lôùp 3
S
Hình B.7 Mô hình phân tầng CascadeAdaboost
Các bộ phân loại ở tầng sau được huấn luyện bằng những mẫu Negative mà bộ
phân loại ở tầng trước nhận dạng sai, tức là sẽ tập trung học từ các mẫu không
phải đối tượng khó hơn. Do đó sự kết hợp các bộ phân loại ở các tầng khác nhau
sẽ giúp bộ phân loại giảm thiểu tỉ lệ nhận dạng sai.
− Kết hợp giữa HoG- SVM : Ý tưởng đặc trưng HOG xuất phát từ hình dạng
và trạng thái của đối tượng có thể được đặc trưng bằng sự phân bố về cường độ
và hướng của cạnh. Đặc trưng HOG gồm một số loại như: RHoG, R2-HoG và
C-HoG cho phép mô tả tốt cho các loại đối tượng khác nhau. Vì vậy, chúng tôi
sử dụng HoG để trích chọn các đặc trưng cho thao tác nhận dạng các đối tượng,
chi tiết phương pháp trích chọn có trong PHỤ LỤC A.5 của luận án.
SVM [26] được xây dựng trên cơ sở hai ý tưởng chính. Ý tưởng thứ nhất: ánh
xạ dữ liệu gốc sang một không gian mới gọi là không gian đặc trưng với số chiều
lớn hơn sao cho trong không gian mới có thể xây dựng một siêu phẳng cho phép
phân chia dữ liệu thành hai phần riêng biệt, mỗi phần bao gồm các điểm có cùng
nhãn phân loại. Ý tưởng thứ hai: trong số những siêu phẳng như vậy cần lựa
chọn siêu phẳng có lề lớn nhất. Lề ở đây là khoảng cách từ siêu phẳng tới các
điểm gần nhất nằm ở hai phía của siêu phẳng (mỗi phía tương ứng với một nhãn
phân loại). Lưu ý rằng siêu phẳng nằm cách đều các điểm gần nhất với nhãn
khác nhau
Xét tập r mẫu huấn luyện {(x1, y1), (x2, y2), . . . (xr, yr)}, trong đó xi là một vector
đầu vào được biểu diễn trong không gian X ( Rn , yi là một nhãn lớp; yi{1,−1}.
179
Siêu phẳng tối ưu phân tập dữ liệu này thành hai lớp là siêu phẳng có thể tách
rời dữ liệu thành hai lớp riêng biệt với lề lớn nhất. Tức là, cần tìm siêu phẳng
H0 : y = w.x + b = 0 và hai siêu phẳng H+, H− hỗ trợ song song với H0 và có
cùng khoảng cách đến H0. Với điều kiện không có phần tử nào của tập mẫu nằm
giữa H+ và H− khi đó:
H+ : w.x+ b ≥ +1 với y = +1
H− : w.x+ b ≥ −1 với y = −1
(B.2)
Khoảng cách của siêu phẳng H+ và H− đến H0 là 1‖w‖ cần tìm siêu phẳng H0 với
lề lớn nhất, là giải bài toán tối ưu tìm w và b sao cho 2
‖w‖
đạt cực đại với ràng
buộc yi(w.xi + b) >= 1.
Support
vectors
−b
‖w‖ −ξi
‖w‖
Support
vectors
Hình B.8 Siêu phẳng tách với khoảng cách lề cực đại SVM
Hình B.8 mô tả khả năng vượt trội của SVM về tính hiệu quả, độ chính xác, khả
năng xử lý các bộ dữ liệu một cách linh hoạt, việc sử dụng phương pháp SVM đã
và đang là sự lựa chọn tối ưu nhất trong việc giải quyết các bài toán phát hiện
và nhận dạng.
Siêu phẳng có khoảng cách với dữ liệu gần nhất là lớn nhất (biên lớn nhất) được
gọi là siêu phẳng tối ưu, minh họa ở Hình B.9.
− Kết hợp giữa GIST- kNN : Đặc trưng GIST [114], [106] việc trích chọn từ
ảnh tập hợp các đặc trưng quan trọng như tính tự nhiên, mở rộng, độ nhám, độ
chắc chắn, cho phép trình bày cấu trúc không gian của một cảnh. Chi tiết cách
tính toán đặc trưng này có trong nội dung PHỤ LỤC A.4 của luận án.
Bộ phân lớp k-NN (k-Nearest Neighbors)[73]: Học dựa trên láng giềng gần nhất
180
bc
bc
bc bc
bc
bc
bc
bc
+ +
+
+
+
+
+
+
+
+
bc Lớp I
Lớp II
Biên lớn nhất
Siêu phẳng tối ưu
Một siêu phẳng
Hình B.9 Phân tách theo siêu phẳng (w,b) trong không gian 2 chiều tập mẫu
là một giải thuật phân lớp trên một tập đóng các ví dụ trong một không gian
đặc trưng. Ý tưởng của phương pháp là xếp vào lớp có k hàng xóm gần với nó
nhất, minh họa ở Hình B.10.
Khoaûng
caùch
Nhaõün
lôùp
D1 1
D1 1
D5 5
D8 81
5
2
6
1
7
8
9
4
Aûnh thöû
nghieäm
Aûnh huaán
luyeän
Lôùp 1
Hình B.10 Minh họa các bước tính toán k-NN
Các hàm tính khoảng cách k-NN đóng vai trò quan trọng trong phương pháp
học, dựa trên các láng giềng gần nhất và thường được xác định trước không thay
đổi trong suốt quá trình học và phân lớp.
+ Các hàm tính khoảng cách hình học: dành cho các bài toán có các thuộc
181
tính đầu vào là kiểu số thực (xi ∈ R)
o Hàm Minkowski: d(x, z) = (
n∑
i=1
|xi − zi|
p)1/p (B.3)
o Hàm Manhattan: d(x, z) =
n∑
i=2
|xi − zi| (B.4)
o Hàm Euclid: d(x, z) =
√√√√ n∑
i=1
(xi − zi)2 (B.5)
+ Hàm khoảng cách Hamming: dành cho các bài toán có các thuộc tính đầu
vào là kiểu nhị phân (xi ∈ {0, 1})
d(x, z) =
n∑
i=1
Difference(xi, zi) (B.6)
Trong đó: Difference(x, z) =
{
1, nếu (x 6= z)
0, nếu (x = z)
B.3 Độ đo đánh giá
Trong 03 CSDL đề xuất thử nghiệm, chúng tôi sử dụng các độ đo đánh giá khác
nhau cụ thể như sau:
• CSDL Naiscorp 2012: Sử dụng độ đo chính xác (Precision) tính theo công
thức (2.26) để đánh giá hiệu năng của hệ thống nhận dạng.
• CSDL Robot Vision 2013: Cung cấp bảng điểm cho việc nhận dạng 10 khung
cảnh và 08 đối tượng như Bảng B.1, điểm cuối cùng là tổng điểm của tất cả các
điểm thu được.
Bảng B.1 Quy định thang tính điểm phần thi nhận dạng RobotVision2013
Các lớp đối tượng/Class Khung cảnh Đối tượng
Nhận dạng chính xác 1.0 0.125
Nhận dạng sai -0.5 -0.125
Không nhận dạng 0.0 0.000
• CSDL PascalVOC 2007: sử dụng độ đo chính xác trung bình AP (Average
Precision) thể hiện bằng giá trị tích phân đồ thị ROC (Receiver Operating Char-
acteristic) bởi hai giá trị độ đo triệu hồi (recall) và độ đo chính xác (Precision)
182
B.4 Kết quả đánh giá
Kết quả đánh giá trên 03 CSDL thực nghiệm là cơ sở để chúng tôi lựa chọn các
lớp đối tượng đạt hiệu năng cao nhất nhằm xây dựng CSDL vật cản phù hợp với môi
trường thực tế mà NKT thường gặp phải. Cụ thể như sau:
- CSDL Naiscorp 2012: Trong Bảng B.2 Haar-AdaBoost là phương pháp tốt
cho lớp điện thoại, đồng hồ, hoa, ô tô và Thuyền, điều này là do tính năng Haarlike đại
diện với chi tiết của các đối tượng. Còn GIST và k-NN là phương pháp nhận dạng tốt
cho lớp Giày dép, Kính, Máy tính xách tay, Xe máy. Độ chính xác trung bình CSDL
Naiscorp 2012 trên 80%.
Bảng B.2 Kết quả nhận dạng tượng CSDL Naiscorp 2012
TT Lớp đối tượng Haarlike-Adaboost HoG-SVM GIST-kNN
00 Điện thoại 97% 67% 88%
01 Đồng hồ 98% 95% 81%
02 Giày dép 34% 67% 73%
03 Hoa 90% 76% 75%
04 Kính 91% 87% 98%
05 Máy tính 62% 78% 99%
06 Người 91% 90% 77%
07 Ô tô 100% 85% 91%
08 Thuyền 100% 78% 92%
09 Xe máy 56% 88% 96%
Trung bình 82% 81% 87%
Hình B.11 các đối tượng trong ảnh được khoanh vùng và gán nhãn, kết quả nhận
dạng phụ thuộc vào CSDL huấn luyện. Hình B.11(a) nhận dạng đúng đồng hồ bởi đặc
tính của ảnh đưa vào nhận dạng khác nhiều so với bộ huấn luyện. Hình B.11(b) cho
thấy nhận dạng nhầm từ lớp đồng hồ sang lớp máy tính xách tay bởi một số đặc trưng
được trích chọn trên ảnh đồng hồ là phím bấm tương đối giống với các đặc trưng được
trích chọn trên lớp máy tính xách tay, nên xảy ra trường hợp nhận dạng nhầm. Hình
B.11(c) cho thấy lớp đồng hồ được nhận dạng đúng, tuy nhiên do đặc trưng trích chọn
của lớp đồng hồ là hình tròn, phía trong có các họa tiết giống như một bông hoa nên
nhận nhầm sang lớp hoa. Cuối cùng tại Hình B.11(d) có tình trạng nhận dạng nhập
nhằng, nhận dạng tại lớp máy tính nhưng trong máy tính chứa hình ảnh giày dép nên
cũng có thể hiểu nhận dạng sai hoặc nhận dạng đúng.
Thuật toán nhận dạng đối tượng chạy trên máy tính cấu hình (CHIP Intel(R) Core(TM)
183
(b) Phaùt hieän nhaàm (d) Phaùt hieän nhaäp nhaèng(a) Phaùt hieän ñuùng (c) Phaùt hieän ñuùng, thöøa
Hình B.11 Một số kết quả nhận dạng đúng/sai CSDL Naicorp 2012
i5-2520M CPU @ 3.2 GHz x 2, RAM 8GB). Kích thước trung bình của ảnh 600×400,
tốc độ tính toán đạt 88.12 ms/ ảnh.
- CSDL Robot Vision 2013: Đã có 16 kết quả của các đội thi đến từ các nhóm
nghiên cứu trên thế giới gửi tới cuộc thi Robot Vision, trong đó nhóm MICA gửi 03
kết quả dự thi, cụ thể như sau.
Phương pháp nhận dạng được đề xuất sử dụng giải thuật kết hợp GIST k-NN để
nhận dạng khung cảnh trước khi nhận dạng các đối tượng. Kết quả nhận dạng minh
họa ở Hình B.12.
(b) Phaùt hieän nhaàm(a) Phaùt hieän ñuùng
Hình B.12 Một số kết quả nhận dạng đúng/sai CSDL RobotVision2013
Nhóm nghiên cứu MICA đứng thứ 9/16 kết quả đạt số điểm 4497.875 điểm, kết quả
xếp hạng có trong Bảng B.3.
Kết quả này chưa cao do một số nguyên nhân như nhóm nghiên cứu chưa sử dụng đến
hình ảnh độ sâu (Depth) được cung cấp, các đặc trưng khi trích chọn ảnh huấn luyện
chưa đủ nhiều, bao hết các trường hợp trên tập thử nghiệm. Với những nguyên nhân
184
Bảng B.3 Kết quả điểm nhận dạng đối tượng CSDL Robot Vision 2013
TT Đội thi Tổng điểm Kết quả tham dự
1 MIAR ICT 6033.5 1367338469342_result5.txt
2 MIAR ICT 5924.25 1367337521811_result1.txt
3 MIAR ICT 5924.25 1367338031442_result3.txt
4 MIAR ICT 5867.5 1367338141275_result4.txt
5 MIAR ICT 5867 1367337920393_result2.txt
6 NUDT 5722.5 1367330362498_Submission_zy.results
7 SIMD* 5004.75 1366035468189_exampletest.results
8 REGIM 4638.875 1367938209005_results2 (1).results
9 MICA 4497.875 1367489769671_MICA_RobotVision_2.txt
10 REGIM 3763.75 1367937984977__results1 (1).results
11 MICA 3316.125 1367487985297_MICA_RobotVision_1.txt
12 MICA 2680.625 1368014381988_MICA_RobotVision_3.txt
13 GRAM -487 1368038785876_gram_3dspmk_l2_k400.txt
14 GRAM -497 1368090179987_gram_3dspmk_l2_k800.txt
15 GRAM -497 1368090208187_gram_3dspmk_l2_k1000.txt
16 NUDT -866.25 1367376643434_Submission_yl.results
đó chúng tôi đề xuất kết hợp 02 nguồn dữ liệu màu sắc (RGB) và ảnh độ sâu (Depth)
để nhận dạng chính xác có trong khung cảnh đề xuất.
Thuật toán chạy cấu hình máy tính (CHIP Intel(R) Core(TM) i5-2520M CPU @
3.2 GHz x 2, RAM 8GB), kích thước ảnh trung bình 640 × 480, thời gian tính toán
trêm một ảnh 90.3 ms/ ảnh.
- CSDL PascalVOC 2007: Với đồ thị AP trong Hình B.13 có thể thấy rằng
đặc trưng GIST và bộ phân lớp k-NN khi chạy với CSDL Pascal VOC 2007 cho kết
quả trung bình, với AP=0.164, trong đó các đồ thị AP các lớp đối tượng trong Hình
B.14 thấy rõ vai trò đặc trưng GIST được sử dụng nhận dạng đối tượng cho kết quả
tốt nhất trong các lớp người, ô tô, xe buýt, màn hình ti vi và không tốt đối với các lớp
còn lại. Lý do các đối tượng trong CSDL rất đa dạng, số lượng lớn đặc biệt một ảnh
chứa nhiều đối tượng. Tuy nhiên, GIST, k-NN cần phối hợp với các đặc trưng khác để
cho kết quả tốt hơn.
Một số hình ảnh về kết quả nhận dạng trên CSDL Pascal VOC 2007:
Hình B.15(a) khoanh vùng được đối tượng ô tô, người (ngồi trong ô tô), đặc biệt
với kỹ thuật quét cửa sổ trên toàn ảnh khoanh vùng được khóm cây bên đường, giống
như đối tượng chậu hoa có trong CSDL. Tuy nhiên, phương pháp này cũng cho kết
185
Hình B.13 Đồ thị AP của 20 lớp đối tượng CSDL PascalVOC 2007
Hình B.14 Đồ thị AP từng lớp đối tượng CSDL PascalVOC 2007
186
(b) Phaùt hieän ñuùng, thöøa(a) Phaùt hieän ñuùng
Hình B.15 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007
quả phát hiện thừa như Hình B.15(b) và Hình B.15(c).
(b). Nhaän nhaàm sang lôùp choù
(c) Nhaän nhaàm sang lôùp Boø
(a) Lôùp cöøu
Hình B.16 Kết quả nhận dạng đối tượng trong CSDL Pascal VOC 2007
Thuật toán nhận dạng đối tượng trên cơ sở dữ liệu PascalVOC 2007 chạy trên
máy tính cấu hình (CHIP Intel(R) Core(TM) i5-2520M CPU @ 3.2 GHz x 2, RAM
8GB). Kích thước trung bình của ảnh (380× 470) điểm ảnh, tốc độ tính toán đạt 150
ms/ảnh.
187
PHỤ LỤC C
THIẾT KẾ HỆ THỐNG THU THẬP DỮ LIỆU
C.1 Xe camera thu thập dữ liệu
- Ý tưởng thử nghiệm: sử dụng 02 camera bố trí vuông góc, thu dữ liệu đồng thời:
camera thứ nhất chiếu xuống đất thu hình ảnh mặt đường, camera thứ hai hướng về
phía trước thu thập dữ liệu khung cảnh, camera được gắn trên gậy; cầm tay; gắn trên
ghế; gắn trên xe đẩy hàng; gắn trên xe đạp mô tả trong Hình C.1.
(d) Gaén treân gaäy ngöôøi ñi boä
(c) Gaén xe ñaïp(a) Gaén treân gheá (b) Gaén xe ñaåy haøng
(e) Caàm treân tay ngöôøi ñi boä
Hình C.1 Một số giải pháp thu thập dữ liệu từ 2 camera
Với các thiết kế đã đề xuất trong Hình C.1, chúng tôi tiến hành đánh giá 02 kịch
bản trong nhà và ngoài trời như sau:
+ Kịch bản 1 (trong nhà): tại khu thực nghiệm - Đại học Gent - Vương quốc Bỉ,
định nghĩa 06 địa điểm (A, B, C, D, E, G) xuất phát từ A đi thành một vòng tròn
khép kín qua các điểm rồi quay trở lại về A, chiều dài hành trình là d = 89.4m
như Hình C.2(a). Phương pháp thu thập dữ liệu sử dụng ghế và xe đẩy hàng mô
188
tả như Hình C.1(a-b). Kết quả lệch so với thực địa được môi tả như Hình C.2(b)
A
B
C
D
E
G
A
B
C
G
D
E
Thöïc ñòa
Ñuùng
Sai
(a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà
Xuaát
phaùt
Keát
thuùc
Xuaát
phaùt
Keát
thuùc
Hình C.2 Một số lỗi khi xây dựng bản đồ tại môi trường trong nhà
do cấu trúc mặt sàn không đồng nhất, số lượng đặc trưng không đồng đều gây
ra lỗi tích lũy.
+ Kịch bản 2 (ngoài trời): tại khuôn viên Đại học Gent - Vương quốc Bỉ, định nghĩa
06 địa điểm (A, B, C, D, E, G) xuất phát từ A qua các điểm rồi quay lại A, chiều
dài d = 320m như Hình C.3(a). Phương pháp thu thập dữ liệu sử dụng gậy, xe
đạp và người đi bộ mô tả như Hình C.1(c-d-e).
A
B
C
D
E
G
A
BC
G
D
E
Thöïc ñòa
Ñuùng
Sai
(a). Kòch baûn thöû nghieäm (b). Keát quaû veõ baûn ñoà
Xuaát
phaùt
Keát
thuùc
Xuaát
phaùt
Keát
thuùc
Hình C.3 Một số lỗi khi xây dựng bản đồ tại môi trường ngoài trời
Kết quả lệch với thực địa như Hình C.3(b) do tại những điểm có mật độ các đặc trưng
ít dẫn tới việc sai số tích lũy làm thay đổi hành trình.
- Nhận xét và đánh giá: Kết quả không đạt được những tiêu chí đặt ra như hình
ảnh bị rung, nghiêng. Đặc biệt khi số lượng camera lớn hơn 2, thì việc lắp đặt trở lên
189
khó khăn hay khó để xác định một khoảng cách cụ thể để cố định camera theo các
hướng yêu cầu.
- Mục đích thiết kế xe camera: Hệ thống định vị và xây dựng bản đồ môi trường
trong luận án dựa trên 2 giải thuật cơ bản là VO* và FAB-MAP*, trong đó:
+ Giải thuật xây dựng bản đồ môi trường VO*: sử dụng 01 camera gắn trên xe
với một góc nhìn nào đó trúc xuống mặt đường. Nguyên lý trong VO là chỉ xem
xét đến các điểm đặc trưng trích chọn trên mặt phẳng để đơn giản phép tính
homography và phép ánh xạ ngược 2D-3D.
+ Giải thuật định vị hình ảnh FAB-MAP*: sử dụng 1 camera góc rộng (camera IP)
thu thập các hình ảnh khung cảnh phía trước, nguyên lý của FAP-MAP* sử dụng
xác suất có điều kiện Bayes giữa một quan sát hiện thời với một loạt các quan
sát trước đó để quyết định vị trí đã được định nghĩa trên bản đồ môi trường.
Do vậy cần có một nguồn dữ liệu được thu thập, đồng thời phục vụ cho pha huấn
luyện của hai giải thuật có chất lượng hình ảnh tốt. Chúng tôi đã đề xuất thiết kế và
chế tạo xe camera không phụ thuộc nhiều vào nguồn điện và truyền thông, được mô
tả như Hình C.4.
(a) Baûn veõ thieát keá (b) Xe hoaøn chænh
Hình C.4 Thiết kế xe camera thu thập dữ liệu
Hình C.4(a) mô tả chi tiết thiết kế xe camera kích thước: dài 1.3 m, rộng 0.6m,
cao 1m (độ cao này có thể thay đổi 1.2m nhờ 4 khóa định vị); cơ cấu bánh 4 bánh (02
bánh hơi giảm sóc, 02 bánh nhựa chuyên động quay); mặt sàn được khoan các lỗ (cách
nhau 20 cm, đường kính lỗ Φ = 0.5mm) giúp cố định nhiều thiết bị thu thập; thanh
chữ L (chiều dài 50cm) cố định camera theo các hướng; bảng bàn cờ (độ cao cách sàn
60 cm) di chuyển ngang giúp việc hiệu chỉnh các tham số trong và ngoài của camera;
190
vật liệu sử dụng innox chống gỉ sét. Hình C.4(b) thiết kế xe hoàn chỉnh gắn 2 camera
thu dữ liệu.
C.2 Hiệu chỉnh camera góc rộng
- Mục đích quá trình hiệu chỉnh: Thu thập được hình ảnh có chất lượng tốt, ổn
định phục vụ cho cho một loạt các bài toán như định vị, xây dựng bản đồ, tìm đường,
phát hiện vật cản... Do vậy các bước tiền xử lý hiệu chỉnh camera là rất quan trọng
giúp cho các thuật toán chạy nhanh hơn, loại bỏ được các lỗi ngoại lai khó phát hiện.
Quá trình hiệu chỉnh là việc xác định được 2 ma trận: ma trận nội tại (Intrinsic
Matrix) và ma trận biến dạng (Distortion Matrix). Trong [15] các camera thông dụng
hoạt động theo nguyên lý thu ảnh đối xứng như ở Hình C.5. Do vậy, nếu q là điểm thu
được từ Camera và Q là điểm trong thực tế, thì ta có:
Maët phaúng
aûnh
Ñieåm thu
nhaän aûnh
Truïc quang hoïc
Hình C.5 Mô hình thu nhận ảnh của camera
q = MQ , trong đó q =
xy
ω
,M =
fx 0 00 fy 0
0 0 1
và Q =
XY
W
(C.1)
Trong đó: fx và fy lần lượt là chiều dài tiêu cựu của camera, (Z, Y, Z) là tọa độ
của điểm Q. Tuy nhiên, tọa độ của camera không phải lúc nào cũng thẳng mà đôi khi
bị lệch. Để khắc phục điều này người ta cần thêm vào 2 hệ số cx và cy để đưa góc thu
nhận ảnh về vị trí ở trung tâm. Do đó công thức (C.1) trở thành:
q = MQ , trong đó q =
xy
ω
,M =
fx 0 cx0 fy cy
0 0 1
và Q =
XY
W
(C.2)
Ma trậnM trong công thức (C.2) được gọi là ma trận nội tại. Trong thực tế không
191
có camera nào hoàn hoản nên khi làm việc với camera luôn phải giải quyết vấn đề biến
dạng hình ảnh.
[15] đưa ra 2 loại: biến dạng bán kính (Radial Distortion), ảnh thu nhận được từ
ống kính thường bị biến dạng ở những chỗ gần cạnh và biến dạng tiếp tuyến (Tangential
Distortion) xảy ra khi không song song với ống kính như Hình C.6.
OÁng kính
AÛnh meùo
Camera thoâng duïng
OÁng kính
Ñieåm
baùn dính
Chíp
caûm bieán
Maët phaúng
aûnh
Ñoái töôïng
hình vuoâng
6
4
2
0
-2
-4
-6
-8
-10
(b). Bieán daïng tieáp tuyeán(a). Bieán daïng baùn kính
-10 -8 -6 -4 -2 0 2 4 6 8 10
Hình C.6 Các loại biến dạng khi thu nhận ảnh
Qua thực nghiệm, biến dạng thường không lớn và có thể chuẩn hóa bằng cách
sử dụng một vài hệ số đầu tiên trong triển khai Taylor xung quanh bán kính r = 0.
Để hiệu chỉnh loại biến dạng này người ta thường thêm 02 hệ số k1 và k2 đối với méo
thông thường, còn trường hợp méo lớn sử dụng thêm hệ số k3. Do vậy, biến dạng bán
kính của một điểm được hiệu chỉnh bởi cặp phương trình sau:
xcorrected = x(1 + k1r
2 + k2r
4 + k3r
6)
ycorrected = y(1 + k1r
2 + k2r
4 + k3r
6)
(C.3)
Trong đó (x, y) là tọa độ của điểm thu nhận bởi camera, (xcorrected, ycorrected) là tọa độ
sau khi đã khử biến dạng.
Bằng cách làm tương tự đối với biến dạng tiếp tuyến thì hai hệ số p1 và p2 được
bổ sung vào hệ tọa độ (x, y) của camera được điều chỉnh bằng cặp phương trình sau:
xcorrected = x+ [2p1y + p2(r
2 + 2x2)]
ycorrected = y + [p1(r
2 + 2y2) + 2p2x]
(C.4)
Năm hệ số ở công thức (C.3) và công thức (C.4) được gom lại thành một ma trận
(5× 1) và gọi là ma trận biến dạng trong công thức (C.5).
Distortioncoefficients = (k1 k2 p1 p2 k3 ) (C.5)
Trong khuôn khổ của luận án, chúng tôi sử dụng phương pháp ô bàn cờ (chess-
192
board) [15] bao gồm các ô hình vuông đen trắng giao nhau, quá trình hiệu chỉnh được
thực hiện khi biết được vị trí giao nhau giữa các ô đen trắng để tính ra các bộ tham
số méo của ảnh. Sau đó kết hợp với tọa độ ảnh thu thập tìm ra tọa độ trong không
gian theo công thức (C.4), trong đó (xcorrected, ycorrected) tọa độ không gian, (x, y) tọa
hộ ảnh thu thập, (r, p1, p2) bộ tham số lấy được từ quá trình hiệu chỉnh camera. Công
thức chuyển tọa độ ảnh sang hệ tọa độ không gian:
xy
ω
=
fx 0 cx0 fy cy
0 0 1
XY
Z
(C.6)
Trong đó (fx, fy) là tiêu cựu của ống kính, (cx, cy) điểm tâm quang, (ω = Z) hệ quy
chiếu thế giới thực.
Quá trình hiệu chỉnh Camera phục vụ việc sửa méo hình ảnh được thực hiện tuần
tự và được mô tả Hình C.7
(a) Hình aûnh chöa hieäu chænh (c) Hình aûnh ñaõ hieäu chænh(b) Hieäu chænh treân chessboard
Hình C.7 Quá trình hiệu chỉnh méo hình ảnh từ camera góc nhìn rộng
Hình C.7 minh họa kết quả hiệu chỉnh camera tại môi trường thử nghiệm của luận
án. Đây là một bước tiền xử lý quan trọng, phục vụ cho các bài toán liên quan đến
hình ảnh như: định vị, phát hiện và ước lượng khoảng cách vật cản...
C.3 Robot PC-Bot914
PC-Bot 914 là robot được nghiên cứu và chế tạo bởi WhiteBox robotic. Đây là
một robot dịch vụ đa chức năng với nền tảng xử lý mạnh bao gồm các thành phần:
- Khối xử lý trung tâm: Được sử dụng là một máy tính chủ (host computer),
có cấu hình iGoLogic i3899 Mini-ITX motherboard, bộ xử lý intel Core 2 DUO 2 GHz,
1 Gbyte, PC3200 DDR 400MHz DIMM (có thể nâng cấp lên 2x1 GB DDR 667MHz),
ổ cứng 80 GB SATA. Cung cấp sức mạnh xử lý và lưu trữ dữ liệu đa phương tiện và
cho phép nâng cấp dễ dàng. ROBOT dùng hệ điều hành Windows. Trên mỗi hệ điều
193
C0189168#06 C0189168#10 C0189168#07 C0189168#08
Hình C.8 Các phiên bản của robot PC-Bot 914
hành đều có cung cấp các môi trường phát triển. Trên windows với khá nhiều phần
mềm như BRAIN, Microsoft Robotic Studio hay là Visual Studio vì 914 PC-Bot đã hỗ
trợ dot Net. Ngoài ra trên một số diễn đàn đã có những chương trình phát triển với
java hay C++. Đối với các phiên bản cài Linux (Ubuntu) thì có công cụ Players.
- Khối điều khiển trung tâm (M3): Hạt nhân của khối là 2 vi điều khiển
CM3410 của hãng Power machine device. Bên cạnh đó là mạch điều khiển động cơ và
mạch giao tiếp. Nhiệm vụ của khối M3 là nhận tín hiệu thiết lập từ Host Computer
(qua cổng USB), tín hiệu từ các cảm biến hồng ngoại (qua mạch giao tiếp) và thực
hiện tất các cả công việc liên quan đến việc chuyển động như điều khiển 2 động cơ
bước. Phần giao tiếp của M3 gồm 8 cổng vào tương tự (Analog_In1 à Analog_In8) để
nhận tín hiệu từ 8 cảm biến hồng ngoại, 8 cảm biến này sẽ cho 8 bit dữ liệu sau khi
tín hiệu được đi qua một bộ ADC. Ngoài ra còn nhiều cổng chưa được sử dụng, như:
8 cổng vào số; 8 cổng ra số; 2 cổng USB; 1 cổng IDC; 10 chân dùng để kết nối với bo
mạch chủ. Ngoài ra còn 30 pin Samtec Conn dùng để kết nối với mạch khối điều khiển
M3 . Trong thế hệ mới thì chỉ có một mạch I/O board Interface vì chỉ cần 1 mạch là
đủ đáp ứng các nhu cầu khác nhau. Tuy nhiên ta có thể chọn 1 hoặc 2 tùy thuộc vào
nhu cầu cụ thể.
- Khối thu thập dữ liệu: 8 cảm biến hồng ngoại phục vụ cho các bài toán liên
quan đến robot di động như: phát hiện và tránh vật cản được bố trí thành 2 phần:
3 cảm biến nằm ở phần thân robot, khoang 8×5.25 trên cùng (ở độ cao khoảng 370
mm). Góc nhìn hơi cúi xuống cho phép 914 PC-BOT có cái nhìn toàn cảnh với 5 cảm
biến nằm ở phần chân đế với góc nhìn nằm ngang, mô tả Hình C.9
- Khối chấp hành: Bao gồm 2 động cơ một chiều điều khiển bộ bánh xe 4 bánh
xe robot trong đó, 2 bánh lớn dẫn hướng, 2 bánh phụ giảm sóc cho robot Hình C.10.
194
(IR1)
(IR2)
(IR3)
(IR4)
(IR5)
90>
25>
0>
-25>
-90>
(a). 05 caûm bieán hoàng ngoaïi phaùt hieän
vaät caûn phía döôùi
(IR 2, IR3, IR4) (IR 1 & IR5)
(b). Vò trí laép caùc caûm bieán hoàng ngoaïi
(IR 6, IR7, IR8)
Hình C.9 Vị trí lắp các cảm biển hồng ngoại IR
Hình C.10 Cơ cấu bánh xe điều khiển của robot PC-Bot 914
195
Các file đính kèm theo tài liệu này:
- luan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_dinh_vi_dua.pdf