BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
NGUYỄN QUỐC HÙNG
NGHIÊN CỨU VÀ PHÁT TRIỂN MỘT SỐ KỸ THUẬT
ĐỊNH VỊ DỰA TRÊN HÌNH ẢNH, ỨNG DỤNG
TRỢ GIÚP DẪN ĐƯỜNG CHO NGƯỜI KHIẾM THỊ
Chuyên ngành: Khoa học Máy tính
Mã số: 62480101
TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH
Hà Nội − 2016
Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
1. TS. Trần Thị Thanh Hải
2. PGS.TS. Nguyễn Quang Hoan
Phản biện 1:
Phản biện 2:
Phản biện 3:
Luận á
27 trang |
Chia sẻ: huong20 | Ngày: 08/01/2022 | Lượt xem: 498 | Lượt tải: 0
Tóm tắt tài liệu Tóm tắt Luận án - Nghiên cứu và phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp dẫn đường cho người khiếm thị, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
n được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ
cấp Trường họp tại Trường Đại học Bách khoa Hà Nội:
Vào hồi..............giờ, ngày.......tháng.......năm.......
Cĩ thể tìm hiểu luận án tại thư viện:
1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2. Thư viện Quốc gia Việt Nam
MỞ ĐẦU
Tính cấp thiết, ý nghĩa khoa học của luận án
Năm 2013, theo cơng bố của Tổ chức Y tế thế giới (WHO) trên thế giới cĩ khoảng 285
triệu người suy giảm thị lực, trong đĩ 246 triệu người cĩ thị lực kém ở mức độ vừa phải
đến mức độ nặng và 39 triệu người mù [19]. Tại Việt Nam, theo số liệu của Viện mắt Trung
ương cung cấp, cĩ khoảng 1.2 triệu người khiếm thị (NKT), trong đĩ 820.503 người khơng
cịn khả năng nhìn thấy ánh sáng. Nếu tính cả những người bị các tật về mắt như cận hoặc
viễn thì con số này cịn lớn hơn rất nhiều.
Số lượng NKT lớn, bản thân NKT gặp nhiều khĩ khăn trong cuộc sống cũng như nắm
bắt các cơ hội việc làm. Chính vì vậy, trợ giúp NKT là vấn đề thu hút sự quan tâm của
nhiều nhà khoa học trong thời gian gần đây. Trong số các yêu cầu trợ giúp, trợ giúp định
hướng là cần thiết và chỉ dẫn để giúp họ tránh các vật cản trên đường đi hay đưa ra các
thơng báo về mơi trường xung quanh.
Trên thực tế, nhiều phương pháp đã được nghiên cứu và triển khai nhằm hỗ trợ định
hướng cho NKT, như sử dụng gậy [8], chĩ dẫn đường [8], hay thiết bị điện tử [2]. Mỗi phương
pháp cĩ những ưu nhược điểm riêng: gậy dẫn đường bị hạn chế phạm vi phát hiện vật cản
theo kích thước của gậy; chĩ dẫn đường thường cĩ chi phí cao và gây trở ngại về tâm sinh
lý đối với người dùng; thiết bị điện tử như các điện cực đặt trên lưỡi cĩ thể gây tâm lý ngại
ngần khi sử dụng.
Trong bối cảnh này, nghiên cứu và phát triển một hệ thống trợ giúp dẫn đường hiệu
quả và thân thiện trợ giúp NKT vẫn là chủ đề đầy thách thức, động lực để NCS thực hiện
đề tài: “Nghiên cứu phát triển một số kỹ thuật định vị dựa trên hình ảnh, ứng dụng trợ giúp
dẫn đường cho người khiếm thị”.
Mục tiêu và những thách thức
Xuất phát từ ý tưởng tạo ra một hệ thống hỗ trợ giống như một người bạn đồng hành
cĩ khả năng giao tiếp thân thiện và hiệu quả. Luận án hướng đến phát triển một hệ thống
trợ giúp định hướng và cảnh báo vật cản cho NKT sử dụng robot di động.
Để đạt được mục tiêu này, robot cần cĩ khả năng nhận biết và di chuyển giữa các vị trí
trong mơi trường và nhận dạng được các vật cản trên đường đi. Do vậy, chúng tơi chia các
mục tiêu đạt được thành ba bài tốn cụ thể:
1. Biểu diễn mơi trường và định vị: Với mục tiêu dẫn đường cho NKT đi từ vị trí
hiện tại đến vị trí mong muốn trong mơi trường, robot phải biết mình đang ở đâu
trong mơi trường và đường đi đến vị trí đích như thế nào. Để giải quyết vấn đề này,
bản đồ mơi trường phải được xây dựng từ trước và robot phải cĩ khả năng định vị từ
một vị trí bất kỳ trên bản đồ. Mặc dù cĩ nhiều phương pháp đã được đề xuất, hướng
tiếp cận tổng quát và bền vững với các yếu tố mơi trường đang là những mục tiêu mà
các nhà khoa học theo đuổi.
2. Phát hiện và ước lượng khoảng cách vật cản: Trong quá trình di chuyển, để đảm
bảo an tồn cho NKT cũng như cho sự di chuyển của robot, các vật cản trong mơi
trường bao gồm vật cản tĩnh và động cần phải được phát hiện và cảnh báo về mức
độ nguy hiểm cĩ thể gây ra. Ngồi các thách thức chung của bài tốn phát hiện đối
tượng trong lĩnh vực thị giác máy tính như điều kiện chiếu sáng thay đổi, che khuất,
1
bĩng, luận án cịn phải giải quyết với chất lượng ảnh khơng tốt do rung lắc của thiết
bị, camera di chuyển và ước lượng khoảng cách giữa NKT và vật cản trong thời gian
thực.
3. Dẫn đường, điều khiển và tương tác người robot: Trong ngữ cảnh của bài tốn
robot dẫn đường thì việc tìm đường tối ưu là một phần quan trọng, đặc biệt với việc
dẫn đường cần phải thực hiện với độ chính xác cao trong khi vẫn đảm bảo an tồn
cho NKT. Bên cạnh đĩ, điều khiển robot di chuyển đúng hành trình, giảm sai số định
vị là một thách thức trong lĩnh vực điều khiển động học. Tương tác người-robot phải
thân thiện, tự nhiên và hiệu quả để NKT cảm nhận được các trạng thái hệ thống đang
hoạt động và đưa ra các phản hồi kịp thời mà khơng mất đi các giác quan tự nhiên là
một bài tốn địi hỏi nhiều thời gian thử nghiệm trên người dùng khiếm thị.
Những điểm mới của luận án
Để giải quyết 03 bài tốn nêu trên, chúng tơi đã đề xuất và cải tiến một số phương
pháp với những đĩng gĩp chính sau đây:
1. Đề xuất mơ hình biểu diễn mơi trường theo hướng tiếp cận lai ngữ nghĩa trong đĩ bản
đồ số liệu và bản đồ topo được tích hợp cùng với các thơng tin về vật cản tĩnh trong
mơi trường.
2. Nâng cao độ chính xác của giải thuật xây dựng bản đồ và định vị sử dụng hình ảnh,
vốn thường được thiết kế cho mơi trường ngồi trời nhưng gặp phải các khĩ khăn khi
hoạt động trong mơi trường trong nhà.
3. Đề xuất phương pháp phát hiện một số vật cản phù hợp với ngữ cảnh của bài tốn
robot dẫn đường.
4. Chứng minh bằng thực nghiệm tính khả thi của giải pháp đề xuất thơng qua việc phát
triển ứng dụng trợ giúp định hướng NKT sử dụng robot.
Cấu trúc của luận án
Luận án gồm 4 chương với nội dung tĩm tắt như sau:
◦ Chương 1: Tổng quan về thống trợ giúp người khiếm thị giới thiệu một số
nghiên cứu trong và ngồi nước về trợ giúp định hướng NKT, phân tích ưu nhược điểm
của các phương pháp và đề xuất hệ thống “Trợ giúp dẫn đường cho NKT di chuyển
trong mơi trường diện hẹp sử dung robot”.
◦ Chương 2: Biểu diễn mơi trường và định vị đề xuất mơ hình biểu diễn mơi
trường và định vị dựa trên hình ảnh. Hai giải thuật với những cải tiến sẽ được giới
thiệu là giải thuật đo hành trình VO nhằm xây dựng bản đồ số liệu, giải thuật xây
dựng bản đồ topo và định vị FAB-MAP sử dụng hình ảnh.
◦ Chương 3: Phát hiện và ước lượng khoảng cách vật cản trình bày một phương
pháp đề xuất cho việc phát hiện vật cản dựa trên kỹ thuật đối sánh ảnh và ước lượng
khoảng cách vật cản dựa trên tính tốn ảnh sai khác từ các quan sát khác nhau trên
01 camera.
◦ Chương 4: Thử nghiệm và đánh giá hệ thống dẫn đường, trình bày hệ thống
dẫn đường hồn chỉnh tích hợp các thiết bị phần cứng và phát triển thêm một số chức
năng khác như tìm đường, điều khiển, tương tác người robot sử dụng các kỹ thuật cơ
bản sẵn cĩ. Phần thử nghiệm và đánh giá trên người dùng khiếm thị 100% khơng nhìn
thấy ánh sáng tại 03 mơi trường khác nhau.
2
CHƯƠNG 1
TỔNG QUAN VỀ HỆ THỐNG TRỢ GIÚP
NGƯỜI KHIẾM THỊ
1.1 Đặt vấn đề
1.2 Các nghiên cứu liên quan
1.2.1 Các nghiên cứu trên thế giới
1.2.2 Các nghiên cứu trong nước
1.2.3 Thảo luận
Các nghiên cứu và phân tích trên đây cho thấy các phương pháp trợ giúp NKT hiện tại
cĩ một số ưu nhược điểm sau:
Các phương pháp sử dụng laser, lidar, siêu âm cho phép xác định nhanh và trợ giúp
cảnh báo thơng tin vật cản cho NKT hoặc hỗ trợ trong quá trình đi lại. Tuy nhiên
nhĩm các phương pháp này khơng xác định đối tượng vật cản là gì, mức độ nguy hiểm
ra sao và khơng cĩ khả năng dẫn đường NKT trong mơi trường.
Các phương pháp sử dụng hình ảnh địi hỏi kỹ thuật xử lý hình ảnh phức tạp hơn,
tuy nhiên lượng tin nhiều hơn, cho phép phân loại đối tượng, xác định khoảng cách
và mức độ nguy hiểm. Cho nên nhĩm các phương pháp này gặp nhiều thách thức của
các bài tốn thị giác máy tính, dẫn hướng sử dụng hình ảnh, v.v.
Trong tất cả các phương pháp nêu trên, khơng cĩ phương pháp nào thực hiện dẫn
đường cho NKT đến vị trí mong muốn mà chỉ hỗ trợ trong quá trình đi lại. Các
phương pháp cảnh báo vật cản chỉ dừng lại ở cảnh báo cĩ hay khơng mà khơng chỉ rõ
đối tượng và mức độ nguy hiểm là gì.
1.3 Mục tiêu nghiên cứu và phương pháp đề xuất
1.3.1 Mục tiêu và phạm vi nghiên cứu
Trong khuơn khổ của LATS, chúng tơi đi theo hướng tiếp cận sử dụng cảm biến camera
bởi lượng thơng tin hình ảnh thu thập được phong phú, cho phép đồng thời thực hiện bài
tốn dẫn đường và phát hiện vật cản. Hơn nữa, cảm biến hình ảnh ngày càng cĩ giá thành
rẻ và thơng dụng với người dùng. Mục tiêu chúng tơi muốn hướng đến là:
− Nghiên cứu và phát triển một số kỹ thuật định vị sử dụng thơng tin hình ảnh hiệu quả
phù hợp với mơi trường trong nhà
− Ứng dụng triển khai hệ thống trợ giúp dẫn đường và cảnh báo vật cản cho NKT một
cách hiệu quả và thân thiện.
Trong LATS này, trợ giúp dẫn đường được hiểu là dẫn NKT di chuyển đến vị trí mong
muốn trên bản đồ với các cảnh báo về vật cản. Khi thiết kế một hệ thống, chúng tơi đều phải
dựa trên một số ràng buộc theo đặc thù của mơi trường triển khai. Mơi trường trong nhà
hay ngồi trời đều cĩ những thách thức riêng. Do vậy chúng tơi giới hạn pham vi nghiên cứu
là mơi trường trong nhà diện hẹp ví dụ như hành lang tịa nhà cĩ gắn các thiết bị (wi-fi),
3
cảm biến (camera) cho phép thu thập các tín hiệu của mơi trường nhằm phục vụ cho các
ứng dụng khác nhau. Hệ thống đề xuất chỉ phục vụ 01 người dùng tại một thời điểm.
1.3.2 Phương pháp đề xuất
Các thành phần chính của hệ thống đề xuất được mơ tả như trong Hình 1.1 gồm robot
di động cĩ gắn camera thu nhận hình ảnh mơi trường, thực hiện các phép xử lý tính tốn
để trả lời 02 câu hỏi chính: i) robot đang ở đâu? cĩ những vật cản gì? ii) làm thế nào để dẫn
NKT đi đến vị trí mong muốn? khi NKT sử dụng điện thoại di động cĩ kết nối khơng dây
để điều khiển và nhận phản hồi từ hệ thống. Trong quá trình dẫn, NKT bám vào một điểm
trên robot để đi theo.
• Mạng Wireless
• Điện thoại
thông minh
• Camera
Hình 1.1 Các thành phần chính của hệ thống đề xuất Robot trợ giúp NKT
Để trả lời các câu hỏi đã đặt ra, 5 bài tốn sau sẽ lần lượt giải quyết trong các chương
2, 3, 4 của luận án:
Biểu diễn mơi trường (chương 2): Do yêu cầu của bài tốn là dẫn đường giữa hai vị
trí nên bản đồ của mơi trường cần phải xây dựng từ trước ở pha ngoại tuyến.
Định vị (chương 2): Để dẫn đường đến vị trí mong muốn, robot cần phải biết vị trí
hiện tại của nĩ ở đâu trên bản đồ mơi trường.
Phát hiện và ước lượng khoảng cách vật cản (chương 3): Để cảnh báo vật cản, các vật
cản tĩnh và động trong mơi trường phải được phát hiện và khoảng cách từ robot đến
vật cản phải được ước lượng.
Tìm đường và điều khiển di chuyển (chương 4): Để dẫn đường, robot phải tìm đường
từ vị trí hiện tại đến vị trí đích và phải được điều khiển để di chuyển giữa hai vị trí.
Tương tác người - hệ thống (chương 4): Yêu cầu của người dùng và đáp ứng của hệ
thống phải được thực hiện một cách tự nhiên, thân thiện và hiệu quả.
Trong phạm vi nghiên cứu của luận án, chúng tơi tập trung nghiên cứu giải quyết bài
tốn 1, 2, 3 và phát triển ứng dụng hồn chỉnh. Các bài tốn cịn lại được giải quyết dựa
trên các cơng cụ cĩ sẵn.
1.4 Kết luận chương 1
4
CHƯƠNG 2
BIỂU DIỄN MƠI TRƯỜNG VÀ ĐỊNH VỊ
2.1 Giới thiệu chung
2.2 Những nghiên cứu liên quan
2.3 Đề xuất hướng tiếp cận lai ngữ nghĩa biểu diễn mơi trường
Xuất phát từ mục tiêu của luận án nghiên cứu phương pháp định vị sử dụng hình ảnh
hỗ trợ cho bài tốn trợ giúp dẫn đường cho NKT, chúng tơi đề xuất mơ hình biểu diễn mơi
trường theo hướng tiếp cận lai ngữ nghĩa.
Ý nghĩa của cụm từ lai ngữ nghĩa được giải thích như sau. Bản đồ của mơi trường được
cấu thành từ bản đồ số liệu và bản đồ topo. Ngồi ra, các thơng tin vật cản tĩnh của mơi
trường ở từng vị trí trên bản đồ cũng được xác định và đưa vào mơ hình biểu diễn mơi
trường như mơ tả trong Hình 2.1 dưới đây:
bb b
bbb
Li = {Mi, Z
i, Oi}
b
b
b
L1
LN
b
LN = {L1, L2, ..., LN}
◦ Bản đồ được biểu diễn theo cấu trúc topo gồm một tập
N điểm trong mơi trường sao cho tồn tại đường đi giữa
hai điểm kề cận:
Li
Điểm mốcbb
◦ Mỗi điểm Li với i = 1, N chứa các thơng tin sau:
Trong đĩ:
1. Mi = {xi, yi, zi} tọa độ điểm mốc trong hệ quy chiếu
đã được định nghĩa. Tọa độ được tính theo đơn vị (m)
2. Zi: Mơ hình quan sát tại vị trí Li
3. Oi = {Oi1 , Oi2 .., Oij}: Tập vật cản xuất hiện trên ảnh Ii
vị trí Li thu nhận
ĐỊNH NGHĨA CÁC THÀNH PHẦN:
Phịng ngủ
Phịng ngủ
Phịng ngủ
Phịng ngủ
Phịng họpWC
WC
Ii
b
b
b
b
b
b
b
b
b
số 6
số 5
số 4
số 3
x(m)
(0, 0)
y(m)
Hội trường
Hình 2.1 Mơ hình biểu diễn mơi trường theo hướng tiếp cận lai ngữ nghĩa
Để biểu diễn mơi trường theo mơ hình này, các nhiệm vụ sau cần thực hiện:
5
1. Xác định các vị trí mốc trong mơi trường Li với i = 1, N
2. Xác định tọa độ các vị trí mốc trong mơi trường Mi = (xi, yi, zi).
3. Xác định các vật cản Oi = {Oi1, Oi2...Oij} trên ảnh Ii thu tại vị trí Li. Tập vật cản
Oi thuộc các tập định nghĩa từ trước và hình dạng vật cản khơng ảnh hưởng đến mơ
hình biểu diễn, chi tiết phương pháp xác định vật cản được trình bày tại CHƯƠNG
III của luận án.
2.4 Phương pháp xây dựng bản đồ mơi trường
2.4.1 Xây dựng bản đồ số liệu
Bài tốn đo hành trình sử dụng hình ảnh được phát biểu như sau: Cho trước chuỗi hình
ảnh liên tiếp thu thập từ camera I = {I1, I2, ..., IN} trong đĩ N là tổng số ảnh thu thập được.
Xác định vị trí camera của trong quá trình di chuyển P = {P1, P2, ...PN−1}. Nếu vị trí ban
đầu được biết trước, vị trí tiếp theo được xác định bởi một phép biến đổi T trừ đi vị trí trước
đĩ đến vị trí hiện tại, trong đĩ T cấu thành từ chuyển động tịnh tiến tii−1 và chuyển động
quay Rii−1 của camera giữa thời điểm hiện tại i và thời điểm trước đĩ i− 1.
T ii−1 =
[
Rii−1 t
i
i−1
0 1
]
(2.1)
trong đĩ T ii−1 ∈ ℜ3×3, tii−1 ∈ ℜ1×3, Rii−1 ∈ ℜ2×3.
Phương pháp VO của Van Hamme và đồng nghiệp đề xuất năm 2011 [13] được đánh giá
trong mơi trường ngồi trời với camera lắp đặt trên xe chạy với tốc độ 70km/h. Khi áp dụng
vào mơi trường trong nhà với camera gắn trên robot đi với tốc độ chậm, phương pháp này
gặp một số khĩ khăn và thách thức. Trong phần dưới đây, chúng tơi sẽ trình bày trước tiên
phương pháp VO, các thích nghi VO trong nhà gọi tắt là VO* sẽ được trình bày sau đĩ.
2.4.1.1 Phương pháp đo hành trình bằng hình ảnh sử dụng mơ hình khơng chắc chắn
Ý tưởng của giải thuật VO đề xuất trong [13] sử dụng mơ hình khơng chắc chắn của
chuyển động của camera và chuyển động của xe để tính tốn các tứ giác tương ứng với các
điểm đặc trưng tại khung hình hiện tại cũng như chuyển động của các điểm đặc trưng trong
khung hình trước đĩ. Sau đĩ chuyển động của camera giữa hai khung hình liên tiếp được
ước lượng từ sự chồng lấp của các tứ giác.
Với chuỗi hình ảnh liên tiếp thu thập được I = {I1, I2, ..., IN}, thuật tốn VO gồm N−1
bước lặp, tại bước lặp thứ i với i = 2, N thực hiện các bước:
1. Trích chọn đặc trưng Harris Corner[14] trên khung hình Ii. Chi tiết phương pháp trích
chọn đặc trưng cĩ trong PHỤ LỤC A.1 của luận án.
E(u, v) =
∑
w
[I(x+ u, y + v)− I(x, y)]2 (2.2)
Trong đĩ: E(u, v) là hàm tương quan tính tốn trên ảnh I; u, v là dịch chuyển của điểm
x, y trên hàm cửa số w, khi đĩ w nhận hai giá trị 0/1 hoặc thơng qua hàm Gaussian
xác định giá trị cho w.
Kết quả thu được là tập Mi điểm đặc trưng {KPij} với j = 1,Mi. Số điểm đặc trưng
quyết định bởi ngưỡng θV O đưa vào tính Cơng thức (2.3). KPij phụ thuộc vào R là
việc lấy ngưỡng θV O (R ≥ θV O) và R là các đáp ứng gĩc tính như sau:
R = λ1λ2 − k(λ1 + λ2)
2 (2.3)
6
2. Tính tốn các PUTij tương ứng với các đặc trưng KPij dựa trên mơ hình khơng chắc
chắn của camera. Cụ thể mỗi PUTij là một hình tứ giác bao quanh điểm KPij . Mỗi
gĩc của tứ giác được xác định từ một tổ hợp của bộ (gĩc ngẩng, gĩc nghiêng) của
camera.
3. Tính tốn các MUTij tương ứng với các đặc trưng Harris KPij dựa trên mơ hình
chuyển động khơng chắc chắn của robot. Cụ thể mỗi MUTij là một hình tứ giác bao
quanh điểm KPij. Mỗi gĩc của tứ giác được xác định từ một tổ hợp của bộ (vận tốc,
gĩc lái) của robot.
4. Tạo ảnh tương đồng giữa các PUTij ở thời điểm i với các MUTi−1j ở thời điểm trước
đĩ i − 1. Ảnh này thể hiện mức độ tương đồng trong khơng gian của gĩc lái và vận
tốc, Giá trị điểm ảnh lớn nhất biểu thị tọa độ sự tương đồng giữa PUT và MUT lớn
nhất, tương ứng với giá trị gĩc lái và vận tốc cần xác định cho phép ước lượng tham
số chuyển động của camera, từ đĩ tái tạo lại hành trình di chuyển.
Bước lặp thứ i:
Ii,MUTi−1,k
k = 1,Mi−1
Ii Trích chọn đặc trưng
Harris trên ảnh Ii
KPij
j = 1,Mi
Tính các PUT
trên ảnh Ii
Tính các MUT
trên ảnh Ii
KeyPoint(Harris corners)
PUTi MUTi
PUTij
j = 1,Mi
MUTij
j = 1,Mi
Tính ảnh tương đồng từ
PUTij
j = 1,Mi
và MUTi−1
i = 1,Mi−1
Xếp chồng PUTi và MUTi Ảnh
tương đồng
-60 -50 -40 -30 -20 -10 0 10
-10
0
10
20
30
40
50
60
70
80
90
Hành trình đo được
Ước lượng tham số
T ii−1;R
i
i−1
PUT: Perspective Uncertainty Tetragons
MUT: Motion Uncertainty Tetragon
E(u, v) =
∑
w[I(x+ u, y + v) − I(x, y)]
2
R = λ1λ2 − k(λ1 + λ2)2
R ≥ θV O
Hình 2.2 Các bước giải thuật đo hành trình bằng thơng tin hình ảnh VO
Khi triển khai giải thuật VO ở một số mơi trường trong nhà khác nhau (hành lang của
7
tịa nhà) thì hành trình tái tạo được bị sai số nhiều so với thực tế, nhất là tại một số vị trí
khi robot thực hiện phép quay (xem Hình 2.3).
140
120
100
80
60
40
20
5025
y(m)
Thực địa
Bản đồ
(a) Trường THCS Nguyễn Đình Chiểu
0-25-50
x(m)
120
100
80
60
40
20
5025
y(m)
0-25-50
x(m)
(b) Thư viện Tạ Quang Bửu – ĐHBK Hà Nội
140 140
60
50
40
30
20
10
10
y(m)
0-30-40
x (m)
-10-20
(c) Viện nghiên cứu MICA – ĐHBK Hà Nội
Thực địa
Bản đồ
Thực địa
Bản đồ
Hình 2.3 Một số trường hợp lỗi tích lũy khi xây dựng bản đồ
2.4.1.2 Thích nghi VO cho mơi trường trong nhà
Để nâng cao độ chính xác của bản đồ tái tạo, chúng tơi đề xuất một giải pháp đơn giản
dễ thực hiện để nâng số điểm đặc trưng phát hiện được trên mỗi khung hình. Cụ thể chúng
tơi tạo các điểm đánh dấu trên đường đi (xem Hình 2.4) với quy trình tạo các điểm đánh
dấu trên mặt sàn như sau:
(b) Phĩng to vùng đánh dấu(a) Tạo các điểm đánh dấu
trên dọc hành trình
Hình 2.4 Tạo các điểm đánh dấu dọc hành trình
− Số lượng điểm đánh dấu trên mặt sàn diện tích S = 1m2 cĩ từ 16-20 điểm đánh dấu
dán cách đều nhau từ 15-20 cm (xem Hình 2.5).
− Hình dáng của điểm đánh dấu là hình cĩ gĩc cạnh chữ nhật, hình vuơng, bình hành
(do ưu điểm của đặc trưng Harris Corner [14] phát hiện gĩc). Các mẫu khác như hình
trịn, elip...khơng khuyến khích sử dụng vì số phát hiện trên các điểm đánh dấu này
là rất ít (xem Hình 2.6d)
− Khơng phân biệt màu sắc của các điểm đánh dấu như trắng, đen, vàng, đỏ...(xem Hình
2.6b)
8
− Tạo các điểm đánh dấu quá dày (số điểm đánh dấu > 100 điểm/1m2) hoặc quá thưa
(số điểm đánh dấu <= 3 điểm /1m2) đều ảnh hưởng đến việc đối sánh ảnh liên tiếp
(xem Hình 2.6c), nếu giải ngẫu nhiên khĩ kiểm sốt phân bố đặc trưng (xem Hình
2.6a).
Dưới đây là kết quả khi thực hiện thích nghi giải thuật VO* trong nhà với phương pháp
tạo điểm đánh dấu.
(a) Chưa đánh dấu (b) Đã tạo các điểm đánh dấu
Hình 2.5 Minh họa số điểm đặc trưng phát hiện trên mặt sàn
Ngồi ra, chúng tơi thực hiện thêm các thí nghiệm khác nhau thể khẳng định những
lập luận phía trên và khuyến cáo cho người phát triển hệ thống khi thực hiện VO* trong
mơi trường trong nhà.
a) Tạo các điểm đánh dấu ngẫu nhiên b) Không phân biệt màu sắc
d) Phụ thuộc vào hình dạng của mẫu đánh dấud) Tạo các điểm đánh dấu quá dày
Hình 2.6 Minh họa phương pháp thử nghiệm khi tạo các mẫu đánh dấu
Cách làm này dễ thực hiện song, cho phép nâng cao độ chính xác của hành trình tái tạo sẽ
được trình bày chi tiết trong phần thực nghiệm của luận án.
9
2.4.2 Xây dựng bản đồ topo
Trong luận án này, chúng tơi đi theo hướng tiếp cận chỉ xác định một số điểm mốc phân
biệt trên bản đồ để tạo bản đồ topo. Thuật tốn FAB-MAP[6] được lựa chọn để thưa hĩa cĩ
chọn lọc các vị trí trên bản đồ số liệu. Tuy nhiên FAB-MAP thuộc nhĩm các phương pháp
SLAM vừa định vị vừa xây dựng bản đồ khơng cho phép dẫn đường giữa hai vị trí trong
mơi trường. Ngồi ra, FAB-MAP được thử nghiệm ngồi trời với camera gắn trên xe chạy
với tốc độ cao, khung cảnh thay đổi liên tục. Khi áp dụng vào mơi trường trong nhà giải
thuật cũng gặp những khĩ khăn cần khắc phục. Trong phần tiếp theo, chúng tơi sẽ trình
bày sơ lược ý tưởng của giải thuật FAB-MAP gốc đồng thời trình bày các cải thiện và thích
nghi giải thuật này để tạo bản đồ topo và định vị.
2.4.2.1 Giải thuật FAB-MAP [6]
2.4.2.2 Thích nghi và cải thiện FAB-MAP xây dựng bản đồ topo
Trong luận án, chúng tơi thích nghi giải thuật FAB-MAP gốc để xây dựng bản đồ topo
ở pha ngoại tuyến là đĩng gĩp chính thứ hai của luận án. Để dễ gợi nhớ, chúng tơi tạm gọi
là FAB-MAP* minh họa ở Hình 2.7 dưới đây:
Tập ảnh huấn luyện
CSDL
túi từ
Pha ngoại tuyến (Off-line)
CSDL
từ đồng
xuất hiện
và Tập vị trí trên bản đồ:
Ik
Zk
Tính P (Li|Zk) i = 1, nk
Zk = {Zk, Z
k−1}
Tại thời điểm k
max(P (Li|Z
k)) > θ
i = 1, nk
Cập nhật
(t) (k)
Biểu diễn mơ hình
túi từ (BOW)
Xác định khung cảnh phân biệt sử dụng
đặc trưng GIST: {Ii1 , Ii2 , ..., Iin} ∈ I
I1 I2 Inb bb b b b b b
Xây dựng mơ hình
túi từ (BOW)
Xây dựng cây
nhị phân(ChowLiu)
CSDL
bản đồ
lai
Ánh xạ lên các vị trí bản đồ mơi trường
I1
LN = {L1, L2, ..., LN}
I2 I2 IN
Lnk = {L1, L2, L3..., Lnk}
Đúng Sai
Lk
Tạo mới Lnk+1
Lk+1 = {L1, ..., Lnk+1}
b b b b b b b b
b
b
bb b
b
b
b
L1 L2 L3
LN
Bản đồ mơi trường
Hình 2.7 Minh họa các bước thực hiện giải thuật FAB-MAP*
10
(a) Xác định cảnh phân biệt để giảm các quan sát trùng lặp: Khi áp dụng FAB-
MAP gốc vào mơi trường trong nhà với ngữ cảnh là một robot di chuyển với tốc độ chậm
(300 mm/s), các quan sát liên tiếp là rất giống nhau ảnh hưởng đến chất lượng của từ điển
cũng như khả năng xác định vị trí đã qua.
Bài tốn xác định khung cảnh phân biệt được mơ tả như sau: Giả thiết cĩ một chuỗi N
khung hình liên tiếp I = {I1, I2, ..., IN}. Xác định tập con của Id ∈ I với Id = {Ii1, Ii2, ..., Iid}
trong đĩ các khung cảnh Iij là phân biệt. Để xác định Iij với Iik là phân biệt, cĩ thể kiểm
chứng bằng hàm khoảng cách D(Iij, Iik).
D(Iij, Iik) = ED(Gist(Iij), Gist(Iik)) (2.4)
Trong đĩ ED là khoảng cách giữa hai vector trong khơng gian.
Việc xác định các khung cảnh riêng biệt thực hiện bằng giải thuật sau đây. Đầu vào là
một chuỗi các hình ảnh liên tiếp thu thập từ camera: I = {I1, I2...IN}.
- Tính tốn sai khác giữa hai khung hình liên tiếp Ii và Ii−1: Sai khác này được định
nghĩa là khoảng cách Euclid Di giữa hai vector đặc trưng GIST tương ứng Fi, Fi−1.
- Kiểm tra nếu Di > θGist thì Ii được lựa chọn là khung hình phân biệt, trong đĩ θGist
là ngưỡng xác định trước bằng thực nghiệm quyết định số lượng khung hình giữ lại.
Theo [20], [18] đặc trưng GIST trích chọn thể hiện các tính chất quan trọng như tính
tự nhiên, tính mở, độ nhám, độ chắc chắn, cho phép trình bày cấu trúc khơng gian của một
cảnh. Chi tiết đặc trưng GIST cĩ trong PHỤ LỤC A.4 của luận án.
(b)
(a)
1
0.8
0.6
0.4
0.2
0
20 40 60 80 100 120 140 160 180 200
Khoảng cách D
Số khung hình
θGist
Hình 2.8 Xác định các khung cảnh cĩ cấu trúc giống nhau
Để thực hiện điều này, chúng tơi áp dụng nguyên lý trích đặc trưng GIST dựa trên phép
biến đổi Gabor [21] theo các hướng, tần số khác nhau và được tính theo Cơng thức (2.5):
h(x, y) = e
− 1
2
(
x2
δ2x
+ y
2
δ2y
)
e−j2pi(u0x+v0y) (2.5)
Trong đĩ, tham số (δx, δy) là độ lệch chuẩn của hàm Gauss theo hướng x, y; (u0, v0) là các
thành phần tần số trung tâm của bộ lọc Gabor.
Chúng tơi chuẩn hĩa ảnh đầu vào được đưa về dạng vuơng, chia thành lưới (4×4) theo
8 hướng tương ứng. Do đĩ, vector GIST được tính tốn sử dụng phổ năng lượng của 32 đáp
ứng. Đồng thời tính tốn trung bình trên mỗi lưới (16 × 16) điểm ảnh trên mỗi đáp ứng,
như thể hiện. Như vậy kích thước vector GIST giảm xuống 512 chiều. Kết quả trích chọn
đặc trưng GIST phục vụ việc phân loại khung cảnh minh họa như Hình 2.8.
11
(b) Chuyển pha trực tuyến của FAB-MAP về hoạt động ngoại tuyến để xây
dựng tồn bộ bản đồ mơi trường: Sau khi đã xác định các cảnh phân biệt, các ảnh
này được đưa vào pha ngoại tuyến để xây dựng từ điển và cây Chow Liu. So với FAB-MAP,
đầu vào của FAB-MAP* là tập các ảnh đã thu thập từ trước về trên hành trình khai phá
đường đi trong mơi trường. Việc này cĩ thể chạy một lần hoặc nhiều lần với các dữ liệu
đường đi khác nhau để làm giàu số vị trí trên bản đồ.
ff fifl
ff fifl
ffi !" ff fifl
fi# !
$ff fifl
fi# !
%
%
&'(
'(
)*+ ,-. /
012 3 *+ ,-.
4,5 , / 6,7 8
4,5 , / 6,7 9
Hình 2.9 Minh họa bước thực hiện cập nhật điểm mốc quan trọng
2.4.3 Bổ sung thơng tin đối tượng vật cản tĩnh trên bản đồ
Bản đồ topo được xây dựng từ giải thuật FAB-MAP* cĩ thêm các thơng tin về tọa độ
của mỗi vị trí trên bản đồ từ giải thuật VO*. Sau đĩ trên mỗi vị trí của bản đồ, chúng tơi
bổ sung các thơng tin đối tượng vật cản tĩnh để thực hiện dự báo khả năng cĩ vật cản ở pha
trực tuyến một cách nhanh chĩng. Thơng tin về tọa độ trên ảnh và tọa độ thể giới thực sẽ
được lưu để sử dụng ở pha phát hiện vật cản sẽ trình bày trong CHƯƠNG III của luận án.
2.5 Phương pháp định vị
Sau khi đã xây dựng bản đồ topo số liệu ở pha ngoại tuyến, việc định vị ở pha trực
tuyến trở nên thuận lợi hơn. Ở pha trực tuyến, camera thu nhận ảnh Ik, quan sát từ đầu
đến thời điểm k là Zk như định nghĩa ở phần trên. Thực hiện tính xác suất mà quan sát Zk
cĩ thể ở vị trí Li trên bản đồ LN = {L1, L2, ..., LN} với mọi giá trị i = 1, N .
p
(
Li|Z
k
)
=
p
(
Zk|Li, Z
N
)
p
(
Li|Z
N
)
p (Zk|ZN)
(2.6)
2.6 Kết quả thực nghiệm
Phần thực nghiệm được tiến hành tại 03 mơi trường khác nhau: (i) Trường THCS
Nguyễn Đình Chiểu Hà Nội; (ii) Thư viện Tạ Quang Bửu; (iii) Viện nghiên cứu quốc tế
MICA - Trường Đại học Bách Khoa Hà Nội.
2.7 Kết luận chương 2
Kết quả chính của chương này đã được cơng bố tại: Tạp chí KH&CN các trường đại
học kỹ thuật, số 101 tháng 7/2014; Hội nghị quốc tế ICCE lần thứ 5, tháng 8/2014; Hội nghị
quốc tế ATC lần thứ 6, tháng 10/2003; Tạp chí quốc tế Multimedia Tools and Applications
(ISI)- Springer, 01/2016.
12
CHƯƠNG 3
PHÁT HIỆN VÀ ƯỚC LƯỢNG KHOẢNG CÁCH VẬT CẢN
3.1 Định nghĩa bài tốn và các thách thức
Bài tốn phát hiện và ước lượng khoảng cách vật cản được phát biểu như sau:
+ Đầu vào: Quan sát hiện tại của camera Ik. Với quan sát này, chương 2 đã trình bày
phương pháp xác định vị trí tương đối của robot Pk = (xk, yk, zk = 0) trên bản đồ mơi
trường.
+ Đầu ra: Tập n vật cản Ok = {Oi(xik, yik), i = 1, n} với các vị trí tương ứng trên bản
đồ.
Robot
Trường nhìn của camera
Vật cản
Bình cứu hỏa
~ 1.5m
Người
~ 2.5m
Người
Chậu
hoa
Bình cứu hỏa
Chậu
hoa
Chậu
hoa
Thùng
rác
Hình 3.1 Định nghĩa bài tốn phát hiện và ước lượng khoảng cách
Hình 3.1 minh họa ngữ cảnh của bài tốn và các kết quả mong muốn đạt được. Trong
ví dụ này robot cĩ gắn camera di chuyển trong mơi trường, chậu hoa, bình cứu hỏa, thùng
rác là các vật cản tĩnh trong mơi trường, người là vật cản động xuất hiện bất ngờ.
3.2 Những nghiên cứu liên quan
3.3 Đề xuất phương pháp phát hiện và ước lượng khoảng cách
Trong luận án, chúng tơi thực hiện hai cơng việc chính: (i) Phát hiện vật cản nằm trên
đường đi mà NKT di chuyển qua; (ii) Ước lượng khoảng cách vật cản tới robot nhằm đưa
ra các thơng tin cảnh báo.
13
SƠ ĐỒ CÁC BƯỚC TÍNH TỐN
b
b
b
b
b
b
b
b
bbbbbbbb
b
Ảnh Ik
Ảnh Ik−t
Xây dựng bản đồ
chênh lệch Ik, Ik−t
(t: giây)
Lk = {(xk, yk), Z
k, (O1, O2, ...Ok)}
b
(t: giây)
Lk
Lk−t
b
bb
L1
LN
Bản đồ mơi trường
(thời gian)
Ik
Phát hiện vật cản tĩnh
Phát hiện người
HoG-SVM
Đối sánh các điểm
đặc trưng (Ik, I∗k )
Phát hiện
các vật cản: Oi
b
Tính khoảng cách
(từ Oi Robot)
Ảnh I∗k
Robot
Dự đốn khoảng cách
L = {L1, L2, ...Lk, ...LN}
Vị trí Lk :
Quan sát hiện tại
Quan sát trước t(giây)
Ảnh huấn luyên trong CSDL
L2
Hình 3.2 Mơ hình phát hiện và ước lượng khoảng cách vật cản
− Phát hiện vật cản: Chúng tơi phân chia các vật cản thành hai nhĩm: vật cản tĩnh
và vật cản động. Vật cản tĩnh là các đối tượng như chậu hoa, bình cứu hỏa, thùng rác.
Vật cản động là các đối tượng di chuyển trong mơi trường (người).
− Ước lượng khoảng cách vật cản: chúng tơi lấy ý tưởng dự đốn khoảng cách từ hệ
thống camera-stereo, trong ngữ cảnh của bài tốn chúng tơi chỉ sử dụng duy nhất 01
camera thơng thường duy nhất gắn trên robot chuyển động, quan sát hình ảnh tại hai
thời điểm khác nhau.
3.4 Phát hiện vật cản
3.4.1 Phát hiện vật cản cố định
Như đã trình bày trong các CHƯƠNG I và II, bản đồ mơi trường được biểu diễn là
một tập các điểm quan trọng trong mơi trường LN = {L1, L2, ...Lk, ...LN}. Với mỗi điểm Li,
tương ứng là ảnh Ii, đặc tả bởi quan sát Z i và tập tất cả các đối tượng cĩ thể quan sát được
tại thời vị trí Li: {Oi1, Oi2, ..., Oini}.
Tại thời điểm k, camera thu nhận ảnh Ik, nhờ giải thuật định vị đã được trình bày
trong CHƯƠNG II, vị trí của robot được xác định tương ứng L∗k. Tại vị trí L∗k này, tương
ứng với quan sát của robot I∗k , tập các vật cản trong mơi trường cũng đã được xác định và
lưu sẵn: {Ok1, Ok2, ..., Oknk}.
14
Ảnh mẫu
Ảnh hiện thời
Đối sánh điểm
đặc trưng
bc1 bc2 bc3
Xác định vùng
chứa đối tượng
Phương pháp đối sánh ảnh mẫu (template matching)
Ik
I∗k
Kết quả định vị
Phát hiện
Đối tượng
Kết quả
Hình 3.3 Sơ đồ các bước thực hiện phát hiện vật cản cố định
3.4.2 Phát hiện vật cản động
Căn cứ vào kết quả đánh giá, chúng tơi lựa chọn phương pháp sử dụng kết hợp HoG-
SVM [7] [5] cho trong bài tốn phát hiện người bởi tính phổ dụng và tính hiệu quả của nĩ
trong nhiều ứng dụng. Phần dưới đây chúng tơi phân tích kỹ hơn về phương pháp này.
Ảnh
huấn luyện
Ảnh
nhận dạng
Tiền xử lý
Tính tốn đặc trưng HoG
Tính tốn
Gradient
Tính HoG
trên các Cell
Chuẩn hĩa
Block Nhận dạng
Huấn luyện Huấn luyện
Mơ hình
Kết quả
Bộ phân loại SVM
bc1 bc2 bc3 bc4
Hình 3.4 Sơ đồ các bước phát hiện người sử dụng HoG-SVM
3.5 Uớc lượng khoảng cách vật cản
3.5.1 Nguyên lý phương pháp ước lượng khoảng cách
Gọi D là khoảng cách từ vật cản tới camera tính như sau:
D =
Bx0
2 tan(ϕ0
2
+∆ϕ)(x1 − x2)
(3.1)
Từ đây Cơng thức (3.1) đưa về biểu diễn về dạng hàm mũ như sau:
D = k ∗ xd (3.2)
Trong đĩ: hệ số k = Bx0
2 tan(
ϕ0
2
+∆ϕ)
; x =
Các file đính kèm theo tài liệu này:
- tom_tat_luan_an_nghien_cuu_va_phat_trien_mot_so_ky_thuat_din.pdf