Kỹ thuật Điều khiển – Tự động hóa
Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán học sâu tăng cường DQN.” 48
NGHIÊN CỨU BÀI TOÁN TRÁNH VẬT CẢN
CHO RÔ BỐT TỰ HÀNH TRÊN CƠ SỞ ỨNG DỤNG
HỌC SÂU TĂNG CƯỜNG DQN
Đỗ Nam Thắng1*, Phạm Trung Dũng2, Nguyễn Quang Hùng1
Tóm tắt: Bài toán tránh vật cản động cho robot tự hành trên cơ sở ứng dụng các
công cụ trí tuệ nhân tạo là một hướng nghiên cứu thuộc lĩnh vực điều khiển robot
thông minh. Trong bài báo này, chúng tôi giải quyết bà
9 trang |
Chia sẻ: huongnhu95 | Lượt xem: 610 | Lượt tải: 0
Tóm tắt tài liệu Nghiên cứu bài toán tránh vật cản cho rô bốt tự hành trên cơ sở ứng dụng học sâu tăng cường DQN, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
i toán thông qua dự báo
hành vi và kỹ thuật học sâu tăng cường QDN (Deep Q learning). Robot tự hành
trong nghiên cứu là loại robot có 2 bánh xe chủ động điều khiển độc lập. Các kết
quả thu được chứng tỏ tính hiệu quả của hướng tiếp cận, robot có thể dự đoán hành
vi của vật cản dựa trên bộ nhớ hành vi trước đó mà không cần mô hình hóa robot.
Từ khóa: Robot tự hành; Tránh va chạm chủ động; Thuật toán DQN; Turtlebot3.
1. GIỚI THIỆU
Các phương pháp tránh chướng ngại vật cục bộ luôn hoạt động bằng cách tính toán
hướng cho robot đi vào nhưng không tính đến động lực học của robot. Ví dụ: các cách tiếp
cận Trường thế năng [1, 8] sử dụng tổng các vectơ đặc trưng của lực hút và lực đẩy để tính
toán mục tiêu robot mong muốn. Việc kiểm soát tốc độ được thực hiện bằng cách chọn
vận tốc tỷ lệ với độ lớn của vectơ thế năng. Phương pháp Biểu đồ trường Vector [2] cải
thiện phương pháp này bằng cách tính toán biểu đồ cực một chiều, sau đó được xử lý để
phát hiện các khu vực mở để robot di chuyển qua. Vận tốc của robot, được chọn sau khi đã
chọn hướng, tỷ lệ thuận với khoảng cách đến chướng ngại vật phía trước. Mặc dù phương
pháp này tạo ra sự di chuyển mượt mà hơn và có thể xử lý cả các khe hẹp và rộng nhưng
giống như phương pháp Trường thế năng, không tính đến thực tế là khi robot quay chúng
thường di chuyển dọc theo các cung, thay vì theo đường thẳng. Trong môi trường lộn xộn,
động lực học robot có thể rất quan trọng.
Trong khi các phương pháp tính đến động lực học của robot đã được nghiên cứu trong
bối cảnh lập kế hoạch lộ trình ngoại tuyến [4, 9], các phương pháp này thường quá tốn
kém về mặt tính toán để tránh chướng ngại vật cục bộ nhanh.
Tuy nhiên, gần đây, một số phương pháp tránh chướng ngại vật cục bộ đã kết hợp động
lực học của xe, chọn các lệnh lái thay vì hướng di chuyển. Phương pháp Trường góc lái [5]
sử dụng các đường cong tiếp tuyến với các chướng ngại vật để hạn chế một không gian liên
tục (trong trường hợp này đó là không gian một chiều của các góc lái). Độ cong và khoảng
cách vòng cung liên quan được sử dụng để cấm di chuyển trên phạm vi góc lái. Phương pháp
tính toán các ràng buộc cho một số ngưỡng khoảng cách và cố gắng di chuyển dọc theo
chiều tự do nhất. Một phương pháp tương tự cho điều hướng trong nhà tốc độ cao hoạt động
trong không gian vận tốc đã được phát triển sớm hơn một chút nhưng độc lập [3]. Phương
pháp này xem xét một tập hợp các vòng cung riêng biệt, bị hạn chế bởi động lực học của xe
và chọn một vòng quay gần nhất theo hướng mục tiêu, trong khi đảm bảo rằng robot không
gặp chướng ngại vật trong vài giây di chuyển tiếp theo. Phương pháp này đầu tiên sử dụng
cách tiếp cận hai bước để chọn độ cong và vận tốc; Sau đó, áp dụng phương pháp một bước
để đồng thời chọn độ cong và vận tốc [6]. Một cách tiếp cận tương tự đã được phát triển cho
điều hướng ngoài trời [7]. Ở đây, động lực học của xe được xem xét một cách đầy đủ, do đó,
đường dẫn không nhất thiết phải là một vòng cung tròn, một phép đo khả năng di chuyển
được tính cho mỗi đường và đường có giá trị tốt nhất được chọn. Cả hai phương pháp này
đều có một vấn đề là khi chỉ phân tích một tập hợp các cung tròn rời rạc, các đường dẫn tốt
có thể rơi vào các vết nứt và không được xem xét.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 49
Phương pháp vận tốc cong (CVM - Curvature-Velocity Method) để tránh chướng ngại
vật cục bộ coi vấn đề trên như một bài toán tối ưu hóa bị hạn chế trong không gian vận tốc
của robot [10]. Ưu điểm của phương pháp nghiên cứu này là khả năng kiểm soát đồng thời
tốc độ và hướng mục tiêu của robot, dễ dàng kết hợp các ràng buộc từ cả môi trường và
động lực học của robot và khả năng xử lý sự đánh đổi giữa tốc độ, an toàn và vô hướng.
CVM đạt được hiệu suất thời gian thực bằng cách xấp xỉ khoảng cách robot có thể di
chuyển dọc theo một độ cong nhất định trước khi gặp chướng ngại vật. Phép tính gần đúng
là một hàm không đổi, được xác định bởi các đường cong tiếp tuyến với các chướng ngại
vật. Các hạn chế vận tốc bổ sung được thêm vào dựa trên các giới hạn vật lý của robot và
mong muốn tránh xa chướng ngại vật, hoặc ít nhất là di chuyển chậm khi vượt qua các
chướng ngại vật gần đó.
Trong những năm gần đây, thuật toán DQN (Deep Q Learning) đã được phát triển và
áp dụng vào nhiều lĩnh vực khác nhau, trong đó có bài toán dẫn hướng cho robot. Trong
nghiên cứu này, chúng tôi ứng dụng thuật toán DQN để điều khiển mô hình robot tự hành
tránh vật cản dạng bánh xe, với hai bánh chủ động điều khiển độc lập. Bài báo được trình
bày theo thứ tự sau: Phần 1 giới thiệu các nghiên cứu trước đó; Phần 2 trình bày thuật toán
DQN trong bài toán tránh vật cản; Phần 3 trình bày mô phỏng và đánh giá hiệu quả thuật
toán; Cuối cùng, kết luận được trình bày trong phần 4.
2. THUẬT TOÁN DQN TRONG BÀI TOÁN TRÁNH VẬT CẢN
2.1. Q – Learning
Để robot biết chọn hành động nào để đạt phần thưởng lớn nhất, người ta sử dụng một
giá trị Q được tính như sau: Q(s, a) = r (s, a) + γmax Q(s’, a), trong đó: Q(s, a) là Q khi
thực hiện hành động a ở trạng thái s; r(s, a) là phần thưởng nhận được; s’ là trạng thái kế
tiếp; γ là hệ số khấu hao, đảm bảo càng xa đích Q càng nhỏ. Với công thức này, chúng ta
có thể tạo ra một ma trận trạng thái – hành động như một bảng tra cứu. Từ đó, với mỗi
trạng thái của robot chỉ cần tìm hành động nào có giá trị Q lớn nhất là xong. Tuy nhiên, học
tăng cường là một quá trình ngẫu nhiên nên giá trị Q ở thời điểm trước và sau khi thực hiện
hành động sẽ khác nhau. Khác biệt này gọi là sự khác biệt tạm thời:
TD(a, s) = R(s, a) + γmax Q(s’, a’) + (s, a) (1)
Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa trên TD:
(s, a) = (s, a) + αT (a, s) (2)
α là hệ số học. Qua các lần robot thực hiện hành động, Q(s, a) sẽ dần hội tụ. Quá trình
này chính là Q-Learning.
2.2. Thuật toán huấn luyện mạng DQN
2.2.1. Kiến trúc mô hình
Có một số cách để tham số hóa Q sử dụng mạng nơron. Vì Q ánh xạ các cặp lịch sử-
hành động tới các giá trị ước lượng của giá trị Q (Q-value), dữ liệu lịch sử và hành động
đã được sử dụng làm đầu vào cho mạng nơron trong một số phương pháp cũ. Hạn chế
chính của loại kiến trúc này là cần chạy riêng dữ liệu vào mạng để tính giá trị Q của mỗi
hành động riêng lẻ, do vậy, chi phí tính toán tăng tuyến tính với số lượng hành động. Thay
vào đó, ta sử dụng kiến trúc tại đó có một nút đầu ra riêng biệt cho mỗi hành động, và chỉ
sử dụng biểu diễn trạng thái làm đầu vào cho mạng. Các đầu ra tương ứng với các giá trị Q
dự đoán của các hành động riêng lẻ trong một trạng thái. Ưu điểm của loại kiến trúc này là
khả năng tính toán giá trị Q cho tất cả các hành động có thể xảy ra trong một trạng thái cụ
thể chỉ với một lần chạy dữ liệu duy nhất qua mạng.
Kỹ thuật Điều khiển – Tự động hóa
Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán học sâu tăng cường DQN.” 50
Hình 1. Mô hình kiến trúc học sâu.
Mô hình mạng nơ ron học sâu được đề xuất trong nghiên cứu này bao gồm 4 lớp: lớp
đầu vào, hai lớp ẩn và lớp đầu ra. Lớp ẩn đầu tiên bao gồm 64 nơ-ron được kiến trúc kết
nối đầy đủ, có 28 đầu vào được lấy từ Bộ cảm biến khoảng cách Laser, do đó, có 1856
thông số được đào tạo. Lớp ẩn thứ hai cũng có 64 nơ-ron với 64 đầu vào từ lớp ẩn đầu tiên
nên có 4160 tham số được huấn luyện.
2.2.2. Thuật toán DQN
input: data X = ( ), hệ số học α, discount factor γ, epsilon-greedy policy
, robot pose, safety constraints
output: Q(s, a; θ), states s є S, actions a є A, weight θ
begin
Initialize replay memory D to capacity N
Initialize Q(s, a; θ) with random weights θ
Initialize Q(s, a’; θ’), with random weights θ’ = θ
for episode = 1, M do
Randomly set the robots pose in the scenario
Observe initial states of robots s
for t = 1, T do:
Select an action
ta
with probability select a random action
ta
otherwise select max ( , ; )t a ta arg Q s a
Execute action
ta , observe state 1ts , compute reward
Store transition (
1, , ,t t t ts a R s ) in replay memory D
Sample random minibatch of transition ( ) from D
Calculate the predicted value Q( )
Calculate target value for each minibatch transition
if is terminal state the =
otherwise max ( , ; )
jj j a j j
y R Q s a
Train neural networks using 2( ( , ; ))j j jy Q s a
end for
end for
Robot chọn và thực hiện các hành động theo chính sách ε-tham lam (ε-greedy) dựa trên
Q. Để robot di động có thể hoạt động tốt trong thời gian dài, nó cần phải tính đến không
chỉ những phần thưởng trước mắt mà còn cả những giải thưởng mà nó sẽ nhận được trong
Lớp 1 Lớp 2 Lớp L -1 Lớp L
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 51
tương lai. Ngoài ra, vì môi trường là ngẫu nhiên, robot không bao giờ có thể chắc chắn, nó
sẽ nhận được phần thưởng tương tự vào lần tiếp theo khi thực hiện các hành động tương
tự. Robot càng di chuyển trong tương lai, nó càng có thể phân kỳ. Vì lý do đó, trong
nghiên cứu này, chúng tôi sử dụng phần thưởng giảm giá trong tương lai. Lợi nhuận của
hệ số suy giảm trong tương lai tại thời điểm t được xác định như sau:
2
1 2 ... ,0 1
T t
t t t t TR r r r r
(3)
Trong đó, rt là phần thưởng trực tiếp và T là bước thời gian mà hành động robot kết
thúc, phần thưởng trong tương lai càng nhiều, robot càng ít xem xét nó. Khi đặt hệ số khấu
hao γ = 0, thì việc chọn và thực hiện hành động của robot sẽ bị thiển cận và chỉ dựa vào
phần thưởng trực tiếp. Nếu muốn cân bằng giữa phần thưởng trực tiếp và trong tương lai,
ta nên đặt hệ số khấu hao γ = 0.9. Khi môi trường mang tính quyết định và các hành động
tương tự luôn dẫn đến cùng một phần thưởng, thì ta có thể đặt hệ số khấu hao γ = 1. Mục
tiêu của robot là tương tác với môi trường bằng cách chọn các hành động theo cách tối đa
hóa các phần thưởng trong tương lai. Ta sử dụng kỹ thuật được gọi là tái hiện trải nghiệm
(experience replay), trong đó, ta lưu lại trải nghiệm của robot ở mỗi bước thời gian, =
( , , , ), trong tập dữ liệu = { ,, }, được gộp lại qua nhiều chu kỳ học
(episode) (khi kết thúc một chu kỳ học) vào bộ nhớ tái hiện (replay memory).
Trong quá trình đào tạo của các mạng nơron, các mẫu ngẫu nhiên từ bộ nhớ phát lại
được sử dụng thay vì chuyển đổi gần đây nhất. Điều này phá vỡ sự giống nhau của các
mẫu đào tạo tiếp theo, nếu không có thể đẩy mạng vào mức tối thiểu cục bộ. Ngoài ra,
kinh nghiệm phát lại làm cho nhiệm vụ đào tạo tương tự như học tập có giám sát thông
thường, giúp đơn giản hóa việc gỡ lỗi và kiểm tra thuật toán. Người ta thực sự có thể thu
thập tất cả những kinh nghiệm từ chuyên gia của con người và huấn luyện các mạng nơron
về những điều này. Để cập nhật trọng số của các mạng nơron, trước tiên, lấy mẫu chuyển
tiếp ngẫu nhiên từ bộ nhớ phát lại D với kích thước bộ nhớ hữu hạn N. Với mỗi lần chuyển
đổi nhất định, thuật toán thực hiện các bước sau:
- Bước 1: Thực hiện một chuyển tiếp qua các mạng nơron cho trạng thái hiện tại js để
có được giá trị dự đoán Q( ).
- Bước 2: Nếu quá trình chuyển đổi được lấy mẫu là một mẫu va chạm, việc đánh giá
cho cặp ( này được đặt trực tiếp làm phần thưởng kết thúc. Mặt khác, thực hiện
chuyển tiếp các mạng nơron cho trạng thái tiếp theo s’, tính toán đầu ra mạng tổng thể tối
đa
và tính toán mục tiêu cho hành động bằng phương trình Bellman
(r +
). Đối với tất cả các hành động khác, đặt giá trị mục tiêu giống
như giá trị được trả về ban đầu từ bước 1.
- Bước 3: Thuật toán cập nhật Q-learning sử dụng hàm mất mát (loss function) sau:
2
1
1
( ) ( ( , ; ))
n
j j j
i
L y Q x a
N
(4)
Sử dụng chức năng hàm mất mát, các trọng số của mạng nơ ron sẽ được cập nhật thông
qua việc lan truyền ngược và giảm độ dốc ngẫu nhiên. Khi quá trình đào tạo hoàn thành,
robot di động sẽ lưu các mạng nơron được đào tạo vào não của nó và sẽ sử dụng nó trong
các quá trình thử nghiệm và làm việc trong tương lai.
3. MÔ PHỎNG ĐÁNH GIÁ HIỆU QUẢ THUẬT TOÁN
Trong nghiên cứu này, nhóm tác giả đã đề xuất phương pháp tránh vật cản sử dụng
thuật toán DQN cho một robot TurtleBot3 di động hai bánh sử dụng cảm biến LiDAR
Kỹ thuật Điều khiển – Tự động hóa
Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán học sâu tăng cường DQN.” 52
trong một môi trường không xác định. Cảm biến LiDAR sử dụng giá trị khoảng cách làm
trạng thái đầu vào của phương pháp học và từ đó hệ thống xác định hành động tiếp theo
chỉ bằng khoảng cách của chướng ngại vật đến robot di động. Trong quá trình này, do biến
động thường xuyên của giá trị hành động, các hành động tăng tốc/giảm tốc không tự nhiên
là bắt buộc, gây ra không chỉ hiện tượng sốc vật lý cho robot mà còn hiệu quả lái thấp.
Vấn đề đã được giải quyết bằng việc áp dụng bộ nhớ tái hiện để lưu trữ đầu ra của mạng.
Nghĩa là, các giá trị hành động được lưu trữ trong bộ nhớ và được nạp lại vào đầu vào một
lần nữa theo thứ tự hành động của mạng. Thử nghiệm được thực hiện trên một robot thực
tế sau khi học tăng cường trong các mô phỏng ROS-GAZEBO và tính hợp lệ của thuật
toán được xác minh thông qua phân tích số liệu thực nghiệm.
Thiết lập trạng thái:
Trạng thái là môi trường quan sát và mô tả vị trí hiện tại của robot. Ở đây, kích thước
trạng thái là 28 trong đó có 24 giá trị cảm biến khoảng cách Laser, khoảng cách đến mục
tiêu và góc tới mục tiêu.
Thiết lập hành động:
Hành động là những gì một robot có thể làm trong mỗi trạng thái. Ở đây, turtlebot3
luôn có vận tốc tuyến tính là 0,15 m/s. Tốc độ góc được xác định bằng hành động. Trong
nghiên cứu này, nhóm tác giả đã chọn một mô hình robot di động, chỉ có thể thực hiện
năm hành động có thể như sau:
Hành động Vận tốc góc (rad/s)
0 -1.5
1 -0.75
2 0
3 0.75
4 1.5
Thiết lập phần thưởng:
Khi turtlebot3 thực hiện một hành động trong trạng thái, nó sẽ nhận được phần thưởng.
Thiết kế phần thưởng là rất quan trọng cho việc học tập. Một phần thưởng có thể là tích cực
hoặc tiêu cực. Khi turtlebot3 đạt được mục tiêu, nó nhận được phần thưởng tích cực lớn. Khi
turtlebot3 va chạm với một chướng ngại vật, nó nhận được phần thưởng tiêu cực lớn.
Thiết lập các tham số:
Tham số Giá trị Mô tả
T 6000 Bước thời gian của một chu kỳ
γ 0.99 Hệ số khấu hao
α 0.00025
Tốc độ học tập. Nếu giá trị quá lớn, việc học không
hiệu quả và nếu quá nhỏ, thời gian học sẽ lâu.
ξ 1.0 Xác xuất chọn một hành động ngẫu nhiên
0.99
Tỷ lệ giảm của epsilon. Khi một chu kỳ kết thúc,
epsilon giảm.
0.05 Tối thiểu của epsilon.
batch_size 64 Kích thước của một nhóm các mẫu đào tạo.
train_start 64
Bắt đầu đào tạo nếu kích thước bộ nhớ phát lại lớn
hơn 64.
memory 1000000 Kích thước của bộ nhớ phát lại.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 53
Kết quả:
Để thu hẹp khoảng cách giữa môi trường mô phỏng và thế giới thực, nhóm tác giả đã
tạo ra một kịch bản giống như văn phòng mô phỏng trong Gazebo (hình 2). Trong môi
trường này, nhiều loại chướng ngại vật được đặt bao gồm tường, người đứng, chướng ngại
vật động, mục tiêu động và robot di động (turtlebot3) để thử nghiệm thuật toán điều hướng
được đề xuất. Robot di động được yêu cầu bắt kịp mục tiêu động trong khi tránh các
chướng ngại vật tĩnh.
Hình 2. Môi trường mô phỏng. Hình 3. Khu vực đào tạo trong môi trường
mô phỏng.
Quá trình đào tạo của robot có thể trải qua nhiều chu kỳ. Mỗi chu kỳ kết thúc khi robot
có được vị trí mục tiêu, chạm vào chướng ngại vật trên đường di chuyển của robot hoặc
khi hết thời gian cho mỗi chu kỳ.
Trong môi trường này, nhiều loại chướng ngại vật được đặt ngẫu nhiên bao gồm người
đứng, hai nhóm người đang nói chuyện bên cạnh bức tường để kiểm tra hiệu suất của thuật
toán điều hướng robot di động được đề xuất.
Nhiệm vụ của robot là tránh các chướng ngại vật bằng cách giữ khoảng cách an toàn
nhất định với chúng và đạt được các vị trí 9 mục tiêu (bảng 1), được phân bổ một cách
khoa học trong hành lang rộng 3 m được minh họa trong hình 3.
Bảng 1. Các vị trí 9 mục tiêu được sử dụng trong quá trình đào tạo.
Các vị trí mục tiêu Vị trí trục X Vị trí trục Y
1 4.28 11.10
2 -2.80 12.10
3 0.20 10.40
4 -0.30 12.08
5 -2.50 10.00
6 0.00 12.00
7 2.00 11.50
8 -1.30 11.00
9 1.50 12.00
Trong 100 chu kỳ huấn luyện đầu tiên, robot thường xuyên chạm vào các chướng ngại
vật và hiếm khi tiếp cận các vị trí mục tiêu. Trong 50 chu kỳ đầu tiên, mọi chu kỳ chỉ kết
thúc trong vòng một hoặc hai phút do va vào chướng ngại vật. Do đó, tổng số phần thưởng
mà robot tích lũy phần thưởng nhỏ hơn 0 (xem hình 4). Hình 4 cũng chỉ ra rằng chỉ có một
lần robot đạt được vị trí mục tiêu và nhận được phần thưởng lớn. Đặc biệt, trong giai đoạn
này, robot thường không duy trì khoảng cách an toàn tối thiểu với con người (hình 5).
Robot có thể kéo dài thời gian chu kỳ trong các chu kỳ tiếp theo dựa trên kiến thức đạt
Kỹ thuật Điều khiển – Tự động hóa
Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán học sâu tăng cường DQN.” 54
được trong quá trình đào tạo. Mặc dù số lần robot đến đích bị hạn chế nhưng nhận thức về
robot về môi trường là rất đáng kể.
Hình 4. Tổng số phần thưởng đạt được trong 100 chu kỳ huấn luyện đầu tiên.
Hình 5. Khoảng cách tối thiểu giữa robot và người.
Trong các chu kỳ tiếp theo (khoảng từ 100 đến 500), robot không chỉ đến đích thường
xuyên hơn mà còn ít va chạm với chướng ngại vật. Nó có nghĩa là kiến thức của robot tăng
lên sau thời gian học. Hình 6 thể hiện tổng số phần thưởng mà robot đạt được trong giai
đoạn này. Trong một số trường hợp, robot có thể liên tục đạt được vị trí mục tiêu để tổng
phần thưởng có giá trị tích cực lớn. Tuy nhiên, kiến thức của robot về môi trường là không
đủ để giúp nó đồng thời tránh chướng ngại vật, con người và đến đích mong muốn.
Hình 6. Tổng số phần thưởng từ chu kỳ thứ
700 đến 750.
Hình 7. Giá trị Q tối đa trung bình từ các
chu kỳ thứ 700 đến 750.
Sau quá trình huấn luyện, robot di động có khả năng bắt kịp các mục tiêu động và tránh
các chướng ngại vật. Hơn nữa, hình 10 cho thấy, robot di động luôn giữ khoảng cách an
toàn với các chướng ngại vật trong vùng lân cận robot. Nói cách khác, robot di động có
khả năng điều hướng tự động và an toàn trong môi trường.
Nghiên cứu khoa học công nghệ
Tạp chí Nghiên cứu KH&CN quân sự, Số Đặc san Hội thảo Quốc gia FEE, 10 - 2020 55
Hình 8. Tổng số phần thưởng sau khi quá
trình đào tạo hoàn thành.
Hình 9. Giá trị Q tối đa trung bình sau khi
hoàn thành quá trình đào tạo.
Hình 10. Khoảng cách tối thiểu đến mọi người sau khi hoàn thành quá trình đào tạo.
4. KẾT LUẬN
Bài báo này đã nghiên cứu một giải pháp giải quyết bài toán tránh vật cản động cho
robot nhờ sử dụng học sâu tăng cường DQN. Thuật toán cho phép robot học cách tự phát
hiện và tránh vật cản động thông qua sử dụng kết hợp các mạng nơron và thuật toán học
sâu tăng cường DQN. Vì các phương pháp học sâu tăng cường không cần dùng các kỹ
thuật trích chọn đặc trưng thủ công, chúng tương đối đơn giản để thiết kế và xây dựng.
Ngoài ra, chúng có thể áp dụng cho các bài toán quy mô lớn vì yêu cầu tính toán trong thời
gian chạy không tăng theo số lượng vật cản trong môi trường.
Tuy nhiên, thuật toán học sâu tăng cường đòi hỏi một lượng lớn dữ liệu huấn luyện để
đào tạo robot. Vì vậy, nên sử dụng môi trường mô phỏng để có thể tăng tốc độ đào tạo và
không làm hao mòn robot. Ngoài ra, cần có thời gian để thực hiện tối ưu hóa các tham số
đào tạo.
Trong tương lai, có thể mở rộng nghiên cứu theo hướng tăng độ phức tạp của môi
trường mô phỏng, bao gồm thực hiện các kịch bản và môi trường đa dạng hơn.
TÀI LIỆU THAM KHẢO
[1]. R. C. Arkin. “Motor Schema-Based Mobile Robot Navigation”. International Journal
of Robotics Research, August 1989, pp. 92-112.
[2]. J. Borenstein and Y. Koren. “The Vector Field Histogram -Fast Obstacle Avoidance
for Mobile Robots”. IEEE Transactions on Robotics and Automation, 7:3, 1991, pp.
278-288.
[3]. J. Buhmann, W. Burgard, A. B. Cremers, D. Fox, T. Hofmann, F. Schneider, J.
Strikos and S. Thrun. “The Mobile Robot Rhino”. AI Magazine, 16:2, Summer
1995, pp. 31-38.
Kỹ thuật Điều khiển – Tự động hóa
Đ. N. Thắng, P. T. Dũng, N. Q. Hùng, “Nghiên cứu bài toán học sâu tăng cường DQN.” 56
[4]. P. Jacobs and J. Canny. “Planning Smooth Paths for Mobile Robots”. In Proc. IEEE
Intl. Conference on Robotics and Automation, Scottsdale AZ, May 1989, pp. 2-7.
[5]. W. Feiten, R. Bauer and G. Lawitzky. “Robust Obstacle Avoidance in Unknown and
Cramped Environments”. In Proc. IEEE Intl. Conference on Robotics and
Automation, San Diego, CA, May 1994, pp. 2412-2417.
[6]. D. Fox, W. Burgard and S. Thrun. “The Dynamic Window Approach to Collision
Avoidance”. Tech Report IAI-TR-95-13, CS Department, University of Bonn, 1995.
[7]. A. Kelly. “An Intelligent Predictive Control Approach to the High Speed Cross
Country Autonomous Navigation Problem”, Tech Report CMU-CS-TR-95-33,
School of Computer Science, Carnegie Mellon University, 1995.
[8]. O. Khatib. “Real-time Obstacle Avoidance for Manipulators and Mobile Robots”. In
Proc. IEEE Intl. Conference on Robotics and Automation, St. Louis, MO, March
1985, pp. 500-505.
[9]. J. C. Latombe. “Robot Motion Planning”. Kluwer Academic Publishers, 1991.
[10]. R. Simmons. “The curvature-velocity method for local obstacle avoidance”, In
Proceeding of IEEE international Conference on Robotics and Automation,
August 2002.
[11]. Xuan Tung Truong, Yong Sheng Ou, and Trung-Dung Ngo, “Towards Culturally
Aware Robot Navigation”, IEEE International Conference on Realtime Computing
and Robotics, 2016.
[12]. Guo-Sheng Yang, Er-Kui Chen, and Cheng-Wan An, “Mobile Robot Navigation
using Neural Q-learning”, Third International Conference on Machine Learning and
Cybernetics, Shanghai, 2004.
ABSTRACT
RESEARCHING THE PROBLEM OF AVOIDING OBSTACLES
FOR AUTO MOBILE ROBOTS BASED ON THE DEEP Q LEARNING
The problem of avoiding obstacles for auto mobile robots based on the
application of artificial intelligence tools is a researching direction in the field of
the intelligent robot control. In this paper, the behavioral prediction and the DQN
(Deep Q learning) technique have been solved. The autonomous robots in the
research are under control by 2-wheels independently. The results show the
effectiveness of the approach, the robot can predict the next activities basing on the
previous one without the robot modeling.
Keywords: Autonomous mobile robot; Proactive collision avoidance; DQN algorithm; Turtlebot3.
Nhận bài ngày 03 tháng 8 năm 2020
Hoàn thiện ngày 05 tháng 10 năm 2020
Chấp nhận đăng ngày 05 tháng 10 năm 2020
Địa chỉ: 1Viện Khoa học và Công nghệ quân sự;
2Học viện Kỹ thuật quân sự.
*
Email: thangdonam@gmail.com.
Các file đính kèm theo tài liệu này:
- nghien_cuu_bai_toan_tranh_vat_can_cho_ro_bot_tu_hanh_tren_co.pdf