ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN ĐẮC HUY
NGHIÊN CỨU ĐÁNH GIÁ CÁC PHƢƠNG PHÁP
PHÂN LOẠI TÀU THUYỀN TỰ ĐỘNG SỬ DỤNG ẢNH
VIỄN THÁM
Ngành: Hệ Thống Thông Tin
Chuyên ngành: Hệ Thống Thông Tin
Mã Số: 8480104.01
LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS Nguyễn Thị Nhật Thanh
Hà nội – 09/2020
i
MỤC LỤC
LỜI CẢM ƠN ...................................................................................................... iii
LỜI C
72 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 405 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Nghiên cứu đánh giá các phương pháp phân loại tàu thuyền tự động sử dụng ảnh viễn thám, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
CAM ĐOAN ................................................................................................. iv
DANH MỤC HÌNH VẼ ........................................................................................ v
DANH MỤC BẢNG BIỂU ................................................................................ vii
DANH MỤC TỪ VIẾT TẮT ............................................................................. viii
MỞ ĐẦU ............................................................................................................... 1
Chương 1: Giới thiệu chung .................................................................................. 5
1.1 Tình hình nghiên cứu trên thế giới và Việt Nam .................................. 5
1.2 Giới thiệu về công nghệ viễn thám ....................................................... 6
1.2.1 Khái niệm, đặc điểm cơ bản viễn thám ................................... 6
1.2.2 Dữ liệu ảnh viễn thám quang học ............................................ 8
1.3 Giới thiệu về một số loại tàu thuyền quan tâm ................................... 10
1.3.1 Tàu vận tải [12]...................................................................... 10
1.3.2 Tàu chở dầu [12] .................................................................... 11
1.3.3 Tàu chuyên chở công te nơ [12] ............................................ 11
1.3.4 Tàu sân bay [13] .................................................................... 12
1.3.5 Tàu ngầm [13] ....................................................................... 14
1.3.6 Khu trục hạm [13] ................................................................. 15
1.4 Bộ CSDL tàu thuyền mẫu ................................................................... 16
1.4.1 Nguồn dữ liệu ........................................................................ 16
1.4.2 Phương pháp thu thập bộ dữ liệu tàu thuyền mẫu ................. 17
1.4.3 Quy trình lấy mẫu dữ liệu ...................................................... 18
Chương 2: Nghiên cứu một số thuật toán nhận dạng tàu thuyền. ....................... 20
2.1 Nghiên cứu một số phương pháp, thuật toán trích chọn đặc trưng .... 20
2.1.1 Mô hình Bag of Features ....................................................... 20
2.1.2 Thuật toán Local Binary Patterns .......................................... 34
2.2 Nghiên cứu phương pháp, thuật toán phân lớp tàu thuyền. ................ 36
Chương 3: Ứng dụng phân lớp tàu thuyền ở cảng biển Việt Nam trên ảnh viễn
thám ..................................................................................................................... 41
ii
3.1 Phương pháp đề xuất........................................................................... 41
3.1.1 Bộ cơ sở dữ liệu đầu vào ....................................................... 42
3.1.2 Trích chọn đặc trưng .............................................................. 43
3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu ................... 44
3.2 Kết quả và thảo luận ........................................................................... 46
3.2.1 Bộ cơ sở dữ liệu ..................................................................... 46
3.2.2 Kết quả phân lớp .................................................................... 48
3.2.3 Nhận xét, đánh giá ................................................................. 58
KẾT LUẬN ......................................................................................................... 61
TÀI LIỆU THAM KHẢO ................................................................................... 62
iii
LỜI CẢM ƠN
Trước tiên tôi xin dành lời cảm ơn chân thành và sâu sắc đến cô giáo,
PGS. TS. Nguyễn Thị Nhật Thanh – người đã hướng dẫn, khuyến khích, chỉ bảo
và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu cho tới khi hoàn thành
công việc của mình.
Tôi xin dành lời cảm ơn chân thành tới các thầy cô giáo khoa Công nghệ
thông tin, trường Đại học Công nghệ, ĐHQGHN đã tận tình đào tạo, cung cấp
cho tôi những kiến thức vô cùng quý giá và đã tạo điều kiện tốt nhất cho tôi
trong suốt quá trình học tập, nghiên cứu tại trường.
Đồng thời tôi xin chân thành cảm ơn chủ nhiệm và nhóm nghiên cứu thực
hiện đề tài cấp nhà nước thuộc chương trình khoa học và công nghệ cấp quốc
gia về công nghệ vũ trụ giai đoạn 2016-2020, mã số đề tài VT-UD.06/16-20 đã
hỗ trợ tôi trong quá trình nghiên cứu thực nghiệm.
Cuối cùng, tôi xin cảm ơn tất cả những người thân yêu trong gia đình tôi
cùng toàn thể bạn bè, đồng nghiệp, những người đã luôn giúp đỡ, động viên, cổ
vũ, khích lệ và giúp đỡ tôi trong suốt thời gian qua. Trong quá trình thực hiện đề
tài có thể còn có những mặt hạn chế, thiếu sót. Tôi rất mong nhận được ý kiến
đóng góp và sự chỉ dẫn của các thầy cô giáo và các bạn đồng nghiệp.
iv
LỜI CAM ĐOAN
Tôi xin cam đoan rằng luận văn thạc sĩ công nghệ thông tin “Nghiên cứu
đánh giá các phương pháp phân loại tàu thuyền tự động sử dụng ảnh viễn
thám” là công trình nghiên cứu của riêng tôi, không sao chép lại của người
khác. Trong toàn bộ nội dung của luận văn, những điều đã được trình bày hoặc
là của chính cá nhân tôi hoặc là được tổng hợp từ nhiều nguồn tài liệu. Tất cả
các nguồn tài liệu tham khảo đều có xuất xứ rõ ràng và hợp pháp.
Tôi xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy
định cho lời cam đoan này.
Hà Nội, ngày . tháng năm ..
v
DANH MỤC HÌNH VẼ
Hình 1. 1 Dải sóng điện từ .................................................................................... 7
Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực ........... 8
Hình 1. 3 Tàu vận tải ........................................................................................... 10
Hình 1. 4 Tàu chở dầu ......................................................................................... 11
Hình 1. 5 Tàu công ten nơ ................................................................................... 12
Hình 1. 6 Tàu sân bay .......................................................................................... 13
Hình 1. 7 Tàu ngầm ............................................................................................. 14
Hình 1. 8 Tàu khu trục ........................................................................................ 15
Hình 1. 9 Dữ liệu ảnh viễn thám Planet (trái), dữ liệu ảnh viễn thám Google
Earth (phải) .......................................................................................................... 16
Hình 1. 10 Sơ đồ cây phân lớp tàu thuyền .......................................................... 17
Hình 1. 11 Quy trình lấy mẫu tàu dựa trên kiến thức chuyên gia ....................... 18
Hình 1. 12 Mở dữ liệu ảnh và chọn khu vực nghiên cứu có đối tượng quan tâm
cần gán nhãn ........................................................................................................ 19
Hình 1. 13 Gán nhãn đối tượng quan tâm dựa trên việc vẽ đường bao xung
quanh ................................................................................................................... 19
Hình 2. 1 Minh họa mô hình BoF (nguồn [9]). ................................................... 20
Hình 2. 2 Minh họa các đặc trưng thu thập được (nguồn [9]). ........................... 21
Hình 2. 3 Minh họa các đặc trưng được phân cụm (nguồn [9]).......................... 21
Hình 2. 4 Biểu đồ đặc trưng (nguồn [9]). ............................................................ 21
Hình 2. 5 Minh họa các mức làm mờ khác nhau của hàm Gaussian. ................. 23
Hình 2. 6 Mô hình kim tự tháp ảnh trong SIFT (nguồn [5]). .............................. 24
Hình 2. 7Minh họa cách lấy điểm để xét cực trị với vị trí x là điểm đang xét
(nguồn [5]). .......................................................................................................... 25
Hình 2.8 Minh họa biểu đồ định hướng. ............................................................. 27
Hình 2.9 Minh họa bước lọc và gắn hướng cho điểm đặc trưng (nguồn [5]). .... 28
Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]). ..................................................... 29
Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]). .............. 30
Hình 2.12 Ví dụ về phản ứng con sóng. .............................................................. 32
Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]). ........................... 32
Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]). ........................................ 33
Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh
(nguồn [8]). .......................................................................................................... 33
Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]). . 34
Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]). ....................... 35
Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP ............................... 36
Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]). ............................................. 37
vi
Hình 2.20 So sánh các mô hình. .......................................................................... 39
Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên
phải là lề mềm). ................................................................................................... 39
Hình 2.22 Một số ví dụ về lõi của SVM. ............................................................ 40
Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền ................................................... 41
Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền ................ 42
Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần
lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF. .. 44
Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh
gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram. ................ 44
Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ .......................................... 46
Hình 3. 6 Một số tàu mã tau dau. ........................................................................ 47
Hình 3. 7 Một số tàu mã tau cong ten no. ........................................................... 47
Hình 3. 8 Một số tàu mã tau van tai. ................................................................... 47
Hình 3. 9 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
............................................................................................................................. 49
Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp
SURF ................................................................................................................... 50
Hình 3. 11 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 51
Hình 3. 12 Hình ảnh các lớp tàu thuyền nhận dạng chưa chính xác ................... 51
Hình 3. 13 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng thuật toán LBP . 53
Hình 3. 14 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 53
Hình 3. 15 Hình ảnh các lớp tàu thuyền được nhận dạng chưa chính xác .......... 54
Hình 3. 16 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
kết hợp LBP ......................................................................................................... 55
Hình 3. 17 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp BOF
- SURF kết hợp LBP. .......................................................................................... 56
Hình 3. 18 Hình ảnh các lớp tàu thuyền được nhận dạng chính xác .................. 56
Hình 3. 19 Hình ảnh các lớp tàu thuyền được nhận dạng không chính xác ....... 57
vii
DANH MỤC BẢNG BIỂU
Bảng 1. 1 Thông số kỹ thuật kênh phổ ảnh VNREDSAT-1 ................................. 9
Bảng 1. 2 Thông tin thuộc tính của ảnh Planet ................................................... 10
Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền ................................. 48
Bảng 3. 2 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT .................................................................................................... 51
Bảng 3. 3 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF .................................................................................................. 51
Bảng 3. 4 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán LPB ..................................................................................................... 54
Bảng 3. 5 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SIFT kết hợp LBP .............................................................................. 57
Bảng 3. 6 Bảng kết quả kiểm chứng bộ phân lớp bằng máy học SVM sử dụng
thuật toán SURF kết hợp LBP ............................................................................. 57
Bảng 3. 7 Bảng tổng hợp kết quả kiểm chứng bằng máy học SVM ................... 58
viii
DANH MỤC TỪ VIẾT TẮT
AIS Automatic Identification Systems
ANQP An ninh quốc phòng
BoF Bag of Features
CSDL Cơ sở dữ liệu
DoG
the difference-of-Gaussian function
convolved
FOV Field of view
ICST
International Standard Classification
of Ships by Type
IFOV instantaneous field of view
LBP Local Binary Patterns
SIFT Scale-Invariant Feature Transform
SURF Speeded-Up Robust Features
SVM Support Vector Machine
VHF Very high frequency
VTS Vessel Traffic Services
1
MỞ ĐẦU
Tính cấp thiết
Vệ tinh viễn thám có lợi thế đặc biệt quan trọng so với viễn thám hàng
không do có khả năng chụp ảnh ở bất kỳ điểm nào trên bề mặt trái đất mà không
phải xin phép nước sở hữu, quản lý vùng địa lý đó. Đây là lợi thế mà bất kỳ
quốc gia nào cũng muốn khai thác phục vụ cho công tác ANQP, vì vậy các quốc
gia phát triển như Mỹ, Nga, TQ, Pháp... đã triển khai mạng lưới vệ tinh viễn
thám để do thám các mục tiêu quan tâm. Công nghệ vệ tinh, công nghệ viễn
thám là những lĩnh vực công nghệ cao mà các nước phát triển hạn chế xuất khẩu
và chuyển giao công nghệ. Do đó, để nắm bắt được những công nghệ này đòi
hỏi phải được đào tạo bài bản và có quá trình tiếp cận công nghệ trong thời gian
dài từ khâu thiết kế chế tạo, quản lý vận hành khai thác và ứng dụng. Hướng ứng
dụng là một trong những hướng đặc biệt được quan tâm nghiên cứu tại các nước,
nhất là những nước đi sau về công nghệ vũ trụ. Đây là giải pháp để các nước có
thể tiếp cận nhanh nhất và được thừa hưởng nhiều nhất, tận dụng tốt nhất những
thành tựu mới nhất của khoa học công nghệ thế giới cho nghiên cứu phát triển
khoa học, công nghệ.
Kỹ thuật xử lý ảnh viễn thám với nền tảng là xử lý ảnh số đã giải quyết
được một số vấn đề cơ bản trong khai thác, trích xuất thông tin từ ảnh viễn thám
bằng một số phần mềm khá thông dụng như ENVI, ERDAS,... song mức độ
chuyên sâu và tự động hóa chưa cao và chỉ sử dụng trong lĩnh vực dân sự. Các
phần mềm chuyên dụng trong lĩnh vực ANQP thường bị hạn chế điều kiện
thương mại hoặc có giá thành rất cao, ngoài khả năng tài chính của người sử
dụng và gần như không tiếp cận được yếu tố khoa học công nghệ. Việc chuyển
giao công nghệ chỉ giới hạn ở hướng dẫn sử dụng, khai thác phần mềm.
Đến nay, Việt Nam đã có hệ thống vệ tinh viễn thám (VNREDSat-1) hoàn
chỉnh từ trạm mặt đất đến vệ tinh và các cơ quan ứng dụng, song việc khai thác,
sử dụng hiệu quả các sảm phẩm của hệ thống này cho mục đích ANQP là một
bài toán khó, còn nhiều hạn chế từ độ phân giải ảnh VNREDSat-1 đến trình độ
xử lý, phân tích, giải đoán ảnh viễn thám, tích hợp các thông tin khai được từ
các nguồn ảnh của cán bộ trong ngành.
Với chiều dài bờ biển hơn 3000km và diện tích biển hơn một triệu ki-lô-
mét vuông, cùng hàng trăm hòn đảo lớn nhỏ, Việt Nam có nhiều tiềm năng phát
triển kinh tế biển như: cảng biển và công nghiệp tàu thủy, đánh bắt thủy hải sản,
khai thác dầu khí,... song cũng đặt ra hàng loạt thách thức về công tác thực thi
2
pháp luật, quản lý nhà nước, an ninh an toàn hàng hải, an ninh chủ quyền quốc
gia,... trên những vùng biển rộng lớn tại Biển Đông.
Quản lý, giám sát đối tượng tàu biển sẽ góp phần quan trọng trong việc
giải quyết các thách thức về công tác quản lý nhà nước, bảo đảm an ninh quốc
gia của Việt Nam trên Biển Đông. Một trong những vấn đề cấp thiết và khó
khăn nhất trong môi trường an ninh hàng hải ngày nay (với sự đa dạng, phức tạp
của các chủng loại tàu, thuyền cũng như các hoạt động của chúng) là làm thế
nào để có sự phân biệt rõ ràng giữa các loại tàu quân sự và các loại tàu thương
mại thông thường hay phân loại gữa các loại tàu quân sự, dân sự với nhau, từ đó
phát hiện và xử lý kịp thời những hoạt động của chúng trong khu vực.
Ngày nay, sự phát triển vượt bậc của các vệ tinh quan sát trái đất, cung
cấp ảnh vệ tinh độ phân giải cao phục vụ cho nhiều lĩnh vực khác nhau. Một
trong số đó là sử dụng ảnh vệ tinh độ phân giải trung bình, cao để phát hiện và
phân loại tàu thuyền trên biển với nhiều mục đích khác nhau như giám sát hoạt
động đánh bắt cá, giám sát hàng hải, giám sát lịch trình trong khi các công nghệ
truyền thống quản lý tàu thuyền có thể kể đến như Automatic Identification
Systems (AIS) và Vessel Traffic Services (VTS)chỉ thực hiện được khi ở gần
bờ và tương tác với tàu khác hoạt động gần đó.
Mặc dù có rất nhiều nghiên cứu về việc phát hiện tàu thuyền nhưng hầu
hết các nghiên cứu liên quan đến việc phát hiện tàu (hoặc sóng tàu) sử dụng
thông tin radar. Điều này là do điều kiện ánh sáng và thời tiết không ảnh hưởng
đến ảnh SAR khi nó cung cấp thông tin trên các khu vực rộng lớn. Tuy nhiên,
nguồn thông tin này cản trở việc xác định và phân loại tàu. Đặc biệt, nó trở
thành một nhược điểm quan trọng đối với một số ứng dụng cụ thể. Việc sử dụng
hình ảnh quang học để nhận dạng tàu nhận được ít sự quan tâm hơn, chủ yếu là
do những hạn chế thuộc về bản chất của nó, tức là cần điều kiện ánh sáng và
thời tiết thích hợp. Tuy nhiên, ở những nơi có những mặt hạn chế không xuất
hiện thường xuyên, ảnh quang học sẽ cung cấp nhiều thông tin hơn cho phép
phân loại tàu được cụ thể hơn [14].
Như vậy, bài toán nhận dạng tàu thuyền có ý nghĩa rất to lớn trong hoạt
động quản lý, giám sát đối tượng tàu biển phục vụ mục đích dân sự, an ninh
quốc phòng. Với nhu cầu cấp thiết đó và mong muốn đóng góp phần nhỏ kiến
thức bản thân cho sự phát triển của công nghệ viễn thám. Do đó, chúng tôi quyết
định chọn đề tài “Nghiên cứu đánh giá các phương pháp phân loại tàu thuyền tự
động sử dụng ảnh viễn thám” cho nghiên cứu của mình.
3
Mục tiêu nghiên cứu của đề tài
Thông qua tình hình chung và các vấn đề được đặt ra ở trên, mục tiêu
chính của bài luận văn này tập trung giải quyết các vấn đề sau:
Cung cấp thông tin nghiệp vụ về tàu thuyền trên biển và hải đảo
phục vụ công tác đảm bảo an ninh quốc gia.
Nghiên cứu và đánh giá thuật toán nhận dạng hay phân loại tự động
tàu thuyền sử dụng ảnh vệ tinh quang học phục vụ mục đích giám
sát hoạt động đánh bắt cá trên biển, giao thông biển, kiểm soát hàng
hải
Mô tả bài toán
Để giải quyết các vấn đề được đặt ra trong mục tiêu luận văn, hướng tiếp
cận của chúng tôi là giải quyết bài toán nhận dạng tàu thuyền trên ảnh giống với
bài toán nhận dạng mặt người. Bằng cách sử dụng phương pháp học máy truyền
thống kết hợp với một số thuật toán trích chọn đặc trưng trên ảnh. Cụ thể như
sau, đầu tiên chúng tôi tiến hành thu thập, xây dựng bộ CSDL mẫu ảnh tàu
thuyền phục vụ mục đích xây dựng mô hình phân loại đối tượng tàu thuyền. Dữ
liệu được sử dụng là tập dữ liệu ảnh viễn thám về các mẫu tàu thuyền trên vùng
biển Việt Nam. Chúng tôi tiến hành lấy mẫu và đánh nhãn dữ liệu tàu thuyền
bằng công cụ miễn phí trên phần mềm ENVI 5.2.
Sau đó, chúng tôi tiên hành trích chọn đặc trưng trên bộ dữ liệu này bằng
cách sử dụng các thuật toán Bag of Feature (BoF), Local Binary Patterns (LBP),
BoF kết hợp LBP và đưa vào máy huấn luyện phân lớp. Căn cứ vào chất lượng,
số lượng nguồn dữ liều, yêu cầu, mục tiêu của luận văn, chúng tôi quyết định lựa
chọn thuật toán phân lớp máy hỗ trợ véc tơ SVM. Sau khi kết thúc quá trình
huấn luyện, hệ thống sẽ lưu lại giá trị các tham số này (các tham số quyết định
phân lớp - mô hình sau khi huấn luyện) để phục vụ cho quá trình nhận dạng sau
này. Quá trình huấn luyện dữ liệu nhanh hay chậm phụ thuộc vào số lượng mẫu
dữ liệu tham gia huấn luyện, thuật toán chọn để huấn luyện dữ liệu. Kết quả thu
được là việc phân loại từng mẫu tàu thuyền vào các lớp tương ứng. Qua đó,
chúng tôi tiến hành so sánh về độ chính xác của bài toán phân lớp sử dụng
phương pháp máy hỗ trợ véc tơ kết hợp với các thuật toán trích chọn đặc trưng
khác nhau.
Bố cục của luận văn
4
Chương 1 trình bày các khái niệm cơ bản phục vụ cho nghiên cứu của đề
tài, trình bày về nội dung xây dựng CSDL ảnh mẫu tàu thuyền từ ảnh vệ tinh độ
phân giải cao phục vụ xây dựng và kiểm tra mô hình phân lớp tàu thuyền. Nội
dung chính của Chương 2 trình bày về một số thuật toán nhận dạng tàu thuyền
trên ảnh viễn thám. Dựa trên bộ CSDL ảnh mẫu được xây dựng ở Chương 1, nội
dung chính của Chương 3 trình bày về kết quả, đánh giá ứng dụng phân lớp tàu
thuyền ở cảng biển Việt Nam sử dụng ảnh Planet. Cuối cùng nội kết luận và
kiến nghị cùng với các tài liệu tham khảo sẽ được trình bày.
5
Chƣơng 1: Giới thiệu chung
Trong nghiên cứu này, đối tượng nghiên cứu tập trung chủ yếu là tàu
thuyền. Do đó, chương 1 sẽ trình bày tổng quan về một số tàu thuyền trên thế
giới. Ngoài ra, giới thiệu một số khái niệm, đặc điểm về dữ liệu ảnh viễn thám
(vệ tinh) và cách tiến hành xây dựng bộ cơ sở dữ liệu tàu thuyền. CSDL giám
sát tàu thuyền là bộ cơ sở dữ liệu ảnh mẫu tàu thuyền được thu thập và gán nhãn
từ ảnh vệ tinh quang học Planet, bộ CSDL này được xây dựng với mục đích
huấn luyện các mô hình nhận dạng đối tượng tàu thuyền.
1.1 Tình hình nghiên cứu trên thế giới và Việt Nam
Qua tìm hiểu, khảo sát, có một số phương pháp sử dụng ảnh viễn thám
quang học để phân loại tàu thuyền trên thế giới ứng dụng thực tế trong việc nhận
dạng tàu thuyền phục vụ mục đích an ninh quốc gia đạt được một số kết quả
nhất định như sau.
Theo [14] nhóm tác giả đã sử dụng phần mềm Vyamsat cho phép xử lý
ảnh màu QuickBird để giám sát sự xuất hiện của tàu trên những vùng biển quan
tâm (interest regions). Vyamsat tích hợp việc quản lý, nhận dạng các vùng quan
tâm dựa trên công cụ ArcGis/ArcObject và các thuật toán phát hiện và nhận
dạng tàu dựa trên bộ nhận dạng Bayessian trích rút các đặc trưng từ ảnh đầu vào.
Trong bước phân biệt tàu thuyền, mỗi tàu được mô tả bởi một vetor đặc trưng
kích thước 7x3 (7 Hu moments được tính dựa trên 3 kênh ảnh đỏ, xanh lục, xanh
lam của ảnh). Việc phân loại được dựa trên bộ phân loại Bayessian.
Nhóm nghiên cứu khác là Katie Rainey và John Stastny cho rằng vấn đề
nhận dạng và phân loại tàu thuyền trên ảnh vệ tinh quang học là tương tự với
nhận dạng mặt người. Sự xuất hiện của tàu có thể rất khác nhau giữa các ảnh,
phụ thuộc vào nhiều yếu tố như điều kiện ánh sáng, góc của cảm biến, trạng thái
của biển. Ngoài ra cũng có sự khác nhau rất lớn giữa các tàu trong cùng một
loại. Việc thu thập và gán nhãn với tập dữ liệu huấn luyện đủ lớn cũng là một
thách thức không nhỏ. Để giải quyết vấn đề này, Katie Rainey và John Stastny
đề xuất giải thuật phân loại tàu là sự kết hợp của mô hình Bag-of-Words (BoW)
trong kết hợp phương pháp phân loại hỗ trợ máy véc tơ. Trong mô hình BoW tác
giả dùng cấu trúc đặc trưng vectơ sử dụng keypoint và bộ mô tả bất biến như
SIFT. Bộ mô tả của Scale-Invariant Feature Transform (SIFT) là bất biến đối
với những thay đổi về kích thước của ảnh và sự chiếu sáng, do đó các đặc trưng
tương tự từ các hình ảnh khác nhau của cùng một lớp nên sẽ được nhóm lại với
nhau. Nhóm nghiên cứu đã sử dụng bộ dữ liệu gồm bốn loại tàu dân sự như tàu
6
dầu, tàu vận tải, tàu công ten nơ và xà lan. Phương pháp này đã được áp dụng
thành công trong việc phân lớp tàu thuyền sử dựng ảnh viễn thám quang học độ
phân giải cao (dữ liệu thu từ hệ thống RAPIER) có độ chính xác trung bình đạt
xấp xỉ 80% [16].
Tại Việt Nam việc quản lý, phát hiện, theo dõi, giám sát tàu thuyền được
đầu tư phát triển theo một số chương trình và dự án cấp địa phương và nhà nước.
Tuy nhiên, số lượng các nghiên cứu và ứng dụng còn khác hạn chế. Tiêu biểu về
nghiên cứu nhận dạng, phân lớp tàu thuyền trên ảnh viễn thám là công trình sử
dụng mô hình trích xuất đặc trưng Spatial Pyramid Bag of Word và phương
pháp phân lớp SVM để phân loại tàu thuyền trên ảnh vệ tinh độ phân giải siêu
cao (Quick Bird) của nhóm nghiên cứu Lưu Việt Hưng, Đinh Văn Kiệt, Lương
Nguyễn Hoàng Hoa, Bùi Quang Hưng và Nguyễn Thị Nhật Thanh [18]. Kết quả
đạt được có độ chính xác cao (94%) đã đăng trên tạp chí Remote Sensing
Letters.
1.2 Giới thiệu về công nghệ viễn thám
1.2.1 Khái niệm, đặc điểm cơ bản viễn thám
Viễn thám (Remote sensing - tiếng Anh) được hiểu là một khoa học và
nghệ thuật để thu nhận thông tin về một đối tượng, một khu vực hoặc một hiện
tượng thông qua việc phân tích tài liệu thu nhận được bằng các phương tiện.
Những phương tiện này không có sự tiếp xúc trực tiếp với đối tượng, khu vực
hoặc với hiện tượng được nghiên cứu [2].
Thực hiện được những công việc đó chính là thực hiện viễn thám - hay
hiểu đơn giản: Viễn thám là thăm dò từ xa về một đối tượng hoặc một hiện
tượng mà không có sự tiếp xúc trực tiếp với đối tượng hoặc hiện tượng đó. Mặc
dù có rất nhiều định nghĩa khác nhau về viễn thám, nhưng mọi định nghĩa đều
có nét chung, nhấn mạnh "viễn thám là khoa học thu nhận từ xa các thông tin về
các đối tượng, hiện tượng trên trái đất".
Viễn thám điện từ là khoa học và công nghệ sử dụng sóng điện từ để
chuyển tải thông tin từ vật cần nghiên cứu tới thiết bị thu nhận thông tin cũng
như công nghệ xử lý để các thông tin thu nhận có ý nghĩa. Viễn thám điện từ
bao gồm viễn thám quang học và viễn thám radar.
Ảnh viễn thám (ảnh vệ tinh): là ảnh số thể hiện các vật thể trên bề mặt trái
đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh. Ảnh quang học dựa trên
cơ sở đo sóng phản xả từ bề mặt trái đất ở giải sóng nhìn thấy và một phần của
7
sóng hồng ngoại trong khoảng từ 300-1500 nm. Giải phổ từ 300-700 nm là vùng
dải phổ của màu xanh lam (Blue) - xanh lá cây (Green) - màu đỏ (Red), khu vực
700-1500 nm thuộc về dải phổ hồng ngoại của vùng hồng ngoại gần. Khu vực
hồng ngoại trung và hồng ngoại xa thường gọi là hồng ngoại nhiệt. Cảm biến
toàn sắc bao trùm giải bước sóng rộng từ 400-900 nm kết quả của nó cho ta một
tấm ảnh gần giống như ảnh đen trắng [1].
Hình 1. 1 Dải sóng điện từ
Năng lượng sóng phản xạ từ đối tượng bao gồm hai phần:
- Năng lượng phản xạ trực tiếp từ bề mặt đối tượng;
- Năng lượng tán xạ bởi cấu trúc bề mặt đối tượng.
Độ phân giải không gian.
Độ phân giải không gian của một ảnh vệ tinh, do đặc tính của đầu thu, phụ
thuộc vào hai thông số FOV (Field of view-trường/góc nhìn) và IFOV
(instantaneous field of view - trường/góc nhìn tức thì) được thiết kế sẵn. Thông
số FOV cho ta thấy được phạm vi không gian mà đầu thu có thể thu nhận được
sóng điện từ từ đối tượng. Rõ ràng là với góc nhìn càng lớn (FOV càng lớn) thì
ảnh thu được càng rộng, và với cùng một góc nhìn, vệ tinh nào có độ cao lớn
hơn sẽ có khoảng thu ảnh lớn hơn [1].
Ngược với FOV, IFOV của đầu thu đặc trưng cho phạm vi không gian mà
đầu thu có thể nhận được sóng điện từ trong một thời điểm. Tức là đầu thu sẽ
không thể “nhìn” được các đối tượng nhỏ hơn trong góc nhìn IFOV. Tổng hợp
giá trị bức xạ của các đối tượng trong một góc IFOV được thu nhận cùng một
lúc và mang một giá trị, được ghi nhận như một điểm ảnh. Trong ảnh số, một
8
điểm ảnh được gọi là một pixel và giá trị kích thước pixel đặc trưng cho khả
năng phân giải không gian của ảnh. Góc IFOV càng nhỏ thì khả năng phân biệt
các đối tượng trong không gian càng lớn, nghĩa là giá trị pixel càng nhỏ và phạm
vi “chụp” ảnh càng hẹp (hình 1.2).
Ý nghĩa quan trọng nhất của độ phân giải không gian là cho ta biết các đối
tượng nhỏ nhất mà có thể phân biệt được trên ảnh. Ví dụ, ảnh có độ phân giải
không gian là 30 x 30
m
sẽ cho phép phân biệt được các đối tượng có kích thước
lớn hơn 30 x 30m. Tuy hiện nay đã có những nghiên cứu về phương pháp phân
loại dưới pixel, nhưng để áp dụng rộng rãi cần được nghiên cứu thêm.
Hình 1. 2 Độ phân giải không gian của ảnh viễn thám trên cùng khu vực
Dữ liệu viễn thám cung cấp nhiều thông tin quan trọng trong nhiều ứng
dụng giám sát như gom ảnh, phát hiện biến đổi và phân loại lớp phủ. Kỹ thuật
viễn thám là một trong những kỹ thuật quan trọng được áp dụng để thu thập
thông tin liên quan đến tài nguyên môi trường của Trái Đất. Các dữ liệu ảnh vệ
tinh phổ biến dễ dàng tiếp cận và truy cập qua các ứng dụng bản đồ nổi tiếng
như Google Earth, Bing Maps,
1.2.2 Dữ liệu ảnh viễn thám quang học
a) Ảnh vệ tinh QuickBird
Được cung cấp bởi Công ty Digital Globe, ảnh QuickBird hiện nay là một
trong những loại ảnh vệ tinh thương mại có độ phân giải cao nhất, được thu thập
miễn phí từ nền tảng Google Earth. Hệ thống thu ảnh QuickBird có thể thu được
đồng thời các tấm ảnh toàn sắc lập thể có độ phân giải từ 67cm đến 72cm và các
tấm ảnh đa phổ có độ phân giải từ 2,44m đến 2,88m. Với cùng một cảnh, Công
ty Digital Globe có thể cung cấp cho khách hàng 3 loại sản phẩm, ảnh
QuickBird được sử dụng các cấp độ xử lý khác nhau...ả đặc
trưng của hình ảnh thông qua thuật toán được mô tả trong Hình 2.10:
29
Hình 2.10 Mô tả điểm đặc trưng (nguồn [5]).
Một bộ mô tả điểm chính được tạo bằng cách tính toán độ lớn và hướng
của độ dốc tại 16x16 điểm mẫu hình ảnh trong một khu vực xung quanh vị trí
điểm chính. Trong 16x16 điểm được chia thành 4 khu vực con 8x8 điểm. Mỗi
khu vực đó được nhân với trọng số Gaussian (như đề cập trong phần trước) mô
tả bằng hình tròn. Mỗi khu vực con 8x8 được biểu diễn lại bằng 1 ma trận 2x2
như trong hình phía dưới bên phải. Trong đó, mỗi ô sẽ biểu diễn một khu vực
con 4x4 trong khu vực con 8x8. Độ lớn các mũi trên trong ô đó tương ứng với
tổng giá trị của các hướng tương tự trong ma trận con 4x4 mà nó biểu diễn.
Thông thường, số lượng mũi tên được biểu diễn trong mỗi ô sẽ là 8. Tổng cộng
lại, ta sẽ có 1 vector 4x2x2x8=128 chiều biểu diễn cho mỗi đặc trưng.
30
Thuật toán SURF
Trong chương trước, chúng tôi đã giới thiệu về thuật toán SIFT để phát
hiện và mô tả các điểm đặc trưng của hình ảnh. Tuy nhiên, nhược điểm dễ thấy
nhất của SIFT là tương đối chậm và cần được cải thiện. Năm 2006, ba người nhà
khoa học Herbert Bay, Tinne Tuytelaars, Luc Van Gool đã giới thiệu một
phương pháp mới SURF – “Speeded Up Robust Feature” [8]. Đây là một thuật
toán được cải thiện từ SIFT để cho thời gian thực thi chỉ bằng khoảng một phần
ba so với SIFT. Điểm khác biệt nhất của SURF so với SIFT bao gồm việc tìm
kiếm điểm ứng viên, định hướng và mô tả điểm đặc trưng. SURF được ứng dụng
trong các linh vực tương tự SIFT.
a) Tìm các điểm ứng viên
Đầu tiên, thuật toán SURF sử dụng một khái niệm mới gọi là máy dò
nhanh Hessian (Fast-Hessian Detector). Thuật toán sẽ đựa trên ma trận Hessian
để tìm kiếm các điểm đặc trưng. Trong SIFT, các phép tính toán sự khác biệt
được dùng để tìm các điểm đặc trưng và ma trận Hessian được dùng để biểu
diễn các điểm đặc trưng và lọc các điểm có độ tương phản thấp. Thay vì vậy,
trong SURF, ma trận Hessian được sử dụng cho cả hai nhiệm vụ trên. Với một
điểm ảnh X = (x, y) trong ảnh I, ma trận Hessian của ( ) tại tỉ lệ σ được
định nghĩa là:
( ) [
( ) ( )
( ) ( )
] (2.12)
Trong đó, Trong đó, là đạo hàm bậc hai của L theo x, là đạo hàm
của đạo hàm của L theo x theo y và tương tự với hai giá trị còn lại. L là công
thức của hàm không gian tỷ lệ Gaussian như đã giới thiệu trong SIFT. Hàm
Gaussian được tối ưu để phân tích không gian tỉ lệ. Tuy nhiên, trong thực tế, các
giá trị thu được từ hàm Gaussian không phải luôn có ý nghĩa và cần lọc bỏ bớt.
Vì vậy, thay vì dùng các bộ lọc Gaussian, SURF sử dụng một bộ lọc mới có tên
gọi là bộ lọc hộp (“Box Filter”).
Hình 2.11 Minh họa phương pháp xấp xỉ của bộ lọc hộp (nguồn [8]).
31
Hai hình bên trái thể hiện hình ảnh được tính từ hàm Gaussian, và 2 hình
bên trái là kết quả thu được từ bộ lọc hộp 9x9. Các ô màu xám sẽ có giá trị 0
Hình 2.11 là kết quả khi áp dụng bộ lọc hộp để xấp xỉ đạo hàm bậc 2 của
Gaussian với σ = 1.2 biểu diễn cho tỉ lệ không gian cao nhất trong SURF (trong
SIFT là 1.6). Sau khi xấp xỉ, các giá trị kết quả được giữ đơn giản để thuận lợi
hơn trong quá trình tính toán. Để cân bằng định thức của ma trận Hessian, trong
số cần được thêm vào trong quá trình tính. Cụ thể công thức sẽ như sau:
| ( )|
| ( )|
| ( )| | ( )|
(2.13)
( ) ( )
Trong đó, | | là chuẩn Frobenius của A và D chính là hàm DoG tương
tự trong SIFT. Các ảnh được xét theo mô hình kim tự tháp tương tự như trong
SIFT. Tuy nhiên, trong SIFT, các tỉ lệ thấp hơn của hình ảnh phải được tính toán
từ ảnh tỉ lệ trước đó của ảnh. Thay vì vậy, thuật toán SURF có thể áp dụng bộ
lọc có kích thước bất kì và tính toán chính xác trên ảnh gốc. Do đó, không gian
tỉ lệ được phân tích nhờ việc tăng kích thước bộ lọc thay vì giảm tỉ lệ hình ảnh
bằng cách tăng giá trị σ qua mỗi đoạn như trong SIFT. Trong ví dụ bên trên, bộ
lọc 9x9 được áp dụng cho lớp tỉ lệ ban đầu mà trong SURF gọi là thang đo s =
1.2 (tương ướng với hàm Gaussian sử dụng σ = 1.2). Để phân tích các ảnh có tỉ
lệ thấp hơn, các bộ lọc có thể sử dụng sẽ là 9×9, 15×15, 21×21, 27×27 Thực
tế, các bộ lọc cũng liên tiếp cũng nên chia tỉ lệ tương ứng.Việc tỷ lệ các bộ lọc
được giữ nguyên nên giá trị của chuẩn Frobenius trong công thức bên trên cũng
không thay đổi. Ví dụ bộ lọc 9x9 tương ứng với thang đo s= 1.2, bộ lọc 27x27 sẽ
tương ứng với thang đo s = 3*1.2=3.6. Để tìm kiếm các điểm ứng viên, phương
pháp xét cực trị với 3x3x3 các điểm xung quanh như trong SIFT được áp dụng.
b) Định hướng
SURF sử dụng phản ứng con sóng (Haar-wavelet) theo chiều x và y cho
các điểm trong một hình tròn bán kính bằng 6*s quanh điểm đặc trưng. Các giá
trị này cũng được nhân trọng số với hàm Gaussian σ = 2.5s). Phản ứng con sóng
được tính theo minh dọa Hình 2.12 dưới đây:
32
Hình 2.12 Ví dụ về phản ứng con sóng.
Khác với SIFT, SURF không biểu diễn các điểm xung quanh thành biểu
đồ sử dụng hình tròn (tương ứng với các điểm lấy mẫu) để biểu diễn. Giá trị mỗi
hướng sẽ là tổng các giá trị thu được được từ phản ứng con sóng. Hướng ưu thế
sẽ là hướng có tổng các giá trị trên biểu đồ trong một góc ±15 lớn nhất (ví dụ
trong hình dưới đây):
Hình 2.13 Ví dụ về biểu đồ hướng trong SURF (nguồn [10]).
c) Mô tả điểm đặc trưng
Để mô tả đặc trưng, bước đầu tiên bao gồm xây dựng một vùng hình
vuông xoay quanh điểm ứng viên và được định hướng dọc theo hướng được
chọn trong phần trước. Kích thước cụ thể được sử dụng là 20s. Hình dưới minh
họa các vùng đặc trưng cần xét.
33
Hình 2.14 Minh họa các vùng đặc trưng (nguồn [8]).
Từ một khu vưc 20sx20s ban đầu sẽ được chia làm 4x4 các vùng nhỏ.
Trong mỗi vùng nhỏ này, phản ứng sóng ngang và dọc sẽ được tính và gọi là dx
và dy. Hướng ngang và dọc sẽ được xác định dựa theo hướng của điểm đặc
trưng đang xét. Để tăng độ bất biến đối với biến dạng hình học và lỗi cục bộ, các
đáp ứng dx và dy được đặt trọng số với một hàm Gaussian (σ = 3,3s) tính từ vị
trí điểm đặc trưng đang xét. Sau đó, các phản ứng sóng này được tổng hợp qua
từng tiểu vùng và tập hợp lại thành vec tơ đặc trưng biểu diễn cho điểm đặc
trưng. Để biểu diễn sự thay đổi của cường độ, giá trị tuyệt đối của dx và dy cũng
được sử dụng. Do đó, mỗi tiểu vùng có vectơ mô tả bốn chiều v cho cấu trúc
cường độ cơ bản v = (dx, dy, | dx |, | dy |). Điều này dẫn đến một vectơ mô tả
cho tất cả các 4 × 4 vùng con có độ dài 64. Ngoài phiên bản cho vector đặc
trưng dài 64, SURF có một phiên bản cho vector đặc trưng dài 128. Trong đó
các giá trị dx và dy vẫn được sử dụng như cũ nhưng các giá trị này được tính
chia ra theo điều kiện. Trong đó, dx và |dx| được chia ra theo điều kiện dy < 0
hoặc dy >= 0 và dy và |dy| được chia ra theo điều kiện dx = 0.
Hình 2.15 Ví dụ giá trị của các thuộc tính trong SURF trong mỗi trường hợp ảnh
(nguồn [8]).
34
2.1.2 Thuật toán Local Binary Patterns
LBP là thuật toán trích xuất đặc trưng kết cấu trên ảnh xám được đề xuất
bởi Ojala và các cộng sự. LBP được sử dụng rộng rãi trong xử lý hình ảnh - đặc
biệt là trong nhận dạng khuôn mặt [17]. Ban đầu, LBP được tính toán bằng cách
tại mỗi điểm của hình ảnh, ta xét 8 điểm xung quanh điểm đang xét. Lấy giá trị
của điểm đang xét là ngưỡng giá trị. Các điểm xung quanh có giá trị nhỏ hơn
ngưỡng sẽ được đánh dấu là 1 và nếu nhỏ hơn ngưỡng sẽ được đánh dấu là 0.
Sau đó, các giá trị sau khi tính ngưỡng (0 hoặc 1) sẽ được nhân với ma trận
trọng số và được sử dụng để tính giá trị LBP của điểm trung tâm đang xét.
Phương pháp hoạt động của LBP được mô tả trong hình 2.16.
Hình 2.16 Minh họa các hoạt động của thuật toán LBP đầu tiên (nguồn [15]).
Tuy nhiên, phương pháp này sẽ khiến các đặc trưng của LBP không quá
ổn định và biểu diễn được các đặc trưng quá lớn. Vì vậy Ojala đưa ra một
phương pháp để cải tiến thuật toán này. Theo đó, trong một hình ảnh xám, các
điểm lân cận không được lấy mẫu theo 8 điểm xung quanh mà sẽ là một tập hợp
các điểm thuộc đường tròn với điểm đang xét là tâm. Gọi (P, R) là một vùng lân
cận gồm P điểm trên một đường tròn có bán kính R. T là đặc điểm kết cấu của
vùng lân cận, T được kí hiệu là:
( ) (2.14)
Trong đó, và ( ) là giá trị trên ảnh xám của điểm trung
tâm và các điểm trên đường tròn bán kính R. Các lấy điểm mẫu được ví dụ trong
hình sau:
35
Hình 2.17 Mô tả cách lấy mẫu tron LBP cải thiện (nguồn [15]).
Khi tăng bán kính lấy mẫu, mối tương quan giữa các điểm ảnh giảm dần.
Hầu hết thông tin về kết cấu thì cần lấy trong các bán kính nhỏ (thường là một
hoặc 2). Để tính toán thông tin, giá trị của các điểm ảnh lấy mẫu sẽ trừ đi giá trị
của điểm ảnh trung tâm, khi đó:
( ) (2.15)
Do giá trị gốc của điểm ảnh gốc chỉ thể hiện cường độ sáng tại điểm đó và
không liên quan nhiều đến kết cấu, ta có thể viết công thức trên thành:
( ) (2.16)
Công thức trên vẫn sẽ bị ảnh hưởng khi giá trị của các điểm ảnh trong
công thức tăng hoặc cùng giảm. Vì vậy, để làm cho định nghĩa kết cấu không bị
thay đổi, ta chuẩn hóa các giá trị của công thức trên như sau:
( ( ) ( )) (2.17)
( ) {
Sau đó, giá trị biểu diễn kết cấu cục bộ xung quanh điểm đang xét sẽ được
tính toán như sau:
∑ ( )
(2.18)
Đến đây, công thức vẫn tương tự như phần đầu. Nhưng có một vấn đề là
nếu số điểm lân cận được xét quá lớn, giá trị đặc trưng cho kết cấu sẽ tăng quá
cao. Điều này gây cản trở cho việc khai thác và phân loại kết cấu. Để giải quyết
vấn đề này, Ojala đã giới thiệu mẫu đồng phục – “Uniform patterns”. Theo đó,
xét một dãy nhị phân (chỉ có 0 và 1), nếu dãy có ít hơn hoặc bằng hai thay đổi
thì được gọi là mẫu đồng phục. Ví dụ: 00000000 (không thay đổi), 00111000
(hai thay đổi) là mẫu đồng phục và 01001100 (4 thay đổi), 01010101 (7 thay
36
đổi) không phải mẫu đồng phục. Để kiểm tra một mẫu kết cấu có phải là mẫu
đồng phục hay không, công thức sau được áp dụng:
( ) | ( ) ( )| ∑ | ( ) (
)| (2.19)
Khi U nhỏ hơn hoặc bằng 2, mẫu kết cấu được gọi là mẫu đồng phục. Các
mẫu còn lại sẽ được gọi là mẫu lai và có chung giá trị. Do đó, giá trị của biểu
diễn mẫu sẽ được giảm đi đáng kể. Ví dụ: với 8 điểm lân cận, giá trị biểu diễn
mẫu được giảm xuống từ 256 xuống 58. Sau đây là công thức tính mẫu đồng
phục:
{
∑ ( ) ( )
(2.20)
Ngoài ra, để đạt được bất biến khi ảnh bị xoay, một hàm bất biến xoay
của LBP được định nghĩa như sau:
( (
) ) (2.21)
Trong đó, ROR là hàm quay. Hàm này sẽ thay đổi chuỗi nhị phân thu
được từ các điểm mẫu lần lượt. Sau khi tính toán hết giá trị LBP cho mỗi chuỗi,
giá trị nhỏ nhất sẽ được chọn để biểu diễn mẫu kết cấu đó. Hình dưới mô tả một
hình ảnh qua xử lý bằng LBP
Hình 2. 18 Minh họa kết quả thu được qua thuật toán LBP
2.2 Nghiên cứu phƣơng pháp, thuật toán phân lớp tàu
thuyền.
Thuật toán SVM là một thuật toán học máy huấn theo có giám sát. Thuật
toán SVM ban đầu được tìm ra bởi Vladimir N. Vapnik và dạng chuẩn hiện nay
sử dụng lề mềm được tìm ra bởi Vapnik và Corinna Cortes năm 1995. Khác với
K-means, dữ liệu trước khi đưa vào SVM phải được gắn nhãn. Nhiệm vụ của
SVM sẽ là phân chia tập dữ liệu dựa theo các nhãn đó. SVM có thể được sử
dụng trong bài toán phân loại hoặc đệ quy [11].
37
Bài toán của SVM đặt ra như sau, cho một tập dữ liệu được biểu diễn
trong một không gian nhiều chiều. Giả sử tập dữ liệu là khả tách tuyến tính. Hãy
tìm ra siêu phẳng có thể chia tập dữ liệu ra làm hai phần (phân loại nhị phân) và
thỏa mãn điều kiện khoảng cách từ điểm gần nhất của mỗi tập đến siêu phẳng đó
là lớn nhất. Gọi tập dữ liệu huấn luyện là ( ), ( ), , ( ) với x là
dữ liệu và y là nhãn của dữ liệu tương ứng. Giả sử y chỉ nhận giá trị 1 hoặc -1
(bài toán phân loại nhị phân) và dữ liệu có thể biểu diễn trên một không gian hai
chiều. Ta có thể hình dung dữ liệu huấn luyện như sau:
Hình 2.19 Ví dụ dữ liệu trong SVM (nguồn [11]).
Trong hình, các điểm màu xanh và đỏ biểu diễn 2 class 1 và -1. Đường
thẳng x + b = + + b = 0 là đường thẳng ta cần tìm để phân tách
hai tập dữ liệu. Với 1 điểm dữ liệu ( , ) bất kỳ, ta có khoảng cách từ điểm đó
đến đường thẳng phân tách là:
(
)
‖ ‖
(2.22)
Khi này, lề – “margin” được định định nghĩa là khoảng cách của điểm gần
nhất đến đường thẳng. Ta có công thức tính lề như sau:
(
)
‖ ‖
(2.23)
Nhiệm vụ của bài toán SVM là tìm w và b để giá trị của lề là lớn nhất, ta
có mô tả toán học của SVM như sau:
38
( ) {
(
)
‖ ‖
} {
‖ ‖
(
)}
(2.24)
Ta có thể giả sử:
(
) (2.25)
Trong đó dấu bằng xảy ra tại các điểm gần đường thẳng nhất. Bài toán tối
ưu của SVM có thể được mô tả như sau:
( )
‖ ‖
(
) (2.26)
Mục tiêu của bài toán là dạng chuẩn 2 của w nên là một hàm lồi. Các hàm
bất đẳng thức ràng buộc là hàm tuyến tính của w và b nên cũng là một hàm lồi.
Đây là một bài toán lồi. Đây là một dạng bài toán được gọi là Quadratic
Programming. Bài toán này theo lý thuyết sẽ có nghiệm duy nhất và có thể giải
được bằng một số thư viện hỗ trợ giải bài toán Quadratic Programming. Tuy
nhiên việc giải theo cách này trở nên khó khăn và phức tạp nếu số lượng và số
chiều dữ liệu tăng lên. Thay vào đó, bài toán này hay được giải theo phương
pháp giải bài toán đối ngẫu của nó. Sau khi giải được bài toán, ta có thể xác định
nhãn cho các điểm dữ liệu mới bằng công thức sau:
( ) ( ) (2.27)
Trong đó hàm sgn là hàm xác định dấu, nhận giá trị 1 nếu đối số là không
âm và -1 nếu ngược lại.
Hiểu một cách đơn giản, thuật toán SVM có mục đích tìm một mô hình có
thể phân chia tập dữ liệu ra các miền sao cho dữ liệu trong các miền đó cùng
một nhãn nhiều nhất có thể. Tuy nhiên nếu chỉ có điều kiện trên thì có thể có rất
nhiều mô hình thỏa mãn và trong số đó có rất nhiều mô hình không phải là tốt
nhất. SVM thêm một điều kiện là “khoảng cách” từ điểm gần nhất đến mô hình
là lớn nhất có thể. Khoảng cách này chính là lề. Lề càng lớn thì mô hình sẽ càng
phân tách dữ liệu và dự đoán các dữ liệu chưa xuất hiện tốt hơn. Hay nói một
cách khác, lề chính là thể hiện của việc mô hình có thể dự đoán các loại dữ liệu
một cách “công bằng” và chịu nhiễu tốt hay không.
39
Hình 2.20 So sánh các mô hình.
Ta có thể thấy, đường mô hình trong hình bên phải (lề lớn) tốt hơn rất
nhiều so với đường mô hình trong hình bên trái (lề nhỏ). Trong hình biên trái,
đường mô hình bị lệch rất nhiều về bên xanh kiến cho các điểm màu xanh không
xuất hiện trong huấn luyện dễ bị nhận nhầm sang màu đỏ hơn. Với hình bên
phải, đường mô hình nằm chính giữa hai tập dữ liệu. Đây là lề lớn nhất có thể
đạt được và cũng là đường mô hình tốt nhất để phân chia hai tập dữ liệu. Trong
huấn luyện, SVM định nghĩa một siêu tham số gọi là C. Tham số này đại diện
cho việc huấn luyện ưu tiên mô hình sẽ phân loại chính xác các điểm dữ liệu hay
ưu tiên tìm được mô hình có lề lớn nhất có thể hơn. Ban đầu, thuật toán SVM
được xác định bằng lề cứng, tức là bắt buộc toàn bộ dữ liệu phải được chia chính
xác. Tuy nhiên trong thực tế, rất ít khi tồn tại một bộ dữ liệu có thể thõa mãn
điều kiện này. Từ đó khái niệm SVM lề mềm được đưa ra. Theo đó, thuật toán
SVM sẽ cho phép chấp nhận một số điểm không được chia chính xác tuyệt đối.
Điều này giúp thuật toán có thể áp dụng với các bài toán trong thực tế. Và khi
này, tham số C sẽ rất có ý nghĩa trong việc điều kiển việc huấn luyện ưu tiên
điều kiện phân loại đúng các điểm dữ liệu hay ưu tiên khả năng chịu nhiễu và dự
đoán các dữ liệu chưa xuất hiện.
Hình 2.21 Ví dụ kết quả thuật toán SVM (hình bên trái là lề cứng và hình bên
phải là lề mềm).
Trong các ví dụ trên, mô hình được nhắc đến đều là một đường thẳng.
Tuy nhiên trong thực tế, mặt phẳng phân tách dữ liệu không đơn giản là đường
40
thẳng mà có thể là các phương trình phức tạp hơn (ví dụ đường cong, hình
tròn). Đây là một siêu tham số cần lựa chọn khi huấn luyện mô hình và được
gọi là lõi (“kernel”). Mỗi loại lõi có thể cho kết quả tốt nhất với từng trường hợp
dữ liệu cụ thể.
Hình 2.22 Một số ví dụ về lõi của SVM.
Thuật toán SVM không chỉ thực hiện được nhiệm vụ phân loại nhị phân
(hai loại nhãn). Trong thực tế, SVM được sử dụng để xử lý bài toán có rất nhiều
nhãn. Có hai chiến lược giúp SVM làm được điều này. Chiến lược đầu tiên là
một đấu một. SVM sẽ xây dựng nhiều mô hình để phân loại cho từng cặp nhãn
cần xem xét. Sau đó, để dự đoán nhãn cho một dữ liệu mới. Các mô hình này sẽ
cùng bỏ phiếu và chọn ra nhãn thích hợp nhất. Chiến lược tiếp theo là một đấu
tất cả phần còn lại. Tương tự như chiến lược trước, SVM cũng xây dựng nhiều
mô hình nhưng theo thứ tự. Đầu tiên, một mô hình sẽ phân loại một loại nhãn
với tất cả các nhãn còn lại. Tiếp tục, nhãn đã được phân loại sẽ được đưa ra
ngoài và một mô hình sẽ phân loại một nhãn tiếp theo với số nhãn còn lại. Lặp
lại việc huấn luyện như vậy đến nhãn cuối cùng và tất cả các nhãn sẽ được phân
loại. Điểm chung của cả hai chiến lược trên là sẽ đưa bài toán phân loại nhiều
nhãn về các bài toán phân loại nhị phân nhỏ hơn và dùng SVM để xử lý.
41
Chƣơng 3: Ứng dụng phân lớp tàu thuyền ở cảng
biển Việt Nam trên ảnh viễn thám
3.1 Phƣơng pháp đề xuất
Hiện nay, có rất nhiều phương pháp để giải quyết bài toán phân lớp hình
ảnh như: K người láng giềng gần nhất, cây quyết định, máy hỗ trợ vector
(SVM)Tuy nhiên, dựa trên kết quả thực nghiệm đã cho thấy sử dụng
phương pháp SVM vào bài toán phân lớp hình ảnh cho kết quả rất khả quan.
Phần tiếp theo luận văn sẽ áp dụng mô hình SVM cho bài toán phân lớp tàu
thuyền trên ảnh vệ tinh. Các bước trong quá trình phân lớp tàu thuyền được thực
hiện như sau:
Hình 3. 1 Sơ đồ quá trình phân lớp tàu thuyền
Theo đó, từ một bộ dữ liệu ảnh ban đầu, ta sẽ thu được 5 bộ dữ liệu mới
(tương ứng với các cách trích xuất đặc trưng khác nhau). Kí hiệu của các bộ dữ
liệu sẽ được đánh dấu như sau:
- Dataset 1: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT.
- Dataset 2: Đặc trưng thu được bằng mô hình BOF và thuật toán SIFT kết
hợp với đặc trưng thu được từ thuật toán LBP.
- Dataset 3: Đặc trưng thu được từ thuật toán LBP.
42
- Dataset 4: Đặc trưng thu được bằng mô hình BOF và thuật toán SUFT
kết hợp với đặc trưng thu được từ thuật toán LBP.
- Dataset 5: Dữ liệu thu được bằng mô hình BOF và thuật toán SUFT.
3.1.1 Bộ cơ sở dữ liệu đầu vào
Trước khi dữ liệu được đưa vào huấn luyện các dữ liệu ảnh viễn thám về
tàu thuyền được tiến hành xử lý sơ bộ theo một quy trình cụ thể nhằm tăng
cường chất lượng, độ chính xác cho dữ liệu đầu vào. Các bước tiến hành cụ thể
như sau.
a) Thu thập dữ liệu đầu vào
Chuẩn bị dữ liệu cho quá trình huấn luyện: lựa chọn tập hợp các ảnh chụp
tàu thuyền thích hợp; một ảnh đạt yêu cầu là ảnh có chứa tàu xác định và không
bị ảnh hưởng bởi mây trắng hoặc một màu nền đồng nhất làm nổi bật tàu.
Hình 3. 2 Dữ liệu ảnh viễn thám khu vực tập trung nhiều tàu thuyền
b) Tiền xử lý dữ liệu
Vì ảnh đầu vào (dữ liệu nhận dạng/ phân lớp) có thể là ảnh chứa tàu
thuyền hợp lệ, có thể là ảnh không phải là tàu thuyền, ảnh có chứa nhiễu (ánh
sáng, màu nền không thích hợp) nên dữ liệu này có thể được tiến hành tiền xử
lý trước khi nhận dạng.
Lọc ảnh là thao tác với các đối tượng không gian ảnh. Phép lọc ảnh là tác
động lên ảnh số gốc ở dạng ma trận raster bằng một thuật toán nhằm thay đổi giá
trị số của các đơn vị ảnh theo chiều hướng có lợi trong quá trình giải đoán ảnh.
43
Thông thường giá trị số của một pixel ảnh được nhân với một hàm số xác định
chứa đựng các biến vào là các giá trị số của các pixel ảnh xung quanh nó theo
một cửa sổ động nào đó có thể là 3x3, 5x5, 7x7.
Trong thực tế có một số toán tử lọc được xác định trước với mục đích tạo
ra một số hiệu ứng như tăng cường đường biên, làm sắc nét, làm mịn
ảnh....Trong một số phần mềm các toán tử này được chia thành hai nhóm. Nhóm
thứ nhất được lập trình theo các bộ lọc tổng quát sử dụng giá trị trung vị hoặc
trung bình cộng với lựa chọn lọc tần số thấp hay cao. Nhóm thứ hai là làm việc
với các toán tử lọc đặc biệt như Sobel, Laplacian, smoothing....
c) Tạo tập mẫu
Sau quá trình tiền xử lý dữ liệu, chúng tôi tiến hành gán nhãn dữ liệu tàu
thuyền theo quy trình được trình bày trong mục 1.3. Từ ảnh ban đầu, ảnh tàu
thuyền được cắt thành từng ảnh nhỏ chứa trong các thư mục được gán nhãn
tương ứng.
3.1.2 Trích chọn đặc trƣng
Để thực hiện quá trình phân lớp, bước trích chọn đặc trưng ảnh có vai trò
rất quan trọng. Đặc trưng ảnh ở đây chính là đặc trưng nội dung ảnh, là phân
tích nội dung thực sự của các bức ảnh. Nội dung ảnh được thể hiện bằng màu
sắc, hình dạng, kết cấu (texture), các đặc trưng cục bộ (local features) hay bất
cứ thông tin nào có từ chính nội dung ảnh. Trong bài luận văn này sử dụng
phương pháp trích chọn đặc trưng Bag of Feature (BOF), LPB và phương pháp
trích chọn đặc trưng kết hợp BOF&LPB đã được trình bày trong nội dung 2.1.
Đối với trích chọn đặc trưng theo mô hình BoF: bao gồm ba bước bao
gồm trích xuất đặc trưng thô, xây dựng từ điển và trích xuất đặc trưng được mô
tả như sau:
- Trích xuất đặc trưng thô: Chúng tôi sử dụng bộ phát hiện Gaussian
(DoG) để phát hiện cố định một số điểm N từ mỗi hình ảnh. Các điểm
được phát hiện sau đó được mô tả bằng cách sử dụng bộ mô tả SIFT,
SURF [19] [7].
- Xây dựng từ điển: tất cả các bộ mô tả SIFT, SURF của các điểm được
trích xuất từ tập huấn luyện được phân cụm thành mã từ mã hóa sử dụng
phương pháp K láng giềng gần nhất để hình thành từ điển từ vựng trực
quan có kích thước M. Đối với thử nghiệm của chúng tôi, kích thước từ
44
vựng M và số điểm quan tâm N được đặt theo kinh nghiệm là M = 250, và
N = 250.
- Trích xuất đặc trƣng: hình ảnh được biểu thị bằng biểu đồ tần suất xuất
hiện của các từ vựng trực quan được xây dựng trong bước 2. Các véc tơ
đặc trưng thu được từ quá trình phân cụm và tính toán được chuẩn hóa lại
để các cột có cùng khoảng giá trị từ -1 đến 1.
Hình 3. 3 Đặc trưng trên ảnh bằng thuật toán SIFT và SURF. Từ trái sang lần
lượt là ảnh gốc, đặc trưng tìm được từ SIFT và đặc trưng tìm được từ SURF.
Đối với thuật toán trích chọn đặc trưng LPB: Thuật toán được sử dụng để
trích xuất đặc trưng, các mô hình sử dụng và các huấn luyện đã được trình bày
trong mục 2.1.2. Phiên bản thuật tuán LBP được chúng tôi sử dụng trong luận
văn này được cài đặt trong thư viện skimage phiên bản 0.16.2.
Hình 3. 4 Đặc trưng trên ảnh bằng thuật toán LBP. Từ trái sang lần lượt là ảnh
gốc và ảnh qua xử lý bằng thuật toán LBP trước khi tính histogram.
3.1.3 Chọn thuật toán huấn luyện và phân lớp dữ liệu
Sau khi hoàn thành giai đoạn trích chọn đặc trưng ảnh, tiếp theo là chọn
thuật toán huấn luyện và phân lớp dữ liệu ảnh. Trong phần cài đặt thực nghiệm,
chúng tôi lựa chọn thuật toán huấn luyện nhận dạng dữ liệu SVM kết hợp với
từng phương pháp trích chọn đặc trưng nêu trên.
a) Nhận dạng tàu với mô hình BoF
45
Như đã trình bày trong phần lý thuyết, BoF là một mô hình thích hợp cho
việc phân loại hình ảnh. Ngoài ra, hai đặc trưng SIFT và SURF được chọn để
làm bước trích xuất đặc trưng từ ảnh. Hai đặc trưng này rất phù hợp với đặc
trưng bộ ảnh dữ liệu của luận văn. Lý do là vì ảnh tàu thường có góc xoay đa
dạng, tỉ lệ tàu khác nhau và đặc trưng thu được từ SIFT và SURF lại không bị
ảnh hưởng bởi hai giá trị này. Các đặc trưng được tính toán từ SIFT và SURF sẽ
được phân cụm bằng thuật toán K-means. Sau đó dựa vào kết quả phân cụm,
mỗi hình ảnh sẽ được biểu diễn bằng một véc tơ đặc trưng
Các véc tơ đặc trưng thu được từ quá trình phân cụm và tính toán được
chuẩn hóa lại để các cột có cùng khoảng giá trị. Sau đó các đặc trưng sẽ được
đưa vào huấn luyện trong thuật toán SVM. Quá trình huấn luyện thuật toán
SVM sửa dụng phương pháp Gridsearchcv được hỗ trợ bởi thư việc Scikit-learn
để tìm được tham số thích hợp nhất cho SVM. Đây là phương pháp thực hiện
xác thực chéo trên tập huấn luyện để tìm tham số thích hợp nhất cho mô hình
(trong tập tham số được đưa vào). Sau đó các tham số này được chọn và mô
hình được huấn luyện lại trên tập dữ liệu huấn luyện.
Hai mô hình được sử dụng trong phương pháp này là K-means và SVM.
Các tham số cần quan tâm và giá trị tốt nhất cho các tham số như sau (các giá trị
này thu được bằng phương pháp Grid Search CV):
- K-means:
+ n_clusters = 250. Số lượng cụm để biểu diễn các đặc trưng thu được từ
thuật toán SIFT và SURF.
- SVM:
+ C = . Trọng số của lỗi phân loại trong huấn luyện.
+ gamma = . Mức độ ảnh hưởng của mỗi mẫu lên việc điều chỉnh mô
hình.
+ kernel = . Loại lõi (hay nhân) của mô hình.
b) Nhận dạng tàu với LBP và thuật toán SVM
Khác với SIFT và SURF, LBP trích xuất ra đặc trưng từ ảnh xám. Đặc
trưng của LBP được biểu diễn trên toàn bộ ảnh chứ không phải từng vị trí như
SIFT và SURF. Chính vì vậy LBP không thích hợp để sử dụng trong mô hình
BoF. Cách sử dụng đặc trưng của LBP là từ ảnh kết quả thu được từ LBP, chúng
tôi sẽ tính histogram trực tiếp trên ảnh. Điều này tương tự như việc hình ảnh
được biểu diễn bằng biểu đồ các đặc trưng trong mô hình BoF.
46
Véc tơ đặc trưng thu được từ việc tính histogram trên ảnh cũng sẽ được
chuẩn hóa để các cột có cùng khoảng giá trị từ -1 đến 1. Sau đó, các dữ liệu này
cũng được đưa vào thuật toán SVM để huấn luyện. Quá trình huấn luyện cũng
được áp dụng các phương pháp tương tự như trong cách trước.
c) Nhận dạng tàu với đặc trưng kết hợp (của BoF và LBP) và thuật toán
SVM
Đây là phương pháp sử dụng kết hợp cả mô hình BoF và LBP. Phương
pháp này thực hiện theo các bước sau:
Bước 1: Tính toán các đặc trưng từ ảnh như trong mô hình BoF và thu
được véc tơ đặc trưng từ mô hình K-means.
Bước 2: Tính toán các đặc trưng từ ảnh bằng thuật toán LBP và thu được
véc tơ đặc trưng.
Bước 3: Ghép hai véc tơ đặc trưng thu được từ bước 1 và bước 2.
Bước 4: Sử dụng các véc tơ đặc trưng thu được từ bước 3 để huấn luyện
mô hình SVM. Các bước huấn luyện tương tự đã trình bày trong hai phương
pháp trên.
Điều kiện đặc trưng của hai phương pháp có thể kết hợp là chúng có cùng
đặc điểm (đều là các số nguyên). Việc kết hợp này nhằm hi vọng có thể thu
được đặc trưng vừa biểu diễn được ảnh tàu trong các điều kiện xoay và kích
thước khác nhau đồng thời biểu diễn được đặc trưng tương phản của hình ảnh.
3.2 Kết quả và thảo luận
3.2.1 Bộ cơ sở dữ liệu
Luận văn sử dụng 102 cảnh ảnh Planet khác nhau thuộc 02 khu vực là
cảng biển Vũng Tàu và Hải Phòng.
Hình 3. 5 Hình ảnh đánh dấu vùng biển trên bản đồ
47
Sau đó, các ảnh tàu thuyền được đánh nhãn bằng phần mềm ENVI. Chúng
tôi đánh dấu các lớp tàu bằng các mã như sau: Tau dau, Tau cong ten no, Tau
van tai. Từ các ảnh ban đầu, ảnh tàu thuyền được cắt ra và chia vào các thư mục
con mang tên tàu tương ứng.
Hình 3. 6 Một số tàu mã tau dau.
Hình 3. 7 Một số tàu mã tau cong ten no.
Hình 3. 8 Một số tàu mã tau van tai.
Sau khi xử lý, tổng cộng số lượng bộ dữ liệu gồm 1519 mẫu tàu thuộc 03
lớp tàu khác nhau được tập hợp dùng để xây dựng máy học và kiểm chứng hiệu
quả. Trong đó có 543 mẫu tàu dầu, 470 cho mẫu tàu công ten nơ và 506 mẫu tàu
vận tải. Các mẫu tàu được thu thập từ nguồn dữ liệu ảnh viễn thám Planet có độ
phân giải không gian 3m. Bảng 2 trình bày chi tiết số liệu thống kê số mẫu tàu
thuộc mỗi lớp tàu. Tiếp theo, chúng tôi tiến hành thực hiện việc chia dữ liệu theo
tỉ lệ 7:3 thành hai tập dữ liệu. Theo đó, tập dữ liệu thứ nhất có 1095 hình ảnh tàu
thuyền thuộc 3 lớp tàu dầu, tàu vận tải, tàu công ten nơ được sử dụng làm dữ
liệu xây dựng, huấn luyện mô hình nhận dạng hay còn gọi là tập huấn luyện.
Tập còn lại có 454 mẫu tàu được sử dụng để đánh giá độ chính xác của mô hình
huấn luyện hay còn gọi là tập kiểm chứng độc lập. Chúng tôi sử dụng phương
pháp xác thực chéo để tìm được tham số tốt nhất cho mô hình SVM nên không
dùng bộ dữ liệu xác thực.
48
Bảng 3. 1 Bảng thống kê chi tiết cơ sở dữ liệu tàu thuyền
Tên loại tàu Nhãn Số lƣợng
ảnh ban
đầu
Số lƣợng
trong tập
huấn
luyện
(ảnh)
Số lƣợng
trong tập
kiểm tra
(ảnh)
Tàu Dầu Tau dau 543 410 163
Tàu Container Tau cong-ten-no 470 330 140
Tàu Vận tải Tau van tai 506 355 151
3.2.2 Kết quả phân lớp
a) Nhận dạng tàu với Mô hình BoF
Như đã trình bày trong phần a – mục 3.1.3, thuật toán BoF được sử dụng
dựa trên hai thuật toán trích chọn đặc trưng SIFT và SURF. Từ một hình ảnh,
chúng tôi thu được một tập các đặc trưng thu được bằng thuật toán SIFT hoặc
SURF. Các đặc trưng này được biểu diễn bằng các vector có độ dài 128 (như đã
trình bày trong lý thuyết của thuật toán SIFT và SURF). Các vector đặc trưng
của mỗi hình ảnh được được phân cụm trong thuật toán Kmean với số cụm là
250. Để biểu diễn đặc trưng của hình ảnh, một vector có độ dài 250 được tạo ra
với giá trị mỗi ô tương ứng với số đặc trưng (trích từ thuật toán SIFT và SURF)
của ảnh thuộc cụm tương ứng (trong thuật toán Kmean). Vector mới này chính
là đặc trưng của mỗi hình ảnh để đưa vào huấn luyện trong thuật toán SVM.
Để hình dung trực quan hơn và kiểm tra tính khả tách của dữ liệu, chúng
tôi đã dùng thuật toán TSNE của thư viện Scikit-learn để mô tả các vector đặc
trưng của hình ảnh. Thuật toán TSNE là một thuật toán cho phép tìm kiếm biểu
diễn của dữ liệu theo một không gian mới với số chiều ít hơn. Để có thể thể hiện
dữ liệu là các vector đặc trưng có độ dài 250, chúng tôi chọn số chiều là 3
(tương ứng với tọa độ không gian ba chiều) và biểu diễn chúng trên đồ thị như
hình sau.
49
Hình 3. 9 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp SIFT
50
Hình 3. 10 Biểu đồ mô tả vecto đặc trưng tàu thuyền sử dụng phương pháp
SURF
Từ 2 biểu đồ trên, ta có thể thấy được mối tương quan giữa các chiều của
dữ liệu và phân bố của dữ liệu theo một chiều nhất định. Từ biểu đồ, ta có thể
thấy phân bố dữ liệu theo chiều thu được từ mô hình BoF khi sử dụng thuật toán
SIFT có biến động cao hơn so
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_danh_gia_cac_phuong_phap_phan_loai_tau_t.pdf