ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phí Bá Chiến
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG
PHÁT HIỆN HÀNH ĐỒNG NGÃ CỦA NGƯỜI ĐI BỘ DỰA TRÊN
CẢM BIẾN CỦA ĐIỆN THOẠI DI ĐỘNG
LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM
HÀ NỘI – 2020
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Phí Bá Chiến
NGHIÊN CỨU VÀ XÂY DỰNG HỆ THỐNG
PHÁT HIỆN HÀNH ĐỒNG NGÃ CỦA NGƯỜI ĐI BỘ DỰA TRÊN
CẢM BIẾN CỦA ĐIỆN THOẠI DI ĐỘNG
Ngành: Kỹ thuật phần mềm
Chuyên ngành: Kỹ thuật phần mềm
60 trang |
Chia sẻ: huong20 | Ngày: 07/01/2022 | Lượt xem: 489 | Lượt tải: 0
Tóm tắt tài liệu Luận văn Nghiên cứu và xây dựng hệ thống phát hiện hành đồng ngã của người đi bộ dựa trên cảm biến của điện thoại di động, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Mã số: 8480103.01
LUẬN VĂN THẠC SĨ KỸ THUẬT PHẦN MỀM
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS NGUYỄN HÀ NAM
Hà Nội – 2020
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự
hướng dẫn của PGS.TS. Nguyễn Hà Nam tại Bộ môn các Hệ thống Thông tin, Khoa
Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Các
số liệu và kết quả trình bày trong luận văn là trung thực và chưa được công bố trong
các công trình khác.
Tác giả
Phí Bá Chiến
LỜI CẢM ƠN
Luận văn được thực hiện tại Khoa CNTT-Trường Đại học Công nghệ, Đại
học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS. Nguyễn Hà Nam.
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam.
Người Thầy đã tận tụy chỉ dạy, giúp đỡ tôi giải quyết những vấn đề khó khăn trong
nghiên cứu khoa học và trong cuộc sống.
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các Nhà khoa học
trong khoa CNTT đã truyền đạt những kiến thức quý báu và đã tạo điều kiện thuận
lợi cho tôi trong quá trình học tập và nghiên cứu. Để có được dữ liệu phục vụ cho
nghiên cứu, tôi xin gửi lời cảm ơn tới Nhóm nghiên cứu của PGS.TS. Nguyễn Hà
Nam, thầy Nguyễn Đức Nhân, anh Lê Hồng Lam, anh Phùng Quang Luyện, em
Nguyễn Vũ Đông đã giúp tôi thu thập dữ liệu cũng như tiến hành một số thực
nghiệm liên quan đến Luận văn.
Tôi cũng gửi lời tri ân tới bạn bè, đồng nghiệp, người thân đã giúp đỡ và hỗ
trợ tôi trong suốt quá trình nghiên cứu.
Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ, anh chị em, đặc biệt là vợ và
con nhỏ của tôi, những người đã động viên, giành những điều kiện tốt nhất để tôi có
thể hoàn thành chương trình nghiên cứu của mình.
Phí Bá Chiến
Hà Nội, 2020
ii
MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................... I
LỜI CẢM ƠN ................................................................................................................... II
MỤC LỤC ....................................................................................................................... III
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ................................................................. V
DANH MỤC HÌNH ẢNH ............................................................................................... VI
DANH MỤC BẢNG BIỂU ........................................................................................... VII
MỞ ĐẦU ............................................................................................................................ 1
Tính cấp thiết của luận văn ................................................................................................. 1
Mục tiêu của luận văn ......................................................................................................... 2
Đối tượng và phạm vi nghiên cứu ...................................................................................... 2
Đóng góp của luận văn ....................................................................................................... 2
Bố cục của luận văn ............................................................................................................ 3
CHƯƠNG 1. TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG ............................ 4
1.1 Giới thiệu ................................................................................................................... 4
1.2 Một số khái niệm cơ bản ........................................................................................... 4
1.3 Các phương pháp nhận diện hành động .................................................................... 5
1.4 Một số nghiên cứu liên quan ..................................................................................... 6
1.5 Sử dụng dữ liệu cảm biến để phân tích hành động ................................................... 7
1.6 Kết luận chương ........................................................................................................ 8
CHƯƠNG 2. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI THỜI
GIAN .............................................................................................................. 9
2.1 Giới thiệu ................................................................................................................... 9
2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực .............................................. 9
2.2.1 Tiền xử lý dữ liệu ............................................................................................ 9
2.2.2 Cửa sổ dữ liệu ............................................................................................... 11
2.2.3 Biến đổi dữ liệu ............................................................................................. 11
2.2.4 Thuộc tính trên miền thời gian ...................................................................... 12
2.2.5 Thuộc tính trên miền tần số ........................................................................... 13
2.2.6 Tham số Hjorth ............................................................................................. 14
iii
2.3 Các phương pháp phân lớp ...................................................................................... 14
2.3.1 Random Forest .............................................................................................. 15
2.3.2 Artificial Neural Network ............................................................................. 16
2.3.3 Support Vector Machine ............................................................................... 17
2.4 Phương pháp đánh giá phân lớp .............................................................................. 18
2.4.1 Ma trận nhầm lẫn .......................................................................................... 18
2.4.2 Biểu đồ ROC và độ đo AUC ......................................................................... 20
2.5 Kết luận chương ...................................................................................................... 22
CHƯƠNG 3. XÂY DỰNG MÔ HÌNH PHÁT HIỆN HÀNH ĐỘNG .................. 23
3.1 Giới thiệu ................................................................................................................. 23
3.2 Tổng quan hệ thống ................................................................................................. 23
3.2.1 Dữ liệu thu thập từ cảm biến gia tốc ............................................................. 24
3.2.2 Xây dựng tập thuộc tính đặc trưng ................................................................ 25
3.3 Tối ưu mô hình ........................................................................................................ 26
3.3.1 Thuật toán tối ưu Particle Swarm Optimization – PSO ................................ 26
3.3.2 Mô hình nhận dạng và thuật toán PSO.......................................................... 30
3.4 Thực nghiệm và đánh giá ........................................................................................ 34
3.4.1 Môi trường thực nghiệm ............................................................................... 34
3.4.2 Dữ liệu thực nghiệm ...................................................................................... 34
3.4.3 Kết quả thực nghiệm với Random Forest ..................................................... 36
3.4.4 Kết quả thực nghiệm với ANN và SVM ....................................................... 38
3.4.5 Tối ưu mô hình Random Forest và thuật toán PSO ...................................... 41
3.5 Kết luận chương ...................................................................................................... 48
KẾT LUẬN ...................................................................................................................... 49
TÀI LIỆU THAM KHẢO .............................................................................................. 50
iv
DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
DIỄN GIẢI
TỪ VIẾT TẮT
TIẾNG ANH TIẾNG VIỆT
RF Random Forest Thuật toán phân lớp rừng ngẫu nhiên
Artificial Neural
ANN Thuật toán phân lớp mạng nơ-ron
Network
Thuật toán phân lớp máy véc-tơ hỗ
SVM Support Vector Machine
trợ
AUC Area Under Curve Diện tích dưới đường cong ROC
Âm tính giả (mẫu mang nhãn dương
FN False Negative
bị phân lớp sai vào lớp âm)
Dương tính giả (mẫu mang nhãn âm
FP False Positive
bị phân lớp sai vào lớp dương)
Âm tính thật (mẫu mang nhãn âm
TN True Negative
được phân lớp đúng vào lớp âm)
Dương tính thật (mẫu mang nhãn
TP True Positive dương được phân lớp đúng vào lớp
dương)
Receiver Operator
ROC Đặc tính hoạt động của bộ thu nhận
Characteristic
Particle Swarm
PSO Thuật toán tối ưu bầy đàn
Optimization
Institute of Electrical and
IEEE Hội Kỹ sư Điện và Điện tử
Electronics Engineers
v
DANH MỤC HÌNH ẢNH
Hình 2-1. Một số kỹ thuật chuẩn bị dữ liệu ......................................................................... 10
Hình 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu ............................................... 11
Hình 2-3. Thuật toán Random Forest .................................................................................. 15
Hình 2-4. Mô tả mạng ANN ................................................................................................ 16
Hình 2-5. Không gian trong mô hình SVM ......................................................................... 17
Hình 2-6. Biểu đồ biểu diễn đường cong ROC ................................................................... 20
Hình 2-7. Diện tích đường cong ROC (độ đo AUC) ........................................................... 21
Hình 3-1. Tổng quan hệ thống phát hiện hành động ngã ..................................................... 23
Hình 3-2. Các trục X, Y, Z trên cảm biến gia tốc ................................................................ 24
Hình 3-3. Dữ liệu thời gian ba trục X, Y, Z biểu diễn trên đồ thị ....................................... 25
Hình 3-4. Mô tả quá trình tìm kiếm thức ăn của đàn chim .................................................. 27
Hình 3-5. Quá trình cập nhật vị trí sử dụng PSO ................................................................. 28
Hình 3-6. Tối ưu mô hình bằng thuật toán PSO .................................................................. 33
Hình 3-7. Biểu đồ kết quả phân lớp của mô hình RF .......................................................... 37
Hình 3-8. Biểu đồ kết quả mô hình ANN ............................................................................ 40
Hình 3-9. Biểu đồ kết quả mô hình SVM ............................................................................ 41
Hình 3-10. Biểu đồ kết quả hành động ngã BSC ................................................................. 43
Hình 3-11. Biểu đồ kết quả hành động ngã FKL ................................................................. 44
Hình 3-12. Biểu đồ kết quả hành động ngã FOL ................................................................. 44
Hình 3-13. Biểu đồ kết quả hành động ngã SDL ................................................................. 45
Hình 3-14. Biểu đồ kết quả phân lớp chung của mô hình ................................................... 45
vi
DANH MỤC BẢNG BIỂU
Bảng 2-1. Ma trận nhầm lẫn ................................................................................................ 18
Bảng 2-2. Độ đo AUC với độ chính xác của mô hình phân lớp .......................................... 21
Bảng 3-1. Các hoạt động thường ngày ................................................................................ 35
Bảng 3-2. Các trạng thái ngã ............................................................................................... 36
Bảng 3-3. Mô hình RF với các thông số mặc định .............................................................. 36
Bảng 3-4. Kết quả phân lớp của mô hình RF ...................................................................... 37
Bảng 3-5. Bộ tham số của mô hình ANN và SVM .............................................................. 38
Bảng 3-6. Kết quả phân lớp của mô hình ANN ................................................................... 39
Bảng 3-7. Kết quả phân lớp của mô hình SVM ................................................................... 40
Bảng 3-8. Kết quả mô hình phân lớp sau tối ưu .................................................................. 43
Bảng 3-9. Kết quả mô hình phân lớp ban đầu ..................................................................... 43
Bảng 3-10. Ma trận nhầm lẫn của mô hình Random Forest sau tối ưu ............................... 46
Bảng 3-11. Mô hình đề xuất và nghiên cứu liên quan ......................................................... 47
vii
MỞ ĐẦU
Tính cấp thiết của luận văn
Ngày nay, theo dõi sức khỏe là một vấn đề được đặc biệt quan tâm trên thế
giới. Đặc biệt tại các nước phát triển, các vấn đề về ý tế, sức khỏe nhận được sự
quan tâm hàng đầu. Với những người cao tuổi, người có sức khỏe yếu thường xảy
ra những biến cố bất ngờ như ngã, đột quỵ nhưng không phải lúc nào cũng có điều
kiện chăm sóc y tế, theo dõi thường xuyên từ nhân viên y tế hoặc người thân.
Những va chạm mạnh như vậy thường gây ra những ảnh hưởng lớn đến sức khỏe
nếu không được phát hiện và xử lý kịp thời.
Với sự phát triển không ngừng nghỉ của khoa học kỹ thuật, điện thoại thông
minh ngày càng phổ biến trên thế giới. Mọi người trên thế giới hiện nay đều có thể
tiếp cận và sở hữu cho mình một chiếc điện thoại thông minh rất dễ dàng. Điện
thoại thông minh được tích hợp rất nhiều loại cảm biến khác, kèm theo đó điện
thoại thông minh thường được đem đi thường xuyên và sử dụng nhiều trong cuộc
sống cho phép nó trở thành một công cụ rất hữu ích trong việc thu thập các dữ liệu
từ người dùng. Rất nhiều công trình nghiên cứu và ứng dụng liên quan đến việc thu
thập dữ liệu từ cảm biến của điện thoại thông minh được công bố trong những năm
gần đây.
Vì vậy, với những yếu tố về con người, khoa học kỹ thuật kể trên, chúng tôi
muốn xây dựng mô hình có thể phát hiện hành động ngã thông qua việc sử dụng dữ
liệu cảm biến của điện thoại thông minh. Do đó tôi đã chọn đề tài: “Nghiên cứu và
xây dựng hệ thống phát hiện hành động ngã của người đi bộ dựa trên cảm biến của
điện thoại di động” làm đề tài nghiên cứu của luận văn thạc sĩ chuyên ngành Kỹ
thuật phần mềm.
Mục tiêu của luận văn
Mục tiêu của Luận văn là tập trung vào phân tích dữ liệu từ cảm biến thu
được từ điện thoại của con người trong cuộc sống hàng ngày, từ đó phát hiện được
các hành động của con người, đặc biệt tập trung vào hành động ngã.
Để giải quyết được mục tiêu của Luận văn, chúng tôi tập trung vào giải quyết
các vấn đề chính sau:
• Tìm hiểu và nghiên cứu các kỹ thuật phân tích dữ liệu hiện có trên thế giới.
Các kỹ thuật biến đổi dữ liệu dựa trên nhiều loại cảm biến khác nhau của
điện thoại. Từ đó có thể tìm được kỹ thuật phù hợp nhất để có thể áp dụng
vào bài toán phát hiện hành động ngã.
• Từ tập dữ liệu đầu vào dựa trên cảm biến của điện thoại thông minh, có thể
xây dựng được hệ thống phát hiện các hành động (đi bộ, ngồi, chạy, ngã, )
của con người trong cuộc sống hàng ngày.
• Nghiên cứu thuật toán tối ưu để có thể nâng cao được độ chính xác của hệ
thống. Giảm thiểu tối đa sự nhầm lẫn giữa các hành động, đặc biệt là hành
động bình thường và hành động ngã.
Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là phân tích hành động của con người
dựa trên dữ liệu thu thập được khi họ đem theo điện thoại ở những vị trí như túi áo,
túi quần. Tập trung phân tích dữ liệu thu thập được từ cảm biến gia tốc để có thể
phân tích được hành động cụ thể.
Đóng góp của luận văn
Đóng góp thứ nhất của luận văn: Xây dựng thành công mô hình phát hiện
hành động ngã của người dựa trên phân tích dữ liệu thu được từ cảm biến của điện
thoại thông minh.
Đóng góp thứ hai của luận văn: Áp dụng thành công thuật toán tối ưu tham
số Particle Swarm Optimization – PSO để tối ưu mô hình, nâng cao độ chính xác
của việc phân tích và phát hiện các hành động.
2
Bố cục của luận văn
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính
của luận văn được chia thành 3 chương, cụ thể như sau:
Chương 1: Trình bày các kiến thức nền tảng về học máy. Giới thiệu một số
khái niệm về các hoạt động của con người và một số phương pháp cũng như nghiên
cứu trước đây về chủ đề này. Từ đó đề xuất giải pháp phát thiện hành động ngã dựa
trên dữ liệu cảm biến gia tốc trên điện thoại
Chương 2: Tìm hiểu và phân tích quy trình chuẩn bị dữ liệu, tiền xử lý dữ
liệu. Tìm hiểu các phương pháp phân lớp cũng như ưu nhược điểm của từng
phương pháp. Đồng thời nêu ra những phương pháp đánh giá phân lớp, lựa chọn
các trọng số để có thể đánh giá chính xác nhất độ tốt của một phương pháp phân
lớp.
Chương 3: Đề xuất hệ thống phát hiện hành động ngã dựa trên dữ liệu cảm
biến thu được từ điện thoại thông minh. Tiến hành thực nghiệm và đánh giá. Áp
dụng thuật toán tham số để tối ưu mô hình phân lớp.
3
Chương 1. TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG
1.1 Giới thiệu
Ngày nay, nhận dạng hành động và ứng dụng vào y tế, thể thao là một trong
những vấn đề được quan tâm trên toàn thế giới. Rất nhiều công trình khoa học, ứng
dụng liên quan đến vấn đề này được ứng dụng vào thực tế và đem lại những thành
công nhất định. Bên cạnh đó hiện nay, có rất nhiều trường hợp xảy ra những sự cố
như đột quỵ, ngã gây ra những hậu quả nghiêm trọng khi không được phát hiện và
can thiệp y tế kịp thời.
Điện thoại thông minh hiện nay đã gắn liền với hoạt động thường ngày của
rất nhiều người. Kèm theo đó là sự đa dạng về chủng loại, tính năng, hiệu năng và
nhiều loại cảm biến khác nhau trên điện thoại thông minh. Cảm biến gia tốc được
tích hợp trên hầu hết các loại điện thoại thông minh hiện nay. Loại cảm biến này có
độ nhạy, độ chính xác cao trên từ những điện thoại thông minh tầm trung đến cấp
cao.
Do vậy, chương này chúng tôi sẽ làm rõ những khái niệm về hành động,
hành vi cũng như xác định bài toán phân tích hành động của người đi bộ thông qua
những dữ liệu thu thập được từ dữ liệu gia tốc trên điện thoại thông minh.
1.2 Một số khái niệm cơ bản
Hành động là việc làm cụ thể của con người nhằm mục đích nhất định [1].
Hành vi (danh từ) là toàn bộ nói chung những phản ứng, các cư xử biểu hiện
ra bên ngoài của một người trong một hoàn cảnh cụ thể [1].
Hành vi bất thường của con người là những phản ứng hoặc cách cư xử khác
với bình thường bị tác động bởi các yếu tố khách quan hoặc chủ quan trong cuộc
sống thường ngày [1].
Việc nhận biết được các loại hành động, hành vi của con người là cơ sở để
đánh giá hành vi đó là bình thường hoặc bất thường. Cụ thể trong khuôn khổ luận
văn này, chúng tôi phân làm hai loại: hành động bình thường và ngã.
4
Hành động bình thường:
- Đứng: đứng với một vài cử động nhẹ nhàng
- Đi bộ: đi bộ bình thường
- Chạy bộ
- Nhảy: nhảy liên tục
- Lên cầu thang
- Xuống cầu thang
- Ngồi xuống
- Ngồi trên ghế
- Đứng lên: từ ngồi chuyển sang đứng
- Bước vào xe ô tô
- Ra khỏi xe ô tô
- Nằm
Các kiểu ngã:
- Ngã về phía trước: ngã về phía trước khi đang đứng, sử dụng tay để
chống ngã.
- Ngã đập đầu gối: Ngã về phía trước khi đang đứng, đầu gối tiếp xúc
với đất đầu tiên.
- Ngã từ ghế: ngã ngửa trong khi đang ngồi trên ghế.
- Ngã nghiêng: ngã nghiêng về một bên trong khi đang đứng, gập chân.
1.3 Các phương pháp nhận diện hành động
Ngày nay khi khoa học công nghệ càng phát triển, nó đã được ứng dụng vào
nhiều lĩnh vực trong cuộc sống. Nhận diện hành động cũng nhận được nhiều sự
quan tâm và ứng dụng vào thực thế. Có nhiều phương pháp cũng như cách thức
nhận diện hành động được giới thiệu trên thế giới. Nhưng mỗi phương pháp lại có
ưu, nhược điểm khác nhau cũng như sự phù hợp với môi trường, thực tiễn của từng
khu vực.
Nhận diện hành động qua hình ảnh được áp dụng ở nhiều nước tiên tiến trên
thế giới. Một vài siêu thị lớn trên thế giới sử dụng phương pháp này để giám sát
5
cũng như đảm bảo an ninh, tránh thất thoát tài sản trong siêu thị. Kèm theo đó siêu
thị cũng có thể biết được khách hàng thường quan tâm đến những sản phẩm nào
hơn. Một vài quốc gia trên thế giới có hệ thống camera phủ sóng trên các con
đường, trung tâm thương mại và những nơi đông người để kiểm soát an ninh. Các
cơ quan chức năng có thể nhanh chóng can thiệp nếu xảy ra sự cố. Nhận dạng hành
động qua hình ảnh ưu điểm là dễ kiểm soát, tập trung. Có thể chủ động được tính ổn
định của thiết bị giám sát. Nhưng những hệ thống này thường rất phức tạp và có chi
phí lắp đặt cũng như vận hành cao.
Nhận diện hành động qua radar được sử dụng nhiều trong quân sự. Có độ
chính xác cao nhưng đi kèm theo đó là lượng điện năng tiêu thụ lớn và các hệ thống
rất phức tạp.
Nhận điện hành động sử dụng cảm biến của điện thoại thông minh đang là
một đề tài được đặc biệt quan tâm hiện nay. Từ những điều đơn giản nhất như nắm
bắt giấc ngủ, giờ sinh hoạt của từng người sử dụng đến phức tạp như phân tích hành
động, tính toán trong hoạt động thể thao của người sử dụng. Với những ưu điểm có
rất nhiều loại cảm biến được tích hợp trong điện thoại như cảm biến gia tốc, cảm
biến tiệm cận, cảm biến nhịp tim, cảm biến ánh sáng.
1.4 Một số nghiên cứu liên quan
Thu thập dữ liệu và nhận diện hành động đang là một chủ để được nhiều
nhóm nghiên cứu quan tâm. Có rất nhiều bài báo cũng như các công trình nghiên
cứu được công bố về vấn đề này.
Yan Wang và cộng sự đã thực hiện một cuộc khảo sát về phương thức cảm
biến có thể đeo được trên cổ tay tập trung vào việc ghi nhận hoạt động chăm sóc
sức khỏe của con người [2].
Adnan Nadeem và cộng sự đã xây dựng tập dữ liệu sử dụng cảm biến đo
lường quán tính và điện tâm đồ có thể đeo được để nhận dạng hoạt động, phát hiện
ngã và hệ thống phát hiện bất thường về tim cơ bản [3].
6
Henry Friday Nweke và cộng sự đã chỉ ra các khó khăn và thách thức khi sử
dụng các thuật toán học sâu để nhận dạng hoạt động của con người bằng cách sử
dụng mạng cảm biến di động và có thể đeo được [4].
Emma Stack và cộng sự có một công trình nghiên cứu xác định sự suy giảm
khả năng thăng bằng ở những người bị bệnh Parkinson bằng cách sử dụng video và
cảm biến có thể đeo được [5].
Nethra Ganesh Chigateria và cộng sự đã sử dụng gia tốc kế để đo hoạt động
của người già [6].
Yinfeng Wu và cộng sự đề xuất hệ thống phát hiện trước khi va chạm dựa trên
cảm biến có thể đeo được với bộ phân loại thứ bậc [7].
Charissa Ann Ronao và Sung-Bae Cho đề xuất các giải pháp nhận biết các
hoạt động của con người từ các cảm biến của điện thoại thông minh bằng cách sử
dụng các mô hình Markov ẩn liên tục phân cấp [8].
1.5 Sử dụng dữ liệu cảm biến để phân tích hành động
Điện thoại thông minh hiện nay được tích hợp rất nhiều loại cảm biến đi
kèm. Những loại cảm biến phổ biến như cảm biến vân tay, biến tiệm cận, cảm biến
nhiệt, cảm biến ánh sáng, cảm biến từ kế, cảm biến hình ảnh, cảm biến gia tốc, cảm
biến con quay hồi chuyển. Những loại cảm biến này thường được kết hợp với nhau
để áp dụng vào bài toán phân tích hành vi. Nhưng có một điều bất cập là sự giới hạn
của tốc độ xử lý cũng như nguồn pin của điện thoại. Khi kết hợp càng nhiều loại
cảm biến cùng một lúc sẽ gây ra hiện tượng quá tải của điện thoại, kèm theo đó là
tuổi thọ của pin điện thoại sẽ không được cao. Vì vậy trong khuôn khổ luận văn
này, chúng tôi sử dụng cảm biến gia tốc của điện thoại thông minh. Cảm biến gia
tốc được dùng để ghi nhận lại sự chuyển đổi vị trí của điện thoại. Nó có ưu điểm là
tốn ít tài nguyên của thiết bị, tránh làm ảnh hưởng đến hiệu năng của điện thoại
cũng như trải nghiệm của người dùng. Cảm biến gia tốc cũng có độ nhạy rất cao và
chính xác, được tích hợp trên hầu hết các điện thoại thông minh hiện nay.
Khi sử dụng cảm biến gia tốc, dữ liệu thu được là một chuỗi dữ liệu liên tục
theo thời gian. Mỗi thời điểm, dữ liệu gia tốc thu được có hai thuộc tính là thời gian,
7
véc-tơ được xác định bởi ba trục tọa độ thiết bị X, Y, Z. Khi thiết bị được di chuyển
hoặc có sự thay đổi về vị trí, véc-tơ tương ứng với ba trục X, Y, Z cũng sẽ thay đổi.
Vì vậy để kết quả được chính xác, các thiết bị nên tránh bị đổi hướng, nên để
cố định ở một vị trí như túi áo, hoặc túi quần. Nếu trong quá trình chuyển động, có
sự thay đổi vị trí đặt điện thoại rất dễ gây ra những sự xáo trộn và nhầm lẫn giữa các
trục X, Y, Z. Dữ liệu càng chứa nhiều nhiễu thì độ chính xác càng giảm.
Từ những luận điểm trên, trong khuôn khổ luận văn về phân tích hành động,
hành vi thì sử dụng cảm biến gia tốc để thu thập dữ liệu là hoàn toàn phù hợp.
1.6 Kết luận chương
Trong chương này, chúng tôi đã tìm hiểu và nghiên cứu các khái niệm cơ bản
và những phương pháp nhận diện hành động được sử dụng rộng rãi hiện nay. Chúng
tôi cũng khảo sát và tìm hiểu các công trình nghiên cứu liên quan đến nhận dạng
hành động. Để từ đó lựa chọn được hướng đi và phương pháp phù hợp cho bài toán
cụ thể trong luận văn.
8
Chương 2. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI
THỜI GIAN
2.1 Giới thiệu
Để có được kết quả phân lớp tốt phải sử dụng và kết hợp nhiều kỹ thuật như
tiền xử lý dữ liệu, biến đổi dữ liệu, xây dựng bộ dữ liệu đặc trưng. Từ bộ dữ liệu đã
được xử lý sẽ áp dụng vào mô hình để ra kết quả phân lớp. Trong chương này,
chúng tôi sẽ giới thiệu về các kỹ thuật xử lý dữ liệu và các kỹ thuật, phương pháp
phân lớp được sử dụng phổ biến. Kèm theo đó là các phương pháp đánh giá phân
lớp cũng như mục đích của từng phương pháp.
2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một bước quan trọng trong khai phá dữ liệu. Để hệ
thống hoạt động với độ chính xác cao cần phải có một bộ dữ liệu phù hợp và chính
xác. Nếu dữ liệu không được chuẩn bị tốt, các thuật toán nhận dạng có thể không
nhận dạng được dữ liệu từ đó sẽ gây ra khó khăn trong quá trình xây dựng hệ thống.
Một vài kỹ thuật phổ biến dùng để xử lý dữ liệu hiện nay như: làm sạch dữ
liệu, chuẩn hóa dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, phát hiện nhiễu, tính
giá trị thiếu.
- Làm sạch dữ liệu (Data cleaning): là bước để loại bỏ hay xử lý những
dữ liệu không chính xác ra khỏi tập dữ liệu.
- Xác định nhiễu (Noise Identification): trong một bộ dữ liệu thu thập
được, thường có những bộ dữ liệu bị sai, khuyết một vài thuộc tính.
Cách đơn giản nhất là có thể xóa chúng đi hoặc có thể sử dụng một
vài phương pháp tính toán để điền vào bộ dữ liệu khuyết dạng thời
gian liên tục. Điều này sẽ làm bộ dữ liệu có tính đồng nhất, không còn
những mẫu dễ gây ra sai số trong quá trình chạy mô hình.
9
- Bổ sung dữ liệu thiếu (Missing Data Imputation) là thêm vào các phần
dữ liệu bị thiếu trong quá trình thu thập và chuẩn bị. Giúp bộ dữ liệu
có tính nhất quán. Các giá trị thêm vào là các giá trị được ước tính
một cách hợp lý.
- Biến đổi dữ liệu (Data Transformation) để làm tăng độ chính xác
trong khai phá dữ liệu. Từ dữ liệu thô ban đầu sẽ tiến hành làm mịn,
chuẩn hóa và xây dựng lên bộ thuộc tính cần cho quá trình phân lớp.
- Tích hợp dữ liệu (Data Integration): là kết hợp dữ liệu từ nhiều nguồn,
nhiều kho dữ liệu khác nhau.
- Chuẩn hóa dữ liệu (Data Normalization): là một bước quan trọng
trong quá trình chuẩn bị dữ liệu học máy. Tùy vào từng bài toán cụ
thể cũng như phương pháp học máy. Những cách chuẩn hóa dữ liệu
khác nhau sẽ làm ảnh hưởng trực tiếp đến độ chính xác của mô hình.
- Giảm chiều dữ liệu (Data Reduction): là một kỹ thuật giúp giảm độ
phức tạp của dữ liệu gốc nhưng vẫn giữ được tính toàn vẹn của dữ
liệu [9].
Làm sạch dữ liệu
Chuẩn hóa dữ liệu
Chuyển đổi dữ liệu Bổ sung dữ liệu thiếu
Tích hợp dữ liệu
Xác định nhiễu
Hình 2-1. Một số kỹ thuật chuẩn bị dữ liệu
10
2.2.2 Cửa sổ dữ liệu
Kỹ thuật cửa sổ trượt (Sliding window) là một kỹ thuật được sử dụng phổ
biến trong nhiều bài toán phân lớp. Đây là một kỹ thuật dùng để cắt một đoạn dữ
liệu thành nhiều cửa sổ khác nhau có cùng kích thước là W. Mỗi cửa sổ chồng lên
nhau bằng cách lấy lại một phần dữ liệu của cửa sổ ngay trước nó.
Dữ liệu chuỗi thời gian được sử dụng rộng rãi trên thế giới và được áp dụng
trên nhiều lĩnh vực như y tế, chứng khoán. Dữ liệu thu thập được từ cảm biến gia
tốc của điện thoại thông minh là bộ dữ liệu liên tục theo thời gian với tần số lấy mẫu
là 50Hz. Vì vậy bộ dữ liệu bao gồm rất nhiều giá trị liên tục theo thời gian. Với bài
toán nhận dạng hành động, chúng ta hoàn toàn có thể áp dụng kỹ thuật cửa sổ trượt
để phân đoạn chuỗi dữ liệu thành nhiều cửa sổ với mức độ chồng dữ liệu khác nhau.
Ví dụ về một đoạn dữ liệu được phân đoạn theo nhiều cửa sổ trượt được trình
bày như hình dưới đây:
Cửa sổ i-1 Cửa sổ i Cửa sổ i+1
w =Độ dài của cửa sổ
1 2 k-1 k k+1 N-1 N
Chồng dữ liệu
Hình 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu
Ở trong hình biểu diễn phân đoạn chuỗi dữ liệu thành ba cửa sổ i -1, i, i +1
có kích thước là N và chồng dữ liệu là k, cửa sổ tiếp theo sử dụng k điểm dữ liệu
của cửa sổ trước đó.
2.2.3 Biến đổi dữ liệu
Biến đổi dữ liệu là một cách biến đổi dữ liệu thô ban đầu thành các tập thuộc
tính đặc trưng. Các tập thuộc tính đặc trưng này là yếu tố quan trọng giúp mô hình
phân lớp có thể nhận biết và đoán nhận các nhãn phù hợp. Với mỗi bài toán học
máy khác nhau, cụ thể là những bài toán phân lớp khác nha
Các file đính kèm theo tài liệu này:
- luan_van_nghien_cuu_va_xay_dung_he_thong_phat_hien_hanh_dong.pdf