TRƢỜNG ĐẠI HỌC THƢƠNG MẠI 
 BỘ MÔN TIN HỌC 
  
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP 
 TRƢỜNG 
 NGHIÊN CỨU ỨNG DỤNG CÔNG CỤ KHAI PHÁ DỮ 
 LIỆU TRONG BÀI TOÁN VỀ GIAO DỊCH TỶ GIÁ 
 Ngƣời thực hiện: TS. Nguyễn Thị Thu Thủy 
 HÀ NỘI – 2018 
 MỤC LỤC 
MỤC LỤC .................................................................................................................................. 2 
DANH MỤC HÌNH VẼ ....................................................................................
                
              
                                            
                                
            
 
            
                
45 trang | 
Chia sẻ: huong20 | Lượt xem: 755 | Lượt tải: 0
              
            Tóm tắt tài liệu Đề tài Nghiên cứu ứng dụng công cụ khai phá dữ liệu trong bài toán về giao dịch tỷ giá, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
......................... 3 
CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU. ........................................................... 5 
 1.1. Tính cấp thiết của đề tài. .................................................................................................. 5 
 1.2. Tổng quan vấn đề nghiên cứu. ......................................................................................... 5 
 1.3. Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài. ........................................................... 6 
 1.4. Đối tƣợng và phạm vi nghiên cứu đề tài ......................................................................... 7 
 1.5. Phƣơng pháp thực hiện đề tài. ......................................................................................... 8 
 1.6. Bố cục của đề tài. ............................................................................................................. 8 
Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH NGOẠI 
HỐI ........................................................................................................................................... 10 
 2.1 Một số khái niệm cơ bản ................................................................................................. 10 
 2.1.1 Các khái niệm về khai phá dữ liệu ........................................................................... 10 
 2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối .................................................... 16 
 2.2. Một số công cụ khai phá dữ liệu .................................................................................... 18 
 2.2.1. Công cụ học có giám sát ......................................................................................... 18 
 2.2.2. Công cụ học không giám sát ................................................................................... 24 
 2.3. Bài toán giao dịch ngoại hối .......................................................................................... 25 
CHƢƠNG 3: ĐỀ XUẤT MÔ HÌNH KHAI PHÁ DỮ LIỆU TRONG BÀI TOÁN GIAO 
DỊCH TỶ GIÁ .......................................................................................................................... 26 
 3.1. Mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá .............................................. 26 
 3.2 Thu thập và xử lý dữ liệu ................................................................................................ 27 
 3.2.1. Thu thập và tiền xử lý dữ liệu ................................................................................. 27 
 3.2.2. Phân chia tập huấn luyện ......................................................................................... 28 
 3.3. Kết quả thực nghiệm ...................................................................................................... 30 
 3.3.1. Data ......................................................................................................................... 30 
 3.3.2. Sử dụng phƣơng pháp SVM ................................................................................... 32 
 3.3.3. Sử dụng phƣơng pháp Cây quyết định J48 ............................................................. 35 
 3.3. Thảo luận ....................................................................................................................... 41 
KẾT LUẬN VÀ KIẾN NGHỊ .................................................................................................. 43 
Kết luận .................................................................................................................................... 43 
Một số kiến nghị ...................................................................................................................... 43 
 2 
 DANH MỤC HÌNH VẼ 
Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu ............................................................... 11 
Hình 2: Quy trình khai phá dữ liệu .......................................................................................... 11 
Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và ngƣời thực hiện. .............................. 14 
Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối .............................................. 17 
Hình 5: Mô hình của học giám sát ........................................................................................... 20 
Hình 6: Cây quyết định của tập dữ liệu huấn luyện ở Bảng 1 ................................................. 22 
Hình 7: Ví dụ về mô hình SVM .............................................................................................. 23 
Hình 8: Mô hình học có giám sát khai phá dữ liệu của bài toán giao dịch tỷ giá .................... 26 
Hình 9: Đồ thị hàm biến đổi giá trị thành .............................................................. 28 
Hình 10: Biến động của tỷ giá USD/VND trong khoảng thời gian 1 năm .............................. 30 
Hình 11: Thống kê dữ liệu output ............................................................................................ 31 
Hình 12:: Phân bố của tỉ giá Close tại các thời điểm. .............................................................. 31 
Hình 13: Phân bố của giao dịch Close ...................................................................................... 32 
Hình 14: Mô hình sử dụng ....................................................................................................... 33 
Hình 15: Đồ thị lỗi của mô hình dự báo SVM ......................................................................... 35 
Hình 16: 1 dòng giao dịch bị dự báo sai .................................................................................. 35 
Hình 17: Mô hình khung công việc J48 ................................................................................... 37 
Hình 18: Độ chính xác của Kỹ thuật SVM và DT.................................................................... 42 
 3 
 LỜI MỞ ĐẦU 
 Ngày nay, với sự phát triển mạnh mẽ của khoa học kỹ thuật, các thế hệ máy tính 
đã trở nên mạnh mẽ hơn, khả năng tính toán và xử lí thông tin ngày càng nhanh hơn. 
Bên cạnh sự phát triển của khoa học kỹ thuật là sự bùng nổ thông tin dẫn tới lƣợng dữ 
liệu có thể thu thập đƣợc ngày càng lớn. Không thể phủ nhận khả năng đặc biệt của 
con ngƣời trong việc phân tích thông tin để rút ra tri thức, kinh nghiệm cho mình. Tuy 
nhiên, con ngƣời cần những công cụ hỗ trợ có thể tự động phân tích, khai thác thông 
tin để có thể tìm ra những tri thức trong đó, từ đó có thể ra quyết định tự động hoặc hỗ 
trợ con ngƣời trong việc ra quyết định. 
 Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá của từng cặp ngoại 
hối mà mình sẽ giao dịch là rất quan trọng. Việc dự báo này sẽ giúp nhà đầu tƣ đƣa ra 
đƣợc chiến lƣợc giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn chế thấp 
nhất nguy cơ rủi ro có thể xảy ra. Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời gian và 
hoàn toàn có thể thu thập, lƣu trữ lại thông qua lịch sử giá. Việc phân tích dự báo xu 
hƣớng tỷ giá của mỗi cặp ngoại hối trong tƣơng lai thƣờng sẽ dựa vào chính những bộ 
dữ liệu quá khứ này. Việc giao dịch thủ công thƣờng có nhiều hạn chế nhƣ: hạn chế về 
độ chính xác, hạn chế về thời gian theo dõi  Việc ứng dụng các mô hình giao dịch sẽ 
có nhiều ƣu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát liên 
tục và không bị ảnh hƣởng bởi yếu tố tâm lý. 
 Nhìn chung, hƣớng tiếp cận cho bài toán dự báo xu hƣớng tỷ giá ngoại hối là xây 
dựng một mô hình học có giám sát, huấn luyện bằng dữ liệu quá khứ và áp dụng để dự 
báo xu hƣớng trong tƣơng lai. Các công trình đã nghiên cứu trên thế giới chủ yếu dừng 
ở việc công bố kết quả nghiên cứu, còn tại Việt Nam, các công trình nghiên cứu về dự 
báo xu hƣớng ngoại hối cũng chƣa có nhiều, đặc biệt là việc áp dụng vào thực tế. Từ 
những tìm hiểu trên, có thể thấy việc nghiên cứu một số mô hình học máy cho việc 
phân tích xu hƣớng ngắn hạn của tỷ giá các cặp ngoại hối và áp dụng vào thực tế với 
việc cài đặt cho robot giao dịch ngoại hối tự động là một đề tài thực sự có ý nghĩa cho 
đời sống kinh tế và xã hội. 
 4 
 CHƢƠNG 1: TỔNG QUAN VẤN ĐỀ NGHIÊN CỨU. 
1.1. Tính cấp thiết của đề tài. 
 Trong giao dịch ngoại hối, việc dự báo đƣợc xu hƣớng tỷ giá của từng cặp ngoại 
hối mà nhà đầu tƣ sẽ giao dịch là rất quan trọng. Việc dự báo này sẽ giúp nhà đầu tƣ 
đƣa ra đƣợc chiến lƣợc giao dịch phù hợp, tăng khả năng mang lại lợi nhuận và hạn 
chế thấp nhất nguy cơ rủi ro có thể xảy ra. Tỷ giá của mỗi cặp tiền tệ thay đổi theo thời 
gian và hoàn toàn có thể thu thập, lƣu trữ lại thông qua lịch sử giá. Việc phân tích dự 
báo xu hƣớng tỷ giá của mỗi cặp ngoại hối trong tƣơng lai thƣờng sẽ dựa vào chính 
những bộ dữ liệu quá khứ này. Quá trình này có thể thực hiện một cách thủ công bằng 
kinh nghiệm của ngƣời giao dịch hoặc tự động dùng các công cụ chỉ báo kỹ thuật với 
những quy tắc nhất định (còn gọi là phân tích kỹ thuật). Tuy nhiên việc giao dịch thủ 
công thƣờng có nhiều hạn chế nhƣ: hạn chế về độ chính xác, hạn chế về thời gian theo 
dõi, hoặc bởi tâm lý của ngƣời giao dịch  trong khi việc sử dụng giao dịch tự động 
sẽ có nhiều ƣu thế hơn: đó là khả năng xử lý chính xác, kịp thời, khả năng giám sát 
liên tục và không bị ảnh hƣởng bởi yếu tố tâm lý. Từ nhu cầu thực tế cho thấy việc xây 
dựng và ứng dụng các mô hình học có giám sát cho robot giao dịch là một hƣớng tiếp 
cận khả quan và hứa hẹn sẽ mang lại hiệu quả. 
 Bắt kịp với các yêu cầu thực tế về nhân lực trong lĩnh vực phân tích dữ liệu và sử 
dụng hệ thống thông tin kinh tế, học phần “Khai phá dữ liệu trong kinh doanh” đƣợc 
xây dựng phục vụ cho việc đào tạo các em sinh viên chuyên ngành quản trị hệ thống 
thông tin ngành hệ thống thông tin quản lý. Học phần đƣợc xây dựng với thời lƣợng là 
3 tín chỉ và bao gồm các nội dung liên quan đến khai phá dữ liệu, mà cụ thể hơn là tập 
trung nhiều vào các dữ liệu của các bài toán kinh tế. Bài toán giao dịch của tỷ giá trên 
thị trƣờng ngoại tệ cũng là một trong số các bài toán có liên quan nhằm giúp cho các 
em có một tài liệu tham khảo trong việc học tập của mình. 
 Từ nhu cầu thực tế đó, tôi chọn đề tài: “Nghiên cứu ứng dụng công cụ khai 
phá dữ liệu trong bài toán về giao dịch tỷ giá” để nghiên cứu. 
1.2. Tổng quan vấn đề nghiên cứu. 
 Thị trƣờng ngoại hối là nơi diễn ra các hoạt động trao đổi ngoại tệ thông qua 
quan hệ cung cầu. Việc trao đổi thƣờng bao gồm việc mua một đồng tiền này và đồng 
 5 
thời bán một đồng tiền khác. Nhƣ vậy, các đồng tiền sẽ đƣợc trao đổi từng cặp với 
nhau. Đặc thù của thị trƣờng này là ngoại hối sẽ đƣợc giao dịch mua bán qua các ngân 
hàng, nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên 
toàn thế giới. Do vậy, ngoại hối đƣợc giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới 
21 giờ (GMT) thứ 6 hàng tuần. 
 Bài toán về giao dịch trên thị trƣờng ngoại hối sẽ đƣợc tập trung giải quyết vào 
việc dự báo xu hƣớng theo ngày của tỷ giá quy đổi của các cặp tiền tệ theo chuỗi thời 
gian biến động phức tạp để từ đó ra quyết định là giao dịch bán hay mua. Đầu vào của 
bài toán là lịch sử tỷ giá trao đổi của các cặp tiền tệ, số liệu về các sự kiện kinh tế đã 
xảy ra. Đầu ra của bài toán chính là xu hƣớng tăng hay giảm của các cặp tiền tệ cần 
xét. Một số lƣợng lớn các thuộc tính từ dữ liệu chuỗi thời gian đƣợc sinh ra từ lịch sử 
tỷ giá các cặp tiền tệ nhằm mục đích chọn ra các tập dữ liệu phù hợp cho bài toán phân 
lớp. Nhƣ vậy, bài toán giao dịch ngoại hối đƣợc chuyển về bài toán phân lớp nhị phân 
và là bài toán dự đoán xu hƣớng tăng hay giảm để hỗ trợ đƣa ra các quyết định giao 
dịch (hoạt động mua, bán, chốt lời, dừng lỗ). Các mô hình học máy có thể đƣợc sử 
dụng vào việc dự đoán xu hƣớng tỷ giá của các cặp tiền tệ. 
Piche (1995) sử dụng hình ảnh biểu đồ plot để mô tả xu hƣớng dịch chuyển các dao 
động của tỷ giá với ma trận xu hƣớng. Việc dự báo tỷ giá sử dụng mô hình dự báo chuỗi 
thời gian đƣợc biết đến với việc sử dụng phổ biến mô hình Regressive Integrated 
Moving Average (ARIMA) (Box và Jenkin, 1970; Yu, 2002). Thời gian gần đây, mô 
hình dự báo chứng khoán và ngoại hối đƣợc sử dụng phổ biến là GARCH (Wei, 2009). 
Ngoài các mô hình mạng nơron (Haykin, 1999; Chan & Teong, 1995; Woon-Seng & 
Kah-Hwa, 1995; Refenes & Azema-Barac, 1992; Joarder & Ruhul, 2003; Zhang & 
Kline, 2007; Kotsiantis, 2007) và SVM (Cao and Francis, 2001; Baasher & mohamed, 
2010) cũng đƣợc biết đến nhƣ là các mô hình đƣợc sử dụng để dự báo tỷ giá ngoại hối. 
Căn cứ vào những phân tích ở trên, rõ ràng mô hình học có giám sát đƣợc sử dụng rất 
nhiều trong bài toán giao dịch ngoại hối. 
1.3. Mục tiêu cụ thể đặt ra cần giải quyết trong đề tài. 
Mục tiêu nghiên cứu chính của đề tài là đề xuất mô hình khai phá dữ liệu để dự báo xu 
hƣớng giao dịch của các cặp tiền tệ dựa trên các giao dịch quá khứ, làm tài liệu tham 
khảo cho học phần “khai phá dữ liệu tron kinh doanh”, và làm tài liệu học tập cho sinh 
viên chuyên ngành quản trị HTTT. Cụ thể là: 
 6 
  Nghiên cứu cụ thể một số mô hình khai phá dữ liệu trong các mô hình khai phá 
 nói chung 
  Tập trung nghiên cứu bài toán về giao dịch ngoại hối, và cụ thể là các hoạt động 
 mua/bán giữa USD/EUR hoặc VND/USD 
  Xây dựng mô hình giao dịch tỷ giá VND/USD, USD/EUR,. 
  Làm tài liệu tham khảo phục vụ cho việc viết giáo trình học phần “Khai phá dữ 
 liệu trong kinh doanh” – 2 tín chỉ của chuyên ngành quản trị hệ thống thông tin 
 của trƣờng ĐH Thƣơng Mại. 
  Báo cáo có thể làm tài liệu tham khảo cho sinh viên khoa Hệ thống thông tin 
 Kinh tế và Thƣơng mại điện tử, các đối tƣợng quan tâm đến việc khai phá dữ 
 liệu trong kinh doanh. Hơn nữa, báo cáo của đề tài còn làm tài liệu tham khảo 
 giảng dạy trong các học phần nhƣ CSDL, Quản trị CSDL và nhất là học phần 
 mới Khai phá dữ liệu trong kinh doanh cho chuyên ngành Quản trị HTTT. 
1.4. Đối tượng và phạm vi nghiên cứu đề tài 
Cách tiếp cận các mẫu khảo sát: 
 Dữ liệu về giao dịch tỷ giá đã đƣợc thu thập online thông qua chƣơng trình cài 
đặt META TRADER 4 từ các nghiên cứu trƣớc. Số mẫu thu thập cho 1 năm, khoảng 
thời gian từ 3/2017 đến 3/2018 với các dòng giao dịch hàng ngày. 
Phƣơng pháp nghiên cứu: 
- Loại dữ liệu (định tính, định lƣợng): Định lƣợng. 
 7 
Đối tƣợng nghiên cứu: 
  Bài toán về giao dịch tỉ giá với các dòng dữ liệu giao dịch. Có nhiều cặp tỉ giá 
 có thể thu thập để lấy làm dữ liệu thực nghiệm vì các thức xử lý và thực nghiệm 
 trong mô hình là tƣơng tự. Trong pham vi của đề tài này, cặp USD/VND đƣợc 
 lựa chọn vì cặp tiền này đƣợc thƣờng xuyên sử dụng và sẽ gần với các đối 
 tƣợng đọc là sinh viên trong khi giảng dạy. 
  Một số công cụ đƣa vào mô hình dự báo tỷ giá: Học có giám sát: SVM và cây 
 quyết định 
Phạm vi nghiên cứu: 
 • Thời gian: từ 03/2017-03/2018 
 • Không gian, phạm vi: Các dữ liệu tỉ giá. 
1.5. Phương pháp thực hiện đề tài. 
 Các phƣơng pháp đƣợc sử dụng trong đề tài là: Sử dụng phƣơng pháp nghiên 
cứu tài liệu lý thuyết cơ sở về khai phá dữ liệu với một số mô hình cụ thể, và bài toán 
giao dịch ngoại hối nói chung. Trên cơ sở đó thu thập các dữ liệu sơ cấp trên website 
giao dịch. Mô hình hóa bài toán giao dịch USD/VND với các dữ liệu thu thập đƣợc và 
thử nghiệm mô hình. Cụ thể nhƣ sau: 
 Phƣơng pháp thu thập dữ liệu: Các dữ liệu thứ cấp đƣợc thu thập trên web site 
giao dịch ngoại hối USD/VND thông qua phần mềm META TRADER 4 và 
Invest.com với một đoạn chƣơng trình nhỏ (Script) để cài thêm (Add- in) vào phần 
mềm. 
 - Phƣơng pháp xử lý dữ liệu: Tiền xử lý dữ liệu với phần mềm META 
TRADER 4; xây dựng mô hình khai phá với tập dữ liệu, và thử nghiệm mô hình. 
1.6. Bố cục của đề tài. 
Đề tài đƣợc chia thành 3 chƣơng trong đó: 
Chƣơng 1: Tổng quan nghiên cứu . Chƣơng này nêu rõ tính cấp thiết của đề tài và 
đồng thời chƣơng này còn chỉ ra phƣơng pháp nghiên cứu và các nghiên cứu liên quan 
đến đề tài. 
Chƣơng 2: Tổng quan về khai phá dữ liệu và bài toán giao dịch ngoại hối. 
Nội dung của chƣơng để cấp đến các khái niệm về khai phá dữ liệu, trí tuệ nhân tạo, 
học máy cũng nhƣ các khái niệm liên quan đến giao dịch tỷ giá. Nội dung chƣơng còn 
 8 
phân loại các công cụ của khai phá dữ liệu (học có giám sát, không giám sát), và đặt 
bài toán giao dịch tỷ giá. 
Chƣơng 3: Đề xuất mô hình khai phá dữ liệu trong bài toán giao dịch tỷ giá. 
Nội dung của chƣơng bao gồm việc đề xuất mô hình khai phá dữ liệu, cách thức thu 
thập và xử lý dữ liệu, phân chia tập dữ liệu thực nghiệm. Các thực nghiệm cũng đƣợc 
nêu ở chƣơng này với hai phƣơng pháp phổ biến là SVM và cây quyết định. Các thảo 
luận về thực nghiệm đƣợc thực hiện ở phần cuối của chƣơng. 
Phần kết luận sẽ tóm tắt lại các kết quả đã nghiên cứu đồng thời đề xuất các kiến nghị 
liên quan. 
 9 
 Chƣơng 2: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN GIAO DỊCH 
 NGOẠI HỐI 
2.1 Một số khái niệm cơ bản 
2.1.1 Các khái niệm về khai phá dữ liệu 
Khái niệm về dữ liệu 
Theo Wikipedia, và theo điều 4 Luật Giao dịch điện tử ban hành ngày 29 tháng 11 năm 
2005, dữ liệu là thông tin dƣới dạng ký hiệu,chữ viết, chữ số, hình ảnh, âm thanh hoặc 
dạng tƣơng tự. 
Dữ liệu thô là các số, ký tự, hình ảnh hay các kết quả khác của các thiết bị chuyển đổi 
các lƣợng vật lý thành các ký hiệu. Các dữ liệu thuộc loại này thƣờng đƣợc xử lý tiếp 
bởi ngƣời hoặc đƣa vào máy tính. Trong máy tính, dữ liệu đƣợc lƣu trữ và xử lý tại đó 
hoặc đƣợc chuyển (output) cho một ngƣời hoặc một máy tính khác. Dữ liệu thô là một 
thuật ngữ tƣơng đối; việc xử lý dữ liệu thƣờng đƣợc thực hiện theo từng bƣớc, và "dữ 
liệu đã đƣợc xử lý" tại bƣớc này có thể đƣợc coi là "dữ liệu thô" cho bƣớc tiếp theo. 
Các dạng dữ liệu đƣợc lƣu trữ: 
  Tập tin truyền thống (flat files) 
  Cơ sở dữ liệu quan hệ 
  Cơ sở dữ liệu giao tác hoặc kho dữ liệu 
  Cơ sở dữ liệu tạm thời (data streem) 
  . 
Khái niệm về khai phá dữ liệu 
Theo Tom Mitchell (1999), “KPDL là việc sử dụng dữ liệu lịch sử để khám phá những 
qui tắc và cải thiện những quyết định trong tƣơng lai”. Theo Fayyad (1996), “KPDL, 
thƣờng đƣợc xem là việc khám phá tri thức trong các cơ sở dữ liệu, là một quá trình 
trích xuất những thông tin ẩn, trƣớc đây chƣa biết và có khả năng hữu ích, dƣới dạng 
các qui luật, ràng buộc, qui tắc trong cơ sở dữ liệu.” Nhƣ vậy có thể nói là KPDL là 
một quá trình học tri thức mới từ những dữ liệu đã thu thập đƣợc. KPDL đƣợc coi là 
sự kết hợp của các lĩnh vực khác nhau (xem Hình 1). 
 10 
 Machine 
 Learning 
 (học máy) 
 Visualization 
 Khác 
 (mô hình) 
 Data 
 Mining 
 Data 
 Technology Statistics 
 (Công nghệ (thống kê) 
 dữ liệu) 
 Hình 1: Các lĩnh vực liên quan của khai phá dữ liệu 
 (Nguồn: Tom Mitchell, 1999) 
Quá trình khai phá dữ liệu có thể mô tả nhƣ sau: 
 Hình 2: Quy trình khai phá dữ liệu 
 (Nguồn: Chapman và cộng sự, 2000) 
 11 
Có thể mô tả nhƣ sau: 
 (1) Tìm hiểu nghiệp vụ và dữ liệu (Data Sources) 
 (2) Chuẩn bị dữ liệu (Data warehouse) 
 (3) Mô hình hóa dữ liệu (Data Mining) 
 (4) Hậu xử lý và đánh giá mô hình (Pattern Evaluation) 
 (5) Triển khai tri thức (Knowledge) 
Quá trình này có thể đƣợc lặp lại nhiều lần một hay nhiều giai đoạn dựa trên sự phản 
hồi từ kết quả của các giai đoạn sau. Tham gia chính trong quá trình KPDL này là các 
nhà tƣ vấn (NTV) và phát triển chuyên nghiệp trong lĩnh vực KPDL. 
Trong giai đoạn đầu tiên, Tìm hiểu nghiệp vụ và dữ liệu, NTV nghiên cứu kiến thức 
về lĩnh vực sẽ áp dụng, bao gồm các tri thức cấu trúc về hệ thống và tri thức, các 
nguồn dữ liệu hiện hữu, ý nghĩa, vai trò và tầm quan trọng của các thực thể dữ liệu. 
Việc nghiên cứu này đƣợc thực hiện qua việc tiếp xúc giữa NTV và ngƣời dùng. Khác 
với phƣơng pháp giải quyết vấn đề truyền thống khi bài toán đƣợc xác định chính xác 
ở bƣớc đầu tiên, NTV tìm hiểu các yêu cầu sơ khởi của ngƣời dùng và đề nghị các bài 
toán tiềm năng có thể giải quyết với nguồn dữ liệu hiện hữu. Tập các bài toán tiềm 
năng đƣợc tinh chỉnh và làm hẹp lại trong các giai đoạn sau. Các nguồn và đặc tả dữ 
liệu có liên quan đến tập các bài toán tiềm năng cũng đƣợc xác định. 
Giai đoạn tiếp theo là chuẩn bị dữ liệu: Giai đoạn này sử dụng các kỹ thuật tiền xử lý 
để biến đổi và cải thiện chất lƣợng dữ liệu để thích hợp với những yêu cầu của các giải 
thuật học. Phần lớn các giải thuật KPDL hiện nay chỉ làm việc trên một tập dữ liệu 
đơn và phẳng, do đó dữ liệu phải đƣợc trích xuất và biến đối từ các dạng cơ sơ dữ liệu 
phân bố, quan hệ hay hƣớng đối tƣợng sang dạng cơ sở dữ liệu quan hệ đơn giản với 
một bảng dữ liệu. 
 Các giải thuật tiền xử lý tiêu biểu bao gồm: 
 (a) Xử lý dữ liệu bị thiếu/mất: các dữ liệu bị thiếu sẽ đƣợc thay thế bởi các giá 
 trị thích hợp. 
 (b) Khử sự trùng lắp: các đối tƣợng dữ liệu trùng lắp sẽ bị loại bỏ đi. Kỹ thuật 
 này không đƣợc sử dụng cho các tác vụ có quan tâm đến phân bố dữ liệu. 
 12 
 (c) Giảm nhiễu: nhiễu và các đối tƣợng tách rời (outlier) khỏi phân bố chung sẽ 
 bị loại đi khỏi dữ liệu. 
 (d) Chuẩn hóa: miền giá trị của dữ liệu sẽ đƣợc chuẩn hóa. (e) Rời rạc hóa: các 
 dữ liệu số sẽ đƣợc biến đổi ra các giá trị rời rạc. 
 (f) Rút trích và xây dựng đặc trƣng mới từ các thuộc tính đã có. 
 (g) Giảm chiều: các thuộc tính chứa ít thông tin sẽ đƣợc loại bỏ bớt. 
Các bài toán đƣợc giải quyết trong giai đoạn Mô hình hóa dữ liệu. Các giải thuật học 
sử dụng các dữ liệu đã đƣợc tiền xử lý trong giai đoạn hai để tìm kiếm các qui tắc ẩn 
và chƣa biết. Công việc quan trọng nhất trong giai đoạn này là lựa chọn kỹ thuật phù 
hợp để giải quyết các vấn đề đặt ra. Các bài toán đƣợc phân loại vào một trong những 
nhóm bài toán chính trong KPDL dựa trên đặc tả của chúng. 
Các mô hình kết quả của giai đoạn ba sẽ đƣợc hậu xử lý và đánh giá trong giai 
đoạn 4. Dựa trên các đánh giá của ngƣời dùng sau khi kiểm tra trên các tập thử, các 
mô hình sẽ đƣợc tinh chỉnh và kết hợp lại nếu cần. Chỉ các mô hình đạt đƣợc mức yêu 
cầu cơ bản của ngƣời dùng mới đƣa ra triển khai trong thực tế. Trong giai đoạn này, 
các kết quả đƣợc biến đổi từ dạng học thuật sang dạng phù hợp với nghiệp vụ và dễ 
hiểu hơn cho ngƣời dùng. 
Trong giai đoạn cuối, Triển khai tri thức, các mô hình đƣợc đƣa vào những hệ thống 
thông tin thực tế dƣới dạng các môđun hỗ trợ việc đƣa ra quyết định. Mối quan hệ chặt 
chẽ giữa các giai đoạn trong quá trình KPDL là rất quan trọng cho việc nghiên cứu 
trong KPDL. Một giải thuật trong KPDL không thể đƣợc phát triển độc lập, không 
quan tâm đến bối cảnh áp dụng mà thƣờng đƣợc xây dựng để giải quyết một mục tiêu 
cụ thể. Do đó, sự hiểu biết bối cảnh vận dụng là rất cần thiết. Thêm vào đó, các kỹ 
thuật đƣợc sử dụng trong các giai đoạn trƣớc có thể ảnh hƣởng đến hiệu quả của các 
giải thuật sử dụng trong các giai đoạn tiếp theo. 
Từ các bƣớc của quy trình khai phá dữ liệu, các cấp độ hỗ trợ cho việc ra các quyết 
định kinh doanh có thể xem ở Hình 3 dƣới đây. 
 13 
 Hình 3: Cấp độ hỗ trợ việc ra quyết định kinh doanh và ngƣời thực hiện. 
Giải thích từ ngữ sử dụng trong Hình 3 nhƣ sau: 
Tên tiếng Anh Giải thích từ ngữ 
Data Source (Paper, Files, Information Nguồn dữ liệu: bao gồm giấy tờ, files, nhà 
Providers, Database System, OLTP) cung cấp thông tin, hệ thống CSDL, OLTP 
Data Warehouse/Data Marts: OLAP, Kho dữ liệu: OLAP, MDA 
MDA 
Data Exploration: Statistical Analysis, Khám phá dữ liệu: Phân tích thống kê, truy 
Querying and Reporting vấn, báo cáo 
Data Mining: Information Discovery Khai phá dữ liệu: Tìm kiếm thông tin hữu 
 ích 
Data Presentation: Visualization Thể hiện dữ liệu: Sử dụng các kỹ thuật mô 
Techniques hình hóa 
Making Decision Ra quyết định 
DBA Các nhà quản trị CSDL 
Data Analyst Các nhà phân tích dữ liệu 
Business Analyst Các nhà phân tích kinh doanh 
End User Ngƣời dùng cuối 
 14 
Mô tả các cấp độ hỗ trợ và ngƣời thực hiện công việc trong quy trình khai phá dữ liệu 
đƣợc thể hiện nhƣ sau: 
 Cấp độ Giai đoạn Ngƣời thực hiện 
0 Tìm hiểu nghiệp vụ và dữ liệu (Data Sources): Nhà quản trị CSDL 
 ở giai đoạn sơ khai này công việc chủ yếu là thu 
 thập và tôt chức dữ liệu thứ cấp 
1 Giai đoạn (Data Warehouse): Trong giai đoạn Nhà quản trị CSDL 
 này công việc chủ yếu là của nhà quản trị 
 CSDL để tổ chức dữ liệu trong các Warehouse 
 sao cho dễ dàng truy cập (trực tuyến, phân 
 tán,..) cho ngƣời dùng ở các giai đoạn sau. 
2 Giai đoạn tìm hiểu dữ liệu (Data Exploration): Nhà phân tích dữ liệu 
 Các nhà phân tích dữ liệu (Data Analysist) sử 
 dụng các truy vấn, phân tích thống kê, để tìm 
 hiểu dữ liệu trong warehouse với các tiêu chí 
 khác nhau. 
3 Giai đoạn khai phá dữ liệu (Data Mining): các Nhà phân tích dữ liệu 
 nhà phân tích dữ liệu sử dụng các công cụ của 
 khai phá dữ liệu để mô hình hóa phục vụ cụ thể 
 cho một tiêu chí nào đó trong hệ thống thông tin 
 kinh doanh. Ví dụ nhƣ phân lớp, dự báo,.. 
4 Giai đoạn mô hình hóa (Data Presentation): Nhà phân tích kinh 
 Việc thể hiện dữ liệu dƣới các mô hình giúp cho doanh 
 các nhà phân tích kinh doanh nhìn dữ liệu dƣới 
 các góc độ khác nhau. Từ đó họ có thể rút trích 
 ra những tri thức cần thiết hỗ trợ cho bƣớc ra 
 quyết định tiếp theo 
5 Giai đoạn ra quyết đinh (Makinh Decision): Nhà quản lý 
 15 
 Dựa vào các báo cáo, mô hình tri thức ở bƣớc 
 trƣớc, nhà quản lý (EndUsers) có thể ra các 
 quyết định kinh doanh mà không chỉ dựa trên 
 kinh nghiệm kinh doanh mà còn có sự trợ giúp 
 của công nghệ khai phá tri thức. 
2.1.2 Các khái niệm liên quan đến giao dịch ngoại hối 
 Theo Wikipeadia, từ "Forex" đƣợc bắt nguồn từ cụm từ “FoReign Exchange” 
(trao đổi ngoại tệ). Đây cũng là tên gọi của thị trƣờng tiền tệ quốc tế với các giao dịch 
tài chính hàng ngày rất lớn. Chính vì khối lƣợng giao dịch hàng ngày lớn nên nó tạo 
ra một thị trƣờng có tính thanh khoản rất cao. 
Khái niệm thị trƣờng ngoại hối 
 Thị trƣờng ngoại hối là nơi diễn ra các hoạt động mua bán và trao đổi ngoại tệ 
thông qua quan hệ cung cầu. Việc trao đổi bao gồm việc mua một đồng tiền này và 
đồng thời bán một đồng tiền khác. Nhƣ vậy, các đồng tiền đƣợc trao đổi từng cặp với 
nhau. 
 Ở các nƣớc phát triển, các quan hệ cung cầu ngoại hối đều tập trung ở thị trƣờng 
ngoại hối. Trung tâm của thị trƣờng ngoại hối là thị trƣờng liên ngân hàng, thông qua 
thị trƣờng liên hàng, mọi giao dịch mua bán ngoại hối có thể tiến hành trực tiếp với 
nhau. 
 Do đặc thù của thị trƣờng này là ngoại hối đƣợc giao dịch qua các ngân hàng, 
nhà môi giới, chuyên viên ngoại hối, các tổ chức tài chính và các cá nhân trên toàn thế 
giới. Do vậy ngoại hối đƣợc giao dịch liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ 
(GMT) thứ 6 hàng tuần. Do đặc thù về múi giờ khác nhau trên thế giới nên tại mỗi thời 
điểm sẽ có một số trung tâm hoạt động và một số trung tâm không hoạt động. Các 
trung tâm này hoạt động gối nhau nhƣ Hình 3 dƣới đây. 
 16 
 Hình 4: Lịch hoạt động của các trung tâm giao dịch ngoại hối 
 Nền tảng của thị trƣờng giao dịch ngoại hối là Internet. Các nhà đầu tƣ (nhà giao 
dịch) sử dụng nền tảng này để tham gia thị trƣờng. Họ có thể mua hoặc bán một cặp tiền 
tệ cụ thể để ăn chênh lệch tỷ giá giữa các cặp tiền này. Ví dụ, cặp tiền tệ có thể là 
EURUSD (Euro vs US Dollar), USDJPY (US Dollar Vs Japanese Yen), GBPUSD 
(Great Britain Pound vs US Dollar) hoặc nhiều sự kết hợp các cặp tiền tệ khác. 
 Các đặc điểm của thị trƣờng ngoại hối 
  Lợi nhuận cao. Lợi nhuận này có thể có đƣợc nhờ giao dịch ngoại hối thực tế 
 cao hơn so với tỉ lệ lạm phát, hoặc nếu có một đồng tiền giảm giá thì có nghĩa là 
 có một đồng tiền nào đó sẽ tăng giá. 
  Bảo toàn vốn nếu có biến động về kinh tế. Thị trƣờng chứng khoán có thể sụp 
 đổ nếu có khủng hoảng về kinh tế, nhƣng giao dịch ngoại hối vẫn diễn ra bình 
 thƣờng. 
  Thực hiện liên tục và không phụ thuộc vào vị trí địa lý. Do thị trƣờng ngoại hối 
 toàn cầu hoạt động liên tục từ 21 giờ (GMT) chủ nhật tới 21 giờ (GMT) thứ 6 
 hàng tuần và không phụ thuộc vào vị trí nào do sử dụng mạng Internet. 
  Luôn cập nhật tin tức trên thế giới các biến động của thị trƣờng. 
  Trong bất cứ giao dịch ngoại hối nào thì ít nhất có một đồng tiền đóng vai trò 
 làm ngoại tệ. 
  Ngôn ngữ sử dụng trên thị trƣờng rất ngắn gọn, mang nhiều quy ƣớc nghiệp vụ 
 rất khó hiểu với ngƣời thƣờng. 
 Các thành phần tham gia thị trƣờng ngoại hối 
  Các ngân hàng thƣơng mại: Ngân hàng tiến hành giao dịch ngoại hối với hai 
 mục đích: Thực hiện kinh doanh cho chính mình và cho khách hàng. Các ngân 
 17 
 hàng thƣơng mại áp dụng hai loại tỷ giá. Loại tỷ giá bán buôn áp dụng trên thị 
 trƣờng liên ngân hàng và tỷ giá bán lẻ áp dụng đối với các giao dịch có doanh 
 số nhỏ của khách hàng. Kết quả của hoạt động này là ngân hàng thu phí. Các 
 ngân hàng thƣơng mại chủ yếu là mua đi bán lại các loại ngoại tệ hoặc là các 
 giao dịch có tính chất đầu cơ. 
  Các ngân hàng trung ƣơng: Ngân hàng trung ƣơng đôi khi là thành phần cơ 
 bản trên thị trƣờng ngoại hối thông qua hành vi can thiệp trên thị trƣờng, với hai 
 tƣ cách: 
 o Ngân hàng trung ƣơng thực hiện việc mua bán ngoại tệ để đảm bảo tính 
 thanh khoản, cân bằng hoạt động của các khách hàng của mình chủ yếu là 
 các ngân hàng thƣơng mại. 
 o Giám sát hoạt động của thị trƣờng trong khuôn khổ quy định của luật pháp. 
  Các cá nhân hay các nhà kinh doanh (khách hàng mua bán lẻ). Bao gồm 
 những công dân trong và ngoài nƣớc có nhu cầu mua bán ngoại tệ trên thị 
 trƣờng ngoại hối để phục vụ cho hoạt động đầu tƣ, cho vay, đi công tác hay đi 
 du lịch ở nƣớc ngoài hoặc khi nhận đƣợc các khoản lợi tức đầu tƣ hay chuyển 
 tiền. 
  Các nhà môi giới ngoại hối. Ngƣời môi giới thực hiện các lệnh mua bán ngoại 
 hối theo yêu cầu của khách hàng và hƣởng phí. Họ cung cấp tỷ giá chào bán và tỷ 
 giá chào mua cho khách hàng và nhận một khoản phí môi giới. 
Các doanh nghiệp. Chủ yếu là các doanh nghiệp có chức năng kinh doanh xuất nhập 
khẩu. Các doanh nghiệp này vừa là chủ thể có nh
            Các file đính kèm theo tài liệu này:
de_tai_nghien_cuu_ung_dung_cong_cu_khai_pha_du_lieu_trong_ba.pdf