A. Mở đầu
Mục tiêu chính của các tổ chức, doanh ngiệp là phục vụ tốt yêu cầu của khách hàng và giành ưu thế trong cạnh tranh. Xu thế phát triển của các xí ngiệp hiện nay theo hướng có thể quản lí được các hoạt động, các doanh nghiệp của từng xí nghiệp. Người quản lí không chỉ cần biết điều gì đã xảy ra trong doanh nghiệp của mình mà cần phải biết được tại sao.
Trong giai đoạn xử lí dữ liệu tự động nhờ những kĩ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả
32 trang |
Chia sẻ: huyen82 | Lượt xem: 1612 | Lượt tải: 0
Tóm tắt tài liệu Tổng quan về quản trị tổng kho dữ liệu trong các tổ chức Doanh nghiệp, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
lời câu hỏi “Những cái gì đã xẩy ra”. Các hệ thống thông tin hiện đại sẽ giúp các nhà quản lí hiểu được “Tại sao những điều đó đã xẩy ra trong thực tế” và để giành được lợi thế trong cạnh tranh,đáp ứng những yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được “ những điều gì đã xẩy ra ”.
Để giải quyết những vấn đề trên thì cần có các phương pháp,công cụ để tổ chức,xử lí khai thác tốt những kho dữ liệu (datawarehouse) liên quan.
Trên thế giới khái niệm dataware hóue đã trở thành thông dựng trong các tổ chức kinh tế, các công ty lớn nhưng ở Việt Nam khái niệm này mới chỉ xuất hiện trên sách tham khảo hoặc được sử dụng rất ít trong các tổ chức doanh nghiệp ở nước ta. Chính vì thế em tìm hiểu về đề tài này chỉ với một mục đích nhỏ là giới thiệu khái quát về khái niệm kho dữ liệu là gì?Cấu trúc của nó ra sao?chúng ta có thể xây dựng và phát triển kho dữ liệu như thế nào ?các yêu cầu khi xây dựng ? Quan trọng hơn là việc ứng dụng kho dữ liệu vào thực tiễn: Chúng ta có thể truy nhập và tìm kiếm dữ liệu trong kho như thế nào để đưa ra các quyết định chính xác.
Khi các tổ chức kinh tế càng mở rộng,quy mô ngày một tăng,thi trường ngày một phức tạp, tính cạnh tranh ngày một gay gắt thì nguồn dữ liệu thông tin và cách quản lí sao cho có hiệu quả ngày một trở nên quan trọng, đồng nghĩa với việc xây dựng và khai thác kho dữ liệu càng cần thiết. Khi đã tiếp cận và hiểu thêm về datawarehouse thì mối quan tâm và quyết định trong quản lí dữ liêụ, thông tin của các công ty về việc xây dựng cho mình một phương thức quản lí tốt hơn, hiệu quả hơn. Sự phát triển trong các doanh nghiệp sẽ góp phần quan trọng trong phát triển kinh tế nước ta thơì kì công nghiệp hoá,hiện đại hoá.
đề tàI:tổng quan về quản trị tổng kho dữ liệu trong các tổ chức doanh nghiệp
Đề cương sơ bộ
Lời mở đầu
Nội dung
Các khái niệm cơ bản
II Khai thác sử dụng kho dữ liệu
III Xây dựng và phát triển kho dữ liệu
IV Mô hình kho dữ liệu trong nghiên cứu thị trường
c. Lời cảm ơn
B. Nội dung
I. Các kháI niệm cơ bản
1. Kho dữ liệu
Kho dữ liệu là tập hợp các dữ liệu hướng chủ thể, tích hợp, biến thể với thời gian và có tính ổn định,hỗ trợ cho những quá trình xử lí, quyết định trong quản lí.
a. Hướng chủ thể: Dữ liệu trong kho được tổ chức theo các chủ điểm phục vụ cho các tổ chức dễ dàng xác định được những thông tin cần thiết theo yêu cầu. Cách tổ chức này khác với cách tổ chức theochức năng như các hệ thống cũ từ trước đến nay, ví dụ hệ thống quản lí tài chính tổ chức theo chức năng, dữ liệu được tổ chức theo các nhiệm vụ xử lí vay nợ (loan), cácphiếu ngân hàng, quỹ tín dụng…ngược lại hệ thống tổ chức theo chủ thể thì dựa vào các đối tượng người bán hàng, khách hàng,sản phảm, các hoạt động của xí nghiệp …nói cách khác cách hoạt động của tổ chức truyền thông là dựa vào chức năng còn cách tổ chức theo kho dữ liệu là dựa vào dữ liệu là chính. Sự khác nhau giữa hai cách tiếp cận đó dẫn đến sự khác nhau về nội dung dữ liệu được lưu trữ trong hệ thống:
Kho dữ liệu không cần lưu trữ những dữ liệu chi tiết, chỉ lưu trữ những dữ liệu mang tính chất tổng hợp cần thiết cho quá trình trợ giúp phân tích quyết định.
Các hệ thống ứng dụng tác nghiệp (AOS) lại chứa những dữ liệu chi tiết phục vụ trực tiếp cho những yêu cầu về xử lí chức năng và những dữ liệu đó lại ít hay không cần thiết đới với những nhà phân tích trợ giúp quyết định.
Có sự khác nhau trong quan hệ của các dữ liệu: Dữ liệu trong quan hệ OAS có quan hệ trực tiếp tới nhu cầu và kết quả xử lí tác nghiệp như độ chính xác và tính thời sự, còn trong kho dữ liệu thì dữ liệu đã trải qua một khoảng thời gian, nó là quan hệ giữa nhiều bảng dữ liệu.
b. Tích hợp: tích hợp của kho dữ liệu được chia theo nhiều cách phù hợp với quy ước và tên gọi, số đo, cấu trúc mã hoá và những thuộc tính vật lí của dữ liệu Các tên gọi, biến, thuộc tính có thể mô tả khác nhau trong các ứng dụng, song những cái đó sẽ tích hợp lại trong kho dữ liệu ở dạng chung nhất.
c. Biến thể với thời gian: dữ liệu trong các OAS phải chính xác ở chính thời điểm truy nhập còn kho dữ liệu chỉ cần chính xác trong khoảng thời gian nào đó:dài là đến 5,10 năm ngắn là hàng tuần,hàng tháng không yêu cầu phải chính xác ở thời điểm truy nhập dữ liệu. Dữ liệu trong kho dữ liệu khi đã chính xác thì được ghi lưu lại không cho phép cập nhật và nó được sử dụng như một bức ảnh. Nếu bức ảnh dữ liệu đó không đúng thì sau đó có thể sửa nhưng không thể thay đổi ngay tức thì.
d. Tính ổn định: Các thao tác cập nhật dữ liệu như insert, dele, change…thực hiện trong một môi trường cơ sở record by record. Kho dữ liệu chỉ thực hiện hai thao tác:
Nạp dữ liệu vào kho (load of data)
Truy nhập vào các vùng trong kho(access of data)
Tóm lại dữ liệu được lọc ra từ nhiều môi trường tác nghiệp, được xây dựng, tổ chức thành kho dữ liệu, đó là những dữ liệu cần thiết cho việc xử lí để có được những thông tin đầy đủ chính xác cho những nhà quản lí, cho các tổ chức, xí nghiệp hoạt động có hiệu quả và phát triển trong môi trường cạnh tranh.
2. Cấu trúc của kho dữ liệu
các kho dữ liệu bao gồm những dữ liệu ở mức tổng hợp, chi tiết rất khác nhau và thuyền xuyên có thêm yếu tố thời gian. Cấu trúc tổng quát của kho dữ liệu được mô tả:
Kho dữ liệu bao gồm các thành phần sau:
Dữ liệu chi tiết cũ
Dữ liệu chi tiết hiện thời
Dữ liệu tổng hợp
Dữ liệu tổng hợp mức cao
Meta dữ liệu
Dữ liệu cũ chi tiết thường được lưu giữ ở những dạng và thiết bị cho phép lưu trữ với khối lượng lớn.các loại dữ liệu không thường xuyên truy nhập những chúng phải được lưu trữ để phù hợp với dữ liệu hiện thời.
Dữ liệu chi tiết hiện thời phải được đặc quan tâm vì đó là các dữ liệu tươi khối lượng rất lớn và vì:
Dữ liệu đó fản ánh những sự liện mời xảy ra và những gì chúng ta quan tâm nhất.
Dữ liệu được truy nhập trên đĩa tốc độ nhanh những chi phí lớnvà khó quản lí
Dữ liệu tổng hợp mức thấp là những dữ liệu được chắt lọc to hang dữ liệu chi tiết hiện thời. Các loại dữ liệu tổng hợp thường lưu giữ trên đĩa. Khi thiết kế kiến trod cho dữ liệu tổng hợp chúng ta cần lưu ý
Thời gian cần thiết để tổng hợp dữ liệu
Nội dung chủ yếu mà các thuộc tính mà các dữ liệu cần tổng hợp
Mock tiếp theo của kho tổng hợp dữ liệu là mức tổng hợp cao. Dữ liệu ở mức này phải có tính đúc kếtvà tiện lợi cho nhiều truy nhập khác
Mức cuối cùng trong kho là meta dữ liệu là dạng dữ liệu mô tả về dữ liệu. Trong CSDL chúng thường là các dạng dữ liệu biểu diễn khác nhau của các đối tượng trong CSDL. Trong CSDL quan hệ thì meta dữ liệu là các mô tả các bảng bảng view và nhiều đối tượng khác. trong kho dữ liệu meta dữ liệu là dạng định nghĩa dữ liệu mô tả dữ liệu như bảng cột một báo cáo các luật doanh nghiệphay những quy tắc biến đổi… meta dữ liệu bao quát tất cả các phương tiện của kho dữ liệu. Như vậy meta phải chứa các thông tin:
Cấu trúc của dữ liệu
Thuật toán để sử dụng tổng hợp dữ liệu
ánh xạ xác định sự tương ứng của môi trường tác nghiệp sang kho dữ liệu.
Chúng ta cần lưu ý răng không phải tất cả những gì tổng hợp được đều được đưa vào kho dữ liệu nó chỉ cần lưu ý những dữ liệu tổng hợp mà thường xuyên được truy nhập.
Ngoài việc phân lớp các không thì các dòng dữ liệu trong kho dữ liệu cũng là vấn đề quan trọng.
Dữ liệu đầu vào của các kho dữ liệu được chắt lọc từ nhiều tác nghiệp khác nhau, được biến đổi và tổng hợp lại à lưu trữ trong kho dữ liệu. Quá trình chuyển đổi dần dữ liệu chi tiết hiện thời thành dữ liệu chi tiết cũ dựa vào từng mốc thời gian đã qua. Mục tiêu chính của các tổ chức, doanh ngiệp là phục vụ tốt yêu cầu của khách hàng và giành ưu thế trong cạnh tranh. Xu thế phát triển của các xí ngiệp hiện nay theo hướng có thể quản lí được các hoạt động, các doanh nghiệp của từng xí nghiệp. Người quản lí không chỉ cần biết điều gì đã xảy ra trong doanh nghiệp của mình mà cần phải biết được tại sao.
Trong giai đoạn xử lí dữ liệu tự động nhờ những kĩ thuật của công nghệ thông tin, các xí nghiệp đã xây dựng được nhiều ứng dụng để trả lời câu hỏi “Những cái gì đã xẩy ra”. Các hệ thống thông tin hiện đại sẽ giúp các nhà quản lí hiểu được “Tại sao những điều đó đã xẩy ra trong thực tế” và để giành được lợi thế trong cạnh tranh,đáp ứng những yêu cầu thay đổi thường xuyên của người sử dụng thì các xí nghiệp phải đoán biết được “ những điều gì đã xẩy ra ”.
Để giải quyết những vấn đề trên thì cần có các phương pháp,công cụ để tổ chức,xử lí khai thác tốt những kho dữ liệu (datawarehouse) liên quan.
Quá trình tổng hợp
Quá trình xử lí theo thời gian
Dòng dữ liệu bên trong kho dữ liệu
3. Kho dữ liệu thao tác
Như chúng ta đã biết. Kho dữ liệu được sử dụng trực tiếp cho các hệ thống trợ giúp cho các quyết định và có mặt hạn chế là không phục vụ trực tiếp cho quá trình môi trường tác nghiệp. Mặt khác những hệ thống lớn đã được xây dựng từ nhiều năm thi khả năng tích hợp của chúng lại rất thấp. để giải quyết được tất cả những vấn đề trên nghĩa là sử dụng được tất cả các thông tin của hệ thống hiện hành và của mt tác nghiệp thì cần sử dụng kho dữ liệu thao tác. kho dữ liệu thao tác là dữ liệu được mở rộng sang môi trường tác nghiệp, có tác dụng phục vụ chính cho nghiệp vụ tác nghiệp và dữ liệu được lấy từ những ứng dụng mà khả năng tích hợp rất thấp kho dữ liệu thao tác chứa những giá trị hiện tại hoặc rất gần với hiện tại, còn kho dữ liệu chứa những dữ liệu lịch sử, những nội dung liên quan gần với hiện tại.
Kho dữ liệu thao tác chứa những dữ liệu hầu như chi tiết còn kho dữ liệu chứliệu hầu như đã được làm giàu hoặc đã được tổng hợp thông thường kho dữ liệu rất lớn còn kho dữ liệu thao tác thì rất nhỏ.
Kho dữ liệu thao tác có thể cập nhật trong khi kho dữ liệu chỉ có thẻ truy nhập vào để xử lí như các bức tranh.
Trong kho dữ liệu thao tác cũng có mức tổng hợp và kiểu khác với kho dữ liệu.
Cuối cùng sự khác nhau chủ yếu là ở công nghệ : Kho dữ liệu thao tác được xây dựng với mục đích cập nhật và trả lời nhanh những câu hỏi đáp ứng mọi yêu cầu của khách hàng hay hỗ trợ quyết định cho các hoạt động thường nhật, còn kho dữ liệu phục vụ cho các nhà phân tích để trợ giúp quyết định hoặc phục vụ công tác quản lí trong cộng đồng.
4. Khối các nguồn dữ liệu
Kiến trúc của kho dữ liệu
Các nguồn dữ liệu có thể chia thành các lớp:
Dữ liệu sản xuất: những dữ liệu trong cơ sở dữ liệu thao tác là những thông tin được tập hợp lại từ nhiều ứng dụng khác nhau
Dữ liệu trong các di sản: Những dữ liệu được lưu trữ có tính lịch sử chỉ có ý nghĩa trong việc phân tích để xác định xu thế phát triển chứ không sử dụng hỗ trợ cho nhứng dụng hiện tại
Dữ liệu từ các hệ thống văn phòng nội bộ bao gồm
Dữ liệu phi cấu trúc: những dạng tài liệu phi điện tử
Dữ liệu có cấu trúc: các báo cáo, biểu đồ, bảng tính điện tử, những tài liệu được soạn thảo bằng các văn bản trên máy tính
Tài liệu bán cấu trúc: những báo cáo hàng năm hay những biểu mẫu thống kê…
Dữ liệu từ hệ thống ngoại lai: nguồn dữ liệu không thể điều khiển được, nó cần thiết để phân tích, đánh giá tình hình phát triển của xí nghiệp trong môi trường cạnh tranh nhiều đối tác
Meta dữ liệu về các nguồn: những thông tin định nghĩa về các nguồn cung cấp dữ liệu, meta dữ liệu xác định xác định tên gọi dữ liệu được lọc ra từ các nguồn, định nghĩa về các trường, các thời điểm liên quan đến dữ liệu.
Dữ liệu sản xuất
Dữ liệu kế thừa
Các hệ thống văn phòng nội bộ
Các nguồn từ bên ngoài
Meta dữ liệu về nguồn
Khối các nguồn dữ liệu
5. Khối kiến thiết các kho dữ liệu
Đây là phần chính của kiến trúc của kho tham chiếu, gồm ba bộ nhóm thành phần và được tổ chức như sau:
Chuẩn hoá tích hợp
Phân tách
Mô hình
Lọc và đối sách
Gộp chung và tổng hợp
Tổng hợp
Làm sạch và dọn dẹp
Tiền xử lí
Gộp chung
đóng dấu thời gian nguồn dữ liệu
Lập khuôn và chuyển đổi
điều chỉnh và phê chuẩn
Kiểm tra chất lượng dữ liệu
Biến đổi và làm lại
Xây dựng các câu hỏi
Tạo lập chiết xuất meta dữ liệu
Tạo lập meta dữ liệu
Tạo lập từ điển thuật ngữ dữ liệu
điều khiển meta dữ liệu
Các thành phần của khối kiến thiết kho dữ liệu
Trong các thành phần làm mịn dần, meta dữ liệu được chuyển sang dạng tên gọi các dữ liệu chuẩn và các định nghĩa chính của nó. Trong thành phần tái kiến thiết, dữ liệu được tạo ra sao cho phù hợp với yêu cầu của người sử dụng.
Khối kiến thiết trung tâm
Khối này được tạo ra các trung tâm dữ liệu được xd từ kho dữ liệu các thành phần của nó cũng tương tự như như khối kiến thiết kho dữ liệu.
b . Truy nhập và sử dụng kho dữ liệu
Khối này gồm hai chức năng chính: truy nhập và tìm kiếm, phân tích lập báo cáo
Tầng quản lí
Chiết xuất và quản trị dữ liệu mới. Câu hỏi yêu cầu
Nạp, lưu trữ và cập nhật hệ thống
Quyền ttruy nhập và an toàn hệ thống
Cất giữ thanh lọc và khôi phục hệ thống
Tầng quản lí metadata
Kiến trúc kho dữ liệu được xây dựng dựa trên những khái niệm định nghĩa dữ liệu (được gọi là meta data). Metadata boa quát mọi hoạt động của kho dữ liệu
Tầng meta chụi trách nhiệm :
Đảm bảo chuẩn hoá các định nghĩa dữ liệu (bao gồm cả định nghĩa chức năng và định nghĩa tác nghiệp )được lưu trữ trong kho.
Tạo lập các meta data được xây dựng trong khối làm mịn dần và tái xây dựng
Xây dựng các meta data dựa trên hạt nhân, các vùng chú điểm, gộp chung và tổng hợp lại
Xác định những mô tả những câu hỏi và báo cáo những định nghĩa trước
Xác địnhcác meta data mô tả5 chỉ số hoá, các quy tắc phân chia thời gian, cập nhật hệ thống.
c. Tầng truyền thông
Tầng này phục vụ cho việc trao đổi giữa các khối trong kiến trúc chung của hệ thống.
Truyền dữ liệu và phân phối mạng
Client-serverr và các công cụ phục vụ trung gian
Hệ thống trả lời
Quyền truy nhập và an toần hệ thóng
Chức năng truyền dữ liệu và phân phối mạng bao gồm những loại hệ thống:
Giao lễ của mạng
Cơ cấu quản lí của mạng
Hệ điều hành mạng
Loại kết nối mạng
Bộ phận Client-serverrvaf công cụ phục vụ trung gian bao gồm: phần phục vụ truyền thông và bộ phận môi giới
Hệ thống trả lời bao gồm các hệ thống nhỏ sau: IBMData EdA SQL.
Các sản phẩm
d. Tầng cơ sở
Tầng cơ sởcủa hệ thống đề cập đến:
* Cấu hình hệ thống
Bộ nhớ lưu trữ
Độ an toàn
Phân phối phần mền
Theo dõi sự hoạt động các công việc
Phân tích các khả năng, công suất.
Tìm hiểu thêm về OLAP
OLAP là kĩ thuật phân tích dữ liệu bao gồm:
_ Thể hiện vieulogic nhiều chiều của dữ liệu trong kho dữ liệu, view nào cũng độc lập với cách lưu trữ dữ liệu
_Xử lí câu hỏi và dữ liệu trực tiếp
_ Tạo ra khả năng tổng hợp và dữ liệu gộp chungtheo một cấu trod phân cấp.
_ Hỗ trợ tạo ra mô hình chức năng để dự báo, phân tích xu thế phát triển và phân tích xu thế thống kê.
_ Tìm kiếm và hiển thị dữ liệu trong không gian
_ Trả lời các câu hỏi, quá trình phân tích không bị gián đoạn, thông tin không bị tổn thất.
OLAP là thành phần quan trọng trong phân tích và lập báo cá, là thành phần quan trọng để truy nhập và sử dụng dữ liệu trong kho dữ liệu
Truy nhập trực tiếp vào dữ liệu trong datawarrehouse hay từ datamart biến đổi chúng sang cấu trúc nhiều chiềuvà lưu trữ chúng ở kho của các trạm .
Truy nhập trực tiếp vào dữ liệu trong datawarrehouse hay từ datamart biến đổi chúng sang dạng view đa chiều và thể hiện nó như cấu chúc nhiều chiều phục vụ cho phân tích và lập báo cáo ở các trạm
II. Khai thác sử dụng kho dữ liệu
7. Mục đích của kho dữ liệu
Mục đích của kho dữ liệu là để chocác nhà quản lí hiểu được bản chất của những gì đã xẩy ra và nắm bắt được những gì sẽ xảy ra trong tương lai. Các nhà quản lí phải trả lời những câu tương tự như sau:
Khách hàng cần mua gì ? họ không cần mua gì ?
Bao nhiêu nhân viên bán hàng phục vụ cho một khách hàng? khách hàng nghĩ như thế nào về dịch vụ của công ty?
Đối thủ cạnh tranh có thể làm những gì? Những điều đó ảnh hưởng như thế nào đối với khách hàng ?
Chi phí cho một đơn vị mặt hàng so với ba năm qua tăng hay giảm? những yếu tố chính làm cho nó tăng…
Những nhà quản lí phải có được những câu hỏi chủ chốt để có được những quyết định kịp thời và tốt hơn. Hệ thống kho dữ liệu giúp chúng ta đạt được mục tiêu đó. Dữ liệu được lấy ra từ kho dữ liệu và được chuyển đổi sang dạng thông tin hỗ trợ cho các doanh nghiệp(tổ chức) có được nhiều khả năng lựa chọn với nhiều thông tin hơn để có được quyết định tốt hơn và duy trì được lợi thế trong cạnh tranh.
Quá trình sử dụng kho dữ liệu được thực hiện qua nhiều bước. Đầu tiên là kho dữ liệu được sử dụng để lập báo cáo và định nghĩa trước các câu hỏi. Sau đó là nó được sử dụng để phân tích tổng hợp hay chi tiết dữ liệu mà kết quả là các bản báo cáo hay các biểu đồ. Trong giai đoạn này cũng cần kiểm tra chất lượng và tính đầy đủ các nội dung dữ liệu, đồng thời tiến hành huấn luỵện, đào tạo người sử dụng. Khi người sử dụng cảm thấy tiện lợi trong công việc thì họ sẽ sử dụng kho dữ liệu để thực hiện công việc để đạt được những mục tiêu chiến lược thông qua phân tích nhiều chiều hay nhiều phép toán khác trên kho dữ liệu.
8. Tiềm năng của kho dữ liệu
Trong môi trường cạnh tranh hiện nay, không có chỗ đứng cho những quyết định chậm hay thiếu thông tin. Việc sử dụng dữ liệu trong kho dữ liệu dưới dạng các thông tin cần thiết để có những quyết định tốt có thể mô tả như trong hình8.1
Tri thức
Dữ liệu
Sự kiện thông tin
Kho dữ liệu có thể cung cấp đầy đủ những thông tin cần thiết cho các nhà phân tích, quản lí và những người thực hiện. Họ sử dụng kho dữ liệu để đề ra kế hoạch, chiến lược phát triển và từ việc quản lí tốt mối quan hệ giữa khách hàng để điều chỉnh theo hướng có lợi hơn trong môi trường cạnh tranh.
Phân tích tăng lợi nhuận và tăng trưởng kho: kho dữ liệu cung cấp các dữ liệu để phân tích hỗ trợ để có được những quyết định tốt đảm bảo sự phát triển và tăng lợi nhuận cho từng xí nghiệp
Quản lí được các mục tiêu chiến lược: những dữ liệu tác nghiệp của xí nghiệp là những nguồn thông tin cơ bản được lưu trữ trong kho. Chính những dữ liệu này sẽ cung cấp đủ thông tin để hiểu, nắm được thị hiếu, nhu cầu phát triển của khách hàng trên cơ sở đó đề ra chiến lược phát triển cho xí nghiệp.
Giúp cho việc cải tiến quá trình tác nghiệp và quản lí toàn bộ chất lượng.
9. Các ứng dụng của kho dữ liệu
Những kinh nghiệm trong các hoạt động nhân hành và tài chính và dịch vụ, kinh doanh,sản xuất,…cũng đã nêu lên khả năng ứng dụng của kho dữ liệu để thực hiện chức năng của một tổ chức. Chúng ta xét một số lĩnh vực ứng dụng kho dữ liệu phổ biến:
Trong lĩnh vực tài chính và ngân hàng:kho dữ liệu được sử dụng trong quản lí các dịch vụ, khách hàng và phát hiện những may rủi trong hoạt động đầu tư phát triển.
Trong các dịch vụ kinh doanh và quản lí: trong lĩnh vực này, ứng dụng kho dữ liệu đóng vai trò quan trọng trong hoạt động kinh doanh, khách hàng, hàng hoá, mối quan hệ giữa chúng…ngoài công việc hỗ trợ cho quản lí còn cho ta biết được nhu cầu, thị hiếu và xu thế phát triển của khách hàng nói riêng và thị trường nói chung.
Trong sản xuất: kho dữ liệu giúp cho việc tăng hiệu quả của sản xuất, vốn đầu tư đảm bảo đáp ứng nhu cầu khách hàng và phù hợp với nhu cầu phát triển của xí nghiệp.
10.Những người sử dụng kho dữ liệu và yêu cầu của họ
Nhiệm vụ của kho dữ liệu là hỗ trợquyết định cho phạm vi rộng lớn các lớp người sử dụng khác nhau với sự giúp đỡ cuả công nghệ thông tin.
Người sử dụng hệ thống kho dữ liệu phải có những khả năng sau:
Hiểu biết về lĩnh vực tác nghiệp và kho dữ liệu hỗ trợ
Hiểu được ngữ nghĩa có được của thông tin từ kho dữ liệu
Biết được cách truy nhập và tìm kiếm thông tin trong kho.
Có khả năng xử lí,biến đổi những dữ liệu tìm được từ trong kho dữ liệu sang những dạng thông tin sự kiện,rồi chuyển chúng sang tri thức để ra quyết định.
Nhu cầu cơ bản của tất cả những người sử dụng kho dữ liệu là biết được cái gì có trong kho dữ liệu, phân tích các dữ liệu,xác định được những thông tin cần thiết để lấy ra từ trong kho dữ liệu, nhu cầu của họ được thoả mãn khi trả lời được những câu hỏi sau:
Kho dữ liệu chính xác chứa những gì?và chất lượng của chúng?
Cách truy nhập và tìm kiếm dữ liệu
Tất nhiên nhu cầu về tìm kiếm nghiệp vụ,công nghệ…cũng rất khác nhau đối với những người sử dụng khác nhau vi dụ như bảng dưới đây:
Người thực hiện
Công cụ phân tích
đóng gói thông tin
Khả năng của trạm
làm việc
Người quản lí lâu
năm
Người lập báo cáo
Biểu đồ
Hình thức tác nghiệp
Biểu diễn đa phương tiện
Mô hình tác nghiệp
Lập kế hoạch và
mô hình dự báo
Đồ hoạ chất lượng cao
Cơ chế ảo
Giám đốc phân tích tác nghiệp
Các câu hỏi
Biểu đồ và báo cáo
Bảng tính và các hệ quản trị CSDL
Mô hình lập kế hoạch và dự báo
Mô hình tác nghiệp
Đồ thị
Khả năng ảo
của những thông tin đã được phân tích
Phân tích
viên tác nghiệp
Các truyền
viên CNTT
Tổng hợp dữ liệu
Chi tiết dữ liệu
Biến đổi dữ liệu
CSDL
Bảng tính và
hthử QTCSDL
Quản trị dữ liệu
nội bộ
Dữ liệu bên ngoài
CSDL
Khai thác dữ liệu
Phân tích dữ liệu
ảo hoá dữ liệu
10. Sử dụng kho dữ liệu
từ xu thế phát triển của công việc, kho dữ liệu được xây dựng đã cung cấp những dữ liệu và thông tin ở dưới dạng thông tin và khuân mẫu thuận lợi cho người sử dụng nghiệp vụ, những người sử dụng với những công cụ và khả năng phân tích để có những quyết định đúng nhất.
Kho dữ liệu được sử dụng hàng ngày với hai hoạt động chính:
Truy nhập và tìm kiếm
phân tích và làm báo cáo.
Truy nhập trực
tiếp vào kho dữ liệu
Các công cụ làm báo cáo
Truy nhập vào data
mart
Công cụ phân tích
và trợ giúp quyết định
Xây dựng lại
Công cụ xây dựng mô
hình tác nghiệp
Chuyển đổi sang cấutrúc nhiều chiều
Các công cụ khai thác
dữ liệu
Tạo ra những kho
ứng dụng sản xuất
Hiển thị và điều hành
Quản lí meta dữ liệu
OLAP
Quản lí
Khối truy nhập và sử dụng trong kiến trúc quy chiếu của kho dữ liệu
11. Kĩ thuất sử dụng kho dữ liệu
Công cụ trợ giúp quyết định thường sử dụng sau khi sử dụng những công cụ hay những trương trình ứng dụng để tìm kiếm xử lí phân tích những dữ liệu tìm được trong kho theo yêu
cầu để cuối cùng có được những kết luận tốt.
Hỗ
trợ quyết
định
Kiển phát
Chứng hiện
Thông Phân Khai thác
tin tích dữ liệu
Hình trên ta thấy những kĩ thuật sử dụng chính ở đâylà kiểm chứng và phát triển.
Theo chức năng kiểm chứng người sử dụng đưa ra các giả thuyết đó là những câu hỏi liên quan đến nghiệp vụ rồi tìm cách khẳng định những điều nêu ra thông qua các dữ liệu truy nhập được phân tích nhiều chiềulấy ra từ kho dữ liệu. Chức năng kiểm chứng làm nhiệm vụ phát hiện những đặc tính của dữ liệu.
12. Các bước sử dụng dữ liệu
các bước sử dụng dữ liệu của kho dữ liệu oàn toàn giống xử lí dữ liệu của những người quản lí giàu kinh nghiệm. Nó bao gồm các bước
Kiểm tra chất và tính chất công việc
Xây dựng luận cứ về kết quả công việc
Xác định mục tiêu hoăc những vấn đề nghiệp vụ
Xây dựng cách truy nhập vào kho dữ liệu
Truy nhập và tìm kiếm trong kho dữ liệu
Phân tích dữ liệu
Giới thiệu và quyết định
Các bước sử dụng dữ liệu
13. Phân tích và xử lí thông tin trong kho dữ liệu
Chúng ta nghiên cứu những phương pháp, công cụ để xử lí thông tin: sau đó là những kĩ thuật xử lí phân tích, đặc biệt nhấn mạnh phương pháp xử lí bằng trực tuyến.
Các bước trong quá trình xử lí thông tin gần giống các bước phân tích để có được những quyết định của những người thành thạo trong công việc của mình.
Truy nhập và tìm kiếm trong kho dữ liệu
Biểu diễn và phân tích kết quả
Xác định nhu cầu về dữ liệu
Xây dựng giả thuyết
Xác định công việc
Quá trình phân tích và thực hiện công việc của công nhân thạo nghề
Định nghĩa câu hỏi
Những giả thuyết về câu hỏi tương tựCác mùa trong năm và lượt các mặt hàng được bán ra trong quý có mối quan hệ như thế nào? ” cần phải được chuyển sang dạng câu hỏi có những trả lời từ kho dữ liệu. Công việc chuyển đổi này có thể thực hiện bởi các chuyên gia công nghệ thông tin hay người có nghiệp vụ hay người có trình độ chuyên môn cao về hệ thống thông tin.
Truy nhập và tìm kiếm dữ liệu
Nhiều công cụ truy nhập hỗ trợ để đưa ra những câu hỏi tính toán và tìm ra những dữ liệu thích hợp. Quá trình truy nhập và tìm kiếm có thể bao gồm cả những khả năng tính toán và sắp xếp theo một tiêu chí nào đó.
định nghĩa câu hỏi
Các công cụ
Truy nhập và tìm kiếm
tính toán xử lí /phân tích
Biểu diễn kết quả/lậpbáo cáo
Trao đổi thông tin: E-mail
Quá trình xử lí thông tin
c. Tính toán,xử lí, phân tích dữ liệu
để thực hiện công việc được giao thì người thừa hành công việc phải tính toán,xử lí nhiều kết quả từ kho dữ liệu theo những câu hỏi đặt ra. Thực hiện phân tích với mục đích là chuyển những dữ liệu tìm được sang dạng thông tin và các sự kiện. Có nhiều công cụ được sử dụng để phân tích như sơ đồ, đồ thị.
d. Biểu diễn thông tin
Những kết quả phân tích có thể biểu diễn dưới nhiều dạng như biểu đồ đồ thị, các báo cáo hay những dữ liệu được xử lí trước cho những quá trình phân tích tiêp theo. Những kết quả đó có thể thể hiện trong không gian hai chiều,ba chiều
e. Trao đổi thông tin
các lượng thông tin có thêtrao đổi với nhau dưới nhiềy hình thứckhác nhau như dưới dạng tài liệu, báo cáo hoặc dưới các dạng tệp thông tin hay thư tín điện tử…Để tăng hiệu quả xử lí của hệ thống thì những kết quả phân tích phải được chuyển ngay đến thực tế dưới dạng trang điện tử hoặc để soạn các báo cáo để cung cấp các tài liệu cần thiết.
Phục vụ khách hàng
Sản xuất
Bán hàng
Nghiên cứu thị trường
Tài chính kế toán
Những người sử dụng bất thường
Những người sử dụng thường xuyên
Những người sử dụng tiềm năng
Cách nhìn của người sử dụng
III. Xây dựng và phát triển kho dữ liệu
Hệ thống kho dữ liệu cũng có chu trình phát triển giống như các phần mềm khác. để phát triển hệ thống kho dữ liệu chúng ta phải thực hiện lần lượt qua các bước: lập kế hoạch, xác định yêu cầu,phân tích , thiết kế, cài đặt, trắc nghiệm và cuối cùng là bảo trì,phát triển.
Bảo trì và phát triển trắc nghiệm cài đặt
Xác định phân tích thiết
Yêu cầu kế
Lập KH
Chu trình phát triển của hệ thống
1. Lập kế hoạch
Để xây dựng kho dữ liệu cần thực hiện qua các bước, một số bước có thể thực hiện đồng thời
Xác định chiến lược cài đặt hệ thống
Lập KH
Tập hợp meta data
Xây dựng kịch bản sử dụng trong tác nghiệp
Xây dựng chương trình ngân sách cho kế hoạch
Lựa chọn cách tiếp cận kiến túc
Xác định miền pham vi của hệ thống
Lựa chọn phương pháp luận dể phát triển
a.Xác định chiến lược cài đặt
Đây là bước đầu tiên vô ùng quan trọng, nó được quyết định đưa cơ sở vào cơ cấu tổ chức cần thiết phát triển hệ thống kho dữ liệu. Chúng ta có thể lựa chọn một trong ba cách tiếp cận sau:
Cách tiiếp cận trên –xuống
Cách tiếp cận dưới—lên
Tổ hợp hai cách trên
Nên chọn cách tiếp cận trên – xuống khi có những điều kiện sau:
+ khi tổ chức thực hiện cài đật nấm vững được thông tinvà có nhiều kinh nghiệm đẻ phát triển các ứng dụng dựa trên việc xác định danh sách các yêu cầu cua hệ thống
+ Khi thực hiện các nhà quyết định, nhà đầu tư đã xác định rõ mục đích và yêu cầu đối với hệ thống kho dữ liệu
+ khi thực hiện những nhà quyết định, những nhà đầu tư đã có ý tưởng rõ ràng nơi nào hệ thống kho dữ liệu sẽ được sử dụng và sử dụng như thế nào để có những quyết định trợ giúp
* Nên lựa chọn cách tiếp cận từ dưới lên trên khi có các điều kiện sau:
+ Khi chưa xác định được công nghệ cài đặt chủ đạo và có nhiều công nghệ mới cần phải tiếp xúc và xem xét
+ Khi tổ chức chưa phó thác cho công nghệ khai thác kho dữ liệu nhưng đang tìm kiếm một công nghệ để xác định triển khai công nghệ
+ Khi mục tiêu về hệ thống kho dữ liệu chưa rõ ràng, hoặc là quá trình tác nghiệp hiện thời hay trong chưa cụ thể
* Nên chọn cách tiếp cận tổ hợp khi có những điều kiện sau:
+ Tổ chức thực hiện cài đặt có những chuyên gia cài đặt giàu kinh nghiệm . tổ chức này có cơ sở vững chắc về xây dựng và phát triển kho dữ liệu
+ Khi tổ chức đã có một nhóm thực hiện dự án,xác định rõ những nơi cần ứng dụng kho dữ liệu. Thông thường nhóm dự án là một phòng ban, một ban được bổ sung thêm một số người và những đội ngũ cán bộ của hệ thống thông tin thống nhất với nhau để đề xuất một giải pháp cụ thể để cài đặt hệ thống kho dữ liệu phù hợp với yêu cầu của công việc
b. Lựa chọn phương pháp luận để phát triển
Trong công nghệ phần mềm có nhiều phương pháp luận đã được tập trung nghiên cứu và ứng dụng để phát triển các hệ thống phần mềm. Mỗi phương pháp đều có những ưu và nhược điểm khác nhau. Những kĩ thuật phát triển hệ thống phần mềm hiện nay chủ yếu được sử dụng là: phương pháp phân tích thiết kế cơ sở cấu trúc theo mô hình thác nước, phương pháp phân tích thieets kế cài đật hướng đối tượngtheo mô hình đài phun nước và phương pháp phát triển theo vòng xoắn ốc
c. Xác định mục tiêu
Để hiểu rõ công việc và để thực hiện thành công dự án thì vấn đề đầu tiên quan trong nhất láac định rõ mục tiêu, nhiệm vụ và hệ thống cần cài đặt.
Việc xã các định các mục tiêu của kho dữ liệu là công việc rất phức tạp vì kho dữ liệu chính là CSDL với khối lượng thông tin phức hợp trong một phạm vi xử lí rất rộng. Ngoài ra còn luôn phát triển nhiều xu thế phát triển công cụ
Để khắc phục được những khó khăn trong việc xác định mục tiêu, khi lập kế hoạch chúng ta nên trả lời những câu hỏi :
Thị trường những người sử dụng kho dữ liệu tiềm năng là gì? Câu trảt lơi sẽ phụ thuộc vào mơc độ nhận thớc và nhu cầu của hệ thống . việc lựa chọn các đối tượng phục vụ cần phải xét tới những khả năng cần tới trạm làm việc, kết nối mạng và trình độ t của khách hàng.
Những lĩnh vực nào đang ứng dụng hoặc dự kiến sẽ ứng dụng? Câu trả lời cần phải chú ý và miên ứng dụng nhiều chiều, rất rộng: người phục vụ các trạm làm việc của khách hàng, giao diện đồ hoạ, các hệ thống thông tin (hệ quản trị CSDL các quan hệ truyền thông ).
Những vấn đề cần lập kế hoạch chủ yếu dựa vào chức năng, vào đặc tính là gì? đặc tính và chức năngcủa hệ thống được chia làm hai lớp:
-Những đặc tính chức năng nhìn thấy được có thể sử dụng bởi những người từ bên ngoài tổ chức của hệ thống kho dữ liệu.
Những đặc tính chức năng không nhìn thấy được cụ thể những cần phải cài đật bên trong hệ thống để phát triển được các khả năng của hệ thống
Những nguồn dữ liệu nào có thể hoặc cần phải tích hợp để đưa vào hệ thống kho ._.
Các file đính kèm theo tài liệu này:
- 35349.doc