LỜI MỞ ĐẦU
Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy Bãi Bằng – cơng trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thức khánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngành cơng nghiệp giấy Việt Nam.
Trong hơn 25 năm qua, cơng ty Giấy Bãi Bằng đã trải qua một chặn đường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thành con chim đầu đàn của Tổng cơng ty Giấy Việt Nam.
Giấy Bãi Bằng đã trở thành một thương hiệu
90 trang |
Chia sẻ: huyen82 | Lượt xem: 1359 | Lượt tải: 0
Tóm tắt tài liệu Tình hình sản xuất kinh doanh của Tổng Công ty Giấy Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
nổi tiếng, đạt giải Sao vàng Đất Việt, hàng Việt Nam chất lượng cao. Áp dụng hệ thống quản lý chất lượng theo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nâng cao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng như xuất khẩu.
Giấy Bãi Bằng đã cĩ nhiều đĩng gĩp cho nền kinh tế đất nước và phát triển kinh tế địa phương. Thơng qua đĩng gĩp ngân sách, giảm nhập khẩu hàng hố, kích thích sản xuất nguyên liệu, gĩp phần xĩa đĩi giảm nghèo cho nơng dân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành cơng nghiệp, tiểu thủ cơng nghiệp liên quan đến sản xuất và gia cơng chế biến các sẩn phẩm từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hội
Bài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sản xuất kinh doanh của cơng ty Giấy Bãi Bằng nay là Tổng cơng ty Giấy Việt Nam. Số liệu được lấy từ nhà máy Giấy của Tổng cơng ty. Số liệu trên được tổ chức thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng cơng ty trong ba năm 2006, 2007 và 2008. Bằng các phương pháp thống kê thích hợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng cơng ty trong ba năm trên.
Sau lời mở đầu, luận văn này sẽ cĩ 3 chương và danh mục tài liệu tham khảo. Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn. Chương 2 dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được sử dụng trong quá trình phân tích số liệu. Chương 3 đưa ra các kết quả phân tích trong hoạt động sản xuất của Tổng cơng ty, tìm ra những điểm bất hợp lý trong việc phối hợp các thành phần nguyên vật liệu, đề xuất phương án sử dụng nguyên vật liệu tiết kiệm hơn cho quá trình sản xuất. Tại đây các phương pháp thống kê được áp dụng một cách phù hợp để đưa ra những kết luận cĩ tính thuyết phục, đảm bảo tính khoa học. Phần cuối của chương 3 đã đề xuất một số kiến nghị đối với ban lãnh đạo của Tổng cơng ty về việc phối hợp sử dụng các nguyên vật liệu một cách thích hợp trong quá trình sản xuất để nâng cao hiệu quả sản xuất kinh doanh.
Luận văn này được hồn thành tại Viện Tốn học, Viện Khoa Học Cơng Nghệ Việt Nam dưới sự hướng dẫn của Tiến sỹ Hồ Đăng Phúc. Tơi xin được bày tỏ lịng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt tình của thầy.
Tơi xin chân thành cảm ơn các thầy trong Ban lãnh đạo Viện Tốn học, các thầy, cơ tham gia giảng dạy lớp cao học khĩa 15, cùng các thầy cơ ở Trung tâm đào tạo sau đại học của Viện Tốn học đã giúp đỡ tơi trong suốt thời gian học tập. Tơi cũng xin giửi lời cảm ơn tới các anh chị em cao học khĩa 15, nhĩm Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã nhiệt tình đĩng gĩp ý kiến, động viên, giúp đỡ tơi trong suốt quá trình học tập và hồn thành luận văn.
Đặc biệt, tơi xin giửi lời cảm ơn sâu sắc tới Lãnh đạo Tổng cơng ty giấy Việt Nam, lãnh đạo và các anh em trong nhà máy giấy đã nhiệt tình và nghiêm túc cung cấp những dữ liệu chính xác quý báu, mà nếu thiếu nguồn số liệu này thì nghiên cứu của tơi khơng thể thực hiện được.
Tuy đã cĩ nhiều cố gắng nhưng bản luận văn này cũng khơng tránh khỏi những thiếu sĩt, tác giả rất mong cĩ được sự tham gia đĩng gĩp ý kiến của các thầy cơ giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và các độc giả quan tâm đến bản luận văn này.
Hà Nội, ngày 25 tháng 08 năm 2009
Lã Phan Trúc Quỳnh
Chương 1
MỤC TIÊU NGHIÊN CỨU
Quá trình sản xuất bao gồm hai cơng đoạn chính là cơng đoạn sản xuất bột giấy và cơng đoạn sản xuất giấy. Trước tiên ta sẽ đề cập đến cơng đoạn sản xuất bột giấy với chức năng gia cơng các loại nguyên liệu thơ (gỗ, tre nứa, v.v.) thành bột giấy, làm nguyên liệu đầu vào cho cơng đoạn sản xuất giấy tiếp sau đĩ.
1. Quy trình sản xuất bột giấy
Quy trình sản xuất bột giấy được tĩm tắt thành sơ đồ khối trong Hình 1.1.
Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy
Nồi nấu
Bể hịa lỗng dịch đen
Tháp phĩng
Bể chứa dịch trắng
lọc dịch trắng
Rửa bùn vơi
Rửa bột
Chưng bốc dịch đen
Bể chứa dịch đen đặc
Lọc bùn vơi
Lị vơi
Bể xút hĩa
Lọc dịch xanh
Bể chứa dịch xanh
Rửa cặn
Tơi vơi
Bể hịa tan dịch nĩng chảy
Bể dịch yếu
Nồi hơi thu hồi
nĩng chảy
cặn
dịch xanh
dịch yếu
nước
Cặn
nước
Bể chứa dịch yếu
Bùn vơi
dịch trắng
Bột
Vơi
dịch đen
Mảnh
Dăm mảnh (gỗ) sau khi được xử lý một cách thích hợp sẽ được chuyển đến nồi nấu. Ở đây, dăm mảnh sẽ được gia cơng nhiệt, thẩm thấu dịch bằng nhiệt độ. Bột được nấu chín được chuyển sang tháp phĩng bột, từ tháp phĩng bột bột được chuyển sang khu vực rửa bột. Bột sau khi được rửa sẽ chuyển sang khu vực sản xuất giấy.
Hình 1.2 Sơ đồ cơng nghệ hệ thống chuẩn bị bột
Bể chứa bột hỗn
hợp tẩy trắng MC
Bể chứa bột
Cơ đặc
Nghiền đĩa
DD
Bể chứa bột
Máy làm
sạch HD
Bể chứa bột
đã nghiền
Bể
phối trộn
Đánh tơi, nghiền
(kiểu vít ép)
Phụ gia
Bể bột
giấy rách
thu hồi
hệ thống tiếp cận
Tồn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen lỗng. Dịch đen sẽ được chuyển đến các tháp chưng bốc để cơ đặc đến nồng độ thích hợp. Sau khi được cơ đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyển đến nồi hơi thu hồi. Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nĩng chảy và tạo ra hơi. Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụng tiếp.
Dịch nĩng chảy sẽ được hịa tan và chuyển thành dịch xanh. Dịch xanh sau khi được lọc sẽ được chuyển vào bể chứa dịch xanh. Bước tiếp theo, cho dịch xanh vào tơi cùng với vơi ta thu được dịch trắng. Chuyển dịch trắng sang bể xút hĩa, tiếp theo dịch trắng sẽ được lọc cặn để thu được dịch trắng sạch. Dịch trắng sạch lại dùng vào để nấu bột thay cho dịch nấu.
Hình 1.3 Sơ đồ hệ thống tiếp cận và máy xeo
Bể bột trước xeo
Bộ tráng phấn
Tháp điều tiết bột
Cuộn giấy F 3000
Phần sấy
trước tráng
Cán 3 lơ
Máy làm sạch cấp 1
Bể bột + bơm quạt
Sàng áp lực cấp 1
Máy làm sạch cấp 2
Máy làm sạch cấp 3
Máy làm sạch cấp 4
Sàng áp lực cấp 2
Phần sấy
sau tráng
Hịm phun bột
Bộ phận lưới
Bộ phận ép
Dịch tráng
Hồn thành
MÁY XEO
Dịch trắng sau khi được lọc sẽ thải ra cặn (bùn vơi). Bùn vơi được mang đi rửa rồi lọc, tiếp theo sẽ được chuyển vào lị vơi để tơi thành đá vơi và lại mang đi tơi cùng dịch xanh.
Cơng nghệ giấy ở đây là một vịng tuần hồn khép kín, lượng thải ra mơi trường khơng đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các cơng đoạn thu hồi dịch.
2. Quy trình sản xuất giấy
Quá trình sản xuất giấy, sử dụng bột giấy cĩ được từ cơng đoạn trên đây (hoặc được mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, được tiến hành thơng qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệ thống tiếp cận và máy xeo. Các giai đoạn này được tĩm tắt thành sơ đồ khối trong các Hình 1.2 và 1.3.
Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để được nghiền. Bột giấy sau khi được nghiền sẽ cĩ các thơng số về đặc tính thích hợp với loại bột định sản xuất như độ thốt nước, kích thước sơ sợi, ... Lúc đĩ, bột giấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo.
Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp. Sau khi làm sạch, bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợp cách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thành phẩm được chuyển sang khu vực hồn thành để gia cơng thành các sản phẩm bán ra thị trường.
3. Mục đích nghiên cứu
Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệu đưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào cĩ tác động ảnh hưởng chính đến quá trình sản xuất, từ đĩ cĩ ảnh hưởng đến doanh thu trong hoạt động sản xuất kinh doanh của Tổng cơng ty. Qua việc phân tích xử lý số liệu, xem xét trong quá trình sản xuất của Tổng cơng ty cĩ yếu tố nào là bất hợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sử dụng định mức tiết kiệm nguyên vật liệu, giúp Tổng cơng ty xây dựng các phương án điều hành hợp lý, cĩ thể hạ giá thành sản xuất, hạ giá thành sản phẩm và làm cho hoạt động kinh doanh của Tổng cơng ty cĩ hiệu quả hơn.
4. Mơ tả số liệu
Nghiên cứu thực hiện trên bộ số liệu được thu thập tại nhà máy giấy Bãi Bằng. Số liệu được lấy từ nhà máy Giấy của Tổng cơng ty. Số liệu trên được tổ chức thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng cơng ty trong ba năm 2006, 2007 và 2008. Mỗi tuần Tổng cơng ty sản xuất một lơ bột giấy và một lơ giấy cĩ thơng số kỹ thuật khác nhau là bột giấy trắng cao, bột giấy trắng thấp, giấy trắng cao và giấy trắng thấp.
Bảng 1.1. Danh sách các biến sử dụng trong quá trình phân tích
Quá trình sản xuất bột giấy
Qúa trình sản xuất giấy
Tên biến
Mơ tả biến
Tên biến
Mơ tả biến
NlieuthoTB
Nguyên liệu thơ trung bình
botgiaytb
Khối lượng bột giấy trung bình (TB)
TreTB
Khối lượng tre trung bình
botgiaytsxtb
Khối lượng bột giấy tự sản xuất TB
BodeTB
Khối lượng bồ đề TB
botngoaitb
Khối lượng bột giấy ngoại TB
BdanTB
Khối lượng bạch đàn TB
keoakdtb
Khối lượng keo akd trung bình
VoiTB
Khối lượng vơi trung bình
betonittb
Khối lượng betonit trung bình
CloTB
Khối lượng Clo trung bình
botdatb
Khối lượng bột đá trung bình
H2O2TB
Khối lượng H2O2 TB
tinhbottb
Khối lượng tinh bột trung bình
Na2SO4TB
Khối lượng Na2SO4 TB
botbemattb
Khối lượng bột bề mặt trung bình
OxyTB
Khối lượng Oxy trung bình
chatbaoluutb
Khối lượng chất bảo lưu trung bình
CphabotTB
Lượng chất phá bọt TB
keopvatb
Khối lượng Oxy trung bình
CPTNhuatTB
Lượng chất phân tán nhựa trung bình
phammautb
Khối lượng phẩm màu trung bình
CDCanTB
Lượng chất đĩng cặn TB
tangtrangtb
Khối lượng chất tăng độ trắng TB
DienTB
Khối lượng điện trung bình
luoitrongtb
Số lưới trong trung bình
HoiTB
Khối lượng hơi trung bình
luoingoaitb
Số lưới ngồi trung bình
NuocTB
Khối lượng nước TB
luoidaitb
Số lưới dài trung bình
XuTCTB
Khối lượng xút trung bình
chaf1tb
Số chăn F1 trung bình
chaf2tb
Số chăn F2 trung bình
chaf3tb
Số chăn F3 trung bình
dientb
Khối lượng điện trung bình
hoitb
Khối lượng hơi trung bình
nuoctb
Khối lượng nước trung bình
Trong các năm Tổng cơng ty đều cĩ thời gian ngừng sản xuất để sửa chữa bảo dưỡng máy mĩc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứng với 42 lơ bột giấy và 42 lơ giấy. Năm 2007 Tổng cơng ty sản xuất trong 47 tuần ứng với 47 lơ bột giấy và 47 lơ giấy. Đối với năm 2008 số lơ bột giấy và số lơ giấy đã sản xuất được đều là 48 lơ. Khối lượng sản phẩm của từng lơ bột giấy hay từng lơ giấy cũng khơng giống nhau. Sau khi thu thập số liệu, để tiến hành nghiên cứu phân tích số liệu đã cĩ, chúng ta lấy số nguyên liệu đưa vào trong sản xuất từng lơ bột giấy hay lơ giấy chia cho sản lượng từng tuần để được số nguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng. Các biến được sử dụng trong phân tích quá trình sản xuất 1 tấn bột giấy hoặc 1 tấn giấy được cho trong Bảng 1.1.
5. Phương pháp phân tích
Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xem trong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra những yếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất.
Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy cĩ thơng số kỹ thuật khác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và tách riêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bình của các nguyên liệu đầu vào xem cĩ gì khác nhau hay khơng, từ đĩ tìm ra các yếu tố chưa hợp lý trong quá trình sản xuất của Tổng cơng ty.
Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nĩi trên, chúng ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảo chất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đĩ cĩ thể giúp Tổng cơng ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạt động kinh doanh của Tổng cơng ty cĩ hiệu quả hơn.
Trong tính tốn để đưa ra định mức kiến nghị đối với các chất phụ gia, khoảng tin cậy 95% của giá trị trung bình của từng chất phụ gia được dùng để xác định mức tối đa của từng chất phụ gia dùng sản xuất 1 tấn bột giấy hay 1 tấn giấy.
CHƯƠNG 2
CƠ SỞ LÝ THUYẾT CỦA CÁC PHƯƠNG PHÁP
PHÂN TÍCH THỐNG KÊ
I. Phương pháp phân tích thành phần chính
1. Giới thiệu bài tốn phân tích thành phần chính
Khi nghiên cứu tổng thể bao gồm các cá thể mang nhiều đặc trưng khác nhau, người ta cĩ thể áp dụng hai cách tiếp cận gọi là phân tích dọc và phân tích ngang. Phân tích dọc cĩ mục đích chỉ ra các đặc tính hay dấu hiệu khác nhau tồn tại trong tổng thể cĩ quan hệ với nhau như thế nào, trong khi phân tích ngang lại nghiên cứu cá thểvới những dấu hiệu nĩi trên trong các mối quan hệ xét theo từng cặp hay trong những nhĩm cá thể. Hãy xét một thí dụ sau: Các doanh nghiệp vừa và nhỏ ở thành phố A thường được xem xét như những cá thể của một tổng thể. Để mơ tả một doanh nghiệp người ta dùng 4 chỉ tiêu
- Giá trị tài sản cố định,
- Lượng lao động thường xuyên được sử dụng,
- Tỷ lệ lợi nhuận thơ,
- Lương tháng bình quân của người lao động.
Rõ ràng là hệ thống các chỉ tiêu này cĩ thể dùng so sánh các doanh nghiệp và nĩ cĩ thể cho biết các quan hệ giữa chính các chỉ tiêu này trong phạm vi đang xét, chẳng hạn lượng lao động và giá trị tài sản cố định quan hệ chặt chẽ với nhau và cùng chiều nhưng cĩ thể giá trị tài sản cố định và lương bình quân quan hệ cũng rất chặt chẽ nhưng lại ngược chiều. Điều đĩ cĩ thể đúng với các doanh nghiệp vừa và nhỏ ở thành phố A mà khơng đúng với các doanh nghiệp vừa và nhỏ ở thành phố B.
Về phía các doanh nghiệp, với những chỉ báo cụ thể nĩ trên người ta cĩ thể và rất muốn định vị các doanh nghiệp vừa và nhỏ thành phố A từ đĩ thấy được sự khác biệt của mỗi doanh nghiệp so với doanh nghiệp khác.
Để làm được các phân tích trên người ta cĩ thể cĩ thể dùng các phương pháp phân tích tương quan nhiều chiều, tuy nhiên điều đĩ hầu như khơng giải quyết được bằng các cơng cụ thơng thường. Việc giải quyết bài tốn trên dựa trên tư tưởng cơ bản sau đây:
Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay vơ hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể. Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ đĩ là giá trị của một biến.
Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đơi một trực giao. Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lường các cá thể trên một mặt nào đĩ. Với số tổ hợp xác định trước, chúng ta thu được một hệ thống chỉ báo (nĩi chung khơng cĩ thực). Trong hệ thống này, mỗi chỉ tiêu ban đầu, cũng là mỗi biến ban đầu, cĩ phần đĩng gĩp của mình tạo nên các chỉ báo đĩ.
Chẳng hạn với p tiêu thức (biến) ban đầu ta lập
Yk = uk1 X1 + uk2X2 + ..... + ukpXp.
Mỗi bộ số (véc tơ) uk xác định một biến yk và tương ứng với Yk ta cĩ các giá trị tương ứng của các cá thể.
Mỗi cá thể cĩ thể được biểu diễn bởi một véc tơ mới mà mỗi thành phần của véc tơ này là hệ số phân tích qua một biến mới (gọi là một thành phần chính). Nhờ đĩ, ta cĩ thể mơ tả được quan hệ giữa các cá thể đĩ.
Thí dụ. Trong thí dụ này các thành phần chính sẽ khơng hình thành theo một tiêu chuẩn khách quan mà hình thành theo ý tưởng chủ quan của người thiết kế. Trong Bảng 1.a là số liệu của 13 nước với các chỉ tiêu: P là tổng số dân (1000 người), F là mật độ dân số (người/km2) và U là tỉ lệ dân thành thị.
Bảng 1.a. Số dân, mật độ dân số và tỷ lệ dân thành thị
P
E
U
Afghanistan
20500
25.0
18
Argentina
33900
12.0
86
Armenia
3700
126.0
68
Australia
17800
2.3
85
Austria
8000
94.0
58
Azerbaijan
7400
86.0
54
Bahrain
600
828.0
83
Bangladesh
125000
800.0
16
Barbados
256
605.0
45
Belarus
10300
50.0
65
Belgium
10100
329.0
96
Bolivia
7900
6.9
51
Giả sử cĩ hai tiêu chuẩn nhân khẩu học được áp dụng để phân tích các tiêu thức cũng như các quốc gia này. Các trọng số để xây dựng hai tiêu chuẩn đĩ được ấn định như trong Bảng 1.b.
Bảng 1.b. Trọng số xác định các tiêu thức nhân khẩu học mới
P
F
U
Quan điểm 1
-0,15
0,05
0,25
Quan điểm 2
-0,2
-0,1
0,40
Các trọng số này khơng xuất phát từ chính số liệu mà xuất phát từ quan niệm chủ quan (sau này ta sẽ mơ tả cách xác định chúng một cách khách quan theo những chuẩn mực nhất định)
Mỗi quốc gia được mơ tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với
S(1) = - 0,15P + 0,05F + 0,25U
S(2) = - 0,20P - 0,10F + 0,40U
Trong khơng gian hai chiều (S1, S2) ta cĩ thể mơ tả các biến. Mỗi biến tương ứng là 1 véc tơ n chiều: P, F, U. Để đánh giá mối quan hệ giữa các tiêu chuẩn mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1, rPS2); (rFS1, rFS2) ; (rUS1, rUS2). Mỗi cặp hệ số này xác định 1 điểm trong siêu phẳng tạo bởi S1 và S2. Với thí dụ này ta cĩ vị trí của các biến P, F, U như trong Hình 1.a.
Bảng 1.c. Số liệu nhân khẩu học theo các tiêu thức ban đầu và tiêu thức mới
P
E
U
S1
S2
Afghanistan
20500
25.0
18
-3069.25
-4095.3
Argentina
33900
12.0
86
-5062.9
-6746.8
Armenia
3700
126.0
68
-531.7
-725.4
Australia
17800
2.3
85
-2646.64
-3526.23
Austria
8000
94.0
58
-1180.8
-1586.2
Azerbaijan
7400
86.0
54
-1092.2
-1467
Bahrain
600
828.0
83
-27.85
-169.6
Bangladesh
125000
800.0
16
-18706
-25073.6
Barbados
256
605.0
45
3.1
-93.7
Belarus
10300
50.0
65
-1526.25
-2039
Belgium
10100
329.0
96
-1474.55
-2014.5
Bolivia
7900
6.9
51
-1171.91
-1560.29
Nếu dùng SPSS để thành lập các tiêu thức mới thay cho các thành lập mang tính chủ quan trên đây, ta sẽ cĩ biểu diễn của các tiêu thức ban đầu trên mặt phẳng của hai tiêu thức mới trong Hình 1.b.
Với kết quả này ta giải thích ý nghĩa các véc tơ S1, S2 dễ dàng hơn. Vì U nằm sát trục S1, cịn F nằm gần trục S2, nên cĩ thể xem S1 là tỉ lệ dân cư thành thị và S2 là mật độ dân số. Ở phần sau, khi đã được cung cấp đầy đủ hơn về cơ sở lý thuyết, chúng ta sẽ nĩi rõ thêm về cách phân tích đối với các thành phần chính.
Hình 1.a. Các biến ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới
Hình 1.b. Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra
Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố. Phân tích nhân tố nĩi chung và phân tích thành phần chính nĩi riêng, được sử dụng cho phân tích những số liệu lớn. Về mặt cơng cụ, đối với kỹ thuật này người ta cần sử dụng các phép biến đổi trong khơng gian tuyến tính. Đặc biệt, các kỹ thuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác định dương sẽ là cơng cụ yếu tố khơng thể thiếu trong việc xác định các thành phần chính, các nhân tố chính cũng như các thành phần khác trong phương pháp này. Cũng chính vì lý do này, người ta chỉ cĩ thể thực hiện các mơ hình phân tích nhân tố cho các bộ số liệu cỡ lớn khi cĩ sự hỗ trợ của các phần mềm thống kê chuyên dụng.
2. Bài tốn phân tích nhân tố trong khơng gian 2 và 3 chiều
Hãy xem xét trường hợp cĩ hai biến X và Y được quan sát trên n cá thể. Phương pháp thống kê tốn học cung cấp lý thuyết phân tích tương quan để xem xét mối quan hệ của hai biến ngẫu nhiên. Mỗi cá thể Ai cĩ thể mơ tả bởi một điểm trong R2 nhờ các tọa độ (xi, yi) như trong các biểu đồ ở Hình 2.a.
Hình 2.a bên trái cho thấy sự khác nhau giữa hai đối tượng A1 và A2 cĩ thể đặc trưng bằng khoảng cách d(A1,A2) giữa hai điểm A1 và A2 trên đồ thị. Tuy nhiên khi chiếu vuơng gĩc lên trục x (khơng quan tâm đến y) thì khoảng cách này gần hơn khi chiếu vuơng gĩc lên trục y và cả hai khoảng cách sau phép chiếu đề nhỏ hơn d(A1,A2), nĩi chính xác hơn là d2(A1A2) = d2(x1,x2) + d2 (y1, y2). Nĩi một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác biệt giữa hai đối tượng A1 và A2 thì một phần thơng tin đã bị mất đi. Nếu khơng muốn mất thơng tin thì tốt nhất là chọn một đường thẳng song song với đường thẳng đi qua A1, A2. Khi chiếu vuơng gĩc hai điểm này lên đường thẳng như vậy khoảng cách ảnh bằng khoảng cách ban đầu.
Hình 2.a. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Hình 2.a bên phải cũng cho kết luận tương tự, nhưng cĩ thể chứng tỏ rằng theo các toạ độ ban đầu khi trục Ox khơng vuơng gĩc với trục Oy thì
d2(A1A2)=d2(x1,x2)+d2(y1,y2)=d2(u1,u2)+d2(w1,w2) - 2 d2(u1,u2)(w1,w2)cosin(xOy)
Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A1 và A2, cần phải chọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng cách ban đầu. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo tồn tối đa sự khác biệt của các cá thể khi xét trên cả p tiêu thức.
Để cĩ thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợp các cá thể trong khơng gian ba chiều R3. Giả sử mỗi cá thể được đặc trưng bởi 3 tiêu thức X1, X2, X3 và xét hai cá thể Ai, Aj được mơ tả bởi hai điểm trong R3. Gọi D1 và D2 là hai đường thẳng trực giao tạo nên mặt phẳng (F), hãy xem xét phép chiếu trong Hình 2.b.
Hình 2.b. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng
Khoảng cách của ảnh Ai, Aj sau phép chiếu là khoảng cách d2(fi, fj). Khoảng cách này cĩ thể xác định như sau:
d2(fi, fj) = d2(c1i,c1j) + d2(c2i, c2j) <= d2 (Ai, Aj)
Như vậy nếu chọn một trục để chiếu ta sẽ chọn trục nào cĩ khoảng cách hai tọa độ chiếu lớn hơn. Tổng quát, đối với trường hợp cĩ n điểm, ta cần chọn các trục D1, D2 sao cho trung bình của tổng bình phương các khoảng cách giữa các điểm fi ảnh của Ai là lớn nhất.
3. Bài tốn trong khơng gian p chiều
Xét bài tốn trong trường hợp mỗi cá thể cĩ thể xem xét qua p chỉ tiêu. Một hệ trục tọa độ của khơng gian p chiều gồm các trục: D1, D2,… Dp đơi một trực giao cĩ thể được hình thành nhờ việc chọn lần lượt các trục D1, D2 .... theo thứ tự giảm dần của tổng bình phương các khoảng cách của các hình chiếu. Việc lựa chọn số chiều khơng gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức phân tán trong các mối quan hệ của p tiêu thức ban đầu, yêu cầu về bảo tồn thơng tin, ...
Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta cĩ thể cố gắng bảo tồn thơng tin ở mức chấp nhận được với số chiều khơng gian nhỏ nhất. Người ta luơn hướng tới tới khơng gian 2 chiều hay 3 chiều, vì trong các khơng gian này việc mơ tả hình học khá thuận tiện đối với người sử dụng.
Trong phân tích nhân tố người ta sử dụng các khái niệm sau:
+ Mỗi véc tơ Di gọi là một trục chính của đám mây số liệu ban đầu.
+ Mỗi điểm Ai chiếu lên p trục chính sẽ cĩ p giá trị tương ứng, các giá trị này lập nên véc tơ Ci trong khơng gian p chiều.
+ Với n cá thể (n điểm) Ai, Aj, .....An, ta cĩ ma trận C = (cij). Mỗi cột của ma trận này là một véc tơ trong Rn , được gọi là một thành phần chính.
+ Mỗi thành phần chính Ck cĩ thể biểu diễn qua các cột tương ứng với các tiêu thức ban đầu (Xi) dưới dạng: Ck = uk1X1 + ...... + ukpXp
Véc tơ các hệ số tổ hợp nối trên (Uk) được gọi là nhân tố chính thứ k.
Trường hợp bản thân các tiêu thức ban đầu hồn tồn độc lập, phân tích này cũng cho phép lựa chọn một khơng gian cĩ số chiều ít hơn mà qua đĩ việc mơ tả mối liên hệ của các cá thể bị sai lệch ít nhất. Trong trường hợp các tiêu thức ban đầu khơng độc lập, ta cĩ kết quả tốt hơn rất nhiều, đĩ là tìm được cách diễn đạt mỗi cá thể qua các tiêu thức hồn tồn độc lập với nhau.
Tuy nhiên, khĩ khăn ở đây chính là ban đầu mỗi cá thể được thể hiện qua p tiêu thức quan sát được, nhưng kết quả mỗi cá thể thể hiện qua q tiêu thức khơng quan sát được. Việc xác định ý nghĩa kinh tế, xã hội của các tiêu thức này luơn khĩ khăn đối với người thực hành
Ngồi phương pháp phân tích thành phần chính, một sơ phương pháp khác như phân tích tương ứng, phân tích tương quan chính tắc, phân nhĩm, ... cũng được xây dựng trên ý tương cơ bản đã trình bày trên đây.
4. Biểu diễn số liệu
Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiều chiều nĩi chung và trong phân tích nhân tố nĩi riêng. Thơng thường việc biểu diễn các số liệu nhiều chiều được trình bầy dưới ngơn ngữ véc tơ và ma trận trong các khơng gian tuyến tính thực.
a. Số liệu và các đặc trưng
i - Bảng số liệu
Giả sử cĩ n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát cĩ p tiêu thức (biến). Số liệu đĩ cĩ thể trình bầy trong bảng sau:
Gọi X*i là dịng thứ i của x với các phần tử xi1, xi2 .... xip. Đĩ là véc tơ các giá trị của các biến quan sát được ở cá thể thứ i . Một dịng của X cịn cĩ thể gọi một cách ngắn gọn là một cá thể.
- Xj là là cột thứ j của X nĩ bao gồm các giá trị của một biến tại tất cả các cá thể. Một cột của X cĩ thể gọi là một biến hay một tiêu thức.
Như vậy, mỗi cá thể biểu hiện bằng một véc tơ dịng p chiều, mỗi tiêu thức thể hiện qua n cá thể bởi một véc tơ cột n chiều.
ii – Ma trận trọng số
Nếu như mỗi dịng của X tương ứng duy nhất 1 cá thể thì trọng số của các cá thể như nhau và cĩ thể lấy bằng 1/n. Tuy nhiên, thực tế cĩ thể một dịng của X ứng với một số cá thể nào đĩ, như vậy để thể hiện đúng vai trị của đám đơng trong phân tích thống kê ta cĩ thể đặt cho mỗi dịng (mỗi cá thể đại diện) một trọng số pi. Các trọng số như vậy cĩ thể mơ tả bởi một ma trận gọi là ma trận trọng số như sau:
Các trọng số này thơng thường là các tần suất dịng trong bảng số liệu thơ. Mỗi dịng chỉ mang thơng tin của một cá thể thì cĩ thể viết D = E trong đĩ E là ma trận đơn vị cấp n.
iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm
Mỗi dịng của X cĩ thể xem là một điểm trong khơng gian Rp, n điểm tạo nên một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm trung tâm của đám mây này là g thì g cĩ thể tính như sau:
g = XTDI,
trong đĩ I là véc tơ cĩ tất cả các thành phần bằng 1 trong khơng gian Rn. Dễ dàng kiểm tra thấy g là một véc tơ p chiều. Chẳng hạn cho ma trận X ở Bảng 2.a với các biến
X1 = tuổi thọ trung bình
X2 = tỷ lệ tăng dân số
X3 = tỷ lệ chết trẻ em
X4 = GDP/đầu dân cư
Bảng 2.a. Số liệu nhân khẩu học theo các tiêu thức ban đầu
i
X1
X2
X3
X4
44
2.8
168.0
205
75
1.3
25.6
3408
75
1.4
27.0
5000
80
1.4
7.3
16848
79
2
6.7
18396
75
1.4
35.0
3000
74
2.4
25.0
7875
53
2.4
106.0
202
78
2
20.3
6950
76
3
19.0
6500
Tỉng
709
13.8
439.9
68384
Giả sử các số liệu này thống kê ở 10 nước khác nhau. Ta chọn các trọng số đều là 0,1. Véc tơ trung tâm của đám mây số liệu cĩ các thành phần là trung bình của các thành phần trung bình của các quan sát. Véc tơ chuyển vị của véc tơ trung tâm là
gT = (70.9, 1.38, 43.99, 6838.4)
Việc quy tâm hĩa đám mây số liệu thực hiện bằng cách lập các véctơ chênh lệch của các cá thể với véc tơ g qua việc lập ma trận
Y = X - IgT (gT là chuyển vị của g)
Trong thí dụ trên tích IgT là một ma trận cĩ n dịng (n = 10) như sau:
Từ đĩ, thực hiện phép trừ ma trận Y
Y =
Ma trận này mơ tả thơ sự khác biệt hay sự phân tán của các cá thể so với mức trung bình.
iv – Ma trận hiệp phương sai và ma trận hệ số tương quan
Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt giữa các đối tượng. Một cách thơng thường nếu Y chỉ cĩ hai dịng thi khoảng cách của hai véc tơ này (được định nghĩa theo một cách nào đĩ) sẽ cho một độ đo về sự khác biệt. Trong trường hợp tổng quát hồn tồn cĩ thể làm tương tự như vậy, chỉ cĩ khác là chúng ta khơng thể dùng một số thực để đo sự khác biệt giữa nhiều cá thể mà phải dùng một ma trận. Dễ dàng thấy việc đo sự khác biệt giữa các dịng của ma trận Y hồn tồn tương đương với việc tìm cách đo sự khác biệt của các dịng của X. Sau đây trở lại với chính ma trận X và thấy rõ hơn vai trị của Y.
Đặc trưng quan trọng nĩi lên mức phân tán của mỗi biến và độ liên hệ giữa chúng là ma trận hệ số tương quan và ma trận hiệp phương sai. Các ma trận này cĩ thể tính như sau:
+ Ma trận hiệp phương sai
Với các trọng số 1/n ta cĩ thể tính ma trận hiệp phương sai V theo cơng thức
V = XT D X - ggT
Một cách tổng quát, các phần tử của V = XT D X - ggT được tính qua biểu thức
,
véc tơ trung tâm g cũng được tính theo trọng số như sau:
.
Với ví dụ trong Bảng 2a ta cĩ ma trận hiệp sai V là
V=
Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trân này dễ dàng tìm được các phương sai của các biến (các cột của X). Cĩ thể chứng tỏ rằng:
V = XT D X- ggT = YT D X,
+ Ma trận hệ số tương quan
Gọi ma trận D1/S là ma trận đường chéo với các thành phần là 1/Se(Xj)=1/sj)
D1/s =
Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trận này dễ dàng tìm được các phương sai của các biến (các cột của X). Cĩ thể chứng tỏ rằng:
V = XT D X- ggT = YT D X,
Chuẩn hĩa ma trận X ta cĩ ma trận Z = (zij), trong đĩ
cĩ thể nhận được ma trận này nhờ cơng thức:
Z = YD1/s
Nhờ các cơng thức trên ta cĩ ma trận chuẩn hĩa của ma trận X ở thí dụ trên là
Z =
Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau:
R = D1/s VD1/s = ZTDZ
Và ma trận hệ số tương quan nhận được là
R =
Chú ý Z cĩ véc tơ trung tâm là véc tơ 0, nên R cũng chính là ma trận hiệp phương sai của Z.
5. Khơng gian các cá thể
Các cá thể của tổng thể được mơ tả bằng véc tơ với các thành phần là các giá trị của p biến như đã nêu ở trên. Ta sẽ coi mỗi cá thể như vậy là một điểm trong khơng gian FP (với số chiều bằng p) Tập hợp một số các cá thể tạo nên một đám mây trong F với g là điểm trung tâm của đám mây này.
Để cĩ thể phân tích thống kê đối với các đám mây trong F ta thống nhất một số khái niệm làm cơ sở phân tích sau này.
a- Khoảng cách
Khoảng cách trong khơng gian tuyến tính thơng thường được sử dụng là khoảng cách Ơcolit. Thơng thường người ta định nghĩa khoảng cách giữa 2 điểm X1 và X2 theo cơng thức Pithagorre như sau:
d2 = (x11 – x21)2 + (x12 – x22)2 + ..... + (x1j – x2j)2 + ....... + (x1p – x2p)2
Tuy nhiên nếu như mỗi cột của X cĩ một trọng số aj > 0 thì khoảng cách trên cĩ thể được tính bằng cách thêm các nhân tử tương ứng, tức là
d2 = a1(x11 – x21)2 + a2(x12 – x22)2 + ... + ai(x1j – x2j)2 + ... + ap(x1p – x2p)2,
hay
d2 = (X1 – X2)T (X1 – X2) .
b- Khoảng cách M (metric M)
Một cách tổng quát cĩ thể chọn một ma trận đường chéo dương M và khoảng cách hai điểm trong khơng gian được xác định theo cơ._.ng thức sau:
d2 = (Xi – Xj)T M (Xi – Xj),
trong đĩ M là một ma trận đường chéo dương cấp p.
Trong trường hợp này tích vơ hướng của hai véc tơ cũng xác định tương tự,
= XiTMXj
Chuẩn của một véc tơ được tính theo cơng thức
Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M thường xác định qua ma trận hiệp phương sai. Để cĩ một độ đo khoảng cách theo nghĩa mức tương ứng, trong phân tích thành phần chính ta cĩ thể sử dụng ma trận M cĩ đường chéo là nghịch đảo của các phương sai của các biến. Điều đĩ tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nĩ. Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau khơng cịn nữa. Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ số tương quan của các biến ban đầu. Với cách tính này ta cĩ
Chú ý rằng ma trận M được xác định như trên là một ma trận xác định dương nên nĩ luơn tồn tại biểu diễn M = TTT là ma trận vuơng cấp p. Từ đĩ ta sẽ cĩ tích vơ hướng được tính bằng
= XiTMXj = XiTTTTXj = (TXj)T (TXi)
Biểu thức này cho thấy mối liên hệ giữa các độ đo trong khơng gian nhiều. Với độ đo M bất kỳ nhờ phép biến đổi trên ta cĩ thể quy về độ đo M = E, đây chính là độ đo Ơcơlit thơng thường.
c- Quán tính
Người ta gọi tổng quán tính của đám mây với tâm của nĩ là tổng các khoảng cách (đo bằng metric – M) từ các điểm đến tâm của đám mây đĩ. Đại lượng này được tính như sau:
Nếu ta chọn một điểm a nào đĩ thay cho g ta sẽ tính được Ia theo cơng thức trên. Theo cơng thức Huyghens ta cĩ
,
trong đĩ là chuẩn của véc tơ (g-a) theo metric M. Ngồi ra khi g = 0 ta cĩ
.
Người ta cịn chứng minh được rằng
,
tức là 2 lần tổng quán tính bằng trung bình bình phương của các khoảng cách giữa các cá thể.
Theo cơng thức xác định ma trận hiệp phương sai, ta cĩ thể tính tổng quán tính Ig qua ma trận V và m như sau:
Ig = TraceMV = TraceVM,
trong đĩ TraceA (vết của A) là tổng các phần tử trên đường chéo của A. Như vậy,
- Nếu M=E (E là ma trận đơn vị) thì tổng quán tính chính là tổng phương sai của các biến.
- Nếu M = D1/S2 thì tổng này sẽ là tổng các phần tử trên đường chéo ma trận R hay tổng quán tính bằng p (số biến số), mà khơng phụ thuộc vào các giá trị của các biến số đĩ.
Trở lại thí dụ trên nếu ta chọn khoảng cách Ơcolit cho khơng gian các cá thể thì tổng quán tính của đám mây số liệu nĩi trên là tổng các phần tử trên đường chéo của V, tính được như sau:
Ig = 132.89 + 0.8056 + 2421.4429 + 35289619.24 = 35292174.3175
Cịn nếu ta chọn M = D1/S2 thì Ig = 4. Như vậy quán tính của một đám mây số liệu khơng xác định một cách duy nhất, mà phụ thuộc vào metric được dùng để đo khoảng cách giữa các điểm của đám mây. Hệ quả của điều đĩ là các kết quả phân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và ma trận hệ số tương quan để xác định hai metric khác nhau trong khơng gian các quan sát.
6. Tạo biến và phép chiếu trong khơng gian tuyến tính
a- Tạo biến mới
Trong khơng gian tuyến tính mỗi véc tơ n chiều là một tập hợp cĩ thứ tự các hệ số phân tích của chính véc tơ đĩ theo một hệ cơ sở đơn vị. Tuy nhiên khơng gian n chiều cĩ vơ số các hệ cơ sở (mỗi hệ n véc tơ độc lập tuyến tính là một cơ sở). Như vậy một véc tơ Xj khác khơng bất kỳ cĩ thể trở thành một véc tơ cơ sở của một cơ sở nào đĩ. Mặt khác cho trước một hệ p véc tơ của Rn ta luơn cĩ thể tạo ra các véc tơ khác nhờ tổ hợp tuyến tính từ hệ này. Trong phân tích thống kê thì mỗi cách tổ hợp như vậy tạo nên một thống kê từ một mẫu cĩ kích thước p. Thực chất của một thống kê là một cách tổng hợp thơng tin, theo đĩ người ta cĩ được những hiểu biết về tổng thể mà mỗi cá thể khơng thể hiện được.
Trở lại với khơng gian cá thể F đã nĩi ở trên, ta cĩ thể tạo nên những véc tơ mới từ n véc tơ đã cĩ nhờ các phép tổ hợp tuyến tính, mà theo đĩ các cá thể được phản ánh tập trung hơn ở một khía cạnh nào đĩ. Chẳng hạn khi xác định véc tơ g (véc tơ trung bình mẫu hay véc tơ trung tâm) ta đã cĩ một véc tơ mới mà từ đĩ cĩ thể mơ tả cá thể nhờ khoảng cách từ nĩ đến g, hay nhờ véc tơ chỉ sự khác biệt của mỗi cá thể với trung bình chung. Tuy nhiên mục đích của chúng ta, như đã nêu từ đầu, là tĩm tắt thơng tin p chiều thành thơng tin cĩ số chiều ít hơn. Phép chiếu từ Rp lên một siêu phẳng cho phép chúng ta tĩm tắt thơng tin như vậy.
Biến mới được tạo ra ở đây là một tổ hợp tuyến tính của các biến ban đầu (các cột của X), như vậy sự liên hệ của các biến ban đầu với biến được tạo mới chính là các hệ số tổ hợp (hay ngược lại là các hệ số phân tích).
b- Phép chiếu.
Với khơng gian các biến F, phép tổ hợp tuyến tính các véc tơ Xj (j = 1...p) tạo nên các véc tơ mới trong F. Với các véc tơ này các cá thể trong E Ì Rp được biểu diễn bằng các véc tơ mới trong E’ Ì Rk (E’ thường cĩ số nhiều nhỏ hơn E rất nhiều). Các véc tơ mới này chính là các hình chiếu của các véc tơ ban đầu trên hệ tọa độ mới của F.
Chẳng hạn, nếu ta lấy tổ hợp tuyến tính của các cột trong X là:
D = 0,1X1 – 0,2X2 + X3 + 0,5X4
Thì ta cĩ D là một véc tơ n chiều trong F, mỗi cá thể cĩ một giá trị theo D như sau:
Cá thể
X1
X2
X3
X4
Hình chiếu
1
44
2.8
168
205
274.34
2
75
1.3
25.6
3408
1736.84
3
75
1.4
27
5000
2534.22
4
80
1.4
7.3
16848
8439.02
5
79
0.2
6.7
18396
9212.56
6
75
1.4
35
3000
1542.22
7
74
2.4
25
7875
3969.22
8
53
2.4
1.6
202
211.82
9
78
0.2
20.3
6950
3503.06
10
76
0.3
19
6500
3276.54
HS tổ hợp
0.1
-0.2
1
0.5
Thực tế là khi xác định một véc tơ mới như D, chúng ta đã đưa ra một cách quy đổi chung cho các biến theo một cách nào đĩ, với một mục đích nào đĩ, một ánh xạ từ R4 về R1 hay trên một trục.
Hình chiếu nhận được của các cá thể như một trong các chỉ tiêu tổng hợp để phân biệt các cá thể theo quan điểm tương ứng, chúng ta cũng cĩ thể tạo ra một ánh xạ khác tương tự như trên và nhận được ảnh của các cá thể trên một trục khác.
Một điểm (một dịng của X) ứng với cá thể i: Xi* cĩ ảnh qua phép chiếu (mà sau này được xác định là phép chiếu vuơng gĩc) trên trục D là fi. Trên trục D xác định một véc tơ chỉ phương a cĩ độ dài bằng 1 (theo metric nào đĩ), lúc đĩ Xi* tương ứng với một giá trị ci là khoảng cách từ gốc x đến fi. Với n cá thể ta cĩ n giá trị c1, c2, ....., cn lập nên một véc tơ c (Da) trong F. Như vậy,
ci = aTM Xi* = Xi*TMa = M
Từ đĩ ta cĩ c = X.M.a. Đặt Ma = u, u là một véc tơ trong F, ta cĩ c = Xu. Véc tơ c là hình chiếu của X trên u.
Nếu ký hiệu
u =
ta cĩ
c = .
Như vậy c là tổ hợp tuyến tính của các cột Xj trong ma trận X (ma trận các biến).
Với phép biến đổi này ta cĩ tương ứng mỗi véc tơ đơn vị a một véc tơ hình chiếu c cĩ các tọa độ là các hình chiếu của các véc tơ dịng trong X (ứng với các cá thể) qua phép biến đổi XMa. Cĩ thể xác định tối đa p véc tơ đơn vị trong F (khơng gian p chiều) và tương ứng ta cĩ một tập các véc tơ c là các tổ hợp tuyến tính khác nhau của các cột trong X. Nhờ phép biến đổi này ta cĩ thể chiếu các cá thể trong F (n cá thể) lên một khơng gian cĩ số chiều ít hơn. Điều đĩ cho phép nhận diện rõ hơn các quan hệ giữa các cá thể này cũng như các chỉ tiêu, các biến ban đầu.
Quan hệ của véc tơ chỉ phương a và véc tơ u cĩ thể tĩm tắt bằng biểu thức sau:
a = M-1u .
Như vậy, theo metric M, bình phương độ dài của véc tơ a là aTMa, cịn bình phương độ dài của véc tơ u là uTM-1u. Cĩ thể tìm được phương sai của véc tơ c như sau:
Var(c) = cTDc = (Xu)TD(Xu) = uTXTDXu = uTVu,
trong đĩ V là ma trận hiệp phương sai của X. Đây là biểu thức hết sức quan trọng, cho phép xác định được mức độ bảo tồn độ biến động của số liệu X sau một phép chiếu lên một trục ứng với véc tơ chỉ phương a (ảnh của phép chiếu được thể hiện qua véc tơ c).
7. Phân tích thành phần chính qua phép chiếu lên khơng gian con
Nội dung cơ bản của phân tích thành phần chính là tìm cách chiếu các điểm của một đám mây n điểm trong khơng gian p chiều thành một đám mây n điểm trong khơng gian con r chiều (r < p). Phép chiếu này phải thực hiện sao cho quán tính của đám mây ảnh là lớn nhất. Như vậy, phép chiếu đảm bảo trung bình của tổng bình phương các khoảng cách của các điểm trong khơng gian con lớn nhất cĩ thể được. Với phép chiếu P mỗi véc tơ dịng của X sẽ được biến đổi thành một véc tơ trong Fr qua cơng thức
fi = P Xi* (một véc tơ cột) hay fiT = XiPT (một véc tơ dịng)
Ma trận hiệp phương sai của đám mây ảnh sẽ là
(XPT)TD(XPT = P V PT
Quán tính tổng của đám mây ảnh là
Trace(PVPTM)
Nhờ một vài biến đổi ta cĩ Trace(PVPTM) = Trace (VMP).
Vấn đề cịn lại là tìm P sao cho với r cho trước, tức là tìm khơng gian chiếu Fr, giá trị của Trace(VMP) lớn nhất. Mệnh đề sau đã được chứng minh:
Mệnh đề 1. Cho khơng gian con Fr, cĩ quán tính lớn nhất thì một khơng gian con r + 1 chiều cĩ quán tính của đám mây ảnh lớn nhất bằng tổng trực giao của khơng gian Fr và khơng gian 1 chiều, cĩ quán tính của đám mây ảnh lớn nhất.
Với mệnh đề này thuật tốn tìm khơng gian chiếu Fr sẽ bắt đầu từ khơng gian con một chiều F1 cĩ quán tính của đám mây ảnh lớn nhất.
a- Trục chính
Trong khơng gian F Ì Rp các cá thể, ta phải tìm một đường thẳng đi qua g (véc tơ trung tâm của đám mây số liệu) sao cho quán tính của đám mây ảnh (ảnh đám mây số liệu ban đầu) trên trục này lớn nhất. Giả sử a là véc tơ chỉ phương của đường thẳng nĩi trên, phép chiếu M vuơng gĩc lên đường thẳng này xác định qua
P = a (aT M a)-1aTM .
Quán tính của đám mây ảnh sẽ là
TraceVMP = Trace VM a (aT Ma)-1aTM
= .
Ma trận MVM được gọi là ma trận quán tính của đám mây, nĩ xác định một dạng tồn phương mà giá trị của nĩ, đối với tất cả các véc tơ a cĩ chuẩn (độ dài) theo độ đo M bằng 1, biểu diễn quán tính của đám mây ảnh trên trục tạo bởi véc tơ chỉ phương a. Ma trận này là ma trận hiệp phương sai nếu M = E (ma trận đơn vị).
Để tìm giá trị cực đại của quán tính nĩi trên ta cĩ thể sử dụng cơng cụ quen biết, theo đĩ, trước tiên điểm dừng phải thỏa mãn điều kiện đạo hàm bậc nhất theo a bằng khơng (mọi đạo hàm riêng bậc nhất theo các tọa độ a bằng khơng), tức là
.
Chú ý rằng aTMa là một số thực nên từ điều kiện trên ta cĩ
.
Cĩ thể thấy rằng aTMVMa là một số thực nên khi M khơng suy biến ta cĩ
Như vậy, a là véc tơ riêng của ma trận VM, cịn là một giá trị đặc trưng (hay cịn gọi là giá trị riêng) của VM. Giá trị riêng này lại chính là quán tính của đám mây ảnh trên trục chứa véc tơ chỉ phương a.
Vậy ta cần tìm a (trục thứ nhất) tương ứng với giá trị riêng lớn nhất. Người ta chứng minh được rằng tiêu chuẩn bậc 2 (điều kiện đủ) được thỏa mãn tại giá trị riêng này. Từ đĩ ta cĩ
Mệnh đề 2. Khơng gian r chiều (Fr) cĩ cơ sở là r véc tơ chỉ phương tương ứng với r giá trị riêng lớn nhất (theo thứ tự giảm dần) của ma trận VM.
Ta gọi các véc tơ riêng a của VM là các trục chính.
b. Nhân tố chính
Như đã biết, một véc tơ riêng a tìm được tương ứng một dạng tuyến tính u (theo kết quả ở phần trên). Véc tơ u là một phần tử của khơng gian R*P, khơng gian đối ngẫu của khơng gian cá thể F. Nĩ được xác định bởi một tổ hợp tuyến tính của các cột trong X.
Với trục chính a ta xác định một véc tơ u = Ma gọi là nhân tố chính. Cĩ thể thấy u là véc tơ riêng của MV. Thật vậy,
VMa = la, từ đĩ ta cĩ: MVMa = lMa = lu .
Biểu thức này chứng tỏ u là véc tơ riêng của MV, và MV cĩ cùng giá trị riêng l.
Thực tế là RP xác định một độ đo (metric) M và khơng gian đối ngẫu của nĩ R*P cũng được xác định một metric M-1. Trong đĩ uTM-1u = 1 (u là véc tơ cĩ chuẩn bằng 1). Các véc tơ u lập nên các nhân tố chính M vuơng gĩc.
c- Các thành phần chính
Véc tơ c là một tổ hợp tuyến tính các cột của X gọi là một thành phần chính của X nếu c thỏa mãn một số tính chất nào đĩ về phương sai. Một cách cụ thể tiêu chuẩn của c là phương sai của phép biến đổi tuyến tính đã nĩi ở trên lớn nhất.
Trở lại với phép chiếu đã nĩi ở trên, sau khi cĩ các trục chính ta cũng cĩ được các nhân tố chính ui tương ứng. Véc tơ các thành phần chính (c) là véc tơ nhận được từ phép biến đổi (phép chiếu) X lên các trục ui,
Ci = Xui .
Cĩ thể thấy các thành phần chính này cĩ các đặc trưng như sau:
V(Ci) = li (i = 1....r)
Nếu gọi C là ma trận (chứa các cột như các biến mới) lập bởi các thành phần chính thì ma trận hiệp phương sai của các thành phần chính đĩ là L, ma trận chỉ chứa các phần tử khác 0 trên đường chéo, cĩ giá trị lần lượt bằng li (i = 1....r).
Cũng như các trục chính và các nhân tố chính, các thành phần chính là các véc tơ riêng của ma trận XMXTD. Thật vậy:
MVu = lu
trong đĩ V = XTDX. Vậy
MXTDXu = lu,
hay
XMXTDXu = lXu .
Thay Xu = c , ta cĩ
XMXTDc = lc .
Biểu thức này chứng tỏ c là véc tơ riêng của XMXTD ứng với giá trị riêng l.
Cĩ thể tĩm tắt tồn bộ nội dung trên như sau:
Thành phân phân tích
Phương trình xác định
độ đo
Nhân tố chính u
MVu = lu
Chuẩn M-1
Trục chính a
VM a = la
Chuẩn M
Thành phần chính c
XMXTc = lc
D- trực giao
Các liên hệ
c = Xu, l, u = Ma
8. Thuật tốn xác định các thành phần chính
Thực tế khi chúng ta phân tích một tổng thể qua một mẫu, việc chọn số thành phần chính tùy thuộc vào yêu cầu sử dụng và phân tích kết quả, tuy nhiên thơng thường để nhìn thấy trực quan kết quả phân tích thành phần chính người ta thường chọn r = 2 hoặc 3. Tất nhiên càng chọn nhiều thành phần chính thì mức giải thích càng cao. Số giá trị khác nhau l theo các phương trình nĩi ở cuối mục b là số nghiệm của đa thức cấp p.
Chẳng hạn, khi tìm trục chính ta cần giải phương trình VM a = la . Phương trình này tương đương với phương trình (VM - El) a = 0 . Phương trình trên cĩ nghiệm khác khơng khi và chỉ khi định thức |VM - El| = 0 . Mặt khác, định thức |VM - El| là một đa thức bậc p của l. Thơng thường, đa thức này cĩ p nghiệm. Hơn nữa, vì ma trận VM là một ma trận đối xứng xác định khơng âm, các nghiệm trên đều là các nghiệm thực, khơng âm.
Theo các kết quả nĩi trên, để đám mây ảnh cĩ quán tính lớn nhất thì trục chính thứ nhất là véc tơ a ứng với giá trị riêng lớn nhất của ma trận VM. Trục chính thứ hai là véctơ a ứng với giá trị riêng thứ 2 của ma trận VM, v.v.
Để minh họa một cách đơn giản cho tất cả các nội dung nĩi trên ta xét một thí dụ nhỏ sau đây:
Hãy xét chỉ hai biến ở thí dụ đang xét ở phần trên, với
X1
X2
44
2.8
75
1.3
75
1.4
80
1.4
79
0.2
75
1.4
74
2.4
53
2.4
78
0.2
86
0.3
Ta thực hiện tìm các giá trị riêng của VM với các trọng số của các cá thể đều bằng 1/10. Để đơn giản ta chọn M = E (độ đo thơng thường).
Cĩ thể tính được
V =
Phương trình xác định l là
48.1966 - 133.6956l + l2 = 0
Nghiệm của phương trình này là
l1 = 133.33, l2 = 0.361
Nếu ta chọn l1 để chiếu các cá thể lên một trục, thì trục này cĩ véc tơ chỉ phương a xác định qua hệ phương trình
(132.88 – 133.33)a1 -7.672a2 = 0
- 7.672a1 (0.8056 – 133.33)a2 = 0
a12 + a22 = 1 (điều kiện chuẩn a bằng 1)
Ta cĩ hai nghiệm
a2 = (-0.45/-7.672), a1 = 0.058655a1
a1 = 0.99657, a2 = 0.058454
Cĩ thể mơ tả trục u trên R2 như trong Hình 3.
Hình 3. Hình chiếu của quan sát lên trục chính
Chọn một điểm Xi (cá thể i) chiếu xuống u ta cĩ hình chiếu fi) . Các tọa độ của 10 cá thể trên trên u cĩ thể tính theo cơng thức C = Xa, thu được
(44.02; 74.82; 74.83; 79.81; 78.74; 74.83; 73.89; 52.96; 77.74; 75.76)
Trong trường hợp tổng quát, ta cĩ thuật tốn tìm các giá trị riêng như sau:
+ Tìm l1 :
- Đặt A(1) = VM;
- Cho y0 là một véc tơ khác khơng bất kỳ và tính cho i = 1,2,… các véc tơ
xi = A(1)yi-1, yi = ;
- Lặp lại bước trên với yi được lấy làm giá trị ban đầu cho tới khi đạt được sự hội tụ của dãy {yi};
- Giới hạn của dãy {yi} sẽ xác định véc tơ riêng y(1), cịn giới hạn
sẽ là trị riêng l1 tương ứng của véc tơ đĩ.
Chú ý là thuật tốn trên cĩ thể cho ra hai véc tơ riêng trái chiều nhau của cùng một trị riêng l1. Lúc đĩ ta cĩ thể lấy một trong hai véc tơ đĩ làm đại diện cho thành phần chính thứ nhất.
+ Tìm lk: Sau khi đã cĩ cặp trị riêng và véc tơ riêng (lk-1,yk-1), ta đặt
A(k) = A(k-1) - lk-1y(k-1)(y(k-1))T
Tiếp tục thuật tốn trên với A(k) ta sẽ thu được cĩ cặp trị riêng và véc tơ riêng tiếp theo.
Về mặt lý thuyết khơng cĩ gì phải bàn cãi nhiều khi tìm cặp trị riêng và véc tơ riêng (kể cả việc chứng minh sự tồn tại của chúng). Nhưng rõ ràng là về mặt kỹ thuật việc tìm nghiệm của đa thức bậc p > 3 khơng phải là việc đơn giản, dù biết chúng là các nghiệm thực đi chăng nữa. Chính điều này làm cho người ta phải chờ đến những bước tiến vượt bậc của tin học. Thủ thuật lặp vừa được trình bầy với sự trợ giúp của máy tính sẽ giúp giải quyết vướng mắc trên đây.
Về số thành phần chính, khi phân tích nhân tố nĩi chung người ta thường chọn số thành phần tối thiểu theo mức giải thích đã xác định trước. Phần tiếp theo ta sẽ bàn kỹ hơn về vấn đề này.
9. Tái hiện dữ liệu, phân tích và đánh giá kết quả
a- Tái hiện dữ liệu
Khi tiến hành thủ tục phân tích thành phần chính, ta đã biến một đám mây thành một đám mây ảnh của nĩ trong các khơng gian cĩ số chiều nhỏ hơn, với điều kiện tối đa hĩa sự khác biệt của các cá thể (các điểm của đám mây ban đầu). Để cĩ thể đánh giá trở lại vai trị của các biến ban đầu ta cần tìm lại một số cơng thức liên hệ ngược, các cơng thức này thực tế là các phép chiếu ngược của phép chiếu đã xét ở trên. Nĩi như vậy hồn tồn khơng cĩ nghĩa là từ ảnh của một đám mây ta hồn tồn cĩ thể tìm lại chính đám mây đĩ một cách dễ dàng.
Từ cơng thức Xuj = cj ta cĩ
Trong khi uj là các véc tơ cĩ chuẩn bằng 1,
.
Từ đĩ ta cĩ
X = .
Tương tự, cĩ thể khơi phục bảng số liệu (đã quy tâm) nhờ các cơng thức
Khi chọn M = E (ma trận đơn vị) thì
,
trong đĩ zj là các véctơ riêng của XXT và vjT là các véc tơ riêng của XTX.
b- Tương quan của các thành phần chính và các biến ban đầu
Ta thấy nếu ban đầu cĩ p biến hồn tồn độc lập thì việc phân tích nhân tố bằng phương pháp đã trình bày ở trên hồn tồn khơng mang lại một chút ích lợi nào. Thật vậy về mặt thống kê ta thấy khi ấy ma trận hệ số tương quan là một ma trận đơn vị, mỗi véc tơ của X là một thành phần chính và hầu như chúng vuơng gĩc với nhau. Lúc đĩ mỗi biến phản ánh một mặt độc lập của các cá thể và như vậy khơng cĩ gì phải phân tích, vì trong trường hợp này bỏ đi biến nào ta mất hồn tồn thơng tin các cá thể trong biến đĩ.
Trong thực tế ta thường gặp trường hợp ngược lại, khi các biến ban đầu khơng độc lập với nhau. Lúc đĩ mỗi thành phần chính khơng đại diện riêng cho một biến ban đầu nào mà đại diện cùng một lúc cho nhiều biến với các mức độ khác nhau và ta cĩ thể dùng hệ số tương quan của các thành phần chính với các biến ban đầu để xem xét tính đại diện đĩ. Nếu các hệ số tương quan của một thành phần chính với một số biến ban đầu cĩ giá trị lớn thì thành phần chính này đại diện cho các biến ban đầu đĩ ở một mức độ cao và thành phần chính ấy mang ý nghĩa chung của nhĩm biến ban đầu đĩ.
c- Lựa chọn số lượng thành phần chính để tái hiện dữ liệu
Mục tiêu của phương pháp phân tích thành phần chính là tìm được một khơng gian cĩ số chiều tương đối nhỏ sao cho viện tái hiện dữ liệu trên khơng gian con đĩ bảo tồn được thơng tin nhiều nhất cĩ thể được. Như trên đã nĩi, nếu các biến ban đầu hồn tồn độc lập với nhau thì việc tiến hành phân tích thành phần chính sẽ khơng cĩ ý nghĩa, vì bỏ bớt đi biến nào thì khi tái hiện dữ liệu sẽ bị mất hẳn phần thơng tin do biến đĩ cung cấp.
Tình hình cũng hồn tồn tương tự, nếu các biến ban đầu khơng độc lập, song các thành phần chính lại chứa đựng lượng thơng tin xấp xỉ như nhau, vì ta sẽ mất một lượng thơng tin đáng kể khi bỏ bớt đi nhiều thành phần chính phía sau. Do vậy, việc tiến hành phân tích thành phần chính chỉ cĩ ý nghĩa khi một số ít thành phần chính đầu tiên chứa đựng lượng thơng tin vượt trội hẳn so với các thành phần chính cịn lại. Lượng thơng tin được nĩi đến đây được thể hiện bằng giá trị của phương sai hấp thụ trên trục chính ứng với mỗi thành phần chính, chính bằng trị riêng ứng với véc tơ riêng xác định thành phần chính đĩ.
Như vậy, để xác định số lượng thành phần chính được sử dụng tái tạo lại dữ liệu, ta cĩ thể dùng đồ thị so sánh các trị riêng ứng với các thành phần chính, chọn các thành phần chính đầu tiên cĩ trị riêng tương ứng lớn hơn hẳn so với các thành phần chính phía sau để tiến hành phân tích tiếp.
II. Uớc lượng tham số
Trong phần này ta xét bài tốn ước lượng tham số, một trong những bài tốn quan trọng và cĩ nhiều ứng dụng của thống kê tốn.
Bài tốn: Cho biến ngẫu nhiên X với tham số chưa biết, dựa vào thơng tin mẫu (X1, X2, … Xn) hãy ước lượng tham số .
1. Ước lượng điểm
Thống kê (hàm đa biến) dùng làm ước lượng cho tham số được gọi là ước lượng điểm cho . Với mẫu cụ thể (x1, x2, … xn), giá trị của thống kê là , giá trị này cĩ thể lấy làm giá trị ước lượng tương ứng cho .
Ví dụ 1: Đối với biến ngẫu nhiên X, thống kê: là một ước lượng điểm cho: . Giá trị cụ thể của ước lượng điểm này là.
2. Ước lượng khoảng
Trong phần trên ta nĩi đến việc tìm ước lượng điểm cho tham số dựa vào dữ liệu mẫu. Tuy nhiên, vấn đề quan trọng là làm thế nào để đánh giá được chất lượng của một ước lượng thu được trong khi ước lượng điểm khĩ cho ta một kết luận chính xác về độ sai lệch giữa tham số và ước lượng điểm của nĩ. Trong mục này ta sẽ đưa ra một cách tiếp cận khác để ước lượng tham số đĩ là ước lượng khoảng. Phương pháp này được sử dụng rộng rãi khi tiến hành các phép kiểm định trong các lĩnh vực khoa học, kỹ thuật, kinh tế.
a. Khái niệm
Khoảng với hai đầu mút ngẫu nhiên được gọi là ước lượng khoảng (hai phía) cho tham số với độ tin cậy nếu
.
Khoảng và gọi là ước lượng một phía cho với độ tin cậy nếu
.
Với mẫu cụ thể (x1,x2,…,xn) giá trị của khoảng ước lượng cho là
* Đối với khoảng ước lượng hai phía:
* Đối với khoảng ước lượng phía trái:
* Đối với khoảng ước lượng phía phải:
Hiệu u- l của khoảng ước lượng hai phía được gọi là độ chính xác của ước lượng.
b. Ước lượng khoảng cho kỳ vọng của biến ngẫu nhiên phân phối chuẩn
Cho biến ngẫu nhiên với tham số chưa biết và mẫu ngẫu nhiên (X1, X2,…,Xn) cĩ giá trị cụ thể (x1,x2,…,xn) . Ta cần tìm ước lượng khoảng cho tham số kỳ vọng .
+ Trường hợp đã biết.
Từ tính chất của phân phối chuẩn, ta cĩ
.
Với độ tin cậy ta cần tìm điểm sao cho
Hình 2.1 Đồ thị phân phối chuẩn và các phân vị xác định khoảng tin cậy
Trong đĩ phân vị thoả mãn . Tra bảng phân phối chuẩn ta tìm được .
Với mẫu cụ thể (x1,x2,…,xn), ta cĩ khoảng ước lượng (hai phía) cho là
Tương tự ta cĩ các khoảng ước lượng một phía của là
- Ước lượng giá trị tối thiểu,
,
trong đĩ , tra bảng phân phối chuẩn ta tìm được .
- Ước lượng giá trị tối đa,
+ Trường hợpchưa biết
Khi chưa biết phương sai thì trước tiên ta phải ước phương sai mẫu và đưa phương sai mẫu đĩ vào cơng thức xác định một thống kê thích hợp để làm tiêu chuẩn kiểm định giả thuyết. Trong trường hợp này người ta thường dùng thống kê
Người ta chứng minh được rằng thống kê này cĩ phân phối Student với n-1 bậc tự do. Lúc đĩ, với độ tin cậy ta tìm được điểm phân vị sao cho
trong đĩ phân vị được tìm từ bảng phân phối Student.
Vậy với mẫu cụ thể ta cĩ khoảng ước lượng hai phía cho là
Tương tự ta cĩ các khoảng ước lượng một phía là:
- Ước lượng giá trị tối thiểu,
với phân vị được tìm từ bảng phân phối Student
- Ước lượng giá trị tối đa
.
III. Kiểm định giả thuyết thống kê
Giả thuyết thống kê là một mệnh đề nhận định về tham số của tổng thể. Khi ta đồng nhất tổng thể với một biến ngẫu nhiên thì giả thuyết thống kê cũng cĩ thể là nhận định về phân phối xác suất của biến ngẫu nhiên. Ký hiệu là giả thuyết của tham số tổng thể, đi kèm với giả thuyết là mệnh đề đối lập được gọi là đối thuyết, ký hiệu là . Bài tốn kiểm định giả thuyết thống kê gồm một cặp giả thuyết và đối thuyết . Dựa vào thơng tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay chấp nhận giả thuyết , việc chấp nhận giả thuyết tương đương với bác bỏ đối thuyết và ngược lại.
Miền bác bỏ
Một trong những cách giải quyết bài tốn kiểm định giả thuyết là dùng một thống kê G, được gọi là tiêu chuẩn thống kê.
Định nghĩa1: Thống kê được gọi là một tiêu chuẩn thống kê (test statistics) nếu giá trị của nĩ được dùng để xem xét bác bỏ hay chấp nhận giả thuyết.Ứng với mẫu cụ thể quan sát được, giá trị của tiêu chuẩn thống kê T được ký hiệu là . Ta sẽ dựa vào giá trị này để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết đang xét bằng cách so sánh giá trị đĩ với miền tiêu chuẩn
Định nghĩa 2: Miền W trong R được gọi là miền bác bỏ hay miền tiêu chuẩn nếu miền này được dùng cùng với tiêu chuẩn thống kê T và giá trị cụ thể của tiêu chuẩn đĩ để đưa ra kết luận về giả thuyết . Cụ thể,
Nếu thì bác bỏ giả thuyết .
Ngược lại, nếu thì chấp nhận .
Khi bác bỏ hay chấp nhận giả thuyết thì ta gặp phải hai loại sai lầm
Sai lầm loại I: Bác bỏ giả thuyết nhưng thực tế là đúng.
Sai lầm loại II: Chấp nhận giả thuyết H0 nhưng thực tế là sai.
Quyết định bác bỏ hay chấp nhận giả thuyết hồn tồn dựa vào thơng tin mẫu, do đĩ ta sẽ cĩ xác suất mắc sai lầm loại I và sai lầm loại II. Ký hiệu là xác suất mắc sai lầm loại I.
=P(sai lầm loại I) = P(bác bỏ | đúng)
Lúc đĩ được gọi là mức ý nghĩa. Ký hiệu là xác suất mắc sai lầm loại II.
= P(sai lầm loại II) = P( chấp nhận | sai)
= P(chấp nhận | đúng)
Trường hợp đặc biệt, khi dùng tiêu chuẩn T và miền bác bỏ W để tiến hành kiểm định giả thuyết, ta sẽ cĩ
Khi tiến hành kiểm định, người ta luơn mong muốn sao cho cĩ thể cực tiểu hĩa cả hai loại sai lầm loại I và loại II, tuy nhiên khi cỡ mẫu cố định thì mong muốn trên là khơng thực hiện được, vì nĩi chung sai lầm loại I giảm xuống sẽ kéo theo sai lầm loại II tăng lên. Chẳng hạn, khi dùng tiêu chuẩn T và miền bác bỏ W để tiến hành kiểm định giả thuyết, để giảm bớt sai lầm loại I (), ta phải thu nhỏ miền bác bỏ W, thay thế bằng một miền . Tuy nhiên điều đĩ dẫn đến và sai lầm loại II () lại tăng lên.
Vì những lý do trên, trong thực hành người ta thường cố định xác suất mắc sai lầm loại I và tìm cách làm cực tiểu sai xác suất sai lầm loại II. Thơng thường giá trị của thường được lấy rất nhỏ, bằng 0.05, 0.02 hoặc 0.01.
2. Các bước làm bài tốn kiểm định
Để tiến hành kiểm định giả thuyết, thơng thường người ta cĩ thể sử dụng miền tiêu chuẩn, xác suất ý nghĩa hoặc ước lượng khoảng của các tiêu chuẩn hay tham số thống kê, với các bước thực hiện tương ứng.
Sử dụng miền tiêu chuẩn
Để giải quyết một bài tốn kiểm định giả thuyết thống kê thơng qua việc sử dụng miền tiêu chuẩn, người ta thường thực hiện các bước sau:
Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết.
Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho.
Bước 3 : Xác định miền bác bỏ W.
Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0.
b) Sử dụng xác suất ý nghĩa (p-value)
Nếu ta bác bỏ giả thuyết khi thấy một giá trị cụ thể a của mẫu xuất hiện, thì ta cũng hái bác bỏ giả thuyết đĩ cho những giá trị khác của mẫu thuộc vào một miền xác định bởi a. Chẳng hạn với giả thuyết cần kiểm định là “Chi tiết máy được gia cơng cĩ kích thước đạt tiêu chuẩn”, nếu ta bác bỏ giả thuyết khi đo thấy sản phẩm cĩ kích lệch so với quy định 1 milimét thì ta cũng phải bác bỏ giả thuyết cho mọi sản phẩm khác đo được kích thước lệch so với quy định nhiều hơn 1 milimét. Cĩ thể về thực chất thì các sản phẩm đĩ đều cĩ kích thước đạt tiêu chuẩn nhưng do những tác động ngẫu nhiên trong quá trình đo đạc mà ta cĩ kết luận sai, dẫn đến việc phạm sai lầm với một xác suất nào đĩ.Tập hợp chứa các giá trị của mẫu phải bác bỏ khi đã bác bỏ một giá trị cụ thể cho trước của mẫu cĩ một xác suất phạm sai lầm được gọi là xác suất ý nghĩa ứng với giá trị cụ thể đĩ. Chính xác hơn, ta cĩ định nghĩa sau:
Định nghĩa 3: Ứng với một giá trị mẫu cụ thể của tiêu chuẩn thống kê dùng kiểm định giả thuyết, xác suất ý nghĩa (p-value) là giá trị của xác suất phạm sai lầm nếu bác bỏ giả thuyết H0 khi ta cĩ giá trị mẫu cụ thể đĩ trong khi giả thuyết là đúng đối với mẫu đang xét.
Ta thấy xác suất ý nghĩa chính là xác suất phạm sai lầm loại I đã trình bày ở phía trên. Xác suất này nhỏ tương ứng với khả năng phạm sai lầm khi bác bỏ giả thuyết là nhỏ và ta cĩ thể bác bỏ giả thuyết mà khơng e ngại cĩ sai lầm. Ngược lại thì ta phải chấp nhận giả thuyết vì khả năng phạm sai lầm sẽ lớn. Như vậy ta cĩ thể sử dụng xác suất ý nghĩa để giải quyết bài tốn kiểm định theo thủ tục tiến hành các Bước 1 và 2 như trình bày ở trên và làm tiếp.
Bước 3’ : Tính xác suất ý nghĩa tương ứng với giá trị cụ thể của tiêu chuẩn thống kê đã cĩ ở Bước 2
Bước 4’ : So sánh xác suất ý nghĩa trên đây với mức ý nghĩa đã định trước (thường được cho bằng 5%, 1%, 0.5% hoặc 0.1%), nếu xác suất ý nghĩa nhỏ hơn hoặc bằng mức ý nghĩa thì bác bỏ giả thuyết, cịn nếu ngược lại thì phải chấp nhận giả thuyết.
Ngồi hai thủ tục trên, nhiều bài tốn kiểm định cĩ thể được tiến hành bằng cách sử dụng các ước lượng khoảng của các tham số hoặc các tiêu chuẩn thống kê, khá tiện dụng trong cả các tính tốn bằng tay và cả khi cĩ sự trợ giúp của máy tính.
c) Dùng khoảng tin cậy của tham số hoặc tiêu chuẩn thống kê
Để tiến hành kiểm định bằng khoảng tin cậy, ta tiến hành Bước 1 như đã nêu ở phần trên. Tiếp đĩ, ta thực hiện
Bước 2’’: Xác định tiêu chuẩn thống kê và tìm khoảng tin cậy (ước lượng khoảng) của tiêu chuẩn đĩ (hoặc của tham số cần quan tâm) ứng với mẫu đã cĩ và độ tin cậy đã định trước.
Bước 3’’: So sánh khoảng tin cậy trên với một giá trị đã định, nếu khoảng tin cậy khơng chứa giá trị đĩ thì bác bỏ giả thuyết, cịn nếu khoảng tin cậy chứa giá trị đĩ thì phải chấp nhận giả thuyết.
Tiếp sau đây sẽ trình bày chi tiết một số bài tốn kiểm định giả thuyết cụ thể, qua đĩ sẽ làm sáng tỏ hơn cách vận dụng các thủ tục trên đây.
3. Kiểm định tham số
a) Kiểm định kỳ vọng của biến ngẫu nhiên cĩ phân phối chuẩn
Trong phần này ta xét giả thuyết về kỳ vọng của biến ngẫu nhiên X cĩ phân phối chuẩn . Giả sử ta cĩ mẫu ngẫu nhiên (X1, X2, …, Xn) với giá trị mẫu là (x1, x2, …, xn) được rút ra từ biến ngẫu nhiên X . Trong phần trước ta đã biết rằng là một ước lượng khơng chệch cho kỳ vọng m. Tuy nhiên ta chưa biết giá trị thực của m và muốn kiểm tra xem giá trị đĩ cĩ thực sự khác giá trị m0 cho trước hay khơng. Ta thành lập bài tốn kiểm định như sau
Giả thuyết : , đối thuyết : hoặc : hoặc H1:
Trường hợp đã biết
Bài tốn 1
Hình 3.1. Miền tiêu chuẩn đối với phân phối chuẩn._.hẩm màu, điện sử dụng ở sản xuất giấy trắng thấp cũng cao hơn ở giấy trắng cao. Ở giấy trắng thấp là 139.19; 0.362; 0.1908 (Kg); 0.6974Kw/h trong khi ở giấy trắng cao là 134.54; 0.346; 0.19(Kg); 0.6874Kw/h với xác suất ý nghĩa đều nhỏ hơn 5%. Ở giấy trắng cao lại sử dụng nhiều chất tăng trắng hơn hẳn so với giấy trắng thấp với khối lượng tương ứng là 4.5955Kg và 1.5214Kg với xác suất ý nghĩa bằng 0.000
Việc sản xuất giấy trắng cao cĩ sử dụng nhiều chất tăng trắng hơn hẳn giấy trắng thấp là hợp lý nhưng tại sao trong sản xuất giấy trắng thấp lại sử dụng nhiều bột ngoại, bột đá và một vài các chất phụ gia hơn sản xuất giấy trắng cao. Điều đĩ cĩ thể giải thích là đã cĩ sự lãng phí nguyên vật liệu hay trong sản xuất giấy trắng thấp cấn dùng nhiều bột đá tương ứng với tỷ lệ thành phần các loại bột giấy và một số các chất phụ gia khác được giảm giá thành sản phẩm. Cĩ thể việc lý giải như vậy là chưa thực sự hợp lý. Để tìm hiểu hiện tượng trên ta sẽ tách riêng hai loại giấy và so sánh giữa các năm về mức sử dụng nguyên vật liệu trong từng loại giấy. Dùng phép kiểm định t-Student để phân tích theo ý vừa nĩi trên, ta thu được kết quả trong các Bảng từ 3.10a đến 3.13b.
Bảng 3.9b. Giá trị trung bình của nguyên liệu bột giấy và chất phụ gia trong hai loại giấy
Loaigiay
Don vi
N
Mean
Std. Deviation
Std. Error Mean
botgiaytb
Trang cao
Kg
78
904.7614
8.82862
.99964
Trang thap
59
886.0119
3.48619
.45386
keoakdtb
Trang cao
Kg
78
11.2044
10.86957
1.23074
Trang thap
59
9.6254
.15098
.01966
betonittb
Trang cao
Kg
78
2.9105
.16282
.01844
Trang thap
59
2.8663
.12861
.01674
botdatb
Trang cao
Kg
78
134.5476
5.57184
.63089
Trang thap
59
139.1917
3.13368
.40797
tinhbottb
Trang cao
Kg
78
8.8068
.19178
.02171
Trang thap
59
8.8031
.16889
.02199
botbemattb
Trang cao
Kg
78
43.3038
4.78576
.54188
Trang thap
59
44.4524
2.11690
.27560
chatbaoluutb
Trang cao
Kg
78
.3460
.01854
.00210
Trang thap
59
.3615
.02801
.00365
keopvatb
Trang cao
Kg
78
1.1470
.05035
.00570
Trang thap
59
1.1387
.02061
.00268
phammautb
Trang cao
Kg
78
.1900
.00098
.00011
Trang thap
59
.1908
.00281
.00037
tangtrangtb
Trang cao
Kg
78
4.5955
.31970
.03620
Trang thap
59
1.5214
.36396
.04738
luoitrongtb
Trang cao
Chiếc
78
.00004509
.000010941
.000001239
Trang thap
59
.00009293
.000011285
.000001469
luoingoaitb
Trang cao
Chiếc
78
.00006795
.000034655
.000003924
Trang thap
59
.00005411
.000067632
.000008805
luoidaitb
Trang cao
Chiếc
78
.00005621
.000018449
.000002089
Trang thap
59
.00006679
.000017957
.000002338
chaf1tb
Trang cao
Chiếc
78
.00010605
.000020039
.000002269
Trang thap
59
.00011186
.000018652
.000002428
chaf2tb
Trang cao
Chiếc
78
.00010177
.000033508
.000003794
Trang thap
59
.00010443
.000020164
.000002625
chaf3tb
Trang cao
Chiếc
78
.00010707
.000035132
.000003978
Trang thap
59
.00011432
.000021641
.000002817
dientb
Trang cao
MWh/T
78
.6871
.02164
.00245
Trang thap
59
.6974
.02046
.00266
hoitb
Trang cao
T/T
78
2.3723
.16867
.01910
Trang thap
59
2.1994
.10628
.01384
nuoctb
Trang cao
M3/T
78
41.8273
3.96407
.44884
Trang thap
59
41.6037
1.87784
.24447
tylebongoai
Trang cao
%
78
.2667
.01343
.00152
Trang thap
59
.2728
.00322
.00042
Trước tiên, ta so sánh mức tiêu thụ các loại nguyên liệu giữa hai năm 2006 và 2007 cho sản xuất từng loại giấy trắng cao và giấy trắng thấp.
2. So sánh hai năm 2006 và 2007 về nguyên liệu sản xuất giấy
Dùng tiêu chuẩn kiểm định t - Student để so sánh hai năm về tỷ lệ các loại bột giấy và tỷ lệ các chất phụ gia sử dụng cho hai loại giấy trắng cao và giấy trắng thấp ở đầu vào, ta cĩ kết quả trong các Bảng 3.10a ; 3.10b; 3.11a và 3.11b.
Giấy trắng cao
Dựa vào cột giá trị trung bình (Mean) trong Bảng 3.10a và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.10b dưới đây cho ta thấy việc sử dụng các loại bột giấy và các chất phụ gia sử dụng cho sản xuất giấy trắng cao trong hai năm 2006 và 2007 là khơng cĩ sự khác biệt đáng kể vì đối với tất cả các nguyên liệu đưa vào sản xuất việc so sánh đều cĩ xác xuất ý nghĩa lớn hơn 5%.
Bảng 3.10a. Nguyên liệu và chất phụ gia dùng sản xuất giấy cao trong 2006 và 2007
nam
Don vi
N
Mean
Std. Deviation
Std. Error Mean
botgiaytb
2006
Kg
24
904.20
7.694
1.570
2007
26
903.07
8.453
1.657
keoakdtb
2006
Kg
24
13.98
19.585
3.997
2007
26
9.95
0.345
0.067
betonittb
2006
Kg
24
2.89
0.159
0.032
2007
26
2.90
0.170
0.033
botdatb
2006
Kg
24
134.51
5.779
1.179
2007
26
134.36
5.915
1.160
tinhbottb
2006
Kg
24
8.77
0.160
0.032
2007
26
8.78
0.166
0.032
botbemattb
2006
Kg
24
43.60
2.500
0.510
2007
26
42.73
7.598
1.490
chatbaoluutb
2006
Kg
24
0.34
0.017
0.003
2007
26
0.34
0.022
0.004
keopvatb
2006
Kg
24
1.13
0.001
0.001
2007
26
1.15
0.086
0.017
phammautb
2006
Kg
24
0.18
0.000
0.000
2007
26
0.19
0.001
0.000
tangtrangtb
2006
Kg
24
4.65
0.007
0.001
2007
26
4.65
0.029
0.005
luoitrongtb
2006
Chiếc
24
0.000042
0.0000033
0.0000006
2007
26
0.000041
0.0000030
0.0000005
luoingoaitb
2006
Chiếc
24
0.000062
0.0000357
0.0000072
2007
26
0.000066
0.0000382
0.0000075
luoidaitb
2006
Chiếc
24
0.00005
0.0000182
0.0000037
2007
26
0.000051
0.0000123
0.0000024
chaf1tb
2006
Chiếc
24
0.000114
0.0000155
0.0000031
2007
26
0.000112
0.0000153
0.0000030
chaf2tb
2006
Chiếc
24
0.000106
0.0000317
0.0000064
2007
26
0.000104
0.0000331
0.0000065
chaf3tb
2006
Chiếc
24
0.00011653
0.0000319
0.0000065
2007
26
0.000115
0.0000322
0.0000063
dientb
2006
MWh/T
24
0.68
0.018
0.003
2007
26
0.68
0.023
0.005
hoitb
2006
T/T
24
2.39
0.152
0.031
2007
26
2.36
0.192
0.037
nuoctb
2006
M3/T
24
41.80
4.180
0.853
2007
26
41.97
4.342
0.851
tylebongoai
2006
%
24
0.26
0.011
0.002
2007
26
0.26
0.012
0.002
a loaigiay = trangcao
Giấy trắng thấp
Tiếp tục so sánh hai năm 2006 và 2007 về tỷ lệ các loại bột giấy và tỷ lệ các chất phụ gia sử dụng cho giấy trắng thấp qua phép kiểm định t – student ta cĩ kết quả trong hai Bảng 3.11a và 3.11b. Ta thấy chỉ cĩ phụ liệu chăn 1 trung bình là cĩ sự sử dụng khác biệt trong hai năm. Cụ thể là năm 2006 để sản xuất 1 tấn giấy trắng thấp nhà máy đã sử dụng 0.00012 chiếc cịn năm 2007 sử dụng 0.00019 chiếc.
Bảng 3.10b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy cao 2006 và 2007
t-test for Equality of Means
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% CI of the Difference
Lower
Upper
botgiaytb
48
.625
1.128
2.292
-3.481
5.737
keoakdtb
48
.323
4.036
3.998
-4.234
12.307
betonittb
48
.889
-.006
.046
-.100
.087
botdatb
48
.932
.142
1.656
-3.187
3.472
tinhbottb
48
.823
-.010
.046
-.103
.082
botbemattb
48
.596
.869
1.627
-2.403
4.142
chatbaoluutb
48
.931
-.001
.005
-.012
.011
keopvatb
48
.333
-.017
.017
-.052
.018
phammautb
48
.329
-.001
.0002
-.0001
.000
tangtrangtb
48
.434
.005
.006
-.007
.017
luoitrongtb
48
.203
.000001
.0000008
-.0000007
.000003
luoingoaitb
48
.675
-.000004
.00001
-.000021
.000017
luoidaitb
48
.736
-.000001
.000004
-.000016
.000007
chaf1tb
48
.654
.000002
.000004
-.000006
.000013
chaf2tb
48
.875
.000001
.000009
-.000047
.000013
chaf3tb
48
.939
.000002
.000009
-.000577
.000013
dientb
48
.664
-.003
.006
-.014
.009
hoitb
48
.586
.027
.049
-.072
.126
nuoctb
48
.889
-.169
1.21
-2.59
2.257
tylebongoai
48
.810
.001
.003
-.006
.007
a loaigiay = trangcao
Bảng 3.11a. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy thấp 2006 và 2007
t-test for Equality of Means
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% CI of the Difference
Lower
Upper
botgiaytb
37
.690
.434
1.083
-1.759
2.629
keoakdtb
37
.828
.007
.035
-.063
.078
betonittb
37
.597
.022
.042
-.062
.107
botdatb
37
.699
.390
1.001
-1.638
2.418
tinhbottb
37
.828
-.010
.046
-.104
.084
botbemattb
37
.470
-.491
.673
-1.857
.873
chatbaoluutb
37
.834
.002
.009
-.017
.022
keopvatb
37
.692
.002
.005
-.009
.014
phammautb
37
.622
-.001
.001
-.002
.001
tangtrangtb
37
.804
-.004
.016
-.037
.029
luoitrongtb
37
.253
.0000031
.0000027
-.0000023
.0000087
luoingoaitb
37
.522
-.0000008
.0000013
-.0000034
.0000017
luoidaitb
37
.881
-.0000002
.0000016
-.0000034
.000003
chaf1tb
37
.014
.0000009
.0000003
.0000002
.0000016
chaf2tb
37
.462
-.0000034
.0000046
-.0000128
.0000059
chaf3tb
37
.406
.0000048
.0000058
-.0000069
.0000166
dientb
37
.889
-.001
.005
-.012
.011
hoitb
37
.804
.009
.035
-.063
.081
tylebongoai
37
.739
.0004
.001
-.001
.002
a loaigiay = trangthap
Bảng 3.11b. Nguyên liệu và chất phụ gia dùng sản xuất giấy thấp trong 2006 và 2007
nam
Don vi
N
Mean
Std. Deviation
Std. Error Mean
botgiaytb
2006
Kg
18
885.8447
3.37819
.79625
2007
21
885.4099
3.36695
.73473
keoakdtb
2006
Kg
18
9.6521
.10456
.02464
2007
21
9.6444
.11271
.02460
betonittb
2006
Kg
18
2.8620
.12166
.02867
2007
21
2.8397
.13731
.02996
botdatb
2006
Kg
18
139.5087
3.01285
.71014
2007
21
139.1183
3.20233
.69881
tinhbottb
2006
Kg
18
8.7531
.13467
.03174
2007
21
8.7633
.15283
.03335
botbemattb
2006
Kg
18
43.8986
1.79147
.42225
2007
21
44.3903
2.32704
.50780
chatbaoluutb
2006
Kg
18
.3613
.03732
.00880
2007
21
.3593
.02353
.00513
keopvatb
2006
Kg
18
1.1393
.01757
.00414
2007
21
1.1370
.01840
.00401
phammautb
2006
Kg
18
.1904
.00228
.00054
2007
21
.1909
.00301
.00066
tangtrangtb
2006
Kg
18
1.4191
.03581
.00844
2007
21
1.4233
.06221
.01358
luoitrongtb
2006
Chiếc
18
.00009498
.000011802
.000002782
2007
21
.00009180
.000004031
.000000880
luoingoaitb
2006
Chiếc
18
.00002707
.000005300
.000001249
2007
21
.00002791
.000002544
.000000555
luoidaitb
2006
Chiếc
18
.00006330
.000004854
.000001144
2007
21
.00006354
.000005091
.000001111
chaf1tb
2006
Chiếc
18
.00012011
.000000688
.000000162
2007
21
.00011918
.000001458
.000000318
chaf2tb
2006
Chiếc
18
.00011007
.000000503
.000000118
2007
21
.00011353
.000019697
.000004298
chaf3tb
2006
Chiếc
18
.00012307
.000005045
.000001189
2007
21
.00011819
.000024186
.000005278
dientb
2006
MWh/T
18
.6951
.01860
.00438
2007
21
.6959
.01839
.00401
hoitb
2006
T/T
18
2.2029
.10932
.02577
2007
21
2.1940
.11294
.02465
nuoctb
2006
M3/T
18
41.8020
1.88037
.44321
2007
21
41.3953
2.31593
.50538
tylebongoai
2006
%
18
.2733
.00317
.00075
2007
21
.2730
.00321
.00070
a loaigiay = trangthap
Như vậy qua việc tách riêng từng loại giấy trong hai năm 2006 và 2007 chúng ta thấy đối với cả hai loại giấy trắng cao và giấy trắng thấp đều khơng cĩ sự khác biệt về việc sử dụng các nguyên vật liệu đầu vào cho quá trình sản xuất. Chúng ta sẽ làm tương tự như vậy cho hai năm tiếp theo
3. So sánh hai năm 2007 và 2008 về nguyên liệu sản xuất giấy
a) Giấy trắng cao
Qua Bảng 3.12a và 3.12b ta thấy đối với việc sản xuất 1 tấn giấy trắng cao ở hai năm 2007 và 2008 các phụ liệu chăn3, chăn1, lưới dài, lưới trong là cĩ sử dụng khác biệt với xác suất ý nghĩa nhỏ hơn 5%. Nhưng số lượng các phụ liệu sử dụng cho sản xuất 1 tấn giấy là rất nhỏ (cột giá trị trung bình ở bảng 3.12b cho ta thấy điều đĩ). Điều đĩ chứng tỏ sự khác biệt này nĩi chung khơng dẫn đến sự chênh lệch quá nhiều trong giá thành 1 tấn giấy
Bảng 3.12a. Nguyên liệu và chất phụ gia dùng sản xuất giấy cao trong 2007 và 2008
nam
Don vi
N
Mean
Std. Deviation
Std. Error Mean
botgiaytb
2007
Kg
26
903.07
8.453
1.657
2008
28
906.79
9.918
1.874
keoakdtb
2007
Kg
26
9.95
.345
.067
2008
28
9.97
.321
.060
betonittb
2007
Kg
26
2.90
.170
.033
2008
28
2.92
.163
.030
botdatb
2007
Kg
26
134.36
5.915
1.160
2008
28
134.74
5.254
.992
tinhbottb
2007
Kg
26
8.78
.166
.032
2008
28
8.86
.228
.043
botbemattb
2007
Kg
26
42.73
7.598
1.490
2008
28
43.56
2.463
.465
chatbaoluutb
2007
Kg
26
.34
.022
.004
2008
28
.34
.015
.002
keopvatb
2007
Kg
26
1.15
.086
.017
2008
28
1.14
.011
.002
phammautb
2007
Kg
26
.19
.001
.000
2008
28
.19
.001
.000
tangtrangtb
2007
Kg
26
4.65
.029
.005
2008
28
4.48
.521
.098
luoitrongtb
2007
Chiếc
26
.000041
.0000030
.0000005
2008
28
.000050
.0000167
.0000031
luoingoaitb
2007
Chiếc
26
.000066
.0000382
.0000075
2008
28
.000074
.0000301
.0000057
luoidaitb
2007
Chiếc
26
.000051
.0000123
.0000024
2008
28
.000065
.0000198
.0000037
chaf1tb
2007
Chiếc
26
.000112
.0000153
.0000030
2008
28
.000093
.0000210
.0000039
chaf2tb
2007
Chiếc
26
.000104
.0000331
.0000065
2008
28
.000095
.0000353
.0000066
chaf3tb
2007
Chiếc
26
.000115
.0000322
.0000063
2008
28
.000090
.0000354
.0000067
dientb
2007
MWh/T
26
.68
.023
.004
2008
28
.68
.022
.004
hoitb
2007
T/T
26
2.36
.192
.037
2008
28
2.35
.161
.030
nuoctb
2007
M3/T
26
41.97
4.342
.851
2008
28
41.71
3.525
.666
tylebongoai
2007
%
26
.26
.012
.002
2008
28
.26
.015
.002
a loaigiay = trangcao
b) Giấy trắng thấp
Cột giá trị trung bình (Mean) trong Bảng 3.13a và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.13b cho ta thấy khơng cĩ sự khác biệt trong việc sử dụng nguyên liệu bột giấy để sản xuất giấy trắng thấp trong hai năm mà chỉ cĩ sự khác biệt trong việc sử dụng phụ liệu chăn1, chăn2, chăn3, lưới ngồi và các phụ gia chất tăng trắng, tinh bột.
Bảng 3.12b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy cao 2007 và 2008
t-test for Equality of Means
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% CI of the Difference
Lower
Upper
botgiaytb
-8.771
1.332
keoakdtb
52
.782
-.025
.090
-.207
.156
betonittb
52
.623
-.022
.045
-.113
.068
botdatb
52
.805
-.377
1.520
-3.427
2.673
tinhbottb
52
.158
-.078
.054
-.188
.031
botbemattb
52
.586
-.828
1.514
-3.867
2.209
chatbaoluutb
52
.548
.003
.005
-.007
.013
keopvatb
52
.462
.012
.016
-.020
.045
tangtrangtb
52
.102
.166
.098
-.035
.369
luoitrongtb
52
.014
-.0000084
.0000032
-.0000150
-.0000018
luoingoaitb
52
.427
-.0000075
.0000094
-.0000265
.0000114
luoidaitb
52
.002
-.0000144
.0000045
-.0000235
-.0000053
chaf1tb
52
.000
.0000194
.0000050
.0000092
.0000295
chaf2tb
52
.308
.0000096
.0000093
-.0000091
.0000283
chaf3tb
52
.009
.0000250
.0000092
.0000064
.0000435
dientb
52
.997
-.000
.006
-.012
.012
hoitb
52
.747
.015
.048
-.081
.112
nuoctb
52
.810
.259
1.072
-1.893
2.412
tylebongoai
52
.285
.004
.003
-.003
.011
a loaigiay = trangcao
Cụ thể là đối với năm 2007 khối lượng trung bình của các phụ liệu và phụ gia nĩi trên đã sử dụng để sản xuất 1 tấn giấy lần lượt là 0.0001192; 0.0001135; 0.00011819; 0.0000279(Chiếc); 1.4233 ; 8.7633(Kg) trong khi ở năm 2008 lượng phụ liệu và phụ gia trung bình tương ứng là 0.00009676; 0.0000898; 0.00010239; 0.00010597(Chiếc); 1.7164 ; 8.8899(Kg) với xác xuất ý nghĩa tương ứng là 0.04; 0.001; 0.001; 0.002; 0.037; 0.022.
Ngồi ra, giữa hai năm này khơng cĩ sự khác biệt mang tính thống kê về việc sử dụng các chất phụ gia khác.
Qua những phân tích trên đây ta thấy trong các năm, việc sử dụng nguyên liệu bột giấy cho sản xuất từng loại giấy trắng cao và giấy trắng thấp là khơng cĩ sự khác biêt. Sự khác biệt chỉ cĩ ở việc sử dụng các phụ liệu và phụ gia cho sản xuất cả hai loại giấy. Điều đĩ cĩ nghĩa là trong quá trình sản xuất, cơng nhân nhà máy đã sử dụng lãng phí các chất phụ gia. Điều đĩ cho phép chúng ta cĩ thể đề xuất ra mức sử dụng các chất phụ gia tiết kiêm hơn.
Bảng 3.13a. Nguyên liệu và chất phụ gia của giấy trắng thấp trong hai năm 2007 và 2008
nam
Don vi
N
Mean
Std. Deviation
Std. Error Mean
botgiaytb
2007
Kg
21
885.4099
3.36695
0.73473
2008
20
886.7945
3.72621
0.83321
keoakdtb
2007
Kg
21
9.6444
0.11271
0.02460
2008
20
9.5814
0.20814
0.04654
betonittb
2007
Kg
21
2.8397
0.13731
0.02996
2008
20
2.8980
0.12467
0.02788
botdatb
2007
Kg
21
139.1183
30.20233
0.69881
2008
20
138.9834
30.30356
0.73870
tinhbottb
2007
Kg
21
8.7633
0.15283
0.03335
2008
20
8.8899
0.18496
0.04136
botbemattb
2007
Kg
21
44.3903
2.32704
0.50780
2008
20
45.0160
2.11632
0.47322
chatbaoluutb
2007
Kg
21
0.3593
0.02353
0.00513
2008
20
0.3640
0.02353
0.00526
keopvatb
2007
Kg
21
1.1370
0.01840
0.00401
2008
20
1.1399
0.02566
0.00574
phammautb
2007
Kg
21
0.1909
0.00301
0.00066
2008
20
0.1910
0.00313
0.00070
tangtrangtb
2007
Kg
21
1.4233
0.06221
0.01358
2008
20
1.7164
0.58185
0.13011
luoitrongtb
2007
Chiếc
21
0.00009180
0.000004031
0.000000880
2008
20
0.00009228
0.000015530
0.000003473
luoingoaitb
2007
Chiếc
21
0.00002791
0.000002544
0.000000555
2008
20
0.00010597
0.000098225
0.000021964
luoidaitb
2007
Chiếc
21
0.00006354
0.000005091
0.000001111
2008
20
0.00007333
0.000029460
0.000006587
chaf1tb
2007
Chiếc
21
0.00011918
0.000001458
0.000000318
2008
20
0.00009676
0.000026377
0.000005898
chaf2tb
2007
Chiếc
21
0.00011353
0.000019697
0.000004298
2008
20
0.00008980
0.000022030
0.000004926
chaf3tb
2007
Chiếc
21
0.00011819
0.000024186
0.000005278
2008
20
0.00010239
0.000023499
0.000005255
dientb
2007
MWh/T
21
0.6959
0.01839
0.00401
2008
20
0.7010
0.02432
0.00544
hoitb
2007
T/T
21
2.1940
0.11294
0.02465
2008
20
2.2020
0.10154
0.02271
nuoctb
2007
M3/T
21
41.3953
2.31593
0.50538
2008
20
41.6439
1.36677
0.30562
tylebongoai
2007
%
21
0.2730
0.00321
0.00070
2008
20
0.2723
0.00337
0.00075
a loaigiay = trangthap
4. Định mức kiến nghị cho sản xuất giấy
Đối với các chất phụ liệu chúng ta khơng đặt ra mục đích tiết kiệm định mức vì trong quá trình sản xuất, các phụ liệu này sẽ được cơng nhân thay thế mỗi khi thấy chất lượng của chúng giảm xuống dưới mức yêu cầu của kỹ thuật. Hơn nữa, khối lượng tiêu hao của chúng cho một lơ sản phẩm là rất nhỏ. Sự tiết kiệm các phụ liệu này khơng đĩng gĩp nhiều cho việc hạ giá thành sản xuất. Chúng ta sẽ sử dụng mức trung bình của các phụ liệu đã dùng trong ba năm làm định mức kiến nghị cho việc sản xuất giấy.
Bảng 3.13b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy thấp 2007 và 2008
t-test for Equality of Means
df
Sig. (2-tailed)
Mean Difference
Std. Error Difference
95% CI of the Difference
Lower
Upper
botgiaytb
39
.219
-1.38453
1.10808
-3.62583
0.85676
keoakdtb
39
.241
.06302
0.05264
-0.04466
0.17069
betonittb
39
.163
-.05840
0.04102
-0.14138
0.02458
botdatb
39
.895
.13487
1.01607
-1.92032
2.19007
tinhbottb
39
.022
-.12660
0.05288
-0.23356
-0.01964
botbemattb
39
.374
-.62569
0.69577
-2.03300
0.78163
chatbaoluutb
39
.526
-.00471
0.00735
-0.01958
0.01016
keopvatb
39
.674
-.00295
0.00695
-0.01700
0.01110
phammautb
39
.893
-.00013
0.00096
-0.00207
0.00181
tangtrangtb
39
.037
-.29316
0.13081
-0.56656
-0.01976
luoitrongtb
39
.893
-.000000486
.000003582
-0.000007927
0.000006955
luoingoaitb
39
.002
-.000078064
.000021971
-0.000124046
-0.000032083
luoidaitb
39
.159
-.000009783
.000006680
-0.000023714
0.000004149
chaf1tb
39
.001
.000022415
.000005907
0.000010057
0.000034773
chaf2tb
39
.001
.000023738
.000006538
0.000010503
0.000036972
chaf3tb
39
.040
.000015797
.000007453
0.000000722
0.000030872
dientb
39
.458
-.00503
.00671
-0.01861
0.00855
hoitb
39
.813
-.00799
.03360
-0.07596
0.05997
nuoctb
39
.680
-.24859
.59778
-1.45772
0.96054
tylebongoai
39
.532
.00065
.00103
-0.00143
0.00273
a loaigiay = trangthap
Đối với nguyên liệu bột giấy, ta quan tâm giảm sử dụng bột nhập ngoại để giảm được giá thành một cách đáng kể sao cho vẫn đảm bảo được các yêu cầu kỹ thuật. Trước tiên, phần phân tích phía trên (ứng với Hình 3.2e) chỉ ra trong tổng số các lơ sản xuất giấy trắng cao, cĩ nhiều lơ dùng lượng bột nhập ngoại thấp hơn hẳn so với những lơ cịn lại. Do đĩ, ta lấy nhĩm gồm 33% số lơ sử dụng ít bột nhập ngoại hơn cả trong số các lơ giấy trắng cao, tính tốn để đề xuất lấy mức ứng với khoảng tin cậy 95% một phía (tối đa) của trung bình lượng bột nhập ngoại sử dụng trong sản xuất 1 tấn giấy của nhĩm đĩ làm định mức bột ngoại nhập cho sản xuất 1 tấn giấy. Để đảm bảo về mặt kỹ thuật, lượng bột giấy tổng cộng dùng cho sản xuất cho 1 tấn giấy phải đạt mức cần thiết. Mức bột giấy cần dùng để đáp ứng yêu cầu kỹ thuật đĩ được xác định bằng giá trị tổng bột giấy trung bình của tất cả các lơ sản xuất giấy trắng cao. Từ đĩ định mức lượng bột giấy tự sản xuất sử dụng cho 1 tấn giấy trắng cao bằng hiệu của tổng bột giấy trung bình và định mức lượng bột giấy ngoại nhập đã tính được như trên.
Bảng 3.14a. Các loại định mức nguyên vât liệu dùng để sản xuất 1 tấn giấy trắng cao
nam
Đơn vị
Dinh muc k e hoach TB
Dinh muc thuc hien TB
Dinh muc kien nghi
botgiaytsxtb
2006
Kg/T
731.57143
655.93857
672.4047
2007
735.00000
661.15538
2008
734.71429
664.99179
botngoaitb
2006
Kg/T
179.14286
242.00619
232.3567
2007
180.00000
242.58692
2008
179.92857
240.11786
keoakdtb
2006
Kg/T
9.78571
9.74048
9.5534
2007
10.00000
9.95654
2008
9.98214
9.94250
betonittb
2006
Kg/T
3.00000
2.96667
2.7212
2007
3.00000
2.90462
2008
3.00000
2.91286
botdatb
2006
Kg/T
130.00000
135.93524
134.0980
2007
130.00000
134.36846
2008
130.00000
134.17000
tinhbottb
2006
Kg/T
9.00000
8.80810
8.1729
2007
9.00000
8.78423
2008
9.00000
8.77500
botbemattb
2006
Kg/T
50.00000
44.59048
43.3060
2007
50.00000
44.04808
2008
50.00000
43.82679
chatbaoluutb
2006
Kg/T
0.40000
0.35667
0.2475
2007
0.40000
0.34577
2008
0.40000
0.34536
keopvatb
2006
Kg/T
1.10000
1.13810
1.0365
2007
1.10000
1.14000
2008
1.10000
1.14000
phammautb
2006
Kg/T
0.18000
0.19095
0.1302
2007
0.18000
0.19000
2008
0.18000
0.19000
tangtrangtb
2006
Kg/T
3.50000
3.28619
4.2358
2007
5.00000
4.66000
2008
4.87500
4.54321
luoitrongtb
2006
Chiếc
0.00013
0.00006
0.00004567
2007
0.00013
0.00004
2008
0.00013
0.00004
luoingoaitb
2006
Chiếc
0.00020
0.00006
0.00008023
2007
0.00020
0.00007
2008
0.00020
0.00007
luoidaitb
2006
Chiếc
0.00010
0.00006
0.00005769
2007
0.00010
0.00005
2008
0.00010
0.00006
chaf1tb
2006
Chiếc
0.00017
0.00013
0.00001376
2007
0.00017
0.00012
2008
0.00017
0.00012
chaf2tb
2006
Chiếc
0.00017
0.00012
0.00001102
2007
0.00017
0.00011
2008
0.00017
0.00011
chaf3tb
2006
Chiếc
0.00017
0.00011
0.00001123
2007
0.00017
0.00010
2008
0.00017
0.00011
a loaigiay = trangcao
Đối với các lơ giấy trắng thấp, yêu cầu kỹ thuật khơng địi hỏi phải dùng nhiều bột giấy nhập ngoại hơn những lơ giấy trắng cao. Do đĩ cĩ thể lấy định mức lượng bột giấy nhập ngoại của giấy trắng cao làm định mức bột nhập ngoại cho cả giấy trắng thấp. Đồng thời ta lấy trung bình tổng lượng bột giấy sử dụng cho tất cả các lơ giấy trắng thấp trừ đi định mức bột nhập ngoại trên để làm định mức của lượng bột tự sản xuất dùng cho 1 tấn giấy trắng thấp.
Bảng 3.14b. Các loại định mức nguyên vât liệu dùng để sản xuất 1 tấn giấy trắng thấp
Nam
Đơn vị
Dinh muc k e hoach TB
Dinh muc thuc hien TB
Dinh muc kien nghi
botgiaytsxtb
2006
Kg/T
731.61538
652.76500
653.6552
2007
727.00000
643.72667
2008
727.40000
647.45150
botngoaitb
2006
Kg/T
179.15385
242.60808
232.3567
2007
178.00000
241.68476
2008
178.10000
239.86700
keoakdtb
2006
Kg/T
9.78846
9.89115
9.4183
2007
9.50000
9.64143
2008
9.52500
9.63650
betonittb
2006
Kg/T
3.00000
2.82423
2.342
2007
3.00000
2.85476
2008
3.00000
2.89400
botdatb
2006
Kg/T
130.00000
136.67692
136.1736
2007
130.00000
139.11810
2008
130.00000
138.69200
tinhbottb
2006
Kg/T
9.00000
8.74385
8.0398
2007
9.00000
8.76333
2008
9.00000
8.80200
botbemattb
2006
Kg/T
50.00000
43.68077
43.0131
2007
50.00000
44.39048
2008
50.00000
44.67250
chatbaoluutb
2006
Kg/T
0.40000
0.34808
0.3406
2007
0.40000
0.35952
2008
0.40000
0.36400
keopvatb
2006
Kg/T
1.10000
1.13923
1.0032
2007
1.10000
1.13714
2008
1.10000
1.13600
phammautb
2006
Kg/T
0.18000
0.19000
0.1704
2007
0.18000
0.19095
2008
0.18000
0.19100
tangtrangtb
2006
Kg/T
3.51923
3.28115
1.5006
2007
1.50000
1.42333
2008
1.67500
1.59450
luoitrongtb
2006
Chiếc
0.00013
0.00006
0.0000623
2007
0.00013
0.00009
2008
0.00013
0.00009
luoingoaitb
2006
Chiếc
0.00020
0.00005
0.0000453
2007
0.00020
0.00003
2008
0.00020
0.00003
luoidaitb
2006
Chiếc
0.00010
0.00005
0.0000557
2007
0.00010
0.00006
2008
0.00010
0.00007
chaf1tb
2006
Chiếc
0.00017
0.00012
0.0012014
2007
0.00017
0.00012
2008
0.00017
0.00013
chaf2tb
2006
Chiếc
0.00017
0.00011
0.0001023
2007
0.00017
0.00012
2008
0.00017
0.00012
chaf3tb
2006
Chiếc
0.00017
0.00010
0.00010142
2007
0.00017
0.00011
2008
0.00017
0.00011
a loaigiay = trangthap
Tương ứng với kiến nghị định mức sử dụng nguyên liệu bột giấy và các phụ liệu như trên thì các chất phụ gia cũng cĩ thể cĩ định mức tiết kiệm hợp lý. Nhưng để đảm bảo kỹ thuật (khơng bị thiếu chất phụ gia) cho quá trình sản xuất chúng ta sẽ lấy cận trên của khoảng tin cậy một phía với mức ý nghĩa 5% để làm định mức cho các chất phụ gia. Kết quả tính tốn lại định mức kiến nghị nĩi trên được cho trong Bảng 3.14a và 3.14b
Từ định mức kiến nghị nêu trên, chúng ta cĩ thể tính lại giá thành cho 1 tấn giấy trắng cao và 1 tấn giấy trắng thấp theo đơn giá nguyên vật liệu hàng năm. Giá thành tính lại này được trình bày trong Bảng 3.15 và được gọi là mức giá kiến nghị. Bên cạnh đĩ, chúng ta tính lại giá thành trung bình đã thực hiện hàng năm của các loại bột giấy để so sánh mức độ tiết kiệm được nếu thực hiện sản xuất theo định mức kiến nghị
Bảng 3.15 Giá thành sản xuất 1 tấn giấy theo định mức đề xuất
Giấy trắng cao
Giấy trắng thấp
Giá thực hiện TB (Đ/T)
Giá kiến nghị (Đ/T)
Chênh lệch (Đ/T)
Giá thực hiện TB (Đ/T)
Giá kiến nghị (Đ/T)
Chênh lệch (Đ/T)
2006
6 876 713
6 803 668
-73 045
6 840 581
6 795 529
-45 052
2007
7 691 035
7 576 558
-114 477
7 515 498
7 456 999
-58 499
2008
7 913 728
7 797 398
-116 330
7 825 461
7 731 357
-94 104
III. Kết luận và kiến nghị
Qua việc phân tích bộ số liệu thu thập được, chúng ta nhận thấy trong quá trình sản xuất của Tổng cơng ty cĩ bộc lộ việc sử dụng các nguyên vật liệu chưa thực sự hợp lý. Đối với quá trình sản xuất bột giấy và sản xuất giấy chúng ta đều cĩ thể đưa ra định mức tiết kiệm nguyên vật liệu đặc biệt là các chất phụ gia.
Đối với hoạt động sản xuất bột giấy, ta thấy năm 2006 sử dụng nhiều nguyên liệu thơ hơn hẳn ở hai năm 2007 và 2008. Nhưng việc sản xuất giấy ở năm 2006 lại khơng thấy rõ hiện tượng lãng phí nguyên liệu là bột giấy dùng trong sản xuất giấy. Điều đĩ chứng tỏ việc điều hành dây chuyền sản xuất bột giấy ở năm 2006 chưa thực sự tốt.
Đối với quá trình sản xuất giấy, việc sử dụng bột nhập ngoại là nên hạn chế vì giá thành bột nhập ngoại cao hơn nhiều so với bơt giấy tự sản xuất trong nước. Theo phân tích ở trên, việc dùng bột giấy nhập ngoại nhều hay ít khơng ảnh hưởng quyết định đến chất lượng của lơ giấy, vì trong số các lơ giấy trắng cao vừa cĩ những lơ đã dùng tỷ lệ bột nhập ngoại cao, lại cĩ những lơ chỉ dùng bột nhập ngoại với tỷ lệ thấp. Điều này giúp đưa ra một gợi ý cho việc giảm giá thành sản xuất: khơng nhất thiết phải dùng nhiều bột ngoại để sản xuất đối với cả giấy trắng thấp và giấy trắng cao.
Việc đưa ra định mức cụ thể để sản xuất bột giấy hay giấy nêu trên cĩ thể làm giảm giá thành so với quy trình sản xuất đã thực hiện ở các năm. Cụ thể định mức kiến nghị cĩ thể giúp tiết kiệm được từ 32.000 đồng đến 79.000 đồng cho việc sản xuất bột trắng cao, từ 134.000 đồng đến 177.000 đồng cho sản xuất 1 tấn bột trắng thấp, giúp giảm giá thành 1 tấn giấy trắng cao từ 73.000 đồng đến 116.000 đồng, giảm giá thành cho 1 tấn giấy trắng thấp từ 45.000 đồng đến 94.000 đồng. Đồng thời việc áp dụng định mức kiến nghị đã nêu sẽ giúp quá trình sản xuất ổn định, cĩ định mức nguyên vật liệu rõ ràng cho sản xuất, tránh sự lãng phí trong các ca làmviệc khi thay đổi bộ phận điều hành.
Tuy nhiên, đề xuất trên đây mới chỉ mang tính tư vấn, nên tham khảo thêm ý kiến của các bộ phận kỹ thuật ở các nhà máy để cĩ những điều chỉnh phù hợp với các điều kiện sản xuất thực tế.
Kết quả nghiên cứu trên đây sẽ mang tính thuyết phụcc hơn, nếu chúng ta cĩ số liệu thu thập của nhiều năm hơn và của nhiều nhà máy hơn. Lúc đĩ ta sẽ cĩ kết quả với các định mức đưa ra cĩ thể áp dụng khơng những cho Tổng cơng ty Giấy mà cịn cĩ thể áp dụng ở các nhà máy giấy khác sản xuất các mặt hàng giấy như ở Tổng cơng ty.
Phương pháp phân tích số liệu như trong bản luận văn cĩ thể áp dụng cho bộ số liệu tương tự trong các ngành khác và cĩ thể cung cấp những bằng chứng mang tính khoa học giúp cho việc nâng cao hiệu quả sản xuất của tồn xã hội.
Tài liệu tham khảo
1) Đào Hữu Hồ, Nguyễn Văn Hữu, Hồng Hữu Như (2004), Thống kê tốn học, NXB Đại học Quốc gia Hà Nội.
2) Nguyễn Văn Hữu, Nguyễn Hữu Dư, (2003), Phân tích thống kê và dự báo, NXB Đại học Quốc gia Hà Nội.
3) Hồ Đăng Phúc (2005), Sử dụng phần mềm SPSS trong phân tích số liệu, NXB Khoa học và Kỹ thuật Hà Nội.
4) Trần Mạnh Tuấn (2004), Xác suất và thống kê-Lý thuyết và thực hành tính tốn, NXB Đại học Quốc gia Hà Nội.
5) I. T. Jollffe, Princial Component Analysis, Springer – Verlag New York Berlin Heidelberg Tokyo
._.
Các file đính kèm theo tài liệu này:
- 31761.doc