Tình hình sản xuất kinh doanh của Tổng Công ty Giấy Việt Nam

LỜI MỞ ĐẦU Ngày 28/11/1982, trên vùng đất Phong Châu lịch sử, Nhà máy Giấy Bãi Bằng – cơng trình của tình hữu nghị, hợp tác Việt Nam – Thụy Điển chính thức khánh thành và đi vào sản xuất, mở ra một bức tranh mới trong lịch sử ngành cơng nghiệp giấy Việt Nam. Trong hơn 25 năm qua, cơng ty Giấy Bãi Bằng đã trải qua một chặn đường nhiều gian nan, thử thách, nhưng cũng đầy kiêu hãnh, tự hào để trở thành con chim đầu đàn của Tổng cơng ty Giấy Việt Nam. Giấy Bãi Bằng đã trở thành một thương hiệu

90 trang | Chia sẻ: huyen82 | Lượt xem: 1439 | Lượt tải: 0

Tóm tắt tài liệu Tình hình sản xuất kinh doanh của Tổng Công ty Giấy Việt Nam, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

nổi tiếng, đạt giải Sao vàng Đất Việt, hàng Việt Nam chất lượng cao. Áp dụng hệ thống quản lý chất lượng theo tiêu chuẩn ISO 9001:2000, sản phẩm Giấy Bãi Bằng càng ngày được nâng cao chất lượng, mẫu mã đa dạng, đáp ứng nhu cầu sử dụng trong nước cũng như xuất khẩu. Giấy Bãi Bằng đã cĩ nhiều đĩng gĩp cho nền kinh tế đất nước và phát triển kinh tế địa phương. Thơng qua đĩng gĩp ngân sách, giảm nhập khẩu hàng hố, kích thích sản xuất nguyên liệu, gĩp phần xĩa đĩi giảm nghèo cho nơng dân các tỉnh trung du, miền núi phía bắc; hình thành một số ngành cơng nghiệp, tiểu thủ cơng nghiệp liên quan đến sản xuất và gia cơng chế biến các sẩn phẩm từ giấy, nhà máy đã tham gia giải quyết việc làm cho hàng vạn lao động xã hội Bài luận văn này là một thử nghiệm nghiên cứu định lượng về tình hình sản xuất kinh doanh của cơng ty Giấy Bãi Bằng nay là Tổng cơng ty Giấy Việt Nam. Số liệu được lấy từ nhà máy Giấy của Tổng cơng ty. Số liệu trên được tổ chức thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng cơng ty trong ba năm 2006, 2007 và 2008. Bằng các phương pháp thống kê thích hợp, luận văn này sẽ phác thảo một phần thực trạng sản xuất tại Tổng cơng ty trong ba năm trên. Sau lời mở đầu, luận văn này sẽ cĩ 3 chương và danh mục tài liệu tham khảo. Chương 1 sẽ trình bày về mục đích nghiên cứu của luận văn. Chương 2 dành để giới thiệu cơ sở lý thuyết của các phương pháp phân tích thống kê được sử dụng trong quá trình phân tích số liệu. Chương 3 đưa ra các kết quả phân tích trong hoạt động sản xuất của Tổng cơng ty, tìm ra những điểm bất hợp lý trong việc phối hợp các thành phần nguyên vật liệu, đề xuất phương án sử dụng nguyên vật liệu tiết kiệm hơn cho quá trình sản xuất. Tại đây các phương pháp thống kê được áp dụng một cách phù hợp để đưa ra những kết luận cĩ tính thuyết phục, đảm bảo tính khoa học. Phần cuối của chương 3 đã đề xuất một số kiến nghị đối với ban lãnh đạo của Tổng cơng ty về việc phối hợp sử dụng các nguyên vật liệu một cách thích hợp trong quá trình sản xuất để nâng cao hiệu quả sản xuất kinh doanh. Luận văn này được hồn thành tại Viện Tốn học, Viện Khoa Học Cơng Nghệ Việt Nam dưới sự hướng dẫn của Tiến sỹ Hồ Đăng Phúc. Tơi xin được bày tỏ lịng biết ơn sâu sắc đối với sự quan tâm chỉ dẫn đầy nhiệt tình của thầy. Tơi xin chân thành cảm ơn các thầy trong Ban lãnh đạo Viện Tốn học, các thầy, cơ tham gia giảng dạy lớp cao học khĩa 15, cùng các thầy cơ ở Trung tâm đào tạo sau đại học của Viện Tốn học đã giúp đỡ tơi trong suốt thời gian học tập. Tơi cũng xin giửi lời cảm ơn tới các anh chị em cao học khĩa 15, nhĩm Semina Xác suất Thống kê, cùng các bạn đồng nghiệp và gia đình đã nhiệt tình đĩng gĩp ý kiến, động viên, giúp đỡ tơi trong suốt quá trình học tập và hồn thành luận văn. Đặc biệt, tơi xin giửi lời cảm ơn sâu sắc tới Lãnh đạo Tổng cơng ty giấy Việt Nam, lãnh đạo và các anh em trong nhà máy giấy đã nhiệt tình và nghiêm túc cung cấp những dữ liệu chính xác quý báu, mà nếu thiếu nguồn số liệu này thì nghiên cứu của tơi khơng thể thực hiện được. Tuy đã cĩ nhiều cố gắng nhưng bản luận văn này cũng khơng tránh khỏi những thiếu sĩt, tác giả rất mong cĩ được sự tham gia đĩng gĩp ý kiến của các thầy cơ giáo, các nhà nghiên cứu Xác suất Thống kê, nghiên cứu kinh tế và các độc giả quan tâm đến bản luận văn này. Hà Nội, ngày 25 tháng 08 năm 2009 Lã Phan Trúc Quỳnh Chương 1 MỤC TIÊU NGHIÊN CỨU Quá trình sản xuất bao gồm hai cơng đoạn chính là cơng đoạn sản xuất bột giấy và cơng đoạn sản xuất giấy. Trước tiên ta sẽ đề cập đến cơng đoạn sản xuất bột giấy với chức năng gia cơng các loại nguyên liệu thơ (gỗ, tre nứa, v.v.) thành bột giấy, làm nguyên liệu đầu vào cho cơng đoạn sản xuất giấy tiếp sau đĩ. 1. Quy trình sản xuất bột giấy Quy trình sản xuất bột giấy được tĩm tắt thành sơ đồ khối trong Hình 1.1. Hình 1.1 Sơ đồ khối của quá trình sản xuất bột giấy Nồi nấu Bể hịa lỗng dịch đen Tháp phĩng Bể chứa dịch trắng lọc dịch trắng Rửa bùn vơi Rửa bột Chưng bốc dịch đen Bể chứa dịch đen đặc Lọc bùn vơi Lị vơi Bể xút hĩa Lọc dịch xanh Bể chứa dịch xanh Rửa cặn Tơi vơi Bể hịa tan dịch nĩng chảy Bể dịch yếu Nồi hơi thu hồi nĩng chảy cặn dịch xanh dịch yếu nước Cặn nước Bể chứa dịch yếu Bùn vơi dịch trắng Bột Vơi dịch đen Mảnh Dăm mảnh (gỗ) sau khi được xử lý một cách thích hợp sẽ được chuyển đến nồi nấu. Ở đây, dăm mảnh sẽ được gia cơng nhiệt, thẩm thấu dịch bằng nhiệt độ. Bột được nấu chín được chuyển sang tháp phĩng bột, từ tháp phĩng bột bột được chuyển sang khu vực rửa bột. Bột sau khi được rửa sẽ chuyển sang khu vực sản xuất giấy. Hình 1.2 Sơ đồ cơng nghệ hệ thống chuẩn bị bột Bể chứa bột hỗn hợp tẩy trắng MC Bể chứa bột Cơ đặc Nghiền đĩa DD Bể chứa bột Máy làm sạch HD Bể chứa bột đã nghiền Bể phối trộn Đánh tơi, nghiền (kiểu vít ép) Phụ gia Bể bột giấy rách thu hồi hệ thống tiếp cận Tồn bộ nước rửa bột (dịch đen) sẽ được thu hồi vào bể dịch đen lỗng. Dịch đen sẽ được chuyển đến các tháp chưng bốc để cơ đặc đến nồng độ thích hợp. Sau khi được cơ đặc dịch đen được chuyển đến bể chứa dịch, rồi được chuyển đến nồi hơi thu hồi. Ở nồi hơi thu hồi, dịch đen được đun để tạo thành dịch nĩng chảy và tạo ra hơi. Hơi sẽ được chuyển sang khu vực sản xuất giấy để sử dụng tiếp. Dịch nĩng chảy sẽ được hịa tan và chuyển thành dịch xanh. Dịch xanh sau khi được lọc sẽ được chuyển vào bể chứa dịch xanh. Bước tiếp theo, cho dịch xanh vào tơi cùng với vơi ta thu được dịch trắng. Chuyển dịch trắng sang bể xút hĩa, tiếp theo dịch trắng sẽ được lọc cặn để thu được dịch trắng sạch. Dịch trắng sạch lại dùng vào để nấu bột thay cho dịch nấu. Hình 1.3 Sơ đồ hệ thống tiếp cận và máy xeo Bể bột trước xeo Bộ tráng phấn Tháp điều tiết bột Cuộn giấy F 3000 Phần sấy trước tráng Cán 3 lơ Máy làm sạch cấp 1 Bể bột + bơm quạt Sàng áp lực cấp 1 Máy làm sạch cấp 2 Máy làm sạch cấp 3 Máy làm sạch cấp 4 Sàng áp lực cấp 2 Phần sấy sau tráng Hịm phun bột Bộ phận lưới Bộ phận ép Dịch tráng Hồn thành MÁY XEO Dịch trắng sau khi được lọc sẽ thải ra cặn (bùn vơi). Bùn vơi được mang đi rửa rồi lọc, tiếp theo sẽ được chuyển vào lị vơi để tơi thành đá vơi và lại mang đi tơi cùng dịch xanh. Cơng nghệ giấy ở đây là một vịng tuần hồn khép kín, lượng thải ra mơi trường khơng đáng kể, lợi nhuận của nhà máy giấy là lớn nếu ta làm tốt các cơng đoạn thu hồi dịch. 2. Quy trình sản xuất giấy Quá trình sản xuất giấy, sử dụng bột giấy cĩ được từ cơng đoạn trên đây (hoặc được mua từ các nguồn khác) để sản xuất thành các loại giấy thành phẩm, được tiến hành thơng qua các giai đoạn chuẩn bị bột giấy và giai đoạn xử lý bằng hệ thống tiếp cận và máy xeo. Các giai đoạn này được tĩm tắt thành sơ đồ khối trong các Hình 1.2 và 1.3. Trong giai đoạn đầu, bột giấy được chuyển sang hệ thống chuẩn bị bột để được nghiền. Bột giấy sau khi được nghiền sẽ cĩ các thơng số về đặc tính thích hợp với loại bột định sản xuất như độ thốt nước, kích thước sơ sợi, ... Lúc đĩ, bột giấy sẽ được chuyển sang hệ thống tiếp cận và máy xeo. Tại hệ thống tiếp cận, bột giấy sẽ được làm sạch nhiều cấp. Sau khi làm sạch, bột chuyển sang bộ phận sàng để sàng lấy những bột hợp cách, tiếp theo bột hợp cách được chuyển sang máy xeo để làm thành giấy thành phẩm và giấy thành phẩm được chuyển sang khu vực hồn thành để gia cơng thành các sản phẩm bán ra thị trường. 3. Mục đích nghiên cứu Mục tiêu nghiên cứu của bản luận văn này là xác định trong các nguyên vật liệu đưa vào sản xuất bột giấy hoặc sản xuất giấy những nguyên vật liệu nào cĩ tác động ảnh hưởng chính đến quá trình sản xuất, từ đĩ cĩ ảnh hưởng đến doanh thu trong hoạt động sản xuất kinh doanh của Tổng cơng ty. Qua việc phân tích xử lý số liệu, xem xét trong quá trình sản xuất của Tổng cơng ty cĩ yếu tố nào là bất hợp lý trong việc phối hợp dùng các nguyên vật liệu để đưa ra các kiến nghị sử dụng định mức tiết kiệm nguyên vật liệu, giúp Tổng cơng ty xây dựng các phương án điều hành hợp lý, cĩ thể hạ giá thành sản xuất, hạ giá thành sản phẩm và làm cho hoạt động kinh doanh của Tổng cơng ty cĩ hiệu quả hơn. 4. Mơ tả số liệu Nghiên cứu thực hiện trên bộ số liệu được thu thập tại nhà máy giấy Bãi Bằng. Số liệu được lấy từ nhà máy Giấy của Tổng cơng ty. Số liệu trên được tổ chức thành hai khối là quá trình sản xuất bột giấy và quá trình sản xuất giấy của Tổng cơng ty trong ba năm 2006, 2007 và 2008. Mỗi tuần Tổng cơng ty sản xuất một lơ bột giấy và một lơ giấy cĩ thơng số kỹ thuật khác nhau là bột giấy trắng cao, bột giấy trắng thấp, giấy trắng cao và giấy trắng thấp. Bảng 1.1. Danh sách các biến sử dụng trong quá trình phân tích Quá trình sản xuất bột giấy Qúa trình sản xuất giấy Tên biến Mơ tả biến Tên biến Mơ tả biến NlieuthoTB Nguyên liệu thơ trung bình botgiaytb Khối lượng bột giấy trung bình (TB) TreTB Khối lượng tre trung bình botgiaytsxtb Khối lượng bột giấy tự sản xuất TB BodeTB Khối lượng bồ đề TB botngoaitb Khối lượng bột giấy ngoại TB BdanTB Khối lượng bạch đàn TB keoakdtb Khối lượng keo akd trung bình VoiTB Khối lượng vơi trung bình betonittb Khối lượng betonit trung bình CloTB Khối lượng Clo trung bình botdatb Khối lượng bột đá trung bình H2O2TB Khối lượng H2O2 TB tinhbottb Khối lượng tinh bột trung bình Na2SO4TB Khối lượng Na2SO4 TB botbemattb Khối lượng bột bề mặt trung bình OxyTB Khối lượng Oxy trung bình chatbaoluutb Khối lượng chất bảo lưu trung bình CphabotTB Lượng chất phá bọt TB keopvatb Khối lượng Oxy trung bình CPTNhuatTB Lượng chất phân tán nhựa trung bình phammautb Khối lượng phẩm màu trung bình CDCanTB Lượng chất đĩng cặn TB tangtrangtb Khối lượng chất tăng độ trắng TB DienTB Khối lượng điện trung bình luoitrongtb Số lưới trong trung bình HoiTB Khối lượng hơi trung bình luoingoaitb Số lưới ngồi trung bình NuocTB Khối lượng nước TB luoidaitb Số lưới dài trung bình XuTCTB Khối lượng xút trung bình chaf1tb Số chăn F1 trung bình chaf2tb Số chăn F2 trung bình chaf3tb Số chăn F3 trung bình dientb Khối lượng điện trung bình hoitb Khối lượng hơi trung bình nuoctb Khối lượng nước trung bình Trong các năm Tổng cơng ty đều cĩ thời gian ngừng sản xuất để sửa chữa bảo dưỡng máy mĩc nên số liệu thu được cụ thể là ở năm 2006 là 42 tuần tương ứng với 42 lơ bột giấy và 42 lơ giấy. Năm 2007 Tổng cơng ty sản xuất trong 47 tuần ứng với 47 lơ bột giấy và 47 lơ giấy. Đối với năm 2008 số lơ bột giấy và số lơ giấy đã sản xuất được đều là 48 lơ. Khối lượng sản phẩm của từng lơ bột giấy hay từng lơ giấy cũng khơng giống nhau. Sau khi thu thập số liệu, để tiến hành nghiên cứu phân tích số liệu đã cĩ, chúng ta lấy số nguyên liệu đưa vào trong sản xuất từng lơ bột giấy hay lơ giấy chia cho sản lượng từng tuần để được số nguyên vật liệu trung bình để sản xuất 1 tấn bột giấy hoặc 1 tấn giấy tương ứng. Các biến được sử dụng trong phân tích quá trình sản xuất 1 tấn bột giấy hoặc 1 tấn giấy được cho trong Bảng 1.1. 5. Phương pháp phân tích Trước hết, chúng ta sử dụng phương pháp nghiên cứu thành phần chính để xem trong tổ hợp các nguyên liệu đưa vào sản xuất bột giấy và giấy, tìm ra những yếu tố nào là yếu tố chi phối chủ đạo trong quá trình sản xuất. Tiếp theo, chúng ta sẽ tách riêng hai loại bột giấy và giấy cĩ thơng số kỹ thuật khác nhau là bột trắng cao, bột trắng thấp, giấy trắng cao, giấy trắng thấp và tách riêng từng năm, dùng phép kiểm định t – Student để so sánh giá trị trung bình của các nguyên liệu đầu vào xem cĩ gì khác nhau hay khơng, từ đĩ tìm ra các yếu tố chưa hợp lý trong quá trình sản xuất của Tổng cơng ty. Từ việc tìm ra những yếu tố chưa hợp lý trong quá trình sản xuất nĩi trên, chúng ta sẽ đưa ra kiến nghị về tiêu chuẩn sử dụng các nguyên vật liệu để vừa đảm bảo chất lượng cho quá trình sản xuất vừa tiết kiệm được nguyên vật liệu từ đĩ cĩ thể giúp Tổng cơng ty hạ giá thành sản xuất, hạ giá thành sản phẩm giúp hoạt động kinh doanh của Tổng cơng ty cĩ hiệu quả hơn. Trong tính tốn để đưa ra định mức kiến nghị đối với các chất phụ gia, khoảng tin cậy 95% của giá trị trung bình của từng chất phụ gia được dùng để xác định mức tối đa của từng chất phụ gia dùng sản xuất 1 tấn bột giấy hay 1 tấn giấy. CHƯƠNG 2 CƠ SỞ LÝ THUYẾT CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ I. Phương pháp phân tích thành phần chính 1. Giới thiệu bài tốn phân tích thành phần chính Khi nghiên cứu tổng thể bao gồm các cá thể mang nhiều đặc trưng khác nhau, người ta cĩ thể áp dụng hai cách tiếp cận gọi là phân tích dọc và phân tích ngang. Phân tích dọc cĩ mục đích chỉ ra các đặc tính hay dấu hiệu khác nhau tồn tại trong tổng thể cĩ quan hệ với nhau như thế nào, trong khi phân tích ngang lại nghiên cứu cá thểvới những dấu hiệu nĩi trên trong các mối quan hệ xét theo từng cặp hay trong những nhĩm cá thể. Hãy xét một thí dụ sau: Các doanh nghiệp vừa và nhỏ ở thành phố A thường được xem xét như những cá thể của một tổng thể. Để mơ tả một doanh nghiệp người ta dùng 4 chỉ tiêu - Giá trị tài sản cố định, - Lượng lao động thường xuyên được sử dụng, - Tỷ lệ lợi nhuận thơ, - Lương tháng bình quân của người lao động. Rõ ràng là hệ thống các chỉ tiêu này cĩ thể dùng so sánh các doanh nghiệp và nĩ cĩ thể cho biết các quan hệ giữa chính các chỉ tiêu này trong phạm vi đang xét, chẳng hạn lượng lao động và giá trị tài sản cố định quan hệ chặt chẽ với nhau và cùng chiều nhưng cĩ thể giá trị tài sản cố định và lương bình quân quan hệ cũng rất chặt chẽ nhưng lại ngược chiều. Điều đĩ cĩ thể đúng với các doanh nghiệp vừa và nhỏ ở thành phố A mà khơng đúng với các doanh nghiệp vừa và nhỏ ở thành phố B. Về phía các doanh nghiệp, với những chỉ báo cụ thể nĩ trên người ta cĩ thể và rất muốn định vị các doanh nghiệp vừa và nhỏ thành phố A từ đĩ thấy được sự khác biệt của mỗi doanh nghiệp so với doanh nghiệp khác. Để làm được các phân tích trên người ta cĩ thể cĩ thể dùng các phương pháp phân tích tương quan nhiều chiều, tuy nhiên điều đĩ hầu như khơng giải quyết được bằng các cơng cụ thơng thường. Việc giải quyết bài tốn trên dựa trên tư tưởng cơ bản sau đây: Mỗi cá thể coi như một phần tử của tổng thể (P) với số phần tử (M) hữu hạn hay vơ hạn, mỗi chỉ tiêu coi như một biến, một số đo hay một đặc trưng của cá thể. Mỗi cá thể được xác định bởi một véc tơ p chiều mà mỗi thành phần của véc tơ đĩ là giá trị của một biến. Trong nghiên cứu tổng thể với các biến như trên, nhiều khi người ta cần tìm cách tổ hợp của các biến, tức là tổ hợp p véc tơ M chiều, lại thành các véc tơ đơi một trực giao. Mỗi véc tơ này coi là một thành phần hay một biến mới, đo lường các cá thể trên một mặt nào đĩ. Với số tổ hợp xác định trước, chúng ta thu được một hệ thống chỉ báo (nĩi chung khơng cĩ thực). Trong hệ thống này, mỗi chỉ tiêu ban đầu, cũng là mỗi biến ban đầu, cĩ phần đĩng gĩp của mình tạo nên các chỉ báo đĩ. Chẳng hạn với p tiêu thức (biến) ban đầu ta lập Yk = uk1 X1 + uk2X2 + ..... + ukpXp. Mỗi bộ số (véc tơ) uk xác định một biến yk và tương ứng với Yk ta cĩ các giá trị tương ứng của các cá thể. Mỗi cá thể cĩ thể được biểu diễn bởi một véc tơ mới mà mỗi thành phần của véc tơ này là hệ số phân tích qua một biến mới (gọi là một thành phần chính). Nhờ đĩ, ta cĩ thể mơ tả được quan hệ giữa các cá thể đĩ. Thí dụ. Trong thí dụ này các thành phần chính sẽ khơng hình thành theo một tiêu chuẩn khách quan mà hình thành theo ý tưởng chủ quan của người thiết kế. Trong Bảng 1.a là số liệu của 13 nước với các chỉ tiêu: P là tổng số dân (1000 người), F là mật độ dân số (người/km2) và U là tỉ lệ dân thành thị. Bảng 1.a. Số dân, mật độ dân số và tỷ lệ dân thành thị P E U Afghanistan 20500 25.0 18 Argentina 33900 12.0 86 Armenia 3700 126.0 68 Australia 17800 2.3 85 Austria 8000 94.0 58 Azerbaijan 7400 86.0 54 Bahrain 600 828.0 83 Bangladesh 125000 800.0 16 Barbados 256 605.0 45 Belarus 10300 50.0 65 Belgium 10100 329.0 96 Bolivia 7900 6.9 51 Giả sử cĩ hai tiêu chuẩn nhân khẩu học được áp dụng để phân tích các tiêu thức cũng như các quốc gia này. Các trọng số để xây dựng hai tiêu chuẩn đĩ được ấn định như trong Bảng 1.b. Bảng 1.b. Trọng số xác định các tiêu thức nhân khẩu học mới P F U Quan điểm 1 -0,15 0,05 0,25 Quan điểm 2 -0,2 -0,1 0,40 Các trọng số này khơng xuất phát từ chính số liệu mà xuất phát từ quan niệm chủ quan (sau này ta sẽ mơ tả cách xác định chúng một cách khách quan theo những chuẩn mực nhất định) Mỗi quốc gia được mơ tả bởi 1 véc tơ 2 chiều S = [S(1), S(2)] với S(1) = - 0,15P + 0,05F + 0,25U S(2) = - 0,20P - 0,10F + 0,40U Trong khơng gian hai chiều (S1, S2) ta cĩ thể mơ tả các biến. Mỗi biến tương ứng là 1 véc tơ n chiều: P, F, U. Để đánh giá mối quan hệ giữa các tiêu chuẩn mới lập với các tiêu thức ban đầu, người ta tính các hệ số tương quan (rPS1, rPS2); (rFS1, rFS2) ; (rUS1, rUS2). Mỗi cặp hệ số này xác định 1 điểm trong siêu phẳng tạo bởi S1 và S2. Với thí dụ này ta cĩ vị trí của các biến P, F, U như trong Hình 1.a. Bảng 1.c. Số liệu nhân khẩu học theo các tiêu thức ban đầu và tiêu thức mới P E U S1 S2 Afghanistan 20500 25.0 18 -3069.25 -4095.3 Argentina 33900 12.0 86 -5062.9 -6746.8 Armenia 3700 126.0 68 -531.7 -725.4 Australia 17800 2.3 85 -2646.64 -3526.23 Austria 8000 94.0 58 -1180.8 -1586.2 Azerbaijan 7400 86.0 54 -1092.2 -1467 Bahrain 600 828.0 83 -27.85 -169.6 Bangladesh 125000 800.0 16 -18706 -25073.6 Barbados 256 605.0 45 3.1 -93.7 Belarus 10300 50.0 65 -1526.25 -2039 Belgium 10100 329.0 96 -1474.55 -2014.5 Bolivia 7900 6.9 51 -1171.91 -1560.29 Nếu dùng SPSS để thành lập các tiêu thức mới thay cho các thành lập mang tính chủ quan trên đây, ta sẽ cĩ biểu diễn của các tiêu thức ban đầu trên mặt phẳng của hai tiêu thức mới trong Hình 1.b. Với kết quả này ta giải thích ý nghĩa các véc tơ S1, S2 dễ dàng hơn. Vì U nằm sát trục S1, cịn F nằm gần trục S2, nên cĩ thể xem S1 là tỉ lệ dân cư thành thị và S2 là mật độ dân số. Ở phần sau, khi đã được cung cấp đầy đủ hơn về cơ sở lý thuyết, chúng ta sẽ nĩi rõ thêm về cách phân tích đối với các thành phần chính. Hình 1.a. Các biến ban đầu trong mặt phẳng xác định bởi hai tiêu thức mới Hình 1.b. Các biến ban đầu trong mặt phẳng của hai tiêu thức mới do SPSS tạo ra Kỹ thuật phân tích thành phần chính là một bộ phận của phân tích nhân tố. Phân tích nhân tố nĩi chung và phân tích thành phần chính nĩi riêng, được sử dụng cho phân tích những số liệu lớn. Về mặt cơng cụ, đối với kỹ thuật này người ta cần sử dụng các phép biến đổi trong khơng gian tuyến tính. Đặc biệt, các kỹ thuật liên quan đến véc tơ riêng và giá trị riêng của ma trận đối xứng xác định dương sẽ là cơng cụ yếu tố khơng thể thiếu trong việc xác định các thành phần chính, các nhân tố chính cũng như các thành phần khác trong phương pháp này. Cũng chính vì lý do này, người ta chỉ cĩ thể thực hiện các mơ hình phân tích nhân tố cho các bộ số liệu cỡ lớn khi cĩ sự hỗ trợ của các phần mềm thống kê chuyên dụng. 2. Bài tốn phân tích nhân tố trong khơng gian 2 và 3 chiều Hãy xem xét trường hợp cĩ hai biến X và Y được quan sát trên n cá thể. Phương pháp thống kê tốn học cung cấp lý thuyết phân tích tương quan để xem xét mối quan hệ của hai biến ngẫu nhiên. Mỗi cá thể Ai cĩ thể mơ tả bởi một điểm trong R2 nhờ các tọa độ (xi, yi) như trong các biểu đồ ở Hình 2.a. Hình 2.a bên trái cho thấy sự khác nhau giữa hai đối tượng A1 và A2 cĩ thể đặc trưng bằng khoảng cách d(A1,A2) giữa hai điểm A1 và A2 trên đồ thị. Tuy nhiên khi chiếu vuơng gĩc lên trục x (khơng quan tâm đến y) thì khoảng cách này gần hơn khi chiếu vuơng gĩc lên trục y và cả hai khoảng cách sau phép chiếu đề nhỏ hơn d(A1,A2), nĩi chính xác hơn là d2(A1A2) = d2(x1,x2) + d2 (y1, y2). Nĩi một cách khác, khi chỉ dùng một yếu tố là x hoặc y để xem xét sự khác biệt giữa hai đối tượng A1 và A2 thì một phần thơng tin đã bị mất đi. Nếu khơng muốn mất thơng tin thì tốt nhất là chọn một đường thẳng song song với đường thẳng đi qua A1, A2. Khi chiếu vuơng gĩc hai điểm này lên đường thẳng như vậy khoảng cách ảnh bằng khoảng cách ban đầu. Hình 2.a. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng Hình 2.a bên phải cũng cho kết luận tương tự, nhưng cĩ thể chứng tỏ rằng theo các toạ độ ban đầu khi trục Ox khơng vuơng gĩc với trục Oy thì d2(A1A2)=d2(x1,x2)+d2(y1,y2)=d2(u1,u2)+d2(w1,w2) - 2 d2(u1,u2)(w1,w2)cosin(xOy) Như vậy nếu muốn phản ánh sát nhất liên hệ của hai cá thể A1 và A2, cần phải chọn một trục sao cho khoảng cách của các hình chiếu xấp xỉ tốt nhất khoảng cách ban đầu. Với n > 2 cá thể, ý tưởng trên dẫn đến yêu cầu bảo tồn tối đa sự khác biệt của các cá thể khi xét trên cả p tiêu thức. Để cĩ thể tưởng tượng rõ ràng hơn cách tiếp cận này chúng ta xét trường hợp các cá thể trong khơng gian ba chiều R3. Giả sử mỗi cá thể được đặc trưng bởi 3 tiêu thức X1, X2, X3 và xét hai cá thể Ai, Aj được mơ tả bởi hai điểm trong R3. Gọi D1 và D2 là hai đường thẳng trực giao tạo nên mặt phẳng (F), hãy xem xét phép chiếu trong Hình 2.b. Hình 2.b. Các cách khác nhau để đánh giá sự khác biệt giữa hai đối tượng Khoảng cách của ảnh Ai, Aj sau phép chiếu là khoảng cách d2(fi, fj). Khoảng cách này cĩ thể xác định như sau: d2(fi, fj) = d2(c1i,c1j) + d2(c2i, c2j) <= d2 (Ai, Aj) Như vậy nếu chọn một trục để chiếu ta sẽ chọn trục nào cĩ khoảng cách hai tọa độ chiếu lớn hơn. Tổng quát, đối với trường hợp cĩ n điểm, ta cần chọn các trục D1, D2 sao cho trung bình của tổng bình phương các khoảng cách giữa các điểm fi ảnh của Ai là lớn nhất. 3. Bài tốn trong khơng gian p chiều Xét bài tốn trong trường hợp mỗi cá thể cĩ thể xem xét qua p chỉ tiêu. Một hệ trục tọa độ của khơng gian p chiều gồm các trục: D1, D2,… Dp đơi một trực giao cĩ thể được hình thành nhờ việc chọn lần lượt các trục D1, D2 .... theo thứ tự giảm dần của tổng bình phương các khoảng cách của các hình chiếu. Việc lựa chọn số chiều khơng gian chiếu phụ thuộc vào nhiều yếu tố khác nhau, như mức phân tán trong các mối quan hệ của p tiêu thức ban đầu, yêu cầu về bảo tồn thơng tin, ... Tuy vậy, với ý muốn quan sát được số liệu một cách trực quan, người ta cĩ thể cố gắng bảo tồn thơng tin ở mức chấp nhận được với số chiều khơng gian nhỏ nhất. Người ta luơn hướng tới tới khơng gian 2 chiều hay 3 chiều, vì trong các khơng gian này việc mơ tả hình học khá thuận tiện đối với người sử dụng. Trong phân tích nhân tố người ta sử dụng các khái niệm sau: + Mỗi véc tơ Di gọi là một trục chính của đám mây số liệu ban đầu. + Mỗi điểm Ai chiếu lên p trục chính sẽ cĩ p giá trị tương ứng, các giá trị này lập nên véc tơ Ci trong khơng gian p chiều. + Với n cá thể (n điểm) Ai, Aj, .....An, ta cĩ ma trận C = (cij). Mỗi cột của ma trận này là một véc tơ trong Rn , được gọi là một thành phần chính. + Mỗi thành phần chính Ck cĩ thể biểu diễn qua các cột tương ứng với các tiêu thức ban đầu (Xi) dưới dạng: Ck = uk1X1 + ...... + ukpXp Véc tơ các hệ số tổ hợp nối trên (Uk) được gọi là nhân tố chính thứ k. Trường hợp bản thân các tiêu thức ban đầu hồn tồn độc lập, phân tích này cũng cho phép lựa chọn một khơng gian cĩ số chiều ít hơn mà qua đĩ việc mơ tả mối liên hệ của các cá thể bị sai lệch ít nhất. Trong trường hợp các tiêu thức ban đầu khơng độc lập, ta cĩ kết quả tốt hơn rất nhiều, đĩ là tìm được cách diễn đạt mỗi cá thể qua các tiêu thức hồn tồn độc lập với nhau. Tuy nhiên, khĩ khăn ở đây chính là ban đầu mỗi cá thể được thể hiện qua p tiêu thức quan sát được, nhưng kết quả mỗi cá thể thể hiện qua q tiêu thức khơng quan sát được. Việc xác định ý nghĩa kinh tế, xã hội của các tiêu thức này luơn khĩ khăn đối với người thực hành Ngồi phương pháp phân tích thành phần chính, một sơ phương pháp khác như phân tích tương ứng, phân tích tương quan chính tắc, phân nhĩm, ... cũng được xây dựng trên ý tương cơ bản đã trình bày trên đây. 4. Biểu diễn số liệu Trước tiên ta đề cập tới việc biểu diễn số liệu trong các phân tích thống kê nhiều chiều nĩi chung và trong phân tích nhân tố nĩi riêng. Thơng thường việc biểu diễn các số liệu nhiều chiều được trình bầy dưới ngơn ngữ véc tơ và ma trận trong các khơng gian tuyến tính thực. a. Số liệu và các đặc trưng i - Bảng số liệu Giả sử cĩ n quan sát (n cá thể lập nên 1 mẫu), mỗi quan sát cĩ p tiêu thức (biến). Số liệu đĩ cĩ thể trình bầy trong bảng sau: Gọi X*i là dịng thứ i của x với các phần tử xi1, xi2 .... xip. Đĩ là véc tơ các giá trị của các biến quan sát được ở cá thể thứ i . Một dịng của X cịn cĩ thể gọi một cách ngắn gọn là một cá thể. - Xj là là cột thứ j của X nĩ bao gồm các giá trị của một biến tại tất cả các cá thể. Một cột của X cĩ thể gọi là một biến hay một tiêu thức. Như vậy, mỗi cá thể biểu hiện bằng một véc tơ dịng p chiều, mỗi tiêu thức thể hiện qua n cá thể bởi một véc tơ cột n chiều. ii – Ma trận trọng số Nếu như mỗi dịng của X tương ứng duy nhất 1 cá thể thì trọng số của các cá thể như nhau và cĩ thể lấy bằng 1/n. Tuy nhiên, thực tế cĩ thể một dịng của X ứng với một số cá thể nào đĩ, như vậy để thể hiện đúng vai trị của đám đơng trong phân tích thống kê ta cĩ thể đặt cho mỗi dịng (mỗi cá thể đại diện) một trọng số pi. Các trọng số như vậy cĩ thể mơ tả bởi một ma trận gọi là ma trận trọng số như sau: Các trọng số này thơng thường là các tần suất dịng trong bảng số liệu thơ. Mỗi dịng chỉ mang thơng tin của một cá thể thì cĩ thể viết D = E trong đĩ E là ma trận đơn vị cấp n. iii - Điểm trung bình (trung tâm) của đám mây số liệu và ma trận quy tâm Mỗi dịng của X cĩ thể xem là một điểm trong khơng gian Rp, n điểm tạo nên một tập hợp gọi là một đám mây số liệu, ta gọi véc tơ trung tâm của X hay điểm trung tâm của đám mây này là g thì g cĩ thể tính như sau: g = XTDI, trong đĩ I là véc tơ cĩ tất cả các thành phần bằng 1 trong khơng gian Rn. Dễ dàng kiểm tra thấy g là một véc tơ p chiều. Chẳng hạn cho ma trận X ở Bảng 2.a với các biến X1 = tuổi thọ trung bình X2 = tỷ lệ tăng dân số X3 = tỷ lệ chết trẻ em X4 = GDP/đầu dân cư Bảng 2.a. Số liệu nhân khẩu học theo các tiêu thức ban đầu i X1 X2 X3 X4 44 2.8 168.0 205 75 1.3 25.6 3408 75 1.4 27.0 5000 80 1.4 7.3 16848 79 2 6.7 18396 75 1.4 35.0 3000 74 2.4 25.0 7875 53 2.4 106.0 202 78 2 20.3 6950 76 3 19.0 6500 Tỉng 709 13.8 439.9 68384 Giả sử các số liệu này thống kê ở 10 nước khác nhau. Ta chọn các trọng số đều là 0,1. Véc tơ trung tâm của đám mây số liệu cĩ các thành phần là trung bình của các thành phần trung bình của các quan sát. Véc tơ chuyển vị của véc tơ trung tâm là gT = (70.9, 1.38, 43.99, 6838.4) Việc quy tâm hĩa đám mây số liệu thực hiện bằng cách lập các véctơ chênh lệch của các cá thể với véc tơ g qua việc lập ma trận Y = X - IgT (gT là chuyển vị của g) Trong thí dụ trên tích IgT là một ma trận cĩ n dịng (n = 10) như sau: Từ đĩ, thực hiện phép trừ ma trận Y Y = Ma trận này mơ tả thơ sự khác biệt hay sự phân tán của các cá thể so với mức trung bình. iv – Ma trận hiệp phương sai và ma trận hệ số tương quan Rõ ràng ma trận Y trên đây chưa cung cấp một đặc trưng rõ ràng về sự khác biệt giữa các đối tượng. Một cách thơng thường nếu Y chỉ cĩ hai dịng thi khoảng cách của hai véc tơ này (được định nghĩa theo một cách nào đĩ) sẽ cho một độ đo về sự khác biệt. Trong trường hợp tổng quát hồn tồn cĩ thể làm tương tự như vậy, chỉ cĩ khác là chúng ta khơng thể dùng một số thực để đo sự khác biệt giữa nhiều cá thể mà phải dùng một ma trận. Dễ dàng thấy việc đo sự khác biệt giữa các dịng của ma trận Y hồn tồn tương đương với việc tìm cách đo sự khác biệt của các dịng của X. Sau đây trở lại với chính ma trận X và thấy rõ hơn vai trị của Y. Đặc trưng quan trọng nĩi lên mức phân tán của mỗi biến và độ liên hệ giữa chúng là ma trận hệ số tương quan và ma trận hiệp phương sai. Các ma trận này cĩ thể tính như sau: + Ma trận hiệp phương sai Với các trọng số 1/n ta cĩ thể tính ma trận hiệp phương sai V theo cơng thức V = XT D X - ggT Một cách tổng quát, các phần tử của V = XT D X - ggT được tính qua biểu thức , véc tơ trung tâm g cũng được tính theo trọng số như sau: . Với ví dụ trong Bảng 2a ta cĩ ma trận hiệp sai V là V= Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trân này dễ dàng tìm được các phương sai của các biến (các cột của X). Cĩ thể chứng tỏ rằng: V = XT D X- ggT = YT D X, + Ma trận hệ số tương quan Gọi ma trận D1/S là ma trận đường chéo với các thành phần là 1/Se(Xj)=1/sj) D1/s = Như đã biết Cov(Xi,Xi) = Var(Xi) nên từ ma trận này dễ dàng tìm được các phương sai của các biến (các cột của X). Cĩ thể chứng tỏ rằng: V = XT D X- ggT = YT D X, Chuẩn hĩa ma trận X ta cĩ ma trận Z = (zij), trong đĩ cĩ thể nhận được ma trận này nhờ cơng thức: Z = YD1/s Nhờ các cơng thức trên ta cĩ ma trận chuẩn hĩa của ma trận X ở thí dụ trên là Z = Ma trận hệ số tương quan tuyến tính của các biến (R) được tính như sau: R = D1/s VD1/s = ZTDZ Và ma trận hệ số tương quan nhận được là R = Chú ý Z cĩ véc tơ trung tâm là véc tơ 0, nên R cũng chính là ma trận hiệp phương sai của Z. 5. Khơng gian các cá thể Các cá thể của tổng thể được mơ tả bằng véc tơ với các thành phần là các giá trị của p biến như đã nêu ở trên. Ta sẽ coi mỗi cá thể như vậy là một điểm trong khơng gian FP (với số chiều bằng p) Tập hợp một số các cá thể tạo nên một đám mây trong F với g là điểm trung tâm của đám mây này. Để cĩ thể phân tích thống kê đối với các đám mây trong F ta thống nhất một số khái niệm làm cơ sở phân tích sau này. a- Khoảng cách Khoảng cách trong khơng gian tuyến tính thơng thường được sử dụng là khoảng cách Ơcolit. Thơng thường người ta định nghĩa khoảng cách giữa 2 điểm X1 và X2 theo cơng thức Pithagorre như sau: d2 = (x11 – x21)2 + (x12 – x22)2 + ..... + (x1j – x2j)2 + ....... + (x1p – x2p)2 Tuy nhiên nếu như mỗi cột của X cĩ một trọng số aj > 0 thì khoảng cách trên cĩ thể được tính bằng cách thêm các nhân tử tương ứng, tức là d2 = a1(x11 – x21)2 + a2(x12 – x22)2 + ... + ai(x1j – x2j)2 + ... + ap(x1p – x2p)2, hay d2 = (X1 – X2)T (X1 – X2) . b- Khoảng cách M (metric M) Một cách tổng quát cĩ thể chọn một ma trận đường chéo dương M và khoảng cách hai điểm trong khơng gian được xác định theo cơ._.ng thức sau: d2 = (Xi – Xj)T M (Xi – Xj), trong đĩ M là một ma trận đường chéo dương cấp p. Trong trường hợp này tích vơ hướng của hai véc tơ cũng xác định tương tự, = XiTMXj Chuẩn của một véc tơ được tính theo cơng thức Trong phân tích thống kê nếu chỉ quan tâm đến độ phân tán của các biến, thì M thường xác định qua ma trận hiệp phương sai. Để cĩ một độ đo khoảng cách theo nghĩa mức tương ứng, trong phân tích thành phần chính ta cĩ thể sử dụng ma trận M cĩ đường chéo là nghịch đảo của các phương sai của các biến. Điều đĩ tương đương với việc chia tất cả các biến cho độ lệch tiêu chuẩn của nĩ. Cách làm này làm cho sự khác biệt về độ đo dùng cho các biến khác nhau khơng cịn nữa. Ma trận hiệp phương sai của các biến đã biến đổi chính là ma trận hệ số tương quan của các biến ban đầu. Với cách tính này ta cĩ Chú ý rằng ma trận M được xác định như trên là một ma trận xác định dương nên nĩ luơn tồn tại biểu diễn M = TTT là ma trận vuơng cấp p. Từ đĩ ta sẽ cĩ tích vơ hướng được tính bằng = XiTMXj = XiTTTTXj = (TXj)T (TXi) Biểu thức này cho thấy mối liên hệ giữa các độ đo trong khơng gian nhiều. Với độ đo M bất kỳ nhờ phép biến đổi trên ta cĩ thể quy về độ đo M = E, đây chính là độ đo Ơcơlit thơng thường. c- Quán tính Người ta gọi tổng quán tính của đám mây với tâm của nĩ là tổng các khoảng cách (đo bằng metric – M) từ các điểm đến tâm của đám mây đĩ. Đại lượng này được tính như sau: Nếu ta chọn một điểm a nào đĩ thay cho g ta sẽ tính được Ia theo cơng thức trên. Theo cơng thức Huyghens ta cĩ , trong đĩ là chuẩn của véc tơ (g-a) theo metric M. Ngồi ra khi g = 0 ta cĩ . Người ta cịn chứng minh được rằng , tức là 2 lần tổng quán tính bằng trung bình bình phương của các khoảng cách giữa các cá thể. Theo cơng thức xác định ma trận hiệp phương sai, ta cĩ thể tính tổng quán tính Ig qua ma trận V và m như sau: Ig = TraceMV = TraceVM, trong đĩ TraceA (vết của A) là tổng các phần tử trên đường chéo của A. Như vậy, - Nếu M=E (E là ma trận đơn vị) thì tổng quán tính chính là tổng phương sai của các biến. - Nếu M = D1/S2 thì tổng này sẽ là tổng các phần tử trên đường chéo ma trận R hay tổng quán tính bằng p (số biến số), mà khơng phụ thuộc vào các giá trị của các biến số đĩ. Trở lại thí dụ trên nếu ta chọn khoảng cách Ơcolit cho khơng gian các cá thể thì tổng quán tính của đám mây số liệu nĩi trên là tổng các phần tử trên đường chéo của V, tính được như sau: Ig = 132.89 + 0.8056 + 2421.4429 + 35289619.24 = 35292174.3175 Cịn nếu ta chọn M = D1/S2 thì Ig = 4. Như vậy quán tính của một đám mây số liệu khơng xác định một cách duy nhất, mà phụ thuộc vào metric được dùng để đo khoảng cách giữa các điểm của đám mây. Hệ quả của điều đĩ là các kết quả phân tích thành phần chính sẽ khác nhau nếu ta dùng ma trận hiệp phương sai và ma trận hệ số tương quan để xác định hai metric khác nhau trong khơng gian các quan sát. 6. Tạo biến và phép chiếu trong khơng gian tuyến tính a- Tạo biến mới Trong khơng gian tuyến tính mỗi véc tơ n chiều là một tập hợp cĩ thứ tự các hệ số phân tích của chính véc tơ đĩ theo một hệ cơ sở đơn vị. Tuy nhiên khơng gian n chiều cĩ vơ số các hệ cơ sở (mỗi hệ n véc tơ độc lập tuyến tính là một cơ sở). Như vậy một véc tơ Xj khác khơng bất kỳ cĩ thể trở thành một véc tơ cơ sở của một cơ sở nào đĩ. Mặt khác cho trước một hệ p véc tơ của Rn ta luơn cĩ thể tạo ra các véc tơ khác nhờ tổ hợp tuyến tính từ hệ này. Trong phân tích thống kê thì mỗi cách tổ hợp như vậy tạo nên một thống kê từ một mẫu cĩ kích thước p. Thực chất của một thống kê là một cách tổng hợp thơng tin, theo đĩ người ta cĩ được những hiểu biết về tổng thể mà mỗi cá thể khơng thể hiện được. Trở lại với khơng gian cá thể F đã nĩi ở trên, ta cĩ thể tạo nên những véc tơ mới từ n véc tơ đã cĩ nhờ các phép tổ hợp tuyến tính, mà theo đĩ các cá thể được phản ánh tập trung hơn ở một khía cạnh nào đĩ. Chẳng hạn khi xác định véc tơ g (véc tơ trung bình mẫu hay véc tơ trung tâm) ta đã cĩ một véc tơ mới mà từ đĩ cĩ thể mơ tả cá thể nhờ khoảng cách từ nĩ đến g, hay nhờ véc tơ chỉ sự khác biệt của mỗi cá thể với trung bình chung. Tuy nhiên mục đích của chúng ta, như đã nêu từ đầu, là tĩm tắt thơng tin p chiều thành thơng tin cĩ số chiều ít hơn. Phép chiếu từ Rp lên một siêu phẳng cho phép chúng ta tĩm tắt thơng tin như vậy. Biến mới được tạo ra ở đây là một tổ hợp tuyến tính của các biến ban đầu (các cột của X), như vậy sự liên hệ của các biến ban đầu với biến được tạo mới chính là các hệ số tổ hợp (hay ngược lại là các hệ số phân tích). b- Phép chiếu. Với khơng gian các biến F, phép tổ hợp tuyến tính các véc tơ Xj (j = 1...p) tạo nên các véc tơ mới trong F. Với các véc tơ này các cá thể trong E Ì Rp được biểu diễn bằng các véc tơ mới trong E’ Ì Rk (E’ thường cĩ số nhiều nhỏ hơn E rất nhiều). Các véc tơ mới này chính là các hình chiếu của các véc tơ ban đầu trên hệ tọa độ mới của F. Chẳng hạn, nếu ta lấy tổ hợp tuyến tính của các cột trong X là: D = 0,1X1 – 0,2X2 + X3 + 0,5X4 Thì ta cĩ D là một véc tơ n chiều trong F, mỗi cá thể cĩ một giá trị theo D như sau: Cá thể X1 X2 X3 X4 Hình chiếu 1 44 2.8 168 205 274.34 2 75 1.3 25.6 3408 1736.84 3 75 1.4 27 5000 2534.22 4 80 1.4 7.3 16848 8439.02 5 79 0.2 6.7 18396 9212.56 6 75 1.4 35 3000 1542.22 7 74 2.4 25 7875 3969.22 8 53 2.4 1.6 202 211.82 9 78 0.2 20.3 6950 3503.06 10 76 0.3 19 6500 3276.54 HS tổ hợp 0.1 -0.2 1 0.5 Thực tế là khi xác định một véc tơ mới như D, chúng ta đã đưa ra một cách quy đổi chung cho các biến theo một cách nào đĩ, với một mục đích nào đĩ, một ánh xạ từ R4 về R1 hay trên một trục. Hình chiếu nhận được của các cá thể như một trong các chỉ tiêu tổng hợp để phân biệt các cá thể theo quan điểm tương ứng, chúng ta cũng cĩ thể tạo ra một ánh xạ khác tương tự như trên và nhận được ảnh của các cá thể trên một trục khác. Một điểm (một dịng của X) ứng với cá thể i: Xi* cĩ ảnh qua phép chiếu (mà sau này được xác định là phép chiếu vuơng gĩc) trên trục D là fi. Trên trục D xác định một véc tơ chỉ phương a cĩ độ dài bằng 1 (theo metric nào đĩ), lúc đĩ Xi* tương ứng với một giá trị ci là khoảng cách từ gốc x đến fi. Với n cá thể ta cĩ n giá trị c1, c2, ....., cn lập nên một véc tơ c (Da) trong F. Như vậy, ci = aTM Xi* = Xi*TMa = M Từ đĩ ta cĩ c = X.M.a. Đặt Ma = u, u là một véc tơ trong F, ta cĩ c = Xu. Véc tơ c là hình chiếu của X trên u. Nếu ký hiệu u = ta cĩ c = . Như vậy c là tổ hợp tuyến tính của các cột Xj trong ma trận X (ma trận các biến). Với phép biến đổi này ta cĩ tương ứng mỗi véc tơ đơn vị a một véc tơ hình chiếu c cĩ các tọa độ là các hình chiếu của các véc tơ dịng trong X (ứng với các cá thể) qua phép biến đổi XMa. Cĩ thể xác định tối đa p véc tơ đơn vị trong F (khơng gian p chiều) và tương ứng ta cĩ một tập các véc tơ c là các tổ hợp tuyến tính khác nhau của các cột trong X. Nhờ phép biến đổi này ta cĩ thể chiếu các cá thể trong F (n cá thể) lên một khơng gian cĩ số chiều ít hơn. Điều đĩ cho phép nhận diện rõ hơn các quan hệ giữa các cá thể này cũng như các chỉ tiêu, các biến ban đầu. Quan hệ của véc tơ chỉ phương a và véc tơ u cĩ thể tĩm tắt bằng biểu thức sau: a = M-1u . Như vậy, theo metric M, bình phương độ dài của véc tơ a là aTMa, cịn bình phương độ dài của véc tơ u là uTM-1u. Cĩ thể tìm được phương sai của véc tơ c như sau: Var(c) = cTDc = (Xu)TD(Xu) = uTXTDXu = uTVu, trong đĩ V là ma trận hiệp phương sai của X. Đây là biểu thức hết sức quan trọng, cho phép xác định được mức độ bảo tồn độ biến động của số liệu X sau một phép chiếu lên một trục ứng với véc tơ chỉ phương a (ảnh của phép chiếu được thể hiện qua véc tơ c). 7. Phân tích thành phần chính qua phép chiếu lên khơng gian con Nội dung cơ bản của phân tích thành phần chính là tìm cách chiếu các điểm của một đám mây n điểm trong khơng gian p chiều thành một đám mây n điểm trong khơng gian con r chiều (r < p). Phép chiếu này phải thực hiện sao cho quán tính của đám mây ảnh là lớn nhất. Như vậy, phép chiếu đảm bảo trung bình của tổng bình phương các khoảng cách của các điểm trong khơng gian con lớn nhất cĩ thể được. Với phép chiếu P mỗi véc tơ dịng của X sẽ được biến đổi thành một véc tơ trong Fr qua cơng thức fi = P Xi* (một véc tơ cột) hay fiT = XiPT (một véc tơ dịng) Ma trận hiệp phương sai của đám mây ảnh sẽ là (XPT)TD(XPT = P V PT Quán tính tổng của đám mây ảnh là Trace(PVPTM) Nhờ một vài biến đổi ta cĩ Trace(PVPTM) = Trace (VMP). Vấn đề cịn lại là tìm P sao cho với r cho trước, tức là tìm khơng gian chiếu Fr, giá trị của Trace(VMP) lớn nhất. Mệnh đề sau đã được chứng minh: Mệnh đề 1. Cho khơng gian con Fr, cĩ quán tính lớn nhất thì một khơng gian con r + 1 chiều cĩ quán tính của đám mây ảnh lớn nhất bằng tổng trực giao của khơng gian Fr và khơng gian 1 chiều, cĩ quán tính của đám mây ảnh lớn nhất. Với mệnh đề này thuật tốn tìm khơng gian chiếu Fr sẽ bắt đầu từ khơng gian con một chiều F1 cĩ quán tính của đám mây ảnh lớn nhất. a- Trục chính Trong khơng gian F Ì Rp các cá thể, ta phải tìm một đường thẳng đi qua g (véc tơ trung tâm của đám mây số liệu) sao cho quán tính của đám mây ảnh (ảnh đám mây số liệu ban đầu) trên trục này lớn nhất. Giả sử a là véc tơ chỉ phương của đường thẳng nĩi trên, phép chiếu M vuơng gĩc lên đường thẳng này xác định qua P = a (aT M a)-1aTM . Quán tính của đám mây ảnh sẽ là TraceVMP = Trace VM a (aT Ma)-1aTM = . Ma trận MVM được gọi là ma trận quán tính của đám mây, nĩ xác định một dạng tồn phương mà giá trị của nĩ, đối với tất cả các véc tơ a cĩ chuẩn (độ dài) theo độ đo M bằng 1, biểu diễn quán tính của đám mây ảnh trên trục tạo bởi véc tơ chỉ phương a. Ma trận này là ma trận hiệp phương sai nếu M = E (ma trận đơn vị). Để tìm giá trị cực đại của quán tính nĩi trên ta cĩ thể sử dụng cơng cụ quen biết, theo đĩ, trước tiên điểm dừng phải thỏa mãn điều kiện đạo hàm bậc nhất theo a bằng khơng (mọi đạo hàm riêng bậc nhất theo các tọa độ a bằng khơng), tức là . Chú ý rằng aTMa là một số thực nên từ điều kiện trên ta cĩ . Cĩ thể thấy rằng aTMVMa là một số thực nên khi M khơng suy biến ta cĩ Như vậy, a là véc tơ riêng của ma trận VM, cịn là một giá trị đặc trưng (hay cịn gọi là giá trị riêng) của VM. Giá trị riêng này lại chính là quán tính của đám mây ảnh trên trục chứa véc tơ chỉ phương a. Vậy ta cần tìm a (trục thứ nhất) tương ứng với giá trị riêng lớn nhất. Người ta chứng minh được rằng tiêu chuẩn bậc 2 (điều kiện đủ) được thỏa mãn tại giá trị riêng này. Từ đĩ ta cĩ Mệnh đề 2. Khơng gian r chiều (Fr) cĩ cơ sở là r véc tơ chỉ phương tương ứng với r giá trị riêng lớn nhất (theo thứ tự giảm dần) của ma trận VM. Ta gọi các véc tơ riêng a của VM là các trục chính. b. Nhân tố chính Như đã biết, một véc tơ riêng a tìm được tương ứng một dạng tuyến tính u (theo kết quả ở phần trên). Véc tơ u là một phần tử của khơng gian R*P, khơng gian đối ngẫu của khơng gian cá thể F. Nĩ được xác định bởi một tổ hợp tuyến tính của các cột trong X. Với trục chính a ta xác định một véc tơ u = Ma gọi là nhân tố chính. Cĩ thể thấy u là véc tơ riêng của MV. Thật vậy, VMa = la, từ đĩ ta cĩ: MVMa = lMa = lu . Biểu thức này chứng tỏ u là véc tơ riêng của MV, và MV cĩ cùng giá trị riêng l. Thực tế là RP xác định một độ đo (metric) M và khơng gian đối ngẫu của nĩ R*P cũng được xác định một metric M-1. Trong đĩ uTM-1u = 1 (u là véc tơ cĩ chuẩn bằng 1). Các véc tơ u lập nên các nhân tố chính M vuơng gĩc. c- Các thành phần chính Véc tơ c là một tổ hợp tuyến tính các cột của X gọi là một thành phần chính của X nếu c thỏa mãn một số tính chất nào đĩ về phương sai. Một cách cụ thể tiêu chuẩn của c là phương sai của phép biến đổi tuyến tính đã nĩi ở trên lớn nhất. Trở lại với phép chiếu đã nĩi ở trên, sau khi cĩ các trục chính ta cũng cĩ được các nhân tố chính ui tương ứng. Véc tơ các thành phần chính (c) là véc tơ nhận được từ phép biến đổi (phép chiếu) X lên các trục ui, Ci = Xui . Cĩ thể thấy các thành phần chính này cĩ các đặc trưng như sau: V(Ci) = li (i = 1....r) Nếu gọi C là ma trận (chứa các cột như các biến mới) lập bởi các thành phần chính thì ma trận hiệp phương sai của các thành phần chính đĩ là L, ma trận chỉ chứa các phần tử khác 0 trên đường chéo, cĩ giá trị lần lượt bằng li (i = 1....r). Cũng như các trục chính và các nhân tố chính, các thành phần chính là các véc tơ riêng của ma trận XMXTD. Thật vậy: MVu = lu trong đĩ V = XTDX. Vậy MXTDXu = lu, hay XMXTDXu = lXu . Thay Xu = c , ta cĩ XMXTDc = lc . Biểu thức này chứng tỏ c là véc tơ riêng của XMXTD ứng với giá trị riêng l. Cĩ thể tĩm tắt tồn bộ nội dung trên như sau: Thành phân phân tích Phương trình xác định độ đo Nhân tố chính u MVu = lu Chuẩn M-1 Trục chính a VM a = la Chuẩn M Thành phần chính c XMXTc = lc D- trực giao Các liên hệ c = Xu, l, u = Ma 8. Thuật tốn xác định các thành phần chính Thực tế khi chúng ta phân tích một tổng thể qua một mẫu, việc chọn số thành phần chính tùy thuộc vào yêu cầu sử dụng và phân tích kết quả, tuy nhiên thơng thường để nhìn thấy trực quan kết quả phân tích thành phần chính người ta thường chọn r = 2 hoặc 3. Tất nhiên càng chọn nhiều thành phần chính thì mức giải thích càng cao. Số giá trị khác nhau l theo các phương trình nĩi ở cuối mục b là số nghiệm của đa thức cấp p. Chẳng hạn, khi tìm trục chính ta cần giải phương trình VM a = la . Phương trình này tương đương với phương trình (VM - El) a = 0 . Phương trình trên cĩ nghiệm khác khơng khi và chỉ khi định thức |VM - El| = 0 . Mặt khác, định thức |VM - El| là một đa thức bậc p của l. Thơng thường, đa thức này cĩ p nghiệm. Hơn nữa, vì ma trận VM là một ma trận đối xứng xác định khơng âm, các nghiệm trên đều là các nghiệm thực, khơng âm. Theo các kết quả nĩi trên, để đám mây ảnh cĩ quán tính lớn nhất thì trục chính thứ nhất là véc tơ a ứng với giá trị riêng lớn nhất của ma trận VM. Trục chính thứ hai là véctơ a ứng với giá trị riêng thứ 2 của ma trận VM, v.v. Để minh họa một cách đơn giản cho tất cả các nội dung nĩi trên ta xét một thí dụ nhỏ sau đây: Hãy xét chỉ hai biến ở thí dụ đang xét ở phần trên, với X1 X2 44 2.8 75 1.3 75 1.4 80 1.4 79 0.2 75 1.4 74 2.4 53 2.4 78 0.2 86 0.3 Ta thực hiện tìm các giá trị riêng của VM với các trọng số của các cá thể đều bằng 1/10. Để đơn giản ta chọn M = E (độ đo thơng thường). Cĩ thể tính được V = Phương trình xác định l là 48.1966 - 133.6956l + l2 = 0 Nghiệm của phương trình này là l1 = 133.33, l2 = 0.361 Nếu ta chọn l1 để chiếu các cá thể lên một trục, thì trục này cĩ véc tơ chỉ phương a xác định qua hệ phương trình (132.88 – 133.33)a1 -7.672a2 = 0 - 7.672a1 (0.8056 – 133.33)a2 = 0 a12 + a22 = 1 (điều kiện chuẩn a bằng 1) Ta cĩ hai nghiệm a2 = (-0.45/-7.672), a1 = 0.058655a1 a1 = 0.99657, a2 = 0.058454 Cĩ thể mơ tả trục u trên R2 như trong Hình 3. Hình 3. Hình chiếu của quan sát lên trục chính Chọn một điểm Xi (cá thể i) chiếu xuống u ta cĩ hình chiếu fi) . Các tọa độ của 10 cá thể trên trên u cĩ thể tính theo cơng thức C = Xa, thu được (44.02; 74.82; 74.83; 79.81; 78.74; 74.83; 73.89; 52.96; 77.74; 75.76) Trong trường hợp tổng quát, ta cĩ thuật tốn tìm các giá trị riêng như sau: + Tìm l1 : - Đặt A(1) = VM; - Cho y0 là một véc tơ khác khơng bất kỳ và tính cho i = 1,2,… các véc tơ xi = A(1)yi-1, yi = ; - Lặp lại bước trên với yi được lấy làm giá trị ban đầu cho tới khi đạt được sự hội tụ của dãy {yi}; - Giới hạn của dãy {yi} sẽ xác định véc tơ riêng y(1), cịn giới hạn sẽ là trị riêng l1 tương ứng của véc tơ đĩ. Chú ý là thuật tốn trên cĩ thể cho ra hai véc tơ riêng trái chiều nhau của cùng một trị riêng l1. Lúc đĩ ta cĩ thể lấy một trong hai véc tơ đĩ làm đại diện cho thành phần chính thứ nhất. + Tìm lk: Sau khi đã cĩ cặp trị riêng và véc tơ riêng (lk-1,yk-1), ta đặt A(k) = A(k-1) - lk-1y(k-1)(y(k-1))T Tiếp tục thuật tốn trên với A(k) ta sẽ thu được cĩ cặp trị riêng và véc tơ riêng tiếp theo. Về mặt lý thuyết khơng cĩ gì phải bàn cãi nhiều khi tìm cặp trị riêng và véc tơ riêng (kể cả việc chứng minh sự tồn tại của chúng). Nhưng rõ ràng là về mặt kỹ thuật việc tìm nghiệm của đa thức bậc p > 3 khơng phải là việc đơn giản, dù biết chúng là các nghiệm thực đi chăng nữa. Chính điều này làm cho người ta phải chờ đến những bước tiến vượt bậc của tin học. Thủ thuật lặp vừa được trình bầy với sự trợ giúp của máy tính sẽ giúp giải quyết vướng mắc trên đây. Về số thành phần chính, khi phân tích nhân tố nĩi chung người ta thường chọn số thành phần tối thiểu theo mức giải thích đã xác định trước. Phần tiếp theo ta sẽ bàn kỹ hơn về vấn đề này. 9. Tái hiện dữ liệu, phân tích và đánh giá kết quả a- Tái hiện dữ liệu Khi tiến hành thủ tục phân tích thành phần chính, ta đã biến một đám mây thành một đám mây ảnh của nĩ trong các khơng gian cĩ số chiều nhỏ hơn, với điều kiện tối đa hĩa sự khác biệt của các cá thể (các điểm của đám mây ban đầu). Để cĩ thể đánh giá trở lại vai trị của các biến ban đầu ta cần tìm lại một số cơng thức liên hệ ngược, các cơng thức này thực tế là các phép chiếu ngược của phép chiếu đã xét ở trên. Nĩi như vậy hồn tồn khơng cĩ nghĩa là từ ảnh của một đám mây ta hồn tồn cĩ thể tìm lại chính đám mây đĩ một cách dễ dàng. Từ cơng thức Xuj = cj ta cĩ Trong khi uj là các véc tơ cĩ chuẩn bằng 1, . Từ đĩ ta cĩ X = . Tương tự, cĩ thể khơi phục bảng số liệu (đã quy tâm) nhờ các cơng thức Khi chọn M = E (ma trận đơn vị) thì , trong đĩ zj là các véctơ riêng của XXT và vjT là các véc tơ riêng của XTX. b- Tương quan của các thành phần chính và các biến ban đầu Ta thấy nếu ban đầu cĩ p biến hồn tồn độc lập thì việc phân tích nhân tố bằng phương pháp đã trình bày ở trên hồn tồn khơng mang lại một chút ích lợi nào. Thật vậy về mặt thống kê ta thấy khi ấy ma trận hệ số tương quan là một ma trận đơn vị, mỗi véc tơ của X là một thành phần chính và hầu như chúng vuơng gĩc với nhau. Lúc đĩ mỗi biến phản ánh một mặt độc lập của các cá thể và như vậy khơng cĩ gì phải phân tích, vì trong trường hợp này bỏ đi biến nào ta mất hồn tồn thơng tin các cá thể trong biến đĩ. Trong thực tế ta thường gặp trường hợp ngược lại, khi các biến ban đầu khơng độc lập với nhau. Lúc đĩ mỗi thành phần chính khơng đại diện riêng cho một biến ban đầu nào mà đại diện cùng một lúc cho nhiều biến với các mức độ khác nhau và ta cĩ thể dùng hệ số tương quan của các thành phần chính với các biến ban đầu để xem xét tính đại diện đĩ. Nếu các hệ số tương quan của một thành phần chính với một số biến ban đầu cĩ giá trị lớn thì thành phần chính này đại diện cho các biến ban đầu đĩ ở một mức độ cao và thành phần chính ấy mang ý nghĩa chung của nhĩm biến ban đầu đĩ. c- Lựa chọn số lượng thành phần chính để tái hiện dữ liệu Mục tiêu của phương pháp phân tích thành phần chính là tìm được một khơng gian cĩ số chiều tương đối nhỏ sao cho viện tái hiện dữ liệu trên khơng gian con đĩ bảo tồn được thơng tin nhiều nhất cĩ thể được. Như trên đã nĩi, nếu các biến ban đầu hồn tồn độc lập với nhau thì việc tiến hành phân tích thành phần chính sẽ khơng cĩ ý nghĩa, vì bỏ bớt đi biến nào thì khi tái hiện dữ liệu sẽ bị mất hẳn phần thơng tin do biến đĩ cung cấp. Tình hình cũng hồn tồn tương tự, nếu các biến ban đầu khơng độc lập, song các thành phần chính lại chứa đựng lượng thơng tin xấp xỉ như nhau, vì ta sẽ mất một lượng thơng tin đáng kể khi bỏ bớt đi nhiều thành phần chính phía sau. Do vậy, việc tiến hành phân tích thành phần chính chỉ cĩ ý nghĩa khi một số ít thành phần chính đầu tiên chứa đựng lượng thơng tin vượt trội hẳn so với các thành phần chính cịn lại. Lượng thơng tin được nĩi đến đây được thể hiện bằng giá trị của phương sai hấp thụ trên trục chính ứng với mỗi thành phần chính, chính bằng trị riêng ứng với véc tơ riêng xác định thành phần chính đĩ. Như vậy, để xác định số lượng thành phần chính được sử dụng tái tạo lại dữ liệu, ta cĩ thể dùng đồ thị so sánh các trị riêng ứng với các thành phần chính, chọn các thành phần chính đầu tiên cĩ trị riêng tương ứng lớn hơn hẳn so với các thành phần chính phía sau để tiến hành phân tích tiếp. II. Uớc lượng tham số Trong phần này ta xét bài tốn ước lượng tham số, một trong những bài tốn quan trọng và cĩ nhiều ứng dụng của thống kê tốn. Bài tốn: Cho biến ngẫu nhiên X với tham số chưa biết, dựa vào thơng tin mẫu (X1, X2, … Xn) hãy ước lượng tham số . 1. Ước lượng điểm Thống kê (hàm đa biến) dùng làm ước lượng cho tham số được gọi là ước lượng điểm cho . Với mẫu cụ thể (x1, x2, … xn), giá trị của thống kê là , giá trị này cĩ thể lấy làm giá trị ước lượng tương ứng cho . Ví dụ 1: Đối với biến ngẫu nhiên X, thống kê: là một ước lượng điểm cho: . Giá trị cụ thể của ước lượng điểm này là. 2. Ước lượng khoảng Trong phần trên ta nĩi đến việc tìm ước lượng điểm cho tham số dựa vào dữ liệu mẫu. Tuy nhiên, vấn đề quan trọng là làm thế nào để đánh giá được chất lượng của một ước lượng thu được trong khi ước lượng điểm khĩ cho ta một kết luận chính xác về độ sai lệch giữa tham số và ước lượng điểm của nĩ. Trong mục này ta sẽ đưa ra một cách tiếp cận khác để ước lượng tham số đĩ là ước lượng khoảng. Phương pháp này được sử dụng rộng rãi khi tiến hành các phép kiểm định trong các lĩnh vực khoa học, kỹ thuật, kinh tế. a. Khái niệm Khoảng với hai đầu mút ngẫu nhiên được gọi là ước lượng khoảng (hai phía) cho tham số với độ tin cậy nếu . Khoảng và gọi là ước lượng một phía cho với độ tin cậy nếu . Với mẫu cụ thể (x1,x2,…,xn) giá trị của khoảng ước lượng cho là * Đối với khoảng ước lượng hai phía: * Đối với khoảng ước lượng phía trái: * Đối với khoảng ước lượng phía phải: Hiệu u- l của khoảng ước lượng hai phía được gọi là độ chính xác của ước lượng. b. Ước lượng khoảng cho kỳ vọng của biến ngẫu nhiên phân phối chuẩn Cho biến ngẫu nhiên với tham số chưa biết và mẫu ngẫu nhiên (X1, X2,…,Xn) cĩ giá trị cụ thể (x1,x2,…,xn) . Ta cần tìm ước lượng khoảng cho tham số kỳ vọng . + Trường hợp đã biết. Từ tính chất của phân phối chuẩn, ta cĩ . Với độ tin cậy ta cần tìm điểm sao cho Hình 2.1 Đồ thị phân phối chuẩn và các phân vị xác định khoảng tin cậy Trong đĩ phân vị thoả mãn . Tra bảng phân phối chuẩn ta tìm được . Với mẫu cụ thể (x1,x2,…,xn), ta cĩ khoảng ước lượng (hai phía) cho là Tương tự ta cĩ các khoảng ước lượng một phía của là - Ước lượng giá trị tối thiểu, , trong đĩ , tra bảng phân phối chuẩn ta tìm được . - Ước lượng giá trị tối đa, + Trường hợpchưa biết Khi chưa biết phương sai thì trước tiên ta phải ước phương sai mẫu và đưa phương sai mẫu đĩ vào cơng thức xác định một thống kê thích hợp để làm tiêu chuẩn kiểm định giả thuyết. Trong trường hợp này người ta thường dùng thống kê Người ta chứng minh được rằng thống kê này cĩ phân phối Student với n-1 bậc tự do. Lúc đĩ, với độ tin cậy ta tìm được điểm phân vị sao cho trong đĩ phân vị được tìm từ bảng phân phối Student. Vậy với mẫu cụ thể ta cĩ khoảng ước lượng hai phía cho là Tương tự ta cĩ các khoảng ước lượng một phía là: - Ước lượng giá trị tối thiểu, với phân vị được tìm từ bảng phân phối Student - Ước lượng giá trị tối đa . III. Kiểm định giả thuyết thống kê Giả thuyết thống kê là một mệnh đề nhận định về tham số của tổng thể. Khi ta đồng nhất tổng thể với một biến ngẫu nhiên thì giả thuyết thống kê cũng cĩ thể là nhận định về phân phối xác suất của biến ngẫu nhiên. Ký hiệu là giả thuyết của tham số tổng thể, đi kèm với giả thuyết là mệnh đề đối lập được gọi là đối thuyết, ký hiệu là . Bài tốn kiểm định giả thuyết thống kê gồm một cặp giả thuyết và đối thuyết . Dựa vào thơng tin mẫu lấy được từ tổng thể ta phải đưa ra quyết định bác bỏ hay chấp nhận giả thuyết , việc chấp nhận giả thuyết tương đương với bác bỏ đối thuyết và ngược lại. Miền bác bỏ Một trong những cách giải quyết bài tốn kiểm định giả thuyết là dùng một thống kê G, được gọi là tiêu chuẩn thống kê. Định nghĩa1: Thống kê được gọi là một tiêu chuẩn thống kê (test statistics) nếu giá trị của nĩ được dùng để xem xét bác bỏ hay chấp nhận giả thuyết.Ứng với mẫu cụ thể quan sát được, giá trị của tiêu chuẩn thống kê T được ký hiệu là . Ta sẽ dựa vào giá trị này để đưa ra kết luận chấp nhận hay bác bỏ giả thuyết đang xét bằng cách so sánh giá trị đĩ với miền tiêu chuẩn Định nghĩa 2: Miền W trong R được gọi là miền bác bỏ hay miền tiêu chuẩn nếu miền này được dùng cùng với tiêu chuẩn thống kê T và giá trị cụ thể của tiêu chuẩn đĩ để đưa ra kết luận về giả thuyết . Cụ thể, Nếu thì bác bỏ giả thuyết . Ngược lại, nếu thì chấp nhận . Khi bác bỏ hay chấp nhận giả thuyết thì ta gặp phải hai loại sai lầm Sai lầm loại I: Bác bỏ giả thuyết nhưng thực tế là đúng. Sai lầm loại II: Chấp nhận giả thuyết H0 nhưng thực tế là sai. Quyết định bác bỏ hay chấp nhận giả thuyết hồn tồn dựa vào thơng tin mẫu, do đĩ ta sẽ cĩ xác suất mắc sai lầm loại I và sai lầm loại II. Ký hiệu là xác suất mắc sai lầm loại I. =P(sai lầm loại I) = P(bác bỏ | đúng) Lúc đĩ được gọi là mức ý nghĩa. Ký hiệu là xác suất mắc sai lầm loại II. = P(sai lầm loại II) = P( chấp nhận | sai) = P(chấp nhận | đúng) Trường hợp đặc biệt, khi dùng tiêu chuẩn T và miền bác bỏ W để tiến hành kiểm định giả thuyết, ta sẽ cĩ Khi tiến hành kiểm định, người ta luơn mong muốn sao cho cĩ thể cực tiểu hĩa cả hai loại sai lầm loại I và loại II, tuy nhiên khi cỡ mẫu cố định thì mong muốn trên là khơng thực hiện được, vì nĩi chung sai lầm loại I giảm xuống sẽ kéo theo sai lầm loại II tăng lên. Chẳng hạn, khi dùng tiêu chuẩn T và miền bác bỏ W để tiến hành kiểm định giả thuyết, để giảm bớt sai lầm loại I (), ta phải thu nhỏ miền bác bỏ W, thay thế bằng một miền . Tuy nhiên điều đĩ dẫn đến và sai lầm loại II () lại tăng lên. Vì những lý do trên, trong thực hành người ta thường cố định xác suất mắc sai lầm loại I và tìm cách làm cực tiểu sai xác suất sai lầm loại II. Thơng thường giá trị của thường được lấy rất nhỏ, bằng 0.05, 0.02 hoặc 0.01. 2. Các bước làm bài tốn kiểm định Để tiến hành kiểm định giả thuyết, thơng thường người ta cĩ thể sử dụng miền tiêu chuẩn, xác suất ý nghĩa hoặc ước lượng khoảng của các tiêu chuẩn hay tham số thống kê, với các bước thực hiện tương ứng. Sử dụng miền tiêu chuẩn Để giải quyết một bài tốn kiểm định giả thuyết thống kê thơng qua việc sử dụng miền tiêu chuẩn, người ta thường thực hiện các bước sau: Bước 1: Xác định tham số cần kiểm định, đặt giả thuyết và đối thuyết. Bước 2: Xác định tiêu chuẩn thống kê và tính giá trị của tiêu chuẩn thống kê đối với giá trị mẫu đã cho. Bước 3 : Xác định miền bác bỏ W. Bước 4: So sánh giá trị của tiêu chuẩn thống kê với miền bác bỏ W và kết luận bác bỏ hay chấp nhận giả thuyết H0. b) Sử dụng xác suất ý nghĩa (p-value) Nếu ta bác bỏ giả thuyết khi thấy một giá trị cụ thể a của mẫu xuất hiện, thì ta cũng hái bác bỏ giả thuyết đĩ cho những giá trị khác của mẫu thuộc vào một miền xác định bởi a. Chẳng hạn với giả thuyết cần kiểm định là “Chi tiết máy được gia cơng cĩ kích thước đạt tiêu chuẩn”, nếu ta bác bỏ giả thuyết khi đo thấy sản phẩm cĩ kích lệch so với quy định 1 milimét thì ta cũng phải bác bỏ giả thuyết cho mọi sản phẩm khác đo được kích thước lệch so với quy định nhiều hơn 1 milimét. Cĩ thể về thực chất thì các sản phẩm đĩ đều cĩ kích thước đạt tiêu chuẩn nhưng do những tác động ngẫu nhiên trong quá trình đo đạc mà ta cĩ kết luận sai, dẫn đến việc phạm sai lầm với một xác suất nào đĩ.Tập hợp chứa các giá trị của mẫu phải bác bỏ khi đã bác bỏ một giá trị cụ thể cho trước của mẫu cĩ một xác suất phạm sai lầm được gọi là xác suất ý nghĩa ứng với giá trị cụ thể đĩ. Chính xác hơn, ta cĩ định nghĩa sau: Định nghĩa 3: Ứng với một giá trị mẫu cụ thể của tiêu chuẩn thống kê dùng kiểm định giả thuyết, xác suất ý nghĩa (p-value) là giá trị của xác suất phạm sai lầm nếu bác bỏ giả thuyết H0 khi ta cĩ giá trị mẫu cụ thể đĩ trong khi giả thuyết là đúng đối với mẫu đang xét. Ta thấy xác suất ý nghĩa chính là xác suất phạm sai lầm loại I đã trình bày ở phía trên. Xác suất này nhỏ tương ứng với khả năng phạm sai lầm khi bác bỏ giả thuyết là nhỏ và ta cĩ thể bác bỏ giả thuyết mà khơng e ngại cĩ sai lầm. Ngược lại thì ta phải chấp nhận giả thuyết vì khả năng phạm sai lầm sẽ lớn. Như vậy ta cĩ thể sử dụng xác suất ý nghĩa để giải quyết bài tốn kiểm định theo thủ tục tiến hành các Bước 1 và 2 như trình bày ở trên và làm tiếp. Bước 3’ : Tính xác suất ý nghĩa tương ứng với giá trị cụ thể của tiêu chuẩn thống kê đã cĩ ở Bước 2 Bước 4’ : So sánh xác suất ý nghĩa trên đây với mức ý nghĩa đã định trước (thường được cho bằng 5%, 1%, 0.5% hoặc 0.1%), nếu xác suất ý nghĩa nhỏ hơn hoặc bằng mức ý nghĩa thì bác bỏ giả thuyết, cịn nếu ngược lại thì phải chấp nhận giả thuyết. Ngồi hai thủ tục trên, nhiều bài tốn kiểm định cĩ thể được tiến hành bằng cách sử dụng các ước lượng khoảng của các tham số hoặc các tiêu chuẩn thống kê, khá tiện dụng trong cả các tính tốn bằng tay và cả khi cĩ sự trợ giúp của máy tính. c) Dùng khoảng tin cậy của tham số hoặc tiêu chuẩn thống kê Để tiến hành kiểm định bằng khoảng tin cậy, ta tiến hành Bước 1 như đã nêu ở phần trên. Tiếp đĩ, ta thực hiện Bước 2’’: Xác định tiêu chuẩn thống kê và tìm khoảng tin cậy (ước lượng khoảng) của tiêu chuẩn đĩ (hoặc của tham số cần quan tâm) ứng với mẫu đã cĩ và độ tin cậy đã định trước. Bước 3’’: So sánh khoảng tin cậy trên với một giá trị đã định, nếu khoảng tin cậy khơng chứa giá trị đĩ thì bác bỏ giả thuyết, cịn nếu khoảng tin cậy chứa giá trị đĩ thì phải chấp nhận giả thuyết. Tiếp sau đây sẽ trình bày chi tiết một số bài tốn kiểm định giả thuyết cụ thể, qua đĩ sẽ làm sáng tỏ hơn cách vận dụng các thủ tục trên đây. 3. Kiểm định tham số a) Kiểm định kỳ vọng của biến ngẫu nhiên cĩ phân phối chuẩn Trong phần này ta xét giả thuyết về kỳ vọng của biến ngẫu nhiên X cĩ phân phối chuẩn . Giả sử ta cĩ mẫu ngẫu nhiên (X1, X2, …, Xn) với giá trị mẫu là (x1, x2, …, xn) được rút ra từ biến ngẫu nhiên X . Trong phần trước ta đã biết rằng là một ước lượng khơng chệch cho kỳ vọng m. Tuy nhiên ta chưa biết giá trị thực của m và muốn kiểm tra xem giá trị đĩ cĩ thực sự khác giá trị m0 cho trước hay khơng. Ta thành lập bài tốn kiểm định như sau Giả thuyết : , đối thuyết : hoặc : hoặc H1: Trường hợp đã biết Bài tốn 1 Hình 3.1. Miền tiêu chuẩn đối với phân phối chuẩn._.hẩm màu, điện sử dụng ở sản xuất giấy trắng thấp cũng cao hơn ở giấy trắng cao. Ở giấy trắng thấp là 139.19; 0.362; 0.1908 (Kg); 0.6974Kw/h trong khi ở giấy trắng cao là 134.54; 0.346; 0.19(Kg); 0.6874Kw/h với xác suất ý nghĩa đều nhỏ hơn 5%. Ở giấy trắng cao lại sử dụng nhiều chất tăng trắng hơn hẳn so với giấy trắng thấp với khối lượng tương ứng là 4.5955Kg và 1.5214Kg với xác suất ý nghĩa bằng 0.000 Việc sản xuất giấy trắng cao cĩ sử dụng nhiều chất tăng trắng hơn hẳn giấy trắng thấp là hợp lý nhưng tại sao trong sản xuất giấy trắng thấp lại sử dụng nhiều bột ngoại, bột đá và một vài các chất phụ gia hơn sản xuất giấy trắng cao. Điều đĩ cĩ thể giải thích là đã cĩ sự lãng phí nguyên vật liệu hay trong sản xuất giấy trắng thấp cấn dùng nhiều bột đá tương ứng với tỷ lệ thành phần các loại bột giấy và một số các chất phụ gia khác được giảm giá thành sản phẩm. Cĩ thể việc lý giải như vậy là chưa thực sự hợp lý. Để tìm hiểu hiện tượng trên ta sẽ tách riêng hai loại giấy và so sánh giữa các năm về mức sử dụng nguyên vật liệu trong từng loại giấy. Dùng phép kiểm định t-Student để phân tích theo ý vừa nĩi trên, ta thu được kết quả trong các Bảng từ 3.10a đến 3.13b. Bảng 3.9b. Giá trị trung bình của nguyên liệu bột giấy và chất phụ gia trong hai loại giấy Loaigiay Don vi N Mean Std. Deviation Std. Error Mean botgiaytb Trang cao Kg 78 904.7614 8.82862 .99964 Trang thap 59 886.0119 3.48619 .45386 keoakdtb Trang cao Kg 78 11.2044 10.86957 1.23074 Trang thap 59 9.6254 .15098 .01966 betonittb Trang cao Kg 78 2.9105 .16282 .01844 Trang thap 59 2.8663 .12861 .01674 botdatb Trang cao Kg 78 134.5476 5.57184 .63089 Trang thap 59 139.1917 3.13368 .40797 tinhbottb Trang cao Kg 78 8.8068 .19178 .02171 Trang thap 59 8.8031 .16889 .02199 botbemattb Trang cao Kg 78 43.3038 4.78576 .54188 Trang thap 59 44.4524 2.11690 .27560 chatbaoluutb Trang cao Kg 78 .3460 .01854 .00210 Trang thap 59 .3615 .02801 .00365 keopvatb Trang cao Kg 78 1.1470 .05035 .00570 Trang thap 59 1.1387 .02061 .00268 phammautb Trang cao Kg 78 .1900 .00098 .00011 Trang thap 59 .1908 .00281 .00037 tangtrangtb Trang cao Kg 78 4.5955 .31970 .03620 Trang thap 59 1.5214 .36396 .04738 luoitrongtb Trang cao Chiếc 78 .00004509 .000010941 .000001239 Trang thap 59 .00009293 .000011285 .000001469 luoingoaitb Trang cao Chiếc 78 .00006795 .000034655 .000003924 Trang thap 59 .00005411 .000067632 .000008805 luoidaitb Trang cao Chiếc 78 .00005621 .000018449 .000002089 Trang thap 59 .00006679 .000017957 .000002338 chaf1tb Trang cao Chiếc 78 .00010605 .000020039 .000002269 Trang thap 59 .00011186 .000018652 .000002428 chaf2tb Trang cao Chiếc 78 .00010177 .000033508 .000003794 Trang thap 59 .00010443 .000020164 .000002625 chaf3tb Trang cao Chiếc 78 .00010707 .000035132 .000003978 Trang thap 59 .00011432 .000021641 .000002817 dientb Trang cao MWh/T 78 .6871 .02164 .00245 Trang thap 59 .6974 .02046 .00266 hoitb Trang cao T/T 78 2.3723 .16867 .01910 Trang thap 59 2.1994 .10628 .01384 nuoctb Trang cao M3/T 78 41.8273 3.96407 .44884 Trang thap 59 41.6037 1.87784 .24447 tylebongoai Trang cao % 78 .2667 .01343 .00152 Trang thap 59 .2728 .00322 .00042 Trước tiên, ta so sánh mức tiêu thụ các loại nguyên liệu giữa hai năm 2006 và 2007 cho sản xuất từng loại giấy trắng cao và giấy trắng thấp. 2. So sánh hai năm 2006 và 2007 về nguyên liệu sản xuất giấy Dùng tiêu chuẩn kiểm định t - Student để so sánh hai năm về tỷ lệ các loại bột giấy và tỷ lệ các chất phụ gia sử dụng cho hai loại giấy trắng cao và giấy trắng thấp ở đầu vào, ta cĩ kết quả trong các Bảng 3.10a ; 3.10b; 3.11a và 3.11b. Giấy trắng cao Dựa vào cột giá trị trung bình (Mean) trong Bảng 3.10a và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.10b dưới đây cho ta thấy việc sử dụng các loại bột giấy và các chất phụ gia sử dụng cho sản xuất giấy trắng cao trong hai năm 2006 và 2007 là khơng cĩ sự khác biệt đáng kể vì đối với tất cả các nguyên liệu đưa vào sản xuất việc so sánh đều cĩ xác xuất ý nghĩa lớn hơn 5%. Bảng 3.10a. Nguyên liệu và chất phụ gia dùng sản xuất giấy cao trong 2006 và 2007 nam Don vi N Mean Std. Deviation Std. Error Mean botgiaytb 2006 Kg 24 904.20 7.694 1.570 2007 26 903.07 8.453 1.657 keoakdtb 2006 Kg 24 13.98 19.585 3.997 2007 26 9.95 0.345 0.067 betonittb 2006 Kg 24 2.89 0.159 0.032 2007 26 2.90 0.170 0.033 botdatb 2006 Kg 24 134.51 5.779 1.179 2007 26 134.36 5.915 1.160 tinhbottb 2006 Kg 24 8.77 0.160 0.032 2007 26 8.78 0.166 0.032 botbemattb 2006 Kg 24 43.60 2.500 0.510 2007 26 42.73 7.598 1.490 chatbaoluutb 2006 Kg 24 0.34 0.017 0.003 2007 26 0.34 0.022 0.004 keopvatb 2006 Kg 24 1.13 0.001 0.001 2007 26 1.15 0.086 0.017 phammautb 2006 Kg 24 0.18 0.000 0.000 2007 26 0.19 0.001 0.000 tangtrangtb 2006 Kg 24 4.65 0.007 0.001 2007 26 4.65 0.029 0.005 luoitrongtb 2006 Chiếc 24 0.000042 0.0000033 0.0000006 2007 26 0.000041 0.0000030 0.0000005 luoingoaitb 2006 Chiếc 24 0.000062 0.0000357 0.0000072 2007 26 0.000066 0.0000382 0.0000075 luoidaitb 2006 Chiếc 24 0.00005 0.0000182 0.0000037 2007 26 0.000051 0.0000123 0.0000024 chaf1tb 2006 Chiếc 24 0.000114 0.0000155 0.0000031 2007 26 0.000112 0.0000153 0.0000030 chaf2tb 2006 Chiếc 24 0.000106 0.0000317 0.0000064 2007 26 0.000104 0.0000331 0.0000065 chaf3tb 2006 Chiếc 24 0.00011653 0.0000319 0.0000065 2007 26 0.000115 0.0000322 0.0000063 dientb 2006 MWh/T 24 0.68 0.018 0.003 2007 26 0.68 0.023 0.005 hoitb 2006 T/T 24 2.39 0.152 0.031 2007 26 2.36 0.192 0.037 nuoctb 2006 M3/T 24 41.80 4.180 0.853 2007 26 41.97 4.342 0.851 tylebongoai 2006 % 24 0.26 0.011 0.002 2007 26 0.26 0.012 0.002 a loaigiay = trangcao Giấy trắng thấp Tiếp tục so sánh hai năm 2006 và 2007 về tỷ lệ các loại bột giấy và tỷ lệ các chất phụ gia sử dụng cho giấy trắng thấp qua phép kiểm định t – student ta cĩ kết quả trong hai Bảng 3.11a và 3.11b. Ta thấy chỉ cĩ phụ liệu chăn 1 trung bình là cĩ sự sử dụng khác biệt trong hai năm. Cụ thể là năm 2006 để sản xuất 1 tấn giấy trắng thấp nhà máy đã sử dụng 0.00012 chiếc cịn năm 2007 sử dụng 0.00019 chiếc. Bảng 3.10b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy cao 2006 và 2007 t-test for Equality of Means df Sig. (2-tailed) Mean Difference Std. Error Difference 95% CI of the Difference Lower Upper botgiaytb 48 .625 1.128 2.292 -3.481 5.737 keoakdtb 48 .323 4.036 3.998 -4.234 12.307 betonittb 48 .889 -.006 .046 -.100 .087 botdatb 48 .932 .142 1.656 -3.187 3.472 tinhbottb 48 .823 -.010 .046 -.103 .082 botbemattb 48 .596 .869 1.627 -2.403 4.142 chatbaoluutb 48 .931 -.001 .005 -.012 .011 keopvatb 48 .333 -.017 .017 -.052 .018 phammautb 48 .329 -.001 .0002 -.0001 .000 tangtrangtb 48 .434 .005 .006 -.007 .017 luoitrongtb 48 .203 .000001 .0000008 -.0000007 .000003 luoingoaitb 48 .675 -.000004 .00001 -.000021 .000017 luoidaitb 48 .736 -.000001 .000004 -.000016 .000007 chaf1tb 48 .654 .000002 .000004 -.000006 .000013 chaf2tb 48 .875 .000001 .000009 -.000047 .000013 chaf3tb 48 .939 .000002 .000009 -.000577 .000013 dientb 48 .664 -.003 .006 -.014 .009 hoitb 48 .586 .027 .049 -.072 .126 nuoctb 48 .889 -.169 1.21 -2.59 2.257 tylebongoai 48 .810 .001 .003 -.006 .007 a loaigiay = trangcao Bảng 3.11a. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy thấp 2006 và 2007 t-test for Equality of Means df Sig. (2-tailed) Mean Difference Std. Error Difference 95% CI of the Difference Lower Upper botgiaytb 37 .690 .434 1.083 -1.759 2.629 keoakdtb 37 .828 .007 .035 -.063 .078 betonittb 37 .597 .022 .042 -.062 .107 botdatb 37 .699 .390 1.001 -1.638 2.418 tinhbottb 37 .828 -.010 .046 -.104 .084 botbemattb 37 .470 -.491 .673 -1.857 .873 chatbaoluutb 37 .834 .002 .009 -.017 .022 keopvatb 37 .692 .002 .005 -.009 .014 phammautb 37 .622 -.001 .001 -.002 .001 tangtrangtb 37 .804 -.004 .016 -.037 .029 luoitrongtb 37 .253 .0000031 .0000027 -.0000023 .0000087 luoingoaitb 37 .522 -.0000008 .0000013 -.0000034 .0000017 luoidaitb 37 .881 -.0000002 .0000016 -.0000034 .000003 chaf1tb 37 .014 .0000009 .0000003 .0000002 .0000016 chaf2tb 37 .462 -.0000034 .0000046 -.0000128 .0000059 chaf3tb 37 .406 .0000048 .0000058 -.0000069 .0000166 dientb 37 .889 -.001 .005 -.012 .011 hoitb 37 .804 .009 .035 -.063 .081 tylebongoai 37 .739 .0004 .001 -.001 .002 a loaigiay = trangthap Bảng 3.11b. Nguyên liệu và chất phụ gia dùng sản xuất giấy thấp trong 2006 và 2007 nam Don vi N Mean Std. Deviation Std. Error Mean botgiaytb 2006 Kg 18 885.8447 3.37819 .79625 2007 21 885.4099 3.36695 .73473 keoakdtb 2006 Kg 18 9.6521 .10456 .02464 2007 21 9.6444 .11271 .02460 betonittb 2006 Kg 18 2.8620 .12166 .02867 2007 21 2.8397 .13731 .02996 botdatb 2006 Kg 18 139.5087 3.01285 .71014 2007 21 139.1183 3.20233 .69881 tinhbottb 2006 Kg 18 8.7531 .13467 .03174 2007 21 8.7633 .15283 .03335 botbemattb 2006 Kg 18 43.8986 1.79147 .42225 2007 21 44.3903 2.32704 .50780 chatbaoluutb 2006 Kg 18 .3613 .03732 .00880 2007 21 .3593 .02353 .00513 keopvatb 2006 Kg 18 1.1393 .01757 .00414 2007 21 1.1370 .01840 .00401 phammautb 2006 Kg 18 .1904 .00228 .00054 2007 21 .1909 .00301 .00066 tangtrangtb 2006 Kg 18 1.4191 .03581 .00844 2007 21 1.4233 .06221 .01358 luoitrongtb 2006 Chiếc 18 .00009498 .000011802 .000002782 2007 21 .00009180 .000004031 .000000880 luoingoaitb 2006 Chiếc 18 .00002707 .000005300 .000001249 2007 21 .00002791 .000002544 .000000555 luoidaitb 2006 Chiếc 18 .00006330 .000004854 .000001144 2007 21 .00006354 .000005091 .000001111 chaf1tb 2006 Chiếc 18 .00012011 .000000688 .000000162 2007 21 .00011918 .000001458 .000000318 chaf2tb 2006 Chiếc 18 .00011007 .000000503 .000000118 2007 21 .00011353 .000019697 .000004298 chaf3tb 2006 Chiếc 18 .00012307 .000005045 .000001189 2007 21 .00011819 .000024186 .000005278 dientb 2006 MWh/T 18 .6951 .01860 .00438 2007 21 .6959 .01839 .00401 hoitb 2006 T/T 18 2.2029 .10932 .02577 2007 21 2.1940 .11294 .02465 nuoctb 2006 M3/T 18 41.8020 1.88037 .44321 2007 21 41.3953 2.31593 .50538 tylebongoai 2006 % 18 .2733 .00317 .00075 2007 21 .2730 .00321 .00070 a loaigiay = trangthap Như vậy qua việc tách riêng từng loại giấy trong hai năm 2006 và 2007 chúng ta thấy đối với cả hai loại giấy trắng cao và giấy trắng thấp đều khơng cĩ sự khác biệt về việc sử dụng các nguyên vật liệu đầu vào cho quá trình sản xuất. Chúng ta sẽ làm tương tự như vậy cho hai năm tiếp theo 3. So sánh hai năm 2007 và 2008 về nguyên liệu sản xuất giấy a) Giấy trắng cao Qua Bảng 3.12a và 3.12b ta thấy đối với việc sản xuất 1 tấn giấy trắng cao ở hai năm 2007 và 2008 các phụ liệu chăn3, chăn1, lưới dài, lưới trong là cĩ sử dụng khác biệt với xác suất ý nghĩa nhỏ hơn 5%. Nhưng số lượng các phụ liệu sử dụng cho sản xuất 1 tấn giấy là rất nhỏ (cột giá trị trung bình ở bảng 3.12b cho ta thấy điều đĩ). Điều đĩ chứng tỏ sự khác biệt này nĩi chung khơng dẫn đến sự chênh lệch quá nhiều trong giá thành 1 tấn giấy Bảng 3.12a. Nguyên liệu và chất phụ gia dùng sản xuất giấy cao trong 2007 và 2008 nam Don vi N Mean Std. Deviation Std. Error Mean botgiaytb 2007 Kg 26 903.07 8.453 1.657 2008 28 906.79 9.918 1.874 keoakdtb 2007 Kg 26 9.95 .345 .067 2008 28 9.97 .321 .060 betonittb 2007 Kg 26 2.90 .170 .033 2008 28 2.92 .163 .030 botdatb 2007 Kg 26 134.36 5.915 1.160 2008 28 134.74 5.254 .992 tinhbottb 2007 Kg 26 8.78 .166 .032 2008 28 8.86 .228 .043 botbemattb 2007 Kg 26 42.73 7.598 1.490 2008 28 43.56 2.463 .465 chatbaoluutb 2007 Kg 26 .34 .022 .004 2008 28 .34 .015 .002 keopvatb 2007 Kg 26 1.15 .086 .017 2008 28 1.14 .011 .002 phammautb 2007 Kg 26 .19 .001 .000 2008 28 .19 .001 .000 tangtrangtb 2007 Kg 26 4.65 .029 .005 2008 28 4.48 .521 .098 luoitrongtb 2007 Chiếc 26 .000041 .0000030 .0000005 2008 28 .000050 .0000167 .0000031 luoingoaitb 2007 Chiếc 26 .000066 .0000382 .0000075 2008 28 .000074 .0000301 .0000057 luoidaitb 2007 Chiếc 26 .000051 .0000123 .0000024 2008 28 .000065 .0000198 .0000037 chaf1tb 2007 Chiếc 26 .000112 .0000153 .0000030 2008 28 .000093 .0000210 .0000039 chaf2tb 2007 Chiếc 26 .000104 .0000331 .0000065 2008 28 .000095 .0000353 .0000066 chaf3tb 2007 Chiếc 26 .000115 .0000322 .0000063 2008 28 .000090 .0000354 .0000067 dientb 2007 MWh/T 26 .68 .023 .004 2008 28 .68 .022 .004 hoitb 2007 T/T 26 2.36 .192 .037 2008 28 2.35 .161 .030 nuoctb 2007 M3/T 26 41.97 4.342 .851 2008 28 41.71 3.525 .666 tylebongoai 2007 % 26 .26 .012 .002 2008 28 .26 .015 .002 a loaigiay = trangcao b) Giấy trắng thấp Cột giá trị trung bình (Mean) trong Bảng 3.13a và cột xác xuất ý nghĩa (Sig.) trong Bảng 3.13b cho ta thấy khơng cĩ sự khác biệt trong việc sử dụng nguyên liệu bột giấy để sản xuất giấy trắng thấp trong hai năm mà chỉ cĩ sự khác biệt trong việc sử dụng phụ liệu chăn1, chăn2, chăn3, lưới ngồi và các phụ gia chất tăng trắng, tinh bột. Bảng 3.12b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy cao 2007 và 2008 t-test for Equality of Means df Sig. (2-tailed) Mean Difference Std. Error Difference 95% CI of the Difference Lower Upper botgiaytb -8.771 1.332 keoakdtb 52 .782 -.025 .090 -.207 .156 betonittb 52 .623 -.022 .045 -.113 .068 botdatb 52 .805 -.377 1.520 -3.427 2.673 tinhbottb 52 .158 -.078 .054 -.188 .031 botbemattb 52 .586 -.828 1.514 -3.867 2.209 chatbaoluutb 52 .548 .003 .005 -.007 .013 keopvatb 52 .462 .012 .016 -.020 .045 tangtrangtb 52 .102 .166 .098 -.035 .369 luoitrongtb 52 .014 -.0000084 .0000032 -.0000150 -.0000018 luoingoaitb 52 .427 -.0000075 .0000094 -.0000265 .0000114 luoidaitb 52 .002 -.0000144 .0000045 -.0000235 -.0000053 chaf1tb 52 .000 .0000194 .0000050 .0000092 .0000295 chaf2tb 52 .308 .0000096 .0000093 -.0000091 .0000283 chaf3tb 52 .009 .0000250 .0000092 .0000064 .0000435 dientb 52 .997 -.000 .006 -.012 .012 hoitb 52 .747 .015 .048 -.081 .112 nuoctb 52 .810 .259 1.072 -1.893 2.412 tylebongoai 52 .285 .004 .003 -.003 .011 a loaigiay = trangcao Cụ thể là đối với năm 2007 khối lượng trung bình của các phụ liệu và phụ gia nĩi trên đã sử dụng để sản xuất 1 tấn giấy lần lượt là 0.0001192; 0.0001135; 0.00011819; 0.0000279(Chiếc); 1.4233 ; 8.7633(Kg) trong khi ở năm 2008 lượng phụ liệu và phụ gia trung bình tương ứng là 0.00009676; 0.0000898; 0.00010239; 0.00010597(Chiếc); 1.7164 ; 8.8899(Kg) với xác xuất ý nghĩa tương ứng là 0.04; 0.001; 0.001; 0.002; 0.037; 0.022. Ngồi ra, giữa hai năm này khơng cĩ sự khác biệt mang tính thống kê về việc sử dụng các chất phụ gia khác. Qua những phân tích trên đây ta thấy trong các năm, việc sử dụng nguyên liệu bột giấy cho sản xuất từng loại giấy trắng cao và giấy trắng thấp là khơng cĩ sự khác biêt. Sự khác biệt chỉ cĩ ở việc sử dụng các phụ liệu và phụ gia cho sản xuất cả hai loại giấy. Điều đĩ cĩ nghĩa là trong quá trình sản xuất, cơng nhân nhà máy đã sử dụng lãng phí các chất phụ gia. Điều đĩ cho phép chúng ta cĩ thể đề xuất ra mức sử dụng các chất phụ gia tiết kiêm hơn. Bảng 3.13a. Nguyên liệu và chất phụ gia của giấy trắng thấp trong hai năm 2007 và 2008 nam Don vi N Mean Std. Deviation Std. Error Mean botgiaytb 2007 Kg 21 885.4099 3.36695 0.73473 2008 20 886.7945 3.72621 0.83321 keoakdtb 2007 Kg 21 9.6444 0.11271 0.02460 2008 20 9.5814 0.20814 0.04654 betonittb 2007 Kg 21 2.8397 0.13731 0.02996 2008 20 2.8980 0.12467 0.02788 botdatb 2007 Kg 21 139.1183 30.20233 0.69881 2008 20 138.9834 30.30356 0.73870 tinhbottb 2007 Kg 21 8.7633 0.15283 0.03335 2008 20 8.8899 0.18496 0.04136 botbemattb 2007 Kg 21 44.3903 2.32704 0.50780 2008 20 45.0160 2.11632 0.47322 chatbaoluutb 2007 Kg 21 0.3593 0.02353 0.00513 2008 20 0.3640 0.02353 0.00526 keopvatb 2007 Kg 21 1.1370 0.01840 0.00401 2008 20 1.1399 0.02566 0.00574 phammautb 2007 Kg 21 0.1909 0.00301 0.00066 2008 20 0.1910 0.00313 0.00070 tangtrangtb 2007 Kg 21 1.4233 0.06221 0.01358 2008 20 1.7164 0.58185 0.13011 luoitrongtb 2007 Chiếc 21 0.00009180 0.000004031 0.000000880 2008 20 0.00009228 0.000015530 0.000003473 luoingoaitb 2007 Chiếc 21 0.00002791 0.000002544 0.000000555 2008 20 0.00010597 0.000098225 0.000021964 luoidaitb 2007 Chiếc 21 0.00006354 0.000005091 0.000001111 2008 20 0.00007333 0.000029460 0.000006587 chaf1tb 2007 Chiếc 21 0.00011918 0.000001458 0.000000318 2008 20 0.00009676 0.000026377 0.000005898 chaf2tb 2007 Chiếc 21 0.00011353 0.000019697 0.000004298 2008 20 0.00008980 0.000022030 0.000004926 chaf3tb 2007 Chiếc 21 0.00011819 0.000024186 0.000005278 2008 20 0.00010239 0.000023499 0.000005255 dientb 2007 MWh/T 21 0.6959 0.01839 0.00401 2008 20 0.7010 0.02432 0.00544 hoitb 2007 T/T 21 2.1940 0.11294 0.02465 2008 20 2.2020 0.10154 0.02271 nuoctb 2007 M3/T 21 41.3953 2.31593 0.50538 2008 20 41.6439 1.36677 0.30562 tylebongoai 2007 % 21 0.2730 0.00321 0.00070 2008 20 0.2723 0.00337 0.00075 a loaigiay = trangthap 4. Định mức kiến nghị cho sản xuất giấy Đối với các chất phụ liệu chúng ta khơng đặt ra mục đích tiết kiệm định mức vì trong quá trình sản xuất, các phụ liệu này sẽ được cơng nhân thay thế mỗi khi thấy chất lượng của chúng giảm xuống dưới mức yêu cầu của kỹ thuật. Hơn nữa, khối lượng tiêu hao của chúng cho một lơ sản phẩm là rất nhỏ. Sự tiết kiệm các phụ liệu này khơng đĩng gĩp nhiều cho việc hạ giá thành sản xuất. Chúng ta sẽ sử dụng mức trung bình của các phụ liệu đã dùng trong ba năm làm định mức kiến nghị cho việc sản xuất giấy. Bảng 3.13b. Kiểm định so sánh các loại nguyên liệu dùng sản xuất giấy thấp 2007 và 2008 t-test for Equality of Means df Sig. (2-tailed) Mean Difference Std. Error Difference 95% CI of the Difference Lower Upper botgiaytb 39 .219 -1.38453 1.10808 -3.62583 0.85676 keoakdtb 39 .241 .06302 0.05264 -0.04466 0.17069 betonittb 39 .163 -.05840 0.04102 -0.14138 0.02458 botdatb 39 .895 .13487 1.01607 -1.92032 2.19007 tinhbottb 39 .022 -.12660 0.05288 -0.23356 -0.01964 botbemattb 39 .374 -.62569 0.69577 -2.03300 0.78163 chatbaoluutb 39 .526 -.00471 0.00735 -0.01958 0.01016 keopvatb 39 .674 -.00295 0.00695 -0.01700 0.01110 phammautb 39 .893 -.00013 0.00096 -0.00207 0.00181 tangtrangtb 39 .037 -.29316 0.13081 -0.56656 -0.01976 luoitrongtb 39 .893 -.000000486 .000003582 -0.000007927 0.000006955 luoingoaitb 39 .002 -.000078064 .000021971 -0.000124046 -0.000032083 luoidaitb 39 .159 -.000009783 .000006680 -0.000023714 0.000004149 chaf1tb 39 .001 .000022415 .000005907 0.000010057 0.000034773 chaf2tb 39 .001 .000023738 .000006538 0.000010503 0.000036972 chaf3tb 39 .040 .000015797 .000007453 0.000000722 0.000030872 dientb 39 .458 -.00503 .00671 -0.01861 0.00855 hoitb 39 .813 -.00799 .03360 -0.07596 0.05997 nuoctb 39 .680 -.24859 .59778 -1.45772 0.96054 tylebongoai 39 .532 .00065 .00103 -0.00143 0.00273 a loaigiay = trangthap Đối với nguyên liệu bột giấy, ta quan tâm giảm sử dụng bột nhập ngoại để giảm được giá thành một cách đáng kể sao cho vẫn đảm bảo được các yêu cầu kỹ thuật. Trước tiên, phần phân tích phía trên (ứng với Hình 3.2e) chỉ ra trong tổng số các lơ sản xuất giấy trắng cao, cĩ nhiều lơ dùng lượng bột nhập ngoại thấp hơn hẳn so với những lơ cịn lại. Do đĩ, ta lấy nhĩm gồm 33% số lơ sử dụng ít bột nhập ngoại hơn cả trong số các lơ giấy trắng cao, tính tốn để đề xuất lấy mức ứng với khoảng tin cậy 95% một phía (tối đa) của trung bình lượng bột nhập ngoại sử dụng trong sản xuất 1 tấn giấy của nhĩm đĩ làm định mức bột ngoại nhập cho sản xuất 1 tấn giấy. Để đảm bảo về mặt kỹ thuật, lượng bột giấy tổng cộng dùng cho sản xuất cho 1 tấn giấy phải đạt mức cần thiết. Mức bột giấy cần dùng để đáp ứng yêu cầu kỹ thuật đĩ được xác định bằng giá trị tổng bột giấy trung bình của tất cả các lơ sản xuất giấy trắng cao. Từ đĩ định mức lượng bột giấy tự sản xuất sử dụng cho 1 tấn giấy trắng cao bằng hiệu của tổng bột giấy trung bình và định mức lượng bột giấy ngoại nhập đã tính được như trên. Bảng 3.14a. Các loại định mức nguyên vât liệu dùng để sản xuất 1 tấn giấy trắng cao nam Đơn vị Dinh muc k e hoach TB Dinh muc thuc hien TB Dinh muc kien nghi botgiaytsxtb 2006 Kg/T 731.57143 655.93857 672.4047 2007 735.00000 661.15538 2008 734.71429 664.99179 botngoaitb 2006 Kg/T 179.14286 242.00619 232.3567 2007 180.00000 242.58692 2008 179.92857 240.11786 keoakdtb 2006 Kg/T 9.78571 9.74048 9.5534 2007 10.00000 9.95654 2008 9.98214 9.94250 betonittb 2006 Kg/T 3.00000 2.96667 2.7212 2007 3.00000 2.90462 2008 3.00000 2.91286 botdatb 2006 Kg/T 130.00000 135.93524 134.0980 2007 130.00000 134.36846 2008 130.00000 134.17000 tinhbottb 2006 Kg/T 9.00000 8.80810 8.1729 2007 9.00000 8.78423 2008 9.00000 8.77500 botbemattb 2006 Kg/T 50.00000 44.59048 43.3060 2007 50.00000 44.04808 2008 50.00000 43.82679 chatbaoluutb 2006 Kg/T 0.40000 0.35667 0.2475 2007 0.40000 0.34577 2008 0.40000 0.34536 keopvatb 2006 Kg/T 1.10000 1.13810 1.0365 2007 1.10000 1.14000 2008 1.10000 1.14000 phammautb 2006 Kg/T 0.18000 0.19095 0.1302 2007 0.18000 0.19000 2008 0.18000 0.19000 tangtrangtb 2006 Kg/T 3.50000 3.28619 4.2358 2007 5.00000 4.66000 2008 4.87500 4.54321 luoitrongtb 2006 Chiếc 0.00013 0.00006 0.00004567 2007 0.00013 0.00004 2008 0.00013 0.00004 luoingoaitb 2006 Chiếc 0.00020 0.00006 0.00008023 2007 0.00020 0.00007 2008 0.00020 0.00007 luoidaitb 2006 Chiếc 0.00010 0.00006 0.00005769 2007 0.00010 0.00005 2008 0.00010 0.00006 chaf1tb 2006 Chiếc 0.00017 0.00013 0.00001376 2007 0.00017 0.00012 2008 0.00017 0.00012 chaf2tb 2006 Chiếc 0.00017 0.00012 0.00001102 2007 0.00017 0.00011 2008 0.00017 0.00011 chaf3tb 2006 Chiếc 0.00017 0.00011 0.00001123 2007 0.00017 0.00010 2008 0.00017 0.00011 a loaigiay = trangcao Đối với các lơ giấy trắng thấp, yêu cầu kỹ thuật khơng địi hỏi phải dùng nhiều bột giấy nhập ngoại hơn những lơ giấy trắng cao. Do đĩ cĩ thể lấy định mức lượng bột giấy nhập ngoại của giấy trắng cao làm định mức bột nhập ngoại cho cả giấy trắng thấp. Đồng thời ta lấy trung bình tổng lượng bột giấy sử dụng cho tất cả các lơ giấy trắng thấp trừ đi định mức bột nhập ngoại trên để làm định mức của lượng bột tự sản xuất dùng cho 1 tấn giấy trắng thấp. Bảng 3.14b. Các loại định mức nguyên vât liệu dùng để sản xuất 1 tấn giấy trắng thấp Nam Đơn vị Dinh muc k e hoach TB Dinh muc thuc hien TB Dinh muc kien nghi botgiaytsxtb 2006 Kg/T 731.61538 652.76500 653.6552 2007 727.00000 643.72667 2008 727.40000 647.45150 botngoaitb 2006 Kg/T 179.15385 242.60808 232.3567 2007 178.00000 241.68476 2008 178.10000 239.86700 keoakdtb 2006 Kg/T 9.78846 9.89115 9.4183 2007 9.50000 9.64143 2008 9.52500 9.63650 betonittb 2006 Kg/T 3.00000 2.82423 2.342 2007 3.00000 2.85476 2008 3.00000 2.89400 botdatb 2006 Kg/T 130.00000 136.67692 136.1736 2007 130.00000 139.11810 2008 130.00000 138.69200 tinhbottb 2006 Kg/T 9.00000 8.74385 8.0398 2007 9.00000 8.76333 2008 9.00000 8.80200 botbemattb 2006 Kg/T 50.00000 43.68077 43.0131 2007 50.00000 44.39048 2008 50.00000 44.67250 chatbaoluutb 2006 Kg/T 0.40000 0.34808 0.3406 2007 0.40000 0.35952 2008 0.40000 0.36400 keopvatb 2006 Kg/T 1.10000 1.13923 1.0032 2007 1.10000 1.13714 2008 1.10000 1.13600 phammautb 2006 Kg/T 0.18000 0.19000 0.1704 2007 0.18000 0.19095 2008 0.18000 0.19100 tangtrangtb 2006 Kg/T 3.51923 3.28115 1.5006 2007 1.50000 1.42333 2008 1.67500 1.59450 luoitrongtb 2006 Chiếc 0.00013 0.00006 0.0000623 2007 0.00013 0.00009 2008 0.00013 0.00009 luoingoaitb 2006 Chiếc 0.00020 0.00005 0.0000453 2007 0.00020 0.00003 2008 0.00020 0.00003 luoidaitb 2006 Chiếc 0.00010 0.00005 0.0000557 2007 0.00010 0.00006 2008 0.00010 0.00007 chaf1tb 2006 Chiếc 0.00017 0.00012 0.0012014 2007 0.00017 0.00012 2008 0.00017 0.00013 chaf2tb 2006 Chiếc 0.00017 0.00011 0.0001023 2007 0.00017 0.00012 2008 0.00017 0.00012 chaf3tb 2006 Chiếc 0.00017 0.00010 0.00010142 2007 0.00017 0.00011 2008 0.00017 0.00011 a loaigiay = trangthap Tương ứng với kiến nghị định mức sử dụng nguyên liệu bột giấy và các phụ liệu như trên thì các chất phụ gia cũng cĩ thể cĩ định mức tiết kiệm hợp lý. Nhưng để đảm bảo kỹ thuật (khơng bị thiếu chất phụ gia) cho quá trình sản xuất chúng ta sẽ lấy cận trên của khoảng tin cậy một phía với mức ý nghĩa 5% để làm định mức cho các chất phụ gia. Kết quả tính tốn lại định mức kiến nghị nĩi trên được cho trong Bảng 3.14a và 3.14b Từ định mức kiến nghị nêu trên, chúng ta cĩ thể tính lại giá thành cho 1 tấn giấy trắng cao và 1 tấn giấy trắng thấp theo đơn giá nguyên vật liệu hàng năm. Giá thành tính lại này được trình bày trong Bảng 3.15 và được gọi là mức giá kiến nghị. Bên cạnh đĩ, chúng ta tính lại giá thành trung bình đã thực hiện hàng năm của các loại bột giấy để so sánh mức độ tiết kiệm được nếu thực hiện sản xuất theo định mức kiến nghị Bảng 3.15 Giá thành sản xuất 1 tấn giấy theo định mức đề xuất Giấy trắng cao Giấy trắng thấp Giá thực hiện TB (Đ/T) Giá kiến nghị (Đ/T) Chênh lệch (Đ/T) Giá thực hiện TB (Đ/T) Giá kiến nghị (Đ/T) Chênh lệch (Đ/T) 2006 6 876 713 6 803 668 -73 045 6 840 581 6 795 529 -45 052 2007 7 691 035 7 576 558 -114 477 7 515 498 7 456 999 -58 499 2008 7 913 728 7 797 398 -116 330 7 825 461 7 731 357 -94 104 III. Kết luận và kiến nghị Qua việc phân tích bộ số liệu thu thập được, chúng ta nhận thấy trong quá trình sản xuất của Tổng cơng ty cĩ bộc lộ việc sử dụng các nguyên vật liệu chưa thực sự hợp lý. Đối với quá trình sản xuất bột giấy và sản xuất giấy chúng ta đều cĩ thể đưa ra định mức tiết kiệm nguyên vật liệu đặc biệt là các chất phụ gia. Đối với hoạt động sản xuất bột giấy, ta thấy năm 2006 sử dụng nhiều nguyên liệu thơ hơn hẳn ở hai năm 2007 và 2008. Nhưng việc sản xuất giấy ở năm 2006 lại khơng thấy rõ hiện tượng lãng phí nguyên liệu là bột giấy dùng trong sản xuất giấy. Điều đĩ chứng tỏ việc điều hành dây chuyền sản xuất bột giấy ở năm 2006 chưa thực sự tốt. Đối với quá trình sản xuất giấy, việc sử dụng bột nhập ngoại là nên hạn chế vì giá thành bột nhập ngoại cao hơn nhiều so với bơt giấy tự sản xuất trong nước. Theo phân tích ở trên, việc dùng bột giấy nhập ngoại nhều hay ít khơng ảnh hưởng quyết định đến chất lượng của lơ giấy, vì trong số các lơ giấy trắng cao vừa cĩ những lơ đã dùng tỷ lệ bột nhập ngoại cao, lại cĩ những lơ chỉ dùng bột nhập ngoại với tỷ lệ thấp. Điều này giúp đưa ra một gợi ý cho việc giảm giá thành sản xuất: khơng nhất thiết phải dùng nhiều bột ngoại để sản xuất đối với cả giấy trắng thấp và giấy trắng cao. Việc đưa ra định mức cụ thể để sản xuất bột giấy hay giấy nêu trên cĩ thể làm giảm giá thành so với quy trình sản xuất đã thực hiện ở các năm. Cụ thể định mức kiến nghị cĩ thể giúp tiết kiệm được từ 32.000 đồng đến 79.000 đồng cho việc sản xuất bột trắng cao, từ 134.000 đồng đến 177.000 đồng cho sản xuất 1 tấn bột trắng thấp, giúp giảm giá thành 1 tấn giấy trắng cao từ 73.000 đồng đến 116.000 đồng, giảm giá thành cho 1 tấn giấy trắng thấp từ 45.000 đồng đến 94.000 đồng. Đồng thời việc áp dụng định mức kiến nghị đã nêu sẽ giúp quá trình sản xuất ổn định, cĩ định mức nguyên vật liệu rõ ràng cho sản xuất, tránh sự lãng phí trong các ca làmviệc khi thay đổi bộ phận điều hành. Tuy nhiên, đề xuất trên đây mới chỉ mang tính tư vấn, nên tham khảo thêm ý kiến của các bộ phận kỹ thuật ở các nhà máy để cĩ những điều chỉnh phù hợp với các điều kiện sản xuất thực tế. Kết quả nghiên cứu trên đây sẽ mang tính thuyết phụcc hơn, nếu chúng ta cĩ số liệu thu thập của nhiều năm hơn và của nhiều nhà máy hơn. Lúc đĩ ta sẽ cĩ kết quả với các định mức đưa ra cĩ thể áp dụng khơng những cho Tổng cơng ty Giấy mà cịn cĩ thể áp dụng ở các nhà máy giấy khác sản xuất các mặt hàng giấy như ở Tổng cơng ty. Phương pháp phân tích số liệu như trong bản luận văn cĩ thể áp dụng cho bộ số liệu tương tự trong các ngành khác và cĩ thể cung cấp những bằng chứng mang tính khoa học giúp cho việc nâng cao hiệu quả sản xuất của tồn xã hội. Tài liệu tham khảo 1) Đào Hữu Hồ, Nguyễn Văn Hữu, Hồng Hữu Như (2004), Thống kê tốn học, NXB Đại học Quốc gia Hà Nội. 2) Nguyễn Văn Hữu, Nguyễn Hữu Dư, (2003), Phân tích thống kê và dự báo, NXB Đại học Quốc gia Hà Nội. 3) Hồ Đăng Phúc (2005), Sử dụng phần mềm SPSS trong phân tích số liệu, NXB Khoa học và Kỹ thuật Hà Nội. 4) Trần Mạnh Tuấn (2004), Xác suất và thống kê-Lý thuyết và thực hành tính tốn, NXB Đại học Quốc gia Hà Nội. 5) I. T. Jollffe, Princial Component Analysis, Springer – Verlag New York Berlin Heidelberg Tokyo ._.

Các file đính kèm theo tài liệu này:

31761.doc