Bài giảng Xác suất thống kê

1không gian xác suất A.- Biến cố ngẫu nhiên 1.- Khái niệm: Trong vô số các hiện t−ợng xảy ra chung quanh, ta có thể phân biệt thành hai loại: a) Hiện t−ợng tất yếu: là hiện t−ợng mà nếu đ−ợc thực hiện trong cùng một điều kiện nh− nhau thì chúng cho các kết quả giống nhau. b) Hiện t−ợng ngẫu nhiên: là hiện t−ợng mà dù đ−ợc thực hiện trong cùng một điều kiện chúng vẫn cho các kết quả khác nhau. Ví dụ: • Gieo một đồng xu, kết quả sấp hay ngữa là hiện t−ợng ngẫu nhiên, • Khi gieo một con x

pdf86 trang | Chia sẻ: huongnhu95 | Lượt xem: 442 | Lượt tải: 0download
Tóm tắt tài liệu Bài giảng Xác suất thống kê, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
úc sắc, số nốt xuất hiện ở mặt trên của nó là một hiện t−ợng ngẫu nhiên. Đối t−ợng nghiên cứu của lý thuyết xác suất là các biến cố ngẫu nhiên, do vậy ta cần trang bị cho chúng một cấu trúc toán học thích hợp. Đó là đại số các biến cố ngẫu nhiên. Ta sẽ luôn coi rằng các biến cố trong một đại số các biến cố đều có liên quan tới kết quả của một "phép thử" nào đó. ở đây "phép thử" đ−ợc hiểu là sự thực hiện một số điều kiện nhất định. Mỗi phép thử gắn với một tập hợp các kết quả có thể xảy ra. với mỗi biến cố thuộc đại số các biến cố ta phải khẳng định đ−ợc rằng: khi một kết quả nào đó của phép thử đ−ợc thực hiện nó xảy ra hay không xảy ra. Giả Sử A,B,C, ... là các biến cố ngẫu nhiên có liên quan tới kết quả của một phép thử F nào đó. • Ta nói A,B là đồng nhất, và viết A = B, nếu với mỗi kết quả có thể của phép thử chúng cùng xảy ra hoặc cùng không xảy ra. • Sự không xuất hiện của A đ−ợc xem là sự xuất hiện của biến cố đối A, ký hiệu Ac, hay A. • Sự xuất hiện đồng thời hai biến cố A,B đ−ợc coi là sự xuất hiện của biến cố giao A giao B, ký hiệu A ∩B hay A.B. • Sự không thể xuất hiện đ−ợc coi là một biến cố, gọi là biến cố không thể có hay không, ký hiệu là ∅ hay V . • A,B gọi là xung khắc nếu AB = ∅. • Sự xuất hiện ít nhất một trong hai biến cố A,B đ−ợc coi là sự xuất hiện của biến cố hợp A hợp B, ký hiệu A ∪B. Khi A.B = ∅ ta viết A+B thay A ∪B . • Sự chắc chắn xuất hiện đ−ợc coi là một biến cố, gọi là biến cố chắc chắn, ký hiệu Ω. This lesson was typed by pdfLATEX 2• Ta định nghĩa A \B = A.Bc. • Nếu sự xuất hiện của A kéo theo sự xuất hiện của B thì ta nói A kéo theo B, ký hiệu A ⊂ B. • Ta nói họ biến cố {B1, B2, ..., Bn} là đầy đủ nếu chúng từng đôi một xung khắc và n∑ i=1 Bi = Ω. 2.- Một số tính chất: 1. Nếu A = B thì B = A; A.A = A 2. (Ac)c = A;A.Ac = ∅ 3. A.B = B.A; (A.B).C = A(B.C) 4. A ∪B = B ∪ A; (A ∪B) ∪ C = A ∪ (B ∪ C) 5. A+ Ac = Ω, do đó Ac = Ω \ A 6. A = B ⇐⇒ A ⊂ B và B ⊂ A 7. A ⊂ B ⇐⇒ Bc ⊂ Ac 8. A ∪ (B.C) = (A ∪B).(A ∪ C) 9. A.(B ∪ C) = A.B ∪ A.C 10. (A.B)c = Ac ∪Bc; (A ∪B)c = Ac.Bc 11. A ∪B = A+B.Ac ... Việc chứng minh các tính chất trên đơn giản, chỉ cần áp dụng định nghĩa và các qui tắc lôgic. Chú ý: Từ các tính chất 3. 4. suy ra các phép toán lấy giao, hợp có thể mở rộng cho họ hữu hạn các biến cố ngẫu nhiên. Các hệ thức trong 10. có thể mở rộng thành: ( n⋂ i=1 Ai )c = n⋃ i=1 Ai c; ( n⋃ i=1 Ai )c = n⋂ i=1 Ai c Ví dụ: Xét phép thử F: gieo đồng thời hai xúc sắc đều, đồng chất. Gọi A,B,C,D,E là các biến cố ngẫu nhiên liên quan đ−ợc xác định nh− sau: A: "Tổng số nốt xuất hiện trên hai xúc sắc là số chẵn" B: "Tổng số nốt xuất hiện trên hai xúc sắc là số lẻ" C: "Số nốt xuất hiện trên mỗi xúc sắc là số lẻ" D: "Số nốt xuất hiện trên mỗi xúc sắc là số chẵn" E: "Số nốt xuất hiện trên hai xúc sắc cùng lẻ hoặc cùng chẵn". Khi đó ta có các hệ thức (dễ dàng kiểm tra đ−ợc): A = E;Ac = B;A.B = ∅;A = C +D;D ⊂ A; ... 3.- Định nghĩa đại số và σ đại số: This lesson was typed by pdfLATEX 3Tập A các phần tử tùy ý A,B,C, ... đ−ợc gọi là một đại số Boole hay một tr−ờng khi các điều kiện sau đ−ợc thực hiện: 1. Ω ∈A. 2. A ∈A =⇒ Ac ∈A. 3. Ak ∈A =⇒ n⋃ k=1 Ak ∈A. Nhận xét: Trong đại số, các phép toán lấy giao (tích), hợp thực hiện đ−ợc với một số hữu hạn phần tử. • Đại số Boole đ−ợc gọi là σ đại số (σ tr−ờng) nếu nó đóng kín với phép lấy hợp đếm đ−ợc hay với phép giao đếm đ−ợc. • Giả sử C là một đại số, σ đại số nhỏ nhất chứa C đ−ợc gọi là σ đại số sinh bởi C, ký hiệu σ(C). Ví dụ: 1) Tập hợp các kết quả có thể có liên quan tới một phép thử với cách xác định biến cố đối, giao các biến cố, hợp các biến cố, biến cố không thể có, biến cố chắc chắn nh− trên, lập nên một đại số Boole (dễ dàng kiểm tra). Nó đ−ợc gọi là đại số các biến cố. 2) Giả sử Ω là tập khác rỗng, ký hiệu C(Ω) là lớp mọi tập con của Ω. Với các phép toán tập hợp đã biết (lấy giao, hợp, phần bù) cùng với tập rỗng, C(Ω) lập nên một đại số Boole. 3) Giả sử A ⊂ Ω,Ω 6= ∅. Xét lớp CA = {∅,Ω, A,Ac} với các phép toán tập hợp thông th−ờng CA tạo nên một σ- đại số. 4.- Liên hệ giữa đại số các biến cố và đại số các tập hợp: Mối liên hệ nầy đ−ợc thể hiện qua định lý Stone d−ới đây: Định lý: Mỗi đại số các biến cố có một đại số các tập hợp đẳng cấu với nó. • Một biến cố A đ−ợc gọi là phức hợp nếu nó có thể biểu diễn d−ới dạng hợp hai biến cố không đồng nhất với nó. • Một biến cố A không phải là phức hợp đ−ợc gọi là biến cố sơ cấp. Từ các kết quả trên ta suy ra: một biến cố phức hợp có thể xuất hiện theo nhiều cách khác nhau. Một biến cố sơ cấp chỉ xuất hiện theo một cách duy nhất. Các biến cố sơ cấp thì xung khắc nhau. Trong đại số các biến cố, mỗi biến cố ngẫu nhiên biểu diễn đ−ợc d−ới dạng tổng một số hữu hạn các biến cố sơ cấp một cách duy nhất. Nh− vậy một biến cố A ứng với một tập các biến cố sơ cấp mà sự xuất hiện của mỗi biến cố nầy kéo theo sự xuất hiện của A. Chúng đ−ợc gọi là các biến cố thích hợp với A. T−ơng ứng nầy bảo tồn các phép toán trongA; biến cố "không thể có" ứng với tập rỗng ∅. Biến cố "chắc chắn" Ω ứng với tập tất cả các biến cố sơ cấp của phép thử vì vậy Ω đ−ợc đồng nhất với không gian biến cố sơ cấp. This lesson was typed by pdfLATEX 4B.- Xác suất Quan sát các hiện t−ợng ngẫu nhiên ta thấy có những hiện t−ợng th−ờng xảy ra, có những hiện t−ợng ít xảy ra. Xác suất là một đại l−ợng thể hiện mức độ xảy ra (th−ờng xuyên hay ít khi) của một biến cố. trong lịch sử toán học đã có nhiều định nghĩa cho khái niệm xác suất. ở giáo trình nầy ta sẽ tiếp xúc với một số định nghĩa tiêu biểu 1.- Định nghĩa cổ điển của xác suất: Nếu A là biến cố có n(A) biến cố sơ cấp thích hợp với nó trong một không gian biến cố sơ cấp gồm n(Ω) biến cố cùng khả năng xuất hiện thì tỉ số P (A) = n(A) n(Ω) đ−ợc gọi là xác suất của A. Nh− vậy điều kiện để áp dụng định nghĩa nầy là: ∗ n(Ω) <∞ ∗ Các biến cố sơ cấp phải có cùng khả năng xuất hiện. Ví dụ: 1) Gieo một hạt xúc sắc cân đối đồng chất một cách ngẫu nhiên. Tìm xác suất để mặt có số nốt chẵn xuất hiện. 2) Từ một hộp có 13 bi đỏ và 7 bi trắng có kích th−ớc nh− nhau, rút ngẫu nhiên một bi. Khi đó: Xác suất để rút đ−ợc bi đỏ là: P (Đ) = 13 20 . Xác suất để rút đ−ợc bi trắng là: P (T ) = 7 20 . Chú ý: Để tính xác suất theo định nghĩa cổ điển ta phải tìm n(Ω) và n(A). một công cụ đ−ợc sử dụng nhiều là giải tích tổ hợp đã đ−ợc chuẩn bị ở trung học. 2.- Định nghĩa xác suất theo quan điểm hình học: Khi n(Ω) vô hạn, ta không thể áp dụng định nghĩa cổ điển để tính xác suất. trong nhiều tr−ờng hợp ta có thể sử dụng định nghĩa xác suất theo quan điểm hình học nh− sau: Giả sử một điểm đ−ợc rơi ngẫu nhiên vào miền D, A là một miền con của D. Khi đó xác suất để điểm rơi ngẫu nhiên vào miền A đ−ợc xác định bởi công thức: P (A) = số đo miềnA số đo miềnD (Số đo ở đây có thể là độ dài, diện tích hay thể tích tùy thuộc vào miền xét trên đ−ờng thẳng, mặt phẳng hay không gian ba chiều) Một ví dụ điển hình là "bài toán gặp gỡ": Hai ng−ời hẹn gặp nhau tại một địa điểm vào khoảng từ 11 giờ đến 12 giờ. Họ qui −ớc rằng ng−ời đến tr−ớc sẽ chỉ đợi 20 phút, nếu không gặp sẽ đi. Giả sử việc This lesson was typed by pdfLATEX 5đến điểm hẹn của hai ng−ời là ngẫu nhiên. tìm xác suất để hai ng−ời gặp nhau? 3.- Định nghĩa xác suất theo quan điểm thống kê: Tiến hành n phép thử độc lập, nh− nhau và theo dõi sự xuất hiện biến cố A có liên quan. Gọi n là số phép thử đã tiến hành, n(A) là số phép thử có A xuất hiện, tỉ số n(A) n đ−ợc gọi là tần suất xuất hiện A. Khi số phép thử n đủ lớn ta có thể lấy tần suất của A thay cho xác suất P (A) (mà ta ch−a biết). Nếu tồn tại lim n→∞ n(A) n thì giới hạn nầy là P (A). 4.- Định nghĩa tiên đề của xác suất: Cho Ω là một không gian; gọiA là σ - đại số các tập con của Ω. P (.) là hàm tập xác định trênA. Ta gọi P là hàm xác suất nếu các tiên đề sau đây đ−ợc thỏa mãn: (i) P (A) ≥ 0,∀A ∈A (ii) P ( ∞∑ n=1 An ) = ∞∑ n=1 P (An) (iii) P (Ω) = 1. Bộ ba (Ω;A;P ) đ−ợc gọi là không gian xác suất. Từ hệ tiên đề trên ng−ời ta chứng minh đ−ợc các tính chất của xác suất sau đây (ta chấp nhận không chứng minh để sử dụng tính toán xác suất): Mệnh đề 1: Trên không gian xác suất (Ω;A;P ) ta có: a) P (∅) = 0 b) Nếu {A1, A2, ..., An} là họ hữu hạn các biến cố ngẫu nhiên từng đôi xung khắc thì P ( n∑ k=1 Ak ) = n∑ k=1 P (Ak). Mệnh đề 2: Giả sử A,B là là các biến cố ngẫu nhiên bất kỳ. Khi đó: a) P (A ∪B) = P (A) + P (B)− P (A.B) b) chulucNếu A ⊂ B thì P (A) ≤ P (B). c) ∀A ∈A, có 0 ≤ P (A) ≤ 1 và P (Ac) = 1− P (A). Ví dụ: Một hộp chứa 5 cầu trắng, 3 cầu xanh và 4 cầu đen cùng kích th−ớc. Chọn ngẫu nhiên cùng lúc 3 cầu. Tìm xác suất để: a) Cả ba cầu cùng màu. b) Có đúng hai cầu cùng màu. c) Có ít nhất hai cầu cùng màu. d) Cả ba cầu khác màu. C.- Xác suất điều kiện This lesson was typed by pdfLATEX 6Trong mục nầy ta sẽ xây dựng một đại l−ợng để biểu thị khả năng xuất hiện một biến cố A khi có một biên cố B đã xuất hiện với xác suất nào đó. 1.- Định nghĩa: Xét không gian xác suất (Ω;A, P ). Giả sử B là biến cố ngẫu nhiên có P (B) > 0, A ∈A. Đại l−ợng P (A/B) = P (A ∩B) P (B) đ−ợc gọi là xác suất của A với điều kiện B. Có tài liệu dùng ký hiệu: PB(A), PB(A). Nhận xét: • Trong định nghĩa xác suất cổ điển ta có: P (A/B) = n(A ∩B) n(B) , nghĩa là xác suất điều kiện P (A/B) có thể xem nh− xác suất của A xét trong không gian B. • Với B ∈A, P (B) > 0, ánh xạ P (./B) từA vào R+ là một hàm xác suất. Ta có các mệnh đề sau: Mệnh đề 1: (công thức nhân xác suất) Giả sử {A1, A2, ..., An} là họ các biến cố ngẫu nhiên sao cho P (A1.A2...An) > 0, khi đó: P (A1.A2...An) = P (A1).P (A2/A1).P (A3/A1A2)...P (An/A1A2...An−1) Mệnh đề nầy có thể chứng minh đ−ợc bằng ph−ơng pháp qui nạp. Ví dụ: (Sơ đồ hộp Polia). Một hộp lúc đầu chứa a cầu trắng, b cầu đỏ. Sau mỗi lần chọn ngẫu nhiên một cầu, ta trả cầu đó vào hộp cùng với c cầu cùng màu với cầu đã chọn. Tìm xác suất để cầu trắng đ−ợc chọn ở ba lần đầu. Đặt Ai: "cầu trắng đ−ợc chọn ở lần i' (i = 1, 2, 3). Ta cần tính P (A1A2A3). Theo công thức nhân xác suất: P (A1A2A3) = P (A1).P (A2/A1).P (A3/A1.A2) = = a a+ b . a+ c a+ b+ c . a+ 2c a+ b+ 2c Mệnh đề 2: (công thức xác suất toàn phần ) Giả sử {B1, B2, ..., Bn} là họ đầy đủ các biến cố ngẫu nhiên có xác suất d−ơng. Khi đó với ∀A ∈A ta có: P (A) = n∑ i=1 P (Bi).P (A/Bi) Ví dụ: Một nông tr−ờng có 4 đội sản xuất. Đội 1 sản 1 3 tổng sản l−ợng nông sản của nông tr−ờng. Đội 2 sản xuất 1 4 tổng sản l−ợng. Đội 3 sản xuất 1 4 tổng sản This lesson was typed by pdfLATEX 7l−ợng. Đội 4 sản xuất 1 6 tổng sản l−ợng. Tỉ lệ phế phẩm t−ơng ứng với các đội sản xuất là 0, 15; 0, 08; 0, 05; 0, 01. Lấy ngẫu nhiên một sản phẩm trong kho của nông tr−ờng. Tìm xác suất để lấy phải một phế phẩm. Mệnh đề 3: (công thức Bayès ) Nếu A là biến cố có xác suất d−ơng, {B1, B2, ..., Bn} là họ đầy đủ các biến cố ngẫu nhiên có xác suất d−ơng. Khi đó với mỗi j(j = 1, n), ta có: P (Bj/A) = P (Bj).P (A/Bj) n∑ i=1 P (Bi).P (A/Bi) Ví dụ: Hai nhà máy cùng sản x uất một loại sản phẩm. Nhà máy số 1 sản xuất gấp k lần nhà máy số 2. Tỉ lệ thứ phẩm của hai nhà máy là p1, p2. Lấy ngẫu nhiên một sản phẩm trong kho chung của hai nhà máy để kiểm tra thì gặp phải thứ phẩm. Tìm xác suất để thứ phẩm đó do nhà máy thứ hai sản xuất. D.- Sự độc lập ngẫu nhiên Xét không gian xác suất (Ω,A, P ) 1.- Định nghĩa: Giả sử B là lớp nào đó các biến cố ngẫu nhiên (B ⊂A). Ta nói lớp B độc lập nếu xác suất của một giao hữu hạn bất kỳ các biến cố trong B bằng tích của các xác suất của các biến cố đó. Ví dụ: B1 = {A,B} độc lập ⇐⇒ P (A.B) = P (A).P (B)B2 = {A,B,C} độc lập ⇐⇒ P (A.B) = P (A).P (B)P (A.C) = P (A).P (C)P (B.C) = P (B).P (C)P (A.B.C) = P (A).P (B).P (C) Chú ý: 1) Khi B có hơn hai biến cố thì rõ ràng nếu B độc lập lúc đó xác suất của giao hai biến cố bất kỳ trong B cũng bằng tích các xác suất của các biến cố đó. Ta nói có sự độc lập từng đôi. Nh−ng sự độc lập từng đôi trong B không đủ suy ra B độc lập. Xét thí dụ sau: Một khối tứ diện đều, đồng chất có ba mặt sơn t−ơng ứng các màu trắng, xanh, đỏ. Mặt thứ t− sơn cả ba màu trắng, xanh, đỏ. Gieo ngẫu nhiên các khối đó lên mặt phẳng. Nếu gọi A,B,C t−ơng ứng là: "mặt có màu trắng (xanh, đỏ) của tứ diện đó tiếp với mặt phẳng". Khi đó ta thấyB = {A,B,C} độc This lesson was typed by pdfLATEX 8lập từng đôi. 2) Dễ thấy rằng nếu P (B) > 0 thì {A,B} độc lập khi và chỉ khi P (A/B) = P (A). Thật vậy: • Giả sử A,B độc lập, do P (B) > 0 có P (A/B) = P (A.B) P (B) = P (A).P (B) P (B) = P (A). • Ng−ợc lại, nếu P (A/B) = P (B) thì từ xác suất có điều kiện suy ra P (A) = P (A/B) = P (A.B) P (B) =⇒ P (A.B) = P (A).P (B), nghĩa là {A,B} độc lập. Điều khẳng định trên có ý nghĩa: khi {A,B} độc lập (theo định nghĩa) thì sự xuất hiện của B không ảnh h−ởng đến sự xuất hiện của A (vì P (A/B) = P (A)) và ng−ợc lại. Nh− vậy ta có thể nhận biết sự độc lập bằng trực giác, hay kinh nghiệm quan sát. Điều đó rất có ý nghĩa thực tiễn. Mệnh đề 1: Nếu {A,B} độc lập thì {A,Bc} độc lập. Chú ý: Bằng qui nạp hữu hạn ta dễ dàng chứng minh đ−ợc: Nếu {A1, A2, ..., An} độc lập thì {A1, A2, ..., An−1, Acn} cũng độc lập. nếu áp dụng nhiều lần kết quả nầy ta đ−ợc mệnh đề sau: Mệnh đề 2: Nếu {A1, A2, ..., An} là họ các biến cố độc lập, (j1, j2, ..., jn) là một hoán vị bất kỳ của {1, 2, ..., n}. Khi đó họ {A′j1, A′j2, ..., A′jn}, ở đây A′ji = Aji hoặc Acji cũng là họ độc lập. Ví dụ: Bắn ba viên đạn độc lập vào một mục tiêu. Xác suất trích đích của mỗi viên t−ơng ứng là 0, 3; 0, 4; 0, 5. Nếu chỉ một viên trúng thì mục tiêu bị phá hủy với xác suất 0, 2. Nếu ít nhất hai viên trúng thì mục tiêu chắc chắn bị phá hủy. Hãy tìm xác suất để mục tiêu bị phá hủy khi bắn ba viên đạn nh− trên. This lesson was typed by pdfLATEX 1đại l−ợng ngẫu nhiên A.- Đại l−ợng ngẫu nhiên 1.- Định nghĩa: Giả sử Ω là không gian mẫu ứng với phép thử G. ánh xạ: X : Ω −→ R ω 7−→ X(ω) sao cho ∀x ∈ R, {ω ∈ Ω/X(ω) < x} ⊂ Ω (là một biến cố) đ−ợc gọi là một đại l−ợng ngẫu nhiên. Có thể hiểu đại l−ợng ngẫu nhiên là một đại l−ợng mà giá trị của nó là ngẫu nhiên, tùy thuộc vào kết quả của phép thử. Đại l−ợng ngẫu nhiên th−ờng đ−ợc ký hiệu bằng các mẫu tự la tinh in hoa: X,T, ã ã ã . Các giá trị của chúng th−ờng đ−ợc ký hiệu bởi các mẫu tự la tinh th−ờng x, y, ã ã ã Ng−ời ta phân biệt hai đại l−ợng ngẫu nhiên (ĐLNN) là ĐLNN rời rạc và ĐLNN liên tục. 2.- Đại l−ợng ngẫu nhiên rời rạc: a) Định nghĩa: Một ĐLNN đ−ợc gọi là ĐLNN rời nếu tập giá trị của nó là tập con hữu hạn hay vô hạn đếm đ−ợc của tập số thực R. Ví dụ 1: 1) Gieo một con xúc sắc cân xứng và đồng chất. Gọi X là số chấm xuất hiện ở mặt trên con xúc sắc. Khi đó X là ĐLNN rời có tập giá trị X(Ω) = {1, 2, 3, 4, 5, 6}. 2) Chọn ngẫu nhiên 3 đứa trẻ từ một nhóm gồm 6 bé trai và 4 bé gái. Gọi X là số bé gái trong nhóm chọn đ−ợc. X là một đại l−ợng ngẫu nhiên rời có tập giá trị X(Ω) = {0, 1, 2, 3}. 3) Bắn liên tiếp từng phát một vào bia cho đến khi nào trúng bia thì dừng lại. Gọi X là số viên đạn cần bắn. Khi đó X là ĐLNN rời có tập giá trị X(Ω) = {1, 2, 3, ã ã ã , n, ã ã ã }. b) Bảng phân phối xác suất: Ngoài việc xác định tập giá trị của ĐLNN rời, một điều quan trọng nữa là ta phải biết đ−ợc xác suất để ĐLNN đó nhận các giá trị ấy là bao nhiêu. Bảng phân phối xác suất của một ĐLNN rời là bảng trên đó ghi các giá trị mà X có thể nhận, kèm theo các xác suất để nó nhận các giá trị ấy. This lesson was typed by pdfLATEX 2X(Ω) x1 x2 ... xn ... pk p1 p2 ... pn trong đó pk = P ({X = xk}); n∑ k=1 pk = 1 nếu X(Ω) hữu hạn ∞∑ k=1 pk = 1 nếu X(Ω) vô hạn đếm đ−ợc. Ví dụ 2: ở ví dụ 1) mục 1.2.1, ta có: X(Ω) = {0, 1, 2, 3} ta có: P ({X = 0}) = C 3 6 C310 = 120 720 = 5 30 ; P ({X = 2}) = C 2 4 .C 1 6 C310 = 9 30 P ({X = 1}) = C 1 4 .C 2 6 C310 = 15 10 ; P ({X = 3}) = C 3 4 C310 = 1 30 Vậy bảng phân phối xác suất của X là: X 0 1 2 3 p 530 15 30 9 30 1 30 Ví dụ 3: Một túi chứa 3 tấm thẻ đ−ợc đánh số 1, 2, 3 và túi thứ hai chứa 4 tấm thẻ đ−ợc đánh số 4, 5, 6, 8. Chọn ngẫu nhiên từ mỗi túi 1 tấm thẻ rồi cộng hai số ghi trên hai tấm thẻ lại. Gọi X là kết quả, hãy lập bảng phân phối xác suất của X . Giải: Có 12 kết quả có thể: (1, 4); (1, 5); (1, 6); (1, 8) (2, 4); (2, 5); (2, 6); (2, 8) (3, 4); (3, 5); (3, 6); (3, 8) Các kết quả nầy đồng khả năng, với xác suất xuất hiện của chúng là 112 . X(Ω) = {5, 6, 7, 8, 9, 10, 11} P ({X = 5}) = P ({1, 4}) = 1 12 ; P ({X = 8}) = P ({(2, 6), (3, 5)}) = 2 12 This lesson was typed by pdfLATEX 3P ({X = 6}) = P ({(1, 5), (2, 4)}) = 2 12 ; P ({X = 9}) = P ({(1, 8), (3, 6)}) = 2 12 P ({X = 7}) = P ({(1, 6), (3, 4)}) = 3 12 ; P ({X = 10}) = P (2, 8) = 1 12 ; P ({X = 11}) = P (3, 8) = 1 12 Bảng phân phối xác suất của X là: X(Ω) 5 6 7 8 9 10 11 p 112 2 12 3 12 2 12 2 12 1 12 1 12 b) Hàm phân bố xác suất: Là hàm đ−ợc xác định bởi: F : R −→ R x 7→ F (x) = ∑ xi<x pi Ví dụ 4: ĐLNN X ở ví dụ 1 trên đây có hàm phân bố xác suất nh− sau: F (X) =  0 khi x < 0 5 30 khi 0 < x ≤ 1 20 30 khi 1 < x ≤ 2 29 30 khi 2 < x ≤ 3 1 khi x > 3 Hàm phân bố xác suất của ĐLNN rời có các tính chất: (i) 0 ≤ F (x) ≤ 1,∀x (ii) liên tục bên trái (iii) không giảm (iv) lim x→+∞F (x) = 1; limx→−∞F (x) = 0. 3.- Đại l−ợng ngẫu nhiên liên tục: a) Định nghĩa: Một ĐLNN nhiên X đ−ợc gọi là ĐLNN liên tục nếu: i) Tập các giá trị của X lấp đầy một hay hợp của một số khoảng của trục số, thậm chí lấp đầy cả toàn bộ trục số. ii) Với mọi a ∈ R, P ({X = a}) = 0 Ví dụ 1: This lesson was typed by pdfLATEX 41) L−ợng m−a hàng năm ở một địa ph−ơng là một ĐLNN liên tục có X(Ω) = (0,+∞) 2) Trọng l−ợng của đứa trẻ sơ sinh là một ĐLNN liên tục. b) Hàm mật độ xác suất: Đối với ĐLNN liên tục X , xác suất để X nhận một giá trị cụ thể nào đó luôn luôn bằng 0: P ({X = a}) = 0, ∀a ∈ X(Ω). Vì vậy ta quan tâm đến xác suất để X rơi vào một khoảng (a, b) nào đó chứ không quan tâm đến xác suất để X nhận một giá trị cụ thể nh− trong tr−ờng hợp ĐLNN rời. Phân phối xác suất của X đ−ợc xác định bởi một hàm f(x) gọi là hàm mật độ xác suất. Định nghĩa: Hàm số f(x) xác định trên toàn trục số đ−ợc gọi là hàm mật độ của ĐLNN liên tục X nếu: i) f(x) ≥ 0,∀x ∈ R ii) +∞∫ −∞ f(x)dx = 1 iii) ∀a, b : a < b =⇒ P ({a < X < b}) = b∫ a f(x)dx ở đây chú ý: P ({X = a}) = P ({X = b}) = 0 nên P (a ≤ X ≤ b) = b∫ a f(x)dx Ví dụ 2: Cho X là ĐLNN liên tục có hàm mật độ f(x) nh− sau: f(x) = { 0; x < 1 c x2 ; x ≥ 1 Hãy tính hằng số c và tính P (2 < x < 3) Giải: (f(x) là hàm mật độ) ⇐⇒  f(x) ≥ 0 +∞∫ −∞ f(x)dx = 1 f(x) ≥ 0⇐⇒ c ≥ 0 +∞∫ −∞ f(x)dx = 1⇐⇒ +∞∫ 1 cdx x2 = 1 = − c x ]+∞ 1 = 1⇐⇒ c = 1 Vậy c = 1 This lesson was typed by pdfLATEX 5P (2 < X < 3) = 3∫ 2 f(x)dx = 3∫ 2 dx x2 = 1 6 . Ví dụ 3: Cho hàm p(x) = a sin 2x. Xác định hằng số a để p(x) trở thành hàm mật độ của ĐLNN X nhận giá trị tập trung trong đoạn [0, pi2 ]. Giải: p(x) = { 0 nếu x pi2 a sin 2x nếu 0 ≤ x ≤ pi2 p(x) ≥ 0⇐⇒ a sin 2x ≥ 0,∀x ∈ [0, pi2 ]⇐⇒ a ≥ 0. +∞∫ −∞ p(x)dx = 1⇐⇒ pi 2∫ 0 a sin 2xdx = 1⇐⇒ −a 2 cos 2x ]pi 2 0 = 1⇔ a = 1. Vậy a = 1 Ví dụ 4: Cho X là ĐLNN có hàm mật độ f(x): f(x) =  1 + x nếu − 1 ≤ x ≤ 0 1− x nếu 0 < x ≤ 1 0 nếu |x| > 1 Tính P (−12 < X < 1) Giải: P (−12 < X < 1) = 1∫ − 12 f(x)dx = 0∫ − 12 (1 + x)dx+ 1∫ 0 (1− x)dx = 7 8 . b) Hàm phân bố xác suất: Định nghĩa: Hàm phân bố xác suất của ĐLNN liên tục X , ký hiệu bởi F (x), là hàm xác định với mọi số thực x theo công thức sau: F (x) = P (X < x) Tính chất: Hàm phân bố xác suất của ĐLNN liên tục F (x) có các tính chất sau: i) 0 ≤ F (x) ≤ 1. ii) F (x) là hàm không giảm. iii) F (x) là hàm liên tục bên trái. iv) lim x→+∞F (x) = 1; limx→−∞F (x) = 0. v) Quan hệ giữa hàm mật độ và hàm phân phối: Nếu f(x) và F (x) t−ơng ứng là hàm mật độ và hàm phân phối của ĐLNN X thì: This lesson was typed by pdfLATEX 6f(x) = F ′(x); F (x) = x∫ −∞ f(t)dt. Ví dụ 1: Cho X là ĐLNN có hàm mật độ: f(x) = a 1 + x2 . Hãy tìm hệ số a và hàm phân phối F (x). Giải: f(x) ≥ 0⇐⇒ a ≥ 0. +∞∫ −∞ f(x)dx = 1⇐⇒ +∞∫ −∞ adx 1 + x2 = 1⇐⇒ 2a( arctg x ]+∞ 0 ) = 1 ⇐⇒ api = 1⇐⇒ a = 1 pi Vậy: f(x) = 1 pi(1 + x2) . Theo iv): F (x) = x∫ −∞ f(t)dt = x∫ −∞ dt pi(1 + t2) = 1 pi arctg t ]x −∞ = 1 pi arctg x + 1 2 . Ví dụ 2: Cho X là ĐLNN có hàm phân phối: F (x) =  0 nếu x ≤ 0 ax3 nếu 0 < x < 2 1 nếu x ≥ 2 Hãy tìm hệ số a, hàm mật độ của X và P (0 < X < 1). Giải: Do hàm phân phối liên tục trái nên: lim x→2− F (x) = lim x→2− ax3 = 8a = F (2) = 1. Vậy a = 1 8 . Mặt khác F ′(x) = f(x), nên hàm mật độ của ĐLNN X là: f(x) = 0 nếu x ≤ 0 hoặc x ≥ 23 8 x2 nếu 0 < x < 2 P (0 < x < 1) = 1∫ 0 f(x)dx = 1∫ 0 3 8 x2dx = 1 8 . Ví dụ 3: Cho X là ĐLNN có hàm phân phối: This lesson was typed by pdfLATEX 7F (x) = a+ b arctg x c trong đó a, b, c là các hằng số. Tìm a, b, c và hàm mật độ xác suất f(x). Giải: lim x→+∞F (x) = 1⇐⇒ a+ b pi 2 = 1 (1) lim x→+∞F (x) = 0⇐⇒ a− b 2 pi = 0 (2) ⇐⇒ b ≤ 1 Giải hệ (1), (2) đ−ợc a = 1 2 ; b = 1 pi . Nh− vậy: F (x) = 1 2 + 1 pi arctg x c f(x) = F ′(x) = 1 pi . c x2 + c2 Vì f(x) là hàm mật độ nên f(x) > 0, tức là c > 0. Vậy a = 1 2 ; b = 1 pi , c > 0 (tùy ý). 3.- Đại l−ợng ngẫu nhiên nhiều chiều: a) Khái niệm ĐLNN nhiều chiều: ở phần trên, ta đã xét các ĐLNN mà các giá trị của nó đ−ợc biểu diễn bằng một số. Các ĐLNN nh− vậy đ−ợc gọi là ĐLNN một chiều. Ngoài các ĐLNN một chiều, trong thực tế ta còn gặp các ĐLNN mà giá trị của nó đ−ợc xác định bằng 2, 3, .. n số. Những đại l−ợng nầy đ−ợc gọi một cách t−ơng ứng là ĐLNN 2, 3, ..., n chiều. Ta ký hiệu ĐLNN hai chiều là (X, Y ) (vectơ ngẫu nhiên hai chiều). Trong đó X và Y đ−ợc gọi là các thành phần của ĐLNN hai chiều. Cả hai đại l−ợng X và Y đ−ợc xét một cách đồng thời tạo nên hệ hai ĐLNN. T−ơng tự nh− vậy ĐLNN n chiều có thể xem nh− hệ của n ĐLNN. Ví dụ 1: Một máy sản xuất một loại sản phẩm. Nếu kích th−ớc của sản phẩm đ−ợc đo bằng chiều dài X và chiều rộng Y , thì ta có ĐLNN hai chiều (X, Y ); còn nếu tính thêm cả chiều cao Z nữa thì ta có ĐLNN ba chiều (X, Y, Z). Trong thực tế ng−ời ta cũng phân chia các ĐLNN nhiều chiều thành hai loại: rời rạc và liên tục. Các ĐLNN nhiều chiều đ−ợc gọi là rời rạc nếu các thành phần của nó là ĐLNN rời rạc. This lesson was typed by pdfLATEX 8Các ĐLNN nhiều chiều đ−ợc gọi là liên tục nếu các thành phần của nó là ĐLNN liên tục. Sau đây ta chỉ xét các ĐLNN hai chiều. b) Qui luật phân phối xác suất của ĐLNN hai chiều: Đối với các vectơ ngẫu nhiên hai chiều ng−ời ta cũng dùng bảng phân phối xác suất, hàm phân phối xác suất, hàm mật độ xác suất để thiết lập bảng phân phối xác suất của chúng. (i) Bảng phân phối xác suất của vectơ ngẫu nhiên (VTNN) hai chiều: Bảng phân phối xác suất của vectơ ngẫu nhiên hai chiều rời rạc là bảng liệt kê tất cả các giá trị có thể có của nó và các xác suất t−ơng ứng. Nó có dạng sau: X\Y y1 y2 ... yj ... ym x1 p(x1, y1) P (x1, y2) ã ã ã P (x1, yj) ã ã ã P (x1, ym) x2 P (x2, y1) P (x2, y2) ã ã ã P (x2, yj) ã ã ã P (x2, ym) ... ... ... ã ã ã ... ã ã ã ... xi P (xi, y1) P (xi, y2) ã ã ã P (xi, yj) ã ã ã P (xi, ym) ... ... ... ã ã ã ... ã ã ã ... xn P (xn, y1) P (xn, y2) ã ã ã P (xn, yj) ã ã ã P (xn, ym) Trong đó xi, i = 1, n là các giá trị có thể có của X; yj; j = 1,m là các giá trị có thể có của Y. p(xi, yj) là xác suất để VTNN hai chiều (X, Y ) nhận giá trị (xi, yj). Để tạo nên một qui luật phân phối xác suất thì các xác suất p(xi, yj) phải thỏa mãn điều kiện: - p(xi, yj) ≥ 0. - n∑ i=1 m∑ j=1 p(xi, yj) = 1. Biết đ−ợc bảng phân phối xác suất của VTNN hai chiều bao giờ cũng tìm đ−ợc bảng phân phối xác suất của mỗi thành phần. Bảng phân phối xác suất của thành phần X có dạng: X x1 x2 ã ã ã xi ã ã ã xn p p(x1) p(x2) ã ã ã p(xi) ã ã ã p(xn) trong đó: p(xi) = m∑ j=1 p(xi, yj) This lesson was typed by pdfLATEX 9Rõ ràng là: n∑ i=1 p(xi) = 1. Bảng phân phối xác suất của thành phần Y có dạng: X y1 y2 ã ã ã yj ã ã ã ym p p(y1) p(y2) ã ã ã p(yj) ã ã ã p(ym) trong đó: p(yj) = n∑ i=1 p(xi, yj) rõ ràng là: m∑ j=1 p(yj) = 1. Ví dụ 2: Tìm bảng phân phối xác suất của các thành phần của VTNN hai chiều có bảng phân phối xác suất nh− sau: X \ Y y1 y2 x1 0, 1 0, 06 x2 0, 3 0, 18 x3 0, 2 0, 16 Giải: Cộng các xác suất theo hàng ta thu đ−ợc các xác suất t−ơng ứng với các giá trị của thành phần X. p(x1) = 0, 1 + 0, 06 = 0, 16 p(x2) = 0, 3 + 0, 18 = 0, 48 p(x3) = 0, 2 + 0, 16 = 0, 36 Ta có bảng phân phối xác suất của thành phần X X x1 x2 x3 p 0, 16 0, 48 0, 36 Cộng các giá trị theo cột ta có các xác suất t−ơng ứng với các giá trị của thành phần Y : p(y1) = 0, 1 + 0, 3 + 0, 2 = 0, 6 p(y2) = 0, 06 + 0, 18 + 0, 16 = 0, 4 Ta có bảng phân phối xác suất của thành phần Y nh− sau: Y y1 y2 p 0, 6 0, 4 This lesson was typed by pdfLATEX 10 (ii) Hàm phân phối xác suất của VTNN hai chiều: Xét VTNN hai chiều (X, Y ) có thể rời rạc hoặc liên tục. Giả sử (x, y) là một cặp số thực bất kỳ. Xét biến cố (X < x; Y < y) là biến cố để X nhận giá trị nhỏ hơn x, và Y nhận giá trị nhỏ hơn y. Khi x, y thay đổi thì xác suất của biến cố trên cũng thay đổi theo, nó là một hàm số của x và y. Hàm phân phối xác suất của VTNN hai chiều (X, Y ); ký hiệu F (x, y) là xác suất để thành phần X nhận giá trị nhỏ hơn x và thành phần Y nhận giá trị nhỏ hơn y với x, y là các số thực tùy ý. F (x, y) = P (X < x, Y < y) Ví dụ 3: Tìm xác suất để trong kết quả của phép thử thành phần X của VTNN hai chiều (X,Y ) nhận giá trị X < 2 và Y nhận giá trị Y < 3 nếu biết hàm phân phối xác suất của nó có dạng: F (x, y) = ( 1 pi arctg x 2 + 1 2 )( 1 pi arctg y 3 + 1 2 ) Giải: Theo định nghĩa hàm phân phối xác suất của VTNN hai chiều ta có: P (X < 2, Y < 3) = F (2, 3) = ( 1 pi arctg 2 2 + 1 2 ).( 1 pi arctg 3 3 + 1 2 ) = ( 1 pi . pi 4 + 1 2 ).( 1 pi . pi 4 + 1 2 ) = 3 4 . 3 4 = 9 16 (iii) Hàm mật độ xác suất của VTNN hai chiều: Đối với VTNN liên tục (X, Y ) ngoài hàm phân phối xác suất ra còn có thể dùng hàm mật độ xác suất biểu diễn phân phối xác suất của nó. Hàm mật độ xác suất của VTNN hai chiều liên tục (X,Y ); ký hiệu f(x, y) là đạo hàm riêng hỗn hợp cấp hai của hàm phân phối xác suất f(x, y) = ∂2F (x, y) ∂x∂y Ví dụ 4: Tìm hàm mật độ xác suất của VTNN hai chiều liên tục (X, Y ) nếu biết hàm phân phối xác suất của nó. F (x, y) = sinx. sin y; 0 ≤ x ≤ pi 2 ; 0 ≤ y ≤ pi 2 Giải: Theo định nghĩa hàm mật độ xác suất, tr−ớc hết ta tìm đạo hàm riêng của hàm phân phối xác suất theo x: ∂F (x, y) ∂x = cos x sin y This lesson was typed by pdfLATEX 11 Suy ra: f(x, y) = ∂2F (x, y) ∂x∂y = cos x cos y; x ∈ [0, pi 2 ], y ∈ [0, pi 2 ]. This lesson was typed by pdfLATEX 12 B.- Kỳ vọng, ph−ơng sai và một số đặc tr−ng của đại l−ợng ngẫu nhiên 1.- Kỳ vọng và ph−ơng sai: a) Kỳ vọng: Định nghĩa 1: Giả sử X là ĐLNN rời có bảng phân phối xác suất nh− sau: X(Ω) x1 x2 ã ã ã xn ã ã ã p p1 p2 ã ã ã pn ã ã ã Nếu ∞∑ k=1 |xk|.pk < +∞ thì ta gọi tổng ∞∑ k=1 xkpk là kỳ vọng của ĐLNN X và ký hiệu là EX: EX = ∞∑ k=1 xkpk Trong tr−ờng hợp X(Ω) = {x1, x2, ã ã ã , xn} (hữu hạn) thì: EX = n∑ k=1 xkpk. Định nghĩa 2: Giả sử X là ĐLNN liên tục có hàm mật độ f(x). Nếu +∞∫ −∞ |x|f(x)dx < +∞ thì ta gọi +∞∫ −∞ xf(x)dx là kỳ vọng của ĐLNN X và ký hiệu EX: EX = +∞∫ −∞ xf(x)dx. Ví dụ 1: Cho X là ĐLNN có phân phối xác suất: X(Ω) −2 −1 0 1 4 p 0, 1 0, 2 0, 15 0, 25 0, 3 Tìm kỳ vọng của X . Giải: EX = (−2).(0, 1) + (−1).(0, 2) + 0.(0, 15) + 1.(0, 25) + 4.(0, 3) = 1, 05 This lesson was typed by pdfLATEX 13 Ví dụ 2: Cho ĐLNN có hàm mật độ: f(x) = { cx3 với 0 ≤ x ≤ 3 0 với x /∈ [0, 3] Tính c và EX Giải: f(x) ≥ 0⇐⇒ c ≥ 0 +∞∫ −∞ f(x)dx = 1⇐⇒ 3∫ 0 cx3dx = 1⇐⇒ c = 4 81 EX = +∞∫ −∞ xf(x)dx = 3∫ 0 x. 4 81 x3dx = 4 81 ( x5 5 ) ]3 0 = 2, 4 Ví dụ 3: X là ĐLNN có hàm mật độ f(x) = { 0 nếu x 1 1 nếu 0 ≤ x ≤ 1 Tính EX. Giải: +∞∫ −∞ xf(x)dx = 0∫ −∞ x.0.dx+ 1∫ 0 x.1.dx+ +∞∫ 1 x.0.dx = 1 2 . b) Ph−ơng sai: Định nghĩa: Ph−ơng sai của ĐLNN X , ký hiệu DX , đ−ợc xác định bởi: DX = E(X − EX)2 Nếu X là ĐLNN liên tục thì: DX = +∞∫ −∞ (x− EX)2f(x)dx c) Độ lệch chuẩn: Độ lệch chuẩn của ĐLNN X là σX = √ DX. Ví dụ 1: ĐLNN X có bảng phân phối xác suất: X(Ω) 0 1 2 3 p 5 30 15 30 9 30 1 30 This lesson was typed by pdfLATEX 14 Ta có EX = 0. 5 30 + 1. 15 30 + 2. 9 30 + 3. 1 30 = 1, 2 DX = (0− 1, 2)2. 5 30 + (1− 1, 2)2.15 30 + (2− 1, 2)2. 9 30 + (3− 1, 2)2. 1 30 = 0, 56 σX = √ DX = √ 0, 56 = 0, 74. Ví dụ 2: Với ĐLNN liên tục ở ví dụ 2 trên: DX = +∞∫ −∞ (x− 2, 4)2.f(x)dx = 4 8 3∫ 0 (x− 2, 4)2.x3dx = 0, 24 σX = √ DX = 0, 48. Chú ý: Có thể chứng minh đ−ợc DX = E(X2)− (EX)2. d) Tính chất của kỳ vọng toán và ph−ơng sai: Kỳ vọng: Kỳ vọng có các tính chất sau: i) ĐLNN X = C: hằng có EC = C ii) Một hằng số có thể đ−a ra ngoài dấu kỳ vọng E(aX) = aEX. iii) Kỳ vọng của tổng các ĐLNN bằng tổng các kỳ vọng: E(X1 +X2 + ã ã ã+Xn) = EX1 + EX2 + ã ã ã+ EXn. iv) Nếu g(x) là hàm liên tục thì g(X) là một ĐLNN và nếu g(X) có kỳ vọng thì: • Nếu X là ĐLNN rời với P (X = xk) = pk; k = 1, 2, ã ã ã thì E(g(X)) =∞∑ k=1 g(xk).pk. • Nếu X là ĐLNN liên tục với hàm mật độ f(x) thì: E(g(X)) = +∞∫ −∞ g(x).f(x)dx. Đặc biệt: •Khi X là ĐLNN rời: E(X2) = ∞∑ k=1 x2k.pk. This lesson was typed by pdfLATEX 15 •Khi X là ĐLNN liên tục: E(X2) = +∞∫ −∞ x2.f(x)dx. Ph−ơng sai: i) C là ĐLNN hằng thì DC = 0 ii) a là hằng thì D(aX) = a2DX iii) Nếu X1, X2, ã ã ã , Xn là các ĐLNN độc lập thì: D(X1 +X2 + ã ã ã+Xn) = DX1 +DX2 + ã ã ã+DXn ở đây X1, X2, ã ã ã , Xn độc lập khi và chỉ khi: P (X1 = x1, X2 = x2, ã... quyết vấn đề gì, bởi các ĐLNN Xi có cùng qui luật phân phối xác suất với X mà ta ch−a biết đ−ợc hoàn toàn. Vì vậy ta cần phải liên kết hay tổng hợp các đại l−ợng X1, X2, ã ã ã , Xn lại, sao cho ĐLNN mới thu đ−ợc có những tính chất mới, có thể đáp ứng đ−ợc những yêu cầu giải đ−ợc bài toán khác nhau về ĐLNN gốc. Trong thống kê toán học , việc tổng hợp mẫu WX = (X1, X2, ã ã ã , Xn) đ−ợc thực hiện d−ới dạng hàm của các ĐLNN X1, X2, ã ã ã , Xn ký hiệu G = f(X1, X2, ã ã ã , Xn). ĐLNN G đ−ợc gọi là một thống kê. Sau đây ta xét một số thống kê thông dụng hay còn đ−ợc gọi là các đặc tr−ng của mẫu ngẫu nhiên. 3.2.1. Trung bình mẫu ngẫu nhiên: 1) Định nghĩa: Cho mẫu ngẫu nhiên kích th−ớc n, đ−ợc xây dựng từ ĐLNN X : WX = (X1, X2, ã ã ã , Xn) Trung bình của mẫu ngẫu nhiên là một thống kê (ký hiệu là X đ−ợc xác định bởi: X = 1 n (X1 +X2 + ã ã ã+Xn) = 1 n n∑ i=1 Xi 17 Do X1, X2, ã ã ã , Xn là các ĐLNN nên X cũng là ĐLNN. Nếu mẫu ngẫu nhiên WX có một giá trị wX = (x1, x2, ã ã ã , xn) thì X sẽ nhận giá trị: x = 1 n n∑ i=1 xi. Nh− vậy x là một giá trị của X , đồng thời là trung bình của mẫu cụ thể wX = (x1, x2, ã ã ã , xn). 2) Tính chất: Nếu ĐLNN gốc X có kỳ vọng toán E(X) = m; ph−ơng sai D(X) = σ2 thì: E(X) = m và D(X) = σ2 n Thật vậy, theo tính chất của kỳ vọng toán, ta có: E(X) = E [1 n n∑ i=1 Xi ] = 1 n n∑ i=1 E(Xi) = 1 n .n.m = m để ý rằng các ĐLNN Xi độc lập có cùng qui luật phân phối xác suất với ĐLNN X , nên theo tính chất của ph−ơng sai thì: D(X) = D [1 n (X1 +X2 + ã ã ã+Xn) ] = = 1 n2 [ D(X1) +D(X2) + ã ã ã+D(Xn) ] = 1 n2 .n.σ2 = σ2 n . Nh− vậy bất kể qui luật phân phối xác suất của ĐLNN gốc nh− thế nào, thống kê X cũng có kỳ vọng toán bằng kỳ vọng toán của ĐLNN gốc, tức là: E(X) = E(X) = m, còn ph−ơng sai D(X) của nó nhỏ hơn ph−ơng sai của ĐLNN gốc n lần: D(X) = σ2 n , nghĩa là các giá trị có thể có của X ổn định quanh kỳ vọng toán hơn các giá trị có thể có của X . 3) Qui luật phân phối xác suất của X : Qui luật phân phối xác suất của trung bình mẫu X phụ thuộc chặt chẽ vào qui luật phân phối của ĐLNN gốc X . Ng−ời ta đã chứng minh đ−ợc rằng: Nếu X có phân phối chuẩn N(à, σ2) thì X phân phối theo qui luật chuẩn N(à, σ2 n ). 3.2.2. Ph−ơng sai của mẫu ngẫu nhiên: 18 1) Định nghĩa: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn), ph−ơng sai của nó là một thống kê, ký hiệu là S2, đ−ợc xác định bởi hàm sau: S2 = 1 n n∑ i=1 (Xi −X)2 trong đó X là trung bình của mẫu ngẫu nhiên. Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S2 sẽ nhận giá trị: s2 = 1 n n∑ i=1 (xi − x)2. Giá trị s2 sẽ đ−ợc gọi là ph−ơng sai của mẫu cụ thể wX = (x1, x2, ã ã ã , xn). 2) Tính chất: Do S2 là ĐLNN nên ta có thể tính E(S2) E(S2) = n− 1 n σ2 Nhân hai vế của biểu thức trên với n n− 1 , ta có: n n− 1E(S 2) = σ2 đ−a hằng số n n− 1 vào trong dấu kỳ vọng ta có: E( n n− 1S 2) = σ2 hay: E = [ n n− 1 . 1 n n∑ i=1 (Xi −X)2 ] = E [ 1 n− 1 n∑ i=1 (Xi −X)2 ] = σ2 đặt S ′2 = n n− 1 .S 2 = 1 n− 1 n∑ i=1 (Xi −X)2 Và gọi S ′2 là ph−ơng sai điều chỉnh mẫu của mẫu ngẫu nhiên. Khi đó ta có E(S ′2) = σ2. Nh− vậy, kỳ vọng toán của ph−ơng sai điều chỉnh mẫu bằng ph−ơng sai của ĐLNN gốc X . Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì S ′2 nhận giá trị, ký hiệu là S ′2: s′2 = n n− 1 s 2 = 1 n− 1 n∑ i=1 (xi − x)2 19 s′2 gọi là ph−ơng sai điều chỉnh của mẫu cụ thể wX . 3) Qui luật phân phối xác suất của S2: Nếu mẫu ngẫu nhiênWX = (X1, X2, ã ã ã , Xn) đ−ợc xây dụng từ ĐLNN X phân phối theo qui luật chuẩn với EX = m, DX = σ2 thì ng−ời ta chứng minh đ−ợc rằng: * ĐLNN: X 2 = (n− 1)S ′2 σ2 = n∑ i=1 (Xi −X)2 σ2 sẽ tuân theo qui luật chi bình ph−ơng với n− 1 bậc tự do. * ĐLNN: X 2 = nS 2 σ2 = n∑ i=1 (Xi −m)2 σ2 phân phối theo qui luật chi bình ph−ơng với n bậc tự do. 3.2.3. Độ lệch tiêu chuẩn và độ lệch tiêu chuẩn điều chỉnh: Độ lệch tiêu chuẩn của mẫu ngẫu nhiên (ký hiệu s) là căn bậc hai của ph−ơng sai mẫu: S = √ S2 = √√√√1 n n∑ i=1 (Xi −X)2 Nếu có mẫu cụ thể wX = (x1, x2, ã ã ã , xn) thì độ lệch tiêu chuẩn sẽ nhận một giá trị và đ−ợc gọi là độ lệch tiêu chuẩn của mẫu cụ thể: s = √ s2 = 1 n n∑ i=1 (xi − x)2. T−ơng tự, ta có độ lệch tiêu chuẩn điều chỉnh của mẫu và một giá trị cụ thể của nó : S ′ = √ S ′2 = 1 n− 1 n∑ i=1 (Xi −X)2; s′ = √ s′2 = 1 n− 1 n∑ i=1 (xi − x)2. Bài Tập 1: Chiều cao của 400 cây sao đ−ợc cho bởi bảng sau: 20 khoảng chiều cao tần số ni độ dài của khoảng 4, 5− 8, 5 18 4 8, 5− 12, 5 58 4 12, 5− 16, 5 62 4 16, 5− 20, 5 72 4 20, 5− 24, 5 57 4 24, 5− 28, 5 42 4 28, 5− 32, 5 36 4 32, 5− 36, 5 10 4 Hãy lập bảng tính x và s2. Bài Tập 2: Số xe hơi bán đ−ợc trung bình trong một tuần ở một đại lý trong 45 đại lý cho bởi: Số xe bán đ−ợc ni trong tuần / đại lý 1 15 2 12 3 9 4 5 5 3 6 1 Hãy lập bảng tính x, s2 Lập bảng tính: xi ni nixi nix 2 i 1 15 2 12 3 9 4 5 5 3 6 1 σ 45 21 xi ni nixi nix 2 i 1 15 15 15 2 12 24 48 3 9 27 81 4 5 20 80 5 3 15 75 6 1 6 36∑ 45 107 335 Ta có: x = 107 45 = 2, 38 s2 = 335 45 − (2, 38)2 = 7, 444− 5, 664 = 1, 78 Bài Tập 3: Theo dõi 336 tr−ờng hợp tàu cập cảng, ng−ời ta thấy khoảng thời gian ngắn nhất giữa hai lần tàu vào cảng liên tiếp là 4 giờ , thời gian dài nhất là 80 giờ; với số liệu đ−ợc sắp thành bảng phân lớp sau: lớp ni 4-12 143 12-20 75 20-28 53 28-36 27 36-44 14 44-52 9 52-60 5 60-68 4 68-76 3 76-84 3∑ 336 Hãy lập bảng tính x, s2. 22 lớp ni x∗i ni.x ∗ i ni.(x ∗ i ) 2 4 - 12 143 8 1144 9152 12 - 20 75 16 1200 19200 20 - 28 53 24 1272 30528 28 - 36 27 32 864 27648 36 - 44 14 40 560 22400 44 - 52 9 48 432 20736 52 - 60 5 56 280 15680 60 - 68 4 64 256 16384 68 - 76 3 72 216 15552 76 - 84 3 78 234 18252∑ 336 6458 195532 Ta có: x = 6458 336 = 19, 22; s2 = 195532 336 − (19, 22)2 = 212, 532 1−ớc l−ợng Nh− chúng ta biết, các số đặc tr−ng của dấu hiệu H nh− trung bình, ph−ơng sai ... đ−ợc sử dụng rộng rãi trong phân tích kinh tế, xã hội và các lĩnh vực khác. Nh−ng các số đặc tr−ng này th−ờng ch−a biết, vì vậy đặt ra vấn đề cần −ớc l−ợng chúng bằng ph−ơng pháp mẫu. Sau khi đã mô hình hoá dấu hiệu H bằng một ĐLNN và cơ cấu tổng thể bằng qui luật phân phối xác suất của X , ta có thể phát biểu vấn đề thực tế nêu trên d−ới dạng toán học nh− sau: Cho ĐLNN X có thể đã biết hoặc ch−a biết qui luật phân phối xác suất của X , nh−ng ch−a biết tham số θ nào đó của nó. Hãy −ớc l−ợng θ bằng ph−ơng pháp mẫu (dựa trên cở sở một mẫu thống kê nào đó). Bài toán này là một trong những bài toán cơ bản của thống kê toán. Vì θ là một hằng số nên có thể dùng một số nào đó để −ớc l−ợng θ, −ớc l−ợng nh− vậy đ−ợc gọi là −ớc l−ợng điểm (nếu ta đ−a chọn số dùng để −ớc l−ợng θ lên trục số thì nó t−ơng ứng với một điểm). Ngoài −ớc l−ợng điểm ng−ời ta còn dùng ph−ơng pháp −ớc l−ợng khoảng, tức là chỉ ra một khoảng số (g1, g2) nào đó có thể chứa đ−ợc θ. D−ới đây ta sẽ nghiên cứu các ph−ơng pháp tìm ra một số hay một khoảng số để −ớc l−ợng θ. Các ph−ơng pháp này xuất phát từ cơ sở hợp lý nào đó để tìm −ớc l−ợng của θ, chứ không phải là sự chứng minh chặt chẽ. 1. Các ph−ơng pháp tìm −ớc l−ợng điểm 1.1. Ph−ơng pháp hàm −ớc l−ợng 1.1.1. Mô tả ph−ơng pháp Giả sử cần −ớc l−ợng tham số θ của ĐLNN X . Từ X ta lập mẫu ngẫu nhiên kích th−ớc n : WX = (X1, X2, ã ã ã , Xn). Chọn thống kê G = f(X1, X2, ã ã ã , Xn). Thống kê G đ−ợc gọi là hàm −ớc l−ợng của θ. Một trong những cách chọn dạng của hàm f là t−ơng ứng thống kê đặc tr−ng Biên soạn: GVC.ThS. Phan văn Danh 2của mẫu ngẫu nhiên với hàm số cần −ớc l−ợng của ĐLNN. Ph−ơng pháp này gọi là ph−ơng pháp momen. Trong thực tế ng−ời ta th−ờng chọn hàm −ớc l−ợng nh− sau: i) Chọn G = f(X1, X2, ã ã ã , Xn) = X = 1n n∑ i=1 Xi nếu là −ớc l−ợng kỳ vọng toán. ii) Chọn G = S ′2 = 1 n− 1 n∑ i=1 (Xi −X)2 nếu là −ớc l−ợng ph−ơng sai. Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn), ta tính giá trị của G (ký hiệu là g). Tức là g = f(x1, x2, ã ã ã , xn). Ước l−ợng điểm của θ chính là giá trị g vừa tính đ−ợc. 1.1.2. Tiêu chuẩn −ớc l−ợng Chất l−ợng của −ớc l−ợng không thể đánh giá qua một giá trị cụ thể g. Nh− vậy chỉ có cách so sánh trực tiếp g và θ, mà θ lại ch−a biết. Do vậy chỉ có thể đánh giá chất l−ợng của −ớc l−ợng thông qua việc khảo sát xem: việc tìm ra giá trị g đ−ợc tiến hành nh− thế nào, tức là xét bản thân thống kê G = f(X1, X2, ã ã ã , Xn). Ta thấy có vô số cách chọn dạng của hàm f , tức là có vô số thống kê G có thể dùng làm hàm −ớc l−ợng của θ. Vì vậy cần đ−a ra các tiêu chuẩn để đánh giá chất l−ợng của −ớc l−ợng, để từ đó lựa chọn thống kê G tốt hơn. D−ới đây ta sẽ xét một số tiêu chuẩn đó: a) Ước l−ợng không chệch. * Định nghĩa: Thống kê G đ−ợc gọi là −ớc l−ợng không chệch của tham số θ của ĐLNN X nếu E(G) = θ Ng−ợc lại, nếu EG 6= θ thì G đ−ợc gọi là −ớc l−ợng chệch của θ. * ý nghĩa: Ta thấy Gθ là ĐLNN biểu thị sai số của −ớc l−ợng. Theo tính chất của kỳ vọng toán, ta có: E(G− θ) = EG− Eθ = θ − θ = 0, nếu G là −ớc l−ợng không chệch. Nh− vậy −ớc l−ợng không chệch là −ớc l−ợng có trung bình của sai số bằng 0, tức là các giá trị của G không bị chệch về một phía (lớn hơn θ hay nhỏ hơn θ, nếu dùng G để −ớc l−ợng θ thì không mắc phải sai số hệ thống. Rõ ràng trong hai loại −ớc l−ợng: chệch và không chệch thì ta nên chọn −ớc l−ợng không chệch. Chú ý rằng: G là −ớc l−ợng không chệch của θ không có nghĩa là mọi giá trị của G đều trùng với θ mà chỉ có nghĩa là: trung bình các giá trị của G bằng 0. Một giá trị của G có thể lệch rất lớn so với θ. Biên soạn: GVC.ThS. Phan văn Danh 3Ví dụ : 1) Trung bình của mẫu ngẫu nhiên: X là −ớc l−ợng không chệch của EX = m. Và EX = m. 2) Ph−ơng sai hiệu chỉnh S ′2 là −ớc l−ợng không chệch của DX = σ2 vì ES ′2 = σ2. 3) Ph−ơng sai S2 là −ớc l−ợng chệch của DX = σ2 vì ES2 = n− 1 n σ2 6= σ2. b) Ước l−ợng vững: Một hàm −ớc l−ợng đ−ợc coi là hợp lý nếu nh− khi kích th−ớc của mẫu tăng lên khá lớn thì giá trị của nó phải gần tham số cần −ớc l−ợng bao nhiêu cũng đ−ợc. * Định nghĩa: Cho mẫu WX = (X1, X2, ã ã ã , Xn) xây dựng ĐLNN X . Hàm −ớc l−ợng G = f(X1, X2, ã ã ã , Xn) của tham số θ đ−ợc gọi là −ớc l−ợng vững nếu với mọi ε > 0 bé tùy ý cho tr−ớc ta đều có: lim n→∞P (|f(X1, X2, ã ã ã , Xn)− θ| < ε) = 1. (4.2) Điều kiện đủ của −ớc l−ợng vững đ−ợc phát biểu d−ới dạng định lý sau: * Định lý: Nếu G là −ớc l−ợng không chệch của θ và lim n→∞DG = 0 thì G là −ớc l−ợng vững của θ. c) Ước l−ợng hiệu quả. Giả sử G là −ớc l−ợng không chệch của θ. áp dụng bất đẳng thức Tchebychev cho ĐLNN G, ta có P (|G− EG| < ε) ≥ 1− DG ε2 . Vì EG = θ nên bất đẳng thức thành: P (|G− θ| < ε) ≥ 1− DG ε2 . (4.3) Nh− vậy, nếu ph−ơng sai DG càng nhỏ thì xác xuất để G nhận giá trị gần θ bao nhiêu cũng đ−ợc, sẽ càng lớn. Do đó ph−ơng sai của thống kê G là một chỉ tiêu quan trọng phản ánh chất l−ợng của hàm −ớc l−ợng: G = f(X1, X2, ã ã ã , Xn). Một cách hợp lý là cần chọn những hàm −ớc l−ợng không chệch và ph−ơng sai nhỏ nhất. * Định nghĩa: Thống kê G = f(X1, X2, ã ã ã , Xn) là −ớc l−ợng không chệch của θ và ph−ơng sai DG bằng cận d−ới các ph−ơng sai của các thống kê đ−ợc xây dựng từ mẫu ngẫu nhiên WX thì G đ−ợc gọi là −ớc l−ợng hiệu quả của θ. Để tìm cận d−ới của ph−ơng sai các hàm −ớc l−ợng ta dựa vào bất đẳng thức Crame - Rao đ−ợc nêu trong định lý d−ới đây: * Định lý: Cho mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc xây dựng từ ĐLNN X có hàm mật độ xác suất f ∗ x, θ) thoả mãn một số điều kiện nhất định Biên soạn: GVC.ThS. Phan văn Danh 4(th−ờng là các điều kiện trong thực tế) và G là −ớc l−ợng không chệch bất kỳ của θ thì: DG ≥ 1 nE (∂ ln f(x, θ) ∂θ )2 . (4.4) Cần l−u ý rằng không phải với mọi tham số θ đều có thể chọn đ−ợc hàm −ớc l−ợng G đảm bảo đ−ợc cả tính không chệch, tính vững và tính hiệu quả. Vấn đề là ở chỗ cần chọn hàm −ớc l−ợng sao cho các kết luận rút ra đ−ợc đủ tin cậy cho mục đích nghiên cứu. Ví dụ 1: Hàm X = 1 n n∑ i=1 Xi là −ớc l−ợng không chệch, vững, hiệu quả của EX = à trong tr−ờng hợp X có phân phối chuẩn N(à, σ2). Thật vậy, ta có: f(x, θ) = 1 σ √ 2pi .e− (x−à)2 2σ2 . lnf(x, θ) = − lnσ √ 2pi − (x− à) 2 2σ2 = ∂ ln f(x, θ) ∂θ = ∂ ln f(x, à) ∂à = x− à σ2 . nên nE = (∂ ln f(x, θ) ∂θ )2 = nE (x− à σ2 )2 = nE (x− à)2 σ4 = nDX σ4 = n σ2 . mà: Biên soạn: GVC.ThS. Phan văn Danh 5DX = 1 n2 n∑ i=1 DXi = 1 n2 nσ2 = σ2 n . Nghĩa là DX bằng biểu thức ở vế phải của bất đẳng thức Crame - Rao. Vậy X là −ớc l−ợng hiệu quả của à. Mặt khác ta có: EX = 1 n E ( n∑ i=1 Xi ) = 1 n n∑ i=1 EXi = nà n = à. Nh− vậy, X cũng là −ớc l−ợng không chệch của à. Ta đã biết : DX = σ2 n . Khi n→∞ thì σ 2 n → 0 nên bất đẳng thức Tchebychev ta có: P (|X − à| < ε) ≥ 1− DX ε2 . Do đó P (|X − à| < ε)→ 1 khi n→∞, nghĩa là X là −ớc l−ợng vững của à. Ví dụ 2: Để −ớc l−ợng xác suất p của biến cố A nào đó ta thực hiện n phép thử lặp độc lập và lấy tần suất xuất hiện A làm −ớc l−ợng điểm cho p. Gọi X là ĐLNN chỉ số lần xuất hiện A trong n phép thử. Khi đó X là ĐLNN tuân theo qui luật phân phối nhị thức với EX = np và DX = npq (q = 1− p). Ta có: EG = E( X n ) = 1 n EX = 1 n .np = p Nh− vậy G = X n là −ớc l−ợng không chệch của p. Mặt khác theo định lý Vernouilli ta có lim n→∞P (|X n − p| 0. Nên G = X n là −ớc l−ợng vững của p. Ta thừa nhận G = X n cũng là −ớc l−ợng hiệu quả của p. 1.2. Ph−ơng pháp −ớc l−ợng hợp lý cực đại 1.2.1. Mô tả ph−ơng pháp Giả sử đã biết qui luật phân phối xác suất dạng tổng quát của ĐLNN X, chẳng hạn hàm mật độ f(x, θ) (cũng có thể xem f(x, θ) là công thức xác suất nếu X là ĐLNN rời rạc) cần phải −ớc l−ợng tham số θ nào đó của X. Lập mẫu cụ thể: wX = (x1, x2, ã ã ã , xn). Biên soạn: GVC.ThS. Phan văn Danh 6Hàm của đối số θ : L(x1, x2, ã ã ã , xn, θ) = f(x1, θ).f(x2, θ) ã ã ã f(xn, θ) và gọi là hàm hợp lý của tham số θ. Giá trị của hàm hợp lý chính là xác suất (hay mật độ xác suất) tại điểm wX = (x1, x2, ã ã ã , xn). Giá trị g = g(x1, x2, ã ã ã , xn) đ−ợc gọi là −ớc l−ợng hợp lý cực đại của θ, nếu ứng với giá trị này của θ, hàm hợp lý đạt cực đại. Vì hàm L và lnL đạt cực đại tại cùng một giá trị của θ, do vậy có thể tìm giá trị của θ để lnL đạt cực đại với các b−ớc sau: B−ớc 1: Tìm đạo hàm bậc nhất lnL theo θ. B−ớc 2: Lập ph−ơng trình ∂ lnL ∂θ = 0 Ph−ơng trình này đ−ợc gọi là ph−ơng trình hợp lý. Giả sử nó có nghiệm θ = g = g(x1, x2, ã ã ã , xn) là −ớc l−ợng điểm hợp lý cực đại cần tìm của θ. Ví dụ 1: Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số p trong qui luật phân phối nhị thức. Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, p) = n∏ i=1 Cxin p xi(1− p)n−xi. Suy ra lnL = n∑ i=1 [ lnCxin + xi ln p+ (n− xi) ln(1− p) ] . ∂ lnL ∂p = 1 p n∑ i=1 xi + 1 1− p n∑ i=1 (xi − n) ∂ lnL ∂p = 0 khi p = 1 n2 n∑ i=1 xi = x n , do đó −ớc l−ợng hợp lý cực đại của p là x n . Ví dụ 2: Bằng ph−ơng pháp hợp lý cực đại, −ớc l−ợng tham số λ của qui luật phân phối mũ có hàm mật độ xác suất nh− sau: f(x) = { λeλx với 0 < x < +∞ 0 với x ≤ 0 Ta lập hàm hợp lý: L(x1, x2, ã ã ã , xn, λ) = λne−λ ∑ xi. Suy ra lnL = m lnλ− λ∑xi =⇒ ∂ lnL ∂λ = n. 1 σ − ∑ xi. Biên soạn: GVC.ThS. Phan văn Danh 7Giải ph−ơng trình hợp lý: ∂ lnL ∂λ = 0 ta có λ = 1 x đạo hàm bậc hai theo λ : ∂2 lnL ∂λ2 = − n λ2 0. Vì vậy −ớc l−ợng hợp lý cực đại của λ là 1 x . 2. Các ph−ơng pháp tìm −ớc l−ợng khoảng Ngoài cách dùng một con số để −ớc l−ợng tham số θ, ta còn có thể dùng một 2.1. Mô tả ph−ơng pháp Để −ớc l−ợng tham số θ của ĐLNN X , từ X ta lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn). Chọn thống kê G = f(X1, X2, ã ã ã , Xn, θ) sao cho qui luật phân phối xác suất của G hoàn toàn xác định mặc dù ch−a biết giá trị của θ. Do đó với xác suất α1 khá bé ta tìm đ−ợc phân vị gα1 của thống kê gα1 thoả mãn: P (G < gα1) = α1. Với xác suất α2 mà α1 + α2 = α khá bé (trong thực tế ng−ời ta lấy α ≤ 0, 05), ta tìm phân vị g1−α2, tức là: P (G < g1−α2) = 1− α2. Suy ra: P (gα2 ≤ G ≤ g1−α2) = P (G < g1−α2)− P (G < gα1) = 1− α1 − α2 = 1− α. Từ đây giả ra đ−ợc θ, tức là đ−a biểu thức này về dạng P (G1 ≤ θ ≤ G2) = 1− α. Lúc ấy: i) Khoảng (G1, G2) đ−ợc gọi là khoảng tin cậy của θ vì G1, G2 là các ĐLNN nên khoảng (G1, G2) là khoảng ngẫu nhiên. ii) 1−α gọi là độ tin cậy của −ớc l−ợng. Do α khá bé nên 1−α khá lớn. Thông th−ờng trong thực tế ng−ời ta yêu cầu 1− α ≥ 95% để có thể sử dụng nguyên lý xác suất lớn cho biến cố (G1 ≤ θ ≤ G2). Biên soạn: GVC.ThS. Phan văn Danh 8iii) I = G2−G1 gọi là độ dài của KTC. I có thể là hằng số và cũng có thể gọi là ĐLNN. Do xác suất 1− α khá lớn, nên biến cố (G1 ≤ θ ≤ G2) hầu nh− chắc chắn xảy ra trong một phép thử. Thực hiện một phép thử đối với mẫu ngẫu nhiên WX , ta sẽ thu đ−ợc mẫu cụ thể wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể này ta tính đ−ợc giá trị của G1 và G2. Ký hiệu các giá trị đó là g1, g2. Nh− vậy có thể kết luận. Với độ tin cậy 1−α, qua mẫu cụ thể wX , θ nằm trong khoảng (g1, g2), tức là: (g1 < θ < g2). Ph−ơng pháp −ớc l−ợng này có −u điểm là: chẳng những tìm đ−ợc khoảng (g1, g2) để −ớc l−ợng θ mà còn biết đ−ợc độ tin cậy của −ớc l−ợng. Tuy nhiên nó cũng chứa đựng khả năng mắc sai lầm. Xác suất mắc sai lầm là α. 2.2. Ước l−ợng cho giá trị trung bình Giả sử trung bình tổng thể (cũng chính là kỳ vọng toán của ĐLNN gốc X) là m ch−a biết, ta còn −ớc l−ợng m. 2.2.1. Tr−ờng hợp kích th−ớc mẫu n ≥ 30 (hoặc n < 30 nh−ng X có phân phối chuẩn); DX = σ2 đã biết: Chọn thống kê: U = (X −m)√n σ Vì n ≥ 30, nên ta có thể áp dụng định lý Lindeberg - Levy. Nội dung định lý này: Nếu các ĐLNN X2, X2, ã ã ã , Xn độc lập, có kỳ vọng toán m và ph−ơng sai σ2 hữu hạn, thì ĐLNN U = (X −m)√n σ có phân phối xác suất xấp xỉ với phân phối chuẩn tắc khi n lớn. Tr−ờng hợp n < 30 thì do x ∼ N(à, σ) nên U có phân phối chuẩn tắc. Với xác suất α1 khá bé ta tìm đ−ợc phân vị uα1 : P (U < uα1) = α1. Với xác suất α2 sao cho α1 + α− 2 = α, ta tìm đ−ợc phân vị u1−α2. Tức là: P (U < u1−α2) = 1− α2. Ta có: P (uα1 ≤ U ≤ u1−α2) = P (U < u1−α2)− P (U < uα1) = 1− (α1 + α2) = 1− α. Nh− vậy: P ( uα1 ≤ (X −m)√n σ ≤ uα2 ) = 1− α. Biên soạn: GVC.ThS. Phan văn Danh 9Hay P [ X − uα2. σ√ n ≤ m ≤ X − uα1. σ√ n ] = 1− α. Theo tính chất của phân vị chuẩn tắc: uα1 = −u1−α1: P [ X − uα2. σ√ n ≤ m ≤ X + u1−α1. σ√ n ] = 1− α. Vậy độ tin cậy 1− α, khoảng tin cậy của m là:( X − uα2. σ√ n ; X + u1−α1. σ√ n ) . độ dài KTC là I = σ√ n ( u1−α1 − u1−α2 ) . Cùng độ tin cậy 1− α, KTC nào có độ dài ngắn hơn sẽ tốt hơn. Chọn α1 = α2 = α 2 . Suy ra KTC: ( X − u1−α2 . σ√ n ; X + u1−α2 . σ√ n ) . Ký hiệu ε = u1−α2 . σ√ n = uγ. σ√ n . ε đ−ợc gọi là KTC đối xứng của m, độ dài của KTC là I = 2ε. ứng với độ tin cậy 1− α, KTC đối xứng có độ dài ngắn nhất. Vì vậy khi cần tìm KTC, thông th−ờng ta chỉ cần tìm KTC đối xứng. Vì độ tin cậy 1− α khá lớn, nên ta có thể coi biến cố (X − ε < m < X + ε) hầu nh− chắc chắn xảy ra trong một phép thử. Thực hiện phép thử đối với mẫu ngẫu nhiên WX , ta thu đ−ợc mẫu cụ thể: wX = (x1, x2, ã ã ã , xn). Từ mẫu cụ thể đó ta tính đ−ợc x = 1 n n∑ i=1 xi. Với độ tin cậy 1 − α cho tr−ớc, tra bảng phân vị chuẩn ta sẽ tìm đ−ợc giá trị phân vị chuẩn uγ = u1−α2 . Sau đó ta tính độ chính xác ε = uγ. σ√ n . Nh− vậy, với độ tin cậy 1 − α, qua mẫu cụ thể wX , khoảng tin cậy của m là: (x− ε, x+ ε). 2.2.2. Tr−ờng hợp n ≥ 30, σ2 ch−a biết: Tr−ờng hợp này vì kích th−ớc mẫu lớn (n ≥ 30) nên ta có thể dùng −ớc l−ợng của DX là S ′2 để thay cho σ2 ch−a biết. Tiến hành các b−ớc t−ơng tự nh− tr−ờng hợp ở mục 2.2.1. ta đ−ợc KTC cụ thể của m với độ tin cậy 1− α là: (x− ε, x+ ε) với ε = uγ. S ′ √ n . Biên soạn: GVC.ThS. Phan văn Danh 10 (trong đó uγ là phân vị chuẩn mức γ = 1− α 2 xác định bằng cách tra bảng phân vị chuẩn). 2.2.3. Tr−ờng hợp n < 30;σ2 ch−a biết, X tuân theo qui luật chuẩn: Tr−ờng hợp này ta chọn thống kê T = (X −m)√n S ′ . ĐLNN T phân phối theo qui luật Student với n− 1 bậc tự do. T−ơng tự phần 2.2.1, và do tính đối xứng của qui luật Student; với độ tin cậy 1− α cho tr−ớc ta tìm đ−ợc KTC của m trong tr−ờng hợp này là:( X − t1−α2 . S ′√ n ; X − t1−α2 . S ′√ n ) . Từ mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta tính đ−ợc x và s′. Từ đó xác định đ−ợc KTC cụ thể của m theo công thức: (x− ε, x+ ε) với ε = tγ. s ′ √ n . Với tγ là phân vị Student với n− 1 bậc tự do và mức xác suất γ = 1− α 2 . Ví dụ 1: Điều tra năng suất lúa trên 100 ha trồng lúa của một vùng, ta thu đ−ợc bảng số liệu sau: Năng suất (ta/ha) 41 44 45 46 48 52 54 Diện tích t−ơng ứng 10 20 30 15 10 10 5 Hãy −ớc l−ợng năng suất lúa trung bình của toàn vùng với độ tin cậy 95%. Giải: Gọi m là năng suất lúa trung bình của toàn vùng. Ta cần −ớc l−ợng m với độ tin cậy 95%. Tr−ờng hợp này kích th−ớc mẫu n = 100 > 30; σ2 ch−a biết. Nên KTC của m là (x− ε, x+ ε) với ε = uγ. S ′ √ n . Độ tin cậy 1−α = 95%, nên tra bảng phân vị chuẩn ta đ−ợc: uγ = u0,975 = 1, 96. Từ bảng số liệu tính đ−ợc: x = 46, S2 = 10, 8 =⇒ S ′2 = 100 99 .10, 8 = 10, 91. =⇒ S ′ = 3, 3 nên ε = 0, 65. Vậy KTC là (46− 0, 65; 46 + 0, 65) = (45, 35 ; 46, 65). Ví dụ 2: Trọng l−ợng một loại sản phẩm là ĐLNN tuân theo qui luật phân phối chuẩn với độ lệch tiêu chuẩn là 1 gam. Cân thử 25 sản phẩm loại này ta thu đ−ợc kết quả: Biên soạn: GVC.ThS. Phan văn Danh 11 Trọng l−ợng 18 19 20 21 Số sản phẩm 3 5 15 2 Với độ tin cậy 1−α = 0, 95, hãy tìm KTC đối xứng của trọng l−ợng trung bình của loại sản phẩm nói trên. Giải: Gọi X là "trọng l−ợng sản phẩm". Theo giả thiết X tuân theo qui luật phân phối chuẩn; σ(X) = 1 còn EX = à ch−a biết, ta cần phải −ớc l−ợng: Gọi Xi là "trọng l−ợng sản phẩm thứ i"; i = 1, 25 ta có mẫu ngẫu nhiên: WX = (X1, X2, ã ã ã , Xn); X = 1 25 25∑ i=1 Xi. Với độ tin cậy 1−α = 0, 95 thì à1−α2 = 1, 96. Vậy KTC đối với xứng của à là:( X − 1, 96. 1 25 ; X + 1, 96. 1 25 ) = (X − 0, 392;X + 0, 392). Từ số liệu đã cho, ta tính đ−ợc: x = 19, 46. Vậy KTC (19, 248 ; 20, 032). Ví dụ 3: Thống kê tuổi thọ của 256 bóng đèn do một nhà máy sản xuất, ta có bảng thống kê d−ới đây: tuổi thọ (giờ) số bóng tuổi thọ (giờ) số bóng 1000− 1100 4 1100− 1200 10 1200− 1300 16 1300− 1400 20 1400− 1500 36 1500− 1600 48 1600− 1700 42 1700− 1800 32 1800− 1900 26 1900− 2000 14 2000− 2100 8 Hãy −ớc l−ợng tuổi thọ trung bình của loại bóng đèn này với độ tin cậy 95, 60%. Giải: Gọi X là tuổi thọ của loại bóng đèn mà nhà máy sản xuất. Ta cần tìm KTC EX = m. Tr−ờng hợp này kích th−ớc của mẫu là 256 và ch−a biết σ2, do vậy KTC cụ thể của m là: (x− ε, x+ ε) với ε = uγ. S ′ √ n . Với độ tin cậy 95, 6% thì u1−α2 = u0,978 = 2, 014. Từ số liệu đã cho ta tính đ−ợc: x = 1587, 5 (giờ); S ′ = 226, 83. Từ đó ta có: ε = 28, 55. Vậy KTC của m là (1558, 95 ; 1616, 05). Biên soạn: GVC.ThS. Phan văn Danh 12 2.2.4. Ước l−ợng khoảng cho tỷ lệ (xác suất) Giả sử tổng thể ta đang nghiên cứu gồm N phần tử. Trong đó có M phần tử có tính chất A nào đó. p = MN là tỷ lệ các phần tử có tính chất A của tổng thể. Thông th−ờng p ch−a biết, cần −ớc l−ợng p. Để ý rằng p cũng chính là xác suất để lấy đ−ợc phần tử có tính chất A khi lấy ngẫu nhiên từ tổng thể ra một phần tử, nên bài toán trên là bài toán −ớc l−ợng tỷ lệ tổng thể (hay −ớc l−ợng xác suất). Gọi X là phần tử có tính chất A khi lấy ngẫu nhiên một phần tử từ tổng thể. X là ĐLNN có qui luật phân phối xác suất nh− sau: X 0 1 p p q với q = 1− p; EX = p; DX = p(1− p) = pq. Xét mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) đ−ợc thành lập từ ĐLNN gốc X . Trong đó Xi, i = 1, n là số phần tử có tính chất A có trong lần thứ i. Các ĐLNN Xi có phân phối xác suất giống X . Xét thống kê: fn = 1 n n∑ i=1 Xi là tần suất của mẫu ngẫu nhiên và cũng chính là trung bình của mẫu ngẫu nhiên.. Các ĐLNN Xi; i = 1, n có phân phối xác suất giống nh− X nên ta có thể chứng minh đ−ợc: Efn = p và Dfn = pq n . áp dụng định lý Lindeberg-Levy ta có ĐLNN: U = (fn − p) √ n√ pq có phân phối xấp xỉ chuẩn tắc. Do n khá lớn nên ta có thể thay pq bằng fn(1− fn). Sau đó ta áp dụng ph−ơng pháp t−ơng tự nh− đã tiến hành ở phần 2.2 và tìm đ−ợc KTC cụ thể của p là: (f − ε, f + ε) với ε = uγ √ f(1− f) n . Trong đó f là tỷ lệ phần tử có tính chất A của mẫu cụ thể (cũng chính là giá trị của fn); uγ là phân vị chuẩn mức γ = 1− α 2 . Ngoài cách xác định KTC của p bằng công thức trên, ta có thể tìm KTC của p bằng cách khác nh− sau: Từ KTC của p: f − uγ √ p(1− p) n < p < f + uγ √ p(1− p) n . Biên soạn: GVC.ThS. Phan văn Danh 13 hay |f − p| < uγ √ p(1− p) n . Giải ra: p1,2 = nf + 0, 5u2γ + uγ √ 0, 25u2γ − nf(1− f) n+ u2γ .|| (∗) Khoảng (p1, p2) chính là KTC của p (với độ tin cậy 1− α) hay: p1 < p < p2 Chú ý: Nếu n khá lớn (n > 100) và nf > 10;n(1 − f) > 10 ta có thể thay p(p−p) bởi f(1− f) ở biểu thức trên mà không mắc sai số đáng kể. Lúc đó ta có: f − uγ √ f(1− f) n < p < f + uγ √ f(1− f) n . hay: f − ε < p < f + ε. Ví dụ 1: Nghiên cứu nhu cầu tiêu dùng của một loại hàng trong thành phố, ng−ời ta tiến hành điều tra ở 100 gia đình thì thấy có 60 gia đình có nhu cầu về loại hàng nói trên. Hãy −ớc l−ợng tỉ lệ gia đình có nhu cầu về mặt hàng đó của toàn thành phố với độ tin cậy 1− α = 95%. Giải: Gọi tỷ lệ gia đình có nhu cầu mặt hàng này là p (p ch−a biết). Ta cần −ớc l−ợng p với tốc độ tin cậy 95%. Theo giả thiết của bài toán ta có: Tỷ lệ gia đình có nhu cầu về mặt hàng này trong mẫu cụ thể là f = 60 : 100 = 0, 6. Với độ tin cậy: 1−α = 0, 95 =⇒ 1− 1 α = 0, 975 =⇒ uγ = 1, 96. ε = 1, 96 √ 0, 6(1− 0, 6) 100 = 0, 096. Vậy KTC cụ thể của p là: (0, 504; 0, 696). Nếu áp dụng công thức (*) ta có: p1 = 0, 502; p2 = 0, 691. Khi đó KTC của p: (0, 502; 0, 691). 2.4. Ước l−ợng khoảng cho ph−ơng sai Giả sử ĐLNN, phân phối theo qui luật chuẩn, ch−a biết ph−ơng sai DX = σ2 của nó. Cần −ớc l−ợng DX . Từ X lập mẫu ngẫu nhiên WX = (X1, X2, ã ã ã , Xn) và xét hai tr−ờng hợp sau: Biên soạn: GVC.ThS. Phan văn Danh 14 a) Đã biết kỳ vọng toán EX = à. Chọn thống kê: χ2 = n∑ i=1 (Xi − à)2 σ2 . ở Ch−ơng 5, chúng ta đã biết χ2 phân phối theo qui luật "khi bình ph−ơng" với n bậc tự do. Nếu với xác suất α1, α2 khá bé sao cho α1 + α2 = α, ta có thể tìm đ−ợc các phân vị χ2α1 và χ 2 1−α2 thoả mãn: P ( χ2α1 < χ 2 < χ21−α2 ) = 1− α. Thay biểu thức của χ2 vào ta đ−ợc:∑ (Xi − à)2 χ21−α2 < σ2 < ∑ (Xi − à)2 χ2α1 . Với mẫu cụ thể wX = (x1, x2, ã ã ã , xn) ta có thể tính các tổng ∑ (xi − à)2 và sẽ tìm đ−ợc KTC cụ thể của σ2. b) Tr−ờng hợp ch−a biết EX : Chọn thống kê χ2 = (n− 1)S ′2 σ2 . Thống kê này phân phối theo qui luật "khi bình ph−ơng" với (n− 1) bậc tự do. Lặp lại các thủ tục −ớc l−ợng nh− TH(a) ta sẽ tìm đ−ợc KTC cụ thể của σ2 với độ tin cậy 1− α là: (n− 1)s′2 χ21−α2 < σ2 < (n− 1)s′2 χ2α1 . Ví dụ 2: Mức hao phí nguyên liệu cho một đơn vị sản phẩm là ĐLNN X phân phối theo qui luật chuẩn với EX = 20g. Quan sát 25 sản phẩm, ta có các số liệu ở bảng sau: Trọng l−ợng hao phí(gam) 19, 5 20, 0 20, 5 Số sản phẩm 5 18 2 Với độ tin cậy 1− α = 90%, hãy −ớc l−ợng X , biết α1 = α2 = 0, 05. Giải: Lập bảng tính xi ni xi − 20 (xi − 20)2 ni(xi − 20)2 19, 5 5 −0, 5 0, 25 1, 25 20, 0 18 0 0 0 20, 5 2 0, 5 0, 25 0, 55∑ n = 1, 25 1, 75 Biên soạn: GVC.ThS. Phan văn Danh 15 Tra bảng phân vị χ2 với bậc tự do n = 25 ta đ−ợc: χ21−α2 = χ 2 0,95 = 14, 6; χ 2 α1 = χ20,05 = 37, 7. Vậy KTC cụ thể của DX = σ2 là (0, 046 < σ2 < 0, 120). Trong ví dụ này, nếu ch−a biết EX = 20 thì ta tính S ′2. Với số liệu đã cho ta tính đ−ợc s ′2 = 0, 065. Tra bảng phân vị χ2 với n− 1 = 24 bậc tự do ta đ−ợc χ21−α2 = 13, 80; χ 2 α1 = χ20,05 = 36, 4. Vậy KTC là: (0, 0423 < σ2 < 0, 113). 2.5. Xác định kích th−ớc mẫu Ta thấy chất l−ợng của −ớc l−ợng đ−ợc phản ảnh qua độ tin cậy 1 − α và độ chính xác ε. Một −ớc l−ợng tốt nếu 1− α lớn còn ε khá nhỏ. Nh−ng độ chính xác ε lại phụ thuộc vào kích th−ớc mẫu n và độ tin cậy 1− α. Vấn đề đặt ra là: ta muốn độ tin cậy 1− α và độ chính xác ở ε đạt đ−ợc ở một mức nào đó cho tr−ớc thì cần kích th−ớc mẫu n tối thiểu là bao nhiêu ? a) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng trung bình: * Nếu biết DX = σ2, thì từ công thức ε = uγ. σ√ n ta suy ra: n = u2γ. σ2 ε2 . * Nếu ch−a biết σ2, khi đó ta căn cứ vào mẫu cụ thể đã cho (nếu ch−a có mẫu thì có thể lấy mẫu sơ bộ kích th−ớc n1 ≥ 30) để tính s′2. Từ đó xác định kích th−ớc mẫu n = u2γ. s ′2 ε2 . Chú ý: Nếu bài toán đòi hỏi n là số nguyên mà khi tính ra n theo 2 công thức trên ta lại thu đ−ợc n là số không nguyên thì khi đó ta lấy phần nguyên của nó cộng với 1. Tức: n = [ u2γ. s ′2 ε2 ] hoặc n = u2γ. σ2 ε2 + 1. b) Xác định kích th−ớc mẫu trong tr−ờng hợp −ớc l−ợng tỷ lệ: Từ công thức: ε = uγ √ f(1− f) n , ta suy ra n = u2γ. f(1− f) ε2 . Biên soạn: GVC.ThS. Phan văn Danh 1Kiểm định giả thuyết thống kê 1. Các khái niệm 1.1. Giả thuyết thống kê ở ch−ơng IV đã nghiên cứu ĐLNN, khi ch−a biết tham số của nó và đã xây dựng các ph−ơng pháp −ớc l−ợng các tham số đó. Ch−ơng này tiếp tục nghiên cứu ĐLNN trong tr−ờng hợp thông tin không đầy đủ thể hiện ở nhiều mặt, cụ thể là: • Ch−a biết chính xác các tham số θ hoặc qui luật phân phối xác suất của ĐLNN X , nh−ng có cơ sở nào đó để nêu lên giả thuyết, chẳng hạn θ = θo (θo là hằng số đã biết), hay: X tuân theo qui luật phân phối chuẩn. • Khi nghiên cứu hai hay nhiều ĐLNN, một trong những vấn đề cần quan tâm nhất là: các đại l−ợng này độc lập với nhau hay có sự phụ thuộc t−ơng quan? Các tham số của chúng có bằng nhau hay không ? Những câu hỏi này th−ờng ch−a đ−ợc trả lời khẳng định mà mới nêu lên nh− một giả thiết. Vậy có thể định nghĩa: Giả thuyết thông kê là những giả thuyết nói về các tham số, dạng qui luật phân phối hoặc tính độc lập của các ĐLNN. Việc tìm ra

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_xac_suat_thong_ke.pdf