XSTK_NHOM2

(1)

Bài 1: Một nghiên cứu được tiến hành ở thành phố công nghiệp X để xác định tỷ lệ những người đi làm bằng xe máy, xe đạp và xe buýt. Việc điều tra được tiến hành trên hai nhóm. Kết quả như sau:

Xe máy Buýt Xe đạp

Nam 25 100 125

Nữ 75 120 205

Với mức ý nghĩa α = 5%, hãy nhận định xem có sự khác nhau về tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ hay không? Bài làm:

1 Dạng bài: Đây là bài toán so sánh các phân số, kiểm định giả thiết về tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân nam và nữ.

2.Cách giải: * Giả thuyết:

0

H : “tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân

nam và công nhân nữ là giống nhau.” • Giá trị thống kê:

Với điều kiện là các tần số lý thuyết phải ≥ 5. Khoảng cách giữa TSQS và TSLT được đo bằng: 2 2 1 ( ) k i i i i O E E χ =  −  = _ _  

∑

Oi - các tần số thực nghiệm (observed frequency)

Ei - các tần số lý thuyết (expected frequency) * Biện luận:

Nếu ⇒ bác bỏ giả thiết H0 Giá trị _χ2_{tính theo biểu thức:}

2 2 1 1 ( ) r c ij ij i j ij O E E χ = =  −  =      

∑∑

ij

O - các tần số thực nghiệm của ô thuộc hàng i cột j ij

E - các tần số lý thuyết của ô thuộc hàng i cột j, r là số hàng và c là số

cột.

Xác xuất với bậc tự do DF = (r - 1)(c - 1); trong đó r là số hàng và c là số cột trong bảng VI.

(2)

Áp dụng MS-Excel 2010:

Bước 1: Nhập bảng dữ liệu thực tế sau đó tính các tổng ni , mj:

-Sau khi nhập số liệu vào excel, dùng con trỏ kéo chọn từ ô B2 đến ô E4, rồi dùng lệnh AutoSum trên thanh công cụ, được các tổng hàng và cột.

Bước 2: Tính Tần số lý thuyết = tổng hàng * tổng cột / tổng cộng γij= (ni*nj)/n

Ô B8 nhập vào biểu thức: =($E2*B$4)/$E$4 Sau đó kéo từ B8 ->D9 ta được bảng sau:

Tính P(X > χ²) = CHITEST(Bảng_thực_tế , Bản_kỳ_vọng) Bước 3: Sử dụng hàm CHITEST

(3)

*Phân tích kết quả:

P(X > χ²) = p =0,00218853 <α=0.05 => bác bỏ giả thuyết H0 Vậy tỷ lệ sử dụng các phương tiện giao thông đi làm trong hai nhóm công nhân nam và công nhân nữ là khác nhau.

---Câu 2: Một cửa hàng lớn có bán ba loại giày A,B,C. Theo dõi số khách hàng mua các loại giày này trong 5 ngày , người quản lí thu được bảng số liệu sau :

Loại giày A B C 28 21 20 18 23 35 42 32 25 27 33 38 31 42 29

Với mức ý nghĩa α=1% hãy so sánh lượng tiêu thu trung bình của ba loai giày nói trên .

Bài làm:

1. Dạng bài: Phân tích phương sai một nhân tố, so sánh giá trị trung bình của nhiều tập hợp chính.

2. Cơ sở lý thuyết: Giả thiết :

H0: µ1 = µ2 = ... µk  “Các giá trị trung bình bằng nhau ” H1 : µi ≠ µj  “ ít nhất có hai giá trị trung bình khác nhau” Đặt: 1. SST : tổng bình phương các độ lệch:

(

ij

)

2 1 1 S j n k j i S T x x = = =

∑∑

−

(4)

2. SSA: tổng bình phương độ lệch riêng của các nhóm so với x .

3. SSA = SST - SSE (SSE : tổng bình phương do sai số) 4. MSF: trung bình, bình phương của nhân tố S S 1 S F M F k = − 5. MSE: trung bình bình phương của sai số: MSE SSE n k = − Nếu H0 đúng thì SF SE M F M

= có phân phối theo Fisher bậc tự do (k-1; n-k) ⇒ Giá trị thống kê : F= S

S

M F

M E.

Biện luận :

Nếu F <F k_α

(

−1,n k−

)

=> chấp nhận giả thiết H0 và ngược lại. 3. Công cụ giải:

Sử dụng MS-EXEL

Ta lập bảng số liệu sau đây:

Áp dụng “Anova : Single Factor”

a,Nhấp lân lượt đơn lệnh Tool và lệnh Data Analysic

b,Chọn chương trình Anova : Single Factor trong hộp thoại Data Analysic rồi ấn nút

OK

c,Trong hộp thoại Anova : Single Factor ,lần lượt ấn định: -Phạm vi đầu vào (Input Range)

(5)

-Nhãn dữ liệu ( Label in First Row/Colum

(6)

Kết quả và biện luận :

F=7.586441 > F0.01 =6.926608  Bác bỏ giả thiết H0

(7)

Bài 3: Tính tỷ số tương quan của Y đối với X ,hệ số tương quan và hệ số xác định của tập số liệu sau đây. Với mức ý nghĩa  = 5%, có kết luận gì về mối tương quan giữa X và Y. (Có phi tuyến không ? Có tuyến tính không ?).Tìm đường hồi quy của Y đối với X.Tính sai số tiêu chuẩn của đường hồi quy tuyến tính

(X,Y)=(15,13),(25,22),(10,6),(15,17),(20,21),(10,10),(20,25),(25,18),(30,14),(30,10) Bài làm

1. Dạng bài: Phân tích tương quan và hồi quy. 2. Cơ sở lý thuyết :

a) Tính tỷ số tương quan.

Để đo mức độ phụ thuộc nói chung của ĐLNN Y vào ĐLNN X, người ta đưa ra khái niệm tỷ số tương quan. Tỷ số tương quan lý thuyết của Y theo X được kí hiệu bởi là một số không âm xác định theo công thức sau đây :

2 2 2 / ( ( / )) ( ( / )) 1 Y X E Y E Y X DY E Y E Y X DY DY η = − − = − −

Trong đó E[Y/X] kí hiệu kỳ vọng của Y tính trong điều kiện X cố định một giá trị. Người ta chứng minh rằng : 0≤ηY X2/ ≤1 và

2 2

/

Y X

ρ ≤η Hiệu số đo mức độ phụ thuộc phi tuyến giữa X và Y

Nếu hiệu số càng lớn thì có nghĩa là sự tương quan phi tuyến càng mạnh.

Bây giờ ta xét vấn đề ước lượng và kiểm định giả thiết về tỷ số tương quan. Giả sử (), (), …, () là một mẫu gồm n quan sát độc lập rút ra từ tập hợp chính các giá trị của (X,Y). Chúng ta cần giả thiết rằng trong dãy các giá trị của X :, , …, , mỗi giá trị đều được lặp lại ít nhất một lần. Giả sử < …< là các giá trị khác nhau trong dãy (). Ta sẽ trình bày dãy số liệu () thành bảng sau đây, được gọi là bảng tương quan. … … … … … … … … … _{n =} … _{T =}

Tiếp theo ta tiến hành phân tích phương sai.

Ký hiệu : (tổng các số liệu và ở cột ) T = là số các số liệu ở cột ( cũng chính là số các giá trị mà = ) +) Tổng bình phương chung SST được tính bởi công thức : SST = +) Tổng bình phương do nhân tố SSF được tính bởi công thức : X Y

(8)

SSF =

Đại lượng sau đây được sử dụng như một ước lượng cho tỷ lệ tương quan lý thuyết :

=

được gọi là tỷ số tương quan của Y đối với X. Để cho gọn từ nay sẽ viết thay cho . Người ta chứng minh được rằng : 0

ở đó r là hệ số tương quan . Bình phương của hệ số tương quan được gọi là hệ số xác định. Tỷ số tương quan được lý giải như tỷ lệ biến động của Y do có sự phụ thuộc của Y vào X. Hệ số xác định được lý giải như là tỷ lệ biến động của Y do có sự phụ thuộc tuyến tính của Y vào X.

Để kiểm định giả thiết :

: 0 ( không có tương quan tuyến tính ), với đối thiết : 0 ( có tương quan tuyến tính ), ta dùng test thống kế sau :

F = =

b) Người ta chứng minh được rằng nếu đúng thì có phân bố Fisher với bậc tự do là (k-2,n-k). Thành thử giả thiết : “ Không có tương quan tuyến tính ” sẽ bác bỏ ở mức nếu F lớn hơn hằng số c là phân vị mức của phân bố Fisher với bậc tự do ( k-2,n-k ) Phân tích tương quan tuyến tính được gọi là hệ số xác định.

Giả sử X và Y là hai ĐLNN. Chúng ta đã biết rằng X và Y được gọi là độc lập nếu việc ĐLNN này nhận một giá trị nào đó cũng không ảnh hưởng đến phân bố xác suất cuẩ ĐLNN kia .Tuy nhiên trong thực tế không phải lúc nào X và Y cũng độc lập .

Vì vậy người ta đã đưa ra khái niệm về hệ số tương quan để đo mức độ phụ thuộc giữa hai ĐLNN

Hệ số tương quan lý thuyết của X và Y kí hiệu là ρ và ρ có công thức là:

ρ =

Trong đó µx, là giá trị trung bình và độ lệch tiêu chuẩn của X, và , là giá trị trung bình và độ lệch tiêu chuẩn của Y.

Người ta đã chứng minh được ρ là một số nằm trong giai đoạn [-1,1]. Khi ρ =0 thì không có tương quan tuyến tính giữa X và Y. Đặc biệt nếu (X,Y) có phân bố chuẩn thì ρ =0 khi và chỉ khi X, Y độc lập. Khi | ρ | càng gần 1 thì sự phụ thuộc tuyến tính giữa X và Y càng mạnh. Nếu ρ =1 thì Y là một hàm tuyến tính của X.

Muốn biết được ρ chúng ta cần biết phân bố của tập hợp chính bao gồn tất cả các giá trị của cặp (X,Y). Tuy nhiên thông tin này thường là khó nắm bắt.

(9)

Vì vậy, tương tự như vấn đề ước lượng và khiểm định giá trị trung bình hay phương sai đã xét ở các chương trước, chúng ta có bài toán ước lượng và kiểm định hệ số tương quan ρ căn cứ trên một mẫu quan sát (x1,y1) (x2,y2).... (xn,yn) các giá trị của (X,Y).

Đại lượng sau đây được sử dụng như một ước lượng cho ρ :

r =

r được gọi là hệ số tương quan.

Để tính toán cho thuận lợi, r có thể viết dưới dạng sau:

r =

Nên nhớ rằng r cũng nằm trong đoạn [-1,1]. Vì vậy nếu thu được giá trị r nằm ngoài đoạn [-1,1] có nghĩa là ta đã tính toán sai.

Chúng ta có bài toán kiểm định : H0: ρ = 0 ( X, Y không tương quan) Với đối giả thiết : H1 : ρ 0

Nếu (X,Y) có phân bố chuẩn hai chiều thì dưới giả thiết H0, ĐLNN T =

có phân bố Student với n-2 bậc tự do.

Vì vậy test thống kê thích hợp cho bài toán kiểm định thống kê cho bài này là :

T =

Ta sẽ bác bỏ H0 nếu |T| > c, ở đó c là phân vị mức của phân bố Student với bậc n-2 bậc tự do.

c) Tìm đường hồi qui của Y đối với X.

Giả sử X là một biến nào đó ( có thể là biến ngẫu nhiên hay không ngẫu nhiên ), còn Y là một ĐLNN phụ thuộc vào X theo cách sau đây. Nếu X nhận giá trị x , X = x , thì Y sẽ có kỳ vọng là , ở đó và là hằng số và phương sai là ( không phụ thuộc x ). Khi đó ta nói Y có hồi quy tuyến tính theo X, và đường thẳng hồi quy lý thuyết của Y đối với X. Các hệ số và được gọi là các hệ số hồi quy lý thuyết. X được gọi là biến phụ .

Bài toán đặt là hãy ước lượng các hệ số hồi quy tuyến tính lý thuyết và trên mẫu quan sát (x1,y1) (x2,y2).... (xn,yn). Ước lượng và dựa trên phương pháp bình phương bé nhất. a và b sẽ được chọn làm ước lượng cho và nếu nó làm cực tiểu tổng sau đây :

Q(A,B) =

(10)

Giải hệ này (hệ phương trình tuyến tính với hai ẩn số A, B ), ta tìm được : a =

b = =

3. a, b được gọi là các hệ số hồi quy. Đường thẳng có phương trình y = ax + b gọi là đường thẳng hồi quy. Từ cách xác định a, b ta thấy trong số tất cả các đường thẳng y = Ax + B xuyên qua đám mây điểm n

i=1 , đường thẳng y = ax + b có tổng bình phương các bình phương các khoảng cách từ tới đường thẳng là bé nhất.

4. Công cụ giải: Microsoft 2010, hàm FINV, chương trình Correlation, Regression, Anova: Single Factor.

5. Nhập số liệu:

6. Thao tác trên Excel và kết quả thu được: a. Tìm tìm hệ số tương quan, hệ số xác định

Click chuột vào Data  Data Analysis  Correlation. Trong hộp thoại Correlation ta thiết lập như sau:

-Phạm vi đầu vào (Input Range) : $A$4:$B$14 -Chọn cách sắp xếp theo cột

-Chọn Label in first Row

-Chọn Output Range $D$7. Nhấn Ok. Ta thu được kết quả như sau:

(11)

Ta tìm được hệ số tương quan r = 0.31984 Và hệ số xác định r2 = 0.102298 * Giả thiết Ho :X và Y không có tương quan tuyến tính

=> T=0.954799 với Mà T0.05(8)=t8 :0.025=2.306

(c là phân vị mức α/2=0.025 của phân bố Student với n-2=8 bậc tự do).

Vì lTl < c nên bác bỏ giả thiết Ho.

Vậy: Chưa kết luận được X và Y có tương quan tuyến tính

b. Tính hệ số tương quan, phân tích mối tương quan phi tuyến Giả thiết H0 : X và Y không có tương quan phi tuyến.

-Sắp xếp lại các giá trị của X và Y theo bảng sau :

-Click chuột vào Data  Data Analysis  Anova: Single Factor. Trong hộp thoại Anova: Single Factor ta thiết lập như sau:

+Phạm vi đầu vào (Input Range) : $A$18:$E$20 +Chọn alpha (mức ý nghĩa) : 0.05

+Chọn cách sắp xếp theo cột +Chọn Label in first Row

+Chọn Output Range $A$22. Nhấn Ok. Ta được kết quả như sau:

2

1 r n

T

r

−

=

−

(12)

Từ bảng Anova: Single Factor ta rút ra được SST và SSF: SST = 330.4 SSF = 290.4 Tỉ số tương quan: η2Y/X = SSF/SST = 0.878935 ta có => F= 10.691741 theo công thức Mà: Tra bảng phân phối Fisher với bậc tự do (3,5) ở mức 5% bằng cách nhập hàm

c = FINV(0.05,3,5) ta được giá trị c = 5.40945

(c là phân vị mức α=0,05 của phân bố Fisher bậc tự do (k-2,n-k)=(3,5). Vì: _{F > c nên bác bỏ giả thiết Ho.}

Vậy: X và Y có tương quan phi tuyến c. Tìm đường hồi quy của Y đối với X

Click chuột vào Data  Data Analysis  Regression. Trong hộp thoại Regression ta thiết lập như sau:

-Phạm vi đầu vào (Input Range): X: $A$4:$A$14

Y: $B$4:$B$14 -Chọn cách sắp xếp theo cột -Chọn Label in first Row -Confidence Level nhập: 95% -Chọn Output Range $A$42.

-Residual chọn Line Fit Plots. Nhấn OK. Ta được bảng sau:

(

)

(

)

(

)

(

)

2 2 / 2 /

2

Y X Y X

r

n k

F

k

η −

−

=

1− η

−

(13)

Đường hồi quy của Y đối với X là :

Y= 10.4 + 0.26X( R2_{=0.1023 ; S = 6.08892 )} Sai số tiêu chuẩn là 6.08892

Giả thiết Ho : X và Y không hồi quy tuyến tính. Ta thấy: F = 0.91167< c = 5.317655

(dùng hàm FINV với bậc tự do (1,8) ở mức 0,05) Chấp nhận giả thiết H0

Vậy: khôngcó hồi quy tuyến tính giữa Y với X. Giả thiết H0 : hệ số hồi quy không có ý nghĩa

Hệ số A:t=1.80041<t0.0258 nên chấp nhận H0 (hệ số A không có ý nghĩa) Hệ số B:t=0.95481<t0.0258 nên chấp nhận H0 (hệ số B không có ý nghĩa)

Bài 4:

Trên cơ sở tập số liệu sau đây hãy phân tích xem tỷ lệ đỗ loại giỏi có phụ thuộc vào trường phổ thông và ban hay không với = 0,05. Ở đây z là tỷ lệ đỗ loại giỏi (%); f là trường phổ thông số 1,2,3,4; g là ban ( 1 = ban A, 2 = ban B ).

(14)

Bài làm:

1. Dạng toán: Phân tích phương sai hai yếu tố có lặp. 2. Cơ sở lý thuyết:

Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát YIJ (i=1,2,...r: yếu tố A; j=1,2,…c: yếu tố B)

Mô hình

Yếu tố A Yếu tố B Tổng cộng Trung bình

1 2 … c 1 Y11 Y12 … Y1c Y1. Y1. 2 Y21 Y22 … Y2c Y2. Y2. … … … … r Y_r₁ Y_r₂ … Y_rc Y_r_. Y_r_. Tổng cộng trung bình .1 T T_.2 … T_.c T_.. .1 Y Y.2 … Y.c Y.. Bảng ANOVA Nguồn sai số Bậc tự do Tổng số bình phương Bình phương trung bình Giá trị thống kê Yếu tố A (hàng) (r-1) 2 2 .. 1 r i i T T SSB c rc = =

å

-( 1) SSB MSB r = - R MSB F MSE = Yếu tố B (cột) (c-1) 2 2 .. 1 c j j T T SSF r rc = =

å

-( 1) SSF MSF c = - C MSF F MSE = STT z f g 9 35 3 2 10 32 3 1 11 33 3 1 12 34 3 2 13 31 4 1 14 33 4 1 15 33 4 2 16 35 4 2

(15)

Sai số (r-1).(c-1) SSE SST= -(SSF SSB+ ) ₍ ₁₎ SSB MSB r = -Tổng cộng (rc-1) 2 2 .. ij 1 1 r c i j T SST Y r = = =

å å

-Trắc nghiệm * Giả thiết:

H0: µ1=µ2=…µk  ”Các giá trị trung bình bằng nhau” H1: µi≠µj  ”Ít nhất có hai giá trị trung bình khác nhau” *Giá trị thống kê: R MSB F MSE = C MSF F MSE = Nếu F R <F a [b-1,(k-1)(b-1)] => chấp nhận H O (yếu tố A) Nếu FC< Fa [k-1,(k-1)(b-1)] => chấp nhận HO(yếu tố B)

Tương tự như mô hình phân tích phương sai hai yếu tố, chỉ là mỗi mức (A1, B1) có sự lặp lại k lần thí nghiệm, mỗi hàng sẽ biểu thị một bản sao của dữ liệu và trong đầu ra sẽ thêm một đại lượng tương tác (interaction term) F1 giữa hai yếu tố A và B .

3. Phần mềm : Microsoft Excel.

4. Chương trình Two-Factor With Replication. 5. Phương pháp giải bài toán trên Excel.

Giả thiết

• HA : Tỷ lệ đỗ loại giỏi không phụ thuộc vào ban.

• HB : Tỷ lệ đỗ loại giỏi không phụ thuộc vào trường phổ thông.

• HAB : Tỷ lệ đỗ loại giỏi giữa trường phổ thông và ban không liên quan

đến nhau. Bước 1: Nhập dữ liệu :

(16)

Bước 2 : Nếu trong menu Tools chưa có mục DataAnalysis , tiến hành cài Analysis ToolPak như sau :

Chọn File/Option/Add-Ins/Data Analysis Tool Pak /Go…/ Analysis Tool Pak /Ok… như trong hình :

(17)

Bước 3 : Chọn Data/ Data Analysis rồi chọn ANOVA : Two-Factor With Replication.

(18)

Nhập dữ liệu như trong hình :

+ Input Range : khoảng dữ liệu đầu vào + Rows per sample : số lần lặp

+ Out put range : phạm vi dữ liệu ra + Alpha : mức ý nghĩa

(19)

Kết luận:

• FA=11.57142857 > F0.05 = 5.317655072 => Không chấp nhận giả thuyết HA ( tỷ lệ đỗ loại giỏi có phụ thuộc vào ban ).

• FB=55.38095238 > F0.05 = 4.066180551 => Bác bỏ giả thuyết HB ( tỷ lệ đỗ loại giỏi có phụ thuộc vào trường phổ thông ).

• FAB=0.904761905 < F0.05 = 4.066180551 => Chấp nhận giả thuyết HAB ( tỷ lệ đỗ loại giỏi giữa trường phổ thông và ban không liên quan đến nhau ).

(20)