Trở lại với các bài viết của leveehandbook.net, nội dung bài viết lần này họ sẽ mày mò về kiểm nghiệm phi tham số rõ ràng là kiểm định chi bình phương (Chi-square test). Vào series về phương pháp phân tích sống sót (Survival analysis) chúng tôi từng nói đến sự khác hoàn toàn giữa các quy mô tham số (parametric models) với phi tham số (non-parametric models). Đối với quy mô tham số, họ phải chỉ dẫn giả định thuở đầu về cỗ tham số được chuyển vào tế bào hình, quy dụng cụ phân phối tỷ lệ áp dụng đến các đối tượng người tiêu dùng nghiên cứu vớt trong tập dữ liệu. Mặc dù nếu không thể gửi ra những giả định, đặc biệt trường thích hợp dữ liệu tích lũy là tài liệu định tính, thì quy mô phi tham số sẽ được ưu tiên sử dụng.Bạn đã xem: bỏ ra square test là gì

Tương từ trong lý thuyết thống kê, khi thực hiện kiểm định tham số cho các tác dụng thu được từ gần như nghiên cứu, chúng ta cần xét đk được ân cần là tổng thể phân tích có cung cấp chuẩn. Tuy nhiên trường hợp, bạn làm so với theo ghê nghiệm của chính bản thân mình cho rằng tổng thể nghiên cứu và phân tích thực tế không hẳn như vậy, họ bao gồm quyền không đưa ra giả định. Tốt tổng thể nghiên cứu về thực chất đã ko thỏa đk này, thì các phương thức kiểm định tham số bắt buộc đưa vào sử dụng, cầm cố vào chính là kiểm định phi tham số.

Bạn đang xem: Chi-square là gì


*

Kiểm định phi tham số tuyệt non-parametric hypothesis tests cung cấp kiểm định giả thuyết tương quan đến tổng thể phân tích mà ở kia không mang bất kỳ giả định như thế nào về quy phép tắc phân phối, hay tất cả quy biện pháp phân phối ngẫu nhiên không theo triển lẵm chuẩn, cùng không cần bất kỳ tham số nào như trung bình, độ lệch chuẩn, tỷ lệ,…thường áp dụng cho tài liệu định tính hơn là dữ liệu định lượng. Các phương thức kiểm định phi thông số đã lộ diện từ rất mất thời gian từ cuối trong thời gian 1940 với vẫn còn hữu dụng cho mang đến ngày hôm nay.

Trong 2 bài viết lần này về chu chỉnh phi tham số, bọn họ sẽ cùng mày mò đến một vài phương thức kiểm định phi tham số quan trọng đặc biệt như Sign – test, Wilcoxon – rank test, Mann – Whitney test, Kruskal – Wallis test, và nhất là kiểm định chi bình phương chi – squared kiểm tra được ứng dụng phổ cập hơn mà họ thường nhắc đến ở những chủ đề nội dung bài viết trong Data mining mà gần nhất là Survival analysis. Họ sẽ tìm hiểu Chi-squared kiểm tra với các ví dụ đơn giản trong phần 1 nội dung bài viết lần này.

Các kim chỉ nan liên quan mang đến thống kê, cũng giống như quy luật pháp phân phối, kim chỉ nan kiểm định tham số như chu chỉnh là gì, vì sao cần, … công ty chúng tôi sẽ không nói lại chi tiết. Các bạn cũng có thể xem lại các nội dung bài viết qua links dưới đây:

Tổng quan tiền về Statistics: định nghĩa và vận dụng của thống kê

Tổng quan lại về Statistics: Descriptive statistics (thống kê mô tả)

Tổng quan về Statistics: Inferential statistics (thống kê suy luận)

Tìm đọc về phương pháp kiểm định tham số

Các dạng kiểm tra tham số (trường đúng theo 1 mẫu)

Các dạng kiểm nghiệm tham số (trường thích hợp 2 mẫu)

Kiểm định đưa ra bình phương (Chi-squared test)

Kiểm định chi bình phương vận dụng cho dạng dữ liệu thống kê theo hình thức tần số. Mục đích ứng dụng thông dụng của kiểm định bỏ ra bình phương trước tiên là kiểm soát xem gồm mối liên hệ, mối quan hệ giữa 2 biến, 2 yếu ớt tố sẽ xét đến. Nhu cầu kiểm tra mối liên hệ giữa 2 biến xuất hiện thêm nhiều trong các phương thức phân tích như hồi quy Logistics, Survival analysis,… cùng trong thực tế khi họ quan vai trung phong đến sự khác biệt giữa 2 nhóm đối tượng người tiêu dùng nghiên cứu giúp thuộc nghành nghề xã hội, kinh tế.

Một vận dụng khác của kiểm định bỏ ra bình phương sẽ là “Goodness of Fit” dùng để làm kiểm tra giả định về quy luật cung cấp trong một tổng thể phân tích có đúng không, tất cả hợp lý hay không ví dụ đánh giá giả định ngân sách trung bình của bạn cho những sản phẩm của công ty mỗi tháng tuân theo trưng bày chuẩn. Tuyệt ví dụ gắng thể, một chuyên viên phân tích bán hàng của một công ty cho rằng tỷ lệ lợi nhuận của sản phẩm A, B, C tuân theo bày bán đa thức (Multinominal probability distribution) theo lần lượt là 40%, 25%, 35%.

Giả sử doanh nghiệp sản xuất điện thoại có 3 sản phẩm A, B, C, có mức chi phí trung bình ngang nhau, không quá chênh lệch, giành riêng cho phân khúc người tiêu dùng tầm trung, được khách hàng hàng chọn lựa dựa trên các yếu tố thiết kế, tính năng. Xác suất doanh số phân khúc tầm trung trong năm 2019 theo lần lượt là 40%, 25%, 35%.

Trong năm 2020, dòng sản phẩm B được công ty thiết kế, trí tuệ sáng tạo thêm các tính năng vượt trội như camera AI, dìm diện khuôn mặt. Công ty muốn khám phá liệu việc thành phầm B được cải tiến như vậy sẽ ảnh hưởng tác động lên doanh thu của thành phầm A, C như vậy nào.

Công ty tiến hành tích lũy dữ liệu 300 khách hàng, mỗi người tiêu dùng mua 1 trong các 3 sản phẩm A, B, C. Chúng ta có triển lẵm đa thức với phần trăm doanh số ví dụ pA, pB, pC.

Nói một ít về triển lẵm đa thức (Multinominal probability distribution), đó là quy lý lẽ phân phối không ngừng mở rộng từ phân phối nhị thức (Binominal probability distribution). Ví dụ như trong phân phối nhị thức, bọn họ có xác suất khách hàng mua sản phẩm A: pA cùng xac suất ko mua thành phầm A sẽ là một – pA; và pA + (1 – pA) = 1. Đối với đa thức, chúng ta có thể xét nhiều hơn thế các tác dụng đạt được, như ví dụ ngơi nghỉ trên, nếu người tiêu dùng không tải A, thì họ có thể mua B hoặc C; không cài đặt B, thì có thể mua A hoặc C; không download C, thì hoàn toàn có thể mua A hoặc B. Chúng ta sẽ bao gồm pA – tỷ lệ mua sản phẩm A, pB, pC theo thứ tự là phần trăm mua thành phầm B, phần trăm mua sản phẩm C.

Với pa + pB + pC = 1

Quay quay trở lại với bài bác toán, chúng ta sẽ đặt giả thuyết:

H0: doanh thu của 3 thành phầm A, B, C tuân theo bày bán đa thức với xác suất doanh số giỏi xác suất người sử dụng mua thành phầm A, B hoặc C theo lần lượt là pa = 0.4 pB = 0.25 pC = 0.35

H1: doanh thu của 3 thành phầm A, B, C không tuân theo trưng bày đa thức với phần trăm doanh số hay xác suất khách hàng mua sản phẩm A, B hoặc C theo thứ tự là page authority = 0.4 pB = 0.25 pC = 0.35

Hoặc đối kháng giản:

H0: pa = 0.4; pB = 0.25; pC = 0.35

H1: phần trăm doanh số ứng với 3 thành phầm A, B, C sẽ chưa hẳn là pa = 0.4 pB = 0.25 pC = 0.35

Cách thực hiện

Kiểm định bỏ ra bình phương chuyển động dựa trên sự khác biệt giữa số quan sát thực tiễn (tần suất thực tế) – Observed, ký kết hiệu Oi; cùng số quan tiền sát muốn đợi hay dự kiến (tần suất mong mỏi đợi dự kiến) – Expected, ký kết hiệu Ei. Cùng với i là nhóm sẽ xét.

Xem thêm: Cách Tìm Góc Giữa Đường Thẳng Và Mặt Phẳng, Bài Tập Vận Dụng

Từ “mong đợi”, giỏi “dự kiến” được hiểu đơn giản như sau. Ví dụ như nếu doanh nghiệp không tiến hành cải tiến sản phẩm B, thì tỷ lệ doanh số của 3 thành phầm A, B, C trong những năm 2020 rất có thể được mong mỏi đợi sẽ buổi tối thiểu bởi 2019. Hoặc nếu không có gì xẩy ra trong năm 2020, xác suất doanh số 3 thành phầm A, B, C dự con kiến sẽ bằng năm trước.

Công thức kiểm tra Chi-squared thân quen mà cửa hàng chúng tôi từng nhắc ở các chủ đề bài viết trước: