Kiểm định crosstab là gì? Cách chạy và đọc kết quả phân tích crosstab trong SPSS

Nguyễn Tuyết Anh 10/05/2024 Tài liệu phân tích định lượng
Kiểm định crosstab là gì? Cách chạy và đọc kết quả phân tích crosstab trong SPSS
5/5 (1 đánh giá) 0 bình luận

Việc tìm hiểu và thiết lập các dữ liệu dùng trong phân tích crosstab là điều  cần thiết để xác định mối quan hệ giữa các biến phân loại và xác định số lượng biến quan sát giữa các biến định lượng hoặc định tính. Bài viết dưới đây sẽ giới thiệu chi tiết về các khái niệm liên quan đến crosstab, bên cạnh đó còn hướng dẫn chi tiết cách chạy crosstab trong spss cùng những ví dụ minh họa liên quan giúp bạn đọc dễ hình dung hơn, không còn mơ hồ về mục đích và phương pháp thực hiện.

1. Bảng số liệu chéo

1.1. Định nghĩa và mô tả bảng số liệu chéo

  • Dữ liệu chéo (cross sectional data) trong thống kê kinh tế là dạng dữ liệu được thu thập bằng cách quan sát nhiều đối tượng, phù hợp với những nghiên cứu với quy mô lớn cần sự đặc trưng của từng cá thể (cá nhân, công ty, quốc gia hoặc vùng) tại cùng một địa điểm, có thể khác biệt về thời gian, nhiều đơn vị hoặc địa điểm mẫu  (Vd: Số bệnh viện tại TPHCM, Cần Thơ, Đà Nẵng vào năm 2017).
  • Dữ liệu chuỗi thời gian là dữ liệu của một hay nhiều biến được tổng hợp tại các thời điểm khác nhau (ngày, tháng. năm,...) nhưng cùng một địa điểm (Vd: dữ liệu về số bệnh viện tại Đà Lạt từ năm 2006 đến 2017)
  • Dữ liệu bảng chéo là sự kết hợp của chuỗi thời gian và dữ liệu chéo, vì thế mà dữ liệu bảng có thể ước lượng đến sự không đồng nhất qua việc xem xét các biến số có tính đặc trưng của từng cá nhân. 
  • Nhờ sự kết hợp với dữ liệu chuỗi thời gian mà dữ liệu bảng chéo có được nhiều thông tin đa dạng hơn, ít xuất hiện cộng tuyến giữa các biến số, nhiều bậc tự do. Ngoài ra dữ liệu bảng còn có khả năng thực hiện tốt hơn các nghiên cứu về những thay đổi xảy ra liên tục, hành vi phức tạp như lợi thế kinh tế theo quy mô, tỷ lệ thất nghiệp,...

1.2. Cách tính tần số và phần trăm cho bảng số liệu chéo

Tần số (Frequencies) và phần trăm (Percentages) trong bảng số liệu chéo khi chạy crosstab in SPSS sẽ được hiển thị khi bạn lựa chọn các dạng biểu đồ cột (Bar charts) hay biểu đồ tròn (Pie charts) được tích hợp trong hộp thoại Charts như hình dưới đây.

Hai dạng biểu đồ cột và biểu đồ tròn trong hộp thoại Charts
Hai dạng biểu đồ cột và biểu đồ tròn trong hộp thoại Charts

Ví dụ chúng ta sẽ thực hiện phân tích thống kê tần số các biến định tính (giới tính, độ tuổi, học vấn, thời gian công tác) trong file dữ liệu SPSS như hình dưới đây.

4  biến được sử dụng để phân tích thống kê tần số
4  biến được sử dụng để phân tích thống kê tần số

Sau khi thực hiện các bước chạy crosstab in SPSS, ta có được kết quả hiển thị như bảng dưới đây.

Kết quả bảng tần số của biến giới tính
Kết quả bảng tần số của biến giới tính

Giải thích ý nghĩa của các giá trị trong bảng:

  • Frequency: Cho biết tần số của nhóm giới tính.
  • Percent: Cho biết tỷ lệ phần trăm của nhóm giới tính.
  • Valid Percent: Cho biết tỷ lệ phần trăm hợp lệ của nhóm giới tính.
  • Cumulative Percent:  Cho biết phần trăm cộng dồn.

Kết luận: Ở biến giới tính, nữ giới  khảo sát 118/190 người, chiếm 62,1%. Nam giới khảo sát 72/190 người, chiếm tỷ lệ 37,9%.

Tương tự, chúng ta sẽ có bảng thống kê tần số của 3 biến còn lại là độ tuổi, học vấn và thời gian công tác.

Kết quả bảng tần số của 3 biến còn lại
Kết quả bảng tần số của 3 biến còn lại

 

1.3. Các loại bảng số liệu chéo

  • Bảng số liệu chiếu được chia thành hai loại: Bảng dữ liệu cân đối  (Balanced panel) và bảng dữ liệu không cân đối (Unbalanced panel). 
  • Bảng dữ liệu cân đối khi các đơn vị dữ liệu chiếu có cùng tần số quan sát theo thời gian.
Bảng dữ liệu cân đối
Bảng dữ liệu cân đối
  • Bảng dữ liệu không cân đối khi các đơn vị dữ liệu chéo không có cùng số quan sát theo thời gian. 
Bảng dữ liệu không cân đối
Bảng dữ liệu không cân đối

 

Crosstab và phân tích định tính cũng thường được sử dụng cùng nhau để đưa ra các kết luận về mối liên hệ giữa các biến định tính. Crosstab thường được sử dụng để tóm tắt và trực quan hóa dữ liệu, trong khi phân tích định tính được sử dụng để đánh giá mức độ mối liên hệ giữa các biến định tính. Để hiểu rõ hơn về vai trò trong phân tích dữ liệu, xem ngay Phân tích định tính là gì? Các phương pháp phân tích định tính chi tiết. 

2. Kiểm định crosstab

2.1. Định nghĩa và mục đích kiểm định crosstab

  • Trên thực tế sẽ có người vẫn có sự mơ hồ khi nói đến crosstab là gì mặc dù đã thực hiện nhiều bài nghiên cứu và làm quen với phần mềm SPSS, vậy kiểm định crosstab cụ thể là gì?
  • Kiểm định crosstab thực chất là kiểm định chi bình phương trong SPSS được sử dụng để phân tích mối quan hệ giữa hai biến định tính có từ 2 danh mục trở lên. Bên cạnh đó, kiểm định crosstab còn so sánh tỷ lệ, tần suất giữa các biến quan sát trong mỗi danh mục với các giá trị và biết được giữa các biến có mối quan hệ hay không.

2.2. Các bước thực hiện kiểm định crosstab

Bước 1: Yêu cầu dữ liệu

Trước khi bắt đầu tiến hành kiểm định crosstab in spss, bạn cần phải đảm bảo dữ liệu đáp ứng các yêu cầu sau đây:

  • Giữa các biến quan sát không có bất kỳ mối quan hệ nào trong mỗi nhóm, các biến định tính không được “ghép đôi” theo bất kỳ cách nào.
  • Có hai biến định tính.
  • Có từ hai danh mục trở lên cho từng biến.
  • Có mẫu tương đối lớn.

Bước 2: Xây dựng giả thuyết

Giả thuyết nghiên cứu của kiểm định crosstab on spss được quy định như sau:

  • Ho: Biến 1 độc lập với biến 2.
  • H1: Biến 1 không độc lập với biến 2.

Kết quả kiểm định được phát biểu như sau:

  • Sig < 0.05: Bác bỏ Ho, chấp nhận H1, hai biến nghiên cứu có mối quan hệ liên kết với nhau.
  • Sig > 0.05: Chấp nhận Ho, bác bỏ H1, hai biến nghiên cứu không có mối liên quan với nhau.

Trong phân tích hồi quy SPSS, nếu giữa các biến độc lập không có quan hệ tuyến tính với nhau được xem là vi phạm giả thuyết mô hình hồi quy tuyến tính cổ điển hay còn được gọi là đa cộng tuyến, người nghiên cứu cần biết được đa cộng tuyến là gì để đưa ra kết luận chính xác nhất.

Bước 3: Thiết lập dữ liệu

Dữ liệu của bạn phải có ít nhất hai biến định tính (biểu thị bằng cột), các biến định tính phải có ít nhất từ hai nhóm để thiết lập dữ liệu theo hai cách dưới đây: 

Dữ liệu dạng thô
Dữ liệu thô được biểu diễn dưới dạng bảng như hình minh họa, mỗi hàng đại diện cho một biến quan sát từ một chủ thể chỉ xuất hiện một lần trong tập dữ liệu.

Minh họa dữ liệu thô
Minh họa dữ liệu thô

Dữ liệu dạng tần số

  • Cần phải có 1 biến đại diện cho danh mục, 1 biến đại diện cho số lần lặp lại của sự kết hợp ngẫu nhiên từ các yếu tố cụ thể đó.
  • Mỗi hàng trong tập dữ liệu đại diện cho sự kết hợp riêng biệt của từng danh mục.
  • Giá trị trong cột “Freq” cho một hàng nhất định là số lượng duy nhất kết hợp với các danh mục đó.
  • Trước khi bắt đầu chạy crosstab SPSS, người nghiên cứu cần kích hoạt Weight Cases và đặt biến Freq (tần số) làm trọng số.
Minh họa dữ liệu dạng tần số
Minh họa dữ liệu dạng tần số

2.3. Cách chạy crosstab trong SPSS

  • Bước 1: Lựa chọn Analyze => Descriptive statistics => Crosstabs.
Hình 1
Hình 1
  • Bước 2: Nhập biến Smoker vào các ô Row(s)biến Gender vào các ô Column(s).
Hình 2
Hình 2
  • Bước 3: Chọn Statistics => Cells => Format => Chi-square => Continue.
Hình 3
Hình 3
  • Bước 4: Chọn Cells => chọn Observed => chọn Observed, Row, Column, Total và Round cell counts => chọn continue.
Hình 4
Hình 4
  • Bước 5: Chọn format => Lựa chọn Ascending hoặc Descending (Sắp xếp tăng hoặc giảm dần) tùy ý.
Hình 5
Hình 5
  • Bước 6: Chọn continue => Chọn OK để chạy kiểm định.

 

2.4. Cách đọc kết quả kiểm định crosstab SPSS

Khi thực hiện kiểm định crosstab on SPSS, theo phát biểu sẽ có 2 giả thuyết như sau:

  • Ho: không có mối quan hệ giữa các biến.
  • H1: có mối quan hệ giữa các biến.

Để kết luận bác bỏ hay chấp nhận giả thuyết Ho, người nghiên cứu sẽ cần dựa vào giá trị P (p-value) theo 2 trường hợp như sau:

  • Nếu P (sig) ≤ α (mức ý nghĩa) sẽ bác bỏ giả thuyết Ho, kết luận có mối quan hệ giữa các biến cần kiểm định.
  • Nếu P > α (mức ý nghĩa), sẽ chấp nhận giả thuyết Ho, kết luận giữa các biến không có mối quan hệ cần kiểm định.

α (Mức ý nghĩa) thường sẽ được hiểu là 5% hoặc 0.05, trong các bài tập phân tích crosstab on SPSS đều cho giả thuyết này.

Liên quan đến α = 5% trong thống kê, nó được xem là hệ số tin cậy có sự liên quan đến khoảng tin cậy (Confidence Interval-CI) nhưng không giống nhau hoàn toàn vì CI là thuật ngữ dùng để ước lượng, đo lường sự không chắc chắn, có thể đưa ra bất kỳ con số xác suất nào, độ tin cậy phổ biến nhất sẽ nằm trong hai giá trị 95% hoặc 99%.

Crosstab có thể được sử dụng để tóm tắt và so sánh tần suất của các biến định tính được đo bằng thang đo Likert giữa các nhóm khác nhau. Vậy thang đo likert là gì? Phương pháp triển khai thang đo như thế nào thì kết quả chính xác hơn? Cùng tìm hiểu qua bài viết Thang Đo Likert và phương pháp triển khai và phân tích hiệu quả nhất

3. Ví dụ minh họa 

3.1. Giới thiệu về tập dữ liệu và câu hỏi nghiên cứu

Khảo sát tập dữ liệu với 420 số liệu được quan sát từ việc mọi người có hút thuốc lá, kiểm tra mối liên hệ giữa biến giới tính có ảnh hưởng đến hành vi hút thuốc lá không bằng cách cách chạy crosstab trong SPSS, trong đó có 3 biến về hành vi hút thuốc, cụ thể:

  • Người hoàn toàn không hút thuốc.
  • Người đã từng hút thuốc. 
  • Người hiện tại đang hút thuốc.

Bên cạnh 2 mức giá trị của biến giới tính bao gồm: Nam (male) và nữ (female).

3.2. Tạo bảng số liệu chéo

Giả thuyết nghiên cứu được xây dựng dựa trên 2 trường hợp của Ho và H1 đó là:

  • H0: Biến giới tính không ảnh hưởng đến hành vi hút thuốc (không có mối quan hệ).
  • H1: Biến giới tính ảnh hưởng đến hành vi hút thuốc (có mối quan hệ).

3.3. Thực hiện kiểm định crosstab

Quá trình thực hiện kiểm định crosstab on SPSS, sẽ bao gồm 6 bước như trên, cụ thể:

  • Bước 1: Lựa chọn Analyze => Descriptive statistics => Crosstabs.
  • Bước 2: Nhập biến Smoker vào ô Row(s) và biến Gender vào ô tên Column(s).
  • Bước 3: Chọn ô Statistics => Chi-square =>  Continue.
  • Bước 4: Lựa chọn hộp Display clustered bar charts
  • Bước 5: Lựa chọn ô OK để thực hiện việc chạy kiểm định.

3.4. Giải thích kết quả kiểm định crosstab

Kết quả sau khi chạy crosstab on spss sẽ có 3 bảng bao gồm: bảng Case Processing summary, bảng Crosstabulation và bảng Chi-Square Tests.

Kết quả phân tích của tập dữ liệu
Kết quả phân tích của tập dữ liệu
Kết quả phân tích của tập dữ liệu
Kết quả phân tích của tập dữ liệu

Qua kết quả phân tích được thể hiện trong 3 bảng trên, các giá trị cần sử dụng để kết luận gồm có:

  • Giá trị crosstab (kiểm định chi bình phương) sau khi chạy là 3.171.
  • Giá trị Sig tương ứng là Sig = 0,205.

Kết luận cuối cùng: Ta có Sig = 0,205 > 0,5, có nghĩa không có mối liên hệ giữa các biến và biến giới tính không ảnh hưởng đến hành vi hút thuốc.

Trong quá trình thực hiện phân tích crosstab SPSS, nếu cần tìm thêm nhiều tài liệu hướng dẫn, mời bạn xem ngay những bài viết tại Luận văn 1080.

Ngoài ra dù bạn là sinh viên hay người đã đi làm có nhu cầu cần sự hỗ trợ phân tích các bài nghiên cứu để đưa ra kết quả chính xác nhất, hãy liên hệ với dịch vụ nhận chạy eview từ A-Z mọi thứ liên quan đến phân tích định lượng tại đây của chúng tôi. Liên hệ ngay để được hướng dẫn chi tiết nhé.

Nếu như crosstab được sử dụng để phân tích tần suất của các biến định tính giữa các nhóm khác nhau thì kiểm định Hausman được sử dụng để so sánh hiệu quả giữa hai mô hình tuyến tính khác nhau. Dựa trên kết quả của cả hai phương pháp, nhà nghiên cứu có thể đưa ra kết luận chính xác và hợp lý về dữ liệu. Tìm hiểu ngay kiểm định Hausman trong dữ liệu mảng (Panel Data)

Bài viết trên đã cung cấp một số thông tin liên quan đến khái niệm crosstab là gì và biết được kiểm định crosstab SPSS được sử dụng để phân tích mối quan hệ trong các tệp dữ liệu có quy mô lớn như phân tích sự liên kết giữa các yếu tố trong thị trường hoặc các đặc điểm nhân khẩu học theo từng quốc gia,... Nhìn chung đây là một công cụ hỗ trợ đắc lực cho quá trình chúng ta nghiên cứu, các bạn sinh viên ngành kinh tế nên có sự tiếp xúc và làm quen sớm với các công cụ phân tích như thế này, sẽ giúp ích rất nhiều trong quá trình học tập và làm việc.

Nguyễn Tuyết Anh Tôi là Nguyễn Tuyết Anh - Job title: Trưởng phòng nội dung - Company: Luanvan1080 Group. Kể từ khi còn bé tôi đã rất yêu thích sách vở, nên khi lớn lên tôi quyết định tâm làm nên những nội dung thật hay thật ý nghĩa. Luận văn 1080 có thâm niên hoạt động hơn 10 năm với đội ngũ chuyên gia giàu kinh nghiệm, trình độ chuyên môn cao cùng tinh thần làm việc trách nhiệm. Mọi thông tin cần tư vấn vui lòng liên hệ Website: luanvan1080.com/ - Hotline: 096.999.1080 Bạn hãy tham khảo website https://luanvan1080.com/ để rõ hơn công việc của tôi nhé !
Bình luận đánh giá
Đánh giá

Zalo: 096.999.1080