Hướng dẫn chạy hồi quy tuyến tính (regression analysis) trong SPSS

Nguyễn Tuyết Anh 04/03/2019 Phân tích định lượng
Hướng dẫn chạy hồi quy tuyến tính (regression analysis) trong SPSS
5/5 (2 đánh giá) 15 bình luận

Hồi quy trong SPSS là bước kiểm định mô hình nghiên cứu sau khi chạy một loạt các phân tích Cronbach’s Alpha, EFA, Correlations để chọn lựa những biến độc lập thỏa mãn điều kiện cho yêu cầu hồi quy.

Hồi quy để xác định cụ thể trọng số của từng nhân tố độc lập tác động đến nhân tố phụ thuộc từ đó đưa ra được phương trình hồi qui cũng là mục đích của bài nghiên cứu. Xác định mức độ ảnh hưởng của từng nhân tố độc lập lên nhân tố phụ thuộc.

Nếu bạn không có nhiều kinh nghiệm trong việc làm bài trên phần mềm SPSS? Bạn cần đến dịch vụ vụ xử lý sổ liệu SPSS để giúp mình xóa bỏ những rắc rối về lỗi gây ra khi không sử dụng thành thạo phần mềm này?

Khi gặp khó khăn về vấn đề phân tích kinh tế lượng hay gặp vấn đề về chạy SPSS, hãy nhớ đến Tổng đài tư vấn luận văn 1080, nơi giúp bạn giải quyết những khó khăn mà chúng tôi đã từng trải qua.

Tham khảo thêm:

Hướng dẫn nhập và xuất dữ liệu từ excel vào spss

Tổng quan về phân tích nhân tố khám phá EFA

Hướng dẫn chạy hồi quy tuyến tính (regression analysis) trong SPSS
Hướng dẫn chạy hồi quy tuyến tính (regression analysis) trong SPSS

1. Phân tích hồi quy là gì?

Hồi quy và tương quan khác nhau về mục đích và kỹ thuật. Phân tích tương quan trước hết là đo mức độ kết hợp tuyến tính giữa các biến. Ví dụ: mức độ quan hệ giữa nghiện thuốc là và ung thư phổi, giữa kết quả thi môn Lý và môn Toán…

Nhưng phân tích hồi quy lại ước lượng hoặc dự báo một biến (biến phụ thuộc) trên cơ sở giá trị đã cho của các biến khác (biến độc lập). Về kỹ thuật, trong phân tích hồi quy các biến không có tính chất đối xứng. Biến phụ thuộc là đại lượng ngẫu nhiên. Các biến giải thích giá trị của chúng (biến độc lập) đã được xác định. Trong phân tích tương quan không có sự phân biệt giữa các biến, chúng có tính chất đối xứng.

Tóm lại, hồi quy thì tương quan (hay nói cách khác đk để hồi quy thì trước hết phải tương quan), còn tương quan thì chưa chắc đã hồi quy.

2. Chạy phân tích hồi quy tuyến tính trong SPSS

Vào menu: >Analyze> Regression> Linear

Chọn biến phụ thuộc và ô Dependent và các biến  độc lập thỏa yêu cầu hồi qui vào ô Independent (s). Sau đó nhấn tiếp Statistics. Trong hộp thoại Statistics tích vào ô "Durbin Watson" và "Collinearity diagnostics". Sau đó bấm Continue rồi bấm OK!

 Hình minh họa 2:Phân tích hồi quy tuyến tính trong spss

3. Các giả định trong phân tích hồi quy tuyến tính

Phân tích hồi quy tuyến tính không chỉ là việc mô tả các dữ liệu quan sát được trong mẫu (sample) nghiên cứu mà cần phải suy rộng cho mối liên hệ trong dân số (population). Vì vậy, trước khi trình bày và diễn dịch mô hình hồi quy tuyến tính cần phải dò tìm vi phạm các giả định. Nếu các giả định bị vi phạm thì các kết quả ước lượng không đáng tin cậy được. Các giả định cần thiết trong hồi qui tuyến tính:

  • Xi là biến số cố định, không có sai sót ngẫu nhiên trong đo lường.
  • Phần dư (trị số quan sát trừ cho trị số ước đoán) phân phối theo luật phân phối chuẩn
  • Phần dư có trị trung bình bằng 0 và phương sai không thay đổi cho mọi trị xi
  • Không có tương quan giữa các phần dư

 

4. Cách đọc kết quả trong phân tích hồi quy tuyến tính

SPSS sẽ xuất ra rất nhiều bảng, tuy nhiên chúng ta chỉ sử dụng một vài bảng trọng tâm phục vụ cho bài nghiên cứu gồm: Model Summary, ANOVA và Coefficients. Mình sẽ đọc kết quả lần lượt cho từng bảng này:

3.1 Bảng Model Summary

Hình minh họa 3: Cách chạy hồi quy trong spss

Trong bảng này, các bạn quan tâm 2 giá trị: Adjusted R Square (hoặc R Square)  và Durbin-Watson.

- Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó phản ánh mức độ ảnh hưởng của các biến độc lập lên biến phụ thuộc. Cụ thể trong trường hợp này, 6 biến độc lập đưa vào ảnh hưởng 67.2% sự thay đổi của biến phụ thuộc, còn lại 32.8% là do các biến ngoài mô hình và sai số ngẫu nhiên. Thường thì giá trị này từ 50% trở lên là nghiên cứu có thể sử dụng. Mình nhấn mạnh là thường nha các bạn, chứ không có ai quy định cả.

 

- Durbin-Watson (DW) dùng để kiểm định tự tương quan của các sai số kề nhau (hay còn gọi là tương quan chuỗi bậc nhất) có giá trị biến thiên trong khoảng từ 0 đến 4; nếu các phần sai số không có tương quan chuỗi bậc nhất với nhau thì giá trị sẽ gần bằng 2 (từ 1 đến 3); nếu giá trị càng nhỏ, gần về 0 thì các phần sai số có tương quan thuận; nếu càng lớn, gần về 4 có nghĩa là các phần sai số có tương quan nghịch. Lưu ý, cái này là giá trị ước lượng thường dùng trong SPSS chứ không chính xác. Nếu bạn yêu cầu tính chính xác, bạn cần tra hệ số Durbin-Watson ở đây. Không có tự tương quan chuỗi bậc nhất thì dữ liệu thu thập là tốt. Cụ thể trong trường hợp này, k' = 6, n = 125, tra bảng DW ta có dL = 1.651 và dU = 1.817. Gắn vào thanh giá trị DW, ta thấy 1.817 < 1.881 < 2.183, như vậy, không có sự tương quan chuỗi bậc nhất trong mô hình.

Hình minh họa 5: Cách chạy hồi quy trong spss

3.2 Bảng ANOVA

Xây dựng xong một mô hình hồi quy tuyến tính, vấn đề quan tâm đầu tiên của bạn phải là xem xét độ phù hợp của mô hình đối với tập dữ liệu qua giá trị Adjusted R Square (hoặc R Square)  như đã trình bày ở mục 1. Nhưng cần nhớ rằng, sự phù hợp này mới chỉ thể hiện giữa mô hình bạn xây dựng được với tập dữ liệu là MẪU NGHIÊN CỨU.

Tổng thể rất lớn, chúng ta không thể khảo sát hết toàn bộ, nên thường trong nghiên cứu, chúng ta chỉ chọn ra một lượng mẫu giới hạn để tiến hành điều tra, từ đó suy ra tính chất chung của tổng thể. Mục đích của kiểm định F trong bảng ANOVA chính là để kiểm tra xem mô hình hồi quy tuyến tính này có suy rộng và áp dụng được cho tổng thể hay không.

Cụ thể trong trường hợp này, giá trị sig của kiểm định F là 0.000 < 0.05. Như vậy, mô hình hồi quy tuyến tính xây dựng được phù hợp với tổng thể.

3.3 Bảng Coefficients

Trước khi đi vào tìm hiểu các giá trị trong bảng này, mình sẽ nói một ít về thắc mắc của khá nhiều bạn: Sử dụng hệ số hồi quy nào mới là đúng, chuẩn hóa hay chưa chuẩn hóa? Sao lại có bài dùng phương trình hồi quy chuẩn hóa, bài lại dùng hồi quy chưa chuẩn hóa? Có giảng viên yêu cầu viết phương trình chuẩn hóa, giảng viên lại buộc viết phương trình chưa chuẩn hóa?

Để hiểu khi nào dùng phương trình nào, các bạn vui lòng xem bài viết Sự khác nhau giữa hệ số hồi quy chuẩn hóa và chưa chuẩn hóa. Riêng phần giảng viên, các thầy cô yêu cầu viết dạng phương trình gì thì các bạn trình bày vào bài làm dạng đó nhé.

Với dạng đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert + chạy phân tích định lượng SPSS thì các bạn nên sử dụng phương trình hồi quy chuẩn hóa, lý do tại sao thì mình vừa dẫn bài viết cho các bạn đọc ngay ở trên rồi. Như vậy, bảng Coefficients, những mục các bạn cần lưu ý gồm cột Hệ số hồi quy chuẩn hóa Beta, cột giá trị Sig, cột VIF.

Đầu tiên là giá trị Sig kiểm định t từng biến độc lập, sig nhỏ hơn hoặc bằng 0.05 có nghĩa là biến đó có ý nghĩa trong mô hình, ngược lại sig lớn hơn 0.05, biến độc lập đó cần được loại bỏ.

Tiếp theo là hệ số hồi quy chuẩn hóa Beta, trong tất cả các hệ số hồi quy, biến độc lập nào có Beta lớn nhất thì biến đó ảnh hưởng nhiều nhất đến sự thay đổi của biến phụ thuộc. Do đó khi đề xuất giải pháp, các bạn nên chú trọng nhiều vào các nhân tố có Beta lớn.

Cuối cùng là VIF, giá trị này dùng để kiểm tra hiện tượng đa cộng tuyến. Theo lý thuyết nhiều tài liệu viết, VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Tuy nhiên trên thực tế với các đề tài nghiên cứu có mô hình + bảng câu hỏi sử dụng thang đo Likert thì VIF < 2 sẽ không có đa cộng tuyến, trường hợp hệ số này lớn hơn hoặc bằng 2, khả năng cao đang có sự đa cộng tuyến giữa các biến độc lập. Để hiểu rõ hơn về nguyên nhân, dấu hiệu nhận biết và giải pháp khắc phục đa cộng tuyến, các bạn có thể xem qua bài viết: Đa cộng tuyến: Nguyên nhân, dấu hiệu nhận biết và cách khắc phục.

Với dữ liệu mình đang chạy, như các bạn thấy sig hệ số hồi quy của các biến độc lập đều nhỏ hơn hoặc bằng 0.05, do đó các biến độc lập này đều có ý nghĩa giải thích cho biến phụ thuộc, không biến nào bị loại bỏ. Hệ số VIF nhỏ hơn 2 do vậy không có đa cộng tuyến xảy ra.

Riêng cột Tolerance, các bạn sẽ thấy một số bài nghiên cứu, tài liệu sử dụng hệ số này để kiểm tra đa cộng tuyến. Nhưng ở đây mình không dùng, bởi vì hệ số này là nghịch đảo của VIF, nên các bạn có thể sử dụng 1 trong 2, cái nào cũng được, thường mọi người hay dùng VIF hơn.

 

Cách chạy hồi quy trong spss

Hình minh họa 8: Cách chạy hồi quy trong spss[/caption]

3.4 Biểu đồ tần số phần dư chuẩn hóa Histogram

Phần dư có thể không tuân theo phân phối chuẩn vì những lý do như: sử dụng sai mô hình, phương sai không phải là hằng số, số lượng các phần dư không đủ nhiều để phân tích... Vì vậy, chúng ta cần thực hiện nhiều cách khảo sát khác nhau. Một cách khảo sát đơn giản nhất là xây dựng biểu đồ tần số của các phần dư Histogram ngay dưới đây. Một cách khác nữa là căn cứ vào biểu đồ P-P Plot ở mục số 5 sẽ tìm hiểu sau mục này.

 

Từ biểu đồ ta thấy được, một đường cong phân phối chuẩn được đặt chồng lên biểu đồ tần số. Đường cong này có dạng hình chuông, phù hợp với dạng đồ thị của phân phối chuẩn. Giá trị trung bình Mean gần bằng 0, độ lệch chuẩn là 0.976 gần bằng 1, như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn. Do đó, có thể kết luận rằng: Giả thiết phân phối chuẩn của phần dư không bị vi phạm.

3.5 Biểu đồ phần dư chuẩn hóa Normal P-P Plot

Như mình đã đề cập ở mục 4, ngoài cách kiểm tra bằng biểu đồ Histogram, thì P-P Plot cũng là một dạng biểu đồ được sử dụng phổ biến giúp nhận diện sự vi phạm giả định phần dư chuẩn hóa.

Với P-P Plot (hoặc bạn có thể dùng Q-Q Plot, 2 đồ thị này không khác nhau nhiều), các điểm phân vị trong phân phối của phần dư sẽ tập trung thành một đường chéo nếu phần dư có phân phối chuẩn. Hay nói một cách đơn giản, dễ hiểu, các bạn nhìn vào đồ thị này, các chấm tròn tập trung thành dạng một đường chéo thì sẽ không vi phạm giả định hồi quy về phân phối chuẩn phần dư. Cụ thể với dữ liệu mình đang sử dụng, các điểm phân vị trong phân phối của phần dư tập trung thành 1 đường chéo, như vậy, giả định phân phối chuẩn của phần dư không bị vi phạm.

3.6 Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính

Biểu đồ phân tán Scatter Plot giữa các phần dư chuẩn hóa và giá trị dự đoán chuẩn hóa giúp chúng ta dò tìm xem, dữ liệu hiện tại có vi phạm giả định liên hệ tuyến tính hay không. Trong bài viết này, mình biểu diễn giá trị phần dư chuẩn hóa (Standardized Residual) ở trục hoành và giá trị dự đoán chuẩn hóa (Predicted Value) ở trục tung. Các bạn phải thực sự chú ý chỗ này, bởi vì có nhiều tài liệu, sách biểu diễn ngược lại với mình nên khi nhận xét sẽ có vài điểm thay đổi giữa mỗi tác giả khác nhau.

 

Kết quả đồ thị xuất ra, các điểm phân bố của phần dư nếu có các dạng: đồ thị Parabol, đồ thị Cubic,.. hay các dạng đồ thị khác không phải đường thẳng thì dữ liệu của bạn đã vi phạm giả định liên hệ tuyến tính. Nếu giả định quan hệ tuyến tính được thỏa mãn thì phần dư phải phân tán ngẫu nhiên trong một vùng xung quanh đường hoành độ 0 (trường hợp mình đang biểu diễn phần dư chuẩn hóa Standardized Residual ở trục hoành; trường hợp nếu các bạn biểu diễn giá trị này ở trục tung thì phải xem xét phân bố phần dư có tập trung quanh đường tung độ 0 hay không).

Nguyễn Tuyết Anh Tôi là Nguyễn Tuyết Anh - Job title: Trưởng phòng nội dung - Company: Luanvan1080 Group. Công việc của tôi là Chuyên thu thập, quản lý và sản xuất nội dung thông tin dưới bất kỳ dạng nào, tư vấn các vấn đề luận văn cho khách hàng qua tổng đài tư vấn, soạn thảo các hồ sơ, dịch vụ làm luận văn cho khách hàng. Bạn hãy tham khảo website https://luanvan1080.com/ để rõ hơn công việc của tôi nhé !
Bình luận đánh giá
Đánh giá

DĐức Minh

Mọi người cho mình hỏi beta trong chạy hồi quy âm. Nhưng đó là 2 biến giá cả của dịch vụ và thời gian phục vụ khách hàng thì mình giải thích rằng 2 biến này sẽ tác động ngược chiều đến sự hài lòng của khách hàng được không ạ

Trả lời2 months ago

Nguyễn Tuyết Anh

Tốt nhất muốn biết quan hệ ngược chiều hay cùng chiều thì phải dùng hệ số tương quan

Trả lời2 months ago

Thông tin bình luận

BBảo Anh

Cho mình hỏi beta trong chạy hồi quy âm. Nhưng đó là 2 biến giá cả của dịch vụ và thời gian phục vụ khách hàng thì mình giải thích rằng 2 biến này sẽ tác động ngược chiều đến sự hài lòng của khách hàng được không ạ

Trả lời2 months ago

Nguyễn Tuyết Anh

Tốt nhất muốn biết quan hệ ngược chiều hay cùng chiều thì phải dùng hệ số tương quan

Trả lời2 months ago

Thông tin bình luận

HHuy Toàn

E chào anh chị ạ! E đang chạy tương quan nhưng kết quả Sig. (2-tailed) đều lớn hơn 0.05. Ac có cách nào giúp sửa để Sig.< 0.05 ko ạ. Giúp e với ạ Em cảm ơn ạ

Trả lời2 months ago

Nguyễn Tuyết Anh

Vấn đề nữa là em phải xem thực tế giữa biến phụ thuộc và biến độc lập liệu có mối quan hệ ko. Nếu ko có mối quan hệ thì sig> 0.05 là ok chứ

Trả lời2 months ago

Thông tin bình luận

HHoàng nam

VIF < 10 sẽ không có hiện tượng đa cộng tuyến. Làm sao để nâng chỉ số này lên được ạ

Trả lời2 months ago

Thông tin bình luận

DDungVNmobile

Tất cả hệ số VIF của mình đều là 1.0. Xử lý sao ad?

Trả lời3 months ago

Thông tin bình luận

TTrương Phương Thảo

Ad ơi làm ơn cho mình hỏi khi chạy hồi quy mà hệ số B và Beta ra kết quả âm đối với 1 trong các nhân tố thì xử lý thế nào ạ?

Trả lời4 months ago

Nguyễn Tuyết Anh

beta nào âm thì có nghĩa là nhân tố độc lập đó quan hệ nghịch chiều với nhân tố phụ thuộc nhé em

Trả lời4 months ago

TTrương Phương Thảo

Dạ nhưng trong mô hình của em thì phải là thuận chiều mới hợp lí, chẳng hạn chất lượng giảng viên càng cao thì mức độ hài lòng của sv càng cao, chứ nếu ngược lại thì không ổn. Vậy có thể xử lý đc bằng cách khác ko ạ? Hơn nữa giá trị constant cũng âm thì có sao ko ạ? Em cảm ơn ad

Trả lời4 months ago

Nguyễn Tuyết Anh

E ko cần quan tâm giá trị constant. Còn các hệ số beta khác bị âm nếu e ko giải thích đc thì bắt buộc phải tìm cách xử lý. Ví dụ phải lập bảng câu hỏi đi khảo sát lại

Trả lời4 months ago

Thông tin bình luận

NNguyễn Nhật Minh

Hien tai, minh dang chay phan tich tuong quan, ket qua chi ra rang can loai 2 bien doc lap vi sig >5%. Minh tiep tuc chay theo 2 cach nay: Cach 1: Chay lai phan tich EFA (sau khi da loai di 2 bien doc lap nay) thi ket qua LOAI them 1 bien quan sat nua. Tiep do minh chay lai Cronbach Alpha thay ket qua ok (sau khi da loai 2 bien doc lap va 1 bien quan sat) Sau do minh chay tiep phan tich tuong quan thay ket qua kha ok. (Luc nay minh dang hieu la moi dieu kien deu thoa Cronbach Alpha, EFA, tuong quan) Sau do minh chay lai phan tich hoi quy (sau khi da loai 2 bien doc lap + 1 bien quan sat) thay ket qua kha dep! Cach 2: Nguoc lai, neu minh chi biện luận loai 2 bien trong phan tich tuong quan, roi sau do chay hoi quy (sau khi da loai 2 bien) thi ket qua hoi quy kg duoc dep lam. Minh nghi ket qua khong dep la do co 1 bien quan sat khong bi loai (vi cach nay khong chay lai EFA va Cronbach Alpha) nen anh huong den ket qua hoi quy. Khong biet co dung khong? Cho minh hoi, cach chay nao dung? Minh co the chay theo cach 1 duoc khong?

Trả lời4 months ago

Nguyễn Tuyết Anh

Là sao em? Ad chưa hiểu lắm các bước chạy của e?

Trả lời4 months ago

NNguyễn Nhật Minh

Chi tiết các bước chạy: Đầu tiên em chạy phân tích tương quan --> phát hiện ra 2 biến độc lập cần loại vì sig>5% Thông thường sau bước này sẽ phân tích hồi quy (sau khi loại bỏ 2 biến độc lập này ra). Tuy nhiên kết quả sau khi phân tích không được đẹp lắm Em làm theo cách khác như sau: Sau khi phát hiện ra 2 biến độc lập cần loại vì sig>5% tại bước phân tích tương quan. Em quay lại chạy EFA để đảm bảo các biến quan sát còn lại thỏa điều kiện EFA sau khi loại 2 biến độc lập. Kết quả chạy EFA cho thấy, cần phải loại thêm 1 biến quan sát khác vì độ lệch nhân tố >0.3. Tiếp đó em loại thêm biến quan sát này và chạy lại EFA --> kết quả EFA tốt. Sau đó em chạy lại Cronbach Alpha --> kết quả Cronbach Alpha tốt. Tiếp đến chạy lại tương quan --> kết quả tốt. Sau đó chạy phân tích hồi quy --> kết quả đẹp hơn cách chạy thông thường ở trên (cách chạy thông thường là chạy tương quan xong thì sẽ chạy hồi quy) Admin tư vấn giúp em nên chạy theo cách nào? Và tại sao? Xin cảm ơn!

Trả lời4 months ago

Nguyễn Tuyết Anh

Quy trình như sau nhé em: Cronbach's alpha (CA) -> EFA -> nếu sau efa có xuất hiện nhân tố mới thì kiểm tra CA cho nhân tố mới -> Tính nhân số đại diện cho nhân tố -> Tương quan -> Hồi quy

Trả lời4 months ago

Thông tin bình luận

NNguyễn Kim Ngọc

Tôi tính giá trị trung bình ra con số như thế này : 4.75E4 ! Bạn nào giải thích giúp tôi tại sao có chữ E trong dãy số ? Muốn chuyển sang số thường thì phải làm sao ? Cám ơn trước

Trả lời4 months ago

Nguyễn Tuyết Anh

Chào bạn, chữ E là cách viết tắt của số thập phân thôi bạn nhé

Trả lời4 months ago

Thông tin bình luận

LLê Hồng Nhung

ad cho e hỏi r ở bảng tương quan pearson có mối quan hệ với hệ số Beta đã chuẩn hóa ko. e gặp trường hợp là " r1>r2 nhưng khi chạy mô hình thì β đã chuẩn hóa của 2 bien thì β1<β2" . Mong ad trả lời ạ !. em cảm ơn nhieu ạ !

Trả lời4 months ago

Thông tin bình luận

DĐỗ Phạm Hồng Ngân

em muốn hỏi là sing một biến độc lập của em >0.05.Như vậy, biến đó ko có ý nghĩa trong mô hình.tuy nhien lúc em khảo sát thì biến đó được khá nhiều người quan tâm?vậy e cần phải xử lý sao ạ

Trả lời4 months ago

Thông tin bình luận

Zalo: 096.999.1080