Khám Phá Đường Cong Hồi Quy Đa Biến: Làm thế nào để khai thác tối đa các thông tin từ dữ liệu phức tạp?

Nguyễn Tuyết Anh 15/04/2023 Tài liệu phân tích định lượng
Khám Phá Đường Cong Hồi Quy Đa Biến: Làm thế nào để khai thác tối đa các thông tin từ dữ liệu phức tạp?
5/5 (2 đánh giá) 0 bình luận

Phân tích hồi quy đa biến rất hữu ích cho các nhà nghiên cứu để đánh giá mối quan hệ giữa biến độc lập và biến phụ thuộc. Từ đó, người nghiên cứu biết được tầm quan trọng của yếu tố dự đoán này với yếu tố dự đoán khác.

Để hiểu rõ hơn về bản chất của hồi quy đa biến và phân tích hồi quy đa biến trong SPSS. Bạn hãy cùng Luận văn 1080 tham khảo nội dung dưới đây.

Tổng hợp kiến thức hồi quy đa biến
Hồi quy đa biến là gì?

1. Lý thuyết hồi quy đa biến

  • Hồi quy đa biến là một kỹ thuật thống kê nhằm mục đích phân tích mối quan hệ giữa nhiều biến độc lập và một biến phụ thuộc.
  • Trong hồi quy đa biến, một mô hình được sử dụng để xác định mối quan hệ giữa các biến độc lập và biến phụ thuộc. Từ đó, dự đoán giá trị của biến phụ thuộc khi các biến độc lập thay đổi.

1.1. Hồi quy tuyến tính đa biến

  • Hồi quy tuyến tính đa biến là phương pháp xác định mối quan hệ tuyến tính giữa một biến phụ thuộc và nhiều biến độc lập.
  • Phương trình hồi quy tuyến tính đa biến có thể được biểu diễn bởi công thức sau:

Y = β0 + β1X1 + β2X2 + ... + βnXn + ε

  • Trong phương trình hồi quy tuyến tính đa biến, bạn cần biết những yếu tố sau:
    • Y: biến phụ thuộc
    • X1, X2, ..., Xn: các biến độc lập
    • β0, β1, β2,... βn: các hệ số hồi quy
    • ε là sai số ngẫu nhiên

1.2. Hồi quy phi tuyến đa biến

  • Hồi quy phi tuyến đa biến là phương pháp xác định mối quan hệ phi tuyến giữa một biến phụ thuộcnhiều biến độc lập.
  • Mô hình hồi quy phi tuyến đa biến có thể được biểu diễn bằng một hàm phi tuyến:

Y = f(X1, X2, ..., Xn) + ε

  • Trong đó:
  • Y: biến phụ thuộc
  • X1, X2,..., Xn: các biến độc lập
  • f: một hàm phi tuyến
  • ε: sai số ngẫu nhiên

1.3. Ví dụ

  • Ví dụ 1. Dựa vào phân tích hồi quy tuyến tính đa biến, chúng ta sẽ xem xét tác động kết hợp của ba biến số dự báo: căng thẳng trong cuộc sống, vị trí và tuổi tác đối với biến số kết quả của sức khỏe thể chất.
  • Ví dụ 2. Các nhà nghiên cứu có thể tiến hành chạy hồi quy đa biến trong SPSS để dự đoán huyết áp (biến phụ thuộc) từ các biến yếu tố như chiều cao, cân nặng, tuổi, số giờ tập thể dục mỗi tuần (biến độc lập). Bên cạnh đó, họ có thể thêm vào một số yếu tố chẳng hạn như giới tính.

Trước khi thực hiện hồi quy đa biến, có thể bạn sẽ cần tính toán các dữ liệu ban đầu để chúng tạo ra biến mới phù hợp với mô hình nghiên cứu. Vì thế, thành thạo công cụ Compute variable sẽ giúp bạn thực hiện tính toán chính xác và nhanh chóng hơn. Hãy tham khảo bài viết compute variable SPSS được đăng tải tại Luận văn 1080 và học ngay các nội dung quan trọng nào!

2. 6 giả định của hồi quy đa biến

Các giả định của hồi quy đa biến
Các giả định của hồi quy đa biến

2.1. Tính tuyến tính (Linearity)

  • Giả định này cho rằng mối quan hệ giữa biến phụ thuộc và các biến độc lập là tuyến tính, tức là biến phụ thuộc thay đổi theo hướng tuyến tính với mỗi sự thay đổi trong các biến độc lập.
  • Để kiểm tra giả định này, ta có thể sử dụng biểu đồ scatter plot để xem xét mối quan hệ giữa biến phụ thuộc và các biến độc lập.
  • Nếu biểu đồ cho thấy mối quan hệ là tuyến tính, tức là các điểm dữ liệu phân bố xung quanh một đường thẳng, thì giả định này được thỏa mãn.
  • Nếu không có mối quan hệ tuyến tính giữa biến kết quả và biến độc lập.
    • Áp dụng phép biến đổi phi tuyến tính cho biến độc lập chẳng hạn như lấy log hoặc căn bậc hai. Điều này thường có thể biến đổi mối quan hệ trở nên tuyến tính hơn.
    • Thêm một biến dự đoán khác vào mô hình. Ví dụ: nếu đồ thị của x so với y có dạng parabol thì có thể thêm X2 làm biến dự đoán bổ sung trong mô hình.
    • Loại bỏ biến dự đoán khỏi mô hình. Trong trường hợp cực đoan nhất, nếu không tồn tại mối quan hệ tuyến tính giữa một biến độc lập nhất định và biến phản hồi (tức biến phụ thuộc) thì biến độc lập có thể không hữu ích để đưa vào mô hình.

2.2. Không tồn tại đa cộng tuyến (No Multicollinearity)

  • Giả định này cho rằng không có mối tương quan mạnh giữa các biến độc lập trong mô hình.
  • Nếu có đa cộng tuyến, sẽ làm tăng sai số và làm giảm độ chính xác của mô hình. 
  • Để kiểm tra giả định này, ta có thể sử dụng ma trận tương quan (Correlation Matrix) để xem xét mối tương quan giữa các biến độc lập.
  • Nếu ma trận tương quan cho thấy một mối tương quan mạnh giữa hai hoặc nhiều biến độc lập thì có thể cần loại bỏ một số biến để giảm thiểu đa cộng tuyến.
  • Bạn có thể xác định xem giả định này có được đáp ứng hay không bằng cách tính giá trị VIF - Hệ số phóng đại phương sai cho từng biến dự đoán.
  • Giá trị VIF bắt đầu từ 1 và không có giới hạn trên. Theo nguyên tắc chung, các giá trị VIF lớn hơn 5 hoặc 10 biểu thị khả năng xảy ra đa cộng tuyến tùy theo lĩnh vực nghiên cứu..

2.3. Giả định độc lập tuyến tính

  • Giả định này cho rằng mỗi biến độc lập ảnh hưởng đến biến phụ thuộc theo một quan hệ tuyến tính.
  • Điều này có nghĩa là mối tương quan giữa mỗi biến độc lập và biến phụ thuộc là tuyến tính. 
  • Để kiểm tra giả định này, ta có thể sử dụng biểu đồ phân tán (Scatter plot) để xem xét mối tương quan giữa các biến
  • Nếu biểu đồ phân tán cho thấy một quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc thì giả định này được thỏa mãn.
  • Hồi quy đa biến sẽ cho bạn biết được mối liên hệ giữa biến độc lập và các biến phụ thuộc. Để làm được điều đó, bạn cần xác định chính xác biến độc lập và biến phụ thuộc khi đưa vào phân tích ngay từ đầu. Đây là vấn đề đơn giản nhưng đôi khi vẫn có một bạn mắc sai lầm tại bước làm việc này. Vì thế, hãy tham khảo bài viết tại website và tìm hiểu xem Biến độc là gì? và Biến phụ thuộc là gì? ngay nào!

2.4. Giả định phân phối chuẩn của các sai số

  • Giả định này cho rằng phân phối của sai số trong mô hình là đồng nhất và có phương sai không đổi. Nếu không đồng nhất, sẽ làm sai lệch kết quả và làm giảm độ chính xác của mô hình.
  • Để kiểm tra giả định này, ta có thể sử dụng biểu đồ đường cong tựa (Fitted line plot) để xem xét phân bố sai số
  • Nếu biểu đồ cho thấy sự phân tán ngẫu nhiên của sai số xung quanh đường phù hợp, thì giả định này được thỏa mãn.

2.5. Giả định đồng phương sai (homoscedasticity)

  • Giả định này đòi hỏi phương sai của các giá trị dự đoán phải là như nhau ở mọi mức độ của biến độc lập. 
  • Để kiểm tra giả định này, ta có thể sử dụng biểu đồ tương quan (scatter plot) giữa các giá trị dự đoán và các giá trị chuẩn hóa của các biến độc lập. Nếu biểu đồ cho thấy một độ lệch giữa các giá trị dự đoán và các giá trị chuẩn hóa, có thể sử dụng các phương pháp chuyển đổi dữ liệu, như được đề cập ở trên, để đạt được đồng nhất phương sai.
  • Cách đơn giản nhất để xác định xem giả định này có được đáp ứng hay không là tạo một đồ thị gồm các phần dư được chuẩn hóa so với các giá trị dự đoán.
  • Khi bạn khớp mô hình hồi quy với tập dữ liệu, thì bạn có thể tạo biểu đồ phân tán hiển thị các giá trị dự đoán cho biến phản hồi trên trục x và phần dư được chuẩn hóa của mô hình trên trục y.
  • Nếu các điểm trong biểu đồ phân tán thể hiện một mẫu, thì có mặt phương sai thay đổi.
  • Nếu giả định này bị vi phạm thì chúng ta có 3 cách khắc phục sau đây:
    • #1. Chuyển biến phụ thuộc/biến phản hồi: Cách phổ biến nhất để xử lý phương sai thay đổi là biến đổi biến phản hồi bằng cách lấy log, căn bậc hai hoặc căn bậc ba của tất cả các giá trị của biến phản hồi. Điều này thường làm cho phương sai thay đổi biến mất.
    • #2. Xác định lại biến phụ thuộc: Một cách để xác định lại biến phụ thuộc là sử dụng tỷ lệ thay vì giá trị thô.
      • Ví dụ: Thay vì sử dụng quy mô dân số để dự đoán số lượng cửa hàng hoa trong một thành phố, chúng ta có thể sử dụng quy mô dân số để dự đoán số lượng cửa hàng hoa trên đầu người. Trong hầu hết các trường hợp, điều này làm giảm sự thay đổi tự nhiên xảy ra giữa các quần thể lớn hơn vì chúng ta đang đo số lượng cửa hàng hoa trên mỗi người, thay vì số lượng cửa hàng hoa tuyệt đối.
    • #3. Sử dụng hồi quy có trọng số: Một cách khác để khắc phục phương sai thay đổi không đồng nhất là sử dụng hồi quy có trọng số, gán trọng số cho từng điểm dữ liệu dựa trên phương sai của giá trị phù hợp của nó.
      • Về cơ bản, điều này mang lại trọng số nhỏ cho các điểm dữ liệu có phương sai cao hơn, làm giảm số dư bình phương của chúng. Khi các trọng số thích hợp được sử dụng có thể loại bỏ vấn đề phương sai thay đổi.

2.6. Tính chuẩn đa biến

  • Hồi quy tuyến tính bội giả định rằng phần dư của mô hình có phân phối chuẩn.
  • hai cách phổ biến để kiểm tra xem giả định này có được đáp ứng hay không:
    • Kiểm tra giả định một cách trực quan bằng cách sử dụng biểu đồ QQ.
      • Biểu đồ QQ (Q-Q Plots) là một loại biểu đồ mà chúng ta có thể sử dụng để xác định xem phần dư của một mô hình có tuân theo phân phối chuẩn hay không.
      • Nếu các điểm trên biểu đồ gần như tạo thành một đường chéo thẳng, thì giả định về tính quy tắc được đáp ứng.
    • Kiểm tra giả định bằng cách sử dụng một bài kiểm tra thống kê chính thức (Shapiro-Wilk, Kolmogorov-Smirnov, Jarque-Barre hoặc D'Agostino-Pearson).
      • Hãy nhớ rằng các thử nghiệm này nhạy cảm với cỡ mẫu lớn, nghĩa là chúng thường kết luận rằng phần dư không bình thường khi cỡ mẫu của bạn cực lớn.
      • Đây là lý do tại sao việc sử dụng các phương pháp đồ họa như biểu đồ QQ để kiểm tra giả định này thường dễ dàng hơn.
  • Nếu giả định bị vi phạm, bạn có một vài lựa chọn:
    • Trước tiên, hãy xác minh rằng không có ngoại lệ cực đoan nào xuất hiện trong dữ liệu khiến giả định về tính quy tắc bị vi phạm.
    • Tiếp theo, bạn có thể áp dụng phép biến đổi phi tuyến tính cho biến phụ thuộc chẳng hạn như lấy căn bậc hai, log hoặc căn bậc ba của tất cả các giá trị của biến phản hồi. Điều này thường làm cho phần dư của mô hình trở nên phân phối chuẩn hơn.

3. 6 bước phân tích hồi quy đa biến trên SPSS

Các bước phân tích hồi quy đa biến
Các bước phân tích hồi quy đa biến

3.1. Bước 1 phân tích hồi quy đa biến

  • Trong bài viết này, chúng tôi sẽ giới thiệu đến bạn các bước phân tích hồi quy đa biến trong SPSS thông qua một ví dụ cụ thể giúp các bạn dễ dàng nắm rõ nội dung hơn.
  • Đầu tiên, trong bảng dưới đây, bạn sẽ thấy cột Fd chính là biến phụ thuộc và các cột t, D, N, f là các biến độc lập. Chúng ta sẽ tiến hành các bước chạy hồi quy đa biến trong SPSS như sau.
  • Bước 1: Trong giao diện Data View, bạn vào Analyze > Regression > Linear… như hình bên dưới.
Bước 1
Bước 1 Analyze > Regression > Linear…

3.2. Bước 2 chạy hồi quy đa biến: Chọn biến

Bước 2. Chọn biến độc lập và biến phụ thuộc
Bước 2. Chọn biến độc lập và biến phụ thuộc
  • Một hộp thoại mới Linear Regression sẽ xuất hiện, bạn cần thực hiện các hành động sau:
    • Enter: Đưa vào một lượt. Đây là phương pháp mặc định của chương trình chạy hồi quy đa biến. Các biến trong khối sẽ được đưa vào mô hình cùng một lúc. Trong ví dụ trên chúng ta sẽ chọn phương pháp này.
    • Remove: Loại bỏ một lượt. Các biến trong khối sẽ được rút ra chỉ trong một bước.
    • Backward: Loại trừ dần. Khởi đầu với tất cả các biến, sau đó loại trừ chúng bằng tiêu chuẩn loại trừ. 
    • Forward: Đưa vào dần. Tuần tự đưa các biến theo tiêu chuẩn vào.
    • Stepwise: Hồi quy từng bước. Là sự kết hợp của Forward và Backward.
    • Tại Dependent: bạn cho biến phụ thuộc vào ô phía dưới.
    • Tại Independent(s): bạn chọn các biến độc lập vào ô phía dưới.
    • Method: Bạn chọn phương pháp để xây dựng mô hình hồi quy đa biến. Chúng ta sẽ có các lựa chọn sau đây.

 

3.3. Bước 3 phân tích hồi quy tuyến tính đa biến: Statistics

Bước 3 Hộp thoại Linear Regression Statistics
Bước 3 Hộp thoại Linear Regression Statistics
  • Trong giao diện chính Linear Regression, bạn chọn Statistics. Chúng ta sẽ tiếp tục với hộp thoại mới Linear Regression: Statistics. Tại đây, bạn sẽ quyết định những gì bạn muốn xem.
  • Các tùy về thông số thống kê trong hộp thoại này bao gồm:
    • Estimates: (Ước lượng) Hiện các hệ số hồi quy đa biến và các đo lường có liên quan, mục này sẽ được lựa chọn mặc định thể hiện trong bảng kết quả.
    • Confidence interval (khoảng tin cậy): Cho phép thể hiện khoảng tin cậy 95% của từng hệ số hồi quy không chuẩn hóa.
    • Covariance matrix (Ma trận hiệp phương sai): Thể hiện ma trận phương sai - hiệp phương sai của các hệ số hồi quy không chuẩn hóa. Các hiệp phương sai sẽ nằm bên dưới đường chéo và các phương sai sẽ nằm trên đường chéo của ma trận.
    • Model fit là các thống kê đánh giá sự phù hợp của mô hình như R, R2, R2 change và sai số chuẩn.
      • Ngoài ra, bảng ANOVA sẽ thể hiện số bậc tự do, tổng các độ lệch bình phương, độ lệch bình phương bình quân, giá trị thống kê F, xác suất F quan sát được.
      • Các thống kê đánh giá sự phù hợp của mô hình cũng được SPSS thể hiện theo mặc định.
    • R squared change: Thay đổi R bình phương. Xem xét mức độ tăng của R square khi một biến độc lập được đưa vào phương trình trong khi phương trình đã chứa sẵn các biến độc lập khác.
    • Descriptives (Các thống kê mô tả): Các trị trung bình, độ lệch chuẩn và ma trận tương quan với các xác suất kiểm định một phía.
    • Collinearity diagnostics: Chẩn đoán hiện tượng cộng tuyến.
      • Tùy chọn này sẽ thể hiện hệ số phóng đại phương sai VIF, các giá trị đặc trưng (eigenvalues) của ma trận tích mômen chéo, các chỉ số điều kiện, các tỷ lệ của các bộ phận phương sai.
      • Tùy chọn này cũng sẽ thể hiện độ chấp nhận của các biến trong phương trình, của các biến không được đưa vào phương trình, độ chấp nhận của một biến nếu như nó được đưa vào phương trình ở bước tiếp theo.
    • Part and partial correlation: Tương quan bán phần và tương quan từng phần.
    • Durbin-Watson: Thống kê kiểm định Durbin-Watson.
      • Thể hiện các thống kê tóm tắt của các phần dư không chuẩn hóa và chuẩn hóa cũng như các giá trị dự đoán.
  • Bạn có thể chọn theo hướng dẫn trong hình dưới đây. Tiếp đến, bạn ấn Continue để trở về hộp thoại Linear Regression.

3.4. Bước 4 chạy hồi quy đa biến: Plots

  • Khi trở về hộp thoại Linear Regression, bạn tiếp tục chọn Plots để vẽ các dạng đồ thị liên quan đến mô hình hồi quy đa biến. Lệnh này sẽ mở ra hộp thoại Linear Regression: Plots.
Bước 4. Giao diện hộp thoại Linear Regression Plots
Bước 4. Giao diện hộp thoại Linear Regression Plots
  • Tại đây, biến phụ thuộc, các dạng của biến phần dư (residual) và các dạng biến độc lập sẽ xuất hiện ở danh sách biến nguồn. Trong đó:
    • *ZPRED: giá trị dự đoán (hay lý thuyết chuẩn hóa).
    • *ZRESID: phần dư chuẩn hóa.
    • *DRESID: phần dư loại bỏ quan sát đang xem xét.
    • *ADJPRED: giá trị dự đoán điều chỉnh.
    • *SRESID: phần dư student hóa.
    • *SDRESID: phần dư loại bỏ quan sát đang xem xét được student hóa.
  • Bạn chọn một biến trong danh sách biến nguồn cho trục tung đưa vào khung Y và một biến cho trục hoành đưa và khung X.
  • Bạn có thể thực hiện thêm nhiều đồ thị cùng một lúc bằng cách nhấp chuột tại nút Next và lặp lại hoạt động xác định biến cho trục tung và hoành. Bạn có thể chỉ định đến 9 đồ thị cùng một lúc và tất cả các đồ thị đều được chuẩn hóa.
  • Trong hộp thoại Linear Regression: Plots còn thêm các lựa chọn khác như:
    • Histogram: Là biểu đồ tần số.
    • Normal probability plot: Là biểu đồ xác suất chuẩn.
    • Standardized Residual Plots: Đồ thị phần dư chuẩn hóa, bao gồm:
    • Produce all partial plots: Là biểu đồ phân tán từng phần.
  • Sau khi đã thực hiện xong việc chọn biến nguồn như hình hướng dẫn, bạn tiếp tục ấn Continue để quay lại hộp thoại Linear Regression.

3.5. Bước 5 chạy hồi quy đa biến: Save

  • Trong giao diện Linear Regression, bạn tiếp tục chọn Save để sao lưu các biến mới trong phân tích hồi quy đa biến. Bạn sẽ thấy hộp thoại mới xuất hiện Linear Regression: Save
Bước 5 Giao diện Linear Regression Save
Bước 5 Giao diện Linear Regression Save
  • SPSS sẽ tự động gán tên biến mới cho bất cứ thông số nào bạn muốn sao lưu. Trong kết quả chạy phân tích hồi quy đa biến sẽ có một bảng cho biết tên và những nội dung của từng biến mới.
  • Trong hộp thoại Linear Regression: Save, bạn cần biết các nội dung sau:
    • Unstandardized: Các giá trị dự đoán không chuẩn hóa.
    • Standardized: Các giá trị dự đoán chuẩn hóa.
    • Adjusted: Nghĩa là các giá trị dự đoán điều chỉnh.
    • S.E. of mean predictions: Sai số chuẩn của các giá trị dự đoán.
    • Mean: Giới hạn trên và dưới của khoảng cách dự đoán của trị trung bình.
    • Individual: Giới hạn trên và dưới của khoảng cách dự đoán cho từng quan sát.
    • Thêm vào đó, bạn có thể chọn khoảng tin cậy mặc định cho trị trung bình và từng quan sát tại khung Confidence interval.
    • Unstandardized: Phần dư không chuẩn hóa.
    • Standardized: Phần dư chuẩn hóa.
    • Studentized: Phần dư student hóa.
    • Deleted: Nghĩa là phần dư loại bỏ quan sát đang xem xét.
    • Studentized deleted: Là phần dư loại bỏ quan sát đang xem xét được student hóa.
    • DfBeta(s): Phản ánh sự thay đổi của hệ số hồi quy khi loại bỏ quan sát nào đó ra khỏi quá trình tính toán.
    • Standardized DfBeta: Tính toán các DfBeta chuẩn hóa.
    • DfFit: Phản ánh sự thay đổi của các giá trị dự đoán khi loại bỏ một quan sát đang xem xét ra khỏi quá trình tính toán.
    • Standardized DfFit: Tính các DfFit chuẩn hóa.
    • Covariance ratio: Tính tỉ số giữa các thành phần của ma trận phương sai, hiệp phương sai khi quan sát đang xem xét bị loại ra khỏi quá trình tính toán với các thành phần của ma trận phương sai, hiệp phương sai khi tất cả các quan sát được đưa vào tính toán. Khi tỉ số này tiến đến 1 thì quan sát đang xem không ảnh hưởng nhiều đến ma trận hiệp phương sai.
    • Predicted Values: Các giá trị dự đoán.
    • Distances: Khoảng cách từ trị số quan sát đến trị số trung bình của biến độc lập có thể đo bằng các loại sau như: Mahalanobis, Cool, Leverage values.
    • Prediction intervals: Khoảng cách dự đoán. Có các loại khoảng cách sau:
    • Residuals: Phần dư. Bạn có thể chọn một hoặc nhiều loại sau đây.
    • Influence Statistics: Các thống số thống kê ảnh hưởng

3.6. Bước 6 chạy phân tích hồi quy đa biến: Options

Bước 6. Hộp thoại Linear Regression Options
Bước 6. Hộp thoại Linear Regression Options
  • Bạn tiến hành tìm hiểu về các tùy chọn hồi quy. Tại đây, bạn có thể điều chỉnh các tiêu chuẩn biến vào hay ra khỏi mô hình hồi quy đa biến, hay điều chỉnh việc xử lý các quan sát thiếu dữ kiện.
  • Bạn ấn vào nút Options… trong hộp thoại Linear Regression để mở ra hộp thoại tùy chọn.
  • Các lựa chọn bạn có thể thực hiện trong hộp thoại Linear Regression: Options bao gồm:
    • Use probability of F: Sử dụng xác suất F vào (PIN) và xác suất ra (POUT) làm tiêu chuẩn đưa biến vào và ra. Đây là tiêu chuẩn mặc định.
    • Use F value: Sử dụng giá trị F làm tiêu chuẩn vào/ra.
    • Exclude cases listwise: Chỉ có những quan sát nào có đầy đủ giá trị của tất cả các biến mới được đưa vào phân tích hồi quy đa biến. Đây là xử lý mặc định.
    • Exclude cases pairwise: Những quan sát có đầy đủ dữ liệu đối với một cặp biến đang nghiên cứu liên hệ sẽ được sử dụng để tính hệ số tương quan làm cơ sở cho phân tích hồi quy đa biến.
    • Replace with mean: Tức là thay thế các dữ kiện thiếu bằng trung bình của biến. Tất cả quan sát đều được sử dụng để tính toán.
    • Stepping Method Criteria: Tiêu chuẩn vào ra được áp dụng các cho các phương pháp đưa biến vào dần (Forward), loại trừ dần (Backward), từng bước (Stepwise).
    • Missing values: Quan sát thiếu dữ kiện.
  • Trong ví dụ này, chúng tôi sẽ chọn những mục như hình dưới. Cuối cùng ấn Continue để quay về Linear Regression => Nhấn Ok để chạy phân tích hồi quy đa biến trong SPSS.

Chạy mô hình hồi quy không chỉ dừng lại ở việc thực hiện các bước theo hướng dẫn mà bạn cần phải biết nhiều giá trị khác nhau trong bảng kết quả đầu ra. Điều này đòi hỏi bạn cần nhiều kiến thức liên quan khác mới có thể khai thác hết những kết quả này. Chạy SPSS thuê là lựa chọn lý tưởng nếu bạn đang gặp nhiều khó khăn trong khi thực hiện và đọc kết quả phân tích hồi quy đa biến. Vì thế, hãy liên hệ với chúng tôi - Luận văn 1080 để nhận sự giúp đỡ một cách nhanh chóng và sở hữu bài nghiên cứu chất lượng tốt nhất.

4. Đọc kết quả phân tích hồi quy tuyến tính đa biến

Sau khi chạy phân tích hồi quy đa biến trong SPSS bạn sẽ thu được khá nhiều kết quả đầu ra. Chúng ta sẽ tiến hành đọc kết quả hồi quy đa biến trong SPSS từ các bảng kết quả dưới đây:

Bảng Variables Entered/Removed
Bảng Variables Entered/Removed
  • Đầu tiên, ở bảng Variables Entered/Removed là các biến được nhập và hoặc xóa đi.
    • Variables Entered chứa các biến mà chúng ta thêm vào ban đầu là f, N, D, t. Các biến phụ thuộc là Fd.
Bảng Model Summary
Bảng Model Summary
  • Bảng Tóm tắt Mô hình (Model Summary) cung cấp R, R Square, Adjusted R Square Standard Error of the Estimate, có thể được sử dụng để xác định mức độ phù hợp của mô hình hồi quy đa biến với dữ liệu:
  • Cột " R " đại diện cho giá trị của R, hệ số tương quan bội . R có thể được coi là một thước đo chất lượng dự đoán của biến phụ thuộc.
  • Ta có, R = 0.961 là con số khá cao cho thấy mức độ dự đoán tốt.
  • R Square = 0.924 và Adjusted R Square = 0.920, từ kết quả này bạn có thể nói rằng mô hình mà bạn đã xây dựng có thể giải thích được 92% phương sai trong dữ liệu mà bạn có được.
  • R Square Change = 0.924 là giá trị khá tốt.
Bảng ANOVA
Bảng ANOVA
  • Tỷ lệ F trong bảng ANOVA kiểm tra xem mô hình hồi quy đa biến tổng thể có phù hợp với dữ liệu hay không.
  • Bảng cho thấy các biến độc lập dự báo đáng kể về mặt thống kê cho biến phụ thuộc, F = 232.002, p < 0,0005 (nghĩa là mô hình hồi quy phù hợp tốt với dữ liệu). 
Bảng Coefficients
Bảng Coefficients

 

  • Khi thực hiện đọc kết quả hồi quy đa biến trong SPSS, bạn cần quan tâm đến kết quả nhiều bảng khác nhau để tìm ra mối quan hệ giữa các biến được đưa vào.
  • Giá trị Sig. của kiểm định t được sử dụng nhằm kiểm định ý nghĩa của hệ số hồi quy, cho biết các biến độc lập có tác động lên biến phụ thuộc hay không?
    • Nếu Sig. nhỏ hơn 0.05 nghĩa là biến độc lập có sự tác động lên biến phụ thuộc và ngược lại.
  • Trong bảng trên biến D và N có Sig. lần lượt là 0.107 và 0.947 (>0.05) cho thấy không có sự tác động lên biến phụ thuộc và bạn có thể bác bỏ giả thuyết của biến đó. 
  • Hệ số phóng đại phương sai VIF giúp kiểm tra hiện tượng đa cộng tuyến:
    • Nếu hệ số VIF của một biến độc lập >10 nghĩa là đang có hiện tượng đa cộng tuyến.
    • => Nhìn bảng trên, ta thấy các giá trị đều bé hơn 10 nên có thể kết luận là không có hiện tượng đa cộng tuyến, đáp ứng giả định không tồn tại đa cộng tuyến (No Multicollinearity).
  • Sau khi chạy hồi quy đa biến, bạn sẽ nhận được giá trị hồi quy chưa chuẩn hóa (Unstandardized B) và chuẩn hóa (Standardized Beta), bạn có thể lần lượt đưa vào phương trình hồi quy dạng Y = β0 + β1X1 + β2X2 + ... + βnXn + ε.
    • Ta có: Y = 1.238 + (-0.12)*t + 0.02*D + (-4.439E-7)*N + 0.601*f + ε
  • Nhìn vào cột Standardized Beta, bạn lấy trị tuyệt đối của các giá trị trong cột, nếu giá trị nào lớn nhất thì biến đó có tác động mạnh nhất lên biến phụ thuộc và ngược lại.

5. Đánh giá, kiểm tra giả định hồi quy đa biến

5.1. Biểu đồ Histogram

Biểu đồ Histogram
Biểu đồ Histogram
  • Biểu đồ Histogram có tác dụng giúp bạn kiểm tra xem phần dư có được phân phối chuẩn hay không.
  • Trong biểu đồ Histogram nếu giá trị Mean gần bằng 0, đường cong phân phối có dạng hình chuông, độ lệch chuẩn bằng 1 thì điều đó cho chúng ta biết được phân phối của phần dư là xấp xỉ chuẩn.
  • Trong biểu đồ trên, ta thấy Mean = 2.88E-14, St.Dev = 0.975, biểu đồ cũng có dạng hình chuông và các giá trị tập trung phần lớn ở khoảng -2 đến 2. Nên chúng ta có thể kết luận phần dư đang được phân phối xấp xỉ chuẩn.
  • Do đó, ta có thể kết luận rằng giả định tính chuẩn đa biến không bị vi phạm.

5.2. Biểu đồ Normal P-P Plot

 Biểu đồ Normal P-P Plot
 Biểu đồ Normal P-P Plot
  • Biểu đồ Normal P-P Plot cho chúng ta biết mức độ phân phối chuẩn của phần dư. Nếu các điểm phân vị càng sát với đường chéo thì đồng nghĩa với phần dư có phân phối chuẩn. Đáp ứng giả định về phân phối chuẩn của phần dư.
  • Nhìn vào biểu đồ trên hình, ta có thể thấy rằng đa phần các điểm phân vị đang nằm sát với đường chéo. Tuy nhiên, vẫn có một vài điểm nằm xa đường chéo.

5.3. Biểu đồ Scatter Plot

Biểu đồ Scatter Plot
Biểu đồ Scatter Plot
  • Để xác định được mối liên hệ tuyến tính giữa biến phụ thuộc và biến độc lập. Nếu các điểm phân tán ngẫu nhiên và tập trung xung quanh trục ngang 0, thì chúng ta có thể kết luận mối quan hệ tuyến tính giữa biến độc lập và phụ thuộc không bị vi phạm.
  • Những điều bạn thấy trong hình là phần dư được chuẩn hóa so với hồi quy được chuẩn hóa. Điều xảy ra là không có loại mẫu nào được hình thành. 
  • Và khi tạo một đường hồi quy cho dữ liệu, thì điều này vẫn không thể xảy ra, chúng ta không thấy bất kỳ đường hồi quy nào, không có bất kỳ xu hướng tăng hay giảm nào ở đây.
  • Điều này cho chúng ta biết được không tồn tại mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc. Không đáp ứng giả định về Tính tuyến tính (Linearity), giả định độc lập tuyến tính.

Cùng là công cụ phân tích giúp người nghiên cứu nhận được kết quả, đưa ra quyết định chính xác và đáng tin cậy. Nhưng nhiều bạn vẫn chưa nắm rõ Khi nào dùng hồi quy đơn biến? và Khi nào dùng hồi quy đa biến? Vậy để biết được sự khác biệt giữa hai mô hình hồi quy này, trong khi tìm hiểu về hồi quy đa biến, bạn hãy tham khảo nội dung chi tiết về hồi quy đơn biến trong SPSS để so sánh dễ dàng nhé!

6. So sánh hồi quy tuyến tính và hồi quy phi tuyến đa biến

  • Mô hình hồi quy phi tuyến tính đa biến tương tự như mô hình hồi quy tuyến tính đa biến ở chỗ cả hai đều tìm cách theo dõi một phản hồi cụ thể từ một tập hợp các biến bằng đồ họa. Và Các mô hình phi tuyến tính phức tạp hơn các mô hình tuyến tính.

 

 

Hồi quy tuyến tính đa biến

Hồi quy phi tuyến tính đa biến

Bản chất

  • Dự đoán phản hồi từ nhiều biến.
  • Xác định mối quan hệ tuyến tính.
  • Dự đoán phản hồi từ nhiều biến.
  • Xác định mối quan hệ phi tuyến tính.

Phương trình

Y = β0 + β1X1 + β2X2 + ... + βnXn + ε

Y = f(X1, X2, ..., X,) + ε

Mô hình hồi quy

  • Phương trình hồi quy tuyến tính thường tạo thành đường thẳng, cũng có thể tạo thành các đường cong tùy thuộc vào dạng của phương trình hồi quy tuyến tính đa biến.
  • Phương trình phi tuyến tính đa biến là một hàm cong.
  • Bạn cần lưu ý, hàm cong của hồi quy phi tuyến tính khác với của hồi quy Logistic.

Không chỉ trên SPSS, hồi quy đa biến còn được thực hiện trên Python. Hồi quy tuyến tính đa biến Python được triển khai bằng ngôn ngữ lập trình hoàn toàn khác so với SPSS. Bạn có thể tham khảo thông tin về hồi quy tuyến tính đa biến python tại Luận văn 1080.

7. Các ứng dụng của hồi quy đa biến

Ứng dụng của hồi quy đa biến
Ứng dụng của hồi quy đa biến
  • Hiện nay, dữ liệu phân tích hồi quy đa biến có tầm quan trọng rất lớn đối với doanh nghiệp, giúp đưa ra quyết định hiệu quả hơn.
  • Trong khi đó, hồi quy Binary Logistic cũng là mô hình phổ biến được áp dụng trong nghiên cứu nhưng lại được dùng để ước lượng xác suất một sự kiện sẽ xảy ra. 
  • Những ứng dụng rộng rãi nhất của hồi quy đa biến có thể kể đến là:
    • Dự báo giá cổ phiếu và thị trường tài chính
    • Dự báo sản lượng nông nghiệp
    • Dự báo nhu cầu sử dụng điện năng

8. Lưu ý quan trọng khi chạy hồi quy đa biến trong SPSS

Lưu ý khi chạy hồi quy đa biến trong SPSS
  • Các nhân tố được trích ra trong phân tích nhân tố sẽ được dùng cho phân tích hồi quy đa biến để kiểm định mô hình nghiên cứu và các giả thuyết kèm theo.
  • Kiểm định giả thuyết thống kê mức ý nghĩa là 5%.
  • Nghiên cứu phân tích hồi quy đa biến theo Method: Enter thì tất cả các biến được đưa vào một lần và xem xét các kết quả thống kê liên quan.
  • Lưu ý khi chọn biến phân tích hồi quy đa biến (bước 2) là gì?
    • Với Các thủ tục chọn biến trên SPSS, các biến phải đạt tiêu chuẩn chấp nhận (Tolerance criterion) mới được đưa vào phương trình cho dù bạn áp dụng Method nào đi chăng nữa. Độ chấp nhận (Tolerance) mặc định là 0,0001. Biến sẽ không được đưa vào phương trình nếu nó làm độ chấp nhận của một biến (đã được đưa vào phương trình) xuống dưới mức Tolerance criterion.
    • Với phương pháp từng bước (Stepwise), số bước tối đa để đưa các biến vào phương trình là bằng 02 lần số biến độc lập.
    • Đối với phương pháp loại trừ dần (Backward) và đưa vào dần (Forward) thì số bước tối đa bằng với số biến thỏa mãn tiêu chuẩn đưa vào và loại ra.

Bài viết đã giới thiệu đến bạn những thông tin quan trọng về hồi quy đa biến trong SPSS. Mong rằng các bạn sẽ thực hành và áp dụng thành công trong nghiên cứu của mình. Nếu có vấn đề cần giải đáp hãy liên hệ ngay với Luận văn 1080 để nhận được phản hồi sớm nhất.

Nguyễn Tuyết Anh Tôi là Nguyễn Tuyết Anh - Job title: Trưởng phòng nội dung - Company: Luanvan1080 Group. Kể từ khi còn bé tôi đã rất yêu thích sách vở, nên khi lớn lên tôi quyết định tâm làm nên những nội dung thật hay thật ý nghĩa. Luận văn 1080 có thâm niên hoạt động hơn 10 năm với đội ngũ chuyên gia giàu kinh nghiệm, trình độ chuyên môn cao cùng tinh thần làm việc trách nhiệm. Mọi thông tin cần tư vấn vui lòng liên hệ Website: luanvan1080.com/ - Hotline: 096.999.1080 Bạn hãy tham khảo website https://luanvan1080.com/ để rõ hơn công việc của tôi nhé !
Bình luận đánh giá
Đánh giá

Zalo: 096.999.1080