Giải Mã Hồi Quy Logistic: Giải Pháp Tối Ưu Dự Đoán Kết Quả Trong Phân Tích Dữ Liệu

Nguyễn Tuyết Anh 17/04/2023 Tài liệu phân tích định lượng
Giải Mã Hồi Quy Logistic: Giải Pháp Tối Ưu Dự Đoán Kết Quả Trong Phân Tích Dữ Liệu
5/5 (3 đánh giá) 0 bình luận

Trong SPSS, để phân tích sự ảnh hưởng của 2 yếu tố dữ liệu thì hồi quy Logistic là một kỹ thuật dự đoán chính xác nhất. Vậy làm cách nào để dự đoán bằng hồi quy? Luận văn 1080 sẽ hướng dẫn các bạn chi tiết cách dự đoán kết quả trong phân tích dữ liệu SPSS mới nhất, chuẩn nhất. Mời các bạn tham khảo ngay!

1. Lý thuyết về hồi quy logistic

1.1. Định nghĩa

  • Hồi quy logistic là một kỹ thuật phân tích được sử dụng trong thống kê để dự đoán xác suất của một sự việc đang diễn ra dựa trên các yếu tố của các biến đầu vào. 
  • Nó được dùng phổ biến trong phân tích các dữ liệu và khai thác thông tin dữ liệu, đặc biệt là trong các lĩnh vực có liên quan đến dự đoán kết quả và phân loại số liệu.

1.2. Công thức hồi quy logistic

Công thức hồi quy logistic
  • Trong đó: P là nhân tố xác suất của biến quan sát một trường hợp i trong kết quả biến Y với một giá trị là bằng 1; e là một hằng số toán học Euler với giá trị gần bằng 2.71828 và các hệ số hồi quy tương ứng với các biến quan sát
  • Chúng ta thường sử dụng mô hình hồi quy Logistic để ước lượng sự ảnh hưởng của các biến X về một Odds (Y=1).

Ví dụ biểu đồ hồi quyVí dụ biểu đồ hồi quy

  • Hồi quy logistic có thể được dùng cho cả trường hợp có một biến độc lập (hồi quy logistic đơn biến) và trường hợp có nhiều biến độc lập (hồi quy logistic đa biến).

1.3. Phân loại

  • Hồi quy logistic nhị phân
      • Hồi quy logistic nhị phân là một trường hợp đặc biệt của hồi quy logistic, trong đó biến phân loại chỉ có hai giá trị, thường được ký hiệu là 0 và 1.
      • Hồi quy logistic nhị phân được sử dụng để phân loại các điểm dữ liệu vào một trong hai nhóm. Ví dụ: "Mắc bệnh" hoặc "không mắc bệnh".
  • Hồi quy logistic đa thức
    • Hồi quy logistic đa thức là một dạng mở rộng của hồi quy logistic nhị phân, trong đó biến phân loại có nhiều hơn hai giá trị. Ví dụ, trong bài toán phân loại giữa các loài hoa, biến phân loại có thể là "loại hoa 1", "loại hoa 2" hoặc "loại hoa 3".
    • Hồi quy logistic đa thức được sử dụng để phân loại các điểm dữ liệu vào nhiều hơn hai nhóm. Ví dụ: phân loại một loại cây cụ thể từ các đặc điểm như chiều cao, đường kính thân cây, diện tích lá,...

=> Cả hai dạng hồi quy logistic này đều sử dụng hàm logistic để tính xác suất dự đoán và sử dụng các phương pháp tối ưu để điều chỉnh các tham số của mô hình để đạt được độ chính xác tốt nhất.

2. Thành phần của hồi quy logistic

Thành phần của hồi quy logistic
Thành phần của hồi quy logistic
  • Hàm sigmoid: là một hàm số phi tuyến, được sử dụng để chuyển đổi các giá trị đầu vào thành các giá trị xác suất ở đầu ra trong khoảng từ 0 đến 1.
  • Biến độc lập và biến phụ thuộc
  • Biến phụ thuộc:đây là biến mà chúng ta muốn dự đoán và có giá trị rời rạc hoặc nhị phân (thường được mã hóa dưới dạng 0 hoặc 1).
  • Biến độc lập: là các yếu tố đầu vào được sử dụng để dự đoán biến phụ thuộc. Các biến đó là các biến định lượng (quantitative variables) hoặc các biến định tính (qualitative variables).
  • Tham số số hồi quy: là các giá trị được ước tính trong quá trình huấn luyện mô hình, thể hiện mức độ ảnh hưởng của mỗi biến độc lập đến biến phụ thuộc.
  • Hàm logistic: hàm này biểu diễn mối quan hệ giữa các biến độc lập và biến phụ thuộc. Nó chuyển đổi đầu vào liên tục thành một giá trị rời rạc hoặc nhị phân.
  • Hàm mất mát: hàm này đánh giá sự sai khác giữa giá trị dự đoán và giá trị thực tế của biến phụ thuộc, và được sử dụng để tối ưu hóa các tham số của mô hình.

Hệ số tương quan r là một khái niệm khá quen thuộc trong hoạt động xử lý và phân tích số liệu spss. Mỗi giá trị và mỗi biến tính hệ số tương quan r đều mang một ý nghĩa khác nhau và thể hiện chức năng riêng của nó. Nếu bạn chưa biết các ý nghĩa và chức năng của các biến tính như thế nào thì hãy xem ngay bài viết về hệ số tương quan r của chúng tôi để nám thêm nhũng thông tin hữu ích. Hãy tham khảo ngay!

3. Phân tích hồi quy logistic trong SPSS

3.1. Các bước chạy hồi quy trên phần mềm SPSS

- Bước 1: Mở phần mềm SPSS và mở tập tin dữ liệu mà các bạn muốn phân tích.

  • Trước tiên, bạn vào biểu tượng Analyze => Regression => Binary Logistic để mở hộp thoại Binary Logistic Regression, màn hình sẽ xuất hiện hộp thoại sau:
Mở hộp thoại Binary Logistic Regression
Mở hộp thoại Binary Logistic Regression
  • Sau khi Click vào, bạn sẽ thấy xuất hiện hộp thoại hồi quy Logistic như hình bên dưới:
Giao diện Logistic Regression
Giao diện Logistic Regression

- Bước 2: Sắp xếp các biến

Các bạn chuyển biến phụ thuộc Heart Disease vào hộp thoại Dependent, và chuyển các biến độc lập như Age, Weight, Gender và VO2max vào hộp thoại Covariates.

Sắp xếp các biến
Sắp xếp các biến

- Bước 3: Mở hộp thoại Logistic Regression

Tiếp đến chọn thư mục Categorical, bạn sẽ thấy hộp thoại Logistic Regression: Define Categorical Variables như bảng hiển thị bên dưới:

Giao diện hộp thoại Define Categorical Variables
Giao diện hộp thoại Define Categorical Variables

- Bước 4: Chuyển các biến vào hộp thoại lệnh

Chọn biến độc lập independent variable trong ô Covariate(s) sang hộp thoại Categorical Covariates như bảng hiển thị dưới. Đây là các biến mà bạn muốn sử dụng để dự đoán biến phụ thuộc.

Chuyển biến độc lập sang ô Categorical Covariates
Chuyển biến độc lập sang ô Categorical Covariates

- Bước 5: Bấm chọn các thanh trạng thái

Trong mục Change Contrast, chuyển Reference Category từ Last sang First, sau đó nhấn nút Change như hướng dẫn bên dưới:

Chuyển Reference Category từ Last sang First
Chuyển Reference Category từ Last sang First

- Bước 6: Nhấn nút Continue, các bạn sẽ thấy quay lại hộp thoại Logistic Regression.

- Bước 7: Mở hộp thoại Logistic Regression

Tiếp theo nhấn nút Option… bạn sẽ thấy hiện ra hộp thoại Logistic Regression: Options như hình dưới:

Giao diện hộp thoại Logistic Regression: Options
Giao diện hộp thoại Logistic Regression: Options

- Bước 8: Chọn mục Statistics and Plots và tích các lựa chọn

  • Trong mục Statistics and Plots, ấn vào các lựa chọn Classification plots, Hosmer-Lemeshow goodness-of-fit, Casewise listing of residuals, và Outliers outside.
  • Tiếp đến tại mục Display, nhấn chọn At last step. Sau khi bấm vào các lựa chọn, màn hình của bạn sẽ hiện ra giống như bên dưới.
Tick chọn trong hộp thoại Logistic Regression: Options
Tick chọn trong hộp thoại Logistic Regression: Options

- Bước 9: Nhấn nút Continue, màn hình sẽ quay về hộp thoại Logistic Regression.

- Bước 10: Hoàn thành lệnh, nhấn nút OK để bắt đầu phân tích hồi quy logistic

- Sau khi phân tích hoàn tất, SPSS sẽ hiển thị kết quả phân tích hồi quy logistic trên màn hình. Kết quả này bao gồm các thông số như Intercept, Odds Ratio, Confidence interval, p-value, Hosmer and Lemeshow goodness-of-fit test, và Confusion matrix.

- Bạn có thể sử dụng các thông số này để đánh giá hiệu quả của mô hình hồi quy logistic của mình. Nếu mô hình có độ chính xác cao và các biến độc lập có giá trị Odds Ratio lớn và p-value nhỏ, thì mô hình của bạn có thể được coi là hiệu quả.

- Lưu ý rằng việc phân tích hồi quy logistic trong SPSS cần phải được thực hiện kết hợp với các kiến thức về thống kê và phân tích dữ liệu để đưa ra kết quả chính xác và có ý nghĩa.

3.2. Cách đọc bảng kết quả

Bảng kết quả minh họa
Bảng kết quả minh họa

- Khi chạy mô hình hồi quy logistic, có nhiều bảng được hiển thị, tùy thuộc vào phần mềm hay thư viện bạn sử dụng. Tuy nhiên, chúng ta có thể xác định các bảng chính cần quan tâm như sau:

  • Coefficients: Đây là bảng hiển thị các hệ số ước lượng cho từng biến độc lập trong mô hình. Bảng này cho biết mức độ ảnh hưởng của từng biến đến biến phụ thuộc, được đo bằng giá trị hệ số. Đọc kết quả từ bảng này, ta có thể biết được đâu là các biến quan trọng trong mô hình.
  • Wald test: Đây là bảng thể hiện giá trị Wald statistic, giá trị z-score, và giá trị p-value cho từng biến trong mô hình. Bảng này cho phép kiểm tra giả thuyết rằng các hệ số bằng không (null hypothesis) cho từng biến độc lập. Nếu giá trị p-value nhỏ hơn một ngưỡng xác định (thường là 0.05), ta có thể bác bỏ giả thuyết này và kết luận rằng biến đó ảnh hưởng đến biến phụ thuộc.
  • Confusion matrix: Đây là bảng tổng hợp kết quả phân loại của mô hình. Bảng này gồm các thông số True positive (TP), False positive (FP), False negative (FN), và True negative (TN). Các thông số này được sử dụng để tính toán các chỉ số đánh giá hiệu suất như Precision, Recall, F1-score, và Accuracy.
  • ROC curve và AUC: Đây là biểu đồ đường cong ROC và giá trị AUC. Biểu đồ ROC và AUC cho phép đánh giá hiệu suất phân loại của mô hình, dựa trên khả năng phân biệt giữa các lớp. Giá trị AUC thường nằm trong khoảng 0 đến 1, với giá trị càng gần 1 thì mô hình càng tốt.

- Để đọc kết quả từng bảng, bạn cần xem lại các định nghĩa của từng thông số trong mô hình hồi quy logistic. Thông thường, các phần mềm và thư viện sẽ cung cấp hướng dẫn cụ thể về cách đọc kết quả từng bảng. Nếu bạn gặp khó khăn trong việc đọc kết quả, bạn có thể tìm kiếm các tài liệu hướng dẫn hoặc tham khảo.

Trong phân tích số liệu spss, nếu bạn muốn đo lường mối quan hệ tuyến tính giữa hai biến ngẫu nhiên thì hiệp phương sai sẽ là phương pháp tối ưu cho bạn. Nếu bạn chưa biết hiệp phương sai  là gì, bài viết của Luận văn 1080 sẽ giúp bạn nắm rõ tất tần tật về hiệp phương sai trong phân tích dữ liệu. Hãy cùng chúng tôi xem ngay Cách tính Hiệp phương sai chi tiết và cụ thể nhất nhé!

4. Ứng dụng của hồi quy logistic

Ứng dụng của hồi quy logistic
Ứng dụng của hồi quy logistic

- Hồi quy logistic là một phương pháp mạnh mẽ để dự đoán kết quả phân loại trong nhiều lĩnh vực khác nhau. Dưới đây là một số ứng dụng của hồi quy logistic trong các bài toán thực tế:

  • Y học: Hồi quy logistic được sử dụng rộng rãi trong lĩnh vực y học để dự đoán xác suất mắc bệnh hoặc đáp ứng với một loại điều trị. Ví dụ, hồi quy logistic có thể được sử dụng để dự đoán xác suất mắc bệnh tiểu đường dựa trên các yếu tố như tuổi, chế độ ăn uống, lối sống và gia đình tiền sử.
  • Kinh tế học: Hồi quy logistic cũng được sử dụng trong lĩnh vực kinh tế học để dự đoán các sự kiện như rủi ro tín dụng hoặc khả năng trả nợ của một khách hàng.
  • Khoa học xã hội: Hồi quy logistic được sử dụng để phân tích và dự đoán các kết quả phân loại trong nhiều lĩnh vực khoa học xã hội như tâm lý học, xã hội học và giáo dục. Ví dụ, hồi quy logistic có thể được sử dụng để dự đoán xác suất một học sinh sẽ tốt nghiệp đại học dựa trên các yếu tố như thành tích học tập trước đây, điểm số kiểm tra và các yếu tố xã hội khác.
  • Marketing: Hồi quy logistic cũng có thể được sử dụng trong lĩnh vực marketing để dự đoán xác suất một khách hàng sẽ mua một sản phẩm hoặc dịch vụ dựa trên các yếu tố như độ tuổi, giới tính, thu nhập và các hoạt động mua sắm trước đây.
  • Các lĩnh vực khác: Hồi quy logistic cũng được sử dụng trong nhiều lĩnh vực khác như sinh học, môi trường học, khoa học vật liệu và công nghệ thông tin để dự đoán kết quả phân loại trong các bài toán thực tế.

5. Lưu ý khi sử dụng mô hình hồi quy logistic

Lưu ý khi sử dụng mô hình hồi quy logistic
Lưu ý khi sử dụng mô hình hồi quy logistic

Khi sử dụng hồi quy logistic, có một số lưu ý quan trọng mà bạn nên cân nhắc để đảm bảo rằng kết quả phân tích của bạn đáng tin cậy và có ý nghĩa.

  • Xác định rõ mục đích của mô hình hồi quy logistic: Trước khi bắt đầu phân tích, bạn cần phải xác định rõ mục đích của mô hình hồi quy logistic của mình. Điều này giúp bạn chọn được các biến độc lập thích hợp và đưa ra các giải pháp phù hợp cho vấn đề của mình.
  • Đảm bảo rằng các biến độc lập được chọn là độc lập tuyến tính: Để sử dụng hồi quy logistic, các biến độc lập phải được coi là độc lập tuyến tính. Nếu các biến độc lập không độc lập tuyến tính, kết quả của mô hình có thể không chính xác và khó giải thích.
  • Kiểm tra tính phân phối đối với các biến độc lập: Tính phân phối đối với các biến độc lập cũng là một yếu tố quan trọng khi sử dụng hồi quy logistic. Nếu một hoặc nhiều biến độc lập không được phân phối đều, điều này có thể ảnh hưởng đến kết quả của mô hình.
  • Sử dụng một số phương pháp kiểm định để kiểm tra mô hình: Khi sử dụng hồi quy logistic, bạn cần sử dụng các phương pháp kiểm định như Hosmer and Lemeshow goodness-of-fit test và Confusion matrix để kiểm tra tính phù hợp của mô hình. Điều này giúp bạn đánh giá độ chính xác của mô hình và đưa ra các điều chỉnh cần thiết.
  • Đảm bảo đủ mẫu: Để đạt được kết quả phân tích chính xác, bạn cần đảm bảo rằng mẫu của bạn đủ lớn và đại diện cho quần thể. Nếu mẫu quá nhỏ, điều này có thể ảnh hưởng đến độ chính xác của mô hình.
  • Cẩn trọng khi giải thích kết quả của mô hình: Khi giải thích kết quả của mô hình, bạn cần cẩn thận và tránh đưa ra những kết luận sai lầm hoặc chưa rõ. Bạn cần hiểu rõ ý nghĩa của các tham số trong mô hình và giải thích chúng một cách đầy đủ và chính xác. Nếu bạn không hiểu rõ kết quả của mô hình, hãy tìm hiểu thêm hoặc tìm sự giúp đỡ từ chuyên gia.
  • Cẩn thận khi giải thích mối quan hệ giữa biến phụ thuộc và biến độc lập: Khi giải thích mối quan hệ giữa biến phụ thuộc và biến độc lập, bạn cần lưu ý rằng mô hình hồi quy logistic chỉ cho ta biết mối quan hệ giữa biến độc lập và xác suất của biến phụ thuộc. Nó không cho ta biết về mối quan hệ nhân quả giữa hai biến. Do đó, bạn cần cẩn thận khi giải thích kết quả của mô hình.
  • Sử dụng kết quả của mô hình để đưa ra quyết định: Cuối cùng, khi sử dụng hồi quy logistic, bạn cần sử dụng kết quả của mô hình để đưa ra quyết định. Tuy nhiên, bạn cần cân nhắc các yếu tố khác ngoài kết quả của mô hình, bao gồm cả kiến thức chuyên môn và sự hiểu biết về vấn đề của bạn.

6. Phân biệt giữa hồi quy tuyến tính và hồi quy logistic

Phân biệt giữa hồi quy tuyến tính và hồi quy logistic

Nội dung so sánh

Hồi quy tuyến tính

Hồi quy logistic

Biến phụ thuộc

Liên tục

Rời rạc hoặc nhị phân

Hàm mục tiêu

Tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế

Tối thiểu hóa sai số giữa giá trị dự đoán và giá trị thực tế, sử dụng hàm logistic để chuyển đổi đầu vào thành giá trị rời rạc hoặc nhị phân

Hàm mất mát

Bình phương sai số (Mean Squared Error)

Cross-entropy loss

Điểm mạnh

Dễ hiểu và đơn giản

Phù hợp với dữ liệu có biến phụ thuộc rời rạc hoặc nhị phân

Điểm yếu

Không phù hợp với dữ liệu có biến phụ thuộc rời rạc hoặc nhị phân

Khó hiểu với người không có kiến thức chuyên môn

Trên đây là các điểm phân biệt giữa hồi quy tuyến tính và hồi quy logistic, mỗi phương pháp có ưu nhược điểm riêng và phù hợp với các loại dữ liệu khác nhau.Các bạn còn gặp khó khăn trong việc chạy stata như số liệu kết quả cho ra xấu, không phù hợp, chưa có đủ kinh nghiệm xử lý số liệu, còn hạn chế về thời gian…Luận văn 1080 dịch vụ chạy spss thuê đạt kết quả cao, đảm bảo theo yêu cầu của khách hàng với giá cả hợp lý, phải chăng. Hãy liên hệ chúng tôi ngay!

Như vậy, bài viết trên đã chia sẻ lý thuyết, các thành phần, ứng dụng cũng như hướng dẫn chi tiết, đầy đủ cách chạy và đọc kết quả của hồi quy logistic mới nhất. Hy vọng sẽ giúp thêm kinh nghiệm phân tích hồi quy cho các bạn. Chúc các bạn thành công khi phân tích!

Nguyễn Tuyết Anh Tôi là Nguyễn Tuyết Anh - Job title: Trưởng phòng nội dung - Company: Luanvan1080 Group. Kể từ khi còn bé tôi đã rất yêu thích sách vở, nên khi lớn lên tôi quyết định tâm làm nên những nội dung thật hay thật ý nghĩa. Luận văn 1080 có thâm niên hoạt động hơn 10 năm với đội ngũ chuyên gia giàu kinh nghiệm, trình độ chuyên môn cao cùng tinh thần làm việc trách nhiệm. Mọi thông tin cần tư vấn vui lòng liên hệ Website: luanvan1080.com/ - Hotline: 096.999.1080 Bạn hãy tham khảo website https://luanvan1080.com/ để rõ hơn công việc của tôi nhé !
Bình luận đánh giá
Đánh giá

Zalo: 096.999.1080