Đa cộng tuyến (Multicollinearity) trong mô hình hồi qui là gì? Hậu quả
Mục Lục
Hiện tượng đa cộng tuyến
Đa cộng tuyến trong tiếng Anh là Multicollinearity.
Đa cộng tuyến là hiện tượng các biến độc lập trong mô hình hồi qui phụ thuộc tuyến tính lẫn nhau, thể hiện dưới dạng hàm số (vi phạm giả định 5 của mô hình hồi qui tuyến tính).
Hậu quả của đa cộng tuyến
Mặc dù sự hiện diện của đa cộng tuyến không ảnh hưởng đến tính nhất quán của các ước tính OLS của các hệ số hồi qui. Tuy nhiên, các ước tính sẽ trở nên không chính xác và không đáng tin cậy.
Hơn nữa, thực tế không thể phân biệt các tác động riêng lẻ của các biến độc lập lên biến phụ thuộc. Hậu quả là sai số chuẩn của tham số hồi qui tăng cao. Từ đó dẫn đến t-tests trên các hệ số có ít khả năng bác bỏ giả thuyết không.
Trong đó, OLS (Ordinary least squares) là phương pháp bình phương nhỏ nhất. Đây là một phương pháp ước tính dựa trên tiêu chí tối thiểu hóa tổng phần dư bình phương của hồi qui.
Phát hiện đa cộng tuyến
Dấu hiệu nổi bật của đa cộng tuyến là hệ số xác định R2 cao mặc dù t-statistics về các hệ số của độ dốc ước tính không đáng kể, thể hiện sai số chuẩn tăng cao. Mặc dù các hệ số có thể được ước tính thiếu chính xác, nhưng các biến độc lập có vai trò giải thích biến phụ thuộc, điều này thể hiện thông qua việc R2 cao.
Xét ví dụ minh họa: Đa cộng tuyến trong việc giải thích về lợi nhuận của cổ phiếu công nghệ Fidelity Select Technology Portfolio (FSPTX).
Dưới đây là kết quả của phương trình hồi qui của lợi nhuận cổ phiếu này dựa trên chỉ số tăng trưởng của S&P 500 và chỉ số giá trị của S&P 500.
Giá trị t-statistic bằng 5.9286 của chỉ số tăng trưởng (lớn hơn 2) cho thấy sự tăng trưởng có khác biệt đáng kể so với mức độ tiêu chuẩn (có giá trị là 0). Mặt khác, t-statistic của chỉ số giá trị là −0.9012 không có ý nghĩa thống kê.
Kết quả này cho thấy lợi nhuận của FSPTX có mối liên quan với chỉ số tăng trưởng và không liên quan chặt chẽ với chỉ số giá trị. Tuy nhiên, hệ số (coefficient) của chỉ số tăng trưởng là 1.4697 thể hiện rằng lợi nhuận của FSPTX có nhiều biến động hơn so với lợi nhuận của chỉ số tăng trưởng.
Lưu ý rằng hồi qui này giải thích phương sai của lợi nhuận FSPTX. Cụ thể, R2 của hồi qui này là 0,7996. Do đó, khoảng 80% phương sai của lợi nhuận của FSPTX được giải thích bằng lợi nhuận chỉ số tăng trưởng và chỉ số giá trị S&P 500. Giả sử, chúng ta chạy mô hình hồi qui tuyến tính khác có thêm chỉ số S&P 500. Dưới đây là kết quả của mô hình:
Lưu ý rằng R2 trong hồi qui này đã thay đổi không đáng kể so với R2 trong hồi qui trước đó (tăng từ 0,7996 lên 0,8084), nhưng sai số chuẩn của các hệ số của các biến độc lập đã lớn hơn nhiều.
Việc thêm chỉ sô S&P 500 vào mô hình hồi qui không giải thích thêm bất kì phương sai của lợi nhuận của FSPTX so với trước đó, nhưng không có hệ số nào có ý nghĩa thống kê. Đây là trường hợp kinh điển của đa hiện tượng đa cộng tuyếnKhắc phục hiện tượng đa cộng tuyến.
Cách khắc phục hiện tượng đa cộng tuyến
Giải pháp trực tiếp nhất cho đa cộng tuyến là loại trừ một hoặc nhiều biến hồi qui.
Trong ví dụ trên, chúng ta có thể thấy rằng không nên cho chỉ số S&P 500 nếu trong mô hình hồi qui bao gồm cả hai chỉ số tăng trưởng và giá trị S&P 500, vì lợi nhuận chỉ số S&P 500 là bình quân gia quyền của tăng trưởng cổ phiếu và giá trị cổ phiếu.
Tuy nhiên, trong nhiều trường hợp, không dễ dàng để có giải pháp cho hiện tượng đa cộng tuyến, chúng ta cần thử nghiệm thêm hoặc loại trừ các biến độc lập khác nhau để xác định nguồn gốc của đa cộng tuyến.
(Tài liệu tham khảo: CFA level II, 2020, Quantitative methods)