Cây phân loại và hồi qui (Classification and Regression Tree - CART) là gì?
Mục Lục
Cây phân loại và hồi qui
Cây phân loại và hồi qui trong tiếng Anh là Classification and Regression Tree, viết tắt: CART.
Cây phân loại và hồi qui (CART) là một kĩ thuật học máy có giám sát phổ biến được áp dụng để dự đoán biến mục tiêu định tính (categorical target variable), tạo cây phân loại hoặc biến mục tiêu liên tục (continuous target variable), tạo ra cây hồi qui.
Cây quyết định
Việc phân loại của CART đòi hỏi một cây nhị phân: sự kết hợp của một nút gốc ban đầu, các nút quyết định và các nút cuối. Nút gốc và mỗi nút quyết định đại diện cho một đặc tính và giá trị ngưỡng của đặc tính đó.
Xét trường hợp mô hình đơn giản hóa để phân loại các công ty liệu có tăng cổ tức cho cổ đông hay không.
Trong Hình 1, nút gốc ban đầu đại diện cho tốc độ tăng trưởng của các cơ hội đầu tư (IOG), có giá trị là X1, với giá trị ngưỡng là 10%.
Từ nút gốc ban đầu, dữ liệu được phân vùng tại các nút quyết định thành các nhóm nhỏ hơn và nhỏ hơn cho đến khi các nút cuối được hình thành có chứa các nhãn dự đoán. Các nhãn dự đoán là tăng cổ tức (dấu cộng) hoặc không tăng cổ tức (dấu trừ).
Nếu giá trị của đặc tính IOG (X1) > 10% (Có), thì chúng ta tiến hành nút quyết định tăng trưởng dòng tiền tự do (FCFG), có giá trị là X2, giá trị ngưỡng 20%.
- Nếu giá trị của FCFG ≤ 20% (Không), thì CART sẽ dự đoán rằng điểm dữ liệu thuộc về loại không tăng cổ tức (dấu trừ), đại diện cho nút cuối cùng.
- Ngược lại, nếu giá trị của X2 > 20% (Có), thì CART sẽ dự đoán rằng điểm dữ liệu thuộc loại tăng cổ tức (dấu cộng), đại diện cho một nút cuối khác.
Điều quan trọng cần lưu ý là tính năng tương tự có thể xuất hiện nhiều lần trong một cây khi kết hợp với các tính năng khác.
Hơn nữa, một số tính năng chỉ liên quan khi các điều kiện khác đã được đáp ứng. Ví dụ: quay trở lại nút gốc ban đầu, nếu IOG ≤ 10% (X1 ≤ 10%) và FCFG > 10%, thì IOG xuất hiện lại dưới dạng nút quyết định khác có giá trị ngưỡng là 5%.
Quá trình thuật toán CART đưa ra dự đoán
- Ban đầu, mô hình phân loại được huấn luyện từ dữ liệu được dán nhãn.
Trong hình 2, dữ liệu được dán nhãn là: 10 công ty có mức tăng cổ tức (dấu cộng) và 10 công ty không tăng cổ tức (dấu trừ).
Trong hình 2, tại nút gốc ban đầu và tại mỗi nút quyết định, không gian của đặc tính (mặt phẳng được xác định bởi X1 và X2) được chia thành hai hình chữ nhật cho các giá trị trên và dưới giá trị ngưỡng của đặc tính đại diện tại nút đó.
- Thuật toán CART chọn đặc tính và giá trị ngưỡng tại mỗi nút tạo ra sự phân tách rộng nhất của dữ liệu được gắn nhãn để giảm thiểu lỗi phân loại.
Sau mỗi nút quyết định, phân vùng không gian của đặc tính trở nên nhỏ hơn và nhỏ hơn. Do đó, các quan sát trong mỗi nhóm sẽ có lỗi thấp hơn. Ở bất kì cấp độ nào của cây, khi lỗi phân loại không giảm nhiều hơn từ một phân chia khác (phân nhánh), quá trình dừng lại, nút đó là nút cuối.
+ Nếu mục đích của thuật toán là phân loại thì dự đoán của thuật toán tại nút cuối sẽ là phân loại chiếm đa số tại nút đó được gán cho nó.
Ví dụ, trong hình 2, hình chữ nhật trên cùng bên phải đại diện cho IOG (X1) > 10% và FCFG (X2) > 20%, chứa 5 điểm là dấu cộng. Nếu điểm dữ liệu mới thuộc vùng này, CART sẽ dự đoán rằng nó thuộc loại dấu cộng (tăng cổ tức).
Tuy nhiên, nếu điểm dữ liệu mới có IOG (X1) > 10% và FCFG (X2) ≤ 20% thì nó sẽ được dự đoán thuộc về dấu trừ (không tăng cổ tức), được biểu thị bằng hình chữ nhật bên phải phía dưới với 2 dấu cộng nhưng có 3 dấu trừ.
+ Nếu mục tiêu của thuật toán là hồi qui, thì dự đoán tại cuối là giá trị trung bình của các giá trị được gắn nhãn.
Ứng dụng của CART trong lĩnh vực tài chính
CART là một mô hình học máy có giám sát phổ biến vì cây đưa ra giải thích trực quan cho dự đoán.
Các ứng dụng điển hình của CART trong quản lí đầu tư bao gồm: tăng cường phát hiện gian lận trong báo cáo tài chính, tạo ra các qui trình quyết định nhất quán trong lựa chọn vốn chủ sở hữu và thu nhập cố định và đơn giản hóa việc truyền đạt chiến lược đầu tư cho khách hàng.
(Tài liệu tham khảo: CFA level II, 2020, Quantitative methods)