2. Trên mỗi lần lặp của thuật toán, nó sẽ lặp qua thuộc tính của tập S và tính toán entropy (H) và Độ lợi thông tin (IG) của thuộc tính này.
3. Sau đó, nó chọn thuộc tính có mức tăng entropy nhỏ nhất hoặc thông tin lớn nhất.
4. Sau khi chọn được thuộc tính ở một nút, một vài ngưỡng được sinh ra ngẫu nhiên và mỗi ngưỡng được tính toán mức độ làm giảm entropy. Ngưỡng ứng với khả năng làm giảm entropy cao nhất sẽ được chọn làm ngưỡng chia nhị phân cho nút đó.
5. Tập hợp S sau đó được chia theo thuộc tính đã chọn, tại ngưỡng đã chọn để tạo ra một tập hợp con của dữ liệu.
6. Thuật toán tiếp tục lặp lại trên mỗi tập hợp con, chỉ xem xét các thuộc tính chưa từng được chọn trước đó.
Điều kiện dừng: Khi cây quyết định đạt đủ số nút tối đa, hoặc chia đến độ sâu tối đa định nghĩa trước. Độ sâu tối đa ở đây chính là số lượng tối đa các câu hỏi phân ngưỡng khi đi từ nút gốc tới nút lá. Chúng ta khai báo độ sâu thông qua đối số max_depth.
» Tin mới nhất:
» Các tin khác: