Thứ nhất, chúng có thể được sử dụng để học hành vi tối ưu trực tiếp từ sự tương tác với môi trường, dù không có mô hình động về môi trường.
Thứ hai, chúng có thể được sử dụng với các mô hình mô phỏng hoặc mẫu. Đối với nhiều ứng dụng, rất dễ để mô phỏng các giai đoạn mẫu mặc dù rất khó để xây dựng mô hình rõ ràng về xác suất chuyển đổi theo yêu cầu của phương pháp DP.
Thứ ba, nó rất dễ và hiệu quả để phương pháp MC tập trung vào một tập con nhỏ của trạng thái. Một khu vực quan tâm đặc biệt có thể được đánh giá chính xác mà không phải tốn chi phí để đánh giá chính xác phần còn lại của trạng thái.
Lợi thế thứ tư của phương pháp MC là chúng có thể ít bị tổn hại hơn do vi phạm thuộc tính Markov. Điều này là bởi vì nó không cập nhật ước tính giá trị trên cơ sở ước tính giá trị của các trạng thái kế thừa.
Các phương pháp MC cung cấp một quy trình đánh giá chính sách luân phiên. Thay vì sử dụng một mô hình để tính giá trị của mỗi trạng thái, chúng chỉ đơn giản là trung bình nhiều kết quả trả về bắt đầu trong trạng thái. Bởi vì giá trị của một trạng thái là giá trị kỳ vọng, mức trung bình này có thể trở thành một xấp xỉ tốt cho giá trị. Trong các phương pháp điều khiển, chúng ta đặc biệt quan tâm đến việc ước lượng các giá trị hành động vì chúng có thể được sử dụng để cải thiện chính sách mà không yêu cầu mô hình chuyển đổi của môi trường. Các phương pháp MC trộn lẫn các bước đánh giá chính sách và cải thiện chính sách theo từng phần, và được thực hiện từng bước theo từng phần.
» Các tin khác: