Không giống như DP, phương pháp MC không yêu cầu kiến thức đầy đủ về môi trường. Nó đòi hỏi kinh nghiệm là các chuỗi mẫu của các trạng thái, hành động, và phần thưởng từ tương tác thực tế hoặc mô phỏng với môi trường. Không giống như DP, nó không yêu cầu ma trận chuyển đổi như mô hình. Nó nắm bắt những kinh nghiệm thực tế và cố gắng để mô hình hóa môi trường. Mỗi tập dữ liệu thực trong một nhánh từ cây trạng thái - hành động sau đây.
Các phương pháp của MC học trực tiếp từ những tập kinh nghiệm. Nó học từ các tập hoàn chỉnh, không yêu cầu bootstrapping vì nó sẽ lấy các giá trị của mỗi trạng thái thu được.
Các phương pháp MC là những cách để giải quyết bài toán RL dựa trên giá trị phản hồi mẫu trung bình. Để đảm bảo rằng các kết quả xác định rõ ràng là sẵn có, chúng ta xác định các phương pháp MC chỉ cho các nhiệm vụ theo từng tập. Nghĩa là, chúng ta giả sử rằng trải nghiệm được chia thành các tập và tất cả các tập cuối cùng sẽ chấm dứt bất kể hành động nào được chọn. Điều này chỉ hoàn thành cho một tập khi ước tính về giá trị và chính sách đã được thay đổi.
Có hai kiểu phương pháp MC được áp dụng để ước lượng giá trị trạng thái vπ(s) và giá trị hành động qπ(s, a) đó là phương pháp MC kiểm tra toàn bộ và phương pháp MC kiểm tra đầu tiên.
Phương pháp MC kiểm tra toàn bộ ước lượng giá trị trạng tháivπ(s) bằng trung bình các giá trị phản hồi sau tất cả các bước kiểm tra đối với s, giá trị hành động qπ(s, a) được ước lượng là trung bình các giá trị phản hồi sau tất cả các bước kiểm tra đối với cặp trạng thái – hành động (s,a).
Phương pháp MC kiểm tra đầu tiên tính trung bình chỉ giá trị phản hồi sau bước kiểm tra đầu tiên trong phép ước lượng vπ(s) và qπ(s, a).
Cả hai phương pháp này đều hội tụ đến vπ(s) và qπ(s, a) như là số các bước thăm đến s hoặc cặp (s,a).
Không giống như DP, phương pháp MC không yêu cầu kiến thức đầy đủ về môi trường. Nó đòi hỏi kinh nghiệm là các chuỗi mẫu của các trạng thái, hành động, và phần thưởng từ tương tác thực tế hoặc mô phỏng với môi trường. Không giống như DP, nó không yêu cầu ma trận chuyển đổi như mô hình. Nó nắm bắt những kinh nghiệm thực tế và cố gắng để mô hình hóa môi trường. Mỗi tập dữ liệu thực trong một nhánh từ cây trạng thái - hành động sau đây.
Các phương pháp của MC học trực tiếp từ những tập kinh nghiệm. Nó học từ các tập hoàn chỉnh, không yêu cầu bootstrapping vì nó sẽ lấy các giá trị của mỗi trạng thái thu được.
Các phương pháp MC là những cách để giải quyết bài toán RL dựa trên giá trị phản hồi mẫu trung bình. Để đảm bảo rằng các kết quả xác định rõ ràng là sẵn có, chúng ta xác định các phương pháp MC chỉ cho các nhiệm vụ theo từng tập. Nghĩa là, chúng ta giả sử rằng trải nghiệm được chia thành các tập và tất cả các tập cuối cùng sẽ chấm dứt bất kể hành động nào được chọn. Điều này chỉ hoàn thành cho một tập khi ước tính về giá trị và chính sách đã được thay đổi.
Có hai kiểu phương pháp MC được áp dụng để ước lượng giá trị trạng thái vπ(s) và giá trị hành động qπ(s, a) đó là phương pháp MC kiểm tra toàn bộ và phương pháp MC kiểm tra đầu tiên.
Phương pháp MC kiểm tra toàn bộ ước lượng giá trị trạng tháivπ(s) bằng trung bình các giá trị phản hồi sau tất cả các bước kiểm tra đối với s, giá trị hành động qπ(s, a) được ước lượng là trung bình các giá trị phản hồi sau tất cả các bước kiểm tra đối với cặp trạng thái – hành động (s,a).
Phương pháp MC kiểm tra đầu tiên tính trung bình chỉ giá trị phản hồi sau bước kiểm tra đầu tiên trong phép ước lượng vπ(s) và qπ(s, a).
Cả hai phương pháp này đều hội tụ đến vπ(s) và qπ(s, a) như là số các bước thăm đến s hoặc cặp (s,a).
» Tin mới nhất:
» Các tin khác: