Phương pháp này thực hiện học theo mô hình và sử dụng nó để quyết định chính sách tối ưu. Tác tử ước lượng mô hình từ các quan sát về cả khả năng chuyển đổi trạng thái và hàm tăng cường. Sau đó sẽ sử dụng mô hình ước lượng này như là mô hình thực tế để tìm ra chính sách tối ưu.
Một cách cụ thể, tác tử tiến hành lập kế hoạch và biên dịch kết quả sang một tập các phản hồi nhanh hoặc các luật tình huống – phản hồi, sau đó sẽ được sử dụng trong quyết định thời gian thực. Cách tiếp cận này tuy nhiên bị giới hạn sự phụ thuộc của nó vào một mô hình hoàn thiện về môi trường.
Phương pháp này tìm thấy chính sách tối ưu mà không phải học theo mô hình. Tác tử học các giá trị hành động mà không có mô hình về môi trường được mô tả bởi và . Trong phương pháp này tác tử tương tác trực tiếp với môi trường và biên dịch thông tin nó thu thập được thành một cấu trúc phản hồi mà không học từ mô hình. Trong phương pháp này, các bước chuyển đổi trạng thái và các giá trị phản hồi tác tử quan sát thay thế cho mô hình môi trường.
Một trong những khó khăn lớn nhất gặp phải đó là làm cách nào để tính toán được mối liên kết giữa hành động hiện tại và các hệ quả trong tương lai. Để giải quyết khó khăn này có hai cách tiếp cận: thứ nhất là đợi đến khi kết thúc và thực hiện thưởng/phạt mọi hành động được thực hiện trong quá khứ, dựa trên kết quả cuối cùng. Trong đó phương pháp MC là một ví dụ. Vấn đề hạn chế trong cách tiếp cận này đã được Kaelbling và các cộng sự chỉ ra vào năm 1996, đó là khó khăn trong việc nhận biết khi nào kết thúc trong chuỗi liên tiếp các sự việc đang xảy ra. Thậm chí nếu biết được nó thì cũng yêu cầu một lượng lớn về bộ nhớ.
Cách tiếp cận khác là phương pháp Temporal-Difference (TD) được đưa ra bởi Sutton vào năm 1988. Trong phương pháp này, một mạng đặc biệt được điều chỉnh để học kết hợp các giá trị tăng cường cục bộ với các trạng thái tức thì giữa hành động và giá trị tăng cường bên ngoài. Ý tưởng quan trọng của phương pháp này là giá trị tăng cường cục bộ của một trạng thái tức thì hồi quy về giá trị tăng cường thành công.
Sau đây chúng ta sẽ đi tìm hiểu một số giải thuật RL điển hình với những đặc điểm riêng, bao gồm phương pháp quy hoạch động, phương pháp MC và phương pháp TD. Với phương pháp quy hoạch động, nó đòi hỏi một mô hình hoàn hảo về môi trường, điều này không phù hợp trong những tình huống học của robot trong thực tế nên thường được dùng trong lý thuyết trò chơi, toán học, … Phương pháp MC không đòi hỏi mô hình về môi trường và không cần có cơ chế tự cập nhật mà bắt đầu từ việc thăm dò. Phương pháp TD cũng không đòi hỏi mô hình môi trường nhưng có cơ chế tự mồi nghĩa là chính sách sẽ được cập nhật tại mỗi bước thời gian thay vì mỗi giai đoạn.
» Tin mới nhất:
» Các tin khác: