Trong bài toán quyết định Markov, tác tử ra quyết định do một tín hiệu từ môi trường gọi là trạng thái của môi trường. Ta định nghĩa thuộc tính môi trường và các tín hiệu trạng thái của chúng là thuộc tính Markov.
Trạng thái được hiểu là bất cứ thông tin gì có ích với tác tử, giả thiết trạng thái được đưa ra bởi một số hệ thống tiền xử lý của môi trường. Để đơn giản biểu thức toán học, chúng ta giả sử tập các trạng thái và các mục tiêu là hữu hạn. Quan sát cách thức một môi trường tổng quát có thể đáp ứng tại thời điểm t+1 đối với hành động được thực hiện tại thời điểm t. Trong hầu hết các trường hợp, nguyên nhân của sự đáp ứng này có thể phụ thuộc vào mọi thứ đã xảy ra trước đó.
Nếu tín hiệu trạng thái có thuộc tính Markov thì đáp ứng của môi trường tại thời điểm t+1 chỉ phụ thuộc vào trạng thái và hành động tại thời điểm t, trong trường hợp này, biến động của môi trường được thể hiện qua hàm:
Nếu một môi trường có thuộc tính Markov thì biến động tại mỗi bước của nó sẽ cho phép dự đoán trạng thái và mục tiêu kỳ vọng tiếp theo được đưa ra từ trạng thái và hành động hiện tại. Bằng cách lặp phương trình này, chúng ta có thể dự đoán tất cả các trạng thái và mục tiêu kỳ vọng trong tương lai mà chỉ với kiến thức từ trạng thái hiện tại trong thời điểm hiện tại. Các trạng thái Markov cung cấp khả năng tốt nhất cho việc lựa chọn hành động, khi đó chính sách tốt nhất cho việc lựa chọn hành động sẽ là hàm của một trạng thái Markov.
Nhiều trường hợp trong RL khi tín hiệu trạng thái không có thuộc tính Markov, chúng ta cũng sẽ xấp xỉ trạng thái này thành trạng thái Markov vì chúng ta luôn mong muốn trạng thái là tốt để dự đoán hàm mục tiêu cũng như việc lựa chọn hành động trong tương lai. Với tất cả những lý do đó, cách tốt nhất là xem trạng thái tại mỗi bước thời gian như là một xấp xỉ của trạng thái Markov.
Thuộc tính Markov là rất quan trọng trong các bài toán quyết định Markov vì các quyết định và các giá trị được giả thiết chỉ là hàm phụ thuộc vào trạng thái hiện tại. Giả thiết này không có nghĩa là áp dụng hoàn toàn cho mọi tình huống RL kể cả những tình huống không thoả mãn Markov. Tuy nhiên lý thuyết phát triển cho các thuộc tính Markov vẫn giúp chúng ta có thể hiểu được hành vi của các giải thuật RL và các giải thuật thì vẫn có thể áp dụng thành công cho mọi nhiệm vụ với các trạng thái không thoả mãn Markov. Kiến thức về lý thuyết Markov là cơ sở nền tảng để mở rộng trong những trường hợp phức tạp hơn kể cả những trường hợp không thoả mãn thuộc tính Markov.
Với giả thiết như vậy, tương tác giữa tác tử và môi trường có thể được mô hình dưới dạng bài toán quyết định Markov. Việc tìm kiếm sách lược điều khiển tối ưu trong các bài toán quyết định Markov tương ứng với những tiêu chí tối ưu khác nhau dẫn tới việc xây dựng các phương trình tối ưu Bellman và các thuật toán quy hoạch động. Thông thường, phương pháp quy hoạch động dùng để giải các phương trình tối ưu Bellman khi biết các thuộc tính thống kê của môi trường. Khác với quy hoạch động, phương pháp RL tìm kiếm trực tiếp các chính sách quyết định tối ưu từ các giá trị phản hồi thu nhận được trong các quá trình tương tác với môi trường và trạng thái của môi trường.
» Tin mới nhất:
» Các tin khác: