17/06/2019 11:10:32 PM

Bài viết sưu tầm

Các phần tử của bài toán quyết định Markov

Dựa vào tác tử và môi trường, chúng ta có thể định nghĩa 4 phần tử con của

một bài toán quyết định Markov: chiến lược (policy), hàm phản hồi (reward

function), hàm giá trị (value function), và không bắt buộc, một mô hình về môi

trường.

Chiến lược định nghĩa cách thức tác tử học từ hành động tại thời điểm đưa ra.

Chiến lược là một ánh xạ từ tập các trạng thái của môi trường đến tập các hành

động được thực hiện khi môi trường ở trong các trạng thái đó. Nó tương ứng với

tập các luật nhân quả trong lĩnh vực tâm lí học. Trong một số trường hợp, chiến

lược có thể là một hàm đơn giản hoặc một bảng tra cứu, trong những trường hợp

khác, nó có thể liên quan đến các tính toán mở rộng ví dụ như một tiến trình tìm

kiếm. Chiến lược là nhân của một tác tử với nhận thức rằng một mình nó đủ

quyết định hành động.

Hàm phản hồi định nghĩa mục tiêu trong bài toán quyết định Markov. Nó ánh

xạ mỗi trạng thái quan sát được (hoặc một cặp hành động-trạng thái) của môi

trường với một giá trị phản hồi để chỉ ra mong muốn thực chất về trạng thái đó.

Mục đích duy nhất của tác tử là cực đại hoá tổng giá trị phản hồi nó nhận được

trong suốt thời gian chạy. Hàm phản hồi định nghĩa sự kiện nào là tốt hay xấu

cho tác tử. Trong một hệ thống thuộc lĩnh vực sinh vật học, không phù hợp để

định nghĩa các giá trị phản hồi với niềm vui và sự đau đớn. Chúng là các đặc tính

tức thì và được định nghĩa là các vấn đề mà tác tử cần đối mặt. Như thế, hàm

phản hồi cần phải có khả năng thay đổi bởi tác tử. Tuy nhiên, nó có thể phục vụ

dưới dạng một yếu tố cơ bản để thay đổi chiến lược. Ví dụ, nếu hành động lựa

chọn bởi chiến lược được theo sau bởi một hàm phản hồi thấp, thì chiến lược có

thể được thay đổi để lựa chọn hành động khác thay thế trong tương lai.

» Tin mới nhất:

Việc làm liên quan đến web (18/05/2025)
Công cụ trong Python (17/05/2025)
Dùng hàm AverageIF để tính trung bình công theo một điều kiện cho trước (17/05/2025)
Xử lý Chuỗi trong Xử lý Ngôn ngữ Tự Nhiên (NLP): Từ Văn Bản Thô đến Hiểu Biết Ngữ Nghĩa (17/05/2025)
Làm thế nào để tạo một script Python để quét mạng (17/05/2025)

» Các tin khác:

ASA#5_Cau hinh Zone-Based cơ bản - Phần 2 (17/06/2019)
ASA#5_Cau hinh Zone-Based cơ bản - Phần 1 (17/06/2019)
Phương pháp tìm kiếm nhị phân mở rộng (17/06/2019)
Phương pháp tìm kiếm nhị phân (17/06/2019)
Kỹ thuật lập trình CGI trong Python (tt) (17/06/2019)
Kỹ thuật lập trình CGI trong Python (17/06/2019)
Lệnh xem lịch trong LINUX. (17/06/2019)
Lệnh Man trong LINUX. (17/06/2019)
Các tính năng bao hàm trong đăng ký sử dụng DB2 Express-C (08/06/2019)
Một số phần mềm miễn phí của DB2 Express-C (08/06/2019)

Hôm nay, ngày

24/05/2025

Tuần học:

Sinh viên tiêu biểu

video

Số lượt truy cập: 9938339