17/12/2019 09:45:34 PM

Bài viết sưu tầm

Hàm phản hồi trong học tăng cường

Mục đích của tác tử là cực đại hoá các mục tiêu được tích luỹ trong tương lai.

Hàm phản hồi R(t) được biểu diễn dưới dạng hàm số đối với các mục tiêu. Trong

các bài toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng. Các

nhà nghiên cứu đã tìm ra ba biểu diễn thường được sử dụng của hàm phản hồi:

Trong các bài toán số bước hữu hạn

Với những bài toán này ta có một số hữu hạn các bước trong tương lai. Sẽ tồn

tại một trạng thái kết thúc và một chuỗi các hành động giữa trạng thái đầu tiên và

trạng thái kết thúc được gọi là một giai đoạn.

Trong các bài toán số bước vô hạn

Với những bài toán này ta có chuỗi các hành động là vô hạn. Một hệ số suy

giảm γ, 0≤γ≤1 được đưa ra và hàm phản hồi được biểu diễn dưới dạng tổng của

các giá trị mục tiêu giảm dần.

Hệ số γ cho phép xác định mức độ ảnh hưởng của những bước chuyển trạng

thái tiếp theo đến giá trị phản hồi tại thời điểm đang xét. Giá trị của γ cho phép

điều chỉnh giai đoạn tác tử lấy các hàm tăng cường. Nếu γ = 0, thì tác tử chỉ xem

xét mục tiêu gần nhất, giá trị γ càng gần với 1 thì tác tử sẽ quan tâm đến các mục

tiêu xa hơn trong tương lai.

» Tin mới nhất:

Chủ đề: OSCP - Client-side Attacks (18/03/2026)
Dictionary trong Python (17/03/2026)
GlassWorm tấn công chuỗi cung ứng: Chiếm GitHub, cấy mã độc Python (17/03/2026)
Thuật toán QMIX trong Multi-Agent Reinforcement Learning và ứng dụng điều khiển giao thông (17/03/2026)
Ứng dụng Hồi quy tuyến tính trong dự báo (17/03/2026)

» Các tin khác:

Chiến lược lựa chọn hành động softmax trong học tăng cường (17/12/2019)
Toán tử đột biến (17/12/2019)
Quy trình kiểm thử đột biến (17/12/2019)
Các kịch bản SQL trong DB2 (27/11/2019)
Trình trợ giúp SQL và hiển thị nút Show SQL trong DB2 (27/11/2019)
LAB cơ bản về SSL VPN (18/11/2019)
LAB cơ bản về giao thức định tuyến RIP (18/11/2019)
JTable (tt) (18/11/2019)
JTable (18/11/2019)
Thuật giải trên logic vị từ (18/11/2019)

Hôm nay, ngày

24/03/2026

Tuần học:

Sinh viên tiêu biểu

video

Số lượt truy cập: 11226610