Mục đích của tác tử là cực đại hoá các mục tiêu được tích luỹ trong tương lai.
Hàm phản hồi R(t) được biểu diễn dưới dạng hàm số đối với các mục tiêu. Trong
các bài toán quyết định Markov, hàm phản hồi sử dụng biểu thức dạng tổng. Các
nhà nghiên cứu đã tìm ra ba biểu diễn thường được sử dụng của hàm phản hồi:
Trong các bài toán số bước hữu hạn
Với những bài toán này ta có một số hữu hạn các bước trong tương lai. Sẽ tồn
tại một trạng thái kết thúc và một chuỗi các hành động giữa trạng thái đầu tiên và
trạng thái kết thúc được gọi là một giai đoạn.
Trong các bài toán số bước vô hạn
Với những bài toán này ta có chuỗi các hành động là vô hạn. Một hệ số suy
giảm γ, 0≤γ≤1 được đưa ra và hàm phản hồi được biểu diễn dưới dạng tổng của
các giá trị mục tiêu giảm dần.
Hệ số γ cho phép xác định mức độ ảnh hưởng của những bước chuyển trạng
thái tiếp theo đến giá trị phản hồi tại thời điểm đang xét. Giá trị của γ cho phép
điều chỉnh giai đoạn tác tử lấy các hàm tăng cường. Nếu γ = 0, thì tác tử chỉ xem
xét mục tiêu gần nhất, giá trị γ càng gần với 1 thì tác tử sẽ quan tâm đến các mục
tiêu xa hơn trong tương lai.