Dựa vào tác tử và môi trường, chúng ta có thể định nghĩa 4 phần tử con của
một bài toán quyết định Markov: chiến lược (policy), hàm phản hồi (reward
function), hàm giá trị (value function), và không bắt buộc, một mô hình về môi
trường.
Chiến lược định nghĩa cách thức tác tử học từ hành động tại thời điểm đưa ra.
Chiến lược là một ánh xạ từ tập các trạng thái của môi trường đến tập các hành
động được thực hiện khi môi trường ở trong các trạng thái đó. Nó tương ứng với
tập các luật nhân quả trong lĩnh vực tâm lí học. Trong một số trường hợp, chiến
lược có thể là một hàm đơn giản hoặc một bảng tra cứu, trong những trường hợp
khác, nó có thể liên quan đến các tính toán mở rộng ví dụ như một tiến trình tìm
kiếm. Chiến lược là nhân của một tác tử với nhận thức rằng một mình nó đủ
quyết định hành động.
Hàm phản hồi định nghĩa mục tiêu trong bài toán quyết định Markov. Nó ánh
xạ mỗi trạng thái quan sát được (hoặc một cặp hành động-trạng thái) của môi
trường với một giá trị phản hồi để chỉ ra mong muốn thực chất về trạng thái đó.
Mục đích duy nhất của tác tử là cực đại hoá tổng giá trị phản hồi nó nhận được
trong suốt thời gian chạy. Hàm phản hồi định nghĩa sự kiện nào là tốt hay xấu
cho tác tử. Trong một hệ thống thuộc lĩnh vực sinh vật học, không phù hợp để
định nghĩa các giá trị phản hồi với niềm vui và sự đau đớn. Chúng là các đặc tính
tức thì và được định nghĩa là các vấn đề mà tác tử cần đối mặt. Như thế, hàm
phản hồi cần phải có khả năng thay đổi bởi tác tử. Tuy nhiên, nó có thể phục vụ
dưới dạng một yếu tố cơ bản để thay đổi chiến lược. Ví dụ, nếu hành động lựa
chọn bởi chiến lược được theo sau bởi một hàm phản hồi thấp, thì chiến lược có
thể được thay đổi để lựa chọn hành động khác thay thế trong tương lai.