Dựa vào tác tử và môi trường, chúng ta có thể định nghĩa 4 phần tử con của 
	một bài toán quyết  định Markov: chiến lược (policy), hàm phản hồi (reward 
	function), hàm giá trị (value function), và không bắt buộc, một mô hình về môi 
	trường. 
	Chiến lược định nghĩa cách thức tác tử học từ hành động tại thời điểm đưa ra. 
	Chiến lược là một ánh xạ từ tập các trạng thái của môi trường đến tập các hành 
	động được thực hiện khi môi trường ở trong các trạng thái đó. Nó tương ứng với   
	tập các luật nhân quả trong lĩnh vực tâm lí học. Trong một số trường hợp, chiến 
	lược có thể là một hàm đơn giản hoặc một bảng tra cứu, trong những trường hợp 
	khác, nó có thể liên quan đến các tính toán mở rộng ví dụ như một tiến trình tìm 
	kiếm. Chiến lược là nhân của một tác tử với nhận thức rằng một mình nó  đủ 
	quyết định hành động.  
	Hàm phản hồi định nghĩa mục tiêu trong bài toán quyết định Markov. Nó ánh 
	xạ mỗi trạng thái quan sát được (hoặc một cặp hành động-trạng thái) của môi 
	trường với một giá trị phản hồi để chỉ ra mong muốn thực chất về trạng thái đó. 
	Mục đích duy nhất của tác tử là cực đại hoá tổng giá trị phản hồi nó nhận được 
	trong suốt thời gian chạy. Hàm phản hồi định nghĩa sự kiện nào là tốt hay xấu 
	cho tác tử. Trong một hệ thống thuộc lĩnh vực sinh vật học, không phù hợp để 
	định nghĩa các giá trị phản hồi với niềm vui và sự đau đớn. Chúng là các đặc tính 
	tức thì và được định nghĩa là các vấn đề mà tác tử cần đối mặt. Như thế, hàm 
	phản hồi cần phải có khả năng thay đổi bởi tác tử. Tuy nhiên, nó có thể phục vụ 
	dưới dạng một yếu tố cơ bản để thay đổi chiến lược. Ví dụ, nếu hành động lựa 
	chọn bởi chiến lược được theo sau bởi một hàm phản hồi thấp, thì chiến lược có 
	thể được thay đổi để lựa chọn hành động khác thay thế trong tương lai.