(+84) 236.3827111 ex. 402

Chiến lược lựa chọn hành động ε-greedy


Đây là cách đơn giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.

Trong phương pháp này, hành động có ước lượng về giá trị phản hồi lớn nhất sẽ

được lựa chọn trong hầu hết thời gian, gọi là hành động tham lam. Nhưng bất cứ

khi nào với khả năng rất nhỏ ε, hành động được lựa chọn ngẫu nhiên, giống nhau

và độc lập với các ước lượng về giá trị hành động.

Trong hầu hết các trường hợp với khả năng của hành động là 1-ε thì giá trị

hành động được ước lượng lớn nhất Q(s,a) được lựa chọn.

Giả sử A là tập tất cả các hành động và N là số hành động. Giả sử thêm nữa

là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa

chọn một hành động không tham lam a. Trong phương pháp lựa chọn hành động

ε-greedy, khả năng lựa chọn một hành động không tham lam

Từ đó dễ dàng chỉ ra rằng khả năng lựa chọn một hành động tham lam:

Phương pháp này chỉ ra rằng nếu phép thử là đủ, mỗi hành động sẽ được thử

một số vô hạn các lần thì đảm bảo rằng sẽ tìm ra được các hành động tối ưu.