Đây là cách đơn giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.
Trong phương pháp này, hành động có ước lượng về giá trị phản hồi lớn nhất sẽ
được lựa chọn trong hầu hết thời gian, gọi là hành động tham lam. Nhưng bất cứ
khi nào với khả năng rất nhỏ ε, hành động được lựa chọn ngẫu nhiên, giống nhau
và độc lập với các ước lượng về giá trị hành động.
Trong hầu hết các trường hợp với khả năng của hành động là 1-ε thì giá trị
hành động được ước lượng lớn nhất Q(s,a) được lựa chọn.
Giả sử A là tập tất cả các hành động và N là số hành động. Giả sử thêm nữa
là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa
chọn một hành động không tham lam a. Trong phương pháp lựa chọn hành động
ε-greedy, khả năng lựa chọn một hành động không tham lam
Từ đó dễ dàng chỉ ra rằng khả năng lựa chọn một hành động tham lam:
Phương pháp này chỉ ra rằng nếu phép thử là đủ, mỗi hành động sẽ được thử
một số vô hạn các lần thì đảm bảo rằng sẽ tìm ra được các hành động tối ưu.
» Tin mới nhất:
» Các tin khác: