17/08/2019 08:29:50 PM

Bài viết sưu tầm

Chiến lược lựa chọn hành động ε-greedy

Đây là cách đơn giản và phổ biến nhất để cân bằng giữa khảo sát và khai thác.

Trong phương pháp này, hành động có ước lượng về giá trị phản hồi lớn nhất sẽ

được lựa chọn trong hầu hết thời gian, gọi là hành động tham lam. Nhưng bất cứ

khi nào với khả năng rất nhỏ ε, hành động được lựa chọn ngẫu nhiên, giống nhau

và độc lập với các ước lượng về giá trị hành động.

Trong hầu hết các trường hợp với khả năng của hành động là 1-ε thì giá trị

hành động được ước lượng lớn nhất Q(s,a) được lựa chọn.

Giả sử A là tập tất cả các hành động và N là số hành động. Giả sử thêm nữa

là khả năng lựa chọn một hành động tham lam a, và là khả năng lựa

chọn một hành động không tham lam a. Trong phương pháp lựa chọn hành động

ε-greedy, khả năng lựa chọn một hành động không tham lam

Từ đó dễ dàng chỉ ra rằng khả năng lựa chọn một hành động tham lam:

Phương pháp này chỉ ra rằng nếu phép thử là đủ, mỗi hành động sẽ được thử

một số vô hạn các lần thì đảm bảo rằng sẽ tìm ra được các hành động tối ưu.

» Tin mới nhất:

'Thao trường an ninh mạng' của người Việt (15/04/2026)
Viết và chạy chương trình C trong Linux (14/04/2026)
LINUX COMMANDS - Cheat Sheet (part 2) (14/04/2026)
LINUX COMMANDS - Cheat Sheet (part 1) (14/04/2026)
Kỹ năng kỹ thuật theo hướng phát triển web (13/04/2026)

» Các tin khác:

Lệnh thay đổi mật khẩu trong Linux. (17/08/2019)
Thủ tục đăng nhập và các lệnh thoát khỏi hệ thống trong Linux. (17/08/2019)
Cơ sở của kiểm thử đột biến (16/08/2019)
Khái niệm và ví dụ kiểm thử đột biến (16/08/2019)
Kỹ thuật Autoboxing trong Java (14/08/2019)
Cách kích hoạt chế độ Ultimate Performance win 10 (12/08/2019)
Cách kích hoạt Themes bị ẩn trên Windows 7 (12/08/2019)
Tool/Utility trong Python (12/08/2019)
Xử lý XML trong Python (12/08/2019)
Các sản phẩm có trả phí liên quan đến DB2 (06/08/2019)

Hôm nay, ngày

16/04/2026

Tuần học:

Sinh viên tiêu biểu

video

Số lượt truy cập: 11289451