17/12/2019 09:44:07 PM

Bài viết sưu tầm

Chiến lược lựa chọn hành động softmax trong học tăng cường

Kỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựa

chọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi

nhất có thể được lựa chọn như là hành động tốt thứ hai. Kỹ thuật softmax khắc

phục nhược điểm này bằng cách gán thứ hạng hoặc trọng số cho mỗi hành động,

như vậy các hành động tồi nhất sẽ chắc chắn không được chọn. Như vậy trong

kỹ thuật này, hành động tham lam vẫn đem lại khả năng lựa chọn cao nhất. Tất

cả các hành động khác được phân hạng và định lượng phụ thuộc vào giá trị ước

lượng của nó. Phép phân bố Boltzmann được sử dụng để tính toán khả năng lựa

chọn hành động.

» Tin mới nhất:

Chuẩn hóa dữ liệu (16/03/2026)
Kỹ sư phần mềm - Software Engineer (15/03/2026)
Graph Neural Networks (GNN): Khi Trí Tuệ Nhân Tạo Học Cách Kết Nối (15/03/2026)
CTF (Capture The Flag) (2): Chiến thuật và Lộ trình Chinh phục (12/03/2026)
Thiết kế cơ sở dữ liệu (12/03/2026)

» Các tin khác:

Toán tử đột biến (17/12/2019)
Quy trình kiểm thử đột biến (17/12/2019)
Các kịch bản SQL trong DB2 (27/11/2019)
Trình trợ giúp SQL và hiển thị nút Show SQL trong DB2 (27/11/2019)
LAB cơ bản về SSL VPN (18/11/2019)
LAB cơ bản về giao thức định tuyến RIP (18/11/2019)
JTable (tt) (18/11/2019)
JTable (18/11/2019)
Thuật giải trên logic vị từ (18/11/2019)
Thuật giải trên logic mệnh đề (18/11/2019)

Hôm nay, ngày

17/03/2026

Tuần học:

Sinh viên tiêu biểu

video

Số lượt truy cập: 11200406