Chiến lược lựa chọn hành động softmax trong học tăng cường

Kỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựa

chọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi

nhất có thể được lựa chọn như là hành động tốt thứ hai. Kỹ thuật softmax khắc

phục nhược điểm này bằng cách gán thứ hạng hoặc trọng số cho mỗi hành động,

như vậy các hành động tồi nhất sẽ chắc chắn không được chọn. Như vậy trong

kỹ thuật này, hành động tham lam vẫn đem lại khả năng lựa chọn cao nhất. Tất

cả các hành động khác được phân hạng và định lượng phụ thuộc vào giá trị ước

lượng của nó. Phép phân bố Boltzmann được sử dụng để tính toán khả năng lựa

chọn hành động.

Tin khác:

Trường Khoa Học Máy Tính & Trí Tuệ Nhân Tạo