(+84) 236.3827111 ex. 402

Chiến lược lựa chọn hành động softmax trong học tăng cường


Kỹ thuật ε-greedy và ε-soft có hạn chế là trong một số tình huống chúng lựa
chọn các hành động ngẫu nhiên giống nhau, như vậy hành động có khả năng tồi
nhất có thể được lựa chọn như là hành động tốt thứ hai. Kỹ thuật softmax khắc
phục nhược điểm này bằng cách gán thứ hạng hoặc trọng số cho mỗi hành động,
như vậy các hành động tồi nhất sẽ chắc chắn không được chọn. Như vậy trong
kỹ thuật này, hành động tham lam vẫn đem lại khả năng lựa chọn cao nhất. Tất
cả các hành động khác được phân hạng và định lượng phụ thuộc vào giá trị ước
lượng của nó. Phép phân bố Boltzmann được sử dụng để tính toán khả năng lựa
chọn hành động.