18/06/2022 03:53:48 PM

Bài viết sưu tầm

Các bước thực hiện thuật toán Q_Leaning

1. Khởi tạo bảng giá trị Q, Q(s,a).

2. Quan sát trạng thái hiện tại s.

3. Lựa chọn hành động a cho trạng thái dựa vào một trong các chiến lược lựa chọn hành động (ε-soft, ε-greedy hoặc softmax).

4. Thực hiện hành động và quan sát giá trị r cũng như trạng thái mới s’.

5. Cập nhật giá trị Q cho trạng thái sử dụng giá trị tăng cường được quan sát và giá trị tăng cường lớn nhất có thể cho trạng thái tiếp theo. Việc thực hiện được cập nhật dựa theo công thức mô tả ở trên.

6. Thiết lập trạng thái đến trạng thái mới và lặp lại quá trình này đến tận khi gặp được trạng thái kết thúc.

» Tin mới nhất:

Chuyển đổi String sang boolean và ngược lại trong Java (10/03/2026)
Một số tính năng mới trong Linux kernel 6.18 (05/03/2026)
Đu trend 'AI vẽ chân dung cuộc đời', tăng nguy cơ bị tấn công lừa đảo (03/03/2026)
Câu lệnh ghép trong thủ tục (28/02/2026)
Chủ đề: OSCP - Client-side Attacks (18/01/2026)

» Các tin khác:

Thiết bị Chuyển Mạch (switch) của Cisco có những loại nào? (18/06/2022)
Linux: Cài đặt và Cấu hình Dịch vụ DHCP Server (18/06/2022)
Tìm khóa của lược đò (16/06/2022)
Các kỹ sư chế tạo chip trí tuệ nhân tạo (15/06/2022)
Tín hiệu Bluetooth có thể được sử dụng để xác định và theo dõi điện thoại thông minh (15/06/2022)
Công cụ db2look trong DB2 (06/06/2022)
LAB - NAT Overload vs NAT Staic (18/05/2022)
Psec VPN session bị down (18/05/2022)
Chuyển đổi số (Digital Transformation) (18/05/2022)
VNPs and Their Benefits (18/05/2022)

Hôm nay, ngày

10/03/2026

Tuần học:

Sinh viên tiêu biểu

video

Số lượt truy cập: 11179130