Cùng với học máy không giám sát và học có giám sát, một hình thức sáng tạo AI phổ biến khác là học tăng cường. Ngoài việc học tăng cường thường xuyên, học tập củng cố sâu có thể dẫn đến kết quả ấn tượng đáng kinh ngạc nhờ vào thực tế là nó kết hợp các khía cạnh tốt nhất của cả học sâu và học tăng cường. Chúng ta hãy xem chính xác cách thức hoạt động của học tăng cường sâu.
Trước khi chúng ta đi sâu vào học tăng cường, có thể là một ý kiến hay để làm mới bản thân về mức độ thường xuyên học tăng cường làm. Trong học tăng cường, các thuật toán hướng đến mục tiêu được thiết kế thông qua quá trình thử và sai, tối ưu hóa cho hành động dẫn đến kết quả tốt nhất/hành động nhận được nhiều “phần thưởng” nhất. Khi các thuật toán học tăng cường được đào tạo, chúng được trao “phần thưởng” hoặc “hình phạt” ảnh hưởng đến những hành động mà chúng sẽ thực hiện trong tương lai. Các thuật toán cố gắng tìm một tập hợp các hành động sẽ mang lại cho hệ thống nhiều phần thưởng nhất, cân bằng cả phần thưởng trước mắt và tương lai.
Các thuật toán học tăng cường rất mạnh vì chúng có thể được áp dụng cho hầu hết mọi tác vụ, có thể học một cách linh hoạt và năng động từ một môi trường và khám phá các hành động khả thi.
Khi nói đến học tăng cường sâu, môi trường thường được thể hiện bằng hình ảnh. Một hình ảnh là một bản chụp của môi trường tại một thời điểm cụ thể. Tác nhân phải phân tích hình ảnh và trích xuất thông tin liên quan từ chúng, sử dụng thông tin để thông báo hành động mà họ nên thực hiện. Học tăng cường sâu thường được thực hiện với một trong hai kỹ thuật khác nhau: học dựa trên giá trị và học dựa trên chính sách.
Các kỹ thuật học tập dựa trên giá trị sử dụng các thuật toán và kiến trúc như mạng thần kinh tích chập và Deep-Q-Mạng. Các thuật toán này hoạt động bằng cách chuyển đổi hình ảnh sang thang độ xám và cắt bỏ những phần không cần thiết của hình ảnh. Sau đó, hình ảnh trải qua nhiều thao tác kết hợp và tổng hợp khác nhau, trích xuất các phần có liên quan nhất của hình ảnh. Sau đó, các phần quan trọng của hình ảnh được sử dụng để tính giá trị Q cho các hành động khác nhau mà tác nhân có thể thực hiện. Giá trị Q được sử dụng để xác định hướng hành động tốt nhất cho tác nhân. Sau khi các giá trị Q ban đầu được tính toán, quá trình lan truyền ngược được thực hiện để có thể xác định các giá trị Q chính xác nhất.
Các phương pháp dựa trên chính sách được sử dụng khi số lượng hành động có thể thực hiện mà tác nhân có thể thực hiện là rất cao, đây thường là trường hợp trong các tình huống trong thế giới thực. Những tình huống như thế này đòi hỏi một cách tiếp cận khác vì việc tính toán các giá trị Q cho tất cả các hành động riêng lẻ là không thực tế. Các phương pháp tiếp cận dựa trên chính sách hoạt động mà không cần tính toán các giá trị chức năng cho các hành động riêng lẻ. Thay vào đó, họ áp dụng các chính sách bằng cách học trực tiếp chính sách đó, thường thông qua các kỹ thuật được gọi là Phân cấp chính sách.
Độ dốc chính sách hoạt động bằng cách nhận trạng thái và tính toán xác suất cho các hành động dựa trên kinh nghiệm trước đây của tác nhân. Hành động có thể xảy ra nhất sau đó được chọn. Quá trình này được lặp lại cho đến khi kết thúc giai đoạn đánh giá và phần thưởng được trao cho đại lý. Sau khi phần thưởng đã được xử lý với tác nhân, các tham số của mạng được cập nhật bằng lan truyền ngược.
Bởi vì Q-Học là một phần quan trọng của quá trình học tăng cường sâu, chúng ta hãy dành chút thời gian để thực sự hiểu cách thức hoạt động của hệ thống Q-learning.
Quy trình Quyết định Markov
Để một tác nhân AI thực hiện một loạt nhiệm vụ và đạt được mục tiêu, tác nhân đó phải có khả năng xử lý một chuỗi các trạng thái và sự kiện. Tác nhân sẽ bắt đầu ở một trạng thái và nó phải thực hiện một loạt hành động để đạt đến trạng thái kết thúc và có thể có một số lượng lớn các trạng thái tồn tại giữa trạng thái bắt đầu và kết thúc. Lưu trữ thông tin liên quan đến mọi trạng thái là không thực tế hoặc không thể, vì vậy hệ thống phải tìm cách chỉ lưu giữ thông tin trạng thái phù hợp nhất. Điều này được thực hiện thông qua việc sử dụng một Quy trình quyết định Markov, chỉ lưu giữ thông tin liên quan đến trạng thái hiện tại và trạng thái trước đó. Mọi trạng thái tuân theo thuộc tính Markov, theo dõi cách tác nhân thay đổi từ trạng thái trước đó sang trạng thái hiện tại.
Học hỏi sâu
Khi mô hình có quyền truy cập thông tin về trạng thái của môi trường học tập, giá trị Q có thể được tính toán. Các giá trị Q là tổng phần thưởng được trao cho tác nhân khi kết thúc chuỗi hành động.
Giá trị Q được tính bằng một loạt phần thưởng. Có một phần thưởng ngay lập tức, được tính ở trạng thái hiện tại và tùy thuộc vào hành động hiện tại. Giá trị Q cho trạng thái tiếp theo cũng được tính toán, cùng với giá trị Q cho trạng thái sau đó, v.v. cho đến khi tất cả các giá trị Q cho các trạng thái khác nhau đã được tính toán. Ngoài ra còn có một tham số Gamma được sử dụng để kiểm soát mức độ quan trọng của phần thưởng trong tương lai đối với các hành động của tác nhân. Các chính sách thường được tính toán bằng cách khởi tạo ngẫu nhiên các giá trị Q và để mô hình hội tụ về các giá trị Q tối ưu trong quá trình đào tạo.
Mạng Q sâu
Một trong những vấn đề cơ bản liên quan đến sử dụng Q-learning đối với học tăng cường là dung lượng bộ nhớ cần thiết để lưu trữ dữ liệu nhanh chóng mở rộng khi số lượng trạng thái tăng lên. Mạng Deep Q giải quyết vấn đề này bằng cách kết hợp các mô hình mạng thần kinh với các giá trị Q, cho phép tác nhân học hỏi kinh nghiệm và đưa ra những dự đoán hợp lý về các hành động tốt nhất cần thực hiện. Với deep Q-learning, các hàm Q-value được ước tính bằng mạng nơ-ron. Mạng thần kinh lấy trạng thái làm dữ liệu đầu vào và mạng xuất giá trị Q cho tất cả các hành động có thể khác nhau mà tác nhân có thể thực hiện.
Deep Q-learning được thực hiện bằng cách lưu trữ tất cả các trải nghiệm trong quá khứ vào bộ nhớ, tính toán đầu ra tối đa cho mạng Q, sau đó sử dụng hàm mất mát để tính toán sự khác biệt giữa giá trị hiện tại và giá trị lý thuyết cao nhất có thể.
Học tăng cường sâu vs Học sâu
Một điểm khác biệt quan trọng giữa học tăng cường sâu và học sâu thông thường là trong trường hợp học sâu thông thường, đầu vào thay đổi liên tục, điều này không xảy ra trong học sâu truyền thống. Làm thế nào mô hình học tập có thể giải thích cho đầu vào và đầu ra liên tục thay đổi?
Về cơ bản, để giải thích cho sự khác biệt giữa giá trị dự đoán và giá trị mục tiêu, có thể sử dụng hai mạng nơ-ron thay vì một. Một mạng ước tính các giá trị mục tiêu, trong khi mạng kia chịu trách nhiệm về các dự đoán. Các tham số của mạng mục tiêu được cập nhật khi mô hình học, sau khi một số lần lặp đào tạo đã chọn đã trôi qua. Đầu ra của các mạng tương ứng sau đó được nối với nhau để xác định sự khác biệt.
Học tập dựa trên chính sách cách tiếp cận hoạt động khác với cách tiếp cận dựa trên giá trị Q. Trong khi các phương pháp tiếp cận giá trị Q tạo ra một hàm giá trị dự đoán phần thưởng cho các trạng thái và hành động, thì các phương pháp dựa trên chính sách xác định một chính sách sẽ ánh xạ các trạng thái thành hành động. Nói cách khác, chức năng chính sách chọn cho các hành động được tối ưu hóa trực tiếp mà không cần quan tâm đến chức năng giá trị.
Độ dốc chính sách
Chính sách học tăng cường sâu thuộc một trong hai loại: ngẫu nhiên hoặc tất định. Một chính sách xác định là một trong đó các trạng thái được ánh xạ tới các hành động, nghĩa là khi chính sách được cung cấp thông tin về một trạng thái thì một hành động sẽ được trả về. Trong khi đó, các chính sách ngẫu nhiên trả về phân phối xác suất cho các hành động thay vì một hành động rời rạc, đơn lẻ.
Các chính sách tất định được sử dụng khi không có sự không chắc chắn về kết quả của các hành động có thể được thực hiện. Nói cách khác, khi bản thân môi trường là tất định. Ngược lại, kết quả đầu ra của chính sách ngẫu nhiên phù hợp với môi trường mà kết quả của các hành động là không chắc chắn. Thông thường, các kịch bản học tăng cường liên quan đến một số mức độ không chắc chắn nên các chính sách ngẫu nhiên được sử dụng.
Phương pháp tiếp cận gradient chính sách có một số ưu điểm so với phương pháp Q-learning, cũng như một số nhược điểm. Về ưu điểm, các phương pháp dựa trên chính sách hội tụ các tham số tối ưu nhanh hơn và đáng tin cậy hơn. Chỉ có thể tuân theo độ dốc chính sách cho đến khi các tham số tốt nhất được xác định, trong khi với các phương pháp dựa trên giá trị, những thay đổi nhỏ trong giá trị hành động ước tính có thể dẫn đến những thay đổi lớn trong hành động và các tham số liên quan của chúng.
Độ dốc chính sách cũng hoạt động tốt hơn cho các không gian hành động có chiều cao. Khi có rất nhiều hành động có thể thực hiện, deep Q-learning trở nên không thực tế vì nó phải gán điểm cho mọi hành động có thể thực hiện trong mọi bước thời gian, điều này có thể không thể tính toán được. Tuy nhiên, với các phương pháp dựa trên chính sách, các tham số được điều chỉnh theo thời gian và số lượng các tham số tốt nhất có thể nhanh chóng bị thu hẹp khi mô hình hội tụ.
Độ dốc chính sách cũng có khả năng thực hiện các chính sách ngẫu nhiên, không giống như các chính sách dựa trên giá trị. Bởi vì các chính sách ngẫu nhiên tạo ra phân phối xác suất, nên không cần phải thực hiện đánh đổi thăm dò/khai thác.
Về nhược điểm, nhược điểm chính của gradient chính sách là chúng có thể gặp khó khăn trong khi tìm kiếm các tham số tối ưu, chỉ tập trung vào một tập hợp các giá trị tối ưu cục bộ, hẹp thay vì các giá trị tối ưu toàn cục.
Chức năng điểm chính sách
Các chính sách được sử dụng để tối ưu hóa mục tiêu hiệu suất của mô hình để tối đa hóa một chức năng điểm số –J(θ). Nếu J(θ) là thước đo mức độ hiệu quả của chính sách của chúng ta đối với việc đạt được mục tiêu mong muốn, chúng ta có thể tìm thấy các giá trị của “θ” mang lại cho chúng tôi chính sách tốt nhất. Đầu tiên, chúng ta cần tính toán phần thưởng chính sách dự kiến. Chúng tôi ước tính phần thưởng chính sách để chúng tôi có một mục tiêu, một cái gì đó để tối ưu hóa. Hàm Điểm chính sách là cách chúng tôi tính toán phần thưởng chính sách dự kiến và có các Hàm Điểm chính sách khác nhau thường được sử dụng, chẳng hạn như: giá trị bắt đầu cho môi trường theo từng giai đoạn, giá trị trung bình cho môi trường liên tục và phần thưởng trung bình cho mỗi bước thời gian.
Độ dốc chính sách đi lên
Sau khi Hàm điểm chính sách mong muốn được sử dụng và phần thưởng chính sách dự kiến được tính toán, chúng tôi có thể tìm thấy giá trị cho tham số “θ” tối đa hóa chức năng điểm số. Để cực đại hóa hàm điểm J(θ), một kỹ thuật được gọi là “độ dốc đi lên" Được sử dụng. Tăng độ dốc có khái niệm tương tự như giảm độ dốc trong học sâu, nhưng chúng tôi đang tối ưu hóa để tăng mạnh nhất thay vì giảm. Điều này là do điểm của chúng tôi không phải là “lỗi”, giống như trong nhiều bài toán deep learning. Điểm số của chúng tôi là thứ chúng tôi muốn tối đa hóa. Một biểu thức gọi là Định lý độ dốc chính sách được sử dụng để ước tính độ dốc đối với chính sách “θ".
Tóm lại, học tăng cường sâu kết hợp các khía cạnh của học tăng cường và mạng lưới thần kinh sâu. Học tăng cường sâu được thực hiện với hai kỹ thuật khác nhau: Deep Q-learning và độ dốc chính sách.
Các phương pháp Deep Q-learning nhằm mục đích dự đoán phần thưởng nào sẽ tuân theo một số hành động nhất định được thực hiện trong một trạng thái nhất định, trong khi các phương pháp tiếp cận độ dốc chính sách nhằm mục đích tối ưu hóa không gian hành động, dự đoán chính các hành động đó. Các phương pháp tiếp cận dựa trên chính sách đối với học tăng cường sâu về bản chất là mang tính quyết định hoặc ngẫu nhiên. Các chính sách tất định ánh xạ trạng thái trực tiếp tới các hành động trong khi các chính sách ngẫu nhiên tạo ra các phân phối xác suất cho các hành động.
nguồn https://www.unite.ai/vi/h%E1%BB%8Dc-t%C4%83ng-c%C6%B0%E1%BB%9Dng-s%C3%A2u-l%C3%A0-g%C3%AC/
» Tin mới nhất:
» Các tin khác: