Văn bản trong ảnh có thể chia thành hai loại chính gồm (i) văn bản được in ở dạng ngay ngắn, ko bị méo hay xô lệch như văn bản in bằng máy, văn bản là chú thích, phụ đề trong hình ảnh, và (ii) văn bản có dạng xô lệch, độ sáng thay đổi… (văn bản trong cảnh tự nhiên) như văn bản trên biển hiệu, gói hàng, quần áo. Nhận dạng văn bản trong cảnh tự nhiên được quan tâm nhiều hơn do hướng nghiên cứu này còn nhiều thách thức và có nhu cầu lớn trong nhiều ứng dụng thực tế. Hình 1 trình bày ví dụ về các dạng văn bản trong ảnh.
Figure 1. Các ảnh mẫu chứa văn bản. Hình 1(a) là văn bản được in thẳng hàng, ngay ngắn. Hình 1(b) là văn bản bị xô lệch do góc chụp ảnh và xuất hiện đan xen trong cảnh tự nhiên.
Hệ thống phát hiện và nhận dạng văn bản hoàn chỉnh thường dùng hai phương pháp luận chính gồm làm từng bước và tích hợp. Hình 2(a) thể hiện phương pháp làm từng bước bằng cách tách riêng bước phát hiện và bước nhận dạng. Ngoài ra, hệ thống có đường phản hồi ngược từ bước nhận dạng về bước phát hiện để cải tiến khả năng phát hiện vùng ảnh chứa văn bản. Phương pháp tích hợp nhận dạng văn bản theo cách pha phát hiện và pha nhận dạng chia sẻ thông tin với pha phân loại ký tự như được trình bày trong Hình 2(b).
Figure 2. Hai phương pháp phát hiện và nhận dạng văn bản thường được dùng gồm (a) Phương pháp làm từng bước và (b) Phương pháp tích hợp.
Một số phương pháp làm từng bước lấy phản hồi từ bước nhận dạng văn bản về bước phát hiện để cải tiến khả năng phát hiện vùng ảnh chứa văn bản. Một số phương pháp tích hợp sử dụng bước tiền xử lý để xác định vùng quan tâm. Sự khác biệt chính là phương pháp tích hợp lấy nhận dạng văn bản làm trọng tâm xử lý.
Các ứng dụng liên quan đến văn bản trong hình ảnh và video có thể chia thành ba nhóm chính gồm thu thập thông tin trong multimedia, truy cập và nhập dữ liệu trực quan, và tự động hóa công nghiệp.
Thu thập thông tin trong multimedia: Văn bản trong hình ảnh web liên quan đến nội dung của trang web. Phụ đề video thường chú thích thông tin về địa điểm, thời gian và ai của các sự kiện đang xảy ra. Nhận dạng văn bản và trích xuất từ khóa trong multimedia giúp tăng cường khả năng hiểu nội dung của multimedia.
Truy cập và nhập dữ liệu trực quan: Hiện nay, nhiều thiết bị di động có khả năng chụp ảnh kỹ thuật số nhanh và có độ nét cao nên số lượng dữ liệu ảnh tăng nhanh. Với một chương trình nhúng, thiết bị di động có thể tự động nhập thẻ nhân viên, quét mã QR, nhận diện mã vạch trên hàng hóa mà không phải nhập dữ liệu từ bàn phím. Vì vậy, việc nhập dữ liệu diễn ra nhanh và hiệu quả hơn.
Các biển hiệu trong cảnh tự nhiên chứa các thông tin quan trọng. Hệ thống dịch và nhận dạng biển hiệu tự động cho phép hiểu được biển hiệu do biển hiệu được nhận dạng và dịch văn bản sang ngôn ngữ khác . Việc phát triển các thiết bị chuyển văn bản thành giọng nói hỗ trợ cho người mù hiểu các nhãn hiệu tạp hóa, nhãn sản phẩm và tên dược phẩm, loại tiền tệ và hướng dẫn dùng ATM .
Tự động hóa công nghiệp: Nhận dạng văn bản trên bao bì, đồ đạc, nhà cửa và bản đồ được ứng dụng rộng rãi trong công nghiệp. Nhận dạng địa chỉ trên phong bì để phân loại thư. Nhận dạng tự động số container để phục vụ hoạt động vận chuyển, giao hàng . Việc ghi nhận số nhà và văn bản trong bản đồ có lợi cho hệ thống mã hóa địa lý tự động.
» Tin mới nhất:
» Các tin khác: