Dịch máy dựa trên thống kê là hướng tiếp cận hoàn toàn dựa trên dữ liệu nên nó có tính độc lập ngôn ngữ. Xây dựng một hệ thống dịch dựa trên hướng tiếp cận này chỉ cần tối thiểu một ngữ liệu song ngữ giữa cặp ngôn ngữ của hệ thống. Những tham số thống kê thu được từ việc huấn luyện trên ngữ liệu song ngữ sẽ được sử dụng cho việc dịch ở lần sau. Do vậy, không cần phải có một đội ngũ các chuyên gia ngôn ngữ học để hỗ trợ, kiểm tra các tri thức ngôn ngữ. Với yêu cầu tối thiểu của một hệ thống dịch máy, chi phí để xây dựng sẽ giảm được rất nhiều cũng như thời gian xây dựng một hệ thống dịch máy cho một cặp ngôn ngữ mới cũng sẽ giảm đi đáng kể. Và điểm đặc biệt hơn cả nếu ngữ liệu song ngữ được bổ sung càng nhiều sẽ càng nâng cao chất lượng cho hệ dịch.
Cách tiếp cận SMT được Brown và các cộng sự đưa ra từ những năm đầu thập kỷ 1990 sau khi thấy được những thành công của việc áp dụng thống kê trong một vài lĩnh vực. Brown và các cộng sự giả định rằng mỗi câu ở một ngôn ngữ sẽ có được những câu dịch khác nhau ở ngôn ngữ khác. Và họ đã đưa ra xác suất Pr(t|s) là xác suất điều kiện để dịch được câu t ở ngôn ngữ đích khi đã có câu s ở ngôn ngữ nguồn.
Ý tưởng cơ bản của cách tiếp cận này là từ một câu s ở ngôn ngữ nguồn, hệ thống đi tìm một câu t ở ngôn ngữ đích sao cho xác suất Pr(t|s) đạt giá trị lớn nhất.
Dựa trên công thức Bayes:
Do vậy, câu t cần tìm thoả:
Trong đó:
-Pr(t) được gọi là mô hình ngôn ngữ
-Pr(s|t) được gọi là mô hình dịch
Mô hình ngôn ngữ có được nhờ vào việc thống kê trên ngữ liệu đơn ngữ và được dùng làm cơ sở kiểm tra câu t có thể được hiểu (đúng cú pháp) của ngôn ngữ đó hay không.
Mô hình dịch có được nhờ vào việc thống kê trên ngữ liệu song ngữ đã được liên kết. Mô hình dịch sẽ cho biết sự tương ứng nghĩa giữa câu dịch và câu nguồn.
Như vậy, hình ảnh của hệ thống cơ sở cho dịch máy thống kê như sau:
Hình 1: Các thành phần của hệ dịch máy thống kê
Nhiệm vụ của bộ giải mã (decoder) trong hệ thống dịch máy SMT là tìm kiếm được một câu dịch có giá trị Pr(t|s) lớn nhất dựa vào mô hình ngôn ngữ và mô hình dịch đã được huấn luyện từ trước. Các hệ thống dịch SMT khác nhau ngoài việc đưa ra những phương pháp tạo ra mô hình ngôn ngữ, mô hình dịch khác nhau còn có thể đưa ra những giải pháp để tiền xử lý ở câu ở ngôn ngữ nguồn trước khi đưa vào bộ giải mã hay tiền xử lý các câu được “tìm kiếm” ra được từ bộ giải mã để tạo thành câu ở ngôn ngữ đích.
Mô hình liên kết từ trong dịch máy thống kê
Mô hình ngôn ngữ có được qua việc sử dụng phương pháp tính n-gram trên ngữ liệu đơn ngữ (thông thường là 3-gram).
Mô hình dịch được thực hiện thông qua công thức thống kêsau đây:
Trong đó, count(a) dùng để đếm số lượng các câu a có trong ngữ liệu.
Song, việc tính theo công thức trên không khả thi vì các câu trong ngôn ngữ rất đa dạng và không thể có được một ngữ liệu đủ lớn nào để thực hiện tính toán cho công thức trên.
Và Pr(s|t) được đề nghị một cách tính đơn giản hơn giống như cách tính cho mô hình ngôn ngữ. Khi đó, mỗi câu sẽ được phân chia thành các phần nhỏ hơn và giữa các phần đó sẽ có mối liên kết. Phần phân chia nhỏ nhất có thể có trong mỗi câu là từ. Vì vậy, giả sử rằng trong mỗi cặp câu có mối liên kết từ với nhau được thể hiện trong biến a. Khi đó:
Brown và các cộng sự tại trung tâm nghiên cứu của IBM đã đưa ra các mô hình dịch IBM từ 1 đến 5 để có thể tính được Pr(s|t) cho các cặp câu s và t tương ứng dựa trên thông tin liên kết từ.
Chất lượng bản dịch máy thống kê
Dù rằng trước đây đã tồn tại những hệ dịch máy Anh-Việt cho kết quả tương đối tốt nhưng ở chiều ngược lại, hệ dịch máy Việt-Anh vẫn chưa cho kết quả như ý muốn vì những khó khăn khi xây dựng các module xử lý đặc thù cho tiếng Việt (phân tích từ loại, phân tích cú pháp tiếng Việt,…). Kết quả của hệ dịch Anh-Việt, Việt-Anh mới dựa trên cách tiếp cận SMT đã cho được những kết quả khả quan. Song giữa tiếng Việt và tiếng Anh có những đặc điểm khác biệt giữa loại hình ngôn ngữ nên chúng ta cần có giải pháp bổ sung thêm tri thức hình thái tiếng Việt vào như một giải pháp cho việc nâng cao chất lượng dịch.
» Tin mới nhất:
» Các tin khác: