Ngày nay, máy tính được ứng dụng vào mọi lĩnh vực trong đời sống kinh tế xã hội. Nhưng về vấn đề xử lý ngôn ngữ tự nhiên, bằng cách nào để máy tính có thể hiểu được ngôn ngữ, xử lý và ứng dụng ngôn ngữ thì đây quả là một thách thức lớn cho các nhà khoa học.
Xử lý ngôn ngữ tự nhiên bao gồm nhiều lĩnh vực quan trọng như: dịch máy (MT: Machine Translation), nhận dạng tiếng nói (SR: Speech Recognition), tìm kiếm bằng ngôn ngữ tự nhiên (NLQ: Nature Language Querying), bắt lỗi chính tả (SC: Spelling Correction), v.v… Trong các lĩnh vực trên, phân tích cú pháp là một vấn đề cơ bản và đóng một vai trò rất quan trọng trong tiến trình xử lý cả cho ngôn ngữ máy và ngôn ngữ tự nhiên.
Những ứng dụng trong xử lý ngôn ngữ tự nhiên như dịch máy, rút trích thông tin, nhận dạng văn bản, bắt lỗi chính tả,… đạt chất lượng cao nếu có một hệ thống phân tích cú pháp có độ chính xác cao. Từ quan điểm trên, tìm hiểu một phương pháp phân tích cú pháp tốt là điều rất cần thiết.
Một trong những khó khăn chính của phân tích cú pháp là sự “nhập nhằng” (ambiguity). Sự nhập nhằng xảy ra khi phân tích cú pháp cho kết quả là nhiều cây phân tích với của một câu nhập.
Những giải thuật phân tích cú pháp hầu hết được phát triển vào những năm 1960 và đã được ứng dụng rất nhiều trong xử lý ngôn ngữ tự nhiên. Tuy nhiên, sự “nhập nhằng” của ngôn ngữ tự nhiên vẫn chưa được giải quyết. Hầu hết những giải thuật này phụ thuộc vào toàn bộ không gian tìm kiếm để tìm được những diễn dịch phù hợp với câu phân tích. Nếu có giải quyết được sự nhập nhằng bằng cách đưa các yếu tố từ bên ngoài vào thì lại khó thực hiện và tốn nhiều thời gian. Các phương pháp phân tích trước đây thường cho kết quả là nhiều cây phân tích.
Những năm gần đây, việc áp dụng xác suất để giải quyết sự nhập nhằng trong phân tích cú pháp ngày càng phát triển mạnh mẽ và có nhiều triển vọng nhờ các corpus - kho dữ liệu về ngôn ngữ tự nhiên đã có sẵn. Với mô hình phân tích bằng xác suất - xác suất được gán vào mỗi cây phân tích cú pháp - sẽ chọn ra được kết quả là một cây phân tích phù hợp nhất (có xác suất cao nhất) cho câu nhập. Tuy nhiên, những ứng dụng đó chỉ đươc thử nghiệm cho những ngôn ngữ tiếng Anh, Pháp, … còn về ngôn ngữ tiếng Việt thì hiện chưa có một công trình nào được công bố trong lĩnh vực nghiên cứu này.
Với mục tiêu nghiên cứu và phát triển ứng dụng nhằm hỗ trợ cho việc xử lý và phân tích cú pháp cho ngôn ngữ tiếng Việt trên máy tính, tác giả chọn đề tài “Phân tích cú pháp tiếng Việt theo hướng xác suất (Probabilistic Parsing)”.
Đây là một lĩnh vực còn khá mới mẽ và đòi hỏi phải có sự trợ giúp của nhiều nhà ngôn ngữ học. Để thực hiện thành công đề tài trước hết phải xây dựng được kho dữ liệu corpus hoặc Treebank cho tiếng Việt. Việc xây dựng kho dữ liệu cho tiếng Việt đòi hỏi phải có rất nhiều thời gian và công sức đồng thời nó thuộc lĩnh vực nghiên cứu của các nhà ngôn ngữ học, điều này ngoài khả năng của tác giả.
Hiện nay chưa có một kho dữ liệu cũng như treebank nào cho tiếng Việt, do đó để thực hiện đề tài tác giả sử dụng Penn treebank của tiếng Anh và dựa trên sự tương đồng và không tương đồng giữa ngôn ngữ Anh - Việt chuyển Penn treebank này thành tập luật sinh cú pháp tiếng Việt với sự giúp đỡ của các chuyên gia dịch thuật.
1.2. Các ông trình liên quan
- Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi, Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP. Hồ Chí Minh thực hiện, đã xây dựng các luật cú pháp cho cụm từ tiếng Việt bằng phương pháp tự động, với 32.000 luật sinh, áp dụng phương pháp Top-Down Chart parser có cải thiện để phân tích cú pháp và phát hiện lỗi chính tả [26].
- Đề tài nghiên cứu khoa học của các tác giả: PGS.TS Phan Thị Tươi, Nguyễn Chí Hiếu, Trường Đại học Bách Khoa thuộc Đại học quốc gia TP. Hồ Chí Minh thực hiện, đã tạo được các luật của văn phạm phi ngữ cảnh (khoảng 4000 luật sinh) cho ngôn ngữ tiếng Anh và tiếng Việt, xây dựng các ánh xạ chuyển đổi cây phân tích. Đề tài hiện thực phân tích cú pháp bằng giải thuật Earley có cải thiện.
Có hai nhóm nghiên cứu chính:
1. Nhóm phân tích cú pháp không từ vựng (Non-lexicalied Parsing).
Phân tích cú pháp không từ vựng là nhóm phân tích trong đó phớt lờ các thông tin về từ vựng. Với việc phân tích theo nhóm này, một câu đưa vào để phân tích thực chất chỉ là một dãy các từ loại. Điều này chứng tỏ một câu loại này sẽ ít thông tin hơn so với một câu có gắn với từ thực. Tuy nhiên, Phân tích Cú Pháp Không Từ Vựng có ưu điểm là vì số lượng ký hiệu kết thúc nhỏ nên dễ xây dựng và thường không gặp phải về vấn đề dữ liệu thưa.
Các công trình nghiên cứu điển hình của nhóm phương pháp này là:
- Công trình Partially Unsupervisor Learning (Không bị giám sát cục bộ) của Pereia and Schabes năm 1992.
- Công trình PCFG Estimation from a treebank (Ước lượng PCFG từ một treebank) của Charnial năm 1996. Kết quả kiểm định trên Wall Street treebank với recall là 70.6% và precision là 74.8%.
- Công trình của Goodman năm 1996 mô tả các giải thuật phân tích cú pháp khác nhau trên PCFG để tối đa độ chính xác [23].
2. Nhóm phân tích cú pháp có từ vựng (Lexicalied Parsing)
Phân tích cú pháp có từ vựng là nhóm phân tích dựa vào các từ riêng lẻ và tính toán trên sự phân loại của từ. Nhưng việc thống kê các từ loại riêng biệt tức thời dẫn đến vấn đề về dữ liệu thưa. Nếu cố gắng thống kê một cách rất chi tiết sự kết hợp của các từ thì những kết hợp dư thừa khi huấn luyện cho corpus tăng lên rất nhanh. Do đó, để giảm thiểu số lượng các kết hợp loại này, người ta gắn vào mỗi thành phần một phần “head”, thông thường head được tính từ dưới lên và head của một thành phần c là một hàm quyết định của luật sinh, dùng để vét cạn (expend) c. Hướng phân tích này thuộc các công trình nghiên cứu điển hình của Bob (1993) [11]; Black và cộng sự. (1993); De Marken (1995); Collin (1996) [9]; Collin (1999) và một số tác giả khác.
» Tin mới nhất:
» Các tin khác: