Là phương tiện giao tiếp của con người và là một thành phần cốt yếu trong cuộc sống của chúng ta, nó bao gồm ngôn ngữ nói và ngôn ngữ viết. Đặc điểm của ngôn ngữ tự nhiên là sự nhập nhằng không rõ nghĩa. Đó là điều mà chúng ta cần phải quan tâm khi xử lý ngôn ngữ tự nhiên bằng máy tính.
1. Từ: Theo quan điểm của ngôn ngữ học phương Tây. Từ được hiểu như là đơn vị cú pháp nhỏ nhất, có ý nghĩa, có từ loại và có chức năng ngữ pháp. Từ tham gia cấu tạo, tổ chức làm thành những thành phần lớn hơn như cụm từ, chuỗi từ, … sao cho có nghĩa và đúng ngữ pháp. Ví dụ:
(1) “Ăn” là một từ có ý nghĩa và là một động từ.
(2) “Năn” là tiếng/chữ không có nghĩa. Nhưng nếu ghép “ăn” với “năn”, ta sẽ được một động từ có ý nghĩa: “ăn năn”. Từ này được ghép bằng 2 tiếng/chữ. Như vậy, từ có thể là sản phẩm của hơn hai tiếng/chữ hoặc của từ.
Nhiều từ kết hợp lại với nhau gọi là cụm từ hay chuỗi từ. Một cụm từ, chuỗi từ được xem là một thành tố.
Mỗi từ đều có loại từ (lexical type) nhất định như danh từ, động từ,…. Vì có rất nhiều loại từ khác nhau, cho nên các nhà ngôn ngữ phải tìm cách phân loại từ thành các lớp từ tương đương.
Lớp tương đương (equivalent class) được hiểu là một tiểu tập hợp bao gồm mọi phần tử có cùng tính chất tương đương đã được chọn lọc theo những chuẩn tắc nhất định. Sau đây là một số lớp từ:
- Lớp danh từ (noun class) là một lớp chỉ gồm những từ có tính chất và chức năng, như danh từ riêng, danh từ chung, đại danh từ nhân vật, đại danh từ quan hệ, đại danh từ sở hữu, đại danh từ nghi vấn, đại danh từ hỗ tương, ...- Lớp chỉ định từ (determiner class) gồm có mạo từ, đại danh từ tái quy, đại danh từ chỉ thị, ...
- Lớp tính từ (adjective class) gồm có tính từ và trạng từ.
- Lớp động từ (verb class) chỉ có động từ.
Trên thực tế, các nhà ngôn ngữ học phương Tây đã thu gọn như sau:
Phạm trù từ vựng (lexical category) được hiểu là tập hợp bao gồm 6 lớp từ (word class):
1. Danh từ (noun)
2. Động từ (verb)
3. Tính từ (adjective)
4. Giới từ (preposition)
5. Liên từ (conjunction)
6. Chỉ định từ (determiner)
Lớp từ được tóm tắc trong bảng sau:
Lớp |
Ký hiệu |
Ví dụ |
Danh từ (danh từ riêng, danh từ chung, đại danh từ nhân vật, đại danh từ sở hữu, đại danh từ nghi vấn, đại danh từ hỗ tương, đại danh từ quan hệ, ...) |
N |
house, dog, I, you, mine, yours, each other, one another, what, who, whom, which, ... |
Động từ |
V |
live, eat, ... |
Tính từ (tính từ, trạng từ) |
A |
my, your, warm, hot, slowly, extremly, ... |
Giới từ |
P |
to, for, on, ... |
Liên từ |
C |
and, or, ... |
Chỉ định từ (mạo từ, đại danh từ tái quy, ...) |
D |
the, a, this, that, myseft, yourseft, ... |
Những loại từ của ngôn ngữ khác. |
|
|
Bảng 2.1: Bảng tóm tắt lớp từ
Tuy nhiên cách phân loại trên thực ra chỉ có giá trị cho những ngôn ngữ Ấn-Âu, đặc biệt là tiếng Anh, chứ không đầy đủ cho mọi ngôn ngữ, chẳng hạn như tiếng Việt. Một ví dụ tiêu biểu:
Cũng là danh từ như tiếng Anh, người Việt nói một “con gà”, một “bức tranh”, một “chiếc thuyền”, ... Những từ đặc biệt “con”, “bức”, “chiếc”, ... tiếng Anh không có. Trong tiếng Việt, loại từ này có thể đi với một từ danh từ, động từ, tính từ để thành lập một thành tố mang tính danh từ và có thể coi như một thực thể hầu như đếm được. Nếu đứng một mình, loại từ này có thể đại diện cho đối tượng trong thành tố phía trước, nghĩa là đã được nói trước. Sau đây là một số trường hợp được liệt kê cho trường hợp này:
1. Diễn tả cá thể người: ông giám đốc, anh kỹ sư, ...
2. Diễn tả cá thể đồ vật: cái nhà, cánh cửa, ...
3. Diễn tả cá thể thực vật: cây cam, trái quít, ...
4. Diễn tả cá thể thú vật: con chó, con mèo, ...
5. Diễn tả phái tính nam nữ: cô dâu, chú rể, ...
6. Diễn tả sự già trẻ: bà lão, cháu bé, ...
7. Diễn tả tính cao quý, sang hèn, kính trọng, khinh khi: đấng anh hùng, nhà tư bản, ngài đại sứ, kẻ ăn mày, ...
8. Diễn tả thần linh: đức Chúa Trời, đức Phật, ...
9. Diễn tả sự kiện: cuộc biểu tình, sự bất mãn, ...
10. Diễn tả tâm tư: niềm hy vọng, nỗi nhớ thương, ...
11. Diễn tả số lượng: bầy trẻ, đàn gà, đám tang, ...
12. Diễn tả khối lượng: giọt mưa, trái núi, ...
13. Diễn tả tính từng phần: thửa vườn, mảnh ruộng, ...
14. Diễn tả thứ loại: loại nghệ thuật đắt tiền, thứ văn chương rẻ tiền, ..., v.v.
2. Danh từ và cụm danh từ: Dùng để biểu thị tính chất sự vật như sinh vật, vật thể, hiện tượng, sự việc trong đời sống hiện tại…
3. Cụm động từ: Động từ là những từ diễn tả sự tồn tại trạng thái hoặc hành động. Mỗi động từ phải ở trong 5 dạng cơ bản sau:
Dạng |
Ví dụ - Tiếng Anh |
Base |
go, be, cry |
Simple present |
go, am, cries |
Simple past |
Went, was, cried |
Present participle |
Going, being, crying |
Past participle |
Gone, been, cried |
Bảng 2.2: Những dạng cơ bảng động từ và cụm động từ
Quá khứ trong tiếng Việt sử dụng từ “đã”, tiếp diễn thì là “đang” và tương lai là “sẽ”
Động từ được chia thành các lớp khác nhau:
- Trợ động từ (auxiliary verbs): be, do, have
- Động từ hình thái (modal verbs): will, can, could
- Động từ chính (main verbs): eat, ran, believe
Các thì (tenses) cơ bản:
Thì |
Cấu trúc động từ được chia |
Ví dụ |
Simple present |
Simple present |
He walks to the bookstore |
Simple past |
Simple past |
He walked to the bookstore |
Simple future |
Will + infinitive |
He will walk to the bookstore |
Present perfect |
Have in present + past participle |
He has walked to the bookstore |
Future perfect |
Will + have in infinitive + past participle |
He will have walked to bookstore |
Past perfect |
Have in the past + past participle |
I had walked to the bookstore |
Bảng 2.3: Các thì có bản trong của ngôn ngữ
Đối với động từ chính ta có:
- Ngoại động từ (intransitive verbs): có thể đứng một mình mà không cần bổ từ (Jack laughed)
- Nội động từ (transitive verbs): thưòng yêu cầu một cụm danh từ theo sau (Jack found a key)
Một vài cấu trúc bổ ngữ cho động từ:
Động từ |
Cấu trúc bổ ngữ |
Ví dụ |
Laugh |
Empty (intransitive) |
Jack laughed |
Find |
NP (transitive) |
Jack found a key |
Give |
NP + NP |
Jack gave Sue a paper |
Give |
NP + NP (to) |
Jack gave the book to the library |
Try |
VP (to) |
Jack tried to apologise |
Wish |
S (to) |
Jacked wish for the man to go |
Seem |
ADJP |
Jack seem unhappy in his new job |
Bảng 2.4: Một vài cấu trúc bổ ngữ cho động từ
4. Tính từ và cụm tính từ: Tính từ thường có chức năng bổ nghĩa cho các thành phần khác trong câu, dùng để miêu tả đặc điểm, tính chất của con người, sự vật, hiện tượng. Có thể chia làm 2 loại tính từ : tính từ miêu tả (big, small,…) và tính từ quan hệ (presidential, …)
Những cụm tính từ đơn giản chỉ bao gồm một tính từ đơn. Những cụm từ phức tạp cần những bổ ngữ như PP(prepositional phrase) ,VP (verb pharse),…
PP [with] |
Jack was pleased with the prize |
VP [inf] |
Jack seem willing to lead the chorus |
S [that] |
Jack was angry that he was left behind |
Bảng 2.5: Tính từ và cụm tính từ
5. Giới từ: Giới từ là một loại hư từ (trong nhóm quan hệ từ) dùng để nối liền từ phụ với từ chính biểu thị ngữ pháp giữa hai đơn vị đó.
6. Mạo từ: có hai loại mạo từ:
- Mạo từ bất định (non-specified article): trong tiếng Anh là “a” tương ứng với tiếng Việt là “một”
- Mạo từ xác định (specified article): tiếng Anh là “the” tương ứng với tiếng Việt là “cái” và một số từ khác.
7. Câu đơn: có 5 hình thức:
Hình thức |
Ví dụ |
Chủ từ + nội động từ |
My head aches |
Chủ từ + động từ + bổ ngữ |
Frank is an architect |
Chủ từ + động từ + túc từ trực tiếp |
My sister enjoyed the play |
Chủ từ + động từ + túc từ gián tiếp + túc từ trực tiếp |
The firm gave Sam a watch |
Chủ từ + động từ + túc từ + bổ ngữ |
They made him redundant |
Bảng 2.6: Một số cấu trúc câu đơn
8. Câu ghép: là câu có nhiều hơn hai mệnh đề và sự liên kết giữa hai mệnh đề này có thể là :
Một dấu chấm phẩy. |
We fished all day; we didn’t cacth a thing |
Một dấu chấm phẩy kèm theo một phó từ có chức năng liên kết. |
We fished all day; however, we didn’t cacth a thing |
Một liên từ. |
We fished all day but we didn’t cacth a thing |
Bảng 2.7: Một số cấu trúc câu ghép
1. Vị trí tính từ - danh từ: Trong câu tiếng Anh thông thường nếu như sau tính từ hoặc tính từ so sánh nhất là danh từ, khi chuyển sanh tiếng Việt, tính từ hoặc tính từ so sánh nhất này sẽ được chuyển ra đứng sau danh từ.
Tiếng Anh |
Tiếng Việt |
ADJ + N |
N + ADJ |
ADJS + N |
N + ADJS |
Bảng 2.8: Bảng chuyển đổi cú pháp danh từ tính từ Anh - Việt
Ví dụ: A beautiful girl Một cô gái đẹp
ADJ N N ADJ
She is the tallest girl in the city. Cô ta là cô gái cao nhất trong thành phố.
ADJS N N ADJS
2. Hình thức sở hữu:
- Chỉ có trường hợp danh từ chủ sở hữu mang dấu “ ’s ” và đi trước danh từ chỉ vật sở hữu, khi chuyển sang tiếng Việt, danh từ chủ sở hữu sẽ được chuyển sang đứng sau danh từ sở hữu. ví dụ:
The boy’s book quyển sách của đứa trẻ
- Đại từ sở hữu đứng trước danh từ, khi chuyển sang tiếng Việt, đại từ sở hữu sẽ được chuyển sang đứng sau danh từ sở hữu. Ví dụ:
My father Bố của tôi
His book Quyển sách của anh ấy
Bảng tóm tắt trong điểm ngữ pháp này:
Tiếng Anh |
Tiếng Việt |
Chủ sở hữu ‘s + vật sở hữu |
vật sở hữu + chủ sở hữu ‘s |
Đại từ sở hữu + vật sở hữu |
vật sở hữu + Đại từ sở hữu |
Bảng 2.9. Bảng chuyển đổi cú pháp hình thức sở hữu từ Anh sang Việt
3. Một số chỉ định từ có thể hoán đổi vị trí khi chuyển cú pháp từ Anh sang Việt: Một số chỉ định từ như this, that, these, those, … theo sau là danh từ, khi chuyển sang tiếng Việt, những chỉ định từ này sẽ được chuyển sang đứng sau danh từ. Ví dụ:
This book quyển sách này
That book quyển sách đó
These books những quyển sách này
Those books những quyển sách đó
1. Ngữ đoạn danh từ NP (Noun Phrase)
Ngữ đoạn danh từ còn gọi là cụm danh từ. Một ngữ đoạn danh từ NP đơn giản nhất chỉ có một danh từ. Ta có luật sinh cho ngữ đoạn danh từ như sau:
NP à N
Ta gọi là NP (noun phrase) sinh ra danh từ N (noun). Cây cú pháp tương ứng như sau:
NP
N
Hình 2.1: Cây cú pháp cho ngữ đoạn danh từ
Ví dụ: tiếng Anh từ “knife” tiếng Việt là “dao”, cây cú pháp tương ứng cho tiếng Anh và tiếng Việt như sau:
NP NP
N N
Knife dao
(a) Tiếng Anh (b) Tiếng Việt
Hình 3.2: Chuyển đổi cây cú pháp Anh - Việt
Mô tả luật sinh cho hai cây cú pháp trên như sau:
NP à N
N à knife/dao
Ngữ đoạn danh từ NP sinh ra N, N tận cùng bằng “knife” hoặc “dao”.
Mở rộng luật trên với một mạo từ xác định “the” và mạo từ bất định “a” như ta đã giới thiệu ở trên, mạo từ xác định tương ứng với tiếng Việt là “con” và bất định là “một”. Ta có luật như sau:
NP à ART N
ART à the, a/con, một
Ta có cây cú pháp tương ứng như sau:
NP NP
ART NP ART NP
the/a knife con/một con dao
Hình 2.3: Ánh xạ cây cú pháp ngữ đoạn danh từ có mạo từ Anh - Việt
Trong những trường hợp trên ta thấy cấu trúc luật sinh và cây cú pháp giữa tiếng Anh và tiếng Việt là tương tự nhau. Tuy nhiên ta xét một trường hợp phức tạp hơn. Ví dụ xét câu sau:
Tiếng Việt: “một cô gái đẹp”
Tiếng Anh: “a beautiful girl”
Ta thấy cây cú pháp tương ứng như sau:
NP NP
ART ADJ N ART N ADJ
A beautiful girl một cô gái đẹp
Hình 2.4:Ánh xạ cây cú cụm danh từ có mạo từ và tính từ Anh - Việt
Từ đó ta có luật sinh tương ứng như sau:
Tiếng Anh:
NP à ART ADJ NP
Khi đó luật sinh ở câu tiếng Việt như sau:
NP à ART NP ADJ
Tới đây ta nhận thấy có sự khác nhau giữa tiếng Việt và tiếng Anh, đây chính là điểm khác biệt cú pháp mà ta đã tìm hiểu ở mục trên.
Bây giờ ta mở rộng trường hợp này bằng cách thêm một giới từ vào câu sau:
Tiếng Việt: “một cô gái đẹp ở Việt Nam”
Tiếng Anh: “a beautiful girl in Viet Nam”
Ta có cây cấu trúc tương đương với câu trên như sau:
NP NP
ART ADJ N PP ART N ADJ PP
A beautiful girl in Viet Nam một cô gái đẹp ở Việt Nam
Hình 2.5: Cây cú pháp ánh xạ ngữ đoạn danh từ có giới từ Anh - Việt
Luật sinh cho cho cây cú pháp này như sau:
Tiếng Anh: NP à ART ADJ N PP
Tiếng Việt: NP à ART N ADJ PP
PP ở ví dụ này ta không đi vào chi tiết, vì chỉ lấy ví dụ cho cụm danh từ.
2. Tính từ và cụm tính từ ADJP: (Adjective phrase):
Ở cụm tính từ, vị trí từ loại trong câu giữa tiếng Anh và tiếng Việt hầu như là không thay đổi. Ví dụ: xét cụm từ:
Tiếng Việt: “Rất đẹp”
Tiếng Anh: “very beautiful”
ADJP ADJP
ADV ADJ ADV ADJ
Very beautiful rất đẹp
Hình 2.6: Cây cú pháp ánh xạ tính từ và cụm tính từ Anh - Việt
Luật sinh cho cho cây cú pháp là:
ADJ à ADV ADJ
ADV à very/rất
ADJ à beautiful/đẹp
3.Ngữ đoạn giới từ PP:
Xét cụm giới từ “ở Việt Nam” (tiếng Việt), “in Vietnam” (tiếng Anh):
PP PP
P NP P NP
In N ở N
Vietnam Việt nam
Hình 2.7: Cây cú pháp ánh xạ cụm giới từ Anh - Việt
Luật sinh của PP là: PP à P NP
P à in/ở
NP à N
N à Vietnam/Việt nam
4. Ngữ đoạn động từ VP:
Ngữ đoạn (cụm động từ) VP đơn giản nhất chỉ là một động từ: VP à V. Xét cụm động từ sau:
“sing a song” (tiếng Anh) và “hát một bài hát” (tiếng Việt)
VP VP
V NP V NP
Sing ART N hát ART N
a song một bài hát
Hình 2.8: Cây cú pháp ánh xạ cụm động từ Anh - Việt
Luật sinh tương ứng cho cây cú pháp như sau:
VP à V NP
V à sing/hát
NP à D N
D à a/một
N à song/bài hát
5. Câu: xét câu đơn sau: “Người đàn ông có một việc làm khó khăn” (tiếng Việt) và The man has a hard job” (tiếng Anh). Cây cú pháp tương ứng như sau:
S S
NP VP NP VP
D N V NP D N V NP
The man has ART NP Người đàn ông có ART NP
a ADJ N một N ADJ
hard job việc làm khó
Hình 3.9: Cây cú pháp ánh xạ cụm động từ Anh - Việt
Tập luật sinh cho cây trên:
Cây tiếng Anh
|
Cây tiếng Việt |
S à NP VP NP à D N VP à V NP NP àD NP NP à ADJ N D à the N à man V à has ART à a ADJ à hard N à job |
S à NP VP NP à D N VP à V NP NP àD NP NP à ADJ N D à người N à đàn ông V à có ART à một ADJ à khó N àcông việc |
- Để việc phân tích cú pháp cho tiếng Việt đạt hiệu quả cao đòi hỏi phải có một tập luật sinh cú pháp tiếng Việt đầy đủ và đúng. Để làm được điều này, trước hết ta phải hiểu và phân tích cú pháp một cách sâu sắc để từ đó có thể tìm ra được tất cả những điểm khác biệt cú pháp giữa hai ngôn ngữ Anh-Việt. Từ những sự khác biệt này tìm hiểu nguyên tắc, qui luật để xây dựng tập luật sinh tiếng Việt từ Penn treebank đạt hiệu quả.
- Tiếng Việt là một ngôn ngữ khác biệt, có những câu hoặc những từ rất khó có thể diễn tả bằng ngôn ngữ tiếng Anh và ngược lại. Ví dụ như trường hợp mạo từ hoặc giới từ trong tiếng Anh, nhiều khi chúng ta chỉ hiểu chúng mà không thể nào biểu diễn bằng ngôn ngữ được, và nếu như diễn tả thì cũng ở một mức độ tương đương nào đó chứ không chính xác nghĩa. Vì vậy cũng rất khó đạt chất lượng cao trong trường hợp này.
- Nếu như trong luật sinh có “JJ” (tính từ) hoặc “JJS” (tính từ so sánh nhất) hoặc “PRP$” (đại từ sở hữu) đứng trước “NN” (danh từ) hoặc “NNS” (danh từ số nhiều) hoặc “NNP” (cụm danh từ) hoặc “CD” (chỉ số lượng) thì khi chuyển sang luật sinh tiếng Việt, chuyển “JJ”, “JJS”, “PRP$” này ra đứng phía sau NN, NNS, NNP, CD.
Vd: một số luật sinh:
Tiếng Anh |
Tiếng Việt |
NP ---> DT JJ NNP NNP NN |
NP ---> DT NNP NNP NN JJ |
NP ---> NP JJS NN NN , |
NP ---> NP NN NN JJS , |
NP ---> PRP$ NNS |
NP ---> NNS PRP$ |
Bảng 2.10: Một số vấn đề chuyển đổi luật sinh Anh - Việt
Như vậy dựa trên những qui luật này, ta có thể xây dựng giải thuật để chuyển đổi luật sinh từ tiếng Anh sang tiếng Việt. Một câu hỏi đặt ra là, bằng cách nào để nhận biết chuỗi từ loại trong luật sinh cần được thay đổi vị trí khi chuyển đổi? Đây là một câu hỏi lớn đòi hỏi chúng ta hiểu rõ cú pháp giữa hai ngôn ngữ, nghiên cứu xây dựng giải thuật để giải quyết vấn đề này.
- Khi chuyển đổi luật sinh giữa hai ngôn ngữ, đòi hỏi các từ loại phải ánh xạ với nhau là 1-1. Điều này có nghĩa là mỗi từ loại trong một câu của ngôn ngữ tiếng Anh phải được ánh xạ 1-1 với ngôn ngữ tiếng Việt. Nhưng trong thực tế, không nhất thiết lúc nào cũng phải ánh xạ nhau 1:1 mà có thể lược bỏ hoặc thêm vào những từ loại khác miễn đáp ứng đủ nghĩa cho câu. Vấn đề này sẽ khó khăn trong quá trình xử lý cú pháp tiếng Việt mà luật sinh được ánh xạ từ luật sinh tiếng Anh. Ta lấy ví dụ đơn giản cho trường hợp luật sinh có mạo từ.
Ví dụ: Xét câu tiếng Anh: “The burglar robbed the apartment .”
Chuyển quả câu tiếng Việt sẽ là: “Kẻ trộm đã cướp căn phòng .”
Nếu xét về từ loại câu tiếng Anh trên sẽ là: “DT NN VBD DT NN” nhưng với câu tiếng Việt sẽ là “NN VBD NN” mặc dù vẫn hiểu DT là được xác định một đối tượng cụ thể đã biết trước đó nhưng trong tiếng Việt chúng ta rất khó tìm từ để thay thế cho từ loại này. Như từ DT NN ở đầu câu chúng ta có thể được tạm dịch là “kẻ trộm ấy” nhưng còn DT sau thì sao? Đây là một trong những vấn đề gây khó khăn khi phân tích cú pháp tiếng Việt mà dựa trên tập luật tiếng Anh.
» Tin mới nhất:
» Các tin khác: