2.1. Tài liệu
Greenstone hỗ trợ các loại tài liệu dạng HTML, XHTML và XML, TXT, các dạng phức tạp như Word, RTF hoặc dạng được sử dụng phổ biến trên nhiều môi trường như PDF, PostScript, dạng multi-media như âm thanh (ví dụ .mp3), hình ảnh, phim…
2.2. Bộ sưu tập
Một thư viện số do Greenstone tạo ra chứa được nhiều bộ sưu tập. Mỗi bộ sưu tập tập trung vào một chủ đề nào đó. Ví dụ, bộ sưu tập Luận văn, bộ sưu tập Sách… Các bộ sưu tập có thể được bổ sung cập nhật. Kích thước bộ sưu tập có thể lên đến hàng gigabyte dữ liệu. Bộ sưu tập có thể xem là đơn vị của một thư viện số Greenstone.
2.3. Tìm kiếm
Mặc định, các bộ sưu tập cho phép tìm kiếm trên toàn bộ nội dung văn bản. hoặc có thể tìm trên từng vùng (section) hay đoạn (paragraph). Cũng có thể tìm kiếm theo các từ khoá, hay các cụm từ, và kết quả sẽ được sắp xếp thứ tự theo yêu cầu của câu truy vấn.
2.4. Duyệt tài liệu
Greenstone cho phép định nghĩa trước các cấu trúc để duyệt tài liệu trong mỗi bộ sưu tập dựa trên những metadata tìm thấy trong bộ sưu tập đó Ví dụ, bộ sưu tập Greenstone Demo cho phép ta duyệt các tài liệu theo metadata “đề mục”
Hình 2.1 - Minh hoạ duyệt tài liệu
Với những tài liệu phân cấp theo bảng mục lục, ta có thể duyệt theo chính mục lục đó, rất tiện lợi, như hình dưới đây.
Hình 2.2 - Minh hoạ duyệt tài liệu được phân cấp
2.5. Metadata
Là thông tin mô tả cho một tài liệu trong bộ sưu tập, ví dụ tựa đề tài liệu, tên tác giả, ngày xuất bản… Greenstone dùng các thẻ XML để mô tả thông tin cho tài liệu, ví dụ: Tìm hiểu nguồn mở Greenstone Quy,Quỳnh Các thẻ này có thể:
- Được nhúng trong tài liệu của bộ sưu tập, ví dụ các thẻ HTML trong tài liệu HTML.
- Được lưu thành tập tin metadata kèm theo tài liệu.
- Được trích một cách tự động từ một tài liệu nào đó, ví dụ thông tin về tên, kích thước, ngày tạo, ngày hiệu chỉnh … tập tin tài liệu.
2.6. Biên mục Biên mục là khái niệm của nghiệp vụ thư viện để chỉ hành động cung cấp thông tin mô tả cho các tài liệu trong thư viện. Hiện nay người ta thường biên mục tài liệu theo chuẩn quốc tế Dublin Core. 2.7. Plugin 2.7.1. Giới thiệu Plugin là một chương trình con (script) được dùng trong quá trình xây dựng bộ sưu tập. Do nguồn vào có nhiều dạng tài liệu khác nhau (pdf, word, text…) nên cần plugin chuyển chúng về một dạng thống nhất là XML của Greenstone và trích thông tin từ những tài liệu nguồn đưa vào tập tin XML này. Ví dụ một plugin là HTMLPlug chuyển những trang HTML nguồn sang định dạng XML của Greenstone và trích thông tin metadata của tài liệu nguồn, ví dụ phần tiêu đề của trang HTML được bao trong cặp tag được trích ra và đưa vào tập tin XML của Greenstone. Mỗi bộ sưu tập có một tập tin cấu hình collect.cfg. Tập tin này liệt kê các plugin được dùng trong quá trình xây dựng bộ sưu tập. Tùy theo tài liệu nguồn có định dạng thế nào, ta sẽ chọn các plugin tương ứng. Ví dụ nếu tài liệu nguồn là tập tin word thì ta dùng plugin WordPlug. Các plugin được viết bằng ngôn ngữ lập trình Perl. Mọi plugin đều kế thừa từ plugin cơ sở BasPlug. Plugin cơ sở BasPlug thực hiện những thao tác cơ bản như tạo tài liệu mới XML theo định dạng của Greenstone, gán định danh cho tài liệu. Các plugin được đặt trong thư mục “greenstone\perllib\plugins”. Để tìm hiểu thông tin của một plugin, ta dùng lệnh sau ở chế độ command prompt: pluginfo.pl plugin-name. Ta cũng có thể viết các plugin mới.
2.7.2. Danh sách các plugin
BasPlug Là lớp cơ sở cho tất cả các plugin
ConvertToPlug Gọi các chương trình bên ngoài để chuyển các tài liệu độc quyền (wo
ArcPlug Xử lý những tập tin được chỉ ra trong tập tin archives.inf, tập tin archive.inf là cầu nối giữa tiến trình import và tiến trình build. Plugin này bắt buộc phải khai báo trong tập tin cấu hình
RecPlug Duyệt qua thư mục để xử lý các tập tin mà plugin này tìm thấy
GAPlug Xử lý những tập tin của Greenstone được phát sinh từ chương trình import.pl (xml)
TEXTPlug Xử lý tập tin text thuần túy (.txt, .text)
HTMLPlug Xử lý tập tin HTML (.htm, .html, .cgi, .php, .asp, .shm, .shtml)/( .gif, .jpg, .jpeg, .png, .css, .rtf)
WordPlug Xử lý tài liệu Word (.doc)/(.gif, .jpg, .jpeg, .png, .css, .rtf)
PDFPlug Xử lý tập tin pdf (.pdf) /(.gif, .jpg, .jpeg, .png, .css, .rtf)
PSPlug Xử lý tài liệu postscript, trích thông tin metadata ngày, tựa đề, số trang (.ps)/(.eps)
SplitPlug Giống BasPlug và ConvertToPlug. Không dùng trực tiếp plugin này, plugin này phải được kế thừa lại để xử lý tài liệu.
FOXPlug Xử lý các tập tin FoxBase (.dbt, .dbf)
ZIPPlug Xử lý các tập tin nén (gzip, .bzip, .zip, .tar, .gz, .bz, .tgz, .taz)
2.7.3. Các plugin xử lý tài liệu độc quyền
Đối với tài liệu độc quyền như word, pdf, ta dùng các plugin tương ứng là WordPlug và PDFPlug. Các plugin này thực hiện 2 thao tác:
1. Chuyển tài liệu nguồn sang dạng html hay plain text
2. Sử dụng plugin HTMLPlug hay TEXTPlug chuyển kết quả ở bước 1 sang dạng XML của Greenstone.
Để chuyển tài liệu nguồn sang dạng html hay plain text, Greenstone dùng những chương trình có sẵn như pdftohtml, wvware trong thư mục “greenstone\bin\windows”. Các plugin WordPlug và PDFPlug kế thừa từ plugin ConvertToPlug. Tùy chọn convert_to của plugin ConvertToPlug cho biết chuyển sang dạng tài liệu nào.
Hình 2.3 - Cây kế thừa của các plugin xử lý tài liệu độc quyền
2.7.4. Gán thông tin metadata từ một tập tin mô tả
Các thông tin metadata cho một tài liệu có thể được đặc tả trong một tập tin XML metadata.xml. Nếu tùy chọn use_metadata_files của plugin RecPlug được chỉ ra, plugin này sẽ gán thông tin metadata có trong tập tin metadata.xml vào tập tin XML chuyển đổi từ tài liệu nguồn.
Hình 2.4 - Định nghĩa kiểu tài liệu XML của tập tin metadata.xml
Hình 2.5 -Ví dụ một tập tin metadata.xml
Ví dụ trên chứa 2 cấu trúc metadata. Ở mỗi cấu trúc, trường FileName đặc tả tên các tập tin cần gán thông tin metadata. Ở cấu trúc thứ nhất, thông tin metadata sẽ được gán cho các tập tin được bắt đầu với chữ “vidu”. Những thông tin metadata Title và Place có giá trị tương ứng là “Đây là ví dụ”, “Sách giáo khoa”. Ở cấu trúc thứ hai, metadata Title của tập tin vidu-1.jpg có giá trị “Đây là ví dụ 1” sẽ override thông tin metadata Title đã được đặc tả ở cấu trúc metadata thứ nhất. Tập tin vidu1.jpg còn được cung cấp thêm metadata Subject với giá trị là “Thư viện số”. Với một metadata có nhiều giá trị phải dùng thuộc tính mode = “accumulate”, nếu không metadata đặc tả sau sẽ override metadata trước (giá trị mặc định là mode = “override”) Đối với plugin RecPlug, nếu tùy chọn use_metadata_files được chọn, RegPlug sẽ tìm trong thư mục tài liệu nguồn tập tin metadata.xml, sau đó gán thông tin metadata trong tập tin metadata.xml này cho các tập tin và thư mục con trong thư mục tài liệu nguồn.
2.7.5. Chia cấu trúc tài liệu nguồn Có thể chia tài liệu nguồn có cấu trúc phân cấp thành nhiều vùng (section), mỗi vùng được bao bằng cặp thẻ, các cặp thẻ
Hình 2.6 - Minh họa cách chia section cho tài liệu
Giữa cặp thẻ
Title cho section. Ta chỉ có thể thêm các thẻ section vào tài liệu nguồn dạng html, word vì:
- Đối với tập tin html, các văn bản trong vùng được xem như dòng ghi chú, do đó các thẻ
- Đối với tập tin word, việc chuyển sang XML của Greenstone phải qua bước trung gian là chuyển sang tập tin html nên việc chèn các thẻ
Ví dụ một tài liệu có cấu trúc phân cấp:
Sau khi chèn các cặp thẻ
Sau khi xây dựng bộ sưu tập từ tài liệu nguồn đã chèn các cặp thẻ
Hình 2.7 - Hiển thị nội dung tài liệu trên trình duyệt web
Giả sử ta muốn xem nội dung Chương 1, ta click vào link Chương 1: Tổng quan về đề tài, nội dung hiển thị như sau:
Hình 2.8 - Hiển thị nội dung của một chương cụ thể
2.8. Classifier
2.8.1. Giới thiệu
Classifier dùng để xây dựng cấu trúc duyệt tài liệu trên web của một bộ sưu tập. Tương tự các plugin, các classifier được đặc tả trong tập tin cấu hình collect.cfg của mỗi bộ sưu tập. Trong pha cuối cùng của quá trình xây dựng bộ sưu tập (nén và tạo chỉ mục trên tài liệu), các classifier được script buildcol.pl gọi sẽ lưu cấu trúc duyệt tài liệu vào cơ sở dữ liệu bộ sưu tập.
Cú pháp: classify
Ví dụ: classify AZList -metadata Title -buttonname TitleA-Z
Trong dòng đặc tả có một tham số quan trọng là metadata xác định rằng các tài liệu của bộ sưu tập sẽ được sắp xếp theo metadata đã được chỉ ra. Với ví dụ trên, các tài liệu được sắp xếp theo tựa đề của tài liệu (Title)
Tham số buttonname xác định tên nút xuất hiện trên thanh duyệt. Với dòng đặc tả trên, khi ta click vào nút TitleA-Z trên thanh duyệt, các tài liệu của bộ sưu tập được liệt kê theo thứ tự từng vùng alphabet.
Hình 2.9 - Dùng AZList để liệt kê các tài liệu theo từng vùng alphabet
Các classifier được đặt trong thư mục greenstone\perllib\classify. Để biết thông tin của classifier, dùng lệnh: classinfo.pl. Ta có thể viết các classifier mới.
Những nút trên thanh duyệt, ngoại trừ nút Search, được quản lý bởi các classifier. Khi định nghĩa một classifier trong tập tin collect.cfg, những nút liên quan sẽ xuất hiện trên thanh duyệt.
2.8.2. Phân loại Nhóm classifier liệt kê tài liệu dưới dạng danh sách (list) Classifier AZList: liệt kê tài liệu theo từng vùng alphabet.
Hình 2.10 - Minh họa classifier AZList
Classifier List: liệt kê tài liệu thành một danh sách sắp thứ tự alphabet
Hình 2.11 - Minh họa classifier List
Classifier DateList: liệt kê tài liệu theo từng vùng thời gian
Hình 2.12 - Minh họa classifier DateList
Nhóm classifier liệt kê tài liệu dưới dạng phân cấp (hierarchy)
Classifier Hierarchy: liệt kê các tài liệu dưới dạng phân cấp
Hình 2.13 - Minh họa classifier Hierarchy
» Tin mới nhất:
» Các tin khác: