1. Lợi thế của khai phá dữ liệu so với các phương pháp
Khai phá dữ liệu thực chất không có gì mới mà hoàn toàn dựa trên các phương pháp đã biết. Vậy Khai phá dữ liệu có gì khác so với các phương pháp đó và tại sao Khai phá dữ liệu lại có ưu thế hơn hẳn? Các phân tích sau sẽ giải đáp câu hỏi này
- Học máy (machine learning)
Tuy phương pháp học máy đã được cải tiến để có thể phù hợp với mục đích Khai phá dữ liệu, nhưng sự khác biệt giữa thiết kế, các đặc điểm của cơ sở dữ liệu đã làm nó trở nên không phù hợp với mục đích này, mặc dầu đến nay phần lớn các phương pháp Khai phá dữ liệu vẫn dựa trên nền tảng cơ sở của phương pháp học máy.
Trong các hệ quản trị cơ sở dữ liệu, một cơ sở dữ liệu là một tập hợp dữ liệu được tích hợp một cách logic, được lưu trữ trong một hay nhiều tệp và được tổ chức để lưu trữ, sửa đổi và lấy thông tin một cách hiệu quả và dễ dàng. Trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập các mẫu (instance hay example) được lưu trong một tệp. Các mẫu thường là các vector thuộc tính có độ dài cố định, thông tin về tên thuộc tính và dãy các giá trị của chúng đôi khi cũng được lưu lại như trong từ điển dữ liệu. Một thuật toán học còn sử dụng tập dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào và đầu ra biểu thị kết quả của việc học
Với so sánh cơ sở dữ liệu thông thường và cơ sở dữ liệu trong học máy như trên, có thể thấy là học máy có khả năng áp dụng cho cơ sở dữ liệu, bởi vì không phải học trên tập các mẫu mà học trên tệp các bản ghi của cơ sở dữ liệu. Tuy nhiên, KDD làm tăng thêm các khó khăn vốn đã là điển hình trong học máy và đã vượt qua khả năng của học máy. Trong thực tế cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho hầu hết các thuật toán học máy trở nên không hiệu quả trong hầu hết các trường hợp. Vì vậy, trong khai phá dữ liệu cần tập trung rất nhiều công sức vào việc vượt qua những vấn đề này trong cơ sở dữ liệu
- Phương pháp hệ chuyên gia
Các hệ chuyên gia cố gắng nắm bắt các tri thức thích hợp với một bài toán nào đó. Các kỹ thuật thu thập giúp cho việc lấy tri thức từ chuyên gia con người. Mỗi phương pháp đó là một cách suy diễn các luật từ các ví dụ và giải pháp đối với bài toán chuyên gia đưa ra. Phương pháp này khác với Khai phá dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn rất nhiều so với các dữ liệu trong cơ sở dữ liệu và chúng thường chỉ bao quát được các trường hợp quan trọng. Hơn nữa, các chuyên gia sẽ xác nhận tính có giá trị và hữu dụng của các mẫu phát hiện được. Cũng như với các công cụ quản trị cơ sở dữ liệu, ở phương pháp này đòi hỏi có sự tham gia của con người trong việc phát hiện tri thức.
- Phát kiến khoa học
Khai phá dữ liệu rất khác với phát kiến khoa học ở chỗ những khai phá trong cơ sở dữ liệu ít có chủ tâm và có điều khiển hơn. Các dữ liệu khoa học có từ thực nghiệm nhằm loại bỏ một số tác động của các tham số để nhấn mạnh độ biến thiên của một hay một số tham số đích. Tuy nhiên, các cơ sở dữ liệu thương mại thường ghi lại một số lượng thừa thông tin về các dự án của họ để đạt được một số mục đích về mặt tổ chức. Sự dư thừa này có thể là hiện nay hay ẩn chứa trong các mối quan hệ dữ liệu. Hơn nữa, các nhà khoa học có thể tạo lại các thí nghiệm và có thể
2. Những thách thức trong khai phá dữ liệu
Khi khai phá dữ liệu gặp phải những thách thức sau đây:
- Cơ sở dữ liệu lớn: kích thước của cơ sở dữ liệu được nhận biết thông qua số lượng các mẫu tin, các thuộc tính (hay các biến) và các bảng, số lượng có thể là hàng trăm thuộc tính và bảng, hàng triệu các mẫu tin. Như vậy, kích thước của cơ sở dữ liệu tính bằng terabyte (1012 byte) đã bắt đầu xuất hiện. Dữ liệu với số chiều (tương ứng với thuộc tính khi biểu diễn qua không gian các mẫu dữ liệu) cao tạo nên sự gia tăng về kích thước của không gian tìm kiếm trong việc quy nạp mô hình, một sự bùng nổ về tổ hợp. Khi xây dựng mô hình chỉ một tập con trong cơ sở dữ liệu tham gia, vì vậy tính may rủi trong các thuật toán khai phá sẽ tìm được các mẫu không có giá trị trong trường hợp tổng quát. Một giải pháp cho vấn đề này là giảm bớt đáng kể số chiều của bài toán và sử dụng tri thức trước (prior knowledge) để nhận biết các biến ít liên quan.
- Vấn đề “quá khớp” (Over-fitting): Khi thuật toán khai phá tìm kiếm với các tham số tốt nhất cho một mô hình đặc biệt và một giới hạn của tập dữ liệu, mô hình ấy có thể “quá khớp” trên tập dữ liệu ấy nhưng lại thi hành không chính xác trên tập dữ liệu kiểm tra. Một giải pháp thường được sử dụng là thẩm định chéo.
- Thay đổi dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi nhanh chóng có thể dẫn đến những mẫu đã khai phá trước đây không còn hiệu lực. Thêm vào đó, các biến đã được đo trong cơ sở dữ liệu ứng dụng đã bị thay đổi, bị xóa hoặc đã tăng lên với một độ đo mới. Điều này có thể được thực hiện bằng cách gia tăng các phương thức cập nhật các mẫu và xem xét các thay đổi như là một cơ hội cho việc khám phá bằng việc sử dụng nó để xử lý thích hợp việc tìm kiếm các mẫu chỉ với sự thay đổi.
- Dữ liệu thiếu và nhiễu: Đây là vấn đề rất được quan tâm trong khai phá dữ liệu, điều này thường dẫn đến việc dự đoán thiếu chính xác.
- Tích hợp với hệ thống: Hệ thống khai phá dữ liệu thực sự là hữu ích khi phải được tích hợp với cơ sở dữ liệu thông qua các giao diện như truy vấn, bảng tính và các công cụ trực quan khác. Hơn nữa, phải tạo ra một môi trường thuận lợi cho việc tương tác với người dùng.
» Tin mới nhất:
» Các tin khác: