Công nghệ thông tin phát triển đã mang lại cho nhân loại nhiều lợi ích và giúp giải quyết những công việc tưởng chừng như con người không thể giải quyết được, chẳng hạn như các bài toán về sinh học, về biến đổi các protein trong cơ thể người. Trong quá trình phát triển của công nghệ thông tin, chúng ta đã thu thập được một khối lượng lớn dữ liệu. Và trong chính những cơ sở dữ liệu này tiềm ẩn rất nhiều tri thức có ích mà con người chưa khám phá. Do vậy đã có một nhu cầu rất thiết thực là tìm kiếm được những tri thức trong những kho dữ liệu.
Hiện nay, trên cơ sở lý thuyết về cơ sở dữ liệu và những kết quả đạt được từ những hướng nghiên cứu ứng dụng trí tuệ nhân tạo, Khai phá dữ liệu (Data Mining) đã và đang mang lại nhiều lợi ích lớn lao trong việc khai thác thông tin một cách hữu ích. Bằng chứng là ngày càng có nhiều ngành, nhiều nghề sẽ không hoạt động hiệu quả nếu thiếu các hỗ trợ từ máy tính cũng như phần mềm máy tính.
Khai phá dữ liệu bao gồm nhiều hướng tiếp cận. Các kỹ thuật chính được áp dụng trong lĩnh vực này là phân lớp và dự báo, luật kết hợp, phân cụm và phân đoạn, khai phá mẫu theo thứ tự/ theo thời gian v.v ... Trong đó, khai phá luật kết hợp là một kỹ thuật quan trọng của khai phá dữ liệu. Mục đích của khai phá luật kết hợp là tìm tất cả các tập con, các đối tượng hoặc các thuộc tính xuất hiện thường xuyên trong nhiều giao dịch hoặc bản ghi trong cơ sở dữ liệu và rút ra được các luật về một tập con đối tượng có ảnh hưởng tới sự xuất hiện của tập con các đối tượng khác như thế nào.
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm 1980. Nó bao gồm các kỹ thuật nhằm phát hiện ra các thông tin có giá trị tiềm ẩn trong các tập dữ liệu lớn. Data mining là giai đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu, các tri thức này hỗ trợ trong việc ra các quyết định trong kinh doanh và khoa học.
Một ví dụ ứng dụng của Data Mining là phân tích tình hình kinh doanh của một cửa hàng. Cửa hàng này tạo lập một cơ sở dữ liệu lưu trữ thông tin các mặt hàng bán ra theo từng ngày. Từ đó, tổng hợp được số lượng bán ra của các mặt hàng theo từng tháng, ta có bảng dữ liệu được nêu trong hình 1.1
Tháng/năm |
Mặt hàng |
Số lượng |
01/2010 |
Bánh |
50 |
01/2010 |
Kẹo |
30 |
01/2010 |
Sữa |
60 |
.... |
.... |
... |
12/2010 |
Bánh |
50 |
12/2010 |
Kẹo |
20 |
12/2010 |
Sữa |
60 |
.... |
.... |
... |
01/2011 |
Bánh |
50 |
01/2011 |
Kẹo |
20 |
01/2011 |
Sữa |
80 |
.... |
... |
... |
Bảng 1.1: Bảng tổng hợp số lượng các mặt hàng được bán ra
Vấn đề đặt ra là dự đoán xem trong tương lai 3 tháng tiếp theo mặt hàng nào sẽ bán chạy nhất, số lượng bao nhiêu? Nếu khách hàng mua mặt hàng X nào đó thì sẽ mua thêm mặt hàng gì? Năm đến sẽ đầu tư kinh doanh mặt hàng nào? Rõ ràng, người bán hàng khó có thể lấy số lượng bán cùng kỳ năm trước để dự đoán cho cùng kỳ năm nay, mà người bán phải căn cứ vào toàn bộ số liệu của nhiều năm trước đó. Data Ming phải “học” được các số liệu đó và tìm ra được qui luật của toàn bộ số liệu và từ đó dự đoán số liệu trong tương lai.
» Tin mới nhất:
» Các tin khác: