Các kỹ thuật khai thác dữ liệu được chia thành 2 nhóm chính:
- Nhóm mô tả dữ liệu: có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ liệu trong cơ sở dữ liệu hiện có gồm các kỹ thuật: phân cụm (clustering), luật kết hợp (Association rules), tóm tắt (Sumerization), trực quan hóa (Visualization), ...
- Nhóm dự đoán: đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời, gồm có các kỹ thuật: phân lớp (Classification), hồi quy (Regession).
Trong đó, có 3 kỹ thuật thông dụng nhất được sử dụng để khai thác dữ liệu là: phân cụm dữ liệu, phân lớp và dự đoán, luật kết hợp.
- Phân lớp và dự đoán (Classification & Prediction): xếp đối tượng vào một trong các lớp đã biết trước. Ví dụ như phân loại cước hoặc dịch vụ dựa trên số máy bị gọi của cuộc gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp điểm dựa trên giờ bắt đầu đàm thoại v.v... Phân lớp là một lĩnh vực rất quan trọng trong khai phá dữ liệu. Phân lớp còn được gọi là học có giám sát (supervised learning), hướng tiếp cận này thường sử dụng một số kỹ thuật như cây quyết định (decision tree), mạng nơ-ron nhân tạo (neural network).
- Phân tích luật kết hợp: là một trong những phương pháp của Data Mining. Nhiệm vụ của phương pháp này là phân tích dữ liệu trong cơ sở dữ liệu nhằm phát hiện và đưa ra những mối liên hệ giữa các giá trị dữ liệu. Đó chính là tập các luật kết hợp. Luật kết hợp thu được thường có dạng một mệnh đề có 2 vế: A => B. Trong đó, A là tiền đề, B là mệnh đề kết quả. Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (Support) và độ tin cậy (Confidence). Khai thác các luật kết hợp từ cơ sở dữ liệu là việc tìm các luật có độ hỗ trợ và độ tin cậy lớn hơn ngưỡng mà người sử dụng xác định từ trước.
Luật kết hợp tuy khá đơn giản nhưng những thông tin mà luật đem lại là rất đáng kể và hỗ trợ không nhỏ trong quá trình ra quyết định. Tìm kiếm các luật “quý hiếm” và mang nhiều thông tin từ cơ sở dữ liệu giao dịch (transactional database) là một trong những hướng tiếp cận chính trong khai thác dữ liệu.
- Phân cụm dữ liệu (Clustering): mục tiêu chính của phương pháp phân cụm dư liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một lớp là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu là một phương pháp học không có thầy. Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì thế, có thể coi phân cụm dữ liệu là một cách học bằng phương pháp quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Với phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Vì vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được. Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web ... Ngoài ra, phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai thác khác.
» Tin mới nhất:
» Các tin khác: