Trong nhiều trường hợp ta có một tập dữ liệu lớn chưa có nhãn (đánh dấu xem một phần tử dữ liệu là thuộc lớp nào), lý do là việc gán nhãn cho các phần tử dữ liệu là rất tốn kém.
Ví dụ trong cơ sở dữ liệu của ngân hàng chứa một số lượng lớn các giao dịch của khách hàng, việc gán nhãn cho các khách hàng nào thuộc khách hàng tiềm năng có thể mang lại lợi nhuận cho ngân hàng là điều rất khó thực hiện.
Một trong những giải pháp để xử lý vấn đề này là tự động nhóm các phần tử dữ liệu có độ tương tự nhau (giống nhau) vào cùng một cụm được gọi là phân cụm dữ liệu (clustering). Các phần tử trong cùng một cụm sẽ có độ tương tự lớn, và độ tương tự giữa các phần tử trong cùng một cụm sẽ lớn hơn độ tương tự giữa nó với một phần tử dữ liệu trong cụm khác. Phân cụm dữ liệu được ứng dụng để giải quyết một khâu hay toàn bộ bài toán khai phá dữ liệu.
Nội dung tài liệu sẽ giới thiệu về bài toán phân cụm dữ liệu, một số ứng dụng của phân cụm và một số giải thuật phân cụm điển hình.
» Danh sách Tập tin đính kèm:
» Tin mới nhất:
» Các tin khác: