Data Mining adalah serangkaian proses untuk menggali
nilai tambah berupa informasi yang selama ini tidak diketahui secara manual
dari suatu basisdata dengan melakukan penggalian pola-pola dari data dengan
tujuan untuk memanipulasi data menjadi informasi yang lebih berharga yang
diperoleh dengan cara mengekstraksi dan mengenali pola yang penting atau
menarik dari data yang terdapat dalam basisdata.
Data Mining sendiri dianggap penting pada industry informasi
Karena tersedianya data dalam jumlah yang besar dan semakin besarnya kebutuhan
untuk mengubah data tersebut menjadi informasi dan pengetahuan yang berguna.
Data Mining sendiri dikenal dengan beberapa nama lain
seperti :
- Knowlegde discovery (mining) in databases
- Ekstrasi Pengetahuan (knowledge extraction)
- Analisa data/pola dan kecerdasan bisnis
Dalam data
mining terdapat beberapa istilah
khusus, antara lain :
- Data cleaning (untuk menghilangkan oise data yang
tidak konsisten).
- Data integration (di mana sumber data yang terpecah
dapat disatukan).
- Data selection (di mana data yang relevan dengan
tugas analisis dikembalikan ke dalam database).
- Data transformation (di mana data berubah atau
bersatu menjadi bentuk yang tepat untuk menambang dengan ringkasan performa
atau operasi agresi).
- Data mining (proses esensial di mana metode yang
intelejen digunakan untuk mengekstrak pola data).
- Pattern evolution (untuk mengidentifikasi pola yang
benar-benar menarik yang mewakili pengetahuan berdasarkan atas beberapa
tindakan yang menarik).
- Knowledge presentation (Di mana gambaran teknik
visualisasi dan pengetahuan digunakan untuk memberikan pengetahuan yang telah
ditambang kepada user).
Secara umum definisi data-mining dapat diartikan
sebagai berikut :
- Proses penemuan pola yang menarik dari data yang
tersimpan dalam jumlah besar.
- Ekstraksi dari suatu informasi yang berguna atau
menarik (non-tribial, implisit, sebelumnya belum diketahui potensial
kegunaannya) pola atau pengetahuan dari data yang disimpan dalam jumlah besar.
- Eksplorasi dari analisa secara otomatis atau
semiotomatis terhadap data-data jumlah besar untuk mencari pola dan aturan yang
berarti.