Materi Tentang Data Mining Lengkap
Materi Tentang Data Mining Lengkap
Oleh
Materi Tentang Data Mining Lengkap – Banyak sekali definisi mengenai apa itu data mining. Data mining merupan suatu alat yang memungkinkan para pengguna untuk mengakses secara cepat data dengan jumlah yang besar.
Pengertian
yang lebih khusus dari data mining, yaitu suatu alat dan aplikasi menggunakan
analisis statistik pada data.
Data
mining adalah suatu proses ekstraksi atau penggalian data dan informasi yang
besar, yang belum diketahui sebelumnya, namun dapat dipahamidan berguna dari
database yang besar serta digunakan untuk membuat suatu keputusanbisnis yang
sangat penting.
Data
mining menggambarkan sebuah pengumpulan teknik-teknik dengan tujuan untuk
menemukan pola-pola yang tidak diketahui pada data yang telah dikumpulkan. Data
mining memungkinkan pemakai menemukan pengetahuan dalam data database yang
tidak mungkin diketahui keberadaanya oleh pemakai.
Pengertian
Data Mining
Data
mining adalah sebuah proses percarian secara otomatis informasi yang berguna
dalam tempat penyimpanan data berukuran besar.
Istilah
lain yang sering digunakan diantaranya knowledge discovery (mining) in
databases (KDD), knowledge extraction, data/pattern analysis, data archeology,
data dredging, information harvesting, dan business intelligence.
Teknik
data mining digunakan untuk memeriksa basis data berukuran besar sebagai cara
untuk menemukan pola yang baru dan berguna. Tidak semua pekerjaan pencarian
informasi dinyatakan sebagai data mining.
Sebagai
contoh, pencarian record individual menggunakan database management system atau
pencarian halaman we tertentu melalui kueri ke semua search engine adalah
pekerjaan pencarian informasi yang erat kaitannya dengan information retrieval.
Teknik-teknik
data mining dapat digunakan untuk meningkatkan kemampuan sistem-sistem
information retrieval.
Data
mining adalah bagian integral dari knowledge discovery in databases
(KDD).Keseluruhan proses KDD untuk konversi raw data ke dalam informasi yang
berguna ditunjukkan dibawah ini :
Data
input dapat disimpan dalam berbagai format seperti flat file, spreadsheet, atau
tabel-tabel relasional, dan dapat menempati tempat penyimpanan data terpusat
atau terdistribusi pada banyak tempat.
Tujuan
dari preprocessing adalah mentransformasikan data input mentah ke dalam format
yang sesuai untuk analisis selanjutnya.
Langkah-langkah
yang terlibat dalam preprocessing data meliputi mengabungkan data dari berbagai
sumber, membersihkan (cleaning) data untuk membuang noise dan observasi
duplikat, dan menyeleksi record dan fitur yang relevan untuk pekerjaan data
mining.
Karena
terdapat banyak cara mengumpulkan dan menyimpan data, tahapan preprocessing
data merupakan langkat yang banyak menghabiskan waktu dalam KDD.
Hasil
dari data mining sering kali diintegrasikan dengan decision support system
(DSS). Sebagai contoh, dalam aplikasi bisnis informasi yang dihasilkan oleh
data mining dapat diintegrasikan dengan tool manajemen kampanye produk sehingga
promosi pemasaran yang efektif yang dilaksanakan dan dapat diuji.
Integrasi
demikian memerlukan langkah post processing yang menjamin bahwa hanya hasil
yang valid dan berguna yang akan digabungkan dengan DSS.
Salah
satu pekerjaan dan postprocessing adalah visualisasi yang memungkinkan analyst
untuk mengeksplor data dan hasil data mining dari berbagai sudur pandang.
Ukuran-ukuran statistik dan metode pengujian hipotesis dapat digunakan selama
post processing untuk membuang hasil data mining yang palsu.
Baca
juga refrensi artikel terkait lainnya disini :18 Pengertian Website Menurut Para Ahli ( Contoh, Jenis, Manfaat )
Secara
khusus, data mining menggunakan ide-ide seperti (1) pengambilan contoh, estimasi,
dan pengujian hipotesis, dari statistika dan (2) algoritme pencarian, teknik
pemodelan, dan teori pembelajaran dari kecerdasan buatan, pengenalan pola, dan
machine learning.
Data
mining juga telah mengadopsi ide- ide dari area lain meliputi optimisasi,
evolutionary computing, teori informasi, pemrosesan sinyal, visualisasi dan
information retrieval.
Sejumlah
area lain juga memberikan peran pendukung dalam data mining, seperti sistem
basis data yang dibutuhkan untuk menyediakan tempat penyimpanan yang efisien,
indexing dan pemrosesan kueri. ditunjukkan hubungan data
mining dengan area- area lain dibawah ini.
Istilah
dalam Data Mining
Knowledge
Presentation (di
mana gambaran teknik visualisasi dan pengetahuan digunakan untuk memberikan
pengetahuan yang telah ditambang kpada user).
Data
Selection (di
mana data yang relevan dengan tugas analisis dikembalikan ke dalam database)
Data
Transformation (di
mana data berubah atau bersatu menjadi bentuk yang tepat untuk menambang dengan
ringkasan performa atau operasi agresi)
Data
Cleaning (untuk
menghilangkan noise data yang tidak konsisten)
Data
Integration (di
mana sumber data yang terpecah dapat disatukan)
Data
Mining (proses
esensial di mana metode yang intelejen digunakan untuk mengekstrak pola data)
Pattern
Evolution (untuk
mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan
berdasarkan atas beberapa tindakan yang menarik)
Fungsi
Data Mining
Fungsi
Data mining adalah mengidentifikasi fakta- fakta atau
kesimpulan-kesimpulan yang di sarankan berdasarkan penyaringan melalui data
untuk menjelajahi pola-pola atau anomali-anomali data. Data Mining mempunyai 5
fungsi:
Classification,
yaitu menyimpulkan definisi-definisi karakteristik sebuah grup. Contoh:
pelanggan-pelanggan perusahaan yang telah berpindah kesaingan perusahaan yang
lain.
Clustering,
yaitu mengindentifikasikan kelompok-kelompok dari barang-barang atau
produk-produk yang mempunyai karakteristik khusus(clustering berbeda dengan
classification, dimana pada clustering tidak terdapat definisi-definisi
karakteristik awak yang di berikan pada waktu classification.)
Association,
yaitu mengidentifikasikan hubungan antara kejadian-kejadian yang terjadi pada
suatu waktu, seperti isi-isi dari keranjang belanja.
Sequencing
Hampir sama dengan association, sequencing mengidentifikasikan hubungan-hubungan
yang berbeda pada suatu periode waktu tertentu, seperti pelanggan-pelanggan
yang mengunjungi supermarket secara berulang-ulang.
Forecasting
memperkirakan nilai pada masa yang akan datang berdasarkan pola-pola dengan
sekumpulan data yang besar, seperti peramalan permintaan pasar.
Tujuan
Data Mining
Explanatory adalah Untuk menjelaskan
beberapa kondisi penelitian, seperti mengapa penjualan truk pick up meningkat
di colorado.
Confirmatory Untuk mempertegas
hipotesis, seperti halnya 2 kali pendapatan keluarga lebih suka di pakai untuk
membeli peralatan keluarga, di bandingkan dengan satu kali pendapatan keluarga.
Exploratory Menganalisis data untuk
hubungan yang baru yang tidak di harapkan, seperti halnya pola apa yang cocok
untuk kasus penggelapan kartu kredit.
Metode
Data Mining
sebagai
salah satu bagian dari sistem informasi, data mining menyediakan perencanaan
dari ide hingga implementasi akhir. Komponen-komponen dari rencana data mining
adalah sebagai berikut.
Baca
juga refrensi artikel terkait lainnya disini : √ Pengertian Sistem Informasi Menurut Para Ahli & Komponennya Lengkap
Analisa
Masalah (Analyzing the Problem) Data asal atau data sumber harus bisa ditaksir
untuk dilihat apakah data tersebut memenuhi kriteria data mining.
Kualitas
kelimpahan data adalah faktor utama untuk memutuskan apakah data tersebut cocok
dan tersedia sebagau tambahan. Hasil yang diharapkan dari dampak data mining
harus dengan hati-hati dimengerti dan dipastikan bahwa data yang diperlukan
membawa informasi yang bisa diekstrak.
Mengekstrak
dan Membersihkan Data (Extracting dan Cleansing The Data) Data pertama kli
diekstrak dari data aslinya, seperti dari OLTP basis data, text file, Microsoft
Acces Database, dan bahkan dari spreadsheet, lalu data tersebut diletakan dalam
data warehouse yang mempunyai sruktur yang sesuai dengan data model secara
khas.
Data
Transformation Service (DTS) dipakai untuk mengekstrak dan membersihkan data
dari tidak konsistennya dan tidak kompatibelnya dengan format yang sesuai.
Validitas
Data (Validating the Data) Sekali data telah diekstrak dan dibersihkan, ini
adalh latihan yang bagus untuk menelusuri model yang telah kita ciptakan untuk
memastikan bahwa semua data yang ada adalah data sekarang dan tetap.
Membuat
dan Melatih Model (Creatig and Training the Model) Ketika algoritma diterapkan
pada model, struktur telah dibangun.
Hal
ini sangatlah penting pada saat ini untuk melihat data yang telah
dibangun untuk memastikan bahwa data tersebut menyerupai fakta di dalam
data sumber.
Query
Data dari Model Data Mining (Querying the Model Data) Ketika model yang telah
cocok diciptakan dan dibangun, data yang telah dibuat tersedia untuk mendukung
keputusan.
Hal
ini biasanya melibatkan penulisan front end query aplikasi dengan program
aplikasi/suatu program basis data.
Evaluasi
Validitaas dari Mining Model (Maintaining the Validity of the Data Mining
Model) Setelah moddel data mining terkumpul, lewat bebrapa waktu, karakteristik
data awal seperti granularitas dan validitas mungkin berubah. Karena model data
mining dapat terus berubah seiring perkembangan waktu.
Proses
Data Mining
Fase-fase
dimulai dari data mentah dan berakhir dengan pengetahuan atau informasi yang
telah diolah, yang didapatkan sebagai hasil dari tahapan-tahapan berikut:
Data
Cleansing, juga dikenal sebagai data cleansing, ini adalah sebuah fase dimana
data-data tidak lengkap, mengndung error dan tidk konsisten dibuang dari
koleksi data, sehingga data yang telah bersih relevan dapat digunakan untuk
diproses ulang untuk penggalian pengetahuan(discovery knowledge)
Data
Integration, pada tahap ini terjadi integrasi data,dimana sumber-sumber data
yang berulang(multiple data), file-file yang berulang(multiple file), dapat
dikombinasikan dan digabungkan kedalam suatu sumber.
Selection,
pada langkah ini, data yang relevan terhadap analisis dapat dipilih dan
diterima dari koleksi data yang ada.
Data
Transformation, juga dikenal sebagai data consolidation. Pada tahap ini, dimana
data-data yang telah terpilih, ditransformasikan kedalam bentuk-bentuk yang
cocok untuk prosedur penggalian (meaning proedure) dengan cara melakukan
normalisasi dan agregasi data.
Data
Mining, tahap ini adalah tahap yang paling penting, dengan menggunakan
teknik-teknik yang diaplikasikan untuk mengekstrak pola-pola potensial yang
berguna.
Pattern
Evaluation, pada tahap ini, pola-pola menarik dengan jelas mempresentasikan
pengetahuan telah diidentifikasi berdasarkan measure yang telah diberikan.
Knowledge
Representation, ini merupakan tahap terakhir dimana pengetahuan yang telah
ditemukan secara visual ditampilkan kepada user.Tahap penting ini menggunakan
teknik visualisasi untuk membantu user dalam mengerti dan
menginterpresentasikan hasil dari data mining.
Teknik
Data Mining
A). Sebelum mengetahui teknik-teknik
yang dapat digunakan dalam data mining terdapat empat operasi yang dapat
dihubungkan dengan data mining sebagai berikut.
B). Predictive modeling, ada
dua teknik yang dapat dilakukan dalam predictive modeling, yaitu:
Classification
Digunakan untuk membuat dugaan awal tentang class yang spesifik untuk setiap
record dalam database dari satu setnilai class yang mungkin
Value
Prediction Digunakan untuk memperkirakan nilai numeric yang kontinu yang
trasosiasi dengan record database. Teknik ini menggunakan teknik statistic
klasik dari linier regression dan nonlinier regression.
Baca
juga refrensi artikel terkait lainnya disini : Siklus Hidup Pengembangan Sistem Informasi Terlengkap
C). Database segmentation
Tujuan dabase segmentation adalah untuk mempartisi database menjadi sejumlah
segmen, cluster, atau record yang sama, dimana record tersebut diharapkan
homogen.
D). Link analysis Tujuan link
analysis adalah untuk membuat hubungan antara record yang individual atau
sekumpulan record dalam database. Aplikasi pada link analysis meliputi product
affinity analysis, direct marketing, dan stock price movement.
E). Deviation detection
Teknik ini sering kali merupakan sumber dari penemuan yang benar karena teknik
ini mengidentifikasi outlier yang mengekspresikan deviasi dari ekspektasi yang
telah diketahui sebelumnya.
Operasi
ini dapat ditampilkan menggunakan teknik statistik dan visualisasi. Aplikasi
deviation detection misalnya pada deteksi penipuan dalam penggunaan kartu
kredit dan klaim asuransi, quality control, dan defect tracing. Dalam data
mining terdapat dua tipe teknik yaitu:
Teknik
Klasik (Classical Technique) yang terdiri atas:
Statistic
adalah cabang ilmu matematika yang mempelajari tentang sekumpulan dan deskripsi
data yang akan digunakan dalam membuat laporan tentang informasi yang penting
agar seseorang dapat membuat keputusan yang berguna. Salah satu keuntungan
statistik adalah menampilkan database dalam tampilan ber-level tinggi yang
menyediakan informasi-informasi yang berguna tanpa perlu mengerti setiap record
secara detail.
F). Nearest Neighbour
prediksi pengelompokan dan nearest neighbour merupakan teknik yang tertua yang
digunakan dalam data mining.
Nearest
neighbour merupakan teknik prediksi yang hampir sama dengan pengelompokan,
untuk memperkirakan apakah nilai prediksi ada dalam satu record, mencari
kesamaan nilai prediktor didalam basis data historis dan menggunakan nilai
prediksi dari record yang “Terdekat” untuk tidak membagi-bagikan record.
G). Pengelompokan
(Clustering) merupakan metode yang mengklasifikasikan data kedalam
kelompok-kelompok berdasarkan kriteria masing-masing data.
Biasanya,teknik
ini dipakai untuk memberikan pengguna akhir sebuah gambaran level atas dari apa
yang telah terjadi didalam basis data. Pengelompokan terkadang digunakan untuk
segmentasi.
Teknik
generasi selanjutnya (The Next Generation Technique)
Decision
Tree (Pohon Keputusan) Pohon keputusan merupakan model prediktif
yang dapat digambarkan seperti pohon, dimana setiap node didalam struktur pohon
tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.
Struktur
ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai setiap atribut
data.
Beberapa
hal menarik tentang tree:
Tree
ini membagi data pada setiap cabangnya tanpa kehilangan data sedikit pun.
Jumlah total record pada node parent sama dengan jumlah total record yang ada
node children.
Sangat
mudah dimengerti bagaimana sebuah model dibangun, kebalikan dengan model dari
neural network atau dari statistik standar.
Mudah
untuk menggunakan model ini jika kita mempunyai target pelanggan yang
sepertinya tertarik dengan penawaran marketing.
Dari
perspektif bisnis, decision tree dapat dilihat sebagai pembuatan segmentasi
dari data set yang orisinil. Segmentasi ini dilakukan untuk beberapa alasan
tertentu, misalnya untuk prediksi dari beberapa potong informasi penting.
Meskipun
decision tree sendiri dan algoritma yang membuat decision tree itu mungkin saja
sangat kompleks, namun hasil yang ditampilkan dengan cara yang mudah dimengerti
sangat membantu untuk pengguna bisnis.
Decision
tree sering kali dikembangkan untuk statistican dalam mengotomatisasi proses
menentukan field mana dari database mereka yang benar-benar berguna untuk
terkorelasi dengan masalh tertentu yang sedang mereka usahakan untuk mengerti.
Karena
itu, algoritma decision tree cenderung mengotomatisasi seluruh proses pembuatan
hipotesis dan kemudian melakukan validasi yang lebih komplit dalam cara yang
lebih terintegrasi dibanding dengan teknik data mining lainnya.
Decision
tree biasanya digunakan untuk berbagai kebutuhan:
Eksplorasi
Teknologi decision tree dapat digunakan untuk eksplorasi data set dan masalah
bisnis. Hal ini biasanya dilakukan dengan mencari predictor dan nilai yang
dipilih untuk setiap bagian/cabang dari tree tersebut.
Preprocessing
data Teknologi ini juga dapat digunakan untuk mengolah daan memproses data yang
dapat digunakan pada algoritma lain, misalnya neural network, nearest
neighbour, dan lain-lain.
Hal
itu karena algoritma lain memerlukan waktu yang relatif lama untuk dijalankan
jika terdapat jumlah predictor dalam jumlah besar untuk digunakan sebagai model
sehingga teknik decision tree biasanya digunakan pada tahap pertama data mining
untuk menciptakan subset yang berguna dari predictor baru kemudian hasil
tersebut akan dapat dimasukkan pada teknik data miing yang lain.
Prediksi
Para analis menggunakan teknik ini untuk membangun sebuah model prediktif yang
efektif.
Decision
tree mempunyai beberapa keuntungan sebagai berikut :
Decision
tree mudah dimengerti dan diinterprestasikan.
Penyiapan
data untuk decision tree adalahutama dan tidak dibutuhkan.
Decision
tree dapat mengatasi, baik data nominal maupun kategorial.
Decision
tree merupakan model white box.
Decision
tree dapat melakukan validasi terhadap model dengan tes statistik. Hal itu akan
memungkinan untuk menghitung reliabilitad model.
Decision
tree merupakan teknik yang kuat, dapat bekerja baik dengan data yang besar
dalam waktu yang singkat.
Contoh
Penerapan Data Mining
Analisa
pasar dan manajemen. Solusi yang dapat diselesaikan dengan data mining,
diantaranya: Menembak target pasar, Melihat pola beli pemakai dari waktu ke
waktu, Cross-Market analysis, Profil Customer, Identifikasi kebutuhan Customer,
Menilai loyalitas Customer, Informasi Summary.
Analisa
Perusahaan dan Manajemen resiko. Solusi yang dapat diselesaikan dengan data
mining, diantaranya: Perencanaan keuangan dan Evaluasi aset, Perencanaan sumber
daya (Resource Planning), Persaingan (Competition).
Sebuah
perusahaan telekomunikasi menerapkan data mining untuk melihat dari jutaan
transaksi yang masuk, transaksi mana sajakah yang masih harus ditangani secara
manual.
Financial
Crimes Enforcement Network di Amerika Serikat baru-baru ini menggunakan data
mining untuk me-nambang trilyunan dari berbagai subyek seperti property,
rekening bank dan transaksi keuangan lainnya untuk mendeteksi
transaksi-transaksi keuangan yang mencurigakan (seperti money laundry) .
Australian
Health Insurance Commision menggunakan data mining untuk mengidentifikasi
layanan kesehatan yang sebenarnya tidak perlu tetapi tetap dilakukan oleh
peserta asuransi.
IBM
Advanced Scout menggunakan data mining untuk menganalisis statistik permainan
NBA (jumlah shots blocked, assists dan fouls) dalam rangka mencapai keunggulan
bersaing (competitive advantage) untuk tim New York Knicks dan Miami Heat.
Jet
Propulsion Laboratory (JPL) di Pasadena, California dan Palomar Observatory
berhasil menemukan 22 quasar dengan bantuan data mining. Hal ini merupakan
salah satu kesuksesan penerapan data mining di bidang astronomi dan ilmu ruang
angkasa.
Internet
Web surf-aid IBM Surf-Aid menggunakan algoritma data mining untuk mendata akses
halaman Web khususnya yang berkaitan dengan pemasaran guna melihat prilaku dan
minat customer serta melihat ke- efektif-an pemasaran melalui Web.
Baca
juga refrensi artikel terkait lainnya disini : “Sistem Informasi Geografis ( SIG )” Pengertian & ( Sejarah – Manfaat
)
Arsitektur
Sistem Data mining
Data
mining merupakan proses pencarian pengetahuan yang menarik dari data berukuran
besar yang disimpan dalam basis data, data warehouse atau tempat penyimpanan
informasi lainnya. Dengan demikian arsitektur sistem data mining memiliki
komponen-komponen utama yaitu:
Basis
data, data warehouse atau tempat penyimpanan informasi lainnya.
Basis
data dan data warehouse Komponen ini bertanggung jawab dalam pengambilan
relevant data, berdasarkan permintaan pengguna.
Basis
pengetahuan. Komponen ini merupakan domain knowledge yang digunakan untuk
memandu pencarian atau mengevaluasi pola-pola yang dihasilkan. Pengetahuan
tersebut meliputi hirarki konsep yang digunakan untuk mengorganisasikan atribut
atau nilai atribut ke dalam level abstraksi yang berbeda.
Pengetahuan
tersebut juga dapat berupa kepercayaan pengguna (user belief), yang dapat
digunakan untuk menentukan kemenarikan pola yang diperoleh. Contoh lain dari
domain knowledge adalah threshold dan metadata yang menjelaskan data dari
berbagai sumber yang heterogen.
Data
mining Bagian ini merupakan komponen penting dalam arsitektur sistem data
mining. Komponen ini terdiri modul-modul fungsional data mining seperti
karakterisasi, asosiasi, klasifikasi, dan analisis cluster.
Modul
evaluasi pola. Komponen ini menggunakan ukuran-ukuran kemenarikan dan berinteraksi
dengan modul data mining dalam pencarian pola-pola menarik. Modul evaluasi pola
dapat menggunakan threshold kemenaikan untuk mem-filter pola-pola yang
diperoleh.
Antarmuka
pengguna grafis. Modul ini berkomunikasi dengan pengguna dan sistem data
mining. Melalui modul ini, pengguna berinteraksi dengan sistem mengan menentukan
kueri atau task data mining.
Antarmuka
juga menyediakan informasi untuk memfokuskan pencarian dan melakukan eksplorasi
data mining berdasarkan hasil data mining antara.
Komponen
ini juga memungkinkan pengguna untuk mencari (browse) basis data dan skema data
warehouse atau struktur data, evaluasi pola yang diperoleh dan visualisasi pola
dalam berbagai bentuk. Arsitektur sebuah sistem data mining dapat diliat
dibawah ini.
Data
mining dapat diaplikasikan pada berbagai jenis penyimpanan data seperti basis
data relational, data warehouse, transactional database, object- oriented and
object-relational databases, spatial databases, time-series data and temporal
data, text databases and multimedia databases, heterogeneous and legacy
databases dan WWW.
Basis
data Relasional
Basis
data relasional merupakan koleksi dari table. Setiap table berisi atribut
(field) dan biasanya menyimpan sejumlah besar tuple (record).
Setiap
tuple dalam table relasional merepesentasikan sebuah objek yang
diidentifikasikan oleh kunci unik dan dideskripsikan oleh sekumpulan nilai atribut.
Data relasional dapat diakses oleh kueri basis data yang ditulis dalam bahasa
kueri relasional seperti SQL atau dengan bantuan antarmuka pengguna grafis.
Data
warehouse
Data
warehouse merupakan tempat penyimpanan informasi yang dikumpulkan dari berbagai
sumber, disimpan dalam skema yang dipersatukan (unified schema) dan biasanya
bertempat pada tempat penyimpanan tunggal.
Data
warehouse dikonstruksi melalui sebuah proses data cleaning, data
transformation, data integration, data loading dan periodic data refreshing.
Untuk memfasilitasi proses pembuatan keputusan, data dalam data warehouse
diorganisasikan ke dalam subjek utama seperti customer, item, supplier atau
aktivitas.
Data
disimpan untuk menyediakan informasi dari perspektif sejarah (seperti 5-10
tahun yang lalu) dan biasanya data tersebut diringkas (summarized). Sebagai
contoh, daripada menyimpan data rinci dari transaksi penjualan, data warehouse
dapat menyimpan ringkasan dari transaksi per tipe item untuk setiap toko atau
diringkas dalam level yang lebih tinggi seperti daerah pemasaran.
Data
warehouse biasanya dimodelkan oleh struktur basis data multidimensional, dimana
setiap dimensi berkaitan dengan sebuah atribut atau sekumpulan atribut dalam
skema, dan setiap sel menyimpan nilai dari ukuran agregasi seperti count dan sales_amount.
Struktur
fisik dari data warehouse dapat berupa penyimpanan basis data relasional atau
sebuah kubus data multidimensional.
Selain
data warehouse, terdapat istilah penyimpanan data yang lain yaitu data mart.
Sebuah data warehouse mengumpulkan informasi mengenai subjek- subjek yang
menjangkau seluruh organisasi, dengan demikian cakupannya enterprise-wide.
Sedangkan
data mart merupakan sub bagian dari data warehouse. Fokus data mart adalah pada
subjek yang dipilih dan dengan demikian cakupannya adalah department-wide.
Basis
data Transaksional
Secara
umum, basis data transaksional terdiri dari sebuah file dimana setiap record
merepresentasikan transaksi. Sebuah transaksi biasanya meliputi bilangan
identitas transaksi yang unik (trans_id), dan sebuah daftar dari item yang
membuat transaksi (seperti item yang dibeli dalam sebuah took).
Basis
data transaksi dapat memiliki tabel tambahan, yang mengandung informasi lain
berkaitan dengan penjualan seperti tanggal transaksi, customer ID number, ID
number dari sales person dan dari kantor cabang (branch) dimana penjualan
terjadi.
Software
Aplikasi Data Mining
Selain
alat-alat data mining yang telah disebutkan diatas, Wikipedia
memberikan daftar software dan aplikasi bersifat free dan open source yang
dapat digunakan untuk data mining antara lain sebagai berikut [8] :
Carrot2: frameworkclusteringteks
dan hasil pencarian.
org: minerstruktur
kimiadanweb search engine.
ELKI: projectriset
universitas dengan analisiscluster canggih danmetode deteksioutlier yangditulis
dalam bahasa Java.
GATE:
pemroses bahasa natural dan tool rekayasa bahasa.
JHepWork: framework analisis
data berbasis Java yang dikembangkan di Argonne National Laboratory.
KNIME:
Konstanz Information Miner, framework analisis data komprehensif yang user-friendly.
ML-Flex:
paket software yang memungkinkan pengguna untuk mengintegrasikan dengan paket
mesin belajar pihak ketiga yang ditulis dalam bahasa pemrograman apapun,
mengeksekusi klasifikasi analisis secara paralel sepanjang node komputasi,
dan menghasilkan laporanHTML dari hasil klasifikasi.
NLTK
(Natural Language Toolkit): Sebuah kumpulan libraries dan
program untuk pengolahan bahasa simbolik dan statistik alami untuk bahasa
Python.
Orange:
Sebuah komponen berbasis data miningdan suitesoftware mesin
pembelajaran ditulis dalam bahasaPython.
R:
Sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk komputasi
statistik, data mining, dangrafis. Ini adalah bagian dariproyek GNU.
RapidMiner:
Sebuah lingkungan untuk pembelajaran mesin dan eksperimen data mining.
UIMA: framework komponen
untuk menganalisis konten tidak terstruktur seperti teks, audio dan
video-awalnya dikembangkan oleh IBM.
Weka: suitesoftware aplikasi
pembelajaran mesin yang ditulis dalam bahasa pemrograman Java.
Sedangkan software dan
aplikasi yang bersifat komersial antara lain sebagai berikut [8] :
Angoss
KnowledgeSTUDIO: tool data miningyang dibuat Angoss.
BIRT
Analytics: tool visual data mining dan analisis prediktifyang
dibuat Actuate Corporation.
Clarabridge:
solusi analisis text kelas enterprise.
E-NI
(e-mining, e-monitor): tool data mining berbasiskan pola
sementara.
IBM
SPSS Modeler: software data mining yang dibuatIBM.
KXEN
Modeler: tool data miningyang dibuat KXEN.
LIONsolver: software aplikasi
terintegrasi untuk data mining, intelegen bisnis, dan pemodelan
yang mengimplementasikan pendekatan Learning and Intelligent OptimizatioN
(LION).
Microsoft
Analysis Services: software data mining yang dibuatMicrosoft.
Oracle
Data Mining: software data miningoleh Oracle.
SAS
Enterprise Miner: software data mining yang dibuat SAS
Institute.
STATISTICA
Data Miner: software data mining yang dibuat StatSoft.
Itulah
ulasan tentang Materi Tentang Data Mining Lengkap .
Semoga apa yang diulas diatas bermanfaat bagi pembaca. Sekian dan terimakasih.
Komentar
Posting Komentar