Memanfaatkan Kemampuan Talend Machine Learning
Perkenalan
Artikel ini membahas bagaimana Talend Real-time Big Data dapat digunakan untuk memanfaatkan secara efektif kemampuan pemrosesan Data Real-time dan Talend Machine Learning. Kasus penggunaan yang dibahas dalam artikel ini adalah bagaimana data Twitter dapat diproses secara real-time, dan mengklasifikasikan apakah orang yang menulis tweet memiliki gangguan stres pascatrauma (PTSD). Solusi ini dapat digunakan untuk semua situasi kesehatan utama seseorang, misalnya kanker, yang dibahas di bagian akhir.
Apa itu PTSD?
PTSD adalah gangguan mental yang dapat berkembang setelah seseorang mengalami kejadian traumatis, seperti kekerasan seksual, peperangan, kecelakaan lalu lintas, atau ancaman lain terhadap kehidupan seseorang.
Statistik tentang PTSD
- 70% orang dewasa di AS pernah mengalami beberapa peristiwa traumatis setidaknya sekali dalam hidup mereka, dan hingga 20% dari orang-orang ini terus mengalami PTSD.
- Diperkirakan 8% orang Amerika, 24,4 juta orang, mengalami PTSD pada waktu tertentu.
- Diperkirakan satu dari sembilan wanita mengalami PTSD, sehingga kemungkinan mereka mengalaminya dua kali lebih besar daripada pria.
- Hampir 50% dari semua pasien kesehatan mental rawat jalan mengalami PTSD.
- Di antara orang-orang yang menjadi korban pengalaman traumatis yang parah, 60 – 80% akan mengalami PTSD.
Source: Taking a look at PTSD statistics
Solusi
Mengingat tingginya peningkatan pengguna akhir jejaring sosial, kami memperkirakan sejumlah besar data akan ditulis setiap hari ke dalam jejaring sosial. Untuk menangani sejumlah besar data tersebut, kami memerlukan Ekosistem Hadoop. Oleh karena itu, kasus penggunaan PTSD ini diklasifikasikan sebagai kasus penggunaan Big Data, karena Twitter adalah sumber data kami.
Spark Framework Apache Spark™ is a fast and general engine for large-scale data processing. |
Random Forest Model Random forest is an ensemble learning method for classification, regression, and other tasks, that operates by constructing a multitude of decision trees at training time and outputting the class that is the mode of the classes (classification) or mean prediction (regression) of the individual trees. |
Hadoop Cluster (Cloudera) A Hadoop cluster is a special type of computational cluster designed specifically for storing and analyzing huge amounts of unstructured data in a distributed computing environment. |
Hashing TF As a text-processing algorithm, Hashing TF converts input data into fixed-length feature vectors to reflect the importance of a term (a word or a sequence of words) by calculating the frequency that these words in the input data appear. |
Talend Studio for Real Time Big Data Talend Studio to perform MapReduce, Spark, Big Data real-time Jobs. |
Inverse Document Frequency As a text-processing algorithm, Inverse Document Frequency (IDF) is often used to process the output of the Hashing TF computation in order to downplay the importance of the terms that appear in too many documents. |
Kafka Service Apache Kafka is an open-source stream processing platform written in Scala and Java to provide a unified, high-throughput, low-latency platform for handling a real-time data feed. |
Regex Tokenizer Regex tokenizer performs advanced tokeni |
Langkah 1: Ambil data dari Twitter menggunakan Talend
Talend Studio tidak hanya mendukung komponen Talend sendiri, tetapi juga mendukung komponen yang dibuat khusus dari pihak ketiga mana pun. Semua komponen yang dibuat khusus ini dapat diakses dari Talend Exchange, toko komponen daring.
- Dengan memanfaatkan komponen Twitter khusus, kita bisa mendapatkan data dari Twitter dengan mengakses REST dan Stream API.
- Untuk memanfaatkan ekosistem Hadoop dan Big Data, kami menerapkan layanan Kafka waktu nyata untuk membaca data dari Twitter.
- Talend Studio for Real-time Big Data memiliki komponen Kafka yang dapat kita manfaatkan untuk membaca data yang sedang dibaca oleh layanan Kafka, dan meneruskannya ke tahap desain berikutnya secara waktu nyata.
Untuk melakukan semua hal di atas, kita perlu mendapatkan akses ke API Twitter.
Snapshots dari desain Talend Job
Menentukan tagar mana yang akan digunakan memegang peranan penting. Kita dapat menggunakan satu tagar, atau kombinasi beberapa tagar untuk menarik data akurat yang dibutuhkan. Memilih tagar yang tepat membantu menyaring sejumlah besar data sumber.
Langkah 2: Buat dan latih model menggunakan Talend
Seperti yang kita ketahui, tidak ada yang dapat dilakukan tanpa campur tangan manusia. Setelah data yang diambil dari Twitter tersedia, kita perlu mengklasifikasikan tweet secara manual sebagai Mengalami PTSD atau Tidak Mengalami PTSD.
Klasifikasi dapat dilakukan dengan menambahkan atribut baru ke data tersebut. Nilainya dapat berupa Ya atau Tidak (Ya – mengalami PTSD, Tidak – Tidak mengalami PTSD). Setelah klasifikasi selesai, kita dapat menyebut data ini sebagai set pelatihan yang dapat digunakan untuk membuat dan melatih model.
Untuk mencapai kasus penggunaan kita, sebelum membuat model, data pelatihan perlu menjalani beberapa transformasi seperti:
- Hashing TF
- Regex Tokenizer
- Inverse Document Frequency
- Vector Conversion
Setelah melewati semua algoritme di atas, data pelatihan dapat diteruskan ke model untuk membuat dan melatihnya. Model yang paling sesuai dengan kasus penggunaan prediksi ini adalah Model Random Forest.
Talend Studio for Real-time Big Data memiliki beberapa komponen pembelajaran mesin yang sangat bagus yang dapat melakukan regresi, klasifikasi & prediksi menggunakan Spark Framework. Dengan memanfaatkan kemampuan Talend untuk menangani tugas pembelajaran mesin, Model Random Forest telah membuat dan melatih model dengan data pelatihan. Sekarang kita memiliki model yang siap untuk memprediksi tweet.
Catatan: Semua pekerjaan dilakukan pada Cloudera Hadoop Cluster, Talend terhubung ke cluster, dan sisa komputasi dicapai oleh Talend.
Snapshot dari desain Talend Spark Job
Langkah 3: Prediksi tweet menggunakan Talend
Sekarang kita telah menyiapkan model pada kluster Hadoop kita. Kita dapat menggunakan proses pada langkah 1 dan menarik data dari Twitter lagi, yang bertindak sebagai data uji. Data uji hanya memiliki satu atribut: Tweet.
Ketika data uji diteruskan ke model yang telah kita buat, model tersebut menambahkan atribut Label baru ke data uji, dan nilainya akan menjadi Ya atau Tidak (Ya – mengalami PTSD, Tidak – Tidak mengalami PTSD). Nilai yang diprediksi bergantung sepenuhnya pada cara model dilatih pada langkah 2. Sekali lagi, semua prediksi ini dapat dilakukan di Talend Studio for Real-time menggunakan kerangka Spark.
Snapshot dari desain Talend Spark Job untuk prediksi
Evolusi Model
Setelah model memprediksi klasifikasi set data uji, kami menemukan bahwa rekaman tersebut 25% salah (rata-rata). Kami perlu menetapkan klasifikasi yang tepat untuk 25% rekaman tersebut, menambahkannya ke set pelatihan, dan melatih ulang model. Model tersebut seharusnya memprediksi dengan akurat sekarang. Tambahkan lebih banyak rekaman ke set pelatihan, dan ulangi prosedur yang sama hingga model menjadi akurat. Model perlu berkembang seiring waktu, dengan melatihnya dengan data pelatihan baru yang ditambahkan seiring waktu. Diperlukan beberapa manajemen.
Catatan: Untuk meningkatkan efektivitas model, kami dapat menambahkan sinonim data pelatihan ke set pelatihan dan melatih ulang model, yang mengarah pada pengembangan model secara sintetis daripada hanya secara organik.
Ambang batas prediksi yang akurat sebesar 90% adalah suatu keharusan untuk mengklasifikasikan model sebagai akurat. Jika tingkat akurasi prediksi turun di bawah 90%, maka sudah waktunya untuk melatih ulang model.
Aplikasi waktu nyata dari kasus penggunaan ini
Catatan: Setelah klasifikasi data selesai (Ya atau Tidak), hal itu dapat mengarah pada banyak aplikasi waktu nyata yang lebih berguna.
Cakupan yang lebih luas
Solusi kasus penggunaan yang dirancang dapat digunakan untuk semua situasi kesehatan utama. Misalnya, jika kasus penggunaan terkait kanker, dengan menggunakan tagar khusus kanker, kita dapat melatih model dengan cara yang sama dan mulai memprediksi apakah orang tersebut menderita kanker atau tidak. Aplikasi waktu nyata yang sama seperti yang dibahas di atas dapat dicapai.
Authors: Madhav Nalla, Saikrishna Ala, and Kashyap Shah
This Article also published on Talend Community Blog:
Source: https://community.talend.com/s/article/Unleashing-Talend-Machine-Learning-Capabilities