Dapatkan kinerja yang lebih baik dengan opsi input pencarian yang efisien di Talend Spark Streaming
Keterangan
Talend menyediakan dua opsi untuk menangani pencarian di Spark streaming Jobs: komponen input sederhana (misalnya: tMongoDBInput) atau komponen input pencarian (tMongoDBLookupInput). Menggunakan komponen input pencarian akan memberikan peningkatan performa dan pengoptimalan kode yang signifikan untuk setiap Spark streaming Job.
Alih-alih mencari seluruh data dari komponen pencarian, Talend menyediakan opsi unik untuk streaming Jobs: untuk meminta potongan data input yang lebih kecil untuk pencarian, sehingga menghemat banyak waktu dan membangun Jobs yang berkinerja tinggi.
Menurut Definisi
Komponen pencarian seperti tMongoDBLookupInput, tJDBCLookupInput, dan lainnya yang disediakan oleh Talend mengeksekusi kueri basis data dengan urutan yang ditentukan secara ketat yang harus sesuai dengan definisi skema.
Ia meneruskan data yang diekstrak ke tMap untuk menyediakan data pencarian ke alur utama. Ia harus terhubung langsung ke komponen tMap, dan mengharuskan tMap ini untuk menggunakan Reload at each row atau Reload at each row (cache) untuk alur pencarian.
Bagian yang sulit di sini adalah memahami penggunaan fungsionalitas Reload at each row dari komponen tMap Talend, dan bagaimana ia dapat diintegrasikan dengan komponen pencarian.
Contoh
Di bawah ini adalah contoh bagaimana kami menggunakan komponen tJDBCLookupInput dengan tMap dalam Talend Spark Streaming Job.
- Pada level tMap, pastikan tMap untuk pencarian disiapkan dengan Reload di setiap baris, dan ekspresi untuk Kunci globalMap juga ditetapkan.
- Pada level komponen input pencarian, pastikan opsi Query kami disiapkan untuk mengkueri Kunci globalMap (di mana kondisi extract.consumer_id) ditetapkan dalam tMap seperti yang ditunjukkan di bawah ini. Ini adalah kunci untuk memastikan komponen pencarian hanya mengambil data yang diperlukan untuk pemrosesan pada saat itu.
Ringkasan
Seperti yang telah kita lihat, perubahan kecil dalam Streaming Jobs ini dapat membuat ETL Jobs kita lebih efektif dan berkinerja. Karena akan selalu ada beberapa implementasi Talend ETL Job, kemampuan untuk memahami nuansa dalam membuatnya lebih efisien merupakan bagian integral dari menjadi seorang insinyur data.
Untuk informasi lebih lanjut, hubungi kami di: solutions@thinkartha.com[/vc_column_text][vc_column_text css=”.vc_custom_1596545053063{padding-top: 30px !important;padding-bottom: 30px !important;}”]Author: Siddartha Rao Chennur
Artikel ini juga dipublikasikan di Talend Community:
Sumber: https://community.talend.com/s/article/Achieve-better-performance-with-an-efficient-lookup-input-option-in-Talend-Spark-Streaming