Rekayasa AI untuk Otomatisasi Hubungan di Tableau Next

Bergabunglah dengan seorang pengembang utama untuk melihat lebih dalam bagaimana AI digunakan dalam pembuatan hubungan otomatis di Tableau Semantics. Wawancara ini awalnya ditampilkan di blog Salesforce Engineering sebagai bagian dari seri Q&A “Engineering Energizers” Salesforce, yang menyoroti para pemimpin teknik yang membentuk masa depan teknologi.

Foto Roni Ben-Oz, pemimpin teknik di Salesforce

Roni Ben-Oz, Senior Manager of Software Engineering, memimpin pengembangan pembuatan hubungan otomatis berbasis AI di Tableau Next dan Data Cloud. Timnya merevolusi cara pengguna bekerja dengan data terstruktur dengan mengotomatiskan identifikasi hubungan antar objek data, sehingga menghilangkan kebutuhan konfigurasi manual.

Dalam wawancara ini, Anda akan mengetahui bagaimana tim Roni memastikan bahwa hubungan yang dihasilkan oleh AI akurat dan selaras dengan data dunia nyata, dioptimalkan untuk kinerja waktu nyata, dan dapat diskalakan untuk menangani kumpulan data yang sangat besar.

Apa misi tim Anda?

Roni: Tim kami mengotomatiskan dan meningkatkan pemodelan data dalam Tableau Semantics, lapisan semantik di Tableau Next dan Data Cloud, sehingga memudahkan pengguna membuat hubungan terstruktur antar tabel saat membangun model semantik.

Pembuatan hubungan dikembangkan untuk menghilangkan kerumitan dalam persiapan data, memungkinkan pengguna untuk lebih fokus pada analisis daripada definisi manual joins, kunci asing, atau hubungan. Dengan menyematkan otomatisasi berbasis AI langsung ke lapisan pemodelan semantik Tableau dan Data Cloud, fitur ini memastikan penemuan hubungan selaras dengan struktur data yang kompleks sambil tetap mempertahankan akurasi dan efisiensi dalam skala besar.

Hubungan yang dihasilkan beroperasi pada tingkat dasar pemodelan. Hal ini memastikan bahwa kueri dan wawasan berbasis AI dibangun di atas skema yang dioptimalkan oleh AI, sehingga meningkatkan akurasi dan kinerja beban kerja analitik.

Tim ini berkolaborasi dengan peneliti AI, tim platform data, dan insinyur produk untuk menyempurnakan penemuan hubungan, mengoptimalkan saran berbasis AI, dan mengintegrasikan fitur ini dengan mulus di seluruh lingkungan Tableau dan Salesforce.

Apa tantangan teknis terbesar dalam mengembangkan pembuatan hubungan berbasis AI?

Roni: Salah satu tantangan terbesar adalah memastikan bahwa hubungan yang dihasilkan oleh AI secara akurat mencerminkan data dunia nyata. Tidak seperti join SQL deterministik, inferensi hubungan berbasis AI memerlukan pemahaman kontekstual yang mendalam tentang metadata skema, kesamaan kolom, dan niat pengguna. Sistem ini harus menyimpulkan dan memvalidasi hubungan bahkan ketika kunci asing atau batasan integritas referensial eksplisit tidak ada.

Selain itu, beberapa hubungan yang valid dapat muncul antara tabel, dan AI perlu menentukan mana yang paling relevan secara kontekstual sambil menghindari false positive. Untuk mengatasi hal ini, kami mengembangkan jalur validasi multi-tahap yang memeriksa ulang tipe kolom, definisi skema, dan pola kueri. Jalur ini menyaring hubungan yang lemah atau tidak relevan, menjaga hubungan yang paling mungkin berguna.

Sistem ini juga harus berfungsi dengan mulus di berbagai lingkungan Salesforce, termasuk Tableau dan Data Cloud. Hal ini memerlukan arsitektur modular untuk menstandarisasi penemuan hubungan berbasis AI di berbagai mesin basis data, struktur metadata, dan kebijakan tata kelola, sehingga memastikan adaptabilitas dan konsistensi di seluruh ekosistem Salesforce.

Bagaimana masalah latensi dalam pembuatan hubungan berbasis AI dioptimalkan?

Roni: Salah satu masalah utama adalah mengatasi inefisiensi dalam pemrosesan model bahasa besar (LLM) dan penundaan jaringan yang terkait dengan pengambilan metadata dari kumpulan data besar. Karena penemuan hubungan harus terjadi secara waktu nyata, pengurangan waktu respons menjadi prioritas penting.

Untuk mengatasi efisiensi LLM, fokusnya adalah pada pengoptimalan data masukan. Awalnya, definisi skema lengkap memperkenalkan beban komputasi yang tidak perlu. Dengan merestrukturisasi prompt LLM agar hanya mencakup metadata penting, konsumsi token berkurang secara signifikan, yang pada gilirannya menurunkan waktu inferensi. Strategi caching multi-level juga diterapkan untuk lebih meningkatkan kinerja.

Selain itu, cache tingkat kedua secara dinamis menyesuaikan panjang keluaran token, memastikan AI hanya mengembalikan data yang paling penting sambil menghilangkan deskripsi yang berlebihan.

Proses schema ingestion juga didesain ulang untuk menyederhanakan prapemrosesan. Alih-alih mengirimkan skema tabel lengkap, sistem kini melakukan ekstraksi selektif terhadap bidang-bidang yang relevan. Pendekatan ini meminimalkan jumlah data yang perlu diproses. Untuk menangani skema yang kompleks secara lebih efisien, pemrosesan paralel diaktifkan, memungkinkan beberapa kueri AI dijalankan secara bersamaan. Hal ini lebih jauh mengurangi latensi keseluruhan, memastikan pengalaman pengguna yang lancar dan responsif.

Bagaimana biaya layanan dikurangi sambil tetap menjaga akurasi tinggi?

Roni: Upaya optimasi biaya berfokus pada meminimalkan biaya inferensi LLM sambil menjaga kualitas layanan. Setiap kueri menimbulkan biaya berdasarkan penggunaan token masukan dan keluaran, sehingga efisiensi menjadi prioritas utama. Berikut langkah-langkah pengurangan biaya layanan yang diterapkan:

  • Pengurangan Token Keluaran: Metadata berlebihan dan elemen yang tidak diperlukan dalam respons AI dihilangkan. Selain itu, jumlah hubungan yang dihasilkan dibatasi. Untuk lebih mengoptimalkan efisiensi, kami memilih model LLM yang seimbang antara kinerja, biaya, dan waktu pemrosesan. Langkah-langkah ini memastikan hanya detail hubungan penting yang dipertahankan, mengurangi jumlah token keluaran dan menurunkan biaya.
  • Optimasi Prapemrosesan: Tahap prapemrosesan dioptimalkan untuk menangani kasus hubungan umum tanpa memanggil model AI. Optimasi ini didasarkan pada pendekatan berbasis aturan dan heuristik, yang secara signifikan mengurangi volume inferensi AI, menghasilkan penghematan biaya yang substansial.
  • Pengaturan Tingkat Dinamis: Sistem pengaturan tingkat dinamis diterapkan, menyesuaikan alokasi token berdasarkan kompleksitas kueri dan perilaku pengguna. Hal ini mencegah panggilan AI yang tidak perlu, memastikan penggunaan sumber daya yang efisien.
  • Caching untuk Hubungan dengan Keyakinan Tinggi: Pemetaan hubungan yang sering digunakan disimpan dalam cache. Ini menghilangkan kebutuhan untuk kueri AI berulang, mengurangi biaya, dan meningkatkan waktu respons.
  • Penghapusan Duplikasi Kueri: Analisis berulang terhadap skema yang sama dicegah, yang dapat memicu biaya inferensi AI yang tidak perlu. Dengan mengidentifikasi dan menghindari kueri duplikat, setiap analisis menjadi lebih efisien dan hemat biaya.

Bagaimana tantangan skalabilitas diatasi dalam pemrosesan data berskala besar dan konkurensi pengguna?

Roni: Skalabilitas dalam pembuatan hubungan adalah tantangan yang kompleks, terutama dengan kumpulan data besar dan konkurensi pengguna yang tinggi. Pendekatan kami berpusat pada lapisan semantik, yang mempersempit ruang masalah dengan berfokus pada subset tabel tertentu.

Fitur auto-join dalam lapisan semantik mengotomatiskan definisi join dan menghilangkan kebutuhan untuk spesifikasi jenis join secara manual. Hal ini merampingkan pembuatan hubungan, meningkatkan efisiensi dan akurasi.

Tantangan lainnya adalah peningkatan eksponensial dalam kemungkinan hubungan dengan setiap tabel tambahan, membuat pendekatan brute force menjadi tidak praktis. Untuk mengatasi hal ini, kami memperkenalkan mekanisme pembersihan skema yang cerdas, yang mengoptimalkan kumpulan data sambil mempertahankan presisi dan recall yang tinggi, memastikan skalabilitas tanpa mengorbankan akurasi.

Interaksi dengan LLM juga dioptimalkan untuk meminimalkan beban pemrosesan. Alih-alih melakukan banyak panggilan ke LLM, kami mengandalkan satu panggilan utama, dengan beberapa panggilan paralel yang digunakan secara strategis untuk mendukung mekanisme pembersihan cerdas kami. Pendekatan ini mencapai keseimbangan antara kecepatan, akurasi, dan efisiensi biaya, memungkinkan kami untuk meningkatkan skala secara efisien sambil mempertahankan kinerja tinggi.

Bagaimana pengujian regresi dan validasi akurasi AI dilakukan?

Roni: Untuk memastikan akurasi pembuatan hubungan berbasis AI di setiap pembaruan, pipeline validasi yang kuat diterapkan untuk mendeteksi regresi. Tidak seperti perangkat lunak tradisional, sistem AI memperkenalkan variabilitas stokastik, yang mempersulit validasi konsistensi. Kerangka pengujian dua lapis diterapkan:

  1. Pengujian Regresi Otomatis: Lapisan pertama terdiri dari pengujian regresi otomatis dalam pipeline CI/CD, memastikan bahwa penerapan baru mempertahankan pemetaan hubungan yang telah divalidasi. Ambang batas akurasi dasar diberlakukan, yang memerlukan cakupan pengujian regresi minimum sebesar 80% sebelum pembaruan dapat dirilis. Ini mencegah variasi tak terduga dalam hubungan yang dihasilkan oleh AI.
  2. Benchmarking AI dan Pelacakan Presisi/Recall: Dalam lapisan kedua, setiap pembaruan LLM menjalani uji benchmark sebanyak 40 iterasi untuk mengukur presisi, recall, dan tingkat false positive. Mengingat sifat non-deterministik LLM, pemantauan akurasi melampaui pengujian unit ke dalam analisis tren statistik. Log produksi dianalisis untuk mengidentifikasi hubungan yang sering diubah atau diperbaiki oleh pengguna, memberikan umpan balik akurasi dunia nyata dan meningkatkan iterasi model di masa depan.

Infrastruktur IT yang kuat adalah kunci produktivitas perusahaan. Dengan tableau indonesia, Anda bisa mendapatkan solusi IT lengkap yang sesuai dengan kebutuhan Anda. iLogo Indonesia sebagai mitra terpercaya siap mengintegrasikan semuanya agar bisnis Anda tetap berjalan lancar dan aman. Hubungi kami sekarang atau kunjungi tableau.ilogoindonesia.id untuk informasi lebih lanjut!