Proceedings of the International Conference on Knowledge Discovery and Information Retrieval

Knowledge Discovery adalah area interdisipliner yang berfokus pada metodologi untuk mengidentifikasi pola-pola yang valid, baru, berpotensi bermanfaat dan bermakna dari data, seringkali berdasarkan pada kumpulan data besar yang mendasarinya. Aspek utama dari Penemuan Pengetahuan adalah penambangan data, yaitu menerapkan analisis data dan algoritma penemuan yang menghasilkan enumerasi pola (atau model) tertentu atas data. Knowledge Discovery juga mencakup evaluasi pola dan identifikasi yang menambah pengetahuan.
Information retrieval (IR) berkaitan dengan pengumpulan informasi yang relevan dari data yang tidak terstruktur dan semantik dalam teks dan media lain, mencari informasi dalam dokumen dan untuk metadata tentang dokumen, serta mencari basis data relasional dan Web. Otomatisasi pengambilan informasi memungkinkan pengurangan apa yang disebut “informasi yang berlebihan”. 
Pengambilan informasi dapat dikombinasikan dengan penemuan pengetahuan untuk membuat perangkat lunak yang memberdayakan pengguna sistem pendukung keputusan untuk lebih memahami dan menggunakan pengetahuan yang mendasari set data besar.

Penemuan Pengetahuan Dalam & Pengambilan Informasi Dari Data Tidak Terstruktur

Pakar dari seluruh dunia memperkirakan bahwa sekitar 80 hingga 90 persen dari data yang ada sebagai bagian dari organisasi mana pun tidak terstruktur (Ini bisa dalam format apa pun, dokumen, email, halaman web, arsip digital, dll.). Yang penting adalah bahwa jumlah data yang tidak terstruktur di perusahaan tumbuh secara signifikan dari hari ke hari – sering kali lebih cepat daripada pertumbuhan database terstruktur.

Inilah yang dikatakan analis terkemuka tentang pertumbuhan data yang tidak terstruktur:

  • IDG: Data tidak terstruktur tumbuh pada tingkat 62% per tahun.
  • IDG: Pada tahun 2022, 93% dari semua data di alam semesta digital tidak terstruktur.
  • Gartner: Volume data diatur untuk tumbuh 800% selama 5 tahun ke depan dan 80% darinya akan berada sebagai data yang tidak terstruktur.

Sumber: Referensi 1

Banyak organisasi percaya bahwa penyimpanan data tidak terstruktur mereka termasuk informasi yang belum dimanfaatkan yang dapat membantu mereka membuat keputusan bisnis yang lebih baik. Yang disayangkan adalah bahwa seringkali sangat sulit untuk menganalisis data yang tidak terstruktur karena memiliki volume tinggi dan varian yang tinggi.

Pernyataan masalah prioritas tinggi yang sebagian besar perusahaan harapkan untuk ditangani pada data yang tidak terstruktur termasuk Ekstraksi Pengetahuan, Pengambilan Informasi, Ekstraksi Entitas Kustom, Pemodelan Bahasa Domain Tertentu, dll. Perusahaan harus melibatkan sumber daya manusia berkualitas tinggi untuk secara manual melalui dokumen / konten dan susun informasi yang relevan atau tulis mesin berbasis aturan untuk mengekstraknya untuk mereka. Kelemahan dengan pendekatan semacam itu termasuk pemborosan jam sumber daya ahli, waktu untuk menyelesaikan tugas selalu di sisi yang lebih tinggi, jumlah kepala diperlukan di sisi yang lebih tinggi.

Berkat Machine Learning, Pembelajaran Jauh (Neural Networks Berulang Khusus (RNNs)), Pemrosesan Bahasa Alami (NLP), Pemahaman Bahasa Alami (NLU) dan alat kognitif lainnya yang mencakup Genism, Apache Lucene, kami sekarang memiliki sistem pelatihan yang lebih canggih yang tidak volume tinggi, pekerjaan presisi tinggi lebih baik daripada manusia. Ini akan membantu perusahaan untuk mendapatkan informasi yang dapat ditindaklanjuti yang dapat membantu bisnis berhasil dalam lingkungan yang kompetitif. Manfaatnya termasuk Penghematan biaya dan waktu, Kualitas dan hasil yang akurat, Pemanfaatan sumber daya yang lebih baik.

Pada 2016, sebuah laporan memperkirakan pasar global deep learning mencapai $ 272 juta. Dari 2014, pasar pembelajaran yang dalam menunjukkan pertumbuhan berkelanjutan dengan laporan terbaru yang menyatakan bahwa pasar ini akan mencapai $ 10,2 miliar pada akhir 2025.

Kami memperkirakan langkah penerapan yang serupa dari teknologi & teknik pembelajaran mendalam terbaru (tepatnya RNN LSTM) untuk ekstraksi entitas kustom & Pemodelan Bahasa, pemrosesan bahasa alami untuk ekstraksi pengetahuan, Genism & Lucene untuk Pengambilan Informasi ke dunia nyata, yang bisa dalam vertikal apa pun atau domain. Salah satu implementasi pembelajaran mendalam oleh Tech Mahindra untuk pelanggan teknik dibahas di bawah ini:

Implementasi # 1: Sistem Daftar Pemasok Aerospace menggunakan Penemuan Pengetahuan Dalam & Pengambilan Informasi

Pernyataan masalah: Prosedur daftar pendek pemasok saat ini melibatkan pakar atau tim ahli yang secara manual membaca dokumen penilaian pemasok yang ditangkap dalam format yang tidak terstruktur oleh analis (Terstruktur dokumen penilaian berbeda-beda di berbagai analis & pemasok) terhadap setiap pemasok dan memeriksa dokumen dengan cermat. baris demi baris. Proses ini akan membantu dalam mengidentifikasi perincian meta yang ditargetkan seperti Kekuatan, Rekomendasi, Kelemahan, Pengamatan, Fungsi Fungsional, Kemampuan, dll. Yang akan membantu perusahaan dalam pengambilan keputusan (Pemasok Teratas Daftar Pendek). Pakar atau tim ahli yang ditugaskan untuk melakukan pekerjaan harus kuat dengan pengetahuan domain yang mendalam untuk menyusun data secara manual dengan presesi maksimum. Pendekatan lain, yang sedang digunakan saat ini, adalah deteksi berbasis aturan menggunakan pekerjaan otomatisasi mikro, tetapi ini hanya berfungsi jika struktur / pola konsisten di seluruh kumpulan dokumen. Masalah yang dihadapi perusahaan adalah bahwa volume data yang perlu diproses berada di sisi yang lebih tinggi dan varians dalam struktur dokumen tinggi. Perusahaan harus berinvestasi banyak pada sumber daya dan waktu yang diperlukan untuk mendapatkan hasil yang diinginkan ada di sisi yang lebih tinggi. Karena upaya Manual yang diperlukan untuk menyusun data sangat besar, hasilnya rentan terhadap kesalahan.

Larutan: Menerapkan sistem kognitif, yang memiliki banyak modul, yang memecahkan berbagai bidang pernyataan masalah. Modul-modul tersebut mencakup modul Knowledge discovery / Extraction untuk mengidentifikasi, membuat anotasi & membangun model spesifik domain menggunakan teknik pembelajaran mendalam, tepatnya Jaringan Syaraf Berulang (Memori Jangka Pendek Panjang)) dan mengekstraksi entitas yang ditargetkan yang dapat digunakan untuk membuat daftar pendek pemasok berdasarkan pelatihan yang dilakukan . Pengambilan Informasi dari data yang dikumpulkan menggunakan kueri bahasa alami yang ditentukan pengguna menggunakan Genism & Apache Lucene, Data Pra Pemrosesan & Ekstraksi menggunakan NLTK. Opini penambangan menggunakan Machine learning. Dengan menggunakan kemampuan belajar yang dalam dan membangun orkestra kustom dengan menggunakan python, sistem ini dapat memproses volume data yang sangat besar dengan varians yang tinggi dengan pengurangan waktu dan tanpa intervensi manual.

Manfaat Bisnis :

  • Manajemen informasi yang lebih baik ditangkap sebagai bagian dari kumpulan dokumen penilaian pemasok.
  • Pencarian melalui penilaian untuk penemuan pengetahuan menjadi cepat dan mudah
  • Volume tinggi dan beragam data dapat diproses & dieksplorasi lebih cepat tanpa menghemat banyak waktu dan tenaga
  • Pengambilan keputusan dibuat lebih cepat dengan bantuan modul eksplorasi data (Bandingkan, Prediksi, dan Pencarian)