Daftar Fitur Analitik Teks Visual SAS

Penyusunan & visualisasi data

Penyusunan & visualisasi data

  • Menyerap, membersihkan, dan mengubah data untuk analisis, dengan mudah menerima berbagai format file melalui sistem file lokal atau jarak jauh, basis data relasional, dan penyimpanan cloud.
  • Menyediakan antarmuka pengguna intuitif yang memperhitungkan faktor-faktor penting seperti lokalisasi/internasionalisasi dan aksesibilitas.
  • Memberikan kemampuan untuk memvisualisasikan entitas, fakta, dan hubungan yang diekstraksi menggunakan diagram jaringan atau analisis jalur.
  • Memberikan kemampuan untuk mengekstrak data dari node konsep ke dalam format yang siap untuk SAS Visual Analytics.
  • Peta istilah memungkinkan Anda mengidentifikasi hubungan antar istilah secara visual.
  • Antarmuka pengguna grafis menyediakan aliran pemrograman visual.
  • Penjelasan model menampilkan deskripsi pembuatan bahasa alamiah (NLG) untuk semua keluaran.

Penguraian

Penguraian

  • Tindakan penguraian disediakan sebagai fungsionalitas unik di semua bahasa yang didukung.
  • Penguraian teks mendukung akumulasi terdistribusi, yang mengarah pada pemrosesan data yang lebih cepat dengan mendistribusikan sepenuhnya semua aspek proses akumulasi di seluruh grid.
  • Tokenisasi memotong urutan karakter menjadi kalimat, kata, atau morfem individual yang kemudian dapat digunakan sebagai masukan untuk penandaan bagian ucapan.
  • Lematisasi mengasosiasikan kata-kata dengan bentuk dasarnya.
  • Analisis kesalahan eja mengaitkan kata yang salah eja dengan serangkaian varian yang mencakup kata yang dieja dengan benar.
  • Penandaan bagian ucapan secara tata bahasa mengklasifikasikan kata-kata berdasarkan definisi dan konteksnya.
  • Disambiguasi batas kalimat menentukan di mana kalimat dimulai dan diakhiri.
  • Penguraian ketergantungan memberikan hubungan sintaksis antara kata-kata dalam kalimat melalui penerapan algoritma pembelajaran mendalam.

Analisis tren

Analisis tren

  • Penemuan topik otomatis menggunakan dua metode pembelajaran mesin tanpa pengawasan – dekomposisi value tunggal dan alokasi Dirichlet laten – untuk mengelompokkan dokumen berdasarkan tema umum.
  • Skor relevansi menghitung seberapa baik setiap dokumen termasuk dalam setiap topik, dan bendera biner menampilkan keanggotaan topik di atas ambang batas yang diberikan.
  • Gabungkan atau pisahkan topik yang dibuat secara otomatis oleh mesin (pembelajaran mesin tanpa pengawasan) untuk membuat topik yang ditentukan pengguna (keahlian materi pelajaran untuk menyempurnakan keluaran AI otomatis).

Ekstraksi informasi

Ekstraksi informasi

  • Secara otomatis mengeluarkan informasi terstruktur dari tipe data tidak terstruktur atau semi terstruktur untuk membuat data terstruktur baru menggunakan tugas seperti pengenalan entitas, ekstraksi relasi, dan resolusi coreference.
  • Menggunakan konsep yang telah ditentukan sebelumnya untuk mengekstrak entitas umum, seperti nama, organisasi, lokasi, ekspresi waktu, tanggal, jumlah, persentase, dan lainnya.
  • Memberi skor data teks menggunakan model Named Entity Recognition (NER) yang didukung oleh pembelajaran mesin untuk mengekstrak informasi dari teks guna meningkatkan dan mempercepat pengambilan keputusan.
  • Memungkinkan Anda membuat konsep khusus menggunakan kata kunci, operator Boolean, ekspresi reguler, logika predikat, dan beragam operator linguistik.
  • Memungkinkan Anda mereferensikan konsep yang telah ditentukan sebelumnya atau khusus dalam aturan kategorisasi untuk kekhususan atau jangkauan kontekstual tambahan.
  • Secara otomatis menghasilkan aturan konsep yang relevan dan aturan fakta berdasarkan aturan yang ada untuk suatu konsep.
  • Memungkinkan Anda menggunakan sandbox yang terkait dengan setiap konsep yang telah ditentukan sebelumnya dan khusus untuk menguji dengan cepat aturan dan subset baru pada model Anda terhadap kumpulan dokumen.
  • Identifikasi dan kelompokkan bahasa dalam set dokumen yang berisi banyak bahasa untuk analisis kontekstual yang lebih cepat dan lebih akurat.

Pendekatan pemodelan hibrid

Pendekatan pemodelan hibrid

  • Klasifikasi berbasis BERT digunakan untuk menangkap konteks dan makna kata dalam teks untuk meningkatkan akurasi dibandingkan dengan model tradisional. Selain klasifikasi umum, klasifikasi berbasis BERT dapat digunakan untuk melakukan analisis sentimen.
  • Kemampuan NLP mencakup penguraian otomatis, tokenisasi, penandaan bagian ucapan, lematisasi, dan deteksi salah eja.
  • Memungkinkan Anda menerapkan daftar mulai dan berhenti.
  • Menggunakan tanda khusus, kualifikasi, dan operator dalam aturan linguistik yang memanfaatkan tindakan penguraian untuk memungkinkan kemampuan mengingat/abstraksi yang lebih presisi atau lebih baik.
  • Menggunakan metode linguistik berbasis aturan untuk mengekstraksi konsep utama.
  • Penguraian otomatis dapat digunakan bersama dengan algoritma pembelajaran mendalam (recurrent jaringan neural) untuk mengklasifikasikan dokumen dan sentimen dengan lebih akurat.
  • Mengotomatiskan pembuatan topik dengan pembelajaran mesin tanpa pengawasan.
  • Model pembelajaran mesin yang diawasi/probabilistik mencakup BoolRule, Bidang Acak Bersyarat, dan Semantik Probabilistik.
  • BoolRule memungkinkan pembuatan aturan otomatis untuk kategorisasi dokumen.
  • Bidang Acak Bersyarat dan Semantik Probabilistik digunakan untuk memberi label dan mengurutkan data dan dapat mengotomatiskan ekstraksi entitas dan hubungan dengan mempelajari aturan kontekstual dari entitas tertentu. Pembuat aturan otomatis mempromosikan topik ke kategori dengan pembelajaran mesin yang diawasi.

Analisis sentimen

Analisis sentimen

  • Informasi subjektif diidentifikasi dalam teks dan diberi label sebagai positif, negatif, atau netral menggunakan pembelajaran mesin atau pendekatan berbasis aturan. Informasi tersebut diasosiasikan dengan entitas, dan gambaran visual disediakan melalui tampilan indikator sentimen.
  • Mengidentifikasi dan menganalisis istilah, frasa, dan string karakter yang menyiratkan sentimen.
  • Menggambarkan sentimen secara visual melalui tampilan indikator sentimen pada tingkat dokumen atau topik.
  • Menyediakan metode pembelajaran mesin modern untuk sentimen berdasarkan kerangka kerja terbuka BERT.

Analisis korpus

Analisis korpus

  • Jalankan tindakan untuk melakukan analisis korpus untuk membuat set tabel keluaran yang berisi jumlah dan statistik rangkuman.
  • Lihat dan pahami wawasan tentang kompleksitas informasi, keragaman kosa kata, kepadatan informasi, dan metrik perbandingan terhadap korpus referensi yang telah ditentukan sebelumnya.
  • Analisis lebih lanjut atau visualisasikan statistik ini (menggunakan hitungan) dalam laporan yang dibuat di SAS Visual Analytics.

Penyebaran yang fleksibel

Penyebaran yang fleksibel

  • Node SentiConcept, Sentimen, Topik, dan Kategori menyediakan kode skor yang diperlukan untuk menyebarkan model pada set data eksternal.
  • Kode skor bertautan secara asli untuk pemrosesan terdistribusi, memanfaatkan sumber daya komputasi secara maksimal untuk mengurangi latensi pada hasil, bahkan pada set data yang sangat besar.
  • Penyimpanan analitik (ASTORE) adalah file biner yang mewakili logika penilaian dari model atau algoritma tertentu. Aset yang ringkas ini memungkinkan pergerakan kode skor yang mudah dan integrasi ke dalam kerangka kerja aplikasi yang ada. Dukungan ASTORE tersedia untuk node Konsep, Sentimen, dan Kategori.

Dukungan asli untuk 33 bahasa

Dukungan asli untuk 33 bahasa

  • Secara otomatis mendeteksi bahasa yang diwakili dalam corpora (dokumen) multibahasa.
  • Analisis teks unik untuk 33 bahasa:
    • Arab.
    • Mandarin.
    • Kroasia.
    • Ceko.
    • Denmark.
    • Belanda.
    • Inggris.
    • Persia.
    • Finlandia.
    • Perancis.
    • Jerman.
    • Yunani.
    • Ibrani.
    • Hindi.
    • Hongaria.
    • Indonesia.
    • Italia.
    • Jepang.
    • Kazakh.
    • Korea.
    • Norwegia.
    • Polandia.
    • Portugis.
    • Rumania.
    • Rusia.
    • Slovakia.
    • Slovenia.
    • Spanyol.
    • Swedia.
    • Tagalog.
    • Turki.
    • Thailand.
    • Vietnam.
  • Daftar berhenti default untuk setiap bahasa yang didukung aplikasi.
  • Leksikon bawaan yang mendukung tindakan penguraian seperti tokenisasi, lematisasi, analisis salah eja, penandaan bagian ucapan, penguraian ketergantungan, dan disambiguasi batas kalimat.

Platform terbuka

Platform terbuka

  • Terintegrasi secara lancar dengan sistem yang ada dan teknologi sumber terbuka.
  • Tambahkan kekuatan SAS Analytics ke aplikasi lain menggunakan REST API.
  • API terbuka dan arsitektur layanan mikro memungkinkan Anda melewati GUI asli dan menggunakan UI Anda sendiri atau membuat aplikasi pencarian khusus.
  • Publikasikan model analitik teks pilihan dengan cepat dan mudah ke API layanan Mikroanalitik (MAS), yang dapat Anda sematkan di aplikasi web untuk kategorisasi sesuai permintaan dan ekstraksi konsep.
  • Antarmuka pemrograman analitik yang unik untuk perangkuman teks, segmentasi data teks, penguraian dan penambangan teks, pemodelan topik, pengembangan dan penilaian aturan teks, penemuan aturan teks, pemetaan istilah dan pemetaan istilah topik, bidang dan pencarian acak bersyarat.
  • Dukungan untuk seluruh siklus hidup analitik dari data hingga penemuan dan penyebaran.
  • Kode dalam berbagai bahasa pemrograman, termasuk SAS, Python, R, Java, Scala dan Lua.