รายการคุณสมบัติของ SAS Visual Text Analytics

การเตรียมข้อมูลและการแสดงภาพ

การเตรียมข้อมูลและการแสดงภาพ

  • นำเข้า ทำความสะอาด และแปลงข้อมูลสำหรับการวิเคราะห์ รับไฟล์หลายรูปแบบอย่างง่ายดายผ่านระบบไฟล์ในเครื่องหรือจากระยะไกล ฐานข้อมูลเชิงสัมพันธ์ และที่เก็บข้อมูลบนคลาวด์
  • มีอินเทอร์เฟซผู้ใช้งานที่ใช้ง่ายซึ่งคำนึงถึงปัจจัยต่างๆ ที่สำคัญ เช่น การแปลเป็นภาษาท้องถิ่น/เป็นภาษาสากล และการเข้าถึงได้
  • มีความสามารถในการแสดงเอนทิตี ข้อเท็จจริง และความสัมพันธ์ที่ถูกแยกออกมาโดยใช้แผนภาพเครือข่ายหรือการวิเคราะห์พาธ
  • และมีความสามารถในการดึงข้อมูลจากโหนดแนวคิดเป็นรูปแบบที่พร้อมสำหรับ SAS Visual Analytics
  • แผนผังคำช่วยให้คุณสามารถระบุความสัมพันธ์ระหว่างคำได้
  • อินเทอร์เฟซผู้ใช้งานแบบกราฟิกมีโฟลว์การเขียนโปรแกรมแบบภาพ
  • ความสามารถในการอธิบายโมเดลมีคำอธิบายการสร้างภาษาธรรมชาติ (NLG) สำหรับเอาต์พุตทั้งหมด

การแจกแจงรูปประโยค

การแจกแจงรูปประโยค

  • การดำเนินการแจกแจงรูปประโยคเป็นฟังก์ชันที่พร้อมใช้งานทันทีกับทุกภาษาที่รองรับ
  • การวิเคราะห์ข้อความแบบแจกแจงรองรับการเก็บรวบรวมข้อมูลแบบกระจายซึ่งทำให้การประมวลผลข้อมูลด้วยการกระจายทุกองค์ประกอบของกระบวนการรวบรวมบนกริด
  • การแปลงเป็นโทเค็นจะตัดลำดับอักขระให้กลายเป็นประโยค คำ หรือหน่วยคำที่สามารถใช้เป็นอินพุตสำหรับการแท็กส่วนของคำพูดได้
  • การแทรกคำย่อจะเชื่อมโยงคำกับรูปแบบเดิมของคำ
  • การวิเคราะห์การสะกดผิดจะเชื่อมโยงคำที่สะกดผิดกับชุดรูปแบบที่มีคำที่สะกดถูกต้อง
  • การติดแท็กชนิดของคำจะจำแนกประเภทของคำตามหลักไวยากรณ์โดยอิงตามความหมายและบริบท
  • การระบุและแยกข้อความออกเป็นประโยคจะกำหนดตำแหน่งเริ่มต้นและสิ้นสุดของประโยค
  • การวิเคราะห์ความสัมพันธ์ของคำในประโยค จะกำหนดความสัมพันธ์ระหว่างคำในประโยคตามหลักวากยสัมพันธ์ผ่านการประยุกต์ใช้อัลกอริธึมการเรียนรู้เชิงลึก

วิเคราะห์แนวโน้ม

วิเคราะห์แนวโน้ม

  • การค้นหาหัวข้อโดยอัตโนมัติใช้วิธีการเรียนรู้ด้วยเครื่องแบบไม่มีผู้ดูแลสองวิธี ได้แก่ การแยกส่วนค่าเอกพจน์และการจัดสรร Dirichlet ที่แฝงอยู่ เพื่อจัดกลุ่มเอกสารตามธีม
  • คะแนนความเกี่ยวข้องจะคำนวณว่าแต่ละเอกสารเข้ากับแต่ละหัวข้อได้ดีเพียงใด และแฟล็กไบนารีจะแสดงความเป็นสมาชิกของหัวข้อเหนือเกณฑ์ที่กำหนด
  • รวมหรือแยกหัวข้อที่เครื่องสร้างขึ้นโดยอัตโนมัติ (การเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล) เพื่อสร้างหัวข้อที่ผู้ใช้กำหนด (ความเชี่ยวชาญเฉพาะเรื่องเพื่อปรับแต่งเอาต์พุต AI อัตโนมัติ)

การสกัดข้อมูล

การสกัดข้อมูล

  • ดึงข้อมูลที่มีโครงสร้างออกจากประเภทข้อมูลที่ไม่มีโครงสร้างหรือกึ่งมีโครงสร้างโดยอัตโนมัติ เพื่อสร้างข้อมูลที่มีโครงสร้างใหม่โดยใช้งาน เช่น การจดจำเอนทิตี การดึงข้อมูลความสัมพันธ์ และการแก้ไขแกนกลาง
  • ใช้คอนเซปต์ที่กำหนดไว้ล่วงหน้าเพื่อแยกเอนทิตีที่เหมือนกัน เช่น ชื่อ องค์กร สถานที่ แสดงเวลา วันที่ ปริมาณ เปอร์เซ็นต์ และอื่นๆ
  • ให้คะแนนข้อมูลประเภทข้อความโดยใช้โมเดล Named Entity Recognition (NER) ที่ได้รับการสนับสนุนโดยการเรียนรู้ของเครื่องเพื่อดึงข้อมูลจากข้อความเพื่อเพิ่มคุณภาพและเร่งความเร็วให้กระบวนการตัดสินใจ
  • ให้คุณสร้างคอนเซปต์ที่กำหนดเองโดยใช้คำสำคัญ, ตัวดำเนินการบูลีน, Regular Expression, ตรรกะเพรดิเคต และตัวดำเนินการทางภาษาที่หลากหลาย
  • คุณจะสามารถอ้างอิงแนวคิดที่กำหนดไว้ล่วงหน้าหรือกำหนดเองในกฎการจัดหมวดหมู่สำหรับความเฉพาะเจาะจงตามบริบทหรือการเข้าถึงเพิ่มเติมได้
  • สร้างกฎแนวคิดที่เกี่ยวข้องและกฎข้อเท็จจริงโดยอัตโนมัติตามกฎที่มีอยู่สำหรับแนวคิด
  • ให้คุณใช้ Sandbox ที่เชื่อมโยงกับคอนเซปต์ที่กำหนดไว้ล่วงหน้าและกำหนดเองแต่ละรายการเพื่อทดสอบกฎใหม่และชุดย่อยของโมเดลกับคอลเล็กชันเอกสารได้อย่างรวดเร็ว
  • ระบุและจัดกลุ่มภาษาภายในชุดเอกสารที่มีหลายภาษาเพื่อการวิเคราะห์บริบทที่รวดเร็วและแม่นยำยิ่งขึ้น

แนวทางการสร้างโมเดลแบบไฮบริด

แนวทางการสร้างโมเดลแบบไฮบริด

  • การจัดประเภทตาม BERT ใช้เพื่อจับบริบทและความหมายของคำในข้อความเพื่อปรับปรุงความแม่นยำเมื่อเทียบกับโมเดลดั้งเดิม นอกจากการจำแนกประเภททั่วไปแล้ว การจำแนกประเภทตาม BERT ยังสามารถนำมาใช้ในการวิเคราะห์ความคิดเห็นได้อีกด้วย
  • ความสามารถของ NLP ได้แก่ การแจกแจงรูปประโยค, การแปลงเป็นโทเค็น, การติดแท็กชนิดของคำ, การแทรกคำย่อ และการตรวจจับการสะกดผิด
  • คุณสามารถใช้รายการเริ่มและหยุดได้
  • ใช้แท็ก ตัวระบุ และตัวดำเนินการพิเศษในกฎทางภาษาที่ใช้ประโยชน์จากการดำเนินการแจกแจงรูปประโยคเพื่อให้มีความแม่นยำมากขึ้นหรือสามารถจำ/สร้างโมเดลให้สอดคล้องกับความจริงได้ดีขึ้น
  • ใช้วิธีการทางภาษาตามกฎเพื่อแยกแนวคิดหลัก
  • คุณสามารถใช้การแจกแจงรูปประโยคอัตโนมัติร่วมกับอัลกอริธึมการเรียนรู้เชิงลึก (โครงข่ายประสาทเทียมแบบวนกลับ) เพื่อจำแนกเอกสารและความคิดเห็นได้อย่างแม่นยำยิ่งขึ้น
  • การสร้างหัวข้อโดยอัตโนมัติด้วยการเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล
  • โมเดลการเรียนรู้ของเครื่องแบบมีผู้ดูแล/ตามความน่าจะเป็น ได้แก่ BoolRule, Conditional Random Field และ Probabilistic Semantics
  • BoolRule ทำให้คุณสามารถสร้างกฎอัตโนมัติสำหรับการจัดหมวดหมู่เอกสารได้
  • ฟิลด์ Conditional Random Fields และ Probabilistic Semantics จะถูกนำมาใช้เพื่อติดป้ายกำกับและจัดลำดับข้อมูล และสามารถทำให้เอนทิตีและการแยกความสัมพันธ์เป็นโดยอัตโนมัติได้โดยการเรียนรู้กฎตามบริบทของเอนทิตีที่กำหนด เครื่องมือสร้างกฎอัตโนมัติจะเลื่อนระดับหัวข้อเป็นหมวดหมู่ด้วยการเรียนรู้ของเครื่องภายใต้การดูแล

การวิเคราะห์ความคิดเห็น

การวิเคราะห์ความคิดเห็น

  • ข้อมูลอัตวิสัยจะได้รับการระบุว่าเป็นข้อความและจำแนกว่าเป็นเชิงบวก ลบ หรือเป็นกลางโดยใช้การเรียนรู้ของเครื่องหรือแนวทางตามกฎ ข้อมูลดังกล่าวเชื่อมโยงกับเอนทิตี และการแสดงภาพจะแสดงผ่านการแสดงตัวบ่งชี้ความคิดเห็น
  • ระบุและวิเคราะห์คำศัพท์ วลี และสตริงอักขระที่บ่งบอกถึงความคิดเห็น
  • บรรยายความคิดเห็นด้วยภาพผ่านตัวแสดงตัวบ่งชี้ความรู้สึกที่ระดับเอกสารหรือหัวข้อ
  • ให้วิธีการเรียนรู้ของเครื่องที่ทันสมัยสำหรับความคิดเห็นตามเฟรมเวิร์กเปิดของ BERT

การวิเคราะห์คลังข้อมูลภาษา

การวิเคราะห์คลังข้อมูลภาษา

  • รันการดำเนินการเพื่อวิเคราะห์คลังข้อมูลภาษา เพื่อสร้างชุดของตารางผลลัพธ์ที่มีจำนวนและสถิติสรุป
  • ดูและทำความเข้าใจข้อมูลเชิงลึกเกี่ยวกับความซับซ้อนของข้อมูล ความหลากหลายของคำศัพท์ ความหนาแน่นของข้อมูล และเกณฑ์การเปรียบเทียบกับคลังข้อมูลภาษาสำหรับอ้างอิงที่กำหนดไว้ล่วงหน้า
  • วิเคราะห์เพิ่มเติมหรือแสดงภาพสถิติเหล่านี้ (โดยใช้จำนวน) ในรายงานที่สร้างขึ้นใน SAS Visual Analytics

การใช้งานที่ยืดหยุ่น

การใช้งานที่ยืดหยุ่น

  • โหนด SentiConcepts, Sentiment, Topics และ Categories ให้รหัสคะแนนที่จำเป็นในการปรับใช้โมเดลในชุดข้อมูลภายนอก
  • รหัสคะแนนเป็นแบบเนทีฟสำหรับการประมวลผลแบบกระจาย โดยใช้ประโยชน์จากทรัพยากรการประมวลผลสูงสุดเพื่อลดเวลาแฝงของผลลัพธ์ แม้ในชุดข้อมูลที่มีขนาดใหญ่มาก
  • Analytic Store (ASTORE) เป็นไฟล์ไบนารีที่แสดงตรรกะการให้คะแนนจากโมเดลหรืออัลกอริธึมเฉพาะ เนื้อหาที่มีขนาดกะทัดรัดนี้ช่วยให้สามารถเคลื่อนย้ายรหัสคะแนนได้ง่ายและรวมเข้ากับเฟรมเวิร์กแอปพลิเคชันที่มีอยู่ การสนับสนุน ASTORE พร้อมใช้งานสำหรับโหนดแนวคิด ความรู้สึก และหมวดหมู่

รองรับ 33 ภาษาโดยพื้นฐาน

รองรับ 33 ภาษาโดยพื้นฐาน

  • ตรวจหาภาษาที่แสดงจากคลังข้อมูลหลายภาษา (เอกสาร) โดยอัตโนมัติ
  • การวิเคราะห์ข้อความแบบพร้อมใช้งานสำหรับ 33 ภาษา:
    • ภาษาอาหรับ
    • ภาษาจีน
    • ภาษาโครเอเชีย
    • ภาษาเช็ก
    • ภาษาเดนมาร์ก
    • ภาษาดัตช์
    • ภาษาอังกฤษ
    • ภาษาฟาร์ซี
    • ภาษาฟินแลนด์
    • ภาษาฝรั่งเศส
    • ภาษาเยอรมัน
    • ภาษากรีก
    • ภาษาฮีบรู
    • ภาษาฮินดี
    • ภาษาฮังการี
    • ภาษาอินโดนีเซีย
    • ภาษาอิตาเลียน
    • ภาษาญี่ปุ่น
    • ภาษาคาซัค
    • ภาษาเกาหลี
    • ภาษานอร์เวย์
    • ภาษาโปแลนด์
    • ภาษาโปรตุเกส
    • ภาษาโรมาเนีย
    • ภาษารัสเซีย
    • ภาษาสโลวัก
    • ภาษาสโลวีเนีย
    • ภาษาสเปน
    • ภาษาสวีเดน
    • ภาษาตากาล็อก
    • ภาษาตุรกี
    • ภาษาไทย
    • ภาษาเวียตนาม
  • รายการตัวหยุดที่เป็นค่าเริ่มต้นสำหรับแต่ละภาษาที่แอปพลิเคชันรองรับ
  • อภิธานคำศัพท์ในตัวที่รองรับการแจกแจงรูปประโยค เช่น การแปลงเป็นโทเค็น, การแทรกคำย่อ, การตรวจจับการสะกดผิด, การติดแท็กชนิดของคำ, การวิเคราะห์ความสัมพันธ์ของคำในประโยค และการแก้ความกำกวมของประโยค

แพลตฟอร์มเปิด

แพลตฟอร์มเปิด

  • ผสานการทำงานกับระบบที่มีอยู่และเทคโนโลยีโอเพ่นซอร์สได้อย่างลงตัว
  • ผสานพลังของ SAS Analytics ให้กับแอปพลิเคชันอื่นๆ โดยใช้ REST API
  • API แบบเปิดและสถาปัตยกรรมบริการแบบไมโครช่วยให้คุณสามารถข้าม GUI ดั้งเดิมและใช้ UI ของคุณเองหรือสร้างแอปพลิเคชันการค้นหาที่กำหนดเองได้
  • เผยแพร่โมเดลการวิเคราะห์ข้อความที่เลือกไปที่ Microanalytics Services (MAS) API ได้อย่างรวดเร็วและง่ายดาย ซึ่งคุณสามารถฝังในโปรแกรมประยุกต์บนเว็บของคุณเพื่องานด้านการจัดหมวดหมู่ตามต้องการและการแยกคอนเซปต์ได้
  • อินเทอร์เฟซการเขียนโปรแกรมการวิเคราะห์แบบพร้อมใช้งานสำหรับการสรุปข้อความ การแยกเซกเมนต์ข้อมูลประเภทข้อความ, การแจกแจงรูปประโยคและการทำเหมืองข้อความ, การพัฒนาและให้คะแนนกฎข้อความ, การค้นพบกฎข้อความ, การแมปคำศัพท์และการแมปหัวข้อ, Conditional Random Field และการค้นหา
  • รองรับทั้งวงจรชีวิตการวิเคราะห์ ตั้งแต่ข้อมูลไปจนถึงการค้นพบและการปรับใช้
  • โค้ดดิ้งในภาษาการเขียนโปรแกรมที่หลากหลาย เช่น SAS, Python, R, Java, Scala และ Lua