SAS^® Visual Text Analytics

รายการคุณสมบัติของ SAS Visual Text Analytics

การเตรียมข้อมูลและการแสดงภาพ

นำเข้า ทำความสะอาด และแปลงข้อมูลสำหรับการวิเคราะห์ รับไฟล์หลายรูปแบบอย่างง่ายดายผ่านระบบไฟล์ในเครื่องหรือจากระยะไกล ฐานข้อมูลเชิงสัมพันธ์ และที่เก็บข้อมูลบนคลาวด์
มีอินเทอร์เฟซผู้ใช้งานที่ใช้ง่ายซึ่งคำนึงถึงปัจจัยต่างๆ ที่สำคัญ เช่น การแปลเป็นภาษาท้องถิ่น/เป็นภาษาสากล และการเข้าถึงได้
มีความสามารถในการแสดงเอนทิตี ข้อเท็จจริง และความสัมพันธ์ที่ถูกแยกออกมาโดยใช้แผนภาพเครือข่ายหรือการวิเคราะห์พาธ
และมีความสามารถในการดึงข้อมูลจากโหนดแนวคิดเป็นรูปแบบที่พร้อมสำหรับ SAS Visual Analytics
แผนผังคำช่วยให้คุณสามารถระบุความสัมพันธ์ระหว่างคำได้
อินเทอร์เฟซผู้ใช้งานแบบกราฟิกมีโฟลว์การเขียนโปรแกรมแบบภาพ
ความสามารถในการอธิบายโมเดลมีคำอธิบายการสร้างภาษาธรรมชาติ (NLG) สำหรับเอาต์พุตทั้งหมด

การแจกแจงรูปประโยค

การดำเนินการแจกแจงรูปประโยคเป็นฟังก์ชันที่พร้อมใช้งานทันทีกับทุกภาษาที่รองรับ
การวิเคราะห์ข้อความแบบแจกแจงรองรับการเก็บรวบรวมข้อมูลแบบกระจายซึ่งทำให้การประมวลผลข้อมูลด้วยการกระจายทุกองค์ประกอบของกระบวนการรวบรวมบนกริด
การแปลงเป็นโทเค็นจะตัดลำดับอักขระให้กลายเป็นประโยค คำ หรือหน่วยคำที่สามารถใช้เป็นอินพุตสำหรับการแท็กส่วนของคำพูดได้
การแทรกคำย่อจะเชื่อมโยงคำกับรูปแบบเดิมของคำ
การวิเคราะห์การสะกดผิดจะเชื่อมโยงคำที่สะกดผิดกับชุดรูปแบบที่มีคำที่สะกดถูกต้อง
การติดแท็กชนิดของคำจะจำแนกประเภทของคำตามหลักไวยากรณ์โดยอิงตามความหมายและบริบท
การระบุและแยกข้อความออกเป็นประโยคจะกำหนดตำแหน่งเริ่มต้นและสิ้นสุดของประโยค
การวิเคราะห์ความสัมพันธ์ของคำในประโยค จะกำหนดความสัมพันธ์ระหว่างคำในประโยคตามหลักวากยสัมพันธ์ผ่านการประยุกต์ใช้อัลกอริธึมการเรียนรู้เชิงลึก

วิเคราะห์แนวโน้ม

การค้นหาหัวข้อโดยอัตโนมัติใช้วิธีการเรียนรู้ด้วยเครื่องแบบไม่มีผู้ดูแลสองวิธี ได้แก่ การแยกส่วนค่าเอกพจน์และการจัดสรร Dirichlet ที่แฝงอยู่ เพื่อจัดกลุ่มเอกสารตามธีม
คะแนนความเกี่ยวข้องจะคำนวณว่าแต่ละเอกสารเข้ากับแต่ละหัวข้อได้ดีเพียงใด และแฟล็กไบนารีจะแสดงความเป็นสมาชิกของหัวข้อเหนือเกณฑ์ที่กำหนด
รวมหรือแยกหัวข้อที่เครื่องสร้างขึ้นโดยอัตโนมัติ (การเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล) เพื่อสร้างหัวข้อที่ผู้ใช้กำหนด (ความเชี่ยวชาญเฉพาะเรื่องเพื่อปรับแต่งเอาต์พุต AI อัตโนมัติ)

การสกัดข้อมูล

ดึงข้อมูลที่มีโครงสร้างออกจากประเภทข้อมูลที่ไม่มีโครงสร้างหรือกึ่งมีโครงสร้างโดยอัตโนมัติ เพื่อสร้างข้อมูลที่มีโครงสร้างใหม่โดยใช้งาน เช่น การจดจำเอนทิตี การดึงข้อมูลความสัมพันธ์ และการแก้ไขแกนกลาง
ใช้คอนเซปต์ที่กำหนดไว้ล่วงหน้าเพื่อแยกเอนทิตีที่เหมือนกัน เช่น ชื่อ องค์กร สถานที่ แสดงเวลา วันที่ ปริมาณ เปอร์เซ็นต์ และอื่นๆ
ให้คะแนนข้อมูลประเภทข้อความโดยใช้โมเดล Named Entity Recognition (NER) ที่ได้รับการสนับสนุนโดยการเรียนรู้ของเครื่องเพื่อดึงข้อมูลจากข้อความเพื่อเพิ่มคุณภาพและเร่งความเร็วให้กระบวนการตัดสินใจ
ให้คุณสร้างคอนเซปต์ที่กำหนดเองโดยใช้คำสำคัญ, ตัวดำเนินการบูลีน, Regular Expression, ตรรกะเพรดิเคต และตัวดำเนินการทางภาษาที่หลากหลาย
คุณจะสามารถอ้างอิงแนวคิดที่กำหนดไว้ล่วงหน้าหรือกำหนดเองในกฎการจัดหมวดหมู่สำหรับความเฉพาะเจาะจงตามบริบทหรือการเข้าถึงเพิ่มเติมได้
สร้างกฎแนวคิดที่เกี่ยวข้องและกฎข้อเท็จจริงโดยอัตโนมัติตามกฎที่มีอยู่สำหรับแนวคิด
ให้คุณใช้ Sandbox ที่เชื่อมโยงกับคอนเซปต์ที่กำหนดไว้ล่วงหน้าและกำหนดเองแต่ละรายการเพื่อทดสอบกฎใหม่และชุดย่อยของโมเดลกับคอลเล็กชันเอกสารได้อย่างรวดเร็ว
ระบุและจัดกลุ่มภาษาภายในชุดเอกสารที่มีหลายภาษาเพื่อการวิเคราะห์บริบทที่รวดเร็วและแม่นยำยิ่งขึ้น

แนวทางการสร้างโมเดลแบบไฮบริด

การจัดประเภทตาม BERT ใช้เพื่อจับบริบทและความหมายของคำในข้อความเพื่อปรับปรุงความแม่นยำเมื่อเทียบกับโมเดลดั้งเดิม นอกจากการจำแนกประเภททั่วไปแล้ว การจำแนกประเภทตาม BERT ยังสามารถนำมาใช้ในการวิเคราะห์ความคิดเห็นได้อีกด้วย
ความสามารถของ NLP ได้แก่ การแจกแจงรูปประโยค, การแปลงเป็นโทเค็น, การติดแท็กชนิดของคำ, การแทรกคำย่อ และการตรวจจับการสะกดผิด
คุณสามารถใช้รายการเริ่มและหยุดได้
ใช้แท็ก ตัวระบุ และตัวดำเนินการพิเศษในกฎทางภาษาที่ใช้ประโยชน์จากการดำเนินการแจกแจงรูปประโยคเพื่อให้มีความแม่นยำมากขึ้นหรือสามารถจำ/สร้างโมเดลให้สอดคล้องกับความจริงได้ดีขึ้น
ใช้วิธีการทางภาษาตามกฎเพื่อแยกแนวคิดหลัก
คุณสามารถใช้การแจกแจงรูปประโยคอัตโนมัติร่วมกับอัลกอริธึมการเรียนรู้เชิงลึก (โครงข่ายประสาทเทียมแบบวนกลับ) เพื่อจำแนกเอกสารและความคิดเห็นได้อย่างแม่นยำยิ่งขึ้น
การสร้างหัวข้อโดยอัตโนมัติด้วยการเรียนรู้ของเครื่องที่ไม่มีผู้ดูแล
โมเดลการเรียนรู้ของเครื่องแบบมีผู้ดูแล/ตามความน่าจะเป็น ได้แก่ BoolRule, Conditional Random Field และ Probabilistic Semantics
BoolRule ทำให้คุณสามารถสร้างกฎอัตโนมัติสำหรับการจัดหมวดหมู่เอกสารได้
ฟิลด์ Conditional Random Fields และ Probabilistic Semantics จะถูกนำมาใช้เพื่อติดป้ายกำกับและจัดลำดับข้อมูล และสามารถทำให้เอนทิตีและการแยกความสัมพันธ์เป็นโดยอัตโนมัติได้โดยการเรียนรู้กฎตามบริบทของเอนทิตีที่กำหนด เครื่องมือสร้างกฎอัตโนมัติจะเลื่อนระดับหัวข้อเป็นหมวดหมู่ด้วยการเรียนรู้ของเครื่องภายใต้การดูแล

การวิเคราะห์ความคิดเห็น

ข้อมูลอัตวิสัยจะได้รับการระบุว่าเป็นข้อความและจำแนกว่าเป็นเชิงบวก ลบ หรือเป็นกลางโดยใช้การเรียนรู้ของเครื่องหรือแนวทางตามกฎ ข้อมูลดังกล่าวเชื่อมโยงกับเอนทิตี และการแสดงภาพจะแสดงผ่านการแสดงตัวบ่งชี้ความคิดเห็น
ระบุและวิเคราะห์คำศัพท์ วลี และสตริงอักขระที่บ่งบอกถึงความคิดเห็น
บรรยายความคิดเห็นด้วยภาพผ่านตัวแสดงตัวบ่งชี้ความรู้สึกที่ระดับเอกสารหรือหัวข้อ
ให้วิธีการเรียนรู้ของเครื่องที่ทันสมัยสำหรับความคิดเห็นตามเฟรมเวิร์กเปิดของ BERT

การวิเคราะห์คลังข้อมูลภาษา

รันการดำเนินการเพื่อวิเคราะห์คลังข้อมูลภาษา เพื่อสร้างชุดของตารางผลลัพธ์ที่มีจำนวนและสถิติสรุป
ดูและทำความเข้าใจข้อมูลเชิงลึกเกี่ยวกับความซับซ้อนของข้อมูล ความหลากหลายของคำศัพท์ ความหนาแน่นของข้อมูล และเกณฑ์การเปรียบเทียบกับคลังข้อมูลภาษาสำหรับอ้างอิงที่กำหนดไว้ล่วงหน้า
วิเคราะห์เพิ่มเติมหรือแสดงภาพสถิติเหล่านี้ (โดยใช้จำนวน) ในรายงานที่สร้างขึ้นใน SAS Visual Analytics

การใช้งานที่ยืดหยุ่น

โหนด SentiConcepts, Sentiment, Topics และ Categories ให้รหัสคะแนนที่จำเป็นในการปรับใช้โมเดลในชุดข้อมูลภายนอก
รหัสคะแนนเป็นแบบเนทีฟสำหรับการประมวลผลแบบกระจาย โดยใช้ประโยชน์จากทรัพยากรการประมวลผลสูงสุดเพื่อลดเวลาแฝงของผลลัพธ์ แม้ในชุดข้อมูลที่มีขนาดใหญ่มาก
Analytic Store (ASTORE) เป็นไฟล์ไบนารีที่แสดงตรรกะการให้คะแนนจากโมเดลหรืออัลกอริธึมเฉพาะ เนื้อหาที่มีขนาดกะทัดรัดนี้ช่วยให้สามารถเคลื่อนย้ายรหัสคะแนนได้ง่ายและรวมเข้ากับเฟรมเวิร์กแอปพลิเคชันที่มีอยู่ การสนับสนุน ASTORE พร้อมใช้งานสำหรับโหนดแนวคิด ความรู้สึก และหมวดหมู่

รองรับ 33 ภาษาโดยพื้นฐาน

ตรวจหาภาษาที่แสดงจากคลังข้อมูลหลายภาษา (เอกสาร) โดยอัตโนมัติ
การวิเคราะห์ข้อความแบบพร้อมใช้งานสำหรับ 33 ภาษา:
- ภาษาอาหรับ
- ภาษาจีน
- ภาษาโครเอเชีย
- ภาษาเช็ก
- ภาษาเดนมาร์ก
- ภาษาดัตช์
- ภาษาอังกฤษ
- ภาษาฟาร์ซี
- ภาษาฟินแลนด์
- ภาษาฝรั่งเศส
- ภาษาเยอรมัน
- ภาษากรีก
- ภาษาฮีบรู
- ภาษาฮินดี
- ภาษาฮังการี
- ภาษาอินโดนีเซีย
- ภาษาอิตาเลียน
- ภาษาญี่ปุ่น
- ภาษาคาซัค
- ภาษาเกาหลี
- ภาษานอร์เวย์
- ภาษาโปแลนด์
- ภาษาโปรตุเกส
- ภาษาโรมาเนีย
- ภาษารัสเซีย
- ภาษาสโลวัก
- ภาษาสโลวีเนีย
- ภาษาสเปน
- ภาษาสวีเดน
- ภาษาตากาล็อก
- ภาษาตุรกี
- ภาษาไทย
- ภาษาเวียตนาม
รายการตัวหยุดที่เป็นค่าเริ่มต้นสำหรับแต่ละภาษาที่แอปพลิเคชันรองรับ
อภิธานคำศัพท์ในตัวที่รองรับการแจกแจงรูปประโยค เช่น การแปลงเป็นโทเค็น, การแทรกคำย่อ, การตรวจจับการสะกดผิด, การติดแท็กชนิดของคำ, การวิเคราะห์ความสัมพันธ์ของคำในประโยค และการแก้ความกำกวมของประโยค

แพลตฟอร์มเปิด

ผสานการทำงานกับระบบที่มีอยู่และเทคโนโลยีโอเพ่นซอร์สได้อย่างลงตัว
ผสานพลังของ SAS Analytics ให้กับแอปพลิเคชันอื่นๆ โดยใช้ REST API
API แบบเปิดและสถาปัตยกรรมบริการแบบไมโครช่วยให้คุณสามารถข้าม GUI ดั้งเดิมและใช้ UI ของคุณเองหรือสร้างแอปพลิเคชันการค้นหาที่กำหนดเองได้
เผยแพร่โมเดลการวิเคราะห์ข้อความที่เลือกไปที่ Microanalytics Services (MAS) API ได้อย่างรวดเร็วและง่ายดาย ซึ่งคุณสามารถฝังในโปรแกรมประยุกต์บนเว็บของคุณเพื่องานด้านการจัดหมวดหมู่ตามต้องการและการแยกคอนเซปต์ได้
อินเทอร์เฟซการเขียนโปรแกรมการวิเคราะห์แบบพร้อมใช้งานสำหรับการสรุปข้อความ การแยกเซกเมนต์ข้อมูลประเภทข้อความ, การแจกแจงรูปประโยคและการทำเหมืองข้อความ, การพัฒนาและให้คะแนนกฎข้อความ, การค้นพบกฎข้อความ, การแมปคำศัพท์และการแมปหัวข้อ, Conditional Random Field และการค้นหา
รองรับทั้งวงจรชีวิตการวิเคราะห์ ตั้งแต่ข้อมูลไปจนถึงการค้นพบและการปรับใช้
โค้ดดิ้งในภาษาการเขียนโปรแกรมที่หลากหลาย เช่น SAS, Python, R, Java, Scala และ Lua