รายการฟีเจอร์ของ SAS Enterprise Miner
อินเทอร์เฟซอัจฉริยะ
- GUI ที่มีการทำงานร่วมกัน สำหรับการสร้างแผนภาพขั้นตอนได้
- การประมวลผลแบบ Batch สำหรับการกำหนดตารางของงานที่เกี่ยวข้องกับแบบจำลองและระบบการให้คะแนนขนาดใหญ่
การเตรียม สรุป และสำรวจข้อมูล
- เข้าถึงและผสานแหล่งข้อมูลที่มีรูปแบบเป็นโครงสร้างและข้อมูลดิบ
- การคัดกรองข้อมูลที่ผิดปกติ
- การสุ่มตัวอย่างข้อมูล
- การแบ่งแยกข้อมูล
- การนำเข้าไฟล์
- การรวมและเชื่อมต่อข้อมูล
- สถิติทดสอบตัวแปรเดี่ยวและแผนภาพ (Univariate statistics and plots)
- สถิติทดสอบตัวแปรคู่และแผนภาพ (Bivariate statistics and plots)
- Batch และแผนภาพที่มีการทำงานร่วมกัน
- แผนภาพแสดงโปรไฟล์ของแต่ละกลุ่ม
- Graphics Explorer wizard และ Graph Explore node ที่ใช้งานง่าย
- แผนภาพเชื่อมโยง และตารางที่มีการทำงานร่วมกัน
- การแปลงข้อมูล
- การเตรียมและการวิเคราะห์ข้อมูลอนุกรมเวลา (Time series)
- การปรับข้อมูลแบบ Interactive variable binning
- การสร้าง Rules Builder node สำหรับการสร้างสรรค์งานโดยเฉพาะที่เกี่ยวกับกฎและนโยบายที่ขับเคลื่อนโดยพลังของข้อมูล
- การทดแทนของข้อมูล
การสร้างโมเดลเชิงคาดการณ์และเชิงพรรณนาขั้นสูง
- การจัดกลุ่มและแผนผังการจัดระเบียบด้วยตนเอง (Clustering and self-organizing maps)
- การวิเคราะห์ข้อมูลด้านการตลาด (Market basket analysis)
- การวิเคราะห์ลำดับและเว็บพาธ (Sequence and web path analysis)
- เทคนิคการเชื่อมโยงข้อมูล (Link analysis)
- เทคนิคการลดไดเมนชัน:
- การคัดเลือกตัวแปร (Variable selection)
- การคัดเลือกตัวแปรสำหรับ LARS (Least Angel Regression)
- การวิเคราะห์ส่วนประกอบสำคัญ (Principal components)
- ตัวแปรที่จัดแบ่ง (Variable clustering)
- การทำเหมืองสำหรับอนุกรมเวลา (Time series mining)
- สมการถดถอยเชิงเส้นและโลจิสติกส์ (Liner and logistic regression)
- แผนผังการตัดสินใจแบบต้นไม้ (Decision tree)
- วิธีการ Gradient boosting
- โครงข่ายประสาท (Neural network)
- สมการถดถอยกำลังสองน้อยที่สุดบางส่วน (Partial least squares regression)
- แบบจำลองสองระดับชั้น (Two-stage modeling)
- วิธีการ Memory-based reasoning
- แบบจำลอง ensembles ซึ่งรวมถึงเทคนิค bagging และ boosting
- การทำเหมืองข้อมูลสำหรับอนุกรมเวลา (Time series data mining)
- Survival analysis
- การคำนวณอัตราเบี้ยประกันภัย (Ratemaking for insurance)
- แบบจำลอง Incremental response/net lift
โหนดรวมโอเพ่นซอร์ส R
- การเขียนโปรแกรมภาษา R บน SAS Enterprise Miner
- ให้ SAS Enterprise Miner และ Metadata รองรับการเขียนโปรแกรม R และส่งผลลัพธ์กลับมายัง SAS Enterprise Miner
- สามารถฝึกสอนและให้คะแนนแบบจำลองแบบมีผู้สอน (supervised R model) และไม่มีผู้สอนได้ (unsupervised R model)
- รองรับการแปลงข้อมูล และการสำรวจข้อมูลของแบบจำลอง R ใน SAS Enterprise Miner
- เปรียบเทียบแบบจำลองและ SAS score code ในแบบจำลองสนับสนุนต่างๆ
เลือกชุดกระบวนการและโหนดประสิทธิภาพสูง
- กระบวนการแบบมัลติเทรดประสิทธิภาพสูง
- การลดตัวแปรที่มีประสิทธิภาพสูง (High-performance variable reduction)
- โครงข่ายประสาทที่มีประสิทธิภาพสูง (High-performance neural networks)
- เทคนิค Random forests ที่มีประสิทธิภาพสูง (High-performance random forests)
- 4score ที่มีประสิทธิภาพสูง (High-performance 4score)
- ตัดสินใจได้อย่างมีประสิทธิภาพสูง (High-performance decide)
- ฐานข้อมูลเหมืองข้อมูลที่มีประสิทธิภาพสูง (High-performance data mining database)
- การทำข้อมูลตัวอย่างที่มีประสิทธิภาพสูง (High-performance sampling)
- การสรุปข้อมูลที่มีประสิทธิภาพสูง (High-performance data summarization)
- การคาดคะเนข้อมูลที่หายไปอย่างมีประสิทธิภาพสูง (High-performance imputation)
- ปรับข้อมูลให้เรียบอย่างมีประสิทธิภาพสูง (High-performance binning)
- ค่าสหสัมพันธ์ที่มีประสิทธิภาพสูง (High-performance correlation)
- เครือข่ายงานเบย์ที่มีประสิทธิภาพสูง (High-performance Bayesian network)
- การแบ่งกลุ่มข้อมูลอย่างมีประสิทธิภาพสูง (High-performance clustering)
- เทคนิค Support Vector Machine ที่มีประสิทธิภาพสูง (High-performance Support Vector Machine)
- Node การประมวลผลพร้อมกันที่มีประสิทธิภาพสูง (Multithreaded, high-performance nodes) ประกอบไปด้วย
- HP Data Partition
- HP Explore
- HP Transform
- HP Variable Selection
- HP Regression
- HP Neural
- HP Forest
- HP Impute
- HP Tree
- HP GLM
- HP Principal Components
- HP Cluster
- HP SVM
วิธีที่รวดเร็ว ง่ายดาย และพึ่งพาตนเองได้ให้ผู้ใช้ทางธุรกิจใช้ในการสร้างโมเดล
- SAS Rapid Predictive Modeler สามารถสร้างแบบจำลองการพยากรณ์ได้อย่างอัตโนมัติเพื่อแก้ปัญหาต่างๆ ในธุรกิจได้
- นักวิเคราะห์และผู้เชี่ยวชาญต่างทำงานจาก SAS Enterprise Guide หรือ the SAS Add-In สำหรับ Microsoft Office (Excel เท่านั้น)
- แบบจำลองสามารถเพิ่มพูน ปรับเปลี่ยน และใช้งานจากโปรแกรม SAS Enterprise Miner ได้
- สร้างการรายงานผลที่แม่นยำ รวมทั้งแผนผังตัวแปรที่สำคัญ Lift charts และ ROC charts รวมถึงแบบจำลองด้านคะแนน ที่ง่ายต่อการนำไปใช้งาน
- ความสามารถในการให้คะแนนข้อมูลเทรนนิ่ง (training data) และมีตัวเลือกในการบันทึกคะแนนเหล่านั้น
การเปรียบเทียบโมเดล การรายงาน และการจัดการ
- คุณสมบัติการประมวลผลสำหรับการเปรียบเทียบโมเดลต่างๆ โดยใช้เทคนิค Lift curves และการวินิจฉัยด้านสถิติ รวมถึงดัชนี ROI
- มีการแสดงผลที่เห็นได้อย่างชัดเจนในอินเทอร์เฟซ ที่ช่วยเปรียบเทียบแบบจำลองของคุณ
- ด้วยนวัตกรรมการที่สามารถกำหนดจุดตัด (cutoff) ที่สร้างกำไรสำหรับสองเป้าหมายได้
- การสร้างรายงานและการส่งออก
- ชุดผลลัพธ์ด้านแบบจำลอง
- การประมวลผลรายกลุ่มสำหรับเป้าหมายและกลุ่มต่าง ๆ
- สภาพแวดล้อมที่มีการเปรียบเทียบให้เห็นถึงแบบจำลองใกล้เคียงกันอยู่เสมอและประเมินความสำคัญของการใส่ตัวแปรกับการคาดการณ์เวลาในการตอบสนอง
- Register Model node ช่วยผสานสภาพแวดล้อมในการใส่แบบจำลองเข้าเซิร์ฟเวอร์ของ SAS Metadata
- นอกจากนี้ยังสามารถใช้ Macro สำหรับแบบจำลองที่มีการพัฒนามาจาก SAS code ในเซิร์ฟเวอร์ของ SAS Metadata ได้ด้วย
ขั้นตอนการคิดคะแนนแบบอัตโนมัติ
- การคิดคะแนนที่ทำงานร่วมกันในแบบเรียลไทม์หรือแบบ Batch
- สร้าง Score code ได้อย่างอัตโนมัติใน SAS, C, Java และ PMML
- ให้คะแนนข้อมูลตามแบบจำลองที่บันทึกเป็น PMML documents (experimental)
- ให้คะแนนแบบจำลอง SAS Enterprise Miner โดยตรงในระบบ Aster, EMC Pivotal (อดีตคือ Greenplum), IBM DB2, IBM Netezza, Oracle และ ฐานข้อมูล Teradata ด้วย SAS Scoring Accelerator
- การขึ้นทะเบียนและการบริหารแบบจำลอง
- สามารถนำแบบจำลองไปใช้ได้ในหลากหลายสภาพแวดล้อม
- ผสานขั้นตอนเทรนนิ่ง (training) และให้คะแนนและให้คะแนน SAS Enterprise Miner โดยตรงไปยังโซลูชัน SAS แบบอื่น ๆ
สามารถใช้งานและปรับแต่งได้
- ขยาย Node เพื่อเพิ่มเครื่องมือและปรับแต่ง SAS code ได้ตามต้องการ
- คุณลักษณะการปรับแต่งที่มีการทำงานร่วมกันสำหรับ เทรนนิ่ง (training) และ Score code
- ผสานการวิเคราะห์ข้อมูลสำหรับข้อมูลที่มีโครงสร้างและข้อมูลดิบเข้าด้วยกัน
- รวบรวมข้อมูลอนุกรมเวลา (time series) เว็บพาธ (Web paths) และกฎต่าง ๆ ที่เกี่ยวข้อง เป็นเสมือนตัวแปรเพิ่มเติม ที่ใส่ในขั้นตอนการพัฒนาแบบจำลอง
การประมวลผลที่สามารถวัดได้
- หากตารางต่างๆ มีขนาดใหญ่เกินกว่าปริมาณหน่วยความจำที่บรรจุได้ เซิร์ฟเวอร์จะทำการเก็บบล็อกข้อมูลต่าง ๆ ไว้ในรูปของแคช (cache) แทน
- การเก็บรักษาและการประมวลผลที่อ้างอิงจากเซิร์ฟเวอร์
- ทางเลือกในการประมวลผลการคำนวณแบบกริด (Grid) ในฐานข้อมูลหรือหน่วยความจำ
- การสร้างแบบจำลอง Asynchronous
- ความสามารถในการหยุดการประมวลผลอย่างราบรื่น
- การประมวลผลควบคู่กันไป
- อัลกอรึทึมการพยากรณ์พร้อมๆ กัน (Multithreaded predictive algorithms)