การเรียนรู้ของเครื่อง (machine learning)

นิยามและความสำคัญ

การเรียนรู้ของเครื่องหรือ machine learning นั้น เป็นรูปแบบหนึ่งของการวิเคราะห์ข้อมูล ที่ดำเนินการวิเคราะห์ด้วยแบบจำลองอย่างเป็นอัตโนมัติ ซึ่งเป็นสาขาหนึ่งของเทคโนโลยีด้าน AI (artificial intelligence) ซึ่งตั้งอยู่บนรากฐานแนวคิดที่ว่า ระบบต่าง ๆ นั้น สามารถที่จะเรียนรู้และมีปฏิสัมพันธ์กับชุดข้อมูลต่าง ๆ รวมถึงสามารถระบุ และทราบรูปแบบต่าง ๆ ที่เกิดขึ้น และนำไปสู่การตัดสินใจได้เองโดยไม่จำเป็นต้องพึ่งพามนุษย์อีกต่อไป

วิวัฒนาการของ machine learning

วิทยาการด้านการคำนวณและคอมพิวเตอร์นั้นมีพัฒนาการอย่างต่อเนื่องอยู่เสมอ ซึ่งส่งผลให้ความก้าวหน้าของเทคโนโลยี machine learning ในปัจจุบันนี้รุดหน้ากว่าในอดีตอย่างมาก วิทยาการด้านการเรียนรู้ของเครื่องนี้เริ่มต้นขึ้นจากการวิเคราะห์รูปแบบหรือ pattern recognition และทฤษฎีที่ว่า คอมพิวเตอร์อาจสามารถเรียนรู้และค่อย ๆ พัฒนาการทำงานต่าง ๆ ด้วยตนเองได้ โดยมิต้องอาศัยการตั้งโปรแกรมอยู่ตลอดเวลา ซึ่งนี่เป็นต้นกำเนิดที่ทำให้นักวิจัยด้าน AI เกิดความสนใจว่า คอมพิวเตอร์และระบบนั้น สามารถที่จะเรียนรู้จากการมีปฏิสัมพันธ์กับข้อมูลได้หรือไม่ ทั้งนี้ คุณลักษณะสำคัญของวิทยาการนี้คือการทำงานแบบซ้ำ (iterative process) ซึ่งเป็นหัวใจของการพัฒนาขีดความสามารถ เนื่องจากระบบและแบบจำลองการวิเคราะห์จะมีโอกาสปรับตัวตามชุดข้อมูลที่ได้พบ และนำไปสู่การพัฒนาการทำงานด้วยตนเอง ระบบจะเรียนรู้และปรับแก้ไขความคลาดเคลื่อนจากการทำงานที่ผ่าน ๆ มา จนกระทั่งสามารถสร้างผลลัพธ์ที่เชื่อถือได้และทำซ้ำได้อย่างสม่ำเสมอ เป็นที่น่าสนใจว่า นี่ไม่ใช่วิทยาการที่เพิ่งเกิดขึ้นมาใหม่ หากแต่เป็นวิทยาการที่กำลังเกิดการพัฒนาอย่างก้าวกระโดด และมีพลวัตอย่างต่อเนื่อง

แม้ว่าอัลกอริทึมสำหรับการเรียนรู้ของเครื่องจำนวนมากจะมีอยู่มานานแล้ว แต่พัฒนาการที่สำคัญยิ่งในปัจจุบันคือการเกิดขึ้นของขีดความสามารถในการนำการคำนวณทางคณิตศาสตร์ที่มีความซับซ้อนสูงยิ่งมาใช้งานสำหรับ big data ในการทำงานแบบซ้ำที่ต่อเนื่อง ซึ่งตัวอย่างของการนำเทคโนโลยี machine learning มาใช้งานที่โดดเด่นและแพร่หลายซึ่งคุณอาจรู้จักหรือคุ้นเคยดีนั้น มีดังต่อไปนี้:

  • คุณอาจได้ทราบถึงกระแสความตื่นตัวเกี่ยวกับรถยนต์ขับเคลื่อนอัตโนมัติที่พัฒนาขึ้นโดย Google ซึ่งนั่นคือหนึ่งในนวัตกรรมสำคัญที่มีรากฐานบนเทคโนโลยี machine learning นี้
  • หากคุณเห็นการแนะนำวิดีโอหรือภาพยนตร์ที่เหมาะสำหรับคุณบน Amazon หรือ Netflix นั่นก็คืออีกหนึ่งตัวอย่างของการใช้งาน machine learning ที่พบเห็นได้ในชีวิตประจำวัน
  • แม้แต่การที่คุณได้ทราบถึงกระแสความรู้สึกของลูกค้าที่กล่าวถึงคุณใน Twitter ก็คือผลจากการผสมผสาน machine learning เข้ากับการวิเคราะห์ทางภาษาหรือ linguistic rule creation
  • การตรวจจับการทุจริต ซึ่งเป็นรูปแบบการใช้ประโยชน์จากการเรียนรู้ของเครื่องที่เป็นที่นิยมในทุกวันนี้

 

ความเชื่อมโยงระหว่าง Machine Learning และ Artificial Intelligence

ข้อแตกต่างสำคัญประการหนึ่งของเทคโนโลยีทั้งสอง คือ AI นั้น เป็นวิทยาการในเชิงกว้างที่มุ่งเน้นการให้คอมพิวเตอร์พัฒนาขีดความสามารถในการทำงานเลียนแบบมนุษย์ ในขณะที่ machine learning คือการใช้ขีดความสามารถเฉพาะบางด้านของเทคโนโลยี AI เพื่อฝึกทักษะการเรียนรู้แก่ระบบและอุปกรณ์ เราขอเชิญคุณรับชมวิดีโอนี้เพื่อช่วยให้คุณเข้าใจถึงความสัมพันธ์ของเทคโนโลยีทั้งสองนี้ได้ดียิ่งขึ้น วิดีโอของเราจะทำการอธิบายรายละเอียดในภาพรวมของทั้งสองสาขาผ่านตัวอย่างและเกร็ดความรู้ที่สนุกสนาน

ระบบการเรียนรู้ของเครื่องมีความสำคัญอย่างไร

กระแสความสนใจเกี่ยวกับ machine learning ในทุกวันนี้เกิดขึ้นได้จากปัจจัยเดียวกันกับที่กระตุ้นให้การทำเหมืองข้อมูลและการวิเคราะห์แบบ Bayesian Analysis ได้รับความนิยมมากอย่างไม่เคยมีมาก่อน เกิดปรากฏการณ์ต่าง ๆ เช่นการขยายตัวของทั้งปริมาณและความหลากหลายของข้อมูล หรือขีดความสามารถทางเทคโนโลยีการประมวลผลที่ทั้งมีต้นทุนต่ำลงและทรงพลังกว่าที่เคยมีมา รวมถึงระบบการจัดเก็บข้อมูลที่ประหยัดและเปี่ยมประสิทธิภาพ

สิ่งเหล่านี้เป็นปัจจัยที่ทำให้การสร้างและใช้งานแบบจำลองเป็นไปได้ด้วยความรวดเร็วอย่างอัตโนมัติ เพื่อการทำงานวิเคราะห์แบบจำลองสำหรับข้อมูลที่มีปริมาณมหาศาลและมีความซับซ้อนสูงยิ่ง ด้วยผลการทำงานที่แม่นยำและรวดเร็วแม้เมื่อรับมือกับงานขนาดใหญ่ก็ตาม และองค์กรต่าง ๆ จะได้รับประโยชน์จากการพัฒนาและใช้งานแบบจำลองที่มีความแม่นยำ โดยเพิ่มโอกาสการค้นพบช่องทางสร้างกำไรอันงดงามทางธุรกิจ และป้องกันความเสี่ยงที่ซ่อนอยู่

 

สิ่งจำเป็นในการสร้างระบบเพื่อการเรียนรู้ของเครื่องที่มีประสิทธิภาพ

  • ขีดความสามารถในการจัดการและจัดเตรียมข้อมูล
  • อัลกอริทึมเพื่อการทำงาน ทั้งระดับพื้นฐานและระดับสูง
  • กระบวนการทำงานแบบเป็นอัตโนมัติและการทำงานซ้ำแบบต่อเนื่อง
  • ความสามารถในการยกระดับการทำงาน
  • การใช้เทคนิค Ensemble Modeling
อินโฟกราฟฟิกเกี่ยวกับ Machine Learning

ความรู้เพิ่มเติม คุณรู้หรือไม่ว่า

  • ในแวดวง Machine Learning นั้น เป้าหมายจะเรียกว่า label
  • ส่วนในวงการด้านสถิติ เรียกเป้าหมายว่า dependent variable
  • ตัวแปรในทางสถิตินั้น เมื่ออยู่ในสาขา Machine Learning จะเรียกว่า feature
  • และการแปลงตัวแปรในทางสถิติ สาขา Machine Learning จะใช้คำว่า feature creation

Machine Learning ในโลกปัจจุบัน

ในทุกวันนี้ องค์กรและธุรกิจต่าง ๆ สามารถนำอัลกอริทึมมาใช้เพื่อการสร้างแบบจำลองสำหรับหาความสัมพันธ์ของตัวแปรต่าง ๆ ซึ่งช่วยให้ได้ผลลัพธ์ข้อมูลสำหรับการตัดสินใจเชิงกลยุทธ์ โดยลดการพึ่งพากระบวนการจากแรงงานคนลง ขอเชิญคุณรับชมข้อมูลเพิ่มเติมเกี่ยวกับเทคโนโลยีสำคัญ ซึ่งกำลังเปลี่ยนแปลงโลกของเราอยู่ในขณะนี้

เอกสารข้อมูล

โอกาสและความท้าทายสำหรับการใช้งาน Machine Learning ในเชิงธุรกิจ

เอกสาร white paper โดย O'Reilly ฉบับนี้ ได้รวบรวมแนวทางและคำแนะนำที่มีประโยชน์สำหรับการนำ machine learning มาใช้งานจริงในองค์กรของคุณ

อ่านรายละเอียดเพิ่มเติม

การสร้างระบบ credit scoring ด้วยพลังแห่ง Machine Learning

machine learning นั้น ช่วยพัฒนาประสิทธิภาพของการทำ credit scoring ได้ในหลายแนวทางด้วยกัน ขอเชิญคุณรับชมข้อมูลว่า หน่วยงานที่ทำงานเกี่ยวกับ credit scoring สามารถใช้ขีดความสามารถด้านการเรียนรู้ของเครื่องในการประเมินกิจกรรมของลูกค้า เพื่อเป็นข้อมูลที่มีประโยชน์ต่อผลประกอบการของผู้ให้กู้ได้อย่างไรบ้าง 

เข้าสู่บทความได้ที่นี่

ความเป็นไปได้ของการเปลี่ยนแปลง ที่ Machine Learning อาจสร้างแก่องค์กรของคุณ

รายงานจาก Harvard Business Review Insight Center ได้ทำการศึกษาว่าขีดความสามารถด้านการเรียนรู้ของเครื่องนั้นจะสร้างกระแสการเปลี่ยนแปลงครั้งใหญ่ให้กับบริษัทต่าง ๆ และองค์ความรู้ด้านการบริหารธุรกิจอย่างไรได้บ้าง   

 ดาวน์โหลดเอกสารรายงาน

การประยุกต์ใช้ machine learning เข้ากับ IoT

ความสามารถจากการเรียนรู้ของเครื่องนั้นสามารถถูกนำมาใช้เพื่อยกระดับประสิทธิภาพในการทำงานได้อย่างมาก โดยเฉพาะอย่างยิ่งเมื่อผสานเข้ากับการทำงานด้าน IoT หรือ internet of things ซึ่งบทความนี้จะทำการสำรวจประเด็นดังกล่าว

เข้าสู่บทความ IoT นี้

Advanced analytics from SAS


Machine learning isn't a specific technology per se; it involves software such as data mining and advanced analytics to comb through large amounts of data and unearth insights. SAS® solutions are infused with innovative algorithms that easily get the job done.

Learn more about analytics solutions from SAS

ผู้ใช้งานหลัก

ภาคส่วนธุรกิจและอุตสาหกรรมต่าง ๆ ที่ต้องทำงานกับข้อมูลปริมาณมหาศาลล้วนแต่ตระหนักถึงความสำคัญของเทคโนโลยีด้านการเรียนรู้ของเครื่องหรือ machine learning นี้ โดยหากองค์กรใดมีขีดความสามารถในการสกัดข้อมูลเชิงลึกและนัยยะทางยุทธศาสตร์ออกจากกระแสของข้อมูลที่เกิดขึ้นได้นั้น ย่อมนำมาซึ่งประสิทธิภาพในการทำงานที่สูงขึ้นและส่งผลถึงขีดความสามารถในการแข่งขันที่ได้เปรียบคู่แข่งโดยปริยาย ภาคส่วนสำคัญที่เป็นผู้ใช้งานหลัก มีตัวอย่างดังต่อไปนี้:

ภาคการบริการทางการเงิน

ธนาคารและธุรกิจทางการเงินต่าง ๆ ได้นำเทคโนโลยีที่เกี่ยวข้องกับการเรียนรู้ของเครื่องมาใช้งานในสองวัตถุประสงค์หลัก นั่นคือเพื่อสกัดข้อมูลเชิงลึกที่มีประโยชน์ต่อการตัดสินใจต่าง ๆ และเพื่อป้องกันการทุจริต ข้อมูลและนัยยะต่างๆ ที่ได้รับนั้นสามารถเปิดเผยโอกาสทางการลงทุนที่ซ่อนอยู่ และยังเป็นประโยชน์แก่นักลงทุนซึ่งจะสามารถทราบได้ว่าเวลาใดเหมาะสมต่อการทำธุรกรรมซื้อขายต่างๆ นอกจากนี้ การทำเหมืองข้อมูลยังช่วยให้สามารถจับตาดูลูกค้าที่อยู่ในกลุ่มความเสี่ยงสูง หรือใช้การตรวจตราผ่านระบบหรือ cybersurveillance เพื่อติดตามสัญญาณอันตรายและสกัดกั้นพฤติกรรมที่ไม่น่าไว้วางใจอันอาจนำไปสู่การทุจริตได้

ภาครัฐ

หน่วยงานภาครัฐต่าง ๆ เช่นหน่วยงานที่รับผิดชอบด้านสาธารณประโยชน์และการป้องกันสาธารณภัยต่าง ๆ คือกลุ่มที่จะได้รับประโยชน์จากการใช้งาน machine learning อย่างมาก เนื่องจากองค์กรลักษณะดังกล่าวมีทั้งโอกาสการเข้าถึงข้อมูลปริมาณมหาศาล และความจำเป็นในการใช้งานข้อมูลเหล่านั้นเพื่อการสกัดนัยยะเชิงนโยบาย ตัวอย่างเช่น ข้อมูลที่ได้รับจากเครื่องตรวจวัดหรือ sensor ต่าง ๆ ซึ่งสามารถนำมาผ่านกระบวนการวิเคราะห์เพื่อพัฒนาประสิทธิภาพด้านการดำเนินงาน และลดต้นทุน ผลลัพธ์ที่ได้จากการเรียนรู้ของเครื่องยังสามารถช่วยลดการทุจริต และการสวมรอยเพื่อขโมยตัวตนทางอิเล็คโทรนิกส์ของผู้อื่นได้อีกด้วย

ธุรกิจเกี่ยวกับสุขภาพ

ในภาคส่วนด้านการแพทย์ สุขภาพ และการสาธารณสุขนั้น machine learning ก็กำลังเป็นที่สนใจและมีการเติบโตอย่างรวดเร็วอีกด้วย อันเนื่องมาจากการพัฒนาเทคโนโลยีอุปกรณ์ด้านสุขภาพแบบสวมใส่ติดตัว (wearable devices) ซึ่งจะเก็บข้อมูลด้านสุขภาพร่างกายของคนไข้ในแบบเรียลไทม์ ซึ่งเทคโนโลยีดังกล่าวนี้จะช่วยให้แพทย์และบุคลากรทางการแพทย์สามารถตรวจตราสุขภาพของคนไข้และตรวจจับสัญญาณเตือนทางสุขภาพต่าง ๆ เพื่อนำไปสู่การตรวจวินิจฉัยโรคและแนวทางการรักษาที่ทันท่วงทีต่อไป 

ภาคส่วนด้านการตลาด

คุณอาจเคยเห็นการแนะนำสินค้าหรือโฆษณาต่าง ๆ ที่เว็บไซต์ประเมินว่า อาจเป็นที่สนใจของคุณ โดยการแนะนำโฆษณาเหล่านี้ก็เกิดขึ้นจากการใช้งาน machine learning เพื่อประเมินความสนใจของคุณจากสินค้าที่คุณได้เคยซื้อหรือสืบค้นข้อมูลก่อนหน้านี้ ซึ่งทำให้ระบบสามารถประเมินและแสดงผลสินค้าอื่น ๆ ที่คุณอาจจะสนใจซื้อเพิ่มเติมต่อไปได้ ซึ่งความสามารถในการเก็บรวมรวมข้อมูล ไปจนถึงวิเคราะห์และสร้างรูปแบบสำหรับลูกค้าแต่ละราย (personalized shopping experience) ตามรสนิยมและความสนใจนั้น อาจกล่าวได้ว่าเป็นแนวโน้มสำหรับการค้าปลีกในยุคอนาคตนับจากนี้

อุตสาหกรรมน้ำมัน เชื้อเพลิง และก๊าซธรรมชาติ

ไม่ว่าจะเป็นการสำรวจและค้นหาแหล่งพลังงานใหม่ ๆ การวิเคราะห์ส่วนประกอบแร่ธาตุในพื้นที่ต่าง ๆ หรือการตรวจตราปัญหาการเสื่อมหรือชำรุดของเครื่องตรวจวัดในไซท์งาน ไปจนถึงการเพิ่มประสิทธิภาพและลดต้นทุนของกระบวนการส่งถ่ายน้ำมัน คุณก็จะพบว่า ปริมาณการใช้ประโยชน์จากขีดความสามารถด้าน machine learning ในภาคอุตสาหกรรมนี้ได้ก่อตัวขึ้นอย่างมหาศาล และยังคงมีแนวโน้มเพิ่มขึ้นอย่างต่อเนื่อง

ภาคอุตสาหกรรมการขนส่ง

การวิเคราะห์ข้อมูลและตรวจหารูปแบบแนวโน้มที่สำคัญต่าง ๆ นั้น ได้กลายเป็นหัวใจสำคัญของภาคการขนส่ง ซึ่งจำเป็นต้องอาศัยการกำหนดเส้นทางที่มีประสิทธิภาพสูงสุด และคาดการณ์เพื่อป้องกันปัญหาต่าง ๆ ที่อาจเกิดขึ้น เพื่อผลประกอบการที่ดีที่สุด ด้วยเหตุนี้ การวิเคราะห์ข้อมูลและการทำแบบจำลองโดยอาศัยขีดความสามารถด้านการเรียนรู้ของเครื่อง จึงเป็นสิ่งสำคัญสำหรับกิจการด้านการขนส่ง รวมทั้งภาครัฐที่ดูแลด้านกิจการขนส่งมวลชน และหน่วยงานอื่น ๆ ที่เกี่ยวข้องกับการคมนาคม

วิธีการด้าน Machine Learning ที่เป็นที่นิยมในปัจจุบัน

ในทุกวันนี้ วิธีการเกี่ยวกับการเรียนรู้ของเครื่องที่เป็นที่แพร่หลายที่สุดสองกระบวนการได้แก่วิธี supervised learning และ unsupervised learning แต่แน่นอนว่า มีวิธีการและเทคนิคอื่น ๆ อีกมากมาย และนี่คือภาพรวมของเทคนิคที่ได้รับความนิยมมากที่สุดในปัจจุบัน

Supervised learning นั้น คือเมื่ออัลกอริทึมได้รับการ "ฝึกฝน" ด้วยการใช้ตัวอย่างแบบมีเป้าหมายหรือ labeled example เช่น การให้ข้อมูลขาเข้า (inputs) โดยระบุถึงผลลัพธ์ขาออก (outputs) ที่ต้องการให้ทราบ ตัวอย่างเช่น อุปกรณ์ชิ้นหนึ่งอาจเรียนรู้โดยกำหนดผลลัพธ์เป็นสองทางคือ "F = failed" และ "R = runs" โดยอัลกอริทึมการฝึกฝนดังกล่าวจะได้รับข้อมูลขาเข้าจำนวนหนึ่ง พร้อมกับผลลัพธ์ขาออกที่ถูกต้อง และให้ระบบเรียนรู้ด้วยการเปรียบเทียบผลลัพธ์ที่ตนประเมินออกมาได้ เปรียบเทียบกับ "เฉลย" เพื่อหาความแตกต่างและจุดที่ผิดพลาด จากนั้น ระบบจึงปรับแก้แบบจำลองการวิเคราะห์ของตนเองตามข้อมูลนั้น โอยอาศัยเทคนิคหลากหลายประเภท ไม่ว่าจะเป็นการจำแนกแยกแยะข้อมูล การทำสมการถดถอย การคาดการณ์ หรือเทคนิค gradient boosting ซึ่งเป็นการที่กระบวนการ supervised learning นี้ ใช้รูปแบบต่าง ๆ ที่ตนพบเพื่อคาดการณ์ "ค่า" ของตัวแปรหรือ labels ต่าง ๆ เมื่อใดก็ตามที่พบกับข้อมูลที่ยังไม่มีการเฉลยชุดต่อ ๆ ไปในอนาคต โดยกระบวนการ supervised learning นี้ เป็นที่นิยมใช้กันในสถานการณ์ที่ข้อมูลในอดีตสามารถเป็นเครื่องทำนายเหตุการณ์ในอนาคตได้อย่างมีประสิทธิภาพ เช่น ระบบที่ฝึกฝนอย่างดีแล้วจะสามารถคาดการณ์ล่วงหน้าได้ว่าธุรกรรมทางบัตรเครดิตใดบ้างที่มีแนวโน้มจะเป็นการทุจริต หรือคาดการณ์ได้ว่า ผู้เอาประกันภัยรายใดมีโอกาสที่จะเบิกค่าประกันภัยมากกว่ารายอื่น ๆ เป็นต้น

การเรียนรู้แบบ Unsupervised learning นั้น ใช้กับข้อมูลที่ไม่มี label สำหรับข้อมูลในอดีตมาก่อน ระบบจะไม่ได้รับการบอก "เฉลย" และต้องทำการเรียนรู้ หาคำตอบด้วยตัวของมันเอง เป้าหมายของการทำเช่นนี้ คือการสำรวจชุดข้อมูล และค้นหารูปแบบหรือโครงสร้างบางอย่างที่ซ่อนอยู่ภายใน การเรียนรู้แบบ unsupervised learning นั้น ทำงานได้ดีสำหรับการจัดการข้อมูลการทำธุรกรรม ตัวอย่างเช่น ระบบสามารถทำการระบุกลุ่มลูกค้าที่มีพฤติกรรมหรือคุณลักษณะคล้าย ๆ กัน ซึ่งจะนำไปสู่การตอบสนองที่คล้ายคลึงกันสำหรับลูกค้าที่มีลักษณะใกล้เคียงกัน เมื่อมีการทำโครงการด้านการตลาด เป็นต้น หรือระบบสามารถทำการค้นหาลักษณะสำคัญที่เป็นตัวแบ่งแยกลูกค้าแต่ละกลุ่มออกจากกันก็ได้เช่นกัน เทคนิคที่เป็นที่นิยมใช้ในการเรียนรู้ประเภทนี้ เช่น การทำ self-organizing maps, nearest-neighbor mapping, k-means clustering และเทคนิค singular value decomposition เป็นต้น โดยอัลกอริทึมเหล่านี้นั้นยังถูกนำมาใช้เพื่อแบ่งแยกหัวเรื่องของข้อความต่าง ๆ ทำการแนะนำรายการหรือสิ่งต่าง ๆ และตรวจหาข้อมูลที่ผิดปกติได้อีกด้วย

การเรียนรู้แบบ Semisupervised learning นั้น ใช้ในสถานการณ์เดียวกันกับ supervised learning แต่ความแตกต่างคือ มีการใช้ข้อมูลทั้งแบบ labeled data และ unlabeled data เพื่อการฝึกฝนระบบ โดยทั่วไปแล้วจะใช้ข้อมูลแบบ labeled จำนวนน้อย ผสมกับข้อมูลแบบ unlabeled จำนวนมาก (ทั้งนี้เนื่องจากข้อมูลแบบ unlabeled มักมีต้นทุนถูกกว่าและได้มาด้วยความง่ายดายมากกว่า) การเรียนรู้ของเครื่องในรูปแบบดังกล่าวนี้ สามารถใช้ร่วมกับเทคนิคอื่น ๆ เช่น การจำแนกประเภทข้อมูล การใช้งานสมการถดถอย หรือการคาดการณ์และพยากรณ์ โดย semisupervised learning นั้น มีประโยชน์เมื่อต้นทุนของการทำ labeling ให้แก่ข้อมูลนั้นสูงเกินกว่าที่จะทำการฝึกฝนระบบด้วยกระบวนการแบบ labeled เต็มรูปแบบ ตัวอย่างแรก ๆ ของการใช้วิธีนี้ เช่น การระบุและจดจำใบหน้าของบุคคลด้วยกล้อง webcam

ส่วนวิธี Reinforcement learning นั้น มักนำมาใช้กับด้านหุ่นยนต์ การเล่นเกมต่าง ๆ และการนำทางและการเคลื่อนที่ ด้วยการเรียนรู้ชนิดนี้ อัลกอริทึมจะลองผิดลองถูกและเรียนรู้ว่าเส้นทางการทำงานแบบใดที่ให้ผลตอบแทนดีที่สุด การเรียนรู้ประเภทนี้จะแบ่งองค์ประกอบออกเป็นสามส่วน คือ agent (ผู้เรียนรู้หรือตัดสินใจ นั่นคือระบบ), environment (ทุกสิ่งที่ agent มีปฏิสัมพันธ์ด้วย) และ actions (สิ่งที่ agent สามารถเลือกปฏิบัติได้) เป้าหมายของกระบวนการนี้ คือการให้ agent เลือกหนทางการปฏิบัติที่ให้รางวัลหรือผลตอบแทนสูงที่สุดในช่วงเวลาที่กำหนด โดย agent หรือตัวระบบนั้นจะสามารถบรรลุเป้าหมายได้รวดเร็วขึ้นมากหากมันมีแนวทางการทำงานที่มีประสิทธิภาพ ดังนั้น เป้าหมายของเทคนิค reinforcement learning คือการสอนให้ระบบเรียนรู้วิถีทางไปสู่เป้าหมายที่ดีที่สุด

ผู้เชี่ยวชาญที่เป็นมนุษย์ สามารถผลิตแบบจำลองเพื่อการวิเคราะห์ที่มีคุณภาพได้โดยเฉลี่ยประมาณ 1-2 ชุด ต่อสัปดาห์ แต่ระบบที่ผ่านการเรียนรู้ของเครื่องอย่างดีแล้ว อาจสร้างแบบจำลองได้เป็นหลักพันในแต่ละสัปดาห์ทีเดียว

Thomas H. Davenport, ผู้นำทางความคิดด้านการวิเคราะห์
คัดข้อความจาก The Wall Street Journal

ความแตกต่างสำคัญระหว่าง data mining, machine learning และ deep learning

แม้ว่าวิธีการเหล่านี้จะมีเป้าหมายเดียวกันทังหมด นั่นคือการสกัดข้อมูลที่มีประโยชน์ออกมา รวมถึงรูปแบบและความสัมพันธ์ที่สามารถนำมาใช้ในการวิเคราะห์ แต่ก็ล้วนมีวิธีและรายละเอียดที่แตกต่างกันออกไป


การทำเหมืองข้อมูล (Data Mining)

การทำเหมืองข้อมูลนั้นอาจเรียกได้ว่าเป็นหมวดหมู่ใหญ่ของกรรมวิธีการสกัดข้อมูลเชิงลึกจากชุดข้อมูลหลากหลายรูปแบบ ซึ่งอาจอาศัยทั้งวิธีการทางสถิติปกติ และการเรียนรู้ของเครื่องร่วมกัน การทำเหมืองข้อมูลนั้น อาศัยวิธีการทำงานจากหลากหลายสาขาวิทยาการด้วยกัน เพื่อระบุและค้นพบรูปแบบข้อมูลซึ่งซ่อนอยู่ วิธีการเหล่านี้มีมากมายตั้งแต่การใช้อัลกอริทึมทางสถิติ การเรียนรู้ของเครื่อง การทำการวิเคราะห์ข้อมูลประเภทข้อความ การวิเคราะห์แบบอนุกรมเวลา และการวิเคราะห์แบบอื่น ๆ และการทำเหมืองข้อมูลนั้นยังรวมถึงการศึกษาและดำเนินงานที่เกี่ยวข้องกับการเก็บรักษาและการบริหารจัดการ ไปจนถึงการแปลงข้อมูลได้อีกด้วย

 


การเรียนรู้ของเครื่อง (Machine Learning)

ความแตกต่างหลักของ machine learning นั้นคือ เป้าหมายหลักของกระบวนการคือการพยายามทำความเข้าใจโครงสร้างของข้อมูล เช่นเดียวกับแบบจำลองทางสถิติต่าง ๆ หรือคือการนำการกระจายตัวทางทฤษฎีสถิติ มาจับเปรียบเทียบเข้ากับข้อมูลที่ผ่านการทำความเข้าใจอย่างดีแล้ว งานด้านสถิตินั้น มักมีทฤษฎีที่ได้รับการพิสูจน์ทางคณิตศาสตร์รองรับแบบจำลองต่าง ๆ ไว้ แต่ก็ยังต้องอาศัยข้อมูลที่ตรงตามข้อกำหนดที่เคร่งครัดของทฤษฎีนั้น ๆ ด้วย ทั้งนี้ เทคโนโลยี machine learning ถูกพัฒนาขึ้นด้วยขีดความสามารถในการใช้คอมพิวเตอร์เพื่อสำรวจหาโครงสร้างในชุดข้อมูล แม้ว่าเราจะไม่ทราบเลยว่าโครงสร้างนั้นเป็นอย่างไร และไม่มีทฤษฎีรองรับ การทดสอบหาแบบจำลองสำหรับการเรียนรู้ของเครื่องนั้นจึงเป็นการทดสอบค่าความผิดพลาดจากชุดข้อมูลใหม่ ๆ มิใช่การทดสอบสมมติฐานตามทฤษฎีที่มีการตั้งไว้แล้ว กระบวนการเรียนรู้นั้น สามารถดำเนินการโดยอัตโนมัติได้ เนื่องจากการทำงานมักอาศัยการทำซ้ำ (iteration) ในการเรียนรู้จากชุดข้อมูลต่าง ๆ โดยมีการรันแบบจำลองซ้ำ ๆ จนกว่าจะพบรูปแบบข้อมูลที่มีประสิทธิภาพในการใช้งานจริง


Deep learning

เทคโนโลยี deep learning นั้น ผสมผสานความก้าวหน้าทางเทคโนโลยีด้านพลังการคำนวณเข้ากับเครือข่าย neural networks รูปแบบพิเศษ เพื่อทำการเรียนรู้รูปแบบที่ซับซ้อนที่อยู่ในชุดข้อมูลขนาดมหึมา ในปัจจุบันนี้ เทคนิคด้าน deep learning จัดเป็นความก้าวหน้าระดับแนวหน้าสุดในการระบุวัตถุจากภาพ และระบุคำต่าง ๆ จากข้อมูลเสียง นักวิจัยกำลังทำการค้นคว้าวิธีการนำความสำเร็จเหล่านี้มาประยุกต์ใช้กับการทำงานที่ยากยิ่งขึ้นเช่น การแปลภาษาโดยอัตโนมัติ การวินิจฉัยโรคทางการแพทย์ และประเด็นทางสังคมและธุรกิจที่สำคัญอื่น ๆ

การทำงานของบิ๊กดาต้า

การที่คุณจะได้รับผลลัพธ์ที่ดีที่สุดจากขีดความสามารถด้านการเรียนรู้ของเครื่องนั้น คุณจะต้องรู้วิธีการจับคู่อัลกอริทึมชั้นเลิศที่คุณมีอยู่ให้เหมาะสมกับเครื่องมือและกระบวนการ SAS ทำการผสมผสานความชำนาญของเราที่มีมานานทั้งด้านสถิติและการทำเหมืองข้อมูลเข้ากับนวัตกรรมใหม่ที่ล้ำสมัย เพื่อให้มั่นใจว่าแบบจำลองของคุณจะสามารถทำงานได้อย่างฉับไวที่สุด แม้แต่ในองค์กรขนาดยักษ์ใหญ่ที่มีข้อมูลมหาศาล

อัลกอริทึม: อินเตอร์เฟสเชิงภาพของ SAS จะช่วยให้ผู้ใช้งานของคุณสามารถสร้างแบบจำลองเพื่อการเรียนรู้ของเครื่อง และดำเนินการทำงานที่เกี่ยวข้องได้อย่างมีประสิทธิภาพ คุณสามารถใช้งานระบบของเราได้อย่างมีประสิทธิภาพ แม้ว่าคุณจะไม่ได้เป็นนักสถิติในระดับที่ซับซ้อนก็ตาม โดยเรามีอัลกอริทึมเพื่อการเรียนรู้ของเครื่องมากมาย ซึ่งจะพร้อมช่วยให้คุณได้รับมูลค่าและนัยยะที่มีประโยชน์อย่างยิ่งจากข้อมูล big data ของคุณ พร้อมกับขีดความสามารถของผลิตภัณฑ์อื่น ๆ ของ SAS อีกด้วย อัลกอริทึมด้านการเรียนรู้ของเครื่องจาก SAS นั้น จะประกอบด้วยขีดความสามารถที่หลากหลาย อันได้แก่:

ระบบ Neural networks
 
แผนผังแบบ Decision trees
 
เทคนิค Random forests
 
การใช้ Associations and sequence discovery
 
การทำ Gradient boosting and bagging
 
การใช้ Support vector machines
 
เทคนิค Nearest-neighbor mapping
 
เทคนิค k-means clustering
 
การใช้ Self-organizing maps
 
การใช้เทคนิค Local search optimization techniques (เช่นอัลกอริทึมแบบสามัญหรือ generic algorithms)
 
เทคนิค Expectation maximization
 
การทำ Multivariate adaptive regression splines
 
การทำ Bayesian networks
 
การทำ Kernel density estimation
 
การทำ Principal component analysis
 
การทำ Singular value decomposition
 
การทำ Gaussian mixture models
 
การทำ Sequential covering rule building
 

 

เกี่ยวกับเครื่องมือและกระบวนการต่าง ๆ: ปัจจุบันนี้เราทราบดีแล้วว่าความสำเร็จไม่ได้เกิดจากการมีอัลกอริทึมชั้นยอดเพียงเท่านั้น หากแต่เคล็ดลับสู่การสร้างมูลค่าสูงสุดจากข้อมูล big data ของคุณนั้น มาจากการจับคู่อัลกอริทึมระดับแนวหน้าของคุณเข้ากับงานที่เหมาะสมกับอัลกอริทึมแต่ละประเภทด้วย:

มิติด้านคุณภาพของข้อมูล และการบริหารจัดการที่ครบวงจร
 
GUIs เพื่อการสร้างแบบจำลองและทำ process flows
 
กระบวนการสำรวจและแสดงผลข้อมูล ฃและผลลัพธ์จากแบบจำลอง ฃที่พร้อมตอบสนองกับคุณ
 
การเปรียบเทียบแบบจำลองเพื่อการเรียนรู้ของเครื่องต่าง ๆ เพื่อการระบุแบบจำลองที่ดีที่สุด    
 
การประเมินและให้คะแนนแบบจำลองแบบ ensemble model เพื่อทราบแบบจำลองที่ดีที่สุด
 
การนำแบบจำลองมาใช้งานที่สะดวกรวดเร็วเพื่อให้คุณได้รับผลลัพธ์ที่กระทำซ้ำได้และน่าเชื่อถืออย่างทันการณ์
 
แพลตฟอร์มที่มีการผสานงานระหว่างทุกส่วน เพื่อการดำเนินงานอย่างครบวงจร ตั้งแต่ขั้นการทำข้อมูล จนถึงการตัดสินใจท้ายสุด
 

หากคุณต้องการข้อมูลและคำแนะนำพื้นฐานเกี่ยวกับการเลือกใช้อัลกอริทึมการเรียนรู้ของเครื่อง (machine learning algorithms) สำหรับงานแต่ละประเภท ขอเชิญชม blog นี้ ซึ่งจัดทำขึ้นโดยคุณ Hui Li ซึ่งเป็นผู้เชี่ยวชาญด้านการวิเคราะห์ข้อมูล (data scientist) ของ SAS ซึ่งรวบรวมข้อมูลสำคัญ ๆ ไว้ให้แก่คุณอย่างครบถ้วนที่นี่