NEWS /

7 ขั้นตอนในการจัดการข้อมูลขนาดใหญ่

โดย นายทวีศักดิ์ แสงทอง กรรมการผู้จัดการ บริษัท แซส ซอฟท์แวร์ (ไทยแลนด์) จำกัด

              

              

 

          กรุงเทพ (10 พฤษภาคม 2556), แนวโน้มของข้อมูลขนาดใหญ่ (Big Data) ในปัจจุบัน แสดงให้เห็นถึงการพัฒนาของเทคโนโลยีที่ใช้ในการประมวลผลข้อมูล ขนาดใหญ่ ด้วยโซลูชั่นรูปแบบใหม่ๆที่ไม่ได้จำกัดแค่เพียงฐานข้อมูลหลักเท่านั้น นอกจากนี้ยังมีองค์ประกอบที่บริษัทต่างๆ จำเป็นต้องพิจารณาเบื้องต้นก่อนที่จะเริ่มใช้งานข้อมูลขนาดใหญ่เหล่านั้น

ก่อนอื่นความหมายของข้อมูลขนาดใหญ่ในมุมมองของผม หมายถึง เทคโนโลยีและแนวทางการปฏิบัติใหม่ๆ ที่สามารถรวบรวม ประมวลผล ค้นหา และจัดเก็บข้อมูลขนาดใหญ่ทั้งแบบที่มีโครงสร้างและไม่มีโครงสร้างได้อย่างรวดเร็วและมีประสิทธิภาพ

สำหรับข้อมูลขนาดใหญ่ สามารถครอบคลุมตั้งแต่การซื้อขายทางด้านการเงิน ข้อมูลด้านพันธุกรรมของมนุษย์ การตรวจจับการตรวจวัดทางไกลในตัวรถยนต์ (Telemetry) รวมถึงการสื่อสารผ่านทางสังคมออนไลน์ ไปจนถึงเว็บบล็อกและอื่นๆ โดยสิ่งเหล่านี้ล้วนแต่มีต้นทุนสูงในการประมวลผลและการจัดเก็บข้อมูลไว้ในฐานข้อมูลแบบเดิม และเพื่อแก้ปัญหาดังกล่าวจึงเลือกใช้เทคโนโลยีใหม่ๆ ด้วยโซลูชั่นแบบโอเพ่นซอร์สและฮาร์ดแวร์เพื่อช่วยในการจัดเก็บข้อมูลได้อย่างมีประสิทธิภาพ รองรับเวิร์กโหลดที่เกิดขึ้นพร้อมกันจำนวนมาก และให้ความสามารถประมวลผลได้อย่างรวดเร็ว

เมื่อบริษัทต่างๆ มีแผนพัฒนาข้อมูลขนาดใหญ่เพื่อเกิดประโยชน์ต่อการดำเนินธุรกิจแล้ว การจัดการข้อมูลขนาดใหญ่เพื่อให้เกิดมูลค่าทางธุรกิจนั้นประกอบด้วยขั้นตอนที่สำคัญ 7 ข้อ ดังนี้

1. การรวบรวมข้อมูล : ข้อมูลจะได้รับการเก็บรวบรวมจากแหล่งข้อมูลต่างๆ ที่มีการกระจายอยู่ทั่วไปในหลายๆจุด ซึ่งมักจะอยู่ในรูปของตาราง และแต่ละจุดจะมีการประมวลผลชุดย่อยของข้อมูลควบคู่กันไป

2. การประมวลผลข้อมูล : ระบบจะใช้การทำงานแบบคู่ขนานที่มีประสิทธิภาพสูงเพื่อประมวลผลข้อมูลในแต่ละจุดอย่างรวดเร็ว ต่อจากนั้น ในแต่ละจุดจะได้รับข้อมูลในรูปแบบของชุดข้อมูลที่สามารถนำไปใช้ดำเนินการได้อย่างรวดเร็ว โดยผ่านการจัดการทั้งจากคน (ในกรณีของการวิเคราะห์) หรือเครื่อง (ในกรณีของการตีความผลลัพธ์ขนาดใหญ่)

3. การจัดการข้อมูล : หลายครั้งที่ผลการประมวลข้อมูลขนาดใหญ่มีความแตกต่างกันซึ่งมาจากระบบการประมวลผลที่แตกต่างกัน จึงทำให้ข้อมูลเกือบทั้งหมดจำเป็นต้องได้รับความเข้าใจ การระบุประเภท การอธิบายประกอบ การจัดระเบียบ และการถูกตรวจสอบเพื่อวัตถุประสงค์ทางด้านความปลอดภัย

4. การวัดผลข้อมูล : หลายบริษัทวัดผลระดับของข้อมูลที่สามารถผสานรวมเข้ากับพฤติกรรรมของลูกค้าหรือบันทึกของข้อมูลได้ เมื่อระดับของการผสานรวมหรือการแก้ไขข้อมูลเพิ่มขึ้นเรื่อยๆ จึงควรกำหนดประเภทของการวัดผลและการติดตามผลอย่างต่อเนื่องเพื่อความต้องการทางด้านธุรกิจ

5. การใช้งานข้อมูล : การใช้ข้อมูลควรสอดคล้องกับความต้องการที่มีอยู่เพื่อการประมวลผลข้อมูล เช่น หากต้องการแสดงความสัมพันธ์ของข้อมูลสื่อสังคมออนไลน์เพียงไม่กี่ร้อยเทราไบต์ ควรจะมีการจัดการข้อมูลสื่อสังคมออนไลน์อย่างไรเพื่อนำเสนอเกี่ยวกับความจำเป็นในการซื้อซอฟต์แวร์เพิ่มเติม จากนั้นควรจะมีกฎในการจัดการวิธีการเข้าถึงข้อมูลและอัพเดตสื่อสังคมออนไลน์ที่เกิดขึ้น ซึ่งสิ่งนี้จะมีความสำคัญเทียบเท่ากับการเข้าถึงข้อมูลระหว่างเครื่องด้วยกัน (machine-to-machine)

6. การจัดเก็บข้อมูล : เมื่อ "ข้อมูลในรูปแบบบริการ" (data-as-a-service) มีแนวโน้มที่จะเกิดขึ้น การเพิ่มขึ้นของข้อมูลยังคงอยู่ในตำแหน่งที่ตั้งเดียวและยังคงแวดล้อมไปด้วยโปรแกรมมากมายหรือไม่ และไม่ว่าข้อมูลจะได้รับการจัดเก็บไว้สำหรับการประมวลผลในรูปของแบทช์ระยะสั้นหรือการเก็บรักษาข้อมูลระยะยาวด้วยโซลูชั่น การจัดเก็บข้อมูลควรที่จะได้รับการจัดการอย่างครอบคลุมทั้งหมด

7. การควบคุมข้อมูล : การควบคุมข้อมูลรวมถึงนโยบายและการกำกับดูแลข้อมูลจากมุมมองทางด้านธุรกิจ ซึ่งสามารถนำไปใช้กับขั้นตอนการจัดการข้อมูลขนาดใหญ่ทั้งหกข้อก่อนหน้านี้ได้เช่นกัน แนวทางของขั้นตอนและกระบวนการต่างๆ นั้น จะช่วยควบคุมดูแลพฤติกรรมที่เกิดขึ้นกับข้อมูล และข้อมูลขนาดใหญ่จำเป็นต้องได้รับการควบคุมตามการใช้งานที่แท้จริง มิฉะนั้น อาจเกิดความไม่พอใจจากกลุ่มผู้ใช้งาน และยังนำไปสู่การลงทุนที่มากจนเกินไปอีกด้วย

ผมได้อ่านโพสต์ล่าสุดในบล็อกของลอเรน ลอว์สัน ผู้เขียนของ IT Business Edge ระบุว่า "วิธีเดียวที่จะช่วยให้มั่นใจได้ว่าการวิเคราะห์ข้อมูลของคุณเป็นไปได้ด้วยดีก็คือ การแน่ใจได้ว่าคุณมีโปรแกรมควบคุมที่เหมาะสมสำหรับข้อมูลขนาดใหญ่นั้น"

การควบคุมข้อมูลขนาดใหญ่ที่ครอบคลุมและชัดเจน จะช่วยให้ทำให้มั่นใจได้ว่า:

• มีความชัดเจนในมูลค่าทางธุรกิจและผลลัพธ์ของความต้องการ

• ได้รับการสนับสนุนอย่างเต็มที่สำหรับนโยบายการเก็บรักษาข้อมูลที่สำคัญ

• เกิดความเชี่ยวชาญที่ตรงจุดในการนำมาปรับใช้กับปัญหาที่เกี่ยวกับข้อมูลขนาดใหญ่

• ข้อมูลที่สำคัญมีข้อกำหนดและกฎระเบียบต่างๆที่ชัดเจน

• มีกระบวนการจัดการที่มีประสิทธิภาพสำหรับข้อขัดแย้งและคำถามต่างๆ ที่เกิดขึ้น

• การจัดการข้อมูลหรือการดำเนินการเชิงกลยุทธ์ผ่านนโยบายการควบคุมข้อมูล จะเป็นไปอย่างรอบคอบ และสัมพันธ์กัน

• มีการพิจารณาถึงประเด็นที่สำคัญและเหมาะสมในขั้นตอนการพัฒนา

• ผลของการวิเคราะห์ข้อมูลขนาดใหญ่มีประโยชน์และสามารถนำไปปฏิบัติได้

• มีการบังคับใช้นโยบายด้านการคุ้มครองข้อมูลส่วนบุคคล

โดยสรุปแล้ว การควบคุมข้อมูลหมายความว่า การประยุกต์ใช้ข้อมูลขนาดใหญ่เพื่อนำไปสู่ผลลัพธ์ทางธุรกิจที่รวดเร็วขึ้น ซึ่งถือเป็นนโยบายหลักที่สามารถรับประกันได้ถึงการวิเคราะห์ข้อมูลที่เหมาะสม ดังนั้น พลังอันมหาศาลของเทคโนโลยีใหม่สำหรับข้อมูลขนาดใหญ่จึงถูกนำมาใช้เพื่อช่วยในด้านการประมวลผล การจัดเก็บ และการให้ประสิทธิภาพที่เพิ่มขึ้นอย่างรวดเร็วกว่าที่ผ่านมา