สร้างมาตรฐาน Data Lake
โดย...ดร.อภิวดี ปิยธรรมรงค์ทุกวันนี้เราอยู่ท่ามกลางกองข้อมูลปริมาณมหาศาล เฉพาะข้อความจากโลกโซเชียลและโลกออนไลน์ที่ได้รับตอนเช้าจากกลุ่มเพื่อนตั้งแต่อนุบาลยันปริญญาโทก็นับได้หลายร้อย ข้อความเหล่านี้เรียกว่าเป็น Unstructure Data เพราะใครใคร่เขียนอะไรก็เขียน มีทั้งที่ถูกหลักไวยากรณ์และที่ผิดฝาผิดตัว แต่ได้รับความนิยมจนกำลังจะกลายเป็นคำใหม่อย่างศัพท์วัยรุ่นต่างๆ การจะก้าวให้ทันความหมายยังเป็นเรื่องยากนับประสาอะไรกับการจะสร้างมาตรฐานให้กับข้อมูลเหล่านี้Data Standards หรือมาตรฐานข้อมูลไม่ใช่เรื่องใหม่ แต่ก็ไม่ใช่เรื่องที่แพร่หลาย แม้ว่าข้อมูลที่มีจะเป็นแบบข้อมูลเชิงโครงสร้าง (Structure Data) ก็ตาม ตัวอย่างง่ายๆ ของข้อมูลที่มีโครงสร้าง ได้แก่ ข้อมูลลูกค้ารายบุคคลที่เราตั้งใจเก็บที่อยู่ที่ติดต่อกลับลูกค้าได้ หรือ ข้อมูลการซื้อขายเฟอร์นิเจอร์ชิ้นใหญ่ๆ ในบ้านที่พ่อให้จดไว้เวลาซื้อชุดเฟอร์นิเจอร์ใหม่เข้าบ้าน เป็นต้น ประเภทของข้อมูลพวกนี้ก็จะมีลักษณะที่ชัดเจนแบ่งแยกได้ว่ามีข้อมูลอะไรบ้าง มีกี่คอลัมน์ของข้อมูลลองเช็กกันสักนิดดีกว่าว่าใครบ้างที่มีมาตรฐานข้อมูลอยู่ในมือ เช่น ถามว่าข้อมูลชื่อและนามสกุลลูกค้าที่เก็บอยู่ใน Spr
โดย...ดร.อภิวดี ปิยธรรมรงค์
ทุกวันนี้เราอยู่ท่ามกลางกองข้อมูลปริมาณมหาศาล เฉพาะข้อความจากโลกโซเชียลและโลกออนไลน์ที่ได้รับตอนเช้าจากกลุ่มเพื่อนตั้งแต่อนุบาลยันปริญญาโทก็นับได้หลายร้อย ข้อความเหล่านี้เรียกว่าเป็น Unstructure Data เพราะใครใคร่เขียนอะไรก็เขียน มีทั้งที่ถูกหลักไวยากรณ์และที่ผิดฝาผิดตัว แต่ได้รับความนิยมจนกำลังจะกลายเป็นคำใหม่อย่างศัพท์วัยรุ่นต่างๆ การจะก้าวให้ทันความหมายยังเป็นเรื่องยาก
นับประสาอะไรกับการจะสร้างมาตรฐานให้กับข้อมูลเหล่านี้
Data Standards หรือมาตรฐานข้อมูลไม่ใช่เรื่องใหม่ แต่ก็ไม่ใช่เรื่องที่แพร่หลาย แม้ว่าข้อมูลที่มีจะเป็นแบบข้อมูลเชิงโครงสร้าง (Structure Data) ก็ตาม ตัวอย่างง่ายๆ ของข้อมูลที่มีโครงสร้าง ได้แก่ ข้อมูลลูกค้ารายบุคคลที่เราตั้งใจเก็บที่อยู่ที่ติดต่อกลับลูกค้าได้ หรือ ข้อมูลการซื้อขายเฟอร์นิเจอร์ชิ้นใหญ่ๆ ในบ้านที่พ่อให้จดไว้เวลาซื้อชุดเฟอร์นิเจอร์ใหม่เข้าบ้าน เป็นต้น ประเภทของข้อมูลพวกนี้ก็จะมีลักษณะที่ชัดเจนแบ่งแยกได้ว่ามีข้อมูลอะไรบ้าง มีกี่คอลัมน์ของข้อมูล
ลองเช็กกันสักนิดดีกว่าว่าใครบ้างที่มีมาตรฐานข้อมูลอยู่ในมือ เช่น ถามว่าข้อมูลชื่อและนามสกุลลูกค้าที่เก็บอยู่ใน Spreadsheet มีการกำหนดให้ใส่คำนำหน้านามหรือไม่ หรือเบอร์โทรศัพท์ของลูกค้าที่อยู่ในตารางเดียวกันมีมาตรฐานเดียวกันในการกรอกและจัดเก็บหรือไม่ แบบไหนกันแน่คือมาตรฐานของตัวเรา หรือองค์กรของเรา!
นอกจากเรื่องการมีมาตรฐานหรือไม่ ยังต้องถามต่อด้วยว่า ณ ขั้นตอนการเก็บบันทึกข้อมูลเหล่านี้ มีการบังคับใช้มาตรฐานแล้วหรือยัง ซึ่งการใช้มาตรฐานตั้งแต่ต้นทางการจัดเก็บจะทำให้ข้อมูลที่จัดเก็บมีคุณภาพสูงมาก ทำให้มั่นใจได้ว่าข้อมูลจะถูกนำไปวิเคราะห์ได้ดี (เพราะถูกออกแบบมาให้วิเคราะห์ข้อมูลที่มีรูปแบบตามมาตรฐานแล้ว) และจะมีข้อมูลขยะเกิดขึ้นน้อย
สำหรับข้อมูลเก่าเก็บที่ยังต้องการนำมาใช้งานให้เกิดประโยชน์กับองค์กรแต่ไม่เคยมีการจัดเก็บตามมาตรฐาน หรือยังไม่มีแม้แต่มาตรฐาน แน่นอนว่าข้อมูลอาจจะยังมีประโยชน์อยู่หากได้รับการซักล้างสักหน่อย (DataCleansing) และหากทำการสังคายนาให้เกิดเป็นรูปแบบมาตรฐานในการจัดเก็บ ก็ยิ่งสร้างโอกาสให้เกิดการนำชุดข้อมูลต่างช่วงเวลามาทำการวิเคราะห์ผลร่วมกันได้!
ปัจจุบันมีผลิตภัณฑ์ที่เรียกว่า Data Lake ชูธงความสามารถในการรวบรวมข้อมูลจากหลากหลายแหล่ง พร้อมกับการวิเคราะห์ข้อมูลจากข้อมูลที่หลากหลายนี้เข้าด้วยกัน อย่างไรก็ดี Data Lake ไม่ได้ช่วยแก้ไขปัญหาการบริหารจัดการข้อมูลตั้งแต่ต้นตอ ทำให้น่าห่วงว่าสุดท้ายแล้วหากไม่มีการกำกับดูแลข้อมูลที่ดี (Data Governance) ผ่านการออกแบบมาตรฐานข้อมูล และการใช้เครื่องมือป้องกันการนำเข้าข้อมูลที่ผิดไปจากมาตรฐานได้ สุดท้าย Garbage in ก็จะยังคงให้ Garbage out จาก Data Lake เช่นเดิมหากขาด Data Standard & Governance ที่ดี