ทาง O’Reilly ทำการสรุปทิศทางเกี่ยวกับข้อมูลในปี 2018
รวมทั้งแนวโน้มในการจัดการข้อมูล
ทั้งคน องค์กร
ทั้งเครื่องมือ
ทั้ง algorithm
ทั้ง machine learning
ทั้ง analytic
ทั้ง infrastructure
ทั้งจริยธรรมในการใช้ข้อมูล
มาดูกันว่ามีอะไรที่น่าสนใจบ้าง
มีเครื่องมือที่ดีและง่ายขึ้นสำหรับข้อมูล Graph และ Time serie
เป็นรูปแบบข้อมูลที่มีแนวโน้มในเรื่องของจำนวนสูงมาก ๆ
ดังนั้นเครื่องมือจะมีเยอะขึ้น ง่ายขึ้น
ตามแต่ละ use case ในการใช้งาน
เช่นเรื่องของ security และ fraud detection เป็นต้น
แต่ละองค์กรเริ่ม share ข้อมูลในรูปแบบ parner มากขึ้น
จะเห็นได้ว่าในช่วงที่ผ่านมา
องค์กรใหญ่ที่ให้บริการเช่น ธนาคาร และ เทเลคอม
เริ่มมีเปิดให้บริษัทต่าง ๆ ใช้ข้อมูลได้แล้ว เช่น startup
ดังนั้นเรื่องของ data partnership จึงมีโอกาสขยายได้อีกมาก
เป็นอีกแนวทางในการขยายฐานของ business
มีเครื่องมือทาง Machine Learning ที่ง่ายต่อการทดลองใช้งาน และ การทำงานร่วมกันในองค์กร
ในแต่ละองค์กรอยู่ในช่วงการลองผิดลองถูก
ซึ่งทำให้เกิดเครื่องมือต่าง ๆ มากมาย
โดยสิ่งหนึ่งที่ควรมีคือ
ทั้งองค์กรน่าจะต้องสร้างระบบและเครื่องมือ
ที่ช่วยให้ส่วนต่าง ๆ ขององค์กรใช้งานได้
ไม่ใช่ใช้งานเพียงกลุ่มเดียวเท่านั้น
น่าจะได้เห็น use case ใหม่ ๆ ของการนำ Deep Learning มาใช้งานมากขึ้น
ยกตัวอย่างเช่น
ใช้ในระบบคำแนะนำต่าง ๆ
ใช้ในระบบ search ranking
ใช้ในระบบ fraud detection
ใช้ในการทำนายข้อมูล time serie
ได้เห็น data pipeline ที่มี data source จำนวนมาก
ส่งผลให้เกิดสิ่งใหม่ ๆ ขึ้นมา
ทั้ง data integration
ทั้ง data enrichment
ทั้ง data processing
ได้เห็นวิธีการใหม่ ๆ ในการจัดการและวิเคราะห์ข้อมูลทั้งแบบ realtime และ batching
แน่นอนว่า
ทั้งสองกลุ่มข้อมูลอาจจะใช้ระบบเพียงระบบเดียวเท่านั้น
ไม่ต้องออกเป็น 2 ระบบอีกต่อไป
น่าจะได้เห็นระบบ caching data แบบ distributed มากขึ้น
ทั้ง data layer และ distributed memory system
เนื่องจากจำนวน data source เยอะมาก
เนื่องจากมี data storage เยอะ
เนื่องจากระบบงานอยู่บน cloud
ดังนั้นในการประมวลผลก็ต้องการข้อมูลที่รวดเร็วเช่นกัน
ระบบ caching data จึงสำคัญ
มีอะไรอีก Machine Learning น่าจะได้รับความนิยมและต้องการสูงมาก ๆ นะ
เตรียมตัวกันไว้
ส่วนในไทยก็รอกันหน่อยนึง
เรื่องของ Library และ Framework ต่าง ๆ
Python ยังคงเป็นผู้นำ
R ได้รับความนิยมสูง
Spark ได้รับความนิยมสูงในการทำงานแบบ distributed computing
เรื่องของ security และ privacy ของข้อมูล จะถูกเน้นสูงมาก ๆ
ยิ่งใน machine leaning แล้ว
ต้องเอาเรื่อง security และ privacy ใส่เข้าไปด้วยเสมอ
บรรดาคนในสายงานที่เกี่ยวข้องทั้ง CXO, Manager และคนที่ทำการตัดสินใจ
จำเป็นต้องมีความรู้เรื่อง Data Science และ Machine Learning บ้าง
ทั้ง technology, method ต่าง ๆ ที่อาจจะส่งผลต่อ business และการตัดสินใจ
ปีที่ผ่านมาเป็นปีแห่งการ Proof-Of-Concept (POC)
โดยมักจะแยกเป็นทีมใหม่ เช่น Data Science Team, Machine Learning Team
เพื่อแยกกันทำ project เล็ก ๆ ไป
แต่ในปีนี้ทีมต่าง ๆ เหล่านี้ต้องเข้าไปมีส่วนร่วมกับทีมอื่น ๆ หรือระบบอื่น ๆ
เช่นระบบ analytic และ การจัดการข้อมูลขนาดใหญ่เป็นต้น
ส่วน application และ business domain ที่น่าจับตามอง
ประกอบไปด้วย
- Data journalism
- CyberSecurity
- Financial service