Quantcast
Channel: cc :: somkiat
Viewing all articles
Browse latest Browse all 1997

สรุปเกี่ยวกับเรื่องของข้อมูลในปี 2018 จาก O’Reilly

$
0
0

ทาง O’Reilly ทำการสรุปทิศทางเกี่ยวกับข้อมูลในปี 2018 รวมทั้งแนวโน้มในการจัดการข้อมูล ทั้งคน องค์กร ทั้งเครื่องมือ ทั้ง algorithm ทั้ง machine learning ทั้ง analytic ทั้ง infrastructure ทั้งจริยธรรมในการใช้ข้อมูล มาดูกันว่ามีอะไรที่น่าสนใจบ้าง มีเครื่องมือที่ดีและง่ายขึ้นสำหรับข้อมูล Graph และ Time serie เป็นรูปแบบข้อมูลที่มีแนวโน้มในเรื่องของจำนวนสูงมาก ๆ ดังนั้นเครื่องมือจะมีเยอะขึ้น ง่ายขึ้น ตามแต่ละ use case ในการใช้งาน เช่นเรื่องของ security และ fraud detection เป็นต้น แต่ละองค์กรเริ่ม share ข้อมูลในรูปแบบ parner มากขึ้น จะเห็นได้ว่าในช่วงที่ผ่านมา องค์กรใหญ่ที่ให้บริการเช่น ธนาคาร และ เทเลคอม เริ่มมีเปิดให้บริษัทต่าง ๆ ใช้ข้อมูลได้แล้ว เช่น startup ดังนั้นเรื่องของ data partnership จึงมีโอกาสขยายได้อีกมาก เป็นอีกแนวทางในการขยายฐานของ business มีเครื่องมือทาง Machine Learning ที่ง่ายต่อการทดลองใช้งาน และ การทำงานร่วมกันในองค์กร ในแต่ละองค์กรอยู่ในช่วงการลองผิดลองถูก ซึ่งทำให้เกิดเครื่องมือต่าง ๆ มากมาย โดยสิ่งหนึ่งที่ควรมีคือ ทั้งองค์กรน่าจะต้องสร้างระบบและเครื่องมือ ที่ช่วยให้ส่วนต่าง ๆ ขององค์กรใช้งานได้ ไม่ใช่ใช้งานเพียงกลุ่มเดียวเท่านั้น น่าจะได้เห็น use case ใหม่ ๆ ของการนำ Deep Learning มาใช้งานมากขึ้น ยกตัวอย่างเช่น ใช้ในระบบคำแนะนำต่าง ๆ ใช้ในระบบ search ranking ใช้ในระบบ fraud detection ใช้ในการทำนายข้อมูล time serie ได้เห็น data pipeline ที่มี data source จำนวนมาก ส่งผลให้เกิดสิ่งใหม่ ๆ ขึ้นมา ทั้ง data integration ทั้ง data enrichment ทั้ง data processing ได้เห็นวิธีการใหม่ ๆ ในการจัดการและวิเคราะห์ข้อมูลทั้งแบบ realtime และ batching แน่นอนว่า ทั้งสองกลุ่มข้อมูลอาจจะใช้ระบบเพียงระบบเดียวเท่านั้น ไม่ต้องออกเป็น 2 ระบบอีกต่อไป น่าจะได้เห็นระบบ caching data แบบ distributed มากขึ้น ทั้ง data layer และ distributed memory system เนื่องจากจำนวน data source เยอะมาก เนื่องจากมี data storage เยอะ เนื่องจากระบบงานอยู่บน cloud ดังนั้นในการประมวลผลก็ต้องการข้อมูลที่รวดเร็วเช่นกัน ระบบ caching data จึงสำคัญ มีอะไรอีก Machine Learning น่าจะได้รับความนิยมและต้องการสูงมาก ๆ นะ เตรียมตัวกันไว้ ส่วนในไทยก็รอกันหน่อยนึง เรื่องของ Library และ Framework ต่าง ๆ Python ยังคงเป็นผู้นำ R ได้รับความนิยมสูง Spark ได้รับความนิยมสูงในการทำงานแบบ distributed computing เรื่องของ security และ privacy ของข้อมูล จะถูกเน้นสูงมาก ๆ ยิ่งใน machine leaning แล้ว ต้องเอาเรื่อง security และ privacy ใส่เข้าไปด้วยเสมอ บรรดาคนในสายงานที่เกี่ยวข้องทั้ง CXO, Manager และคนที่ทำการตัดสินใจ จำเป็นต้องมีความรู้เรื่อง Data Science และ Machine Learning บ้าง ทั้ง technology, method ต่าง ๆ ที่อาจจะส่งผลต่อ business และการตัดสินใจ ปีที่ผ่านมาเป็นปีแห่งการ Proof-Of-Concept (POC) โดยมักจะแยกเป็นทีมใหม่ เช่น Data Science Team, Machine Learning Team เพื่อแยกกันทำ project เล็ก ๆ ไป แต่ในปีนี้ทีมต่าง ๆ เหล่านี้ต้องเข้าไปมีส่วนร่วมกับทีมอื่น ๆ หรือระบบอื่น ๆ เช่นระบบ analytic และ การจัดการข้อมูลขนาดใหญ่เป็นต้น ส่วน application และ business domain ที่น่าจับตามอง ประกอบไปด้วย
  • Data journalism
  • CyberSecurity
  • Financial service

Viewing all articles
Browse latest Browse all 1997

Trending Articles