เห็นคำว่า Zero-ETL ผ่าน ๆ ทาง social network มานิดหน่อย
ก็เลยมาหาดูหน่อยว่า มันคืออะไร
ถามทาง ChatGPT ก็บอกว่า ไม่รู้จัก
ส่วน product ก็มีออกมาให้ลองใช้ ทั้งจากฝั่ง Google และ AWS คือ
- AWS :: ข้อมูลจาก Aurora ไปยัง Redshift
- AWS :: Redshift กับ Apache Spark
- Google :: สามารถทำการ query ข้อมูลจาก BigTable ผ่าน BigQuery ตรง ๆ ได้เลย
ดังนั้นมาดูกันหน่อยว่ามันคืออะไรกัน ?
ก่อนอื่นต้องทำความเข้าใจกับ ETL (Extract Transform Load)
คือกระบวนการในการย้ายข้อมูลจากที่หนึ่งไปอีกที่หนึ่ง
ซึ่งอาจจะมี datasource ต่างกัน
ซึ่งอาจจะมี format ของข้อมูลต่างกัน
ดังนั้นเราจำเป็นต้องการตัวกลางเพื่ออ่านข้อมูล แปลงข้อมูลให้ตรงตามปลายทาง
และถ้ามีความซับซ้อนสูงอาจจะต้องมา data pipeline ขึ้นมา
หรือแต่ละขั้นตอนจะเรียกว่า ETL แสดงดังรูป
แต่เมื่อนำมาต่อกันจนเกิด Data pipeline ดังรูป
ดังนั้นในการใช้งาน ETL ไปจนถึงการสร้าง Data pipeline
ต้องการคนที่มีความรู้ความสามารถ
ต้องการค่าใช้จ่ายที่สูงขึ้น
ยิ่งข้อมูลมี datasource และ format ที่แตกต่างกัน
ยิ่งก่อให้เกิดความซับซ้อนสูงขึ้น
ดังนั้น ถ้าลองคิดดูว่า การทำงานระหว่างระบบ ไม่ต้องมีคนกลางหรือตัวกลางละ
หรือลดให้เหลือน้อยที่สุด หรือเท่าที่จำเป็น
มันน่าจะลดปัญหาตรงนี้ลงไป
เป็นแนวคิดที่น่าสนใจ ไหม !!
แล้วเป็นอีกแนวทางหนึ่งในการสร้าง data platform
ที่ตอบสนองความต้องการให้รวดเร็วขึ้น
Reference Websites