มาดูความสามารถที่น่าสนใจใน Apache Airflow 2.10 ที่เพิ่งปล่อยออกมา
ประกอบไปด้วย
- Hybrid Execution หรือ multiple executor configuration
- Dynamic Dataset Definition
- ปรับปรุง User Interface
- เพิ่ม operator ใหม่ ๆ มีดังนี้ PythonOperator, TaskFlow API และ Object storage API
มาดูรายละเอียดกันนิดหน่อย
เรื่องแรกคือ Hybrid Execution หรือ multiple executor configuration
จากเดิมที่ Airflow นั้น เราสามารถกำหนดได้เพียง executor ชนิดเดียวเท่านั้น
ทำให้เกิดปัญหา หรือ ข้อจำกัดว่า
เรามี task ที่แตกต่างกัน และมี executor ที่เหมาะสมต่างกันไป
แต่กำหนดได้เพียงชนิดเดียวเท่านั้น !!
ดังนั้นใน version นี้สามารถกำหนด executor ให้แต่ละ task ได้เลย
ช่วยให้การใช้งานยืดหยุ่น และ มีประสิทธิภาพที่ดีขึ้น
เรื่องที่สอง Dynamic Dataset ด้วยการใช้ alias
นั่นคือ DataSetAlias สามารถส่งผ่าน outlet และ inlet ของ task และ scheule ต่าง ๆ ใน DAG ได้
โดยจะทำ resolve แบบ dynamic ตอน runtime
ช่วยทำให้ไม่ผูกติดกับ dataset มากเกินไป
อีกอย่างในส่วนของ User Interface นั้น dependency graph ของ DataSet ถูกแยกมาเป็น tab ใหม่
ลองทำการ upgrade และใช้งานกันดู
อย่าปล่อยให้ระบบมันกลายเป็น legacy ละครับ !!
Reference Websites