![]()
![]()
สำหรับภาษา Python นั้นเหมาะกับการทำ Data Analysis อย่างมาก
เนื่องจากมี ecosystem และพวก library ต่าง ๆ ให้ใช้มากมาย
แต่ในความมากมายนั้น กลับกลายเป็นภัยสำหรับผู้เริ่มต้น
ดังนั้นจึงสรุป library หลัก ๆ สำหรับผู้เริ่มต้นไว้นิดหน่อย
ค่อย ๆ ศึกษาและใช้งานกันไปนะ
เริ่มจากเรื่องพื้น ๆ ก่อนเลยคือ Python นั่นเอง
เป็นสิ่งที่ขาดไปไม่ได้เลย
ทั้งเรื่องของการติดตั้ง Python
ทั้งเรื่องการติดตั้ง library ต่าง ๆ
รวมทั้งอาจจะนำเครื่องมือที่เป็นประโยชน์ต่าง ๆ มาใช้
เช่น
Anaconda,
iPython เป็นต้น
ตลอดจนรูปแบบของภาษา Python
เรื่องของ Data Structure ต่าง ๆ
เรื่องของ
List comprehension
ดังนั้นพื้นฐานจึงสำคัญมาก ๆ
จะทำให้เราสามารถศึกษาเรื่องอื่น ๆ ได้อย่างรวดเร็วมากขึ้น
จากนั้นจึงเริ่มนำ library พื้นฐานสำหรับ Data Analysis มาใช้
ประกอบไปด้วย
- NumPy สำหรับการจัดการข้อมูลในรูปแบบ array หลายมิติ ซึ่งมีประสิทธิภาพที่สูงมาก ๆ และมี operation ต่าง ๆ เพื่ออำนวยความสะดวก
- SciPy เป็นส่วนขยายต่อจาก NumPy สำหรับ operation ต่าง ๆ มากยิ่งขึ้น
- Matplotlib เป็นส่วนการแสดงผลในรูปแบบ visualization
- Jypyter เป็นเครื่องมือที่สร้างอยู่บน iPython แต่เป็น interative บน web browser ทำให้เราสามารถเขียน code, execute code และเอกสารต่าง ๆ อยู่ที่เดียวกัน เป็นเครื่องมือที่พลาดไม่ได้เลย
ต่อมาคือเรื่องของการจัดการและวิเคราะห์ข้อมูล
เป็นสิ่งที่จำเป็นอย่างมากในกระบวนการทำงาน เช่น
- การ load ข้อมูล
- การ cleaning ข้อมูล
- การจัดการ missing value
- การ tranform ข้อมูล
- การวิเคราะห์ข้อมูล
ซึ่งมี library ที่ได้รับความนิยมมาก ๆ ประกอบไปด้วย
- Pandas เป็น library ที่ได้รับความนิยมสุด ๆ สำหรับ Data Science เนื่องจากมี data structure ที่ดีและเครื่องมือในการวิเคราะห์ข้อมูลให้ครบ
- xarray ได้รับแรงบันดาลในมาจาก Pandas นั่นเอง แต่สร้างมาเพื่อทำงานกับ array หลายมิติโดยเฉพาะ
- scikit-learn เป็น library สำหรับ Machine Learning ที่ได้รับความนิยมสุด ๆ โดยมี algorithm ต่าง ๆ ทาง Machine Learning ให้ใช้งานอย่างครบครัน
เพียงเท่านี้ก็น่าจะทำให้ผู้เริ่มต้นอ้วกกันเป็นแถว ๆ แล้ว
แต่ก็ยังมี library อื่น ๆ ที่ต่อยอดมาจากสิ่งต่าง ๆ เหล่านี้อีกนะ
ก็เลือกใช้งานกันตามความต้องการ เช่น
- Statsmodels ทำการเตรียม algorithm ต่าง ๆ ในเชิงสถิติไว้เพียบ และสามารถทำงานรวมกับ Pandas ได้เลย
- seaborn สำหรับการ plot ข้อมูลในรูปแบบต่าง ๆ
- Bokeh สำหรับการ plot ข้อมูลในรูปแบบ interactive ที่สวยงาม
แต่เหนือสิ่งอื่นใด พื้นฐานมันสำคัญมาก ๆ
ขอให้สนุกกับการ coding ครับ