ในปัจจุบันเรื่องของ Data Science ถูกพูดถึงกันอย่างมาก
มักจะมาพร้อมกับคำว่า Big Data
ดังนั้น เราดูกันหน่อยว่า
- ที่มาที่ไปของ Data Science มันเป็นมาอย่างไร
- ทำไมถึงในปัจจุบันถึงพูดถึงกันมาก
- ทำไมเราจึงต้องให้ความสนใจ และ ใส่ใจ
ที่มาที่ไปของ Data Science
เริ่มถูกพูด และ เขียนขึ้นมาครั้งแรกในปี 1962 จาก paper เรื่อง The Future of Data Analysis โดยคุณ John W. Tukey ทำการอธิบายถึงแนวทางการวิเคราะห์ข้อมูล ว่าโปรแกรมคอมพิวเตอร์ จะเข้ามามีความสำคัญอย่างไรในอนาคต ทาง Forbes ได้สรุปที่ไปที่มาของ Data Science ในบทความเรื่อง A Very Short History of Data Science ซึ่งมันละเอียดอย่างมาก แนะนำให้อ่านเพิ่มเติมนะครับ โดยตั้งแต่ปี 1990 เป็นต้นมา Data Science เติบโตมาอย่างก้าวกระโดด และกลายมาเป็นงานที่มีความต้องการอย่างสูงตั้งแต่ปี 2000 ส่วนปัจจุบันหลายสำนักบอกว่า เป็นงานที่ sexy สุด ๆ ไปแล้ว !! แต่จำเป็นต้องมีทักษะความรู้ในหลากหลายแขนงเช่นกัน แสดงดังรูปปัจจุบัน Data Science เป็นอย่างไร ?
คำว่า Data Science กับ Data Analysis มันมักจะมาคู่กัน มีอัตราเติบโต และ ความต้องการจากบริษัทต่าง ๆ สูงมาก เนื่องจากค่าใช้จ่ายด้านที่จัดเก็บข้อมูล (Stoarge) นั้นถูกลงอย่างมาก เนื่องจากวิธีการประมวลผลข้อมูล (Processing) มีประสิทธิภาพสูงขึ้น ส่งผลทำให้แต่ละบริษัท สามารถทำการทำการ regression ค้นหาประโยชน์ และ แนวโน้มต่าง ๆ จากข้อมูลจำนวนมากที่จัดเก็บไว้ ทั้งข้อมูลจากภายในบริษัท และ ข้อมูลจากข้างนอก โดย Data Science จะเข้ามาช่วยเรื่องของ คุณภาพของข้อมูลก่อนที่จะนำมาประมวลผลเนื่องจาก ถ้าข้อมูลเริ่มต้นมันห่วยแล้ว ผลการประมวลผลมันก็ห่วยเช่นกันรวมทั้งต้องมีความรู้ความเข้าใจเกี่ยวกับ Business domain นั้น ๆ เป็นอย่างดี จึงต้องการคนที่มีความรู้ความสามารถเข้ามาช่วยเหลือนั่นเอง
สามารถแบ่งส่วนการทำงานออกไป 2 ส่วน คือ
- ข้อมูลมาจากไหน ? (Data source)
- จะใช้ข้อมูลเหล่านั้นอย่างไร ?
เริ่มจากข้อมูลมาจากไหน นั่นคือ Data Source
ในปัจจุบันนั้นที่มาของข้อมูลมันเยอะมาก ๆ แสดงตัวอย่างดังรูป ความแตกต่างระหว่างนักสถิติ (Statistician) กับ Data Scientist คือ นักสถิติจะนำข้อมูลมา run regression ตามสมการทางสถิติ ส่วน Data Scientist นั้นจะต้องไปหาข้อมูลที่ต้องการ จัดโครงสร้าง ตัดส่วนที่ไม่จำเป็นออกไป ทำการวิเคราะห์ จากนั้นทำการสื่อสาร สรุปผลการวิเคราะห์ให้อยู่ในรูปแบบที่เข้าใจง่าย เช่น อยู่ในรูปแบบของ vistualization เป็นต้น จะสังเกตุได้ว่า Data Scientist นั้นต้องการข้อมูลที่มีคุณภาพ นั่นคือ จำเป็นต้องมีแหล่งข้อมูลที่มีคุณภาพ เพื่อให้ได้ผลที่มีคุณภาพนั่นเองโดยแหล่งข้อมูลสามารถแบ่งได้ 3 กลุ่มใหญ่ ๆ คือ
- Database ประกอบไปด้วยข้อมูลที่มีโครงสร้าง และ ไม่มีโครงสร้าง
- Third party data
- Application data
ดังนั้นสามารถสรุปสิ่งที่ Data Scientists ต้องทมีดังนี้
- การค้นหาข้อมูลที่ค้องการ
- การจัดการโครงสร้าง จัดเรียงข้อมูล และ ทำความสะอาด (Cleansing data)
- การวิเคราะห์ข้อมูล
- เชื่อมโยงข้อมูลและผลการวิเคราะห์ในแต่ละส่วนเข้าด้วยกัน
- แสดงผลการวิเคราะห์ให้อยู่ในรูปแบบที่เข้าใจง่าย
วันนี้คุณพร้อมกับ Data Science แล้วหรือยัง ?Reference Websites https://github.com/okulbilisim/awesome-datascience http://www.forbes.com/sites/gilpress/2013/05/28/a-very-short-history-of-data-science/ https://dzone.com/articles/a-deep-dive-into-the-world-of-data-science https://www.facebook.com/DataScience101/ http://www.exploringdatascience.com/the-data-science-clock/