Quantcast
Channel: cc :: somkiat
Viewing all articles
Browse latest Browse all 1997

ทำความเข้าใจกับ Data Mining Process กันหน่อย

$
0
0

CRISP-DM_Process_Diagram

Screen Shot 2558-12-02 at 1.54.56 PM ในปัจจุบันนั้น พบว่ามีการนำ Data Mining มาใช้เยอะขึ้นมาก ๆ แต่ส่วนใหญ่ที่พบเจอ
มักจะคุยกันเฉพาะเครื่องมือที่ใช้งาน  มากกว่าที่จะพยายามทำความเข้าใจกับข้อมูล และ business domain
หรือความรู้ต่าง ๆ ที่จำเป็นต่อการวิเคราะห์ข้อมูล ซึ่งนี่คือปัญหาที่กำลังเกิดขึ้นอยู่ในปัจจุบัน ดังนั้น เรามาเรียนรู้ และ เข้าใจเกี่ยวกับ Data Mining Process กันหน่อย ว่ามันเป็นอย่างไรบ้าง ?

อ้างอิงจาก CRISP-DM (Cross-Industry Standard Process for Data Mining)

ประกอบไปด้วยขั้นตอนดังนี้
  1. Business understanding
  2. Data understanding
  3. Data preparation
  4. Modeling
  5. Evaluation
  6. Deployment
แสดงดังรูป CRISP-DM_Process_Diagram จากขั้นตอนการทำงานเหล่านี้ จะเห็นได้ว่า เราสามารถนำไปประยุกต์ใช้ในงาน หรือปัญหาใด ๆ ก็ได้ ไม่สนใจว่าข้อมูลจะมาจากไหน ไม่สนใจว่าจะใช้เครื่องมืออะไร ไม่สนใจว่าจะใช้ method และ algorithm อะไรในการวิเคราะห์

โดยขั้นตอนที่มีความสำคัญมาก คือ Business understanding และ Data understanding

นั่นคือ ก่อนที่คุณจะทำการเตรียมข้อมูล ก่อนที่คุณจะทำการวิเคราะห์ข้อมูล ก่อนที่จะทำการ modeling ก่อนที่จะทำการ evaluate ก่อนที่จะทำการ deploy จะต้องมีความรู้ความเข้าใจเกี่ยวกับ business domain นั้น ๆ เป็นอย่างดี จะต้องมีความรู้ความเข้าใจเกี่ยวกับ data หรือ ข้อมูล นั้น ๆ เป็นอย่างดี เนื่องจากถ้าไม่เข้าใจ business domain แล้ว เราจะรับรู้ถึงปัญหาได้อย่างไร ? และแน่นอนว่า ไม่สามารถหาวิธีการแก้ไขปัญหาที่ดี และ ถูกต้องได้ จากนั้นคุณจะต้องเข้าใจข้อมูลที่มีอีกด้วย ว่าข้อมูลประกอบไปด้วยอะไรบ้าง ? ว่าข้อมูลแต่ละตัวมันหมายถึงอะไร ? ว่าข้อมูลแต่ละตัวมีผลกระทบอะไร ? ว่าข้อมูลแต่ละตัวมีความสำคัญอย่างไร ? ว่าข้อมูลแต่ละตัวมีความสัมพันธ์กันอย่างไร ? ว่าช่วงเวลากับข้อมูลแต่ละตัวเกี่ยวข้องกันอย่างไร ? จึงจะช่วยทำให้เราสามารถเลือกข้อมูลที่ถูกต้อง เพื่อมาแก้ไขปัญหาได้อย่างถูกต้อง และ เหมาะสม

อ่านไปเจอตัวอย่างที่น่าสนจาก ThinkToStart

ยกตัวอย่างข้อมูลชุดนี้ เป็นข้อมูลการสมัครเข้าเรียนใหม่ของมหาวิทยาลัย เพื่อใช้ในการทำนายว่าจะสมัครเข้าเรียนหรือไม่ ? แสดงดังรูป Snap-2015-10-28-at-09.31.58 ลองคิดดูสิว่า ถ้ามีข้อมูลมาเช่นนี้ โดยที่คุณไม่มีความรู้ทางด้านการศึกษาเลย มันจะเกิดอะไรขึ้นบ้าง ? ชีวิตของคุณจะพบปัญหาอีกเยอะหรือไม่ ? ข้อมูลมันมีเยอะพอควร เช่น ที่อยู่ คณะที่สนใจเรียน และ GPA เป็นต้น สิ่งที่คุณจำเป็นต้องรู้ก็คือ ข้อมูลในแต่ละ column นั้นมันคืออะไร ? ข้อมูลในแต่ละ column นั้นมันมีความสัมพันธ์กันอย่างไร ? ตัวอย่างเช่นใน column F คือ Admitted (อนุญาตให้สมัครได้) พบว่ามีข้อมูลแถวที่ 2 และ 8 บอกว่า ทั้งสองจะไม่สมัครเข้าเรียน ? คำถาม ทำไมถึงไม่ได้สมัครเข้าเรียนล่ะ หรือ มหาวิทยาลัยนี้ไม่ดี ? คำตอบ ถ้าเรามีความรู้ใน business domain ของการศึกษา จะพบว่าคนที่ไม่ได้รับอนุญาตให้สมัครเรียน จะไม่สามารถเข้ามายังกระบวนการนี้ได้เลย !! แสดงว่า column F นี้มันไร้ค่ามาก ๆ ไม่ควรเป็นข้อมูลที่ใช้ในการตัดสินใจใด ๆ เลย ดังนั้น จึงตัดทิ้งไปซะ นี่คือตัวอย่างที่คุณควรมีความเข้าใจใน business domain นั้น ๆ เป็นอย่างดี และการทำความเข้าใจก็ไม่จำเป็นต้องใช้เครื่องมือใด ๆ เลย
วันนี้คุณเข้าใจกับ business domain ที่คุณทำอยู่หรือไม่ ? ลองตอบคำถามกับตัวเองก่อนนะ

Viewing all articles
Browse latest Browse all 1997

Trending Articles