Cross-Industry Standard Process for Data Mining (CRISP-DM) สำคัญอย่างไร


CRISP-DM  เป็นกระบวนการหลักในการจัดทำเหมืองข้อมูลเพื่อการวิเคราะห์
และใช้ประโยชน์ในทางธุรกิจ โดยถือเป็นกระบวนการที่เป็นสากลในการวิเคราะห์ข้อมูล

กระบวนการ CRISP-DM นี้จะประกอบด้วย 6 ขั้นตอน ดังรูปด้านล่าง

ในภาพอาจจะมี ข้อความพูดว่า "Business ness Understanding Data Understanding Deployment Data Preparation Data Evaluation Data Validation Modeling"
แต่ละขั้นตอนในรูปจะเป็นขั้นตอนที่ต่อเนื่องกันนั่นคือขั้นตอนถัดไปจะรอผลลัพธ์จากขั้นตอนก่อนหน้าซึ่งแสดงด้วยลูกศรที่เชื่อมระหว่างกล่องสี่เหลี่ยมแต่ละกล่อง ตัวอย่างเช่นเมื่อได้ผลลัพธ์จากขั้นตอนการเตรียมข้อมูล (Data Preparation) แล้วจะนำไปสร้างโมเดลจำแนกประเภทข้อมูลในขั้น Modeling และหลังจากนั้นอาจจะย้อนกลับมาเปลี่ยนแปลงข้อมูลให้ถูกต้องมากขึ้นเพื่อหวังว่าจะโมเดลที่ให้ความถูกต้องมากขึ้นก็ได้ เป็นต้น



ขั้นตอนในกระบวนการ CRISP-DM มีดังนี้
1. Business Understanding
เป็นขั้นตอนแรกในกระบวนการ CRISP-DM ซึ่งเน้นไปที่การเข้าใจปัญหาและแปลงปัญหาที่ได้ให้อยู่ในรูปโจทย์ของการวิเคราะห์ข้อมูลทาง Data Mining พร้อมทั้งวางแผนในการดำเนินการคร่าวๆ เช่น ถ้าเรามีข้อมูล Monthly Report จากผู้แทนยาและข้อมูลSale Order มา เริ่มแรกเราต้องมาทำความเข้าใจกับข้อมูลที่เราได้มาก่อน ซึ่งปัญหาจะอยู่ที่ Monthly Report จากทางSaleมากกว่าที่ หลายครั้งเนื้อหาที่ทางบริษัทให้กรอก นำไปใช้ประโยชน์ต่อไม่ได้ หรือ ข้อมูลที่กรอกมาก็ไม่ตรงกับความเป็นจริง.

2. Data Understanding
ขั้นตอนนี้เริ่มจากการเก็บรวบรวมข้อมูล หลังจากนั้นจะเป็นการตรวจสอบข้อมูลที่ได้ทำการรวบรวมมาได้เพื่อดูความถูกต้องของข้อมูล และพิจารณาว่าจะใช้ข้อมูลทั้งหมดหรือจำเป็นต้องเลือกข้อมูลบางส่วนมาใช้ในการวิเคราะห์ ซึ่งปัญหาคือคนที่จะเป็นคนคัดเลือกข้อมูลต้องมีความเข้าใจทั้งเรื่องของที่มาของข้อมูล,ความเกี่ยวโยงของข้อมูล,ความรู้เชิงลึกในอุตสาหกรรมนั้นๆ มากกว่าแค่นำข้อมูลที่มีมาหา
โดยขั้นตอนที่มีความสำคัญมาก คือ
Business understanding และ Data understanding
ก่อนที่คุณจะทำการเตรียมข้อมูล
ก่อนที่คุณจะทำการวิเคราะห์ข้อมูล
ก่อนที่จะทำการ modeling
ก่อนที่จะทำการ evaluate
ก่อนที่จะทำการ deploy
จะต้องมีความรู้ความเข้าใจเกี่ยวกับ business domain นั้น ๆ เป็นอย่างดี
จะต้องมีความรู้ความเข้าใจเกี่ยวกับ data หรือ ข้อมูล นั้น ๆ เป็นอย่างดี
เราจะรับรู้ถึงปัญหาได้อย่างไร ?
และแน่นอนว่า ไม่สามารถหาวิธีการแก้ไขปัญหาที่ดี และ ถูกต้องได้
ว่าข้อมูลประกอบไปด้วยอะไรบ้าง ?
ว่าข้อมูลแต่ละตัวมันหมายถึงอะไร ?
ว่าข้อมูลแต่ละตัวมีผลกระทบอะไร ?
ว่าข้อมูลแต่ละตัวมีความสำคัญอย่างไร ?
ว่าข้อมูลแต่ละตัวมีความสัมพันธ์กันอย่างไร ?
ว่าช่วงเวลากับข้อมูลแต่ละตัวเกี่ยวข้องกันอย่างไร ?
จึงจะช่วยทำให้เราสามารถเลือกข้อมูลที่ถูกต้อง
เพื่อมาแก้ไขปัญหาได้อย่างถูกต้อง และ เหมาะสม
นั่นคือ
เนื่องจากถ้าไม่เข้าใจ business domain แล้ว
จากนั้นคุณจะต้องเข้าใจข้อมูลที่มีอีกด้วย
3. Data Preparation
ขั้นตอนนี้เป็นขั้นตอนที่ทำการแปลงข้อมูลที่ได้ทำการเก็บรวบรวมมา (raw data) ให้กลายเป็นข้อมูลที่สามารถนำไปวิเคราะห์ในขั้นถัดไปได้ โดยการแปลงข้อมูลนี้อาจจะต้องมีการทำข้อมูลให้ถูกต้อง (data cleaning) เช่น การแปลงข้อมูลให้อยู่ในช่วง (scale) เดียวกัน หรือการเติมข้อมูลที่ขาดหายไป เป็นต้น โดยขั้นตอนนี้จะเป็นขั้นตอนที่ใช้เวลามากที่สุดของกระบวนการ CRISP-DM ซึ่งจากประสบการณ์ที่เคยเห็นReportมา โดยมากMissing เพียบ 

4. Modeling
ขั้นตอนนี้จะเป็นขั้นตอนการวิเคราะห์ข้อมูลด้วยเทคนิคทางData Mining ที่ได้แนะนำไปแล้ว เช่น การจำแนกประเภทข้อมูล
หรือ การแบ่งกลุ่มข้อมูล ซึ่งในขั้นตอนนี้หลายเทคนิคจะถูกนำมาใช้เพื่อให้ได้คำตอบที่ดีที่สุด ดังนั้นในบางครั้งอาจจะต้องมีการย้อนกลับไปที่ขั้นตอนที่ Data Preparation เพื่อแปลงข้อมูลบางส่วนให้เหมาะสมกับแต่ละเทคนิคด้วย
ตัวอย่างเทคนิคในการวิเคราะห์ข้อมูลต่างๆ เช่น
  • การแบ่งกลุ่มข้อมูล (Clustering)
  • การหากฏความสัมพันธ์ (Association Rules) 
  • การจำแนกประเภทข้อมูล (Classification) ตัวอย่างเข่น
    • เทคนิค Decision Tree
    • เทคนิค Naive Bayes
    • เทคนิค Neural Network
    • การวิเคราะห์การถดถอย Regression
5. Evaluation
ในขั้นตอนนี้เราจะได้ผลการวิเคราะห์ข้อมูลด้วยเทคนิคทางData Mining แล้วแต่ก่อนที่จะนำผลลัพธ์ที่ได้ไปใช้งานต่อไปก็จะต้องมีการวัดประสิทธิภาพของผลลัพธ์ที่ได้ว่าตรงกับวัตถุประสงค์ที่ได้ตั้งไว้ในขั้นตอนแรก หรือ มีความน่าเชื่อถือมากน้อยเพียงใด ซึ่งอาจจะย้อนกลับไปยังขั้นตอนก่อนหน้าเพื่อเปลี่ยนแปลงแก้ไขเพื่อให้ได้ผลลัพธ์ตามที่ต้องการได้
สำหรับการสร้างโมเดลด้วยเทคนิค Classification มีการทดสอบประสิทธิภาพของโมเดลอยู่ 3 แบบใหญ่ คือ
  • Self-consitency test
  • Split test
  • Cross-validation test
6. Deployment
ในกระบวนการทำงานของ CRISP-DM นั้นไม่ได้หยุดเพียงแค่ผลลัพธ์ที่ได้จากการวิเคราะห์ข้อมูลด้วย
เทคนิคทางData Miningเท่านั้น แม้ว่าผลลัพธ์ที่ได้จะแสดงถึงองค์ความรู้ที่มีประโยชน์
แต่จะต้องนำองค์ความรู้ที่ได้เหล่านี้ไปใช้ได้จริงในองค์กรหรือบริษัท

โดยปกติเมื่อเราได้ทำตามทุกขั้นตอนแล้ว เรามักจะย้อนกลับไปทำซ้ำใหม่ เพื่อให้Modelที่ได้ออกมา วิเคราะห์ข้อมูลได้ตรงและแม่นยำที่สุด โดยส่วนใหญ่ที่พบคือ ทำจนเสร็จครบทุกข้อแล้ว กลับพบว่าข้อมูลที่ได้มาไม่ตอบโจทย์ในสิ่งที่บริษัทต้องการ เพราะฉะนั้นก่อนที่จะทำData Mining ควรให้เวลากับข้อมูลที่เรามีให้มากๆ 

Data Mining ไม่ยากถ้าเข้าใจในBusiness และ Data ครับ

เรียบเรียง
ภก.ภูริทัต ว่องพุฒิพงศ์
Admin กลุ่มผู้แทนยาและเวชภัณฑ์
PharmConnection

ความคิดเห็น

โพสต์ยอดนิยมจากบล็อกนี้

ทฤษฎีโครงสร้างการเล่าเรื่อง (Storytelling)

น้องตูน MSL

ตัวอย่าง Cover Letter ที่ถูกต้อง