Data Cleaning เป็นกระบวนการลบหรือแก้ไขข้อมูลที่ผิดพลาด ไม่สมบูรณ์ หรือไม่มีความสอดคล้องกันจากชุดข้อมูล
ลักษณะงาน:
ตัวอย่าง:
บริบท: ใช้ในบริบททั่วไปของการจัดการข้อมูลในโครงการต่าง ๆ
Data Cleansins กระบวนการตรวจจับข้อมูล แก้ไข ลบ แทนที่ และจัดรูปแบบของข้อมูลที่ไม่สมบูรณ์ ซ้ำซ้อน ให้มีความถูกต้องและเป็นระเบียบ ตลอดจนนำไปใช้งานต่อได้อย่างมีประสิทธิภาพ เป็นกระบวนการที่ครอบคลุมมากขึ้นสำหรับการปรับปรุงคุณภาพข้อมูล โดยเน้นการวิเคราะห์และแก้ไขข้อมูลเพื่อให้เหมาะสมกับการใช้งาน
ลักษณะงาน:
ตัวอย่าง:
บริบท: ใช้ในบริบทของการจัดการข้อมูลขนาดใหญ่ (Big Data) หรือในโครงการที่ต้องการการวิเคราะห์ข้อมูลในเชิงลึก
สำหรับคำถามที่ว่า Cleansing Data มีความสำคัญอย่างไร? ในการทำธุรกิจจำเป็นจะต้องใช้ข้อมูลที่มีความถูกต้อง แม่นยำ มาใช้ในการวิเคราะห์เพื่อให้ได้ผลลัพธ์ที่สมบูรณ์และสามารถนำไปวางแผนทางการตลาดได้
หากขาดการเตรียมข้อมูลที่คุณภาพ ไม่มีการคัดกรองข้อมูลด้วย Data Cleansing อาจทำให้การวิเคราะห์ผิดพลาด เกิดการตัดสินใจที่ผิดพลาดและส่งผลกระทบเป็นวงกว้างต่อธุรกิจ ซึ่งข้อดีของ Data Cleansing นั้นมีอีกหลายประการ ไม่ว่าจะเป็น
จากการรวบรวมข้อมูลขนาดใหญ่ หรือ Big Data จึงต้องมีการล้างข้อมูลเพื่อคัดกรองให้เหลือแค่ข้อมูลที่นำไปใช้ได้จริง ซึ่งลักษณะของข้อมูลที่ต้องผ่านการ Data Cleansing ก่อนนำไปใช้ประโยชน์ มีดังนี้
ในกรณีนี้อาจเกิดจากการที่มีข้อมูลจากหลาย Database ทำให้ข้อมูลที่รวบรวมมามีไฟล์คนละนามสกุลกัน เช่น .pdf, .doc, .xls หรือ .pptx เป็นต้น ทำให้ไม่สามารถใช้ในการประมวลผลด้วยกัน จึงต้องมีการแปลงไฟล์ให้อยู่ในนามสกุลเดียวกันเพื่อสามารถประมวลผลได้ และลดพื้นที่ในการจัดเก็บชุดข้อมูล
เป็นข้อมูลที่ต้องทำให้อยู่ในรูปแบบที่สามารถนำไปใช้ในการวิเคราะห์ได้ บางข้อมูลที่ถูกรวบรวมมาอาจอยู่ในรูปแบบของรูปภาพ เช่น .jpg, .png, .tiff หรือ .bmp จึงต้องมีการแปลงไฟล์รูปภาพให้อยู่ในรูปแบบของไฟล์ข้อความหรือสคริปต์ เช่น .csv, .tsv, .json, และ .xml เป็นต้น
โดยส่วนใหญ่แล้วการรวบรวมข้อมูลโดยคนอาจเกิดการผิดพลาด (Human Errors) เป็นเรื่องปกติ เช่น กรอกข้อมูลเกินความจริง กรอกข้อมูลในช่องที่ผิด หรือสะกดชื่อข้อมูลไม่ถูกต้อง ทำให้วิเคราะห์ข้อมูลเชิงลึก หรือ Insight ออกมาผิดพลาด ไม่แม่นยำ จึงต้องทำ Data Cleansing เพื่อแก้ไขข้อมูลให้ถูกต้อง
จากการรวบรวมข้อมูลจากหลายแหล่ง ส่งผลให้อาจมีการดึงข้อชุดข้อมูลที่ซ้ำซ้อน ส่งผลให้ชุดข้อมูลหนักขึ้นและประมวลผลช้า หากใช้โมเดลเป็น Machine Learning ก็อาจทำให้เกิดการให้น้ำหนักกับข้อมูลซ้ำซ้อนมากเกินไป จนไม่สะท้อนความจริง ดังนั้นจึงควรเช็กว่าข้อมูลของเรามีความซ้ำซ้อนหรือไม่และทำการลบ
ในการวิเคราะห์ข้อมูล (Data Analytics) จะมีการกำหนดคำถามและสมมติฐานเพื่อระบุสิ่งที่เราอยากรู้ หากมีตัวแปรที่ไม่เกี่ยวข้องอยู่มากเกินไปก็อาจทำให้ผลลัพธ์ที่ได้มีความคลาดเคลื่อน จึงควรเข้าใจคำถามและจุดประสงค์ของการวิเคราะห์ เพื่อหาข้อมูลที่ไม่เกี่ยวข้องแล้วทำการลบออก
เมื่อมีการลบข้อมูลที่ผิดพลาดหรือไม่เกี่ยวข้องออกไปแล้ว จะต้องมีการทดแทนข้อมูลเดิม ซึ่งกระบวนการนี้ขึ้นอยู่กับการพิจารณาของแต่ละบุคคล อาจจะใช้วิธีดึงข้อมูลจากฐานข้อมูลมาสันนิษฐานและระบุแทนที่ชุดข้อมูลเก่า เพื่อให้ข้อมูลมีความสอดคล้องกัน หรืออาจจะลบข้อมูลไปเฉย ๆ ไม่มีการเพิ่มเติมอะไรเลยก็ได้เช่นกัน
หลังจากจัดเก็บข้อมูลมาในระยะเวลาหนึ่ง ข้อมูลอาจเกิดการสูญหายตามกาลเวลาจึงต้องมีการบำรุงรักษาข้อมูลอยู่เสมอ เพื่อให้ข้อมูลยังคงสมบูรณ์ไม่สูญหาย
การตรวจสอบความถูกต้องของข้อมูล เป็นขั้นตอนสุดท้ายที่ตรวจสอบว่าชุดข้อมูลทั้งหมดที่ผ่านกระบวนการ Data Cleansing มีความถูกต้องหรือไม่
Data Cleaning คือส่วนหนึ่งของ Data Cleansing เป็นกระบวนการตรวจสอบเพื่อแก้ไขข้อผิดพลาด และความไม่สอดคล้องกันในชุดข้อมูล อย่างไรก็ตาม Data Cleansing เป็นกระบวนการที่ครอบคลุมมากกว่า Data Cleaning เพราะนอกเหนือจากการทำความสะอาดแล้ว ยังรวมถึงการกำหนดมาตรฐาน การตรวจสอบ การลดความซ้ำซ้อน และการเพิ่มมูลค่าของข้อมูล
การทำ Data Cleansing เป็นขั้นตอนสำคัญที่อยู่ในเกือบทุกเทคนิคของการวิเคราะห์ข้อมูล หากละเลยขั้นตอนนี้ก็อาจทำให้ข้อมูลที่คุณมีอยู่สูญเปล่าได้ ทุกองค์กรจึงควรศึกษาการล้างข้อมูลเพื่อให้สามารถจัดการกับข้อมูลได้อย่างเต็มประสิทธิภาพ และได้ข้อมูลที่นำไปใช้ประโยชน์ทางธุรกิจได้อย่างแม่นยำ