Blog

เอ๊ะ!.. Data Cleansing กับ Data Cleaning ต่างกันอย่างไร

Data Cleaning คืออะไร

Data Cleaning เป็นกระบวนการลบหรือแก้ไขข้อมูลที่ผิดพลาด ไม่สมบูรณ์ หรือไม่มีความสอดคล้องกันจากชุดข้อมูล

ลักษณะงาน:

  • การจัดการข้อมูลที่ซ้ำซ้อน (Duplicate Data)
  • การเติมข้อมูลที่ขาดหาย (Missing Data)
  • การแก้ไขข้อมูลที่ไม่ถูกต้อง (Incorrect Data)
  • การเปลี่ยนรูปแบบข้อมูลให้สอดคล้องกัน (Formatting Errors)

ตัวอย่าง:

  • ลบช่องว่างในคอลัมน์ที่ควรเป็นตัวเลข
  • แก้ไขวันเดือนปีให้เป็นรูปแบบเดียวกัน เช่น DD/MM/YYYY

บริบท: ใช้ในบริบททั่วไปของการจัดการข้อมูลในโครงการต่าง ๆ


Data Cleansing คืออะไร

Data Cleansins กระบวนการตรวจจับข้อมูล แก้ไข ลบ แทนที่ และจัดรูปแบบของข้อมูลที่ไม่สมบูรณ์ ซ้ำซ้อน ให้มีความถูกต้องและเป็นระเบียบ ตลอดจนนำไปใช้งานต่อได้อย่างมีประสิทธิภาพ เป็นกระบวนการที่ครอบคลุมมากขึ้นสำหรับการปรับปรุงคุณภาพข้อมูล โดยเน้นการวิเคราะห์และแก้ไขข้อมูลเพื่อให้เหมาะสมกับการใช้งาน

ลักษณะงาน:

  • ตรวจสอบความสมเหตุสมผลของข้อมูล (Data Validation)
  • การกำจัดข้อมูลที่ไม่เกี่ยวข้องหรือไม่จำเป็น (Irrelevant Data)
  • การผสานข้อมูลจากแหล่งต่าง ๆ ให้สอดคล้องกัน (Data Harmonization)

ตัวอย่าง:

  • กำจัดข้อมูลที่ไม่มีผลต่อการวิเคราะห์ เช่น ข้อมูลที่ล้าสมัย
  • การรวมข้อมูลจากระบบที่ต่างกัน เช่น การรวมฐานข้อมูลลูกค้า

บริบท: ใช้ในบริบทของการจัดการข้อมูลขนาดใหญ่ (Big Data) หรือในโครงการที่ต้องการการวิเคราะห์ข้อมูลในเชิงลึก



Cleansing Data มีความสำคัญอย่างไร

สำหรับคำถามที่ว่า Cleansing Data มีความสำคัญอย่างไร? ในการทำธุรกิจจำเป็นจะต้องใช้ข้อมูลที่มีความถูกต้อง แม่นยำ มาใช้ในการวิเคราะห์เพื่อให้ได้ผลลัพธ์ที่สมบูรณ์และสามารถนำไปวางแผนทางการตลาดได้

หากขาดการเตรียมข้อมูลที่คุณภาพ ไม่มีการคัดกรองข้อมูลด้วย Data Cleansing อาจทำให้การวิเคราะห์ผิดพลาด เกิดการตัดสินใจที่ผิดพลาดและส่งผลกระทบเป็นวงกว้างต่อธุรกิจ ซึ่งข้อดีของ Data Cleansing นั้นมีอีกหลายประการ ไม่ว่าจะเป็น

  • ช่วยให้ได้ Insight หรือรายงาน (Report) ที่แม่นยำ ทำให้ตัดสินใจได้รวดเร็วขึ้น
  • ช่วยให้ดึงข้อมูลออกมาใช้ได้ทันที และข้อมูลอยู่ในรูปแบบที่สมบูรณ์
  • การทำ Data Cleansing อาจหมายถึง การล้างข้อมูลที่หมดอายุ ซึ่งเกี่ยวข้องกับ พ.ร.บ.ข้อมูลส่วนบุคคล (PDPA)


ข้อมูลแบบไหนที่ต้องทำ Data Cleansing

จากการรวบรวมข้อมูลขนาดใหญ่ หรือ Big Data จึงต้องมีการล้างข้อมูลเพื่อคัดกรองให้เหลือแค่ข้อมูลที่นำไปใช้ได้จริง ซึ่งลักษณะของข้อมูลที่ต้องผ่านการ Data Cleansing ก่อนนำไปใช้ประโยชน์ มีดังนี้

 

1. ข้อมูลที่ไม่ได้อยู่ในรูปแบบเดียวกัน

ในกรณีนี้อาจเกิดจากการที่มีข้อมูลจากหลาย Database ทำให้ข้อมูลที่รวบรวมมามีไฟล์คนละนามสกุลกัน เช่น .pdf, .doc, .xls หรือ .pptx เป็นต้น ทำให้ไม่สามารถใช้ในการประมวลผลด้วยกัน จึงต้องมีการแปลงไฟล์ให้อยู่ในนามสกุลเดียวกันเพื่อสามารถประมวลผลได้ และลดพื้นที่ในการจัดเก็บชุดข้อมูล

 

2. ข้อมูลที่ไม่ได้จัดเก็บในรูปแบบที่ต้องการ

เป็นข้อมูลที่ต้องทำให้อยู่ในรูปแบบที่สามารถนำไปใช้ในการวิเคราะห์ได้ บางข้อมูลที่ถูกรวบรวมมาอาจอยู่ในรูปแบบของรูปภาพ เช่น .jpg, .png, .tiff หรือ .bmp จึงต้องมีการแปลงไฟล์รูปภาพให้อยู่ในรูปแบบของไฟล์ข้อความหรือสคริปต์ เช่น .csv, .tsv, .json, และ .xml เป็นต้น

 

3. ข้อมูลที่ไม่ถูกต้อง

โดยส่วนใหญ่แล้วการรวบรวมข้อมูลโดยคนอาจเกิดการผิดพลาด (Human Errors) เป็นเรื่องปกติ เช่น กรอกข้อมูลเกินความจริง กรอกข้อมูลในช่องที่ผิด หรือสะกดชื่อข้อมูลไม่ถูกต้อง ทำให้วิเคราะห์ข้อมูลเชิงลึก หรือ Insight ออกมาผิดพลาด ไม่แม่นยำ จึงต้องทำ Data Cleansing เพื่อแก้ไขข้อมูลให้ถูกต้อง


5 ขั้นตอน Data Cleansing ที่ช่วยให้ข้อมูลมีคุณภาพ

1. ลบข้อมูลที่ซ้ำซ้อน

จากการรวบรวมข้อมูลจากหลายแหล่ง ส่งผลให้อาจมีการดึงข้อชุดข้อมูลที่ซ้ำซ้อน ส่งผลให้ชุดข้อมูลหนักขึ้นและประมวลผลช้า หากใช้โมเดลเป็น Machine Learning ก็อาจทำให้เกิดการให้น้ำหนักกับข้อมูลซ้ำซ้อนมากเกินไป จนไม่สะท้อนความจริง ดังนั้นจึงควรเช็กว่าข้อมูลของเรามีความซ้ำซ้อนหรือไม่และทำการลบ

 

2. ลบข้อมูลที่ไม่เกี่ยวข้อง

ในการวิเคราะห์ข้อมูล (Data Analytics) จะมีการกำหนดคำถามและสมมติฐานเพื่อระบุสิ่งที่เราอยากรู้ หากมีตัวแปรที่ไม่เกี่ยวข้องอยู่มากเกินไปก็อาจทำให้ผลลัพธ์ที่ได้มีความคลาดเคลื่อน จึงควรเข้าใจคำถามและจุดประสงค์ของการวิเคราะห์ เพื่อหาข้อมูลที่ไม่เกี่ยวข้องแล้วทำการลบออก

 

3. ระบุข้อมูลแทนที่ข้อมูลเดิม

เมื่อมีการลบข้อมูลที่ผิดพลาดหรือไม่เกี่ยวข้องออกไปแล้ว จะต้องมีการทดแทนข้อมูลเดิม ซึ่งกระบวนการนี้ขึ้นอยู่กับการพิจารณาของแต่ละบุคคล อาจจะใช้วิธีดึงข้อมูลจากฐานข้อมูลมาสันนิษฐานและระบุแทนที่ชุดข้อมูลเก่า เพื่อให้ข้อมูลมีความสอดคล้องกัน หรืออาจจะลบข้อมูลไปเฉย ๆ ไม่มีการเพิ่มเติมอะไรเลยก็ได้เช่นกัน

 

4. บำรุงรักษาข้อมูลอยู่เสมอ

หลังจากจัดเก็บข้อมูลมาในระยะเวลาหนึ่ง ข้อมูลอาจเกิดการสูญหายตามกาลเวลาจึงต้องมีการบำรุงรักษาข้อมูลอยู่เสมอ เพื่อให้ข้อมูลยังคงสมบูรณ์ไม่สูญหาย

 

5. ตรวจสอบความถูกต้อง

การตรวจสอบความถูกต้องของข้อมูล เป็นขั้นตอนสุดท้ายที่ตรวจสอบว่าชุดข้อมูลทั้งหมดที่ผ่านกระบวนการ Data Cleansing มีความถูกต้องหรือไม่

 

 

Data Cleansing vs Data Cleaning ต่างกันอย่างไร

Data Cleaning คือส่วนหนึ่งของ Data Cleansing เป็นกระบวนการตรวจสอบเพื่อแก้ไขข้อผิดพลาด และความไม่สอดคล้องกันในชุดข้อมูล อย่างไรก็ตาม Data Cleansing เป็นกระบวนการที่ครอบคลุมมากกว่า Data Cleaning เพราะนอกเหนือจากการทำความสะอาดแล้ว ยังรวมถึงการกำหนดมาตรฐาน การตรวจสอบ การลดความซ้ำซ้อน และการเพิ่มมูลค่าของข้อมูล


"...จัดการข้อมูลดีมีชัยไปกว่าครึ่ง"

การทำ Data Cleansing เป็นขั้นตอนสำคัญที่อยู่ในเกือบทุกเทคนิคของการวิเคราะห์ข้อมูล หากละเลยขั้นตอนนี้ก็อาจทำให้ข้อมูลที่คุณมีอยู่สูญเปล่าได้ ทุกองค์กรจึงควรศึกษาการล้างข้อมูลเพื่อให้สามารถจัดการกับข้อมูลได้อย่างเต็มประสิทธิภาพ และได้ข้อมูลที่นำไปใช้ประโยชน์ทางธุรกิจได้อย่างแม่นยำ



บทความนี้มีประโยชน์หรือไม่? (11)
Share
Share Facbook Share Twitter
 

e-Profile RMUTL

เว็บไซต์สำหรับแสดงโปรไฟล์ ผลงาน และข้อมูลวิชาการของบุคลากร

มหาวิทยาลัยเทคโนโลยีราชมงคลล้านนา