ในหัวข้อนี้เราจะพูดถึงการหาประโยชน์จากข้อมูลกันนะครับ ว่าแต่ต้องทำอย่างไรหล่ะ ทองคำดิบที่เราขุดขึ้นมาจากเหมืองไม่ได้บริสุทธิ์ ต้องผ่านกระบวนการหลายขั้นตอนก่อนจะได้ทองคำที่มีคุณภาพสูง เช่นเดียวกับข้อมูลที่ต้องปรับปรุงให้เหมาะสมสำหรับการใช้งาน
การขุดแร่ทองคำ (Collecting Raw Data) ในการขุดเหมือง เราไม่ได้ขุดมาแค่ทองคำ แต่ได้ดิน หิน และสิ่งเจือปนอื่น ๆ มาด้วยข้อมูลที่เรารวบรวมมาก็เช่นกัน อาจประกอบด้วยข้อมูลที่เกี่ยวข้องและไม่เกี่ยวข้อง
การแยกสิ่งเจือปนออก (Removing Irrelevant Data) ในเหมืองทอง ต้องกรองดินและเศษหินออกจากแร่ทองคำในข้อมูล เราต้องลบข้อมูลที่ไม่เกี่ยวข้อง เช่น คอลัมน์หรือรายการที่ไม่สำคัญ
การบดและล้างแร่ (Handling Missing Data and Errors) ทองคำที่ขุดมาจะถูกบดละเอียดและล้างสิ่งสกปรกออกข้อมูลเองก็ต้อง “ล้าง” ปัญหา เช่น ข้อมูลที่ขาดหาย (Missing Data) และข้อมูลผิดพลาด (Errors) เพื่อให้ได้ข้อมูลที่ใช้งานได้
การหลอมทองคำ (Standardizing Data)แร่ทองที่ได้ต้องนำไปหลอมให้เป็นเนื้อเดียวกัน เพื่อแยกทองออกมาอย่างบริสุทธิ์สำหรับข้อมูล เราต้องจัดรูปแบบให้สอดคล้องกัน เช่น แก้ไขหน่วย (กิโลกรัม → กรัม) หรือแก้การสะกดคำให้เป็นมาตรฐาน
การชั่งน้ำหนักและตรวจสอบคุณภาพ (Validating Data)ทองคำที่ได้ต้องผ่านการตรวจสอบว่าเป็นทองบริสุทธิ์มากน้อยแค่ไหนข้อมูลที่ Clean แล้วก็ต้องตรวจสอบคุณภาพและความถูกต้อง เช่น การตรวจว่าไม่มีข้อมูลซ้ำหรือขาดตก
ได้ทองคำบริสุทธิ์ (Clean Data)หลังจากกระบวนการทั้งหมด เราจะได้ทองคำบริสุทธิ์ที่สามารถนำไปสร้างเป็นเครื่องประดับหรือใช้ในอุตสาหกรรมต่าง ๆ เช่นเดียวกับข้อมูลที่ผ่านการ Clean แล้ว เราสามารถนำไปวิเคราะห์หรือใช้กับโมเดล Machine Learning ได้อย่างมีประสิทธิภาพ
ทำไมการ Clean Data ถึงสำคัญเหมือนการทำทอง?
เพราะข้อมูลที่สะอาดและมีคุณภาพเหมือนทองคำบริสุทธิ์ มันมีคุณค่าและสามารถสร้างสิ่งที่มีประโยชน์อย่างมาก ไม่ว่าจะเป็นการตัดสินใจที่แม่นยำ หรือการคาดการณ์อนาคต หากเราใช้ข้อมูลที่สกปรก เหมือนเอาหินแทนทองไปใช้ ซึ่งไม่มีคุณค่าเลย
การ Clean data พูดง่ายทำยาก ?
การ Clean Data หรือการทำความสะอาดข้อมูลเป็นขั้นตอนสำคัญในกระบวนการวิเคราะห์ข้อมูล เพราะข้อมูลที่เราได้รับมาอาจมีปัญหาหลายอย่างที่ส่งผลต่อความถูกต้องและประสิทธิภาพของการวิเคราะห์หรือโมเดลที่เราสร้างขึ้น แล้วมันมีหลักการยังไง
ข้อมูลผิดพลาด (Errors)
ข้อมูลบางส่วนอาจกรอกผิด เช่น ตัวเลขที่ควรเป็นจำนวนเต็ม แต่ใส่เป็นข้อความมีข้อมูลที่ไม่สมเหตุสมผล เช่น อายุเป็น 200 ปี
ข้อมูลสูญหาย (Missing Data)
บางครั้งในชุดข้อมูลมีช่องว่างหรือค่าว่าง (Missing values) ซึ่งอาจทำให้การวิเคราะห์ขาดความสมบูรณ์
ข้อมูลซ้ำซ้อน (Duplicates)
ข้อมูลที่บันทึกซ้ำ เช่น ชื่อผู้ใช้งานหรือรายการเดิมถูกบันทึกหลายครั้ง
ความไม่สอดคล้องกัน (Inconsistencies)
เช่น การใช้หน่วยที่ไม่เหมือนกัน (กิโลกรัม กับ ปอนด์) หรือรูปแบบการป้อนข้อมูลที่ต่างกัน (“YES” กับ “Yes”)
ข้อมูลไม่เกี่ยวข้อง (Irrelevant Data)
มีข้อมูลที่ไม่จำเป็นหรือไม่มีผลต่อการวิเคราะห์ เช่น ข้อมูลส่วนตัวที่ไม่เกี่ยวข้อง
เพิ่มคุณภาพและความน่าเชื่อถือ