עושים סדר ב-DATA – מהו DATA CLEANING?

מעוניין לשתף?

Share on facebook
Share on whatsapp
Share on linkedin
Share on email

ניקוי נתונים או DATA CLEANING הוא תהליך של זיהוי והסרה (או תיקון) של רשומות לא מדויקות ממערך נתונים, טבלה או מסד נתונים. תהליך זה אינו תהליך שמטרתו "צמצום נתונים" אלא פעולה שמטרתה היא שמירה על מהימנות הנתונים.

תהליך נקיון הנתונים נמצא באזור שבין הבנת הBUSINESS לבין עיצוב המידע הטבלאי. הוא מתייחס לזיהוי חלקם לא גמורים, לא מדויקים או לא רלוונטים, המייצרים סיטואציה של מידע לא אמין, מידע "מלוכלך" שיושב בבסיס הנתונים ושימוש בו עלול להוביל לקבלת החלטות עסקיות שגויות. פעולות הניקוי מהוות חלק חיוני בתהליך בחינת אמינות הנתונים ולהן יוקדש מרבית הזמן והמשאבים בתוך הליך זה.

לביצוע אנליזה ותחקור של ניקיון ה – DATA אפשר לגשת באמצעות טכניקות שונות כגון: סוגי המידע  (DATA TYPES), תכונות קבועות (Constant features), שורות כפולות (Duplicated rows),

תכונות כפולות (Duplicated features), ערכים מחוץ לטווח (Values out of range) וע"י כך להגיע לרוב הפערים במידע הארגוני בצורה יסודית ושיטתית. חלק מהעבודה עם רשומות המידע ניתן לתחקר באמצעות כלים מסורתיים לניתוח, לדוגמה, R או Python. הפערים שזוהו בתהליך עשויים להיגרם בעיקרם על ידי טעויות כניסה של משתמשים, על ידי שחיתות באחסון או בהעברת המידע.

לאחר תהליך הניקוי, מערך הנתונים צריך להיות אחיד ואמין תוך כדי שמירת הקשר הנכון עם שאר בסיסי הנתונים במבנה הטבלאי שלהם בארגון.

כתבות נוספות שיעניינו אותך

מרץ 8, 2019   •

UZI SHABAT

The world we live in today is largely based on access to information to carry out daily activities, such as access to our health provider data in order to check

מרץ 15, 2019   •

AVIV MADMON

In this article, we will do a technical review and have an overview of some of the exciting new features of SQL Server 2019