עושים סדר ב-DATA – מהו DATA CLEANING?

מעוניין לשתף?

Share on facebook
Share on whatsapp
Share on linkedin
Share on email

ניקוי נתונים או DATA CLEANING הוא תהליך של זיהוי והסרה (או תיקון) של רשומות לא מדויקות ממערך נתונים, טבלה או מסד נתונים. תהליך זה אינו תהליך שמטרתו "צמצום נתונים" אלא פעולה שמטרתה היא שמירה על מהימנות הנתונים.

תהליך נקיון הנתונים נמצא באזור שבין הבנת הBUSINESS לבין עיצוב המידע הטבלאי. הוא מתייחס לזיהוי חלקם לא גמורים, לא מדויקים או לא רלוונטים, המייצרים סיטואציה של מידע לא אמין, מידע "מלוכלך" שיושב בבסיס הנתונים ושימוש בו עלול להוביל לקבלת החלטות עסקיות שגויות. פעולות הניקוי מהוות חלק חיוני בתהליך בחינת אמינות הנתונים ולהן יוקדש מרבית הזמן והמשאבים בתוך הליך זה.

לביצוע אנליזה ותחקור של ניקיון ה – DATA אפשר לגשת באמצעות טכניקות שונות כגון: סוגי המידע  (DATA TYPES), תכונות קבועות (Constant features), שורות כפולות (Duplicated rows),

תכונות כפולות (Duplicated features), ערכים מחוץ לטווח (Values out of range) וע"י כך להגיע לרוב הפערים במידע הארגוני בצורה יסודית ושיטתית. חלק מהעבודה עם רשומות המידע ניתן לתחקר באמצעות כלים מסורתיים לניתוח, לדוגמה, R או Python. הפערים שזוהו בתהליך עשויים להיגרם בעיקרם על ידי טעויות כניסה של משתמשים, על ידי שחיתות באחסון או בהעברת המידע.

לאחר תהליך הניקוי, מערך הנתונים צריך להיות אחיד ואמין תוך כדי שמירת הקשר הנכון עם שאר בסיסי הנתונים במבנה הטבלאי שלהם בארגון.

כתבות נוספות שיעניינו אותך

ינואר 1, 2019   •

בהסתכלות עסקית ארגונית, ייעול העלויות נחשב בדרך כלל לשלב השלישי ב"מודעות הענן"

פברואר 5, 2019   •

YEHORAM DAN

Open Command Prompt in administrator mode