ההבדל בין כריית נתונים לאחסון נתונים

Anonim

כריית נתונים לעומת אחסון נתונים

Data Mining and Data Warehousing הן טכניקות רבות עוצמה ופופולרית לניתוח נתונים. משתמשים שנוטים לסטטיסטיקה משתמשים ב- Data Mining. הם משתמשים במודלים סטטיסטיים כדי לחפש דפוסים נסתרים בנתונים. כורי נתונים מעוניינים למצוא קשרים שימושיים בין רכיבי נתונים שונים, אשר בסופו של דבר רווחיים עבור עסקים. אבל מצד שני, מומחים נתונים אשר יכולים לנתח את הממדים של העסק ישירות נוטים להשתמש מחסני נתונים.

כריית נתונים ידוע גם בשם גילוי ידע בנתונים (KDD). כאמור, זהו תחום של מדעי המחשב, העוסק בהפקת מידע לא ידוע ומעניין קודם לכן מנתונים גולמיים. בשל הגידול המהיר של הנתונים, במיוחד בתחומים כמו עסקים, כריית נתונים הפך כלי חשוב מאוד כדי להמיר את זה עושר גדול של נתונים כדי המודיעין העסקי, כמו החילוץ הידני של דפוסי הפך לכאורה בלתי אפשרי בעשורים האחרונים. לדוגמה, הוא משמש כיום עבור יישומים שונים כגון ניתוח רשתות חברתיות, זיהוי הונאה ושיווק. כריית נתונים מטפלת בדרך כלל בארבע משימות: אשכולות, סיווג, רגרסיה ואסוציאציה. קיבוץ באשכולות מזהה קבוצות דומות מתוך נתונים לא מובנים. סיווג הוא לימוד כללי שניתן להחיל על נתונים חדשים, ובדרך כלל יכלול את השלבים הבאים: עיבוד נתונים מראש, עיצוב מודלים, בחירת למידה / תכונה והערכה / אימות. רגרסיה היא מציאת פונקציות עם שגיאה מינימלית לנתוני המודל. והאיגוד מחפש קשרים בין משתנים. כריית נתונים משמש בדרך כלל כדי לענות על שאלות כמו מה הם המוצרים העיקריים שעשויים לעזור להשיג רווח גבוה בשנה הבאה בוול מארט?

כפי שצוין לעיל, אחסון נתונים משמש גם לניתוח נתונים, אך על ידי קבוצות שונות של משתמשים ואת המטרה שונה במקצת. לדוגמה, כשמדובר במגזר הקמעונאי, משתמשים במחסני נתונים מודאגים יותר מה סוגי רכישות פופולריים בקרב הלקוחות, כך שתוצאות הניתוח יכולות לסייע ללקוח על ידי שיפור חוויית הלקוח. אבל הכורים נתונים הראשון לשער השערת כגון אילו לקוחות לקנות סוג מסוים של המוצר ולנתח את הנתונים כדי לבדוק את ההשערה. אחסון נתונים יכול להתבצע על ידי קמעונאית גדולה אשר בתחילה מניות חנויות שלה עם אותם גדלים של מוצרים מאוחר יותר לגלות כי חנויות ניו יורק מוכרת מלאי בגודל קטן הרבה יותר מהר מאשר בחנויות שיקגו. אז, על ידי הסתכלות על תוצאה זו קמעונאי יכול המניה בחנות ניו יורק עם גדלים קטנים יותר לעומת חנויות שיקגו.

לכן, כפי שניתן לראות בבירור, שני סוגי ניתוח אלה נראים בעלי אופי זהה לעין בלתי מזוינת. שניהם מודאגים לגבי הגדלת הרווחים על סמך הנתונים ההיסטוריים. אבל כמובן, יש הבדלים מרכזיים. במילים פשוטות, Data Mining ו- Data Warehousing מוקדשים למתן סוגים שונים של ניתוח, אך בהחלט עבור סוגים שונים של משתמשים. במילים אחרות, Data Mining מחפשת קורלציות, פאטרים התומכים בהיפותזה סטטיסטית. אולם, Data Warehousing עונה על שאלה רחבה יחסית, והיא מנתחת ומנתקת נתונים משם, כדי לזהות דרכים לשיפור בעתיד.