ההבדל בין KDD לבין כריית נתונים

Anonim

KDD לעומת כריית נתונים

KDD (גילוי ידע במאגרי מידע) הוא תחום מדעי המחשב, אשר כולל את הכלים והתיאוריות כדי לסייע לבני אדם בחילוץ מידע שימושי ובלתי ידוע (כלומר ידע) מאוספים גדולים של נתונים דיגיטליים. KDD מורכב ממספר שלבים, ו- Data Mining הוא אחד מהם. כריית נתונים היא יישום של אלגוריתם ספציפי על מנת לחלץ דפוסים מנתונים. עם זאת, משמשים כ - KDD ו - Data Mining לסירוגין.

-> ->

מהו KDD?

כפי שצוין לעיל, KDD הוא תחום מדעי המחשב, שעוסק בהפקת מידע לא ידוע ומעניין בעבר מנתונים גולמיים. KDD הוא כל התהליך של מנסה להבין את הנתונים על ידי פיתוח שיטות מתאימות או טכניקות. תהליך זה עם מיפוי של נתונים ברמה נמוכה לתוך צורות אחרות אלה הם קומפקטי יותר, מופשט ושימושי. זו מושגת על ידי יצירת דוחות קצרים, דוגמת תהליך של יצירת נתונים ופיתוח מודלים חזוי כי יכול לחזות מקרים עתידיים. בשל הצמיחה המהירה של הנתונים, במיוחד בתחומים כמו עסקים, KDD הפך תהליך חשוב מאוד כדי להמיר את זה עושר גדול של נתונים מודיעין עסקי, כמו החילוץ הידני של דפוסי הפך לכאורה בלתי אפשרי בעשורים האחרונים. לדוגמה, הוא משמש כיום עבור יישומים שונים כגון ניתוח רשתות חברתיות, זיהוי הונאות, מדע, השקעות, ייצור, תקשורת, ניקיון נתונים, ספורט, אחזור מידע ובעיקר שיווק. KDD משמש בדרך כלל כדי לענות על שאלות כמו מה הם המוצרים העיקריים שעשויים לעזור להשיג רווח גבוה בשנה הבאה בוול מארט?. תהליך זה כולל מספר שלבים. זה מתחיל עם פיתוח הבנה של תחום היישום ואת המטרה ולאחר מכן יצירת מערך נתונים היעד. זה ואחריו ניקוי, עיבוד מוקדם, הפחתה והשלכה של נתונים. השלב הבא הוא באמצעות כריית נתונים (הסביר להלן) כדי לזהות דפוס. לבסוף, הידע שהתגבש מתבסס על ידי הדמיה ו / או פרשנות.

-> ->

מהו כריית נתונים?

כאמור, כריית נתונים היא רק שלב בתהליך הכולל של KDD. ישנם שני יעדים עיקריים של כריית נתונים כפי שהוגדרו על ידי מטרת היישום, והם למעשה אימות או גילוי. אימות מאמת את ההשערה של המשתמש לגבי נתונים, בעוד שהתגלית מוצאת באופן אוטומטי דפוסים מעניינים. ישנן ארבע משימות עיקריות של כריית נתונים: אשכולות, סיווג, רגרסיה ואסוציאציה (סיכום). קיבוץ באשכולות מזהה קבוצות דומות מתוך נתונים לא מובנים. קפה הוא לימוד כללי שניתן להחיל על נתונים חדשים. רגרסיה היא מציאת פונקציות עם שגיאה מינימלית לנתוני המודל.והאיגוד מחפש קשרים בין משתנים. לאחר מכן, אלגוריתם כריית הנתונים הספציפי צריך להיות נבחר. בהתאם למטרה, אלגוריתמים שונים כמו רגרסיה ליניארית, רגרסיה לוגיסטית, עצי החלטה, Bayyes Nayve ניתן לבחור. אז דפוסי עניין אחת או יותר צורות ייצוגי הם חיפשו. לבסוף, המודלים מוערכים באמצעות דיוק חזוי או הבנה.

-> ->

מה ההבדל בין KDD לבין כריית נתונים? למרות זאת, שני המונחים KDD ו- Data Mining משמשים במידה רבה לסירוגין, הם מתייחסים לשני מושגים שונים אך שונים במקצת. KDD הוא התהליך הכולל של חילוץ ידע מהנתונים בזמן ש- Data Mining הוא צעד בתוך תהליך ה- KDD, שעוסק בזיהוי דפוסי נתונים. במילים אחרות, כריית נתונים היא רק יישום של אלגוריתם ספציפי המבוסס על המטרה הכוללת של תהליך KDD.