ההבדל בין קיבוץ היררכי ואשכול חלקי

Anonim

היררכיה לעומת אשכולות Partition

Clustering היא טכניקת לימוד מכונה לניתוח נתונים וחלוקת לקבוצות של נתונים דומים. קבוצות אלה או קבוצות של נתונים דומים ידועים כאשכולות. ניתוח אשכולות בוחן אלגוריתמים מקבצים שיכולים לזהות אשכולות באופן אוטומטי. היררכי ו Partition הם שני סוגים כאלה של אלגוריתמים אשכולות. אלגוריתמים מקבצים היררכי לשבור את הנתונים כדי היררכיה של אשכולות. אלגוריתמים Paritional לחלק את הנתונים להגדיר מחיצות נפרדות הדדית.

-> ->

מהו קיבוץ אשכולות היררכי?

אלגוריתמים מקבצים היררכיים חוזרים על מעגל של מיזוג של אשכולות קטנים יותר לאלו הגדולים יותר או חלוקת אשכולות גדולים יותר לקטנים. כך או כך, הוא מייצר היררכיה של אשכולות בשם dendogram. אסטרטגיית קיבוץ אשכולות משתמשת בגישה מלמטה למעלה של מיזוג אשכולות לאלו הגדולים יותר, בעוד שאסטרטגיית קיבוץ אשכולית משתמשת בגישה מלמעלה למטה של ​​פיצול לקטנים. בדרך כלל, הגישה חמדנים משמש בקביעת אילו אשכולות גדולים / קטנים משמשים למיזוג / חלוקת. המרחק האוקלידי, המרחק במנהטן ודמיון הקוסינוס הם חלק מהערכים הנפוצים ביותר של דמיון לנתונים מספריים. עבור נתונים לא מספריים, נעשה שימוש בערכים כגון מרחק המינג. חשוב לציין שהתצפיות בפועל (מקרים) אינן דרושות לצורך קיבוץ היררכי, שכן רק מטריצת המרחקים מספיקה. Dendogram הוא ייצוג חזותי של אשכולות, אשר מציג את בהיררכיה מאוד בבירור. המשתמש יכול לקבל אשכולות שונים בהתאם לרמה שבה חותכים את הדנדוגרמה.

-> ->

מהו קיבוץ באשכולות?

אלגוריתמים מקובצים באשכולות יוצרים מחיצות שונות ולאחר מכן מעריכים אותם לפי קריטריון מסוים. הם נקראים גם לא היררכי כמו כל מקרה ממוקם בדיוק אחד k אשכולות הדדית. מכיוון שרק קבוצה אחת של אשכולות היא הפלט של אלגוריתם מקבץ אופייני חלקי, המשתמש נדרש להזין את המספר הרצוי של אשכולות (הנקראים בדרך כלל k). אחד האלגוריתמים המקבילים ביותר לשילוב אשכולות הוא אלגוריתם הקבצה k. המשתמש נדרש לספק את מספר אשכולות (k) לפני תחילת האלגוריתם הראשון יוזם את מרכזי (או centroids) של מחיצות k. בקיצור, k פירושו אלגוריתם מקבץ ואז מקצה חברים המבוססים על המרכזים הנוכחיים מחדש הערכות מרכזים המבוססים על חברי הנוכחי. שני שלבים אלה חוזרים על עצמם עד פונקציונליות מסוימת של מקבץ אקסטרה מקבץ אובייקטיבי בין אשכול ההבדל פונקציה אובייקטיבית הם אופטימיזציה.לכן, אתחול הגיוני של מרכזי הוא גורם חשוב מאוד בהשגת תוצאות איכות מ אלגוריתמים אשכולות חלקי.

-> ->

מה ההבדל בין קיבוץ היררכי ו אשכול חלקי?

קיבוץ אשכולות היררכי והפרדה חלקית יש הבדלים מרכזיים בזמן הריצה, בהנחות, בפרמטרים של קלט ובאשכולים. בדרך כלל, אשכולות חלקי הוא מהיר יותר מאשר אשכולות היררכי. אשכולות היררכיים דורשים רק מדד דמיון, ואילו קיבוץ חלקי דורש הנחות חזקות יותר, כגון מספר אשכולות והמרכזים הראשוניים. אשכולות היררכיים אינם דורשים פרמטרים קלט, ואילו אלגוריתמים אשכול חלקי דורשים את מספר אשכולות להתחיל לרוץ. אשכולות היררכיים מחזירים חלוקה משמעותית הרבה יותר סובייקטיבית של אשכולות, אך תוצאות קיבוץ באשכולות חלקיות מקבצים בדיוק k. אלגוריתמים מקבצים היררכיים מתאימים יותר למידע קטגורי, כל עוד ניתן לקבוע מדד הדמיון בהתאם.