Classification vs Clustering

Nazrin
4 min readJun 18, 2023

Giriş

Clustering və classification data analitikasında və machine learning sahəsində ən əsas texnikalardandır.Hər iki texnika oxşar görünsə də, onlar əsaslı şəkildə fərqlidirlər. Bu blogda biz clustering və classification arasındakı fərqlərə, onların unikal xüsusiyyətlərinə və tətbiqlərinə nəzər yetirəcəyik.

Classification

Classification məlumatların müəyyən meyarlar əsasında kateqoriyalara və ya siniflərə qruplaşdırılması prosesidir. Kitabda mövzulara görə səhifələri tapmaq rahat olduğu kimi məlumatların təsnifləşdirilməsi də müvafiq məlumat seqmentlərini tapmağa və onları daha səmərəli təhlil etməyə kömək edir.

Machine learning-də müxtəlif növ problemləri həll etmək üçün adətən istifadə olunan bir neçə növ classification alqoritmi var. Onların bəzi əsas növləri bunlardır:

  1. Logistic Regression — Logistic regression binary classification tapşırıqları üçün istifadə edilən məşhur alqoritmdir. O, logistik funksiyadan istifadə edərək asılı dəyişən ilə bir və ya bir neçə müstəqil dəyişən arasındakı əlaqəni modelləşdirir.
  2. Decision trees — həm binary classification həmdə multi-class classification məsələlərində istifadə olunur. Bu alqoritm ağaca bənzər modellər yaradır və bu modellərdən proqnoz vermək üçün istifadə olunur.
  3. Neyron şəbəkələri — Neyron şəbəkələri, xüsusən də dərin öyrənmə modelləri son illərdə əhəmiyyətli dərəcədə populyarlıq qazanmışdır. Onlar bir-biri ilə əlaqəli neyronların çoxsaylı təbəqələrindən ibarətdir və həm ikili, həm də çox sinifli təsnifat tapşırıqları üçün istifadə edilə bilər.
  4. K-Nearest Neighbors (KNN) — Bu alqoritm məlumat nöqtələrini digər məlumat nöqtələrinə yaxınlığına görə təsnif edir. Məlumat nöqtəsinin sinfi onun k-yaxın qonşularının sinfinə əsasən təyin edilir.

Bunlar maşın öyrənməsində istifadə olunan təsnifat alqoritmlərinin ümumi növlərindən yalnız bəziləridir. Hər bir alqoritmin güclü və zəif tərəfləri var və alqoritmin seçimi problemin xarakterindən, mövcud məlumatlardan və arzu olunan performansdan asılıdır.

Classification alqoritmləri müxtəlif sahələrdə geniş tətbiq sahəsinə malikdir. Bəzi ümumi tətbiqləri bunlardır:

  1. E-poçt spam filtrasiyası — Classification alqoritmləri e-poçtları spam və ya qanuni olaraq təsnif etmək üçün istifadə edilə bilər. Alqoritm arzuolunmaz və ya zərərli mesajları filtrləmək üçün e-poçtların məzmununu və xüsusiyyətlərini təhlil edirlər.
  2. Xəstəliyin Diaqnozu — Təsnifat alqoritmləri xəstəliyin diaqnozu üçün səhiyyədə istifadə olunur. Məsələn, xərçəng, pnevmoniya və ya ürək xəstəliyi kimi halları aşkar etmək üçün tibbi təsvirləri (məsələn, rentgen və ya MRT-lər) təsnif etmək üçün istifadə olunur.
  3. Kredit Riskinin Qiymətləndirilməsi: Banklar və maliyyə institutları kredit riskini qiymətləndirmək üçün təsnifat alqoritmlərindən istifadə edirlər. Onlar kredit tarixçəsi, gəlir və demoqrafik məlumatlar kimi müxtəlif amilləri təhlil edərək, kredit müraciət edənlər üçün kredit məbləğini və ya gecikmə ehtimalını proqnozlaşdırırlar.

Clustering

Clustering machine learning unsupervised learning texnikasıdır ki, bu da oxşar məlumat nöqtələrinin xas nümunələri və ya oxşarlıqları əsasında qruplaşdırılmasını nəzərdə tutur. Əvvəlcədən təyin edilmiş etiketlər və ya hədəf dəyərlər olmadan verilənlərdə gizli strukturları və ya klasterləri aşkar etmək məqsədi daşıyır. Clustering alqoritmləri məlumatları fərqli qruplara bölür, burada eyni qrupdakı məlumat nöqtələri digər qruplardakılara nisbətən bir-birinə daha çox bənzəyir. Machine learning-də istifadə olunan bir neçə növ klaster alqoritmi var. Onlardan bəziləri aşağıda qeyd olunub.

  1. Hierarchical Clustering — İerarxik klasterləşmə aşağıdan yuxarıya və ya yuxarıdan aşağıya yanaşmadan istifadə edərək klasterlərin iyerarxiyasını qurur.O, dendroqram adlanan ağaca bənzər bir quruluş yaradır.
  2. K-Means Clustering — verilənlər bazasını K fərqli klasterlərə bölmək məqsədi daşıyan məşhur və geniş istifadə olunan clustering alqoritmidir. Bu, klaster mərkəzlərinə yaxınlığına əsaslanaraq məlumat nöqtələrini klasterlərə təyin edən iterativ alqoritmdir və mərkəzləri yaxınlaşana qədər iterativ olaraq yeniləyir.

Klasterləşdirmə alqoritmləri müxtəlif domenlərdə çoxsaylı tətbiqlərə malikdir. Klasterləşdirmənin bəzi ümumi tətbiqləri bunlardır:

  1. Müştəri seqmentasiyası: Klasterləşdirmə müştəri seqmentasiyası üçün geniş istifadə olunur, burada oxşar müştərilər davranışları, üstünlükləri və ya demoqrafik göstəriciləri əsasında qruplaşdırılır. Bu, bizneslərə müxtəlif müştəri seqmentlərini başa düşməyə və marketinq strategiyalarını buna uyğun şəkildə uyğunlaşdırmağa kömək edir.
  2. Şəkil Seqmentasiyası: Clustering alqoritmləri oxşar rəng və ya faktura xüsusiyyətlərinə malik pikselləri qruplaşdırmaqla şəkillərinə tətbiq edilə bilər. Bu obyektin tanınması, kompüter görməsi və s-da istifadə olunur
  3. Sənədlərin klasterləşdirilməsi: Klasterləşdirmə alqoritmləri sənədləri məzmununa, mövzularına və ya oxşarlığına görə avtomatik qruplaşdıra bilər. Bu, məlumat axtarışında, böyük sənəd kolleksiyalarının təşkilində kömək edir.

Classification vs Clustering

Classification və clustering machine learning-də istifadə olunan üsuldur, lakin onlar müxtəlif məqsədlərə xidmət edir və fərqli xüsusiyyətlərə malikdir:

  1. Classification supervised learning-ə aiddir, burada məqsəd daxil edilmiş məlumatlara əvvəlcədən təyin edilmiş etiketlər və ya siniflər təyin etməkdir. Model etiketli məlumatlar üzərində öyrədilir və görünməyən məlumatlar üzrə proqnozlar vermək üçün nümunələri ümumiləşdirməyi öyrənir. Clustering isə unsupervisede learning-ə aiddir, burada məqsəd əvvəlcədən təyin edilmiş etiketlər olmadan verilənlərdə xas strukturları və ya qruplaşmaları aşkar etməkdir. Alqoritm oxşar məlumat nöqtələrini qruplaşdırmaq üçün verilənlərdəki oxşarlıqları və ya nümunələri müəyyən edir.
  2. Classification alqoritmləri hər bir məlumat nöqtəsinin məlum sinif və ya etiketlə əlaqəli olduğu etiketli təlim məlumatlarını tələb edir. Model daxiletmə xüsusiyyətlərini müvafiq sinif etiketləri ilə əlaqələndirməyi öyrənir. Clustering alqoritmləri isə etiketlənməmiş verilənlərlə işləyir, burada yalnız giriş funksiyaları mövcuddur. Alqoritm, həqiqi sinif etiketləri haqqında əvvəlcədən məlumatı olmadan klasterlər yaratmaq üçün xüsusiyyət məkanında nümunələri və ya oxşarlıqları aşkar edir.
  3. Classification alqoritmi clustering ilə müqayisədə daha çətindir.

Nəticə

Mövcud problemə və məlumatların xarakterinə əsaslanaraq müvafiq texnikanı seçmək vacibdir. Məqsəd sinif etiketləri haqqında əvvəlcədən məlumatı olmadan məlumat daxilində gizli nümunələri və ya qruplaşmaları aşkar etməkdirsə, clustering üstünlük verilən seçimdir. Bununla belə, məqsəd məlum nümunələrə əsaslanan nümunələrə sinif etiketləri təyin etmək və proqnozlaşdırıcı model qurmaqdırsa, classification daha uyğundur. Həm clustering, həm də classification Data Science-da dəyərli üsullardandır. Onların fərqlərini və tətbiqlərini başa düşmək verilən tapşırıq üçün düzgün yanaşmanın seçilməsinə kömək edə bilər.

--

--