Data Visualization Part 1(types of plots in matplotlib)

Nazrin
4 min readJul 7, 2021

--

Data vizuallaşdırması data analizinin çox vacib bir hissəsidir.Dataları daha yaxşı başa düşmək və bəzi nəticələr çıxartmaq üçün vizualizasiyadan istifadə edirik.Həmçinin vizuallaşdırmadan istifadə edib fikirlərimizi digər insanlarlada rahat bölüşə bilərik.

Bu məqalədə vizualizasiya qrafiklərinin növlərindən bəhs edəcəyik.(coding hissəsi üçün linkə keçid edə bilərsiz).

Qrafiklərin növlərinə keçməzdən əvvəl bir neçə nüansı qeyd edək.

  1. İlk addım uyğun qrafik növünü seçməkdir. Müxtəlif seçimlər varsa, onları müqayisə edib,modelimizə ən uyğun olanı seçməliyik.
  2. Qrafik növünü seçdiyimiz zaman ən vacib nüanslardən biri koordinat oxlara ad verməkdir. Əgər bunu etməsək,vizuallaşdırmamız kifayət qədər məlumatlı olmayacaq.
  3. Qrafikimizi daha məlumatlı etmək üçün bir başlıq əlavə edə bilərik.
  4. Vizuallaşdırmanın daha göz oxşayan olması üçün müxtəlif rənglərdən istifadə edə bilərik.

Vizuallaşdırmanın bir çox növü var.Ən məşhurlarından bəziləri bunlardır: line plot, scatter plot, histogram, boxplot, bar chart,pie chart və s. Bəs bu qədər seçim arasında doğru vizuallaşdırmanı necə seçə bilərik? Əvvəlcə bir az “exploratory data analysis” aparmalıyıq. Dataların ölçüsünü,tipini və bəzi statistik məlumatları bildikdən sonra doğru vizual tipini seçmək asan olacaq.

Line plot-Dataları düz xətt seqmentləri ilə birləşdirən qrafik növüdür.Daha çox dəyişənlərin zaman keçdikcə necə dəyişdiyini göstərmək üçün istifadə olunur.Line plots scatter plot-a bənzəyir ,lakin düz xətt seqmentlərlə birləşdirilməsi və nöqtələrin sıralanması ilə fərqlənir.

Scatter plot-iki fərqli ədədi dəyişənin dəyərlərini göstərmək üçün nöqtələrdən istifadə edir.Bu tip qrafikdə nöqtələr xətlər ilə əlaqələndirilmir.Hər bir nöqtənin x və y oxlarında dəyərləri var.Scatter plot Data Science-də 2 dəyişənin necə müqayisə olunduğunu göstərmək üçün istifadə olunur.

Həmçinin scatter plot trends (meyil) və ya correlation-u göstərmək üçün istifadə edilir.

Histogram -ədədi məlumatların paylanmasını göstərmək üçün istifadə olunur. Bir histoqram yaratmaq üçün əvvəlcə bütün dəyərlər aralığını bir sıra aralıqlara bölürük, ikincisi, hər araya neçə dəyər düşdüyünü hesablayırıq. Bu aralıqlara “bins” deyilir. Bin-lər bitişik olmalı və əksər hallarda bərabər ölçüdə olmalıdırlar.Bin-lərin ölçüsü nə çox böyük nə də çox kiçik olmamalıdır.Histoqram vasitəsi ilə datanın hansı distributionda olmasını,outlier-ləri və skewness tapmaq olur.

Boxplot- Datasetin minimum,birinci quartile(Q1),median,üçüncü quartile(Q3) və maximum statistik göstəricilərinin vizual təqdimatıdır.Boxplotdan istifadə edərək biz outlier-lərin mövcudluğunu və dəyərlərini,datanın simmetrik olub olmadığını,nə qədər sıx qruplaşdırıldığını müəyyənləşdirə bilərik.

Barchart-kateqorik dəyişənləri ümumiləşdirmək üçün istifadə olunur.Barchart hər bir kateqorik dəyişəni vizuallaşdırmaq üçün bar-lardan istifadə edir.Əgər birdən çox kateqoriya varsa,onları rənglər ilə fərqləndirmək olar.

Piechart-Ədədi nisbəti göstərmək üçün hissələrə ayrılmış qrafik növüdür.Qualitative(keyfiyyət) datalara tətbiq olunur.Hər bir hissəsinin ölçüsü müvafiq kateqoriyadakı data dəyərlərinin sayı ilə mütənasibdir.Qrafikin ümumi dəyəri həmişə 100% olur.

Area chart-Area chart line plot-a bənzəyir və ədədi dəyişənlərin bir aralıq və ya bir müddət ərzində necə dəyişdiyini vizuallaşdırmaq üçün istifadə olunur.Data nöqtələri düz xətt seqmentləri ilə birləşdirilir və x oxu ilə xətt arasındakı sahə rəng ilə doldurulur.

Bubble chart-iki ölçülü qrafikdə birdən çox dairəni (bubbles) əks etdirən vizuallaşdırma növüdür.Bu qrafikdə hər bir data dairə ilə göstərilir.Qrafiki qurmaq üçün ən az 3 dəyişən tələb olunur.Onlardan biri dairənin ölçüsü digər ikisi isə dairənin üfüqi və şaquli mövqelərinin dəyərlərini göstərir.

Violin Plot-Violin plot bir və ya bir neçə qrup üçün ədədi dəyişənin paylanmasını əyani şəkildə göstərməyə imkan verir. Hər ‘violin’ bir qrupu və ya dəyişəni təmsil edir.Violin plotda barplot-dakı məlumatları tapa bilərik(minimum,birinci quartile(Q1),median,üçüncü quartile(Q3) və maximum).Boxplot-dan fərqi odur ki,datanın paylanmasını da göstərir.

Bu məqalənin ikinci hissəsində seaborn kitabxanasında olan plot-lar haqqında məlumat veriləcək.Məqaləni oxuduğunuz üçün təşəkkürlər!!

Github Link:https://github.com/nazrnrn/Visualization/blob/main/Visualization.ipynb

--

--