Skip to main content

Дата мининг са кластерима К-Меанс

Anonim

Тхе к- значи алгоритам кластера је алат за мерење података и алат за машинско учење који се користи за груписање посматрања у групе сродних посматрања без икаквог претходног знања о тим односима. Узимајући узорак, алгоритам покушава да прикаже у којој категорији или групи припадају подаци, при чему је број кластера дефинисан вриједношћу к.

Тхе к- значи алгоритам је једна од најједноставнијих техника кластерирања и најчешће се користи у медицинским сликама, биометрији и сродним пољима. Предност к- значи груписање је то што говори о вашим подацима (користећи ненадзоровани облик), уместо да морате да инструктирате алгоритам о подацима на почетку (користећи надгледани облик алгоритма).

Понекад се назива Ллоидов алгоритам, посебно у круговима рачунарских наука, јер је стандардни алгоритам први пут предложио Стуарт Ллоид 1957. године. Термин "к-средства" је сковао 1967. године Јамес МцКуеен.

Како функција К-Меанс алгоритма

Тхе к- значи алгоритам је еволуциони алгоритам који добива своје име из свог начина рада. Алгоритам разматра запажања к групе, где к је обезбеђен као улазни параметар. Затим се свако посматрање додељује кластерима на основу близине посматрања са средином кластера. Средина кластера се поново процењује и процес почиње поново. Ево како функционише алгоритам:

  1. Алгоритам произвољно бира к тачке као почетни центри кластера (средства).
  2. Свака тачка у скупу података додељује се затвореној групи, на основу евклидског растојања између сваке тачке и сваког центра кластера.
  3. Сваки центри кластера се поново израчунавају као просек поена у том кластеру.
  4. Кораци 2 и 3 понављају све док кластери не конвергирају. Конвергенција се може дефинисати различито у зависности од имплементације, али уобичајено значи да или без опсервација не мењају кластере када се понову кораци 2 и 3 или да промене не дају значајну разлику у дефиницији кластера.

Избор броја кластера

Једна од главних недостатака к- значи груписање је чињеница да морате навести број кластера као улаз у алгоритам. Као што је дизајнирано, алгоритам није способан да одреди одговарајући број кластера и зависи од тога да ли корисник то унапред идентификује.

На пример, ако сте имали групу људи који ће бити груписани на основу бинарног родног идентитета као мушки или женски, позивајући к- значи алгоритам који користи улаз к = 3 људи би присилили на три кластера када би били само два, или улаз к = 2, обезбедиће природније прилагођавање.

Слично томе, ако је група људи лако груписана на основу матичне државе и ви сте позвали к- значи алгоритам са улазом к = 20, резултати су можда превише генерализовани да би били ефикасни.

Из тог разлога, често је добра идеја да експериментишете са различитим вредностима к да идентификујете вредност која највише одговара вашим подацима. Такође можете желети да истражите употребу других алгоритама за анализу података у потрази за наученим знањем.