Skip to main content

Употреба класификације у рударству података

Anonim

Класификација је техника руковања подацима која додјељује категорије збирци података како би помогла у прецизнијим предвиђањима и анализама. Такође се зове понекад звани а Древо одлуке , класификација је један од неколико метода са циљем да се анализира веома велики скуп података.

Зашто класификација?

Веома велике базе података постају норма у данашњем свету Велики података . Замислите базу података са више терабајта података - терабајт је један трилион бајтова података.

Фацебоок сакрива 600 терабајта нових података сваког дана (од 2014. године, последњи пут када је пријавио ове спецификације). Главни изазов великих података је како то осмислити.

И обим волумена није једини проблем: велики подаци такође имају тенденцију да буду разноврсни, неструктурирани и брзи. Размотрите аудио и видео податке, постове друштвених медија, 3Д податке или геопросторне податке. Ова врста података није лако категоризирана или организована.

Да би се задовољио овај изазов, развијен је низ аутоматских метода за изношење корисних информација, међу њима класификација .

Како функционише класификација

Због опасности од превеликог преласка у технолошки говор, рецимо, како функционира класификација. Циљ је креирање скупа правила класификације која ће одговорити на питање, донијети одлуку или предвидјети понашање. За почетак, развијен је скуп података о обуци који садржи одређени скуп атрибута, као и вјероватни исход.

Посао алгоритма класификације је да открије како тај скуп атрибута достиже свој закључак.

Сценарио: Можда компанија за кредитне картице покушава да одреди које перспективе треба да добију понуду за кредитне картице.

Ово може бити његов сет података о обуци:

Подаци о обуци
ИмеСтаростПолГодишњи приходПонуда кредитне картице
Н.Н. лице25М$39,500Не
Јане Дое56Ф$125,000да

Цолумнс "предиктор" Старост , Пол , и Годишњи приход одредити вредност "атрибута предиктора" Понуда кредитне картице . У скупу тренинга, атрибут предиктора је познат. Алгоритам класификације потом покушава да одреди како је достигнута вредност атрибута предиктора: какве везе постоје између предиктора и одлуке? Он ће развити скуп правила предвиђања, обично ИФ / ТХЕН изјаве, на пример:

ИФ (старост> 18 година старости <75) И годишњи приход> 40,000 ТХЕН Понудба кредитне картице = да

Очигледно је да је ово једноставан пример, и алгоритму би било потребно далеко веће узорковање података од ова два записа приказана овде. Даље, правила предвиђања ће вероватно бити много сложенија, укључујући и под-правила за хватање детаља атрибута.

Затим, алгоритам даје "сет предвиђања" података за анализу, али овом сету недостаје атрибут предикције (или одлука):

Предикторни подаци
ИмеСтаростПолГодишњи приходПонуда кредитне картице
Деда Мраз42М$88,000
Мари Мурраи16Ф$0

Подаци о предикаторима помажу у процени тачности правила предвиђања, а правила се твеакују док програмер не сматра да су предвиђања ефикасна и корисна.

Данашњи примјери класификације

Класификација и друге технике руковања подацима стоје иза великог дела нашег свакодневног искуства као потрошачи.

Временске прогнозе могу користити класификацију како би пријавиле да ли ће дан бити кишовито, сунчано или облачно. Медицинска професија може анализирати здравствене услове да предвиде медицинске исходе. Тип методе класификације, Наиве Баиесиан, користи условну вероватноћу да категоризира спам е-пошту. Од откривања превара до понуда производа, класификација се стално иза сваке сцене анализира податке и производи предвиђања.