Шта је Баиесиан Спам филтрирање?

Баиесови филтри за спам израчунавају вероватноћу да је порука спам заснована на његовом садржају. За разлику од једноставних филтара заснованих на садржају, Баиесиан филтрирање спама сазнаје од нежељене поште и добре поште, што резултира веома робусним, прилагодљивим и ефикасним приступом против нежељене поште што, пре свега, враћа готово све лажне позитиве.

Како препознате нежељену е-пошту?

Размислите о томе како откривате нежељену пошту. Брзи поглед је често довољан. Знате како спам изгледа, а знате како изгледа добра пошта.

Вероватноћа спама која изгледа као добра пошта је око … нула.

Процена филтера заснованих на садржају се не прилагођава

Зар не би било сјајно ако су и аутоматски спам филтери радили тако?

Испробавање филтера за нежељене садржине засноване на садржају покушава управо то. Траже речи и друге карактеристике типичне за нежељену пошту. Сваком карактеристичном елементу додељује се оцена, а нежељени резултат за целу поруку израчунава се из појединачних резултата. Неки филтери за оцењивање такође траже карактеристике легитимне поште, снижавајући коначни резултат поруке.

Приступ филтрирању бодова функционише, али има и неколико недостатака:

Списак карактеристика је изграђен од нежељене поште (и добре поште) доступан инжењерима филтера. Да би се добило добро разумевање типичне нежељене поште, било ко би могао добити, пошта мора бити прикупљена на стотине адреса е-поште. Ово слаби ефикасност филтера, посебно зато што је карактеристике добре поште ће бити различите за сваку особу , али ово се не узима у обзир.
Карактеристике које треба тражити су мање или више уклесано у камену . Ако спамери покушавају да се прилагоде (и учинити да њихова нежељена пошта изгледа као добра пошта филтерима), карактеристике филтрирања морају бити ручно подешене - још већи напор.
Резултат који се додељује свакој речи вероватно се заснива на добром процени, али је и даље произвољан. Као и списак карактеристика, он се не прилагођава променљивом свету спама уопште нити индивидуалним потребама корисника.

Баиесиан Спам Филтерс Твеак Саме, Боље и боље

Баиесови филтри за нежељене поште су такође врста филтера заснованих на садржају. Њихов приступ решава проблем једноставних бодовања спам филтера, и то радикално. С обзиром да је слабост филтера за оцењивање у листи карактеристика и њихова резултата ручно изграђена, ова листа је елиминисана.

Умјесто тога, Баиесиан спам филтрирају саму листу. Идеално је да почињете са (великом) групом е-поште коју сте класификовали као нежељену пошту и још једну гомилу добре поште. Филтри гледају оба и анализирају легитимну пошту као и нежељену пошту како би израчунали вероватноћу различитих карактеристика које се појављују у нежељеној пошти, а у доброј пошти.

Како Баиесиан Спам Филтер испитује е-пошту

Карактеристике које Баиесиан филтер нежељене поште може погледати може бити:

речи у телу поруке, наравно, и
његове заглавља (пошиљаоци и поруке путева, на пример!), али такође
други аспекти као што је ХТМЛ / ЦСС код (као што су боје и друго обликовање), или чак
пар ријечи, фразе и
мета информација (где се на пример појављује одређена фраза).

Ако се реч "Картезијанац", на пример, никада не појављује у нежељеној пошти, али често у легитимном е-маилу коју добијете, вероватноћа да "Картезијанац" означава спам је близу нуле. "Тонер", с друге стране, појављује се искључиво, а често иу спаму. "Тонер" има врло велику вјероватноћу да се пронађе у нежељеној пошти, не пуно испод 1 (100%).

Када стигне нова порука, она се анализира помоћу Баиесовог спам филтера, а вероватноћа да је комплетна порука спам израчуната користећи појединачне карактеристике.

Претпоставимо да порука садржи и "Картезијски" и "тонер". Само из ових речи још није јасно да ли имамо нежељену пошту или пошту. Друге карактеристике ће (надамо се и највероватније) указати на вероватноћу која дозвољава филтеру да класификује поруку као нежељену пошту или добру пошту.

Баиесиан Спам филтери се могу аутоматски научити

Сада када имамо класификацију, порука се може користити за даље обучавање филтера. У овом случају, вероватноћа "Картезијева" која показује добру пошту је снижена (ако се открије да порука која садржи и "Картезијски" и "тонер" спам), или вероватноћа да ће "тонер" означити спам, мора се поново размотрити.

Користећи ову ауто-адаптивну технику, Баиесови филтери могу учите и од сопствених тако и од одлука корисника (ако она ручно исправи погрешне процене од стране филтера). Прилагодљивост Баиесовог филтрирања такође осигурава да су најефикаснији за појединачне кориснике е-поште. Док већина нежељених порука може имати сличне карактеристике, легитимна пошта је карактеристично различита за све.

Како могу спамери добити прошлих Баиесиан филтера?

Карактеристике легитимне поште су исто толико важне за Баиесиан процес филтрирања нежељеног поште као спам. Ако су филтери обучени посебно за сваког корисника, спамери ће имати још теже време да раде око свих (или чак већина људи) нежељених филтера, а филтри се могу прилагодити скоро свим покушајима спамера.

Спамери ће само проћи поред добро обучених Баиесових филтера ако они направе своје спам поруке савршено изгледају као обични емаил који сви могу добити.

Спамере обично не шаљу такве обичне е-поруке. Претпоставимо да је ово зато што ови е-маилови не функционишу као нежељена е-пошта.Дакле, шансе су да неће то радити када су обични, досадни е-маилови једини начин да се превазиђу спам филтери.

Међутим, ако спамери пређу на углавном обичне емаилове, међутим, поново ћемо видети нежељену пошту у нашим Инбок-и, а емаил може постати толико фрустрирајући као што је то било у пре-Баиесовим данима (или још горе). Ипак, он ће такође уништити тржиште за већину врста нежељене поште и на тај начин неће дуго трајати.

Снажни индикатори могу бити Баиесиан Спам Филтер Ацхиллес 'Хеел

Један изузетак може се примијетити за спамере да се боре путем Баиесових филтера чак и уз уобичајени садржај. У природи Баиесових статистика, једна реч или карактеристика која се веома често појављује у добром пошти може бити толико значајна да претвори било коју поруку из нежељеног нежељеног садржаја да би се филтрирао као шунка.

Ако спамери нађу начин да одреде ваше сигурне речи добре поште - користећи ХТМЛ повратне рачуне да бисте видели које поруке сте отворили, на примјер, они могу укључити један од њих у нежељену пошту и достићи вас чак и кроз добро изврсну пошту обучени Баиесов филтер.

Јохн Грахам-Цумминг је покушао тако што је допустио да две Баиесових филтера функционишу једни против других, "лош" који се прилагођава на које поруке се проналази да прођу кроз "добар" филтер. Каже да ради, иако је процес дуготрајан и сложен. Не мислимо да ћемо се у великој мјери уочити, барем не у великој мјери, а не прилагођене карактеристикама е-поште појединаца. Спамери могу (покушати) одредити неке кључне речи за организације (можда нешто попут "Алмадена" за неке људе у ИБМ-у можда)?

Обично, нежељена пошта ће се увек (значајно) разликовати од регуларне поште или неће бити спама.

Боттом Лине: Снага бајеске филтрације може бити његова слабост

Баиесови спам филтери суфилтри засновани на садржају то:

супосебно обучени да препознају нежељену пошту корисника и добру пошту, што их чини веома ефикасним и тешко прилагођава за спамере.
може континуирано и без много напора или ручне анализеприлагодити најновијим триковима спамера.
узмите добру пошту појединог корисника у обзир и имајте јако пунониска стопа лажних позитива.
Нажалост, ако ово изазива слијепо повјерење у Баиесиан анти-спам филтере, то чиниповремена грешка још озбиљнија. Супротан ефекатлажни негативи (спам који изгледа баш као редовна пошта) има потенцијал да узнемирава и фрустрира кориснике.