Bayeso šlamšto filtrai apskaičiuoja tikimybę, kad pranešimas yra šlamštas pagal jo turinį. Skirtingai nuo paprastų turinio pagrindu veikiančių filtrų, "Bayesian" šlamšto filtravimas mokosi iš šlamšto ir gero el. Pašto, todėl labai tvirtas, pritaikomas ir veiksmingas anti-spam metodas, kuris, geriausia, grąžina beveik visus klaidingus teigiamus rezultatus.
Kaip jūs atpažįsite nepageidaujamą el. Paštą?
Pagalvokite, kaip aptikote šlamštą. Greitas žvilgsnis dažnai yra pakankamas. Jūs žinote, kokie šlamštai atrodo, ir jūs žinote, koks atrodo geras paštas.
Šlamšto, kuris, atrodo, kaip geras paštas, tikimybė yra apie … nulį.
Taikant turinio pagrindu veikiančius filtrus nereikia prisitaikyti
Ar nebūtų puiku, jei automatiniai šlamšto filtrai taip pat veiktų?
Turinio pagrįstų šlamšto filtracijų vertinimas bando tai padaryti. Jie ieško žodžių ir kitų savybių, būdingų šlamštui. Kiekvienam charakteringam elementui priskiriamas rezultatas, o visos žinutės "spam" balas skaičiuojamas pagal atskirus balus. Kai kurie taškų filtrai taip pat ieškojo teisėtų laiškų charakteristikų, sumažindami pranešimo galutinį balą.
Taškinių filtrų metodas veikia, tačiau jis turi ir keletą trūkumų:
- Rodiklių sąrašas pagamintas iš šlamšto (ir gero pašto), prieinamo filtro inžinieriams. Norint gauti gerą supratimą apie tipišką šlamštą, kurį gali gauti visi, paštą reikia surinkti šimtuose el. Pašto adresų. Tai silpnina filtrų efektyvumą, ypač todėl, kad gero pašto savybės bus skirtingos kiekvienam asmeniui , tačiau į tai neatsižvelgiama.
- Savybės ieškoti yra daugiau ar mažiau nustatyti akmeniu . Jei nepageidaujamo e. Pašto platintojai deda pastangas prisitaikyti (ir kad jų šlamštas atrodytų kaip geras paštas į filtrus), filtravimo charakteristikos turi būti nustatytos rankiniu būdu, dar didesnės pastangos.
- Kiekvienam žodžiui priskiriamas įvertinimas tikriausiai pagrįstas geru įvertinimu, bet jis vis dar yra savavališkas. Ir kaip charakteristikų sąrašas, jis neatspindi nei besikeičiančiam šlamšto pasauliui apskritai, nei individualiems naudotojo poreikiams.
Bajeso šlamšto filtrai Tweak save, geriau ir geriau
Bajeso šlamšto filtrai taip pat yra taškų turinio pagrindu veikiantys filtrai. Tačiau jų požiūris pašalina paprastų taškų spam filtrų problemas, ir tai daro tai radikaliai. Kadangi taškų filtrų silpnumas yra rankiniu būdu sudarytu charakteristikų sąrašu ir jų balais, šis sąrašas pašalinamas.
Vietoj to, Bayeso šlamšto filtrai sukuria sąrašą patys. Idealiu atveju jūs pradedate nuo (didelės) el. Laiškų, kuriuos priskyrėte kaip šlamštą, ir dar vieną gero el. Pašto adresą. Filtrai žiūri į abu ir analizuoja teisėtą paštą, taip pat šlamštą, kad apskaičiuotų įvairių savybių, kurios atsiranda šlamštuose, ir geros žinutės tikimybę.
Kaip "Bayesian" šlamšto filtras tikrina el. Laišką
Savybės, kurias gali pažvelgti Bayesio šlamšto filtras, gali būti:
- žinoma, žodžio tekste, žinoma, ir
- jo antraštės (siuntėjai ir pranešimų keliai, pavyzdžiui!), bet taip pat
- kiti aspektai, pvz., HTML / CSS kodas (pvz., spalvos ir kitas formatavimas) ar net
- žodžių poros, frazės ir
- meta informacija (pavyzdžiui, kai pasirodo tam tikra frazė).
Pavyzdžiui, jei žodis "Cartesian" niekada nebūna šlamštas, bet dažnai teisėtame el. Laiške, kurį jūs gaunate, tikimybė, kad "dekartinis" reiškia šlamštą, yra beveik lygi nuliui. Kita vertus, "Toner" pasirodo išskirtinai ir dažnai šlamštuose. "Tonerio" yra labai didelė tikimybė, kad jis randamas šlamštuose, o ne daug mažesnis nei 1 (100%).
Kai gaunamas naujas pranešimas, jis yra analizuojamas naudojant "Bayesian" šlamšto filtrą, o tikimybė, kad visas pranešimas bus šlamštas, apskaičiuojamas pagal atskiras savybes.
Tarkime, kad žinutėje yra ir "Dekarto", ir "Tonerio". Tik iš šių žodžių dar neaišku, ar mes turime šlamštą ar teisėtą el. Laišką. Kitos savybės (tikiuosi ir greičiausiai) nurodo tikimybę, leidžiančią filtrui priskirti pranešimą kaip šlamštą ar gerą paštą.
Bayesian šlamšto filtrai gali mokytis automatiškai
Dabar, kai mes turime klasifikaciją, žinutė gali būti naudojama filtrui tobulinti toliau. Tokiu atveju sumažėja "Dekarto", kuris nurodo gerą paštą, tikimybė (jei žinutė, kurioje yra tiek "Dekarto", tiek "Tonerio", yra šlamštas), arba turi būti persvarstyta "šiukšlių" tikimybė, rodanti šlamštą.
Naudodami šią savaiminio pritaikymo techniką, gali būti naudojami Bajeso filtrai mokytis iš savo ir vartotojo sprendimų (jei ji rankiniu būdu ištaiso neteisingus filtrais). Bajeso filtravimo pritaikomumas taip pat užtikrina, kad jie būtų efektyviausi individualiam el. Pašto vartotojui. Nors dauguma žmonių šlamštas gali turėti panašių savybių, teisėtas paštas visiems būdingai skiriasi.
Kaip spuogai gali gauti ankstesnius bajzezo filtrus?
Teisėto pašto savybės yra tokios pat svarbios, kaip ir "spam" filtravimo procesas "Bayesian". Jei filtrai yra specialiai apmokyti kiekvienam vartotojui, nepageidaujamo e. Pašto platintojai bus dar sunkiau dirbti su visais (arba netgi dauguma žmonių) šlamšto filtrais, o filtrai gali prisitaikyti prie beveik visko, ką imasi šlamšto siuntėjai.
"Spuogai" atliks tik gerai parengtus "Bayesian" filtrus, jei jie padarys, kad jų šlamšto žinutės puikiai atrodytų kaip įprastas el. Laiškas, kurį gali gauti visi.
"Spameriai" paprastai siunčia tokius įprastus el. Laiškus. Tarkime, tai yra todėl, kad šie el. Laiškai neveikia kaip šlamštas.Taigi, yra tikimybė, kad jie nebus tai daryti, kai įprasti, nuobodūs el. Laiškai yra vienintelis būdas tai padaryti praeityje spam filtrus.
Jei šlamšto siuntėjai perjungia dažniausiai įprastai atrodančius el. Laiškus, vėl matome daugybę nepageidaujamų laiškų į savo "Inboxes", o el. Laiškas gali tapti toks pat nelinksmis, koks buvo prieš bajezės dienas (ar dar blogiau). Tačiau tai taip pat sugriauti daugelio rūšių šlamštą, taigi ir taip ilgai tęsis.
Stiprūs rodikliai gali būti "Bajeso šlamšto filtro" Achilo kulnas
Viena išimtis gali būti laikoma, kad nepageidaujamo e. Pašto platintojai, norėdami dirbti per "Bayesian" filtrus, netgi naudoja įprastą turinį. Bajeso statistikos pobūdis rodo, kad vienas žodis ar charakteristika, labai dažnai pateikiami geru paštu, gali būti tokie reikšmingi, kad bet koks pranešimas, atrodantis kaip šlamštas, būtų filtruojamas kaip kumpis.
Jei šlamšto siuntėjai randa būdą, kaip nustatyti jūsų patikimus el. Laiškus, naudodami HTML gautus įplaukus, kad pamatytumėte, kuriuos jūsų atidarytus pranešimus galite įtraukti į vieną iš nepageidaujamų laiškų ir pasiekti jus net per gerai žinomą el. apmokytas Bajeso filtras.
Johnas Grahamas-Cummingas bandė tai padaryti, nes du "Bayesian" filtrai dirbo vienas prieš kitą, "blogai" pritaikydami pranešimus, kurie pasirodė per "gerą" filtrą. Jis sako, kad tai veikia, nors procesas yra daug laiko ir sudėtingas. Nemanome, kad pamatysime daug to, kas vyksta, bent jau ne dėl didelio masto, o ne pritaikyti prie individualių el. Pašto charakteristikų. "Spameriai" gali (pabandyti) išsiaiškinti kai kuriuos organizacijų raktinius žodžius (pvz., "Almaden", kai kuriems žmonėms galbūt "IBM"?).
Paprastai šlamštas visada bus (gerokai) kitoks nei įprastas paštas, tačiau jis nebus šlamštas.
Bottom Line: Bajeso filtravimo stiprumas gali būti jo silpnumas
Bayeso šlamšto filtrai yraturinio filtrai kad:
- yraspecialiai apmokyti atpažinti atskirus el. pašto naudotojų šlamštus ir gerą paštą, todėl jie labai veiksmingi ir sunkiai prisitaikyti prie nepageidaujamo e. pašto platintojų.
- gali nuolat ir be daug pastangų ar rankiniu būdu analizuotiprisitaikyti prie naujausių "spamerių" gudrybių.
- Paimkite individualaus vartotojo gerą el. laišką ir turėkite labaimažas klaidingų teigiamų rezultatų lygis.
- Deja, jei tai sukelia aklą pasitikėjimą "Bayesian" anti-spam filtrais, tai daroretkarčiais padaryta klaida dar rimtesnė. Priešingas poveikisklaidingi negatyvai (šlamštas, kuris atrodo lygiai taip, kaip ir įprastas paštas) gali pakenkti naudotojams.