Klasifikacijos naudojimas duomenų gavyboje

Klasifikavimas yra duomenų gavybos metodas, pagal kurį kategorijos priskiriamos duomenų rinkimui, siekiant padėti tiksliau prognozuoti ir analizuoti. Taip pat vadinamas kartais vadinamas a Sprendimų medis , klasifikacija yra vienas iš kelių metodų, skirtų labai didelių duomenų rinkinių analizei atlikti.

Kodėl klasifikacija?

Labai didelės duomenų bazės šiandien tampa normomis dideli duomenys . Įsivaizduokite duomenų bazę, kurioje yra keli terabaitai duomenų - vienas terabaitas trilijonas baitų duomenys.

"Facebook" kiekvieną dieną mažina 600 terabaitų naujų duomenų (nuo 2014 m., Kai paskutinį kartą pranešė apie šias specifikacijas). Pagrindinis didžiųjų duomenų iššūkis yra tai, kaip tai suprasti.

Ir vienintelis klausimas nėra vienintelė problema: dideli duomenys taip pat yra įvairūs, nestruktūruoti ir greitai keičiasi. Apsvarstykite garso ir vaizdo duomenis, socialinės žiniasklaidos pranešimus, 3D duomenis ar geoerdvinius duomenis. Tokios rūšies duomenys nėra lengvai suskirstyti į kategorijas ir organizuojami.

Siekiant šio iššūkio, buvo sukurta daugybė automatinių naudingos informacijos gavybos metodų, tarp jų klasifikacija .

Kaip veikia klasifikacija

Pavojus pernelyg peraugti į tech-kalbą, aptarkime, kaip klasifikacija veikia. Tikslas yra sukurti klasifikavimo taisyklių rinkinį, kuris atsakys į klausimą, priims sprendimą arba prognozuos elgesį. Norėdami pradėti, sukurtas mokymo duomenų rinkinys, kuriame yra tam tikras atributų rinkinys, taip pat galimas rezultatas.

Klasifikavimo algoritmo užduotis - sužinoti, kaip šis atributų rinkinys pasiekia išvadą.

Scenarijus: Galbūt kredito kortelių kompanija bando nustatyti, kurioms perspektyvoms turėtų būti pasiūlyta kredito kortelė.

Tai gali būti jo mokymo duomenų rinkinys:

**Mokymo duomenys**

vardas	Amžius	Lytis	Metinės pajamos	Kreditinės kortelės pasiūlymas
John Doe	25	M	$39,500	Ne
Jane Doe	56	F	$125,000	Taip

"Prognozuojantys" stulpeliai Amžius , Lytis , ir Metinės pajamos nustatyti "prognozuojančio savybių" vertę Kreditinės kortelės pasiūlymas . Mokymo komplekse prognozuojamas atributas yra žinomas. Tada klasifikacijos algoritmas bando nustatyti, kaip buvo pasiektas prognozuojamo atributo vertė: kokie yra santykiai tarp prognozuojančiųjų ir sprendimo? Ji parengs prognozavimo taisyklių rinkinį, paprastai IF / THEN teiginį, pavyzdžiui:

IF (Amžius> 18 ARBA Amžius <75) IR METINĖS PAJAMOS> 40.000 TOL, "Credit Card Offer" = taip

Akivaizdu, kad tai yra paprastas pavyzdys, o algoritmui reikės kur kas didesnio duomenų atrankos, nei čia pateikti du įrašai. Be to, prognozavimo taisyklės greičiausiai bus daug sudėtingesnės, įskaitant paprogrames, skirtas užfiksuoti atributų detales.

Be to, algoritmui pateikiamas analizuojamų duomenų "prognozavimo rinkinys", tačiau šiam rinkiniui trūksta prognozavimo atributo (arba sprendimo):

**Predikatoriaus duomenys**

vardas	Amžius	Lytis	Metinės pajamos	Kreditinės kortelės pasiūlymas
Jackas Frostas	42	M	$88,000
Mary Murray	16	F	$0

Šie prognozuojami duomenys padeda apskaičiuoti prognozavimo taisyklių tikslumą ir tada taisyklės yra tinkamos, kol kūrėjas mano, kad prognozės yra veiksmingos ir naudingos.

Klasifikavimo dienos iš dienos pavyzdžiai

Klasifikavimas ir kiti duomenų gavybos būdai yra daugelio mūsų kasdienės vartotojų patirties.

Orų prognozės gali naudoti klasifikaciją, kad būtų pranešta, ar diena bus lietinga, saulėta ar debesuota. Medicinos specialistai gali analizuoti sveikatos būklę, kad prognozuotų medicininius rezultatus. Klasifikavimo metodas, Naive Bayesian, naudoja sąlyginę tikimybę suskirstyti šlamšto el. Laiškus. Nuo sukčiavimo aptikimo iki pasiūlymų dėl produktų, kiekvieną dieną klasifikavimas yra užkulisiuose, analizuojant duomenis ir pateikiant prognozes.