Klasifikavimas yra duomenų gavybos metodas, pagal kurį kategorijos priskiriamos duomenų rinkimui, siekiant padėti tiksliau prognozuoti ir analizuoti. Taip pat vadinamas kartais vadinamas a Sprendimų medis , klasifikacija yra vienas iš kelių metodų, skirtų labai didelių duomenų rinkinių analizei atlikti.
Kodėl klasifikacija?
Labai didelės duomenų bazės šiandien tampa normomis dideli duomenys . Įsivaizduokite duomenų bazę, kurioje yra keli terabaitai duomenų - vienas terabaitas trilijonas baitų duomenys.
"Facebook" kiekvieną dieną mažina 600 terabaitų naujų duomenų (nuo 2014 m., Kai paskutinį kartą pranešė apie šias specifikacijas). Pagrindinis didžiųjų duomenų iššūkis yra tai, kaip tai suprasti.
Ir vienintelis klausimas nėra vienintelė problema: dideli duomenys taip pat yra įvairūs, nestruktūruoti ir greitai keičiasi. Apsvarstykite garso ir vaizdo duomenis, socialinės žiniasklaidos pranešimus, 3D duomenis ar geoerdvinius duomenis. Tokios rūšies duomenys nėra lengvai suskirstyti į kategorijas ir organizuojami.
Siekiant šio iššūkio, buvo sukurta daugybė automatinių naudingos informacijos gavybos metodų, tarp jų klasifikacija .
Kaip veikia klasifikacija
Pavojus pernelyg peraugti į tech-kalbą, aptarkime, kaip klasifikacija veikia. Tikslas yra sukurti klasifikavimo taisyklių rinkinį, kuris atsakys į klausimą, priims sprendimą arba prognozuos elgesį. Norėdami pradėti, sukurtas mokymo duomenų rinkinys, kuriame yra tam tikras atributų rinkinys, taip pat galimas rezultatas.
Klasifikavimo algoritmo užduotis - sužinoti, kaip šis atributų rinkinys pasiekia išvadą.
Scenarijus: Galbūt kredito kortelių kompanija bando nustatyti, kurioms perspektyvoms turėtų būti pasiūlyta kredito kortelė.
Tai gali būti jo mokymo duomenų rinkinys:
vardas | Amžius | Lytis | Metinės pajamos | Kreditinės kortelės pasiūlymas |
---|---|---|---|---|
John Doe | 25 | M | $39,500 | Ne |
Jane Doe | 56 | F | $125,000 | Taip |
"Prognozuojantys" stulpeliai Amžius , Lytis , ir Metinės pajamos nustatyti "prognozuojančio savybių" vertę Kreditinės kortelės pasiūlymas . Mokymo komplekse prognozuojamas atributas yra žinomas. Tada klasifikacijos algoritmas bando nustatyti, kaip buvo pasiektas prognozuojamo atributo vertė: kokie yra santykiai tarp prognozuojančiųjų ir sprendimo? Ji parengs prognozavimo taisyklių rinkinį, paprastai IF / THEN teiginį, pavyzdžiui:
IF (Amžius> 18 ARBA Amžius <75) IR METINĖS PAJAMOS> 40.000 TOL, "Credit Card Offer" = taip
Akivaizdu, kad tai yra paprastas pavyzdys, o algoritmui reikės kur kas didesnio duomenų atrankos, nei čia pateikti du įrašai. Be to, prognozavimo taisyklės greičiausiai bus daug sudėtingesnės, įskaitant paprogrames, skirtas užfiksuoti atributų detales.
Be to, algoritmui pateikiamas analizuojamų duomenų "prognozavimo rinkinys", tačiau šiam rinkiniui trūksta prognozavimo atributo (arba sprendimo):
vardas | Amžius | Lytis | Metinės pajamos | Kreditinės kortelės pasiūlymas |
---|---|---|---|---|
Jackas Frostas | 42 | M | $88,000 | |
Mary Murray | 16 | F | $0 |
Šie prognozuojami duomenys padeda apskaičiuoti prognozavimo taisyklių tikslumą ir tada taisyklės yra tinkamos, kol kūrėjas mano, kad prognozės yra veiksmingos ir naudingos.
Klasifikavimo dienos iš dienos pavyzdžiai
Klasifikavimas ir kiti duomenų gavybos būdai yra daugelio mūsų kasdienės vartotojų patirties.
Orų prognozės gali naudoti klasifikaciją, kad būtų pranešta, ar diena bus lietinga, saulėta ar debesuota. Medicinos specialistai gali analizuoti sveikatos būklę, kad prognozuotų medicininius rezultatus. Klasifikavimo metodas, Naive Bayesian, naudoja sąlyginę tikimybę suskirstyti šlamšto el. Laiškus. Nuo sukčiavimo aptikimo iki pasiūlymų dėl produktų, kiekvieną dieną klasifikavimas yra užkulisiuose, analizuojant duomenis ir pateikiant prognozes.