Duomenų gavyba naudojant K-priemonių klasterizavimą

The k- klasterizavimo algoritmas yra duomenų gavybos ir mašininio mokymosi priemonė, naudojama stebėjimams susieti su susijusių stebėjimų grupėmis be išankstinių žinių apie šiuos ryšius. Atrankos būdu algoritmas bando parodyti, kokioje kategorijoje ar klasteryje priklauso duomenys, o klasterių skaičius apibrėžiamas pagal vertę k.

The k- reiškia algoritmą, kuris yra vienas iš paprasčiausių klasterizavimo būdų ir dažniausiai naudojamas medicininiuose vaizduose, biometrinėse ir susijusiose srityse. Privalumai k- reiškia, kad grupavimas yra tas, kad jis pasakoja apie jūsų duomenis (naudodamas neapsaugotą formą), o ne apie algoritmo nurodymą apie pradžioje esančius duomenis (naudodamas prižiūrimą algoritmo formą).

Jis kartais vadinamas Lloyd'o algoritmu, ypač kompiuterių mokslo ratuose, nes standartinį algoritmą pirmą kartą pasiūlė Stuartas Lloydas 1957 metais. Terminas "k-means" 1967 m. Buvo sukurtas James McQueen.

Kaip veikia "K-Mean Algorithm" funkcijos

The k- reiškia algoritmas yra evoliucinis algoritmas, kuris įgijo savo pavadinimą iš savo veiklos metodo. Algoritmas kaupia pastebėjimus į k grupės, kur k pateikiamas kaip įvesties parametras. Tada kiekvienas stebėjimas priskiriamas grupėms, remiantis stebėjimo arti klasterio vidurkio. Klasterio reikšmė yra pakartotinai apskaičiuojama, o procesas prasideda dar kartą. Štai kaip veikia algoritmas:

Algoritmas savavališkai pasirenkamas k nurodo kaip pradinius klasterio centrus (priemones).
Kiekvienas duomenų rinkinio taškas priskiriamas uždarai grupei, pagrįsta Euklido atstumu tarp kiekvieno taško ir kiekvieno grupių centro.
Kiekvienas klasterio centras yra pakartotinai apskaičiuojamas kaip taškų vidurkis toje grupėje.
2 ir 3 veiksmai pakartokite, kol suskirstys grupes. Konvergencija gali būti apibrėžta skirtingai, priklausomai nuo įgyvendinimo, tačiau paprastai tai reiškia, kad pastabos nepakeičia grupių, kai pakartojami 2 ir 3 žingsniai, arba kad pakeitimai nesudaro reikšmingo skirtumo klasterių apibrėžime.

Klasterių skaičiaus pasirinkimas

Vienas iš pagrindinių trūkumų k- reiškia, kad grupavimas yra tai, kad jūs turite nurodyti klasterių skaičių kaip algoritmo įvestį. Kaip suprojektuotas, algoritmas negali nustatyti tinkamo skaičiaus grupių ir priklauso nuo to, kaip vartotojas jį iš anksto nustato.

Pavyzdžiui, jei turėjote grupę žmonių, kurie turi būti grupuojami remiantis binarine lyties tapatybe kaip vyrais ar moterimis, paskambinkite k- reiškia algoritmą, naudojantį įvestį k = 3 privers žmones į tris klasterius, kai tik du, arba įnašą k = 2, būtų natūraliau.

Panašiai, jei grupė asmenų buvo lengvai suskirstyta pagal buveinės valstybę ir jūs paskambinę k- reiškia algoritmą su įvestu k = 20, rezultatai gali būti per daug apibendrinti, kad jie būtų veiksmingi.

Dėl šios priežasties dažnai yra gera idėja eksperimentuoti su skirtingomis reikšmėmis k nustatyti geriausiai jūsų duomenims tinkamą vertę. Jūs taip pat galbūt norėsite ištirti kitų duomenų paieškos algoritmų naudojimą ieškant žiniatinklyje žinomų mašinų.