Ali je za kategorizacijo besedilnih podatkov mogoče uporabiti k-sredstva?

Kazalo:

Ali je za kategorizacijo besedilnih podatkov mogoče uporabiti k-sredstva?
Ali je za kategorizacijo besedilnih podatkov mogoče uporabiti k-sredstva?

Video: Ali je za kategorizacijo besedilnih podatkov mogoče uporabiti k-sredstva?

Video: Ali je za kategorizacijo besedilnih podatkov mogoče uporabiti k-sredstva?
Video: Clustering with Bert Embeddings 2024, November
Anonim

K-means je klasični algoritem za združevanje podatkov v grozde pri rudarjenju besedil, vendar se redko uporablja za izbiro funkcij. … Uporabljamo metodo k-means, da zajamemo več centrov grozdov za vsak razred, nato pa izberemo visokofrekvenčne besede v središčih kot besedilne funkcije za kategorizacijo.

Ali k-means deluje s kategoričnimi podatki?

Algoritem k-Means se ne uporablja za kategorične podatke, saj so kategorične spremenljivke diskretne in nimajo naravnega izvora. Torej računanje evklidske razdalje za prostor, kot je prostor, ni smiselno.

Ali se lahko k-sredstva uporabijo za združevanje besedil?

K-means združevanje je vrsta metode nenadzorovanega učenja, ki se uporablja, kadar nimamo označenih podatkov, saj imamo v našem primeru neoznačene podatke (pomeni, brez opredeljenih kategorij ali skupin). Cilj tega algoritma je najti skupine v podatkih, medtem ko št. skupin je predstavljena s spremenljivko K.

Ali lahko uporabimo k-srednje za razvrstitev?

KMeans je algoritem za združevanje v gruče, ki deli opazovanja v k grozdov. Ker lahko narekujemo količino grozdov, jo lahko enostavno uporabimo pri klasifikaciji, kjer podatke delimo na grozde, ki so lahko enaki ali večji od števila razredov.

Kateri algoritem združevanja je najboljši za besedilne podatke?

za združevanje besedilnih vektorjev lahko uporabite hierarhične algoritme združevanja v gruče, kot je HDBSCAN, ki upošteva tudi gostoto. v HDBSCAN vam ni treba dodeliti števila grozdov kot pri k-srednjih in je bolj robustna predvsem pri hrupnih podatkih.

Priporočena: