聚類java代碼 java聚合類

大數(shù)據(jù)分析之聚類算法

公司主營(yíng)業(yè)務(wù)：成都做網(wǎng)站、網(wǎng)站設(shè)計(jì)、移動(dòng)網(wǎng)站開發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。成都創(chuàng)新互聯(lián)公司是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來驚喜。成都創(chuàng)新互聯(lián)公司推出察哈爾右翼中旗免費(fèi)做網(wǎng)站回饋大家。

1. 什么是聚類算法

所謂聚類，就是比如給定一些元素或者對(duì)象，分散存儲(chǔ)在數(shù)據(jù)庫(kù)中，然后根據(jù)我們感興趣的對(duì)象屬性，對(duì)其進(jìn)行聚集，同類的對(duì)象之間相似度高，不同類之間差異較大。最大特點(diǎn)就是事先不確定類別。

這其中最經(jīng)典的算法就是KMeans算法，這是最常用的聚類算法，主要思想是:在給定K值和K個(gè)初始類簇中心點(diǎn)的情況下，把每個(gè)點(diǎn)(亦即數(shù)據(jù)記錄)分到離其最近的類簇中心點(diǎn)所代表的類簇中，所有點(diǎn)分配完畢之后，根據(jù)一個(gè)類簇內(nèi)的所有點(diǎn)重新計(jì)算該類簇的中心點(diǎn)(取平均值)，然后再迭代的進(jìn)行分配點(diǎn)和更新類簇中心點(diǎn)的步驟，直至類簇中心點(diǎn)的變化很小，或者達(dá)到指定的迭代次數(shù)。

KMeans算法本身思想比較簡(jiǎn)單，但是合理的確定K值和K個(gè)初始類簇中心點(diǎn)對(duì)于聚類效果的好壞有很大的影響。

聚類算法實(shí)現(xiàn)

假設(shè)對(duì)象集合為D，準(zhǔn)備劃分為k個(gè)簇。

基本算法步驟如下：

1、從D中隨機(jī)取k個(gè)元素，作為k個(gè)簇的各自的中心。

2、分別計(jì)算剩下的元素到k個(gè)簇中心的相異度，將這些元素分別劃歸到相異度最低的簇。

3、根據(jù)聚類結(jié)果，重新計(jì)算k個(gè)簇各自的中心，計(jì)算方法是取簇中所有元素各自維度的算術(shù)平均數(shù)。

4、將D中全部元素按照新的中心重新聚類。

5、重復(fù)第4步，直到聚類結(jié)果不再變化。

6、將結(jié)果輸出。

核心Java代碼如下：

/**

* 迭代計(jì)算每個(gè)點(diǎn)到各個(gè)中心點(diǎn)的距離，選擇最小距離將該點(diǎn)劃入到合適的分組聚類中，反復(fù)進(jìn)行，直到

* 分組不再變化或者各個(gè)中心點(diǎn)不再變化為止。

* @return

public List[] comput() {

List[] results = new ArrayList[k];//為k個(gè)分組，分別定義一個(gè)聚簇集合，未來放入元素。

boolean centerchange = true;//該變量存儲(chǔ)中心點(diǎn)是否發(fā)生變化

while (centerchange) {

iterCount++;//存儲(chǔ)迭代次數(shù)

centerchange = false;

for (int i = 0; i k; i++) {

results[i] = new ArrayListT();

}

for (int i = 0; i players.size(); i++) {

T p = players.get(i);

double[] dists = new double[k];

for (int j = 0; j initPlayers.size(); j++) {

T initP = initPlayers.get(j);

/* 計(jì)算距離這里采用的公式是兩個(gè)對(duì)象相關(guān)屬性的平方和，最后求開方*/

double dist = distance(initP, p);

dists[j] = dist;

}

int dist_index = computOrder(dists);//計(jì)算該點(diǎn)到各個(gè)質(zhì)心的距離的最小值，獲得下標(biāo)

results[dist_index].add(p);//劃分到對(duì)應(yīng)的分組。

}

* 將點(diǎn)聚類之后，重新尋找每個(gè)簇的新的中心點(diǎn)，根據(jù)每個(gè)點(diǎn)的關(guān)注屬性的平均值確立新的質(zhì)心。

for (int i = 0; i k; i++) {

T player_new = findNewCenter(results[i]);

System.out.println("第"+iterCount+"次迭代，中心點(diǎn)是："+player_new.toString());

T player_old = initPlayers.get(i);

if (!IsPlayerEqual(player_new, player_old)) {

centerchange = true;

initPlayers.set(i, player_new);

}

return results;

}

上面代碼是其中核心代碼，我們根據(jù)對(duì)象集合List和提前設(shè)定的k個(gè)聚集,最終完成聚類。我們測(cè)試一下，假設(shè)要測(cè)試根據(jù)NBA球員的場(chǎng)均得分情況，進(jìn)行得分高中低的聚集，很簡(jiǎn)單，高得分在一組，中等一組，低得分一組。

我們定義一個(gè)Player類，里面有屬性goal，并錄入數(shù)據(jù)。并設(shè)定分組數(shù)目為k=3。

測(cè)試代碼如下:

List listPlayers = new ArrayList();

Player p1 = new Player();

p1.setName(“mrchi1”);

p1.setGoal(1);

p1.setAssists(8);

listPlayers.add(p1);

Player p2 = new Player();

p2.setName("mrchi2");

p2.setGoal(2);

listPlayers.add(p2);

Player p3 = new Player();

p3.setName("mrchi3");

p3.setGoal(3);

listPlayers.add(p3);

//其他對(duì)象定義此處略。制造幾個(gè)球員的對(duì)象即可。

KmeansPlayer kmeans = new KmeansPlayer(listPlayers, 3);

ListPlayer[] results = kmeans.comput();

for (int i = 0; i results.length; i++) {

System.out.println("類別" + (i + 1) + "聚集了以下球員：");

ListPlayer list = results[i];

for (Player p : list) {

System.out.println(p.getName() + "---" + p.getGoal()

}

算法運(yùn)行結(jié)果：

可以看出中心點(diǎn)經(jīng)歷了四次迭代變化，最終分類結(jié)果也確實(shí)是相近得分的分到了一組。當(dāng)然這種算法有缺點(diǎn)，首先就是初始的k個(gè)中心點(diǎn)的確定非常重要，結(jié)果也有差異?？梢赃x擇彼此距離盡可能遠(yuǎn)的K個(gè)點(diǎn)，也可以先對(duì)數(shù)據(jù)用層次聚類算法進(jìn)行聚類，得到K個(gè)簇之后，從每個(gè)類簇中選擇一個(gè)點(diǎn)，該點(diǎn)可以是該類簇的中心點(diǎn)，或者是距離類簇中心點(diǎn)最近的那個(gè)點(diǎn)。

spark 聚類java實(shí)現(xiàn) 如何和前臺(tái)對(duì)接

以前做項(xiàng)目時(shí)候?qū)懙拇a，數(shù)據(jù)是一維的，多維的也一樣，把距離計(jì)算的改一改就行int?term?=?Math.abs(dotlist.get(centerIndex[j]).x-?dotlist.get(i).x);

[java]?view?plaincopy

package?uestc.dmlab.call;??

import?java.io.BufferedReader;??

import?java.io.FileReader;??

import?java.security.KeyStore.Entry;??

import?java.util.HashMap;??

import?java.util.HashSet;??

import?java.util.Iterator;??

import?java.util.LinkedList;??

import?java.util.List;??

import?java.util.Map;??

import?java.util.Random;??

import?java.util.Set;??

public?class?Clustering?{??

/**?

*??

*?@param?fileName?

*????????????文件中每個(gè)字段對(duì)應(yīng)一個(gè)概率?

*?@param?k?

*????????????聚成k個(gè)類?

*?@param?minDistance?

*????????????聚類中心位移小于minDistance時(shí)停止迭代?

*?@return?

*/??

public?static?HashMapString,?Integer?cluster(String?fileName,?int?k,??

int?minDistance)?{??

try?{??

BufferedReader?br?=?new?BufferedReader(new?FileReader(fileName));??

ListDot?dotlist?=?new?LinkedListDot();??

String?line;??

int?count?=?0;//?行數(shù)??

while?((line?=?br.readLine())?!=?null)?{??

String?s[]?=?line.split(",");??

Dot?dot?=?new?Dot();??

dot.isCenter?=?false;??

dot.isVirtual?=?false;??

dot.name?=?s[0];??

//?if(s.length4){??

//?System.out.println(line);??

//?}??

dot.x?=?Integer.parseInt(s[3]);??

dotlist.add(dot);??

count++;??

}??

if?(count??k)?{??

k?=?count;??

}??

//?隨機(jī)初始化k個(gè)聚類中心??

int?centerIndex[]?=?new?int[k];?//?存儲(chǔ)k個(gè)中心點(diǎn)在dotlist中的索引??

int?centerNum?=?k;??

while?(centerNum??0)?{??

int?index?=?new?Random().nextInt(count);??

if?(!dotlist.get(index).isCenter)?{??

centerNum--;??

dotlist.get(index).isCenter?=?true;??

centerIndex[centerNum]?=?index;??

}??

//?K個(gè)聚類??

Cluster[]?clusers?=?new?Cluster[k];??

boolean?flag?=?true;??

while?(flag)?{??

flag?=?false;??

clusers?=?new?Cluster[k];??

for?(int?i?=?0;?i??clusers.length;?i++)?{??

clusers[i]?=?new?Cluster();??

}??

//System.out.println(clusers.length);??

//?找到離第i個(gè)點(diǎn)最近的聚類中心??

for?(int?i?=?0;?i??dotlist.size();?i++)?{??

//?該點(diǎn)不是中心點(diǎn)也不是虛擬點(diǎn)就計(jì)算它與所有中心點(diǎn)的距離并取最小值??

//?if(!dotlist.get(i).isCenter!dotlist.get(i).isVirtual){??

if?(!dotlist.get(i).isVirtual)?{??

int?distance?=?Integer.MAX_VALUE;??

int?c?=?0;//?記錄離該節(jié)點(diǎn)最近的中心點(diǎn)的索引??

for?(int?j?=?0;?j??k;?j++)?{??

int?term?=?Math.abs(dotlist.get(centerIndex[j]).x??

-?dotlist.get(i).x);??

if?(distance??term)?{??

distance?=?term;??

c?=?j;??

}??

clusers[c].dots.add(i);??

}??

//?重新計(jì)算聚類中心??

for?(int?i?=?0;?i??k;?i++)?{??

Cluster?cluster?=?clusers[i];??

if?(cluster.dots.size()??0)?{?//若該類中有點(diǎn)??

int?sum?=?0;??

for?(int?j?=?0;?j??cluster.dots.size();?j++)?{??

sum?+=?dotlist.get(cluster.dots.get(j)).x;??

}??

Dot?dot?=?new?Dot();??

dot.x?=?sum?/?cluster.dots.size();??

dot.isCenter?=?true;??

dot.isVirtual?=?true;??

//?新舊聚類中心的距離??

int?term?=?Math.abs(dotlist.get(centerIndex[i]).x??

-?dot.x);??

if?(term??minDistance)??

flag?=?true;??

dotlist.add(dot);??

centerIndex[i]?=?dotlist.indexOf(dot);?//?第i個(gè)聚類的中心改變??

}??

//?生成分類映射??

HashMapString,?Integer?map?=?new?HashMapString,?Integer();??

for?(Dot?dot?:?dotlist)?{??

if?(dot.isVirtual?==?false)?{??

int?className?=?-1;??

for?(int?i?=?0;?i??k;?i++)?{??

if?(clusers[i].dots.contains(dotlist.indexOf(dot)))??

className?=?i;??

}??

map.put(dot.name,?className);??

}??

return?map;??

}?catch?(Exception?e)?{??

e.printStackTrace();??

}??

return?new?HashMapString,?Integer();??

}??

public?static?void?main(String[]?args)?{??

MapString,?Integer?map?=?Clustering.cluster(??

"C:/Documents?and?Settings/Administrator/桌面/123.txt",?2,?0);??

IteratorMap.EntryString,?Integer?it?=?map.entrySet().iterator();??

while(it.hasNext()){??

Map.EntryString,?Integer?entry?=?it.next();??

System.out.println(entry.getKey()+","+entry.getValue());??

}??

class?Dot?{??

String?name;??

int?x;??

boolean?isCenter;??

boolean?isVirtual;??

}??

class?Cluster?{??

//?記錄了該類中點(diǎn)的索引值??

LinkedListInteger?dots?=?new?LinkedListInteger();

k-means聚類算法的java代碼實(shí)現(xiàn)文本聚類

K-MEANS算法:

k-means 算法接受輸入量 k ；然后將n個(gè)數(shù)據(jù)對(duì)象劃分為 k個(gè)聚類以便使得所獲得的聚類滿足：同一聚類中的對(duì)象相似度較高；而不同聚類中的對(duì)象相似度較小。聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”（引力中心）來進(jìn)行計(jì)算的。

k-means 算法的工作過程說明如下：首先從n個(gè)數(shù)據(jù)對(duì)象任意選擇 k 個(gè)對(duì)象作為初始聚類中心；而對(duì)于所剩下其它對(duì)象，則根據(jù)它們與這些聚類中心的相似度（距離），分別將它們分配給與其最相似的（聚類中心所代表的）聚類；然后再計(jì)算每個(gè)所獲新聚類的聚類中心（該聚類中所有對(duì)象的均值）；不斷重復(fù)這一過程直到標(biāo)準(zhǔn)測(cè)度函數(shù)開始收斂為止。一般都采用均方差作為標(biāo)準(zhǔn)測(cè)度函數(shù). k個(gè)聚類具有以下特點(diǎn)：各聚類本身盡可能的緊湊，而各聚類之間盡可能的分開。

具體如下：

輸入：k, data[n];

（1）選擇k個(gè)初始中心點(diǎn)，例如c[0]=data[0],…c[k-1]=data[k-1];

（2）對(duì)于data[0]….data[n], 分別與c[0]…c[n-1]比較，假定與c[i]差值最少，就標(biāo)記為i;

（3）對(duì)于所有標(biāo)記為i點(diǎn)，重新計(jì)算c[i]=/標(biāo)記為i的個(gè)數(shù)；

（4）重復(fù)(2)(3),直到所有c[i]值的變化小于給定閾值。

算法實(shí)現(xiàn)起來應(yīng)該很容易，就不幫你編寫代碼了。

文章名稱：聚類java代碼 java聚合類
網(wǎng)站網(wǎng)址：http://m.rwnh.cn/article2/dodogoc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供企業(yè)網(wǎng)站制作、定制開發(fā)、App開發(fā)、品牌網(wǎng)站設(shè)計(jì)、定制網(wǎng)站、網(wǎng)站收錄

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

中文字幕日韩精品一区二区免费_精品一区二区三区国产精品无卡在_国精品无码专区一区二区三区_国产αv三级中文在线

聚類java代碼 java聚合類

大數(shù)據(jù)分析之聚類算法

spark 聚類java實(shí)現(xiàn) 如何和前臺(tái)對(duì)接

k-means聚類算法的java代碼實(shí)現(xiàn)文本聚類