未知分类数目的聚类方法有哪些呀?
来源:学生作业帮 编辑:神马作文网作业帮 分类:数学作业 时间:2024/11/16 20:19:36
未知分类数目的聚类方法有哪些呀?
给定一个数组 --> @x 做聚类分析,现在不知道它能分成多少类,是要做 fuzzy C-means clustering么?如何在实现未知分类数目的聚类分析?-------------------------------------------------------------------------------------------------------我现在的数据都是正整数,如下:492, 500, 490, 486, 490, 491, 493, 480, 461, 504, 476, 434, 500, 470, 495, 3116, 3805, 3142, 12836, 12692, 3062, 3091, 3141, 3177, 3685, 3150, 3114, 3149, 12658, 3134, 3143, 3156, 3119, 3172, 3113, 12307, 12338, 3162, 2679, 3177, 3111, 3115, 3136, 3156, 12394, 3129, 3176, 3134, 3108, 12657, 506, 473, 495, 494, 434, 459, 445, 475, 476, 3146, 2009, 3132, 3155, 2704, 3125, 3170, 3187具体分类的话,我查到了这个: http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/cmeans.html 使得Jm 最小.-------------------------------------------------------------------------------------------------------然后是详细的对所面临的数据的手工分类过程: 理论上数据可以分成1类,或者2类,这个在每行数据里是不固定的.即某些行可以分成一类,有些行可以分成两类,但是哪些行分成1类那些行分成两类不固定 但是,由于有实验误差的问题,有些数据需要抛弃,比如,如果一组数据是 23,24,25,332,334,336,2000; 那么这个2000是实验误差,需要摒弃.一般来讲这个误差会是非常大的,比如这里是2000,或者更大,30000;同时误差的个数不固定,有时候是一个2000,有时候是一个2000,一个30000.这里取决于这一行包含数据的个数.数据个数越多,其中包含错误的个数便越多. 如果让我来手工分类,基本上就是按照上面的方式;首先确定是一个cluster或者是两个clusters,然后再摒弃掉距离cluster距离非常远的数字. 这里如果是一个cluster,则这个cluster附近的数字符合正态分布;如果是两个cluster,那么在这两个cluster附近的数字分别符合正态分布