白辰甲

集体智慧编程——博客文章聚类-Python实现

本章中实现了层次聚类算法和K均值算法，用于博客的聚类。使用的特征为词向量。即特定词在博客文章中出现的次数。

读入数据
数据中行的第一个词代表博客名，列的第一个词代表单词特征。存储的数字代表该词在该博客中出现的次数。读入该句子，用Python的list存储。【【】，【】，【】….】用两层链表结构来模拟矩阵。
层次聚类算法
首先定义向量之间的相似度度量方法是皮尔森相关系数。该相关系数比欧氏距离更适合，因为不同的博客长短不一，我们要探求的相似度是线性相关性，而非真实距离。
数据结构：
class bicluster的数据成员有
– vec：代表该聚类的特征向量
– left：如果该节点不是叶子节点，则存储其左孩子，否则为None
– right：如果该节点不是叶子节点，则存储其右孩子，否则为None
– distance：表示合并左子树和右子树时，两个特征向量之间的距离。
– id：用来标志该节点是叶节点还是内部节点，如果是叶节点，则为正数，如果不是叶节点，则为负数。
打印层次聚类树
根据最后返回的一个根节点，可以遍历其左右子树打印该聚类树。
层次聚类树的缺点是耗时，时间主要消耗在相似度的计算上。
K-均值聚类
K-均值聚类需要人为指定K值。首先随机确定K个聚类中心的位置，随后将每个点分配到与其距离最近的聚类中心，重新确定每个中心的位置，将中心移动到该类别的平均值出。反复进行这一过程，直到聚类结果不再改变为止。

详细代码及注释如下：

# -*- coding: utf-8 -*-
__author__ = 'Bai Chenjia'

from PIL import Image, ImageDraw
from math import *
import random


def readfile(filename):
    """
    该函数从本目录下的 blogdata 中读取数据
    数据第一行从第二个字符串开始是列标题，列标题代表单词；
    数据从第二行开始是数据，其中每行开始第一个单词是博客名称，从后面开始对应词在该博客中出现的次数，即次向量
    注意：表示词出现的个数的行号和列号分别和博客名和单词名一一对应
    :return: rownames行名（博客名）， colname列名（单词名），data每一个元素是一个list，代表本博客的词向量
    """
    fp = open(filename, 'r')
    lines = [line for line in fp.readlines()]
    colname = lines[0].strip().split('\t')[1:]   # 列名
    rownames = []
    data = []
    for line in lines[1:]:
        rownames.append(line.strip().split('\t')[0])
        data.append([float(vec) for vec in line.strip().split('\t')[1:]])
    return rownames, colname, data


def pearson(v1, v2):
    """
    求词向量v1和词向量v2的皮尔森相关系数，两个词向量大小相同。相关系数越大，返回值越小
    :param v1: 第一个词向量
    :param v2:
    :return:
    """
    # 求和
    sum1 = sum(v1)
    sum2 = sum(v2)
    # 求平方和
    sum1Sq = sum([pow(w1, 2) for w1 in v1])
    sum2Sq = sum([pow(w2, 2) for w2 in v2])
    # 求乘积之和
    pSum = sum([v1[i] * v2[i] for i in range(len(v1))])
    num = pSum - (sum1 * sum2 / len(v1))
    den = sqrt((sum1Sq - pow(sum1, 2) / len(v1)) * (sum2Sq - pow(sum2, 2)/len(v1)))
    if den == 0:
        return 0
    else:
        return 1.0 - num/den


class bicluster:
    """
    存储每个簇，其属性包括
    left:多个簇聚成的簇中最小的簇标号 right:多个簇聚成的簇中最大的簇标号
    vec:词向量 id:簇标号，原始簇标号为正，聚集后的簇标号为负 distance：当前合并的簇之间的距离
    """
    def __init__(self, vec, left=None, right=None, distance=0.0, iid=None):
        self.left = left
        self.right = right
        self.vec = vec
        self.id = iid
        self.distance = distance


def hcluster(rows, cal_distance=pearson):
    """
    层次聚类算法聚类，两个簇聚成一个簇之后，其词向量用原来两个簇的词向量取平均值表示
    :param rows: 词向量集合，每一个元素代表一个词向量
    :return: 返回最终的簇
    """
    distances = {}
    currentclustid = -1
    clust = [bicluster(rows[i], iid=i) for i in range(len(rows))]
    while len(clust) > 1:
        # 寻找距离最小的簇对
        lowespair = (0, 1)
        clostest = pearson(clust[0].vec, clust[1].vec)
        for i in range(len(clust)):
            for j in range(i+1, len(clust)):
                if (clust[i], clust[j]) not in distances:
                    distances[(clust[i].id, clust[j].id)] = cal_distance(clust[i].vec, clust[j].vec)
                d = distances[(clust[i].id, clust[j].id)]  # 所合并的两个节点的距离，即合并误差
                if d < clostest:
                    clostest = d
                    lowespair = (i, j)

        # 将找到的距离最小的簇对合并为新簇，新簇的vec为原来两个簇vec的平均值
        mergevec = [(clust[lowespair[0]].vec[k] + clust[lowespair[1]].vec[k]) / 2 for k in range(len(clust[0].vec))]
        newcluster = bicluster(mergevec, left=clust[lowespair[0]], right=clust[lowespair[1]], distance=clostest, iid=currentclustid)
        currentclustid -= 1

        print "本次合并的两个簇的标号分别是", clust[lowespair[0]].id, clust[lowespair[1]].id,
        print "生成的簇标号是:", currentclustid+1,
        print "当前簇的个数是", len(clust)

        # 删除原来的两个簇，添加新簇
        # 注意此处必须先删除 lowespair[1] 再删除 lowespair[0]. 因为 lowespair[1]的序号大于lowespair[0]
        # 而删除会导致数组个数减少，故如果先删除序号在前的元素，会比其序号大的元素全部前移.
        del clust[lowespair[1]]
        del clust[lowespair[0]]
        clust.append(newcluster)
    return clust[0]


def printclust(clust, label=None, n=0):
    """
    根据 hcluster 函数的输出，递归遍历树，输出层次聚类树的结构
    根据 clust 中每个元素存储的 left 和 right 信息可以知道合并时其左右子树，递归遍历则可以输出所有子树
    :param clust: 层次遍历最后输出的一个簇
    :param label: 在本例中代表博客名，即聚类的对象
    :param n: 在本例中代表树的层数
    :return: 输出结构，无返回值
    """
    for i in range(n):  # n代表当前遍历的层数，层数越多，前面的空格越多
        print " ",
    if clust.id < 0:
        # 负数标记代表这是一个分支
        print '-'
    else:
        # 正数标记代表这是一个叶节点
        if label == None:
            print clust.id
        else:
            print label[clust.id]
    if clust.left != None:
        printclust(clust.left, label=label, n=n+1)
    if clust.right!= None:
        printclust(clust.right, label=label, n=n+1)

"""
------------------------------------------------------------------
以下几个函数利用PIL包绘制层次聚类的树形结构
-----???此处较难设计----
"""


def getheight(clust):
    """
    返回聚类树的总体高度，即图形的整体高度，所有分支的高度之和。本树的高度为 99
    递归计算。如果该节点是叶子节点，则该节点高度为1，否则高度为该节点左右子树高度之和
    :param clust: clust是hcluster函数返回的层次聚类的最后一层
    :return: 返回层次聚类树的总体高度
    """
    if clust.left == None and clust.right == None:
        return 1
    return getheight(clust.left) + getheight(clust.right)


def getdepth(clust):
    """
    返回聚类树的总体宽度，即聚类树的层数。
    一个节点的误差深度等于其下属的每个分支的最大可能误差 + 自身的误差。根节点的误差为0
    :param clust: 根节点
    :return:返回树的总体宽度（深度）
    """
    if clust.left == None and clust.right == None:
        return 1
    return max(getdepth(clust.left), getdepth(clust.right)) + clust.distance


def drawdendrogram(clust, labels, jpeg='clusters.jpg'):
    """
    该函数调用 getheight， getdepth, drawnode 函数最终绘制出层次聚类树
    具体做法：1.首先绘制根节点和根节点的水平线  2.绘制分支节点，首先获取左子树和右子树深度，再绘制到分支节点的垂直线和绘制两条水平线
    :param clust: 层次聚类结果
    :param labels: 博客名
    :param jpeg: 结果保存的图像名
    :return: 生成图像保存在本地
    """
    h = getheight(clust)*20
    w = 1200  # 固定宽度为1200像素
    depth = getdepth(clust)

    # 宽度方向的缩放因子
    scaling = float(w-150)/depth

    # 创建图像，白色背景
    img = Image.new('RGB', (w, h), (255, 255, 255))
    draw = ImageDraw.Draw(img)

    # 绘制根节点的水平线，即在高速为 h/2 的地方绘制长度为10个像素的水平线
    draw.line((0, h/2, 10, h/2), fill=(255, 0, 0))

    # 调用 diawnode 函数绘制节点
    drawnode(draw, clust, 10, (h/2), scaling, labels)

    # 保存图像
    img.save(jpeg, 'JPEG')


def drawnode(draw, clust, x, y, scaling, labels):
    """
    ??? 递归，绘制指定节点 clust 及其分支节点的垂直线和水平线
    :param draw: 绘图对象
    :param clust: 聚类
    :param x: 水平方向绘制
    :param y: 垂直方向绘制
    :param scaling: 缩放因子
    :param labels: 博客名
    :return:
    """
    if clust.id < 0:
        h1 = getheight(clust.left)*20
        h2 = getheight(clust.right)*20
        top = y - (h1 + h2) / 2
        bottom = y + (h1 + h2) / 2
        # 线的长度
        ll = clust.distance*scaling
        # 聚类到其子节点的垂直线
        draw.line((x, top + h1 / 2, x, bottom - h2 / 2), fill=(255, 0, 0))
        # 连接左侧节点的水平线
        draw.line((x, top + h1/2, x + ll, top + h1 / 2), fill=(255, 0, 0))
        # 连接右侧节点的水平线
        draw.line((x, bottom - h2 / 2, x + ll, bottom - h2/2), fill=(255, 0, 0))

        # 递归遍历其左右节点
        drawnode(draw, clust.left, x+ll, top+h1/2, scaling, labels)
        drawnode(draw, clust.right, x+ll, bottom-h2/2, scaling, labels)
    else:
        # 叶节点，写标签
        draw.text((x + 5, y - 7), labels[clust.id], (0, 0, 0))
"""
绘制层次聚类树部分结束-------------太强大了！！！ -------------------------------------------
"""


def rotatematrix(data):
    """
    列聚类，将data矩阵作转置，返回转置后的矩阵 newdata。
    newdata可以使用前面写的 hcluster(newdata)函数 和 drawdendrogram(newclust, labels=words, jpeg='newclusters.jpg')函数聚类
    """
    newdata = []
    for i in range(len(data[0])):  # 循环列
        line = []
        # 内层循环可用列表生成式 line = [data[j][i] for j in range(len(data))] 替代
        for j in range(len(data)):   # 循环行
            line.append(data[j][i])
        newdata.append(line)
    return newdata


def kcluster(rows, distances=pearson, k=4):
    """
    K均值聚类，针对博客名，单词作为向量进行聚类，k代表簇的个数
    """
    # 求每行的最大值和最小值
    ranges = [(min([row[i] for row in rows]), max([row[i] for row in rows]))
    for i in range(len(rows[0]))]
    # 随机创建k个中心点
    clusters = [[random.random()*(ranges[i][1]-ranges[i][0]) + ranges[i][0] for i in range(len(rows[0]))] for j in range(k)]

    lastmatches = None
    for t in range(100):  # 最多循环100次
        print '循环：%d', t
        #k个簇首先都初始化为空
        bestmatches = [[] for i in range(k)]
        # 循环每一行，从k个中心中查找与之最近的中心
        for j in range(len(rows)):
            row = rows[j]
            bestmatch = 0
            for i in range(k):
                d = distances(clusters[i], row)
                if d < distances(clusters[bestmatch], row):
                    bestmatch = i
            bestmatches[bestmatch].append(j)  # 在簇bestmatch中加入元素j

        # 如果结果与上一次结果相同则结束
        if bestmatches == lastmatches:
            break
        lastmatches = bestmatches

        # 重新计算簇中心
        for i in range(k):
            avgs = [0.0] * len(rows[0])  # 置成0
            if len(bestmatches[i]) > 0:  # 如果该簇中有元素
                for rowid in bestmatches[i]:  #
                    for m in range(len(rows[rowid])):
                        avgs[m] += rows[rowid][m]
                for j in range(len(avgs)):
                    avgs[j] /= len(bestmatches[i])
                clusters[i] = avgs
    return bestmatches


def tanimoto(v1, v2):
    """
    希望拥有两件物品的人在物品方面互有叠加的情况下进行度量
    Tanimoto系数度量代表交集与并集的比例，返回一个介于0和1之间的值，相似度越高，返回值越小
    """
    c1, c2, shr = 0, 0, 0
    for i in range(len(v1)):
        if v1[i] != 0:
            c1 += 1
        if v2[i] != 0:
            c2 += 1
        if v1[i] != 0 and v2[i] != 0:
            shr += 1
    return 1.0 - (float(shr)/(c1+c2-shr))


def scaledown(data, distance=pearson, rate=0.001):
    """
    用二维图形展示二维空间中向量的位置关系
    首先初始化各点，以各顶点间的目标距离作为优化目标，计算误差，根据误差计算梯度
    根据梯度移动各顶点，直到误差满足要求或达到最大迭代次数为止
    """
    n = len(data)
    # 存储两两点之间的目标距离
    realdist = [[distance(data[i], data[j]) for j in range(n)]
                for i in range(0, n)]
    # 随机初始化节点在二维空间中的起始位置
    loc = [[random.random(), random.random()] for i in range(n)]
    # 存储投影到二维平面后两两之间的实际距离
    fakedist = [[0.0 for j in range(n)] for i in range(n)]

    lasterror = None  # 非常小的数
    for m in range(0, 1000):
        print m,
        #寻找投影后的位置
        for i in range(n):
            for j in range(n):
                # 计算平面上两向量之间的欧式距离
                fakedist[i][j] = sqrt(sum([pow(loc[i][x] - loc[j][x], 2)
                                      for x in range(len(loc[i]))]))
        #移动节点，记录四个方向的梯度
        grad = [[0.0, 0.0] for i in range(n)]

        totalerror = 0
        # 当前需要移动的节点是k节点
        for k in range(n):
            # 循环遍历其余节点计算误差
            for j in range(n):
                if j == k:
                    continue
                errorterm = (fakedist[j][k] - realdist[j][k]) / realdist[j][k]
                grad[k][0] += ((loc[k][0] - loc[j][0]) / fakedist[j][k]) * errorterm
                grad[k][1] += ((loc[k][1] - loc[j][1]) / fakedist[j][k]) * errorterm
                totalerror += abs(errorterm)
        print lasterror, totalerror, grad[0][:], grad[1][:]

        # 比较误差较上一次增大还是减小
        if lasterror and lasterror < totalerror:
            break
        lasterror = totalerror

        # 根据rate参数与grad值相乘的结果，移动每一个节点
        for k in range(n):
            loc[k][0] -= rate * grad[k][0]
            loc[k][1] -= rate * grad[k][1]
    return loc


def draw2d(data, labels, jpeg='mds2d.jpg'):
    """
    使用PIL生成一幅图，根据新的坐标值，在图上标出所有数据项的位置及其对应的标签
    """
    img = Image.new('RGB', (2000, 2000), (255, 255, 255))
    draw = ImageDraw.Draw(img)
    for i in range(len(data)):
        x = (data[i][0] + 0.5) * 1000
        y = (data[i][1] + 0.5) * 1000
        draw.text((x, y), labels[i], (0, 0, 0))
    img.save(jpeg, 'JPEG')


if __name__ == '__main__':
    # 读取文件，返回博客名列表，单词名列表和数据
    blogname, words, data = readfile(filename="blogdata.txt")

    """
    -----------------------------------------------------
    行聚类，针对博客名，以单词出现频次组成的词向量为特征进行聚类
    ----------------------------------------------------
    """
    #层次聚类，返回最终得到的聚类树的最上层（只有一个类别）
    #clust = hcluster(data, cal_distance=pearson)

    #不使用图像包，简单绘制层次聚类树
    #printclust(clust, label=blogname)

    # 根据聚类返回值 clust 获取层次聚类树的高度
    #height = getheight(clust)
    #print "行聚类树的高度是:", height

    # 根据聚类返回值 clust 获取层次层次聚类树的深度（总体误差）
    #depth = getdepth(clust)
    #print "行聚类树的深度是:", depth

    # 绘制层次聚类树
    #drawdendrogram(clust, labels=blogname, jpeg="Cluster_BlogData//clusters.jpg")
    #print "行聚类层次聚类树绘制完毕!"

    """
    ---------------------------------------------------------
    列聚类，对单词进行聚类，处理时只需要将 data 进行转置，按照之前编写的聚类函数进行聚类
        转置后的data矩阵行元素代表单词，列元素代表博客名，特征向量转为词出现在一系列博客中的次数
        由于单词的数量多于博客的数量，因而运行时间更长
    """
    #newdata = rotatematrix(data)  # 反转颜色
    #newclust = hcluster(newdata, cal_distance=pearson)   # 列聚类
    #drawdendrogram(newclust, labels=words, jpeg='newclusters.jpg')

    """
    ------------------------------------------------------
    K均值聚类
    """
    #kclust = kcluster(data, k = 10)
    #print "簇0中元素是：", [blogname[r] for r in kclust[0]][:]

    """
    -------------------------------------------------------
    二维数据可视化
    """
    coords = scaledown(data)
    draw2d(coords, blogname)

探索数据的奥秘：一份深入浅出的数据分析入门指南 uncle_ll 数据库数据分析数据挖掘入门
数据分析书籍推荐入门读物深入浅出数据分析啤酒与尿布数据之美数学之美数据分析ScipyandNumpyPythonforDataAnalysisBadDataHandbook集体智慧编程MachineLearninginAction机器学习实战BuildingMachineLearningSystemswithPython数据挖掘导论MachineLearningforHackers专业读物Intr
【配套博客】《集体智慧编程》推荐系统破幻星空读书笔记算法无关主业算法集体智慧编程笔记
推荐系统（建设中进度20%）背景介绍场景介绍算法介绍相似性算法欧几里得距离计算皮尔逊算法Jacard系数曼哈顿距离算法设计模式现代推荐算法基于卷积神经网络的推荐模型序列模型深度学习和注意力机制集体智慧编程是一本比较老的书，距今发布已经过去了14年，但是其中讲解的内容却是非常的偏实践，笔者之前主要是写业务代码，几乎很少接触算法内容，读此书时，觉得非常有收获。笔者会本书的基础之上，额外结合数学知识，代
个人博客汇总破幻星空个人开发
博客汇总建设完成的博客建设中的博客规划建设的博客看过但是暂时不会整理的博客建设完成的博客建设中的博客集体智慧编程redis设计与实现GRPC规划建设的博客书籍类DDIA技术方案活动增长裂变增长裂变人群打标看过但是暂时不会整理的博客刑法学讲义蛤蟆先生去看心理医生
Python编程相关的书籍软件架构师-叶秋好书推荐分享开发语言 python
《Python简明教程》。这本书短小精湛、久负盛名的Python入门教程，英文原名《AByteofPython》，是介绍Python编程的入门书籍。《Python编程：从入门到实践》。这本书全面介绍了Python编程，是掌握Python编程的经典之作。《集体智慧编程》。这本书用具体的例子来展示Python编程技巧，非常有用。《Head-FirstPython》。这本书是HeadFirst系列的书，
互联网产品经理必读书单数据研究员
作为一个从读书时代就思考如何成为一个好的产品经理，怎样才能做出一款好的产品的人来说，现在正好可以说说自己的思考和感触。首先先列书单，后面会再说下这份书单背后的经历和思考。个人以为互联网产品经理需要必须的书目大概可以分为三大类+一小类第一大类：计算机计算机科学概论C语言程序设计计算机程序的构造和解释深入理解计算系统数据结构算法导论计算机网络现代操作系统集体智慧编程第二大类：数学高等数学线性代数概率论
集体智慧编程：提供推荐_推荐物品菜菜蜗牛
前面已经实现不同人之间相似度的计算，接下来就是根据相似度，向用户推荐物品。找到相似度最高的用户B，将他的喜好推荐给用户A，这种方式太片面。好的做法，是针对物品进行评分。首先计算用户A与用户B的相似度，把相似度作为B的评分权重，乘以B的所有评分。针对A以外的所有用户，都这么计算一次。然后，把每个物品所有的分值相加，得到总分。最后，对每个物品的总分值，除以有效相似度的总和。"""推荐物品"""#书中算
协同过滤算法研习糊君
写在前面先啰嗦几句，最近在看《集体智慧编程》，为了加深记忆，把学习的内容整理成文，后续还会写书中相关内容。既然是读书笔记，且本人是推荐算法入门选手，所以内容只能局限于此书。什么是协同过滤先举个生活中的场景，你想听歌却不知道听什么的时候，会向你身边与你品位类似的朋友求助，从而获得他的推荐。协同过滤（CollaborativeFiltering，简称CF）就像与你品味相近的朋友，通过对大量结构化数据进
读书笔记：“集体智慧编程”之第八章：对数值进行预测（构建价格模型） silent狼机器学习价格预测 kNN k-最近邻算法 python 概率
数值预测的含义在上一章节，我们接触到的决策树，比较适合对数据的分类进行预测，以及我们之前学过的分类器也是如此。但是当我们对数值型结果进行预测的时候应该怎么办呢？具体什么叫做对数值型结果进行预测首先需要明确一下。比如：我们要在拍卖行竞价购买一个笔记本电脑，这台笔记本电脑有一些参数：处理器的速度，RAM的容量，硬盘的大小，屏幕的分辨率以及其他因素。显然，我们最终对其的定价必然要考虑这些参数，而这些参数
淘宝穿衣搭配算法大赛有感 miangmiang咩机器学习阿里天池在赛
去年阿里天池大赛年度答辩在美丽的华工举办，五组选手的精彩答辩为我们提供了一场知识的盛宴，评委大多数都是阿里的资深工作人员，所以他们的提问也很细致。阿里举办的这种比赛意义还是挺大的，既可以解决自己的存在问题，又可以招贤。当然，对于数据爱好都的小白我，吸收了不少精华。我的反思我是研究生阶段接触机器学习和深度学习（了解一点），然后以李航老师写的《统计学方法》和《集体智慧编程》入门的，在kaggle上有参
《集体智慧编程》笔记（4 / 12）：搜索与排名巨輪集体智慧编程 python 爬虫
由于书本未提供数据文件且提供的链接无法被链接且pysqlite安装失败，所以本章只是阅读学习。文章目录搜索引擎的组成一个简单的爬虫程序使用urllib2爬虫程序的代码建立索引建立数据库Schema在网页中查找单词加入索引查询基于内容的排名归一化函数单词频度文档位置单词距离利用外部会指链接简单计数PageRank算法利用连接文本从点击行为中学习一个点击跟踪网络的设计设计数据库前馈法利用反向传播进行训
集体智慧编程：提供推荐_为评论者打分菜菜蜗牛
对具体的某一用户，根据其他用户的评价结果，计算出他与每一个用户的相似程度，找出相似程度最高的前N位。在函数中，通过similarity指定使用的相关性算法。"""为评论者打分"""#书中算法deftopMatches(prefs,person,n=5,similarity=sim_pearson):score=[(similarity(prefs,person,other),other)forot
算法思想-PageRank 蜡笔不好吃
最近重新拿起《集体智慧编程》这本书来看，书是好书，很多人推荐计算机的学习学这本书入门机器学习的算法，但是有个问题——这本书太老了。很多代码已经跑不了了，书上爬虫要抓的网站也404了。不过算法的思想却是永远不过时的，今天看到的是第四章：搜索与排名中的PageRank算法。一、算法思想PageRank算法这个算法简单来讲，就是衡量一个网页的“重要程度”。一个网页计算出来的PR值越高，网页重要程度越高。
【学习】数据挖掘—集体智慧编程 X_Ran_0a11
先做一个目录吧，不然实在太长了，连我自己都记不清楚第二章提供推荐2.1算法流程2.2基于用户进行过滤2.2.1搜集偏好2.2.2相似性度量方法2.2.3用户相似度计算2.2.4加权法构建推荐物品序列2.3基于物品进行过滤2.3.1提前构造物品字典相似矩阵2.3.2根据用户历史信息加权平均法构建推荐物品列表2.4其他概念第三章发现群组3.1算法流程3.2聚类的可视化3.2.1绘制树状图3.2.2多维
350多本编程书籍是每个程序员值得拥有的一套编程百科全书代码技巧
热门书籍《重构》《程序员修炼之道》《计算机程序的构造和解释》《黑客与画家》《编程珠玑》《深入理解计算机系统》《代码大全》《HTTP权威指南》《UNIX程序设计艺术》《重来》《集体智慧编程》《疯狂的程序员》《Python金融数据分析》《智识分子：做个复杂的现代人》《C++primer》《禅与摩托车维修艺术》《深入理解Java虚拟机（最新版）》《计算机程序设计艺术卷1：基本算法》《颈椎康复指南》C++
python3 集体智慧编程第九章advancedclassify.py代码也不是很坑 python
对于python2版本的集体智慧编程第九章SVM进行了修改，该代码适用于python3版本。以下是advancedclassify.pyimportmatplotlib.pyplotaspltimportnumpyasnpclassmatchrow:def__init__(self,row,allnum=False):ifallnum:self.data=[float(row[i])foriinr
python3集体智慧编程第九章也不是很坑 python
以下是课本对应的一些练习，但有两个问题1.最后交叉验证部分我没做出来，估计我用的是python3.8的原因有大佬做出来的可以提意见2.最后Facebook的例子没有做，因为网址打不开，需要需要python3advancedclassify.py代码的见我另一篇##加载数据集importadvancedclassify#fromadvancedclassifyimport*agesonly=adva
推荐系统的学习笔记白熊花田机器学习推荐系统机器学习推荐系统
一直以来对推荐系统的学习和理解来自一些机器学习书中简单介绍（如《集体智慧编程》和《机器学习实战》）和自己网上搜的一些资料。而当被问及对推荐系统的改进和理解，发现自己对推荐系统所知甚少，除了知道几个常用的算法外，根本没有更深入的理解，更别提改进了。本篇博客为学习《推荐系统》一书的读书笔记，记录了常见的推荐算法和其思想。ps：推荐系统入门学习可以看蒋凡先生翻译的《推荐系统》和项量的《推荐系统实践》。1
读书笔记：“集体智慧编程”之第三章：“发现群组”的 k均值聚类 silent狼机器学习 k均值聚类 k means 机器学习
分级聚类的缺点此前学习的分级聚类、与列聚类，有二个缺点：计算量大，数据越大运行越缓慢。没有确切的将数据分成不同的组，只是形成了树状图。虽然我倒觉得如果写过多的代码这一点还是可以搞定的。k均值聚类可以应对上述两种缺点，我们会预先告诉算法生成的聚类数量，也就是我要产生几个类。原理如下图所示，对于5个数据项和两个聚类过程是这样的，先随机产生两个聚类点，那么每一个数据项都会离一其中一个最近，那么将其分配给
读书笔记：“集体智慧编程”之第三章：“发现群组”的列聚类 silent狼机器学习聚类列聚类集体智慧编程
什么是列聚类？对博客数据使用了分级聚类的方式分析，我们可以又学的一种聚类方式：列聚类。刚刚的分级聚类就是对行进行了一个聚类。行是什么？行就是一个又一个的博客名，列是什么？列就是一个又一个的单词，那么进行行聚类的时候，我们是根据单词的词频将不同的博客聚了一次类。当我们对单词进行聚类的时候，我们就称之为列聚类。意义何在正面回答，我们知道了哪些单词会时常一起使用。对于这个列子来讲，似乎没什么意义。但是如
《集体智慧编程》学习笔记 weixin_30776545
连载中~~目录第一章，集体智慧导言第二章，提供推荐第三章，发现群组**该书使用python作为示例语言，2.x版本第一章集体智慧导言集体智慧为了创造新的想法，而将一群人的行为、偏好或思想组合在一起。机器学习人工智能的一个与算法相关的子域，允许计算机不断地进行学习。（计算机接收到一定的数据，通过确定的算法推断出数据相关的信息，借此来推断出未来可能会出现的数据****由此可见，需要学好数学~~~）。机
《集体智慧编程》读书笔记6 weixin_30275415
最近重读《集体智慧编程》，这本当年出版的介绍推荐系统的书，在当时看来很引领潮流，放眼现在已经成了各互联网公司必备的技术。这次边阅读边尝试将书中的一些Python语言例子用C#来实现，利于自己理解，代码贴在文中方便各位园友学习。由于本文可能涉及到的与原书版权问题，请第三方不要以任何形式转载，谢谢合作。第六部分决策树建模这一部分我们继续介绍一种分类器算法-决策树学习。决策树产生的模型的最大特点就是可以
《集体智慧编程》读书笔记 weixin_30396699 数据库人工智能 python
书中涉及到一些机器学习相关的内容,在统计学习方法读书笔记和西瓜书读书笔记中有所记录,所以只简单带过.本书源代码下载地址书中使用的python技巧字典的setdefault(key,value)方法,作用是如果键不在字典中,则添加键与默认值FeedParser是一个解析RSS订阅源的库print(str,end='')可以实现输出不换行BeautifulSoup库是一个解析网页和构造结构化数据表达形
《集体智慧编程》读书笔记2 weixin_30429201 人工智能数据结构与算法 python
最近重读《集体智慧编程》，这本当年出版的介绍推荐系统的书，在当时看来很引领潮流，放眼现在已经成了各互联网公司必备的技术。这次边阅读边尝试将书中的一些Python语言例子用C#来实现，利于自己理解，代码贴在文中方便各位园友学习。由于本文可能涉及到的与原书版权问题，请第三方不要以任何形式转载，谢谢合作。第二部分聚类-发现群组监督学习和无监督学习利用样本输入和期望输出来学习如何预测的技术称为监督学习法。
《集体智慧编程》第三章发现群组学习笔记 weixin_30657999
啦啦啦聚类算法~这一章我学得比较迷糊，还需要反复理解琢磨。我刚看到这一章的时候内心是崩溃的，许多傻瓜软件点一下鼠标就能完成的事儿，到书里这一章需要许多行代码来完成，也说明了，学数据挖掘，算法real重要。。本章需要安装：feedparser(第二章安装pydelicious已经安装过了，pipinstall即可)BeautifulSoup，BeautifulSoup是用Python写的一个HTML
读书笔记---《集体智慧编程》第3章：发现群组 lxy孙悟空学习笔记读书笔记编程 python
1.关于聚类的理解聚类实际上就是分类，对一些样本（样品）进行归类分组。本章第一个例子是对99篇博客进行聚类，也就是说每一篇博客便是一个样本。要分类就要有分类的标准（指标）。比如把人按地区、身高、体重分类，那地区、身高、体重就是指标。抽象地说，对样本X，设有p个指标，即X=(X1,X2,⋯,Xp)T.在博客聚类的这个例子中，选取的分类指标是一些单词（这里暂时不管为什么要选这些单词），即为china,
集体智慧编程_3发现群组小八一的梦想基础知识打砖笔记笔记
监督式学习与非监督式学习监督式学习指的是你拥有一个输入变量(x)和一个输出变量(Y)，使用某种算法去学习从输入到输出的映射函数。例如，神经网络，决策树，支持向量机以及贝叶斯过滤等非监督式学习指的是我们只拥有(X)但是没有相关的输出变量。例如，聚类，非负矩阵因式分解，自组织映射等大概结构：有监督学习（分类，回归）↕半监督学习（分类，回归），transductivelearning（分类，回归）↕半监
机器学习实战之集体智慧编程学习笔记(2):聚类冷鸢J 集体智慧编程机器学习机器学习分级聚类 k-均值聚类二位聚类
聚类的作用监督学习与无监督学习监督学习无监督学习数据源聚类分类分级聚类k-均值聚类对偏好的聚类二维聚类思维导图由于代码中都有很详细的注解所以没有做过多的解释有问题请留言或私信解决聚类的作用通过聚类,我们可以跟踪统计消费者信息,发现具有相似消费习惯的群体,并据此开发相应的产品或者市场策略监督学习与无监督学习监督学习利用样本输入和期望输出来学习如何预测的技术神经网络决策树向量支持机贝叶斯过滤无监督学习
《集体智慧编程》读书笔记 1 聚类简介 a512977208
1、聚类算法的目的是采集数据，然后从中找出不同的群组。2、UniversalFeedParser可以方便地解析RSS订阅源，即从RSS或Atom订阅源中得到标题、链接和文章的内容。3、皮尔逊相关度其实判断的是两组数据与某条直线的拟合程度，当两者完全匹配时，计算结果为1.0，当两者毫无关系时，计算结果为0.0.4、分级聚类分级聚类的结果会产生一棵树：分级聚类虽然会返回一棵形象直观的树，但这种方法有两
集体智慧编程的笔记柒安笔记 python 笔记集体智慧编程
从evernote搬家过来，希望可以分享给更多的同学。EuclideandistanceandPearsonCorrelationScoreEuclideandistance：以经过人们一致评价的物品为坐标轴，然后将参与评价的人绘制到图上，并考察他们彼此间的距离远近。（处于“偏好空间”中人们的分布状况）PearsonCorrelationScore：修正了“夸大分值(gradeinflation)
集体智慧编程——发现群组阿泽的学习笔记集体智慧编程聚类 K-means 层次聚类
目录1.监督学习和无监督学习2.对博客用户进行聚类2.1建立单词向量2.2层次聚类2.3列聚类2.4K-均值聚类3.以二维形式展现数据1.监督学习和无监督学习监督学习：利用样本输入和期望输出来学习如何预测，如：神经网络、决策树、支持向量机、贝叶斯过滤等等；无监督学习：在一群数据中找寻某种结构，而这些数据本身并不是我们要找的答案。2.对博客用户进行聚类根据单词出现的频度对博客进行聚类，可以帮助我们分
JVM StackMapTable 属性的作用及理解 lijingyao8206 jvm 字节码 Class文件 StackMapTable
在Java 6版本之后JVM引入了栈图(Stack Map Table)概念。为了提高验证过程的效率，在字节码规范中添加了Stack Map Table属性，以下简称栈图，其方法的code属性中存储了局部变量和操作数的类型验证以及字节码的偏移量。也就是一个method需要且仅对应一个Stack Map Table。在Java 7版
回调函数调用方法百合不是茶 java
最近在看大神写的代码时,.发现其中使用了很多的回调 ,以前只是在学习的时候经常用到 ,现在写个笔记记录一下代码很简单: MainDemo :调用方法得到方法的返回结果
[时间机器]制造时间机器需要一些材料 comsci 制造
根据我的计算和推测,要完全实现制造一台时间机器,需要某些我们这个世界不存在的物质和材料... 甚至可以这样说,这种材料和物质,我们在反应堆中也无法获得......
开口埋怨不如闭口做事邓集海邓集海做人做事工作
“开口埋怨，不如闭口做事。”不是名人名言，而是一个普通父亲对儿子的训导。但是，因为这句训导，这位普通父亲却造就了一个名人儿子。这位普通父亲造就的名人儿子，叫张明正。　　　　张明正出身贫寒，读书时成绩差，常挨老师批评。高中毕业，张明正连普通大学的分数线都没上。高考成绩出来后，平时开口怨这怨那的张明正，不从自身找原因，而是不停地埋怨自己家庭条件不好、埋怨父母没有给他创造良好的学习环境。　　　　
jQuery插件开发全解析，类级别与对象级别开发 IT独行者 jquery 开发插件　函数
jQuery插件的开发包括两种：一种是类级别的插件开发，即给 jQuery添加新的全局函数，相当于给 jQuery类本身添加方法。 jQuery的全局函数就是属于 jQuery命名空间的函数，另一种是对象级别的插件开发，即给 jQuery对象添加方法。下面就两种函数的开发做详细的说明。 1 、类级别的插件开发类级别的插件开发最直接的理解就是给jQuer
Rome解析Rss 413277409 Rome解析Rss
import java.net.URL; import java.util.List; import org.junit.Test; import com.sun.syndication.feed.synd.SyndCategory; import com.sun.syndication.feed.synd.S
RSA加密解密无量加密解密 rsa
RSA加密解密代码代码有待整理 package com.tongbanjie.commons.util; import java.security.Key; import java.security.KeyFactory; import java.security.KeyPair; import java.security.KeyPairGenerat
linux 软件安装遇到的问题 aichenglong linux 遇到的问题 ftp
1 ftp配置中遇到的问题 500 OOPS: cannot change directory 出现该问题的原因:是SELinux安装机制的问题.只要disable SELinux就可以了修改方法:1 修改/etc/selinux/config 中SELINUX=disabled 2 source /etc
面试心得 alafqq 面试
最近面试了好几家公司。记录下；支付宝，面试我的人胖胖的，看着人挺好的；博彦外包的职位，面试失败；阿里金融，面试官人也挺和善，只不过我让他吐血了。。。由于印象比较深，记录下； 1，自我介绍 2，说下八种基本类型；（算上string。楼主才答了3种，哈哈，string其实不是基本类型，是引用类型） 3，什么是包装类，包装类的优点； 4，平时看过什么书？NND，什么书都没看过。。照样
java的多态性探讨百合不是茶 java
java的多态性是指main方法在调用属性的时候类可以对这一属性做出反应的情况 //package 1; class A{ public void test(){ System.out.println("A"); } } class D extends A{ public void test(){ S
网络编程基础篇之JavaScript-学习笔记 bijian1013 JavaScript
1.documentWrite <html> <head> <script language="JavaScript"> document.write("这是电脑网络学校"); document.close(); </script> </h
探索JUnit4扩展：深入Rule bijian1013 JUnit Rule 单元测试
本文将进一步探究Rule的应用，展示如何使用Rule来替代@BeforeClass，@AfterClass，@Before和@After的功能。在上一篇中提到，可以使用Rule替代现有的大部分Runner扩展，而且也不提倡对Runner中的withBefores()，withAfte
[CSS]CSS浮动十五条规则 bit1129 css
这些浮动规则，主要是参考CSS权威指南关于浮动规则的总结，然后添加一些简单的例子以验证和理解这些规则。 1. 所有的页面元素都可以浮动 2. 一个元素浮动后，会成为块级元素，比如<span>,a, strong等都会变成块级元素 3.一个元素左浮动，会向最近的块级父元素的左上角移动，直到浮动元素的左外边界碰到块级父元素的左内边界；如果这个块级父元素已经有浮动元素停靠了
【Kafka六】Kafka Producer和Consumer多Broker、多Partition场景 bit1129 partition
0.Kafka服务器配置 3个broker 1个topic，6个partition，副本因子是2 2个consumer，每个consumer三个线程并发读取 1. Producer package kafka.examples.multibrokers.producers; import java.util.Properties; import java.util.
zabbix_agentd.conf配置文件详解 ronin47 zabbix 配置文件
Aliaskey的别名，例如 Alias=ttlsa.userid:vfs.file.regexp[/etc/passwd,^ttlsa:.:([0-9]+),,,,\1]，或者ttlsa的用户ID。你可以使用key：vfs.file.regexp[/etc/passwd,^ttlsa:.: ([0-9]+),,,,\1]，也可以使用ttlsa.userid。备注: 别名不能重复，但是可以有多个
java--19.用矩阵求Fibonacci数列的第N项 bylijinnan fibonacci
参考了网上的思路，写了个Java版的： public class Fibonacci { final static int[] A={1,1,1,0}; public static void main(String[] args) { int n=7; for(int i=0;i<=n;i++){ int f=fibonac
Netty源码学习-LengthFieldBasedFrameDecoder bylijinnan java netty
先看看LengthFieldBasedFrameDecoder的官方API http://docs.jboss.org/netty/3.1/api/org/jboss/netty/handler/codec/frame/LengthFieldBasedFrameDecoder.html API举例说明了LengthFieldBasedFrameDecoder的解析机制，如下：实
AES加密解密 chicony 加密解密
AES加解密算法，使用Base64做转码以及辅助加密： package com.wintv.common; import javax.crypto.Cipher; import javax.crypto.spec.IvParameterSpec; import javax.crypto.spec.SecretKeySpec; import sun.misc.BASE64Decod
文件编码格式转换 ctrain 编码格式
package com.test; import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import java.io.IOException; import java.io.InputStream; import java.io.OutputStream;
mysql 在linux客户端插入数据中文乱码 daizj mysql 中文乱码
1、查看系统客户端，数据库，连接层的编码查看方法： http://daizj.iteye.com/blog/2174993 进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+------
好代码是廉价的代码 dcj3sjt126com 程序员读书
长久以来我一直主张：好代码是廉价的代码。当我跟做开发的同事说出这话时，他们的第一反应是一种惊愕，然后是将近一个星期的嘲笑，把它当作一个笑话来讲。当他们走近看我的表情、知道我是认真的时，才收敛一点。当最初的惊愕消退后，他们会用一些这样的话来反驳： “好代码不廉价，好代码是采用经过数十年计算机科学研究和积累得出的最佳实践设计模式和方法论建立起来的精心制作的程序代码。” 我只
Android网络请求库——android-async-http dcj3sjt126com android
在iOS开发中有大名鼎鼎的ASIHttpRequest库，用来处理网络请求操作，今天要介绍的是一个在Android上同样强大的网络请求库android-async-http，目前非常火的应用Instagram和Pinterest的Android版就是用的这个网络请求库。这个网络请求库是基于Apache HttpClient库之上的一个异步网络请求处理库，网络处理均基于Android的非UI线程，通
ORACLE 复习笔记之SQL语句的优化 eksliang SQL优化 Oracle sql语句优化 SQL语句的优化
转载请出自出处：http://eksliang.iteye.com/blog/2097999 SQL语句的优化总结如下 sql语句的优化可以按照如下六个步骤进行：合理使用索引避免或者简化排序消除对大表的扫描避免复杂的通配符匹配调整子查询的性能 EXISTS和IN运算符下面我就按照上面这六个步骤分别进行总结：
浅析：Android 嵌套滑动机制（NestedScrolling） gg163 android 移动开发滑动机制嵌套
谷歌在发布安卓 Lollipop版本之后，为了更好的用户体验，Google为Android的滑动机制提供了NestedScrolling特性 NestedScrolling的特性可以体现在哪里呢？ 比如你使用了Toolbar，下面一个ScrollView，向上滚
使用hovertree菜单作为后台导航 hvt JavaScript jquery .net hovertree asp.net
hovertree是一个jquery菜单插件，官方网址：http://keleyi.com/jq/hovertree/ ，可以登录该网址体验效果。 0.1.3版本：http://keleyi.com/jq/hovertree/demo/demo.0.1.3.htm hovertree插件包含文件： http://keleyi.com/jq/hovertree/css
SVG 教程（二）矩形天梯梦 svg
SVG <rect> SVG Shapes SVG有一些预定义的形状元素，可被开发者使用和操作：矩形 <rect> 圆形 <circle> 椭圆 <ellipse> 线 <line> 折线 <polyline> 多边形 <polygon> 路径 <path>
一个简单的队列 luyulong java 数据结构队列
public class MyQueue { private long[] arr; private int front; private int end; // 有效数据的大小 private int elements; public MyQueue() { arr = new long[10]; elements = 0; front
基础数据结构和算法九：Binary Search Tree sunwinner Algorithm
A binary search tree (BST) is a binary tree where each node has a Comparable key (and an associated value) and satisfies the restriction that the key in any node is larger than the keys in all
项目出现的一些问题和体会 Steven-Walker DAO Web servlet
第一篇博客不知道要写点什么，就先来点近阶段的感悟吧。这几天学了servlet和数据库等知识，就参照老方的视频写了一个简单的增删改查的，完成了最简单的一些功能，使用了三层架构。 dao层完成的是对数据库具体的功能实现，service层调用了dao层的实现方法，具体对servlet提供支持。 &
高手问答：Java老A带你全面提升Java单兵作战能力！ ITeye管理员 java
本期特邀《Java特种兵》作者：谢宇，CSDN论坛ID: xieyuooo 针对JAVA问题给予大家解答，欢迎网友积极提问，与专家一起讨论! 作者简介：淘宝网资深Java工程师，CSDN超人气博主，人称“胖哥”。 CSDN博客地址： http://blog.csdn.net/xieyuooo 作者在进入大学前是一个不折不扣的计算机白痴，曾经被人笑话过不懂鼠标是什么，

集体智慧编程——博客文章聚类-Python实现

你可能感兴趣的:(集体智慧编程)