weixin_34107955

SimRank:基于图结构的相似度计算方法

简单理解SimRank

图1.二部图

所谓二部图(bipartite graphs)，是指图中的节点可以分这两个子集，任意一条边关联的两个节点分别来自于这两个子集。用I(v)和O(v)分别表示节点v的in-neighbors和out-neighbors。看上面的二部图，我们把A、B当成两个人，把a、b、c当成三件商品，有向边代表人购买的商品。simrank的基本思想是：如果两个实体相似，那么跟它们相关的实体应该也相似。比如在上图中如果a和c相似，那么A和B应该也相似，因为A和a相关，而B和c相关。

SimRank的基本公式：

\begin{equation}s(a,b)=\frac{C}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}s(I_i(a),I_j(b))\label{basic}\end{equation}

s(a,b)是节点a和b的相似度，当a=b时，s(a,b)=1。$I_i(a)$表示a的第i个in-neighbor。当$I(a)=\emptyset$或$I(b)=\emptyset$时式\eqref{basic}为0。\eqref{basic}式用一句话描述就是：a和b的相似度等于a的in-neighbors和b的in-neighbors相似度的平均值。参数C是个阻尼系数，它的含义可以这么理解：假如I(a)=I(b)={A}，按照\eqref{basic}式计算出sim(a,b)=C*sim(A,A)=C，所以$C\in(0,1)$。

把式\eqref{basic}应用于图1所示的二部图就是：

\begin{equation}s(A,B)=\frac{C_1}{|O(A)||O(B)|}\sum_{i=1}^{|O(A)|}\sum_{j=1}^{|O(B)|}s(O_i(A),O_j(B))\ \ \ \ for\ A\ne{B}\label{out}\end{equation}

\begin{equation}s(a,b)=\frac{C_2}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}s(I_i(a),I_j(b))\ \ \ \ for\ a\ne{b}\label{in}\end{equation}

忽略$C_1$和$C_2$，\eqref{out}式是说买家A和B的相似度等于他们购买的物品之间相似度的平均值，\eqref{in}式是说物品a和b的相似度是购买它们的买家之间相似度的平均值。

对于非二部图的情况，一个节点既可能有in-neighbors也可能有out-neighbors，比如在论文引用的场景下，一篇论文既可能引用其他论文，也可能被其他论文引用。站在引用的角度，两篇论文的相似度为

\begin{equation}s_1(a,b)=\frac{C_1}{|O(a)||O(b)|}\sum_{i=1}^{|O(a)|}\sum_{j=1}^{|O(b)|}s_2(O_i(a),O_j(b))\label{hout}\end{equation}

站在被引用的角度，两篇论文的相似度为

\begin{equation}s_2(a,b)=\frac{C_2}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}s_1(I_i(a),I_j(b))\label{hin}\end{equation}

根据实际的应用场景，最终的s(a,b)可以采用\eqref{hout}和\eqref{hin}其中的任何一个，或者是两者的综合。

Naive SimRank

SimRank迭代算法：

$R_0(a,b)=\left\{\begin{matrix}0\ \ \ \ if\ a\ne{b}\\1\ \ \ \ if\ a=b\end{matrix}\right.$

$R_{k+1}(a,b)=\left\{\begin{matrix}\frac{C}{|I(a)||I(b)|}\sum_{i=1}^{|I(a)|}\sum_{j=1}^{|I(b)|}R_k(I_i(a),I_j(b))\ \ \ \ if\ a\ne{b}\\1\ \ \ \ if\ a=b\end{matrix}\right.$

$R_k(*,*)$是k的单调不减函数，$lim_{k\to\infty}R_k(a,b)=s(a,b)$，实践中发现$R_k(*,*)$收敛得很快，k不需要设得太大。

下面给出矩阵的形式，因为直接使用上面的迭代公式很难展开并行计算，数量稍微大一些（比如上十万）时在单机上跑时间和空间开销非常大。

\begin{equation}\left\{\begin{matrix}S^{(0)}=(1-c)\cdot{I_n}\\S^{(k+1)}=c\cdot{Q^T}\cdot{S^{(k)}}\cdot{Q}+(1-c)\cdot{I_n}\end{matrix}\right.\label{juzhen}\end{equation}

S是相似度矩阵。Q是转移概率矩阵，它的每一列和为1，如果从节点i可以转移到节点j，并且这样的节点i一共有n个，则$Q_{i,j}=\frac{1}{n}$

迭代误差的上界：

\begin{equation}\|S^{(k)}-S\|_{max}\le{c}^{k+1}\ \ \ \ (\vee{k}=0,1,2\ldots)\label{err_ceil}\end{equation}

矩阵的max范数定义为：

$\|X_{p\times{q}}\|_{max}\stackrel{def}{=}max_{i=1}^{p}max_{j=1}^{q}\mid{x}_{i,j}\mid$

好了，来做个小练习。图2是一张网页链接关系图，表示一所大学的主页上放了A、B两个教授的个人主页的链接，教授B和学生B的个人主页互相链接了对方，等等。下面我们要通过这种链接关系求这5个节点的相似度。

图2. 网页链接关系图

首先用一个文本文件来存储上面的有向图。

linkgraph

univ	profA	profB
profA	studentA
studentA	univ
profB	studentB
studentB	profB

文件中每一行的首列是一个节点，后面的列是首列的out-neighbors，即在图上游走时只能顺着箭头的方向。对于二部图情况就不一样了，\eqref{out}式是顺着二部图箭头的方向，\eqref{in}式是逆着二部图箭头的方向，即每一条边都是允许双向游走的。于是图1所示的二部图可以表示为：

linkgraph_bipartite

A    a    b
B    b    c
a    A
b    A    B
c    B

naive_simrank.py

#!/usr/bin/env python
# coding=utf-8

import numpy as np
import scipy as sp

nodes = []  # 所有的节点存入数组
nodesnum = 0  # 所有节点的数目
nodes_index = {}  # <节点名，节点在nodes数组中的编号>
damp = 0.8  # 阻尼系数
trans_matrix = np.matrix(0)  # 转移概率矩阵
sim_matrix = np.matrix(0)  # 节点相似度矩阵


def initParam(graphFile):
    '''
    构建nodes、nodes_index、trans_matrix和第0代的sim_matrix.
    输入文件行格式要求：node\toutneighbor\toutneighbor\t...或 node\tinneighbor\tinneighbor\t...
    '''
    global nodes
    global nodes_index
    global trans_matrix
    global sim_matrix
    global damp
    global nodesnum

    link_in = {}
    for line in open(graphFile, "r", 1024):
        arr = line.strip("\n").split()
        node = arr[0]
        nodeid = -1
        if node in nodes_index:
            nodeid = nodes_index[node]
        else:
            nodeid = len(nodes)
            nodes_index[node] = nodeid
            nodes.append(node)
        for ele in arr[1:]:
            outneighbor = ele
            outneighborid = -1
            if outneighbor in nodes_index:
                outneighborid = nodes_index[outneighbor]
            else:
                outneighborid = len(nodes)
                nodes_index[outneighbor] = outneighborid
                nodes.append(outneighbor)
            inneighbors = []
            if outneighborid in link_in:
                inneighbors = link_in[outneighborid]
            inneighbors.append(nodeid)
            link_in[outneighborid] = inneighbors

    nodesnum = len(nodes)
    trans_matrix = np.zeros((nodesnum, nodesnum))
    for node, inneighbors in link_in.items():
        num = len(inneighbors)
        prob = 1.0 / num
        for neighbor in inneighbors:
            trans_matrix[neighbor, node] = prob

    sim_matrix = np.identity(nodesnum) * (1 - damp)


def iterate():
    '''
    迭代更新相似度矩阵
    '''
    global trans_matrix
    global sim_matrix
    global damp
    global nodesnum

    sim_matrix = damp * np.dot(np.dot(trans_matrix.transpose(),
                                      sim_matrix), trans_matrix) + (1 - damp) * np.identity(nodesnum)


def printResult(sim_node_file):
    '''
    打印输出相似度计算结果
    '''
    global sim_matrix
    global link_out
    global link_in
    global nodes
    global nodesnum

    # 打印node之间的相似度
    f_out_user = open(sim_node_file, "w")
    for i in range(nodesnum):
        f_out_user.write(nodes[i] + "\t")
        neighbour = []
        for j in range(nodesnum):
            if i != j:
                sim = sim_matrix[i, j]
                if sim == None:
                    sim = 0
                if sim > 0:
                    neighbour.append((j, sim))
        # 按相似度由大到小排序
        neighbour = sorted(
            neighbour, cmp=lambda x, y: cmp(x[1], y[1]), reverse=True)
        for (u, sim) in neighbour:
            f_out_user.write(nodes[u] + ":" + str(sim) + "\t")
        f_out_user.write("\n")
    f_out_user.close()


def simrank(graphFile, maxIteration):
    global nodes_index
    global trans_matrix
    global sim_matrix

    initParam(graphFile)
    print "nodes:"
    print nodes_index
    print "trans ratio:"
    print trans_matrix
    for i in range(maxIteration):
        print "iteration %d:" % (i + 1)
        iterate()
        print sim_matrix


if __name__ == '__main__':
    graphFile = "../data/linkgraph"
    sim_node_file = "../data/nodesim_naive"
    maxIteration = 10
    simrank(graphFile, maxIteration)
    printResult(sim_node_file)

最终得到5个节点两两之间的相似度

nodesim_naive

univ	profB:0.10803511296	studentB:0.02203058176	
profA	profB:0.36478881792	studentB:0.08159625216	
profB	profA:0.36478881792	univ:0.10803511296	studentB:0.0642220032	studentA:0.03022258176	
studentA	studentB:0.28216737792	profB:0.03022258176	
studentB	studentA:0.28216737792	profA:0.08159625216	profB:0.0642220032	univ:0.02203058176

平方缓存法

\eqref{err_ceil}已经证明了simrank的收敛速度是非常快的，下面给出一种可以加速收敛的方法--平方缓存法。

\begin{equation}\left\{\begin{matrix}S_{\left \langle 2 \right \rangle }^{(0)}=(1-c)\cdot{I_n}\\S_{\left \langle 2 \right \rangle }^{(k+1)}=S_{\left \langle 2 \right \rangle }^{(k)}+c^{2^k}\cdot{(Q^{2^k})^T}\cdot{S_{\left \langle 2 \right \rangle }^{(k)}}\cdot{Q^{2^k}}\end{matrix}\right.\label{square_cache}\end{equation}

平方缓存法的收敛速度更惊人：

\begin{equation}\|S_{\left \langle 2 \right \rangle }^{(k)}-S\|_{max}\le{c}^{2^k}\ \ \ \ (\vee{k}=0,1,2\ldots)\label{square_err_ceil}\end{equation}

注意$Q^{2^k}=(Q^{2^{(k-1)}})^2$即每次迭代不必从头计算$Q^{2^k}$，只需要在上一次迭代的基础上平方一下就可以了，这其实就是\eqref{square_cache}比\eqref{juzhen}快的全部原因。事实上：

$S_{\left \langle 2 \right \rangle }^{(k)}=S^{(2^k-1)}$

我们用平方缓存法重新计算图2中各节点的相似度。

square_cache_simrank.py

#!/usr/bin/env python
# coding=utf-8

import numpy as np
import scipy as sp

nodes = []  # 所有的节点存入数组
nodesnum = 0  # 所有节点的数目
nodes_index = {}  # <节点名，节点在nodes数组中的编号>
damp = 0.8  # 阻尼系数
trans_matrix = np.matrix(0)  # 转移概率矩阵
sim_matrix = np.matrix(0)  # 节点相似度矩阵


def initParam(graphFile):
    '''
    构建nodes、nodes_index、trans_matrix和第0代的sim_matrix.
    输入文件行格式要求：node\toutneighbor\toutneighbor\t...或 node\tinneighbor\tinneighbor\t...
    '''
    global nodes
    global nodes_index
    global trans_matrix
    global sim_matrix
    global damp
    global nodesnum

    link_in = {}
    for line in open(graphFile, "r", 1024):
        arr = line.strip("\n").split()
        node = arr[0]
        nodeid = -1
        if node in nodes_index:
            nodeid = nodes_index[node]
        else:
            nodeid = len(nodes)
            nodes_index[node] = nodeid
            nodes.append(node)
        for ele in arr[1:]:
            outneighbor = ele
            outneighborid = -1
            if outneighbor in nodes_index:
                outneighborid = nodes_index[outneighbor]
            else:
                outneighborid = len(nodes)
                nodes_index[outneighbor] = outneighborid
                nodes.append(outneighbor)
            inneighbors = []
            if outneighborid in link_in:
                inneighbors = link_in[outneighborid]
            inneighbors.append(nodeid)
            link_in[outneighborid] = inneighbors

    nodesnum = len(nodes)
    trans_matrix = np.zeros((nodesnum, nodesnum))
    for node, inneighbors in link_in.items():
        num = len(inneighbors)
        prob = 1.0 / num
        for neighbor in inneighbors:
            trans_matrix[node, neighbor] = prob

    sim_matrix = np.identity(nodesnum) * (1 - damp)


def iterate():
    '''
    迭代更新相似度矩阵
    '''
    global trans_matrix
    global sim_matrix
    global damp
    global nodesnum

    damp=damp**2
    trans_matrix=np.dot(trans_matrix,trans_matrix)
    sim_matrix = damp * np.dot(np.dot(trans_matrix,
                                      sim_matrix), trans_matrix.transpose()) + sim_matrix


def printResult(sim_node_file):
    '''
    打印输出相似度计算结果
    '''
    global sim_matrix
    global link_out
    global link_in
    global nodes
    global nodesnum

    # 打印node之间的相似度
    f_out_user = open(sim_node_file, "w")
    for i in range(nodesnum):
        f_out_user.write(nodes[i] + "\t")
        neighbour = []
        for j in range(nodesnum):
            if i != j:
                sim = sim_matrix[i, j]
                if sim == None:
                    sim = 0
                if sim > 0:
                    neighbour.append((j, sim))
        # 按相似度由大到小排序
        neighbour = sorted(
            neighbour, cmp=lambda x, y: cmp(x[1], y[1]), reverse=True)
        for (u, sim) in neighbour:
            f_out_user.write(nodes[u] + ":" + str(sim) + "\t")
        f_out_user.write("\n")
    f_out_user.close()


def simrank(graphFile, maxIteration):
    global nodes_index
    global trans_matrix
    global sim_matrix

    initParam(graphFile)
    print "nodes:"
    print nodes_index
    print "trans ratio:"
    print trans_matrix
    for i in range(maxIteration):
        print "iteration %d:" % (i + 1)
        iterate()
        print sim_matrix


if __name__ == '__main__':
    graphFile = "../data/linkgraph"
    sim_node_file = "../data/nodesim_square"
    maxIteration = 10
    simrank(graphFile, maxIteration)
    printResult(sim_node_file)

最终算得的节点相似度虽然跟naive方法不一致，但相似度排序跟naive方法是完全一致的。

Arnoldi迭代降维法

采用\eqref{square_cache}式每次迭代都要作矩阵的乘法，当矩阵稍微大一些时对时间和空间的消耗是非常惊人的，两个$n\times{n}$的方阵相乘时间复杂度为$n^3$，即使采用strassen分治法也需要$O(n^{2.81})$的时间复杂度，况且strassen要求两个矩阵是方阵且边长为2的整次幂。如果我们能够对\eqref{square_cache}式中的Q和S进行降维，势必会节省大量计算时间。

Arnoldi迭代法是一种对高维稀疏矩阵（说的是上文中的转移概率矩阵Q）进行降维的方法。

\begin{equation}Q=V\cdot{H}\cdot{V^T}\label{decompose}\end{equation}

其中V的各列正交，且模长为1。$V=[v_0\mid{v_1}\mid\ldots{v}_{r-1}]$，其中$v_i$是V的第i列。

H是$r\times{r}$的上三角矩阵，r是Q的秩，形如：
$H_{r\times{r}}=\begin{bmatrix}h_{1,1} & h_{1,2} & h_{1,3} & \cdots & h_{1,r}\\h_{2,1} & h_{2,2} & h_{2,3} & \cdots & h_{2,r}\\0 & h_{3,2} & h_{3,3} & \cdots & h_{3,r}\\\vdots & \ddots & \ddots & \ddots & \vdots\\0 & \cdots & 0 & h_{r,r-1} & h_{r,r}\end{bmatrix}$

V和H的计算流程如下：

$step1.$

$v_0=[1,0,0,\ldots]^T$

$step2.$

$for\ k \in [1,\alpha]$

$\ \ \ \ v_k=Q\cdot{v_{k-1}}$

$\ \ \ \ for\ j \in [0,k)$

$\ \ \ \ \ \ \ \ H[j][k-1]=v_j^T\cdot{v_k}$

$\ \ \ \ \ \ \ \ v_k=v_k-H[j][k-1]\cdot{v_j}$

$\ \ \ \ norm2=\|v_k\|_2$

$\ \ \ \ if\ norm2=0$

$\ \ \ \ \ \ \ \ break$

$\ \ \ \ H[k][k-1]=norm2$

$\ \ \ \ v_k=\frac{v_k}{norm2}$

$step3.$

$V舍弃最后一列，H舍弃最后一行$

在step2中，如果是由于norm2=0导致的最外层for循退出，则得到的H的边长为Q的秩即r；如果是由于达到了人为设定的循环上限$\alpha$，则得到的H的边长为$\alpha$。

arnoldi.py

#!/usr/bin/env pyton
# coding=utf-8

import numpy as np
from sparse_matrix import SparseMatrix

def arnoldi_iteration(Q, n, rank):
	'''
	对Q进行分解，QV=VH。
	Q是输入参数，numpy.matrix类型，n行n列，Q的秩为r。
	V和H都是输出参数，numpy.matrix类型。
	V是n行r+1列，每列模长为1且各列正交。V的转置与逆相等。
	H是r+1行r列的上三角矩阵。
	rank用于限制循环次数，r<=rank。
	'''
	if rank > n or rank <= 0:
		rank = n
	V = np.zeros((n, 1))
	V[0, 0] = 1
	h_col_list=[]
	k = 1
	while k <= rank:
		h_col = []
		v_k = Q.

Python自定义鼠标指针工具(支持像素级编辑) 木木黄木木 python 计算机外设开发语言
Python自定义鼠标指针工具(支持像素级编辑)项目简介这是一个基于Python的鼠标指针自定义工具,可以让用户自由创建、编辑和设置Windows系统的鼠标指针。该工具提供了像素级编辑功能,支持多种绘图工具,并且可以直接将设计好的指针应用到系统中。主要功能像素级编辑器支持16x16到64x64多种尺寸铅笔、橡皮擦工具直线、矩形、圆形等几何图形工具填充/空心图形选择取色器功能热点设置可视化热点标记精
如何在Windows 10上安装Python？字节王德发 python windows python 开发语言
在今天的数字时代，Python已经成为了一个非常流行的编程语言。无论你是想做数据分析、网页开发，还是人工智能，Python都能满足你的需求。如果你使用的是Windows10系统，安装Python其实并不复杂。下面就让我带你一步一步走过这个过程，确保你可以顺利地在你的电脑上运行Python。1.准备工作在开始之前，确保你的Windows10系统已经更新到最新版本。打开“设置”，选择“更新与安全”，然
Dash-FastAPI-Admin 技术文档钟音洋Winona
Dash-FastAPI-Admin技术文档Dash-FastAPI-AdminAgeneralmiddleandbackendmanagementsystemdevelopedpurelyinPythonbasedonDash+FastAPI.基于Dash+FastAPI纯Python开发的一个通用中后台管理系统。项目地址:https://gitcode.com/gh_mirrors/da/Da
AttributeError: ‘NoneType‘ object has no attribute ‘astype‘ 冰虺 python
今天在复现fasterRCNN网络时，出现AttributeError:'NoneType'objecthasnoattribute'astype'报错，如下图所示通过dug,发现im的shape为none,究其原因是因为cv.imread无法读取图像，主要原因是因为我数据集中存在中文名称。更加详细的请参考一下大佬的博客pythoncv2.imread读取中文路径的图片返回为None的问题_陶将的
一个神奇 Python 库，PyPDF2帮你在工作中轻松驾驭PDF 代码小念软件测试面试自动化测试 python pdf 职场和发展软件测试面试
大家好，很多人学习Python进行办公自动化，其中一个场景就是处理PDF，PyPDF2是一个非常强大的Python库，它允许你管理和操作PDF文件。不论是分割、合并、旋转还是加密PDF，PyPDF2都能轻松应对。PyPDF2是一个纯Python编写的库，用于读取PDF文件和操作PDF页面。它允许你进行以下操作：•读取PDF:使用PyPDF2读取PDF文件非常简单。首先需要导入库，然后加载PDF文件
如何利用PyPDF2库轻松提取PDF中的文本？字节王德发 python pdf
在数字化时代，PDF格式的文件随处可见。从电子书到官方文档，PDF是我们经常遇到的一种文件格式。不过，有时候我们需要从这些PDF里提取文本，这就需要一些工具来帮忙了！今天我们就来聊聊Python的一个强大工具——PyPDF2库，它能让我们轻松实现PDF文本提取。PyPDF2库的简介PyPDF2是一个开源的Python库，主要用于处理PDF文件。这个库支持多种操作，包括合并、拆分、加密和解密PDF文
使用MySQL Yum 源在Linux上安装MySQL Run Out Of Brain mysql linux 数据库
OracleLinux、RedHatEnterpriseLinux、CentOS和Fedora的MySQLYum源提供了RPM安装包，用于安装MySQL服务器、客户端、MySQLWorkbench、MySQL实用程序、MySQL路由器、MySQLShell、连接器/ODBC、连接器/Python等在你开始之前作为一种流行的开源软件，MySQL以其原始或重新打包的形式被广泛安装在来自各种来源的许多系
python中的Counter函数算法小菜鸟moon python python 开发语言
在Python中，Counter是collections模块中的一个类，用于统计可迭代对象中元素的出现次数，并以字典的形式返回，键为元素，值为对应的计数。它非常适合处理频率统计问题。用之前必须先导入fromcollectionsimportCounter统计元素的频率ss="helloworld"ss_counter=Counter(ss)print(ss_counter)Counter({'l'
测试江湖：为什么大多数人宁愿吃生活的苦，也不愿意吃学习的苦爱吃香菜软件测试自动化测试职场经验学习软件测试自动化测试测试工具职场经验程序员功能测试
面试求职：「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）职场经验干货：软件测试工程师简历上如何编写个人信息（一周8个面试）软件测试工程师简历上如何编写专业技能（一周8个面试）软件测
Python--类墨上烟雨 Python python 开发语言
Python--类一、类的定义方法二、创建类的实例三、创建类的成员1、创建属性创建类属性创建实例属性2、创建方法实例方法类方法四、类成员的访问权限1、保护属性成员2、私有属性成员五、装饰器一、类的定义方法在Python中，类可以通过关键字class来定义。类的定义包含在一个代码块中，并且通常以冒号:结尾。类的定义方法有以下几种：1.空类定义：classMyClass:pass这是一个最简单的类定义
【Steg】CTF 隐写术题目解题思路图 D-river CTF 安全网络安全
以下是专门针对CTF隐写术（Steganography）的解题思路与步骤树形图，包含常见分类、工具链和关键方法：CTF隐写术题目解题思路图隐写术（Steganography）├──1.图片隐写（ImageSteg）│├──1.1LSB隐写（最低有效位）││├──步骤：StegSolve逐通道分析，提取LSB数据。││└──工具：StegSolve、zsteg、PythonPIL库。│││├──1.
python中Counter的用法 V.E. python
Python中，Counter是一个字典子类，用于计算可哈希对象（如列表、元组、字符串）中元素的出现次数。Counter可以用于快速计数元素，而不需要手动循环计算。以下是一些Counter的用法：导入Counter：fromcollectionsimportCountermy_list=[1,2,3,2,4,3,1,2,2]my_counter=Counter(my_list)访问Counter对
Python精进系列：ord 函数进一步有进一步的欢喜 python 开发语言
目录一、引言二、基本概念2.1Unicode编码简介2.2ord函数定义三、使用示例3.1处理ASCII字符3.2处理非ASCII字符四、与chr函数的关系五、实际应用场景5.1字符排序5.2简单加密算法5.3字符验证六、注意事项6.1输入参数要求6.2跨平台兼容性七、总结一、引言在Python编程里，字符和编码的处理是常见的操作。ord函数作为Python内置函数之一，在字符和Unicode编码
Python精进系列：divmod 函数进一步有进一步的欢喜 python
目录一、引言二、基本语法与原理2.1语法格式2.2返回值2.3原理理解三、使用示例3.1整数运算示例3.2浮点数运算示例四、应用场景4.1时间单位转换4.2数据分组4.3循环计数与位置计算五、注意事项5.1除数不能为零5.2浮点数运算的精度问题六、总结一、引言divmod()函数就是其中一个小巧而强大的工具，它能同时进行除法运算并返回商和余数，在很多场景下都能大显身手。本文将对divmod()函数
如何本地运行和开发 Langchain 项目 dgay_hua langchain python
在这篇指南中，我们将详细讲解如何在本地运行Langchain仓库，并提交您的第一个代码变更。如果您希望在开发容器中操作，可参考.devcontainer文件夹中的指南。技术背景介绍Langchain项目是一个高级框架，围绕构建“链”这种概念来组织代码。每个链的基本构件是微型逻辑单元，它们彼此结合，并可通过可编辑的配置文件进行管理。这个项目依托于Python生态，利用了Poetry作为其依赖管理工具
Python 基础：类诸葛思颖 python python 开发语言
目录一、类的概念二、定义类三、创建对象并进行访问四、修改属性的值方法一：句点表示法直接访问并修改方法二：通过方法进行修改五、继承继承父类属性和方法重写父类方法六、将实例用作属性七、导入类导入单个类从一个模块中导入多个类导入整个模块导入模块中的所有类八、一些代码编写规范遇到看不明白的地方，欢迎在评论中留言呐，一起讨论，一起进步！本文参考：《Python编程：从入门到实践（第2版）》一、类的概念类是是
‌Visual Studio Code（VS Code）支持的编程语言计算机辅助工程 vscode
‌JavaScript‌：VSCode原生支持JavaScript，提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查‌。‌TypeScript‌：作为JavaScript的超集，TypeScript在VSCode中也得到原生支持，提供类似的编辑功能‌。‌Python‌：通过安装Python扩展，VSCode支持Python编程，提供调试、Int
Python精进系列：Counter 函数进一步有进一步的欢喜 python 编程语言
目录一、Counter函数概述二、基本使用案例（一）列表元素计数（二）字符串字符计数（三）元组计数三、Counter对象的常用方法（一）most_common()方法（二）update()方法（三）subtract()方法（四）elements()方法四、Counter对象的数学运算（一）加法运算（二）减法运算（三）交集运算（四）并集运算五、实际应用场景（一）文本分析（二）数据分析（三）游戏开发应
RK3568笔记六十八：Yolov11目标检测部署测试殷忆枫 RK3568学习笔记笔记 YOLO
若该文为原创文章，转载请注明原文出处。看到yolov11出了，山水无移大佬测试通过，跟个风测试一下效果。使用的是正点原子的ATK-DLRK3568开发板。这里不训练自己的模型了，使用官方模型测试。一、环境搭建1、下载源码ultralytics/ultralytics:UltralyticsYOLO112、创建虚拟环境condacreate-nyolov11_envpython=3.83、激活con
记一次多线程导入问题排查过程程序辕日记 java MySql java spring boot
记一次多线程导入问题排查过程1.需求2.遇到问题3.排查解决问题1.需求大数据量的核对：现在有1000个excel文件，每个excel文件内有21个sheet页，现在要对这些数据进行核对，需要先将这些数据导入到库中，再进行核对。2.遇到问题库使用的是MySql，程序是Java，springcloud生态，在串行导入的时候，导入一次大概需要60分钟，现在对其进行改造，使用多线程导入，其思路为：创建线
【大数据】大数据处理-Lambda架构-Kappa架构 weixin_33884611 大数据系统架构
大数据处理-Lambda架构-Kappa架构elasticsearch-headElasticsearch-sqlclientNLPchina/elasticsearch-sql:UseSQLtoqueryElasticsearch360企业安全V5.6SP1,杨军01,您好!lamda架构_百度搜索Lambda架构vsKappa架构-数据源博客-CSDN博客数据系统架构——Lambdaarchi
Python 爬虫实战：从大众点评爬取餐厅评价，探寻美食打卡地西攻城狮北 python 爬虫美食实战案例
目录引言一、项目背景与需求分析1.1大众点评平台的特点1.2数据爬取目标二、技术选型与工具准备2.1技术选型2.2工具准备三、爬取餐厅信息3.1获取餐厅列表3.2获取餐厅详情四、数据存储五、数据处理与分析5.1数据清洗5.2数据分析六、可视化展示七、总结与展望引言大众点评作为国内知名的本地生活服务平台，提供了丰富的餐厅信息和用户评价。通过爬取大众点评上的餐厅评价数据，我们可以分析餐厅的受欢迎程度、
Python高级开发工程师巴啦啦小魔仙变身 python 开发语言
Python高级开发工程师通常会围绕技术能力、项目经验、问题解决能力等方面展开,以下为你详细介绍面试的常见内容、准备方式及注意事项:常见面试内容技术基础语言特性:深入理解Python的高级特性,如装饰器、元类、描述符等的原理和应用场景。例如,面试官可能会要求你现场编写一个装饰器来实现函数执行时间的统计。数据结构与算法:熟悉常见的数据结构(如列表、字典、集合、堆、栈、队列、链表、树、图等)和算法(如
Python爬虫实战010：反爬取机制学习若北辰 Python爬虫教程 python 爬虫开发语言
#-*-coding:utf-8-*-"""@ModuleName:demo_001@Function:@Author:@Time:2020/12/28上午11:21"""fromlxmlimportetreeimportpandasaspdimportreimportrandomimporturllibimportrequestsimporttimeimportosimportjson
2024年大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别，2024年最新你花了多久弄明白架构设计 2401_84182146 程序员大数据面试学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上大数据知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新需要这份系统化资料的朋友，可以戳这里获取虽然Lambda架构使用起来十分灵活，并且可以适用于很多的应用场景，但在实际应用的时候，Lambda架构也
大数据技术4：Lambda和Kappa架构区别_lambda架构和kappa架构区别(3) 2301_76348014 程序员大数据面试学习
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化资料的朋友，可以戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！Lambda架构总共由三层系统组成：批处理层（Batc
python while循环 18例实相无相 python 开发语言 while 循环
pythonwhile循环18例打印1到10的数字i=1whilei=1:print(i)i-=1这个例子中，我们使用了while循环来打印10到1的数字。首先，我们将i的值设置为10，然后在循环中检查i是否大于或等于1。如果是，我们打印i的值，然后将i的值减1。这个过程一直重复，直到i的值小于1为止。打印1到10的偶数i=1whilei<=10:ifi%2==0:print(i)i+=1这个例子
Python的函数活跃家族 python
1、函数的相互调用函数里可以调用函数：函数一定是调用的时候才会执行函数体的代码。如果函数里调用函数需要传参，这个传参的数据可以再次参数化。注意代码执行的顺序：先执行所有顶格的代码：运行函数的定义，函数体缩进的的代码不会执行；调用函数的时候才会运行函数体的内容2、函数的作用域全局变量：直接定义在py文件(模块)且函数外部的变量，叫全局变量；全局变量在当前文件中任何地方都可以使用，包括在函数里使用；函
人工智能学习星月IWJ 人工智能机器学习深度学习神经网络目标检测人工智能
//-----初探-----//人工智能三大核心要素数据/算法/算力人工智能是通过机器来模拟人类认知能力的技术机器学习/神经网络/深度学习(多层隐藏层神经网络)tf1.14python3.5keras2.1.5//-----数学基础&&数字图像-----//向量大小/方向矢量(有大小和方向)标量(只有大小没有方向(长度))单位向量线性变换(矩阵运算)T(v+w)=T(v)+T(w)T(cv)=cT
Python while循环东北银儿 python基础知识 python
1.简介：while循环是不断运行，直到指定的条件不满足为止，不同于for循环。for循环是针对于集合中每个元素都执行相同的一个代码块。2.while循环的使用：#使用while循环从1数到5number=1whilenumber5:breakprint(number)number+=1#输出结果123454.continue语句：当满足一个条件要返回到循环开头，并根据条件测试结果决定是否继续执行
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen

SimRank:基于图结构的相似度计算方法

简单理解SimRank

Naive SimRank

平方缓存法

Arnoldi迭代降维法

你可能感兴趣的:(python,大数据)