村头陶员外

论文分享 -- >Graph Embedding -- >struc2vec

博客内容将首发在微信公众号"跟我一起读论文啦啦"，上面会定期分享机器学习、深度学习、数据挖掘、自然语言处理等高质量论文，欢迎关注！

本次要总结和分享的论文是struc2vec，参考的代码code，不同于以往根据顶点在图中位置以及与其他顶点距离关系来学习顶点的表示，本论文提出的一种独立于顶点位置，属性的方法来捕捉顶点的stronger notions of structural identity，并且学习到顶点之间的structural similarity。这样对于距离很远的相似顶点，也能学习到相似的潜在表示。

论文动机以及创新点

以往的 state-of-the-art 图表示方法，都是根据顶点在图中位置以及与其他顶点距离关系来学习顶点的表示，对于距离很远的相似顶点，无法很好的适用。
大量的实验表明，对于现有节点表示学习的state-of-the-art 方法，未能捕捉到顶点间structural similarity和structural equivalence，而struc2vec在对此能有更优异的表现。
本论文提出一种无监督的方法来捕捉顶点的 structural identity，该方法简称为struc2vec，主要有以下三个点：
1. 独立于顶点标签和边属性及其在网络中的位置来学习节点之间的结构相似性。该方法可以判断相距很远，并在不同子图中识别结构相似的顶点。
2. 建立一个多层结构图（multilayer graph）来衡量顶点间的结构相似性，层次越高，对structural similarity越严格。特别是，在层次的底部，顶点之间的结构相似性仅取决于它们的度，而在层次的顶部，相似性则取决于整个网络（从顶点的角度）。
3. 为顶点生成随机上下文，这些节点是通过遍历多层结构图（注意：是构建的multilayer graph，而不是原始图网络）的加权随机游动观察到的结构相似的顶点序列。因此，经常出现的具有相似上下文的两个节点可能具有相似的结构。语言模型可以利用这种上下文来学习顶点的潜在表示。

struc2vec

主要有以下步骤：

由原图，构建带权重的多层结构图（multilayer graph），每个层次都表示在不同跳数（layer）上的一个无向图，无向图上每两个顶点都是相连的，其中边的权重由该相邻顶点的度序列的相似度决定，度序列越相似边权重越大。相同顶点在不同层次（layer）上是相连的。
在构建好的multilayer graph上进行带权重的随机游走，构建顶点的上下文向量，然后利用NLP中skipGram进行表示学习。

原图以及度序列

在本文中以下图进行举例

第一跳：与顶点直接相连的顶点集合；第二跳：与顶点隔边相连的顶点集合；第三跳：与顶点隔了三条边的顶点集合
度序列： $s(R_k(i))$ 表示与顶点i相隔k条边的顶点集合内，所有顶点的度组成的有序度序列。

构建多层结构图（multilayer graph）及随机游走

请结合论文详看下图

$g(s(R_k(j)), s(R_k(m)))$ ：表示顶点 $j, m$ 在第k跳的度序列的相似度，论文中采用的是dtw（动态时间规整）方法来衡量两序列的相似度，g 值越大，相似度越小，反之相似度越大。至于dtw如何衡量序列相似度，需要读者自行查看相关资料，这里不详述了。

$w_k(j, m)$ ：表示 $multilayer\ graph$ 第k层无向图中，顶点 $j$ 与 $m$ 边的权重，其权重值由原图中顶点 $j, m$ 在第k跳的度序列的相似度与 $f_{k-1}(j,m)$ （其中 $f_{0}(j,m) = 0$ ）决定。由此可以构建 $multilayer\ graph$ 每一层中无向图中两两顶点相连。由上图中可以看出， $f_k$ 是单调不递减的，故 $w_k$ 是单调不递增的。

$w(i_k,i_{k+1})、w(i_k,i_{k-1})$ ： $multilayer\ graph$ 中相邻层中对应顶点是相连的，如上图中顶点 $i、i_2 与 i_2、i_3$ 都是有边相连，并且这些边是有方向的，即 $w(i_2,i_3) != w(i_3, i_2)$

$p_k(j,m)、p_k(i_2,i_3)$ ：随机游走的边概率，随机游走概率由边权重决定，边权重越大，选择该边进行游走的概率越大。需要注意的是：每次随机游走时，都需要考虑是否跨层游走，这个由超参数q决定，当生成的随机数大于q，则跨层，反之还留在本层游走。若跨层，还需要考虑向更高层还是更低层跨，这里有：
$w(i_k,i_{k+1}) = log(\tau _k(i)+e)$
$\tau _k(i) = \sum_{i'}1(w_k(i,i') > \bar{w_k}$

若顶点i在第k层的无向图中，与其他顶点的边权重都较大，说明当前层顶点不太适合作为该顶点 $i$ 的上下文，应该考虑跳到更高层去找合适的上下文，寻找更高级的上下文特征，因为更高层考虑的视野越大。

由以上规则可由原图构建multilayer graph，并根据边概率进行带权重的随机游走（论文代码里采用alias method，每次对multilayer graph中其他顶点进行游走概率采样，作为下一个要游走的顶点），来学习顶点的潜在表示，显然游走序列中的顶点具有结构相似性，这样即使两顶点即使相距很远，只要结构具有相似性，其学习到的潜在表示也会很类似。

优化

OPT1：改变 $s(R_k(i))$ 定义方式，例如 $s(R_k(i)) = (1,1,2,2,2,3,3,4)$ ，现在定义为： $s(R_k(i)) = (1,1,2,2,2,3,3,4)$ 压缩成 ${1,2}, {2,3}, {3,2},{4,1})$ ，同时需要变更dtw中计算两定顶点距离计算方式，详情请看论文。
OPT2：在上面的多层结构图（multilayer graph）中，在每一层中需要计算两两顶点之间的边权重以及游走概率，其实对于structural distance相差很大的两顶点（例如一个顶点度为20，另外一个顶点度为2，当在第一跳时，他们的structural distance就很大了）完全没必要计算，可用二分查找与顶点度相近的顶点，作为multilayer graph中与目标顶点相连的顶点，此时不是所有顶点两两相连；再计算他们之间的边权重，时间复杂度降低到 $O (l o g n)$ 。
OPT3：算法总共要计算 $k *$ 层，很多情况下，网络直径比平均距离要大得多，可以使用一个更小的k，比如平均距离等等来代替这个值。

代码

对于本论文方法，实现代码较为复杂，这里参考的代码为：code，大约花了不到一个下午时间把代码看明白了，下面详细讲下整个代码实现过程。

读图

def load_edgelist(file_, undirected=True):                                                                     
  G = Graph()                                                                                                  
  with open(file_) as f:                                                                                       
    for l in f:                                                                                                
    ┆ if(len(l.strip().split()[:2]) > 1):                                                                      
    ┆   x, y = l.strip().split()[:2]                                                                           
    ┆   x = int(x)                                                                                             
    ┆   y = int(y)                                                                                             
    ┆   G[x].append(y)                                                                                         
    ┆   if undirected:                                                                                         
    ┆   ┆ G[y].append(x)                                                                                       
    ┆ else:                                                                                                    
    ┆   x = l.strip().split()[:2]                                                                              
    ┆   x = int(x[0])                                                                                          
    ┆   G[x] = []                                                                                              
                                                                                                               
  G.make_consistent()  ##返回一个字典，key为顶点，value为原图中与该顶点有边相连的有序顶点列表                                                                                        
  return G

采用OPT1优化，层次遍历寻找每个顶点在不同跳（depth）上的度序列

def getCompactDegreeListsVertices(g,vertices,maxDegree,calcUntilLayer):
    degreeList = {}

    for v in vertices:
    ┆   degreeList[v] = getCompactDegreeLists(g,v,maxDegree,calcUntilLayer)

    return degreeList


def getCompactDegreeLists(g, root, maxDegree,calcUntilLayer):
    #pdb.set_trace()
    t0 = time()

    listas = {}
    vetor_marcacao = [0] * (max(g) + 1)

    # Marcar s e inserir s na fila Q
    queue = deque()
    queue.append(root)
    vetor_marcacao[root] = 1
    l = {}

    ## Variáveis de controle de distância
    depth = 0
    pendingDepthIncrease = 0 ## 用来记录当前顶点depth跳上顶点个数
    timeToDepthIncrease = 1 ## 用来标记当前顶点的depth跳上的顶点集和是否遍历完成

    while queue:
    ┆   vertex = queue.popleft()
    ┆   timeToDepthIncrease -= 1

    ┆   d = len(g[vertex]) ##当前顶点的度
    ┆   if(d not in l):
    ┆   ┆   l[d] = 0
    ┆   l[d] += 1 ## 记录度的频次

    ┆   for v in g[vertex]:
    ┆   ┆   if(vetor_marcacao[v] == 0):
    ┆   ┆   ┆   vetor_marcacao[v] = 1
    ┆   ┆   ┆   queue.append(v)
    ┆   ┆   ┆   pendingDepthIncrease += 1

    ┆   if(timeToDepthIncrease == 0): ## 若depth跳上的顶点遍历完成，则记录该层上度序列

    ┆   ┆   list_d = []
    ┆   ┆   for degree,freq in l.iteritems():
    ┆   ┆   ┆   list_d.append((degree,freq))
    ┆   ┆   list_d.sort(key=lambda x: x[0])
    ┆   ┆   listas[depth] = np.array(list_d,dtype=np.int32)

    ┆   ┆   l = {}

    ┆   ┆   if(calcUntilLayer == depth):
    ┆   ┆   ┆   break

    ┆   ┆   depth += 1
    ┆   ┆   timeToDepthIncrease = pendingDepthIncrease
    ┆   ┆   pendingDepthIncrease = 0


    t1 = time()
    logging.info('BFS vertex {}. Time: {}s'.format(root,(t1-t0)))

    return listas ## 返回该顶点上度序列字典，key为depth，value为元组（度，频次）

采用OPT2优化，二分查找与顶点度相近的顶点

def create_vectors(self):
        logging.info("Creating degree vectors...")
         degrees = {}
         degrees_sorted = set()
         G = self.G
         for v in G.keys():
                 degree = len(G[v])
                 degrees_sorted.add(degree)
                 if(degree not in degrees):
                         degrees[degree] = {}
                         degrees[degree]['vertices'] = deque()
                 degrees[degree]['vertices'].append(v)
         degrees_sorted = np.array(list(degrees_sorted),dtype='int')
         degrees_sorted = np.sort(degrees_sorted)

         l = len(degrees_sorted)
         for index, degree in enumerate(degrees_sorted):
                 if(index > 0):
                         degrees[degree]['before'] = degrees_sorted[index - 1]
                 if(index < (l - 1)):
                         degrees[degree]['after'] = degrees_sorted[index + 1]
         logging.info("Degree vectors created.")
         logging.info("Saving degree vectors...")
         saveVariableOnDisk(degrees,'degrees_vector') 
         ## 存储字典{度数：{对应度数的顶点集合，存在的与之相邻的上一个度数，存在的与之相邻的下一个度数}}，用来为后面的二分查找

二分查找与顶点度邻近的顶点

def verifyDegrees(degrees,degree_v_root,degree_a,degree_b):

    if(degree_b == -1):
    ┆   degree_now = degree_a
    elif(degree_a == -1):
    ┆   degree_now = degree_b
    elif(abs(degree_b - degree_v_root) < abs(degree_a - degree_v_root)):
    ┆   degree_now = degree_b
    else:
    ┆   degree_now = degree_a

    return degree_now

def get_vertices(v,degree_v,degrees,a_vertices):
    a_vertices_selected = 2 * math.log(a_vertices,2)
    #logging.info("Selecionando {} próximos ao vértice {} ...".format(int(a_vertices_selected),v))
    vertices = deque()

    try:
    ┆   c_v = 0

    ┆   for v2 in degrees[degree_v]['vertices']:
    ┆   ┆   if(v != v2):
    ┆   ┆   ┆   vertices.append(v2)
    ┆   ┆   ┆   c_v += 1
    ┆   ┆   ┆   if(c_v > a_vertices_selected):
    ┆   ┆   ┆   ┆   raise StopIteration

    ┆   if('before' not in degrees[degree_v]):
    ┆   ┆   degree_b = -1
    ┆   else:
    ┆   ┆   degree_b = degrees[degree_v]['before']
    ┆   if('after' not in degrees[degree_v]):
    ┆   ┆   degree_a = -1
    ┆   else:
    ┆   ┆   degree_a = degrees[degree_v]['after']
    ┆   if(degree_b == -1 and degree_a == -1):
    ┆   ┆   raise StopIteration
    ┆   degree_now = verifyDegrees(degrees,degree_v,degree_a,degree_b)

    ┆   while True:
    ┆   ┆   for v2 in degrees[degree_now]['vertices']:
    ┆   ┆   ┆   if(v != v2):
    ┆   ┆   ┆   ┆   vertices.append(v2)
    ┆   ┆   ┆   ┆   c_v += 1
    ┆   ┆   ┆   ┆   if(c_v > a_vertices_selected):
    ┆   ┆   ┆   ┆   ┆   raise StopIteration

    ┆   ┆   if(degree_now == degree_b):
    ┆   ┆   ┆   if('before' not in degrees[degree_b]):
    ┆   ┆   ┆   ┆   degree_b = -1
    ┆   ┆   ┆   else:
    ┆   ┆   ┆   ┆   degree_b = degrees[degree_b]['before']
    ┆   ┆   else:
    ┆   ┆   ┆   if('after' not in degrees[degree_a]):
    ┆   ┆   ┆   ┆   degree_a = -1
    ┆   ┆   ┆   else:
    ┆   ┆   ┆   ┆   degree_a = degrees[degree_a]['after']
    ┆   ┆
    ┆   ┆   if(degree_b == -1 and degree_a == -1):
    ┆   ┆   ┆   raise StopIteration
    ┆   ┆   degree_now = verifyDegrees(degrees,degree_v,degree_a,degree_b)

    except StopIteration:
    ┆   #logging.info("Vértice {} - próximos selecionados.".format(v))
    ┆   return list(vertices)

    return list(vertices) ## 返回与顶点v度相近的顶点列表

def splitDegreeList(part,c,G,compactDegree):
    if(compactDegree):
    ┆   logging.info("Recovering compactDegreeList from disk...")
    	# degreeList:字典{顶点：{depth:(度，频次)}} 
    ┆   degreeList = restoreVariableFromDisk('compactDegreeList') 
    else:
    ┆   logging.info("Recovering degreeList from disk...")
    ┆   degreeList = restoreVariableFromDisk('degreeList')

    logging.info("Recovering degree vector from disk...")
    # 字典{度数：{对应度数的顶点集合，存在的与之相邻的上一个度数，存在的与之相邻的下一个度数}}
    degrees = restoreVariableFromDisk('degrees_vector') 

    degreeListsSelected = {}
    vertices = {}
    a_vertices = len(G)

    for v in c:
    ┆   nbs = get_vertices(v,len(G[v]),degrees,a_vertices)
    ┆   vertices[v] = nbs ## 记录与顶点v度相近的顶点列表
    ┆   degreeListsSelected[v] = degreeList[v]
    ┆   for n in nbs:
    ┆   ┆   degreeListsSelected[n] = degreeList[n]
    
	## 存储每个顶点所选定的要计算的顶点集合
    saveVariableOnDisk(vertices,'split-vertices-'+str(part)) 
     ## 存储每个顶点的要计算顶点集合的度序列,用作后面的边权重计算
    saveVariableOnDisk(degreeListsSelected,'split-degreeList-'+str(part))

计算二分查找得到顶点之间的相似度（非边权重和游走概率）

def calc_distances(part, compactDegree = False):

    vertices = restoreVariableFromDisk('split-vertices-'+str(part))
    degreeList = restoreVariableFromDisk('split-degreeList-'+str(part))

    distances = {}

    if compactDegree:
    ┆   dist_func = cost_max
    else:
    ┆   dist_func = cost

    for v1,nbs in vertices.iteritems():
    ┆   lists_v1 = degreeList[v1]

    ┆   for v2 in nbs:
    ┆   ┆   t00 = time()
    ┆   ┆   lists_v2 = degreeList[v2]

    ┆   ┆   max_layer = min(len(lists_v1),len(lists_v2))
    ┆   ┆   distances[v1,v2] = {}

    ┆   ┆   for layer in range(0,max_layer):
    ┆   ┆   ┆   dist, path = fastdtw(lists_v1[layer],lists_v2[layer],radius=1,dist=dist_func)

    ┆   ┆   ┆   distances[v1,v2][layer] = dist

    ┆   ┆   t11 = time()
    ┆   ┆   logging.info('fastDTW between vertices ({}, {}). Time: {}s'.format(v1,v2,(t11-t00)))


    preprocess_consolides_distances(distances)
    ## 存储字典{(顶点1，顶点2)：{第k层layer: 相似度}}
    saveVariableOnDisk(distances,'distances-'+str(part))
    return

构建多层结构图（multilayer graph）

这个有点麻烦，我们一个个的来看怎么实现的

def generate_distances_network_part1(workers):
    parts = workers
    weights_distances = {}
    for part in range(1,parts + 1):
    ┆
    ┆   logging.info('Executing part {}...'.format(part))
     	## 加载字典{(顶点1，顶点2)：{第k层layer: 相似度}}
    ┆   distances = restoreVariableFromDisk('distances-'+str(part))
    ┆
    ┆   for vertices,layers in distances.iteritems():
    ┆   ┆   for layer,distance in layers.iteritems():
    ┆   ┆   ┆   vx = vertices[0]
    ┆   ┆   ┆   vy = vertices[1]
    ┆   ┆   ┆   if(layer not in weights_distances):
    ┆   ┆   ┆   ┆   weights_distances[layer] = {}
    ┆   ┆   ┆   weights_distances[layer][vx,vy] = distance

    ┆   logging.info('Part {} executed.'.format(part))

    for layer,values in weights_distances.iteritems():
    	## 存储每一层的字典{(顶点1，顶点2):相似度}
    ┆   saveVariableOnDisk(values,'weights_distances-layer-'+str(layer))
    return

def generate_distances_network_part2(workers):
    parts = workers
    graphs = {}
    for part in range(1,parts + 1):

    ┆   logging.info('Executing part {}...'.format(part))
    	## 加载字典{(顶点1，顶点2)：{k(第k层layer): 相似度}}
    ┆   distances = restoreVariableFromDisk('distances-'+str(part))

    ┆   for vertices,layers in distances.iteritems():
    ┆   ┆   for layer,distance in layers.iteritems():
    ┆   ┆   ┆   vx = vertices[0]
    ┆   ┆   ┆   vy = vertices[1]
    ┆   ┆   ┆   if(layer not in graphs):
    ┆   ┆   ┆   ┆   graphs[layer] = {}
    ┆   ┆   ┆   if(vx not in graphs[layer]):
    ┆   ┆   ┆   ┆  graphs[layer][vx] = []
    ┆   ┆   ┆   if(vy not in graphs[layer]):
    ┆   ┆   ┆   ┆  graphs[layer][vy] = []
    ┆   ┆   ┆   graphs[layer][vx].append(vy)
    ┆   ┆   ┆   graphs[layer][vy].append(vx)
    ┆   logging.info('Part {} executed.'.format(part))

    for layer,values in graphs.iteritems():
    	## 存储每一层中：字典{该层顶点：需要计算的顶点列表}
    ┆   saveVariableOnDisk(values,'graphs-layer-'+str(layer))

    return

计算所有层所有边的游走概率，并构建alias method中的Alias Table

def generate_distances_network_part3():

    layer = 0
    while(isPickle('graphs-layer-'+str(layer))):
    	## 加载每一层中：字典{k(第k层layer):{顶点：需要计算的顶点列表}}
    ┆   graphs = restoreVariableFromDisk('graphs-layer-'+str(layer))
    	## 加载每一层的字典{(顶点1，顶点2):相似度}
    ┆   weights_distances = restoreVariableFromDisk('weights_distances-layer-'+str(layer))

    ┆   logging.info('Executing layer {}...'.format(layer))
    ┆   alias_method_j = {}
    ┆   alias_method_q = {}
    ┆   weights = {}

    ┆   for v,neighbors in graphs.iteritems():
    ┆   ┆   e_list = deque()
    ┆   ┆   sum_w = 0.0

    ┆   ┆   for n in neighbors:
    ┆   ┆   ┆   if (v,n) in weights_distances:
    ┆   ┆   ┆   ┆   wd = weights_distances[v,n]
    ┆   ┆   ┆   else:
    ┆   ┆   ┆   ┆   wd = weights_distances[n,v]
    ┆   ┆   ┆   w = np.exp(-float(wd))
    ┆   ┆   ┆   e_list.append(w)
    ┆   ┆   ┆   sum_w += w

    ┆   ┆   e_list = [x / sum_w for x in e_list]
    ┆   ┆   weights[v] = e_list ## 计算游走概率
    ┆   ┆   J, q = alias_setup(e_list) ## 构建Alias Table
    ┆   ┆   alias_method_j[v] = J
    ┆   ┆   alias_method_q[v] = q

		## 存储每一层的：字典{顶点：与该顶点相连的所有边的游走概率}
    ┆   saveVariableOnDisk(weights,'distances_nets_weights-layer-'+str(layer))
    	## 存储每一层的Alias Table的alias
    ┆   saveVariableOnDisk(alias_method_j,'alias_method_j-layer-'+str(layer))
    	## 存储每一层的Alias Table的prob
    ┆   saveVariableOnDisk(alias_method_q,'alias_method_q-layer-'+str(layer))
    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1

    logging.info('Weights created.')

    return

alias method，可以参考https://blog.csdn.net/haolexiao/article/details/65157026，理解下代码

def alias_setup(probs):
    '''
    Compute utility lists for non-uniform sampling from discrete distributions.
    Refer to https://hips.seas.harvard.edu/blog/2013/03/03/the-alias-method-efficient-sampling-with-many-discrete-outcomes/
    for details
    '''
    K = len(probs)
    q = np.zeros(K)
    J = np.zeros(K, dtype=np.int)

    smaller = []
    larger = []
    for kk, prob in enumerate(probs):
    ┆   q[kk] = K*prob
    ┆   if q[kk] < 1.0:
    ┆   ┆   smaller.append(kk)
    ┆   else:
    ┆   ┆   larger.append(kk)

    while len(smaller) > 0 and len(larger) > 0:
    ┆   small = smaller.pop()
    ┆   large = larger.pop()

    ┆   J[small] = large ## 小列的别名
    ┆   q[large] = q[large] + q[small] - 1.0 ## 将大的列填满小的列，同时记录prob，当在采样时大于该prob取alias
    ┆   if q[large] < 1.0:
    ┆   ┆   smaller.append(large)
    ┆   else:
    ┆   ┆   larger.append(large)

    return J, q

def generate_distances_network_part4():
    logging.info('Consolidating graphs...')
    graphs_c = {}
    layer = 0
    while(isPickle('graphs-layer-'+str(layer))):
    ┆   logging.info('Executing layer {}...'.format(layer))
    	## 加载每一层中：字典{该层顶点：需要计算的顶点列表}
    ┆   graphs = restoreVariableFromDisk('graphs-layer-'+str(layer))
    ┆   graphs_c[layer] = graphs
    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1


    logging.info("Saving distancesNets on disk...")
    ## 存储字典{layer:{该层顶点：需要计算的顶点列表}}
    saveVariableOnDisk(graphs_c,'distances_nets_graphs')
    logging.info('Graphs consolidated.')
    return

def generate_distances_network_part5():
    alias_method_j_c = {}
    layer = 0
    while(isPickle('alias_method_j-layer-'+str(layer))):
    ┆   logging.info('Executing layer {}...'.format(layer))
    ┆   alias_method_j = restoreVariableFromDisk('alias_method_j-layer-'+str(layer))
    ┆   alias_method_j_c[layer] = alias_method_j
    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1

    logging.info("Saving nets_weights_alias_method_j on disk...")
    saveVariableOnDisk(alias_method_j_c,'nets_weights_alias_method_j')

    return

def generate_distances_network_part6():
    alias_method_q_c = {}
    layer = 0
    while(isPickle('alias_method_q-layer-'+str(layer))):
    ┆   logging.info('Executing layer {}...'.format(layer))
    ┆   alias_method_q = restoreVariableFromDisk('alias_method_q-layer-'+str(layer))
    ┆   alias_method_q_c[layer] = alias_method_q
    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1

    logging.info("Saving nets_weights_alias_method_q on disk...")
    saveVariableOnDisk(alias_method_q_c,'nets_weights_alias_method_q')

    return

随机游走

def generate_parameters_random_walk(workers):

    logging.info('Loading distances_nets from disk...')

    sum_weights = {}
    amount_edges = {}

    layer = 0
    while(isPickle('distances_nets_weights-layer-'+str(layer))):
    ┆   logging.info('Executing layer {}...'.format(layer))
    	## 加载每一层的：字典{顶点：与该顶点相连的所有边的游走概率}
    ┆   weights = restoreVariableFromDisk('distances_nets_weights-layer-'+str(layer))

    ┆   for k,list_weights in weights.iteritems():
    ┆   ┆   if(layer not in sum_weights):
    ┆   ┆   ┆   sum_weights[layer] = 0
    ┆   ┆   if(layer not in amount_edges):
    ┆   ┆   ┆   amount_edges[layer] = 0

    ┆   ┆   for w in list_weights:
    ┆   ┆   ┆   sum_weights[layer] += w ##记录当前层顶点权重和
    ┆   ┆   ┆   amount_edges[layer] += 1 ## 记录当前层边的数量
    ┆
    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1

    average_weight = {}
    for layer in sum_weights.keys():
    ┆   average_weight[layer] = sum_weights[layer] / amount_edges[layer] ## 当前层的平均权重

    logging.info("Saving average_weights on disk...")
    ## 存储每一层的平均权重
    saveVariableOnDisk(average_weight,'average_weight')

    amount_neighbours = {}

    layer = 0
    while(isPickle('distances_nets_weights-layer-'+str(layer))):
    ┆   logging.info('Executing layer {}...'.format(layer))
    	## 加载每一层的：字典{顶点：与该顶点相连的所有边的游走概率}
    ┆   weights = restoreVariableFromDisk('distances_nets_weights-layer-'+str(layer))

    ┆   amount_neighbours[layer] = {}

    ┆   for k,list_weights in weights.iteritems():
    ┆   ┆   cont_neighbours = 0
    ┆   ┆   for w in list_weights:
    ┆   ┆   ┆   if(w > average_weight[layer]):
    ┆   ┆   ┆   ┆   cont_neighbours += 1
    ┆   ┆   amount_neighbours[layer][k] = cont_neighbours

    ┆   logging.info('Layer {} executed.'.format(layer))
    ┆   layer += 1

    logging.info("Saving amount_neighbours on disk...")
    ## 存储字典{layer:{顶点：Γk(顶点)}}
    saveVariableOnDisk(amount_neighbours,'amount_neighbours')

alias按概率采样，作为随机游走的下个顶点

def alias_draw(J, q):
    '''
    Draw sample from a non-uniform discrete distribution using alias sampling.
    '''
    K = len(J) 
    
    kk = int(np.floor(np.random.rand()*K))
    if np.random.rand() < q[kk]:
    ┆   return kk
    else:   
    ┆   return J[kk]

def chooseNeighbor(v,graphs,alias_method_j,alias_method_q,layer):
    v_list = graphs[layer][v]

    idx = alias_draw(alias_method_j[layer][v],alias_method_q[layer][v])
    v = v_list[idx]

    return v

def exec_random_walk(graphs,alias_method_j,alias_method_q,v,walk_length,amount_neighbours):
    original_v = v ## 游走的起点
    t0 = time()
    initialLayer = 0
    layer = initialLayer


    path = deque()
    path.append(v)

    while len(path) < walk_length:
    ┆   r = random.random()

    ┆   if(r < 0.3): ## 在当前层游走，这个0.3就是上面说的超参数q
    ┆   ┆   ┆   v = chooseNeighbor(v,graphs,alias_method_j,alias_method_q,layer)
    ┆   ┆   ┆   path.append(v)

    ┆   else: ## 跨层游走
    ┆   ┆   r = random.random()
    ┆   ┆   limiar_moveup = prob_moveup(amount_neighbours[layer][v])
    ┆   ┆   if(r > limiar_moveup): ## 往低层游走
    ┆   ┆   ┆   if(layer > initialLayer):
    ┆   ┆   ┆   ┆   layer = layer - 1
    ┆   ┆   else: ## 往高层游走
    ┆   ┆   ┆   if((layer + 1) in graphs and v in graphs[layer + 1]):
    ┆   ┆   ┆   ┆   layer = layer + 1

    t1 = time()
    logging.info('RW - vertex {}. Time : {}s'.format(original_v,(t1-t0)))
	
    return path ## 以顶点v为起点，游走的路径

def exec_ramdom_walks_for_chunck(vertices,graphs,alias_method_j,alias_method_q,walk_length,amount_neighbours):
    walks = deque()
    for v in vertices:
    ┆   walks.append(exec_random_walk(graphs,alias_method_j,alias_method_q,v,walk_length,amount_neighbours))
    return walks ## 所有顶点为起点的游走路径

skipGram学习表示

def learn_embeddings():
        '''
        Learn embeddings by optimizing the Skipgram objective using SGD.
        '''
        logging.info("Initializing creation of the representations...")
        walks = LineSentence('random_walks.txt')
        model = Word2Vec(walks, size=args.dimensions, window=args.window_size, min_count=0, hs=1, sg=1, workers=args.workers, iter=args.iter)
        model.wv.save_word2vec_format(args.output)
        logging.info("Representations created.")

        return

实验

略

个人总结

论文中提出的学习顶点的structural identity，和顶点之间的structural similarity，没有利用任何顶点的位置信息，和一些距离特征，完全由顶点k跳的度序列来学习这种结构相似性，这样避免了距离很远的结构相似顶点却学不到相似的潜在表达，论文中关于构造多层结构图，边权重、随机游走概率、度序列相似度等过程很有意思，论文实验结果也证明了其有效性。
相比Deepwalk、Line等图表示方面的论文，该论文稍微有点难读，而本文的介绍较为精炼，如读者有疑惑建议可以看看【论文笔记】struc2vec，写的很详细。

参考

https://arxiv.org/pdf/1704.03165.pdf
https://zhuanlan.zhihu.com/p/63175042 (写的很细，推荐看看）
https://github.com/leoribeiro/struc2vec
https://blog.csdn.net/haolexiao/article/details/65157026

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element((1) 2401_84976182 程序员 c语言 c++学习
既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上CC++开发知识点，真正体系化！由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频，并且后续会持续更新如果你需要这些资料，可以戳这里获取#include#include#includeusingnamespacestd;boolcmp(int
C++ 11 Lambda表达式和min_element()与max_element()的使用_c++ lamda函数 min_element(
网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。需要这份系统化的资料的朋友，可以添加戳这里获取一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！intmain(){vectormyvec{3,
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
精通Canvas：15款时钟特效代码实现指南烟幕缭绕
本文还有配套的精品资源，点击获取简介：HTML5的Canvas是一个用于绘制矢量图形的API，通过JavaScript实现动态效果。本项目集合了15种不同的时钟特效代码，帮助开发者通过学习绘制圆形、线条、时间更新、旋转、颜色样式设置及动画效果等概念，深化对Canvas的理解和应用。项目中的CSS文件负责时钟的样式设定，而JS文件则包含实现各种特效的逻辑，通过不同的函数或类处理时间更新和动画绘制，提
高效批量单词翻译工具的设计与应用
本文还有配套的精品资源，点击获取简介：在信息技术飞速发展的今天，批量单词翻译工具通过计算机的数据处理能力，大大提高了语言学习和文字处理的效率。用户通过简单输入单词列表到一个文本文件，并运行翻译程序，即可获得翻译结果并保存至指定文件。该工具集成了内置或外部翻译引擎，利用自然语言处理技术实现快速准确的翻译，并可能提供词性识别等附加功能。尽管机器翻译无法完全取代人工校对，但它为用户提供了一种高效的翻译解
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
ARM嵌入式可编程控制器技术开发拉勾科研工作室 arm开发
PLC自动化设计|毕业设计指导|工业自动化解决方案✨专业领域：PLC程序设计与调试工业自动化控制系统HMI人机界面开发工业传感器应用电气控制系统设计工业网络通信擅长工具：西门子S7系列PLC编程三菱/欧姆龙PLC应用触摸屏界面设计电气CAD制图工业现场总线技术自动化设备调试主要内容：PLC控制系统设计工业自动化方案规划电气原理图绘制控制程序编写与调试毕业论文指导毕业设计题目与程序设计✅具体问题可以
基于链家网的二手房数据采集清洗与可视化分析 Mint_Datazzh 项目 selenium 网络爬虫
个人学习内容笔记，仅供参考。项目链接：https://gitee.com/rongwu651/lianjia原文链接：基于链家网的二手房数据采集清洗与可视化分析–笔墨云烟研究内容该课题的主要目的是通过将二手房网站上的存量与已销售房源，构建一个二手房市场行情情况与房源特点的可视化平台。该平台通过HTML架构和Echarts完成可视化的搭建。因此，该课题的主要研究内容就是如何利用相关技术设计并实现这样
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
分布式学习笔记_04_复制模型 NzuCRAS 分布式学习笔记架构后端
常见复制模型使用复制的目的在分布式系统中，数据通常需要被分布在多台机器上，主要为了达到：拓展性：数据量因读写负载巨大，一台机器无法承载，数据分散在多台机器上仍然可以有效地进行负载均衡，达到灵活的横向拓展高容错&高可用：在分布式系统中单机故障是常态，在单机故障的情况下希望整体系统仍然能够正常工作，这时候就需要数据在多台机器上做冗余，在遇到单机故障时能够让其他机器接管统一的用户体验：如果系统客户端分布
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
RocketMQ 基础教程-应用篇-死信队列码炫课堂-码哥 rocketmq专题 rocketmq java
作者简介：大家好，我是smart哥，前中兴通讯、美团架构师，现某互联网公司CTO联系qq：184480602，加我进群，大家一起学习，一起进步，一起对抗互联网寒冬学习必须往深处挖，挖的越深，基础越扎实！阶段1、深入多线程阶段2、深入多线程设计模式阶段3、深入juc源码解析阶段4、深入jdk其余源码解析
Spring Cloud Gateway 的执行链路详解愤怒的代码 SpringCloud spring cloud
SpringCloudGateway的执行链路详解核心目标明确SpringCloudGateway的请求处理全过程（从接收到请求→到转发→到返回响应），方便你在合适的生命周期节点插入你的逻辑。核心执行链路图（执行顺序）┌──────────────┐│客户端请求│└────┬─────────┘↓┌────┴─────────────┐│NettyHttpServer│←→ReactorNetty
OKHttp3源码分析——学习笔记 Sincerity_ 源码相关 Okhttp 源码解析读书笔记 httpclient cache
文章目录1.HttpClient与HttpUrlConnection的区别2.OKHttp源码分析使用步骤:dispatcher任务调度器,（后面有详细说明）Request请求RealCallAsyncCall3.OKHttp架构分析1.异步请求线程池,Dispather2.连接池清理线程池-ConnectionPool3.缓存整理线程池DisLruCache4.Http2异步事务线程池,http
matlab卷积矩阵绝对值,MATLAB矩阵分析和计算 weixin_39928736 matlab卷积矩阵绝对值
MATLAB矩阵分析和计算编辑锁定讨论上传视频本词条缺少概述图，补充相关内容使词条更完整，还能快速升级，赶紧来编辑吧！《MATLAB矩阵分析和计算》是清华大学出版社出版的一本图书。[1]书名MATLAB矩阵分析和计算作者杜树春出版社清华大学出版社出版时间2019年6月1日定价59元ISBN9787302524816印次1-1印刷日期2019.04.23MATLAB矩阵分析和计算图书内容编辑本书侧重
JavaScript 基础09：Web APIs——日期对象、DOM节点梦想当全栈 JavaScript javascript 前端开发语言
JavaScript基础09：WebAPIs——日期对象、DOM节点进一步学习DOM相关知识，实现可交互的网页特效能够插入、删除和替换元素节点。能够依据元素节点关系查找节点。一、日期对象掌握Date日期对象的使用，动态获取当前计算机的时间。ECMAScript中内置了获取系统时间的对象Date，使用Date时与之前学习的内置对象console和Math不同，它需要借助new关键字才能使用。1.实例
C++11中的std::function
文章转载自：http://www.jellythink.com/archives/771看看这段代码先来看看下面这两行代码：std::functiononKeyPressed;std::functiononKeyReleased;这两行代码是从Cocos2d-x中摘出来的，重点是这两行代码的定义啊。std::function这是什么东西？如果你对上述两行代码表示毫无压力，那就不妨再看看本文，就当温
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）基于历史对话重新生成Query？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain RAG
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Query？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）基于历史对话重新生成Q
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（Advanced RAG[1]）其他Query优化相关策略？ 985小水博一枚呀 AI大模型学习路线人工智能学习 langchain
【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？文章目录【AI大模型学习路线】第三阶段之RAG与LangChain——第十六章（AdvancedRAG[1]）其他Query优化相关策略？一
C# 设计模式（结构型模式）：组合模式硅谷调试员玩转C#设计模式 c#设计模式组合模式
C#设计模式（结构型模式）：组合模式在软件设计中，有时我们需要处理的是一组对象，而这些对象既可以是单独的元素，也可以是由多个子元素组成的复合体。这时，组合模式（CompositePattern）便能提供帮助。它允许客户端将单个对象和对象集合统一对待，从而简化了树形结构的管理。1.组合模式的定义组合模式是一个结构型设计模式，主要用于将多个对象组合成树形结构，以表示“部分-整体”的层次关系。通过组合模
传奇修改map地图教程_传奇技能第三祭：NPC的增加、隐藏和脚本修改垃圾箱博物馆传奇修改map地图教程
技能献祭，Get新技能：传奇技能——NPC功能与实现跟航家学技能，用干货带你飞，现学现用，底部有配套学习资源本篇内容简介：通过对游戏内NPC的控制，可以让NPC出现在地图中的任意位置，还可以控制外观显示、自定义命名，新增与隐藏以及脚本功能的实现。一、NPC总控制文本所在路径：D:MirServerMir200EnvirEnvir目录下，找到NPC总控制文本：Merchant，游戏内的所有NPC都在
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
深度学习模型表征提取全解析 ZhangJiQun&MXP 教学 2024大模型以及算力 2021 AI python 深度学习人工智能 python embedding 语言模型
模型内部进行表征提取的方法在自然语言处理（NLP）中，“表征（Representation）”指将文本（词、短语、句子、文档等）转化为计算机可理解的数值形式（如向量、矩阵），核心目标是捕捉语言的语义、语法、上下文依赖等信息。自然语言表征技术可按“静态/动态”“有无上下文”“是否融入知识”等维度划分一、传统静态表征（无上下文，词级为主）这类方法为每个词分配固定向量，不考虑其在具体语境中的含义（无法解
AI Agent开发学习系列 - langchain之Chains的使用(7)：用四种处理文档的预制链轻松实现文档对话 alex100 AI Agent 学习人工智能 langchain prompt 语言模型 python
在LangChain中，四种文档处理预制链（stuff、refine、mapreduce、mapre-rank）是实现文档问答、摘要等任务的常用高阶工具。它们的核心作用是：将长文档切分为块，分步处理，再整合结果，极大提升大模型处理长文档的能力。stuff直接拼接所有文档内容到prompt，一次性交给大模型处理。适合文档较短、token不超限的场景。refine递进式摘要。先对第一块文档生成初步答案
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数