ysq96

【论文笔记】HARP: Hierarchical Representation Learning for Networks

Abstract

Introduction

问题定义

Method

源码【code】

[paper]https://arxiv.org/pdf/1706.07845v2.pdf

[code]https://github.com/GTmac/HARP

Abstract

Our proposed method achieves this by compressing the input graph prior to embedding it, effectively avoiding troublesome embedding configurations (i.e.local minima) which can pose problems to non-convex optimization.

HARP works by finding a smaller graph which approximates the global structure of its input. This simplified graph is used to learn a set of initial representations, which serve as good initializations for learning representations in the original, detailed graph. We inductively extend this idea, by decomposing a graph in a series of levels, and then embed the hierarchy of graphs from the coarsest one to the original graph.

论文提出一种在获取图结构embedding之前先进行压缩的操作，因为直接使用deepwalk、node2vec、line，对于大的图来说，可能只能获得一个局部的embedding，他们所捕捉的网络结点关系过近，都是局部邻居。LINE仅仅只考虑到了一阶邻居与二阶邻居之间的相似度关系。DeepWalk与Node2Vec虽然可以通过随机游走，获得较长的游走序列，但是游走的长度比起现在图数据的规模，随机游走的长度还是太短了。所以就需要想一种方法捕捉全局的相似度。
HARP采取的方式就是通过多次折叠，将原来的大图层层收缩为较小的图，使得通过较短的随机游走距离，就能够覆盖所有的网络结点，然后将小图作为DeepWalk、LINE或Node2Vec的输入，学习Embedding。最后将在收缩后的小图中学习到的Embedding作为折叠前的的图的Embedding的初始化，继续学习折叠前的图的Embedding。以此类推层层学得原来大图的Embedding。

Introduction

• New Representation Learning Paradigm. We proposeHARP, a novel multilevel paradigm for graph representation which seamlessly blends ideas from the graph drawing (Fruchterman and Reingold 1991) and graph representation learning (Perozzi, Al-Rfou, and Skiena 2014;Tang et al. 2015; Grover and Leskovec 2016) communities to build substantially better graph embeddings.

• Improved Optimization Primitives. We demonstrate that our approach leads to improved implementations of all state-of-the-art graph representation learning methods, namely DeepWalk (DW), LINE and Node2vec (N2V). Our improvements on these popular methods for learning latent representations illustrate the broad applicability of our hierarchical approach.

• Better Embeddings for Downstream Tasks. We demonstrate that HARP(DW), HARP(LINE) and HARP(N2V)embeddings consistently outperform the originals on classification tasks on several real-world networks, with improvements as large as 14% Macro F1.

主要的三点贡献：1⃣️一种新的网络表示学习例子2⃣️优化了原始的方法（deepwalk、node2vec、line）3⃣️为下游任务获得更好的embedding

问题定义

算法的核心就是通过折叠得到小图embedding，再恢复得到原图的embedding。算法流程大致如下图。

Method

HARP分为三步：1⃣️图折叠2⃣️图嵌入3⃣️表示的恢复
HARP的关键就是图折叠算法
边折叠：边折叠算法选择尽可能多的边，这些边没有共同的顶点，即每个顶点只有一条与之连接的边被选中。
星折叠：虽然边折叠在最好的情况下每一轮折叠可以将结点的数量缩减一半，这样一来图折叠算法的总次数为O(logk)。但在某些特殊情况下却不能很好的发挥作用。如下图(b)所示，星形结构是网络中最常见结构之一，在这种结构中，如果使用边折叠算法，那么就至多只能折叠一条边，算法要执行的总次数则会退化为O(k)。所以，HARP采用了另外一种折叠策略，就是星折叠。

源码【code】

整体结构

源码使用的是python2 gensim=0.13.2 scipy=0.19.1 容易由于和numpy、pandas版本发生冲突，这里做了修改

harp.py（执行函数）

import magicgraph
import logging
import os
import sys

import numpy as np

from argparse import ArgumentParser, FileType, ArgumentDefaultsHelpFormatter
from magicgraph import WeightedDiGraph, WeightedNode
from scipy.io import mmread, mmwrite, loadmat

import graph_coarsening

def main():
    parser = ArgumentParser('harp',
                            formatter_class=ArgumentDefaultsHelpFormatter,
                            conflict_handler='resolve')
    parser.add_argument('--format', default='mat',
                        help='File format of input file')
    parser.add_argument('--input', nargs='?', required=True,
                        help='Input graph file')
    parser.add_argument('--sfdp-path', default='./bin/sfdp_osx',
                        help='Path to the SFDP binary file which produces graph coarsening results.')
    parser.add_argument('--model', default='deepwalk',
                        help='Embedding model to use. Could be deepwalk, line or node2vec.')
    parser.add_argument('--matfile-variable-name', default='network',
                        help='Variable name of adjacency matrix inside a .mat file')
    parser.add_argument('--number-walks', default=40, type=int,
                        help='Number of random walks to start at each node')
    parser.add_argument('--output', required=True,
                        help='Output representation file')
    parser.add_argument('--representation-size', default=128, type=int,
                        help='Number of latent dimensions to learn for each node.')
    parser.add_argument('--walk-length', default=10, type=int,
                        help='Length of the random walk started at each node.')
    parser.add_argument('--window-size', default=10, type=int,
                        help='Window size of the Skip-gram model.')
    parser.add_argument('--workers', default=1, type=int,
                        help='Number of parallel processes.')
    args = parser.parse_args()

    # Process args
    if args.format == 'mat':
        G = magicgraph.load_matfile(args.input, variable_name=args.matfile_variable_name, undirected=True)
    elif args.format == 'adjlist':
        G = magicgraph.load_adjacencylist(args.input, undirected=True)
    elif args.format == 'edgelist':
      	# 读取边表 得到无向图
        G = magicgraph.load_edgelist(args.input, undirected=True)
    else:
        raise Exception("Unknown file format: '%s'. Valid formats: 'mat', 'adjlist', and 'edgelist'."
                % args.format)
    G = graph_coarsening.DoubleWeightedDiGraph(G)
    print ('Number of nodes: {}'.format(G.number_of_nodes()))
    print ('Number of edges: {}'.format(G.number_of_edges()))
    print ('Underlying network embedding model: {}'.format(args.model))

    # 主要差别在deepwalk采用 Skip-gram + Hierarchical Softmax
    # 其他方法采用的是 Skip-gram + Negative Sampling
    # 通过hs控制
    if args.model == 'deepwalk':
        embeddings = graph_coarsening.skipgram_coarsening_disconnected(G,scale=-1,iter_count=1,
                sfdp_path=args.sfdp_path,
                num_paths=args.number_walks,path_length=args.walk_length,
                representation_size=args.representation_size,window_size=args.window_size,
                lr_scheme='default',alpha=0.025,min_alpha=0.001,sg=1,hs=1,coarsening_scheme=2, sample=0.1)
    elif args.model == 'node2vec':
        embeddings = graph_coarsening.skipgram_coarsening_disconnected(G,scale=-1,iter_count=1,
                sfdp_path=args.sfdp_path,
                num_paths=args.number_walks,path_length=args.walk_length,
                representation_size=args.representation_size,window_size=args.window_size,
                lr_scheme='default',alpha=0.025,min_alpha=0.001,sg=1,hs=0,coarsening_scheme=2, sample=0.1)
    elif args.model == 'line':
        embeddings = graph_coarsening.skipgram_coarsening_disconnected(G,scale=1, iter_count=50,
                sfdp_path=args.sfdp_path,
                representation_size=64,window_size=1,
                lr_scheme='default',alpha=0.025,min_alpha=0.001,sg=1,hs=0,sample=0.001)
    np.save(args.output, embeddings)

if __name__ == '__main__':
    sys.exit(main())

graph_coarsening.py（图折叠的主要函数）

import copy
import glob
import logging
import magicgraph
import math
import operator
import os
import random
import skipgram
import subprocess
import sys
import tempfile
import baseline
import utils
import numpy as np

from collections import defaultdict, deque
from concurrent.futures import ProcessPoolExecutor
from deepwalk import walks as serialized_walks
from gensim.models import Word2Vec
from magicgraph import WeightedDiGraph, WeightedNode
from scipy.io import mmread, mmwrite

class DoubleWeightedDiGraph(WeightedDiGraph):
    def __init__(self, init_graph = None):
        super(WeightedDiGraph, self).__init__(node_class=WeightedNode)
        self.weighted_nodes = magicgraph.WeightedNode()
        if init_graph is not None:
            for node, adj_list in init_graph.adjacency_iter():
                if hasattr(adj_list, 'weights'):
                    self[node].extend(adj_list, adj_list.weights)
                else:
                    self[node].extend(adj_list, [1. for adj_node in adj_list])
            if hasattr(init_graph, 'weighted_nodes'):
                self.weighted_nodes.extend(init_graph.nodes(), init_graph.weighted_nodes.weights)
            else:
                self.weighted_nodes.extend(init_graph.nodes(), [1. for node in init_graph.nodes()])
        self.visited = {node: False for node in self.nodes()}

    def is_connected(self):
        # sys.setrecursionlimit(self.number_of_nodes())
        self.visited = {node: False for node in self.nodes()}
        if self.number_of_nodes() == 0:
            return True
        self.cur_component = []
        self.bfs(list(self.nodes())[0])
        return sum(self.visited.values()) == self.number_of_nodes()

    def get_connected_components(self):
        connected_components = []
        self.visited = {node: False for node in self.nodes()}

        for node in self.nodes():
            if self.visited[node] is False:
                self.cur_component = []
                self.bfs(node)
                connected_components.append(len(self.cur_component))
        return connected_components

    # graph coarsening need to be done on each connected component
    def get_merged_connected_components(self):
        disconnected_component, connected_components, reversed_mappings = [], [], []
        self.visited = {node: False for node in self.nodes()}
        graph_size_threshold = 100

        for node in self.nodes():
            if self.visited[node] is False:
                self.cur_component = []
                self.bfs(node)
                if len(self.cur_component) >= graph_size_threshold:
                    self.cur_component = sorted(self.cur_component)
                    index_mapping = {self.cur_component[i]: i for i in range(len(self.cur_component)) }
                    connected_components.append(self.subgraph(self.cur_component, index_mapping=index_mapping))
                    reversed_mappings.append({i: self.cur_component[i] for i in range(len(self.cur_component)) })
                else:
                    disconnected_component.extend(self.cur_component)

        if len(disconnected_component) > 0:
            disconnected_component = sorted(disconnected_component)
            reversed_mappings.append({i: disconnected_component[i] for i in range(len(disconnected_component)) })
            index_mapping = {disconnected_component[i]: i for i in range(len(disconnected_component)) }
            connected_components.append(self.subgraph(disconnected_component, index_mapping=index_mapping) )
        return connected_components, reversed_mappings

    def dfs(self, cur_node):
        self.visited[cur_node] = True
        self.cur_component.append(cur_node)
        for adj_node in self[cur_node]:
            if self.visited[adj_node] is False:
                self.visited[adj_node] = True
                self.dfs(adj_node)

    def bfs(self, cur_node):
        q = deque()
        q.append(cur_node)
        self.visited[cur_node] = True

        while len(q) > 0:
            head = q.popleft()
            self.cur_component.append(head)
            for adj_node in self[head]:
                if not self.visited[adj_node]:
                    self.visited[adj_node] = True
                    q.append(adj_node)

    def subgraph(self, nodes = {}, index_mapping = None):
        nodes = set(nodes)
        if index_mapping is None:
            index_mapping = {node: node for node in nodes}
        sub = DoubleWeightedDiGraph(magicgraph.from_adjlist([ [index_mapping[node]] for node in nodes]))
        for node in nodes:
            for adj_node, weight in zip(self[node], self[node].weights):
                if adj_node in nodes:
                    sub[index_mapping[node]].append(index_mapping[adj_node], weight)
            if len(self[node]) == 0:
                if index_mapping:
                    sub[index_mapping[node]].append(index_mapping[node], 1.)
                else:
                    sub[node].append(node, 1.)

        node_weight_map = {node: weight for node, weight in zip(self.weighted_nodes, self.weighted_nodes.weights)}
        for node in nodes:
            sub.weighted_nodes.weights[index_mapping[node] ] = node_weight_map[node]
        return sub

    # get edges as pairs of integers
    def get_int_edges(self):
        edges, weights = [], []
        for node in self.nodes():
            for adj_node, weight in zip(self[node], self[node].weights):
                edges.append([node, adj_node])
                weights.append(weight)
        return edges, weights

    # get edges along with weights
    def get_edges(self):
        edges, weights = [], []
        for node in self.nodes():
            for adj_node, weight in zip(self[node], self[node].weights):
                edges.append([str(node), str(adj_node)])
                weights.append(weight)
        return edges, np.array(weights)

    def random_walk(self, path_length, alpha=0, rand=random.Random(), start=None):
        G = self
        if start is not None:
            path = [start]
        else:
            path = [rand.choice(G.keys())]

        while len(path) < path_length:
            cur = path[-1]
            if len(G[cur]) > 0:
                if rand.random() >= alpha:
                    path.append(G[cur].choice(rand))
                else:
                    path.append(path[0])
            else:
                break
        return path

def external_collapsing(graph, merged):
    coarsened_graph = DoubleWeightedDiGraph()
    edges, weights = graph.get_int_edges()
    merged_edge_to_weight = defaultdict(float)
    node_weight = {node: weight for node, weight in zip(graph.weighted_nodes, graph.weighted_nodes.weights)}
    new_node_weights = defaultdict(float)
    for (a, b), w in zip(edges, weights):
        merged_a, merged_b = merged[a], merged[b]
        if merged_a != merged_b:
            merged_edge_to_weight[(merged_a, merged_b)] += w
    for node_pair, weight in merged_edge_to_weight.items():
        coarsened_graph[node_pair[0]].append(node_pair[1], weight)
        coarsened_graph[node_pair[1]].append(node_pair[0], weight)

    for node in coarsened_graph.nodes():
        coarsened_graph.weighted_nodes.append(node, new_node_weights[node])
    return coarsened_graph.make_consistent()

def read_coarsening_info(coarsening_file_dir):
    coarsening_files = [f for dirpath, dirnames, files in os.walk(coarsening_file_dir)
        for f in files if f.startswith('prolongation')]
    levels = -1
    recursive_merged_nodes = []
    for f in coarsening_files:
        levels = max(levels, int(f[f.rfind('_') + 1:]) )
    prev_rename, rename = {}, {}
    for level in range(levels + 1):
        # different index
        merged_from = defaultdict(list)
        merged = {}
        fp = open(os.path.normpath(coarsening_file_dir) + '/' + 'prolongation_' + str(level))
        for line in fp:
            finer_node, coarser_node = map(int, line.strip().split())
            # let index starts from 0 instead
            finer_node, coarser_node = finer_node - 1, coarser_node - 1
            if finer_node in prev_rename:
                # print coarser_node, finer_node, prev_rename[finer_node]
                merged_from[coarser_node].append(prev_rename[finer_node])
            else:
                merged_from[coarser_node].append(finer_node)
        # print merged_from

        for k in merged_from.keys():
            rename[k] = merged_from[k][0]
            for node in merged_from[k]:
                merged[node] = merged_from[k][0]
        # print merged
        recursive_merged_nodes.append(merged)
        prev_rename = rename.copy()
        rename = {}
    return recursive_merged_nodes

def external_ec_coarsening(graph, sfdp_path, coarsening_scheme=2):
    temp_dir = tempfile.mkdtemp()
    temp_fname = 'tmp.mtx'
    input_fname = os.path.join(temp_dir, temp_fname)
    mmwrite(open(os.path.join(input_fname), 'wb'), magicgraph.to_adjacency_matrix(graph))
    sfdp_abs_path = os.path.abspath(sfdp_path)
    subprocess.call('%s -g%d -v -u -Tc %s 2>x' % (sfdp_abs_path, coarsening_scheme, input_fname), shell=True, cwd=temp_dir)
    recursive_graphs, recursive_merged_nodes = [], read_coarsening_info(temp_dir)
    subprocess.call(['rm', '-r', temp_dir])
    cur_graph = graph
    iter_round = 1
    prev_node_count = graph.number_of_nodes()
    ec_done = False
    levels = len(recursive_merged_nodes)
    if levels == 0:
        return [graph], recursive_merged_nodes

    for level in range(levels):
        if iter_round == 1:
            print ('Original graph with %d nodes and %d edges' % \
            (cur_graph.number_of_nodes(), cur_graph.number_of_edges() ) )
            recursive_graphs.append(DoubleWeightedDiGraph(cur_graph))

        coarsened_graph = external_collapsing(cur_graph, recursive_merged_nodes[level])
        cur_node_count = coarsened_graph.number_of_nodes()
        print ('Coarsening Round %d:' % iter_round)
        print ('Generate coarsened graph with %d nodes and %d edges' % \
        (coarsened_graph.number_of_nodes(), coarsened_graph.number_of_edges()) )

        recursive_graphs.append(coarsened_graph)
        cur_graph = coarsened_graph
        iter_round += 1
        prev_node_count = cur_node_count

    return recursive_graphs, recursive_merged_nodes

def skipgram_coarsening_disconnected(graph, recursive_graphs=None, recursive_merged_nodes=None, **kwargs):
  	# 输出参数
    print (kwargs)
    # 图是否是连通图
    if graph.is_connected():
        print ('Connected graph.')
        # 若是连通图，则已经不能再折叠了，subgraphs即为graph
        subgraphs, reversed_mappings = [graph], [{node: node for node in graph.nodes()}]
    else:
      	# 若不是连通图，则获取其subgraphs
        subgraphs, reversed_mappings = graph.get_merged_connected_components()
    count = 0
    scale = kwargs.get('scale', -1)
    num_paths = kwargs.get('num_paths', 40)
    path_length = kwargs.get('path_length', 10)
    representation_size = kwargs.get('representation_size', 128)
    window_size = kwargs.get('window_size', 10)
    iter_count = kwargs.get('iter_count', 1)
    lr_scheme = kwargs.get('lr_scheme', 'default')
    alpha = kwargs.get('alpha', 0.025)
    min_alpha = kwargs.get('min_alpha', 0.001)
    report_loss = kwargs.get('report_loss', False)
    hs = kwargs.get('hs', 0)
    sample = kwargs.get('sample', 1e-3)
    coarsening_scheme = kwargs.get('coarsening_scheme', 2)
    sfdp_path = kwargs.get('sfdp_path', './bin/sfdp_osx')
    embeddings = np.ndarray(shape=(graph.number_of_nodes(), representation_size), dtype=np.float32)

    for subgraph, reversed_mapping in zip(subgraphs, reversed_mappings):
        count += 1
        print ('Subgraph %d with %d nodes and %d edges' % (count, subgraph.number_of_nodes(), subgraph.number_of_edges()))

        if not subgraph.is_connected():
            gc_single_model = baseline.skipgram_baseline(subgraph,
                                        scale=scale,
                                        num_paths=num_paths,
                                        path_length=path_length,
                                        iter_count=iter_count,
                                        representation_size=representation_size,
                                        window_size=window_size,
                                        report_loss=report_loss,
                                        progress_threshold=100000,
                                        alpha=alpha,
                                        min_alpha=min_alpha,
                                        sg=1,
                                        hs=hs)
            gc_model = [gc_single_model]
        else:
            if recursive_graphs is None:
                print ('Graph Coarsening...')
                recursive_graphs, recursive_merged_nodes = external_ec_coarsening(subgraph, sfdp_path)
            iter_counts = [iter_count for _ in range(len(recursive_graphs))]
            if hs == 1:
                gc_model = skipgram_coarsening_hs(recursive_graphs, recursive_merged_nodes,
                                        scale=scale,
                                        iter=iter_counts,
                                        num_paths=num_paths,
                                        path_length=path_length,
                                        representation_size=representation_size,
                                        window_size=window_size,
                                        report_loss=report_loss,
                                        progress_threshold=100000,
                                        lr_scheme=lr_scheme,
                                        alpha=alpha,
                                        min_alpha=min_alpha,
                                        sg=1,
                                        hs=1,
                                        sample=sample)
            else:
                print ('Training negative sampling model...')
                gc_model = skipgram_coarsening_neg(recursive_graphs, recursive_merged_nodes,
                                        scale=scale,
                                        iter=iter_counts,
                                        num_paths=num_paths,
                                        path_length=path_length,
                                        representation_size=representation_size,
                                        window_size=window_size,
                                        report_loss=report_loss,
                                        progress_threshold=100000,
                                        lr_scheme=lr_scheme,
                                        alpha=alpha,
                                        min_alpha=min_alpha,
                                        sample=sample,
                                        sg=1,
                                        hs=0)

        for ind, vec in enumerate(gc_model[-1].wv.syn0):
            real_ind = reversed_mapping[int(gc_model[-1].wv.index2word[ind])]
            embeddings[real_ind] = vec
        recursive_graphs = None
    return embeddings

def gen_alpha(init_alpha, recursive_graphs, iter_counts):
    edge_counts = [graph.number_of_edges() for graph in recursive_graphs]
    total_iter_count = sum([edge_count * iter_count for edge_count, iter_count in zip(edge_counts, iter_counts)])
    cur_iter_count, alpha_list = 0, []
    for edge_count, iter_count in zip(edge_counts, iter_counts):
        cur_iter_count += edge_count * iter_count
        alpha_list.append(init_alpha * 1. * cur_iter_count / total_iter_count)
    return alpha_list

def skipgram_coarsening_hs(recursive_graphs, recursive_merged_nodes, **kwargs):
    print (kwargs)
    print ('Start building Skip-gram + Hierarchical Softmax model on the coarsened graphs...')
    models = []
    original_graph = recursive_graphs[0]
    levels = len(recursive_graphs)
    alpha = kwargs.get('alpha', 0.25)
    min_alpha = kwargs.get('min_alpha', 0.25)
    tmp_alpha_list = gen_alpha(alpha, recursive_graphs, kwargs['iter'])
    lr_scheme = kwargs.get('lr_scheme', "default")
    sample = kwargs.get('sample', 1e-3)

    # learning rate schemes: "default", "constant", "global_linear", "local_linear"
    if lr_scheme == 'default':
        alpha_list = [alpha for i in range(levels)]
        min_alpha_list = [min_alpha for i in range(levels)]
    if kwargs["lr_scheme"] == 'constant':
        alpha_list = [alpha for i in range(levels)]
        min_alpha_list = [alpha for i in range(levels)]
    elif kwargs["lr_scheme"] == 'local_linear':
        alpha_list = [alpha for alpha in tmp_alpha_list]
        min_alpha_list = [min_alpha for i in range(levels)]
    elif kwargs["lr_scheme"] == 'global_linear':
        alpha_list = [alpha for alpha in tmp_alpha_list]
        min_alpha_list = [min_alpha]
        min_alpha_list.extend([tmp_alpha_list[i] for i in range(levels - 1)])

    scale = kwargs.get('scale', 1)
    if 'walks' in kwargs:
        walks = kwargs['walks']

    for level in range(levels - 1, -1, -1):
        print ('Training on graph level %d...' % level)
        if scale == 1:
            edges, weights = recursive_graphs[level].get_edges()
            random.shuffle(edges)
        elif scale == -1:
            path_length = kwargs.get('path_length', 10)
            num_paths = kwargs.get('num_paths', 40)
            output = kwargs.get('output', 'default')
            edges = build_deepwalk_corpus(recursive_graphs[level], num_paths, path_length, output)

        # the coarest level
        if level == levels - 1:
            model = skipgram.Word2Vec_hs_loss(edges, sg=kwargs['sg'], size=kwargs['representation_size'], iter=kwargs['iter'][level], window=kwargs['window_size'], sample=sample, alpha=alpha_list[level], min_alpha=min_alpha_list[level])
        else:
            model = skipgram.Word2Vec_hs_loss(None, sg=kwargs['sg'], size=kwargs['representation_size'], iter=kwargs['iter'][level], window=kwargs['window_size'], sample=sample, alpha=alpha_list[level], min_alpha=min_alpha_list[level])

            # copy vocab / index2word from the coarser graph
            model.vocab = copy.deepcopy(models[-1].wv.vocab)
            model.index2word = copy.deepcopy(models[-1].wv.index2word)
            model.syn0 = copy.deepcopy(models[-1].wv.syn0)
            model.syn0.resize(recursive_graphs[level].number_of_nodes(), kwargs['representation_size'])
            model.syn0norm = None
            model.corpus_count = len(edges)

            cur_merged_nodes = [(node, merged_node) for node, merged_node in recursive_merged_nodes[level].iteritems() if node != merged_node]
            cur_merged_nodes = sorted(cur_merged_nodes, key=operator.itemgetter(1))

            changed_merged_nodes = []
            cur_merged_node, prev_node = -1, -1
            node_pool = []
            for node, merged_node in cur_merged_nodes:
                if merged_node == cur_merged_node:
                    changed_merged_nodes.append((node, random.choice(node_pool)))
                    node_pool.append(node)
                else:
                    changed_merged_nodes.append((node, merged_node))
                    cur_merged_node = merged_node
                    node_pool = [node, merged_node]
                prev_node = node

            cur_index = len(models[-1].mv.vocab)
            for node, merged_node in changed_merged_nodes:
                if node == merged_node:
                    continue
                str_node, str_merged_node = str(node), str(merged_node)
                word_index = model.vocab[str_merged_node].index
                init_vec = model.syn0[word_index]
                model.add_word(str_node, str_merged_node, init_vec, cur_index)
                cur_index += 1
                model.add_word(str_merged_node, str_merged_node, init_vec, cur_index)

            model.syn1 = np.zeros((len(model.vocab), model.layer1_size), dtype=np.float32)
            for i in range(len(models[-1].syn1)):
                model.syn1[i] = models[-1].syn1[i]
            model.syn0_lockf = np.ones(len(model.vocab), dtype=np.float32)
            model.train(edges)

        models.append(model)

    print ('Finish building Skip-gram model on the coarsened graphs.')
    return models

def skipgram_coarsening_neg(recursive_graphs, recursive_merged_nodes, **kwargs):
    # print (kwargs)
    print ('Start building Skip-gram + Negative Sampling model on the coarsened graphs...')
    models = []
    original_graph = recursive_graphs[0]
    levels = len(recursive_graphs)
    tmp_alpha_list = gen_alpha(kwargs.get('alpha', 0.025), recursive_graphs, kwargs['iter'])
    # learning rate schemes: "constant", "global_linear", "local_linear"
    if kwargs["lr_scheme"] == 'default':
        alpha_list = [kwargs['alpha'] for i in range(levels)]
        min_alpha_list = [kwargs['min_alpha'] for i in range(levels)]
    if kwargs["lr_scheme"] == 'constant':
        alpha_list = [kwargs['alpha'] for i in range(levels)]
        min_alpha_list = [kwargs['alpha'] for i in range(levels)]
    elif kwargs["lr_scheme"] == 'local_linear':
        alpha_list = [alpha for alpha in tmp_alpha_list]
        min_alpha_list = [kwargs['min_alpha'] for i in range(levels)]
    elif kwargs["lr_scheme"] == 'global_linear':
        alpha_list = [alpha for alpha in tmp_alpha_list]
        min_alpha_list = [kwargs['min_alpha']]
        min_alpha_list.extend([tmp_alpha_list[i] for i in range(levels - 1)])
    scale = kwargs.get('scale', 1)
    sample = kwargs.get('sample', 1e-3)

    for level in range(levels - 1, -1, -1):
        print ('Training on graph level %d...' % level)
        # DeepWalk
        if scale == -1:
            path_length = kwargs.get('path_length', 10)
            num_paths = kwargs.get('num_paths', 40)
            output = kwargs.get('output', 'default')
            edges = build_deepwalk_corpus(recursive_graphs[level], num_paths, path_length, output)
        # use adjacency matrix
        elif scale == 1:
            edges, weights = recursive_graphs[level].get_edges()
            random.shuffle(edges)

        # the coarest level
        if level == levels - 1:
            model = Word2Vec(edges, size=kwargs['representation_size'], window=kwargs['window_size'], min_count=0, sample=sample, sg=1, hs=0, iter=kwargs['iter'][level], workers=20)
        else:
            model = Word2Vec(None, size=kwargs['representation_size'], window=kwargs['window_size'], min_count=0, sample=sample, sg=1, hs=0, iter=kwargs['iter'][level], workers=20)
            model.build_vocab(edges)
            model.reset_weights()

            # init model weights with the previous one
            prev_syn0 = {models[-1].wv.index2word[ind]: vec for ind, vec in enumerate(models[-1].wv.syn0)}
            prev_syn1neg = {models[-1].wv.index2word[ind]: vec for ind, vec in enumerate(models[-1].syn1neg)}
            word2index = {model.wv.index2word[ind]: ind for ind in range(recursive_graphs[level].number_of_nodes())}
            for ind in range(recursive_graphs[level].number_of_nodes()):
                word = model.wv.index2word[ind]
                if word in prev_syn0:
                    model.wv.syn0[ind] = prev_syn0[word]
                    model.syn1neg[ind] = prev_syn1neg[word]
                else:
                    # if a is merged into b, then a should has identical weights in word2vec as b
                    if int(word) in recursive_merged_nodes[level]:
                        word_ind = word2index[word]
                        merged_word = str(recursive_merged_nodes[level][int(word)])
                        model.wv.syn0[word_ind] = prev_syn0[merged_word]
                        model.syn1neg[word_ind] = prev_syn1neg[merged_word]
            model.syn0_lockf = np.ones(len(model.wv.vocab), dtype=np.float32)

            model.train(edges)

        models.append(model)

    print ('Finish building Skip-gram model on the coarsened graphs.')
    return models

class combine_files_iter:
    def __init__(self, file_list, length, path_length):
        self.file_list = file_list
        self.file_list_iter = iter(file_list)
        self.fp_iter = open(next(self.file_list_iter))
        self.length = length
        self.path_length = path_length

    def __len__(self):
        return self.length

    def __iter__(self):
        for fname in self.file_list:
            for line in open(fname):
                yield line.split()
        # return self

    def next(self):
        try:
            result = next(self.fp_iter).split()
        except:
            try:
                self.fp_iter.close()
                self.fp_iter = open(next(self.file_list_iter))
                result = next(self.fp_iter).split()
            except:
                raise StopIteration
        return result

def build_deepwalk_corpus(G, num_paths, path_length, output, alpha=0):
    walks_filebase = output + '.walks'
    walk_files = serialized_walks.write_walks_to_disk(G, walks_filebase, num_paths=num_paths,
                                         path_length=path_length, alpha=alpha, rand=random.Random(random.randint(0, 2**31)),
                                         num_workers=20)
    return combine_files_iter(walk_files, G.number_of_nodes() * num_paths, path_length)

baseline.py

from gensim.models import Word2Vec
import graph_coarsening
import numpy as np

def skipgram_baseline(graph, **kwargs):
    scale = kwargs.get('scale', -1)
    representation_size = kwargs.get('representation_size', 128)

    if scale == 1:
        edges, weights = graph.get_edges()
    else:
        path_length = kwargs.get('path_length', 40)
        num_paths = kwargs.get('num_paths', 80)
        output = kwargs.get('output', 'default')
        edges = graph_coarsening.build_deepwalk_corpus(graph, num_paths, path_length, output)

    if kwargs['hs'] == 0:
        print ('Training the Negative Sampling Model...')
        model = Word2Vec(edges, size=representation_size, window=kwargs['window_size'], min_count=0, sg=1, hs=0, iter=kwargs['iter_count'], negative=5, workers=20)
    else:
        print ('Training the Hierarchical Softmax Model...')
        model = Word2Vec(edges, size=kwargs['representation_size'], window=kwargs['window_size'], min_count=0, sg=1, hs=1, iter=kwargs['iter_count'], workers=20)

    print ('Finish training the Skip-gram model.')
    return model

skipgram.py（train函数和其余gensim移入wv的模块都做了修改）

from __future__ import division  # py3 "true division"

import logging
import sys
import os
import heapq
import copy
import numpy as np

from timeit import default_timer
from copy import deepcopy
from collections import defaultdict
import threading
import itertools

try:
    from queue import Queue, Empty
except ImportError:
    from Queue import Queue, Empty

from numpy import exp, log, dot, zeros, outer, random, dtype, float32 as REAL,\
    uint32, seterr, array, uint8, vstack, fromstring, sqrt, newaxis,\
    ndarray, empty, sum as np_sum, prod, ones, ascontiguousarray

from gensim import utils, matutils  # utility fnc for pickling, common scipy operations etc
from gensim.models import Word2Vec
from gensim.models.word2vec import Vocab
from six import iteritems, itervalues, string_types
from six.moves import xrange
from types import GeneratorType
import random

logger = logging.getLogger(__name__)

try:
    from gensim.models.word2vec_inner import train_batch_sg, train_batch_cbow
    from gensim.models.word2vec_inner import score_sentence_sg, score_sentence_cbow
    from gensim.models.word2vec_inner import FAST_VERSION, MAX_WORDS_IN_BATCH
except ImportError:
    # failed... fall back to plain numpy (20-80x slower training than the above)
    FAST_VERSION = -1
    MAX_WORDS_IN_BATCH = 10000

# modified hierarchical softmax model based on Gensim's implementation
class Word2Vec_hs_loss(Word2Vec):
    def __init__(self, sentences=None, **kwargs):
        self.inner_node_index_map = {}
        kwargs["hs"] = 1
        kwargs["alpha"] = kwargs.get("alpha", 0.025)
        kwargs["min_alpha"] = kwargs.get("min_alpha", 0.001)
        kwargs["min_count"] = 0
        kwargs["negative"] = 0
        kwargs["sample"] = kwargs.get("sample", 1e-3)
        kwargs["workers"] = kwargs.get("workers", 20)
        super(self.__class__, self).__init__(sentences, **kwargs)

    # add a word as the child of current word in the coarser graph
    def add_word(self, word, parent_word, emb, cur_index):
        fake_vocab_size = int(1e7)
        word_index = len(self.wv.vocab)
        inner_node_index = word_index - 1
        parent_index = self.wv.vocab[parent_word].index

        # add in the left subtree
        if word != parent_word:
            self.wv.vocab[word] = Vocab(index=word_index, count=fake_vocab_size-word_index,sample_int=(2**32))
            if emb is not None:
                self.wv.syn0[cur_index] = emb
            else:
                self.wv.syn0[cur_index] = self.wv.syn0[parent_index]
            # the node in the coarsened graph serves as an inner node now
            self.wv.index2word.append(word)
            self.wv.vocab[word].code = array(list(self.wv.vocab[parent_word].code) + [0], dtype=uint8)
            self.wv.vocab[word].point = array(list(self.wv.vocab[parent_word].point) + [inner_node_index], dtype=uint32)
            self.inner_node_index_map[parent_word] = inner_node_index
        else:
            if emb is not None:
                self.wv.syn0[parent_index] = emb
            self.wv.vocab[word].code = array(list(self.wv.vocab[word].code) + [1], dtype=uint8)
            self.wv.vocab[word].point = array(list(self.wv.vocab[word].point) + [self.inner_node_index_map[word]], dtype=uint32)

    def train(self, sentences, total_words=None, word_count=0,
             total_examples=None, queue_factor=2, report_delay=0.1, **kwargs):
        """
        Update the model's neural weights from a sequence of sentences (can be a once-only generator stream).
        For Word2Vec, each sentence must be a list of unicode strings. (Subclasses may accept other examples.)
        To support linear learning-rate decay from (initial) alpha to min_alpha, either total_examples
        (count of sentences) or total_words (count of raw words in sentences) should be provided, unless the
        sentences are the same as those that were used to initially build the vocabulary.
        """
        self.loss = {}
        if FAST_VERSION < 0:
            import warnings
            warnings.warn("C extension not loaded for Word2Vec, training will be slow. "
                          "Install a C compiler and reinstall gensim for fast training.")
            self.neg_labels = []
            if self.negative > 0:
                # precompute negative labels optimization for pure-python training
                self.neg_labels = zeros(self.negative + 1)
                self.neg_labels[0] = 1.

        logger.info(
            "training model with %i workers on %i vocabulary and %i features, "
            "using sg=%s hs=%s sample=%s negative=%s",
            self.workers, len(self.wv.vocab), self.layer1_size, self.sg,
            self.hs, self.sample, self.negative)

        if not self.wv.vocab:
            raise RuntimeError("you must first build vocabulary before training the model")
        if not hasattr(self.wv, 'syn0'):
            raise RuntimeError("you must first finalize vocabulary before training the model")

        if total_words is None and total_examples is None:
            if self.corpus_count:
                total_examples = self.corpus_count
                logger.info("expecting %i sentences, matching count from corpus used for vocabulary survey", total_examples)
            else:
                raise ValueError("you must provide either total_words or total_examples, to enable alpha and progress calculations")

        job_tally = 0

        if self.iter > 1:
            sentences = utils.RepeatCorpusNTimes(sentences, self.iter)
            total_words = total_words and total_words * self.iter
            total_examples = total_examples and total_examples * self.iter

        def worker_loop():
            """Train the model, lifting lists of sentences from the job_queue."""
            work = matutils.zeros_aligned(self.layer1_size, dtype=REAL)  # per-thread private work memory
            neu1 = matutils.zeros_aligned(self.layer1_size, dtype=REAL)
            jobs_processed = 0
            while True:
                job = job_queue.get()
                if job is None:
                    progress_queue.put(None)
                    break  # no more jobs => quit this worker
                sentences, alpha = job
                tally, raw_tally = self._do_train_job(sentences, alpha, (work, neu1))
                progress_queue.put((len(sentences), tally, raw_tally))  # report back progress
                jobs_processed += 1
#             logger.debug("worker exiting, processed %i jobs", jobs_processed)

        def job_producer():
            """Fill jobs queue using the input `sentences` iterator."""
            job_batch, batch_size = [], 0
            pushed_words, pushed_examples = 0, 0
            next_alpha = self.alpha
            job_no = 0

            for sent_idx, sentence in enumerate(sentences):
                sentence_length = self._raw_word_count([sentence])

                # can we fit this sentence into the existing job batch?
                if batch_size + sentence_length <= self.batch_words:
                    # yes => add it to the current job
                    job_batch.append(sentence)
                    batch_size += sentence_length
                else:
                    # no => submit the existing job
                    #logger.debug(
                    #    "queueing job #%i (%i words, %i sentences) at alpha %.05f",
                    #    job_no, batch_size, len(job_batch), next_alpha)
                    job_no += 1
                    job_queue.put((job_batch, next_alpha))

                    # update the learning rate for the next job
                    if self.min_alpha < next_alpha:
                        if total_examples:
                            # examples-based decay
                            pushed_examples += len(job_batch)
                            progress = 1.0 * pushed_examples / total_examples
                        else:
                            # words-based decay
                            pushed_words += self._raw_word_count(job_batch)
                            progress = 1.0 * pushed_words / total_words
                        next_alpha = self.alpha - (self.alpha - self.min_alpha) * progress
                        next_alpha = max(self.min_alpha, next_alpha)

                    # add the sentence that didn't fit as the first item of a new job
                    job_batch, batch_size = [sentence], sentence_length

            # add the last job too (may be significantly smaller than batch_words)
            if job_batch:
#                 logger.debug(
#                     "queueing job #%i (%i words, %i sentences) at alpha %.05f",
#                     job_no, batch_size, len(job_batch), next_alpha)
                job_no += 1
                job_queue.put((job_batch, next_alpha))

            if job_no == 0 and self.train_count == 0:
                logger.warning(
                    "train() called with an empty iterator (if not intended, "
                    "be sure to provide a corpus that offers restartable "
                    "iteration = an iterable)."
                )

            # give the workers heads up that they can finish -- no more work!
            for _ in xrange(self.workers):
                job_queue.put(None)
            logger.debug("job loop exiting, total %i jobs", job_no)

        # buffer ahead only a limited number of jobs.. this is the reason we can't simply use ThreadPool :(
        job_queue = Queue(maxsize=queue_factor * self.workers)
        progress_queue = Queue(maxsize=(queue_factor + 1) * self.workers)

        workers = [threading.Thread(target=worker_loop) for _ in xrange(self.workers)]
        unfinished_worker_count = len(workers)
        workers.append(threading.Thread(target=job_producer))

        for thread in workers:
            thread.daemon = True  # make interrupting the process with ctrl+c easier
            thread.start()

        example_count, trained_word_count, raw_word_count = 0, 0, word_count
        start, next_report = default_timer() - 0.00001, 1.0
        prev_example_count = 0

        while unfinished_worker_count > 0:
            report = progress_queue.get()  # blocks if workers too slow
            if report is None:  # a thread reporting that it finished
                unfinished_worker_count -= 1
#                 logger.info("worker thread finished; awaiting finish of %i more threads", unfinished_worker_count)
                continue
            examples, trained_words, raw_words = report
            job_tally += 1

            # update progress stats
            example_count += examples
            trained_word_count += trained_words  # only words in vocab & sampled
            raw_word_count += raw_words

            # log progress once every report_delay seconds
            elapsed = default_timer() - start
            if elapsed >= next_report:
                next_report = elapsed + report_delay

        # all done; report the final stats
        elapsed = default_timer() - start
        logger.info(
            "training on %i raw words (%i effective words) took %.1fs, %.0f effective words/s",
            raw_word_count, trained_word_count, elapsed, trained_word_count / elapsed)
        if job_tally < 10 * self.workers:
            logger.warn("under 10 jobs per worker: consider setting a smaller `batch_words' for smoother alpha decay")

        # check that the input corpus hasn't changed during iteration
        if total_examples and total_examples != example_count:
            logger.warn("supplied example count (%i) did not equal expected count (%i)", example_count, total_examples)
        if total_words and total_words != raw_word_count:
            logger.warn("supplied raw word count (%i) did not equal expected count (%i)", raw_word_count, total_words)

        self.train_count += 1  # number of times train() has been called
        self.total_train_time += elapsed
        self.clear_sims()

        return trained_word_count

你可能感兴趣的:(机器学习)

图像处理篇---图像预处理 Ronin-Lotus 图像处理篇深度学习篇程序代码篇图像处理人工智能 opencv python 深度学习计算机视觉
文章目录前言一、通用目的1.1数据标准化目的实现1.2噪声抑制目的实现高斯滤波中值滤波双边滤波1.3尺寸统一化目的实现1.4数据增强目的实现1.5特征增强目的实现：边缘检测直方图均衡化锐化二、分领域预处理2.1传统机器学习（如SVM、随机森林）2.1.1特点2.1.2预处理重点灰度化二值化形态学操作特征工程2.2深度学习（如CNN、Transformer）2.2.1特点2.2.2预处理重点通道顺序
【大模型科普】AIGC技术发展与应用实践（一文读懂AIGC）人工智能
【专栏介绍】⌈⌈⌈人工智能与大模型应用⌋⌋⌋人工智能（AI）通过算法模拟人类智能，利用机器学习、深度学习等技术驱动医疗、金融等领域的智能化。大模型是千亿参数的深度神经网络（如ChatGPT），经海量数据训练后能完成文本生成、图像创作等复杂任务，显著提升效率，但面临算力消耗、数据偏见等挑战。当前正加速与教育、科研融合，未来需平衡技术创新与伦理风险，推动可持续发展。文章目录一、AIGC概述（一）什么是
【产品小白】什么是AI产品经理百事不可口y 产品经理的一步一步人工智能产品经理学习产品运营内容运营用户运营
一、AI产品经理的定义与角色定位AI产品经理是人工智能技术与商业应用之间的核心桥梁，负责将复杂的AI技术转化为满足市场需求的产品。需同时具备技术理解力、商业洞察力和用户思维，既要参与算法选型与数据建模，又要定义产品功能与市场策略，是贯穿产品全生命周期的关键角色。与传统互联网产品经理相比，AI产品经理的独特之处在于：技术深度参与：需理解机器学习、自然语言处理（NLP）、计算机视觉等技术原理，并参与数
数据增强：扩充数据集提升模型泛化能力 AI天才研究院计算 AI大模型企业级应用开发实战 ChatGPT 计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
1.背景介绍1.1.数据增强的重要性在机器学习领域，模型的泛化能力至关重要。一个泛化能力强的模型能够在未见数据上表现良好，而过拟合的模型则会在训练数据上表现出色，但在新数据上表现糟糕。数据增强是一种有效提升模型泛化能力的技术，它通过对现有数据进行各种变换，人为地扩充数据集，从而增加训练数据的数量和多样性。1.2.数据增强的应用场景数据增强广泛应用于各种机器学习任务中，包括：图像识别:对图像进行旋转
数据增强：扩充数据集，提升模型的鲁棒性 AI天才研究院 DeepSeek R1 &大数据AI人工智能大模型 LLM大模型落地实战指南计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
数据增强：扩充数据集，提升模型的鲁棒性1.背景介绍1.1数据集的重要性在机器学习和深度学习领域中,数据集是训练模型的基础。高质量的数据集对于构建准确、鲁棒的模型至关重要。然而,在现实世界中,获取大量高质量的数据通常是一个巨大的挑战。数据采集过程耗时耗力,而且成本高昂。此外,某些领域的数据存在隐私和安全问题,难以获取。1.2数据集不足的挑战当数据集规模有限时,模型很容易过拟合,无法很好地推广到新的、
使用TensorFlow、OpenCV和Pygame实现图像处理与游戏开发 UwoiGit tensorflow opencv pygame
在本篇文章中，我们将介绍如何结合使用TensorFlow、OpenCV和Pygame来进行图像处理和游戏开发。这三个工具在机器学习、计算机视觉和游戏开发领域都非常流行，并且它们的结合可以提供强大的功能和无限的创造力。我们将逐步介绍如何安装和配置这些工具，并提供相关的源代码示例。安装TensorFlowTensorFlow是一个基于数据流图的开源机器学习框架，提供了丰富的工具和库来构建和训练各种深度
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
机器学习流程—数据预处理清洗不二人生机器学习机器学习人工智能数据预处理
文章目录机器学习流程—数据预处理清洗定义问题数据预处理数据加载与展示重复数据处理数据类型空值处理无关特征删除数据分布删除异常值生成标签和特征数据分割机器学习流程—数据预处理清洗数据处理是将数据从给定形式转换为更可用和更理想的形式的任务，即使其更有意义、信息更丰富。使用机器学习算法、数学建模和统计知识，整个过程可以自动化。这个完整过程的输出可以是任何所需的形式，如图形、视频、图表、表格、图像等等，具
Apache Storm：实时数据处理的闪电战 Aaron_945 Java apache storm 大数据
文章目录ApacheStorm原理拓扑结构数据流处理容错机制官网链接基础使用安装与配置编写拓扑提交与运行高级使用状态管理窗口操作多语言支持优点高吞吐量低延迟可扩展性容错性总结ApacheStorm是一个开源的分布式实时计算系统，它允许你以极高的吞吐量处理无界数据流。Storm被广泛用于实时分析、在线机器学习、连续计算等多种场景。本文将深入探讨ApacheStorm的原理、基础使用、高级特性及其优点
Python 机器学习基础之学习基础环境搭建仙魁XAN Python 机器学习基础+实战案例 python 学习开发语言机器学习 machine learning
Python机器学习基础之学习基础环境搭建目录Python机器学习基础之学习基础环境搭建一、简单介绍二、什么是机器学习三、python环境的搭建1、Python安装包下载2、这里以下载Python3.10.9为例3、安装Python3.10.94、检验python是否安装成功，win+R快捷打开运行，输入cmd，打开cmd四、Pycharm环境搭建1、下载Pycharm安装包2、安装Pycharm
【机器学习】主成分分析法（PCA）若兰幽竹机器学习机器学习信息可视化人工智能
【机器学习】主成分分析法（PCA）一、摘要二、主成分分析的基本概念三、主成分分析的数学模型五、主成分分析法目标函数公式推导（`梯度上升法`求解目标函数）六、梯度上升法求解目标函数第一个主成分七、求解前n个主成分及PCA在数据预处理中的处理步骤（后续实现）一、摘要本文主要讲述了主成分分析法（PCA）的原理和应用。PCA通过选择最重要的特征，将高维数据映射到低维空间，同时保持数据间的关系，实现降维和去
深入探索 PyTorch 在语音识别中的应用 Zoro｜ PyTorch Deep Learning 机器学习 pytorch 语音识别人工智能
深入探索PyTorch在语音识别中的应用在本篇博客中，我将分享如何使用PyTorch进行语音识别任务，重点围绕环境配置、数据预处理、特征提取、模型设计以及模型比较展开。本文基于最近一次机器学习作业（HW2）的任务内容，任务目标是对语音信号进行逐帧音素预测，从而完成多类别分类任务。一、介绍任务背景任务目标：利用深度神经网络对语音信号进行逐帧音素预测。音素定义：音素是语音中能够区分单词的最小语音单位。
MNIST数据集&手写数字识别 Zoro｜ keras tensorflow 人工智能机器学习
TensorFlow是一个开源的机器学习框架，由Google开发并发布。它提供了一种基于数据流图的编程模型，用于构建和训练机器学习模型。TensorFlow的核心概念是张量（Tensor）和流图（Graph）。张量是TensorFlow中的基本数据单位，可以理解为多维数组，可以是标量、向量、矩阵或更高维度的数组。流图是由一系列操作（Operation）和张量组成的。操作定义了计算和转换张量的方式。
OpenLSD是一个自适应开源数据集，旨在支持逻辑综合中的多种机器学习任务。数据集
2024-11-14，由中国科学院计算技术研究所、鹏城实验室和北京大学等联合创建OpenLSD数据集，目的为逻辑综合过程中的机器学习任务提供一个自适应的数据集生成框架。该数据集的核心研究问题是如何在逻辑综合的三个基本步骤——布尔表示、逻辑优化和技术映射中，通过机器学习方法提升效率和质量。一、研究背景：逻辑综合是电子设计自动化（EDA）流程中的关键环节，它负责将高级设计规范转化为门级网络列表。近年来
【Python】测试数据生成工具 --- Faker pythonfaker数据分析
Faker库介绍Faker是一个强大的库，能够帮助开发者和测试人员生成大量的假数据，但这些数据看起来却非常真实。它支持生成多种类型的数据，如姓名、地址、公司名称、电子邮件等，甚至能够根据不同国家的特定文化生成相应的数据。Faker的应用不仅限于测试，它还广泛应用于数据分析、机器学习训练集的准备以及任何需要大量样本数据的场景。Faker安装前提：已安装python、pip安装命令如下：pipinst
深度学习框架PyTorch——从入门到精通（4）数据转换 Fansv587 Torch框架学习深度学习 pytorch 人工智能 python 经验分享
转换（Transforms）很多时候，数据并不总是以训练机器学习算法所需的最终处理形式出现。所以我们需要使用变换对数据进行一些处理，使其适合训练。所有TorchVision数据集都有两个参数——transform来修改特征，target_transform来修改标签——接受包含转换逻辑的可调用项。torchvision.transform模块提供了几个开箱即用的转换。FashionMNIST数据集
机器学习线性回归学习心得_线性回归为机器学习的初学者解释 weixin_26750481 机器学习 python 人工智能逻辑回归深度学习
机器学习线性回归学习心得Datasciencewiththekindofpoweritgivesyoutoanalyzeeachandeverybitofdatayouhaveatyourdisposal,tomakesmart&intelligentbusinessdecisions,isbecomingamust-havetooltounderstandandimplementinyouror
统计机器学习 (Statistical Machine Learning) 原理与代码实例讲解 AGI大模型与大数据研究院 DeepSeek R1 &大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
统计机器学习(StatisticalMachineLearning)原理与代码实例讲解1.背景介绍统计机器学习是现代人工智能和数据科学的核心领域之一。它结合了统计学和计算机科学的理论与方法，通过数据驱动的方式来构建预测模型和决策系统。统计机器学习不仅在学术研究中占据重要地位，还在工业界有广泛应用，如推荐系统、图像识别、自然语言处理等。2.核心概念与联系2.1统计学与机器学习的关系统计学关注数据的收
【python 机器学习】sklearn数据集的使用人才程序员 python 机器学习 sklearn 人工智能深度学习神经网络目标检测
文章目录sklearn数据集的使用1.`sklearn`内置数据集2.导入`sklearn`数据集3.加载和使用Iris数据集3.1加载数据3.2查看数据3.3使用数据集进行分类任务4.加载和使用Digits数据集4.1加载数据4.2查看数据4.3使用数据集进行分类任务5.加载和使用BreastCancer数据集5.1加载数据5.2查看数据5.3使用数据集进行分类任务6.总结sklearn数据集的
消融实验（Ablation Study） xwhking 深度学习机器学习深度学习消融实验
消融实验（AblationStudy）定义：消融实验是一种科学研究方法，通过逐步移除模型、算法或系统中的某个组件（如模块、层、特征、数据等），观察其对整体性能的影响，从而验证该组件的必要性和有效性。其名称来源于医学领域的“消融术”（切除部分组织以研究功能），在计算机视觉、机器学习和深度学习中被广泛用于分析模型设计。为什么要做消融实验？1.验证组件的有效性核心目的：确认模型中某个设计（如注意力机制、
【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南 2401_85702623 conda pip python
标题：【Conda与Pip的完美融合】在Conda环境中优雅使用pip指南Conda是一个强大的包管理器和环境管理器，广泛用于Python社区，尤其是在数据科学和机器学习领域。尽管Conda本身可以处理大多数包的安装和管理，但有时我们可能仍需使用pip来安装特定的Python包。本文将详细解释如何在Conda环境中使用pip，包括配置、安装包、环境管理等，确保您可以充分利用这两个工具的优势。1.C
量子计算+AI：未来AI Agent的计算范式 AI天才研究院计算 ChatGPT DeepSeek RL 强化学习 agent agi 推理模型智能驾驶
量子计算+AI：未来AIAgent的计算范式关键词：量子计算，人工智能，AIAgent，量子算法，量子机器学习，量子优化，量子数据处理摘要：量子计算和人工智能（AI）的结合正在改变AIAgent的计算范式。通过量子计算的超强算力和独特性质，AIAgent在数据处理、算法优化和决策能力方面展现出巨大潜力。本文将详细探讨量子计算与AI结合的核心概念、算法原理、系统架构，并通过实际案例展示量子AIAge
AI人工智能深度学习算法：搭建可拓展的深度学习模型架构 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 java python javascript kotlin golang 架构人工智能
深度学习、模型架构、可拓展性、神经网络、机器学习1.背景介绍深度学习作为人工智能领域最前沿的技术之一，在图像识别、自然语言处理、语音识别等领域取得了突破性的进展。深度学习模型的成功离不开其强大的学习能力和可拓展性。本文将深入探讨深度学习算法的原理、模型架构设计以及可拓展性的关键要素，并通过代码实例和实际应用场景，帮助读者理解如何搭建可拓展的深度学习模型架构。2.核心概念与联系深度学习的核心概念是人
机器学习之向量化珠峰日记 AI理论与实践机器学习人工智能
文章目录向量化是什么为什么要向量化提升计算效率简化代码与增强可读性适配模型需求怎么做向量化数据预处理特征提取特征选择向量构建机器学习与深度学习中向量化的区别数据特征提取方式机器学习深度学习模型结构与复杂度机器学习深度学习计算资源需求机器学习深度学习数据规模适应性机器学习深度学习向量化是什么向量化是把数据转化为向量形式进行表示与处理的过程。在机器学习与深度学习的范畴内，现实中的各类数据，像文本、图像
从零精通机器学习：线性回归入门吴师兄大模型 0基础实现机器学习入门到精通机器学习线性回归人工智能 python 算法回归开发语言
Langchain系列文章目录01-玩转LangChain：从模型调用到Prompt模板与输出解析的完整指南02-玩转LangChainMemory模块：四种记忆类型详解及应用场景全覆盖03-全面掌握LangChain：从核心链条构建到动态任务分配的实战指南04-玩转LangChain：从文档加载到高效问答系统构建的全程实战05-玩转LangChain：深度评估问答系统的三种高效方法（示例生成、手
聊聊Python都能做些什么 ·零落· Python入门到掌握 python 开发语言
文章目录一、Python简介二、Python都能做些什么1.Web开发2.数据分析和人工智能3.自动化运维和测试4.网络爬虫5.金融科技三、Python开源库都有哪些1.Web开发2.数据分析和科学计算3.机器学习和深度学习4.网络爬虫5.自动化和测试6.其他常用库四、相关链接一、Python简介Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。它最初由GuidovanRossu
基于改进ISODATA算法的负荷场景曲线聚类（matlab代码）电力程序小学童聚类 matlab ISODATA算法风电光伏
目录1主要内容聚类中心选取步骤核方法2部分代码3程序结果4程序链接1主要内容程序复现文献《基于机器学习的短期电力负荷预测和负荷曲线聚类研究》第三章《基于改进ISODATA算法的负荷场景曲线聚类》模型，该方法不止适用于负荷聚类，同样适用于风光等可再生能源聚类，只需要改变聚类的数据即可，该方法的通用性和可创新性强。该代码实现一种基于改进ISODATA算法的负荷场景曲线聚类方法，代码中，主要做了四种聚类
《基于机器学习的负荷曲线聚类算法对比与改进：K-L-isodata的创新性研究》 TWHiwhjig 机器学习算法聚类
基于机器学习的负荷曲线聚类包括kmeansisodata和改进的L-isodata以及在其基础上再次进行改进的K-L-isodata(有创新性)，四者通过评价指标进行了对比精品代码可修改性极高有参考文献ID:93150688324967700自律的电气人基于机器学习的负荷曲线聚类是一种基于数据分析和模式识别的技术，它可以帮助我们对系统的负荷变化进行分类和理解。在负荷曲线聚类的研究中，K-means
机器学习Pandas_learn4 XW-ABAP 机器学习机器学习 pandas 人工智能
importpandasaspddefcalculate_goods_covariance():#定义商品销售数据字典goods_sales_data={"时期":["一期","二期","三期","四期"],"苹果":[15,16,3,2],"橘子":[12,14,16,18],"石榴":[11,8,7,1]}#将字典转换为DataFrame对象goods_dataframe=pd.DataFra
如何使用Python对Excel、CSV文件完成数据清洗与预处理？ Python 集中营 python数据分析应用 python excel 开发语言
在数据分析和机器学习项目中，数据清洗与预处理是不可或缺的重要环节。现实世界中的数据往往是不完整、不一致且含有噪声的，这些问题会严重影响数据分析的质量和机器学习模型的性能。Python作为一门强大的编程语言，提供了多种库和工具来帮助我们高效地完成数据清洗与预处理任务，其中最常用的库包括Pandas、NumPy、SciPy等。本文将详细介绍如何使用Python对Excel和CSV格式的数据文件进行清洗
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin