weixin_39967670

python define graph_GraphSAGE 代码解析(一) - unsupervised_train.py

原创文章～转载请注明出处哦。其他部分内容参见以下链接～

GraphSAGE代码详解

example_data:

1. toy-ppi-G.json 图的信息

{

directed: false

graph : {

{name: disjoint_union(,) }

nodes: [

{

test: false

id: 0

features: [ ... ]

val: false

lable: [ ... ]

}

{...}

...

]

links: [

{

test_removed: false

train_removed: false

target:800 #指向的节点id(默认从小节点指向大节点)

source: 0 #从0节点按顺序展示

}

{...}

...

]

}

View Code

2. toy-ppi-class_map.json

3. toy-ppi-feats.npy 预训练好得到的features

4. toy-ppi-id_map.json 节点编号与序号的一一对应；数据格式为：{"0": 0, "1": 1,..., "14754": 14754}

5. toy-ppi-walks.txt

从一点出发随机游走到邻居节点的情况，对于每个点取198次(即可能有重复情况)

例如：0 708 表示从0点走到708点。

1. __init__.py

1 from __future__ importprint_function2 #即使在python2.X，使用print就得像python3.X那样加括号使用。

4 from __future__ importdivision5 #导入python未来支持的语言特征division(精确除法)，

6 #当我们没有在程序中导入该特征时，"/"操作符执行的是截断除法(Truncating Division)；

7 #当我们导入精确除法之后，"/"执行的是精确除法, "//"执行截断除除法

2. unsupervised_train.py

1 if __name__ == '__main__':2 tf.app.run()3 #https://blog.csdn.net/fxjzzyo/article/details/80466321

4 #tf.app.run()的作用：通过处理flag解析，然后执行main函数

5 #如果你的代码中的入口函数不叫main()，而是一个其他名字的函数，如test()，则你应该这样写入口tf.app.run(test())

6 #如果你的代码中的入口函数叫main()，则你就可以把入口写成tf.app.run()

1 def main(argv=None):2 　　print("Loading training data..")3 　　train_data = load_data(FLAGS.train_prefix, load_walks=True)4 　　#load_data函数在graphsage.utils中定义

6 　　print("Done loading training data..")7 train(train_data)8 　　#train函数在该文件中定义def train(train_data, test_data=None)

3. utils.py - func: load_data

(1) 读入id_map, class_map

1 ifisinstance(G.nodes()[0], int):2 def conversion(n): returnint(n)3 else:4 def conversion(n): return n

a. isinstance()函数来判断一个对象是否是一个已知的类型，类似 type()。

isinstance(object, classinfo)

参数

object -- 实例对象。

classinfo -- 可以是直接或间接类名、基本类型或者由它们组成的元组。

返回值

如果对象的类型与参数二的类型(classinfo)相同则返回 True，否则返回 False。

>>>a = 2

>>>isinstance (a,int)

True>>>isinstance (a,str)

False>>> isinstance (a,(str,int,list)) #是元组中的一个返回 True

True

type() 与 isinstance() 区别:

type() 不会认为子类是一种父类类型，不考虑继承关系。

isinstance() 会认为子类是一种父类类型，考虑继承关系。

如果要判断两个类型是否相同推荐使用 isinstance()。

1 classA:2 pass

4 classB(A):5 pass

7 isinstance(A(), A) #returns True

8 type(A()) == A #returns True

9 isinstance(B(), A) #returns True

10 type(B()) == A #returns False

View Code

b. G.nodes()

例子：

>>> G = nx.path_graph(3)>>>list(G.nodes)

[0,1, 2]>>>list(G)

[0,1, 2]

View Code

获取nodedata:

>>> G.add_node(1, time='5pm')>>> G.nodes[0]['foo'] = 'bar'

>>> list(G.nodes(data=True))

[(0, {'foo': 'bar'}), (1, {'time': '5pm'}), (2, {})]>>>list(G.nodes.data())

[(0, {'foo': 'bar'}), (1, {'time': '5pm'}), (2, {})]>>> list(G.nodes(data='foo'))

[(0,'bar'), (1, None), (2, None)]>>> list(G.nodes(data='time'))

[(0, None), (1, '5pm'), (2, None)]>>> list(G.nodes(data='time', default='Not Available'))

[(0,'Not Available'), (1, '5pm'), (2, 'Not Available')]

View Code

If some of your nodes have an attribute and the rest are assumed to have a default attribute value you can create a dictionary from node/attribute pairs using the default keyword argument to guarantee the value is never None:

>>> G =nx.Graph()>>>G.add_node(0)>>> G.add_node(1, weight=2)>>> G.add_node(2, weight=3)>>> dict(G.nodes(data='weight', default=1))

{0:1, 1: 2, 2: 3}

View Code

----------------------------

在utils.py中，判断G.nodes()[0] 是否为int型(即不带nodedata)。

若为int型，则将n转为int型；否则直接返回n.

b. conversion() 函数

1 id_map = json.load(open(prefix + "-id_map.json"))2 id_map = {conversion(k): int(v) for k, v in id_map.items()}

前面定义的conversion()函数在id_map这里用到了,把外存中的文件内容读到内存中，用dict类型的id_map存储。

id_map.json文件中数据格式为：{"0": 0, "1": 1,..., "14754": 14754}，也即id_map的迭代中k为str类型，v为int型。数据文件中G.nodes()[0] 显然是带nodedata的，也就算一般采用 def conversion(n): return n，返回的n为类型的(就是前面形参k的类型)；

但是为什么当G.nodes()[0] 不带nodedata时，要返回int(n)？

c. class_map: {"0": [.0,1,..], "1": [.0,1,..]...} ?含义？

list(class_map.values())： [ [...], [...], ... ,[...] ]

list(class_map.values())[0]: 表示取第一个[...] =>含义？

ifisinstance(list(class_map.values())[0], list):

def lab_conversion(n): returnn

else:

def lab_conversion(n): return int(n)

(2) Remove node

1 #Remove all nodes that do not have val/test annotations

2 #(necessary because of networkx weirdness with the Reddit data)

3 broken_count =04 for node inG.nodes():5 if not 'val' in G.node[node] or not 'test' inG.node[node]:6 G.remove_node(node)7 broken_count += 1

这里删除的节点是不具有'val'，'test'属性的节点，而不是'val'，'test' 属性值为None的节点。

区分开 if not 'val' in G.node[node] 和 if not G.node[n]['val']的不同意义。

broken_count 记录删去的没有val 或者 test的属性的节点的数目。

e. G.edges()

1 for edge inG.edges():2 if (G.node[edge[0]]['val'] or G.node[edge[1]]['val'] or

3 G.node[edge[0]]['test'] or G.node[edge[1]]['test']):4 G[edge[0]][edge[1]]['train_removed'] =True5 else:6 G[edge[0]][edge[1]]['train_removed'] = False

G.edges() 得到edge_list, [( , ), ( , ), ... ( , )].list中每一个元素是所表示边的两个节点信息。若设置data = True，则会显示边的权重等属性信息。

>>> G = nx.Graph() #or DiGraph, MultiGraph, MultiDiGraph, etc

>>> G.add_path([0,1,2])>>> G.add_edge(2,3,weight=5)>>>G.edges()

[(0,1), (1, 2), (2, 3)]>>> G.edges(data=True) #default edge data is {} (empty dictionary)

[(0, 1, {}), (1, 2, {}), (2, 3, {'weight': 5})]>>> list(G.edges_iter(data='weight', default=1))

[(0,1, 1), (1, 2, 1), (2, 3, 5)]>>> G.edges([0,3])

[(0,1), (3, 2)]>>>G.edges(0)

[(0,1)]

View Code

代码中edge对edges迭代，每次去list中的一个元组，而edge[0], edge[1]则分别表示两个顶点。

若两个顶点中至少有一个的val/test不为空，则将该边的'train_removed'设为True，否则为False.

该操作为保证'train_removed'不为空。

(3) 获取训练数据features并标准化

1 if normalize and not feats isNone:2 from sklearn.preprocessing importStandardScaler3 train_ids = np.array([id_map[n] for n inG.nodes(4 ) if not G.node[n]['val'] and not G.node[n]['test']])5 train_feats =feats[train_ids]6 scaler =StandardScaler()7 scaler.fit(train_feats)8 feats = scaler.transform(feats)

这里if not feats is None 等价于 if feats is not None.

将val,test均为None的node选为训练数据，通过id_map获取其在feature表中的索引值，添加到train_ids数组中。根据索引train_ids，train_fests获取这些nodes的features.

StandardScaler的用法：

Methods:

fit(X[, y]) : Compute the mean and std to be used for later scaling.

transform(X[, y, copy]) : Perform standardization by centering and scaling

fit_transform(X[, y]) : Fit to data, then transform it.

例子：

>>> from sklearn.preprocessing importStandardScaler>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]>>> scaler =StandardScaler()>>> print(scaler.fit(data))

StandardScaler(copy=True, with_mean=True, with_std=True)>>> print(scaler.mean_)

[0.5 0.5]>>> print(scaler.transform(data))

[[-1. -1.]

[-1. -1.]

[1. 1.]

[1. 1.]]>>> print(scaler.transform([[2, 2]]))

[[3. 3.]]#计算得#均值[0.5, 0.5],#方差：1/4 * [(0 - 0.5)^2 * 2 + (1 - 0.5)^2 * 2] = 1/4 = 0.25#标准差：0.5#对于[2,2] transform 标准化之后: (2 - 0.5) / 0.5 = 3

View Code

(4) Load walks

在unsupervised_train.py的main函数中：

1 train_data = load_data(FLAGS.train_prefix, load_walks=True)

load_walks = True，需要执行utils.py中的load_walks操作。

1 if load_walks: #false by default

2 with open(prefix + "-walks.txt") as fp:3 for line infp:4 walks.append(map(conversion, line.split()))

map(function, iterable, ...)

map() 会根据提供的函数对指定序列做映射。

第一个参数 function 以参数序列中的每一个元素调用 function 函数，返回包含每次 function 函数返回值的新列表。

例子：

>>>def square(x) : #计算平方数

... return x ** 2...>>> map(square, [1,2,3,4,5]) #计算列表各个元素的平方

[1, 4, 9, 16, 25]>>> map(lambda x: x ** 2, [1, 2, 3, 4, 5]) #使用 lambda 匿名函数

[1, 4, 9, 16, 25]#提供了两个列表，对相同位置的列表数据进行相加

>>> map(lambda x, y: x + y, [1, 3, 5, 7, 9], [2, 4, 6, 8, 10])

[3, 7, 11, 15, 19]

View Code

walks初始化为[]，之后append的是游走的节点对的对象。

例子：walks.txt:

0 708

0 3163

0 276

1 def conversion(n): returnn2 walks =[]3 with open("walks.txt") as fp:4 for line infp:5 print(line.split())6 walks.append(map(conversion, line.split()))7 print(walks)8 print(len(walks))

View Code

输出：

['0', '708']

['0', '3163']

['0', '276']

[, , ]3

(5) 函数返回值

1 return G, feats, id_map, walks, class_map

------------------------------------------------------------------------------------

4. unsupervised_train.py - func: train(train_data)

1 def train(train_data, test_data=None):

这里的train_data是上文所述的load_data函数的返回值。

变量含义：

G = train_data[0] #图

features = train_data[1] #训练数据的features

id_map = train_data[2] #"n" : n

context_pairs = train_data[3] if FLAGS.random_context else None #random walk的点对

1 if not features isNone:2 #pad with dummy zero vector

3 features = np.vstack([features, np.zeros((features.shape[1],))])

这里vstack为features添加列一行0向量，用于WX + b中与b相加。

1 placeholders =construct_placeholders()2 #def construct_placeholders()定义的placeholders包含：

3 #batch1, batch2, neg_samples, dropout, batch_size

minibatch是EdgeMinibatchIterator的一个实例，转至minibatch.py看class EdgeMinibatchIterator(object)的定义。

5. minibatch.py - class EdgeMinibatchIterator

6. unsupervised_train.py - func train

继续回来看unsupervised_trian.py 中的train函数

变量：

1 adj_info_ph = tf.placeholder(tf.int32, shape=minibatch.adj.shape)2 adj_info = tf.Variable(adj_info_ph, trainable=False, name="adj_info")

adj_info记录邻居信息，是一个矩阵，矩阵每一行对应每一个节点的邻居节点编号数组。

(1)选择模型

接下来根据输入参数判断选择6种模型(graphsage_mean，gcn，graphsage_seq，graphsage_maxpool，graphsage_meanpool，n2v)中的哪一种。

以graphsage开头的几种是graphsage的几种变体，由于aggregator不同而不同。可以通过设定SampleAndAggregate()中的aggregator_type进行选择。默认为mean.

其中gcn与graphsage的参数不同在于：

gcn的aggregator中进行列concat的操作，因此其维数是graphsage的二倍。

a. graphsage_maxpool

1 sampler =UniformNeighborSampler(adj_info)

首先看UniformNeighborSampler，该类用于sample节点的邻居，在neigh_samplers.py中。

neigh_samplers.py

1 classUniformNeighborSampler(Layer):2 """

3 Uniformly samples neighbors.4 Assumes that adj lists are padded with random re-sampling5 """

6 def __init__(self, adj_info, **kwargs):7 super(UniformNeighborSampler, self).__init__(**kwargs)8 self.adj_info =adj_info9

10 def_call(self, inputs):11 ids, num_samples =inputs12 adj_lists =tf.nn.embedding_lookup(self.adj_info, ids)13 adj_lists =tf.transpose(tf.random_shuffle(tf.transpose(adj_lists)))14 adj_lists = tf.slice(adj_lists, [0,0], [-1, num_samples])15 return adj_lists

1. tf.nn.embedding_lookup 用于根据ids在adj_info中找到各个对应位的向量。

2. adj_lists = tf.transpose(tf.random_shuffle(tf.transpose(adj_lists)))

adj_lists = tf.slice(adj_lists, [0,0], [-1, num_samples]) 的过程见下：

id0 id1 id2... --transpose--> id0 [...] --shuffle--> id1 [...] --transpose--> id1 id2 id0 --slice--> id1 id2

[] [] [] id1 [...] id2 [...] [] [] [] [] []

id2 [...] id0 [...]

均匀：shuffle打乱0维的顺序，即打乱行顺序，以此使下面采样可以“均匀”。为了使用shuffle函数，需要在shuffle前后transpose一下。

采样：slice之后，相当于随机挑选了num_samples个样本，并保留了这些样本的全部属性特征。

3. 最后的adj_lists即为均匀采样后的表示邻居信息的矩阵。

---------------------------------------------------

回到unsupervised_train.py 的train()函数.

1 sampler = UniformNeighborSampler(adj_info)

sampler获取均匀采样后的邻居节点信息。

---------------------------------------------------

1 layer_infos = [SAGEInfo("node", sampler, FLAGS.samples_1, FLAGS.dim_1),2 SAGEInfo("node", sampler, FLAGS.samples_2, FLAGS.dim_2)]

其中SAGEInfo在models.py中。

models.py

1 #SAGEInfo is a namedtuple that specifies the parameters

2 #of the recursive GraphSAGE layers

3 SAGEInfo = namedtuple("SAGEInfo",4 ['layer_name', #name of the layer (to get feature embedding etc.)

5 'neigh_sampler', #callable neigh_sampler constructor

6 'num_samples',7 'output_dim' #the output (i.e., hidden) dimension

8 ])

namedtuple命名元组，可以给tuple命名，用法见下：

1 importcollections2

3 MyTupleClass = collections.namedtuple('MyTupleClass',['name', 'age', 'job'])4 obj = MyTupleClass("Tomsom",12,'Cooker')5 print(obj.name)6 print(obj.age)7 print(obj.job)8

9 #Output:

10 #Tomsom

11 #12

12 #Cooker

13 #############################

15 Person=collections.namedtuple('Person','name age gender')16 #以空格分开，表示这个namedtuple有三个元素

18 print( 'Type of Person:',type(Person))19 Bob=Person(name='Bob',age=30,gender='male')20 print( 'Representation:',Bob)21 Jane=Person(name='Jane',age=29,gender='female')22 print( 'Field by Name:',Jane.name)23 for people in[Bob,Jane]:24 print ("%s is %d years old %s" %people)25

26 #Output:

27 #Type of Person:

28 #Representation: Person(name='Bob', age=30, gender='male')

29 #Field by Name: Jane

30 #Bob is 30 years old male

31 #Jane is 29 years old female

32 #############################

34 #在使用namedtyuple的时候要注意其中的名称不能使用Python的关键字，如class def等

35 #不能有重复的元素名称，比如：不能有两个’age age’。如果出现这些情况，程序会报错。

36 #但是，在实际使用的时候可能无法避免这种情况，

37 #比如:可能我们的元素名称是从数据库里读出来的记录，这样很难保证一定不会出现Python关键字。

38 #这种情况下的解决办法是将namedtuple的重命名模式打开，

39 #这样如果遇到Python关键字或者有重复元素名时，自动进行重命名。

41 with_class=collections.namedtuple('Person','name age class gender',rename=True)42 printwith_class._fields43 two_ages=collections.namedtuple('Person','name age gender age',rename=True)44 printtwo_ages._fields45

46 #Output:

47 #('name', 'age', '_2', 'gender')

48 #('name', 'age', 'gender', '_3')

50 #使用rename=True的方式打开重命名选项。

51 #可以看到第一个集合中的class被重命名为 ‘_2' ；

52 #第二个集合中重复的age被重命名为 ‘_3'

53 #namedtuple在重命名的时候使用了下划线 _ 加元素所在索引数的方式进行重命名

54 ##############################

56 #附两段官方文档代码实例:

57 #1) namedtuple基本用法

58 >>> #Basic example

59 >>> Point = namedtuple('Point', ['x', 'y'])60 >>> p = Point(11, y=22) #instantiate with positional or keyword arguments

61 >>> p[0] + p[1] #indexable like the plain tuple (11, 22)

62 33

63 >>> x, y = p #unpack like a regular tuple

64 >>>x, y65 (11, 22)66 >>> p.x + p.y #fields also accessible by name

67 33

68 >>> p #readable __repr__ with a name=value style

69 Point(x=11, y=22)70

71 #2) namedtuple结合csv和sqlite用法

72 EmployeeRecord = namedtuple('EmployeeRecord', 'name, age, title, department, paygrade')73 importcsv74 for emp in map(EmployeeRecord._make, csv.reader(open("employees.csv", "rb"))):75 print(emp.name, emp.title)76

77 importsqlite378 conn = sqlite3.connect('/companydata')79 cursor =conn.cursor()80 cursor.execute('SELECT name, age, title, department, paygrade FROM employees')81 for emp inmap(EmployeeRecord._make, cursor.fetchall()):82 print(emp.name, emp.title)

View Code

对于FLAGS.dim_1与FLAGS.dim_2，定义为：

1 flags.DEFINE_integer(2 'dim_1', 128, 'Size of output dim (final is 2x this, if using concat)')3 flags.DEFINE_integer(4 'dim_2', 128, 'Size of output dim (final is 2x this, if using concat)')

若GCN，因为有concat操作，故使用2x.

对于FLAGS.samples_1与FLAGS.samples_2，定义为：

1 flags.DEFINE_integer('samples_1', 25, 'number of samples in layer 1')

2 flags.DEFINE_integer('samples_2', 10, 'number of users samples in layer 2')

对应论文中的K = 1 ，第一层S1 = 25； K = 2 ，第二层S2 = 10。

----------------------------------------------------------

1 model =SampleAndAggregate(placeholders,2 features,3 adj_info,4 minibatch.deg,5 layer_infos=layer_infos,6 aggregator_type="maxpool",7 model_size=FLAGS.model_size,8 identity_dim=FLAGS.identity_dim,9 logging=True)

SampleAndAggregate在models.py中。

class SampleAndAggregate(GeneralizedModel)主要包含的函数有：

1. def __init__(self, placeholders, features, adj, degrees, layer_infos, concat=True, aggregator_type="mean", model_size="small", identity_dim=0, **kwargs)

2. def sample(self, inputs, layer_infos, batch_size=None)

3. def aggregate(self, samples, input_features, dims, num_samples, support_sizes, batch_size=None,

aggregators=None, name=None, concat=False, model_size="small")

4. def _build(self)

5. def build(self)

6. def _loss(self)

7. def _accuracy(self)

---------------------------------------------------------------

(2) Session

Config

1 config = tf.ConfigProto(log_device_placement=FLAGS.log_device_placement)2 #参数初始化为False:

3 #tf.app.flags.DEFINE_boolean('log_device_placement', False,

4 #"""Whether to log device placement.""")

6 config.gpu_options.allow_growth =True7 #控制GPU资源使用率

8 #使用allow_growth option，刚一开始分配少量的GPU容量，然后按需慢慢的增加，

9 #由于不会释放内存，所以会导致碎片

11 #config.gpu_options.per_process_gpu_memory_fraction = GPU_MEM_FRACTION

12 #设置每个GPU应该拿出多少容量给进程使用，

13 #per_process_gpu_memory_fraction =0.4代表 40%

15 config.allow_soft_placement =True16 #自动选择运行设备

17 #在tf中，通过命令 "with tf.device('/cpu:0'):",允许手动设置操作运行的设备。

18 #如果手动设置的设备不存在或者不可用，就会导致tf程序等待或异常，

19 #为了防止这种情况，可以设置tf.ConfigProto()中参数allow_soft_placement=True，

20 #允许tf自动选择一个存在并且可用的设备来运行操作。

Initialize session

1 #Initialize session

2 sess = tf.Session(config=config)3 merged =tf.summary.merge_all()4 #tf.summary()能够保存训练过程以及参数分布图并在tensorboard显示。

5 #merge_all 可以将所有summary全部保存到磁盘，以便tensorboard显示。

6 #如果没有特殊要求，一般用这一句就可一显示训练时的各种信息了

8 summary_writer =tf.summary.FileWriter(log_dir(), sess.graph)9 #指定一个文件用来保存图。

10 #格式：tf.summary.FileWritter(path,sess.graph)

11 #可以调用其add_summary()方法将训练过程数据保存在filewriter指定的文件中

Init variables

1 sess.run(tf.global_variables_initializer(),2 feed_dict={adj_info_ph: minibatch.adj})

---------------------------------------------------------

(4) Train model

1 feed_dict = minibatch.next_minibatch_feed_dict()

next_minibatch_feed_dict() 在minibatch.py的class EdgeMinibatchIterator(object)中定义。

1 defnext_minibatch_feed_dict(self):2 start_idx = self.batch_num *self.batch_size3 self.batch_num += 1

4 end_idx = min(start_idx +self.batch_size, len(self.train_edges))5 batch_edges =self.train_edges[start_idx: end_idx]6 return self.batch_feed_dict(batch_edges)

View Code

函数中获取下个edgeminibatch的起始与终止序号，将batch后的边的信息传给batch_feed_dict(self, batch_edges)函数，更新placeholders中的batch1, batch2, batch_size信息。

1 defbatch_feed_dict(self, batch_edges):2 batch1 =[]3 batch2 =[]4 for node1, node2 inbatch_edges:5 batch1.append(self.id2idx[node1])6 batch2.append(self.id2idx[node2])7

8 feed_dict =dict()9 feed_dict.update({self.placeholders['batch_size']: len(batch_edges)})10 feed_dict.update({self.placeholders['batch1']: batch1})11 feed_dict.update({self.placeholders['batch2']: batch2})12

13 return feed_dict

View Code

也即next_minibatch_feed_dict()返回的是下一个edge minibatch的placeholders信息。

=======================================

感谢您的打赏！

(梦想还是要有的，万一您喜欢我的文章呢)

你可能感兴趣的:(python,define,graph)

小白带你部署LNMP分布式部署刘俊涛liu 分布式
目录前言一、概述二、LNMP环境部署三、配置nginx1、yum安装2、编译安装四、安装1、编译安装nginx2、网络源3、稍作优化4、修改配置文件vim/usr/local/nginx/conf/nginx.conf5、书写测试页面五、部署应用前言LNMP平台指的是将Linux、Nginx、MySQL和PHP（或者其他的编程语言，如Python、Perl等）集成在一起的一种Web服务器环境。它是
如何构建FunASR的本地语音识别服务
FunASR简介FunASR是阿里巴巴达摩院开源的高性能语音识别工具包，支持离线识别和实时流式识别两种模式。其核心特点包括：支持多种语音任务：ASR（自动语音识别）、VAD（语音活动检测）、标点恢复、关键词检测等。提供预训练模型：覆盖中文、英文等多语言，支持不同场景（通用、会议、直播等）。支持多种部署方式：本地Python、Docker容器、ONNX推理优化等。开源地址：GitHub-FunASR
Python 进阶学习之全栈开发学习路线 Microi风闲【胶水语言】Python python 学习开发语言
文章目录前言一、Python全栈开发技术栈1.前端技术选型2.后端框架选择3.数据库访问二、开发环境配置1.工具链推荐2.VSCode终极配置3.项目依赖管理三、现代Python工程实践1.项目结构规范2.自动化测试策略3.CI/CD流水线四、部署策略大全1.传统服务器部署2.容器化部署3.无服务器部署五、性能优化技巧1.数据库优化2.异步处理3.静态资源优化结语前言Python作为当今最流行的编
Pycharm下载链接 Aderic 杂陈
人生苦短，我用python3.4https://download.jetbrains.8686c.com/python/pycharm-community-2018.1.1.tar.gz后续更新可能就是后面版本号码稍微差异，mark！
python基础语法复习08——模块化编程洛华363 python python 开发语言
python基础语法目录python基础语法01——基本类型python基础语法02——复合类型python基础语法03——语句构成python基础语法04——函数python基础语法05——递归及装饰器python基础语法06——类与对象python基础语法07——迭代器与生成器文章目录python基础语法目录前言一、模块（Module）1.1什么是模块？1.2模块使用1.3模块分类1.3.1系
python基础语法复习02——复合类型洛华363 python python 开发语言
python基础语法目录python基础语法基础类型文章目录python基础语法目录前言一、初识列表list1.列表基本操作1.1创建列表1.2列表运算1.3列表访问1.4列表增删2常用函数二、初识元组tuple1.元组基本操作1.1创建元组1.2元组访问1.3元组运算2.常用函数三、初识字典dict1.字典基本操作1.1创建字典1.2增删改查2常用函数四、初识集合set1.集合基本操作1.1创建
⚡C++ 有必要学吗？⚡我的家长有话说司空妲命 c++开发语言
在编程教育愈发普及的当下，除了备受关注的Python，C++也进入了许多家长和孩子的视野。作为一门经典且强大的编程语言，C++在系统开发、游戏制作、嵌入式领域等有着广泛应用。然而，对于是否让孩子学习C++，家长们看法不一。有人认为它是通往高端技术领域的钥匙，也有人担忧其较高的学习难度会让孩子望而却步。今天，就让我们深入探讨C++学习的必要性。一、家长眼中的C++：潜力与顾虑交织有人疑惑：“C++现
python3异步爬虫：asyncio + aiohttp + aiofiles（python经典编程案例）数据知道 python3案例和总结 python
更多内容请见：python3案例和总结-专栏介绍和目录文章目录1.安装依赖库2.异步爬虫的基本流程3.实现异步爬虫3.1代码实现3.2代码说明4.运行效果5.扩展功能5.1设置请求头5.2处理异常5.3限制并发数5.4爬取图片6.总结使用Python的异步编程技术（asyncio+aiohttp+aiofiles）可以实现高效的异步爬虫。以下是详细的使用指南和代码示例。1.安装依赖库首先安装所需的
Python爬虫实战：借助代理IP破解反爬机制，批量下载哔哩哔哩高清视频程序员威哥最新爬虫实战项目 python 爬虫 tcp/ip
一、前言随着视频平台的蓬勃发展，视频数据成为互联网的一个重要组成部分。特别是哔哩哔哩（B站）作为一个年轻化、内容丰富的综合性视频平台，吸引了大量用户观看、上传和分享各种形式的创作内容。在这个信息高度开放的时代，如何高效、合法地获取这些视频数据成为了一个有挑战的技术问题。哔哩哔哩的视频下载不仅受到版权保护，同时平台也使用了强大的反爬虫机制来保护用户数据和平台内容。本文将通过Python爬虫实战，利用
Python爬虫高阶：Selenium+Scrapy+Playwright融合架构，攻克动态页面与高反爬场景程序员威哥 python 爬虫 selenium
随着互联网应用的不断发展，越来越多的网站采用JavaScript动态渲染页面，常见的静态页面数据抓取方式逐渐失效。此外，高反爬技术也使得传统爬虫架构面临着更大的挑战，许多网站通过复杂的反爬机制如验证码、IP屏蔽、请求频率限制等来防止数据抓取。为了应对这些挑战，我们需要采用更为先进和灵活的爬虫架构。在此背景下，结合Selenium、Scrapy和Playwright这三种技术，能够帮助我们突破动态页
基于ArcPy将HDF格式栅格文件批量转为TIFF格式疯狂学习GIS
本文介绍基于Python中ArcPy模块，实现大量HDF格式栅格图像文件批量转换为TIFF格式的方法。首先，来看看我们想要实现的需求。在一个名为HDF的文件夹下，有五个子文件夹；每一个子文件夹中，都存储了大量的.hdf格式的栅格遥感影像数据。我们在其中任选一个子文件夹，来看看其中所含的文件。我们要做的，就是将HDF文件夹下的全部子文件夹中的全部.hdf格式图像文件，一次性转换为
Python训练 + Go优化 + C#部署：端到端AI模型的跨语言实践威哥说编程人工智能学习资料库 python golang c#
在现代AI应用中，如何高效地训练、优化、并最终部署AI模型是一项复杂且具有挑战性的任务。在这一过程中，选择合适的编程语言和工具可以显著提高效率和系统的性能。Python作为AI领域的主流语言，具有丰富的深度学习框架（如PyTorch和TensorFlow），在模型训练方面处于领先地位。然而，针对计算密集型任务（如数据预处理、加密等），Go语言因其高效的并发处理和出色的性能，成为优化计算的理想选择。
PyQt6基础_pyqtgraph_横向柱状图程序猿与金融与科技 PyQt6基础 PyQt6 pyqtgraph
效果：效果图显示的是2025Q1申万行业1，各行业的总资产柱状图代码：#-*-coding:utf-8-*-importnumpyasnpfromPyQt6.QtGuiimport(QColor)fromPyQt6.QtWidgetsimport(QApplication)importpyqtgraphaspgclassGraphHorizonalBarWidget(pg.PlotWidget):
python排序算法之桶排序华强笔记 python数据结构和算法 python 算法
桶排序主要适用于全是数字的列表排序代码如下：defbuckrt_sort(li,n=100,max_num=10000):bucket=[[]for_inrange(n)]
PyQt6基础_pyqtgraph_双Y轴不同周期数据叠加程序猿与金融与科技 PyQt6基础 PyQt6 pyqtgraph
效果：双Y轴，左轴对应曲线总市值；右轴对应柱状图总营收。市值数据为月数据，营收数据为季度数据，两者时间区间一致。代码：#-*-coding:utf-8-*-importpandasaspdimportnumpyasnpfromPyQt6.QtWidgetsimport(QApplication)importpyqtgraphaspgclassStrAxisItem(pg.AxisItem):def
程序是如何生成的-以c语言为例
一，序言从代码到能跑的程序，整个过程就像“把外文翻译成母语，再组装成能直接用的东西”，一步步来更清楚：源代码（程序员写的代码，如C语言文件）↓预处理（处理#开头的命令，如#include、#define）↓编译（把预处理后的代码转成汇编语言）↓汇编（把汇编语言转成二进制机器码，生成目标文件，如main.o）↓链接（合并多个目标文件和库文件，解决函数/变量地址问题）↓可执行文件（生成能直接运行的文件
【无标题】
PyQt5相关论文方向扩充及技术特性解析PyQt5的核心优势PyQt5作为基于Qt框架的Python绑定库，在科研与工程应用中具备显著优势。其跨平台兼容性极强，可在Windows、macOS、Linux等主流操作系统上稳定运行，且能保持界面风格的一致性，这对开发多场景应用系统至关重要。在界面设计方面，PyQt5提供了丰富的UI组件库，从基础的按钮、文本框到高级的图表、3D控件应有尽有，同时支持Qt
Python数据读写与组织全解析（查缺补漏篇） Monkey的自我迭代 python学习的查缺补漏机器学习人工智能 python
1高维数据由键值对类型的数据构成，可以多层嵌套。高维数据相比一维和二维数据能表达更加灵活和复杂的数据关系，可以用字典类型表示。一维数据不用字典类型来表示。2read、readline、redlines和for循环输出读取的区别直接read，读取的结果就是一个字符串，和文件中一模一样f_2=open('cpi.csv','r')print(f_2.read())指标,2015,2016,2017,居
Python文件路径操作全面指南：从基础到高级应用 Monkey的自我迭代 python 开发语言
文件路径操作是Python编程中不可或缺的核心技能，无论是数据科学、Web开发还是自动化办公，都离不开对文件路径的有效管理。本文将系统性地介绍Python中文件路径操作的各类方法，帮助您掌握这一关键技术。一、文件路径基础概念1.1路径类型解析文件路径主要分为两种类型，理解它们的区别是路径操作的基础：绝对路径：从文件系统根目录开始的完整路径，如Windows系统中的C:\Users\Username
python排序算法之基数排序华强笔记 python数据结构和算法 python 算法
#代码如下：'''基数排序：1.把数据分为10个桶，以为数字有0-9这10个2.依次把数据的个位，十位，百位等等各个位数的数据进行分桶排序，放在这10个桶中3.最大的数有k位，则循环k次4.时间复杂度O(kn),空间复杂度O(k+n),其中k=log10(n)+1'''defradixs_sort(li):max_num=max(li)it=0while10**it<=max_num:bucket
python折半查找算法_python二分查找代码试用递归法编写python程序实现折半查找算法...
python二分查找算法函数bi_search(),该函数实现检回忆，很美却很伤；回忆只是回不到过去的记忆。输入格式:第一行为正整数n接下来若干行为待查找的数字，每行输入一个总是女人为了天长地久而烦恼，男人却可以洒脱地出乎意料。defprime(n):ifnend:return-1mid=(start+end)//2ifprimelist[mid]==prime:returnmidelifprim
PyCharm高效入门指南：从零开始掌握Python开发利器软考和人工智能学堂 Python开发经验强化学习 PyCharm
引言PyCharm是JetBrains公司推出的一款强大的Python集成开发环境(IDE)，被全球数百万Python开发者所青睐。无论你是Python初学者还是经验丰富的开发者，掌握PyCharm都能显著提升你的开发效率。本文将带你从零开始，全面了解PyCharm的核心功能和使用技巧。1.PyCharm的安装与配置1.1下载与安装首先访问JetBrains官网下载PyCharm。PyCharm有
python作业陈小铃子 python 开发语言
基础练习练习目标函数01.计算车费题目描述小红打车，起步价8元(3公里),每公里收费2元，她打车行驶了n公里，通过函数封装并计算车费输入描述输入一个公里数输出描述输出应付车费示例输入：5输出：12defcalculate_fare(distance):base_price=8#起步价per_km_cost=2#每公里费用min_distance=3#最小计费距离ifdistance0:sum_nu
【Python】(三）面试题和Py基础题戏精亿点点菜面试职场和发展 python
1.技术面试题（1）解释Linux中的进程、线程和守护进程的概念，以及如何管理它们？答：进程（Process）：进程是操作系统中资源分配的基本单位，是正在运行的程序的实例。每个进程都有自己的内存空间、文件描述符和执行上下文。管理：①查看进程：使用ps、top、htop等命令查看当前运行的进程。②启动进程：通过命令行或脚本启动新进程。③终止进程：使用kill命令发送信号终止进程，例如kill-9PI
python小工具：测内网服务器网速和延迟秃了也弱了。 python大家庭服务器 python java
文章目录一、使用1、代码2、使用3、注意事项一、使用1、代码importargparseimportsocketimporttimeimportsubprocessimportreimportsysdefmeasure_latency(host):#使用ping命令测量延迟try:#根据操作系统选择ping参数ifsys.platform.startswith('win'):output=subp
Python面试题-6 编织幻境的妖 python 服务器开发语言
1.请解释Python中的动态类型。Python中的动态类型Python是一种动态类型语言，这意味着你不需要在编程时声明变量的类型，而是在运行时自动推断类型。在Python中，变量的类型是在程序运行时决定的，这意味着同一个变量可以在不改变其类型的情形下被赋予不同类型的值。动态类型的优点在于它提高了编程的灵活性，因为你不需要预先确定数据的类型，可以更容易地写出简洁的代码。然而，这也可能导致运行时错误
牛客网 - 倒置字符串 Boomni_Sun C /C++牛客网题集倒置字符串牛客网 C
题目链接：点击打开链接题目大意：将一句话的单词进行倒置，标点不倒置。比如Ilikebeijing.经过函数后变为：beijing.likeI解题思路：略。AC代码#include#include#definemem(a,b)memset(a,b,sizeofa);#defineINF0x3f3f3f3fusingnamespacestd;typedeflonglongll;intmain(){ve
火爆全网的条形竞赛图，Python轻松实现统计学家
image这个动图叫条形竞赛图，非常适合制作随时间变动的数据。我已经用streamlit+bar_chart_race实现了，然后白嫖了heroku的服务器，大家通过下面的网址上传csv格式的表格就可以轻松制作条形竞赛图，生成的视频可以保存本地。https://bar-chart-race-app.herokuapp.com/本文我将实现过程介绍一下，白嫖服务器+部署留在下期再讲。纯matplot
【无标题】Python---day9 模块化编程概念（模块、包、导入）及常见系统模块总结和第三方模块管理 AnAn__kang python java 服务器
系列文章目录前言跟着博主学Python，今天我们来到了第九天的学习，模块化编程的概念。Python作为一门编程语言，本身就是用于对模块以及各种包的使用来达到我们自己想到创作的目的。所以今天博主就给大家盘点一下有关于各种常见的包以及如何进行导入的。一.模块Module，模块1.1基本概念定义：模块是一个Python文件，每个.py.py.py文件就是一个模块。作用：用于组织代码，避免代码重复，提高复
Python --- day 10 Opencv模块的使用 AnAn__kang python opencv 开发语言
系列文章目录前言今天博主带大家进入Opencv的学习，这是一个专门针对处理图像和视频的一个模块，大家以理解为主，增强自己的编程思维，再后续我们训练模型时会大批量的处理图片时会经常用到这个模块。1OpenCV介绍OpenCV（开放源代码计算机视觉库）是一个开源的计算机视觉和机器学习软件库。由一系列C++类和函数构成，用于图像处理、计算机视觉领域的算法实现。1.1OpenCV优势**开源免费：**完全
矩阵求逆（JAVA）初等行变换 qiuwanchi 矩阵求逆（JAVA）
package gaodai.matrix; import gaodai.determinant.DeterminantCalculation; import java.util.ArrayList; import java.util.List; import java.util.Scanner; /** * 矩阵求逆(初等行变换) * @author 邱万迟 *
JDK timer antlove java jdk schedule code timer
1.java.util.Timer.schedule(TimerTask task, long delay)：多长时间（毫秒）后执行任务 2.java.util.Timer.schedule(TimerTask task, Date time)：设定某个时间执行任务 3.java.util.Timer.schedule(TimerTask task, long delay,longperiod
JVM调优总结 -Xms -Xmx -Xmn -Xss coder_xpf jvm 应用服务器
堆大小设置JVM 中最大堆大小有三方面限制：相关操作系统的数据模型（32-bt还是64-bit）限制；系统的可用虚拟内存限制；系统的可用物理内存限制。32位系统下，一般限制在1.5G~2G；64为操作系统对内存无限制。我在Windows Server 2003 系统，3.5G物理内存，JDK5.0下测试，最大可设置为1478m。典型设置： java -Xmx
JDBC连接数据库 Array_06 jdbc
package Util; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class JDBCUtil { //完
Unsupported major.minor version 51.0（jdk版本错误） oloz java
java.lang.UnsupportedClassVersionError: cn/support/cache/CacheType : Unsupported major.minor version 51.0 (unable to load class cn.support.cache.CacheType) at org.apache.catalina.loader.WebappClassL
用多个线程处理1个List集合 362217990 多线程 thread list 集合
昨天发了一个提问，启动5个线程将一个List中的内容，然后将5个线程的内容拼接起来，由于时间比较急迫，自己就写了一个Demo，希望对菜鸟有参考意义。。 import java.util.ArrayList; import java.util.List; import java.util.concurrent.CountDownLatch; public c
JSP简单访问数据库香水浓 sql mysql jsp
学习使用javaBean，代码很烂，仅为留个脚印 public class DBHelper { private String driverName; private String url; private String user; private String password; private Connection connection; privat
Flex4中使用组件添加柱状图、饼状图等图表 AdyZhang Flex
1.添加一个最简单的柱状图 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 <?xml version= "1.0"&n
Android 5.0 - ProgressBar 进度条无法展示到按钮的前面 aijuans android
在低于SDK < 21 的版本中，ProgressBar 可以展示到按钮前面，并且为之在按钮的中间，但是切换到android 5.0后进度条ProgressBar 展示顺序变化了，按钮再前面，ProgressBar 在后面了我的xml配置文件如下： [html] view plain copy <RelativeLa
查询汇总的sql baalwolf sql
select list.listname, list.createtime,listcount from dream_list as list , (select listid,count(listid) as listcount from dream_list_user group by listid order by count(
Linux du命令和df命令区别 BigBird2012 linux
1，两者区别 du，disk usage,是通过搜索文件来计算每个文件的大小然后累加，du能看到的文件只是一些当前存在的，没有被删除的。他计算的大小就是当前他认为存在的所有文件大小的累加和。
AngularJS中的$apply，用还是不用？ bijian1013 JavaScript AngularJS $apply
在AngularJS开发中，何时应该调用$scope.$apply()，何时不应该调用。下面我们透彻地解释这个问题。但是首先，让我们把$apply转换成一种简化的形式。 scope.$apply就像一个懒惰的工人。它需要按照命
[Zookeeper学习笔记十]Zookeeper源代码分析之ClientCnxn数据序列化和反序列化 bit1129 zookeeper
ClientCnxn是Zookeeper客户端和Zookeeper服务器端进行通信和事件通知处理的主要类，它内部包含两个类，1. SendThread 2. EventThread， SendThread负责客户端和服务器端的数据通信，也包括事件信息的传输，EventThread主要在客户端回调注册的Watchers进行通知处理 ClientCnxn构造方法 &
【Java命令一】jmap bit1129 Java命令
jmap命令的用法： [hadoop@hadoop sbin]$ jmap Usage: jmap [option] <pid> (to connect to running process) jmap [option] <executable <core> (to connect to a
Apache 服务器安全防护及实战 ronin47
此文转自IBM. Apache 服务简介 Web 服务器也称为 WWW 服务器或 HTTP 服务器 (HTTP Server)，它是 Internet 上最常见也是使用最频繁的服务器之一，Web 服务器能够为用户提供网页浏览、论坛访问等等服务。由于用户在通过 Web 浏览器访问信息资源的过程中，无须再关心一些技术性的细节，而且界面非常友好，因而 Web 在 Internet 上一推出就得到
unity 3d实例化位置出现布置？ brotherlamp unity教程 unity unity资料 unity视频 unity自学
问：unity 3d实例化位置出现布置？答：实例化的同时就可以指定被实例化的物体的位置,即 position Instantiate (original : Object, position : Vector3, rotation : Quaternion) : Object 这样你不需要再用Transform.Position了, 如果你省略了第二个参数(
《重构，改善现有代码的设计》第八章 Duplicate Observed Data bylijinnan java 重构
import java.awt.Color; import java.awt.Container; import java.awt.FlowLayout; import java.awt.Label; import java.awt.TextField; import java.awt.event.FocusAdapter; import java.awt.event.FocusE
struts2更改struts.xml配置目录 chiangfai struts.xml
struts2默认是读取classes目录下的配置文件，要更改配置文件目录，比如放在WEB-INF下，路径应该写成../struts.xml(非/WEB-INF/struts.xml) web.xml文件修改如下： <filter> <filter-name>struts2</filter-name> <filter-class&g
redis做缓存时的一点优化 chenchao051 redis hadoop pipeline
最近集群上有个job，其中需要短时间内频繁访问缓存，大概7亿多次。我这边的缓存是使用redis来做的，问题就来了。首先，redis中存的是普通kv，没有考虑使用hash等解结构，那么以为着这个job需要访问7亿多次redis，导致效率低，且出现很多redi
mysql导出数据不输出标题行 daizj mysql 数据导出去掉第一行去掉标题
当想使用数据库中的某些数据，想将其导入到文件中，而想去掉第一行的标题是可以加上-N参数如通过下面命令导出数据： mysql -uuserName -ppasswd -hhost -Pport -Ddatabase -e " select * from tableName" > exportResult.txt 结果为： studentid
phpexcel导出excel表简单入门示例 dcj3sjt126com PHP Excel phpexcel
先下载PHPEXCEL类文件，放在class目录下面，然后新建一个index.php文件，内容如下 <?php error_reporting(E_ALL); ini_set('display_errors', TRUE); ini_set('display_startup_errors', TRUE); if (PHP_SAPI == 'cli') die('
爱情格言 dcj3sjt126com 格言
1) I love you not because of who you are, but because of who I am when I am with you. 　　我爱你，不是因为你是一个怎样的人，而是因为我喜欢与你在一起时的感觉。 　　2) No man or woman is worth your tears, and the one who is, won‘t
转 Activity 详解——Activity文档翻译 e200702084 android UI sqlite 配置管理网络应用
activity 展现在用户面前的经常是全屏窗口，你也可以将 activity 作为浮动窗口来使用（使用设置了 windowIsFloating 的主题），或者嵌入到其他的 activity （使用 ActivityGroup ）中。当用户离开 activity 时你可以在 onPause() 进行相应的操作。更重要的是，用户做的任何改变都应该在该点上提交 ( 经常提交到 ContentPro
win7安装MongoDB服务 geeksun mongodb
1. 下载MongoDB的windows版本：mongodb-win32-x86_64-2008plus-ssl-3.0.4.zip，Linux版本也在这里下载，下载地址： http://www.mongodb.org/downloads 2. 解压MongoDB在D:\server\mongodb, 在D:\server\mongodb下创建d
Javascript魔法方法:__defineGetter__,__defineSetter__ hongtoushizi js
转载自： http://www.blackglory.me/javascript-magic-method-definegetter-definesetter/ 在javascript的类中,可以用defineGetter和defineSetter_控制成员变量的Get和Set行为例如,在一个图书类中,我们自动为Book加上书名符号: function Book(name){
错误的日期格式可能导致走nginx proxy cache时不能进行304响应 jinnianshilongnian cache
昨天在整合某些系统的nginx配置时，出现了当使用nginx cache时无法返回304响应的情况，出问题的响应头： Content-Type:text/html; charset=gb2312 Date:Mon, 05 Jan 2015 01:58:05 GMT Expires:Mon , 05 Jan 15 02:03:00 GMT Last-Modified:Mon, 05
数据源架构模式之行数据入口 home198979 PHP 架构行数据入口
注：看不懂的请勿踩，此文章非针对java，java爱好者可直接略过。一、概念行数据入口（Row Data Gateway）：充当数据源中单条记录入口的对象，每行一个实例。二、简单实现行数据入口为了方便理解，还是先简单实现： <?php /** * 行数据入口类 */ class OrderGateway { /*定义元数
Linux各个目录的作用及内容 pda158 linux 脚本
1）根目录“/” 　　根目录位于目录结构的最顶层，用斜线（/）表示，类似于 Windows 操作系统的“C:\“，包含Fedora操作系统中所有的目录和文件。　　2）/bin 　　/bin 　　目录又称为二进制目录，包含了那些供系统管理员和普通用户使用的重要 linux命令的二进制映像。该目录存放的内容包括各种可执行文件，还有某些可执行文件的符号连接。常用的命令有：cp、d
ubuntu12.04上编译openjdk7 ol_beta HotSpot jvm jdk OpenJDK
获取源码从openjdk代码仓库获取(比较慢) 安装mercurial Mercurial是一个版本管理工具。 sudo apt-get install mercurial 将以下内容添加到$HOME/.hgrc文件中，如果没有则自己创建一个： [extensions] forest=/home/lichengwu/hgforest-crew/forest.py fe
将数据库字段转换成设计文档所需的字段 vipbooks 设计模式工作正则表达式
哈哈，出差这么久终于回来了，回家的感觉真好！ PowerDesigner的物理数据库一出来，设计文档中要改的字段就多得不计其数，如果要把PowerDesigner中的字段一个个Copy到设计文档中，那将会是一件非常痛苦的事情。