ZJ_Improve

PaddlePaddle | 深度学习 101- 个性化推荐

本人仅以 PaddlePaddle 深度学习 101 官网教程为指导，添加个人理解和笔记，仅作为学习练习使用，若有错误，还望批评指教。–ZJ

原文地址： PaddlePaddle 官网| PaddlePaddle 深度学习 101

环境：
- Python 2.7
- Ubuntu 16.04

个性化推荐

本教程源代码目录在book/recommender_system，初次使用请参考PaddlePaddle安装教程，更多内容请参考本教程的视频课堂。

背景介绍

在网络技术不断发展和电子商务规模不断扩大的背景下，商品数量和种类快速增长，用户需要花费大量时间才能找到自己想买的商品，这就是信息超载问题。为了解决这个难题，推荐系统（Recommender System）应运而生。

个性化推荐系统是信息过滤系统（Information Filtering System）的子集，它可以用在很多领域，如电影、音乐、电商和 Feed 流推荐等。推荐系统通过分析、挖掘用户行为，发现用户的个性化需求与兴趣特点，将用户可能感兴趣的信息或商品推荐给用户。与搜索引擎不同，推荐系统不需要用户准确地描述出自己的需求，而是根据分析历史行为建模，主动提供满足用户兴趣和需求的信息。

传统的推荐系统方法主要有：

协同过滤推荐（Collaborative Filtering Recommendation）：该方法收集分析用户历史行为、活动、偏好，计算一个用户与其他用户的相似度，利用目标用户的相似用户对商品评价的加权评价值，来预测目标用户对特定商品的喜好程度。
- 优点是可以给用户推荐未浏览过的新产品；
- 缺点是对于没有任何行为的新用户存在冷启动的问题，同时也存在用户与商品之间的交互数据不够多造成的稀疏问题，会导致模型难以找到相近用户。
基于内容过滤推荐[1]（Content-based Filtering Recommendation）：该方法利用商品的内容描述，抽象出有意义的特征，通过计算用户的兴趣和商品描述之间的相似度，来给用户做推荐。
- 优点是简单直接，不需要依据其他用户对商品的评价，而是通过商品属性进行商品相似度度量，从而推荐给用户所感兴趣商品的相似商品；
- 缺点是对于没有任何行为的新用户同样存在冷启动的问题。
组合推荐[2]（Hybrid Recommendation）：运用不同的输入和技术共同进行推荐，以弥补各自推荐技术的缺点。

其中协同过滤是应用最广泛的技术之一，它又可以分为多个子类：基于用户（User-Based）的推荐[3] 、基于物品（Item-Based）的推荐[4]、基于社交网络关系（Social-Based）的推荐[5]、基于模型（Model-based）的推荐等。1994年明尼苏达大学推出的 GroupLens 系统[3]一般被认为是推荐系统成为一个相对独立的研究方向的标志。该系统首次提出了基于协同过滤来完成推荐任务的思想，此后，基于该模型的协同过滤推荐引领了推荐系统十几年的发展方向。

深度学习具有优秀的自动提取特征的能力，能够学习多层次的抽象特征表示，并对异质或跨域的内容信息进行学习，可以一定程度上处理推荐系统冷启动问题[6]。本教程主要介绍个性化推荐的深度学习模型，以及如何使用 PaddlePaddle 实现模型。

效果展示

我们使用包含用户信息、电影信息与电影评分的数据集作为个性化推荐的应用场景。当我们训练好模型后，只需要输入对应的用户ID和电影 ID，就可以得出一个匹配的分数（范围[0,5]，分数越高视为兴趣越大），然后根据所有电影的推荐得分排序，推荐给用户可能感兴趣的电影。

Input movie_id: 1962
Input user_id: 1
Prediction Score is 4.25

## 模型概览本章中，我们首先介绍 YouTube 的视频推荐系统[[7](#参考文献)]，然后介绍我们实现的融合推荐模型。

YouTube的深度神经网络推荐系统

YouTube 是世界上最大的视频上传、分享和发现网站，YouTube 推荐系统为超过 10 亿用户从不断增长的视频库中推荐个性化的内容。整个系统由两个神经网络组成：候选生成网络和排序网络。候选生成网络从百万量级的视频库中生成上百个候选，排序网络对候选进行打分排序，输出排名最高的数十个结果。系统结构如图1所示：

图1. YouTube 推荐系统结构

候选生成网络（Candidate Generation Network）

候选生成网络将推荐问题建模为一个类别数极大的多类分类问题：对于一个 Youtube 用户，使用其观看历史（视频 ID）、搜索词记录（search tokens）、人口学信息（如地理位置、用户登录设备）、二值特征（如性别，是否登录）和连续特征（如用户年龄）等，对视频库中所有视频进行多分类，得到每一类别的分类结果（即每一个视频的推荐概率），最终输出概率较高的几百个视频。

首先，将观看历史及搜索词记录这类历史信息，映射为向量后取平均值得到定长表示；同时，输入人口学特征以优化新用户的推荐效果，并将二值特征和连续特征归一化处理到[0, 1]范围。接下来，将所有特征表示拼接为一个向量，并输入给非线形多层感知器（MLP，详见识别数字教程）处理。最后，训练时将 MLP 的输出给 softmax 做分类，预测时计算用户的综合特征（MLP 的输出）与所有视频的相似度，取得分最高的 k 个作为候选生成网络的筛选结果。图2 显示了候选生成网络结构。

图2. 候选生成网络结构

对于一个用户 U ，预测此刻用户要观看的视频 ω 为视频 i 的概率公式为：

P (ω = i | u) = e v i u \sum j \in V e v j u

其中 u 为用户 U 的特征表示， V 为视频库集合， vi 为视频库中第 i 个视频的特征表示。
u 和 vi 为长度相等的向量，两者点积可以通过全连接层实现。

考虑到 softmax 分类的类别数非常多，为了保证一定的计算效率：

1）训练阶段，使用负样本类别采样将实际计算的类别数缩小至数千；
2）推荐（预测）阶段，忽略 softmax 的归一化计算（不影响结果），将类别打分问题简化为点积（dot product）空间中的最近邻（nearest neighbor）搜索问题，取与 u 最近的 k 个视频作为生成的候选。

排序网络（Ranking Network）

排序网络的结构类似于候选生成网络，但是它的目标是对候选进行更细致的打分排序。和传统广告排序中的特征抽取方法类似，这里也构造了大量的用于视频排序的相关特征（如视频 ID、上次观看时间等）。这些特征的处理方式和候选生成网络类似，不同之处是排序网络的顶部是一个加权逻辑回归（weighted logistic regression），它对所有候选视频进行打分，从高到底排序后将分数较高的一些视频返回给用户。

融合推荐模型

本节会使卷积神经网络（Convolutional Neural Networks）来学习电影名称的表示。下面会依次介绍文本卷积神经网络以及融合推荐模型。

文本卷积神经网络（CNN）

卷积神经网络经常用来处理具有类似网格拓扑结构（grid-like topology）的数据。例如，图像可以视为二维网格的像素点，自然语言可以视为一维的词序列。卷积神经网络可以提取多种局部特征，并对其进行组合抽象得到更高级的特征表示。实验表明，卷积神经网络能高效地对图像及文本问题进行建模处理。

卷积神经网络主要由卷积（convolution）和池化（pooling）操作构成，其应用及组合方式灵活多变，种类繁多。本小结我们以如图3 所示的网络进行讲解：

图3. 卷积神经网络文本分类模型

假设待处理句子的长度为 n ，其中第 i 个词的词向量（word embedding）为 xi∈Rk ， k 为维度大小。

首先，进行词向量的拼接操作：将每 h 个词拼接起来形成一个大小为 h 的词窗口，记为 xi:i+h−1 ，它表示词序列 xi,xi+1,…,xi+h−1 的拼接，其中， i 表示词窗口中第一个词在整个句子中的位置，取值范围从 1 到 n−h+1 ， xi:i+h−1∈Rhk 。
其次，进行卷积操作：把卷积核(kernel) w∈Rhk 应用于包含 h 个词的窗口 xi:i+h−1 ，得到特征 ci=f(w⋅xi:i+h−1+b) ，其中 b∈R 为偏置项（bias）， f 为非线性激活函数，如 sigmoid 。将卷积核应用于句子中所有的词窗口 x1:h,x2:h+1,…,xn−h+1:n ，产生一个特征图（feature map）：

c = [c 1, c 2, \dots, c n - h + 1], c \in R n - h + 1

接下来，对特征图采用时间维度上的最大池化（max pooling over time）操作得到此卷积核对应的整句话的特征 c^ ，它是特征图中所有元素的最大值：

c^= m a x (c)

模型概览

在融合推荐模型的电影推荐系统中：

首先，使用用户特征和电影特征作为神经网络的输入，其中：
- 用户特征融合了四个属性信息，分别是用户ID、性别、职业和年龄。
- 电影特征融合了三个属性信息，分别是电影ID、电影类型ID和电影名称。
对用户特征，将用户ID 映射为维度大小为 256 的向量表示，输入全连接层，并对其他三个属性也做类似的处理。然后将四个属性的特征表示分别全连接并相加。
对电影特征，将电影ID 以类似用户ID 的方式进行处理，电影类型 ID 以向量的形式直接输入全连接层，电影名称用文本卷积神经网络得到其定长向量表示。然后将三个属性的特征表示分别全连接并相加。
得到用户和电影的向量表示后，计算二者的余弦相似度作为推荐系统的打分。最后，用该相似度打分和用户真实打分的差异的平方作为该回归模型的损失函数。

图4. 融合推荐模型

数据准备

数据介绍与下载

我们以 MovieLens 百万数据集（ml-1m）为例进行介绍。ml-1m 数据集包含了 6,000 位用户对 4,000 部电影的 1,000,000 条评价（评分范围 1~5 分，均为整数），由 GroupLens Research 实验室搜集整理。

Paddle 在 API 中提供了自动加载数据的模块。数据模块为 paddle.dataset.movielens

import paddle.v2 as paddle
paddle.init(use_gpu=False)

# Run this block to show dataset's documentation
# help(paddle.dataset.movielens)

在原始数据中包含电影的特征数据，用户的特征数据，和用户对电影的评分。

例如，其中某一个电影特征为:

movie_info = paddle.dataset.movielens.movie_info()
print movie_info.values()[0]

这表示，电影的 id 是 1，标题是《Toy Story》，该电影被分为到三个类别中。这三个类别是动画，儿童，喜剧。

user_info = paddle.dataset.movielens.user_info()
print user_info.values()[0]

这表示，该用户 ID 是1，女性，年龄比 18 岁还年轻。职业 ID 是10。

其中，年龄使用下列分布
* 1: “Under 18”
* 18: “18-24”
* 25: “25-34”
* 35: “35-44”
* 45: “45-49”
* 50: “50-55”
* 56: “56+”

职业是从下面几种选项里面选则得出:
* 0: “other” or not specified
* 1: “academic/educator”
* 2: “artist”
* 3: “clerical/admin”
* 4: “college/grad student”
* 5: “customer service”
* 6: “doctor/health care”
* 7: “executive/managerial”
* 8: “farmer”
* 9: “homemaker”
* 10: “K-12 student”
* 11: “lawyer”
* 12: “programmer”
* 13: “retired”
* 14: “sales/marketing”
* 15: “scientist”
* 16: “self-employed”
* 17: “technician/engineer”
* 18: “tradesman/craftsman”
* 19: “unemployed”
* 20: “writer”

而对于每一条训练/测试数据，均为 <用户特征> + <电影特征> + 评分。

例如，我们获得第一条训练数据:

train_set_creator = paddle.dataset.movielens.train()
train_sample = next(train_set_creator())
uid = train_sample[0]
mov_id = train_sample[len(user_info[uid].value())]
print "User %s rates Movie %s with Score %s"%(user_info[uid], movie_info[mov_id], train_sample[-1])

User  rates Movie  with Score [5.0]

即用户1对电影 1193 的评价为 5 分。

模型配置说明

下面我们开始根据输入数据的形式配置模型。

uid = paddle.layer.data(
    name='user_id',
    type=paddle.data_type.integer_value(
        paddle.dataset.movielens.max_user_id() + 1))
usr_emb = paddle.layer.embedding(input=uid, size=32)
usr_fc = paddle.layer.fc(input=usr_emb, size=32)

usr_gender_id = paddle.layer.data(
    name='gender_id', type=paddle.data_type.integer_value(2))
usr_gender_emb = paddle.layer.embedding(input=usr_gender_id, size=16)
usr_gender_fc = paddle.layer.fc(input=usr_gender_emb, size=16)

usr_age_id = paddle.layer.data(
    name='age_id',
    type=paddle.data_type.integer_value(
        len(paddle.dataset.movielens.age_table)))
usr_age_emb = paddle.layer.embedding(input=usr_age_id, size=16)
usr_age_fc = paddle.layer.fc(input=usr_age_emb, size=16)

usr_job_id = paddle.layer.data(
    name='job_id',
    type=paddle.data_type.integer_value(
        paddle.dataset.movielens.max_job_id() + 1))
usr_job_emb = paddle.layer.embedding(input=usr_job_id, size=16)
usr_job_fc = paddle.layer.fc(input=usr_job_emb, size=16)

如上述代码所示，对于每个用户，我们输入 4 维特征。其中包括user_id,gender_id,age_id,job_id。
这几维特征均是简单的整数值。为了后续神经网络处理这些特征方便，我们借鉴 NLP 中的语言模型，将这几维离散的整数值，变换成 embedding 取出。分别形成usr_emb, usr_gender_emb, usr_age_emb, usr_job_emb。

usr_combined_features = paddle.layer.fc(
        input=[usr_fc, usr_gender_fc, usr_age_fc, usr_job_fc],
        size=200,
        act=paddle.activation.Tanh())

然后，我们对于所有的用户特征，均输入到一个全连接层 (fc) 中。将所有特征融合为一个 200 维度的特征。

进而，我们对每一个电影特征做类似的变换，网络配置为:

mov_id = paddle.layer.data(
    name='movie_id',
    type=paddle.data_type.integer_value(
        paddle.dataset.movielens.max_movie_id() + 1))
mov_emb = paddle.layer.embedding(input=mov_id, size=32)
mov_fc = paddle.layer.fc(input=mov_emb, size=32)

mov_categories = paddle.layer.data(
    name='category_id',
    type=paddle.data_type.sparse_binary_vector(
        len(paddle.dataset.movielens.movie_categories())))
mov_categories_hidden = paddle.layer.fc(input=mov_categories, size=32)

movie_title_dict = paddle.dataset.movielens.get_movie_title_dict()
mov_title_id = paddle.layer.data(
    name='movie_title',
    type=paddle.data_type.integer_value_sequence(len(movie_title_dict)))
mov_title_emb = paddle.layer.embedding(input=mov_title_id, size=32)
mov_title_conv = paddle.networks.sequence_conv_pool(
    input=mov_title_emb, hidden_size=32, context_len=3)

mov_combined_features = paddle.layer.fc(
    input=[mov_fc, mov_categories_hidden, mov_title_conv],
    size=200,
    act=paddle.activation.Tanh())

电影ID 和电影类型分别映射到其对应的特征隐层。对于电影标题名称 (title)，一个 ID 序列表示的词语序列，在输入卷积层后，将得到每个时间窗口的特征（序列特征），然后通过在时间维度降采样得到固定维度的特征，整个过程在 sequence_conv_pool 实现。

最后再将电影的特征融合进mov_combined_features中。

inference = paddle.layer.cos_sim(a=usr_combined_features, b=mov_combined_features, size=1, scale=5)

进而，我们使用余弦相似度计算用户特征与电影特征的相似性。并将这个相似性拟合(回归)到用户评分上。

cost = paddle.layer.square_error_cost(
        input=inference,
        label=paddle.layer.data(
            name='score', type=paddle.data_type.dense_vector(1)))

至此，我们的优化目标就是这个网络配置中的cost了。

训练模型

定义参数

神经网络的模型，我们可以简单的理解为网络拓朴结构+参数。之前一节，我们定义出了优化目标cost。这个cost即为网络模型的拓扑结构。我们开始训练模型，需要先定义出参数。定义方法为:

parameters = paddle.parameters.create(cost)

[INFO 2017-03-06 17:12:13,284 networks.py:1472] The input order is [user_id, gender_id, age_id, job_id, movie_id, category_id, movie_title, score]
[INFO 2017-03-06 17:12:13,287 networks.py:1478] The output order is [__square_error_cost_0__]

parameters是模型的所有参数集合。他是一个 python 的 dict。我们可以查看到这个网络中的所有参数名称。因为之前定义模型的时候，我们没有指定参数名称，这里参数名称是自动生成的。当然，我们也可以指定每一个参数名称，方便日后维护。

print parameters.keys()

[u'___fc_layer_2__.wbias', u'___fc_layer_2__.w2', u'___embedding_layer_3__.w0', u'___embedding_layer_5__.w0', u'___embedding_layer_2__.w0', u'___embedding_layer_1__.w0', u'___fc_layer_1__.wbias', u'___fc_layer_0__.wbias', u'___fc_layer_1__.w0', u'___fc_layer_0__.w2', u'___fc_layer_0__.w3', u'___fc_layer_0__.w0', u'___fc_layer_0__.w1', u'___fc_layer_2__.w1', u'___fc_layer_2__.w0', u'___embedding_layer_4__.w0', u'___sequence_conv_pool_0___conv_fc.w0', u'___embedding_layer_0__.w0', u'___sequence_conv_pool_0___conv_fc.wbias']

构造训练(trainer)

下面，我们根据网络拓扑结构和模型参数来构造出一个本地训练 (trainer)。在构造本地训练的时候，我们还需要指定这个训练的优化方法。这里我们使用 Adam 来作为优化算法。

trainer = paddle.trainer.SGD(cost=cost, parameters=parameters,
                            update_equation=paddle.optimizer.Adam(learning_rate=1e-4))

[INFO 2017-03-06 17:12:13,378 networks.py:1472] The input order is [user_id, gender_id, age_id, job_id, movie_id, category_id, movie_title, score]
[INFO 2017-03-06 17:12:13,379 networks.py:1478] The output order is [__square_error_cost_0__]

训练

下面我们开始训练过程。

我们直接使用 Paddle 提供的数据集读取程序。paddle.dataset.movielens.train()和paddle.dataset.movielens.test()分别做训练和预测数据集。并且通过feeding来指定每一个数据和 data_layer 的对应关系。

例如，这里的 feeding 表示的是，对于数据层 user_id，使用了 reader 中每一条数据的第 0 个元素。gender_id 数据层使用了第 1 个元素。以此类推。

feeding = {
    'user_id': 0,
    'gender_id': 1,
    'age_id': 2,
    'job_id': 3,
    'movie_id': 4,
    'category_id': 5,
    'movie_title': 6,
    'score': 7
}

训练过程是完全自动的。我们可以使用 event_handler 与 event_handler_plot 来观察训练过程，或进行测试等。这里我们在 event_handler_plot 里面绘制了训练误差曲线和测试误差曲线。并且保存了模型。

def event_handler(event):
    if isinstance(event, paddle.event.EndIteration):
        if event.batch_id % 100 == 0:
            print "Pass %d Batch %d Cost %.2f" % (
                event.pass_id, event.batch_id, event.cost)

from paddle.v2.plot import Ploter

train_title = "Train cost"
test_title = "Test cost"
cost_ploter = Ploter(train_title, test_title)

step = 0

def event_handler_plot(event):
    global step
    if isinstance(event, paddle.event.EndIteration):
        if step % 10 == 0:  # every 10 batches, record a train cost
            cost_ploter.append(train_title, step, event.cost)

        if step % 1000 == 0: # every 1000 batches, record a test cost
            result = trainer.test(
                reader=paddle.batch(
                    paddle.dataset.movielens.test(), batch_size=256),
                feeding=feeding)
            cost_ploter.append(test_title, step, result.cost)

        if step % 100 == 0: # every 100 batches, update cost plot
            cost_ploter.plot()

        step += 1

trainer.train(
    reader=paddle.batch(
            paddle.reader.shuffle(
            paddle.dataset.movielens.train(), buf_size=8192),
                            batch_size=256),
    event_handler=event_handler_plot,
    feeding=feeding,
    num_passes=2)

应用模型

在训练了几轮以后，您可以对模型进行推断。我们可以使用任意一个用户 ID 和电影 ID，来预测该用户对该电影的评分。示例程序为:

import copy
user_id = 234
movie_id = 345

user = user_info[user_id]
movie = movie_info[movie_id]

feature = user.value() + movie.value()

infer_dict = copy.copy(feeding)
del infer_dict['score']

prediction = paddle.infer(inference, parameters=parameters, input=[feature], feeding=infer_dict)
score = (prediction[0][0] + 5.0) / 2
print "[Predict] User %d Rating Movie %d With Score %.2f"%(user_id, movie_id, score)

[INFO 2017-03-06 17:17:08,132 networks.py:1472] The input order is [user_id, gender_id, age_id, job_id, movie_id, category_id, movie_title]
[INFO 2017-03-06 17:17:08,134 networks.py:1478] The output order is [__cos_sim_0__]


[Predict] User 234 Rating Movie 345 With Score 4.16

我的训练结果：

[[4.1668825]]
[Predict] User 234 Rating Movie 345 With Score 4.17

总结

本章介绍了传统的推荐系统方法和 YouTube 的深度神经网络推荐系统，并以电影推荐为例，使用 PaddlePaddle 训练了一个个性化推荐神经网络模型。推荐系统几乎涵盖了电商系统、社交网络、广告推荐、搜索引擎等领域的方方面面，而在图像处理、自然语言处理等领域已经发挥重要作用的深度学习技术，也将会在推荐系统领域大放异彩。

参考文献

Peter Brusilovsky (2007). The Adaptive Web. p. 325.
Robin Burke , Hybrid Web Recommender Systems, pp. 377-408, The Adaptive Web, Peter Brusilovsky, Alfred Kobsa, Wolfgang Nejdl (Ed.), Lecture Notes in Computer Science, Springer-Verlag, Berlin, Germany, Lecture Notes in Computer Science, Vol. 4321, May 2007, 978-3-540-72078-2.
P. Resnick, N. Iacovou, etc. “GroupLens: An Open Architecture for Collaborative Filtering of Netnews”, Proceedings of ACM Conference on Computer Supported Cooperative Work, CSCW 1994. pp.175-186.
Sarwar, Badrul, et al. “Item-based collaborative filtering recommendation algorithms.” Proceedings of the 10th international conference on World Wide Web. ACM, 2001.
Kautz, Henry, Bart Selman, and Mehul Shah. “Referral Web: combining social networks and collaborative filtering.” Communications of the ACM 40.3 (1997): 63-65. APA
Yuan, Jianbo, et al. “Solving Cold-Start Problem in Large-scale Recommendation Engines: A Deep Learning Approach.” arXiv preprint arXiv:1611.05480 (2016).
Covington P, Adams J, Sargin E. Deep neural networks for youtube recommendations[C]//Proceedings of the 10th ACM Conference on Recommender Systems. ACM, 2016: 191-198.

本教程由 PaddlePaddle 创作，采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

你可能感兴趣的:(PaddlePaddle)

PaddleSeg 从配置文件和模型 URL 自动化运行预测任务如若123 自动化运维人工智能深度学习
gitclonehttps://github.com/PaddlePaddle/PaddleSeg.git#在ipynb里面运行cdPaddleSegimportsyssys.path.append('/home/aistudio/work/PaddleSeg')importos#配置文件夹路径folder_path="/home/aistudio/work/PaddleSeg/configs"#
NLP_jieba中文分词的常用模块 Hiweir · NLP_jieba的使用自然语言处理中文分词人工智能 nlp
1.jieba分词模式（1）精确模式:把句子最精确的切分开,比较适合文本分析.默认精确模式.（2）全模式:把句子中所有可能成词的词都扫描出来,cut_all=True,缺点:速度快,不能解决歧义（3）paddle:利用百度的paddlepaddle深度学习框架.简单来说就是使用百度提供的分词模型.use_paddle=True.（4）搜索引擎模式:在精确模式的基础上,对长词再进行切分,提高召回率,
【Python】已解决：ModuleNotFoundError: No module named ‘paddle‘ 屿小夏 python paddle 开发语言
文章目录一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例步骤1：安装PaddlePaddle库步骤2：验证安装五、注意事项已解决：ModuleNotFoundError:Nomodulenamed‘paddle‘一、分析问题背景在使用Python进行深度学习开发时，开发者可能会选择使用PaddlePaddle作为深度学习框架。然而，有时在导入PaddlePaddle库时，可能会遇
Python包的安装 weixin_38778542 Python 包 python anaconda
只是在包装paddlepaddle包的时候，使用官方推荐的命令使用安装失败。大概看了一下，是其他的一些支持的包安装失败，要么是找不到，要么是版本问题，要么是自己网速差……自己又看不明白，或者是静不下心来仔细去查找问题，所以开了这个帖子，希望来记录一下学习Python中，在关于一些包的安装使用上的问题。同时也欢迎大家参与讨论。现在正在安装paddlepaddle以及其支持的包，主要学习https:/
震惊！PaddlePaddle竟然支持Python 3.7了！高斯纯牛奶
震惊！****PaddlePaddle****竟然支持****Python3.7****了！image这个2018，如果你还不知道这件事情，你就真的OUT了！几天之前，一条PaddlePaddle版本发布的消息，让开发者QQ群里的成员又惊又喜：PaddlePaddle支持了Python3.7。在外人看来，PaddlePaddle就像一位用情专一的“钢铁直男“，长久以来一直钟情于Python2.7，
PaddleOCR超大分辨率文本检测代码教程 LEILEI18A Python 深度学习 paddle paddleocr ppocr 超大分辨率文本检测
PaddleOCR超大分辨率文本检测代码教程目录1.前提2.PaddleOCR部署（win10下）3.解决思路和代码1.前提这是我提的issue：https://github.com/PaddlePaddle/PaddleOCR/issues/11888很多问题可以看：https://github.com/PaddlePaddle/PaddleOCR/blob/release/2.7/doc/do
百度飞浆目标检测PPYOLOE模型在PC端、Jetson上的部署（python）代码能跑就可以百度目标检测 python 学习计算机视觉笔记
部署目标检测模型前，需要配置好paddlepaddle的环境：开始使用_飞桨-源于产业实践的开源深度学习平台(paddlepaddle.org.cn)PC端和Jetson板卡端的部署方法相同，如下（直接放置部署和测试代码）：importpaddle.inferenceimportcv2importnumpyasnpimporttimefrompaddle.inferenceimportConfig
百度飞桨教程（一）怎么这么多名字都被占了百度 paddlepaddle 人工智能
百度飞桨（paddle），是一个开源的深度学习平台百度飞桨的安装pipinstallpaddlepaddle-ihttps://mirror.baidu.com/pypi/simple手写数字识别案例我们来通过一个案例，大概了解paddle的使用importpaddleimportnumpyasnpfrompaddle.vision.transformsimportNormalizetransfo
Python，Nuitka，打包Paddle和Paddleocr，test.dist\\paddle\\fluid\\..\\libs‘；飞天小女警出击 python paddle 开发语言
Python版本3.9，Nuitka版本1.8.6，paddleocr版本2.6.1.3，paddlepaddle版本2.5.2Nuitka打包后提示报错File"C:\Users\Administrator\Desktop\XXX\XXX\test.dist\os.py",line1111,inadd_dll_directoryFileNotFoundError:[WinError2]系统找不到
ubuntu18.04+cuda11.4+nccl安装袁泽斌的学习记录 ubuntu
本文参考自，但更加详细的介绍了安装方法，避免走弯路ubuntu下安装nccl具体教程_ubuntu安装nccl-CSDN博客文章浏览阅读1w次，点赞5次，收藏12次。使用paddlepaddle框架进行多卡训练时报错：Traceback(mostrecentcalllast):File"train.py",line210,indo_train()File"train.py",line91,indo
飞桨科学计算套件PaddleScience skywalk8163 人工智能 paddlepaddle 人工智能飞桨
PaddleScience是一个基于深度学习框架PaddlePaddle开发的科学计算套件，利用深度神经网络的学习能力和PaddlePaddle框架的自动(高阶)微分机制，解决物理、化学、气象等领域的问题。支持物理机理驱动、数据驱动、数理融合三种求解方式，并提供了基础API和详尽文档供用户使用与二次开发。安装当然要先安装好飞桨PaddlePaddle，再安装PaddleSciencepipinst
TechDay公开课实录:PaddlePaddle车牌识别实战和心得 PaddleWeekly
车牌识别作为一种常见的图像识别的应用场景，已经是一个非常成熟的业务了，在传统的车牌识别中，可以使用字符分割+字符识别的方式来进行车牌识别，而深度学习兴起后，出现了很多端到端的车牌识别模型，不用分割字符，直接输入车牌图片即可识别出车牌字符。2019年1月5日百度深度学习线下技术公开课PaddlePaddleTechDay第一期演讲则邀请了百度认证布道师胡晓曼老师分享基于PaddlePaddle最新版
基于Python的paddleocr推理环境列表博观而约取,厚积而薄发 PaddlePaddle python 开发语言
基于Python的paddleocr推理环境列表，#Python==3.9.13，安装目录名不能太长#单独导入python-mpipinstallpaddlepaddle-gpu==2.6.0.post120-fhttps://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.htmlopencv-pythonlmdbimgaugscikit-i
pip安装paddlepaddle报错ERROR: Could not install packages due to an OSError 博观而约取,厚积而薄发 PaddlePaddle pip
ERROR:CouldnotinstallpackagesduetoanOSError:[Errno2]Nosuchfileordirectory:'C:\\Users\\yang\\AppData\\Local\\Packages\\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\\LocalCache\\local-packages\\Pyt
paddlepaddle 2.6版本在WSL2环境中如何使用NVIDIA显卡运行神经网络 kampoo paddlepaddle 神经网络人工智能
paddlepaddle2.6版本发布后，官网上可以使用NVIDIAcuda12.x进行机器学习了，训练神经网络的效率大为提升。因为是在wsl2环境中安装，不是纯正的linux环境，其中一些小问题需要注意。使用conda安装飞浆，wsl2中安装了cuda12.x，跟飞浆2.6兼容，按照官网指令即可：condacreate-npp2cudapython=3.11condaactivatepp2cud
概率论与数理统计实验附源码及实验报告可打包为exe 货又星概率论经验分享笔记 python 开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
【新手必看】解决GitHub打不开问题，亲测有效货又星 github 笔记经验分享 python 开源开源软件
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
使用ssh链接GitHub，附GitHub命令货又星 ssh github 运维笔记经验分享开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
NSsimulation：使用python模拟Navier-Stokes equations（ns方程），附项目GitHub地址，亲测可用。（2023 apmcm、2024美赛）货又星 python github 开发语言笔记数学建模开源
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084GitH
PaddleNLP 自然语言处理知识图谱 uie-x-base,uie-m-large,uie-m-base模型使用时，报错Out of memory error on GPU 0 gpu内存不够货又星自然语言处理语言模型人工智能运维知识图谱 nlp gpt-3
Hi,I’m@货又星I’minterestedin…I’mcurrentlylearning…️I’mlookingtocollaborateon…Howtoreachme…README目录（持续更新中）各种错误处理、爬虫实战及模板、百度智能云人脸识别、计算机视觉深度学习CNN图像识别与分类、PaddlePaddle自然语言处理知识图谱、GitHub、运维…WeChat：1297767084Git
基于PaddlePaddle2.0的蝴蝶图像识别分类 bianhuaHYQ 笔记 python 图像识别人工智能
基于PaddlePaddle2.0的蝴蝶图像识别分类——利用预训练残差网络ResNet101模型分类资源来源如下：https://aistudio.baidu.com/aistudio/education/group/info/119391.蝴蝶识别分类任务概述本项目将利用人工智能技术来对蝴蝶图像进行分类，需要能对蝴蝶的类别、属性进行细粒度的识别分类。相关研究工作者能够根据采集到的蝴蝶图片，快速识
TechDay公开课实录:PaddlePaddle车牌识别实战和心得 PaddlePaddle
车牌识别作为一种常见的图像识别的应用场景，已经是一个非常成熟的业务了，在传统的车牌识别中，可以使用字符分割+字符识别的方式来进行车牌识别，而深度学习兴起后，出现了很多端到端的车牌识别模型，不用分割字符，直接输入车牌图片即可识别出车牌字符。2019年1月5日百度深度学习线下技术公开课PaddlePaddleTechDay第一期演讲则邀请了百度认证布道师胡晓曼老师分享基于PaddlePaddle最新版
在训练过程中报显存不足该怎么办呢？- PaddlePaddle 飞桨 FAQ合集 - 训练问题5 GT_Zhang
PaddlePaddle飞桨FAQ合集-训练问题5Question：在训练过程中报显存不足该怎么办呢？Answer:训练中报显存不足是很正常的情况，你可以尝试调整BatchSize的大小，也可以更改网络模型，或者参考官方文档的显存优化部分。其实我们更推荐去使用AIStudio去训练，配备高端显卡，速度也是杠杠的。
Python OCR 之旅：PaddleOCR 与 pytesseract 比较及应用田猿笔记 python ocr 开发语言
简介：在Python技术栈中，光学字符识别（OCR）是一个非常实用的功能，它可以将图片中的文本内容提取出来。在这篇文章中，我们将比较两个常用的OCR库：PaddleOCR和pytesseract，了解它们的特点、功能以及应用场景。一、PaddleOCR介绍PaddleOCR是一个基于PaddlePaddle深度学习框架的OCR库，支持多种语言的文本识别。它的特点如下：-使用了基于深度学习的OCR模
训练版paddleOCR代码讲解修改枭玉龙 #python图像处理 python
paddleOCR下载：pipinstallpaddlepaddle-gpu==2.0.0rc0.post100-fhttps://paddlepaddle.org.cn/whl/stable.htmlLookinginlinks:https://paddlepaddle.org.cn/whl/stable.html训练det目标检测1：修改tools中的program中的要训练的参数：det和r
百度PaddleOCR字符识别推理部署（C++）枭玉龙百度 c++开发语言
1环境1.opencv（https://sourceforge.net/projects/opencvlibrary/）2.cmake（https://cmake.org/download/）3.vs2019（(https://github.com/PaddlePaddle/PaddleOCR/tree/release/2.1)4.paddleOCR项目-建议2.0(https://github.
orin nx 安装paddlespeech记录想努力的人算法语音合成人工智能
nx配置：模块版本说明CPU8核内存16GCuda版本11.4Opencv版本4.5.4Tensorrt版本5.1Cudnn版本8.6.0.166Deepstream版本6.2Python版本3.8算力100T安装paddlepaddle：去飞桨官网下载jetpack版本的：下载安装Linux推理库-PaddlePaddle深度学习平台当需要调用语速的接口时：需要安装soxbindings包，这个
飞桨自然语言处理框架 paddlenlp的 trainer 路人与大师 paddlepaddle 自然语言处理人工智能
飞桨（PaddlePaddle）的NLP库PaddleNLP中的Trainer类是一个用于训练和评估模型的简单但功能完整的循环。它被优化用于与PaddleNLP一起使用。Trainer类简化了训练过程，提供了自动的批处理、模型保存、日志记录等特性。以下是Trainer类的主要参数和功能：模型：model：可以是一个预训练的模型或一个自定义的paddle.nn.Layer。如果使用自定义模型，它需要
使用PaddleNLP识别垃圾邮件：用ELECTRA做英文邮件标题分类，英文邮件短标题的分类效果能达到92%以上以及如何使用PaddleNLP加载和微调ELECTRA模型？（附公开数据集）代码讲故事机器人智慧之心分类数据挖掘 ELECTRA PaddleNLP NLP 垃圾邮件邮件识别
使用PaddleNLP识别垃圾邮件：用ELECTRA做英文邮件标题分类，英文邮件短标题的分类效果能达到92%以上以及如何使用PaddleNLP加载和微调ELECTRA模型？（附公开数据集）要使用PaddleNLP和ELECTRA来识别垃圾邮件并做英文邮件标题分类，可以按照以下步骤进行操作：安装PaddlePaddle和PaddleNLP：首先，确保在你的环境中已经安装了PaddlePaddle和P
使用PaddleNLP识别垃圾邮件：用RoBERTa做中文邮件标题分类，模型在测试集上准确率达到98.3%以上（附公开数据集）代码讲故事机器人智慧之心分类数据挖掘 RoBERTa 垃圾邮件机器学习深度学习 PaddleNLP
使用PaddleNLP识别垃圾邮件：用RoBERTa做中文邮件标题分类，模型在测试集上准确率达到98.3%以上（附公开数据集）。要使用PaddleNLP和RoBERTa来识别垃圾邮件并做中文邮件标题分类，可以按照以下步骤进行操作：安装PaddlePaddle和PaddleNLP：首先，确保在你的环境中已经安装了PaddlePaddle和PaddleNLP。你可以根据PaddlePaddle和Pad
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d