Tony Einstein

《精通特征工程》学习笔记（3）：特征缩放的效果-从词袋到tf-idf

1.TF-IDF原理

tf-idf 是在词袋方法基础上的一种简单扩展，它表示词频 - 逆文档频率。tf-idf 计算的不是数据集中每个单词在每个文档中的原本计数，而是一个归一化的计数，其中每个单词的计数要除以这个单词出现在其中的文档数量。

词袋bow(w, d) = 单词 w 在文档 d 中出现的次数
tf-idf(w, d) = bow(w, d) * N / ( 单词 w 出现在其中的文档数量 )

N 是数据集中的文档总数。分数 N / ( 单词 w 出现在其中的文档的数量 ) 就是所谓的逆文档频率。如果一个单词出现在很多文档中，那么它的逆文档频率就接近于 1。如果一个单词只出现在少数几个文档中，那么它的逆文档频率就会高得多。

也可以使用逆文档频率的对数变换，而不是它的原始形式,那么就可以有效地将一个几乎出现在所有单个文档中的单词的计数归零，而一个只出现在
少数几个文档中的单词的计数将会被放大。即对数变换可以将 1 转换为0，并使大的数值（那些远远大于 1 的值）变小:

tf-idf(w, d) = bow(w, d) * log(N / 单词 w 出现在其中的文档数量 )

tf-idf 突出了罕见词，并有效地忽略了常见词。

tf-idf 通过乘以一个常数，对单词计数特征进行了转换。因此，它是一种特征缩放方法。比较一下缩放特征和未缩放特征的效果：
练习的目的是比较一下词袋、tf-idf 和 ℓ 2 归一化在线性分类问题中的效果。

1.1数据读取、拼接

import json
import numpy as np
import pandas as pd
from sklearn.feature_extraction import text
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import sklearn.preprocessing as preproc


# 加载商家数据
biz_f = open(r'..\data\yelp_academic_dataset_business.json')
biz_df = pd.DataFrame([json.loads(x) for x in biz_f.readlines()])
biz_f.close()

# 加载点评数据
review_file = open(r'..\data\yelp_academic_dataset_review.json')
review_df = pd.DataFrame([json.loads(x) for x in review_file.readlines()])
review_file.close()

# 选出夜店和餐馆
two_biz = biz_df[biz_df.apply(lambda x: 'Nightlife' in x['categories'] or 'Restaurants' in x['categories'],axis=1)]
two_biz.head(3)

# 与点评数据连接，得到两种类型商家的所有点评
twobiz_reviews = two_biz.merge(review_df, on='business_id', how='inner')
twobiz_reviews.head()

# 去除不需要的特征
twobiz_reviews = twobiz_reviews[['business_id','name','stars_y','text','categories']]
twobiz_reviews.head()

# 创建目标列——夜店类型的商家为True，否则为False
twobiz_reviews['target'] = twobiz_reviews.apply(lambda x: 'Nightlife' in x['categories'],axis=1)
twobiz_reviews.head(20)

序列化特征并保存特征到文件

twobiz_reviews.to_pickle('twobiz_reviews.pkl')

从文件读取序列化特征到程序并转为二维表

twobiz_reviews = pd.read_pickle('twobiz_reviews.pkl')
twobiz_reviews.head(3)

1.2创建分类数据集（拆分数据）

看看能否通过点评数据区分出一个商家是餐馆还是夜店。为了节省训练时间，我们可以取点评数据的一个子集。在这个例子中，两类商家的点评数量相差很大，这称为类别不平衡数据集。不平衡数据集的建模有些问题，因为模型会将大部分努力用于拟合优势类别。因为在两个类别中我们都有很多数据，所以解决这个问题的一种好的做法是对优势类别（餐馆）进行下采样，使它的数量与劣势类别（夜店）基本相当。

对夜店点评数据进行 10% 的随机抽样，对餐馆点评数据进行 2.1% 的随机抽样（选择这样的比例可以使两个类别的抽样数据基本相当）。
按照 70/30 的比例将这个数据集划分为训练集和测试集。在这个例子中，训练集有 29264 条点评数据，测试集有 12 542 条点评数据。
训练数据包含 46 924 个唯一单词，这就是词袋表示法的特征数量。

# 创建一个类别平衡的子样本，供练习使用
nightlife = twobiz_reviews[twobiz_reviews.apply(lambda x: 'Nightlife' in x['categories'], axis=1)]
restaurants = twobiz_reviews[twobiz_reviews.apply(lambda x: 'Restaurants' in x['categories'], axis=1)]
#如下目前类别极度不平衡
print(nightlife.shape)
print(restaurants.shape)

# 进行随机取样，达到类别平衡
nightlife_subset = nightlife.sample(frac=0.1, random_state=123)
restaurant_subset = restaurants.sample(frac=0.021, random_state=123)
print(nightlife_subset.shape)
print(restaurant_subset.shape)

# 序列化：
nightlife_subset.to_pickle('nightlife_subset.pkl')
restaurant_subset.to_pickle('restaurant_subset.pkl')

nightlife_subset = pd.read_pickle('nightlife_subset.pkl')
restaurant_subset = pd.read_pickle('restaurant_subset.pkl')

# 拼接两个类型的店起来：
combined = pd.concat([nightlife_subset, restaurant_subset])
combined['target'] = combined.apply(lambda x: 'Nightlife' in x['categories'],axis=1)#添加一列作为标签
combined

# 划分训练集和测试集
from sklearn.model_selection import train_test_split
training_data, test_data = train_test_split(combined, train_size=0.7, random_state=123)
print(training_data.shape)
print(test_data.shape)

1.3使用tf-idf变换来缩放词袋

做完 tf-idf 后再进行 ℓ 2 归一化等同于只做 ℓ2归一化。所以，我们只需要测试三组特征：词袋、tf-idf，以及词袋基础上的 ℓ 2 归一化。

# 用词袋表示点评文本
bow_transform = text.CountVectorizer()
X_tr_bow = bow_transform.fit_transform(training_data['text'])
X_te_bow = bow_transform.transform(test_data['text'])
y_tr = training_data['target']
y_te = test_data['target']

# 使用词袋矩阵创建tf-idf表示
tfidf_trfm = text.TfidfTransformer(norm=None)
X_tr_tfidf = tfidf_trfm.fit_transform(X_tr_bow)
X_te_tfidf = tfidf_trfm.transform(X_te_bow)

# 对词袋表示进行l2归一化
X_tr_l2 = preproc.normalize(X_tr_bow, axis=0)
X_te_l2 = preproc.normalize(X_te_bow, axis=0)

特征缩放的微妙之处在于，它要求我们知道一些实际中我们很可能不知道的特征统计量，比如均值、方差、文档频率、ℓ 2 范数，等等。为了计算出 tf-idf表示，我们必须基于训练数据计算出逆文档频率，并用这些统计量既缩放训练数据也缩放测试数据。

在 scikit-learn 中，在训练数据上拟合特征转换器相当于收集相关统计量。然后可以将拟合好的特征转换器应用到测试数据上。特征缩放的微妙之处在于，它要求我们知道一些实际中我们很可能不知道的特征统计量，比如均值、方差、文档频率、ℓ 2 范数，等等。

为了计算出 tf-idf表示，我们必须基于训练数据计算出逆文档频率，并用这些统计量既缩放训练数据也缩放测试数据。在 scikit-learn 中，在训练数据上拟合特征转换器相当于收集相关统计量。然后可以将拟合好的特征转换器应用到测试数据上。

1.4使用逻辑回归进行分类

# 使用不同的特征（上面那三种）进行逻辑回归分类：
def simple_logistic_classify(X_tr, y_tr, X_test, y_test, description, _C=1.0):
    ## 函数训练一个逻辑分类器，并对测试数据进行评分
    m = LogisticRegression(C=_C).fit(X_tr, y_tr)
    s = m.score(X_test, y_test)
    print ('Test score with', description, 'features:', s)
    return m
m1 = simple_logistic_classify(X_tr_bow, y_tr, X_te_bow, y_te, 'bow')
m2 = simple_logistic_classify(X_tr_l2, y_tr, X_te_l2, y_te, 'l2-normalized')
m3 = simple_logistic_classify(X_tr_tfidf, y_tr, X_te_tfidf, y_te, 'tf-idf')

1.5使用正则化对逻辑回归进行调参优化

当特征数量大于数据点数量时，找出最佳模型这个问题就变得不确定了。解决这个问题的一种方法是在训练过程中加入额外的限制条件，这就是正则化。

种基本的超参数调优方法称为网格搜索：先确定一个超参数网格，然后使用调优程序自动搜索，找到网格中的最优超参数设置。找到最优超参数设置之后，你可以使用该设置在整个训练集上训练一个模型，然后使用它在测试集上的表现作为这类模型的最终评价。（这里要调正则化参数）

tf-idf 和词袋之间的准确度差别是否是由噪声造成的。为此，我们使用k-折交叉验证来模拟多个统计独立的数据集，把数据集分成 k 折。交叉验证过程会在这些
数据子集中迭代进行，使用除一折数据之外的所有数据进行训练，而用保留的那一折数据来验证结果。

# 使用网格搜索对逻辑回归进行调优
import sklearn.model_selection as modsel

param_grid_ = {'C': [1e-5, 1e-3, 1e-1, 1e0, 1e1, 1e2]}
# 为词袋表示法进行分类器调优
bow_search = modsel.GridSearchCV(LogisticRegression(), cv=5, param_grid=param_grid_)
# 为L2-归一化词向量进行分类器调优
l2_search = modsel.GridSearchCV(LogisticRegression(), cv=5,param_grid=param_grid_)
# 为tf-idf进行分类器调优
tfidf_search = modsel.GridSearchCV(LogisticRegression(), cv=5,param_grid=param_grid_)

1.5.1为词袋表示法进行分类器调优

bow_search.fit(X_tr_bow, y_tr)
print(bow_search.best_score_)
bow_search.best_params_

1.5.2为L2-归一化词向量进行分类器调优

l2_search.fit(X_tr_bow, y_tr)
print(l2_search.best_score_)
l2_search.best_params_

1.5.3为tf-idf进行分类器调优

tfidf_search.fit(X_tr_bow, y_tr)
print(tfidf_search.best_score_)
tfidf_search.best_params_

1.5.4可以查看网格所受的cv结果看看它的过程

bow_search.cv_results_
l2_search.cv_results_
tfidf_search.cv_results_

1.5.5对三个分类器性能进行可视化比较

# 对三个分类器性能进行可视化比较
search_results = pd.DataFrame.from_dict({'bow': bow_search.cv_results_['mean_test_score'],
                               'tfidf': tfidf_search.cv_results_['mean_test_score'],
                               'l2': l2_search.cv_results_['mean_test_score']})
search_results

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")

ax = sns.boxplot(data=search_results, width=0.4)
ax.set_ylabel('Accuracy', size=14)
ax.tick_params(labelsize=14)
plt.savefig('tfidf_gridcv_results.png')
# 如下

1.5.6使用最佳参数去拟合模型

# 使用最佳参数去拟合模型
m1 = simple_logistic_classify(X_tr_bow, y_tr, X_te_bow, y_te, 'bow', 
                              _C=bow_search.best_params_['C'])
m2 = simple_logistic_classify(X_tr_l2, y_tr, X_te_l2, y_te, 'l2-normalized', 
                              _C=l2_search.best_params_['C'])
m3 = simple_logistic_classify(X_tr_tfidf, y_tr, X_te_tfidf, y_te, 'tf-idf', 
                              _C=tfidf_search.best_params_['C'])

Test score with bow features: 0.7682606410930111
Test score with l2-normalized features: 0.6784025223331581
Test score with tf-idf features: 0.766684182869154

python中的序列化 fate252 Python python 序列化 pickle json
序列化（picking）把不方便存储或不可传输的对象转换为可存储或可传输的数据的过程称之为序列化。序列化之后，就可以把序列化后的内容写入磁盘，或者通过网络传输到别的机器上。反过来，把从磁盘或网络得到的序列化数据重建为对象的过程称之为反序列化（unpickling）。序列化和反序列化实际是为了通用存储或传输而编码和解码的过程。举例：网络游戏mabi洛奇的存档功能，当每次不想玩的时候就可以存档到服务器
Selenium自动化测试框架入门与使用 Future_yzx selenium 测试工具
目录1.Selenium简介2.使用Selenium2.1Java使用Selenium2.2Python使用Selenium2.3支持的浏览器及WebDriver3.ChromeDriver的安装3.1查看本机Chrome版本3.2匹配对应的ChromeDriver并下载3.3配置ChromeDriver路径3.4在服务器（如CentOS）上安装ChromeJava中使用Selenium的代码示例
python selenium清除缓存_python 解决selenium 中的 .clear()方法失效问题许吴倩 python selenium清除缓存
最近在使用selenium做一个数字货币的自动化脚本时，遇到一个问题就是okex网站的input使用clear()方法居然无法清空，但是后来试了好多次发现方法是可以使用的，而且这个网站修改input的value也没用，必须在文本框里修改才行，本次的目的就是要清除输入框的默认值，然而clear()没有反应，最后还是用了别的方法解决了问题，那就是使用鼠标双击事件，全选后输入内容。fromseleniu
Django SimpleUI运维管理系统搭建教程 ivwdcwso 开发运维 sqlite 数据库 Django SimpleUI Django python 开发
DjangoSimpleUI运维管理系统搭建教程本教程将详细介绍如何从零搭建一个基于DjangoSimpleUI的运维管理系统。一、环境准备1.安装Python和相关依赖#安装Python3.8+sudoaptinstallpython3.8python3.8-dev#安装虚拟环境pip3installvirtualenv#创建并激活虚拟环境virtualenvvenvsourcevenv/bin
Robot Framework 测试总结 Change is good 测试框架和工具 robotframework
在2014年结识robotframework，缘于一个偶然的机会。一个测试前辈推荐了robotframework。Robotframework是python语言的测试框架。简单的看了一下介绍，觉得不错，很适合新手入门。而且测试部门的领导也很支持引入开源的自动化测试工具。RobotFramework是一个开源的测试自动化框架，用于验收测试和验收测试驱动开发。它遵循不同的测试用例样式——关键字驱动、行
python-unittest-selenium执行用例实例/执行多个用例 Change is good python python selenium 开发语言
我们在做selenium测试的时候呢，经常会碰到一些需要执行多个用例的情况，也就是多线程执行py程序，我们前面讲过单个的py用例怎么执行和生产html报告，下面给大家介绍下多个用例怎么执行并自动生成html报告。一、写好每个测试用例，如我_register/_boot/_check/_buy/_longin/，我这里写了六条用例，当然每个用例下还是有分支的测试点。上面是一个例子，其他的不截图出来了
python 连接数据库之jaydebeapi SmartManWind
让python通过jdbc连接数据库1、安装visualcppbuildtools_full.exe链接：https://pan.baidu.com/s/1MLxNJfWNGuKIxgNYkJgUnw密码：3etc2、pipinstallJayDeBeApihttps://pypi.org/project/JayDeBeApi/3、测试代码importjaydebeapiurl='jdbc:ora
大型语言模型构建指南：从头开始构建大语言模型《Build a Large Language Model (From Scratch)》免费PDF AGI大模型学习语言模型 pdf 人工智能大模型大模型学习大模型教程大模型书籍
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
书籍推荐：《从零构建大型语言模型》附免费PDF下载大模型入门学习语言模型 pdf 人工智能产品经理大模型学习大模型教程大模型入门
通过从头开始构建一个大型语言模型，了解如何创建、训练和调整大型语言模型（LLMs）！一、构建大型语言模型（从头开始）在《构建大型语言模型（从头开始）》中，你将了解如何LLMs从内到外工作。在这本富有洞察力的书中，畅销书作家塞巴斯蒂安·拉施卡（SebastianRaschka）将指导你逐步创建自己的LLM，用清晰的文字、图表和示例解释每个阶段。你将从最初的设计和创建到通用语料库的预训练，一直到特定任
LLM based Single Agent System AGI大模型与大数据研究院大数据AI人工智能计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
LLM-BasedSingleAgentSystem:ANewEraofIntelligentAutomation关键词：大语言模型，单智能体系统，强化学习，自然语言处理，智能自动化1.背景介绍近年来，随着深度学习技术的快速发展，大语言模型(LLM)在自然语言处理(NLP)领域取得了突破性进展。LLM凭借其强大的语言理解和生成能力，正在改变着人们与信息交互的方式。同时，人工智能领域的另一个重要研究
selenium clear（）方法清除文本框内容 Change is good selenium python 测试工具
在使用Selenium进行Web自动化测试时，清除文本框内容是一个常见的需求。这可以通过多种方式实现，取决于你使用的是哪种编程语言（如Python、Java等）以及你的具体需求。以下是一些常见的方法：1.使用clear()方法clear()方法是Selenium提供的一个非常直接的方法来清除文本框的内容。这个方法会删除文本框中的所有内容，并将其设置为空字符串。python：fromselenium
conda创建新虚拟环境——从无到有 S.T.A.R. 深度学习 tensorflow anaconda
自己租的GPU最近有点鱼的记忆，base配什么环境自己都忘了，所以自己开始学习如何创建并且配置一个新环境，当然这一切建立在andonate3安装完的前提下自己的配置：Linux系统，Xshell编译器创建环境condacreate-nyourEnvnamepython=3.6激活环境condaactivateyourEnvname就可以看到命令行的base换成了你的环境名可以开始installco
python 分布式集群_Python搭建Spark分布式集群环境小国阁下 python 分布式集群
前言ApacheSpark是一个新兴的大数据处理通用引擎，提供了分布式的内存抽象。Spark最大的特点就是快，可比HadoopMapReduce的处理速度快100倍。本文没有使用一台电脑上构建多个虚拟机的方法来模拟集群，而是使用三台电脑来搭建一个小型分布式集群环境安装。本教程采用Spark2.0以上版本(比如Spark2.0.2、Spark2.1.0等)搭建集群，同样适用于搭建Spark1.6.2
【Python数据分析】Pandas_Series如何转变为DataFrame Root_Smile 【Python数据分析】python 数据分析 pandas
1.使用pd.DataFrame()构造函数可以使用pd.DataFrame()构造函数将Series转换为DataFrame。在构造函数中，将Series作为一个列传递给DataFrame，并且可以通过指定列名来为DataFrame的列命名。代码示例：importpandasaspddata=[10,20,30,40,50]index=['A','B','C','D','E']series=pd
miniforge选择躺平小菜菜 python
一、介绍说明Miniforge是一款Python环境和包管理工具，相比Anaconda，推荐使用Miniforge的原因主要有以下三个方面。首先，miniforge集成了Anaconda的核心工具：conda。conda是一个包和环境管理工具，因此，miniforge里面的conda和Anaconda里面的conda完全一样；你能用Anaconda做的安装、升级、删除包等功能，miniforge都
(6) 深入探索Python-Pandas库的核心数据结构：DataFrame全面解析码界领航 pandas 数据结构 python numpy
目录前言1.DataFrame简介2.DataFrame的特点3.DataFrame的创建3.1使用字典创建DataFrame3.2使用列表的列表（或元组）创建DataFrame3.3使用NumPy数组创建DataFrame3.4使用Series构成的字典创建DataFrame3.5使用字典构成的字典创建DataFrame4.从CSV文件读取5.DataFrame的属性和方法5.1查看DataFr
初始Pandas数据结构(DataFrame和Series) aerfaqi 数据分析 python 数据挖掘
认识PandasPandas是Python语言的一个扩展程序库，用于数据挖掘和数据分析，同时也提供数据清洗功能。pandas（paneldata&dataanalysis），是基于numpy（提供高性能的矩阵运算）专门用于数据分析的工具，是一个强大的分析结构化数据（表格数据）的工具集；Pandas的操作是基于两种结构：DataFrame结构和Series结构DataFrame每一列都为Series
AI大模型如何赋能电商行业十二点的泡面 ai
随着技术的发展，越来越多的电商平台开始尝试运用AI技术来提高销售效率，从用户体验到供应链管理，AI深刻影响着行业的未来发展趋势。在AI加持下，如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用？如何运用AI技术提高电商平台的销售效率和用户体验呢？欢迎分享您的看法，为电商行业的数字化转型提供新的思路和方法。方向一：介绍AI技术在电商中的创新应用在电商领域，AI技术的应用正日益广泛，其中
Anaconda 中更新当前环境的 Python 版本菌菌的快乐生活 python
要在Anaconda中更新当前环境的Python版本，可以按照以下步骤操作：打开AnacondaPrompt（Windows）或终端（macOS/Linux）。首先，你可以激活你想要更新的环境：condaactivateyour_environment_name将your_environment_name替换成你的环境名称。检查可用的Python更新版本：condasearchpython这将列出
rocketmq python 某个队列不消费_RocketMQ消息发送常见错误与解决方案 weixin_39849479 rocketmq python 某个队列不消费
点击上方“中间件兴趣圈”，选择“设为星标”做积极的人，越努力越幸运！本文将结合自己使用RocketMQ的经验，对消息发送常见的问题进行分享，基本会遵循出现问题，分析问题、解决问题。1、Norouteinfoofthistopic无法找到路由信息，其完整的错误堆栈信息如下：而且很多读者朋友会说Broker端开启了自动创建主题也会出现上述问题。RocketMQ的路由寻找流程如下图所示：上面的核心关键点
centos8安装python2.7_CentOS6.8 升级python2.7 杀心成焚
前提：centos6.8虚拟机，新机器，很多包都没有centos6.8自带python是2.6，项目需要python2.7注意：因为是新机器，所以os上很多依赖包都没有。我第一次参考链接的方式安装2.7，结果在执行pythonget-pip.py中报错：zipimport.ZipImportError:can'tdecompressdata;zlibnotavailable。查看了一些文档，都然并
华为OD机试D卷 --矩阵匹配--24年OD统一考试（Java & JS & Python & C & C++）飞码创造者最新华为OD机试题库2024 华为od 矩阵 python javascript java c++c语言
文章目录题目描述输入描述输出描述用例题目解析java源码js源码python源码c源码c++源码题目描述从一个N*M（N≤M）的矩阵中选出N个数，任意两个数字不能在同一行或同一列，求选出来的N个数中第K大的数字的最小值是多少。输入描述输入矩阵要求：1≤K≤N≤M≤150输入格式：NMKN*M矩阵输出描述N*M的矩阵中可以选出M!/N!种组合数组，每个组合数组种第K大的数中的最小值。无需考虑重复数字
linux离线安装gensim,安装gensim 宇宙探索未解之迷 linux离线安装gensim
pip3installjieba-0.39.zippip3installdocutils-0.15.2-py3-none-any.whlpip3installpython_dateutil-2.8.0-py2.py3-none-any.whlRequirementalreadysatisfied:six>=1.5pip3installbotocore-1.12.238-py2.py3-none-a
【Python】RocketMQ 基础使用 Encarta1993 Python rocketmq
目录1.介绍2.实践2.1.启动消费者2.2.启动生产者1.介绍RocketMQ是一个开源的分布式消息传递系统，最初由阿里巴巴集团开发并于2012年开源。它旨在解决高可靠性、高吞吐量、低延迟和可伸缩性等大规模分布式系统下的消息通信需求。RocketMQ的设计目标是提供一种灵活、可靠、高性能的消息传递解决方案，适用于各种场景，包括在线消息通信、日志处理、流式处理、事件驱动架构等。下面是对Rocket
YOLO 目标检测编程详解不知名靓仔 YOLO 目标检测人工智能
引言目标检测是计算机视觉中的一个重要任务，它旨在识别图像中的对象并定位这些对象的位置。YOLO（YouOnlyLookOnce）是一种流行的目标检测算法，因其速度快且准确度高而广受好评。本文将深入探讨YOLO的原理及其实现方法，并提供一个使用Python和PyTorch的示例代码。项目源码见最下方1.YOLO算法简介YOLO算法的核心思想是将目标检测视为回归问题，而不是传统的分类加定位的两阶段方法
python对接rocketmq i_nekohuang python rocketmq
背景有对接java系统监听其相关资源同步新增的需求，该java系统使用了rocketmq。前置说明1、目前Python客户端仅支持Linux和macOS操作系统，暂不支持Windows系统2、rocketmq-client-python基于rocketmq-client-cpp进行包装，因此需要先编译出librocketmq.so3、文档中相关源码包和依赖包版本和github中README.md有
Python实现YOLO目标检测我专门写bug PYTHON python YOLO 目标检测
#-*-coding:utf-8-*-#载入所需库importcv2importnumpyasnpimportosimporttimedefyolo_detect(pathIn='',pathOut=None,confidence_thre=0.5,nms_thre=0.3,jpg_quality=80):#pathIn：原始图片的路径#pathOut：结果图片的路径#label_path：类别标
TorchServe环境构建+模型更新+新模型注册有来有去9527 torch 深度学习人工智能
目录1.背景2.torchserve环境搭建2.1jdk环境搭建2.2python环境搭建2.3启动服务2.3.1注册模型2.3.2模型查看2.3.3接口调用3进阶功能3.1模型多版本管理3.2新模型注册1.背景由于技术路线调整，需求调整原本的模型推理服务——tensorflow-serving，经过初步调研，可替换的服务框架有：torchserve和triton。本文只设计torchserve的
【Python练手】logging日志修改，显示成毫秒级时间戳 -＞ 1628822017676 青禾tester Python基础学习-入门
一、初始配置和日志显示1、配置format=%(asctime)s.%(msecs)03d%(name)s%(relativeCreated)d%(levelname)s%(module)s%(funcName)s%(message)sdatefmt=%Y/%m/%d%H:%M:%S2、打印日志2021/08/1220:56:59.708root13280INFOloginclick_mine_t
已经有一个几千行的python文件，里面有很多的print语句，我现在需要在print语言中添加print打印的时间文本，如何快速实现时间简史u python 开发语言 numpy
你可以在代码中添加一个装饰器函数，用于在每个print语句前面添加时间戳。这样可以让你在不修改每个print语句的情况下快速实现你的需求。以下是一个示例装饰器函数，它将在每个print语句前添加一个时间戳：importdatetimedefadd_timestamp_to_prints(func):defwrapper(*args,**kwargs):print(datetime.datetime
ASM系列四利用Method 组件动态注入方法逻辑 lijingyao8206 字节码技术 jvm AOP 动态代理 ASM
这篇继续结合例子来深入了解下Method组件动态变更方法字节码的实现。通过前面一篇，知道ClassVisitor 的visitMethod()方法可以返回一个MethodVisitor的实例。那么我们也基本可以知道，同ClassVisitor改变类成员一样，MethodVIsistor如果需要改变方法成员，注入逻辑，也可以
java编程思想 --内部类百合不是茶 java 内部类匿名内部类
内部类;了解外部类并能与之通信内部类写出来的代码更加整洁与优雅 1,内部类的创建内部类是创建在类中的 package com.wj.InsideClass; /* * 内部类的创建 */ public class CreateInsideClass { public CreateInsideClass(
web.xml报错 crabdave web.xml
web.xml报错 The content of element type "web-app" must match "(icon?,display- name?,description?,distributable?,context-param*,filter*,filter-mapping*,listener*,servlet*,s
泛型类的自定义麦田的设计者 java android 泛型
为什么要定义泛型类，当类中要操作的引用数据类型不确定的时候。采用泛型类，完成扩展。例如有一个学生类 Student{ Student(){ System.out.println("I'm a student....."); } } 有一个老师类
CSS清除浮动的4中方法 IT独行者 JavaScript UI css
清除浮动这个问题，做前端的应该再熟悉不过了，咱是个新人，所以还是记个笔记，做个积累，努力学习向大神靠近。CSS清除浮动的方法网上一搜，大概有N多种，用过几种，说下个人感受。 1、结尾处加空div标签 clear:both 1 2 3 4 .div 1 { background : #000080 ; border : 1px s
Cygwin使用windows的jdk 配置方法 _wy_ jdk windows cygwin
1.[vim /etc/profile] JAVA_HOME="/cgydrive/d/Java/jdk1.6.0_43" (windows下jdk路径为D:\Java\jdk1.6.0_43) PATH="$JAVA_HOME/bin:${PATH}" CLAS
linux下安装maven 无量 maven linux 安装
Linux下安装maven(转) 1.首先到Maven官网下载安装文件，目前最新版本为3.0.3，下载文件为 apache-maven-3.0.3-bin.tar.gz，下载可以使用wget命令； 2.进入下载文件夹，找到下载的文件，运行如下命令解压 tar -xvf apache-maven-2.2.1-bin.tar.gz 解压后的文件夹
tomcat的https 配置,syslog-ng配置 aichenglong tomcat http跳转到https syslong-ng配置 syslog配置
1) tomcat配置https,以及http自动跳转到https的配置 1)TOMCAT_HOME目录下生成密钥(keytool是jdk中的命令) keytool -genkey -alias tomcat -keyalg RSA -keypass changeit -storepass changeit
关于领号活动总结 alafqq 活动
关于某彩票活动的总结具体需求，每个用户进活动页面，领取一个号码，1000中的一个；活动要求 1，随机性，一定要有随机性； 2，最少中奖概率，如果注数为3200注，则最多中4注 3，效率问题，（不能每个人来都产生一个随机数，这样效率不高）； 4，支持断电（仍然从下一个开始），重启服务；（存数据库有点大材小用，因此不能存放在数据库）解决方案 1，事先产生随机数1000个，并打
java数据结构冒泡排序的遍历与排序百合不是茶 java
java的冒泡排序是一种简单的排序规则冒泡排序的原理：比较两个相邻的数，首先将最大的排在第一个，第二次比较第二个，此后一样；针对所有的元素重复以上的步骤，除了最后一个例题；将int array[]
JS检查输入框输入的是否是数字的一种校验方法 bijian1013 js
如下是JS检查输入框输入的是否是数字的一种校验方法： <form method=post target="_blank"> 数字：<input type="text" name=num onkeypress="checkNum(this.form)"><br> </form>
Test注解的两个属性：expected和timeout bijian1013 java JUnit expected timeout
JUnit4：Test文档中的解释：　　The Test annotation supports two optional parameters. 　　The first, expected, declares that a test method should throw an exception. 　　If it doesn't throw an exception or if it
[Gson二]继承关系的POJO的反序列化 bit1129 POJO
父类 package inheritance.test2; import java.util.Map; public class Model { private String field1; private String field2; private Map<String, String> infoMap
【Spark八十四】Spark零碎知识点记录 bit1129 spark
1. ShuffleMapTask的shuffle数据在什么地方记录到MapOutputTracker中的 ShuffleMapTask的runTask方法负责写数据到shuffle map文件中。当任务执行完成成功，DAGScheduler会收到通知，在DAGScheduler的handleTaskCompletion方法中完成记录到MapOutputTracker中
WAS各种脚本作用大全 ronin47 WAS 脚本
　　　http://www.ibm.com/developerworks/cn/websphere/library/samples/SampleScripts.html 　　　无意中，在WAS官网上发现的各种脚本作用，感觉很有作用，先与各位分享一下　　　获取下载这些示例 jacl 和 Jython 脚本可用于在 WebSphere Application Server 的不同版本中自
java-12.求 1+2+3+..n不能使用乘除法、 for 、 while 、 if 、 else 、 switch 、 case 等关键字以及条件判断语句 bylijinnan switch
借鉴网上的思路，用java实现： public class NoIfWhile { /** * @param args * * find x=1+2+3+....n */ public static void main(String[] args) { int n=10; int re=find(n); System.o
Netty源码学习-ObjectEncoder和ObjectDecoder bylijinnan java netty
Netty中传递对象的思路很直观： Netty中数据的传递是基于ChannelBuffer（也就是byte[]）；那把对象序列化为字节流，就可以在Netty中传递对象了相应的从ChannelBuffer恢复对象，就是反序列化的过程 Netty已经封装好ObjectEncoder和ObjectDecoder 先看ObjectEncoder ObjectEncoder是往外发送
spring 定时任务中cronExpression表达式含义 chicony cronExpression
一个cron表达式有6个必选的元素和一个可选的元素，各个元素之间是以空格分隔的，从左至右，这些元素的含义如下表所示：代表含义是否必须允许的取值范围 &nb
Nutz配置Jndi ctrain JNDI
1、使用JNDI获取指定资源： var ioc = { dao : { type :"org.nutz.dao.impl.NutDao", args : [ {jndi :"jdbc/dataSource"} ] } } 以上方法,仅需要在容器中配置好数据源,注入到NutDao即可.
解决 /bin/sh^M: bad interpreter: No such file or directory daizj shell
在Linux中执行.sh脚本，异常/bin/sh^M: bad interpreter: No such file or directory。分析：这是不同系统编码格式引起的：在windows系统中编辑的.sh文件可能有不可见字符，所以在Linux系统下执行会报以上异常信息。解决： 1）在windows下转换：利用一些编辑器如UltraEdit或EditPlus等工具
[转]for 循环为何可恨？ dcj3sjt126com 程序员读书
Java的闭包(Closure)特征最近成为了一个热门话题。一些精英正在起草一份议案，要在Java将来的版本中加入闭包特征。然而，提议中的闭包语法以及语言上的这种扩充受到了众多Java程序员的猛烈抨击。不久前，出版过数十本编程书籍的大作家Elliotte Rusty Harold发表了对Java中闭包的价值的质疑。尤其是他问道“for 循环为何可恨？”[http://ju
Android实用小技巧 dcj3sjt126com android
1、去掉所有Activity界面的标题栏　　修改AndroidManifest.xml 　　在application 标签中添加android:theme="@android:style/Theme.NoTitleBar" 2、去掉所有Activity界面的TitleBar 和StatusBar 　　修改AndroidManifes
Oracle 复习笔记之序列 eksliang Oracle 序列 sequence Oracle sequence
转载请出自出处：http://eksliang.iteye.com/blog/2098859 1.序列的作用序列是用于生成唯一、连续序号的对象一般用序列来充当数据库表的主键值 2.创建序列语法如下： create sequence s_emp start with 1 --开始值 increment by 1 --増长值 maxval
有“品”的程序员 gongmeitao 工作
完美程序员的10种品质　　完美程序员的每种品质都有一个范围，这个范围取决于具体的问题和背景。没有能解决所有问题的完美程序员（至少在我们这个星球上），并且对于特定问题，完美程序员应该具有以下品质：　　1. 才智非凡- 能够理解问题、能够用清晰可读的代码翻译并表达想法、善于分析并且逻辑思维能力强（范围：用简单方式解决复杂问题）　　
使用KeleyiSQLHelper类进行分页查询 hvt sql .net C#asp.net hovertree
本文适用于sql server单主键表或者视图进行分页查询，支持多字段排序。KeleyiSQLHelper类的最新代码请到http://hovertree.codeplex.com/SourceControl/latest下载整个解决方案源代码查看。或者直接在线查看类的代码：http://hovertree.codeplex.com/SourceControl/latest#HoverTree.D
SVG 教程（三）圆形，椭圆，直线天梯梦 svg
SVG <circle> SVG 圆形 - <circle> <circle> 标签可用来创建一个圆：下面是SVG代码： <svg xmlns="http://www.w3.org/2000/svg" version="1.1"> <circle cx="100" c
链表栈 luyulong java 数据结构
public class Node { private Object object; private Node next; public Node() { this.next = null; this.object = null; } public Object getObject() { return object; } public
基础数据结构和算法十：2-3 search tree sunwinner Algorithm 2-3 search tree
Binary search tree works well for a wide variety of applications, but they have poor worst-case performance. Now we introduce a type of binary search tree where costs are guaranteed to be loga
spring配置定时任务 stunizhengjia spring timer
最近因工作的需要，用到了spring的定时任务的功能,觉得spring还是很智能化的,只需要配置一下配置文件就可以了,在此记录一下，以便以后用到： //------------------------定时任务调用的方法------------------------------ /** * 存储过程定时器 */ publi
ITeye 8月技术图书有奖试读获奖名单公布 ITeye管理员活动
ITeye携手博文视点举办的8月技术图书有奖试读活动已圆满结束，非常感谢广大用户对本次活动的关注与参与。 8月试读活动回顾： http://webmaster.iteye.com/blog/2102830 本次技术图书试读活动的优秀奖获奖名单及相应作品如下（优秀文章有很多，但名额有限，没获奖并不代表不优秀）：《跨终端Web》 gleams：http