zhangjiyubang

pandas特征工程的处理小结

特征工程的处理小结

基本的数据特征：

预处理

1、查看数据的基本信息

data.info ：查看数据的基本结构组成和对应的属性

data.shape：查看数据的行数和列数

data.head(n)：显示数据的前n行

data.columns：显示所有的列名

data.columns = [“A”“C”“W"d"d"e”] ：按顺序设置新的列名

更改列名
data.rename(columns={'id':'ID', '原来的列名':'新的列名'})

2、统计列的情况

data[column].value_counts()：显示每一列对应的分类，每一类的个数/比例

'''
获取columnName对应列的各个分类的数量和比例
'''
def getColumnNumsAndRatio(columnName, data, dropNan=True, sort=True, normalize=True):
    # 获取某一列的各类别的个数
    cat_nums = data[columnName].value_counts()
    # 获取某一列各类别的占比
    cat_ratio = data[columnName].value_counts(normalize = normalize)
    # 组合个数、占比
    numAndRatio = pd.concat([cat_nums, cat_ratio],axis=1)
    # 更改列名
    numAndRatio.columns = [columnName+'各分类数量', columnName+'各分类占比']
    return numAndRatio

3、统计缺失信息

'''
获取数据中每个特征缺失的情况
'''
def getNullInfoAboutColumns(data):
    missNumber = data.isnull().sum().sort_values(ascending = False)
    missPercent = (missNumber / data.shape[0]).sort_values(ascending = False)
    nullNumberAndPrecent = pd.concat([missNumber, missPercent], axis =1, keys = ['缺失数量','缺失占比'])
    return nullNumberAndPrecent

缺失样本处理

4、重复样本

# 统计重复的样本个数
data.duplicated().sum() 

# 删除重复的样本
data.drop_duplicates(inplace = True)

5、各列的数据箱式分布

# 所有数据的分布情况
data.describe()

# 对应column列的分布情况
data[column].describe()

绘制概率密度图

import seaborn as sns

plt.figure(figsize=(10, 8), dpi=80)
#绘图
sns.kdeplot(data["订单金额"],  # 对应的列
            shade=True,
            color="#01a2d9",  # 颜色
            label="订单金额",
            alpha=.7)
#风格与装饰
sns.set(style="whitegrid", font_scale=1.1)
plt.title("订单金额概率密度分布图",fontsize=18)
plt.yticks([])
plt.xlim((-1,40000))
plt.show()

获取对应列异常值的索引

'''
columns: list列表
'''
def getFeatureAbnormalIndex(data, columns):
    numOfSample = data.shape[0]
    listAbnormalIdx = []
    
    for idx, column in enumerate(columns):
        feature = data[column]
        # 获取25%的数据值
        QL = feature.quantile(0.25)
        # 获取75%的数据值
        QU = feature.quantile(0.75)
        IQR = QU - QL
        # 异常值的定义方式
        abnormal = feature[((feature < (QL - 1.5 * IQR)).astype(int) +  (feature > (QU + 1.5*IQR)).astype(int)) !=0]
        listAbnormalIdx.extend(abnormal.index)
    # 去重
    listAbnormalIdx = list(set(listAbnormalIdx))
    return listAbnormalIdx

创建新的数据并计算和之前列的相关系数

'''
column:列名
newColumn:增加列的名称
newColumnIndex:list 对应这些的索引值需要改变
'''
def makeNewFeatureAndcomputeCorration(data, column, newColumn, newColumnIndex):
    # 创建索引和需要建立相关系数的列相同的缩影
    df = pd.DataFrame(index = data.index)
    # 设置初始值
    df[newColumn] = 0
    # 设置需要改变的值
    df.loc[newColumnIndex, newColumn] = 1
    # 计算相关系数
    corration = pd.concat([df[newColumn], data[column]], axis=1).corr()
    return corration

6、数据提取

loc提取：按标签提取

iloc提取：按照位置进行提取

data[]提取：

data[]可以输入的值：

只能是单独对应列的名称，取一列

df = pd.DataFrame([(.2, .3, 2.5), (.0, .6, 3.6), (.6, .0, .3), (.2, .1, .2)],columns=['dogs', 'cats', 'pig'], index=list("ABCD"))
# 只能单独索引列
df['dogs']
df['pig']

pandas.DataFrame.loc() 允许输入的值：

单个标签，例如5或’a’，（请注意，5被解释为索引的标签，而不是沿索引的整数位置）。
标签列表或数组，可以是对应行或者列，或者行和列，例如。[‘a’, ‘b’, ‘c’]
具有标签的切片对象，例如’a’:‘f’，切片的开始和结束都包括在内。

df = pd.DataFrame([(.2, .3, 2.5), (.0, .6, 3.6), (.6, .0, .3), (.2, .1, .2)],columns=['dogs', 'cats', 'pig'], index=list("ABCD"))

# 索引行
    # 单一索引行
    df.loc['A']
    # 搜索若干行，对应行的列表即可
    df.loc[["A", "B"]]
# 索引列
	# 单一索引一列列
    df.loc[:,'dogs']
    # 搜索若干行，对应行的列表即可
    df.loc[:,["dogs", "pigs"]]
    
# 索引某行某列
	# 确定的值
    df.loc['A', "dogs"]
    # 搜索若干行，若干列
    df.loc[["A", "B"],['dogs', 'pig']]
    df.loc[["A", "B"],:]

pandas.DataFrame.iloc()允许输入的值：

整数5、整数列表或数组[4,3,0]、整数的切片对象1:7

df = pd.DataFrame([(.2, .3, 2.5), (.0, .6, 3.6), (.6, .0, .3), (.2, .1, .2)],columns=['dogs', 'cats', 'pig'], index=list("ABCD"))
#对应的索引坐标或者切片,列表
df.iloc[x,y]
df.iloc[2]
df.iloc[2:,1:]
df.iloc[1,2]
df.iloc[[1,3],[1,2]]

选取满足的值进行选取

1、将满足origin是China且money小于35这两个条件的数据，返回其id、date、money、product、department、origin值。

data.loc[(data['origin']=="China") & (data['money']<35),['id','date','money','product','department','origin']]

2、将满足origin是China或者money小于35这两个条件之中任意一个条件的数据，返回其id、date、money、product、department、origin值。

data.loc[(data['origin']=="China") | (data['money']<35),['id','date','money','product','department','origin']]

值的判断

方式一：判断origin列的值是否为China

data['origin']=="China"

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w48usB9L-1642064510741)(C:\Users\zjy\Desktop\xiangmu\数据分析项目\国美异常检测\图片\image-20220113002738368.png)]

方式二：判断department列的值是否为水果

data['department'].isin(['水果'])

提取符合判断的值

data.loc[data['origin'].isin(['Thailand'])]    # 将产地是泰国的数据进行提取

7、手动划分数据集

选取一个特征进行去重

'''
选取一列进行去重
column: str
'''
def getUniqueByColumn(data, column):
    uniqueColumn = data[column].unique()
    return uniqueColumn

按比例划分数据集train、test

'''
划分数据集
column: str 按照数据的某一列划分
uniqueColumn: 某一列的数据
sampleRatio: 抽样比例
'''
def makeTrainAndTestData(data, column, uniqueColumn, sampleRatio=0.3):
    # 按抽样比例随机选取某一指定列作为测试集一列
    testDataOneColumn = random.sample(uniqueColumn.tolist(), int(len(uniqueColumn)*sampleRatio))
    
    # 选取不包含测试样本的数据
    train = data.loc[~data[column].isin(testDataOneColumn)]
    # 选取包含测试样本的数据的所有测试样本
    test = data.loc[data[column].isin(testDataOneColumn)]
    
    # 更显train和test的index
    train.index = range(len(train))
    test.index = range(len(test))
    return train, test

8、数据的异常率新特征

（1）查看某列的异常率，通常这一列中的分类适中，可以计算出每一个类中的异常率，最终使用map映射创建出新的特征列

'''
分析每一列中的特征对应的异常率
groupByColumn: 用来聚类的列
column: 一般为标签的列
'''
def getColumnAbnormalRatio(data, groupByColumn, column):
    # 计算出每个类别的异常概率，如果分类标签不同方法要进行改变
    abnormal = data.groupby(groupByColumn)[column].mean()
    df = pd.concat([abnormal, 1-abnormal], axis = 1, keys=["异常率", "正常率"])
    return df

绘制条形对比图

from pyecharts.charts import *
from pyecharts.components import Table
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode
bar_hour = (
    Bar(init_opts=opts.InitOpts())  
    .add_xaxis(ab_hour.index.to_list())
    .add_yaxis("异常交易", round(ab_hour['异常率'],3).to_list(),stack = True)
    .add_yaxis("正常交易", round(ab_hour['正常率'],3).to_list(),stack = True)
    .set_global_opts(title_opts=opts.TitleOpts(title="【"+'下单小时'+'】'+"异常交易/全部交易的比例")
                    , xaxis_opts=opts.AxisOpts(axislabel_opts=opts.LabelOpts(rotate=45)))
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False),xaxis_opts=opts.AxisOpts(name_rotate = 90))
)

bar_hour.render_notebook()

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TVhE7cKF-1642064510743)(C:\Users\zjy\Desktop\xiangmu\数据分析项目\国美异常检测\图片\条形图)]

（2）创建新的特征

创建字典:只是用列就可以创建列和索引的字典

dict(data[column])

复杂字典：某列中类别对应的异常率

def getDict(data, groupByColumn, labelColumn):
    dic = dict(data.groupby(groupByColumn)[labelColumn].mean())
    return dic

'''
创建新特征
groupByColumn:分组列
labelColumn:标签列
column:老列的名称
newColumn: 新列的名称
'''
def groupByCreateFeature(train, test, groupByColumn, labelColumn, column, newColumn):
    # 利用训练集数据构建字典
    dic = getDict(train, groupByColumn, labelColumn)
    
    #建立新的特征
    train[newColumn] = train[column].map(dic)
    test[newColumn] = test[column].map(dic)
    return train, test

（3）将文字特征进行顺序编码

def easyCodeByTrainAndTest(column, train, test):
    # 利用train创建字典
    dic = {}
    feature = np.sort(train[column].unique())
    for code, cat in enumerate(feature):
        dic[cat] = code
        
    #更新train内的字段
    train[column] = train[column].map(dic)
    
    #根据test增加字典  test[column].map(dic).isnull()按照原来字典更新后为null的列的值
    newCat = test.loc[test[column].map(dic).isnull(),column].unique()
    for i in newCat:
        dic[i] = len(dic)
        
    #更新test字段
    test[column] = test[column].map(dic)
    return train, test

创建字典

# 完成了索引对应列的字典
dict(df[column])

9、异常率的阈值处理法

用户ID、商品ID、品牌的特点：

①相较于之前处理的特征（商品一级类别、商品所属渠道、支付方式等）其各特征下的类别拥有交易量足够、可以衡量风险的类型；但用户ID、商品ID、品牌，这三者因为其特征下的类别较多，拥有交易过少无法判断的特点。为此，我们像先前一样新增特征“XX异常率”，但不同的是，需对未达到阈值（人为设定）的异常率特征记为-1

②用户ID、商品ID、品牌因为类别多，其特征拥有部分类别只存在于训练集，不存在与测试集的特点，为此在新增特征“XX异常率”时，这些在测试集未出现的类别对应的异常率记为-1；在特征编码时，将对这些类目手动新增

'''
获取某一分组满足特征条件的概率
比如对应品牌中，销售的数量大于10
groupByColumn 分组列
labelColumn    标签列
conditionColumn 条件列
threshold: 满足阈值的条件
'''
def columnRatioSatifyCondition(data, groupByColumn, labelColumn, conditionColumn, threshold):
    columnRatio = data.groupby(groupByColumn)[labelColumn].mean()[data.groupby(groupByColumn)[conditionColumn].sum() > threshold ]
    return columnRatio

'''
生成新的Data，
curColumnName: 当前处理的特征列
newColumnName: 新增特征的名称
multiplyRatio: columnRatioSatifyCondition()产生的值，满足当前列某一条件的概率进行赋值
initVal=-1:     Data的初始值
'''
def getMulColumnConditionRatio(data, curColumnName, newColumnName, multiplyRatio, initVal=-1):
    df = pd.DataFrame(index = data[curColumnName].unique())
    df[newColumnName] = initVal
    df.loc[multiplyRatio.index, newColumnName] = multiplyRatio
    return df

# ratio是指满足某条件下的某一特征的异常率columnRatioSatifyCondition产生的值

def groupByFeatureMore(column, train, test, newColumn, ratio):
    #创建训练集字典
    # 新建数据，并指定索引
    df = pd.DataFrame(index = train[column].unique())
    # df新增一列设置处置为-1
    df[newColumn] = -1
    # 设置ratio中的值
    df.loc[ratio.index, newColumn] = ratio
    # 创建字典
    trainDic = dict(df[newColumn])
    
    #训练集映射
    train[newColumn] = train[column].map(trainDic)
    
    #测试集构建字典，出现在训练集的直接赋值，没有出现的设置-1
    testDic = {}
    for i in test[column]:
        if i in ratio.index:
            testDic[i] = ratio[i]
        else:
            testDic[i] = -1
    
    #测试集映射
    test[newColumn] = test[column].map(testDic)
    return train, test

10、连续值分箱特征处理

有些特征的值是连续的比如订单金额与销售数量。可以先将金额进行分箱，再利用分箱数进行统计异常率。

绘制异常和正常情况的概率密度：

abnormal = train.loc[train['异常']==1, '订单金额']
normal = train.loc[train['异常'==0], '订单金额']

绘制密度分布图

plt.figure(figsize=(10, 8), dpi=80)
sns.kdeplot(normal,
            shade=True,
            color="#01a2d9",
            label="normal",
            alpha=.5)  #透明度
sns.kdeplot(abnormal,
            shade=True,
            color="#dc2624",
            label="abnormal",
            alpha=.9)

#风格与装饰
sns.set(style="whitegrid",font="SimHei", font_scale=1.1)
plt.title("abnormal vs normal the pic of money",fontsize=18)
#plt.yticks([])
# 可以通过这个具体看每个分段的具体分布
plt.xlim((0, 100))
plt.ylim((0,0.000002))
plt.show()

特征分箱

from sklearn.preprocessing import KBinsDiscretizer as KBD
def getColumnBinsDiscretizer(train, test, curColumnName, newColumnName, bins):
    # 编码方式为顺序编码，策略为kmeans，分了10个箱
    enc = KBD(n_bins=bins, encode='ordinal', strategy='kmeans')
    enc = enc.fit(pd.DataFrame(train[curColumnName]))
    
    # 进行新特征的赋值
    train[newColumnName] = enc.transform(pd.DataFrame(train[curColumnName]))
    test[newColumnName] = enc.transform(pd.DataFrame(test[curColumnName]))
    return train, test

# 创建字典
def createNewFeature(train, test, groupbyColumnName, labelColumnName, newColumnName):
    # 构造字典
    dic = dict(train.groupby(groupbyColumnName)[labelColumnName].mean())

    # train和test更新特征列
    train[newColumnName] = train[groupbyColumnName].map(dic)
    test[newColumnName]  = test[groupbyColumnName].map(dic)
    return train, test

创建二值分箱：

这个针对的特征是，在一定范围内无法区分是异常还是非异常，在阈值外大部分是异常可使用简单二值分箱

'''
对某一特征进行二值分析
'''
def createBinaryFeature(train, test, curColumnName, newColumnName, threshold):
    # 增加新列并且设置初始值
    train[newColumnName] = 0
    test[newColumnName] = 0
    
    #将满足指定阈值的
    train.loc[train[curColumnName] > threshold, newColumnName] = 1
    test.loc[test[curColumnName] > threshold, newColumnName] = 1
    return train, test

参考文章

pandas数据分析常用函数总结（下篇） - 知乎 (zhihu.com))

[国美在线商城异常订单检测](国美线上商城的异常订单检测 - Heywhale.com)

【手撕算法系列】多头自注意力机制MHSA Nastu_Ho-小何同学 python 深度学习机器学习
importtorch.nnasnnclassAttention(nn.Module):def__init__(self,dim,num_heads=8,qkv_bias=False,qk_scale=None,attn_drop=0.,proj_drop=0.,num_classes=20):super().__init__()self.num_classes=num_classesself.n
python flask 分页_Python的Flask框架中实现分页功能的教程 weixin_39959126 python flask 分页
BlogPosts的提交让我们从简单的开始。首页上必须有一张用户提交新的post的表单。首先我们定义一个单域表单对象(fileapp/forms.py)：classPostForm(Form):post=TextField('post',validators=[Required()])下面，我们把这个表单添加到template中(fileapp/templates/index.html)：{%ex
NLP复习3，手撕多头attention 地大停车第二帅 NLP学习自然语言处理人工智能
importmathimporttorchimportcollectionsimportnumpyasnpimporttorch.nnasnnclassMultiHeadAttention(nn.Module):def__init__(self,heads,d_model,dropout=0.1):super().__init__()#输入的特征维度self.d_model=d_model#每个头
Python 实现海康机器人工业相机 MV-CS050-10GC 的实时显示视频流及拍照功能(实时显示视频流同时可以进行拍照) 恋上钢琴的虫数码相机
参考链接：https://www.cnblogs.com/HanYork/p/17388506.htmlhttps://www.cnblogs.com/miracle-luna/p/16960556.html#5138211Flask搭建流媒体服务器：使用Flask搭建一个流媒体服务器_multipart/x-mixed-replace;boundary=frame-CSDN博客
python:数据类构建器愚戏师 python基础与机器学习 python windows 开发语言
在Python中，数据类（DataClasses）用于快速创建主要目的是存储数据的类，自动生成__init__,__repr__,__eq__等方法。“Python提供了几种构建简单类的方式，这些类只是字段的容器，几乎没有额外功能。这种模式称为“数据类”（dataclass），dataclasses包就支持该模式。”引用自《流畅的python（第二版）》1.基础数据类使用@dataclass装饰器
还不会构建MindIE镜像？一篇文章搞定 Zain Lau vim 编辑器 linux MindIE 昇腾
MindIE镜像构建工程项目简介用于构建多平台/架构的MindiE镜像的脚本。用户可以根据需要准备好所需的软件包，修改相关配置并构建镜像。前提条件网络连接在整个构建过程中，必须保持稳定的网络连接。此构建工程依赖于在线下载多个资源，包括但不限于Python源码、编译工具以及各种依赖，无法离线构建。Docker推荐版本：Docker20.10.x及以上最低版本要求：Docker19.03.x安装方式：
使用 certbot 在centos7 搭建ssl证书自动并且续约 TwoSs110 ssl https
第一步，确定服务器适合安装的certbot版本sudoyuminstallpython27如果上述方法不起作用，你可以尝试编译安装。首先，你需要安装编译Python所需的依赖包。sudoyuminstallgccmakeopenssl-develsqlite-develreadline-develzlib-develbzip2-devel接下来，下载Python2.7.5的源代码，并进行编译安装。
Assembly语言的自然语言处理花韵婷包罗万象 golang 开发语言后端
Assembly语言在自然语言处理中的应用引言自然语言处理（NaturalLanguageProcessing,NLP）作为人工智能的一个重要分支，致力于实现计算机与人类语言之间的互动。随着计算能力的提升以及大数据的蓬勃发展，NLP在各个领域的应用如火如荼。从语音识别、机器翻译到情感分析等，NLP正在改变我们与信息之间的互动方式。不过，当前主流的NLP研究通常是用高级编程语言（如Python、Ja
Groovy语言的漏洞扫描花韵婷包罗万象 golang 开发语言后端
Groovy语言漏洞扫描：深入分析与实践引言Groovy是一种基于Java虚拟机（JVM）的动态编程语言，它结合了Python、Ruby和Smalltalk等语言的特性，提供了简洁的语法和强大的功能。Groovy广泛应用于脚本编写、自动化测试、构建工具（如Gradle）以及Web开发等领域。然而，随着Groovy的广泛应用，其安全性问题也逐渐显现出来。本文将深入探讨Groovy语言中的常见漏洞类型
Julia语言的学习路线樟松包罗万象 golang 开发语言后端
Julia语言学习路线指南引言在编程语言层出不穷的今天，Julia作为一门新兴的高级编程语言，以其出色的性能和易用性逐渐获得了越来越多的关注。特别是在科学计算、数据分析和机器学习等领域，Julia的表现十分出色，成为研究人员和开发者的热门选择。本文将为希望学习Julia语言的读者提供一条详细的学习路线，包括基础知识、工具、库、项目和实践经验等，帮助大家有效地掌握这门语言。一、了解Julia语言在开
大模型的webui Zain Lau 人工智能 python 昇腾 Ascend 天数
exportXXX_LLM_C=~/xcore-llm/build/ReleaseexportCUDA_VISIBLE_DEVICES=2,3exportCUDACXX=/usr/local/cuda-12.3/bin/nvccnohup/usr/bin/python3/home/src/api_server/api_server.py--modelLLama2:7b-chat-hf_A800--
架构模式之黑板模式 weixin_30518397 c/c++游戏数据库
一、定义黑板模式是一种常用的架构模式，应用中的多种不同数据处理逻辑相互影响和协同来完成数据分析处理。黑板模式允许多个消息读写者同时存在，消息的生产者和消费者完全分开。这就像一个黑板，任何一个教授（消息的生产者）都可以在其上书写消息，任何一个学生（消息的消费者）都可以从黑板上读取消息，两者在空间和时间上可以解耦，并且互不干扰。这种模式对于没有确定解决方案策略的问题是有用的。二、模式组成黑板模式由3个
Tornado 初识 Wu_Candy Web服务器
一、什么是tornadoTornado是使用Python编写的一个强大的、可扩展的Web服务器。它在处理严峻的网络流量时表现得足够强健，但却在创建和编写时有着足够的轻量级，并能够被用在大量的应用和工具中。二、tornado有什么优势Tornado和现在的主流baiduWeb服务器框架（包括大多数Python的框架）有着明显的区别：它是非阻塞式服务器，而且速度相当快，得利于其非阻塞的方式和对epol
python高并发访问mysql_Python访问MySQL 阿廖林诺
Python访问数据库作为Python开发工程师，选择哪个数据库呢？当然是MySQL。因为MySQL不仅免费，普及率最高，出了错，可以很容易找到解决方法。而且，围绕MySQL有一大堆监控和运维的工具，安装和使用很方便。使用MySQLMySQL是Web世界中使用最广泛的数据库服务器。SQLite的特点是轻量级、可嵌入，但不能承受高并发访问，适合桌面和移动应用。而MySQL是为服务器端设计的数据库，能
Python 爬取大量数据如何并发抓取与性能优化 chusheng1840 Python 教程 python 性能优化开发语言
Python并发抓取与性能优化在进行网络爬虫开发时，爬取大量数据可能非常耗时。尤其是在处理许多网页或API请求时，逐个请求速度会非常慢。为了解决这个问题，我们可以通过并发抓取提高爬取效率。同时，通过性能优化来进一步减少耗时和资源占用，使爬虫更高效。本篇文章将带大家了解Python中常用的并发抓取方法，并介绍如何进行性能优化。1.并发抓取的基本概念并发抓取指的是同时发出多个请求的技术，而不是顺序地等
【机器学习】基于t-SNE数据可视化工程无水先生 AI原理和python实现人工智能综合人工智能算法
一、说明t-SNE(t-DistributedStochasticNeighborEmbedding)是一种常用的非线性降维技术。它可以将高维数据映射到一个低维空间（通常是2D或3D）来便于可视化。Scikit-learnAPI提供TSNE类，以使用T-SNE方法可视化数据。在本教程中，我们将简要学习如何在Python中使用TSNE拟合和可视化数据。二、t-SNE是个什么？2.1什么是t-SNE？
Conda报错解决：ProxyError: Conda cannot proceed due to an error in your proxy configuration. 三采 Linux Conda 代理
目录原因一：源配置有误原因二：代理配置有误原因三：路由配置有误在需要使用代理的服务器下，创建新conda环境时报错：condacreate-nopencompasspython=3.8/usr/lib/python3/dist-packages/requests/__init__.py:89:RequestsDependencyWarning:urllib3(1.26.9)orchardet(3.
基于asp.NET的病历管理系统 (源码+net+vue+部署文档+讲解等) qq_1406299528 计算机毕业设计 asp asp.net vue.js 后端
收藏关注不迷路！！文末获取源码+数据库感兴趣的可以先收藏起来，还有大家在毕设选题（免费咨询指导选题），项目以及论文编写等相关问题都可以给我留言咨询，希望帮助更多的人文章目录前言程序资料获取一、项目技术二、项目内容和功能介绍三、核心代码数据库参考四、效果图五、资料获取前言博主介绍：✨全网粉丝10W+,CSDN特邀作者、博客专家、CSDN新星计划导师，专注于Java/Python/小程序app/深度学
爬取电影标题、评论、评分（21-11-4）穆桥 Python爬虫 XPath解析 MySQL数据库电影信息疾病数据
功能描述：1、爬取网页1中的电影名称、评分、简介到mysql数据库中。2、爬取网页2中的标题、时间、正文、采集时间到mysql数据库中。使用的技术:requests请求、xpath解析、mysqlxpath解析语法//子孙节点/直接子节点.选取当前节点…选取当前节点的父节点@选取属性通过Python的lxml库，利用XPath进行HTML的解析。scrapy封装了lxml也可以导入scrapy任务
Python 爬虫实战：电影评论数据抓取与自然语言处理西攻城狮北 python 爬虫开发语言
引言作为一名对电影数据和自然语言处理感兴趣的内容创作者，我决定利用Python爬虫技术抓取IMDb上的电影评论数据，并进行自然语言处理分析。这不仅可以帮助我们了解观众对电影的反馈，还能为电影制作方提供有价值的参考。一、项目背景IMDb（互联网电影数据库）是全球最大的电影数据库，用户可以在上面查看电影信息和用户评论。本项目旨在爬取IMDb上的电影评论，并对评论进行自然语言处理（NLP），以提取情感、
linux（ubuntu）中Conda、CUDA安装Xinference报错ERROR: Failed to build (llama-cpp-python) 小胡说技书杂谈/设计模式/报错 Data/Python/大模型 linux ubuntu conda 大模型 python Xinference
文章目录一、常规办法二、继续三、继续四、缺少libgomp库（最终解决）在Conda环境中安装libgomp如果符合标题情况执行的：pipinstall"xinference[all]"大概率是最终解决的情况。一、常规办法llama-cpp-python依赖CMake、Make和g++来编译，所以可能是缺少依赖或者环境配置不对。按照以下步骤排查问题并解决：1.确保Python版本符合要求llama
基于Asp.net的汽车租赁管理系统计算机学姐 Asp精选实战项目源码 asp.net 汽车后端 mysql sqlserver vue.js c#
作者：计算机学姐开发技术：SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等，“文末源码”。专栏推荐：前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码精品专栏：Java精选实战项目源码、Python精选实战项目源码、大数据精选实战项目源码系统展示【2025最新】基于Asp.net的汽车租赁管理系统开发
使用yolo训练自己的模型数据遇到的问题次次皮 YOLO 深度学习人工智能
1、报错：NolabelsfoundinD:\xxx\valid\labels.cache查找网上的文章大多都是说文件目录没按规定创建，但我检查了我的目录没问题，后来发现是labels文件夹里的txt文件和images文件夹的图片没有一一对应，对应好之后问题解决2、解决完上个问题之后还是不报上面的错了但还是FatalPythonerror:Aborted；Restartingkernel...检查
Python——文件读取一颗小松松 python 开发语言
Python可以读取不同格式的文件，下面简单来介绍一下：1、使用read_excel或read_csv读取文件，若在路径前加r，使用“\”importpandasaspd#在路径前加r,使用“\”df=pd.read_excel(r'C:\Users\merit\Desktop\测试.xlsx')#导入.csv文件，以“，”为分隔符data=pd.read_csv(r'C:\Users\merit
给接口自动化测试框架增色，实现企业微信测试报告编程简单学软件测试 python python 单元测试压力测试 postman 功能测试
作者在新项目中搭建了python+requests+unittest+HTMLTestRunner接口自动化测试框架，通过修改配置文件实现环境隔离，一份脚本即可在不同的环境执行接口测试用例。但是没有实现任何形式的消息通知，也没有集成到jenkins，原因很简单，因为还没做到很大，而且用户活跃不够，问题也相对较少，只在上线前后执行一次uat和prod环境。那这几天想完善一下消息通知功能，让它具备发送
轻松管理CSV数据，Python csv库全解析嘎啦AGI实验室 Python python android 数据库 Python csv
文章目录轻松管理CSV数据，Pythoncsv库全解析背景介绍csv库是什么？如何安装csv库？五个简单的库函数使用方法1.读取CSV文件2.写入CSV文件3.使用DictReader读取CSV4.使用DictWriter写入CSV5.指定分隔符五个场景使用代码说明场景1：读取CSV并统计数据场景2：将查询结果写入CSV场景3：读取CSV并过滤数据场景4：读取CSV并排序数据场景5：读取CSV并合
#PyCharm 2024.1新增功能 Dingdangr pycharm ide python
PyCharm2024.1作为JetBrains专为Python开发者设计的集成开发环境（IDE）的最新版本，带来了众多令人兴奋的新增功能，旨在提升开发者的编程效率和体验。以下是对这些新增功能的详细解析：一、智能编码辅助HuggingFace模型和数据集文档预览PyCharm2024.1引入了HuggingFace模型和数据集的快速文档预览功能。开发者可以直接在PyCharm内部快速获取Huggi
2025年Python生态全景：从AI霸主到量子计算，揭秘其不可替代的技术魅力南玖yy python 人工智能量子计算
在2025年的技术浪潮中，Python凭借其极简的语法、庞大的生态系统以及跨领域融合能力，依然稳坐编程语言界的“头把交椅”。尽管Java等语言在AI领域发起挑战，但Python通过持续的技术革新和生态扩展，展现出不可撼动的生命力。本文将从技术趋势、行业应用与未来挑战三个维度，解析Python的“常青”密码。一、AI领域的持续主导：生态优势与工具革新Python在AI领域的统治地位仍未动摇。尽管有观
使用Python爬取豆瓣用户信息：从入门到实战 Python爬虫项目 2025年爬虫实战项目 python 开发语言人工智能爬虫大数据
引言豆瓣作为一个知名的社交平台，拥有丰富的用户信息。对于数据分析师、研究人员或普通用户来说，获取豆瓣用户信息具有重要的价值。本文将详细介绍如何使用Python及其相关库来爬取豆瓣用户信息，并展示如何利用最新的技术手段来实现这一目标。1.准备工作在开始编写爬虫之前，我们需要准备一些工具和环境：Python3.x：确保你已经安装了Python3.x版本。Requests库：用于发送HTTP请求。Bea
深入 Python 网络爬虫开发：从入门到实战南玖yy python python爬虫
一、为什么需要爬虫？在数据驱动的时代，网络爬虫是获取公开数据的重要工具。它可以帮助我们：监控电商价格变化抓取学术文献构建数据分析样本自动化信息收集二、基础环境搭建1.核心库安装pipinstallrequestsbeautifulsoup4lxmlseleniumscrapy2.开发工具推荐PyCharm（专业版）VSCode+Python扩展JupyterNotebook（适合调试）三、爬虫开发
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb