风度78

【Python】电商用户行为数据可视化分析实战

本文中，云朵君将和大家一起从多个角度使用多个可视化技术，根据各种因素跟踪客户在电子商务网站的花费时间。

关于数据集

数据集来自kaggle -- Machine Hack。

先进电子商务的用户数量激增，而包括买家浏览电子商务商店而花费大量时间等信息被，店主们还计划利用各种算法来吸引顾客，试图研究和利用顾客行为模式来增加营收。

跟踪客户活动也是了解客户行为并找出如何更好地为他们服务的好方法。机器学习和人工智能已经在设计各种推荐引擎方面发挥了重要作用，通过预测顾客的购买模式来吸引他们。

属性说明

session_id - 每行的唯一标识符
session_number - 会话类型标识符
client_agent - 客户端软件详细信息
device_details - 客户端设备详细信息
date - 会话的时间戳
purchased - 是否完成任何购买的二分类值
added_in_cart - 是否加入购物车的二分类值
checked_out - 是否成功结账离开的二分类值
time_spent - 以秒为单位的总时间 （目标列）

会话是指用户在一定的时间段内与您的网站进行的一组互动。例如，一次会话可以包含多个网页浏览、事件、社交互动和电子商务交易。

会话就相当于一个容器，其中包含了用户在网站上执行的操作。

加载必要的包

import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import matplotlib.colors as mcolors
import calplot

这里使用了常规的数据处理库，pandas、numpy、seabron、matplotlib，同时为了加强昨天介绍的日历热图，使用calplot库在实际问题中的应用。

导入训练集与测试集

train = pd.read_csv("../ParticipantData_BTPC/Train.csv")
test = pd.read_csv("../ParticipantData_BTPC/Test.csv")

查看训练集与测试集的数据结构

train.info()


RangeIndex: 5429 entries, 0 to 5428
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   session_id      5429 non-null   object 
 1   session_number  5429 non-null   int64  
 2   client_agent    5269 non-null   object 
 3   device_details  5429 non-null   object 
 4   date            5429 non-null   object 
 5   purchased       5429 non-null   int64  
 6   added_in_cart   5429 non-null   int64  
 7   checked_out     5429 non-null   int64  
 8   time_spent      5429 non-null   float64
dtypes: float64(1), int64(4), object(4)
memory usage: 297.0+ KB

test.info()


RangeIndex: 2327 entries, 0 to 2326
Data columns (total 8 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   session_id      2327 non-null   object
 1   session_number  2327 non-null   int64 
 2   client_agent    2268 non-null   object
 3   device_details  2327 non-null   object
 4   date            2327 non-null   object
 5   purchased       2327 non-null   int64 
 6   added_in_cart   2327 non-null   int64 
 7   checked_out     2327 non-null   int64 
dtypes: int64(4), object(4)
memory usage: 109.1+ KB

查看训练集与测试集部分样本

train.head()

test.head()

探索性数据分析

目标变量(time_spent)

首先查看目标变量的分布状况。

plt.figure(figsize=(10,8))
sns.despine(left=True, bottom=True)
sns.set_theme(style="ticks")
sns.set(font_scale=1.4)
ax=sns.histplot(train["time_spent"],
                log_scale=10,
                kde=True,
                color="green")
plt.title("Time Spent distribution")
ax.set(ylabel='')
ax.set(xticklabels='')
ax.set(yticklabels="")

上面目标变量所花的时间分布是高度右偏的。值得注意的是，为了更好的可视化，绘图时使用了log刻度。

使用箱限图查看目标变量分布

sns.boxplot(data=train, 
            x="time_spent",
            color="green")

从上面箱限图中显示，在 Quartile-3 之上有许多离散异常点。如果在后续分析中，需要额外注意。

目标变量的描述性统计

train["time_spent"].describe()

count     5429.000000
mean       663.194292
std       1713.671664
min         14.400000
25%         22.699000
50%         98.312000
75%        600.463000
max      38494.025000
Name: time_spent, dtype: float64

会话类型(session_number)

会话类型描述性统计

train["session_number"].describe()

count    5429.000000
mean     1072.835329
std      1436.351474
min        11.000000
25%       121.000000
50%       517.000000
75%      1397.000000
max      7722.000000
Name: session_number, dtype: float64

直方图看会话类型的分布

sns.histplot(train["session_number"])

全年中具有最多前10的会话类型

train["session_number"].value_counts().head(10)

11     437
22     192
33     132
44     101
55      93
66      92
77      79
110     73
88      70
99      66
Name: session_number, dtype: int64

客户端信息(device_details)

访问网站的都有哪些设备和应用程序

sns.countplot(y="device_details",
             data=train,
             order= train["device_details"].value_counts().index)

train["device_details"].value_counts()

iPhone - iOS                  1515
Desktop - Chrome               815
iPhone - Web                   665
Android Phone - Android        326
Desktop - Safari               313
Desktop - IE                   292
iPad - Web                     289
iPhone - MobileWeb             277
Desktop - Firefox              234
Android Tablet - Web           203
Other - Other                  185
Unknown - MobileWeb             87
Android Phone - Web             86
iPad - iOS                      77
Android Phone - MobileWeb       54
Android Tablet - Android         9
Android Tablet - MobileWeb       2
Name: device_details, dtype: int64

上面的图表显示，iphone用户占据大多数。

客户在网站上时长与不同设备之间的关系

device_timespent = sns.violinplot(
    data=train, inner="point",
    y="device_details", 
    x="time_spent",scale="width")

小提琴图清晰展示了使用苹果设备的用户花在网站上的时间比其他人更多。

会话的时间(date)

date属性是日期格式，所以需要将日期分成日、月、年，探索客户在网站上花的时长是如何随着时间变化的。

日期格式转换

在拆分日期之前，应使用pandas.to_datetime()函数将日期转换为datetime格式。

train['date'] = pd.to_datetime(
    train['date'], errors='coerce')

拆分年月日

train['day'] = train['date'].dt.day
train['day_label'] = train['date'].dt.day_name()
train['day_number'] = train['date'].dt.dayofweek
train['month_number'] = train['date'].dt.month
train['month_label'] = train['date'].dt.strftime('%b')
train['year_quarter'] = train['date'].dt.quarter
train['week_of_year'] = train['date'].dt.week
train['year'] = train['date'].dt.year
train.head(2)

重新排列年月日列

train=train.iloc[:,np.r_[0:5,9:17,5:9]]
train.head(2)

min(train["date"]),max(train["date"])

(Timestamp('2019-05-06 00:00:00'),
 Timestamp('2020-04-23 00:00:00'))

从2019年5月6日到2020年4月23日在网站上花费的时间可视化

time_spent_year = sns.lineplot(
              x="date",
              y="time_spent",
             data=train)

有图可知，2019年7月和9月是客户花费时间最多的月份。

2019年和2020年每个月客户在网站上花费的时间总和

在2019年，只有5月至12月的记录。
在2020年，只有1月到4月的记录。

创建按年月统计的时间花费数据框架，并使用使用折线图可视化其变化趋势。

month_year_spent = train.groupby(
                ["year","month_label",'month_number']
                ).agg({'time_spent':["sum"]})
month_year_spent.columns = ['time_spent']
month_year_spent= month_year_spent.reset_index()
month_year_spent=month_year_spent.sort_values("month_number", ascending=True)
month_year_spent

time_spent_year = sns.FacetGrid(month_year_spent,
                                despine=True, row="year",
                                hue="year",sharey=True, 
                                sharex=False, height=15,
                                aspect = 2)
time_spent_year.map(sns.lineplot,
                    "month_label",
                    "time_spent",
                    linewidth = 6,sort=True)

上图显示，2019年9月是该网站客户活跃度最高的月份。

在2020年，最高的客户活动记录出现在1月和2月。2月份以后，顾客活动逐渐减少。

在2019年和2020年内哪一周的客户活动记录最高

week_year_spent = train.groupby(["year",'week_of_year']
                               ).agg({'time_spent':["sum"]})
week_year_spent.columns = ['time_spent']
week_year_spent= week_year_spent.reset_index()
week_year_spent=week_year_spent.sort_values("week_of_year", ascending=True)
week_year_spent.head()

plt.figure(figsize=(15,10))
time_spent_week_year = sns.FacetGrid(week_year_spent,
                                     despine=True,
                                     row="year", hue="year",
                                     sharey=True, sharex=False, 
                                     height=15, aspect = 2)
time_spent_week_year.map(sns.lineplot,
                         "week_of_year",
                         "time_spent",
                         linewidth = 6)
time_spent_week_year.set(xticks=(np.arange(1,52,3)))

上图显示，在2019年，客户活动量最高记录在37周。2020年，第2周、第4周、第5周的客户活跃度最高。

在2019年和2020年的每个月，每周的哪一天客户活动最多

day_week_spent = train.groupby(["year",'month_label','month_number','day_number','day_label']
                              ).agg({'time_spent':["sum"]})
day_week_spent.columns = ['time_spent']
day_week_spent= day_week_spent.reset_index()
day_week_spent=day_week_spent.sort_values(["month_number","day_number"]
                                          , ascending=True)
day_week_spent

time_spent_dayweek = sns.FacetGrid(day_week_spent,
                                   despine=True,
                                   row="year", 
                                   hue="day_label",
                                   sharey=True, 
                                   sharex=False, 
                                   height=15, 
                                   aspect = 2)
time_spent_dayweek.map(sns.lineplot,"month_label",
                       "time_spent",linewidth = 6
                      ).set(yscale = 'log')
time_spent_dayweek.add_legend()

上图显示，在2019年，9月每周的每一天都有最高的客户活动量记录。在2020年，4月周六的客户活动记录最低，2月周日的客户活动记录最高。

一年中哪个季度的客户活动记录最高

quart_year_spent = train.groupby(["year",'year_quarter']
                                ).agg({'time_spent':["sum"]})
quart_year_spent.columns = ['time_spent']
quart_year_spent= quart_year_spent.reset_index()
quart_year_spent=quart_year_spent.sort_values(
            "year_quarter", ascending=True)
quart_year_spent

quarter_spent = sns.FacetGrid(quart_year_spent,
                              despine=True, row="year", 
                              hue="year",sharey=True,
                              sharex=False, height=15, aspect = 2)
quarter_spent.map(sns.lineplot,
                 "year_quarter",
                 "time_spent",
                 linewidth = 6
                 ).set(yscale = 'log')
quarter_spent.set(xticks=(np.arange(1,4,1)))

上图中说明，2019年第三季度客户活动有所增加。2020年，第二季度的客户网站活动比2019年第二季度最低。

创建一个日历图，看看客户在网站上花了多长时间。

events = pd.Series(train["time_spent"].values, index=train["date"])
events

date
2020-01-22     236.886
2020-02-27    1277.455
2019-08-01      21.704
2019-12-30     455.201
2019-09-10    1164.877
                ...   
Length: 5429, dtype: float64

通过日历图来看看客户在网站上花费的时间

cal_plot=calplot.calplot(events,edgecolor="red",
                         yearcolor="black",
                         cmap='twilight',
                         linewidth=5,
                         yearlabel_kws = {"fontsize":"medium"},
                         figsize=(40,20))

消费行为

与消费行为相关的三个属性，purchase、added_in_cart和checked_out，结下来探索这三个非重复排列组合，一共有多少组情况。

train.groupby(["purchased",
               "added_in_cart",
               "checked_out"], 
               as_index=False).size()

从结果看，一共有8种不同的组合。

根据组合创建一个category列

conditions= [(train["purchased"]==0) & (train["added_in_cart"]==0) &(train["checked_out"]==0),
           (train["purchased"]==0) & (train["added_in_cart"]==0) &(train["checked_out"]==1),
           (train["purchased"]==0) & (train["added_in_cart"]==1) &(train["checked_out"]==0),
           (train["purchased"]==0) & (train["added_in_cart"]==1) &(train["checked_out"]==1),
           (train["purchased"]==1) & (train["added_in_cart"]==0) &(train["checked_out"]==0),
           (train["purchased"]==1) & (train["added_in_cart"]==0) &(train["checked_out"]==1),
           (train["purchased"]==1) & (train["added_in_cart"]==1) &(train["checked_out"]==0),
           (train["purchased"]==1) & (train["added_in_cart"]==1) &(train["checked_out"]==1)]

values = ['no_activity', 'chk', 'add', 'add_chk','purc','purc_chk','purc_add','purc_add_chk']

使用numpy选择函数创建一个类别列

train['customer_activity'] = np.select(conditions, values)

客户行为分类

客户的活动在网站上是如何分类的

cust_activity = sns.countplot(y="customer_activity",
             data=train,
             order= train["customer_activity"].value_counts().index)

train['customer_activity'].value_counts()

no_activity     3847
add              682
purc             679
purc_add         126
purc_add_chk      47
add_chk           25
purc_chk          12
chk               11
Name: customer_activity, dtype: int64

上述结果说明，大多数客户只是浏览网站，并无实际消费行为。

客户在网站上花的时间，及其在各种活动中的变化

device_timespent = sns.violinplot(
    data=train, inner="point",
    y="customer_activity",
    x="time_spent",scale="width"
)

上面的情节解释了客户花费更多的时间仅仅是为了将产品添加到他们的购物车中，仅仅是为了访问站点。

客户的活动是如何随时间变化的

cust_activity_my=train.groupby(["year",'month_number','month_label','customer_activity']).agg({'customer_activity':['count']})
cust_activity_my.columns = ['activity_count']
cust_activity_my= cust_activity_my.reset_index()
cust_activity_my=cust_activity_my.sort_values("month_number", ascending=True)
cust_activity_my

cust_activity_my_plot = sns.FacetGrid(cust_activity_my, despine=True, 
                                      row="year", hue="customer_activity",
                                      sharey=True, sharex=False, 
                                      height=15, aspect = 2)

cust_activity_my_plot.map(
             sns.lineplot,
            "month_label",
            "activity_count",
            linewidth = 6)
cust_activity_my_plot.add_legend()

此前曾看到，客户活动最高的是2019年9月。他们中的大多数人只是访问网站。2020年的1月和2月也是如此。

2020年4月，各类客户活动数量下降至100以下。

客户端设备信息(device_details)

各种客户端设备上的客户活动

cust_activity_device=train.groupby(['device_details','customer_activity']).agg({'customer_activity':['count']})
cust_activity_device.columns = ['activity_count']
cust_activity_device= cust_activity_device.reset_index()
cust_activity_device=cust_activity_device.sort_values("activity_count", ascending=False)
cust_activity_device

cust_activity_dev = sns.FacetGrid(
            cust_activity_device,
            despine=True, 
            col="customer_activity", 
            hue="customer_activity",
            sharey=False, sharex=False,
            height=15, col_wrap = 2)
cust_activity_dev.map(sns.barplot,
          "activity_count",
          "device_details")

上面的图表说明购买最多的是iPhone用户。

写在最后

至此，本次数据可视化分析也告一段落，对于本次数据集，当然还有很多工作可以做，如对用户花费时间进行时间序列分析和预测等。

往期精彩回顾




适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》（黄海广主讲）机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑
AI基础下载机器学习交流qq群955171419，加入微信群请扫码：

你可能感兴趣的:(可视化,人工智能,大数据,python,机器学习)

人工智能机器学习算法分类全解析 power-辰南人工智能人工智能机器学习算法 python
目录一、引言二、机器学习算法分类概述（一）基于学习方式的分类1.监督学习（SupervisedLearning）2.无监督学习（UnsupervisedLearning）3.强化学习（ReinforcementLearning）（二）基于任务类型的分类1.分类算法2.回归算法3.聚类算法4.降维算法5.生成算法（三）基于模型结构的分类1.线性模型2.非线性模型3.基于树的模型4.基于神经网络的模型
Java 大视界 -- 基于 Java 的大数据可视化交互设计与实现技巧（105）青云交大数据新视界 Java 大视界 java 信息可视化可视化交互 ECharts Three.js 实时渲染 AR 可视化
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Java 大视界 -- Java 大数据中的时间序列数据异常检测算法对比与实践（103）青云交大数据新视界 Java 大视界 java 大数据算法时间序列分析异常检测孤立森林 LSTM
亲爱的朋友们，热烈欢迎来到青云交的博客！能与诸位在此相逢，我倍感荣幸。在这飞速更迭的时代，我们都渴望一方心灵净土，而我的博客正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识，也期待你毫无保留地分享独特见解，愿我们于此携手成长，共赴新程！一、欢迎加入【福利社群】点击快速加入：青云交灵犀技韵交响盛汇福利社群点击快速加入2：2024CSDN博客之星创作交流营（NEW)二、本博客的精华专栏：大数据新视
Grok 3横空出世：马斯克的“AI霸权”与人类认知的终极博弈 NMGWAP 人工智能
2025年2月，马斯克旗下xAI公司发布新一代人工智能Grok3，其应用上线48小时即登顶苹果美区免费榜，用户日均对话量突破1.2亿次。这款参数规模达3万亿的超级模型，不仅性能全面对标OpenAI的GPT-5，更通过深度绑定特斯拉汽车、星链终端和X平台社交数据，构建起人类史上首个“全场景认知网络”。当马斯克在发布会上宣称“Grok3将重新定义人类思考方式”时，一场关于意识主权的隐秘战争已然打响。一
最近学习感悟总结格蕾丝重度依赖学习
图像识别技术与应用学习到了torchvision、imageFolder以及可视化工具（TensorBoard等）图像分类：将不同的图像，划分到不同的类别标签，实现最小的分类误差。图像分类的三层境界通用的多类别图像分类子类细粒度图像分类实例级图像分类图像分类评估指标--混淆矩阵（精确率；准确率；召回率；F1_Score；P-R曲线）模型基本概念-网络的深度（网络的深度；网络的宽度）图像分类中
实施一套先进的智能摄像头服务系统。合方圆～小文 4G低功耗模块 A-I智能人工智能硬件工程大数据
一、项目背景随着物联网、人工智能和大数据技术的飞速发展，智能摄像头已成为家庭、企业以及公共安全领域的重要设备。其便捷、高效、智能的特点，使得市场需求日益增长。为了满足用户对智能监控的多样化需求，提供更加全面、可靠的监控服务，本方案旨在设计并实施一套先进的智能摄像头服务系统。二、项目目标提高监控效率：通过智能摄像头，实现实时视频监控，减少人力成本，提高监控响应速度。提升安全性：集成实时报警功能，及时
AI Agent 分类详解：从反射 Agent 到学习型 Agent 的演进紫雾凌寒 AI 炼金厂 #深度学习 #AI Agent 人工智能 Agent agent 智能体分类机器学习 manus
一、引言：AIAgent，智能时代的新宠儿在当今科技飞速发展的时代，人工智能（AI）已成为推动各行业变革的核心力量。而AIAgent，作为人工智能领域的关键概念，正逐渐崭露头角，成为学术界和工业界共同关注的焦点。从智能家居中的智能助手，到复杂工业流程中的自动化控制系统，AIAgent的身影无处不在，它正以其独特的智能决策和自主行动能力，为我们的生活和工作带来前所未有的便利和效率提升。随着AI技术的
项目工坊 | Python驱动淘宝信息爬虫慕丹 python 爬虫 selenium
目录前言1完整代码2代码解读2.1导入模块2.2定义TaoBao类2.3search_infor_price_from_web方法2.3.1获取下载路径2.3.2设置浏览器选项2.3.3反爬虫处理2.3.4启动浏览器2.3.5修改浏览器属性2.3.6设置下载行为2.3.7打开淘宝登录页面2.3.8登录淘宝2.3.9搜索商品并提取信息2.3.10提取商品信息3.11保存数据到Excel2.4执行脚本
00_01 python机器学习_环境搭建辛　欣机器学习 python sklearn
机器学习环境的搭建Windows+Python3Python3下载地址python环境设置安装尽量安装在自定义目录下,方便查找,其他选项都用默认值就行.安装成功后,cmd里输入python校验.下载用于机器学习的虚拟环境的包>python-mpipvirtualenv初始化虚拟环境#进入到自定义要保存环境的位置>cdxxxxxx#.venv是新创建的用于存放机器学习必要包的文件夹,名字可以随意起,
Python自定义鼠标指针工具(支持像素级编辑) 木木黄木木 python 计算机外设开发语言
Python自定义鼠标指针工具(支持像素级编辑)项目简介这是一个基于Python的鼠标指针自定义工具,可以让用户自由创建、编辑和设置Windows系统的鼠标指针。该工具提供了像素级编辑功能,支持多种绘图工具,并且可以直接将设计好的指针应用到系统中。主要功能像素级编辑器支持16x16到64x64多种尺寸铅笔、橡皮擦工具直线、矩形、圆形等几何图形工具填充/空心图形选择取色器功能热点设置可视化热点标记精
如何在Windows 10上安装Python？字节王德发 python windows python 开发语言
在今天的数字时代，Python已经成为了一个非常流行的编程语言。无论你是想做数据分析、网页开发，还是人工智能，Python都能满足你的需求。如果你使用的是Windows10系统，安装Python其实并不复杂。下面就让我带你一步一步走过这个过程，确保你可以顺利地在你的电脑上运行Python。1.准备工作在开始之前，确保你的Windows10系统已经更新到最新版本。打开“设置”，选择“更新与安全”，然
Dash-FastAPI-Admin 技术文档钟音洋Winona
Dash-FastAPI-Admin技术文档Dash-FastAPI-AdminAgeneralmiddleandbackendmanagementsystemdevelopedpurelyinPythonbasedonDash+FastAPI.基于Dash+FastAPI纯Python开发的一个通用中后台管理系统。项目地址:https://gitcode.com/gh_mirrors/da/Da
AttributeError: ‘NoneType‘ object has no attribute ‘astype‘ 冰虺 python
今天在复现fasterRCNN网络时，出现AttributeError:'NoneType'objecthasnoattribute'astype'报错，如下图所示通过dug,发现im的shape为none,究其原因是因为cv.imread无法读取图像，主要原因是因为我数据集中存在中文名称。更加详细的请参考一下大佬的博客pythoncv2.imread读取中文路径的图片返回为None的问题_陶将的
展开说说：Android之View基础知识解析老梁学Android&HarmonyOS #View android
View虽不属于Android四代组件，但应用程度却非常非常广泛。在Android客户端，君所见之处皆是View。我们看到的Button、ImageView、TextView等等可视化的控件都是View，ViewGroup是View的子类因此它也是View。但是现在我们把View和ViewGroup当成两个类来看待，ViewGroup可以容纳View和ViewGroup，但View不可以再容纳其他
机器学习入门指南：从 TensorFlow 到 PyTorch 6v6-博客机器学习 tensorflow pytorch
机器学习入门指南：从TensorFlow到PyTorch机器学习（MachineLearning）是人工智能的核心领域之一，近年来在图像识别、自然语言处理、推荐系统等领域取得了巨大进展。本文将从基础概念入手，介绍机器学习的核心知识，并带你快速上手两大主流框架：TensorFlow和PyTorch。机器学习基础什么是机器学习？机器学习是一种通过数据训练模型，使计算机能够自动学习和改进的技术。它主要分
一个神奇 Python 库，PyPDF2帮你在工作中轻松驾驭PDF 代码小念软件测试面试自动化测试 python pdf 职场和发展软件测试面试
大家好，很多人学习Python进行办公自动化，其中一个场景就是处理PDF，PyPDF2是一个非常强大的Python库，它允许你管理和操作PDF文件。不论是分割、合并、旋转还是加密PDF，PyPDF2都能轻松应对。PyPDF2是一个纯Python编写的库，用于读取PDF文件和操作PDF页面。它允许你进行以下操作：•读取PDF:使用PyPDF2读取PDF文件非常简单。首先需要导入库，然后加载PDF文件
如何利用PyPDF2库轻松提取PDF中的文本？字节王德发 python pdf
在数字化时代，PDF格式的文件随处可见。从电子书到官方文档，PDF是我们经常遇到的一种文件格式。不过，有时候我们需要从这些PDF里提取文本，这就需要一些工具来帮忙了！今天我们就来聊聊Python的一个强大工具——PyPDF2库，它能让我们轻松实现PDF文本提取。PyPDF2库的简介PyPDF2是一个开源的Python库，主要用于处理PDF文件。这个库支持多种操作，包括合并、拆分、加密和解密PDF文
使用MySQL Yum 源在Linux上安装MySQL Run Out Of Brain mysql linux 数据库
OracleLinux、RedHatEnterpriseLinux、CentOS和Fedora的MySQLYum源提供了RPM安装包，用于安装MySQL服务器、客户端、MySQLWorkbench、MySQL实用程序、MySQL路由器、MySQLShell、连接器/ODBC、连接器/Python等在你开始之前作为一种流行的开源软件，MySQL以其原始或重新打包的形式被广泛安装在来自各种来源的许多系
python中的Counter函数算法小菜鸟moon python python 开发语言
在Python中，Counter是collections模块中的一个类，用于统计可迭代对象中元素的出现次数，并以字典的形式返回，键为元素，值为对应的计数。它非常适合处理频率统计问题。用之前必须先导入fromcollectionsimportCounter统计元素的频率ss="helloworld"ss_counter=Counter(ss)print(ss_counter)Counter({'l'
测试江湖：为什么大多数人宁愿吃生活的苦，也不愿意吃学习的苦爱吃香菜软件测试自动化测试职场经验学习软件测试自动化测试测试工具职场经验程序员功能测试
面试求职：「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）职场经验干货：软件测试工程师简历上如何编写个人信息（一周8个面试）软件测试工程师简历上如何编写专业技能（一周8个面试）软件测
Python--类墨上烟雨 Python python 开发语言
Python--类一、类的定义方法二、创建类的实例三、创建类的成员1、创建属性创建类属性创建实例属性2、创建方法实例方法类方法四、类成员的访问权限1、保护属性成员2、私有属性成员五、装饰器一、类的定义方法在Python中，类可以通过关键字class来定义。类的定义包含在一个代码块中，并且通常以冒号:结尾。类的定义方法有以下几种：1.空类定义：classMyClass:pass这是一个最简单的类定义
【Steg】CTF 隐写术题目解题思路图 D-river CTF 安全网络安全
以下是专门针对CTF隐写术（Steganography）的解题思路与步骤树形图，包含常见分类、工具链和关键方法：CTF隐写术题目解题思路图隐写术（Steganography）├──1.图片隐写（ImageSteg）│├──1.1LSB隐写（最低有效位）││├──步骤：StegSolve逐通道分析，提取LSB数据。││└──工具：StegSolve、zsteg、PythonPIL库。│││├──1.
python中Counter的用法 V.E. python
Python中，Counter是一个字典子类，用于计算可哈希对象（如列表、元组、字符串）中元素的出现次数。Counter可以用于快速计数元素，而不需要手动循环计算。以下是一些Counter的用法：导入Counter：fromcollectionsimportCountermy_list=[1,2,3,2,4,3,1,2,2]my_counter=Counter(my_list)访问Counter对
Python精进系列：ord 函数进一步有进一步的欢喜 python 开发语言
目录一、引言二、基本概念2.1Unicode编码简介2.2ord函数定义三、使用示例3.1处理ASCII字符3.2处理非ASCII字符四、与chr函数的关系五、实际应用场景5.1字符排序5.2简单加密算法5.3字符验证六、注意事项6.1输入参数要求6.2跨平台兼容性七、总结一、引言在Python编程里，字符和编码的处理是常见的操作。ord函数作为Python内置函数之一，在字符和Unicode编码
Python精进系列：divmod 函数进一步有进一步的欢喜 python
目录一、引言二、基本语法与原理2.1语法格式2.2返回值2.3原理理解三、使用示例3.1整数运算示例3.2浮点数运算示例四、应用场景4.1时间单位转换4.2数据分组4.3循环计数与位置计算五、注意事项5.1除数不能为零5.2浮点数运算的精度问题六、总结一、引言divmod()函数就是其中一个小巧而强大的工具，它能同时进行除法运算并返回商和余数，在很多场景下都能大显身手。本文将对divmod()函数
如何本地运行和开发 Langchain 项目 dgay_hua langchain python
在这篇指南中，我们将详细讲解如何在本地运行Langchain仓库，并提交您的第一个代码变更。如果您希望在开发容器中操作，可参考.devcontainer文件夹中的指南。技术背景介绍Langchain项目是一个高级框架，围绕构建“链”这种概念来组织代码。每个链的基本构件是微型逻辑单元，它们彼此结合，并可通过可编辑的配置文件进行管理。这个项目依托于Python生态，利用了Poetry作为其依赖管理工具
Python 基础：类诸葛思颖 python python 开发语言
目录一、类的概念二、定义类三、创建对象并进行访问四、修改属性的值方法一：句点表示法直接访问并修改方法二：通过方法进行修改五、继承继承父类属性和方法重写父类方法六、将实例用作属性七、导入类导入单个类从一个模块中导入多个类导入整个模块导入模块中的所有类八、一些代码编写规范遇到看不明白的地方，欢迎在评论中留言呐，一起讨论，一起进步！本文参考：《Python编程：从入门到实践（第2版）》一、类的概念类是是
‌Visual Studio Code（VS Code）支持的编程语言计算机辅助工程 vscode
‌JavaScript‌：VSCode原生支持JavaScript，提供语法高亮、代码折叠、自动补全等功能。推荐使用ESLint和Prettier进行代码格式化和错误检查‌。‌TypeScript‌：作为JavaScript的超集，TypeScript在VSCode中也得到原生支持，提供类似的编辑功能‌。‌Python‌：通过安装Python扩展，VSCode支持Python编程，提供调试、Int
Python精进系列：Counter 函数进一步有进一步的欢喜 python 编程语言
目录一、Counter函数概述二、基本使用案例（一）列表元素计数（二）字符串字符计数（三）元组计数三、Counter对象的常用方法（一）most_common()方法（二）update()方法（三）subtract()方法（四）elements()方法四、Counter对象的数学运算（一）加法运算（二）减法运算（三）交集运算（四）并集运算五、实际应用场景（一）文本分析（二）数据分析（三）游戏开发应
RK3568笔记六十八：Yolov11目标检测部署测试殷忆枫 RK3568学习笔记笔记 YOLO
若该文为原创文章，转载请注明原文出处。看到yolov11出了，山水无移大佬测试通过，跟个风测试一下效果。使用的是正点原子的ATK-DLRK3568开发板。这里不训练自己的模型了，使用官方模型测试。一、环境搭建1、下载源码ultralytics/ultralytics:UltralyticsYOLO112、创建虚拟环境condacreate-nyolov11_envpython=3.83、激活con
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p