电商数据girl

实战 | 某电商平台类目SKU数获取与可视化展示

一、项目背景

最近又及年底，各类分析与规划报告纷至沓来，于是接到了公司平台类目商品增长方向的分析需求，其中需要结合外部电商平台做对比。我选择了国内某电商平台作为比较对象，通过获取最细层级前台类目下的SKU数以及结构占比，找出差异和可提升方向。

我的初步思路是：通过爬虫获取类目名称和链接——>获取SKU数——>可视化展现。

由于这个项目并不需要对商品信息和用户评论信息进行获取，难度比较低，不会遇到强力的反爬机制，因此可以用来日常练手，尤其是对于我这种退出爬虫界很久的同学来说是比较友好，毕竟谁都不想去踩缝纫机对不对（手动狗头）。

二、实现过程

（一）三层级类目及链接获取

下图是该电商平台前台展示的三层级类目。

1. 通过 f12 进入 JS 抓包

可以找到类目的真实地址：「https://dc.3.cn/category/get」，幸运的是返回的数据是 JSON 格式的，这样处理起来就简单了。

2. 通过观察返回的数据，可以发现一定的规律。

写爬虫就是这样，不断地找规律，仔细核对返回的数据，斗智斗勇的同时会觉得很有挑战乐趣，但也会觉得挺麻烦的。

分类信息格式
- 格式1:
  - - 1318-2628-12131|户外风衣||0
    - 对应URL: https://list.jd.com/list.html?cat=1318,2628,12131
    - 特点: 第一项为分类ID, 包含两个 -
- 格式2:
  - 652-654|摄影摄像||0
  - 对应的URL: https://channel.jd.com/652-654.html
  - 特点:第一项是频道ID, 包含一个 -
- 格式3:
  - jiadian.jd.com|家用电器||0
  - 特点: 第一项分类URL,第二项分类名称

3. 代码实现

import requests
import json
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

headers={
        'Content-Type':'application/json',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        }

url = 'https://dc.3.cn/category/get'
res = requests.get(url,headers=headers)
# 把传递过来的信息GBK进行解码
res.encoding='GBK'
json_data=json.loads(res.text)
# 取出"data" 键中分类列表
categorys = json_data['data']


def get_category_item(category_info):
    # 使用 `|` 分割类型信息字符串
    categorys =   category_info.split('|')
    # 类别的名称
    category_name = categorys[1]
    # 类别的URL
    category_url = categorys[0]
    # 获取 category_url 中 `-` 个数
    count = category_url.count('-')

    if category_url.count('xx.com') != 0:
        # 其他就是本身就是URL, 前面补一个协议头
        category_url = 'https://' + category_url
    elif count == 1:
        # 如果包含一个 '-' 是二级分类的频道
        category_url = 'https://channel.xx.com/{}.html'.format(category_url)
    else:
        # 如果包含2个 '-' 是三级分类的列表
        # 1. 把 `-` 替换为 ','
        category_url = category_url.replace('-', ',')
        # 2. 生成具体列表的URL
        category_url = 'https://list.xx.com/list.html?cat={}'.format(category_url)
    return category_name, category_url


result = pd.DataFrame()
df = dict()
# 遍历分类列表
for category in categorys:
    # 获取大分类,包含子分类; 注: 第一层的分类都在在0索引上;
    b_category = category['s'][0]
    # 获取大分类信息(分类URL,名称)
    b_category_info =  b_category['n']
    # 解析大分类信息, 获取大分类名称和URL
    df['大分类名'], df['大分类链接'] = get_category_item(b_category_info)

    # 获取中分类列表
    m_category_s =  b_category['s']

    # 遍历第二层分类列表
    for m_category in m_category_s:
        # 获取中分类信息
        m_category_info = m_category['n']
        df['中分类名'], df['中分类链接'] = get_category_item(m_category_info)
        # 获取小分类列表
        s_category_s = m_category['s']
        # 遍历小分类分类列表
        for s_category in s_category_s:
            # 获取第三层分类名称
            s_category_info = s_category['n']
            # 获取三级分类信息
            df['小分类名'], df['小分类链接'] = get_category_item(s_category_info)
            print('{} 已爬取……'.format(df['小分类名']))
            table = pd.DataFrame.from_dict(df,orient='index').T
            result = pd.concat([result, table])
result.to_excel('./2. 输出类目表.xlsx',sheet_name='result',index=False)
print('爬取成功！！')

（二）小分类下SKU数获取

进入任一级页面，这个平台非常人性化，已经把大致的SKU数放在了页面上，只要通过 xpath 就能直接提取的到啦，轻松写意，直接放代码吧。

import requests
from lxml import etree
import pandas as pd
import time
from alive_progress import alive_bar
import warnings
warnings.filterwarnings('ignore')

headers={
        'Content-Type':'application/json',
        'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
        }

df = pd.read_excel('./2. 输出类目表.xlsx',sheet_name='result')
datas=[]
urls = df['小分类链接']
with alive_bar(len(urls)) as bar:   
    for url in urls:
        res = requests.get(url,headers=headers).text
        selector = etree.HTML(res)
        try:
            sku_count = selector.xpath('//*[@id="J_resCount"]/text()')[0]
        except IndexError:
            sku_count = '异常'
        data = {
                'url':url,
                'sku_count': sku_count.strip()
                }
        
        with open('SKU.txt','a') as f:
            f.write(str(data))
            
        datas.append(data)
        print(data)
    
df_SKU = pd.DataFrame(datas)
df_result = pd.merge(df,df_SKU,left_on='小分类链接',right_on='url',how='inner')
df_result.to_excel('./4. 输出类目SKU原始数据.xlsx',sheet_name='result',index=False)
print('SKU数 爬取完成！！')

（三）数据清洗

数据拼接完成后，需要对SKU数字段做一些处理。

爬取后原始格式
- 格式1:
  - 以“万”为结尾
  - 需要在原始数据上，去除“+”符号，乘以 10000
- 格式2:
  - 小分类页面不是商品页，而是返回广告页，没有提供商品SKU数
  - 处理成 0
- 格式3:
  - 正常数据
  - 需要在原始数据上，去除“+”符号

import pandas as pd
import xlwings as xw
import warnings
warnings.filterwarnings('ignore')

df = pd.read_excel('./4. 输出类目SKU原始数据.xlsx',sheet_name='result')

def transform(a,b):
    if a == '万':
        return float(b) * 10000
    elif a == '异常':
        return 0
    else:
        return float(b)

df['基数'] = df['SKU数'].str.findall('[0-9.]').str.join('')
df['单位'] = df['SKU数'].str.findall('[\u4e00-\u9fa5 ；()]').str.join('')
df['转换后SKU数'] = df.apply(lambda x :transform(x['单位'],x['基数']), axis=1)
df = df[['大分类名', '大分类链接', '中分类名', '中分类链接', '小分类名', '小分类链接','转换后SKU数']]
df.to_excel('./6. 输出类目SKU转换后数据.xlsx',sheet_name='result',index=False)

app = xw.App(visible=False,add_book=False)
workbook = app.books.open('./6. 输出类目SKU转换后数据.xlsx')

for i in workbook.sheets:
    value = i.range('A1').expand() # 选择要调整的区域
    value.rows.autofit() # 调整列宽字符宽度
    value.columns.autofit()  # 调整行高字符宽度
    value.api.Font.Name = '微软雅黑' # 设置字体
    value.api.Font.Size = 9 # 设置字号大小（磅数）
    value.api.VerticalAlignment = xw.constants.VAlign.xlVAlignCenter # 设置垂直居中
    value.api.HorizontalAlignment = xw.constants.HAlign.xlHAlignCenter # 设置水平居中
    for cell in value:
        for b in range(7,12):
            cell.api.Borders(b).LineStyle = 1 # 设置单元格边框线型
            cell.api.Borders(b).Weight = 2 # 设置单元格边框粗细
    value = i.range('A1').expand('right')  # 选择要调整的区域
    value.api.Font.Size = 10
    value.api.Font.Bold = True  # 设置为粗体
workbook.save()
workbook.close()
app.quit()

print('数据清洗完成！！')

（四）可视化展现

可视化展示的环节，我这次没有选用之前一直使用的 pyecharts，而是使用了 plotly。

主要原因是 plotly 对于 pandas 的支持非常好，它的高级封装函数的写法非常简洁，使用起来方便，而且也能够支持交互和自定义颜色，集美观与实用于一身，应该会成为我今后的主力可视化工具。

1. 将某平台和我司的类目SKU数占比进行对比

import plotly.io as pio
import plotly.express as px
import plotly.graph_objects as go
import plotly.figure_factory as ff
import pandas as pd
import numpy as np


df1 = pd.read_excel('./6. 输出类目SKU转换后数据.xlsx',sheet_name='result')

df_xx = df1.groupby('映射我司事业部')['转换后SKU数'].sum().reset_index().sort_values(by='转换后SKU数',ascending=False)
df_xx['SKU数占比%'] = ((df_xx['转换后SKU数'] / df_xx['转换后SKU数'].sum()) * 100).round(1) 
df_xx['公司'] = 'xx'
df_xx = df_JD[['公司','映射我司事业部','转换后SKU数','SKU数占比%']]
df_xx.loc[len(df_xx.index)] = ['xx', '商城商品事业部', 0, 0.0]

df2 = pd.read_excel('./【资料】2022年购物公司商品0101-1013.xlsx',sheet_name='Sheet1')
df2 = df2[df2['订购数量']>0]

df_yy = df2.groupby('事业部')['商品编号'].count().reset_index().sort_values(by='商品编号',ascending=False)
df_yy['SKU数占比%'] = ((df_yy['商品编号'] / df_yy['商品编号'].sum()) * 100).round(1) 
df_yy.rename(columns={'事业部':'映射我司事业部', '商品编号':'转换后SKU数'}, inplace = True)
df_yy['公司'] = 'yy'
df_yy = df_yy[['公司','映射我司事业部','转换后SKU数','SKU数占比%']]
df_yy.loc[len(df_yy.index)] = ['yy', 0, 0, 0.0]
df_yy.loc[len(df_yy.index)] = ['yy', '团购', 0, 0.0]

df_concat = pd.concat([df_xx,df_yy])

# SKU类目占比对比（柱状图）
fig = px.bar(df_concat, x='映射我司事业部', y='SKU数占比%',barmode='group',color='公司',text='SKU数占比%')
fig.update_layout(title='事业部SKU占比对比(%)')
fig.update_traces(textposition='outside',textfont_size=16,textfont_color=['#FC5531'])
pio.write_html(fig,'事业部SKU占比对比.html')
pio.write_image(fig,'事业部SKU占比对比.png','png',width=1400,height=800)

2. 某平台类目SKU数量结构

# 树状图
df1['整体'] = '整体'
fig1 = px.treemap(df1, 
                 path=['整体', '大分类名', '中分类名'], 
                 values='转换后SKU数', 
                 title='类目SKU占比树状图',
                 # color='转换后SKU数',
                 # color_continuous_scale='RdBu',
                 # color_continuous_midpoint=df1['转换后SKU数'].mean()
                )
fig1.update_traces(textinfo='label+value',textfont = dict(size = 20))                                                                                 
pio.write_html(fig1,'类目SKU占比树状图.html')
pio.write_image(fig1,'类目SKU占比树状图.png','png',width=1400,height=800)

3. 某平台

#  热力图
bins = [0,1,20000,50000,100000,150000,200000,300000,400000,500000,99999999999]
groups1 = ['0','2万','5万','10万','15万','20万','30万','40万','50万','50万以上']
groups2 = [.1,.2,.3,.4,.5,.6,.7,.8,.9,1.0]
df1['SKU数级别'] = pd.cut(df1['转换后SKU数'],bins,labels=groups1)
df1['SKU数级别'] = df1['SKU数级别'].fillna('0')

data = df1.groupby(['大分类名','SKU数级别'])['转换后SKU数'].sum().reset_index()
data = pd.pivot(data,values='转换后SKU数',index='大分类名',columns='SKU数级别')

data2 = data.apply(lambda x:pd.cut(x,bins,labels=groups2))
data2 = data2.fillna(.1)

data = data.applymap(lambda x:str(round(x / 10000,2)) + ' 万')

data.drop(index='众筹',columns='0',inplace=True)
data2.drop(index='众筹',columns='0',inplace=True)

x = list(data.columns)
y = list(data.index)
z = data2.values.tolist()
z_text = data.fillna('').values.tolist()

#  自定义色卡
# colorscale = [[0.0,'rgb(0,153,102)'],
#               [.1,'rgb(211,207,99)'],
#               [.3,'rgb(255,153,51)'],
#               [.4,'rgb(204,97,51)'],
#               [.5,'rgb(102,0,153)'],
#               [1.0,'rgb(126,0,35)']]

fig2 = ff.create_annotated_heatmap(z,
                                   x=x,
                                   y=y,
                                   annotation_text=z_text,
                                   # colorscale=colorscale
                                   )
fig2.update_layout(title='类目SKU占比热力图')
fig2.update_xaxes(side='top')
pio.write_html(fig2,'类目SKU占比热力图.html')
pio.write_image(fig2,'类目SKU占比热力图.png','png',width=1400,height=800)

三、可提升方向

以上只是实际工作项目中的一部分，接下来还要对自己公司的数据进行分析，不方便给出更详细的说明，但是本文使用的方法是相通的，不管是对自己公司还是外部平台，都可以按照类似的步骤进行处理、分析与展示。

进行项目的过程中还有一些值得提升的地方，

plotly.express 尚未支持多子图的呈现，目前只能使用 plotly.graph_objs 来实现，代码较为繁琐
plotly 的很多配置项细节需要梳理和掌握，毕竟才真正接触这个库两三天的时间，来日方长
遇到反爬之后，反反爬的成本很高，影响效率，在不花钱的情况下，现在爬虫的 ROI 已经很低，不太值得去做，以我现在的水平有越来越多的网站过不了
遇到海量不同口径的数据（比如类目），有什么样的方法能够快速对齐统一，目前还没有头绪，靠人工肯定不现实，数据清洗是真的让人头大啊

数海随记

喜欢作者

【干货】pythonJA3指纹绕过 kisloy 爬虫逆向 python 爬虫
requests/scrapyJA3指纹绕过requests绕过importrequestsimportrandomfromrequests.adaptersimportHTTPAdapterfromrequests.packages.urllib3.util.ssl_importcreate_urllib3_contextORIGIN_CIPHERS=("ECDH+AESGCM:DH+AESGC
docker-compose部署java项目小瞿慢慢跑 docker docker-compose
docker-compose是定义和运行多容器的工具。换句话说就是通过配置yml文件来运行容器，简化了每次输入dockerrun等命令，把这些命令配置在yml文件统一管理，而且可以用一个yml文件一次启动多个容器，启动时还可以设置各个容器的依赖关系等。如下为测试docker-compose启动java程序1.docker-compose.ymlversion:'3'services:java05:
CAN发送JSON数据摸鱼的小羊 json android javascript
CAN发送JSON数据文章目录CAN发送JSON数据前言一、核心问题与前提1、CAN总线的数据限制2、硬件基础二、实现步骤1.JSON数据的序列化（发送端）2.数据分片（关键步骤）3.CAN帧发送4.接收端处理5.校验与可靠性设计三、硬件与软件选型1.硬件2.软件四、示例代码片段（简化）1.发送端（C语言，基于STM32+cJSON+CAN）2.接收端（重组逻辑）总结1.数据长度优化：2.抗干扰：
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码桃宝护卫队爬虫 python
豆瓣电影信息爬虫【2024年6月】教程，赋完整代码在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：完整代码放到最后；完整代码放到最后；完整代码放到最后；重要的事情说三遍。1.技术栈介绍在本教程中，我们将使用以下技术栈来构建一个爬虫，用于爬取豆瓣电影列表页面的信息：Python:一种广泛使用的高级编程语言，因其简洁的语法和强大的库支持而受到开发者的喜爱。Request
爬虫技术Requests实现模拟登录 incidite 爬虫
一、模拟登录的目的访问受限内容：获取需要登录才能查看的页面数据个性化数据采集：获取用户账户相关的定制化信息自动化操作：实现自动签到、自动任务等流程数据完整性：采集完整的用户视角数据（如社交网络信息）状态保持：维持会话状态以进行连续操作测试验证：用于网站功能测试和验证二、对Requests模拟登录的认识技术本质：通过PythonRequests库模拟浏览器登录行为实现原理：处理登录表单提交维护会话c
深入理解 synchronized 锁与你久处不厌 Java java
文章目录一、实现原理对象头Monitor二、synchronized优化1.锁的状态2.锁的升级一、实现原理Java中的每一个对象都可以作为锁。具体表现为以下3种形式。对于普通同步方法，锁是当前实例对象。对于静态同步方法，锁是当前类的Class对象。对于同步方法块，锁是Synchonized括号里配置的对象。代码块同步：使用monitorenter和monitorexit指令实现。方法同步：使用另
从 C# 到 Python：项目实战第五天的飞跃 AI、少年郎数据库 c#开发语言
在前面三天的学习中，我们已经掌握了Python的基础语法、数据结构以及一些核心库的使用。今天，我们将通过三个实战项目，深入对比C#和Python在命令行工具开发、Web应用开发以及数据处理方面的差异，感受Python在实际项目中的强大魅力。一、命令行工具开发：文件批量处理命令行工具是开发者日常工作中经常用到的工具，无论是文件处理、数据转换还是系统管理，都离不开命令行工具的身影。下面我们就来对比一下
Java EE的历史（转）古剑诛仙
转自公众号码农翻身。前言：昨天下午有同学问我JavaEE是干什么用的，能开发什么系统，我在QQ中敲了很多字，掰扯了半天，终于给他整明白了。我突然意识在其实很多初学者对JavaEE的来龙去脉并去清楚，大家并不知道为什么会出现这个技术，要解决什么问题。所以就写了这篇文章介绍下JavaEE的历史。先把时间扯的远一点，94年我上高中的时候，见过亲戚家有过电脑，很好奇，虽然上面都是一些单机桌面程序，根本上不
延迟队列的入门使用
延迟队列的入门使用思考：1.什么是延迟队列？延迟队列运用场景？2.延迟队列的排队过程如何实现？真的是先进先出吗？3.如何实现运用延迟队列一.什么是延迟队列DelayQueue是Java中的一个基于优先级队列的实现的线程安全的延迟队列。运用场景：实现定时任务或者延迟任务的调度。DelayQueue实现BlockingQueue，加入这个队列的元素必须实现Delayed接口，当生产者提交元素进入队列时
Java DelayQueue延迟队列的使用和源码分析 °Fuhb Java基础与进阶 java DelayQueue 延迟队列
文章目录概述示例原理分析概述DelayQueue是JAVA提供的延时队列，队列内部的对象必须实现Delayed接口，该接口只有一个getDelay方法，返回延迟执行的时长。publicinterfaceDelayedextendsComparable{longgetDelay(TimeUnitunit
DelayQueue延时队列简单使用泉泉写Java java 开发语言
DelayQueue是JDK1.5引入到工具，位置在java.util.concurrent。从包路径我们就能知道该工具是给多线程使用到。我们先看看官方注释：AnunboundedblockingqueueofDelayedelements,inwhichanelementcanonlybetakenwhenitsdelayhasexpired.TheheadofthequeueisthatDel
Java性能监测工具JMC的使用介绍
一、JMC介绍JMC是源自JRockitJVM的一套监控和管理工具,Oracle在发布JAVA7u4(Java7Update40)时将其包含在JDK中,用户不再需要单独下载。使用JMC可以监视和管理Java应用程序，不会导致相关工具类的大幅度性能开销，它使用为Java虚拟机(JVM)的普通自适应动态优化收集的数据。官方地址：https://www.oracle.com/java/technolog
Spring Boot 3.0新特性全面解析与实战应用天天进步2015 Java spring boot
SpringBoot3.0新特性全面解析与实战应用引言SpringBoot3.0作为Spring生态系统的一个重要里程碑，带来了众多令人兴奋的新特性和改进。本文将深入解析SpringBoot3.0的核心变化，并通过实战示例展示如何在项目中应用这些新特性。核心变化概览Java版本要求提升SpringBoot3.0最显著的变化是Java版本要求提升至Java17。这一变化不仅仅是版本号的更新，更是对现
python docker 阿狸的家 SDN docker
我们的开发人员和布署人员经常因环境问题，而使得安装过程困难重重，相比于虚拟机较少硬件资源的虚拟化，同时不需要加载虚拟机操作系统的耗时，因为docker共享宿主机的操作系统Centos和Ubunta共用内核kernel即bootfs相同，但是加载内核的rootfs不同，即文件的结构目录不同docker三要素docker可以看作为一个小型的linux系统，部署时秒级启动镜像：模板（应用程序代码），一个
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
飞算科技：以原创技术为翼，赋能产业数字化转型
在数字经济浪潮席卷全球的当下，一批专注于技术创新的中国企业正加速崛起，飞算数智科技（深圳）有限公司（简称“飞算科技”）便是其中的佼佼者。作为一家国家级高新技术企业，飞算科技以自主创新为核心驱动力，凭借互联网科技、大数据、人工智能等前沿技术，为各行业客户插上数字化转型的翅膀。飞算科技的定位清晰而坚定——自主创新型数字科技公司。这一定位不仅体现在其技术研发的方向上，更融入到为客户服务的每一个环节。无论
python实现自动化sql布尔盲注(二分查找) 海星船长丶 python 自动化 sql 网络安全 web安全
为了优化自动化布尔盲注的代码，我们可以使用二分查找来减少猜测次数，从而提高效率。以靶场sqli为例：importrequests#目标URLurl="http://127.0.0.1/sqli/Less-8/index.php"#要推断的数据库信息（例如：数据库名）database_name=""#字符集（可以根据需要扩展）charset="abcdefghijklmnopqrstuvwxyzAB
2018-03-19新零售是未来的商业模式吗？马云对新零售到底什么看法? 拼自己想要的梦想
马云对新零售到底什么不雅观不雅观点?其实，在此之前，新零售一词就已经在业界出现过，而马云此次的提出，使其作为一个正式的名词传布开来。马云认为互联网时代，传统零售行业受到了电商互联网的打击。将来，线下与线上零售将深度连系，再加当代物流，办事商把持大数据、云计较等立异手艺，构成将来新零售的概念。纯电商的时代很快将竣事，纯零售的情势也将被冲破，新零售将引领将来全新的商业形式。新零售是从哪里来的?新零售是
JAVA面试八股文，万字长文！ Java进阶八股文 java 面试开发语言职场和发展 spring boot spring jvm
1、多态的作用多态的实现要有继承、重写，父类引用指向子类对象。它的好处是可以消除类型之间的耦合关系，增加类的可扩充性和灵活性。多态允许你通过统一的接口来处理不同类型的对象，这样在添加新的类型时，不需要修改现有的代码，只需要实现相同的接口或继承相同的父类即可。这使得代码的扩展性大大增强。2、什么是反射？反射机制是在运行时，对于任意一个类，都能够知道这个类的所有属性和方法；对于任意个对象，都能够调用它
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
学习人工智能开发的详细指南 Ws＿学习人工智能 python
一、引言人工智能（AI）开发是一个充满挑战与机遇的领域，它融合了数学、计算机科学、统计学、认知科学等多个学科的知识。随着大数据、云计算和深度学习技术的快速发展，AI已经成为推动社会进步和产业升级的关键力量。本文将为初学者提供一份详细的学习指南，帮助大家逐步掌握AI开发的核心技能。二、基础知识准备数学基础：线性代数：理解向量、矩阵、线性变换等基本概念，掌握矩阵运算和特征值分解等技巧。概率论与统计学：
rpg_trajectory_evaluation工具评估SLAM/VIO系统
rpg_trajectory_evaluation工具评估SLAM/VIO系统1、安装系统环境：ubuntu18.04+ROSmelodic代码：https://github.com/uzh-rpg/rpg_trajectory_evaluationtutorial:http://rpg.ifi.uzh.ch/docs/IROS18_Zhang.pdf1.1首先安装依赖的python库pipins
做人脸识别遇到的问题 princesshu python pycharm
最开始安装的时候直接用pipinstalldlib却一直显示错误提示“Failedbuildingwheelfordlib”之后去网上搜来了各种下载链接依然错误我发现问题是！！python版本问题，我下载所有的包都与我的python版本不匹配于是我先安装了cmakeboost之后最后直接在终端安好了dlib～
设计模式-工厂方法模式 Java
模式概述工厂方法模式(FactoryMethodPattern)又称为工厂模式，定义创建对象的接口，但将具体实现延迟到子类，实现对象创建与使用的解耦。简单代码示例//1.抽象产品：日志记录器接口interfaceLogger{voidlog(Stringmessage);}//2.具体产品：文件日志记录器classFileLoggerimplementsLogger{@Overridepublic
【Hugging Face全面拥抱LangChain：全新官方合作包】
文末有福利！❝最近HuggingFace官宣发布langchain_huggingface，这是一个由HuggingFace和LangChain共同维护的LangChain合作伙伴包。这个新的Python包旨在将HuggingFace最新功能引入LangChain并保持同步。通过HuggingFace官方包的加持，开发小伙伴们通过简单的api调用就能在langchain中轻松使用HuggingFa
【技术工具】python人员照片简介批量对照（千人级） Allen_Lyb 医疗高效编程研发 python 开发语言自然语言处理健康医疗语言模型
要实现根据照片上的工号批量添加人员姓名和工号到照片上，可以按照以下步骤操作（使用Python+PIL/Pillow+OpenCV+pytesseract）：解决方案步骤准备数据创建人员信息表（CSV格式）：姓名,工号确保所有照片文件名包含工号（如工号.jpg），或照片中有清晰可见的工号文本安装依赖库pipinstallpillowopencv-pythonpandaspytesseract#额外安
大数据技术是解决什么问题的？ @佳瑞大数据
基础知识1TB（太字节）=1024GB1PB（拍字节）=1024TB大数据核心框架HadoopHadoop作为大数据技术生态的核心框架，主要解决了海量数据（TB/PB级）的存储、处理和分析难题，尤其是在传统数据库（如MySQL）和单机计算无法应对的场景下，提供了低成本、高可靠、可扩展的解决方案。其核心解决的问题可归纳为以下几点：海量数据的存储问题传统痛点：单机存储容量有限（如单服务器硬盘通常在TB
Linux机器上Selenium+Python3+Chrome使用driver.get()只能获取到标签而没有内容的解决方法
代码：#!/usr/bin/python3#coding=utf8fromseleniumimportwebdriverfromselenium.webdriver.chrome.optionsimportOptionschrome_options=Options()chrome_options.add_argument('--headless')chrome_options.add_argume
解决 python 中的 huggingface_hub code_welike python 前端数据库
解决python中的huggingface_hub.utils._validators.HFValidationErrorRepoidmustbeintheformrepo_nameorname问题在使用python的huggingface_hub库时，有时候会遇到类似于“huggingface_hub.utils._validators.HFValidationErrorRepoidmustbe
cm3d2 & com3d2 HECUgauss Kiss 经验分享游戏程序
新增一个分类，因为旧做cm3d2有些插件是可以通用的，标注CM3D2的就是理论上旧做也能用的（但我手上没有cm3d2所以只是理论上）网站Hgamewikicom3d2分区CustomMaid3D2-HgamesWiki(anime-sharing.com)https://wiki.anime-sharing.com/hgames/index.php?title=Custom_Maid_3D2中文資
面向对象面向过程 3213213333332132 java
面向对象：把要完成的一件事，通过对象间的协作实现。面向过程：把要完成的一件事，通过循序依次调用各个模块实现。我把大象装进冰箱这件事为例，用面向对象和面向过程实现，都是用java代码完成。 1、面向对象 package bigDemo.ObjectOriented; /** * 大象类 * * @Description * @author FuJian
Java Hotspot: Remove the Permanent Generation bookjovi HotSpot
openjdk上关于hotspot将移除永久带的描述非常详细，http://openjdk.java.net/jeps/122 JEP 122: Remove the Permanent Generation Author Jon Masamitsu Organization Oracle Created 2010/8/15 Updated 2011/
正则表达式向前查找向后查找,环绕或零宽断言 dcj3sjt126com 正则表达式
向前查找和向后查找 1. 向前查找：根据要匹配的字符序列后面存在一个特定的字符序列(肯定式向前查找)或不存在一个特定的序列(否定式向前查找)来决定是否匹配。.NET将向前查找称之为零宽度向前查找断言。对于向前查找，出现在指定项之后的字符序列不会被正则表达式引擎返回。 2. 向后查找：一个要匹配的字符序列前面有或者没有指定的
BaseDao 171815164 seda
import java.sql.Connection; import java.sql.DriverManager; import java.sql.SQLException; import java.sql.PreparedStatement; import java.sql.ResultSet; public class BaseDao { public Conn
Ant标签详解--Java命令 g21121 Java命令
这一篇主要介绍与java相关标签的使用终于开始重头戏了，Java部分是我们关注的重点也是项目中用处最多的部分。 1
[简单]代码片段_电梯数字排列 53873039oycg 代码
今天看电梯数字排列是9 18 26这样呈倒N排列的,写了个类似的打印例子，如下: import java.util.Arrays; public class 电梯数字排列_S3_Test { public static void main(S
Hessian原理云端月影 hessian原理
Hessian 原理分析一．远程通讯协议的基本原理网络通信需要做的就是将流从一台计算机传输到另外一台计算机，基于传输协议和网络 IO 来实现，其中传输协议比较出名的有 http 、 tcp 、 udp 等等， http 、 tcp 、 udp 都是在基于 Socket 概念上为某类应用场景而扩展出的传输协
区分Activity的四种加载模式----以及Intent的setFlags aijuans android
在多Activity开发中，有可能是自己应用之间的Activity跳转，或者夹带其他应用的可复用Activity。可能会希望跳转到原来某个Activity实例，而不是产生大量重复的Activity。这需要为Activity配置特定的加载模式，而不是使用默认的加载模式。加载模式分类及在哪里配置 Activity有四种加载模式： standard singleTop
hibernate几个核心API及其查询分析 antonyup_2006 html .net Hibernate xml 配置管理
(一) org.hibernate.cfg.Configuration类读取配置文件并创建唯一的SessionFactory对象.(一般,程序初始化hibernate时创建.) Configuration co
PL/SQL的流程控制百合不是茶 oracle PL/SQL编程循环控制
PL/SQL也是一门高级语言,所以流程控制是必须要有的,oracle数据库的pl/sql比sqlserver数据库要难,很多pl/sql中有的sqlserver里面没有流程控制; 分支语句 if 条件 then 结果 else 结果 end if ; 条件语句 case when 条件 then 结果; 循环语句 loop
强大的Mockito测试框架 bijian1013 mockito 单元测试
一.自动生成Mock类在需要Mock的属性上标记@Mock注解，然后@RunWith中配置Mockito的TestRunner或者在setUp()方法中显示调用MockitoAnnotations.initMocks(this);生成Mock类即可。二.自动注入Mock类到被测试类 &nbs
精通Oracle10编程SQL(11)开发子程序 bijian1013 oracle 数据库 plsql
/* *开发子程序 */ --子程序目是指被命名的PL/SQL块，这种块可以带有参数，可以在不同应用程序中多次调用 --PL/SQL有两种类型的子程序：过程和函数 --开发过程 --建立过程：不带任何参数 CREATE OR REPLACE PROCEDURE out_time IS BEGIN DBMS_OUTPUT.put_line(systimestamp); E
【EhCache一】EhCache版Hello World bit1129 Hello world
本篇是EhCache系列的第一篇，总体介绍使用EhCache缓存进行CRUD的API的基本使用，更细节的内容包括EhCache源代码和设计、实现原理在接下来的文章中进行介绍环境准备 1.新建Maven项目 2.添加EhCache的Maven依赖 <dependency> <groupId>ne
学习EJB3基础知识笔记白糖_ bean Hibernate jboss webservice ejb
最近项目进入系统测试阶段，全赖袁大虾领导有力，保持一周零bug记录，这也让自己腾出不少时间补充知识。花了两天时间把“传智播客EJB3.0”看完了，EJB基本的知识也有些了解，在这记录下EJB的部分知识，以供自己以后复习使用。 EJB是sun的服务器端组件模型，最大的用处是部署分布式应用程序。EJB (Enterprise JavaBean)是J2EE的一部分，定义了一个用于开发基
angular.bootstrap boyitech AngularJS AngularJS API angular中文api
angular.bootstrap 描述：手动初始化angular。这个函数会自动检测创建的module有没有被加载多次，如果有则会在浏览器的控制台打出警告日志，并且不会再次加载。这样可以避免在程序运行过程中许多奇怪的问题发生。使用方法： angular .
java-谷歌面试题-给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数 bylijinnan java
public class SearchInShiftedArray { /** * 题目：给定一个固定长度的数组，将递增整数序列写入这个数组。当写到数组尾部时，返回数组开始重新写，并覆盖先前写过的数。 * 请在这个特殊数组中找出给定的整数。 * 解答： * 其实就是“旋转数组”。旋转数组的最小元素见http://bylijinnan.iteye.com/bl
天使还是魔鬼？都是我们制造 ducklsl 生活教育情感
----------------------------剧透请原谅，有兴趣的朋友可以自己看看电影，互相讨论哦！！！从厦门回来的动车上，无意中瞟到了书中推荐的几部关于儿童的电影。当然，这几部电影可能会另大家失望，并不是类似小鬼当家的电影，而是关于“坏小孩”的电影！自己挑了两部先看了看，但是发现看完之后，心里久久不能平
[机器智能与生物]研究生物智能的问题 comsci 生物
我想,人的神经网络和苍蝇的神经网络,并没有本质的区别...就是大规模拓扑系统和中小规模拓扑分析的区别.... 但是,如果去研究活体人类的神经网络和脑系统,可能会受到一些法律和道德方面的限制,而且研究结果也不一定可靠,那么希望从事生物神经网络研究的朋友,不如把
获取Android Device的信息 dai_lm android
String phoneInfo = "PRODUCT: " + android.os.Build.PRODUCT; phoneInfo += ", CPU_ABI: " + android.os.Build.CPU_ABI; phoneInfo += ", TAGS: " + android.os.Build.TAGS; ph
最佳字符串匹配算法（Damerau-Levenshtein距离算法）的Java实现 datamachine java 算法字符串匹配
原文：http://www.javacodegeeks.com/2013/11/java-implementation-of-optimal-string-alignment.html------------------------------------------------------------------------------------------------------------
小学5年级英语单词背诵第一课 dcj3sjt126com english word
long 长的 show 给...看，出示 mouth 口，嘴 write 写 use 用，使用 take 拿，带来 hand 手 clever 聪明的 often 经常 wash 洗 slow 慢的 house 房子 water 水 clean 清洁的 supper 晚餐 out 在外 face 脸，
macvim的使用实战 dcj3sjt126com mac vim
macvim用的是mac里面的vim, 只不过是一个GUI的APP, 相当于一个壳 1. 下载macvim https://code.google.com/p/macvim/ 2. 了解macvim :h vim的使用帮助信息 :h macvim
java二分法查找蕃薯耀 java二分法查找二分法 java二分法
java二分法查找 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年6月23日 11:40:03 星期二 http:/
Spring Cache注解+Memcached hanqunfeng spring memcached
Spring3.1 Cache注解依赖jar包：  <dependency> <groupId>com.google.code.simple-spring-memcached</groupId> <artifactId>simple-s
apache commons io包快速入门 jackyrong apache commons
原文参考 http://www.javacodegeeks.com/2014/10/apache-commons-io-tutorial.html Apache Commons IO 包绝对是好东西，地址在http://commons.apache.org/proper/commons-io/，下面用例子分别介绍： 1）工具类 2
如何学习编程 lampcy java 编程 C++c
首先,我想说一下学习思想.学编程其实跟网络游戏有着类似的效果.开始的时候,你会对那些代码,函数等产生很大的兴趣,尤其是刚接触编程的人,刚学习第一种语言的人.可是,当你一步步深入的时候,你会发现你没有了以前那种斗志.就好象你在玩韩国泡菜网游似的,玩到一定程度,每天就是练级练级,完全是一个想冲到高级别的意志力在支持着你.而学编程就更难了,学了两个月后,总是觉得你好象全都学会了,却又什么都做不了,又没有
架构师之spring-----spring3.0新特性的bean加载控制@DependsOn和@Lazy nannan408 Spring3
1.前言。如题。 2.描述。 @DependsOn用于强制初始化其他Bean。可以修饰Bean类或方法，使用该Annotation时可以指定一个字符串数组作为参数，每个数组元素对应于一个强制初始化的Bean。 @DependsOn({"steelAxe","abc"}) @Comp
Spring4+quartz2的配置和代码方式调度 Everyday都不同代码配置 spring4 quartz2.x 定时任务
前言：这些天简直被quartz虐哭。。因为quartz 2.x版本相比quartz1.x版本的API改动太多，所以，只好自己去查阅底层API…… quartz定时任务必须搞清楚几个概念： JobDetail——处理类 Trigger——触发器，指定触发时间，必须要有JobDetail属性，即触发对象 Scheduler——调度器，组织处理类和触发器，配置方式一般只需指定触发
Hibernate入门 tntxia Hibernate
前言使用面向对象的语言和关系型的数据库，开发起来很繁琐，费时。由于现在流行的数据库都不面向对象。Hibernate 是一个Java的ORM（Object/Relational Mapping）解决方案。 Hibernte不仅关心把Java对象对应到数据库的表中，而且提供了请求和检索的方法。简化了手工进行JDBC操作的流程。如
Math类 xiaoxing598 Math
一、Java中的数字（Math）类是final类，不可继承。 1、常数 PI：double圆周率 E：double自然对数 2、截取（注意方法的返回类型） double ceil(double d) 返回不小于d的最小整数 double floor(double d) 返回不大于d的整最大数 int round(float f) 返回四舍五入后的整数 long round