appbanana

《电子商务网站用户行为分析及服务推荐》第一节：数据探索

关键词:

《Python数据分析与挖掘实战》，第12章电子商务网站用户行为分析及服务推荐

运行环境：

iMac电脑 macOS Mojave系统版本10.14.1，python3.7 ，mariaDB数据库，PyCharm集成开发工具

需要注意的地方：

运行前要先启动数据库
mac上启动mariaDB mysql.server start
mac上关闭mariaDB mysql.server stop

传送门：源码下载 (ps:满意的话轻轻动您的金指star一下)

数据探索分析

1.1 网页类型分析

下面的每个文件都需要引入头文件，我这里只写一次

import pandas as pd
from sqlalchemy import create_engine

    # 初始化数据库连接:
    engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test')
    sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)
    # fullURLId 网址类型 然后分类统计个数
    counts = [i['fullURLId'].value_counts() for i in sql]
    
    # 合并统计结果，把相同的统计项合并（即按index分组并求和）
    counts = pd.concat(counts).groupby(level=0).sum()
    # 重置index索引 生成一个新的DataFrame返回  注意与它counts.to_frame()的区别 具体区别请查看官方文档
    counts = counts.reset_index()
    # 重置列名
    counts.columns = ['index', 'num']
    # 在增加一列 提取前三个数字作为类别id
    counts['type'] = counts['index'].str.extract('(\d{3})')
     # 按类别分组求和合并统计
    counts_ = counts.groupby(by='type').sum()
    counts_ = counts_.sort_values(by=['num'], ascending=False)
    counts_ = counts_.reset_index()
    counts_['percent'] = (counts_['num'] / counts_['num'].sum()) * 100

运行结果如下：

1.2 各个类别类型具体分析

代码参考网站

def count107(j):
    """
    107类型具体分析
    :param j: 
    :return: 
    """
    # 找出类别包含107的网址 [fullURL数组(1138 * 1)][bool值数组]
    j = j[['fullURL']][j['fullURLId'].str.contains('107')].copy()
    j['type'] = None  # 添加空列
    j['type'][j['fullURL'].str.contains('info/.+?/')] = u'知识首页'
    j['type'][j['fullURL'].str.contains('info/.+?/.+?')] = u'知识列表页'
    j['type'][j['fullURL'].str.contains('/\d+?_*\d+?\.html')] = u'知识内容页'

    return j['type'].value_counts()


def count101(p):
    """
    101类型具体分析
    :param j: 
    :return: 
    """
    p = p[['fullURLId']][p['fullURLId'].str.startswith('101')].copy()
    p['type'] = None  # 添加空列
    p['type'][p['fullURLId'].str.endswith('001')] = '101001'
    p['type'][p['fullURLId'].str.endswith('002')] = '101002'
    p['type'][p['fullURLId'].str.endswith('003')] = '101003'
    p['type'][~p['fullURLId'].str.contains('(001|002|003)')] = u'其他'

    return p['type'].value_counts()


def count_ask(p):
    """
    网址中带有？的具体分析
    :param j: 
    :return: 
    """
    p = p[['fullURLId']][p['fullURL'].str.contains('?', regex=False)].copy()
    return p['fullURLId'].value_counts()


def count_199(p):
    """
    199类型具体分析
    :param j: 
    :return: 
    """
    p = p[['fullURLId', 'pageTitle']][p['fullURL'].str.contains('?', regex=False)].copy()
    p = p[['pageTitle']][p['fullURLId'].str.contains('1999001')].copy()

    # p['type'] = None  # 添加空列
    # p['type'][p['pageTitle'].str.contains('法律快车-律师助手', na=False, regex=True)] = u'快车-法律助手'
    # p['type'][p['pageTitle'].str.contains('免费发布法律咨询', na=False, regex=True)] = u'免费发布法律咨询'
    # p['type'][p['pageTitle'].str.contains('咨询发布成功', na=False, regex=True)] = u'咨询发布成功'
    # p['type'][p['pageTitle'].str.contains('法律快搜', na=False, regex=True)] = u'法律快搜'
    # p['type'][~p['pageTitle'].str.contains('(法律快车-律师助手|免费发布法律咨询|咨询发布成功|法律快搜)', na=False, regex=True)] = u'其他类型'

    # 下面这个方法比上面那个更好一点
    p['type'] = 1  # 添加空列
    p.loc[p['pageTitle'].str.contains('法律快车-律师助手', na=False, regex=True), 'type'] = u'快车-法律助手'
    p.loc[p['pageTitle'].str.contains('免费发布法律咨询', na=False, regex=True), 'type'] = u'免费发布法律咨询'
    p.loc[p['pageTitle'].str.contains('咨询发布成功', na=False, regex=True), 'type'] = u'咨询发布成功'
    p.loc[p['pageTitle'].str.contains('法律快搜', na=False, regex=True), 'type'] = u'法律快搜'
    p.loc[p['type'] == 1, 'type'] = u'其他类型'

    return p['type'].value_counts()


def wandering(p):
    """
     瞎逛用户具体分析
     :param j: 
     :return: 
     """
    # 取出不以.html的数据
    p = p[['fullURLId']][~p['fullURL'].str.endswith('.html')].copy()
    return p['fullURLId'].value_counts()

接下来开始调用上面的方法
# 需要注意的一点是:因为sql是一个生成器类型，所以在使用过一次以后，就不能继续使用了。必须要重新执行一次读取。

1.2.1 107类型具体分析

    # 初始化数据库连接:
    engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test')
    sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)

    # fullURLId 网址类型 然后分类统计个数
    count_107 = [count107(i) for i in sql]
    count_107 = pd.concat(count_107).groupby(level=0).sum()
    count_107 = count_107.reset_index()
    count_107.columns = ['type', 'num']
    count_107['percent'] = count_107['num'] / count_107['num'].sum() * 100
    print(count_107)

1.2.2 101类型具体分析

   engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test')
   sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)
   
 # 咨询类别内部统计 101开头的
    count_101 = [count101(m) for m in sql]
    count_101 = pd.concat(count_101).groupby(level=0).sum()
    count_101 = count_101.reset_index()
    count_101.columns = ['type', 'num']
    count_101 = count_101.sort_values(by=['num'], ascending=False)
    count_101['percent'] = count_101['num'] / count_101['num'].sum() * 100
    print(count_101)

1.2.3 其他具体类型统计

我只写了2个，eg：带问号的类型统计统计；带有问号的网址中，其他(1999001)类型统计；闲逛用户统计；
我就不在一一罗列，只是更换掉这个方法即可，具体参考我的源码
# count_ask = [count_ask(m) for m in sql]

1.3 用户点击次数统计

 # 初始化数据库连接:
    engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')
    sql = pd.read_sql('all_gzdata', engine, chunksize=10000)

    # 分块统计各个IP的点击次数
    result = [i['realIP'].value_counts() for i in sql]
    result = pd.concat(result).groupby(level=0).sum()
    result = pd.DataFrame(result)
    # 增加一列1 方便用户点击次数的统计
    result[1] = 1
    # 各个IP的点击次数
    click_count = result.groupby(by=['realIP']).sum()
    # 将索引也变成其中的一列
    click_count = click_count.reset_index()
    click_count.columns = [u'点击次数', u'用户数']
    click_count[u'用户百分比'] = click_count[u'用户数'] / click_count[u'用户数'].sum() * 100
    # 记录百分比等于各个层上用户数乘以点击次数与所有的点击次数之比
    click_count[u'记录百分比'] = click_count[u'用户数'] * click_count[u'点击次数'] / result['realIP'].sum() * 100

    # 取出前8个数据
    # 后面加copy消除警告
    # A value is trying to be set on a copy of a slice from a DataFrame.
    # Try using .loc[row_indexer,col_indexer] = value instead
    click_count_8 = click_count.iloc[:8, :].copy()
    click_count_8.loc[7, u'点击次数'] = u'7次以上'
    click_count_8.loc[7, u'用户数'] = click_count.iloc[8:, 1].sum()
    click_count_8.loc[7, u'用户百分比'] = click_count.iloc[8:, 2].sum()
    click_count_8.loc[7, u'记录百分比'] = click_count.iloc[8:, 3].sum()
    print(click_count_8)
    
    # 接下来统计7次以上 用户的分布情况
    # 本来想着这样操作来统计 有部分的数据不对 弃用
    # bins = [7, 100, 1000, 50000]
    # temp_count = click_count.iloc[8:, :]
    # click_count_cut = pd.cut(temp_count[u'点击次数'], bins=bins, right=True,)
    # print(click_count_cut)
    """
    301      (100, 1000]
    302      (100, 1000]
    303      (100, 1000]
    304    (1000, 50000]
    305    (1000, 50000]
    306    (1000, 50000]
    307    (1000, 50000]

    """

    # click_count_8 = click_count.copy()
    result_data = pd.DataFrame()
    result_data[u'点击次数'] = pd.Series(['8~100', '101~1000', '1000以上'])

    # 这样筛选出来的数据不对
    # value1 = click_count.iloc[:, 1][8:101].sum()
    # # value1 = click_count[u'用户数'][8:101].sum()
    # value2 = click_count.iloc[:, 1][101:1001].sum()
    # value3 = click_count.iloc[:, 1][1001:].sum()

    value1 = click_count.loc[click_count[u'点击次数'].isin(range(8, 101)), u'用户数'].sum()
    value2 = click_count.loc[click_count[u'点击次数'].isin(range(101, 1001)), u'用户数'].sum()
    value3 = click_count.loc[click_count[u'点击次数'] > 1000, u'用户数'].sum()
    result_data[u'用户数'] = [value1, value2, value3]
    print(result_data)

1.3 浏览一次用户的行为分析和点击一次用户浏览网页统计

    # 初始化数据库连接:
   engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')
   sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)
   # 分块统计各个IP的点击次数
   result = [i['realIP'].value_counts() for i in sql]
   click_count = pd.concat(result).groupby(level=0).sum()
   click_count = click_count.reset_index()
   click_count.columns = ['realIP', 'times']
   # 筛选出来点击一次的数据
   click_one_data = click_count[click_count['times'] == 1]
   # 这里只能再次读取数据 因为sql是一个生成器类型，所以在使用过一次以后，就不能继续使用了。必须要重新执行一次读取。
   sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)
   # 取出这三列数据
   data = [i[['fullURLId', 'fullURL', 'realIP']] for i in sql]
   data = pd.concat(data)
   # 和并数据 我以click_one_data为基准 按照realIP合并过来，目的方便查看点击一次的网页和realIP
   merge_data = pd.merge(click_one_data, data, on='realIP', how='left')
   # 点击一次的数据统计 写入数据库 以方便读取 校准无误 写入后就可以注释掉此句代码
   # merge_data.to_sql('click_one_count', engine, if_exists='append')
   # print(merge_data)
   """
                   realIP  times fullURLId                                            fullURL
   0            95502      1    101003    http://www.lawtime.cn/ask/question_7882607.html
   1           103182      1    101003    http://www.lawtime.cn/ask/question_7174864.html
   2           136206      1    101003    http://www.lawtime.cn/ask/question_8246285.html
   3           140151      1    107001  http://www.lawtime.cn/info/gongsi/slbgfgs/2011...
   4           155761      1    101003    http://www.lawtime.cn/ask/question_5951952.html
   5           159758      1    101003    http://www.lawtime.cn/ask/question_1909224.html
   6           213105      1    101003    http://www.lawtime.cn/ask/question_1586269.html

   """

   # 网页类型ID统计
   fullURLId_count = merge_data['fullURLId'].value_counts()
   fullURLId_count = fullURLId_count.reset_index()
   fullURLId_count.columns = ['fullURLId', 'count']
   fullURLId_count['percent'] = fullURLId_count['count'] / fullURLId_count['count'].sum() * 100
   print('*****' * 10)
   print(fullURLId_count)
   """
      fullURLId   count    percent
   0     101003  102560  77.626988
   1     107001   19443  14.716279
   2    1999001    9381   7.100417
   3     301001     515   0.389800
   4     102001      70   0.052983
   5     103003      45   0.034060

   """
   # 用户点击一次 浏览的网页统计
   fullURL_count = merge_data['fullURL'].value_counts()
   fullURL_count = fullURL_count.reset_index()
   fullURL_count.columns = ['fullURL', 'count']
   fullURL_count['percent'] = fullURL_count['count'] / fullURL_count['count'].sum() * 100
   print('*****' * 10)
   print(fullURL_count)
   """
                                                    fullURL  count   percent
   0      http://www.lawtime.cn/info/shuifa/slb/20121119...   1013  0.766733
   1      http://www.lawtime.cn/info/hunyin/lhlawlhxy/20...    501  0.379204
   2         http://www.lawtime.cn/ask/question_925675.html    423  0.320166
   3      http://www.lawtime.cn/info/shuifa/slb/20121119...    367  0.277780
   4               http://www.lawtime.cn/ask/exp/13655.html    301  0.227825
   5                http://www.lawtime.cn/ask/exp/8495.html    241  0.182411
   6               http://www.lawtime.cn/ask/exp/13445.html    199  0.150622
   7                        http://www.lawtime.cn/guangzhou    177  0.133970

   """

1.4 网页排名

def handle_data(p):
   p = p[['fullURL', 'fullURLId', 'realIP']][p['fullURL'].str.contains('\.html')].copy()
   return p

  # 初始化数据库连接:
  engine = create_engine('mysql+pymysql://root:123456@localhost:3306/test?charset=utf8')
  sql = pd.read_sql('all_gzdata', engine, chunksize=1024 * 5)

  result = [handle_data(i) for i in sql]
  click_count = pd.concat(result)

  # 网页统计
  web_count = click_count['fullURL'].value_counts()
  web_count = web_count.reset_index()
  web_count.columns = ['fullURL', 'click_times', ]
  print(web_count)

  # 类型点击
  click_count['fullURLId'] = click_count['fullURLId'].str.extract('(\d{3})')
  type_count = pd.merge(web_count, click_count, on='fullURL', how='left')
  # temp_type_count['flag'] = 1

  # 统计各个类型的点击次数
  type_count_result = type_count.copy()
  # 统计fullURLId对应的总点击数
  type_count_result = type_count_result.drop_duplicates(subset='fullURL', keep='first')
  # 删除无效数据 删除fullURL，realIP这两列数据
  del type_count_result['fullURL']
  del type_count_result['realIP']
  
  # 计算各个fullURLId下总的点击数
  type_count_result = type_count_result.groupby(by=['fullURLId']).sum()
  type_count_result = type_count_result.reset_index()

  # 接下来统计各个fullURLId总用户数
  temp_type_count = type_count.copy()
  temp_type_count = temp_type_count.groupby(by=['fullURLId', 'realIP']).sum()
  temp_type_count = temp_type_count.reset_index()
  # 把用户的realIP置位1 方便用户数统计计数
  temp_type_count['realIP'] = 1
  # 删除无效数据
  del temp_type_count['click_times']
  temp_type_count = temp_type_count.groupby(by='fullURLId').sum()
  temp_type_count = temp_type_count.reset_index()

  # temp_type_count与type_count_result开始合并
  type_count_result = pd.merge(type_count_result, temp_type_count, on='fullURLId', how='left')
  # print(type_count_result)
  type_count_result.columns = [u'网页类型', u'总点击数', u'用户数']
  type_count_result[u'平均点击率'] = type_count_result[u'总点击数'] / type_count_result[u'用户数']
  type_count_result = type_count_result.sort_values(by=[u'平均点击率'], ascending=False)
  print(type_count_result)

  # 翻页网页统计
  # _数字 后面代表页码，我是简单匹配1到100页的数据
  web_page_count = web_count[web_count['fullURL'].str.contains('_\d{1,2}\.html')]
  # 把'_数字.html'替换成'.html'
  web_page_count['tempURL'] = web_page_count['fullURL'].str.replace('_\d{0,2}\.html', '.html')

  # 这样做的目的为了一会过滤出个数大于1的网址 个数大于1才有翻页的可能
  temp_web_page_count = web_page_count['tempURL'].value_counts()
  temp_web_page_count = temp_web_page_count.reset_index()
  temp_web_page_count.columns = ['tempURL', u'出现次数']
  temp_web_page_count = temp_web_page_count[temp_web_page_count[u'出现次数'] > 1]
  temp_web_page_count = temp_web_page_count.sort_values(by=u'出现次数', ascending=False)

  # 合并数据 以temp_web_page_count为基准
  temp_web_page_count = pd.merge(temp_web_page_count, web_page_count, on='tempURL', how='left')
  # 以'http://***/'替换'http://www.域名.cn/info' 方便数据查看 我的正则比较简单粗暴
  temp_web_page_count['tempURL'] = temp_web_page_count['tempURL'].str.replace('(.*)/info', 'http://***/',
                                                                              regex=True)
  temp_web_page_count['fullURL'] = temp_web_page_count['fullURL'].str.replace('(.*)/info', 'http://***/',
                                                                              regex=True)
  # 过滤掉tempURL出现一次的数据  因为翻页的话tempURL出现的次数要大于1次
  temp_web_page_count = temp_web_page_count[temp_web_page_count[u'出现次数'] > 1]
  # 删除这一列 因为它的使命已经完成
  del temp_web_page_count['出现次数']
  # 打印出来数据较多 因此在过滤到点击次数大于100的数据
  temp_web_page_count = temp_web_page_count[temp_web_page_count[u'click_times'] > 100]
  temp_web_page_count = temp_web_page_count.sort_values(by=['fullURL'], ascending=True)
  del temp_web_page_count['tempURL']
  
  # 因为打印显示不完全再次替换
  temp_web_page_count['fullURL'] = temp_web_page_count['fullURL'].str.replace('hunyinfagui/', 'hyfg/',
                                                                              regex=True)
  temp_web_page_count['fullURL'] = temp_web_page_count['fullURL'].str.replace('jihuashengyu/', 'jhsy/',
                                                                              regex=True)

  temp_web_page_count['fullURL'] = temp_web_page_count['fullURL'].str.replace('jiaotong/', 'jt/',
                                                                              regex=True)
  temp_web_page_count['fullURL'] = temp_web_page_count['fullURL'].str.replace('laodong/', 'ld/',
                                                                              regex=True)
  print(temp_web_page_count)

web_count图片

type_count_result结果图片类型点击数统计

翻页网页统计表

python md5加密计算机辅助工程 python 前端 javascript
在Python中，可以使用hashlib模块来进行MD5加密。以下是一个简单的例子：importhashlibdefmd5_encryption(data):md5=hashlib.md5()#创建一个md5对象md5.update(data.encode('utf-8'))#使用utf-8编码数据returnmd5.hexdigest()#返回加密后的十六进制字符串#使用函数data="Hell
Python网络爬虫核心面试题闲人编程程序员面试 python 爬虫开发语言面试网络编程
网络爬虫1.爬虫项目中如何处理请求失败的问题？2.解释HTTP协议中的持久连接和非持久连接。3.什么是HTTP的持久化Cookie和会话Cookie？4.如何在爬虫项目中检测并处理网络抖动和丢包？5.在爬虫项目中，如何使用HEAD请求提高效率？6.如何在爬虫项目中实现HTTP请求的限速？7.解释HTTP2相对于HTTP1.1的主要改进。8.如何在爬虫项目中模拟HTTP重试和重定向？9.什么是COR
Python全局解释器锁GIL与多线程程序媛一枚~ Python OpenCV 图像处理 Python进阶 Python OpenCV python 多线程全局解释器锁GIL
Python中如果是I/O密集型的操作，用多线程（协程Asyncio、线程Threading），如果I/O操作很慢，需要很多任务/线程协同操作，用Asyncio，如果需要有限数量的任务/线程，那么使用多线程。如果是CPU密集型操作，用多进程（multeprocessing）。一、GILGIL（GlobalInterpreterLock，即全局解释器锁），Python实质上并不存在真正的多线程，只有
Python 面试时需要知道的 10 个问题及详解迪小莫学AI python 面试开发语言
Python面试时需要知道的10个问题及详解在Python的面试中，考察的重点通常是基础知识、编程思维和实际应用能力。掌握Python的核心概念不仅能帮助你在面试中脱颖而出，还能让你在实际工作中高效编写代码。下面我们将详细解答10个Python面试中常见的问题，帮助你更加深入理解Python的基本特性和应用。1.Python中的全局、受保护和私有属性是什么？在Python中，属性的访问权限并不像J
python解奥赛运算题 Python数据分析与机器学习 python 开发语言算法贪心算法
有一个以文字代替数字的算术表达式如下图所示，已知4个替代数字的文字中没有重复，编写程序求出文字所替代的数字。按逻辑思维:如果3位数和3位数相加等于4位数，则“青”只能是1:“山”+“青”大于等于10，因此“山”只能是9，得出“龙”是0:个位的两个“山”相加，推得“外”等于8。而按计算思维，则注重于程序的实现，用穷举法设计嵌套的4层循环，把所有的数字都试一遍，找出4个数字不相互重复的合满足加法等式条
《CPython Internals》阅读笔记：p285-p328 codists 读书笔记 python
《CPythonInternals》学习第15天，p285-p328总结，总计44页。一、技术总结1.shallowcomparisonp285,InObjectsobject.c,thebaseimplementationoftheobjecttypeiswritteninpureCcode.Therearesomeconcreteimplementationsofbasiclogic,like
《CPython Internals》阅读笔记：p250-p284 codists 读书笔记 python
《CPythonInternals》学习第14天，250-p284总结，总计25页。一、技术总结介于我觉得作者写得乱七八糟的，读完我已经不想说话了，所以今日无技术总结。二、英语总结(生词：2)1.spawn(1)spawn:来自于词根expandere。(2)expandere:ex-(“out”)+pandere(“tospread”)spawn原来的意思是“spreadingoutoffish
《CPython Internals》阅读笔记：p221-p231 codists 笔记
《CPythonInternals》学习第12天，p221-p231总结，总计11页。一、技术总结无。二、英语总结(生词：2)1.atatimeidiom.separately(单独地)inthespecifiedgroups(一次)。示例：(1)Icanonlydoonethingatatim(我一次只能做一件事)。(2)Wecarriedtheboxestwoatatimeupthestair
《CPython Internals》阅读笔记：p152-p176 codists 读书笔记 python
《CPythonInternals》学习第10天，p152-p176总结，总计25页。一、技术总结1.addinganitemtoalistmy_list=[]my_list.append(obj)上面的代码涉及两个指令：LOAD_FAST,LIST_APPEND。整章看下来这有这点算是可以记的了，其它的只感觉作者在零零碎碎的罗列内容。二、英语总结(生词：1)无。关于英语的注解同步更新汇总到htt
《CPython Internals》阅读笔记：p1-p19 codists 笔记
《CPythonInternals》学习第1天，p1-p19总结，总计19页。一、技术总结无。二、英语总结(生词：2)1.humblevshumbled(1)humble:humus(“earth”)adj.字面意思是“ontheground”,后面引申为“lowlyinkind,state,condition(卑微)”,“notproudthatyouareimportant(谦卑)”。(2)h
Linux离线安装Python chudu
#下载openssl，如果不先安装openssl，后续pip、requests库使用会有很多问题wget--no-check-certificatehttps://www.openssl.org/source/openssl-1.1.1g.tar.gztar-zxvfopenssl-1.1.1g.tar.gzcdopenssl-1.1.1g./configshared--openssldir=/u
深入解析：使用 Python 爬虫获取苏宁商品详情数据小爬虫@ python 爬虫开发语言
在当今数字化时代，电商数据已成为市场分析、用户研究和商业决策的重要依据。苏宁易购作为国内知名的电商平台，其商品详情页包含了丰富的信息，如商品价格、描述、评价等。这些数据对于商家和市场研究者来说具有极高的价值。本文将详细介绍如何使用Python爬虫获取苏宁商品的详细信息，并提供完整的代码示例。一、爬虫简介爬虫是一种自动化程序，用于从互联网上抓取网页内容。Python因其简洁的语法和强大的库支持，成为
【网络安全 | Python爬虫】URL、HTTP基础必知必会秋说爬虫 http 网络安全
文章目录URL概念及组成结构HTTP概念简述浏览器接收资源HTTP协议的结构请求结构请求行请求头请求体请求差异及参数说明响应结构状态行响应头响应体推广URL概念及组成结构在开始爬虫的开发实战前，需要了解的是URL的概念及组成结构，这具有基础性和必要性。URL（UniformResourceLocator，统一资源定位符）是用于在互联网上定位和标识资源的字符串。它提供了一种标准的方式来指示资源的位置
什么是网络爬虫？Python爬虫到底怎么学？糯米导航文末下载资源 python
最近我在研究Python网络爬虫，发现这玩意儿真是有趣，干脆和大家聊聊我的心得吧！咱们都知道，网络上的信息多得就像大海里的水，而网络爬虫就像一个勤劳的小矿工，能帮我们从这片浩瀚的信息海洋中挖掘出需要的内容。接下来，我就带你们一步步看看该怎么用Python搞定网络爬虫。为啥选择Python写爬虫？说到Python，简直是写爬虫的最佳选择！它有许多现成的库，就像拥有了各种好用的工具，使得我们的工作变得
《CPython Internals》阅读笔记：p329-p335 codists 读书笔记 python
《CPythonInternals》学习第16天，p329-p335总结，总计7页。一、技术总结1.debuggingp331,Therearetwotypesofdebugger,consoleandvisual——作者将debugger分为两类：(1)console：lldb(MAC系统使用),GDB(Linux系统使用))。(2)visual：VisualStudioDebugger,CLi
大模型：LangChain技术讲解玉成226 【大模型】langchain
一、什么是LangChain1、介绍LangChain是一个用于开发由大型语言模型提供支持的Python框架。它提供了一系列工具和组件，帮助我们将语言模型集成到自己的应用程序中。有了它之后，我们可以更轻松地实现对话系统、文本生成、文本分类、问答系统等功能。2、LangChain官网文档官网：https://python.langchain.com/docs/introduction/3、LangC
lisp语言与python_Lisp 语言优点那么多，为什么国内很少运用？特殊后勤小干事 lisp语言与python
为什么Lisp没有流行起来本文探讨的是为什么Lisp语言不再被广泛使用的。很久以前，这种语言站在计算机科学研究的前沿，特别是人工智能的研究方面。现在，它很少被用到，这一切并不是因为古老,类似古老的语言却被广泛应用.其他类似的古老的语言有FORTRAN,COBOL,LISP,BASIC,和ALGOL家族,这些语言的唯一不同之处在于,他们为谁设计,FORTRAN是为科学家和工程师设计的,他们在计算机上
CS书籍、代码资源下载网址 sun_kang CS Guide &&Links linux java tutorials debian documentation linux内核
CS网址收藏啄木鸟Pythonic开源社区：http://www.woodpecker.org.cn/中国IT实验室（游戏开发）：http://game.chinaitlab.com/游戏开发资源网：http://www.gameres.com/国内游戏开发论坛：http://bbs.gameres.com/国外的游戏开发站：http://www.gamedev.net/《问道》游戏开发论坛：ht
Python爬虫项目合集：200个Python爬虫项目带你从入门到精通人工智能_SYBH 爬虫试读 2025年爬虫百篇实战宝典:从入门到精通 python 爬虫数据分析信息可视化爬虫项目大全 Python爬虫项目合集爬虫从入门到精通项目
适合人群无论你是刚接触编程的初学者，还是已经掌握一定Python基础并希望深入了解网络数据采集的开发者，这个专栏都将为你提供系统化的学习路径。通过循序渐进的理论讲解、代码实例和实践项目，你将获得扎实的爬虫开发技能，适应不同场景下的数据采集需求。专栏特色从基础到高级，内容体系全面专栏内容从爬虫的基础知识与工作原理开始讲解，逐渐覆盖静态网页、动态网页、API数据爬取等实用技术。后续还将深入解析反爬机制
FunASR语言识别的环境安装、推理山山而川_R FunASR r语言 xcode 开发语言
目录一、环境配置1、创建虚拟环境2、安装环境及pytorch官网：pytorch下载地址3、安装funasr之前，确保已经安装了下面依赖环境:python代码调用（推荐）4、模型下载5、启动funasr服务二、客户端连接2.1html连接三、推理识别模型1、实时语音识别2、非实时语音识别一、环境配置源码地址：FunASRFunASR/README_zh.mdatmain·alibaba-damo-
安装线程自由（无GIL锁）Python及Pytorch方法为什么每天的风都这么大 python pytorch 开发语言
参考资料：https://py-free-threading.github.io/installing_cpython/https://github.com/pytorch/pytorch/issues/130249https://download.pytorch.org/whl/torch/截至当前（2025.1.22），最新的线程自由Python版本为13.1，因此下面的方法适用于该版本安装P
如何使用python技术爬取下载百度文库文档？大懒猫软件 python 百度开发语言
使用Python爬取百度文库文档需要通过分析网页结构和接口请求来实现。以下是一个基于搜索结果的实现方法，适用于爬取百度文库中的文档内容：第一部分：获取百度文库文档实现步骤获取文档ID和基本信息通过文档的URL获取文档ID，并解析页面内容以获取文档的类型、标题等信息。请求文档信息接口使用getdocinfo接口获取文档的页数、MD5校验码等参数。请求文档正文内容根据文档类型（如txt、doc等），请
使用Motherduck构建云端DuckDB服务 GEAWfaacc oracle 数据库 python
技术背景介绍Motherduck是一种托管的DuckDB云端服务，它允许用户在云中轻松地管理和查询DuckDB数据库。DuckDB是一个内存内分析数据库，专为处理分析型工作负载而设计，与其在本地运行不同，Motherduck提供了一个云平台来管理和扩展这些数据库任务。在本文中，我们将深入探讨如何通过Python设置和使用Motherduck服务，包括具体的代码实现。核心原理解析通过Motherdu
Scheme语言的区块链程韵珂包罗万象 golang 开发语言后端
Scheme语言的区块链探索引言区块链技术自从比特币推出以来，已迅速成为全球瞩目的焦点。其去中心化、不易篡改的特点使得区块链在多个领域展现出了巨大的潜力。通常，区块链的实现主要依赖于多种编程语言，例如C++、Java、Python等。然而，Scheme语言以其独特的表达能力和强大的抽象特性，也为区块链的实现提供了新的视角。本文将深入探讨Scheme语言如何在区块链中发挥作用，并介绍如何使用Sche
Perl语言的软件开发工具 Code侠客行包罗万象 golang 开发语言后端
Perl语言的软件开发工具引言Perl是一种功能强大且灵活的高级编程语言，自1987年由拉里·沃尔（LarryWall）创建以来，就广泛应用于文本处理、系统管理、网络编程、Web开发等多个领域。作为一种脚本语言，Perl以其简洁的语法和强大的正则表达式处理能力而受到开发者的青睐。在实际开发过程中，虽然没有像Java或Python那样广泛流行，但Perl也有着自己独特的生态系统，其中包括许多强大的开
【Python实战】元组！编程小白的必修课！努力学习的耶耶 python
想对大家说的话：大家好呀，耶耶最近打算开一起新的专栏，带着大家敲代码，让大家在了解python理论的基础上学会实操，真正做到大彻大悟！在这里，我会将Python代码像拆解精密玩具一样，一步步剖析，确保每一步的来龙去脉都清晰可见。我会详细解释为什么选择特定的关键字和结构，通过对比不同类型的代码片段，让你不仅知其然，更知其所以然！！！拜托大家给我点一个关注！让我们一起进步吧！！！上期本期学习了如何处理
Python酷库之旅-第三方库Pandas(056) 神奇夜光杯 python pandas 开发语言人工智能标准库及第三方库 excel 学习与成长
目录一、用法精讲211、pandas.Series.truncate方法211-1、语法211-2、参数211-3、功能211-4、返回值211-5、说明211-6、用法211-6-1、数据准备211-6-2、代码示例211-6-3、结果输出212、pandas.Series.where方法212-1、语法212-2、参数212-3、功能212-4、返回值212-5、说明212-6、用法212-6
2025年01月18日Github流行趋势油泼辣子多加 GitHub每日趋势 github
项目名称：MiniCPM-o项目地址url：https://github.com/OpenBMB/MiniCPM-o项目语言：Python历史star数：15141今日star数：736项目维护者：yiranyyu,iceflame89,yaoyuanTHU,LDLINGLINGLING,tc-mb项目简介：MiniCPM-o2.6：适用于手机上视觉、语音和多模式直播的GPT-4o级多模态大规模语
pycharm无法创建python file_pycharm无法导入本地模块的解决方式 weixin_39873356 file
最近学习python的django，需要导入本地的view模块，参考一些别人导入包的方法importsyssys.path.append('C:\\Users\\hhua\\Desktop')#括号中的内容为A所在的目录importA.Demo1#不能加.py否则会报错(错误为没有这个文件A.Demo1.py)但是不论用相对路径导入还是绝对路径导入，运行都会出错，但是我又用命令行试了一遍，发现命令
GitHub Actions是什么 ZhangJiQun&MXP 2021 论文教学 github workflow
目录GitHubActions是什么GitHubActions的使用方法示例注意事项GitHubActions配置文件中-工作流的：Workflow一、自动化任务执行二、规范团队协作三、灵活配置和定制四、提高开发效率五、集成GitHub生态六、可复用性和共享性仓库中的“Actions”部分，特别是聚焦于在M1Mac上执行Python测试的工作流程。以下是对界面上各个部分的详细解释：顶部导航栏：包含
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文