秋刀鱼_(:з」∠)_别急

视频播放量的变化逻辑

文章目录

前言
一、播放量是怎么变化的?
二、抓包
h5请求参数怎么解决
COOKIE怎么搞?
- buvid3
- b_lsid
- _uuid
- buvid4和sid
- 刷

前言

以此文记录爬虫逆向学习思路
代理ip+cookie来刷播放

缺陷：据说破站这方面的检测很严格了，这种刷播放的方式，不会真的观看视频，就是点播一下，如果很多播放量都是这种点播而且还都是游客播放b站是能检测到的，检测到就刷了也没用播放量也不会涨的。

一、播放量是怎么变化的?

可能一个网站就有一种变化方式，可能是专门发送请求给服务器进行播放量修改，也可能藏在某个不起眼的请求中，或者是JS代码中的某个参数值。

破站的播放量可以通过发h5请求进行增加。

怎么确定的?
目前也没什么好办法，毕竟一进入播放页浏览器请求一下就冒一大堆，只能一个一个的看，然后去试，看是不是这个请求让播放量增加的。
不过我想了一个思路，就是我刷新两次网页，看两次视频，那么就有2个播放量的增长，也就是两次请求到服务器修改播放量的值，完了我就专门看那些请求次数为2次的请求，去找刷播放量的。

怎么看出来这个请求就是改播放量的?
网上查+感觉+实践

二、抓包

就是它h5：

看看它的请求参数和cookie:
为什么要看cookie？
cookie是可以代表用户身份的，要刷播放，肯定是模仿很多人在看视频，那么就需要知道这些cookie哪些是固定的，哪些是变化，变化的cookie是怎么来的。

h5请求参数怎么解决

1.先拿多个相同的请求做对比，以排除掉那些参数值一直定死的的参数。
2.看那些会变化的参数可能的具体含义（直接看出来最好办），是不是密文（是密文可能要探索加密逻辑，进行逆向）。

排除掉请求中的定死的参数，后推断出stime,ftime都是时间戳。
bvid是视频id,url中就有。

aid 和 cid 是什么不知道，但是它的来源无非就是其他请求的返回值（cookie /response）或者js代码动态生成的。

拿着aid或者aid的值在浏览器中search就发现了目标:

那么要拿到这两个参数就只要:

    res = session.get("https://www.bilibili.com/video/BV1rw411X7AN/")
    data_list = re.findall(r'__INITIAL_STATE__=(.+);\(function', res.text) //小细节 \( 转义(是普通( 不是re中的()分组符号
    data_dict = json.loads(data_list[0]) //转为python对象
    aid = data_dict['aid']
    cid = data_dict['videoData']['cid']

COOKIE怎么搞?

和确定参数一点点不同:
1.先拿多个相同的请求做对比，以排除掉那些参数一直定死。
2.cookie的来源:JS代码生成或者其他请求返回

排除固定值的cookie参数后.
列出不固定值得cookie:
buvid3
b_lsid
_uuid
buvid4
sid

buvid3

选中cookie选项：

然后在h5请求的前面一个个的请求，都是比它先发出去的请求，一个个看:
建议直接↓键刷过去看。快一点，难得点

上图得请求中返回Response Cookies 中就返回了cookie–buvid3的值，搞定一个cookie值.

session可以自动维护非js生成的cookie，那么只要发个请求，这个buvid3值就被记录好了。

res = session.get("https://www.bilibili.com/video/BV1rw411X7AN/")

b_lsid

老办法，在h5请求的前面一个个的请求，都是比它先发出去的请求，一个个看:
建议直接↓键刷过去看。快一点，难得点
发现spi请求中Requests Cookies中带有b_lsid的值，但是在它之前的请求中都没有返回带有该cookie的Response Cookies，Respose中也没有这个参数，
那么就应该是JS代码生成的了

浏览器中search b_lsid或者b_lsid的值来查找JS代码生成逻辑:
细节：还可以搜索setCookie，因为要设定Cookie的值一般就要用这个函数。
细节：搜到后，在Response中右键点击open in source方便打断点

打断点在setCookie(“b_lsid”,t)发现b_lsid最后等于t,
然后在这个函数里看t的生成逻辑:
细节：cookie具有时效性，不一定会立马失效，既然在之前的请求中生成了cookie还没失效那么在刷新网页时就不用再生成cookie,那么这个断点就没用，因为生成该cookie的代码都不会运行。

怎么办?

打开无痕模式，可以打开一个干净的无cookie的窗口
点击网址栏上的锁清除cookie

value: function() {
        var e = this.splitDate()  //返回时间数据字典
          , t = (0, l.G$)(e.millisecond) //把时间戳向上取整转为16进制的文本后大写
          , r = "".concat((0, l.Q4)(8), "_").concat(t); //concat 字符串拼接 (0, l.Q4)(8)
    // 长度为8每个字符为16*[0,1)后取整转16进制字符串大写不足8位会在前面补0
        this.lsid = r,
        this.time.start = e.millisecond,
        this.time.day = e.day,
        s.Z.setCookie("b_lsid", r, 0, "current-domain") // b_lsid = r
    }

var e = this.splitDate()是干什么的，不知道，鼠标选中看它的值，返回的是时间数据，定位到该函数的内部：

tips: console可以运行JS自带的代码，和浏览器发送请求运行过的代码。

var e = this.splitDate() //返回时间数据字典格式
//等价
value: function(e) {
var t = new Date(e || Date.now())  // 等价于 t = new Date(Date.now()) 等于Fri Dec 08 2023 13:23:10 GMT+0800 (中国标准时间)
  , r = t.getDate() //8 日
  , n = t.getHours() //13 时
  , o = t.getMinutes() //23 分钟
  , i = t.getTime(); //时间戳
return {
    day: r,
    hour: n,
    minute: o,
    second: Math.floor(i / 1e3), //取整
    millisecond: i
}
}

(0, l.G$)(e.millisecond)
//等价
a = function(e) {
                return Math.ceil(e).toString(16).toUpperCase()}

(0, l.Q4)(8)  //长度为8每个字符为随机取16*[0,1)中的值后取整转16进制字符串大写且不足8位会在前面补0
//等价
o = function(e) {
                for (var t = "", r = 0; r < e; r++)
                    t += a(16 * Math.random()); //16*[0,1)后取整转字符串大写 长度为8
                return i(t, e)
            }
a = function(e) {
    return Math.ceil(e).toString(16).toUpperCase()
}
i = function(e, t) {
    var r = "";
    if (e.length < t)
        for (var n = 0; n < t - e.length; n++)
            r += "0";
    return r + e
}

_uuid

步骤依旧:
这里就直接给Js代码分析了

// // uuid=n 标准的uuid码生成
// var n = function() {
//     var e = o(8)
//       , t = o(4)
//       , r = o(4)
//       , n = o(4)
//       , a = o(12)
//       , s = (new Date).getTime(); //时间戳
//
//     return e + "-" + t + "-" + r + "-" + n + "-" + a + i((s % 1e5).toString(), 5) + "infoc"
// }
//
// //
//  o = function(e) {
//                 for (var t = "", r = 0; r < e; r++)  
//生成长度为e每个字符由16*[0,1)的数取整转16进制字符后转大写的字符串t
//                     t += a(16 * Math.random());
//                 //返回字符串如果长度小于e就补前缀0
//                 return i(t, e)}
//
// a = function(e) {
//                 return Math.ceil(e).toString(16).toUpperCase()
//             }
//
//
// //
// i = function(e, t) {
//                 var r = "";
//                 if (e.length < t)
//                     for (var n = 0; n < t - e.length; n++)
//                         r += "0";
//                 return r + e
//             }

buvid4和sid

直接在spi请求中返回了，那么模拟请求就好了:

响应体返回buvid4:

def b_4():
    resp = requests.get("https://api.bilibili.com/x/frontend/finger/spi")
    data =resp.json()["data"]["b_4"] //b_4和buvid4的值相同，所以取b_4的值
    return data

响应cookies中返回sid:

    res = session.get(
    url='https://api.bilibili.com/x/player/v2',
    params={
        "cid": cid,  //cid 本文h5请求参数分析中得到了来源
        "aid": aid, //cid 本文h5请求参数分析中得到了来源
        "bvid": bvid, //cid 本文h5请求参数分析中得到了来源
    }
    )
    sid = res.cookies.get_dict()["sid"]
    session.cookies.set("sid", sid)

刷

所有请求参数和cookie都搞定后，根据请求发送顺序和cookie的生成逻辑写python代码模拟请求发送
注意:不要忘了固定cookie值和固定请求参数值的给定，时间空间上不要出错。

然后就是ip,一个Ip上发送的很多h5请求可以被破站发现，一发现就可以查出来你在刷播放，可以直接拒绝你的代码请求。

所以花钱上隧道代理：
代理

def get_proxies():
    proxy_host = "tunnel2.qg.net:17955"
    proxy_username = "xxxxxxx"
    proxy_pwd = "xxxxxxxxxxx"

    return {
        "http": "http://{}:{}@{}".format(proxy_username, proxy_pwd, proxy_host),
        "https": "http://{}:{}@{}".format(proxy_username, proxy_pwd, proxy_host),
    }

最后再分享个api，可以监控视频播放量啥的的。

def get_video_id_info(video_url, proxies): //视频链接 接口
    session = requests.Session()
    bvid = video_url.rsplit('/')[-1]
    res = session.get(
        url="https://api.bilibili.com/x/player/pagelist?bvid={}&jsonp=jsonp".format(bvid),
        proxies=proxies
    )
    cid = res.json()['data'][0]['cid']

    res = session.get(
        url="https://api.bilibili.com/x/web-interface/view?cid={}&bvid={}".format(cid, bvid),
        proxies=proxies
    )
    res_json = res.json()
    aid = res_json['data']['aid']
    view_count = res_json['data']['stat']['view']
    duration = res_json['data']['duration']
    print("\n视频 {}，平台播放量为：{}".format(bvid, view_count))
    session.close()
    return aid, bvid, cid, duration, int(view_count)

你可能感兴趣的:(Python--数据收集,python,网络爬虫,大数据)

Python商务数据分析——Matplotlib 数据可视化学习笔记爱吃代码的小皇冠 python numpy matplotlib pandas 学习笔记数据分析
一、Matplotlib基础认知1.1库功能与定位核心作用：将数据可视化展示，提升数据直观性与说服力应用场景：绘制折线图、饼图、柱状图等2D/3D图表双接口模式：MATLAB风格：通过pyplot函数快速绘图（自动管理图形对象）面向对象：显式创建Figure和Axes对象（适合复杂绘图）1.2核心对象架构容器类：图(Figure)、坐标系(Axes)、坐标轴(Axis)、刻度(Tick)基础类：线
Python爬虫：Requests与Beautiful Soup库详解 Pu_Nine_9 Python爬虫的学习 python 爬虫 requests beautifulsoup
前言在当今数据驱动的时代，网络爬虫成为了获取网络信息的重要工具。Python作为最流行的爬虫语言之一，拥有丰富的库支持。今天我们就来介绍两个最基础也最强大的爬虫库：Requests和BeautifulSoup，并补充关于lxml解析器和RequestsSession的内容。一、Requests库：让HTTP请求变得简单Requests是一个优雅而简单的HTTP库，它让发送HTTP请求变得非常简单，
centos 7+hadoop 2.7.3 mozhw c/c++linu/unix java
安装JDK版本:jdk-8u131-linux-x64.tar.gz需要先删除系统自带的openjdk先查找java再移除[hadoop@localhost~]$rpm-qa|grepjavajava-1.7.0-openjdk-1.7.0.111-2.6.7.8.el7.x86_64python-javapackages-3.4.1-11.el7.noarchtzdata-java-2016g-
Python 数据分析：numpy，抽提，基本索引。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy python 数据分析 numpy 开发语言数据挖掘人工智能机器学习
目录1示例代码2欢迎纠错3免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowchart流程图导出与导
Python 数据分析：pandas 的 DataFrame，抽行、抽列、抽行列。df[] / df.loc[] / df.iloc[]，位置索引 / 标签索引，切片 / 不切片好开心啊没烦恼 Python数据分析 python 数据分析 pandas 开发语言数据挖掘
目录1预备知识：Series1.1生成1.2抽提（1）单条（2）多条不连（3）多条连1.3取值2正文：DataFrame2.1生成df2.2抽提2.2.1抽列（1）单列df[]df.loc[]df.iloc[]（2）多列不连df[]df.loc[]df.iloc[]（3）多列连df[]←不存在这种抽提法！df.loc[]df.iloc[]2.2.2抽行（1）单行df[]df.loc[]df.ilo
Python 数据分析：numpy.transpose() ，转换维度。听故事学知识点怎么这么容易？好开心啊没烦恼 numpy numpy python 开发语言数据分析数据挖掘人工智能机器学习
目录1一维数组2二维数组3三维数组4欢迎纠错5免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML图表FLowch
Python 编辑器：Geany，不是内部或外部命令，系统找不到指定路径
目录1找到设置选项2开始设置2.1complie2.2execute3欢迎纠错4免费爬虫------以下关于Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，
基于django+Spark+大数据+爬虫技术的国漫推荐与可视化平台设计和实现(源码+论文+部署讲解等) 阿勇学长大数据项目实战案例 Java精品毕业设计实例 Python数据可视化项目案例大数据 django spark 国漫推荐与可视化平台毕业设计 Java
博主介绍：✌全网粉丝50W+,csdn特邀作者、博客专家、CSDN新星计划导师、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流✌技术范围：SpringBoot、Vue、SSM、HLMT、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、小程序、安卓app、大数据、物联网、机器学习等
【有源码】基于爬虫+python的美食数据分析与可视化flask热门美食推荐系统的设计与实现 Q2643365023 Python 大数据 python 爬虫计算机毕设选题毕业设计源码计算机毕设项目数据分析美食推荐系统
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2系统页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：PyCharm2系统设计2.1设计背景在现代社会中，人们对美食的兴趣和需求日益增长。互联网和社交媒体的普及使得各种美食信息、评论和推荐变
【零基础学AI】第10讲：线性回归 1989 0基础学AI 人工智能线性回归算法 python 回归 numpy 开源
本节课你将学到理解线性回归的原理和应用场景掌握最小二乘法的基本思想使用Python构建房价预测模型学会评估回归模型的性能指标开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseabornnumpy前置知识第9讲：机器学习概述基本的Python和数据处理能力核心概念什么是
【零基础学AI】第9讲：机器学习概述 1989 0基础学AI 人工智能机器学习 python numpy devops 开源
本节课你将学到理解什么是机器学习，以及它与传统编程的区别掌握监督学习、无监督学习的基本概念使用scikit-learn完成你的第一个机器学习项目构建一个完整的iris花朵分类器开始之前环境要求Python3.8+JupyterNotebook或任何PythonIDE需要安装的包pipinstallscikit-learnpandasmatplotlibseaborn前置知识基本的Python语法（
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
NLP随机插入 Humbunklung 机器学习自然语言处理人工智能 python nlp
文章目录随机插入示例Python代码示例随机插入随机插入是一种文本数据增强方法，其核心思想是在原句中随机选择若干位置，插入与上下文相关的词语，从而生成新的训练样本。这种方法能够增加句子的多样性，提高模型对不同词序和表达方式的鲁棒性。示例原句：机器学习可以提升数据分析的效率。随机插入后（插入“显著”）：机器学习可以显著提升数据分析的效率。Python代码示例下面是一个简单的随机插入实现，假设我们有一
Python全栈数据工程师养成攻略-全部代码实战详解国营窝窝乡蛮大人
本文还有配套的精品资源，点击获取简介：本攻略提供全面资源，帮助初学者系统掌握Python全栈数据工程师的核心技能，包括数据处理、分析、数据库管理及Web开发。攻略详细指导如何使用.gitignore保持项目整洁，通过README.md文档深入了解项目内容，以及如何操作data目录中的数据集和codes目录中的Python代码，实现从数据处理到Web应用构建的全流程。学习内容涵盖数据ETL、Pand
python爬虫登录校验之滑块验证、图形验证码（OCR） yuwinter Python python 爬虫 ocr 滑块验证
在爬虫过程中，验证码和滑块验证是常见的反爬措施。针对这些挑战，通常采用OCR识别图形验证码和模拟滑块拖动来处理滑块验证。以下是如何处理这两种类型验证的详细方法。1.图形验证码（OCR）a.使用tesserocr和Pillow处理图形验证码tesserocr是基于TesseractOCR引擎的Python封装，常用来识别简单的图形验证码。如果验证码不太复杂，可以用它来识别文本。步骤：安装依赖：pip
python + selenium通过滑块验证 weixin_51144854 python selenium 爬虫 opencv
1、介绍使用python进行自动化操作或者爬虫过程中，可能会遇到需要进行验证的情况。本文介绍了两种通过滑块验证的方法：轮廓检测通过OpenCV进行轮廓检测，找到滑块背景中缺口的位置，计算缺口到滑块的距离。模板匹配通过OpenCV分析滑块背景图与滑块的相似度，找到滑块背景图中与滑块最相似的区域就是缺口的位置，然后计算缺口到滑块的距离。2、轮廓检测测试地址：https://accounts.douba
Python爬虫实战：研究MarkupSafe库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 MarkupSafe
1.引言1.1研究背景与意义随着互联网数据量的爆炸式增长，网页内容自动提取与分析技术在信息检索、舆情监控、数据挖掘等领域的需求日益凸显。网络爬虫作为获取网页内容的核心工具，能够自动化采集互联网信息。然而，直接渲染爬取的网页内容存在安全隐患，特别是跨站脚本攻击（XSS）风险。攻击者可能通过注入恶意脚本窃取用户信息或破坏网站功能。MarkupSafe作为Python的安全字符串处理库，能够有效处理不可
Python爬虫实战：研究sanitize库相关技术 ylfhpy 爬虫项目实战 python 爬虫网络开发语言安全 sanitize
1.引言1.1研究背景与意义在当今数字化时代，互联网已成为人们获取信息、交流互动的重要平台。随着Web2.0技术的发展，用户生成内容(UGC)、社交媒体嵌入、第三方插件等功能极大丰富了网页的内容和交互性，但也带来了严峻的安全挑战。根据Web应用安全联盟(WAS)的统计数据，2025年全球范围内因网页安全漏洞导致的数据泄露事件超过15万起，造成的经济损失高达250亿美元。其中，跨站脚本攻击(XSS)
Python爬虫实战：研究xmltodict库相关技术 ylfhpy 爬虫项目实战 python 爬虫开发语言 xmltodict
1.引言1.1研究背景与意义气象数据在农业生产、交通规划、灾害预警等多个领域具有重要应用价值。传统的气象数据获取方式主要依赖于气象部门发布的统计信息，存在更新不及时、数据维度有限等问题。随着互联网技术的发展，气象网站提供了丰富的实时气象数据，但这些数据通常以HTML、XML等非结构化或半结构化形式存在，难以直接利用。因此，开发高效的数据采集与解析系统具有重要的现实意义。1.2国内外研究现状网络爬虫
Pthon httpx 使用代理下载文件（qbit）
前言技术栈Python3.11.8httpx0.28.1示例代码#encoding:utf-8#author:qbit#date:2025-06-30#summary:httpx使用代理下载文件importhttpxproxy='http://127.0.0.1:8081'defDownFile(url,file):withopen(file,'wb')asf:withhttpx.stream('
python网络安全实战_基于Python网络爬虫实战 weixin_39907850 python网络安全实战
文件的操作：一般都要使用os模块和os.path模块importos.pathos.path.exists('D:\\Python\\1.txt')#判断文件是否存在abspath(path)#返回path所在的绝对路径dirname(p)#返回目录的路径exists(path)#判断文件是否存在getatime(filename)#返回文件的最后访问时间getctime(filename)#返回
Java流式处理太阳伞下的阿呆 java 生成器迭代器 stream 流式处理
在Java中，没有直接类似Python生成器的语法，但可以通过迭代器（Iterator）和流式处理（如使用Spliterator或ReactiveStreams）来实现类似生成器的功能。此外，也可以通过BlockingQueue和线程的组合实现异步文件解压流。以下是几种实现方式：**方法1：使用****Iterator**实现一个Iterator，在每次调用next()时返回解压完成的下一个文件名
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘numpy’问题
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘numpy’问题摘要在日常Python开发过程中，pipinstall相关的问题频繁困扰着新手和老手。尤其是在PyCharm控制台下执行pipinstallnumpy后，仍然报ModuleNotFoundError:Nomodulenamed'n
【Python系列PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘flask’问题 lyzybbs 全栈Bug解决方案专栏 python pycharm pip sklearn 开发语言 flask pandas
【Python系列PyCharm控制台pipinstall报错】如何解决pip安装报错ModuleNotFoundError:Nomodulenamed‘flask’问题摘要在进行Python开发时，我们常常会遇到通过pipinstall安装依赖包时出现的各种问题。其中最常见的报错之一是ModuleNotFoundError:Nomodulenamed‘flask’。这个错误通常发生在安装Flas
MCP+A2A：从实验室到生产环境的落地之旅 CarlowZJ AI应用落地+MCP+A2A 数据库 MCP+A2A
目录摘要一、引言二、MCP与A2A概念讲解（一）MCP（ModelContextProtocol）（二）A2A（Application-to-Application）（三）MCP与A2A的融合三、MCP+A2A技术架构图与工作流程图（一）整体架构图（二）工作流程图四、MCP+A2A代码示例（一）基于Python的MCP+A2A通信示例（二）基于Java的MCP+A2A应用集成示例五、MCP+A2A
Python爬虫实战：研究difflib库相关技术 ylfhpy 爬虫项目实战 python 爬虫 easyui 开发语言前端 difflib
1.引言1.1研究背景与意义在信息爆炸的数字时代，互联网每天产生海量文本内容。据统计，全球新闻网站日均发布文章超过300万篇，社交媒体平台产生的文本信息量更以亿级单位增长。这种信息过载带来了内容同质化、抄袭剽窃等问题，给新闻媒体行业、学术研究领域和搜索引擎优化等带来了挑战。文本相似度分析作为自然语言处理的重要分支，能够有效识别内容间的相似程度，具有重要的应用价值：新闻媒体行业：通过检测新闻抄袭和重
机器学习在智能供应链中的应用：需求预测与库存优化 Blossom.118 机器学习与人工智能机器学习人工智能机器人深度学习 python 神经网络 sklearn
在当今全球化的商业环境中，供应链管理的效率和灵活性对于企业的竞争力至关重要。智能供应链通过整合先进的信息技术，如物联网（IoT）、大数据和机器学习，能够实现从原材料采购到产品交付的全流程优化。机器学习技术在智能供应链中的应用尤为突出，尤其是在需求预测和库存优化方面。本文将探讨机器学习在智能供应链中的应用，并分析其带来的机遇和挑战。一、智能供应链中的需求预测准确的需求预测是供应链管理的核心。需求预测
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
python系列教程246——多态人工智能AI技术 python系列教程 python 开发语言
朋友们，如需转载请标明出处：https://blog.csdn.net/jiangjunshow声明：在人工智能技术教学期间，不少学生向我提一些python相关的问题，所以为了让同学们掌握更多扩展知识更好地理解AI技术，我让助理负责分享这套python系列教程，希望能帮到大家！由于这套python教程不是由我所写（有时候有空也会参与编写），所以不如我的人工智能教程风趣幽默，学起来比较枯燥；但它的知
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多

按字母分类： A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 其他