_文书先生

Python反反爬虫：JavaScript 逆向爬虫（四）JS Hook的使用：

在JS逆向的时候，我们经常需要追踪某些方法的堆栈调用情况，但是很多情况下，一些JS变量或者方法名经过混淆之后是非常难以捕捉的，我们学习了断点的调试，调用栈查看等技巧，但仅仅凭借这些技巧还不足以应对多数的 JS 逆向

Hook技术：

Hook技术又叫钩子技术，指在程序运行的过程中，对其中的某个方法进行重写，在原先的方法前后加入我们自定义的代码，相当于在系统没有调用该函数之前，钩子程序就先捕获该消息，得到控制权，这时钩子函数既可以加工处理（改变）该函数的执行行为，也可以强制结束消息的传递。

要对 JS代码进行Hook 操作，就需要额外在页面中执行一些有关 Hook 逻辑的自定义代码，那么问题来了。怎么才能在浏览器中方便地执行我们所期望执行的 JS 代码呢？这里推荐一个插件，叫 Tampermonkey，这个插件的功能非常强大，利用它我们几乎可以在网页中执行任何 JS 代码，实现我们想要的功能

Tampermonkey:

Tampermonkey, 中文也叫油猴，它是一款浏览器插件，支持Chrome, 利用它，我们可以在浏览器加载页面时自动执行某些 JS 脚本，由于执行的是 JS，所以我们几乎可以在网页中完成任何我们想实现的效果，例如自动爬虫，自动修改页面，自动响应事件等

其实油猴的用途远远不止这些，只要我们想要的功能能用 JS 实现， Tampermonkey 就可以帮我们做到，比如，我们可以将 Tampermonkey 应用到 JS 逆向分析中，去帮助我们更方便的分析一些JS 加密和混淆的代码

安装 Tampermonkey:

首先我们需要安装油猴插件，我们使用的浏览器是 Chrome, 直接在 Chrome 应用商店或者 Tampermonkey 官网上下载并安装即可，安装完成之后呢，浏览器右上角会出现油猴插件图标，这样就表示安装成功了：

获取脚本：

Tampermonkey 运行的是 JS 脚本，每个网站都能有对应的脚本运行，不同的脚本能完成不同的功能，我们既可以自定义脚本，也可以用已经写好的很多脚本，毕竟有些轮子有了，我们就不需要再造了

脚本编写：

除了使用别人已经写好的脚本外，我们也可以自己编写脚本来实习想要的功能，编写脚本其实就是写 JS代码，只需要懂一些 JS 语法就好了，另外，我们需要遵循脚本的一些写作规范，其中就包括一些参数的设置

下面我们就简单实现一个小脚本，首先，点击Tempermonkey 插件图标，再点击管理面板项，打开脚本管理页面：

这里显示已经有了一个油猴脚本，当然，我们可以自己创建，也可以从第三方网站下载和安装，另外这里也停工了编辑，调试，删除等管理内容

解下来让我们创建一个新脚本，点击左侧 + 按钮：

初始化代码如下：

// ==UserScript==
// @name         New Userscript
// @namespace    http://tampermonkey.net/
// @version      0.1
// @description  try to take over the world!
// @author       You
// @match        http://*/*
// @icon         data:image/gif;base64,R0lGODlhAQABAAAAACH5BAEKAAEALAAAAAABAAEAAAICTAEAOw==
// @grant        none
// ==/UserScript==

(function() {
    'use strict';

    // Your code here...
})();

在上面这段代码中，最前面的是一些注释，它们非常有用，这部分内容叫作：UserScript Header

我们可以在里面配置一些脚本信息，如：名称，版本，描述，生效站点等。

下面简单介绍一下 UserScript Header 的一些参数意义：

@name： 脚本的名称，就是在控制面板显示的脚步名称

@namespace： 脚本的命名空间

@version：脚本的版本，主要做版本更新时用

@author： 作者

@description：脚本描述

@homepage， @homepageURL, @website， @source： 作者主页，用于在Tampermonkey 选项页面上从脚本名称点击跳转，请注意，如果 @namespace 标记以 http:// 开头，此处也一样

@icon, @iconURL, @defaulticon： 降低分辨率图标

@icon64, @icon64URL： 64 x 64 高分变绿图标

@updateURL： 检查更新的网址，需要定义 @version

@downloadURL： 更新下载脚本的网址，如果定义成none，就不会检查更新

@supportURL： 报告问题的网址

@include： 生效页面，可以配置多个，但注意这里并不支持 URL Hash

例如：

// @include http://www.tampermonkey.net/*

// @include http://*

// @include https://*

// @include *

@match： 约等于@include 标签，可以配置多个，

@exclude： 不生效页面，可配置多个，优先级高于 @include 和 @match

@require： 附加脚本网址，相当于引入外部的脚步，这些脚步会在自定义脚本执行之前执行，比如引入一些必需的库，如 jquery等，这里可以支持配置多个@require参数

例如：

// @require https://code.jquery.com/jquery-2.1.4.min.js

@resource：预加载资源，可通过GM_getResourceUrl 和 GM_getResourceText 读取。

@connect： 允许被GM_xmlhttpRequest 访问的域名，每行1个

@run-at： 脚本注入的时刻，如页面刚加载时，某个事件发生后等

document-start：尽可能早执行此脚本

document-body： DOM的body出现时执行

document-end： DOMContentLoaded 事件发生时或发生后执行

document-idle： DOMContentLoaded 事件发生后执行，即DOM 加载完成之后执行，这是默认选项

document-menu：如果浏览器上下文菜单（仅限桌面Chrome浏览器）中点击该脚本，则会注入该脚本，注意如果使用此值，则忽略所有 @include 和 @exclude 语句

@grant：用于添加GM函数到白名单，相当于授权某些GM函数的使用权限

例如：

// @grant GM_setValue

// @grant GM_getValue

如果没有定义过 @grant 选项，油猴会猜测所需要的函数使用情况

@noframes： 此标记使脚本在主页面运行，但不会在ifame上云行

@nocompat： 由于部分代码可能是为专门的浏览器所写，通过此标记，油猴会知道脚本可以运行的浏览器，例如： // @nocompat Chrome. 这样就制定了脚本只在Chrome浏览器运行

除此之外， Tampermonkey 还定义了一些API，使得我们可以方便的完成某个操作

GM_log： 将日志输出到控制台

GM_setValue： 将参数内容保存到浏览器存储中

GM_addValueChangeListener： 为某个变量添加监听，当这个变量的值改变时，就会触发回调

GM_xmlhttpRequest： 发起Ajax请求

GM_download： 下载某个文件到磁盘

GM_setClipboard： 将某个内容保存到粘贴板

此外还有很多其它API，大家感兴趣可以到：

https://www.tampermonkey.net/documentation.php 查看

在UserScript Header 下发，使 JS 函数和调用的代码，其中， 'use strict' 标明代码使用JS 的严格模式，在严格模式下，可以消除JS语法的一些不合理，不严谨之处，减少一些怪异行为，如不能直接使用过未声明的变量，这样可以保证代码运行安全，同时提高编译器的效率，提高运行速度，

在下方 // Your code here 。。。处就可以编写自己的代码了

实战分析：

下面我们通过一个简单的 JS逆向案例来演示如何实现 JS 的 hook 操作，轻松找到某个方法执行的位置，从而快速定位逆向入口，

接下来，我们来看一个简单的网站：https://login1.scrape.center/ 这个网站的结构非常简单，只有用户名，密码文本框，和登录按钮，但是不同的是，点击登录按钮的时候，表单提交post的内容并不是单词的用户名和密码，而是一个加密后的 token

我们不需要关心响应的结果和状态，主要看请求的内容就好，

可以看到，点击登录后，发起了一个POST请求，内容为 Ajax数据，

确实没有像 username password 的内容，怎么模拟登录呢？

模拟登录的前提就是找到当前 token生成的逻辑，这个token和用户名，密码是什么关系呢？

这里我们就可能思考了，本身输入的是用户名和密码，但是提交的时候却变成了一个 token，经过观察并结合一些经验可以看出， token的内容非常像 Base64编码，这就代表，网站可能首先将用户名和密码混为一个新的字符串，然后经过了一次base64编码，最后将其赋值为 token 来提交了

那我们就来验证一下吧，探索一下网站的JS 代码里面是如何实现的，

首先我们看一下网站的源代码，打开 Sources 面板，看起来都是 webpack 打包之后的内容经过了一些混淆：

这么多混淆代码，总不能一点点扒着看吧，解决方法其实有两种，一种就是前面所学的Ajax断点，另外一种就是 hook

Ajax断点：

由于这个请求正好是Ajax请求，所以我们可以添加一个XHR断点来监听，把POST的网址加到断点上面，在Sources面板右侧添加一个XHR 断点，匹配内容就填当前域名：

此时如果我们再点击登录按钮，发起一次Ajax请求，就可以进入断点了，然后再观察堆栈信息，就可以一步步找到编码的入口了，

一步一步找，最后可以找到入口其实在 onSubmit方法这里，但实际上我们观察到，这里断点的栈顶还包括了一些 Promise 相关的内容，而我们真正想找的是用户名和密码经过处理，再进行 Base64 编码的地方，这些请求的调用实际上和我们找寻入口没有很大的关系

另外，如果我们想找的入口位置并不伴随这一次Ajax 请求，这个方法就没法用了

Hook:

第二种可以快速定位入口的方法，就是使用 Tampermonkey 自定义 JS，实现某个JS 方法的hook， hook哪里呢？很明显， hook base64编码的位置就好了

在JS 中， base64的实现方法就是 btoa 方法，在 JS中该方法用于将字符串编码成 Base64 字符串，因此我们来 hook btoa 方法就好了

新建一个 Tampermonkey 脚本，其内容如下：

// ==UserScript==
// @name         HookBase64
// @namespace    https://login1.scrape.center/
// @version      0.1
// @description  Hook Base64 encode function
// @author       Evan
// @match        https://login1.scrape.center/
// @grant        none
// ==/UserScript==

(function() {
    'use strict';

    // Your code here...
    function hook(object, attr){
        var func = object[attr]
        object[attr] = function () {
            console.log('hooked', object, attr)
            var ret = func.apply(object, arguments)
            debugger
            return ret
        }

    }
    hook(window, 'btoa')
})();

首先，我们定义了一些UserScript Header, 包括@name, @match等，这里比较重要的就是 @name, 表示脚本的名字，另外一个就是 @match, 它代表脚本生效的网址

接着，我们定义了hook 方法，这里给其传入 object 和attr 参数，意思就是 Hook object 对象的 attr 参数，例如，如果我们想要 Hook alert 方法，那就把object 设置为 window，把attr 设置为字符串 alert，这里我们想要 Hook Base64 编码方法，而在 JS中， base64 方法就是用 btoa方法实现的，所以这里只需要 Hook window 对象的 btoa 方法即可

那么， Hook是怎么实现的呢？我们来看一下， var func = object[attr] 相当于我们先把它赋值为一个变量，即我们调用 func 方法就可以实现和原来相同的功能，接着，我们直接改写这个方法的定义，将 object[attr] 改写成一个新的方法，在新的方法中，通过 func.apply 方法又重新调用了原来的方法，这样我们就可以保证前后方法的执行效果不受影响，之前这个方法该干啥还干啥

但是和之前不同的是，现在我们自定义方法之后，可以在 func方法执行前后加入自己的代码，如通过 console.log 将信息输出到控制台，通过 debugger进入断点等，在这个过程中，我们先临时保存下来 func方法，然后定义一个新的方法，接管程序控制权，在其中自定义我们想要的实现，同时在新的方法里面重新调回 func方法，保证前后结果不受影响，所以，我们达到了在不影响原有方法效果的前提下，实现在方法前后自定义的功能，这就是Hook的过程。

最后，我们调用 hook 方法，传入 window对象和 btoa 字符串，保存

接下来刷新页面，这是我们可以看到这个脚本在当前页面就生效了， Tempermonkey 插件面板提示已经启用，同时，在 Sources 面板下的Page 选项卡中，可以观察到我们定义的 JS 脚本被执行了

输入用户名和密码，然后点击登录按钮，成果进入断点模式并停了下来，代码就卡在我们自定义的 debugger这行代码的位置：

成功 Hook住了，这说明 JS代码在执行过程中，调用了 btoa方法，

这时看一下控制台，输出流 window对象和 btoa方法，

这样我们就顺利找到了 Base64编码操作这个入口，然后看一下堆栈信息，已经不会出现 Promise 相关的信息了，其中清晰地呈现了 btoa方法逐层调用过程：

另外再观察下 Local 面板，看看arguments 变量是怎样的：

可以说是一目了然， arguments 就是指传给 btoa方法的参数， ret 就是 btoa方法返回的结果，可以看到， arguments 就是 username 和 password 通过 JSON 序列化之后的字符串，经过 Base64 编码之后得到的值恰好就是Ajax请求参数 token的值

结果几乎也明了了，我们还可以通过调用栈找到 onSunbmit 方法的处理源码：

仔细看看， encode方法其实就是调用了 btoa 方法，这就是一个Base64 编码的过程，我们还可以进一步添加断点验证，比如在调用 encode方法的那行添加断点：

我们在编码这行逻辑上添加一个断点，然后将debugger放开，重新登录，可以发现，程序会停留在我们打断点的这行位置

这时候，如果我们在 Watch 面板下输入 this.form 验证此处是否为在表单中输入的用户名和密码：

没问题，然后逐步调试，可以观察到，下一步就跳到了我们 Hook 的位置，这说明调用了 btoa方法，可以看到，返回等结果就是 token：

、整体逻辑就是对登录表单的用户名和密码进行 JSON 序列号，然后调用 encode（也就是 btoa 方法），并把encode 方法的结果赋值给token 发起登录的Ajax请求，

以后如果观察出一些门到，可以使用这种方式来尝试，如： Hook encode 方法， decode 方法， stringify 方法， log 方法， aler 方法等，简单又高效

Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
requests的使用
一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
Python爬虫实战：基于最新技术的定时签到系统开发全解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言人工智能自动化知识图谱
摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
Python爬虫实战：使用最新技术爬取新华网新闻数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 scrapy 音视频
一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
Python爬虫：从图片或扫描文档中提取文字数据的完整指南 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言数据挖掘 c++
1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
爬虫技术：从基础到高级，探索数据抓取的奥秘
一、基础爬虫：揭开数据抓取的神秘面纱对于初学者来说，基础爬虫是入门的起点。基础爬虫的目标通常是静态网页，这些网页的内容在加载时就已经确定，不需要与服务器进行交互。通过简单的HTTP请求和HTML解析，就可以获取到网页中的数据。在基础爬虫中，最核心的技术是HTML解析。HTML是网页的结构语言，它定义了网页的布局和内容。爬虫程序需要通过解析HTML，找到其中的文本、图片、链接等元素。常用的HTML解
国产替代Spring Boot框架的最佳之选——Solon 遇码开发工具 spring boot 后端 java solon
Java很好。SpringBoot也很好。有没有可以与SpringBoot对标的国产框架？请你记住，它叫Solon。本文推荐Solon，是因为我自己的一段经历。我主要使用的开发语言是Python，本着技多不压身的伟大指导思想，很早就想要征服SpringBoot，无奈尝试多次始终不得其要领，也就草草收场。前段时间因为项目需要，偶然了解到Solon，不仅可以平替SpringBoot，还是国产，还有我喜
Github 2025-01-07Python开源项目日报 Top10 老孙正经胡说 github 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-01-07统计)共有10个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Python项目10TypeScript项目1C++项目1OpenHands:人工智能驱动的软件开发代理平台创建周期：195天开发语言：Python协议类型：MITLicenseStar数量：31753个Fork数量：3660次关注人数：31753人
python 计算生态概览的概述
文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
Python生态全景图：8大主流框架优缺点及选型指南 Sammyyyyy python 开发语言 django fastapi flask
引言：Python的“万能”生态Python为何能成为当今最流行的编程语言之一？答案并非其语法本身，而在于其强大且多样化的框架生态。这个生态系统如同一片繁荣的大陆，覆盖了从Web后端到人工智能的几乎所有技术领域，让开发者能用一种语言胜任多种截然不同的任务。本文将化作一张“技术地图”，快速带你游览Python在Web开发、数据科学和网络爬虫三大领域的8个标志性框架。我们的目标是迅速掌握它们的精髓，让
从零到一：王者荣耀英雄数据采集与技能图谱异步爬虫实战程序员威哥爬虫 python 开发语言自动化 scrapy
引言：随着游戏行业的迅猛发展，王者荣耀作为一款深受玩家喜爱的手游，其英雄数据和技能信息成为了爬虫开发者研究的热点之一。通过抓取英雄数据并对技能图谱进行可视化，我们不仅能够更好地理解游戏数据，还可以为游戏爱好者或数据分析师提供一个有价值的数据分析平台。本篇文章将带你一步步实现王者荣耀英雄数据的采集与技能图谱的可视化，并使用异步爬虫技术提高爬取效率。我们将结合实际开发中的需求，深入讲解如何使用异步爬虫
Python 网络爬虫中 robots 协议使用的常见问题及解决方法
在Python网络爬虫开发中，robots协议的正确应用是保证爬虫合规性的关键。然而，在实际使用过程中，开发者常会遇到各种问题，若处理不当，可能导致爬虫被封禁或引发法律风险。本文将梳理robots协议使用中的常见问题，并提供针对性的解决方法。一、协议解析不准确导致的合规性问题1.1误读User-agent通配符范围问题表现：将User-agent:*错误理解为适用于所有场景，忽略了特定爬虫的单独规
【网络与爬虫 24】爬虫数据存储方案：从文件到数据库的全面指南莫比乌斯@卷技术技巧 #网络与爬虫网络爬虫数据库
【网络与爬虫24】爬虫数据存储方案：从文件到数据库的全面指南关键词：爬虫数据存储、CSV、JSON、Excel、SQLite、MySQL、MongoDB、Redis、数据持久化、数据管理摘要：本文全面介绍爬虫数据存储的各种方案，从简单的文本文件、CSV、JSON到Excel表格，再到SQLite、MySQL等关系型数据库，以及MongoDB、Redis等NoSQL数据库。通过对比分析不同存储方式的
Embabel：下一代企业级JVM AI智能体框架的革命引言：AI时代的Java生态新机遇 DZSpace 软件开发 jvm 人工智能 java
在生成式AI（如ChatGPT、Claude、Gemini）席卷全球的背景下，Python凭借其丰富的AI工具链（如PyTorch、LangChain）成为主流开发语言。然而，在企业级软件开发领域，Java和JVM生态（如Kotlin、Scala）长期以来占据主导地位，尤其是在金融、电信、电商等对稳定性、可扩展性、事务管理要求极高的场景。RodJohnson（Spring框架创始人）敏锐地发现了这
测试你的Python环境是否配置成功川星弦 python 开发语言
#导入需要的库importrequestsfrombs4importBeautifulSoup#目标网页URLurl='https://quotes.toscrape.com/'#这是一个专门用来练习爬虫的网站#设置请求头，模拟浏览器访问headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHT
Go爬虫开发学习记录朱颜辞镜花辞树‎ golang 爬虫学习
Go爬虫开发学习记录基础篇：使用net/http库Go的标准库net/http提供了完善的HTTP客户端功能，是构建爬虫的基石：packagemainimport("fmt""io""net/http")funcfetchPage(urlstring)string{//创建自定义HTTP客户端client:=&http.Client{}//构建GET请求req,_:=http.NewRequest
Julia爬取数据能力及应用场景 q56731523 julia 开发语言
Julia是一种高性能编程语言，特别适合数值计算和数据分析。然而，关于数据爬取（即网络爬虫）方面，我们需要明确以下几点：虽然它是一门通用编程语言，但它的强项不在于网络爬取（WebScraping）这类任务。而且Julia的生态系统在爬虫方面还不够成熟和丰富。所以说Julia爬取数据后立即进行高性能的数据分析这点还是有一些优势。Julia虽然以高性能数值计算和数据分析见长，但它同样具备网络爬取（We
Spring AI 教程（一）概述 PG Thinker Spring AI Spring ChatGPT 人工智能 spring java Spring AI
前言我在23年11月那会儿关注了SpringAI项目，当时我恰好正热衷于大语言模型的开发，然而当时主流的开发语言只有Python，Java生态中并没有强大的框架供我们使用。我当时也是靠一些封装OpenAI接口的SDK包来玩ChatGPT的，但是整体的体验较差。好在我通过一些技术交流群了解了一个正在处于实验阶段的项目：SpringAI。于是果断前往它的Github仓库进行学习，而我也恰好见证了S
Lua嵌入式爬虫实现步骤 q56731523 lua 爬虫开发语言 r语言
在Lua中实现嵌入式爬虫，通俗点说就是指在一个宿主程序（如Nginx/OpenResty、Redis等）中使用Lua脚本来完成网络爬取任务。由于Lua本身的标准库并不包含网络请求功能，因此我们需要依赖宿主环境提供的网络库。在Lua中实现嵌入式爬虫通常指在资源受限环境（如OpenResty/Nginx、Redis、IoT设备）中运行的轻量级网络爬取工具。以下是关键实现方案和示例：核心方案：基于Ope
Scala实现网页数据采集示例
Scala可以轻松实现简单的数据采集任务，结合AkkaHTTP（高效HTTP客户端）和Jsoup（HTML解析库）是常见方案。Scala因为受众比较少，而且随着这两年python的热门语言，更让Scala不为人知，今天我将结合我所学的知识实现一个简单的Scala爬虫代码示例。以下就是我整理的一个完整示例，演示如何抓取网页标题和链接：示例代码importakka.actor.ActorSystemi
使用 Kotlin 编写的爬虫程序，用于爬取简历采集系统智联和无忧的内容
这是一个使用Kotlin编写的爬虫程序，用于爬取简历采集系统智联和无忧的内容。使用代理信息proxy_host:www.duoip.cn,proxy_port:8000。以下是每行代码和步骤的详细解释：```kotlinimportorg.jsoup.Jsoupimportorg.jsoup.nodes.Documentimportorg.jsoup.nodes.Elementimportorg.
Scrapy分布式爬虫进阶：动态代理与并发优化实战 Kelaru python project scrapy 分布式爬虫 python
写在前面。。。继“动态网页”“登录网站”“经验总结”“分布式爬虫”后，本篇献上Scrapy-Redis进阶实战，基于QuotestoScrape，聚焦动态代理池和并发优化，代码简洁，经验点燃智慧，适合新手到老兵。准备工作1.环境配置Python：3.8+（推荐3.10）。依赖安装：pipinstallscrapy==2.11.2scrapy-redis==0.7.4redis==5.0.8requ
Python 爬虫实战：电商商品评论深度爬取与用户情感分析系统搭建西攻城狮北 python 爬虫开发语言电商
引言在电商领域，商品评论是消费者决策的重要参考，也是商家优化产品和服务的关键依据。通过爬取和分析电商商品评论，可以深入了解用户需求、产品优缺点以及市场趋势。本文将详细介绍如何使用Python构建一个完整的电商商品评论爬取系统，并进行用户情感分析。我们将涵盖从爬虫设计、数据抓取、数据清洗、情感分析到可视化的全流程。1.项目背景与目标电商平台上，商品评论通常包含以下信息：用户名评论内容评论时间评分（星
Java基础学习笔记2 qichi333 学习笔记 java eclipse
今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
Selenium使用指南
点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快Selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出