十一姐

爬虫小白入门在服务器上-部署爬虫或者开服务接口并供给他人访问

- - 一、准备工作-服务器
  - - 1、先准备一个服务器（以阿里云为例子）
    - 2、开通服务端口号访问权限
  - 二、准备工作-Xshell登录服务器
  - - 1、xshell基本登录操作
    - 2、xftp基本操作
  - 三、部署代码到服务器上
  - - 1、部署一个python爬虫脚本在服务器上定时运行等
    - 2、部署一个python服务接口他人调用访问等
    - 3、部署一个js服务接口他人调用访问等
    - 4、启动一个企业微信群告警的方式
    - 5、通过git的方式部署
  - 四、常用操作命令
  - - 1、linux常用命令：
    - 2、windows常用命令
    - 3、node常用命令

一、准备工作-服务器

1、先准备一个服务器（以阿里云为例子）

1、先准备一个云服务器，比如阿里云服务器新人免费使用3个月 , 或者腾讯云服务器，又或者华为云服务器都可以，但是提醒注意下，新用户的首单资格优惠力度最大，所以最好在一年有活动的时候买，比如618或者双十一，当然免费的话最好月初的时候开始试用
2、注意注意：可能我是不熟悉，走了一个坑，如果你在一个月的月底开始试用3个月的话，那么那一个月就算用掉了，所以建议在月初的时候开始试用，薅羊毛获得最大时长；因为比如我就是5月22号试用的，到7月31号就到期了，这时候其实已经少试用了20多天了~~ ；所以记得问下客服，如果现在开始试用，云服务器到期的具体时间点
3、购买服务器后，登录到这里，然后重置密码，然后强制重启
4、快捷跳到后台-跳到这个控制台也可以选择对应产品跳到过来
可能这个时候大多数小白和我一样没啥概念，反正就先有个认识，这三种服务器的类型分类如下，而我们免费3个月的是云服务器ECS，所以点击这个进到对应后台
又比如腾讯云服务器，这里也有三种分类服务器，比如我第一次使用的是轻量应用服务器 ，所以点这个进到对应后台，没啥概念的小白的我，反正就先这样~
5、点击实例，如果没有显示你拥有的服务器，则地址位置看下是哪个区域，然后进行选择下

2、开通服务端口号访问权限

1、开通可以访问的端口号，只有开通了端口号，才能正常连接；在安全组-管理规则-手动添加对应端口，和授权对象ip ; 这里的意思是比如你要在服务器上启动一个服务比如http:0.0.0.1:4000/test , 想要别人能通过你的服务器外网ip访问到的话，你就得把端口权限打开

2、如下开端口、到https://www.ip138.com/可以看到你的IP
手动添加规则，注意指定的端口，和授权可以访问的ip即可，然后保存
那腾讯云轻量应用服务器也是在添加规则的位置，设定端口和授权ip

二、准备工作-Xshell登录服务器

1、Xshell/Xftp下载地址，简言之，Xshell负责环境代码部署，Xftp负责文件或代码的同步与传输，搭配使用更方便
2、下载安装好后，如下，Xftp和Xshell的区别：我们在Xftp上的操作，在Xshell同样可以，只是Xftp通过可视化界面和点击、拖拽等方式可以实现文件上传/下载/删除/重命名/移动等，而Xshell则需要通过敲击命令的方式来实现；简言之，Xshell负责环境部署，Xftp负责文件或代码的同步与传输

1、xshell基本登录操作

1、双击打开xshell，登录linux系统等服务器操作的软件，文件>新建会话>如下连接对应服务器>按提示即可连上

2、登录上xshell服务器后，试着输入python3，可以发现服务器自带python3，ctrl+d退出python；接着你可以cd /opt 目录下，去下载一些常用的解压安装部署

3、比如在linux服务器上安装node环境

cd /opt
wget https://nodejs.org/dist/v16.15.0/node-v16.15.0-linux-x64.tar.xz
tar -vxf node-v16.15.0-linux-x64.tar.xz
mv node-v16.15.0-linux-x64  nodejs

2、xftp基本操作

1、Xftp是一个用于Windows系统平台上的FTP、STFP协议文件传输程序，它能帮助用户安全地在Unix系统和Windows系统上进行快速的文件传输任务，并且它可对文件列表进行可视化展示，更符合Windows用户的使用习惯
2、双击打开后，依然是新建会话连上服务器
3、连上登录好后，就可以实现windows系统和服务器Unix系统的文件传输了，只需要选中指定文件进行拖拽即可

三、部署代码到服务器上

1、当然可以通过git的方式部署同步，如果你觉得xftp的方法麻烦的话，就用这个git的方法同步更新，git不熟悉的话，部署还需要麻烦些，可以加vsjyjy 备注：CSDN交流群
2、但今天就简单介绍下临时几个文件的部署，以及常用命令等，所以就用xftp同步上线传文件即可，小白第一次x学习使用推荐这种方式吧
3、当然还有其它方式部署爬虫，比如Scrapy等

1、部署一个python爬虫脚本在服务器上定时运行等

1、样例代码代码https://github.com/Shirmay1/MoreMoreLearn , 文章所有代码开源在git上，csdn下载资源如果显示收费请到git上开源下
2、先在xsheel上命令创建一个目录data，专门用来存代码
```
cd /
mkdir data
```
3、打开xftp，上传代码到服务器/data目录下
4、然后在xshell界面操作cd /data目录下，ls查看当前目录下的文件，然后python3运行目标python文件，如下正常运行

5、如果我们要让他一直持续运行到后台，并且定时启动呢，nohup python3 crawl_news.py >/dev/null 2>&1 & ，开个定时脚本，并logger.add('crawl_news.log', encoding='utf-8') 可以存储日志文件，loguru日志库学习

	logger.add('crawl_news.log', encoding='utf-8')
	
	scheduler = BlockingScheduler(timezone='Asia/Shanghai')
	scheduler.add_job(list_main, 'cron', hour=2, minute=30, args=(), max_instances=100, misfire_grace_time=360)
	scheduler.start()

6、如图，就成功部署好一个python爬虫脚本了，通过scheduler每天定时启动，ps -ef | grep crawl_news 搜索包含crawl_news的后台进程，如图进程号3562

2、部署一个python服务接口他人调用访问等

1、样例代码，本地直接运行打开http://127.0.0.1:8444/get_ip , 服务器上运行，则把对应的127.0.0.1改成对应的外网地址

# -*- coding: utf-8 -*-            
# @Time : 2023/7/2
# @Author: sy
# @公众号: 逆向OneByOne
# @desc: 部署python flask的接口调用测试; vsjyjy 注：CSDN交流
from flask import Flask, request
from loguru import logger
logger.add('flask_api.log', encoding='utf-8')

app = Flask(__name__)


@app.route("/get_ip", methods=['get'])
def get_ip():
    ip = request.remote_addr
    logger.info(f"ip is {ip}")
    return f"your ip is {ip}"


if __name__ == '__main__':
    app.run(host="0.0.0.0", port=8444, debug=True)

2、xftp拖文件到对应服务器上
3、将文件部署到服务器上，然后后台持续运行， nohup python3 flask_api.py >/dev/null 2>&1 &
4、然后如下，打开服务器公网的接口如下访问，此时已经返回正常数据，说明部署成功；如果你的访问不起来的话，可能你服务器安全组-规则端口没有打开权限

3、部署一个js服务接口他人调用访问等

1、代码https://github.com/Shirmay1/MoreMoreLearn，express用法 , 先启动express的js服务，然后python尝试调用

# -*- coding: utf-8 -*-            
# @Time : 2023/7/2
# @Author: sy
# @公众号: 逆向OneByOne
# @desc: express接口调用案例
import requests
from loguru import logger
logger.add('express_api.log', encoding='utf-8')

lat_lng = {
    "lng": 120.5811424828,
    "lat": 31.3010678543,
    "Se": "inner",
    "num": 12
}
url = f"http://127.0.0.1:8444/lj_enc"
resp = requests.post(url, data=lat_lng, timeout=10)
logger.success(f"req_response {resp.text}")

2、xftp上传部署文件
3、启动服务，我们在xshell上面，先node express_api.js看看有没有报错，测试下报错的话安装相关模块，
4、打开测试下，服务器正常打印日志，然后python脚本运行下，正常返回数据，说明没接口调通，如果失败，看下服务器端口权限是否打开
5、正式部署，用PM2部署js , pm2 start express_api.js --max-memory-restart200M (使用 --max-memory-restart 选项指定内存阈值) pm2

4、启动一个企业微信群告警的方式

1、企业微信建一个群聊，然后添加一个群机器人
2、代码https://github.com/Shirmay1/MoreMoreLearn

5、通过git的方式部署

1、GitHub/Gitee/Gitlab平台：都可以，选择一个注册账号即可，平常写的代码是在工作区，通过git add命令是到暂存区，通过git commit命令是到本地仓库，通过git push是到线上远程仓库

2、安装下载与用户名密码配置， git安装下载
3、本地点击git bash后输入以下命令，配置用户名/密码，红色部分换成自己对应的
- 显示当前的配置：git config --list
- 设置用户名： git config --global user.name Shirmay
- 设置用户名邮箱： git config --global user.email [email protected]
- 系统用户级别设置：git config --global
4、在你刚刚新建的远程仓库，克隆线上远程仓库, 建议通过ssh的连接方式登录，参考该文档目录十二ssh登录配置操作，按文档将sshkey复制到线上配置即完成第一步
5、本地新建一个空文件夹，记得github先建一个仓库，然后点击code这里复制ssh命令，然后打开git bash窗口输入命令：git clone [email protected]:Shirmay1/MoreMoreLearn.git，即可完成远程仓库克隆到本地的操作
6、git忽略 pycache 和 .pyc文件
- 在文件目录下新建.gitignore文件，文件内容添加**/pycache，这样可以把文件夹中的__pycache__文件夹忽略，并且子文件夹中的__pycache__也一并忽略
- 如果意外的已经通过git上传了那些文件的话，可以本地使用命令删除
```
rm -rf 文件
git rm --cached 文件
```
7、常用命令
- git status：查看本地工作区与本地仓库代码的差别
- git diff 文件名：比较本地与线上仓库代码差异点
- git restore 文件名：将本地文件还原成本地仓库的文件
- git add 文件名：将本地文件上传到暂存区，git add xx命令可以将xx文件添加到暂存区，如果有很多改动可以通过 git add -A .来一次添加所有改变的文件。注意 -A 选项后面还有一个句点。 git add -A表示添加所有内容， git add . 表示添加新文件和编辑过的文件不包括删除的文件; git add -u 表示添加编辑或者删除的文件，不包括新添加的文件
- git commit -m ‘说明’：将暂存区代码提交到本地仓库
- git push -u origin：将本地仓库提交到线上仓库
- git remote -v：查看本地分支情况
- git reset --hard: 回退到上一个版本
- git pull origin master：从线上仓库拉取最新代码
- git push origin master：将本地仓库的代码推到线上
- 如下是本地常用的操作命令步骤，一般先git pull origin master ，然后再git push

四、常用操作命令

1、linux常用命令：

pwd:查看当前目录
ls : 查看目录下的文件 , 或者 ll 或者 la
ps -ef | grep .js ：搜索包含.js的进程
ps -ef | grep python : 搜索包含python的进程
ps aux|grep python |awk ‘{print $2}’|xargs kill -9 ：杀掉包含python的进程
nohup python epub_add.py >/dev/null 2>&1 & ：后台启python文件进程
mv：移动文件/文件重命名
mkdir ：创建一个目录，-p用户创建多层目录
rm -rf：强制删除文件夹
df -h ：查看磁盘空间
free -h : 查看内存使用
lsof -i:1110 查看1110端口占用（yum install lsof -y）

2、windows常用命令

wmic process where name=“python.exe” list brief : 查看使用python的进程
netstat -ano |findstr “9110” ：看到端口占用
taskkill -f /pid 110108 ：杀掉进程

3、node常用命令

直接启动运行js : node app2.js
pm2需要全局安装npm install -g pm2 , pm2
启动进程/应用 pm2 start app2.js
重新启动进程/应用 pm2 restart app2
重新启动所有进程/应用 pm2 restart all
列出所有进程/应用 pm2 list
查看某个进程/应用具体情况 pm2 describe app2
结束进程/应用 pm2 stop app2
结束所有进程/应用 pm2 stop all
删除进程/应用 pm2 delete app2
删除所有进程/应用 pm2 delete all
查看pm2的日志 pm2 logs
查看某个进程/应用的日志,使用 pm2 logs www
查看进程/应用的资源消耗情况 pm2 monit
重命名进程/应用 pm2 start app2.js --name aaa

Android 开源组件和第三方库汇总 gyyzzr Android Android 开源框架
转载1、github排名https://github.com/trending,github搜索：https://github.com/search2、https://github.com/wasabeef/awesome-android-ui目录UIUI卫星菜单节选器下拉刷新模糊效果HUD与Toast进度条UI其它动画网络相关响应式编程地图数据库图像浏览及处理视频音频处理测试及调试动态更新热更新
CentOS7环境卸载MySQL5.7 Hadoop_Liang mysql 数据库 mysql
备份重要数据切记，卸载之前先备份mysql重要的数据。备份一个数据库例如：备份名为mydatabase的数据库到backup.sql的文件中mysqldump-uroot-ppassword123mydatabase>backup.sql备份所有数据库mysqldump-uroot-ppassword123--all-databases>all_databases_backup.sql注意：-p后
php SPOF 贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.什么是单点故障（SPOF）？单点故障指的是系统中某个组件一旦失效，整个系统或服务就会不可用。常见的单点有：数据库、缓存、Web服务器、负载均衡、网络设备等。2.常见单点故障场景只有一台数据库服务器，宕机后所有业务不可用只有一台Redis缓存，挂掉后缓存全部失效只有一台Web服务器，挂掉后网站无法访问只有一个负载均衡节点，挂掉后流量无法分发只有一条网络链路，断开后所有服务失联3.消除单点故障的主
php 高并发下日志量巨大，如何高效采集、存储、分析贵哥的编程之路(热爱分享为后来者) PHP语言经典程序100题 php 开发语言
1.问题背景高并发系统每秒产生大量日志（如访问日志、错误日志、业务日志等）。单机写入、存储、分析能力有限，容易成为瓶颈。需要支持实时采集、分布式存储、快速检索与分析。2.主流架构方案一、分布式日志采集架构[应用服务器(PHP等)]|v[日志采集Agent（如Filebeat、Fluentd、Logstash）]|v[消息队列/缓冲（如Kafka、Redis、RabbitMQ）]|v[日志存储（如E
centos7安装 mysql5.7(安装包) heiPony linux mysql mariadb centos mysql
一.卸载centos7自带数据库查看系统自带的Mariadbrpm-qa|grepmariadbmariadb-libs-5.5.44-2.el7.centos.x86_64卸载rpm-e--nodepsmariadb-libs-5.5.44-2.el7.centos.x86_64删除etc目录下的my.cnfrm/etc/my.cnf二.检查mysql是否存在(有就卸载,删除相关文件)rpm-q
Vue3+Vite+TS+Axios整合详细教程老马聊技术 Vue Vite TS vue.js
1.Vite简介Vite是新一代的前端构建工具，在尤雨溪开发Vue3.0的时候诞生。类似于Webpack+Webpack-dev-server。其主要利用浏览器ESM特性导入组织代码，在服务器端按需编译返回，完全跳过了打包这个概念，服务器随起随用。生产中利用Rollup作为打包工具，号称下一代的前端构建工具。vite是一种新型的前端构建工具，能够显著的提升前端开发者的体验。它主要有俩部分组成：一个
MySQL Explain 详解：从入门到精通，让你的 SQL 飞起来
引言：为什么Explain是SQL优化的“照妖镜”？在Java开发中，我们常常会遇到数据库性能瓶颈的问题。一条看似简单的SQL语句，在数据量增长到一定规模后，可能会从毫秒级响应变成秒级甚至分钟级响应，直接拖慢整个应用的性能。此时，你是否曾困惑于：为什么这条SQL突然变慢了？索引明明建了，为什么没生效？到底是哪里出了问题？答案就藏在MySQL的EXPLAIN命令里。EXPLAIN就像一面“照妖镜”，
OpenWebUI(12)源码学习-后端constants.py常量定义文件青苔猿猿 AI大模型 openwebui constants常量定义
目录文件名：`constants.py`功能概述：主要功能点详解1.**MESSAGES枚举类**2.**WEBHOOK_MESSAGES枚举类**3.**ERROR_MESSAGES枚举类**✅默认错误模板✅认证与用户相关错误✅资源冲突与重复错误✅验证失败类错误✅权限限制类错误✅文件上传与格式错误✅模型与API错误✅请求频率与安全限制✅数据库与配置错误4.**TASKS枚举类**✅总结实际应用场
小林渗透入门：burpsuite+proxifier抓取小程序流量 ξ流ぁ星ぷ132 小程序 web安全安全性测试网络安全安全
目录前提：代理：proxifier：步骤：bp证书安装bp设置代理端口：proxifier设置规则：proxifier应用规则：结果：前提：在介绍这两个工具具体实现方法之前，有个很重要的技术必须要大概了解才行---代理。代理：个人觉得代理，简而言之，就是在你和服务器中间的一个中间人，来转达信息。那为什么要代理呢，因为这里的burpsuite要抓包，burpsuite只有做为中间代理人才可以进行拦截
系统迁移从CentOS7.9到Rocky8.9
我有两台阿里云上的服务器是CentOS7.9，由于CentOS7已经停止支持，后续使用的话会有安全漏洞，所以需要尽快迁移，个人使用的话目前兼容性好的还是RockyLinux8，很多脚本改改就能用了。一、盘点系统和迁移应用查看当前系统发行版版本cat/etc/os-release盘点迁移清单服务器应用部署方式docker镜像来源v1wordpressdockerdockerhubv1zdirdock
自动化运维工程师面试题解析【真题】
ZabbixAgent默认监听的端口是A.10050。以下是关键分析：选项排除：C.80是HTTP默认端口，与ZabbixAgent无关。D.5432是PostgreSQL数据库的默认端口，不涉及ZabbixAgent。B.10051是ZabbixServer的默认监听端口，用于接收Agent发送的数据，而非Agent自身的监听端口。ZabbixAgent的配置：根据官方文档，ZabbixAgen
什么是OA系统？使用OA系统对企业有哪些好处？
OA系统（OfficeAutomationSystem），即办公自动化系统，是将现代化办公和计算机网络功能结合起来的一种新型的办公方式。是现代企业管理中一种重要的信息化工具，它通过计算机技术、网络技术和数据库技术等手段，实现企业内部办公流程的自动化和信息化管理。使企业的信息交流更加顺畅，办公流程更加高效，从而提高企业的运营效率和管理水平。一、主要功能1.文档管理文档存储与检索：OA系统可以集中存储
LangChain中的向量数据库接口－Weaviate 洪城叮当 langchain 数据库经验分享笔记交互人工智能知识图谱
文章目录前言一、原型定义二、代码解析1、add_texts方法1.1、应用样例2、from_texts方法2.1、应用样例3、similarity_search方法3.1、应用样例三、项目应用1、安装依赖2、引入依赖3、创建对象4、添加数据5、查询数据总结前言 Weaviate是一个开源的向量数据库，支持存储来自各类机器学习模型的数据对象和向量嵌入，并能无缝扩展至数十亿数据对象。它提供存储文档嵌
Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）西攻城狮北 python 爬虫音视频
一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
Flutter——数据库Drift开发详细教程(七) 怀君 flutter flutter 数据库
目录入门设置漂移文件入门变量数组定义表支持的列类型漂移特有的功能导入嵌套结果LIST子查询Dart互操作SQL中的Dart组件类型转换器现有的行类Dart文档注释结果类名称支持的语句自定义SQL类型定义类型使用自定义类型在Dart中在SQL中方言意识支持的SQLite扩展json1fts5地缘垄断自定义查询带有生成的api的语句自定义选择语句自定义更新语句入门Drift提供了一个dart_api来
redis集群之Sentinel哨兵高可用会飞的爱迪生 redis redis sentinel bootstrap
Sentinel是官网推荐的高可用（HA）解决方案，可以实现redis的高可用，即主挂了从代替主工作，在一台单独的服务器上运行多个sentinel，去监控其他服务器上的redismaster-slave状态(可以监控多个master-slave)，当发现master宕机后sentinel会在slave中选举并启动新的master。至少需要3台redis才能建立起基于哨兵的reids集群。一、通过s
android中百度定位、城市选择列表，右侧字母展示
好久好久没光顾过自己空空的博客了，做项目的时候都是逛着别人的博客急着把功能实现，近来闲下来了总结总结。这个城市选择功能也是当时做项目急着实现从哪找来的框架不记得了，然后改改用到项目中来的。非常感谢提供最初源码的博主，主要的区别是添加了搜索功能、定位功能，把以前的操作本地数据库sqlite的部分，改为操作对assest文件的操作，封装的有百度地图定位方法、可删除的edittext。百度地图的key需
.NET 一款基于BGInfo的红队内网渗透工具 dot.Net安全矩阵网络 .net 安全 .netcore web安全矩阵
01阅读须知此文所提供的信息只为网络安全人员对自己所负责的网站、服务器等（包括但不限于）进行检测或维护参考，未经授权请勿利用文章中的技术资料对任何计算机系统进行入侵操作。利用此文所提供的信息而造成的直接或间接后果和损失，均由使用者本人负责。本文所提供的工具仅用于学习，禁止用于其他方面02基本介绍在内网渗透过程中，白名单绕过是红队常见的技术需求。Sharp4Bginfo.exe是一款基于微软签名工具
Flutter——数据库Drift开发详细教程之迁移(九) 怀君 flutter flutter 数据库
迁移入门引导式迁移配置用法例子切换到make-migrations开发过程中手动迁移迁移后回调导出模式导出架构下一步是什么？调试导出架构的问题修复这个问题架构迁移助手自定义分步迁移转向逐步迁移手动生成测试迁移编写测试验证数据完整性在运行时验证数据库模式迁移器API一般提示迁移视图、触发器和索引复杂的迁移更改列的类型更改列约束删除列重命名列合并列添加新列入门Drift通过严格的架构确保查询类型安全。
requests的使用
一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
Python爬虫实战：利用最新技术爬取B站直播数据 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言 html 百度
1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
基于Python的智能公示信息监控爬虫系统开发实战 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言音视频搜索引擎 scrapy
摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析 Python爬虫项目 2025年爬虫实战项目 python 爬虫开发语言学习 scrapy
摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
【个人笔记】负载均衡撰卢笔记负载均衡运维
文章目录nginx反向代理的好处负载均衡负载均很的配置方式均衡负载的方式nginx反向代理的好处提高访问速度进行负载均衡保证后端服务安全负载均衡负载均衡，就是把大量的请求按照我们指定的方式均衡的分配给集群中的每台服务器负载均很的配置方式upstreamwebservers{server192.168.100.128:8080server192.168.100.129:8080}server{lis
Centos7安装uwsgi详细步骤快乐骑行^_^ 大数据 Centos7 安装uwsgi
Centos7安装uwsgi详细步骤步骤一：下载源码到centos7服务器步骤二：解压步骤三：编译环境准备步骤四：进入解压目录，并且编译uwsgi步骤五：准备测试安装是否成功的python代码testUwsgi步骤六：启动uWSGI来运行一个HTTP服务器步骤七：服务器ip+端口号访问步骤一：下载源码到centos7服务器uwsgi最新版2.0.20下载地址如下：https://github.co
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Spring 声明式事务：从原理到实现的完整解析 Code季风 Spring详解 spring 数据库后端开发语言 java spring boot
在后端开发中，事务管理是保证数据一致性的核心机制。尤其是在复杂业务场景下，一个操作可能涉及多步数据库操作，任何一步失败都需要回滚到初始状态。Spring的声明式事务通过AOP思想，将事务管理从业务逻辑中剥离，让开发者更专注于核心业务。本文将结合实际实现，详解声明式事务的核心机制和设计思路。一、为什么需要声明式事务？在讨论实现之前，我们先明确一个问题：为什么要用声明式事务，而不是手动编写事务代码？假
【Android】安卓四大组件之内容提供者（ContentProvider）：从基础到进阶 m0_59734531 Android android Java ContentProvider 安卓四大组件
你手机里的通讯录，存储了所有联系人的信息。如果你想把这些联系人信息分享给其他App，就可以通过ContentProvider来实现。。一、什么是ContentProvider‌ContentProvider‌是Android四大组件之一，负责实现‌跨应用程序的数据共享与访问‌，通过统一接口封装数据存储细节，提供标准化操作方式。其中主要功能包括：数据抽象层：将应用内部的数据（如SQLite数据库、文
400多个免费在线编程与计算机科学课程 zhufafa 基础理论课程理论计算机基础免费
来源：medium作者：DhawalShah五年前，麻省理工学院和斯坦福大学等学校首先向公众开放免费的在线课程。如今，全球有700多所学校创造了数以千计的免费在线课程。从入门到精通系列，是作者通过ClassCentral的课程数据库整理的400多个免费在线课程的简介和链接（来源于ClassCentral，一个在线课程搜索引擎），根据课程难度分为入门、进阶和高阶三大类，每门课程还有星级评分（统计自C
jQuery 跨域访问的三种方式 No 'Access-Control-Allow-Origin' header is present on the reque qiaolevip 每天进步一点点学习永无止境跨域众观千象
XMLHttpRequest cannot load http://v.xxx.com. No 'Access-Control-Allow-Origin' header is present on the requested resource. Origin 'http://localhost:63342' is therefore not allowed access. test.html:1
mysql 分区查询优化 annan211 java 分区优化 mysql
分区查询优化引入分区可以给查询带来一定的优势，但同时也会引入一些bug. 分区最大的优点就是优化器可以根据分区函数来过滤掉一些分区，通过分区过滤可以让查询扫描更少的数据。所以，对于访问分区表来说，很重要的一点是要在where 条件中带入分区，让优化器过滤掉无需访问的分区。可以通过查看explain执行计划，是否携带 partitions
MYSQL存储过程中使用游标 chicony Mysql存储过程
DELIMITER $$ DROP PROCEDURE IF EXISTS getUserInfo $$ CREATE PROCEDURE getUserInfo(in date_day datetime)-- -- 实例-- 存储过程名为：getUserInfo-- 参数为：date_day日期格式:2008-03-08-- BEGINdecla
mysql 和 sqlite 区别 Array_06 sqlite
转载： http://www.cnblogs.com/ygm900/p/3460663.html mysql 和 sqlite 区别 SQLITE是单机数据库。功能简约，小型化，追求最大磁盘效率 MYSQL是完善的服务器数据库。功能全面，综合化，追求最大并发效率 MYSQL、Sybase、Oracle等这些都是试用于服务器数据量大功能多需要安装，例如网站访问量比较大的。而sq
pinyin4j使用 oloz pinyin4j
首先需要pinyin4j的jar包支持；jar包已上传至附件内方法一:把汉字转换为拼音；例如：编程转换后则为biancheng /** * 将汉字转换为全拼 * @param src 你的需要转换的汉字 * @param isUPPERCASE 是否转换为大写的拼音； true:转换为大写；fal
微博发送私信随意而生微博
在前面文章中说了如和获取登陆时候所需要的cookie，现在只要拿到最后登陆所需要的cookie，然后抓包分析一下微博私信发送界面 http://weibo.com/message/history?uid=****&name=**** 可以发现其发送提交的Post请求和其中的数据，让后用程序模拟发送POST请求中的数据，带着cookie发送到私信的接入口，就可以实现发私信的功能了。
jsp 香水浓 jsp
JSP初始化容器载入JSP文件后，它会在为请求提供任何服务前调用jspInit()方法。如果您需要执行自定义的JSP初始化任务，复写jspInit()方法就行了 JSP执行这一阶段描述了JSP生命周期中一切与请求相关的交互行为，直到被销毁。当JSP网页完成初始化后
在 Windows 上安装 SVN Subversion 服务端 AdyZhang SVN
在 Windows 上安装 SVN Subversion 服务端2009-09-16高宏伟哈尔滨市道里区通达街291号最佳阅读效果请访问原地址：http://blog.donews.com/dukejoe/archive/2009/09/16/1560917.aspx 现在的Subversion已经足够稳定，而且已经进入了它的黄金时段。我们看到大量的项目都在使
android开发中如何使用 alertDialog从listView中删除数据？ aijuans android
我现在使用listView展示了很多的配置信息，我现在想在点击其中一条的时候填出 alertDialog,点击确认后就删除该条数据，（ ArrayAdapter ，ArrayList，listView 全部删除），我知道在下面的onItemLongClick 方法中参数 arg2 是选中的序号，但是我不知道如何继续处理下去 1 2 3
jdk-6u26-linux-x64.bin 安装 baalwolf linux
1.上传安装文件(jdk-6u26-linux-x64.bin) 2.修改权限 [root@localhost ~]# ls -l /usr/local/jdk-6u26-linux-x64.bin 3.执行安装文件 [root@localhost ~]# cd /usr/local [root@localhost local]# ./jdk-6u26-linux-x64.bin&nbs
MongoDB经典面试题集锦 BigBird2012 mongodb
1.什么是NoSQL数据库？NoSQL和RDBMS有什么区别？在哪些情况下使用和不使用NoSQL数据库？ NoSQL是非关系型数据库，NoSQL = Not Only SQL。关系型数据库采用的结构化的数据，NoSQL采用的是键值对的方式存储数据。在处理非结构化/半结构化的大数据时；在水平方向上进行扩展时；随时应对动态增加的数据项时可以优先考虑使用NoSQL数据库。在考虑数据库的成熟
JavaScript异步编程Promise模式的6个特性 bijian1013 JavaScript Promise
Promise是一个非常有价值的构造器，能够帮助你避免使用镶套匿名方法，而使用更具有可读性的方式组装异步代码。这里我们将介绍6个最简单的特性。在我们开始正式介绍之前，我们想看看Javascript Promise的样子： var p = new Promise(function(r
[Zookeeper学习笔记之八]Zookeeper源代码分析之Zookeeper.ZKWatchManager bit1129 zookeeper
ClientWatchManager接口 //接口的唯一方法materialize用于确定那些Watcher需要被通知 //确定Watcher需要三方面的因素1.事件状态 2.事件类型 3.znode的path public interface ClientWatchManager { /** * Return a set of watchers that should
【Scala十五】Scala核心九：隐式转换之二 bit1129 scala
隐式转换存在的必要性，在Java Swing中，按钮点击事件的处理，转换为Scala的的写法如下： val button = new JButton button.addActionListener( new ActionListener { def actionPerformed(event: ActionEvent) {
Android JSON数据的解析与封装小Demo ronin47
转自：http://www.open-open.com/lib/view/open1420529336406.html package com.example.jsondemo; import org.json.JSONArray; import org.json.JSONException; import org.json.JSONObject; impor
[设计]字体创意设计方法谈 brotherlamp UI ui自学 ui视频 ui教程 ui资料
从古至今，文字在我们的生活中是必不可少的事物，我们不能想象没有文字的世界将会是怎样。在平面设计中，UI设计师在文字上所花的心思和功夫最多，因为文字能直观地表达UI设计师所的意念。在文字上的创造设计，直接反映出平面作品的主题。如设计一幅戴尔笔记本电脑的广告海报，假设海报上没有出现“戴尔”两个文字，即使放上所有戴尔笔记本电脑的图片都不能让人们得知这些电脑是什么品牌。只要写上“戴尔笔
单调队列-用一个长度为k的窗在整数数列上移动，求窗里面所包含的数的最大值 bylijinnan java 算法面试题
import java.util.LinkedList; /* 单调队列滑动窗口单调队列是这样的一个队列：队列里面的元素是有序的，是递增或者递减题目：给定一个长度为N的整数数列a(i),i=0,1,...,N-1和窗长度k. 要求：f(i) = max{a(i-k+1),a(i-k+2),..., a(i)},i = 0,1,...,N-1 问题的另一种描述就
struts2处理一个form多个submit chiangfai struts2
web应用中，为完成不同工作，一个jsp的form标签可能有多个submit。如下代码： <s:form action="submit" method="post" namespace="/my"> <s:textfield name="msg" label="叙述：">
shell查找上个月，陷阱及野路子 chenchao051 shell
date -d "-1 month" +%F 以上这段代码，假如在2012/10/31执行，结果并不会出现你预计的9月份，而是会出现八月份，原因是10月份有31天，9月份30天，所以-1 month在10月份看来要减去31天，所以直接到了8月31日这天，这不靠谱。野路子解决：假设当天日期大于15号
mysql导出数据中文乱码问题 daizj mysql 中文乱码导数据
解决mysql导入导出数据乱码问题方法：１、进入mysql，通过如下命令查看数据库编码方式： mysql> show variables like 'character_set_%'; +--------------------------+----------------------------------------+ | Variable_name&nbs
SAE部署Smarty出现：Uncaught exception 'SmartyException' with message 'unable to write dcj3sjt126com PHP smarty sae
对于SAE出现的问题：Uncaught exception 'SmartyException' with message 'unable to write file...。官方给出了详细的FAQ：http://sae.sina.com.cn/?m=faqs&catId=11#show_213 解决方案为： 01 $path
《教父》系列台词 dcj3sjt126com
Your love is also your weak point. 你的所爱同时也是你的弱点。 If anything in this life is certain, if history has taught us anything, it is that you can kill anyone. 不顾家的人永远不可能成为一个真正的男人。 &
mongodb安装与使用 dyy_gusi mongo
一.MongoDB安装和启动,widndows和linux基本相同 1.下载数据库, linux:mongodb-linux-x86_64-ubuntu1404-3.0.3.tgz 2.解压文件,并且放置到合适的位置 tar -vxf mongodb-linux-x86_64-ubun
Git排除目录 geeksun git
在Git的版本控制中，可能有些文件是不需要加入控制的，那我们在提交代码时就需要忽略这些文件，下面讲讲应该怎么给Git配置一些忽略规则。有三种方法可以忽略掉这些文件，这三种方法都能达到目的，只不过适用情景不一样。 1. 针对单一工程排除文件这种方式会让这个工程的所有修改者在克隆代码的同时，也能克隆到过滤规则，而不用自己再写一份，这就能保证所有修改者应用的都是同一
Ubuntu 创建开机自启动脚本的方法 hongtoushizi ubuntu
转载自： http://rongjih.blog.163.com/blog/static/33574461201111504843245/ Ubuntu 创建开机自启动脚本的步骤如下： 1) 将你的启动脚本复制到 /etc/init.d目录下以下假设你的脚本文件名为 test。 2) 设置脚本文件的权限 $ sudo chmod 755
第八章流量复制/AB测试/协程 jinnianshilongnian nginx lua coroutine
流量复制在实际开发中经常涉及到项目的升级，而该升级不能简单的上线就完事了，需要验证该升级是否兼容老的上线，因此可能需要并行运行两个项目一段时间进行数据比对和校验，待没问题后再进行上线。这其实就需要进行流量复制，把流量复制到其他服务器上，一种方式是使用如tcpcopy引流；另外我们还可以使用nginx的HttpLuaModule模块中的ngx.location.capture_multi进行并发
电商系统商品表设计 lkl
DROP TABLE IF EXISTS `category`; -- 类目表 /*!40101 SET @saved_cs_client = @@character_set_client */; /*!40101 SET character_set_client = utf8 */; CREATE TABLE `category` ( `id` int(11) NOT NUL
修改phpMyAdmin导入SQL文件的大小限制 pda158 sql mysql
　用phpMyAdmin导入mysql数据库时，我的10M的数据库不能导入，提示mysql数据库最大只能导入2M。　　 phpMyAdmin数据库导入出错：　　You probably tried to upload too large file. Please refer to documentation for ways to workaround this limit.
Tomcat性能调优方案 Sobfist apache jvm tomcat 应用服务器
一、操作系统调优对于操作系统优化来说，是尽可能的增大可使用的内存容量、提高CPU的频率，保证文件系统的读写速率等。经过压力测试验证，在并发连接很多的情况下，CPU的处理能力越强，系统运行速度越快。。【适用场景】任何项目。二、Java虚拟机调优应该选择SUN的JVM，在满足项目需要的前提下，尽量选用版本较高的JVM，一般来说高版本产品在速度和效率上比低版本会有改进。 J
SQLServer学习笔记 vipbooks 数据结构 xml
1、create database school 创建数据库school 2、drop database school 删除数据库school 3、use school 连接到school数据库，使其成为当前数据库 4、create table class(classID int primary key identity not null) 创建一个名为class的表，其有一