有意识的呼吸

centos7 部署知乎热榜爬虫

一、简介

从 centos安装开始部署 scrapy 云爬虫项目。
这个项目是想分析热榜规律来预测一些~~~
但是和我合作的另外一位同学没有数据库基础，于是我将数据全部实时导出为csv文件，登录XFTP即可看到。最终效果：

爬虫每五分钟爬取一次数据，连续运行一周也不会被反爬虫处理。非常适合学习数据分析的同学。

爬取的数据分别为：
标题,问题类型,创建时间,更新时间,回答数,访问量,评论数,关注数,问题标签,提问者,提问者id,提问者是否为组织,回答赞同总数,回答评论总数,排名,标签,链接,封面链接,热度,热榜领域,问题编辑日志。

二、环境配置

1、系统版本：

Centos 7.6.64

2、python3 替换 python2

现在python要学就学最新版本，python2很多库都不支持

yum install openssl-devel bzip2-devel expat-devel gdbm-devel readline-devel sqlite-devel libffi-devel
tar -zxvf Python-3.7.4.tgz
cd Python-3.7.4
./configure
make && make install
mv  /user/bin/pip /user/bin/pip2
ln -s /usr/local/bin/pip3 /usr/bin/pip
mv /usr/bin/python /usr/bin/python2
ln -s /usr/local/bin/python3 /usr/bin/python

3、修改镜像源

用清华镜像源，下载速度快快的

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pip -U
pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple

4、配置virtualenv

pip install virtualenvwrapper

在.bashrc 后添加两行

export WORKON_HOME=$HOME/.virtualenvs
source /usr/local/bin/virtualenvwrapper.sh

执行

Source ~/.bashrc

创建虚拟运行环境

mkvirtualenv dw01
workon dw01

5、yum配置

替换完python2后，yum便不能使用了，此时需要需改两个文件就可以。具体哪两个我忘了，可以将yum报的错百度一下，能搜索到结果。

三、代码

代码我写了详细的注释，包括每个文件的注释。

1、日志函数

function.py

# 此文件和主爬虫应该在同一目录下
# 自定义功能函数
import time,os,sys,clipboard
from theConf import Config


class writeLog():
    '这个类按行写入日志，只需要传入日志名即可，自动补充输出时间'
    def __init__(self,csvName):
        self.csvName=csvName
        if Config.saveLog == True:
            theDate = time.strftime('%Y_%m_%d')
            self.logDir = os.path.join(Config.Log_Dir, theDate)  # 日志存储位置
            self.logPath = os.path.join(self.logDir, time.strftime('%H%M%S') + '_' + csvName + '.csv')  # 日志名.csv
            self.info = '时间,消息\n'  # 日志标题
            if not os.path.isdir(self.logDir): os.makedirs(self.logDir)
            self.plog = self.printlog
            self.save = self.savelog
        else:
            self.plog = self.dontplog
            self.save = self.dontsave
            self.writefile=self.dontwritefile

    # 打印日志
    def printlog(self,str,act=None):
        thetime=time.strftime('%H:%M:%S')
        print(thetime,str)
        if ',' in str:
            str='"'+str+'"'
        self.info=self.info+thetime+","+str+"\n" # 时间，消息
        if act=='exit':
            self.save()
            sys.exit()
        if act=='over':
            self.save()

    # 存储日志
    def savelog(self):
        '存储日志'
        with open(self.logPath,'w',encoding='utf-8-sig')as fp:
            fp.write(self.info)
        print(80*"*")
        print(self.csvName+"写入完成！")
        print("日志位置："+self.logPath)
        print(80*"*")

    # 写入文件
    def writefile(self,filename,text,encoding='utf-8',act=None):
        filePath=os.path.join(self.logDir,filename)
        with open(filePath,'w',encoding=encoding)as fp:
            fp.write(text)
        self.plog(80*"*")
        self.plog(filename+"写入完成！")
        self.plog("写入位置："+filePath)
        self.plog(80*"*")
        if act=='copy':
            clipboard.copy(text)

    # 不保存日志
    def dontwritefile(self,*args,**kwargs):
        print(80*"*")
        print("你的操作无法完成而被退出，失败原因：拒绝保存日志")
        print("修改建议：打开 theConf.py 文件，修改 saveLog = True")
        print(80*"*")
        sys.exit()
    def dontsave(self):
        print(80 * "*")
        print("无需保存日志")
        print("关于保存日志的建议：打开 theConf.py 文件，修改 saveLog = True")
        print(80 * "*")
    def dontplog(self,str,*args,**kwargs):
        print(str)

    # 醒目输出
    def eyeprint(self,str):
        '调试代码时，在控制台输出很明显的3行'
        print(80*"&")
        print(str)
        print(80*"&")

class writetxt():
    '这个类按行导入文本,如果想写入日志必须传入writelog对象[wlog]'
    def __init__(self, txtName, theDir,wLog=None):
        self.textName=txtName
        self.theDir=theDir
        if not os.path.isdir(self.theDir): os.makedirs(self.theDir)
        self.txt=''
        self.wLog=wLog

    def wline(self,str):
        '自动补充换行符'
        self.txt=self.txt+str+'\n'

    def save(self):
        '存储文本并打印消息'
        self.path=os.path.join(self.theDir,self.textName+'.txt')
        with open(self.path,'w',encoding='utf-8')as fp:
            fp.write(self.txt)
        if self.wLog != None:
            self.wLog.plog(80*"*")
            self.wLog.plog(self.textName+"   写入完成！")
            self.wLog.plog("写入位置:"+self.path)
            self.wLog.plog(80*"*")

2、自动登录

主要在windows下写的。
login.py

# 此文件和主爬虫应该在同一目录下
import os,function,time,json,requests,re
from selenium.webdriver import Chrome,ChromeOptions
from theConf import Config


class Login():
    zhihu_url="https://www.zhihu.com/"

    def __init__(self):
        self.W=function.writeLog(Config.loginLog)
        self.retryCount=0

    def checkLogin(self):
        '检查是否可以直接登录'
        if Config.produCookie:
            self.W.plog("请求登录中...")
            self.sele_login()
        # 检查Cookies是否存在
        if not os.path.exists(Config.Cookie_Path):
            self.W.plog("cookies不存在，正在重新登录...")
            self.sele_login()
        # 检查Cookies是否可用
        cookies_jar = self.__parseCookie(Config.Cookie_Path)
        with open(Config.Cookie_Path,'r')as fp:
            cookies=json.load(fp)
            for cookie in cookies:
                cookies_jar.set(cookie['name'],cookie['value'],domain=cookie['domain'],path=cookie['path'])
        response=requests.get(url=self.zhihu_url,headers=Config.DEFAULT_REQUEST_HEADERS,cookies=cookies_jar)
        if response.url!=self.zhihu_url:
            self.W.plog("Cookies失效！登录失败！")
            self.W.plog("重新获取Cookies...")
            self.sele_login()
        self.W.plog("登录成功！",act="over")
        return self.cookies


    def __parseCookie(self,Cookie_Path):
        '从文件解析Cookies，文件必须存在'
        self.cookies_jar = requests.cookies.RequestsCookieJar()
        with open(Cookie_Path,'r')as fp:
            self.cookies=json.load(fp)
            for cookie in self.cookies:
                self.cookies_jar.set(cookie['name'],cookie['value'],domain=cookie['domain'],path=cookie['path'])
        return self.cookies_jar


    def sele_login(self):
        '首次登录知乎，需要一个账户和密码'
        # 增加浏览器扩展防止爬虫检测
        option = ChromeOptions()
        option.add_experimental_option('excludeSwitches', ['enable-automation'])
        driver = Chrome(options=option)
        # 登录模拟
        driver.get(self.zhihu_url)
        driver.find_element_by_xpath("//div[@class='SignFlow-tab']").click()
        driver.find_element_by_name("username").send_keys(Config.theName)
        driver.find_element_by_name("password").send_keys(Config.thePwd)
        submitBtn = driver.find_element_by_xpath("//button[@type='submit']")
        submitBtn.click()
        time.sleep(Config.waitDefaultTime)
        # 检查/保存/重试 cookies
        cookies = driver.get_cookies()
        current_url=driver.current_url
        driver.close()
        if current_url == self.zhihu_url:
            if not os.path.isdir(Config.Conf_Dir):os.makedirs(Config.Conf_Dir)
            with open(Config.Cookie_Path, 'w')as fp:
                json.dump(cookies, fp)
        else:
            if Config.retryLogin==True and self.retryCount<Config.retryMax:
                self.retryCount+=1
                self.W.plog("登录失败，自动重试第"+str(self.retryCount)+"次...")
                self.sele_login()
            else:self.W.plog("登录失败，请检查账号密码或手动登录验证后重试！",act='exit')

3、启动爬虫

start.py

from scrapy import cmdline
cmdline.execute("scrapy crawl zhihu".split())

4、配置文件

这个里面的数据库相关的可以不用管，因为导出的是csv，没有用到mysql，我写了许多有关知乎的其他爬虫，他们都共用一个配置文件和登录文件，所以有这些不同的代码。

部署到服务器时，建议修改 DataDir

theConf.py

# 此文件和主爬虫应该在同一目录下
# 整个程序必须要处于可登录的状态，否则无法解析 启动URL
import os



class Config():
    # 启动URL
    theStart='https://www.zhihu.com/'
    # 启动dict
    theList={
        '全站':'https://www.zhihu.com/hot',
        '科学':'https://www.zhihu.com/hot?list=science',
        '数码':'https://www.zhihu.com/hot?list=digital',
        '体育':'https://www.zhihu.com/hot?list=sport',
        '时尚':'https://www.zhihu.com/hot?list=fashion',
        '影视':'https://www.zhihu.com/hot?list=film',
        '汽车':'https://www.zhihu.com/hot?list=car',
        '校园':'https://www.zhihu.com/hot?list=school',
        '焦点':'https://www.zhihu.com/hot?list=focus',
        '深度':'https://www.zhihu.com/hot?list=depth',
    }


    # 重要
    theName='????????'       # 用户名
    thePwd='????????'       # 密码


    # 关键设置
    hotToPDF=True         # 热榜转PDF, 没有屁用的功能,默认关闭,无效
    hotToHtml=True          # 热榜转多个HTML, 默认打开，无效

    # 存储设置
    saveLog=True          # 运行时是否保存生成的日志，默认打开


    # 无效设置
    savePriceSql=False       # 估价时是否将生成的数据表保存在mysql中,默认打开



    # 系统设置
    CONCURRENT_REQUESTS=32     # 并发线程数量,默认16
    produCookie=False         # 不验证cookies是否过期，直接重新生成cookies, 默认关闭
    retryLogin=True         # 登录失败自动重试，默认打开
    retryMax=3              # 登录失败的自动重试次数，默认是3
    waitDefaultTime=3             # 登录默认等待时间,默认是3


    # 文件目录
    Conf_DirName='conf_files'
    Data_DirName='Data_files'
    Book_DirName='Book_files'
    Log_DirName='Log_files'


    Root_Dir=os.path.dirname(os.path.dirname(os.path.dirname(__file__)))
    Conf_Dir=os.path.join(Root_Dir,Conf_DirName)    # 配置文件目录
    Data_Dir=os.path.join(Root_Dir,Data_DirName)    # 数据文件目录：个人信息
    Book_Dir=os.path.join(Root_Dir,Book_DirName)    # 电子书文件目录
    Log_Dir=os.path.join(Root_Dir,Log_DirName)    # 日志文件目录

    Cookie_Path=os.path.join(Conf_Dir,theName+"_Cookie.Json")   # Cookie路径,当然你可以指定规则和指定位置

    # 文件名
    loginLog="登录日志"
    startLog="运行日志"
    lastHotLog="最新热榜日志"

    # 数据库名【务必和mysql中建好的一样！】
    hot_db='zhihuhot'

    # 默认请求头
    DEFAULT_REQUEST_HEADERS = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'en',
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'
    }

    # 数据库配置
    dbparams = {
        'host': 'localhost',
        'port': 3306,
        'user': 'root',
        'password': 'root',
        'charset':'utf8'
    }
    tableToOver=True      # 同名数据表则覆盖内容，默认关闭，如果该项是关闭的，遇到同名数据表时会补充时间参数以达到【不同名】的效果

5、主爬虫

** zhihu.py**

# -*- coding: utf-8 -*-
import scrapy,function,re,json,time,pandas,os
from theConf import Config
from login import Login

class ZhihuSpider(scrapy.Spider):
    name = 'zhihu'
    allowed_domains = ['zhihu.com']
    # 程序运行时间统计
    startTime=time.time()
    # 完成登录以及基本信息的获取'
    cookies=Login().checkLogin()

    # 写入日志
    W=function.writeLog(Config.startLog)
    csvlist=[]

    def start_requests(self):
        '激活cookies启动爬虫'
        yield scrapy.Request(url=Config.theStart,callback=self.startParse,cookies=self.cookies)

    def startParse(self,response):
        '分发热榜'
        if response.url!=Config.theStart:self.W.plog("cookies 激活失败！请重试！",act='exit')
        self.W.plog("cookies激活成功！")
        Ps=Config.theList
        for key in Ps.keys():
            yield scrapy.Request(url=Ps[key],callback=self.parsePage,meta={'key':key})
            self.W.plog(key+"热榜 正在请求...")


    def parsePage(self,response):
        '热榜分类爬取'
        items=response.xpath("//div[@class='HotList-list']/section")
        for item in items:
            rank=item.xpath("./div[@class='HotItem-index']/div[contains(@class,'HotItem-rank')]/text()").get()
            label=item.xpath("./div[@class='HotItem-index']/div[contains(@class,'HotItem-label')]/text()").get()
            url=item.xpath("./div[@class='HotItem-content']/a/@href").get()
            imgurl=item.xpath("./a[@class='HotItem-img']/img/@src").get()
            hot=item.xpath("./div[@class='HotItem-content']/div[contains(@class,'HotItem-metrics')]//text()").get()
            if not label:label=''
            if not imgurl:imgurl=''
            if not hot:hot=''
            else:
                if not (hot.startswith("知乎") or hot.startswith("盐")):
                    hot=re.match(r".*\d", hot).group()
                else:hot=0
            item={
                'rank':rank,
                'label':label,
                'url':url,
                'imgurl':imgurl,
                'hot':hot,
                'field':response.meta['key']
            }
            if 'question' in url:yield scrapy.Request(url=url+"/log",callback=self.parseLog,meta=item,dont_filter=True)



    def parseQuest(self,response):
        '每个问题爬取'
        infos_json=re.match(r'.*?


    
        你可能感兴趣的:(所谓爬虫)
        
            
                
                    Python 爬虫实战：视频平台播放量实时监控（含反爬对抗与数据趋势预测）
                        西攻城狮北
python爬虫音视频
                        一、引言在数字内容蓬勃发展的当下，视频平台的播放量数据已成为内容创作者、营销人员以及行业分析师手中极为关键的情报资源。它不仅能够实时反映内容的受欢迎程度，更能在竞争分析、营销策略制定以及内容优化等方面发挥不可估量的作用。然而，视频平台为了保护自身数据和用户隐私，往往会设置一系列反爬虫机制，对数据爬取行为进行限制。这就向我们发起了挑战：如何巧妙地突破这些限制，同时精准地捕捉并预测播放量的动态变化趋势
                    
                    requests的使用
                        

                        一·概念requests作为爬虫的基础库，在我们快速爬取和反爬破解中起到很重要的作用，其中的知识点大概有以下几个方面：二·内容一，request：1-requests.get…get请求获取数据2-requests.post…post请求获取数据二，response:1-response.text.响应体str类型2-response.encoding从HTTPheader中获取响应内容的编码方式
                    
                    Python爬虫实战：利用最新技术爬取B站直播数据
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言html百度
                        1.B站直播数据爬取概述B站(哔哩哔哩)是中国最大的年轻人文化社区和视频平台之一，其直播业务近年来发展迅速。爬取B站直播数据可以帮助我们分析直播市场趋势、热门主播排行、观众喜好等有价值的信息。常见的B站直播数据类型包括：直播间基本信息(标题、分类、主播信息)实时观看人数与弹幕数据礼物打赏数据直播历史记录分区热门直播数据本文将重点介绍如何获取直播间基本信息和分区热门直播数据。2.环境准备与工具选择2
                    
                    基于Python的智能公示信息监控爬虫系统开发实战
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言音视频搜索引擎scrapy
                        摘要本文详细介绍了如何使用Python构建一个高效的公示信息监控爬虫系统。系统采用最新技术栈，包括异步爬取、智能解析、反反爬策略等，能够自动监控各类政府网站、企业公示平台的更新信息。文章从系统设计到具体实现，提供了完整的代码示例和详细的技术解析，帮助读者掌握大规模公示信息采集的核心技术。关键词：Python爬虫、公示监控、信息采集、异步爬取、智能解析1.引言在数字化时代，各类公示信息（如政府采购、
                    
                    基于Python的Google Scholar学术论文爬虫实战：最新技术与完整代码解析
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言学习scrapy
                        摘要本文详细介绍如何使用Python构建一个高效的GoogleScholar爬虫系统，包括代理设置、反反爬策略、数据解析与存储等核心技术。文章涵盖最新Python爬虫技术栈（如Playwright、异步IO等），提供完整可运行的代码示例，并讨论学术爬虫的伦理与法律问题。通过本教程，读者将掌握从GoogleScholar批量获取学术论文信息的高级爬虫技术。关键词：Python爬虫、GoogleSch
                    
                    Python selenium 库
                        AI老李
pythonpythonselenium开发语言
                        关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
                    
                    windows exe爬虫：exe抓包
                        程序猿阿三
爬虫项目实战exe抓包
                        不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
                    
                    Python爬虫实战：基于最新技术的定时签到系统开发全解析
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言人工智能自动化知识图谱
                        摘要本文详细介绍了如何使用Python开发一个功能完善的定时签到爬虫系统。文章从爬虫基础知识讲起，逐步深入到高级技巧，包括异步请求处理、浏览器自动化、验证码破解、分布式架构等最新技术。我们将通过一个完整的定时签到项目案例，展示如何构建一个稳定、高效且具有良好扩展性的爬虫系统。文中提供了大量可运行的代码示例，涵盖requests、aiohttp、selenium、playwright等多种技术方案，
                    
                    Python爬虫实战：使用最新技术爬取新华网新闻数据
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言scrapy音视频
                        一、前言在当今信息爆炸的时代，网络爬虫技术已经成为获取互联网数据的重要手段。作为国内权威新闻媒体，新华网每天发布大量高质量的新闻内容，这些数据对于舆情分析、市场研究、自然语言处理等领域具有重要价值。本文将详细介绍如何使用Python最新技术构建一个高效、稳定的新华网新闻爬虫系统。二、爬虫技术选型2.1技术栈选择在构建新华网爬虫时，我们选择了以下技术栈：请求库：httpx（支持HTTP/2，异步请求
                    
                    FPS手游逆向分析--------矩阵
                        柠檬味的榴莲
FPS手游的一些逆向分析矩阵线性代数python
                        寻找游戏矩阵谈谈个人对于矩阵的理解:所谓矩阵就是相机即人物视角当今的游戏人物的移动分为两部分：游戏世界中的人物在移动和相机的移动相机的移动使得玩家可以跟得上人物的行动如果游戏中的人物在移动，相应的相机也会移动同样的转动视角其实就是在转动相机人物前后移动相机也会动。那我们是不是可以利用不断地改变矩阵来搜索游戏中变动的值从而找到矩阵呢。Ofcourse但是如果你拿来一个矩阵demo你就会发现，前后移动
                    
                    FPS手游逆向分析--------矩阵的精确定位
                        柠檬味的榴莲
FPS手游的一些逆向分析矩阵线性代数
                        2.1精确定位矩阵通过上述步骤我们找到了矩阵，但矩阵确会在每次打开游戏后由于内存的分配而重新加载，如何实现自动寻找矩阵便是我们要考虑的问题2.1.1通过特征码定位矩阵所谓特征码就是总出现在变动值附近的不变动的值与上文的通用特征码不同定位矩阵的特征码在不同的游戏中是不一样的矩阵16条的第一条就是矩阵头部主特征码是相对于矩阵头部计算的偏移副特征码是相对于主特征码计算的偏移填入模板即可模板特征码定位矩阵
                    
                    Python爬虫：从图片或扫描文档中提取文字数据的完整指南
                        Python爬虫项目
2025年爬虫实战项目python爬虫开发语言数据挖掘c++
                        1.引言随着大数据技术的不断进步，图像数据逐渐成为了许多行业中重要的数据源之一。图像中不仅包含了丰富的视觉信息，还可能蕴含着大量的文字数据。对于科研、企业、政府等多个领域而言，如何从图片或扫描文档中提取出有价值的文字信息是一个亟待解决的问题。在这一过程中，OCR（OpticalCharacterRecognition，光学字符识别）技术成为了解决这一问题的重要工具。在本文中，我们将探讨如何使用Py
                    
                    爬虫技术：从基础到高级，探索数据抓取的奥秘
                        

                        一、基础爬虫：揭开数据抓取的神秘面纱对于初学者来说，基础爬虫是入门的起点。基础爬虫的目标通常是静态网页，这些网页的内容在加载时就已经确定，不需要与服务器进行交互。通过简单的HTTP请求和HTML解析，就可以获取到网页中的数据。在基础爬虫中，最核心的技术是HTML解析。HTML是网页的结构语言，它定义了网页的布局和内容。爬虫程序需要通过解析HTML，找到其中的文本、图片、链接等元素。常用的HTML解
                    
                    python 计算生态概览的概述
                        

                        文章目录前言python计算生态库的介绍1.网络爬虫2.数据分析3.文本处理4.数据可视化5.机器学习6.图形用户界面7.游戏开发8.网络应用开发前言python计算生态概览的解释Python计算生态概览是对Python作为一门强大而广泛使用的编程语言所拥有的庞大软件集合的整体描述和概述。这个生态体系不仅包含了Python的标准库（stdlib），即随Python解释器安装的基本模块，还涵盖了极其
                    
                    Python生态全景图：8大主流框架优缺点及选型指南
                        Sammyyyyy
python开发语言djangofastapiflask
                        引言：Python的“万能”生态Python为何能成为当今最流行的编程语言之一？答案并非其语法本身，而在于其强大且多样化的框架生态。这个生态系统如同一片繁荣的大陆，覆盖了从Web后端到人工智能的几乎所有技术领域，让开发者能用一种语言胜任多种截然不同的任务。本文将化作一张“技术地图”，快速带你游览Python在Web开发、数据科学和网络爬虫三大领域的8个标志性框架。我们的目标是迅速掌握它们的精髓，让
                    
                    从零到一：王者荣耀英雄数据采集与技能图谱异步爬虫实战
                        程序员威哥
爬虫python开发语言自动化scrapy
                        引言：随着游戏行业的迅猛发展，王者荣耀作为一款深受玩家喜爱的手游，其英雄数据和技能信息成为了爬虫开发者研究的热点之一。通过抓取英雄数据并对技能图谱进行可视化，我们不仅能够更好地理解游戏数据，还可以为游戏爱好者或数据分析师提供一个有价值的数据分析平台。本篇文章将带你一步步实现王者荣耀英雄数据的采集与技能图谱的可视化，并使用异步爬虫技术提高爬取效率。我们将结合实际开发中的需求，深入讲解如何使用异步爬虫
                    
                    Python 网络爬虫中 robots 协议使用的常见问题及解决方法
                        

                        在Python网络爬虫开发中，robots协议的正确应用是保证爬虫合规性的关键。然而，在实际使用过程中，开发者常会遇到各种问题，若处理不当，可能导致爬虫被封禁或引发法律风险。本文将梳理robots协议使用中的常见问题，并提供针对性的解决方法。一、协议解析不准确导致的合规性问题1.1误读User-agent通配符范围问题表现：将User-agent:*错误理解为适用于所有场景，忽略了特定爬虫的单独规
                    
                    【网络与爬虫 24】爬虫数据存储方案：从文件到数据库的全面指南
                        莫比乌斯@卷
技术技巧#网络与爬虫网络爬虫数据库
                        【网络与爬虫24】爬虫数据存储方案：从文件到数据库的全面指南关键词：爬虫数据存储、CSV、JSON、Excel、SQLite、MySQL、MongoDB、Redis、数据持久化、数据管理摘要：本文全面介绍爬虫数据存储的各种方案，从简单的文本文件、CSV、JSON到Excel表格，再到SQLite、MySQL等关系型数据库，以及MongoDB、Redis等NoSQL数据库。通过对比分析不同存储方式的
                    
                    测试你的Python环境是否配置成功
                        川星弦
python开发语言
                        #导入需要的库importrequestsfrombs4importBeautifulSoup#目标网页URLurl='https://quotes.toscrape.com/'#这是一个专门用来练习爬虫的网站#设置请求头，模拟浏览器访问headers={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHT
                    
                    Go爬虫开发学习记录
                        朱颜辞镜花辞树‎
golang爬虫学习
                        Go爬虫开发学习记录基础篇：使用net/http库Go的标准库net/http提供了完善的HTTP客户端功能，是构建爬虫的基石：packagemainimport("fmt""io""net/http")funcfetchPage(urlstring)string{//创建自定义HTTP客户端client:=&http.Client{}//构建GET请求req,_:=http.NewRequest
                    
                    海思平台ISP系列从零开始：一、PQTools工具的使用总结
                        斟茶兵
海思平台基础的Imagesensor问题分析isp嵌入式
                        海思平台ISP系列：一.PQTools工具使用方法正所谓工欲善其事必先利其器，磨刀不误砍柴工，想要在海思平台开始IQ,就得利用海思SDK中提供的PQTools工具，这个工具作的很好的，里边有很多图像分析的工具，下面就开始介绍：工具入式如何使用：在海思的SDK开发包中，包含了PQTools使用的软件，以我使用的Hi33516DV300为例，PQTools工具包的目录如下：Hi3516CV500R00
                    
                    Julia爬取数据能力及应用场景
                        q56731523
julia开发语言
                        Julia是一种高性能编程语言，特别适合数值计算和数据分析。然而，关于数据爬取（即网络爬虫）方面，我们需要明确以下几点：虽然它是一门通用编程语言，但它的强项不在于网络爬取（WebScraping）这类任务。而且Julia的生态系统在爬虫方面还不够成熟和丰富。所以说Julia爬取数据后立即进行高性能的数据分析这点还是有一些优势。Julia虽然以高性能数值计算和数据分析见长，但它同样具备网络爬取（We
                    
                    Lua嵌入式爬虫实现步骤
                        q56731523
lua爬虫开发语言r语言
                        在Lua中实现嵌入式爬虫，通俗点说就是指在一个宿主程序（如Nginx/OpenResty、Redis等）中使用Lua脚本来完成网络爬取任务。由于Lua本身的标准库并不包含网络请求功能，因此我们需要依赖宿主环境提供的网络库。在Lua中实现嵌入式爬虫通常指在资源受限环境（如OpenResty/Nginx、Redis、IoT设备）中运行的轻量级网络爬取工具。以下是关键实现方案和示例：核心方案：基于Ope
                    
                    Scala实现网页数据采集示例
                        

                        Scala可以轻松实现简单的数据采集任务，结合AkkaHTTP（高效HTTP客户端）和Jsoup（HTML解析库）是常见方案。Scala因为受众比较少，而且随着这两年python的热门语言，更让Scala不为人知，今天我将结合我所学的知识实现一个简单的Scala爬虫代码示例。以下就是我整理的一个完整示例，演示如何抓取网页标题和链接：示例代码importakka.actor.ActorSystemi
                    
                    使用 Kotlin 编写的爬虫程序，用于爬取简历采集系统智联和无忧的内容
                        

                        这是一个使用Kotlin编写的爬虫程序，用于爬取简历采集系统智联和无忧的内容。使用代理信息proxy_host:www.duoip.cn,proxy_port:8000。以下是每行代码和步骤的详细解释：```kotlinimportorg.jsoup.Jsoupimportorg.jsoup.nodes.Documentimportorg.jsoup.nodes.Elementimportorg.
                    
                    Scrapy分布式爬虫进阶：动态代理与并发优化实战
                        Kelaru
pythonprojectscrapy分布式爬虫python
                        写在前面。。。继“动态网页”“登录网站”“经验总结”“分布式爬虫”后，本篇献上Scrapy-Redis进阶实战，基于QuotestoScrape，聚焦动态代理池和并发优化，代码简洁，经验点燃智慧，适合新手到老兵。准备工作1.环境配置Python：3.8+（推荐3.10）。依赖安装：pipinstallscrapy==2.11.2scrapy-redis==0.7.4redis==5.0.8requ
                    
                    Python 爬虫实战：电商商品评论深度爬取与用户情感分析系统搭建
                        西攻城狮北
python爬虫开发语言电商
                        引言在电商领域，商品评论是消费者决策的重要参考，也是商家优化产品和服务的关键依据。通过爬取和分析电商商品评论，可以深入了解用户需求、产品优缺点以及市场趋势。本文将详细介绍如何使用Python构建一个完整的电商商品评论爬取系统，并进行用户情感分析。我们将涵盖从爬虫设计、数据抓取、数据清洗、情感分析到可视化的全流程。1.项目背景与目标电商平台上，商品评论通常包含以下信息：用户名评论内容评论时间评分（星
                    
                    Java基础学习笔记2
                        qichi333
学习笔记javaeclipse
                        今天是Java基础学习第二天，加油！！！下面是我今天记的一些笔记。（有点懒惰了，爬虫今天没学，因为赖床了(bushi)，但我会勤奋起来的^_^，一定一定！明天不能偷懒了天！！）一、运算符例子：inta=10;intb=20;intc=a+b;其中，“+”是运算符，且是算术运算符；“a+b”是表达式，且是算术表达式。1.算术运算符例1：publicclassdemo3{publicstaticvoi
                    
                    自己动手写编译器
                        JeffWoodNo.1
编译器hexcompilerfunctionbrancheclipse
                        这里不再仅仅是简单的记录一下……直接上手环境目标1：在elicpse平台上使用ant构建ANTLR目标2：在elicpse平台上使用antlride编写ANTLR语法编写实用的C解析器背景调查到底还需不需要自己动手写一个编译器这就是“工具哲学”所谓bootstrap的编译器构造方式。C的核心子集Appendix直接上手环境antlr-for-eclipse，即antlride-2.0-rc4版，在
                    
                    Selenium使用指南
                        

                        点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快Selenium是网页应用中最流行的自动化测试工具，可以用来做自动化测试或者浏览器爬虫等。官网地址为：相对于另外一款web自动化测试工具QTP来说有如下优点：免费开源轻量级，不同语言只需要一个体积很小的依赖包支持多种系统，包括Windows，Mac，Linux支持多种浏览器，包括Chrome，FireFox，IE，safari，opera
                    
                                Maven
                                    Array_06
eclipsejdkmaven
                                    Maven 
 
Maven是基于项目对象模型(POM)， 信息来管理项目的构建，报告和文档的软件项目管理工具。 
Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
                                
                                ibatis的queyrForList和queryForMap区别
                                    bijian1013
javaibatis
                                    一.说明 
        iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 
        1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
                                
                                LeetCode[位运算] - #191 计算汉明权重
                                    Cwind
java位运算LeetCodeAlgorithm题解
                                    原题链接：#191 Number of 1 Bits 
要求： 
写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。 
汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。 
难度：简单 
分析： 
将十进制参数转换为二进制，然后计算其中1的个数即可。 
“
                                
                                浅谈java类与对象
                                    15700786134
java
                                          java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
                                
                                linux下双网卡同一个IP
                                    被触发
linux
                                    转自： 
http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 
 
由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少： 
一、 
关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
                                
                                安卓按主页键隐藏程序之后无法再次打开
                                    肆无忌惮_
安卓
                                    遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 
  
本来代码： 
  
// 销毁这个Activity 
fin
                                
                                通过cookie保存并读取用户登录信息实例
                                    知了ing
JavaScripthtml
                                    通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。 
下面通过cookie保存并读取用户登录信息的例子加深一下理解。 
（1）创建index.jsp文件。在改
                                
                                JAVA 对象池
                                    矮蛋蛋
javaObjectPool
                                    原文地址： 
http://www.blogjava.net/baoyaer/articles/218460.html 
Jakarta对象池 
      ☆为什么使用对象池 
  恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
                                
                                ArrayList根据条件+for循环批量删除的方法
                                    alleni123
java
                                    场景如下： 
ArrayList<Obj> list 
 
Obj-> createTime, sid. 
 
现在要根据obj的createTime来进行定期清理。（释放内存） 
 
------------------------- 
 
首先想到的方法就是 
 
for(Obj o:list){
  if(o.createTime-currentT>xxx){
 
                                
                                阿里巴巴“耕地宝”大战各种宝
                                    百合不是茶
平台战略
                                    “耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿 ，主要是用来进行农业方面，将农民手中的散地集中起来 不仅加大农民集体在土地上面的话语权，还增加了土地的流通与 利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的 发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权 将更少，国家应出台相应的法律法规保护
                                
                                Spring注入有继承关系的类（1）
                                    bijian1013
javaspring
                                    一个类一个类的注入 
1.AClass类 
 
package com.bijian.spring.test2;

public class AClass {

    String a;
    String b;
   
    public String getA() {
        return a;
    }
    public void setA(Strin
                                
                                30岁转型期你能否成为成功人士
                                    bijian1013
成功
                                            很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
                                
                                [Velocity三]基于Servlet+Velocity的web应用
                                    bit1129
velocity
                                    什么是VelocityViewServlet 
使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 
  Servlet + Velocity的一般步骤 
1.自定义Servlet，实现VelocityViewServl
                                
                                【Kafka十二】关于Kafka是一个Commit Log Service
                                    bit1129
service
                                    Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ 
  
A message is considered "committed" when all in sync replicas for that partition have applied i
                                
                                NGINX + LUA实现复杂的控制
                                    ronin47
lua nginx 控制
                                    安装lua_nginx_module 模块 
lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty 
Centos和debian的安装就简单了。。 
这里说下freebsd的安装： 
fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz
tar zxvf lua-5.1.4.tar.gz
cd lua-5.1.4
ma
                                
                                java-14.输入一个已经按升序排序过的数组和一个数字， 在数组中查找两个数，使得它们的和正好是输入的那个数字
                                    bylijinnan
java
                                    

public class TwoElementEqualSum {

	/**
	 * 第 14 题：
题目：输入一个已经按升序排序过的数组和一个数字，
在数组中查找两个数，使得它们的和正好是输入的那个数字。
要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。
例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于 
                                
                                Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder
                                    bylijinnan
javanetty
                                    今天看Netty如何实现一个Http Server 
org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： 
 

		pipeline.addLast("decoder", new HttpRequestDecoder());
        pipeline.addLast(&quo
                                
                                java敏感词过虑-基于多叉树原理
                                    cngolon
违禁词过虑替换违禁词敏感词过虑多叉树
                                    基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 
1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 
  
2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 
utf-8的words.dict文本文件，
                                
                                多线程知识
                                    cuishikuan
多线程
                                     
  
  T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 
  public class T1 implements Runnable{    
     
       @Override    
      
                                
                                spring整合activemq
                                    dalan_123
java spring jms
                                    整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分：     a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接      b、真正产生到JMS服务器链接的ConnectionFactory还得
                                
                                MySQL时间字段究竟使用INT还是DateTime？
                                    dcj3sjt126com
mysql
                                      
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 
第一步、创建一个表date_test（非定长、int时间） 
CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
                                
                                Parcel: unable to marshal value
                                    dcj3sjt126com
marshal
                                    在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。      在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）：       Intent intent = new Intent(this, Next
                                
                                linux进程的查看上（ps）
                                    eksliang
linux pslinux ps -llinux ps aux
                                    ps:将某个时间点的进程运行情况选取下来 
转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 
http://eksliang.iteye.com 
        ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
                                
                                为什么第三方应用能早于System的app启动
                                    gqdy365
System
                                    Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
                                
                                App Framework发送JSONP请求(3)
                                    hw1287789687
jsonp跨域请求发送jsonpajax请求越狱请求
                                    App Framework 中如何发送JSONP请求呢? 
使用jsonp,详情请参考:http://json-p.org/ 
如何发送Ajax请求呢? 
(1)登录 
/***
 * 会员登录
 * @param username
 * @param password
 */
var user_login=function(username,password){
//    aler
                                
                                发福利，整理了一份关于“资源汇总”的汇总
                                    justjavac
资源
                                    觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN  通用 
 
  free-programming-books-zh_CN 免费的计算机编程类中文书籍  
  精彩博客集合 hacke2/hacke2.github.io#2  
  ResumeSample 程序员简历
                                
                                用 Java 技术创建 RESTful Web 服务
                                    macroli
java编程WebREST
                                    转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ 
  
JAX-RS (JSR-311) 【  Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
                                
                                CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项
                                    超声波
oraclelinux
                                    前言： 
这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。 
  
安装过程中可能遇到的问题（注
                                
                                HttpClient 4.3 设置keeplive 和 timeout 的方法
                                    supben
httpclient
                                    ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() {
			@Override
			public long getKeepAliveDuration(HttpResponse response, HttpContext context) {
				long keepAlive
                                
                                Spring 4.2新特性-@Import注解的升级
                                    wiselyman
spring 4
                                    3.1 @Import 
 
 @Import注解在4.2之前只支持导入配置类 
 在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 
  
3.2 示例 
 
 演示java类 
  
package com.wisely.spring4_2.imp;

public class DemoService {
    public void doSomethin
                                
                
            
        
    


    
        
            按字母分类：
            ABCDEFGHIJKLMNOPQRSTUVWXYZ其他
        
    


    
        
            首页 -
            关于我们 -
            站内搜索 -
            Sitemap -
            侵权投诉
        
        版权所有 IT知识库 CopyRight © 2000-2050 E-COM-NET.COM , All Rights Reserved.