罗家马德里球迷

天猫商品评论爬虫攻略【基于scrapy框架】（内附词云图绘制代码）

简介

近日因为公司业务需要，领导要求我批量获取一款天猫商城上的商品链接下的评论。虽然我已有超过一年的爬虫实战经验，但是一想到我即将面对的是“阿里云”这一BUG级怪物，头皮不由自主地发麻了。但是秉着“万物皆可爬”的信念，我还是硬着头皮上了。

网页展示

我需要获取的网页链接为天猫商城。
先来看看评论区的模样吧。

正如大家所熟知的，评论栏目十分工整，所有评论都整齐地摆放在了网页当中，而页面末尾还有翻页按钮。一切还似乎是简单的模样。
然而，爬虫界里有一句话可谓是“至理箴言”——你看得到不一定你就能爬得到。这不，当我打开浏览器监听器时就发现了天猫商品的网页采取的都是异步请求方式获得的，评论区的都内容都停放在了类似于
https://rate.tmall.com/list_detail_rate.htm?itemId=537259015354&spuId=694941313&sellerId=2386968451&order=3¤tPage=2&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvS9vovLIvUvCkvvvvvjiPRFzpsjnmRLFw0jrCPmPZlj3CnLMpljYWn2LwQj3bRphvCvvvvvmCvpvZz2staosNznswUGrfYgsw1aAv7IVrvpvEvCB%2FvNsGv2s22QhvCvvvMMGCvpvVvmvvvhCvKphv8vvvvvCvpvvvvvv2vhCvCjQvvvWvphvW9pvvvQCvpvs9vvv2vhCv2RmEvpvVmvvC9jamuphvmvvv9bcWRGhImphvLvCbXvvjna21Q8oaWLEc34z%2BFfmtEpcUTUoXKFwFxT7YK4vTHkGVqwzaiLu18vmYiR0n%2BbyDCw2IAXZTKFEw9Exrz8TJEcq9afknnbvtvpvhvvvvv8wCvvpvvUmm3QhvCvvhvvmrvpvpjvkJ9wjCvmvIFfwznHVt6OhCvvswMHna3nMwznQY3DItvpvhvvvvvUhCvvswNHBwEaMwzns%2FblItvpvhvvvvv86Cvvyv2h7n1GwvzWy%3D&needFold=0&_ksTS=1561438169812_1139&callback=jsonp1140
这样的链接当中。
可以注意到，链接当中包含着一个currentPage字段，只要通过更改currentPage的值即可实现翻页的效果。

上图为评论区内容的停放方式。实话说，到目前为止，我还没有体会到阿里云的强大之处到底在哪，根据个人经验，我仍然觉得只要听过递归算法实现翻页、逐个获取就可以完成老板的任务。然而，不到最后一刻真的不能轻易放松啊。

阿里云的反爬策略

通常来讲，如果网站想要反爬，它们通常会从访问者的访问频率入手，只要识别到某个IP发出的请求在某一时间段内极度频繁网站便会认定（如果真的需要反爬的话）该访问者为不友好客户，将该IP封锁请求一段时间。
然而阿里云的高明之处在于它压根不需要设置反爬就可以屏蔽掉大部分不友好访问者了。至于原因如何，请看如下：
我在pycharm terminal当中利用scrapy shell对需要访问的网址进行测试

> scrapy shell "https://rate.tmall.com/list_detail_rate.htm?itemId=537259015354&spuId=694941313&sellerId=2386968451&order=3¤tPage=2&append=0&content=1&tagId=&posi=&picture=&groupId=&ua=098%23E1hvS9vovLIvUvCkvvvvvjiPRFzpsjnmRLFw0jrCPmPZlj3CnLMpljYWn2LwQj3bRphvCvvvvvmCvpvZz2staosNznswUGrfYgsw1aAv7IVrvpvEvCB%2FvNsGv2s22QhvCvvvMMGCvpvVvmvvvhCvKphv8vvvvvCvpvvvvvv2vhCvCjQvvvWvphvW9pvvvQCvpvs9vvv2vhCv2RmEvpvVmvvC9jamuphvmvvv9bcWRGhImphvLvCbXvvjna21Q8oaWLEc34z%2BFfmtEpcUTUoXKFwFxT7YK4vTHkGVqwzaiLu18vmYiR0n%2BbyDCw2IAXZTKFEw9Exrz8TJEcq9afknnbvtvpvhvvvvv8wCvvpvvUmm3QhvCvvhvvmrvpvpjvkJ9wjCvmvIFfwznHVt6OhCvvswMHna3nMwznQY3DItvpvhvvvvvUhCvvswNHBwEaMwzns%2FblItvpvhvvvvv86Cvvyv2h7n1GwvzWy%3D&needFold=0&_ksTS=1561438169812_1139&callback=jsonp1140"

在点击运行shell命令以后，程序实际上在不停地重定向，以至于最后请求得到的response.body为

response.body所指的链接包含了“login”一词，也就是说我们每一次访问都意味着需要登录一次个人密码，更何况，经本人验证，密码验证通过以后普通用户也无权查看网页内容。所以说，马爸爸能有今日的成就真的不是靠吹牛吹出来的。

我的反-反爬策略

正当我毫无头绪，准备等着去老总办公室领便当之时，我心血来潮地用火狐浏览器再次打开商品链接。正是这一次无心之举让我看到了曙光，因为不同于Google Chrome的浏览器监听，Firefox浏览器监听还给出了每个链接各自的请求cookies以及响应cookies。

而有了网页cookies的加持，代码实现自然便廓然开朗了。

代码实现

scrapy的原理不多说，我的工作包括：在spider模块中定义爬取规则、在items模块定义所需信息以及在settings.py文件设置请求参数。

items类的定义

这一部分可以结合自身工作需要进行定义，不过建议初学者尽可能多地抓取信息，这样有利于对HTML的理解的长进以及后续爬虫能力的进步。

class TmallItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    init_comment = scrapy.Field()  # 首次评论内容
    init_images = scrapy.Field()  # 首次评论所发布的照片
    init_explanation = scrapy.Field()  # 首次评论时店家的回复
    append_comment = scrapy.Field()  # 追评内容
    append_images = scrapy.Field()  # 追评所发布的图片
    append_explanation = scrapy.Field()  # 追评回复
    category = scrapy.Field()  # 商品类型
    user = scrapy.Field()  # 用户名
    init_comment_date = scrapy.Field()  # 首次评论日期
    append_comment_date = scrapy.Field()  # 追评日期
    append_days = scrapy.Field()  # 追评日期距离收货日期的天数

爬虫规则的定义

本次爬虫逻辑为垂直式爬取，所以首先需要定义种子链接的形式。

name = 'jisu'
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=537259015354&spuId=694941313&sellerId=2386968451&' \
      'order=1¤tPage={page}&append=0&content=1&tagId=&posi=&picture=&groupId=&' \
      'ua=098%23E1hv0pvxvchvUvCkvvvvvjiPRFsOljlnP2F9tjYHPmP9ljnHnLqv6j3URFLhAj1U9phvHHiaLxF3zHi4w17gtssR7TC4NrGB' \
      'dphv219vhQ9wjVoKzYVtRkHL6OhCvv14cGJOEa1475PE7r%2FCvpvW7D%2FShUbw7Dis%2BtjN9phv2HiNsQ9bzHi4wTo2zsyCvvpvvvv' \
      'vkphvC9QvvOC0p4yCvv9vvUmljyONNbyCvmFMMQ2GS6vvtQvvvQCvpvoKvvv2vhCv2UhvvvWvphvWgvvvvQavpvQXmphvLv3fYpvjcRCl' \
      'dU9tK7ERiNLyzCyXfCuYiXVvVE6Fp%2B0x9W9OjLEc6acEKBm6NB3rQjcQ%2BulgEfk1DfesRk9cznsW1C0OwZFvgb2XrqpCvpvVvmvvv' \
      'hCv2QhvCvvvMMGtvpvhvvvvv8wCvvpvvUmm3QhvCvvhvvmCvpvW7D%2FjM0Lw7Di4XLLNdphvmpvhYUWOVvCpjOhCvCB47Twpc1147DiA' \
      'iKNG%2FHrz7IbNVLyCvvpvvvvvdphvmpvZL9nEop2nULyCvvpvvvvv&needFold=0' \
      '&_ksTS=1560657691879_1614&callback=jsonp1615'

max_page = 8911

定义start_requests函数

要注意带上Firefox浏览器上的cookies.

    def start_requests(self):
        headers = {
            'User-Agent': USER_AGENT,
                }
        cookies = {
           '_l_g_': 'Ug==',
           '_m_h5_tk': '7fc115a6218e184230f2576214bddb9d_1560939254163',
           '_m_h5_tk_enc': '2234531bca3e65e82c1c4f1e84a9ff8e',
           '_nk_': '\u5409\u7C73\u591A\u7EF4\u5947\u7231\u6570\u5206',
           '_tb_token_': 'e3e6b1b159e7b',
           'ck1': '',
           'cna': 'fRQMFZNC9lUCAd0EIk1wBCP3',
           'cookie1': 'AVJ0BAH4k1O+4H25j50cTLQqmMXYIJqxzI6MZPtNeyc=',
           'cookie17': 'UU6oL/V0LlWJdQ==',
           'cookie2': '1905c0ac2025ad5fa6bb8b0a0bbb3edc',
           'csg': '2ab2dcee',
           'enc': 'ooH8602regPsWM1QfY3QSxjCZFzz5o8Cc3HlKJU7zZGHQIGiyDbVU7tl3OLBBy8xg8tux6KZM6Dx6O7t+LoYFA==',
           'hng': 'CN|zh-CN|CNY|156',
           'isg': 'BCMjGH3segMKazekY19AtEN1sWdhBFppX-siTVWA5gJslEq23evtqnuGjqQ_Lw9S',
           'l': 'bBr5SYxqv46OYL1BBOfZqQFf8hQTgIRVCkPP2PW6kICPOLCX5xhCWZh60VYWC31VZ1DyR3JceFJJB8TNpyCV.',
           'lgc': '\u5409\u7C73\u591A\u7EF4\u5947\u7231\u6570\u5206',
           'lid': 'å��ç±³å¤�ç»´å¥�ç�±æ�°å��',
           'login': 'true',
           'otherx': 'e=1&p=*&s=0&c=0&f=0&g=0&t=0',
           'skt': '4445413dc568a647',
           't': '9d720f184875d4c25562b0a93e4f5996',
           'tk_trace': '1',
           'tracknick': '\u5409\u7C73\u591A\u7EF4\u5947\u7231\u6570\u5206',
           'uc1': 'cookie16=Vq8l+KCLySLZMFWHxqs8fwqnEw==&cookie21=VFC/uZ9aiKCaj7AzMHh1&cookie15=UtASsssmOIJ0bQ==&'
                  'existShop=false&pas=0&cookie14=UoTaGOHiwTZ1YA==&tag=8&lng=zh_CN',
           'uc3': 'vt3=F8dBy3kbj5HhJvR1epM=&id2=UU6oL/V0LlWJdQ==&nk2=3zMxvthgoDYtGUAVjC8HCg==&lg2=UIHiLt3xD8xYTw==',
           'unb': '2696829666',
           'uss': '',
           'whl': '-1&0&0&0',
           'x': '__ll=-1&_ato=0',
           'x5sec': '7b22726174656d616e616765723b32223a223639643865623637336663346530323431313935653338623730383565'
                    '366237434d2f57702b6746454958316d346a64684b69364e686f4d4d6a59354e6a67794f5459324e6a7378227d'
                }
        for page in range(1, self.max_page + 1):
            yield scrapy.Request(self.url.format(page=page), headers=headers,
                                 cookies=cookies, callback=self.parse, dont_filter=True)

定义回调函数parse（）

从监听器对链接的格式化显示可以看出，评论区的内容是以json格式储存在网站中的。因此，parse函数的关注焦点便是如何解析各网页的json内容。

    def parse(self, response):
        item = TmallItem()
        comments = re.findall('"rateList":(\[.*\]),"searchinfo"', response.text)
        comments = ''.join(comments)
        comments = json.loads(comments)
        for comment in comments:
            item['init_comment'] = comment['rateContent']
            item['init_images'] = comment['pics']
            item['init_explanation'] = comment['reply']
            item['category'] = ''.join(re.findall('颜色分类:(.*)', comment['auctionSku']))
            item['user'] = comment['displayUserNick']
            item['init_comment_date'] = ''.join(re.findall('\d{4}\D\d{1,2}\D\d{1,2}', comment['rateDate']))
            if comment['appendComment']:
                item['append_comment'] = comment['appendComment']['content']
                item['append_images'] = comment['appendComment']['pics']
                item['append_explanation'] = comment['appendComment']['reply']
                item['append_days'] = comment['appendComment']['days']
                try:
                    item['append_comment_date'] = ''.join(re.findall('\d{4}\D\d{1,2}\D\d{1,2}',
                                                                     comment['appendComment']['commentTime']))
                finally:
                    pass
            else:
                item['append_comment'] = None
                item['append_images'] = None
                item['append_explanation'] = None
                item['append_comment_date'] = None
                item['append_days'] = None
            yield item

以上工作全部都需要在spider类当中完成。

settings.py的参数修改

为了尽可能规避反爬机制的识别，我还在该文件中进行了以下操作。

ROBOTSTXT_OBEY = False
CONCURRENT_REQUESTS = 32
DOWNLOAD_DELAY = 1
CONCURRENT_REQUESTS_PER_DOMAIN = 16
CONCURRENT_REQUESTS_PER_IP = 16
FEED_EXPORT_ENCODING = 'GBK'  # 这里表示信息文本是GBK编码，避免了汉字数据输出时出现乱码的情况

至此，我的代码编写工作就算大功告成了。接下来便是需要等待输出结果了。

结果展示

经过长达10分钟的等待，我终于等到了最终结果。然而结果却没有我想象当中那般理想——超过八成的数据竟然是重！复！的！
实际上，我观察到我的程序在运行到一段时间过后，请求返回的数据都是一样的，这大概率是我用写死cookies这种饮鸩止渴的方式的锅了。不过考虑到我手头上至少能够拿到1992条数据，起码可以给老板交个差，所以也就没有继续深究下去了。

词云图绘制

这一部分的技术难度实话说并不高，唯一的痛点在于要用到的第三方模块又多又难安装，希望各位小伙伴们注意一下。

from wordcloud import WordCloud
import jieba
import pandas as pd
import matplotlib.pyplot as plt
from scipy.misc import imread

接下来的工作步骤，我已上传至我的主页，有兴趣了解的可前往下载（里面还有前述的爬虫代码哦！），我只展示结果：

小结与感想

至此我的工作就算完毕了，有收获，更有不足。我觉得这一次爬虫过后我最大的收获是自信，之前总想着阿里巴巴的网站防爬虫是多么多么的高级，自己一个区区本科学历小职员螳臂当车岂不是作死之举？而现在看来，一切困难只不过是只纸老虎，只要有恒心，就总有法子搞得定。
不过，我更在意的是这一编程工作所暴露出来的不足。尽管学习、实操Python爬虫已经超过一年了，但是还会时常发现自己对网络方面的知识有所欠缺。所获取的数据尚不完整就是最扎心的明证。但这恰恰是我敢于、乐意公开代码、分享经验的根本原因，我欢迎各路高手为我指点，相互切磋交流，一起进步！
祝福各位认真读完这篇文章的程序猿与程序媛们生活愉快，程序无BUG！

odoo-040 odoo17前端的js方法调用后端py方法action报错 Sapphire～ Odoo 总结前端 javascript odoo
文章目录问题描述梳理写法xml写法前端方法后端action的写法错误解释问题描述在前端的kanban视图上添加了几个自定义按钮，按钮点击可以跳转到对应的tree视图，在写按钮调用方法的时候报错如下：前端调用后端action报错：action.views=[...action.views.map((v)=>[v[0],v[1]==="tree"?"list":v[1]])];//manipulate
android 新闻客户端和springboot后台开发-网络接口封装（三） mmsx android 作业源码分享 android spring boot
一、前言android新闻客户端和springboot后台开发（一）-CSDN博客android新闻客户端和springboot后台开发（二）-CSDN博客这篇接前面，写android客户端接口这样方面的实现。okhttp简易封装，方便使用。二、例如注册接口示例UsermUser=newUser(account,password,UserTypeEnum.User.getDesc());Okhtt
用Python写一个天气预报小程序穿梭的编织者 Python脚本 python 小程序
一、界面效果二、完整代码importtkinterastkfromtkinterimportttkimportrequestsimportjsonfromdatetimeimportdatetimefromPILimportImage,ImageTkimportiofromttkbootstrapimportStyleclassWeatherApp:def__init__(self,root):s
Python写一个脚本——30行代码——1秒实现PDF任意页码拆分穿梭的编织者 Python精选 pdf python
一、引入库importosfromPyPDF2importPdfReader,PdfWriter二、定义拆分方法defsplit_pdf(input_path,output_dir,ranges):ifnotos.path.exists(output_dir):os.makedirs(output_dir)withopen(input_path,'rb')asfile:pdf=PdfReader(
C语言占位符详细介绍南玖yy C语言基础 c语言开发语言
1.printf()的占位符有许多种类，与C语⾔的数据类型相对应。下⾯按照字⺟顺序，颜色标出常⽤的占位符，⽅便大家记忆。•%a：⼗六进制浮点数，字⺟输出为⼩写。•%A：⼗六进制浮点数，字⺟输出为⼤写。•%c：字符。•%d：⼗进制整数。•%e：使⽤科学计数法的浮点数，指数部分的e为⼩写。•%E：使⽤科学计数法的浮点数，指数部分的E为⼤写。•%i：整数，基本等同于%d，除了scanf有一点区别。•%f
Python 爬虫实战：艺术品市场趋势分析与交易平台数据抓取西攻城狮北 python 爬虫开发语言
一、引言在当今数字化时代，艺术品市场正经历着前所未有的变革。随着互联网技术的飞速发展，越来越多的艺术品交易转移到了线上平台，这为我们提供了海量的数据资源。通过Python爬虫技术，我们可以抓取艺术品交易平台上的数据，进而分析艺术品市场的趋势，为投资者、收藏家以及艺术爱好者提供有价值的参考。本文将带领读者深入探索Python爬虫在艺术品市场的应用。从爬虫的基本原理到实际代码实现，再到数据的清洗、分析
简单的网页链接爬虫笑颜218 爬虫 python 简单
fromurllib.requestimporturlopenfromurllib.parseimporturljoinfromhtml.parserimportHTMLParser#自定义HTML解析器classLinkParser(HTMLParser):def__init__(self,base_url):super().__init__()self.base_url=base_url#基础
缓存使用的具体场景有哪些？缓存的一致性问题如何解决？缓存使用常见问题有哪些？蒂法就是我缓存
缓存使用场景、一致性及常见问题解析一、缓存的核心使用场景1.高频读、低频写场景典型场景：商品详情页、新闻资讯、用户基本信息。特点：数据更新频率低，但访问量极高。策略：Cache-Aside（旁路缓存）：优先读缓存，未命中时查数据库并回填。TTL（过期时间）：设置合理过期时间（如5分钟），平衡数据新鲜度与缓存命中率。示例：publicProductgetProduct(Stringid){Produ
Python说明一一代码 python
Python的主要特点：1.**易读易写**：Python的语法简洁明了，代码可读性高。2.**跨平台**：Python可以在多种操作系统上运行，如Windows、macOS、Linux等。3.**丰富的库**：Python拥有庞大的标准库和第三方库，涵盖了从Web开发到数据科学的多个领域。4.**动态类型**：Python是动态类型语言，变量不需要显式声明类型。5.**解释型语言**：Pytho
【儿童自信的生物学机制】调皮的芋头机器学习数据库
在继续深入探讨儿童自信的生物学机制时，我们需要将视角拓展至神经递质系统、突触动态平衡以及跨脑区网络整合等更深层的神经发育规律。以下从三个新颖维度展开分析：一、神经递质系统的发育失衡现象儿童自信水平随年龄增长呈现U型曲线变化的现象，确实蕴含着复杂的生物进化机制与神经发育规律。从进化生物学视角来看，人类幼态持续特征决定了早期自信的生存价值：新生儿通过哭闹表达需求（平均每天1.5小时发声），这种原始自信
软件工程师的招聘天黑了g 开发团队管理软件工程团队开发
要建设良好的开发团队，首先得招聘到合适的人才。合适的团队成员能够事半功倍，管理也会省心省力。本次要说的主要内容是关于普通软件开发工程师的招聘目标、面试过程和新人试用期阶段。招聘的岗位职责和技术要求一般是比较容易确定的，但在能力程度上就得好好考虑，是要招初级、中级还是高级？初级程序员主要作为辅助，写一些简单业务的类和方法，干一些杂货，一般工作经验不超过1年。中级工程师能够单独开发常规业务模块或完整的
C#实现动态验证码生成器：安全防护与实际应用场景 WangMing_X C#实现各种功能工具集 c#安全开发语言验证码图片
一、核心应用场景用户登录/注册验证：防止恶意程序批量注册表单提交防护：确保关键操作由真人执行API接口限流：抵御自动化脚本攻击敏感操作验证：如支付、信息修改等关键步骤数据防爬机制：保护网站内容不被爬虫抓取二、技术实现方案1.基础架构设计//验证码服务架构+------------------------+|验证码生成模块|←随机字符|(CaptchaGenerator)|+------------
C语言：define定义常量和定义宏（详解）橘颂TA C语言 c语言开发语言
本篇博客给大家带来的是#define定义常量和#define定义宏的方法文章专栏：C语言若有问题评论区下讨论，我会及时回答❤❤欢迎大家点赞、收藏、分享你们的支持就是我创造的动力今日思想：本来就一无所有，何必瞻前顾后呢！1、预定义符号intmain(){printf("%s\n",__FILE__);//打印当前编译的源文件printf("%d\n",__LINE__);//代码的行号printf(
《Python实战进阶》No23: 使用 Selenium 自动化浏览器操作带娃的IT创业者 Python实战进阶 python selenium 自动化
No23:使用Selenium自动化浏览器操作摘要Selenium是自动化浏览器操作的“瑞士军刀”，可模拟人类行为操作网页，适用于爬虫、测试、重复任务自动化等场景。本集通过代码驱动实战，从安装配置到复杂交互，带你掌握Selenium的核心技能，并结合电商网站登录、商品下单等真实场景，解决动态加载、反爬等实际问题。核心概念与代码实战1.环境配置与WebDriver基础安装命令：pipinstalls
Go channel底层实现原理以及为什么要懂原理 Amber_37 Golang golang
Gochannel底层实现原理Go语言中的channel是一种用于goroutine之间通信和同步的核心机制，其底层实现基于高效的数据结构和调度策略。以下是其底层实现原理的详细分析：1.数据结构：hchanchannel的底层由runtime.hchan结构体表示，包含以下关键字段：buf：指向环形缓冲区的指针，用于存储元素（仅限带缓冲channel）。qcount：当前缓冲区中的元素数量。dat
vue使用el-upload实现文件上传功能小来码呀码 vue.js elementui javascript
因为是vue+springboot前后分离，要跨域，就不能用默认的action写请求地址，我用axios时最困扰的就是怎么拿到那个真实的文件，然后给传给后台。其实可以通过自带的onchanne触发方法获得文件列表，文件信息中那个raw就是真实的文件。写的时候，刚开始我是直接把el-upload里面的button中加了点击事件，但是每次文件还没选，就已经向后台发出请求了，当然传不过去，于是外面套了个
Docker配置代理，以保证可以快速拉取镜像霍志杰 docker 容器运维
序言本来不想写了，然后记笔记了，但是今天遇到这个问题了再一次，还是写一写吧，加深一下印象因为Docker被墙了，所以拉取Docker镜像的时候，需要通过代理的方式xxxxxxxxxx,此处省略十几个字，然后，在目标主机上面配置代理，但是需要注意的是，docker并不能使用bash的代理配置，所以需要额外配置docker的代理，这里需要注意，一开始认为不需要所以一直不通。配置Docker使用代理的配
如何安装dotenv，避坑指南，安装包的包名有误？兰若姐姐 AI大模型 python 开发语言 chatgpt
嗨，大家好，我是蓝若姐姐。最近在研究AI大模型，想写一个调用openai接口的demo，结果发现在装一个三方库的时候一直报错，mac电脑安装dotenv报错，具体情况是执行这个命令：pipinstalldotenv遇到报错：error:subprocess-exited-with-error，pipsubprocesstoinstallbackenddependenciesdidnotrunsuc
Maven的安装配置 2301_82243979 作者\/maven java
（注：文章是前段时间写的忘记发了，防止丢失在此记录一下）Maven是Apache下的纯Java开发的开源项目,是一个项目管理工具,使用Maven对项目进行构建,依赖管理。依赖管理就是一个项目中要使用第三方jar包才可以运行。Maven正是对这些jar包进行规范化管理，所以在Maven的项目中只需要在pom.xml中添加jar包的坐标,自动从Maven仓库中下载jar包,运行即可。Maven项目对比
element表格滚动错位问题，使用uniapp写的项目院人冲冲冲 uni-app
element表格设置滚动条滚动到底错位_element表格滚动条无法滚动到最后-CSDN博客参考上面的博主写的::v-deep::-webkit-scrollbar{display:block!important;width:8px!important;height:8px!important;background:rgb(241,241,241)!important;-webkit-appea
Python 实现的采集诸葛灵签老大白菜 python python 开发语言
Python实现的采集诸葛灵签项目介绍这是一个基于Python开发的诸葛灵签数据采集和展示项目。通过爬虫技术获取诸葛神签的签文和解签内容，并提供数据存储和查询功能。项目结构zhuge/├──zhuge_scraper.py#爬虫主程序├──zhuge_pages/#数据存储目录│├──all_signs.json#汇总数据│└──zhuge_sign_*.json#单个签文数据└──zhuge.m
Python爬虫实战：从青铜到王者的数据采集进化论 Loving_enjoy 实用技巧爬虫 python
#开篇：当你打开浏览器时，爬虫程序在暗处露出了姨母笑某日凌晨3点，程序员老张盯着满屏的404错误，突然领悟了爬虫的真谛——这哪里是数据采集，分明是与网站运维人员斗智斗勇的谍战游戏！本文将带你体验从"HelloWorld"式爬虫到工业级采集系统的奇幻漂流，全程高能预警，请系好安全带。---###第一章青铜时代：初学者的三板斧####1.1环境搭建：你的第一把手术刀安装Python就像选择武器库：``
C++调用Python程序方法超级大反派@_@ C++c++python 开发语言
前言：在之前做的一个项目中，要使用一段Python的代码。一般来讲可以将Python代码中的功能在C++项目中重构，但是如果Python项目太大，或者这部分是别人写的，自己不清楚整个项目的逻辑，这样重构起来就比较麻烦。这里给出了另外一种实现方法，即利用Python的API使得C++项目可以直接启动Python程序，快速在PC端验证代码功能。急性子可直接看：2.2C++调用python有参有返回值函
python语言写的一款pdf转word、word转pdf的免费工具典龙330 pdf word
Word与PDF文件转换工具这是一个简单的Web应用程序，允许用户将Word文档转换为PDF文件，或将PDF文件转换为Word文档。功能特点-Word(.docx)转换为PDF-PDF转换为Word(.docx)-简单易用的Web界面-即时转换和下载-详细的错误处理和日志记录安装要求-Python3.7或更高版本-依赖库（见requirements.txt）-对于Word到PDF的转换，建议安装L
SEO 优化前端岳大宝前端核心知识总结前端 html
以下是SEO（搜索引擎优化）的基础知识点梳理，从前端技术、内容策略到搜索引擎原理，覆盖核心优化方向：一、SEO基础概念定义与目标SEO是通过优化网站结构、内容和技术，提升网站在搜索引擎自然搜索结果中的排名，吸引更多免费流量。核心目标：满足用户搜索意图，同时符合搜索引擎爬虫的抓取规则。搜索引擎工作原理爬取（Crawling）：搜索引擎蜘蛛（如Googlebot）抓取网页内容。索引（Indexing）
配置思路ensp_配置IS-IS基本功能示例 weixin_39789792 配置思路ensp
PS:华为ENSP模拟器下载地址（提取码：f651有任何下载安装问题可以在评论区讨论）组网需求如图1所示，现网中有4台交换机。用户希望在这4台交换机实现网络互联，并且因为SwitchA和SwitchB性能相对较低，所以还要使这两台交换机处理相对较少的数据信息。图1配置IS-IS基本功能组网图配置思路采用如下的思路配置IS-IS的基本功能：1.在各交换机上配置IS-IS基本功能，实现网络互联。其中，
Git学习总结（9）——如何构建你自己的 Git 服务器一杯甜酒 Git
现在我们将开始学习如何构建一个Git服务器，如何在具体的事件中写一个针对特定的触发操作的自定义Git（例如通告），如何发布你的代码到一个网站。
Mysql 主从复制架构百里自来卷 mysql 架构数据库
MySQL主从复制（Master-SlaveReplication）是一种常见的数据库架构，广泛用于提高数据库的可扩展性、读写分离以及数据备份和容灾恢复。主从复制架构中，一个MySQL实例作为主库（Master），负责处理所有的写操作，而一个或多个从库（Slave）从主库复制数据，并负责处理读操作。主库（Master）：主库负责处理数据库的所有写操作（如INSERT、UPDATE和DELETE），
MasterDetail页调试错误：CS0263 IT落英 bug
写WPF页面的逻辑的时候，遇到了这个问题，百度了好久，记录一下问题描述：MasterDetailPage分部声明不能指定不同的基类主要是xml的问题在XAML主页中是MasterDetailPage，而不是ContentPage。做出如下修改publicpartialclassMainPage:MasterDetailPage
Mysql高频八股——SQL语句的执行过程钢板兽高频八股 mysql sql 数据库面试后端
大家好，我是钢板兽！今天这篇文章本来想把SQL语句的执行过程和事务与undolog、redolog的联系放在一起写的。SQL语句的执行过程中会涉及到undolog、redolog，而undolog、redolog更深入的原理也是面试中经常会问到的，所以把它们放在一起再合适不过了，但是写着写着发现内容太多，于是拆成了两篇。这篇文章会带你理解SQL语句的执行过程，在探究SQL语句的执行过程前，我们要先
Maven Array_06 eclipse jdk maven
Maven Maven是基于项目对象模型(POM)，信息来管理项目的构建，报告和文档的软件项目管理工具。 Maven 除了以程序构建能力为特色之外，还提供高级项目管理工具。由于 Maven 的缺省构建规则有较高的可重用性，所以常常用两三行 Maven 构建脚本就可以构建简单的项目。由于 Maven 的面向项目的方法，许多 Apache Jakarta 项目发文时使用 Maven，而且公司
ibatis的queyrForList和queryForMap区别 bijian1013 java ibatis
一.说明 iBatis的返回值参数类型也有种：resultMap与resultClass，这两种类型的选择可以用两句话说明之： 1.当结果集列名和类的属性名完全相对应的时候，则可直接用resultClass直接指定查询结果类
LeetCode[位运算] - #191 计算汉明权重 Cwind java 位运算 LeetCode Algorithm 题解
原题链接：#191 Number of 1 Bits 要求：写一个函数，以一个无符号整数为参数，返回其汉明权重。例如，‘11’的二进制表示为'00000000000000000000000000001011', 故函数应当返回3。汉明权重：指一个字符串中非零字符的个数；对于二进制串，即其中‘1’的个数。难度：简单分析：将十进制参数转换为二进制，然后计算其中1的个数即可。 “
浅谈java类与对象 15700786134 java
java是一门面向对象的编程语言，类与对象是其最基本的概念。所谓对象，就是一个个具体的物体，一个人，一台电脑，都是对象。而类，就是对象的一种抽象，是多个对象具有的共性的一种集合，其中包含了属性与方法，就是属于该类的对象所具有的共性。当一个类创建了对象，这个对象就拥有了该类全部的属性，方法。相比于结构化的编程思路，面向对象更适用于人的思维
linux下双网卡同一个IP 被触发 linux
转自： http://q2482696735.blog.163.com/blog/static/250606077201569029441/ 由于需要一台机器有两个网卡，开始时设置在同一个网段的IP，发现数据总是从一个网卡发出，而另一个网卡上没有数据流动。网上找了下，发现相同的问题不少：一、关于双网卡设置同一网段IP然后连接交换机的时候出现的奇怪现象。当时没有怎么思考、以为是生成树
安卓按主页键隐藏程序之后无法再次打开肆无忌惮_ 安卓
遇到一个奇怪的问题，当SplashActivity跳转到MainActivity之后，按主页键，再去打开程序，程序没法再打开（闪一下），结束任务再开也是这样，只能卸载了再重装。而且每次在Log里都打印了这句话"进入主程序"。后来发现是必须跳转之后再finish掉SplashActivity 本来代码： // 销毁这个Activity fin
通过cookie保存并读取用户登录信息实例知了ing JavaScript html
通过cookie的getCookies()方法可获取所有cookie对象的集合；通过getName()方法可以获取指定的名称的cookie；通过getValue()方法获取到cookie对象的值。另外，将一个cookie对象发送到客户端，使用response对象的addCookie()方法。下面通过cookie保存并读取用户登录信息的例子加深一下理解。（1）创建index.jsp文件。在改
JAVA 对象池矮蛋蛋 java ObjectPool
原文地址： http://www.blogjava.net/baoyaer/articles/218460.html Jakarta对象池 ☆为什么使用对象池恰当地使用对象池化技术，可以有效地减少对象生成和初始化时的消耗，提高系统的运行效率。Jakarta Commons Pool组件提供了一整套用于实现对象池化
ArrayList根据条件+for循环批量删除的方法 alleni123 java
场景如下： ArrayList<Obj> list Obj-> createTime, sid. 现在要根据obj的createTime来进行定期清理。（释放内存） ------------------------- 首先想到的方法就是 for(Obj o:list){ if(o.createTime-currentT>xxx){
阿里巴巴“耕地宝”大战各种宝百合不是茶平台战略
“耕地保”平台是阿里巴巴和安徽农民共同推出的一个 “首个互联网定制私人农场”，“耕地宝”由阿里巴巴投入一亿，主要是用来进行农业方面，将农民手中的散地集中起来不仅加大农民集体在土地上面的话语权，还增加了土地的流通与利用率，提高了土地的产量，有利于大规模的产业化的高科技农业的发展，阿里在农业上的探索将会引起新一轮的产业调整，但是集体化之后农民的个体的话语权将更少，国家应出台相应的法律法规保护
Spring注入有继承关系的类（1） bijian1013 java spring
一个类一个类的注入 1.AClass类 package com.bijian.spring.test2; public class AClass { String a; String b; public String getA() { return a; } public void setA(Strin
30岁转型期你能否成为成功人士 bijian1013 成功
很多人由于年轻时走了弯路，到了30岁一事无成，这样的例子大有人在。但同样也有一些人，整个职业生涯都发展得很优秀，到了30岁已经成为职场的精英阶层。由于做猎头的原因，我们接触很多30岁左右的经理人，发现他们在职业发展道路上往往有很多致命的问题。在30岁之前，他们的职业生涯表现很优秀，但从30岁到40岁这一段，很多人
[Velocity三]基于Servlet+Velocity的web应用 bit1129 velocity
什么是VelocityViewServlet 使用org.apache.velocity.tools.view.VelocityViewServlet可以将Velocity集成到基于Servlet的web应用中，以Servlet+Velocity的方式实现web应用 Servlet + Velocity的一般步骤 1.自定义Servlet，实现VelocityViewServl
【Kafka十二】关于Kafka是一个Commit Log Service bit1129 service
Kafka is a distributed, partitioned, replicated commit log service.这里的commit log如何理解？ A message is considered "committed" when all in sync replicas for that partition have applied i
NGINX + LUA实现复杂的控制 ronin47 lua nginx 控制
安装lua_nginx_module 模块 lua_nginx_module 可以一步步的安装，也可以直接用淘宝的OpenResty Centos和debian的安装就简单了。。这里说下freebsd的安装： fetch http://www.lua.org/ftp/lua-5.1.4.tar.gz tar zxvf lua-5.1.4.tar.gz cd lua-5.1.4 ma
java-14.输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字 bylijinnan java
public class TwoElementEqualSum { /** * 第 14 题：题目：输入一个已经按升序排序过的数组和一个数字，在数组中查找两个数，使得它们的和正好是输入的那个数字。要求时间复杂度是 O(n) 。如果有多对数字的和等于输入的数字，输出任意一对即可。例如输入数组 1 、 2 、 4 、 7 、 11 、 15 和数字 15 。由于
Netty源码学习-HttpChunkAggregator-HttpRequestEncoder-HttpResponseDecoder bylijinnan java netty
今天看Netty如何实现一个Http Server org.jboss.netty.example.http.file.HttpStaticFileServerPipelineFactory： pipeline.addLast("decoder", new HttpRequestDecoder()); pipeline.addLast(&quo
java敏感词过虑-基于多叉树原理 cngolon 违禁词过虑替换违禁词敏感词过虑多叉树
基于多叉树的敏感词、关键词过滤的工具包，用于java中的敏感词过滤 1、工具包自带敏感词词库，第一次调用时读入词库，故第一次调用时间可能较长，在类加载后普通pc机上html过滤5000字在80毫秒左右，纯文本35毫秒左右。 2、如需自定义词库，将jar包考入WEB-INF工程的lib目录，在WEB-INF/classes目录下建一个 utf-8的words.dict文本文件，
多线程知识 cuishikuan 多线程
T1，T2，T3三个线程工作顺序，按照T1，T2，T3依次进行 public class T1 implements Runnable{ @Override
spring整合activemq dalan_123 java spring jms
整合spring和activemq需要搞清楚如下的东东1、ConnectionFactory分： a、spring管理连接到activemq服务器的管理ConnectionFactory也即是所谓产生到jms服务器的链接 b、真正产生到JMS服务器链接的ConnectionFactory还得
MySQL时间字段究竟使用INT还是DateTime？ dcj3sjt126com mysql
环境：Windows XPPHP Version 5.2.9MySQL Server 5.1 第一步、创建一个表date_test（非定长、int时间） CREATE TABLE `test`.`date_test` (`id` INT NOT NULL AUTO_INCREMENT ,`start_time` INT NOT NULL ,`some_content`
Parcel: unable to marshal value dcj3sjt126com marshal
在两个activity直接传递List<xxInfo>时，出现Parcel: unable to marshal value异常。在MainActivity页面（MainActivity页面向NextActivity页面传递一个List<xxInfo>）： Intent intent = new Intent(this, Next
linux进程的查看上（ps） eksliang linux ps linux ps -l linux ps aux
ps:将某个时间点的进程运行情况选取下来转载请出自出处：http://eksliang.iteye.com/admin/blogs/2119469 http://eksliang.iteye.com ps 这个命令的man page 不是很好查阅，因为很多不同的Unix都使用这儿ps来查阅进程的状态，为了要符合不同版本的需求，所以这个
为什么第三方应用能早于System的app启动 gqdy365 System
Android应用的启动顺序网上有一大堆资料可以查阅了，这里就不细述了，这里不阐述ROM启动还有bootloader，软件启动的大致流程应该是启动kernel -> 运行servicemanager 把一些native的服务用命令启动起来（包括wifi, power, rild, surfaceflinger, mediaserver等等）-> 启动Dalivk中的第一个进程Zygot
App Framework发送JSONP请求(3) hw1287789687 jsonp 跨域请求发送jsonp ajax请求越狱请求
App Framework 中如何发送JSONP请求呢? 使用jsonp,详情请参考:http://json-p.org/ 如何发送Ajax请求呢? (1)登录 /*** * 会员登录 * @param username * @param password */ var user_login=function(username,password){ // aler
发福利，整理了一份关于“资源汇总”的汇总 justjavac 资源
觉得有用的话，可以去github关注：https://github.com/justjavac/awesome-awesomeness-zh_CN 通用 free-programming-books-zh_CN 免费的计算机编程类中文书籍精彩博客集合 hacke2/hacke2.github.io#2 ResumeSample 程序员简历
用 Java 技术创建 RESTful Web 服务 macroli java 编程 Web REST
转载：http://www.ibm.com/developerworks/cn/web/wa-jaxrs/ JAX-RS (JSR-311) 【 Java API for RESTful Web Services 】是一种 Java™ API，可使 Java Restful 服务的开发变得迅速而轻松。这个 API 提供了一种基于注释的模型来描述分布式资源。注释被用来提供资源的位
CentOS6.5-x86_64位下oracle11g的安装详细步骤及注意事项超声波 oracle linux
前言：这两天项目要上线了，由我负责往服务器部署整个项目，因此首先要往服务器安装oracle，服务器本身是CentOS6.5的64位系统，安装的数据库版本是11g，在整个的安装过程中碰到很多的坑，不过最后还是通过各种途径解决并成功装上了。转别写篇博客来记录完整的安装过程以及在整个过程中的注意事项。希望对以后那些刚刚接触的菜鸟们能起到一定的帮助作用。安装过程中可能遇到的问题（注
HttpClient 4.3 设置keeplive 和 timeout 的方法 supben httpclient
ConnectionKeepAliveStrategy kaStrategy = new DefaultConnectionKeepAliveStrategy() { @Override public long getKeepAliveDuration(HttpResponse response, HttpContext context) { long keepAlive
Spring 4.2新特性-@Import注解的升级 wiselyman spring 4
3.1 @Import @Import注解在4.2之前只支持导入配置类在4.2,@Import注解支持导入普通的java类,并将其声明成一个bean 3.2 示例演示java类 package com.wisely.spring4_2.imp; public class DemoService { public void doSomethin