GitChat技术杂谈

Selenium 爬取评论数据，就是这么简单！

本文来自作者秦子敬在 GitChat 上分享「如何利用 Selenium 爬取评论数据？」，「阅读原文」查看交流实录

「文末高能」

编辑 | 飞鸿

一、前言

我们知道，如今的 web 网页数据很多是动态加载的，普通的爬虫只是抓取静态的网页。实用性很差，因此，我们需要使用 Selenium 来爬取动态数据。评论区的数据，大多数情况下，都需要下拉刷新才能加载出来。而 Selenium 就能帮我们很好的爬取动态数据。

在本场 Chat 中我将介绍如何用基于 Selenium 的爬虫爬取 B 站评论，并介绍如何用 Firefox 浏览器的实用插件 FirePath 协助爬虫。主要内容包括：

对比静态爬虫与动态爬虫
什么是 Selenium？Selenium 工具的安装（基于 Firefox 浏览器）
介绍强大的 Xpath 定位工具——FirePath 协助爬虫
实例操作：爬取 B 站评论
拓展：介绍 Tar 浏览器，实现匿名 IP 爬虫，防止 IP 封禁

二、环境搭建

（1） Windows10（有兴趣的小伙伴可以在Linux尝试）

（2）IDE：JetBrains PyCharm Community Edition 2017.1.2 x64（如果是学生、可以申请到免费版）

（3）Python2.7、pip工具

（4）Firefox浏览器（版本55.0）以及Firefox下的插件FirePath

这里介绍一下FirePath的安装。打开Firefox 按以下步骤安装：

（5）Selenium版本3.5

使用Pip工具在windows的cmd命令行下

Pip install selenium

因为我这里已经装好了所以cmd显示的输出会和你们不一样。

（6）FireFox对应的Selenium驱动程序

下载链接：驱动下载地址(https://github.com/mozilla/geckodriver/releases)

注意FireFox和Selenium版本对应笔者在安装这个驱动的时候走了不少弯路。

这个是笔者使用的版本。

还有以下几点一定要注意，那就是下载好的驱动程序请解压到浏览器所在文件夹目录并且复制好路径到环境变量path。并且请把Firefox浏览器的.exe文件的路径也复制到环境变量path,把驱动文件拷贝一份放在你Python2.7的目录下。这样才能正常建立浏览器和驱动的联系。

Mac 和 linux 可以参考这篇回答（windows也有介绍）：关于驱动安装失败常见解答(https://www.zhihu.com/question/49568096)

三、正文内容

1. 对比静态爬虫与动态爬虫

爬虫是什么呢?爬虫又被称为网络蜘蛛、网络机器人，是一种自动抓取万维网信息的程序或脚本。我们日常使用的搜索引擎就是通过爬虫技术实现的。我们可以使用爬虫来获取大量数据。

我们平时上网的时候，有时需要填写各种验证码，如果你观察细心，有些验证码旁边会有一行字：“我们需要验证你是不是机器人。”这就建站人用验证码的方式过滤掉一些爬虫。

其实Python也有识别验证码的库，这里给大家推荐pytesseract库，一般的验证码都能解决，有兴趣的朋友可以去了解

可以参考这篇文章：Pytesseract库识别验证码(http://www.cnblogs.com/yutingmoran/p/5984213.html)

那么，为什么建设网站的人要检测爬虫呢？你会想，不都是访问网页吗？但是，我们需要知道，使用爬虫会给网站的服务器带来不少负担，影响服务器性能。而且，爬虫并不是真正的人，不是真正的客户，这当然不被建站人喜欢。而且爬虫爬取来的数据最好不要用于商业用途，不然会遇上法律纠纷的。

这里有一篇文章是关于爬虫使用不当的案例：爬虫使用不当法律纠纷文章(http://www.sohu.com/a/72197083_115980)

因此，我们写爬虫的人，应该站在建站人的角度思考。尽可能在不影响服务器使用的情况下获取需要的数据。

爬虫根据爬取的数据的不同，可以分为静态的爬虫和动态的爬虫。有些网页只是一个简单的web网页，数据不会动态更新，像百度百科、csdn的博文等等，展示一个网页。单纯只有静态数据的web网页已经不多了。所以静态的爬虫实用性很差。

有些数据则不同，他是动态的，像淘宝里的评论区里的数据，b站里的评论区数据，动态加载。那么静态爬虫就不够用了。那么这时我们就需要我们的法宝—Selenium了

2. 什么是 Selenium？Selenium工具安装（基于 Firefox 浏览器）

Selenium是一个浏览器自动化测试框架。本来是作为web应用程序测试的工具。它可以直接运行在浏览器里，模仿真正的用户操作。目前支持IE、Firefox、Safari、Chrome大多数主流浏览器。以前是不用驱动的，现在如果要使用Selenium必须要安装对应浏览器的驱动。也就是说，使用Selenium，爬虫能够更像人的行为，去访问网页，从而获取到有用的信息。

有下面几点好处：一、爬虫的行为更接近人使用浏览器时的操作，降低了被服务器发现的可能。二、对于有些动态数据，比如需要用户下拉刷新才出来的数据，普通的静态爬虫是无可奈何的。

那么使用Selenium模拟用户行为，下拉滚动条就可以把隐藏的数据获取到了。

工具的安装上文已经说明，这里就不再赘述。

3. 介绍强大的 Xpath 定位工具——FirePath 协助爬虫

如果你之前写过爬虫，你就会发现，爬数据前，需要对网页的HTML进行分析。定位到需要的数据处。你也许看过不少教程里教的，使用正则表达式，通过css定位等等。还没爬到数据，就被这个网页分析手工定位数据烦死了。太繁琐了。
上帝教导我们要好好使用工具，而不是只用蛮力。要巧干。这里向大家介绍一款神器。Firefox的定位工具FirePath。

安装的方法上文已经有讲，不再赘述。下面介绍，如何使用它。

（1）打开Firefox，在插件的界面选择启用FirePath。

这里我已经启用了，所以按钮显示的是禁用。如果你是第一次使用，按钮上显示的应该是启用。

（2）在Firefox打开你需要爬取数据的网页键盘按F12。

（3）

（4）使用鼠标在网页处点击你需要的获取的数据比如标题，你会发现FirePath已经自动为你生成对应的xPath定位代码。

这样就不用手动分析html结构,自己写路径了。大大提高了效率。

（5）当然也可以使用其他格式的在这里可以切换。

Xpath和css定位是比较好的定位方式了。

4. 实例操作：爬取 B 站评论

接下来，通过实战的方式来学习一下，具体如何Selenium去爬取B站的评论。实战以前，介绍一些要用到的方法。

（1）

fp = webdriver.Firefox() #获得基于Firefox的对象 fp.set_preference("permissions.default.stylesheet",2) fp.set_preference("permissions.default.image",2)

这个是对Selenium自动化测试的配置。可以选择不加载图片、css渲染、禁止使用Javascript目的是为了加快网页的加载。这里根据需要自由选择。第二个参数填2表示禁用。更多用法可以到Selenium官网查看文档

Selenium官网

如果进不去，代表你需要一些特殊的工具。这里不做介绍。

（2）

target = app.find_element_by_xpath(".//*[@id='recommend_report']/div[1]/span")

使用find_element_by_xpath（）即通过xpath来定位参数就用FirePath获取到的xpath.当然也有其他方式定位

读者可以试试其他方法。

值得注意的是，find_elements_by_xpath和find_element_by_xpath一个有s一个没有。前者返回一个数组，后者返回一个元素。其他方法同理。这里推荐xpath与css两种方法，比较精准。

(3)

1.app.execute_script("arguments[0].scrollIntoView();", target)#定位到特定的元素 2.time.sleep(3)

这里执行script语句，去定位到我们要到的位置。模拟滚动条下拉。但是值得一提的是每次返回执行一次有关数据请求与返回的方法。最好暂停一会。这是让服务器有缓冲的余地。所以使用time.sleep()

我们在本次实战准备爬取B站的评论区数据、经过分析，b站的评论区数据要下拉到浏览器的一定位置评论区数据才会显示。再分析需要的数据，爬取下响应的数据。这里就不一一分析。有疑问的小伙伴，我可以在chat时给你们解答。这里贴出笔者写的代码。

1.#coding=utf-8 2.from selenium import webdriver 3.import sys 4.import time 5.from selenium.webdriver.common.keys import Keys 6.reload(sys) 7.sys.setdefaultencoding("utf-8") 8. 9. 10.app = webdriver.Firefox() 11.app.get("https://www.bilibili.com/video/av3553625/?from=search&seid=10292605247919873793") 12. 13.target = app.find_element_by_xpath(".//*[@id='recommend_report']/div[1]/span") 14.app.execute_script("arguments[0].scrollIntoView();", target)#定位到特定的元素 15.time.sleep(3) 16. 17.target2 = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div[4]/span/a"); 18.app.execute_script("arguments[0].scrollIntoView();", target2) 19.time.sleep(3) 20.target2.click() 21. 22.for i in range(20): 23. if(i==7): 24. continue 25. name = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div["+str(i+1)+"]/div[2]/div[1]/a[1]") 26. test = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div["+str(i+1)+"]/div[2]/p") 27. if (i != 13 and i != 17): 28. pinglun1 = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div["+str(i+1)+"]/div[2]/div[3]/div[1]/div/div[1]/span") 29. if (i != 13 and i != 17): 30. pinglun2 = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div["+str(i+1)+"]/div[2]/div[3]/div[2]/div/div[1]/span") 31. if(i !=12 and i !=13 and i != 17): 32. pinglun3 = app.find_element_by_xpath(".//*[@id='bbComment']/div[1]/div[4]/div["+str(i+1)+"]/div[2]/div[3]/div[3]/div/div[1]/span") 33. print ("作者：") 34. print (name.text.strip()) 35. print ("内容：") 36. print test.text.strip() 37. print ("后续：") 38. if (i != 13 and i != 17): 39. print pinglun1.text.strip() 40. if (i != 13 and i != 17): 41. print pinglun2.text.strip() 42. if (i != 12 and i != 13 and i != 17): 43. print pinglun3.text.strip() 44. print ("\n") 45. time.sleep(3) 46.app.quit()

因为有些评论区的数据是有的，有些是没有的。我们就在for循环里加了一个if判断。如果那一层的评论没有，就Continue跳过就好。

效果图如下：

这些数据是评论区的精彩热评，我爬下了作者的用户名ID 评论内容和这个评论的跟帖评论。加以整理。

值得一提的是，如果Selenium能做的还远远不止这些，还能模拟点击事件，键盘的输入事件。这个给大家留一个思考题，尝试使用Selenium模拟登陆B站。

提示：使用方法app.click() app.sendkey() app.clear()

参考文章：selenium自动化登陆操作(http://www.cnblogs.com/wzben/p/5024830.html)

5. 拓展：介绍 Tor 浏览器，实现匿名 IP 爬虫，防止 IP 封禁

在爬虫过程中，如果操作不当，被服务器监测到，就有可能导致自己的IP被网站封禁。在一定时间内，拒绝访问。那么有什么办法可以解决呢？

再向大家推荐一款神器，Tor浏览器。这个浏览器，据说这个浏览器本来是
美国军方用来获取信息的工具。能够匿名IP，把自己的的真实IP给隐藏。使用别人的ip。加密算法很强大。著名的比特币发明人中本聪，就是通过这个工具隐藏自己的身份，推广比特币的。

要想进一步了解。Tor浏览器。可以看一下这些文章。

Tor浏览器详情( http://www.cnblogs.com/likeli/p/5719230.html )
Tor浏览器详情( http://blog.csdn.net/whiup/article/details/52317779 )
Tor浏览器详情( https://www.deepdotweb.com/2014/05/23/use-tor-socks5-proxy/ )

（1）安装tor浏览器：安装tor浏览器

( http://www.theonionrouter.com/projects/torbrowser.html.en )

（2）如何配置tor浏览器：配置tor浏览器

( https://jingyan.baidu.com/article/adc815137654fbf723bf73b1.html )

（3）Python安装相应的库

Pip install pysocks Pip install stem

（4）使用方法

先打开Tor浏览器再运行程序：

import socks import socket import requests socks.set_default_proxy(socks.SOCKS5,"127.0.0.1",9150) #9150是默认端口 socket.socket = socks.socksocket a = requests.get("http://checkip.amazonaws.com").text print a

这个代码会通过访问http://checkip.amazonaws.com，得到一个ip,你会发现这不是你的真实ip,大多情况下是国外的ip：

用百度查找IP ：

（5）切换IP

1.#coding=utf-8 2.from stem import Signal 3.from stem.control import Controller 4.import socket 5.import socks 6.import requests 7.import time 8.import sys 9.reload(sys) 10.sys.setdefaultencoding('utf-8') 11. 12.controller = Controller.from_port(port=9151) 13.controller.authenticate() 14.socks.set_default_proxy(socks.SOCKS5,"127.0.0.1",9150) 15.socket.socket = socks.socksocket 16. 17.total_scrappy_time = 0 18.total_changeIP_time = 0 19.for x in range(0,10): 20. a = requests.get("http://checkip.amazonaws.com").text 21. print ("第"+str(x+1)+"次IP："+a) 22. 23. time1 = time.time() 24. a = requests.get("http://www.santostang.com/").text 25. 26. time2 = time.time() 27. total_scrappy_time = total_scrappy_time + time2-time1 28. print ("第"+str(x+1)+"次抓取花费时间："+str(time2-time1)) 29. 30. time3 = time.time() 31. controller.signal(Signal.NEWNYM) 32. time.sleep(5) 33. time4 = time.time() 34. total_changeIP_time = total_changeIP_time + time4-time3-5 35. print ("第"+str(x+1)+"次更换IP花费时间: "+str(time4-time3-5)) 36. 37.print ("平均抓取花费时间："+str(total_scrappy_time/10)) 38.print ("平均更换IP时间："+str(total_changeIP_time/10))

6. 可能提到到的问题

为什么使用 Python2.7而不是Python3?为什么不用更好的Anaconda而是使用pip下载工具？

笔者平时也是使用Python3的，之前想尝试在Python3下使用Selenium发现使用不了。笔者使Anaconda在命令行

Conda install selenium

会发现Anaconda没有这个库。

7. 推荐资料

《Python网络爬虫从入门到实践》—唐松（非常赞的一本书 17年刚刚出版）
《Selenium2 自动化测试实战》—虫师（推荐虫师的博文，非常不错）

有兴趣的朋友可以了解Scrapy框架，爬虫非常好用，实用。爬虫效率会得到大大提升。

8. 写在最后的话

真的真的非常感谢各位能够来参加这场chat,这是我第一次做chat,感谢各位的支持。感激不尽。如果本文能给你带来些许帮助，这真是我的荣幸。感谢。

松爱家的小秦

近期热文

《TensorFlow 人脸识别网络与对抗网络搭建》

《带你从零开始，快速学会 Matlab GUI》

《Docker 落地踩过的坑》

《如何快速入门网络基础知识（TCP/IP 和 HTTP》

《Node 企业项目大规模实践》

福利

「阅读原文」看交流实录，你想知道的都在这里

费曼学习法—有效输出的方法之一 Sandy时间管理导师
一个知识点如何是真的学到了，并且能掌握的很牢靠，最能给学以致用的方法就是用输出倒逼输入才能做到真正的学以致用。那么如何有效的输出呢？费曼学习法，这个方法简单来说就是通过自己的语言，用最简单的话把一件事情讲清楚，外行人也能听的懂，它看似是我们用直白浅显的语言，把复杂深奥的知识传输给了别人，这个方法之所以能成为世界公认最好的学习法，是因为真的有很多人因为这个方法实现了逆袭，而且真正受益的却是我们自己。
在汕头叙叙旧生命印记
回想在汕头工作的日子，已远离整整8个年头。日子不回看，不知有多少，屈指一算，这么久远！在汕头的日子，简单！当时的同事，能全聚聚的次数还没有过，每次只能有一二个老同事，或是加些新同事。很是开心的，叙旧的同时也能看到大家的不一样。有些老同事，已经离开公司有新的发展，每次碰面总能看到大家各自安好。因在不同公司，有着不同文化，彼此的交流总能学习到不一样的信息。一直告诉自己，学习是无时无刻，随时随地。三人行
2021-10-03 老马阿飞大哥
洛邑古玩城的“小石林”------记洛阳小石林李德纯先生弟子作品洛邑古玩城是洛阳新兴起的一支文玩奇葩，也是全国古玩艺术民间高手云集的地方！更是洛阳历史文化沉淀展示的一种场合。也许业外人士不晓得，但大家对于奇石感觉都是一样的感觉，就是稀奇难得！2021年10月2日，也是国庆节的第二天，我在洛邑古玩城看到了一位年龄不算大，但文质彬彬的一位朋友----杨文军先生及刘灿力朋友，他们没有过余的寒暄与其他，我
极品为何一探究竟·下雾中蘑菇
“一一为何突然如此问？”墨青疑惑。果不其然，师傅说的没错，只是一一仔细观察，倒未见二人做出什么让人猜忌之事，看来隐瞒颇深！一一不禁感慨:“说起来，墨青你看着也不老啊，不曾想已经十万岁了，真是厉害，保养的真好！”墨青一怔:“比起一一，墨青确实大上许多。”一一掐指算了算，十八，四舍五入一下，就是大了十万岁…连忙拍了拍墨青的肩:“嗯嗯，大的好，大的会疼人，什么都有经验，也挺好的！”一一稍作安慰之际。谁知
人生是条单行道其实很想说
人生是条单行道，这让我们回首时多少带着一点无奈和怀恋的味道。明明可以做得更好，可是，就是没做到；明明应该张开口，临行又改了道。总有一天，你会悟到什么最重要，纵使付出再多也不会动摇。希望那天来得不要太早，否则，你知道一颗心的负担太太重了；也不要太迟，否则。。。人生是条单行道。
辞职后第160天，感觉不学习，好亏活的自由点
这几天，在自习室里学习。感觉比在图书馆里的状态要好，有的时候学习真的困了，也不想睡觉，总感觉很亏。因为自习室要付费，已经付了费的地方，不好好学习，就拿来睡觉，就研究很浪费，很心疼。在图书馆，完全没有这样的顾虑，困的真的难受了，早趴在桌子上睡了。看着好多座位，都是那种包月的，我都没有见过人，我都替他们心疼。人家还是有钱，可以挥霍。人就是不能比，越比，心里越难受。花钱和不花钱区别，真的很影响自己的状态
2019-02-16 一年后的自己2019年1月28
坚持了一周6点打卡，每天都是被闹钟叫醒，今早5:50自己自然醒的，很开心。慢慢的生物钟就倒过来了，春节的几天，天天睡到凌晨一两点，一个星期就把时差调整好了，这说明只要想和认真做，没有完不成的事，更何况只是早睡早起的事。相比之下，我觉得早起比早睡要简单，因为只要早睡了自然就会早起，以前却不明白这个道理。
唯品会哪个返利公众号最高测评君高省
唯品会返利公众号最高是怎么回事呢？唯品会相信大家都很熟悉，但是唯品会返利公众号最高是怎么回事呢，下面就让小编带大家一起了解吧。唯品会返利公众号最高，其实就是用高省app，邀请码000009，大家可能会很惊讶唯品会怎么会返利公众号最高呢？但事实就是这样，小编也感到非常惊讶。高省app这就是关于唯品会返利app最高的事情了，大家有什么想法呢，欢迎在评论区告诉小编一起讨论哦！给大家推荐目前在做项目“高省
Python 应用无监督学习（一）绝不原创的飞龙默认分类默认分类
原文：annas-archive.org/md5/6b15c463e64a9f03f0d968a77b424918译者：飞龙协议：CCBY-NC-SA4.0前言关于本节简要介绍了作者、本书的内容覆盖范围、开始时你需要的技术技能，以及完成所有活动和练习所需的硬件和软件要求。本书简介无监督学习是一种在没有标签数据的情况下非常有用且实用的解决方案。Python应用无监督学习引导你使用无监督学习技术与Py
周总结5.29-6.3 Sandra_n vue vue.js 数据结构
1.混入应用的是样式？【场景】2.es6/优化==继续看3.树组件操作：数据扁平化/模糊检索{也是把数据结构改了一下复制的ant官网}/默认展开收起{中途有问题比如不默认展开：判断数据删除某一节点展开等}/只呈现查询内容适合调接口{中途研究了一下树id和内容映射[人员树专业树]数据处理}4.置空下拉框v-model设为undefined就提示placeholder了也可以在某项想要的操作后设置初始
峥嵘王治国的诗津沽怪客
峥嵘津沽怪客站在知天命之年回首瞭望，其实所谓人生，就是一段又一段旅程:那些似曾相识，又模糊不清的画面，夹杂着欢愉和伤痛。偶尔闪现的真诚笑容，却是当年的萍水相逢。那些自以为是的成功，己成如梦幻泡影，沉淀成逐渐老去的心灵。当逝去的青春如列车外的风景，一划而过，沒入虚空。才发现:岁月蹉跎中，这并不完美的过往，还留下一抺彩虹，照亮未来的征程。也许，下一站，才是人生的巅峰。也许下一站，依旧在风雨兼程，相信自
幸福农家院赚钱是真的吗？看广告挣零花钱到底是不是骗局？清风导师
幸福农家院广告红包版赚钱是真的吗?揭秘幸福农家院游戏靠谱还是骗人的?这些年来广告赚钱的玩法还是相当火爆的，其中一个玩法噱头就是农场游戏+广告挣钱的模式，通过种植农作物观看广告收成并且贩卖，获得一定红包收益进行提现的玩法，说实话类似于幸福农家院这样名字的农场广告游戏，小编已经是屡见不鲜了，甚至多得名字都容易弄混。一、幸福农家院红包版真的能赚钱吗?首先，其实目前的大部分甚至说绝对部分的广告赚钱项目都是
10个真实靠谱、简单快速赚钱的软件推荐高省APP大九
在数字时代，智能手机不仅仅是通讯和娱乐的工具，更是许多人寻找额外收入的便捷渠道。下面，我将为您介绍10款真实靠谱、通过简单任务就能快速赚取较多收益的手机应用。请注意，虽然这些应用提供了赚钱的机会，但收益仍受个人努力、市场状况等多种因素影响。1.社交导购电商高省APP平台特点：高省APP是一个综合性导购返佣平台，汇集了淘宝、京东、拼多多等主流电商平台的优惠券，用户购物时可享受更多优惠。同时，高省还提
怎样与牛人成为朋友雪兆峰年
当遇到牛人时，我们都非常羡慕他的才华，以“仰视”的目光看待他，也许你想过要有一个这样的朋友该多好啊，但是看看自己又会信心全无，我和人家差距这么大，人家肯定看不上我，还是算了吧。美国杰出的商业哲学家金罗姆（JimRohn）曾经提出著名的“密友五次元理论”——与你亲密交往的5个朋友，你的财富和智慧就是他们的平均值。雅虎的创始人提姆·桑德（TimSanders）也说过：“你的社交圈就是你的净值。”能交往
分页垃圾桶边的狗
一、paginator分页类1.创建对象格式：Paginator(,每页显示数据的条数)返回值：分页对象2.对象的属性count分页对象那个的个数num_pages页面总数page_range页码的列表3.方法page(num)返回page对象，如果给定的页码不存在，则抛出异常二、page对象page对象：Paginator类实例化返回对象调用page属性，返回page对象属性：1.object_
2、Python 测试全攻略：自动化与驱动开发辣条鉴定师 Python测试自动化测试测试驱动开发
Python测试全攻略：自动化与驱动开发1.测试的乐趣与收益编程过程中，测试常被视为徒劳或浪费时间的事。但实际上，测试可以变得轻松有趣且富有成效。比如回忆一下曾遇到的恼人bug，可能是数据库模式不匹配、数据结构错误等。若有一小段代码能在恰当时间捕捉到该bug并告知你，而所有代码都配有这样易执行的测试代码，那bug存活时间会大大缩短。基本思路是用简单易写的代码片段告知计算机期望结果，让计算机在编码过
华为OD机考2025B卷 - 表达式括号匹配（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述(1+(2+3)*(3+(8+0))+1-2)这是一个简单的数学表达式,今天不是计算它的值,而是比较它的括号匹配是否正确。前面这个式子可以简化为(()(()))这样的括号我们认为它是匹配正确的,而((())这样的我们就说他是错误的。注意括号里面的表达式可能是错
《雪中悍刀行》：徐凤年第一次游历江湖，真的只有老黄随行吗？昏鸦的啰哩啰嗦
徐凤年第一次游历江湖，三年六千里，最强的跟班就是剑九黄黄阵图。但是，这是明面上的，如果你认真看书，就知道徐凤年第一次游历江湖那是暗潮汹涌。北凉王徐骁的世子徐凤年游历江湖，安全肯定是第一要务，一旦知道徐凤年游历江湖，离阳王朝、各地藩王、北莽谍子、春秋遗民、江湖死士等等，都会趁此机会要他命。要知道，徐凤年第二次游历江湖，身边多了这么多高手，还是险象环生、常处死地而后生。徐凤年第一次游历江湖，为何明面上
每日一省258——找不到孩子了木沐_ef37
郭玲玲2021年12月11日孩子下午写完作业说要和邻居家的小姐姐下楼玩儿，还带着小仓鼠一起，我同意了玩儿30分钟回来接着写（小姐姐带着电话手表，儿子平时也比较听话不会乱跑，所以不怎么担心。）过会儿，邻居回去发现他妞在家没有下去，也就是只有我儿子一个人下去了，儿子也没带手表，这是邻居说赶紧下楼找找吧（其实我是觉得没事儿，儿子之前五六岁也经常自己下楼玩儿），于是派她妞下楼找去了，结果孩子说我们院儿没找
大数据领域数据架构的实时数据可视化架构 AGI大模型与大数据研究院 AI大模型应用开发实战信息可视化大数据架构 ai
大数据领域数据架构的实时数据可视化架构关键词：大数据架构、实时数据处理、数据可视化、流式计算、数据管道、可视化工具、性能优化摘要：本文深入探讨了大数据领域中实时数据可视化架构的设计与实现。我们将从基础概念出发，逐步分析实时数据处理流程，介绍关键技术和工具，并通过实际案例展示如何构建高性能的实时可视化系统。文章将涵盖数据采集、处理、存储和可视化展示的全链路架构，同时讨论性能优化策略和未来发展趋势。1
想提高高中英语阅读理解水平，有什么方法，或者怎么提高单词量？大咖看学习
高中英语阅读理解的逻辑思维难度相当于小学语文五年级，题型难度则相当于小学语文三年级，因为都是“四选一”的选择题，可以猜答案。所以，本质上高中英语阅读就是在考理解，拿到满分还是比较容易的。影响高中英语阅读理解能力的因素有两点：①单词：即高考所规定的高中英语3500词，高考是明确单词不超纲的，但凡遇到超纲单词，单词边上就会标注中文意思。所以，背单词是英语阅读拿到基本分数的关键。3500词，只要能做到看
一个人的“穷酸命”，过了五十五岁，其实就无法改变了舒山有鹿
01普通人的气运，那是有限的，而不会无限度地延续下去。一些做生意的老板，在50岁之前还是比较顺的。过了50岁，就不太顺了。他们就会疑惑，难道自己的财运，在走下坡路吗？一些做事业的职工，在50岁之前青云直上，前途似锦。过了50岁，就遇到瓶颈了，根本无法突破，让他们失去希望。人之气运，为什么就不能一直“好”下去呢？很简单，因为别人也需要发展，不能让你一个人好到底。如果你一个人好到底，那别人不就没有生存
凶猛枭雄王磊杨晓芬免费阅读全文_完结小说大全凶猛枭雄(王磊杨晓芬) 小文文斋
《凶猛枭雄》主角：王磊杨晓芬，简介：最近，王磊都快失心疯了。情窦初开的他，做梦都想杨晓芬。杨晓芬是王磊的后妈，年龄约莫四十出头，但因天生一张娃娃脸，而且身材高挑，保养极佳，平日里打扮起来，看上去简直就是一个活脱脱的大姑娘。若是单独和王磊走在一起，不知情的人还以为，王磊玩早恋呢……关注微信公众号【春分文馆】去回复个书号【1236】即可阅读小说【凶猛枭雄】全文内容！！！虽然，杨晓芬不是王磊的亲妈，但在
小程序源码：全新超火的微信小说小程序源码-自带采集带安装教程-多玩法安装简单哔咔app下载入口微信小程序源码教程小程序源码小程序微信微信小程序
下面给大家带来一款最近超火的一款微信小说小程序源码本套源码自带采集,拿到手的时候没有安装教程不过小编在测试的时候给大家把安装教程给补上了安装教程:PHP选择5.6以上的版本上传我们的后端解压伪静态选择thinkphp修改数据库链接文件config/database.php然后我们导入数据库后台点击小程序把你的小程序该设置的设置就可以了小说的话就点击数据采集然后采集就可以了小程序首页轮播推荐和首页分
【中国电信运营商MBOSS】 flyair_China 数据分析
一、中国电信运营商MBOSS1.1中国四大电信运营商MBOSS1.1.1背景传统运营商系统存在"业务-运维-管理"功能混杂的痛点，导致：-业务响应速度慢（新套餐上线需跨多部门）-运维效率低下（故障定位平均耗时超2小时）-管理决策滞后（经营数据统计延迟达24小时）通过域划分可实现：✅功能解耦：各域专注核心职责✅数据贯通：跨域信息实时交互✅敏捷迭代：单个系统升级不影响全局域"角色定位"域分类服务对象核
【数据中心】网络设计框架 flyair_China 架构
第一章：总体架构设计叶脊架构（Leaf-Spine）全互联无阻塞设计：Leaf与Spine全连接，跨层带宽≥100G，单集群支持10万+服务器（腾讯星脉网络）。分层扩展模型：采用POD（性能优化模块）化设计，单POD支持5000节点，通过超级核心层互联多POD（阿里云实践）。冗余与高可用设备级：双电源/双引擎；链路级：M-LAG多活聚合；协议级：BGPEVPN替代STP，故障切换<50ms（华为C
风浪时代||第九十二章第一场当面抗衡江南铁鹰
第九十二章第一场当面抗衡“叔叔，你知道吗？巡查组那个萧潇已经通知我们，上次已经报个市政府的那个协议草案无效，还要和南华高层沟通后，在他们指导下重新起草新的协议草签。”德彪在给他二叔通电话，魏柳成坐在旁边的椅子上。岳丽蓉却坐在德彪的大腿上。电话里传来一个沙哑的老男人声音。“这个人也太不把我们市政府放在眼睛里了吧？一个小小的巡查组组长，就可以直接否定市政府眼睛批复的草案了？究竟谁给他这么大权力？”“二
悲伤！周一丰创投杯量化私募马建军实盘大赛私募遭遇李鬼——拉群荐股实为陷阱！公正公平
随着互联网的普及，电视上和网络上有很多分析师，他们也是这个市场的一个群体。可能你也有疑惑，既然都能分析了，还做什么分析师啊，就在股市里赚大钱就是了，干嘛还要出来抛头露面。数字经济蓬勃发展，各种线上平台如雨后春笋般涌现。然而，在这些看似繁荣的平台中，不乏一些黑平台，它们以欺诈手段骗取用户的财产，给人们的财产安全带来严重威胁！近期我们接到多起投资者举报，称有人冒充知名财经分析师（知名人物大学教授经济学
发布悬赏的平台排行榜，十大正规悬赏平台app 趣闲赚手机做任务赚佣金
可能很多人都在查悬赏软件排行，其实峰子哥自己的想法就是每个人选择的悬赏平台应该是不一样的，不是说你看到别人在悬赏软件上赚钱了，你就选择和人家同一个悬赏软件，这个道理其实大家都懂，每个人的目的是不一样的，可以付出的东西和资源也是不一样的，当然能赚到的钱也是不一样的。趣闲赚上面的任务单价也就是几块钱到几十元一单，做的多挣的多。【趣闲赚】拿着手机做赏金任务，1元提现秒到账，在家躺着也赚钱！点击链接或者扫
太强了！这款命令行工具可以在 Linux 文件目录快速自动跳转杰哥的IT之旅
作者：JackTian文章首发于公众号：【杰哥的IT之旅】在Linux终端下，跳转目录有时觉得会很麻烦，需要敲很长的命令路径才能进入指定的目录。autojump是提供了一种快速进行文件目录自动跳转的命令行工具。它会将命令行最常用的目录记录保存到数据库里，所以在使用它时，必须先访问目录，然后才能跳转到所要进入的目录。它会根据访问的目录频次添加不同的权重，访问的目录越频繁，权重越高，排名就越靠前，跳转
多线程编程之join()方法周凡杨 java JOIN 多线程编程线程
现实生活中，有些工作是需要团队中成员依次完成的，这就涉及到了一个顺序问题。现在有T1、T2、T3三个工人，如何保证T2在T1执行完后执行，T3在T2执行完后执行？问题分析：首先问题中有三个实体，T1、T2、T3，因为是多线程编程，所以都要设计成线程类。关键是怎么保证线程能依次执行完呢？ Java实现过程如下： public class T1 implements Runnabl
java中switch的使用 bingyingao java enum break continue
java中的switch仅支持case条件仅支持int、enum两种类型。用enum的时候，不能直接写下列形式。 switch (timeType) { case ProdtransTimeTypeEnum.DAILY: break; default: br
hive having count 不能去重 daizj hive 去重 having count 计数
hive在使用having count()是，不支持去重计数 hive (default)> select imei from t_test_phonenum where ds=20150701 group by imei having count(distinct phone_num)>1 limit 10; FAILED: SemanticExcep
WebSphere对JSP的缓存周凡杨 WAS JSP 缓存
对于线网上的工程，更新JSP到WebSphere后，有时会出现修改的jsp没有起作用，特别是改变了某jsp的样式后，在页面中没看到效果，这主要就是由于websphere中缓存的缘故，这就要清除WebSphere中jsp缓存。要清除WebSphere中JSP的缓存，就要找到WAS安装后的根目录。现服务
设计模式总结朱辉辉33 java 设计模式
1.工厂模式 1.1 工厂方法模式 (由一个工厂类管理构造方法) 1.1.1普通工厂模式(一个工厂类中只有一个方法) 1.1.2多工厂模式(一个工厂类中有多个方法) 1.1.3静态工厂模式(将工厂类中的方法变成静态方法) &n
实例：供应商管理报表需求调研报告老A不折腾 finereport 报表系统报表软件信息化选型
引言随着企业集团的生产规模扩张，为支撑全球供应链管理，对于供应商的管理和采购过程的监控已经不局限于简单的交付以及价格的管理，目前采购及供应商管理各个环节的操作分别在不同的系统下进行，而各个数据源都独立存在，无法提供统一的数据支持；因此，为了实现对于数据分析以提供采购决策，建立报表体系成为必须。业务目标 1、通过报表为采购决策提供数据分析与支撑 2、对供应商进行综合评估以及管理，合理管理和
mysql 林鹤霄
转载源：http://blog.sina.com.cn/s/blog_4f925fc30100rx5l.html mysql -uroot -p ERROR 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES) [root@centos var]# service mysql
Linux下多线程堆栈查看工具(pstree、ps、pstack) aigo linux
原文：http://blog.csdn.net/yfkiss/article/details/6729364 1. pstree pstree以树结构显示进程$ pstree -p work | grep adsshd(22669)---bash(22670)---ad_preprocess(4551)-+-{ad_preprocess}(4552) &n
html input与textarea 值改变事件 alxw4616 JavaScript
// 文本输入框(input) 文本域(textarea)值改变事件 // onpropertychange(IE) oninput(w3c) $('input,textarea').on('propertychange input', function(event) { console.log($(this).val()) });
String类的基本用法百合不是茶 String
字符串的用法; // 根据字节数组创建字符串 byte[] by = { 'a', 'b', 'c', 'd' }; String newByteString = new String(by); 1,length() 获取字符串的长度 &nbs
JDK1.5 Semaphore实例 bijian1013 java thread java多线程 Semaphore
Semaphore类一个计数信号量。从概念上讲，信号量维护了一个许可集合。如有必要，在许可可用前会阻塞每一个 acquire()，然后再获取该许可。每个 release() 添加一个许可，从而可能释放一个正在阻塞的获取者。但是，不使用实际的许可对象，Semaphore 只对可用许可的号码进行计数，并采取相应的行动。 S
使用GZip来压缩传输量 bijian1013 java GZip
启动GZip压缩要用到一个开源的Filter：PJL Compressing Filter。这个Filter自1.5.0开始该工程开始构建于JDK5.0，因此在JDK1.4环境下只能使用1.4.6。 PJL Compressi
【Java范型三】Java范型详解之范型类型通配符 bit1129 java
定义如下一个简单的范型类， package com.tom.lang.generics; public class Generics<T> { private T value; public Generics(T value) { this.value = value; } }
【Hadoop十二】HDFS常用命令 bit1129 hadoop
1. 修改日志文件查看器 hdfs oev -i edits_0000000000000000081-0000000000000000089 -o edits.xml cat edits.xml 修改日志文件转储为xml格式的edits.xml文件，其中每条RECORD就是一个操作事务日志 2. fsimage查看HDFS中的块信息等 &nb
怎样区别nginx中rewrite时break和last ronin47
在使用nginx配置rewrite中经常会遇到有的地方用last并不能工作，换成break就可以，其中的原理是对于根目录的理解有所区别，按我的测试结果大致是这样的。 location / { proxy_pass http://test;
java-21.中兴面试题输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等于 m bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; public class CombinationToSum { /* 第21 题 2010 年中兴面试题编程求解：输入两个整数 n 和 m ，从数列 1 ， 2 ， 3.......n 中随意取几个数 , 使其和等
eclipse svn 帐号密码修改问题开窍的石头 eclipse SVN svn帐号密码修改
问题描述： Eclipse的SVN插件Subclipse做得很好，在svn操作方面提供了很强大丰富的功能。但到目前为止，该插件对svn用户的概念极为淡薄，不但不能方便地切换用户，而且一旦用户的帐号、密码保存之后，就无法再变更了。解决思路：删除subclipse记录的帐号、密码信息，重新输入
[电子商务]传统商务活动与互联网的结合 comsci 电子商务
某一个传统名牌产品，过去销售的地点就在某些特定的地区和阶层，现在进入互联网之后，用户的数量群突然扩大了无数倍，但是，这种产品潜在的劣势也被放大了无数倍，这种销售利润与经营风险同步放大的效应，在最近几年将会频繁出现。。。。如何避免销售量和利润率增加的
java 解析 properties-使用 Properties-可以指定配置文件路径 cuityang java properties
#mq xdr.mq.url=tcp://192.168.100.15:61618; import java.io.IOException; import java.util.Properties; public class Test { String conf = "log4j.properties"; private static final
Java核心问题集锦 darrenzhu java 基础核心难点
注意，这里的参考文章基本来自Effective Java和jdk源码 1)ConcurrentModificationException 当你用for each遍历一个list时，如果你在循环主体代码中修改list中的元素，将会得到这个Exception，解决的办法是： 1)用listIterator, 它支持在遍历的过程中修改元素， 2)不用listIterator, new一个
1分钟学会Markdown语法 dcj3sjt126com markdown
markdown 简明语法基本符号 *,-,+ 3个符号效果都一样，这3个符号被称为 Markdown符号空白行表示另起一个段落 `是表示inline代码，tab是用来标记代码段，分别对应html的code，pre标签换行单一段落( <p>) 用一个空白行连续两个空格会变成一个 <br> 连续3个符号，然后是空行
Gson使用二（GsonBuilder） eksliang json gson GsonBuilder
转载请出自出处：http://eksliang.iteye.com/blog/2175473 一.概述 GsonBuilder用来定制java跟json之间的转换格式二.基本使用实体测试类：温馨提示：默认情况下@Expose注解是不起作用的,除非你用GsonBuilder创建Gson的时候调用了GsonBuilder.excludeField
报ClassNotFoundException: Didn't find class "...Activity" on path: DexPathList gundumw100 android
有一个工程，本来运行是正常的，我想把它移植到另一台PC上，结果报： java.lang.RuntimeException: Unable to instantiate activity ComponentInfo{com.mobovip.bgr/com.mobovip.bgr.MainActivity}: java.lang.ClassNotFoundException: Didn't f
JavaWeb之JSP指令 ihuning javaweb
要点 JSP指令简介 page指令 include指令 JSP指令简介 JSP指令（directive）是为JSP引擎而设计的，它们并不直接产生任何可见输出，而只是告诉引擎如何处理JSP页面中的其余部分。 JSP指令的基本语法格式： <%@ 指令属性名="
mac上编译FFmpeg跑ios 啸笑天 ffmpeg
1、下载文件：https://github.com/libav/gas-preprocessor，复制gas-preprocessor.pl到/usr/local/bin/下，修改文件权限：chmod 777 /usr/local/bin/gas-preprocessor.pl 2、安装yasm-1.2.0 curl http://www.tortall.net/projects/yasm
sql mysql oracle中字符串连接 macroli oracle sql mysql SQL Server
有的时候，我们有需要将由不同栏位获得的资料串连在一起。每一种资料库都有提供方法来达到这个目的： MySQL: CONCAT() Oracle: CONCAT(), || SQL Server: + CONCAT() 的语法如下： Mysql 中 CONCAT(字串1, 字串2, 字串3, ...): 将字串1、字串2、字串3，等字串连在一起。请注意，Oracle的CON
Git fatal: unab SSL certificate problem: unable to get local issuer ce rtificate qiaolevip 学习永无止境每天进步一点点 git 纵观千象
// 报错如下： $ git pull origin master fatal: unable to access 'https://git.xxx.com/': SSL certificate problem: unable to get local issuer ce rtificate // 原因：由于git最新版默认使用ssl安全验证，但是我们是使用的git未设
windows命令行设置wifi surfingll windows wifi 笔记本wifi
还没有讨厌无线wifi的无尽广告么，还在耐心等待它慢慢启动么教你命令行设置笔记本电脑wifi： 1、开启wifi命令 netsh wlan set hostednetwork mode=allow ssid=surf8 key=bb123456 netsh wlan start hostednetwork pause 其中pause是等待输入，可以去掉 2、
Linux（Ubuntu）下安装sysv-rc-conf wmlJava linux ubuntu sysv-rc-conf
安装：sudo apt-get install sysv-rc-conf 使用：sudo sysv-rc-conf 操作界面十分简洁，你可以用鼠标点击，也可以用键盘方向键定位，用空格键选择，用Ctrl+N翻下一页，用Ctrl+P翻上一页，用Q退出。背景知识 sysv-rc-conf是一个强大的服务管理程序，群众的意见是sysv-rc-conf比chkconf
svn切换环境，重发布应用多了javaee标签前缀 zengshaotao javaee
更换了开发环境，从杭州，改变到了上海。svn的地址肯定要切换的，切换之前需要将原svn自带的.svn文件信息删除，可手动删除，也可通过废弃原来的svn位置提示删除.svn时删除。然后就是按照最新的svn地址和规范建立相关的目录信息，再将原来的纯代码信息上传到新的环境。然后再重新检出，这样每次修改后就可以看到哪些文件被修改过，这对于增量发布的规范特别有用。检出