海遥Skeate

【指引】新手如何自学网页爬虫（更新完结）

前导：做网络爬虫(Web crawler)是方便大量收集、跟踪数据的相当便捷的方法。笔者在过去一年内，做过上市项目信息收集，WHO官网致病数数据收集，京东商品信息收集，以及Bilibili视频信息收集，微信公众号历史文章抓包，各大媒体网站数据抓包，并尝试在服务器搭载爬虫。之前的项目中，全靠自己摸索如何掌握爬虫所需要的前置知识，并不断找到更快的爬虫方案，现汇成一个新手指引分享给大家，希望对想自学/提高生产力的同学们有帮助。如果有不妥当的地方，欢迎大家在评论区指正～

自学流程简述
自学流程简述
- - -Python/Java
  - -HTML
  - -CSS
  - -JavaScript（js）
  - -JQuery
  - -PHP
所需自学的外置库
- - -Requests库
  - 多线程与分布式爬虫
  - -BeautifulSoup4(bs4)库
  - -Scrapy库
  - -Selenium库
  - -调取api
所需自学数据储存流程:
- - -Openpyxl库
  - -JSON/SQL
爬虫基础内容小结与课程推荐
个人感受
相关软件
其他
稿件版本

全文7538字，可以先存着，学习过程中慢慢看。本文欢迎转载，转载请标明原文出处。

自学流程简述

所需自学的爬虫语言(按顺序)：

Python/Java (基础语言，python对新手很友好，但学过C++的同学直接上手Java就好了)
HTML (通过脚本，能找到所要爬取内容对应的Element)
CSS (通过Style sheet，找到Element的路径)
JavaScript (了解网页与服务器交互原理，从而绕过前端(HTML)，找到对应服务器，直接提取数据)
JQuery (对JavaScript进行补充，了解前后端如何进行数据交互)
PHP (了解后端的运作方式，但不是必备知识)

所需自学的外置库

urllib3库 (以爬虫(crawler)本身身份向服务器发请求，现在会被服务器直接封杀)
Python Requests库 (伪装成浏览器向服务器发请求，得到html代码，最为常用)
抓包+API爬虫 (用requests，只不过在抓包分析了服务器数据来源网址，直接访问储存的数据，比爬html网页前端快多了)
Scrapy库（是一个完整的爬虫构架，有访问，有缓存，有并发。如果说requests+bs4是散装零件，scrapy就是整机，更容易上手，但灵活性也降低了）
Python BeasutifulSoup4(bs4)库 (解析爬取下来的网页html代码，从而找到对应元素)
Python Selenium库 (用机器人完全模仿浏览器，直接打开搜索引擎，模仿用户操作爬取内容，最慢的爬虫，但基本不会被封杀) (其自带的html解析方法不逊于bs4)； PhantomJS跟selenium一样，只不过无界面，节省内存。

所需自学数据储存流程:

txt/csv读写
Python openpyxl (Excel读写)
json (在后期API调用数据时能直接将发来的json转化为dictionary)
sql/mangoDB读写 (数据库读写，方便将爬虫搬运到服务器上运行)

自学流程简述

为了写爬虫，所学这些语言的目的如下:

-Python/Java

笔者目前只接触了C++和Python两个基础语言，Python相对来说容易上手，对运行时间和内存分配没有编程要求，而且安装的库也丰富而且容易上手，所以之前的案例我都是用Python完成的，基本学完了函数就能解决爬虫问题。此外，Java也支持很多外置库，而且跟前后端语言结合度更好，也很推荐使用。

-HTML

HTML是爬虫的入门语言，想要爬取网页上的数据，就得能读得懂网页代码内容，一般都是ctrl+shift+C (windows)或者command+shift+C(Mac)来查看网页源代码，然后找到所要爬取的元素的路径。这个路径下的元素就可以被bs4库解析后找出来，元素内的文字部分或本身者链接部分就可以被转换为字符串了，可以保存在本地。
也有不少网页的数据储存在不同结构里，比如表格、下拉条、选项框内，因此就要懂得找不同的元素，通过学习HTML即可。对于动态元素，比如下拉刷新页面了之后才能呈现的，这我就放到Selenium部分讲解。对于"Get"服务器直接就能返回的HTML代码，requests库就能爬取下来。

-CSS

会了HTML就已经成功一大半了，找元素自然可以根据元素种类和名称来找。但有些元素的html路径并不是固定的，而可能随着页面尺寸改变而改变，这就需要CSS/Xpath来找元素。
在下面这个图里面，copy的路径可以是html(外部html和内部html)， Xpath(相对路径)，以及selector path(通过css筛选器选取元素)。学习HTML可以方便你了解元素作为文本，是如何存的。学习CSS可以方便你了解元素的呈现格式(位置，大小，颜色)是怎么样的，从而能更准确的找到元素。CSS会让你的代码更灵活。

-JavaScript（js）

js就和事件触发有关了，比如按按钮/按回车/输内容后网页的反馈，这种事件触发受js控制，比如bilibili上搜索页的翻页特效由js代码控制，这代码是相当长的，并且是存放在github上，由b站服务器随取随用。不少网站是在触发了按钮等事件后，元素才能被加载出来。学习js能方便你对事件（event）的了解，这在Selenium爬虫出就很有用了。

-JQuery

JQuery实际上是升级版的JS，支持更多的HTML操作功能，和前端与服务端的交互功能；类似的还有Angular，Vue.js，React.js。可以作为js的补充

-PHP

php就是真正的服务端了，用于处理html/js等前端程序发来的操作请求，调用数据库等服务器功能，再把调用的数据反回给前端。笔者现在正在做服务器交互，发现PHP中的curl作为爬虫工具，与服务器交互的效率大过本地的requests库与服务器交互效率。而且对要调用API的爬虫来说更方便编码和更新管理。

所需自学的外置库

-Requests库

知道了网页组成和服务器如何与用户交互，接下来就是学习如何通过链接打开网站、并返回第一时间所加载出的HTML代码给程序的Requests（re）库。访问方法很简单(我觉得get请求会稍微快过post，不过要向服务器传输数据则要用post)：

searchPage = requests.get(
        url = 'https://www.......', 
        headers = {
     "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "},
        proxies = {
     'http' : 'http://123.123.123:1234'},
        timeout = 60)

url就是你要爬取内容的网页；
header就是让程序伪装成特定浏览器（用户代理/user-agent）访问，防止访问量过大而被封ip，得到403或412错误代码；或者防止服务器倒垃圾（假数据），如携程。
当403了也不怕，可以用代理ip，填写到proxies里（淘宝上有卖的，一块钱一万条），轮询ip使得服务器认为你是不同地址来访问，就不会封杀。

多线程与分布式爬虫

为了加快爬虫速度，多线程访问服务器是必须的，这就需要给每个线程分配代理ip了。一般一个ip访问服务器频率在1秒30次以上就可能被封禁半天时间。
如果换浏览器代理+ip代理都不行，就是服务器检查了cookie信息。由于requests咩有禁用服务器调用cookie信息的函数，所以解决方法和上面的proxy池一样，我们可以设立cookie池，这些操作也都是将爬虫伪装成用户的法子；
timeout就是等待服务器返回数据的时间上线。
当然最稳妥的是selenium，这是后话。爬取下来的网页码就可以交给bs4处理了。

-BeautifulSoup4(bs4)库

bs4用于找寻元素，方便你提取内容。你可以通过：
soup = bs4.BeautifulSoup(searchPage.text,'html.parser')来解析html码，之后的找寻就很多方法了，简单的如division = soup.find_all(name='div',attrs={"class":"categories"})。过程可以参考官方手册 https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/很全，英文文档更方便理解，然后csdn和stackoverflow也有很多大神解答问题，基本上有问题都能搜得到解答。

-Scrapy库

scrapy和pyspider都有完整的网络框架，而且书写更加方便，也适用之后不同项目的使用，但灵活度比requests低很多了。

-Selenium库

那么对于进阶版：不想被查封/用机器人操作网页/加载内容/自动登陆/自动输验证码，就必学selenium（核弹级别的库，因为要加载页面，所以比requests访问速度慢很多）。
了解服务器如何发送给用户数据，你就知道如何触发事件/等待网页反应，比如自动搜索、点击按钮、下载视频、抢课、抢票、刷东西。Selenium是一个机器人，运行程序后会有真实的应用被启动，我常用火狐浏览器，运行程序之后这个浏览器就受程序控制自动打开网站。有了selenium你就可以加载缓存，比如下视频什么的。因为一个网站直接用链接访问（re访问）返回的是直接能加载出来的元素，那些等待服务器缓存完传输的数据则不能被re库捕捉，这就要selenium来真实的模拟用户上网这个过程来实现。当然，效率也是相当低的了。但会使用selenium，基本上所有网页都可以被你的程序爬取了。
当然，像淘宝这种网站还专门做了反selenium爬虫的诱饵代码，要特别注意。

-调取api

拖了一年，我终于肯学api了，现在才发现这是个好东西。selenium和requests都是从客户端角度爬取服务器传输过来的数据，这些数据都是被服务器修饰成html，包装后，传输过程自然也慢。但是不少网站都有自己的api.xxx.com，这个网址把数据给了服务器包装，再传给用户端，所以直接对api下手是我认为最快的爬虫方法。我们可以把通过api解析和或requests库解析当成纯数据收集的方法，而把selenium看成模拟用户操作的方法，各有各的用途。
api实际上就是以json数据形式反馈数据。提取api的方法也就是“抓包”。抓包方法有二：
（一）直接通过浏览器的控制带进行人工筛选：这个api网址的提取是通过浏览器自带的控制台，如chrome浏览器控制台下 network栏里面选取加载网页过程中被引用的相关网页链接(XHR格式)，在右侧preview看json内容从而推断出对应元素的api地址；还有一个方式就是抓包，通过分析元素加载过程中向哪些网址(甚至是php文件)请求数据，这些网址可能隐藏在各种js，XHR等等脚本中，浏览器控制台很难提取到。
然后就能批量使用了。这个方法绕开了前端的一系列加载，而是直接从数据源头下手，因此也就更快更稳定。
（二）：用抓包软件进行分析：常用的抓包软件（1）Charles：Mac+iPhone；（2）Fiddler：Windows+Android。安装好，关掉，这类抓包软件就能时时加载你的电脑和哪些服务器有数据交换，包括http和https。之后就可以看到所有交换信息的发送对象，发送内容，返回信息，直接搜索关键词来查找api网址也可。这些抓包软件也能在电脑与手机处于同一个局域网下，对手机的通信数据进行加载。不过很多手机软件与服务器都是加密通信，内容不可见，但是仍然可以提取可能的目标网址（或目标临时网址，之后可以用cookie刷新访问key进行爬取，例如微信公众号主页链接的key只有两个小时的时效性，更新cookie则可续时间），因此学完了抓包，您就毕业啦！

所需自学数据储存流程:

-Openpyxl库

为了方便项目组员处理数据，我一般都把转换好的数据存在excel里（默认格式为通用，数字就需要单独转换了）。具体操作方法可以看官方文档，我这里常用的代码就是sheet.cell(row=1, column=1).value = xxxx来输入数据。当然大家可以选择自己喜欢的储存格式。

-JSON/SQL

JSON相当于嵌套字典，和SQL一项都是很好用的数据库。我一般用XAMPP+SQL，选择MySQL（很容易上手）而非MangoDB（优化更好，用于储存长字节）。数据库的使用不要太方便呀，而且线上远程操作是更方便也更实时。像白嫖宝塔面板（后端）之类的+腾讯云/阿里云低价域名，大家数据库就可以在云端操作～

爬虫基础内容小结与课程推荐

以上就是非常简单的爬虫入门了，能处理绝大多数的网站，下面是一些小结：
（1）我在学习网络前段编程的过程全部在记事本上完成。如果大家想用编译器也可，比如notepad++，和visual studio code。
（2）以上这些库都是pip install xxxx安装的。
（3）学习时间差不多一个半月，每天四五个小时这样，学完了都可以自己去做网页前端了。
（4）推荐的教程就是油管大神EJMedia的课，讲的真的详细，英语发音也很清楚，我的搬运地址在
HTML - https://www.bilibili.com/video/BV1q7411e7Sy
CSS - https://www.bilibili.com/video/BV1B741167GH 以及 https://www.bilibili.com/video/BV1vV411o7f5
然后就是菜鸟教程了，建议多读读每部分教程下方的评论，对内容理解与新版本特性帮助很大。最后，各个官方文档也很推荐，尤其是bs4和openpyxl库。
（5） HTML /CSS /JavaScript /PHP风格都跟C++类似，学过C++的同学也就能学得快了。

个人感受

说说我做项目的感想吧。（1），这个项目数据一定够大够复杂，而且会被反复使用，要不然开发相应的代码可能要2-3天，用几天就不再用了，不是很回本。个人经验就是超过5千条数据，最好就爬虫做了，要不然第二天手腕酸脖子疼是免不了的。（2），正规网站爬取相当便捷，因为他们所有相似页面的代码统一，而且不会怎么变化，代码只需要考虑少量情况。对于一般网站，例如WHO的网站，代码很不规律，比如SARS的各国每日确诊数据汇总就是，除了数据都储存在table里，网页和网页间的代码相似度很低，不能在爬取的时候自动整理数据，最后我只能暴力爬取table里所有数据，最后再手动清理数据了。（3），requests库稳定性差，如果timeout 5分钟都不行的，建议重新跑程序，在我做WHO数据收集的时候，运行3次，只有1次成功的，其他都是服务器挂了连不上。（4），selenium是个好东西，但是能不用就不用，不然五分钟的活能搞三个小时。（5），有python基础的同学，自学两个月就差不多出师了，这个真的不难～～（7）抓包+SQL存储是我现在最喜欢的抓大网站数据（均为json返回）的方法，scrapy是最喜欢的抓小网站数据的方法，又快又容易写。现在有接触了服务器方面的知识，包括前后端数据传输（AJAX同步，SQL的操作），也对数据传输，数据加密有了接触，觉的学海无涯，大家加油哦！

写在后面，笔者感觉爬虫自学进程也差不多了，有空也翻了翻同学推荐的爬虫教材，基本上是我所说的这些，大家也可以尝试把爬虫做到PHP中方便搭建服务器。书山有路，每次学新知识，都能把爬虫效率提高一大截，尽管过程很折磨人，但是每次回看自己以前笨拙的代码，都感到进步，觉得蛮开心的。

祝马到成功！

其他

python爬虫之抖音视频批量提取术：https://zhuanlan.zhihu.com/p/46137276 其实我也研究了一下下，用了手机抓包，猜测抖音有v3，v5，v7，v8网站，分开储存视频，音频，图片，文字（雾）
Charles 从入门到精通：https://www.jianshu.com/p/a3f005628d07

稿件版本

version 1 - 初稿 2020年06月30日
version 2 - 微调，增加引用 2020年07月04日
version 3 - 更新api部分 2020年08月7日
version 4 - 更新JQuery，PHP，requests代理，requests多线程， Scrapy，API部分，删减了无关的例子 2020年09月01日
version 5 - 更新api部分的抓包手段和cookie池 2020年09月15日之后应该不会再添加新内容啦

【Python篇】深入机器学习核心：XGBoost 从入门到实战半截诗 Python python 机器学习深度学习分类回归数据分析 XGBoost
文章目录XGBoost完整学习指南：从零开始掌握梯度提升1.前言2.什么是XGBoost？2.1梯度提升简介3.安装XGBoost4.数据准备4.1加载数据4.2数据集划分5.XGBoost基础操作5.1转换为DMatrix格式5.2设置参数5.3模型训练5.4预测6.模型评估7.超参数调优7.1常用超参数7.2网格搜索8.XGBoost特征重要性分析9.高级功能扩展9.1模型解释与可解释性9.2
python调用ollama库详解 2201_75335496 python 经验分享神经网络人工智能自然语言处理语言模型
0准备1）准备Ollama软件（注意：两个不是同一个东西）详见上次的文章Ollama通过gguf文件加载AI模型（补充：关于Ollama加载AI模型的补充）2）准备ollama库如果您还未安装ollama库，请使用pip安装：pipinstallollama#1ollama库的基本使用importollama#普通输出（请先按照准备工作中的要求安装模型）back=ollama.chat(model
pyinstaller 打包生成.exe 可执行文件报错 “IndexError: tuple index out of range” 静妍 Python Python pyqt gui Pyinstaller .exe
想把pyqt写的GUI程序打包成.exe文件，以便在Windows下运行，不想因为使用Python3.6，出现兼容问题：IndexError:tupleindexoutofrangePyinstaller官网目前的版本是3.2.1只支持到Python2.7，Python3.3~Python3.5需自己在官网源码里
Spring Boot入门(19)：超酷炫！Spring Boot + Thymeleaf 带你玩转 Web 页面开发！喵手 Springboot spring boot 前端后端
前言在Web开发中，不管是MVC框架还是前后端分离，都需要使用模板引擎来渲染生成页面。Thymeleaf是一款非常优秀的模板引擎，它以自然的方式处理模板，支持HTML5标签，同时兼容HTML4。本文将介绍如何使用SpringBoot框架，整合Thymeleaf模板引擎来开发Web页面。摘要本文将分为以下几个部分:新建SpringBoot项目配置Thymeleaf模板引擎编写HTML页面模板引擎使用
如何利用Python下载酷狗音乐傻啦嘿哟关于python那些事儿 python 开发语言
目录一、酷狗音乐下载的挑战与解决方案二、Python下载酷狗音乐的步骤选择合适的第三方库安装you-get库下载酷狗音乐三、注意事项与常见问题版权问题链接失效下载速度四、案例与代码示例五、总结与展望随着互联网的迅猛发展，音乐已经成为人们日常生活中不可或缺的一部分。酷狗音乐作为中国领先的在线音乐平台，拥有庞大的音乐库和众多用户。然而，有时我们可能希望将酷狗音乐下载到本地，以便在没有网络或希望离线欣赏
python概述_理解Python数据类：Dataclass 的特征概述（上） weixin_39875842 python概述
原标题UnderstandingPythonDataclasses—Part1，作者为ShikharChauhan。这是一个包含两部分的博文：这一篇是Dataclass的特征概述下一篇是Dataclassfields的概述引言Dataclasses是一些适合于存储数据对象(dataobject)的Python类。你可能会问，什么是数据对象?下面是一个并不详尽的用于定义数据对象的特征列表：他们存储并
Python_算术运算符 Ww_Sid python python 算术运算符
两个数字相加sumNumber=1+2print(sumNumber)>>>3两个字符串相加sumString="Nicework"print(sumString)>>>Nicework两个数字相减subNumber=2-1print(subNumber)>>>1两个数字相乘或者multiplicationNumber=2*3print(multiplicationNumber)>>>6字符串重复
代码精进：工作中学到的12个代码风格程序员
在工作中，我们编写代码时尽可能地使其易于阅读。这意味着以下几点：变量名有意义且更长（而不是a,b和c）函数名有意义且更长许多注释和文档解释代码到处都是类型提示字符串似乎更长、更啰嗦等等以下是我在过去几年的工作中学到的一些生产级别的Python代码风格。1)使用括号的元组解包这是一些正常的元组解包：a,b=(1,2)在生产级别的代码中，我们通常不使用像a或b这样的变量名——相反，我们的变量名会变得更
盘点ECMAScript 2024的新提案前端
前面我们了解了ECMAScript2024(ES15)的5个新特性，现在我们继续学习一下其他令人耳目一新的提案吧。1.模式匹配（初期阶段）JavaScript变得更智能了，有了模式匹配！想象它就像一个超强大的switch语句，可以处理复杂的数据结构。ES15允许你简单地匹配模式，而不是编写一堆嵌套的条件语句来检查对象的形状。️旧方式functioncheckAnimal(animal){if(an
python错误：No module named 'sklearn.cross_validation' 小炸鸡钟熊 python
调用fromsklearn.cross_validationimporttrain_test_split时，发现错误：Nomodulenamed'sklearn.cross_validation’更改为sklearn.model_selection即可fromsklearn.model_selectionimporttrain_test_split
leetcode 485 python weixin_36908057 leetcode
Givenabinaryarray,findthemaximumnumberofconsecutive1sinthisarray.Example1:Input:[1,1,0,1,1,1]Output:3Explanation:Thefirsttwodigitsorthelastthreedigitsareconsecutive1s.Themaximumnumberofconsecutive1sis
python连接485网关设备 dilqu python 网络开发语言
Python相关视频讲解：python的or运算赋值用法用python编程Excel有没有用处？011_编程到底好玩在哪？查看python文件_输出py文件_cat_运行python文件_shel如何实现Python连接485网关设备1.流程图gantttitlePython连接485网关设备流程图section了解485网关设备:1dsection安装Python库:1dsection编写Pyt
聊聊 Windi CSS 的替代品 UnoCSS
WindiCSSWindiCSS是一个下一代工具优先的CSS框架，它以TailwindCSS为基础，提供了更快的加载体验和一些额外的高级功能。以下是关于WindiCSS的一些关键特点：按需供应：WindiCSS会扫描你的HTML和CSS，然后按需生成工具类（utilities），这意味着只有你实际使用的工具类才会被包含在最终的CSS文件中，从而减少了文件大小和提高了加载速度。与TailwindCS
Python学习day14 BBS功能和聊天室 weixin_30725467 json 数据库前端 ViewUI
Createdon2017年5月15日@author:louts第1课作业讲解及装饰器使用28minutesdefcheck(func):defrec(request,*args,**kargs):returnfunc(request,*args,**kargs)returnrec@checkdefindex(request,):printrequest第2课自定义装饰器扩展使用18minutes
华为OD机试C卷-- 跳格子3（Java & JS & Python & C）飞码创造者华为OD机试题库华为od c语言 java javascript python
获取题库不需要订阅专栏，可直接私信我进入CSDN领军人物top1博主的华为OD交流圈观看完整题库、最新面试实况、考试报告等内容以及大佬一对一答疑。题目描述小明和朋友们一起玩跳格子游戏，每个格子上有特定的分数score=[1,-1,-6,7,-17,7]，从起点score[0]开始，每次最大的步长为k，请你返回小明跳到终点score[n-1]时，能得到的最大得分。输入描述第一行输入总的格子数量n第二
如何使用Visual Studio Code调试PHP CLI应用和Web应用
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
理解 Python 的 Dataclasses Cater Chen python
理解Python的Dataclasseshttps://zhuanlan.zhihu.com/p/59657729
关于 PHP 性能优化很青的青蛙 php php php 性能优化
本文写的也是关于PHP性能优化、减少耗时方面的话题，虽然老生常谈，但还是以我的角度来一个总结或分享。网上关于50条PHP优化的方法，除此之外从架构或环境方面的优化建议等，是非常有益的。本文讲讲我所关注的一些方法或建议。一般来说，性能优化可先从大的方向开始考虑，从对影响性能比较大的因素来考虑，比如现在使用PHP5.7，性能据说可以成倍提高，最后考虑的应该是PHP语法细节上。1.PHP部署环境单台服务
Python中dataclass库 SteveKenny #Python第三方库 python 开发语言哈希算法
文章目录dataclass语法一、简介二、装饰器参数三、数据属性1、参数2、使用示例3、注意事项四、其他1、常用函数2、继承3、总结dataclass语法一、简介官方文档的地址为：https://docs.python.org/3.9/library/dataclasses.htmldataclass的定义位于PEP-557，根据定义一个dataclass是指“一个带有默认值的可变的namedtu
提升数据科学工作流效率的10个Jupyter Notebook高级特性
JupyterNotebooks已成为数据科学家、机器学习工程师和Python开发人员的核心开发工具。其核心优势在于提供了一个集成式环境，支持代码执行、文本编辑和数据可视化的无缝整合。尽管大多数用户熟悉其基本功能，但许多能显著提升工作效率的高级特性往往被忽视。本文将介绍一些高级功能，帮助您在数据科学项目中充分发挥JupyterNotebooks的潜力。1、Magic命令：高效的命令行接口Jupyt
CaigouSearch 基于ngram分词的轻量PHP全文检索插件 php全文检索模糊搜索
简单易用最关键，菜狗搜索：https://github.com/rock365/caigou这是一个基于ngram分词的PHP模糊搜索插件，且完全免费，对博客等中小型网站来说，绰绰有余，因为它是用PHP开发的，所以能跟PHP项目完美融合。如果你对elasticsearch的语法比较了解，那么你很快就会上手，不了解也没关系，照着文档复制填写就行了，没有任何难度。注意：id字段必须为整型递增安装导入在
数据可视化大屏设计与实现木觞清 3天入门Python 数据可视化 echarts python flask javascript html css3
本文将带你一步步了解如何使用ECharts实现一个数据可视化大屏，并且如何动态加载天气数据展示。通过整合HTML、CSS、JavaScript以及后端接口请求，我们可以构建一个响应式的数据可视化页面。1.页面结构介绍在此例中，整个页面分为几个主要部分：大屏展示区域、多个数据图表、动态加载的表格数据，以及地图展示等功能模块。我们将详细介绍每一部分的实现和交互。1.1页面整体结构以下是页面的结构，其中
Python 数据建模完整流程指南木觞清 3天入门Python python 开发语言
在数据科学和机器学习中，建模是一个至关重要的过程。通过有效的数据建模，我们能够从原始数据中提取有用的洞察，并为预测或分类任务提供支持。在本篇博客中，我们将通过Python展示数据建模的完整流程，包括数据准备、建模、评估和优化等步骤。1.导入必要的库在进行任何数据分析或建模之前，首先需要导入必需的Python库。这些库提供了各种工具和算法，帮助我们更高效地完成任务。importnumpyasnpim
python安装包提示Requirement already satisfied 可爱的的编辑人员配置 python numpy 开发语言
python安装cnocr提示Requirementalreadysatisfied错误信息如下：Requirementalreadysatisfied:pyreadline3inc:\python310\lib\site-packages(fromhumanfriendly>=9.1->coloredlogs->onnxruntime->cnocr)(3.4.1)Installingcollec
Python3 打包成.exe（附IndexError: tuple index out of range错误解决） zdxdxd python python
1.首先下载PyInstaller官网地址入口已经安装了pip，直接在命令行输入：pipinstallpyinstaller2.进行打包进入需要被打包目录，输入：pyinstaller-Fyourprogram.py//-F打包成一个.exe文件另外，可以在官方的说明里看到pyinstaller目前并不支持python3.6，如下图：所以，在打包python3.6的程序时，会出现“:IndexEr
Python爬虫爬取1万首音乐代码 EasySoft易软 python
importrequestsbase_url=“http://music.163.com/song/media/outer/url?id=”start_id=200000end_id=210000formusic_idinrange(start_id,end_id+1):song_url=base_url+str(music_id)response=requests.get(song_url,st
php.ini配置中有10处设置不当，会使网站存在安全问题瑆箫 php 安全开发语言
在php.ini配置文件中，有一些设置如果配置不当，可能会导致网站面临安全风险。PHP的安全性很大程度上依赖于这些配置选项的正确设置。以下是10个可能存在安全问题的PHP配置项，如果配置不当，可能会导致网站存在安全漏洞：1.display_errors问题：启用错误显示时，PHP会将错误信息直接输出到浏览器，这可能会泄露敏感信息（如数据库密码、文件路径等）给攻击者。解决方法：应该禁用错误显示，特别
利用python向modbus RTU设备（RS485串口通信）发送16进制指令无名小白12138 python 开发语言
importserialimporttime#配置串口通信参数serial_port='COM1'baudrate=9600#创建串口连接ser=serial.Serial(port=serial_port,baudrate=baudrate)#检查串口是否已打开ifser.is_open:try:hex_data=bytes.fromhex('01100010000102000564C3')se
Python的简介-课前甜点 cheese-liang Python实用小技巧 python 开发语言
Python的简介-课前甜点1.`Python`需求的任务2.Python代码的实现3.代码修改的位置4.运行结果5.注意事项6.其他文章链接快来试试吧Python的简介点击这里也可以查看1.Python需求的任务如果您的工作主要是用电脑完成的，总有一天您会想能不能自动执行一些任务。比如，对大量文本文件执行查找、替换操作；利用复杂的规则重命名、重排序一堆照片文件；也可能您想编写一个小型数据库、或开
【第十章——数据可视化之地图构建】【最新！黑马程序员Python自学课程笔记】课上笔记+案例源码+作业源码嗯哈！信息可视化 python 笔记 pycharm
第十章-数据可视化之地图构建10.1数据可视化-地图-基础地图使用注意！！！现在的版本，需要加：省，市"""演示地图可视化的基本使用"""frompyecharts.chartsimportMapfrompyecharts.optionsimportVisualMapOpts#准备地图对象map=Map()#准备数据data=[("北京市",9),("上海市",8),("湖南省",5),("台湾省
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少

【指引】新手如何自学网页爬虫（更新完结）

目录：

自学流程简述

自学流程简述

-Python/Java

-HTML

-CSS

-JavaScript（js）

-JQuery

-PHP

所需自学的外置库

-Requests库

多线程与分布式爬虫

-BeautifulSoup4(bs4)库

-Scrapy库

-Selenium库

-调取api

所需自学数据储存流程:

-Openpyxl库

-JSON/SQL

爬虫基础内容小结与课程推荐

个人感受

相关软件

其他

稿件版本

你可能感兴趣的:(网页爬虫,python,php,python,html,css,javascript,数据挖掘)