xiaozhanger

静态网页抓取，动态网页抓取，模拟登陆的注意事项和心得

最近更新：2013-07-03

背景

之前，对于折腾，静态或动态的网页抓取，模拟登陆，也算有些时日了。

在此期间，遇到很多问题，也都基本上靠自己慢慢的解决了。

此处，把其中相对常见和通用的问题或者是注意事项，

再加上一些心得，在此整理出来，供参考：

网页抓取和模拟登陆的注意事项和心得

如果不加User-Agent，则有些网址的访问，会被禁止的

此点，之前别的很多人已总结过了。

此处，还是再啰嗦一遍。

比如，直接通过浏览器访问，csdn的某个图片地址：

      ? 
    
          https://img-my.csdn.net/uploads/201205/03/1336005998_9131.png

是可以的。

那是因为浏览器访问时，（用IE9的F12可以抓取到）已添加对应的User-Agent：

      ? 
    
          User-Agent  Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0)

而当用程序去模拟访问时，直接用Python代码，比如：

      ? 
    
          resp  
          = 
          urllib2.urlopen(fileUrl, timeout 
          = 
          gConst[ 
          'defaultTimeout' 
          ]);

是会出错的：

HTTP Error 403: Forbidden

而加上对应的User-Agent后，即可：

      ? 
    
          gConst  
          = 
          { 
         
          'UserAgent' 
          :  
          'Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; InfoPath.3; .NET4.0C; .NET4.0E)' 
          , 
         
          'defaultTimeout' 
          :  
          20 
          ,  
          # default timeout seconds for urllib2.urlopen 
         
          } 
         
          request  
          = 
          urllib2.Request(fileUrl, headers 
          = 
          { 
          'User-Agent' 
          : gConst[ 
          'UserAgent' 
          ]}); 
         
          resp  
          = 
          urllib2.urlopen(request, timeout 
          = 
          gConst[ 
          'defaultTimeout' 
          ]);

网页执行过程中由于自动跳转（AutoRedirect）而导致获得不到对应的cookie

正常的网页执行过程，经过分析后，

都是一步步的执行，然后有些步骤中，获得对应的cookie的。

然后后续的执行，则利用前面所得到的cookie，访问后面的地址，

因此才一步步，正常的执行下去的。

但是，有时候，由于，前面的某个步骤中，发生了自动跳转，但是实际上，却是在自动跳转期间，获得的cookie

而导致你写程序模拟此过程中，不小心设置了autoredirect为true，然后只获得了，跳转后的网页返回的结果，其中没有对应所需要的cookie。

即：

如果程序中得不到cookie（因此无法模拟登陆）可以看看是否是内部自动跳转 auto redirect 而导致无法获得cookie
在模拟登陆的时候，常常会遇到，虽然代码已经正常模拟执行某个http的请求了。

但是返回的结果中，却没有得到对应的cookie（以及返回的html值也不对，是之后的某个网页的内容）

此时，就可以去看看，分析出来的该http请求过程中，是不是带了自动跳转

如果是，用程序模拟时，禁止自动跳转，一般即可得到所期望的cookie，以及返回的html。

解决办法：

禁止掉自动跳转，即设置autoredirect为false，通过代码去手动实现自动跳转，如此，跳转期间所产生的cookie，就可以得到了。

例子：

（1）【记录】模拟登陆google

中，也是得不到对应的cookie，后来用了：

headerDict.Add("AllowAutoRedirect", "false");

去禁止自动跳转，才得到对应的cookie的。

（2）skydrive模拟登陆期间，就是由于其内部自动跳转，而导致获得不到cookie，而导致无法模拟后续的过程。

后来禁止掉自动跳转，才获得了所需要的cookie，才能继续正常的模拟后续的过程。

有些post data是回车换行作为分隔符的

一般都是&作为分隔符的

xxx=xxx&xxx=xxx&xxx=xxx

特殊的，是用\r\n，即回车换行作为分隔符的

xxx=xxx

例子：

（1）【记录】给BlogsToWordPress添加支持导出网易的心情随笔

中遇到的：

POST请求中，Content-Type不是application/x-www-form-urlencoded而是text/plain

正常的话，写程序模拟http的POST时，会添加相应的头信息Content-Type，值为

application/x-www-form-urlencoded

的，

但是，有时候，遇到特殊的情况是，虽然是POSTGET请求，Content-Type也却是普通GET的值：

text/plain

的。

例子：

（1）同上面的例子：

【记录】给BlogsToWordPress添加支持导出网易的心情随笔

中遇到的：

有时候需要手动修改设置cookie的domain，以使得后续的http的请求中，能包含对应的cookie

有些时候，网络执行过程中，所分析出来的过程中，看到的cookie，

其实是经过相关的js等过程中，已经改变了domain的cookie

所以，在接着，从原先的一种domain的地址，去访问另外一种domain的时候，对应的cookie，才是能够正常传递过去的

而此时，如果你写代码去模拟，若是忽略掉这一点，没有手动去设置对应的cookie的话，则是无法成功模拟整个流程的。

例子：

（1）skydrive模拟登陆后，再上传文件的时候，就需要手动设置cookie的domain，然后才能正常上传文件的

（2）模拟baidu开发者去获得对应的token的过程中，也是需要先把模拟登陆所获得的cookie的，手动修改domain为后续的所要访问的url的domain，然后才可以正常获得对应的后续的返回的verify code和token的。

写程序模拟执行过程时，不能直接拷贝分析而得的数据，而要自己用程序模拟出来

注：此问题，已经发现不止一个人遇到了；很多人，都犯了（我觉得本来不需要说明）的明显的错误。

所以在此专门要详细解释一下：

一般来说，你所分析出来的网页的执行逻辑中，所涉及的数据，往往都是有相应的上下文的，即数据往往都是前后相关的，再换句话说：

后面的数据，往往都是前面的某些逻辑和过程，所产生出来的，

再换句话说，你想要模拟此逻辑过程的话，需要同时模拟对应的前后逻辑，以获得所需要的数据，

而不能是，直接从抓取网络执行过程中，所获得的“临时”的数据，

即你网络分析的时候，所得到的数据，那往往都是和当时网页执行的时刻，所相关的；

而你要是想要模拟整个流程，自然就要模拟前面的逻辑过程，以得到你要的数据，再继续模拟后面的逻辑了。

举个例子：

某人需要模拟登录：

http://www.studentart.com.cn/feed/home/57626

对应的分析逻辑出来的内部过程就是：

访问

http://www.studentart.com.cn/feed/home/57626

对应的header是：

post data是：

对应的，正确的返回的结果是json格式的内容 response ：

以及相关的cookie的内容：

其中，很明显，有些数据，比如：

post data中的：
- xjxr=1370269905900
Cookie中的：
- Hm_lpvt_d933aa4479d795ed42bb9c037c756c47=1370269889
- __utma=1.646193226.1370269625.1370269625.1370269625.1

等等的数据，都是，动态变化的。

意味着：

你不能直接拷贝这些数据，到你的程序里面，去模拟此登录过程。

因为这些数据，都是和当时网页执行时候的动态过程相关的，动态产生的；

而放到你程序里面，也比如是无效的。

如何得到有效的？

很明显，还是需要你自己去：

先找到这些数据是如何产生的；

然后再用程序模拟此过程，以产生该数据；

然后有人会问，这些数据，到底从何而来，如何分析得到的？

此时，就只能靠自己分析了。

比如对于xjxr这个变量，通过分析，最后可以找到，是在js中赋值的：

而对应的js的代码：

      ? 
    
          var 
           dNow= 
          new 
          Date(); 
         
          rd.push( 
          '&xjxr=' 
          );

可以看出，其就是对应的时间戳。

剩下的就是用程序模拟出来了。

总之，还是那句话：

很明显，其中模拟登录，网页抓取等过程中，所分析出来的数据，

是和（网页执行）过程相关的，是动态的，

直接将这些，已经过期的，动态产生的数据，拷贝到程序里面用，必然是会失败的。

解决办法也很明显：

先分析逻辑，搞懂这些数据是如何产生的；

然后再写程序，模拟这段逻辑，产生所需的数据；

得到了所需的数据，才能接着继续模拟后面的过程的；

上述所涉及的内容中：

1. 关于如何使用工具去分析对应的逻辑，不懂的去参考：

详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）

所提到的：

【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程

【整理】各种浏览器中的开发人员工具Developer Tools：IE9的F12，Chrome的Ctrl+Shift+J，Firefox的Firebug

【总结】浏览器中的开发人员工具（IE9的F12和Chrome的Ctrl+Shift+I）-网页分析的利器

2.关于时间戳，如何通过程序所获得，我其实都帮你们写好函数了，详见：

4.1.1. 当前时间转换为时间戳:getCurTimestamp

3. 更多的，关于我写的库函数，参见（其中就有Python语言的）：

crifanLib – crifan’s Library(C#/Python/PHP/C/…)

最后送上一句：

多看我的，完整的教程，以及多多思考，还是可以自己就发现很多显而易见的错误的。

返回的html内容是乱码

返回的html的内容，得到之后，发现是乱码，是那种英文字母之类的，可以正常显示，中文之类的，没法显示。

原因是：

返回的html，作为普通的字符串，其编码格式，和你所用到编码格式不一致。

一种常见的问题是：

比如python中，你得到的是UTF-8的html字符串，但是你将其print到windows的cmd中，由于cmd中的是GBK编码，所以导致显示出来的是乱码。

还有一种相对也很常见的：

对于得到的某种编码，比如GBK的html字符串，想要正确的解码，得到其unicode的字符串

但是却用错了解码方式，比如用UTF-8去解码本身是GBK的html，所以当然也会出错。

所以，终究是要：

对于字符编码本身很清楚：
- 不清楚的去看：
- 字符编码详解
对于html返回的字符串是什么编码的：
- 关于html的charset相关的知识，不了解的去看：
- 【整理】关于HTML网页源码的字符编码（charset）格式（GB2312，GBK，UTF-8，ISO8859-1等）的解释
如果是python中，还要清楚python中的字符串的编码是如何处理的：
- 不清楚的去看：
- 【整理】Python中字符编码的总结和对比：Python 2.x的str和unicode vs Python 3.x的bytes和str
如果涉及到print到windows的cmd中，还要清楚cmd是GBK编码的：
- 不清楚的去看：
- 设置字符编码：简体中文GBK/英文

如此，才算，真的搞懂错误的根本原因，上述背景知识都懂了，自然就可以利用对应的只是，写出相关的解决办法了。

解决办法：

（1）Python中解决思路：

通过html的charset（或者自己看html源码，自己直接找到charset的值），得到html是什么编码的，然后直接decode解码即可得到unicode字符串。

核心代码：

      ? 
    
          #假设当前respHtml是GBK编码类型的 
         
          htmlCharset  
          = 
          "GBK" 
          ; 
         
          decodedUnicodeStr  
          = 
          respHtml.decode(htmlCharset);

（2）C#中的解决思路：

在获得的html后，需要通过，在调用StreamReader时，传递对应的Encoding编码格式，即可正确解码为所需要的unicode类型的字符串了。

核心代码：

      ? 
    
          string 
           htmlCharset =  
          "GBK" 
          ; 
         
          //use songtaste's html's charset GB2312 to decode html 
         
          //otherwise will return messy code 
         
          Encoding htmlEncoding = Encoding.GetEncoding(htmlCharset); 
         
          StreamReader sr =  
          new 
          StreamReader(resp.GetResponseStream(), htmlEncoding); 
         
          //read out the returned html 
         
          //here we got the, unicode (non-messy code) html 
         
          string 
           respHtml = sr.ReadToEnd();

（3）更全面的，完整的代码，则可以参考：

（上面已经给出的）

【整理】关于HTML网页源码的字符编码（charset）格式（GB2312，GBK，UTF-8，ISO8859-1等）的解释

中的，Python和C#的示例代码，说明如何去将得到的html的字符串，进行对应的编码和解码方面的处理的。

返回的html内容是二进制的乱码

和上面类似，但是返回的内容，不仅仅是乱码，是连英文字母，都看不到，是哪种二进制级别的，混乱的内容，比如：

python代码调试时看到的，类似于这样的：

C#代码调试时，看到类似于这样的：

（

【已解决】设置Accept-Encoding为gzip,deflate，返回的网页是乱码

中遇到的）

此处，出现，返回的html是二进制乱码的：

原因：

此处，返回的http的response中的header中会有对应的Content-Encoding，即：

Content-Encoding: gzip

或：

Content-Encoding: deflate

表示返回的html内容是gzip或deflate压缩的内容。

由于你没有解压缩，所以看起来，以为是二进制的乱码。

解决办法：

解压缩对应的内容，即可得到正常的html了。

如何解压？

（1）Python中的解决方案：

根据Content-Encoding是gzip还是deflate，调用zlib.decompress传入不同的参数去解压

具体代码：

参考我的crifanLib.py中的getUrlRespHtml中的：

      ? 
    
          #print "---before unzip, len(respHtml)=",len(respHtml); 
         
          respInfo  
          = 
          resp.info(); 
         
          # Server: nginx/1.0.8 
         
          # Date: Sun, 08 Apr 2012 12:30:35 GMT 
         
          # Content-Type: text/html 
         
          # Transfer-Encoding: chunked 
         
          # Connection: close 
         
          # Vary: Accept-Encoding 
         
          # ... 
         
          # Content-Encoding: gzip 
         
          # sometime, the request use gzip,deflate, but actually returned is un-gzip html 
         
          # -> response info not include above "Content-Encoding: gzip" 
         
          # eg: http://blog.sina.com.cn/s/comment_730793bf010144j7_3.html 
         
          # -> so here only decode when it is indeed is gziped data 
         
          #Content-Encoding: deflate 
         
          if 
          ( 
          "Content-Encoding" 
          in 
          respInfo): 
         
          if 
          ( 
          "gzip" 
          = 
          = 
           respInfo[ 
          'Content-Encoding' 
          ]): 
         
          respHtml  
          = 
          zlib.decompress(respHtml,  
          16 
          + 
          zlib.MAX_WBITS); 
         
          elif 
          ( 
          "deflate" 
          = 
          = 
           respInfo[ 
          'Content-Encoding' 
          ]): 
         
          respHtml  
          = 
          zlib.decompress(respHtml,  
          - 
          zlib.MAX_WBITS);

（2）C#中的解决方案：

给HttpWebRequest添加上对应的AutomaticDecompression为gzip即可：

具体代码：

参考我的crifanLib.cs中的getUrlResponse中的：

      ? 
    
          HttpWebRequest req = (HttpWebRequest)WebRequest.Create(url); 
         
          ...... 
         
          req.Headers[ 
          "Accept-Encoding" 
          ] =  
          "gzip, deflate" 
          ; 
         
          req.AutomaticDecompression = DecompressionMethods.GZip;

即可。

分析网页执行逻辑之前，记得要彻底清除cookie

之前已经在教程：

【总结】浏览器中的开发人员工具（IE9的F12和Chrome的Ctrl+Shift+I）-网页分析的利器

中，提到这点了。

即，在用工具，比如IE9的F12去分析网页执行过程，网页登陆过程的内部逻辑的时候，确保自己已经

通过工具

或

手动

清除了相关的cookie

然后，接下来的分析网页执行的过程，才是“全新”的过程，才是真正的你的代码执行的过程中，所遇到的情景：

你代码的最开始，又没有保存什么cookie，所以用工具分析网页执行过程时，也要保证没有，由于之前某次登陆网站，访问网页，而产生了相关的cookie，所以要去清除掉。

比如，之前用IE9的F12，去分析某网站登陆过程时，截图如下：

很明显，意味着：

你去用IE9的F12，去分析该网站执行的过程时，

第一个抓取处理的http的访问，就已经包含了对应的一个叫做UNAME的cookie

说明你没有彻底清除和此网站相关的cookie

说明你之前就用过IE9去打开过该网站，对应的本地生成了此UNAME的cookie

并且还没有过期，所以会存在，所以你再次用IE9打开该网站，才会看到有此cookie

只有清除掉cookie后，再去默认分析，才是正常的。

如何清除cookie？

详见：

【总结】浏览器中的开发人员工具（IE9的F12和Chrome的Ctrl+Shift+I）-网页分析的利器

中的说明，包括了用工具去清除，和手动去清除，都有详细的解释。

总结

关于网页抓取，模拟登陆，涉及到的东西，其实还是很多的。

至少包括http，cookie，html，css，字符编码，json，gzip，等等内容。

真的是需要大量的实践，才能得出一些真知的。

上述的整理，相信能够帮到很多人。

另外，再贴一次：

关于网页抓取，模拟登陆方面的教程，从原理到代码，都整理到这里了：

详解抓取网站，模拟登陆，抓取动态网页的原理和实现（Python，C#等）

另外对于python，也有单独的解释：

Python专题教程：抓取网站，模拟登陆，抓取动态网页

转载请注明：在路上 » 【总结】静态网页抓取，动态网页抓取，模拟登陆的注意事项和心得

你可能感兴趣的:(反爬,爬虫,python)

Python 常用内建模块-base64 赔罪 Python 系统学习 python 前端 linux
目录base64小结练习base64Base64是一种用64个字符来表示任意二进制数据的方法。用记事本打开exe、jpg、pdf这些文件时，我们都会看到一大堆乱码，因为二进制文件包含很多无法显示和打印的字符，所以，如果要让记事本这样的文本处理软件能处理二进制数据，就需要一个二进制到字符串的转换方法。Base64是一种最常见的二进制编码方法。Base64的原理很简单，首先，准备一个包含64个字符的数
基于python的ansys_基于python的感知机 weixin_39687990 基于python的ansys
一、1、感知机可以描述为一个线性方程，用python的伪代码可表示为：sum(weight_i*x_i)+bias->activation#activation表示激活函数，x_i和weight_i是分别为与当前神经元连接的其它神经元的输入以及连接的权重。bias表示当前神经元的输出阀值(或称偏置)。箭头(->)左边的数据，就是激活函数的输入2、定义激活函数f:deffunc_activator(
python ansys workbench联动_【干货】如何在ANSYS WORKBENCH中关联几何模型和有限元模型... weixin_39644377 python ansys workbench联动
原标题：【干货】如何在ANSYSWORKBENCH中关联几何模型和有限元模型我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应
python ansys workbench联动_如何在ANSYS WORKBENCH中关联几何模型和有限元模型 YUNYA麻麻 python ansys workbench联动
我们都知道，通过诸如HPERMESH这样的有限元网格划分软件得到的模型，在传入ANSYS以后，只包含节点和单元信息。但是当我们在WB中使用模型操作时，有时候需要选择几何特征，如在圆孔面上施加圆柱支撑，而此时对象只有单元节点信息，并无体面线的几何信息，该怎么办呢？显然，处理此问题的有效途径，在于把有限元模型与该有限元模型对应的几何模型进行关联，再一起导入到MECHANICAL中进行分析，则既能够既享
在 Ansys Mechanical 中创建等效应力结果并使用 Python 导出到文件 David WangYang 硬件工程
介绍在AnsysMechanical模型中，通常需要对许多实体/曲面体或它们组进行后处理等效应力或总变形等。使用分组在TreeGrouping文件夹中的NamedSelections，可以在Mechanical中编写Python脚本来自动生成结果对象。此外，once可以获取新创建的结果对象，并再次使用Mechanical中的Python脚本将所有结果集的结果导出到.csv文件。在本文中，我们将探讨
关于使用python进行处理雷达数据笔记六毛驴 python 数据分析
好久不见，甚是想念本人深知这段时间鸽了一篇博（上一篇博），后续会补上的，今天想写一下关于使用python进行TI雷达接收回波数据处理的一些常见问题和解决方法。这也是前几天领导给我布置的任务，所以我将这段时间自己遇到的并且已经解决的问题进行了简单的汇总，也会推荐几本这几天阅读了python书籍。python书籍推荐：python学习手册MarkLutz著（对应python版本3.X，2.X都可）Py
焊接性能分析代码（Python）骑蜗牛上月亮 python 开发语言
welding_performance_data.xls数据文件。welding_strengthtoughness5001052012480855015490953013510115401447075601690018600121500139111578115importpandasaspdimportmatplotlib.pyplotaspltimporttkinterastkfrommatp
从零实现B站视频下载器：Python自动化实战教程木觞清 #编程语言自动化运维
一、项目背景与实现原理1.1B站视频分发机制Bilibili的视频采用音视频分离技术，通过以下方式提升用户体验：动态码率适配（1080P/4K/HDR）分段加载技术（基于M4S格式）内容保护机制（防盗链/签名验证）1.2技术实现路线graphTDA[模拟浏览器请求]-->B[获取加密播放信息]B-->C[解析音视频地址]C-->D[多线程下载]D-->E[FFmpeg合并]二、代码逐层解析2.1请
chatgpt赋能python：Python处理雷达基数据：从入门到实践 lvsetongdao123 ChatGpt python chatgpt 开发语言计算机
Python处理雷达基数据：从入门到实践随着气象技术的不断发展，雷达探测技术已成为当今天气预报和气象研究的主要手段之一。雷达基数据是气象雷达接收到的未经加工的原始数据，因其包含大量天气信息，不仅在天气预报、天气预警等方面得到了广泛应用，还被广泛地用于气象科研和大气环境研究。本文将介绍如何使用Python处理雷达基数据，解析其中的信息，获取有效的天气数据，以及分析和可视化这些数据。雷达基数据格式与处
PTA天梯赛PYthon7-10 树的遍历胡同Alley 算法数据结构 python
给定一棵二叉树的后序遍历和中序遍历，请你输出其层序遍历的序列。这里假设键值都是互不相等的正整数。输入格式：输入第一行给出一个正整数N（≤30），是二叉树中结点的个数。第二行给出其后序遍历序列。第三行给出其中序遍历序列。数字间以空格分隔。输出格式：在一行中输出该树的层序遍历的序列。数字间以1个空格分隔，行首尾不得有多余空格。输入样例：723157641234567输出样例：4163572代码长度限制
机器学习之KMeans算法知舟不叙机器学习算法 kmeans
文章目录引言1.KMeans算法简介2.KMeans算法的数学原理3.KMeans算法的步骤3.1初始化簇中心3.2分配数据点3.3更新簇中心3.4停止条件4.KMeans算法的优缺点4.1优点4.2缺点5.KMeans算法的应用场景5.1图像分割5.2市场细分5.3文档聚类5.4异常检测6.Python实现KMeans算法7.总结引言KMeans算法是机器学习中最经典的无监督学习算法之一，广泛应
Python自动化运维开发系列—CICD项目 weixin_46240874
导语都忘记是什么时候知道python的了，我是搞linux运维的，早先只是知道搞运维必须会shell,要做一些运维自动化的工作，比如实现一些定时备份数据啊、批量执行某个操作啊、写写监控脚本什么的。后来发现工作量大的时候shell开始变慢，实现某个功能使用shell感觉力不从心，听人说python能实现shell能做的一切功能，而且开发效率高，速度快，慢慢的就认识了python,多多少少看点简单的东
每日实战：python爬虫之网页跳转-以某博为例代码CC python爬虫 python 爬虫 pandas 开发语言
一、项目背景与核心需求通过逆向分析微博热榜接口，实现实时热搜数据抓取，重点解决：话题跳转链接参数缺失问题页面数据清洗规范化处理多维度数据采集存储二、网页跳转爬虫实现原理2.1跳转链接生成逻辑原始热搜词→"雷军刚知道柯洁定了SU7Ultra"处理流程：1.添加话题标识→#雷军刚知道柯洁定了SU7Ultra#2.URL编码→%23雷军刚知道柯洁定了SU7Ultra%233.添加搜索参数→&t=31生成
基于 Python 将 PDF 转 Markdown 并拆解为 JSON，支持自定义标题处理 drebander python pdf json
在日常工作中，我们经常需要将PDF文件转换为可编辑、可结构化的数据格式，比如Markdown和JSON。但实际操作中，自动化工具往往会出现标题识别不准确的问题，尤其是PDF转换过程中，缺乏明确的标题标识。这篇文章将教你如何使用Python将PDF转换为Markdown，并通过自定义规则精准识别标题，最终将内容按标题结构拆解为JSON，方便后续快速检索与使用。1.实现目标将PDF文件转换为Markd
Python 项目自动化与 CI/CD 实践：让部署和发布像开挂一样简单全栈探索者chen python python 自动化 ci/cd 开发语言程序人生性能优化可用性测试
Python项目自动化与CI/CD实践：让部署和发布像开挂一样简单在软件开发的世界里，自动化和持续集成/持续部署（CI/CD）是超级英雄，它们不仅让我们的工作更加高效，还能避免那些令人头疼的手动操作。它们就像开发者的最佳伙伴，随时准备打击bug，拯救开发进度。那么，今天我们就来聊聊怎么在Python项目中玩转自动化和CI/CD，让你从繁琐的手动部署中解脱出来，飞速交付高质量的代码。文章目录什么是C
Python列表与元组的深度剖析 jijihusong006 程序 python windows 开发语言
Python列表与元组的深度剖析：从底层实现到应用场景的全方位对比一、核心差异概览Python教程https://pan.quark.cn/s/7cefe3163f45传送代资料库https://link3.cc/aa99特性列表(List)元组(Tuple)可变性可变(Mutable)不可变(Immutable)语法表示方括号[]圆括号()内存占用较大(动态数组结构)较小(静态数组结构)哈希支持
Python 模拟鼠标轨迹算法 a485240 鼠标轨迹计算机外设
一.鼠标轨迹模拟简介传统的鼠标轨迹模拟依赖于简单的数学模型，如直线或曲线路径。然而，这种方法难以捕捉到人类操作的复杂性和多样性。AI大模型的出现，使得能够通过深度学习技术，学习并模拟更自然的鼠标移动行为。二.鼠标轨迹算法实现AI大模型通过学习大量的人类鼠标操作数据，能够识别和模拟出自然且具有个体差异的鼠标轨迹。以下是实现这一技术的关键步骤：数据收集：收集不同玩家在各种游戏环境中的鼠标操作数据，包括
什么是Apache Avro？ maozexijr apache
什么是ApacheAvro？ApacheAvro是一个开源的数据序列化框架，主要用于高效的数据交换和存储。它由ApacheHadoop项目开发，广泛应用于大数据生态系统中（如Hadoop、Kafka等）。Avro提供了一种紧凑、快速的二进制数据格式，同时支持丰富的数据结构和模式演化。核心特性跨语言支持Avro支持多种编程语言（如Java、Python、C++、Go等），使得不同语言之间的数据交换变
计算机毕业设计之基于Hadoop的热点新闻分析系统的设计与实现微信bishe69 课程设计 python django mysql
近些年来，随着科技的飞速发展，互联网的普及逐渐延伸到各行各业中，给人们生活带来了十分的便利，热点新闻分析系统利用计算机网络实现信息化管理，使整个热点新闻分析的发展和服务水平有显著提升。本文拟采用PyCharm开发工具，django框架、Python语言、Hadoop大数据处理技术进行开发，后台使用MySQL数据库进行信息管理，设计开发的热点新闻分析系统。通过调研和分析，系统拥有管理员和用户两个模块
Python常用的库讲解（易懂版）不辉放弃 python 开发语言
NumPy：用于科学计算的基础库，提供多维数组对象、各种派生对象和对数组执行操作的工具。importnumpyasnp#创建一个numpy数组arr=np.array([1,2,3,4,5])print(arr)Pandas：数据处理库，提供数据结构和数据分析工具，特别适合处理结构化数据。importpandasaspd#创建一个Pandas数据帧df=pd.DataFrame({'A':[1,2
Python零基础通关教程（二）：列表、字典与函数详解（附生活化案例）中意可口可乐 python 开发语言 windows python列表
一、前情回顾与学习路线第一篇重点复习：✅变量与数据类型✅条件判断✅循环结构本篇新知识地图：graphLRA[基础语法]-->B[列表]A-->C[字典]B-->D[函数进阶]C-->D二、列表(List)：你的数据收纳盒1.列表是什么？现实比喻：像超市购物车，可以随时添加/取出商品代码定义：用方括号[]包裹，元素用逗号分隔#创建购物车列表cart=["苹果","牛奶","面包"]print("购物
ERROR: No matching distribution found for tf-estimator-nightly==2.8.0.dev2021122109 小九在学习 python 开发语言
ERROR:Ignoredthefollowingversionsthatrequireadifferentpythonversion:1.14.0Requires-Python>=3.10;1.14.0rc1Requires-Python>=3.10;1.14.0rc2Requires-Python>=3.10ERROR:Couldnotfindaversionthatsatisfiesther
PyArmor：一个超级厉害的 Python 库！一只蜗牛儿 python 开发语言
在Python的世界里，如何保护我们的代码不被轻易盗用或者破解，一直是开发者们关注的问题。尤其是在发布软件时，如何有效防止源代码泄漏或者被逆向工程分析，成为了一个重要课题。PyArmor作为一款强大的Python加密工具，能够帮助开发者对Python源代码进行加密保护，防止非法复制和破解。本文将全面介绍PyArmor，并通过代码示例展示如何使用它对Python脚本进行加密、打包和保护。1.PyAr
使用AI python实现将前端angularjs工程转换成vue工程案例银行金融科技前端人工智能 python
以下是一个结合Python和AI技术实现AngularJS到Vue工程迁移的完整案例，包含关键转换策略和代码实现：案例背景目标：将使用AngularJS1.x的电商后台管理系统转换为Vue3工程，主要转换以下部分：模板语法控制器逻辑服务依赖路由配置状态管理原始AngularJS代码片段：javascript//app.jsangular.module('app',['ui.router']).co
python反爬虫处理--处理验证码（Tesseract 库）的安装与使用范哥来了 python 爬虫开发语言
处理验证码是反爬虫策略中常见的挑战之一。在Python中，可以采用多种方法来解决这一问题，具体取决于验证码的类型（如文本、图像或滑块验证等）。以下是一些常用的解决方案：对于简单的文字或数字验证码：如果网站使用的是相对简单的验证码形式，您可以尝试使用OCR(OpticalCharacterRecognition,光学字符识别)技术来自动识别这些验证码。Python中有一个叫做Tesseract的库，
python爬虫 Selenium库安装与使用范哥来了 python 爬虫 selenium
Selenium是一个强大的自动化测试工具，它也可以用来进行网页抓取。与传统的请求库（如requests）不同，Selenium可以模拟真实用户的行为，比如点击按钮、填写表单等，这对于那些依赖于JavaScript动态加载内容的网站来说非常有用。安装Selenium首先确保你的环境中已经安装了Python和pip。然后通过pip安装Selenium：pipinstallselenium如果你使用的
python爬虫项目范哥来了 python 爬虫开发语言
项目名称：国家自然科学基金大数据知识管理服务门户爬取项目爬取内容：爬取内容：资助项目爬取链接：HTTP://KD.NSFC.GOV.CN/BASEQUERY/SUPPORTQUERY为了完成“国家自然科学基金大数据知识管理服务门户”的资助项目信息爬取任务，我们需要设计一个网络爬虫。考虑到目标网站的具体情况，我们将采用Python语言结合requests库来处理HTTP请求，以及使用Beautifu
python 游戏开发cocos2d库安装与使用范哥来了 python cocos2d 开发语言
Cocos2d-x是一个广泛使用的开源游戏开发框架，支持多种编程语言，包括Python。对于Python开发者来说，通常使用的是Cocos2d-py或者更现代的Cocos2d-x的Python绑定版本。这里我将指导你如何安装和开始使用Cocos2d-py。安装步骤安装Python：确保你的系统上已经安装了Python3.x版本。你可以从Python官方网站下载最新版的Python。安装pip：pi
第十天-字符串：编程世界的文本基石大橙子房 ai python java
在编程的广阔领域中，字符串是极为重要的数据类型，它就像一座桥梁，连接着人类的自然语言和计算机能够理解与处理的数字信息。下面，让我们深入探索字符串的世界。一、字符串简介字符串是由零个或多个字符组成的有序序列，它在程序中用于表示文本信息。在Python语言环境下，创建字符串简洁直观，例如：str="HelloWorld"。这里，str作为字符串变量名，就如同给一个装着文本内容的盒子贴上了标签；Hell
使用LoRA微调LLaMA3 想胖的壮壮深度学习人工智能
使用LoRA微调LLaMA3的案例案例概述在这个案例中，我们将使用LoRA微调LLaMA3模型，进行一个文本分类任务。我们将使用HuggingFace的Transformers库来完成这个过程。步骤一：环境搭建安装必要的Python包pipinstalltransformersdatasetstorch配置GPU环境确保你的环境中配置了CUDA和cuDNN，并验证GPU是否可用。importtor
C/C++Win32编程基础详解视频下载择善Zach 编程 C++Win32
课题视频：C/C++Win32编程基础详解视频知识：win32窗口的创建 windows事件机制主讲：择善Uncle老师学习交流群：386620625 验证码：625 --
Guava Cache使用笔记 bylijinnan java guava cache
1.Guava Cache的get/getIfPresent方法当参数为null时会抛空指针异常我刚开始使用时还以为Guava Cache跟HashMap一样，get(null)返回null。实际上Guava整体设计思想就是拒绝null的，很多地方都会执行com.google.common.base.Preconditions.checkNotNull的检查。 2.Guava
解决ora-01652无法通过128（在temp表空间中） 0624chenhong oracle
解决ora-01652无法通过128（在temp表空间中）扩展temp段的过程一个sql语句后，大约花了10分钟，好不容易有一个结果，但是报了一个ora-01652错误，查阅了oracle的错误代码说明：意思是指temp表空间无法自动扩展temp段。这种问题一般有两种原因：一是临时表空间空间太小，二是不能自动扩展。分析过程：既然是temp表空间有问题，那当
Struct在jsp标签不懂事的小屁孩 struct
非UI标签介绍：控制类标签： 1：程序流程控制标签 if elseif else <s:if test="isUsed"> <span class="label label-success">True</span> </
按对象属性排序换个号韩国红果果 JavaScript 对象排序
利用JavaScript进行对象排序，根据用户的年龄排序展示 <script> var bob={ name;bob, age:30 } var peter={ name;peter, age:30 } var amy={ name;amy, age:24 } var mike={ name;mike, age:29 } var john={
大数据分析让个性化的客户体验不再遥远蓝儿唯美数据分析
顾客通过多种渠道制造大量数据，企业则热衷于利用这些信息来实现更为个性化的体验。分析公司Gartner表示，高级分析会成为客户服务的关键，但是大数据分析的采用目前仅局限于不到一成的企业。挑战在于企业还在努力适应结构化数据，疲于根据自身的客户关系管理（CRM）系统部署有效的分析框架，以及集成不同的内外部信息源。然而，面对顾客通过数字技术参与而产生的快速变化的信息，企业需要及时作出反应。要想实
java笔记4 a-john java
操作符 1，使用java操作符操作符接受一个或多个参数，并生成一个新值。参数的形式与普通的方法调用不用，但是效果是相同的。加号和一元的正号（+）、减号和一元的负号（-）、乘号（*）、除号（/）以及赋值号（=）的用法与其他编程语言类似。操作符作用于操作数，生成一个新值。另外，有些操作符可能会改变操作数自身的
从裸机编程到嵌入式Linux编程思想的转变------分而治之：驱动和应用程序 aijuans 嵌入式学习
笔者学习嵌入式Linux也有一段时间了，很奇怪的是很多书讲驱动编程方面的知识，也有很多书将ARM9方面的知识，但是从以前51形式的（对寄存器直接操作，初始化芯片的功能模块）编程方法，和思维模式，变换为基于Linux操作系统编程，讲这个思想转变的书几乎没有，让初学者走了很多弯路，撞了很多难墙。笔者因此写上自己的学习心得，希望能给和我一样转变
在springmvc中解决FastJson循环引用的问题 asialee 循环引用 fastjson
我们先来看一个例子： package com.elong.bms; import java.io.OutputStream; import java.util.HashMap; import java.util.Map; import co
ArrayAdapter和SimpleAdapter技术总结百合不是茶 android SimpleAdapter ArrayAdapter 高级组件基础
ArrayAdapter比较简单，但它只能用于显示文字。而SimpleAdapter则有很强的扩展性，可以自定义出各种效果 ArrayAdapter;的数据可以是数组或者是队列 // 获得下拉框对象 AutoCompleteTextView textview = (AutoCompleteTextView) this
九封信 bijian1013 人生励志
有时候，莫名的心情不好，不想和任何人说话，只想一个人静静的发呆。有时候，想一个人躲起来脆弱，不愿别人看到自己的伤口。有时候，走过熟悉的街角，看到熟悉的背影，突然想起一个人的脸。有时候，发现自己一夜之间就长大了。 2014，写给人
Linux下安装MySQL Web 管理工具phpMyAdmin sunjing PHP Install phpMyAdmin
PHP http://php.net/ phpMyAdmin http://www.phpmyadmin.net Error compiling PHP on CentOS x64 一、安装Apache 请参阅http://billben.iteye.com/admin/blogs/1985244 二、安装依赖包 sudo yum install gd
分布式系统理论 bit1129 分布式
FLP One famous theory in distributed computing, known as FLP after the authors Fischer, Lynch, and Patterson, proved that in a distributed system with asynchronous communication and process crashes,
ssh2整合(spring+struts2+hibernate)-附源码白糖_ eclipse spring Hibernate mysql 项目管理
最近抽空又整理了一套ssh2框架，主要使用的技术如下： spring做容器，管理了三层(dao,service,actioin)的对象 struts2实现与页面交互(MVC)，自己做了一个异常拦截器，能拦截Action层抛出的异常 hibernate与数据库交互 BoneCp数据库连接池，据说比其它数据库连接池快20倍，仅仅是据说 MySql数据库项目用eclipse
treetable bug记录 braveCS table
// 插入子节点删除再插入时不能正常显示。修改： //不知改后有没有错，先做个备忘 Tree.prototype.removeNode = function(node) { // Recursively remove all descendants of +node+ this.unloadBranch(node); // Remove
编程之美-电话号码对应英语单词 bylijinnan java 算法编程之美
import java.util.Arrays; public class NumberToWord { /** * 编程之美电话号码对应英语单词 * 题目： * 手机上的拨号盘，每个数字都对应一些字母，比如2对应ABC，3对应DEF.........，8对应TUV，9对应WXYZ， * 要求对一段数字，输出其代表的所有可能的字母组合
jquery ajax读书笔记 chengxuyuancsdn jQuery ajax
1、jsp页面 <%@ page language="java" import="java.util.*" pageEncoding="GBK"%> <% String path = request.getContextPath(); String basePath = request.getScheme()
JWFD工作流拓扑结构解析伪码描述算法 comsci 数据结构算法工作活动 J#
对工作流拓扑结构解析感兴趣的朋友可以下载附件，或者下载JWFD的全部代码进行分析 /* 流程图拓扑结构解析伪码描述算法 public java.util.ArrayList DFS(String graphid, String stepid, int j)
oracle I/O 从属进程 daizj oracle
I/O 从属进程　　I/O从属进程用于为不支持异步I/O的系统或设备模拟异步I/O.例如，磁带设备(相当慢)就不支持异步I/O.通过使用I/O 从属进程，可以让磁带机模仿通常只为磁盘驱动器提供的功能。就好像支持真正的异步I/O 一样，写设备的进程(调用者)会收集大量数据，并交由写入器写出。数据成功地写出时，写入器(此时写入器是I/O 从属进程，而不是操作系统)会通知原来的调用者，调用者则会
高级排序:希尔排序 dieslrae 希尔排序
public void shellSort(int[] array){ int limit = 1; int temp; int index; while(limit <= array.length/3){ limit = limit * 3 + 1;
初二下学期难记忆单词 dcj3sjt126com english word
kitchen 厨房 cupboard 厨柜 salt 盐 sugar 糖 oil 油 fork 叉；餐叉 spoon 匙；调羹 chopsticks 筷子 cabbage 卷心菜；洋白菜 soup 汤 Italian 意大利的 Indian 印度的 workplace 工作场所 even 甚至；更 Italy 意大利 laugh 笑 m
Go语言使用MySQL数据库进行增删改查 dcj3sjt126com mysql
目前Internet上流行的网站构架方式是LAMP，其中的M即MySQL, 作为数据库，MySQL以免费、开源、使用方便为优势成为了很多Web开发的后端数据库存储引擎。MySQL驱动Go中支持MySQL的驱动目前比较多，有如下几种，有些是支持database/sql标准，而有些是采用了自己的实现接口,常用的有如下几种: http://code.google.c...o-mysql-dri
git命令 shuizhaosi888 git
---------------设置全局用户名： git config --global user.name "HanShuliang" //设置用户名 git config --global user.email "[email protected]" //设置邮箱 ---------------查看环境配置 git config --li
qemu-kvm 网络 nat模式 (四) haoningabc kvm qemu
qemu-ifup-NAT #!/bin/bash BRIDGE=virbr0 NETWORK=192.168.122.0 GATEWAY=192.168.122.1 NETMASK=255.255.255.0 DHCPRANGE=192.168.122.2,192.168.122.254 TFTPROOT= BOOTP= function check_bridge()
不要让未来的你，讨厌现在的自己 jingjing0907 生活奋斗工作梦想
故事one 　23岁，他大学毕业，放弃了父母安排的稳定工作，独闯京城，在家小公司混个小职位，工作还算顺手，月薪三千，混了混，混走了一年的光阴。　　　　24岁，有了女朋友，从二环12人的集体宿舍搬到香山民居，一间平房，二人世界，爱爱爱。偶然约三朋四友，打扑克搓麻将，日子快乐似神仙；　　　　25岁，出了几次差，调了两次岗，薪水涨了不过百，生猛狂飙的物价让现实血淋淋，无力为心爱银儿购件大牌
枚举类型详解一路欢笑一路走 enum 枚举详解 enumset enumMap
枚举类型详解一.Enum详解 1.1枚举类型的介绍 JDK1.5加入了一个全新的类型的”类”—枚举类型，为此JDK1.5引入了一个新的关键字enum,我们可以这样定义一个枚举类型。 Demo:一个最简单的枚举类 public enum ColorType { RED
第11章动画效果（上） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
Eclipse中jsp、js文件编辑时，卡死现象解决汇总 ljf_home eclipse jsp卡死 js卡死
使用Eclipse编辑jsp、js文件时，经常出现卡死现象，在网上百度了N次，经过N次优化调整后，卡死现象逐步好转，具体那个方法起到作用，不太好讲。将所有用过的方法罗列如下： 1、取消验证 windows–>perferences–>validation 把除了manual 下面的全部点掉，build下只留 classpath dependency Valida
MySQL编程中的6个重要的实用技巧 tomcat_oracle mysql
每一行命令都是用分号(;)作为结束对于MySQL，第一件你必须牢记的是它的每一行命令都是用分号(;)作为结束的，但当一行MySQL被插入在PHP代码中时，最好把后面的分号省略掉，例如： mysql_query("INSERT INTO tablename(first_name,last_name)VALUES('$first_name',$last_name')");
zoj 3820 Building Fire Stations(二分+bfs) 阿尔萨斯 Build
题目链接：zoj 3820 Building Fire Stations 题目大意：给定一棵树，选取两个建立加油站，问说所有点距离加油站距离的最大值的最小值是多少，并且任意输出一种建立加油站的方式。解题思路：二分距离判断，判断函数的复杂度是o(n)，这样的复杂度应该是o(nlogn)，即使常数系数偏大，但是居然跑了4.5s，也是醉了。判断函数里面做了3次bfs，但是每次bfs节点最多