aijie6150

python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨

python系列均基于python3.4环境

---------@_@? --------------------------------------------------------------------

提出问题：如何简单抓取一个网页的源码
解决方法：利用urllib库，抓取一个网页的源代码

------------------------------------------------------------------------------------

代码示例

#python3.4
import urllib.request

response = urllib.request.urlopen("http://zzk.cnblogs.com/b")
print(response.read())

运行结果

b'\nDOCTYPE html>\n<html>\n<head>\n    <meta charset="utf-8"/>\n    <title>\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8b - \xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xadtitle>    \n    <link rel="shortcut icon" href="/Content/Images/favicon.ico" type="image/x-icon"/>\n    <meta content="\xe6\x8a\x80\xe6\x9c\xaf\xe6\x90\x9c\xe7\xb4\xa2,IT\xe6\x90\x9c\xe7\xb4\xa2,\xe7\xa8\x8b\xe5\xba\x8f\xe6\x90\x9c\xe7\xb4\xa2,\xe4\xbb\xa3\xe7\xa0\x81\xe6\x90\x9c\xe7\xb4\xa2,\xe7\xa8\x8b\xe5\xba\x8f\xe5\x91\x98\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e" name="keywords" />\n    <meta content="\xe9\x9d\xa2\xe5\x90\x91\xe7\xa8\x8b\xe5\xba\x8f\xe5\x91\x98\xe7\x9a\x84\xe4\xb8\x93\xe4\xb8\x9a\xe6\x90\x9c\xe7\xb4\xa2\xe5\xbc\x95\xe6\x93\x8e\xe3\x80\x82\xe9\x81\x87\xe5\x88\xb0\xe6\x8a\x80\xe6\x9c\xaf\xe9\x97\xae\xe9\xa2\x98\xe6\x80\x8e\xe4\xb9\x88\xe5\x8a\x9e\xef\xbc\x8c\xe5\x88\xb0\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8b..." name="description" />\n    <link type="text/css" href="/Content/Style.css" rel="stylesheet" />\n    <script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript">script>\n    <script src="/Scripts/Common.js" type="text/javascript">script>\n    <script src="/Scripts/Home.js" type="text/javascript">script>\nhead>\n<body>\n    <div class="top">\n        \n        <div class="top_tabs">\n            <a href="http://www.cnblogs.com">\xc2\xab \xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xad\xe9\xa6\x96\xe9\xa1\xb5 a>\n        div>\n        <div id="span_userinfo" class="top_links">\n        div>\n    div>\n    <div style="clear: both">\n    div>\n    <center>\n        <div id="main">\n            <div class="logo_index">\n                <a href="http://zzk.cnblogs.com">\n                    <img alt="\xe6\x89\xbe\xe6\x89\xbe\xe7\x9c\x8blogo" src="/images/logo.gif" />a>\n            div>\n            <div class="index_sozone">\n                <div class="index_tab">\n                    <a href="/n" onclick="return  channelSwitch('n');">\xe6\x96\xb0\xe9\x97\xbba>\n<a class="tab_selected" href="/b" onclick="return  channelSwitch('b');">\xe5\x8d\x9a\xe5\xae\xa2a>                    <a href="/k" onclick="return  channelSwitch('k');">\xe7\x9f\xa5\xe8\xaf\x86\xe5\xba\x93a>\n                    <a href="/q" onclick="return  channelSwitch('q');">\xe5\x8d\x9a\xe9\x97\xaea>\n                div>\n                <div class="search_block">\n                    <div class="index_btn">\n                        <input type="button" class="btn_so_index" onclick="Search();" value=" \xe6\x89\xbe\xe4\xb8\x80\xe4\xb8\x8b " />\n                        <span class="help_link"><a target="_blank" href="/help">\xe5\xb8\xae\xe5\x8a\xa9a>span>\n                    div>\n                    <input type="text" onkeydown="searchEnter(event);" class="input_index" name="w" id="w" />\n                div>\n            div>\n        div>\n        <div class="footer">\n            ©2004-2016 <a href="http://www.cnblogs.com">\xe5\x8d\x9a\xe5\xae\xa2\xe5\x9b\xada>\n        div>\n    center>\nbody>\nhtml>\n'

附上python2.7的实现代码：

#python2.7
import urllib2
 
response = urllib2.urlopen("http://zzk.cnblogs.com/b")
print response.read()

可见，python3.4和python2.7的代码存在差异性。

----------@_@？问题出现！----------------------------------------------------------------------

发现问题：查看上面的运行结果，会发现中文并没有正常显示。
解决问题：处理中文编码问题

--------------------------------------------------------------------------------------------------

处理源码中的中文问题！！！

修改代码，如下：

#python3.4
import urllib.request

response = urllib.request.urlopen("http://zzk.cnblogs.com/b")
print(response.read().decode('UTF-8'))

运行，结果显示：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py

DOCTYPE html>
<html>
<head>
    <meta charset="utf-8"/>
    <title>找找看 - 博客园title>    
    <link rel="shortcut icon" href="/Content/Images/favicon.ico" type="image/x-icon"/>
    <meta content="技术搜索,IT搜索,程序搜索,代码搜索,程序员搜索引擎" name="keywords" />
    <meta content="面向程序员的专业搜索引擎。遇到技术问题怎么办，到博客园找找看..." name="description" />
    <link type="text/css" href="/Content/Style.css" rel="stylesheet" />
    <script src="http://common.cnblogs.com/script/jquery.js" type="text/javascript">script>
    <script src="/Scripts/Common.js" type="text/javascript">script>
    <script src="/Scripts/Home.js" type="text/javascript">script>
head>
<body>
    <div class="top">
        
        <div class="top_tabs">
            <a href="http://www.cnblogs.com">« 博客园首页 a>
        div>
        <div id="span_userinfo" class="top_links">
        div>
    div>
    <div style="clear: both">
    div>
    <center>
        <div id="main">
            <div class="logo_index">
                <a href="http://zzk.cnblogs.com">
                    <img alt="找找看logo" src="/images/logo.gif" />a>
            div>
            <div class="index_sozone">
                <div class="index_tab">
                    <a href="/n" onclick="return  channelSwitch('n');">新闻a>
<a class="tab_selected" href="/b" onclick="return  channelSwitch('b');">博客a>                    <a href="/k" onclick="return  channelSwitch('k');">知识库a>
                    <a href="/q" onclick="return  channelSwitch('q');">博问a>
                div>
                <div class="search_block">
                    <div class="index_btn">
                        <input type="button" class="btn_so_index" onclick="Search();" value=" 找一下 " />
                        <span class="help_link"><a target="_blank" href="/help">帮助a>span>
                    div>
                    <input type="text" onkeydown="searchEnter(event);" class="input_index" name="w" id="w" />
                div>
            div>
        div>
        <div class="footer">
            ©2004-2016 <a href="http://www.cnblogs.com">博客园a>
        div>
    center>
body>
html>


Process finished with exit code 0

结果显示：处理完编码后，网页源码中中文可以正常显示了

-----------@_@! 探讨一个新的中文编码问题 ----------------------------------------------------------

　　　问题：“如果url中出现中文，那么应该如果解决呢？”

　　　例如：url = "http://zzk.cnblogs.com/s?w=python爬虫&t=b"

-----------------------------------------------------------------------------------------------------

接下来，我们来解决url中出现中文的问题！！！

（1）测试1：保留原来的格式，直接访问，不做任何处理

代码示例：

#python3.4
import urllib.request

url="http://zzk.cnblogs.com/s?w=python爬虫&t=b"
resp = urllib.request.urlopen(url)
print(resp.read().decode('UTF-8'))

运行结果：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py
Traceback (most recent call last):
  File "E:/pythone_workspace/mydemo/spider/demo.py", line 9, in 
    response = urllib.request.urlopen(url)
  File "C:\Python34\lib\urllib\request.py", line 161, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Python34\lib\urllib\request.py", line 463, in open
    response = self._open(req, data)
  File "C:\Python34\lib\urllib\request.py", line 481, in _open
    '_open', req)
  File "C:\Python34\lib\urllib\request.py", line 441, in _call_chain
    result = func(*args)
  File "C:\Python34\lib\urllib\request.py", line 1210, in http_open
    return self.do_open(http.client.HTTPConnection, req)
  File "C:\Python34\lib\urllib\request.py", line 1182, in do_open
    h.request(req.get_method(), req.selector, req.data, headers)
  File "C:\Python34\lib\http\client.py", line 1088, in request
    self._send_request(method, url, body, headers)
  File "C:\Python34\lib\http\client.py", line 1116, in _send_request
    self.putrequest(method, url, **skips)
  File "C:\Python34\lib\http\client.py", line 973, in putrequest
    self._output(request.encode('ascii'))
UnicodeEncodeError: 'ascii' codec can't encode characters in position 15-16: ordinal not in range(128)

Process finished with exit code 1

　　果然不行！！！

（2）测试2：中文单独处理

代码示例：

import urllib.request
import urllib.parse

url = "http://zzk.cnblogs.com/s?w=python"+ urllib.parse.quote("爬虫")+"&t=b"
resp = urllib.request.urlopen(url)
print(resp.read().decode('utf-8'))

运行结果：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py


<head>
    "utf-8" />
    python爬虫-博客园找找看
    "shortcut icon" href="/Content/Images/favicon.ico" type="image/x-icon"/>
    "/Content/so.css?id=20140908" rel="stylesheet" type="text/css" />
    "/Content/jquery-ui-1.8.21.custom.css" rel="stylesheet" type="text/css" />
    
    
    
    
    
head>

    "top_bar">
        "top_tabs">
            "http://www.cnblogs.com">« 博客园首页 
        
        id="span_userinfo">
        
    
    id="header">
        
id="headerMain">
    id="logo" href="/">
    id="searchBox">
        id="searchRangeList">
            
                "/s?t=n" οnclick="return  channelSwitch('n');">新闻
                    "tab_selected" href="/s?t=b" οnclick="return  channelSwitch('b');">博客
                
                "/s?t=k" οnclick="return  channelSwitch('k');">知识库
                "/s?t=q" οnclick="return  channelSwitch('q');">博问
            
        
        
        "seachInput">
            "text" οnchange="ShowtFilter(this, false);" οnkeypress="return searchEnter(event);"
                   value="python爬虫" name="w" id="w" maxlength="2048" title="博客园 找找看" class="txtSeach" />
            "button" value="找一下" class="btnSearch" οnclick="Search();" />  &nbsp;
            "help_link">"_blank" href="/help">帮助
            

        
        
    
    
    


        
        "clear: both">
        
        
        id="searchInfo">
            "float: left; margin-left: 15px;">博客园找找看，找到相关内容id="CountOfResults">1491篇，用时132毫秒
        
        
    
    
    id="main">
        id="searchResult">
            "clear: both">
            
            "forflow">
                
"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hearzeus/p/5238867.html">Python 爬虫入门——小项目实战（自动私信博客园某篇博客下的评论人，随机发送一条笑话，完整代码在博文最后）
  
  
  "searchCon">
    python, 爬虫,　　之前写的都是针对爬虫过程中遇到问题...55561 　　python代码如下： def getCo...通过关键特征告诉爬虫，已经遍历结束了。我用的特征代码如下： ...定时器 　　　　python定时器，代码示例： impor
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hearzeus/" target="_blank">不剃头的一休哥
    "searchItemInfo-publishDate">2016-03-03
        "searchItemInfo-good">推荐(12)
            "searchItemInfo-comments">评论(55)
            "searchItemInfo-views">浏览(1582)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hearzeus/p/5238867.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hearzeus/p/5151449.html">Python 爬虫入门（一）
  
  
  "searchCon">
    python, 爬虫,　　毕设是做爬虫相关的，本来想的是用j...太满意。之前听说Python这方面比较强，就想用Python...至此，一个简单的爬虫就完成了。之后是针对反爬虫的一些策略，比...a写，也写了几个爬虫，其中一个是爬网易云音乐的用户信息，爬了
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hearzeus/" target="_blank">不剃头的一休哥
    "searchItemInfo-publishDate">2016-01-22
        "searchItemInfo-good">推荐(1)
            "searchItemInfo-comments">评论(13)
            "searchItemInfo-views">浏览(1493)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hearzeus/p/5151449.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/xueweihan/p/4592212.html">[Python]新手写爬虫全过程（已完成）
  
  
  "searchCon">
    hool.cc/python/python-files-io...python, 爬虫,今天早上起来，第一件事情就是理一理今天...任务，写一个只用python字符串内建函数的爬虫，定义为v1...实主要的不是学习爬虫，而是依照这个需求锻炼下自己的编程能力，
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/xueweihan/" target="_blank">削微寒
    "searchItemInfo-publishDate">2015-06-21
        "searchItemInfo-good">推荐(13)
            "searchItemInfo-comments">评论(11)
            "searchItemInfo-views">浏览(2405)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/xueweihan/p/4592212.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hearzeus/p/5157016.html">Python 爬虫入门（二）—— IP代理使用
  
  
  "searchCon">
    的代理。 　　在爬虫中，有些网站可能为了防止爬虫或者DDOS...python, 爬虫,　　上一节，大概讲述了Python 爬...所以，我们可以用爬虫爬那么IP。用上一节的代码，完全可以做到...(;;)这样的。python中的for循环，in 表示X的取
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hearzeus/" target="_blank">不剃头的一休哥
    "searchItemInfo-publishDate">2016-01-25
        "searchItemInfo-good">推荐(3)
            "searchItemInfo-comments">评论(21)
            "searchItemInfo-views">浏览(1893)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hearzeus/p/5157016.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/ruthon/p/4638262.html">《零基础写Python爬虫》系列技术文章整理收藏
  
  
  "searchCon">
    Python,《零基础写Python爬虫》系列技术文章整理收... 1零基础写python爬虫之爬虫的定义及URL构成ht...ml 8零基础写python爬虫之爬虫编写全记录http:/...ml 9零基础写python爬虫之爬虫框架Scrapy安装配
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/ruthon/" target="_blank">豆芽ruthon
    "searchItemInfo-publishDate">2015-07-11
          
  "searchItemInfo">
    "searchURL">www.cnblogs.com/ruthon/p/4638262.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/wenjianmuran/p/5049966.html">Python爬虫入门案例：获取百词斩已学单词列表
  
  
  "searchCon">
    记不住。我们来用Python来爬取这些信息，同时学习Python爬虫基础。 首先...Python, 案例, 百词斩是一款很不错的单词记忆APP，在学习过程中，它会记录你所学的每...n） 如果要在Python中解析json，我们需要json库。我们打印下前两页
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/wenjianmuran/" target="_blank">文剑木然
    "searchItemInfo-publishDate">2015-12-16
        "searchItemInfo-good">推荐(12)
            "searchItemInfo-comments">评论(4)
            "searchItemInfo-views">浏览(1235)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/wenjianmuran/p/5049966.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/cs-player1/p/5169307.html">python爬虫之初体验
  
  
  "searchCon">
    python, 爬虫,上网简单看了几篇博客自己试了试简单的爬虫哎呦喂很有感觉蛮好玩的 之前写博客 有点感觉是在写教程啊什么的写的很别扭 各种复制粘贴写得很不舒服 以后还是怎么舒服怎么写把每天的练习所得写上来就好了本来就是个菜鸟不断学习 不断debug就好 直接
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/cs-player1/" target="_blank">cs-player1
    "searchItemInfo-publishDate">2016-01-29
        "searchItemInfo-good">推荐(1)
            "searchItemInfo-comments">评论(14)
            "searchItemInfo-views">浏览(798)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/cs-player1/p/5169307.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hearzeus/p/5226546.html">Python 爬虫入门（四）—— 验证码下篇（破解简单的验证码）
  
  
  "searchCon">
    python, 爬虫,　　年前写了验证码上篇，本来很早前就想写下篇来着，只是过年比较忙，还有就是验证码破解比较繁杂，方法不同，正确率也会有差...码（这里我用的是python的"PIL"图像处理库） 　　　a.)转为灰度图 　　　　PIL 在这方面也提供了极完备的支
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hearzeus/" target="_blank">不剃头的一休哥
    "searchItemInfo-publishDate">2016-02-29
        "searchItemInfo-good">推荐(7)
            "searchItemInfo-comments">评论(17)
            "searchItemInfo-views">浏览(888)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hearzeus/p/5226546.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/xin-xin/p/4297852.html">《Python爬虫学习系列教程》学习笔记
  
  
  "searchCon">
    家的交流。 一、Python入门 1. Python爬虫入门...一之综述 2. Python爬虫入门二之爬虫基础了解 3. ... Python爬虫入门七之正则表达式 二、Python实战 ...on进阶 1. Python爬虫进阶一之爬虫框架Scrapy
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/xin-xin/" target="_blank">心_心
    "searchItemInfo-publishDate">2015-02-23
        "searchItemInfo-good">推荐(3)
            "searchItemInfo-comments">评论(2)
            "searchItemInfo-views">浏览(34430)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/xin-xin/p/4297852.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/nishuihan/p/4754622.html">PHP, Python, Node.js 哪个比较适合写爬虫？
  
  
  "searchCon">
    子，做一个简单的爬虫容易，但要做一个完备的爬虫挺难的。像我搭...path的类库/爬虫库后，就会发现此种方式虽然入门门槛低，但...荐采用一些现成的爬虫库，诸如xpath、多线程支持还是必须考...以考虑。3、如果爬虫是涉及大规模网站爬取，效率、扩展性、可维
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/nishuihan/" target="_blank">技术宅小牛牛
    "searchItemInfo-publishDate">2015-08-24
          
  "searchItemInfo">
    "searchURL">www.cnblogs.com/nishuihan/p/4754622.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/nishuihan/p/4815930.html">PHP, Python, Node.js 哪个比较适合写爬虫？
  
  
  "searchCon">
    子，做一个简单的爬虫容易，但要做一个完备的爬虫挺难的。像我搭...主要看你定义的“爬虫”干什么用。1、如果是定向爬取几个页面，...path的类库/爬虫库后，就会发现此种方式虽然入门门槛低，但...荐采用一些现成的爬虫库，诸如xpath、多线程支持还是必须考
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/nishuihan/" target="_blank">技术宅小牛牛
    "searchItemInfo-publishDate">2015-09-17
          
  "searchItemInfo">
    "searchURL">www.cnblogs.com/nishuihan/p/4815930.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/rwxwsblog/p/4557123.html">安装python爬虫scrapy踩过的那些坑和编程外的思考
  
  
  "searchCon">
    了一下开源的爬虫资料，看了许多对于开源爬虫的比较发现开源爬虫...没办法，只能升级python的版本了。 1、升级python...s://www.python.org/ftp/python/...n 检查python版本 python --ve
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/rwxwsblog/" target="_blank">秋楓
    "searchItemInfo-publishDate">2015-06-06
        "searchItemInfo-good">推荐(2)
            "searchItemInfo-comments">评论(1)
            "searchItemInfo-views">浏览(4607)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/rwxwsblog/p/4557123.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/maybe2030/p/4555382.html">[Python] 网络爬虫和正则表达式学习总结
  
  
  "searchCon">
    有的网站为了防止爬虫，可能会拒绝爬虫的请求，这就需要我们来修...，正则表达式不是Python的语法，并不属于Python，其...\d" 2.2 Python的re模块 　　Python通过... 实例描述 python 匹配 "python". 
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/maybe2030/" target="_blank">poll的笔记
    "searchItemInfo-publishDate">2015-06-05
        "searchItemInfo-good">推荐(2)
            "searchItemInfo-comments">评论(5)
            "searchItemInfo-views">浏览(1089)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/maybe2030/p/4555382.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/mr-zys/p/5059451.html">一个简单的多线程Python爬虫（一）
  
  
  "searchCon">
    一个简单的多线程Python爬虫 最近想要抓取[拉勾网](h...自己写一个简单的Python爬虫的想法。 本文中的部分链接...0525185/python-threading-how-d...0525185/python-threading-how-do-i-lock-a-thread) ## 一个爬虫
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/mr-zys/" target="_blank">mr_zys
    "searchItemInfo-publishDate">2015-12-19
        "searchItemInfo-good">推荐(3)
            "searchItemInfo-comments">评论(4)
            "searchItemInfo-views">浏览(696)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/mr-zys/p/5059451.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/jixin/p/5145813.html">自学Python十一 Python爬虫总结
  
  
  "searchCon">
    Demo 　　爬虫就靠一段落吧，更深入的爬虫框架以及htm...学习与尝试逐渐对python爬虫有了一些小小的心得，我们渐渐...尝试着去总结一下爬虫的共性，试着去写个helper类以避免重...。 　　参考:用python爬虫抓站的一些技巧总结 zz 　
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/jixin/" target="_blank">我的代码会飞
    "searchItemInfo-publishDate">2016-01-20
        "searchItemInfo-good">推荐(3)
            "searchItemInfo-comments">评论(1)
            "searchItemInfo-views">浏览(696)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/jixin/p/5145813.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hearzeus/p/5162691.html">Python 爬虫入门（三）—— 寻找合适的爬取策略
  
  
  "searchCon">
    python, 爬虫,　　写爬虫之前，首先要明确爬取的数据。...怎么寻找一个好的爬虫策略。（代码仅供学习交流，切勿用作商业或...（这个也是我们用爬虫发请求的结果），如图所示 　　 　　很庆...).顺便说一句，python有json解析模块，可以用。 　　下面附上蝉游记的爬虫
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hearzeus/" target="_blank">不剃头的一休哥
    "searchItemInfo-publishDate">2016-01-27
        "searchItemInfo-good">推荐(5)
            "searchItemInfo-comments">评论(3)
            "searchItemInfo-views">浏览(799)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hearzeus/p/5162691.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/ybjourney/p/5304501.html">python简单爬虫
  
  
  "searchCon">
    　　爬虫真是一件有意思的事儿啊，之前写过爬虫，用的是urll...Soup实现简单爬虫，scrapy也有实现过。最近想更好的学...习爬虫，那么就尽可能的做记录吧。这篇博客就我今天的一个学习过...的语法规则，我在爬虫中常用的有： . 匹配任意字符（换
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/ybjourney/" target="_blank">oyabea
    "searchItemInfo-publishDate">2016-03-22
        "searchItemInfo-good">推荐(4)
            "searchItemInfo-comments">评论(1)
            "searchItemInfo-views">浏览(477)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/ybjourney/p/5304501.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/hippieZhou/p/4967075.html">Python带你轻松进行网页爬虫
  
  
  "searchCon">
    ，所以就打算自学Python。在还没有学它的时候就听说用它来进行网页爬虫...3.0这次的网络爬虫需求背景我打算延续DotNet开源大本营...例。2.实战网页爬虫：2.1.获取城市列表：首先，我们需要获...行速度，那么可能Python还是挺适合的，毕竟可以通过它写更
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/hippiezhou/" target="_blank">hippiezhou
    "searchItemInfo-publishDate">2015-11-22
        "searchItemInfo-good">推荐(2)
            "searchItemInfo-comments">评论(2)
            "searchItemInfo-views">浏览(1563)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/hippieZhou/p/4967075.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/mfryf/p/3695844.html">开发记录_自学Python写爬虫程序爬取csdn个人博客信息
  
  
  "searchCon">
    .3_开工 据说Python并不难，看过了python的代码...lecd这 个半爬虫半网站的项目， 累积不少爬虫抓站的经验，... 某些网站反感爬虫的到访，于是对爬虫一律拒绝请求 ...模仿了一个自己的Python爬虫。 [python]
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/mfryf/" target="_blank">知识天地
    "searchItemInfo-publishDate">2014-04-28
        "searchItemInfo-good">推荐(1)
            "searchItemInfo-comments">评论(1)
            "searchItemInfo-views">浏览(4481)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/mfryf/p/3695844.html
  
  

"searchItem">
  "searchItemTitle">
    "_blank" href="http://www.cnblogs.com/coltfoal/archive/2012/10/06/2713348.html">Python天气预报采集器（网页爬虫）
  
  
  "searchCon">
    的。 　　补充上爬虫结果的截图： 　　 　　python的使...编程, Python,　　python是一门很强大的语言，在...以就算了。 　　爬虫简单说来包括两个步骤：获得网页文本、过滤...ml文本。 　　python在获取html方面十分方便，寥寥
  
  
  "searchItemInfo">
    "searchItemInfo-userName">
      "http://www.cnblogs.com/coltfoal/" target="_blank">coltfoal
    "searchItemInfo-publishDate">2012-10-06
        "searchItemInfo-good">推荐(5)
            "searchItemInfo-comments">评论(16)
            "searchItemInfo-views">浏览(5412)
  
  "searchItemInfo">
    "searchURL">www.cnblogs.com/coltfoal/archive/2012/10/06/2713348.html
  
  

id="paging_block">"pager">"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=1" class="p_1 current" οnclick="Return true;;buildPaging(1);return false;">1"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=2" class="p_2" οnclick="Return true;;buildPaging(2);return false;">2"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=3" class="p_3" οnclick="Return true;;buildPaging(3);return false;">3"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=4" class="p_4" οnclick="Return true;;buildPaging(4);return false;">4"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=5" class="p_5" οnclick="Return true;;buildPaging(5);return false;">5"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=6" class="p_6" οnclick="Return true;;buildPaging(6);return false;">6"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=7" class="p_7" οnclick="Return true;;buildPaging(7);return false;">7"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=8" class="p_8" οnclick="Return true;;buildPaging(8);return false;">8"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=9" class="p_9" οnclick="Return true;;buildPaging(9);return false;">9"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=10" class="p_10" οnclick="Return true;;buildPaging(10);return false;">10"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=11" class="p_11" οnclick="Return true;;buildPaging(11);return false;">11"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=12" class="p_12" οnclick="Return true;;buildPaging(12);return false;">12"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=13" class="p_13" οnclick="Return true;;buildPaging(13);return false;">13"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=14" class="p_14" οnclick="Return true;;buildPaging(14);return false;">14"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=15" class="p_15" οnclick="Return true;;buildPaging(15);return false;">15"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=16" class="p_16" οnclick="Return true;;buildPaging(16);return false;">16"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=17" class="p_17" οnclick="Return true;;buildPaging(17);return false;">17"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=18" class="p_18" οnclick="Return true;;buildPaging(18);return false;">18"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=19" class="p_19" οnclick="Return true;;buildPaging(19);return false;">19"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=20" class="p_20" οnclick="Return true;;buildPaging(20);return false;">20"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=21" class="p_21" οnclick="Return true;;buildPaging(21);return false;">21"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=22" class="p_22" οnclick="Return true;;buildPaging(22);return false;">22"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=23" class="p_23" οnclick="Return true;;buildPaging(23);return false;">23···"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=75" class="p_75" οnclick="Return true;;buildPaging(75);return false;">75"/s?w=python%e7%88%ac%e8%99%ab&t=b&p=2" οnclick="Return true;;buildPaging(2);return false;">Next >



            
        
        "forflow" id="sidebar">
            "s_google">
                用 "javascript:void(0);" title="Google站内搜索" οnclick="return google_search()">Google 找一下

            
            
            "clear: both;">
            
            
            "clear: both;">
            
            "sideRightWidget">
    按浏览数筛选


    id="viewsRange">
        "ui-selected"
>"javascript:void(0);" οnclick="Views(0);redirect();">全部
        "javascript:void(0);" οnclick="Views(200);redirect();">200以上
        "javascript:void(0);" οnclick="Views(500);redirect();">500以上
        "javascript:void(0);" οnclick="Views(1000);redirect();">1000以上
    


            "clear: both;">
            
            
            "sideRightWidget">
    按时间筛选

    id="dateRange">
        "ui-selected"
>"javascript:void(0);" οnclick="clearDate();dateRange(null);redirect();">全部
        "javascript:void(0);" οnclick="dateRange('One-Week');redirect();">
                  一周内
        "javascript:void(0);" οnclick="dateRange('One-Month');redirect();">
                  一月内
        "javascript:void(0);" οnclick="dateRange('Three-Month');redirect();">
                  三月内
        "javascript:void(0);" οnclick="dateRange('One-Year');redirect();">
                  一年内
    
    id="datepicker">
        自定义:  "text" id="dateMin" 
        class="datepicker"/>-"text" id="dateMax" class="datepicker"
        />
    


            "clear: both;">
            
            "sideRightWidget">
                » 去“"博问是博客园提供的问答系统" href="http://q.cnblogs.com/">博问”问一下？
                    

                » 搜索“"http://job.cnblogs.com/search/">招聘职位”
                    

                » 我有"http://space.cnblogs.com/forum/public">反馈或建议
            
            id="siderigt_ad">
                
                
                
                id='div-gpt-ad-1410172170550-0' style='width:300px; height:250px;'>
                    
                
            
        
    
    "clear: both;">
    
    
id="footer">
    © 2004-2016 "开发者的网上家园" href="http://www.cnblogs.com">博客园



    




Process finished with exit code 0

运行结果

结果显示：对url中的中文进行单独处理，url对应内容可以正常抓取了

------@_@! 又有一个新的问题-----------------------------------------------------------

问题：如果把url的中英文一起进行处理呢？还能成功抓取吗？

----------------------------------------------------------------------------------------

（3）于是，测试3出现了！测试3：url中，中英文一起进行处理

代码示例：

#python3.4
import urllib.request
import urllib.parse

url = urllib.parse.quote("http://zzk.cnblogs.com/s?w=python爬虫&t=b")
resp = urllib.request.urlopen(url)
print(resp.read().decode('utf-8'))

运行结果：

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py
Traceback (most recent call last):
  File "E:/pythone_workspace/mydemo/spider/demo.py", line 21, in 
    resp = urllib.request.urlopen(url)
  File "C:\Python34\lib\urllib\request.py", line 161, in urlopen
    return opener.open(url, data, timeout)
  File "C:\Python34\lib\urllib\request.py", line 448, in open
    req = Request(fullurl, data)
  File "C:\Python34\lib\urllib\request.py", line 266, in __init__
    self.full_url = url
  File "C:\Python34\lib\urllib\request.py", line 292, in full_url
    self._parse()
  File "C:\Python34\lib\urllib\request.py", line 321, in _parse
    raise ValueError("unknown url type: %r" % self.full_url)
ValueError: unknown url type: 'http%3A//zzk.cnblogs.com/s%3Fw%3Dpython%E7%88%AC%E8%99%AB%26t%3Db'

Process finished with exit code 1

结果显示：ValueError！无法成功抓取网页！

结合测试1、2、3，可得到下面结果：

（1）在python3.4中，如果url中包含中文，可以用 urllib.parse.quote("爬虫") 进行处理。

（2）url中的中文需要单独处理，不能中英文一起处理。

Tips：如果想了解一个函数的参数传值

#python3.4
import urllib.request

help(urllib.request.urlopen)

运行上面代码，控制台输出

C:\Python34\python.exe E:/pythone_workspace/mydemo/spider/demo.py
Help on function urlopen in module urllib.request:

urlopen(url, data=None, timeout=<object object at 0x00A50490>, *, cafile=None, capath=None, cadefault=False, context=None)

Process finished with exit code 0

@_@)Y，这篇的分享就到此结束~待续~

转载于:https://www.cnblogs.com/lmei/p/5333644.html

你可能感兴趣的:(python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨)

最新整理的50个网络安全必知术语，想要入行网安，建议收藏！ wljslmz 网络技术 web安全安全网络安全
想象一下，你刚入行网络安全（Cybersecurity），兴冲冲地打开一本专业书，或者加入一个网安论坛，结果满屏的“漏洞”“威胁”“DDoS”“加密”……脑袋瞬间一片迷雾。这时候，你会不会觉得自己像个“数字文盲”，完全摸不着北？别慌，这正是网络安全术语存在的意义——它们是你进入这个高能领域的“通行证”！网络安全术语可不是什么枯燥的学术名词，而是行业里沟通的“通用语言”。它就像一张地图，能帮你快速定
微信小程序云开发的sql语法 where `$and` 运算符怎么用？踩坑总结！代码简单说 2025开发必备微信小程序 sql 小程序 where 微信小程序and
微信小程序云开发$and组合查询时间戳转换**最近在小程序云开发里用$and组合查询，结果直接翻车，明明条件写对了，却总是查不出数据，要么就是报错，真是要被折腾疯了，官方文档也没给完整示例，最终折腾了半天，终于找到正确用法，现在分享出来，避免大家踩坑1.$and查询失败的真正原因在云开发数据库查询时，如果你的$and组合条件查不出数据，大概率是因为数据类型不匹配，特别是在时间筛选时，很多人会写成这
PySpark实现导出两个包含多个Parquet数据文件的S3目录里的对应值的差异值分析 weixin_30777913 python spark 数据分析云计算
编写PySpark代码实现从一个包含多个Parquet数据文件的AmazonS3目录的dataframe数据里取两个维度字段，一个度量字段的数据，根据这两个维度字段的数据分组统计，计算度量字段的数据的分组总计值，得到一个包含两个维度字段和度量字段的分组总计值字段的dataframe，再从另一个包含多个Parquet数据文件的S3目录的dataframe数据里取两个维度字段，一个度量字段的数据组成一
我的投资组合网站：打造个性化的在线投资展示平台 Tranyn.X
本文还有配套的精品资源，点击获取简介：本文介绍如何创建和设计一个在线平台，用于展示个人或专业投资者的投资策略、历史表现和投资理念。网站的构建涉及网页布局、响应式设计、CSS样式控制、内容管理、数据分析、SEO优化、安全性、用户体验、个性化和社交媒体整合等多个方面，确保网站既具有吸引力又能够有效地传达投资者的专业形象和投资成就。1.投资组合网站构建与网页布局设计网站构建的初步规划在当今数字化时代，构
Spring 中的依赖注入 web13093320398 面试学习路线阿里巴巴 java
依赖注入当某个java实例需要另一个java实例的协助时，在传统的程序设计过程中，通常由调用者来创建被调用者的实例在spring中，创建被调用者的工作不再由调用者来完成，因此称为控制反转，创建被调用者实例的工作通常由spring容器来完成，然后注入调用者，因此也称为依赖注入注入方式通过构造器注入将被依赖对象通过构造函数的参数注入给依赖对象，并且在初始化对象的时候注入优点：对象初始化完成后便可获得可
Spring @Around 注解 web13093320398 面试学习路线阿里巴巴 spring java 后端
@Around是SpringAOP（面向切面编程）中的一个注解，它用于定义一个环绕通知（AroundAdvice）。环绕通知是AOP中最强大的一种通知类型，因为它能够在方法执行之前和之后都执行自定义的逻辑，并且可以控制方法是否继续执行或改变其返回值。@Around注解的基本用法要使用@Around注解，你需要先定义一个切面（Aspect），然后在该切面中使用@Around注解来标注一个方法，该方法
tcc编译器教程6 进一步学习编译gmake源代码刘阿去学习 c语言
本文以编译gmake为例讲解如何使用tcc进行复杂一点的c代码的编译1简介前面主要讲解了如何编译lua解释器,lua解释器的编译很简单也很容易理解.当然大部分c语言程序编译没那么简单,下面对前面的gmake程序进行编译.2gmake源码结构首先打开之前tcc-busybox-for-win32\gmake文件夹,具体文件如下主要有3个文件夹和3个文件,分别为0.tcc-主要为编译所用的信息lib-
Golang实现一个事务型内存数据库 qingwave Code 数据库 golang redis
内存数据库经我们经常用到，例如Redis，那么如何从零实现一个内存数据库呢，本文旨在介绍如何使用Golang编写一个KV内存数据库MossDB。特性MossDB是一个纯Golang编写、可嵌入的、键值型内存数据库，包含以下特性可持久化，类似RedisAOF(AppendonlyLog)支持事务支持近实时的TTL(TimetoLive),可以实现毫秒级的过期删除前缀搜索Watch接口，可以监听某个键
入坑 Python 全能实战小白训练营，470 集干货 12.9G 大揭秘！七七知享 Python python 开发语言 pandas numpy matplotlib java php
家人们，我最近挖到了一个Python学习的宝藏——Python全能实战小白训练营。整整470集，内容超丰富，资源包有12.9G，完全就是为咱们这些想系统学习Python的小白量身定制的。接下来就给大家好好唠唠。随着课程深入，会涉及到Python的各种高级特性，比如面向对象编程、模块与包的使用。在讲面向对象编程时，老师通过打造一个小型游戏角色系统，把类、对象、继承、多态这些抽象概念诠释得生动形象，让
【学习思维模型】宇希啊思维模型学习
学习思维模型一、理解类模型二、记忆类模型三、解决问题类模型四、结构化学习模型五、效率与习惯类模型六、高阶思维模型七、实践建议八、新增学习思维模型**1.波利亚问题解决四步法****2.主动回忆（ActiveRecall）****3.鱼骨图（因果图/IshikawaDiagram）****4.MECE原则（MutuallyExclusive,CollectivelyExhaustive）****5.
golang 事务tx 乒乒乓乓丫 golang 开发语言后端
1.事务txgolang事务-Mr.peter-博客园Go操作Mysql（三）-kaichenkai-博客园golang中事务的使用_zh1303300的博客-CSDN博客_golang事务golangMysql--Tx-Go语言中文网-Golang中文社区2.golangmysql事务（增、删、改、查）golangmysql事务_golang操作mysql示例（增、删、改、查、事务）_Zhuan
深度学习训练中GPU内存管理 @Mr_LiuYang 遇到过的问题内存管理内存溢出 out of memory GPU内存
文章目录概述常见问题1、设备选择和数据迁移2、显存监控函数3、显存释放函数4、自适应batchsize调节5、梯度累积概述在深度学习模型训练中，主流GPU显存通常为8GB~80GB，内存不足会导致训练中断或BatchSize受限，GPU内存管理是优化性能和避免OutOfMemoryError的关键挑战。本博客简介PyTorch中GPU内存管理的核心函数、用法和实战技巧，帮助开发者高效利用显存资源。
深度学习pytorch之简单方法自定义9类卷积即插即用 @Mr_LiuYang 计算机视觉基础卷积类型非对称卷积深度卷积空洞卷积组卷积深度可分离卷积动态卷积
本文详细解析了PyTorch中torch.nn.Conv2d的核心参数，通过代码示例演示了如何利用这一基础函数实现多种卷积操作。涵盖的卷积类型包括：标准卷积、逐点卷积（1x1卷积）、非对称卷积（长宽不等的卷积核）、空洞卷积（扩大感受野）、深度卷积（逐通道滤波）、组卷积（分组独立处理）、深度可分离卷积（深度+逐点组合）、转置卷积（上采样）和动态卷积（动态生成卷积核），帮助读者理解如何通过调整参数灵活
家居巨头的觉醒，永洪科技为林氏家居开启一站式智慧决策永洪科技科技大数据人工智能数据分析数据可视化报表
在现代企业经营中，数据不仅是资产，更是决策的指南针。永洪科技与林氏家居的合作，是共同开发了一个企业级的一站式大数据分析平台。在合作多年的积累下，已逐步成为家居行业数字化转型的代表性案例。这不仅是两家企业间的合作，更是对于如何有效整合企业内部数据资产，支持各领域业务分析的一次深度实践。以下，我们将深入探讨该项目的每个关键阶段，展示永洪科技的专业能力和对潜在客户的价值承诺。广东林氏家居股份有限公司，创
65%的家庭有人“啃老”，数据解读国内版巨婴是如何炼成的？永洪科技大数据啃老单身房价
近日，韩国“30-39岁的未婚人口中有54.8%变成啃老族；40-44岁的未婚人口中有44.1%变成啃老族”的数据在网上引发热议。而反观国内，2020年数据显示，中国的啃老族已经占据了中国超过60%的家庭，30%的年轻人靠“啃老”过活，65%以上的家庭存在“啃老”方面的问题。对此，很多80、90后纷纷表示不服。网友调侃：贵族的啃老叫继承家业，到了穷人就成了啃老了。其实，啃老现象在各国都存在，是全人
PyCharm 对接 DeepSeek 大模型的详细操作流程程之编 pycharm ide python
以下是使用PyCharm对接DeepSeek大模型的详细操作流程，基于Python开发环境。假设你已具备DeepSeekAPI的访问权限（需提前申请APIKey）：步骤1：PyCharm环境准备创建新项目打开PyCharm→NewProject→选择纯Python项目→指定项目路径→创建虚拟环境（建议选Virtualenv）。安装依赖库打开终端（Terminal）执行以下命令：pipinstall
Manus AI：国产AI Agent的破局与隐忧 Hello kele 人工智能人工智能程序员经验分享 AI编程
2025年3月，国内AI领域突然杀出一匹黑马——ManusAI。这个自称全球首个通用AIAgent的产品，凭借"自主完成复杂任务"的核心能力，在技术圈掀起了不小的波澜。官网演示中，它能自动筛选简历、生成房产分析报告、甚至编写股票研究PPT，被网友戏称为"数字世界的私人助理"。但随着内测的展开，关于它的争议也开始浮出水面。一、技术突围背后的故事Manus的开发团队Monica.im颇为低调。创始人肖
DeepSeek与剪映短视频创作指南 meisongqing 人工智能 DeepSeek 剪映
DeepSeek（深度求索）作为一家专注实现AGI的中国公司，其技术可能涉及AI文本生成、图像处理等领域，结合剪映的智能剪辑功能，可以大幅提升短视频创作效率。以下是结合两者优势的详细创作步骤：一、创意策划阶段AI灵感激发使用DeepSeek的AI文本生成功能，输入关键词（如"美食教程"、"科技科普"）获取创意方向生成10-20个标题备选（示例Prompt："生成10个吸引年轻人的美妆短视频标题"）
一学就会的深度学习基础指令及操作步骤（5）使用预训练模型小圆圆666 深度学习人工智能 python 卷积神经网络
文章目录使用预训练模型加载预训练模型图像加载与预处理预测使用预训练模型查看模型库和常用模型加载预训练模型fromtorchvision.modelsimportvgg16#VGG16模型架构的定义fromtorchvision.modelsimportVGG16_Weights#VGG16的预训练权重配置#loadtheVGG16network*pre-trained*ontheImageNetd
2025 DeepSeek 10 大王炸组合，赋能职场效率革命 meisongqing 人工智能
在当下这个被AI深度渗透的时代，职场竞争愈发激烈，效率成为了制胜的关键因素。DeepSeek作为一款功能强大的AI工具，正引领着职场人的工作方式变革。当DeepSeek与其他热门应用巧妙搭配，便诞生了一系列能够大幅提升工作效率的王炸组合。无论你是忙碌的职场人士，还是充满创意的内容创作者，这些组合都将为你带来前所未有的工作体验，助你轻松应对各种复杂任务。接下来，让我们一同深入了解2025年DeepS
不同存储器组织和交叉编址技术的工作方式及举例说明海大超级无敌暴龙战士计算机组成原理学习方法
不同存储器组织和交叉编址技术的工作方式及举例说明本节介绍内存系统中常见的组织方式以及如何通过交叉编址来提高存储器性能，主要内容包括：多模块存储器单体多字存储器多体并行存储器高位交叉编址（顺序方式）低位交叉编址（交叉方式）下面依次说明这些结构的工作原理和实际应用中的举例。1.多模块存储器原理简介：多模块存储器将整个存储系统划分为多个独立模块（或称“块”），每个模块具有一定的存储容量和独立的控制电路。
【C语言】结构体篇熬夜超级玩家 C语言 c语言算法开发语言
目录结构体的定义结构体变量的声明和初始化声明结构体变量初始化结构体变量访问结构体成员结构体数组结构体指针结构体嵌套结构体作为函数参数值传递指针传递结构体的内存对齐位域结构体的定义结构体是一种自定义的数据类型，它把不同类型的数据组合成一个整体，方便管理和操作相关的数据。在定义结构体时，使用struct关键字，后面跟着结构体的名称，再用花括号{}包含结构体的成员列表，每个成员由数据类型和成员名组成，成
Flink-DataStreamAPI-生成水印隔着天花板看星星 flink 大数据分布式
下面我们将学习Flink提供的用于处理事件时间戳和水印的API，也会介绍有关事件时间、流转时长和摄取时间，下面就让我们跟着官网来学习吧一、水印策略介绍为了处理事件时间，Flink需要知道事件时间戳，这意味着流中的每个元素都需要分配其事件时间戳。这通常是通过使用TimestampAssigner从元素中的某个字段访问/提取时间戳来完成的。时间戳分配与生成水印密切相关，水印告诉系统事件时间的进度。我们
中信银行太原分行营业部开展“金融知识普及共筑消费安全”宣传活动 lsrsyx 金融安全
在第62个学雷锋纪念日与“3・15消费者权益保护日”来临之际，３月５日，中信银行太原分行营业部积极响应号召，以“金融知识普及，共筑消费安全”为主题，走进社区，传递金融知识，开展了一系列丰富多彩且富有成效的消费者权益保护活动，致力于提升公众金融素养与风险防范意识。分行营业部组织志愿者深入平阳路街道社区，开展“央行支付，惠企利民”主题宣传活动。活动现场，志愿者们通过发放精心制作的宣传单页，向居民们详细
DeepSeek赋能机器人革命：从推理引擎到行业落地的全栈技术实践量子纠缠BUG DeepSeek部署 AI DeepSeek 机器人人工智能 AI编程
——解析大模型如何重塑机器人产业的智能化未来引言：机器人产业的技术范式转移在2025年全球机器人市场规模突破2000亿美元的关键节点，DeepSeek凭借其创新的"推理优先"技术架构，正在重构机器人产业的智能化路径。通过将大模型的认知推理能力与机器人执行系统深度融合，DeepSeek在商业服务、工业制造、智慧城市等领域创造了多个标杆案例。本文将从技术架构、行业应用、开发实践三个维度，深度解读Dee
在 cmake_modules 目录下编写 FindG2O.cmake 以集成 G2O XU磊260 SLAM c++开发语言
1.简介在使用G2O（GeneralGraphOptimization）库进行优化问题求解时，通常需要在CMake项目中正确配置G2O的头文件和库文件路径。由于G2O并未提供官方的CMake配置文件，因此需要手动编写FindG2O.cmake以确保CMake能够正确找到G2O的依赖项。本文将详细解析FindG2O.cmake的编写方式，并介绍其工作原理。2.CMake中的FindG2O.cmake
总结一下c++的STL容器各个容器的特点和常用方法已是上好佳 c++开发语言
序列容器1.std::vector特点：动态数组，支持随机访问，可通过下标直接访问元素，访问效率高（时间复杂度为$O(1)$）。内存是连续分配的，在尾部插入和删除元素的效率较高（平均时间复杂度为$O(1)$），但在中间或头部插入和删除元素时，需要移动大量元素，效率较低（时间复杂度为$O(n)$）。会自动管理内存，当容量不足时会自动重新分配更大的内存空间，并将原有元素复制过去。常用方法：
目前使用ORACLE EBS的公司列表又是两个大汉堡
(相关文章:目前使用SAP的公司列表)1摩托罗拉2LG电子3济南钢铁4长安福特5百度6伊利7亚信8佳通9移动10电信11湘钢12韶钢13三角轮胎14广州铁道车辆厂15美的集团16青岛啤酒17珠江啤酒18德赛集团19大唐电力20云南白药21白沙集团22万家乐集团23华为24松下电工25华润涂料26广西柳工机械股份有限公司27天津中新药业集团28浦东机场29涟源钢铁集团30衡阳钢管厂31顺达电脑，32
百奥赛图的AI野心：用2500万抗体序列改写医药研发规则港股研究社人工智能大数据
在生物医药领域，技术突破的浪潮从未停歇。随着DeepSeek的爆火，AI技术也正在深度渗透生物医药行业。近日，百奥赛图作为行业先锋，率先DeepSeek平台本地化部署，结合“千鼠万抗”计划，打造“AI+抗体药物研发”的全新模式，大幅提升药物研发效率与成功率，引领行业迈向智能化创新时代。回顾百奥赛图的发展之路，公司创始人沈月雷博士，凭借十余年深耕免疫学和基因编辑领域的经验，带领团队从锻造靶点人源化小
flink-cdc实时增量同步mysql数据到elasticsearch 大数据技术派 #Flink elasticsearch flink mysql
什么是CDC？CDC是（ChangeDataCapture变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写入到消息中间件中以供其他服务进行订阅及消费。1.环境准备mysqlelasticsearchflinkonyarn说明：如果没有安装hadoop，那么可以不用yarn，直
Algorithm 香水浓 java Algorithm
冒泡排序 public static void sort(Integer[] param) { for (int i = param.length - 1; i > 0; i--) { for (int j = 0; j < i; j++) { int current = param[j]; int next = param[j + 1];
mongoDB 复杂查询表达式开窍的石头 mongodb
1:count Pg: db.user.find().count(); 统计多少条数据 2:不等于$ne Pg: db.user.find({_id:{$ne:3}},{name:1,sex:1,_id:0}); 查询id不等于3的数据。 3：大于$gt $gte(大于等于) &n
Jboss Java heap space异常解决方法, jboss OutOfMemoryError : PermGen space 0624chenhong jvm jboss
转自 http://blog.csdn.net/zou274/article/details/5552630 解决办法： window->preferences->java->installed jres->edit jre 把default vm arguments 的参数设为-Xms64m -Xmx512m ----------------
文件上传下载解析相对路径不懂事的小屁孩文件上传
有点坑吧，弄这么一个简单的东西弄了一天多，身边还有大神指导着，网上各种百度着。下面总结一下遇到的问题：文件上传，在页面上传的时候，不要想着去操作绝对路径，浏览器会对客户端的信息进行保护，避免用户信息收到攻击。在上传图片，或者文件时，使用form表单来操作。前台通过form表单传输一个流到后台，而不是ajax传递参数到后台，代码如下: <form action=&
怎么实现qq空间批量点赞换个号韩国红果果 qq
纯粹为了好玩！！逻辑很简单 1 打开浏览器console；输入以下代码。先上添加赞的代码 var tools={}; //添加所有赞 function init(){ document.body.scrollTop=10000; setTimeout(function(){document.body.scrollTop=0;},2000);//加
判断是否为中文灵静志远中文
方法一： public class Zhidao { public static void main(String args[]) { String s = "sdf灭礌 kjl d{';\fdsjlk是"; int n=0; for(int i=0; i<s.length(); i++) { n = (int)s.charAt(i); if((
一个电话面试后总结 a-john 面试
今天，接了一个电话面试，对于还是初学者的我来说，紧张了半天。面试的问题分了层次，对于一类问题，由简到难。自己觉得回答不好的地方作了一下总结：在谈到集合类的时候，举几个常用的集合类，想都没想，直接说了list,map。然后对list和map分别举几个类型： list方面：ArrayList,LinkedList。在谈到他们的区别时，愣住了
MSSQL中Escape转义的使用 aijuans MSSQL
IF OBJECT_ID('tempdb..#ABC') is not null drop table tempdb..#ABC create table #ABC ( PATHNAME NVARCHAR(50) ) insert into #ABC SELECT N'/ABCDEFGHI' UNION ALL SELECT N'/ABCDGAFGASASSDFA' UNION ALL
一个简单的存储过程 asialee mysql 存储过程构造数据批量插入
今天要批量的生成一批测试数据，其中中间有部分数据是变化的，本来想写个程序来生成的，后来想到存储过程就可以搞定，所以随手写了一个，记录在此： DELIMITER $$ DROP PROCEDURE IF EXISTS inse
annot convert from HomeFragment_1 to Fragment 百合不是茶 android 导包错误
创建了几个类继承Fragment, 需要将创建的类存储在ArrayList<Fragment>中; 出现不能将new 出来的对象放到队列中,原因很简单; 创建类时引入包是:import android.app.Fragment; 创建队列和对象时使用的包是:import android.support.v4.ap
Weblogic10两种修改端口的方法 bijian1013 weblogic 端口号配置管理 config.xml
一.进入控制台进行修改 1.进入控制台: http://127.0.0.1:7001/console 2.展开左边树菜单域结构->环境->服务器-->点击AdminServer(管理) &
mysql 操作指令征客丶 mysql
一、连接mysql 进入 mysql 的安装目录； $ bin/mysql -p [host IP 如果是登录本地的mysql 可以不写 -p 直接 -u] -u [userName] -p 输入密码，回车，接连；二、权限操作［如果你很了解mysql数据库后，你可以直接去修改系统表，然后用 mysql> flush privileges; 指令让权限生效］ 1、赋权 mys
【Hive一】Hive入门 bit1129 hive
Hive安装与配置 Hive的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Hive的启动前需要首先启动Hadoop。 Hive安装和配置的步骤 1. 从如下地址下载Hive0.14.0 http://mirror.bit.edu.cn/apache/hive/ 2.解压hive，在系统变
ajax 三种提交请求的方法 BlueSkator Ajax jqery
1、ajax 提交请求 $.ajax({ type:"post", url : "${ctx}/front/Hotel/getAllHotelByAjax.do", dataType : "json", success : function(result) { try { for(v
mongodb开发环境下的搭建入门 braveCS 运维
linux下安装mongodb 1）官网下载mongodb-linux-x86_64-rhel62-3.0.4.gz 2）linux 解压 gzip -d mongodb-linux-x86_64-rhel62-3.0.4.gz; mv mongodb-linux-x86_64-rhel62-3.0.4 mongodb-linux-x86_64-rhel62-
编程之美-最短摘要的生成 bylijinnan java 数据结构算法编程之美
import java.util.HashMap; import java.util.Map; import java.util.Map.Entry; public class ShortestAbstract { /** * 编程之美最短摘要的生成 * 扫描过程始终保持一个[pBegin,pEnd]的range,初始化确保[pBegin,pEnd]的ran
json数据解析及typeof chengxuyuancsdn js typeof json解析
// json格式 var people='{"authors": [{"firstName": "AAA","lastName": "BBB"},' +' {"firstName": "CCC&
流程系统设计的层次和目标 comsci 设计模式数据结构 sql 框架脚本
流程系统设计的层次和目标
RMAN List和report 命令 daizj oracle list report rman
LIST 命令使用RMAN LIST 命令显示有关资料档案库中记录的备份集、代理副本和映像副本的信息。使用此命令可列出： • RMAN 资料档案库中状态不是AVAILABLE 的备份和副本 • 可用的且可以用于还原操作的数据文件备份和副本 • 备份集和副本，其中包含指定数据文件列表或指定表空间的备份 • 包含指定名称或范围的所有归档日志备份的备份集和副本 • 由标记、完成时间、可
二叉树:红黑树 dieslrae 二叉树
红黑树是一种自平衡的二叉树,它的查找,插入,删除操作时间复杂度皆为O(logN),不会出现普通二叉搜索树在最差情况时时间复杂度会变为O(N)的问题. 红黑树必须遵循红黑规则,规则如下 1、每个节点不是红就是黑。 2、根总是黑的 &
C语言homework3，7个小题目的代码 dcj3sjt126com c
1、打印100以内的所有奇数。 # include <stdio.h> int main(void) { int i; for (i=1; i<=100; i++) { if (i%2 != 0) printf("%d ", i); } return 0; } 2、从键盘上输入10个整数，
自定义按钮, 图片在上, 文字在下, 居中显示 dcj3sjt126com 自定义
#import <UIKit/UIKit.h> @interface MyButton : UIButton -(void)setFrame:(CGRect)frame ImageName:(NSString*)imageName Target:(id)target Action:(SEL)action Title:(NSString*)title Font:(CGFloa
MySQL查询语句练习题，测试足够用了 flyvszhb sql mysql
http://blog.sina.com.cn/s/blog_767d65530101861c.html 1.创建student和score表 CREATE TABLE student ( id INT(10) NOT NULL UNIQUE PRIMARY KEY , name VARCHAR
转：MyBatis Generator 详解 happyqing mybatis
MyBatis Generator 详解 http://blog.csdn.net/isea533/article/details/42102297 MyBatis Generator详解 http://git.oschina.net/free/Mybatis_Utils/blob/master/MybatisGeneator/MybatisGeneator.
让程序员少走弯路的14个忠告 jingjing0907 工作计划学习
无论是谁，在刚进入某个领域之时，有再大的雄心壮志也敌不过眼前的迷茫：不知道应该怎么做，不知道应该做什么。下面是一名软件开发人员所学到的经验，希望能对大家有所帮助 1.不要害怕在工作中学习。只要有电脑，就可以通过电子阅读器阅读报纸和大多数书籍。如果你只是做好自己的本职工作以及分配的任务，那是学不到很多东西的。如果你盲目地要求更多的工作，也是不可能提升自己的。放
nginx和NetScaler区别流浪鱼 nginx
NetScaler是一个完整的包含操作系统和应用交付功能的产品，Nginx并不包含操作系统，在处理连接方面，需要依赖于操作系统，所以在并发连接数方面和防DoS攻击方面，Nginx不具备优势。 2.易用性方面差别也比较大。Nginx对管理员的水平要求比较高，参数比较多，不确定性给运营带来隐患。在NetScaler常见的配置如健康检查，HA等，在Nginx上的配置的实现相对复杂。 3.策略灵活度方
第11章动画效果（下） onestopweb 动画
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
FAQ - SAP BW BO roadmap blueoxygen BO BW
http://www.sdn.sap.com/irj/boc/business-objects-for-sap-faq Besides, I care that how to integrate tightly. By the way, for BW consultants, please just focus on Query Designer which i
关于java堆内存溢出的几种情况 tomcat_oracle java jvm jdk thread
【情况一】：　　 java.lang.OutOfMemoryError: Java heap space：这种是java堆内存不够，一个原因是真不够，另一个原因是程序中有死循环；　　如果是java堆内存不够的话，可以通过调整JVM下面的配置来解决：　　<jvm-arg>-Xms3062m</jvm-arg> 　　<jvm-arg>-Xmx
Manifest.permission_group权限组阿尔萨斯 Permission
结构继承关系 public static final class Manifest.permission_group extends Object java.lang.Object android. Manifest.permission_group 常量 ACCOUNTS 直接通过统计管理器访问管理的统计 COST_MONEY可以用来让用户花钱但不需要通过与他们直接牵涉的权限 D

python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hearzeus/p/5238867.html">Python 爬虫入门——小项目实战（自动私信博客园某篇博客下的评论人，随机发送一条笑话，完整代码在博文最后）

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hearzeus/p/5151449.html">Python 爬虫入门（一）

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/xueweihan/p/4592212.html">[Python]新手写爬虫全过程（已完成）

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hearzeus/p/5157016.html">Python 爬虫入门（二）—— IP代理使用

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/ruthon/p/4638262.html">《零基础写Python爬虫》系列技术文章整理收藏

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/wenjianmuran/p/5049966.html">Python爬虫入门案例：获取百词斩已学单词列表

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/cs-player1/p/5169307.html">python爬虫之初体验

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hearzeus/p/5226546.html">Python 爬虫入门（四）—— 验证码下篇（破解简单的验证码）

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/xin-xin/p/4297852.html">《Python爬虫学习系列教程》学习笔记

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/nishuihan/p/4754622.html">PHP, Python, Node.js 哪个比较适合写爬虫？

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/nishuihan/p/4815930.html">PHP, Python, Node.js 哪个比较适合写爬虫？

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/rwxwsblog/p/4557123.html">安装python爬虫scrapy踩过的那些坑和编程外的思考

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/maybe2030/p/4555382.html">[Python] 网络爬虫和正则表达式学习总结

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/mr-zys/p/5059451.html">一个简单的多线程Python爬虫（一）

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/jixin/p/5145813.html">自学Python十一 Python爬虫总结

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hearzeus/p/5162691.html">Python 爬虫入门（三）—— 寻找合适的爬取策略

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/ybjourney/p/5304501.html">python简单爬虫

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/hippieZhou/p/4967075.html">Python带你轻松进行网页爬虫

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/mfryf/p/3695844.html">开发记录_自学Python写爬虫程序爬取csdn个人博客信息

"searchItemTitle"> "_blank" href="http://www.cnblogs.com/coltfoal/archive/2012/10/06/2713348.html">Python天气预报采集器（网页爬虫）

你可能感兴趣的:(python--爬虫入门（七）urllib库初体验以及中文编码问题的探讨)