langkeziju

Python3.X 爬虫实战（先爬起来嗨）

1 背景

爬虫的价值就不多说了，Python 的便捷与强大也就不 BB 了，在这个数据泛滥、追求效率的时代，使用 python 可以为我们创造相当多的便捷，Web 开发、桌面小工具开发、粘性脚本编写、大数据处理、图像处理、机器学习等等，能做到的事情实在太多。就拿一个再随便不过的需求来说吧，当我们在做 Android 开发时想将现有 drawable 目录下 *.png 图片全部自动转换为 webp 格式时，我们一般的套路可能都是借助第三方工具（很多都只能一张一张转换），而使用 Python 核心就两行代码就可以做到这一点，如果想批量自定义转换姿势（路径、文件名等），使用 Python 也是非常方便的，譬如这里就有一个我写的非常简单的 Python png 批量转换 webp 工具。具体源码如下：

#! /usr/bin/env python3

from PIL import Image
from glob import glob
import os
""" 说明：仅提供核心基础思想和脚本，自己可以改善为自动识别 Android 工程全部转换。 1. 将该脚本放置在自己 Android png 目录下; 2. 运行命令 python3 image2webp.py; 3. 在该目录下的 output 目录下生成当前文件夹下所有 png 图片对应的 webp 图片; """

def image2webp(inputFile, outputFile):
    try:
        image = Image.open(inputFile)
        if image.mode != 'RGBA' and image.mode != 'RGB':
            image = image.convert('RGBA')

        image.save(outputFile, 'WEBP')
        print(inputFile + ' has converted to ' + outputFile)
    except Exception as e:
        print('Error: ' + inputFile + ' converte failed to ' + outputFile)

matchFileList = glob('*.png')
if len(matchFileList) <= 0:
    print("There are no *.png file in this directory (you can run this script in your *png directory)!")
    exit(-1)

outputDir = os.getcwd() + "/output"
for pngFile in matchFileList:
    fileName = pngFile[0:pngFile.index('.')]
    if not os.path.exists(outputDir):
        os.makedirs(outputDir)
    image2webp(pngFile, outputDir + "/" + fileName + ".webp")

print("Converted done! all webp file in the output directory!")
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34
   
   
   
   35
   
   
   
   36
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34
   
   
   
   35
   
   
   
   36

震撼吧，人生苦短，我用 Python！真的是这样咯，不过这一系列我们不探讨 Python 的其他奥妙，而是直接探讨一个垂直领域 —— Python 爬虫。其实双赢的爬虫（搜索引擎收录爬虫就是共赢的，地下黑作坊在网上肆意洗数据，譬如洗邮箱数据就是被抵制或非法的）对于大多数网站来说是有利的，而恶意的爬虫就适得其反了。正常来说我们想要获取某些网站数据应该通过他们的开放 API 进行合法授权访问，但是企业毕竟是企业，都是有所保留的开放 API 权限，所以有时候我们不得不使用暴力手段来洗劫有价值的数据，这也就是爬虫存在的一大价值。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

2 爬虫基础

爬虫其实涉及的东西还是比较杂和多的，比较重要的几点可能就是得掌握 Python 语法基础和一些常用的内置或者拓展模块、熟悉 WEB 开发的相关知识、熟悉数据持久化（关系型数据库、非关系型数据库、文件）缓存等一些技术、熟悉正则等。

2-1 约定俗成的潜规则

对 WEB 了解的朋友都知道一般的网站都会有 robots.txt 和 Sitemap 定义，这些定义其实对我们进行合理化的爬虫编写是具备指导意义的，譬如我们看下稀土掘金（https://juejin.im）这个网站的 robots.txt 文件（https://juejin.im/robots.txt），如下：

User-agent:*
Disallow:/timeline
Disallow:/submit-entry
......
Disallow:/subscribe/all?sort=newest
Disallow:/search

Sitemap:https://juejin.im/sitemap/sitemappart1.xml
......
Sitemap:https://juejin.im/sitemap/sitemappart4.xml
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10

robots.txt 中定义的 Sitemap，访问（https://juejin.im/sitemap/sitemappart1.xml）如下：

<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://juejin.im/</loc>
<priority>1.0</priority>
<changefreq>always</changefreq>
</url>
<url>
<loc>https://juejin.im/welcome/android</loc>
<priority>0.8</priority>
<changefreq>hourly</changefreq>
</url>
......
</urlset>
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13

可以看到 robots.txt 文件内容明确建议（注意：只是建议，只是建议，只是建议，恶意的爬虫管你这屁建议呢）了爬虫程序爬取该网站时有哪些限制，一般遵守这些限制规则就能很好的降低自己爬虫被封的风险；Sitemap 提供了网站几乎所有的页面列表，我们可以使用这个列表直接爬取这个站点，也可以自己采用别的方式，因为这玩意不是每个网站都有的。所以说 robots.txt 和 Sitemap 只是约定俗成的潜规则，潜规则，一般我们酌情遵守就行了，譬如可以考虑遵守他们提到的访问请求间隔、代理禁止类型等，其他的就看你自己的节操了。

2-2 基本工具

俗话说“工欲善其事必先利其器”，爬虫也需要一些利器。对于 Python 开发工具我选择 PyCharm 和 Sublime；对于浏览器可以选择 Chrome 等，再安装一些 WEB 开发插件，譬如 FireBug、Wappalyzer、Chrome Sniffer 等，方便爬虫时分析网站，尤其是浏览器 F12 大法和清空站点 Cookie 一定要掌握，不然就没法愉快的玩耍爬虫了。当然了，爬虫的核心之一其实在于抓取到数据后如何筛选出对自己有价值的数据，关于做到和做好这一点我们有必要对站点页面有一个比较准确的把握，想要做到这一点就必须大致知道该网页使用了那些技术，这样就可以提高我们分析页面的效率。分析网页使用哪些技术有很多方法，也有很多浏览器插件，譬如上面提到的 Chrome Sniffer等；也可以直接访问 https://builtwith.com/ 网站输入你要爬取的网页进行识别；当然也可以用 Python 的 builtwith 模块来获取，悲哀的是这个模块现在不支持 Python 3.X 版本，需要自己安装后手动修改。

当然了，还有一个不常用的利器需要知道，那就是度娘和 Google 咯，为啥呢？因为有时候我们大型项目可能需要先大致评估全站点爬虫的量有多大来进行相关爬虫的技术选型参考，所以有必要知彼知己。下面就以稀土掘金为例说明，如图：

可以看到，通过 site 指令度娘搜索告诉我们稀土掘金这个站点大约有 27256 个页面（这只是参考值，不完全准确），当我们真的需要全站点爬虫攻击时就要考虑这么大量情况下的爬虫方案选型和策略，以便保证爬虫的效率。

2-3 基本爬取技术思路

爬虫涉及的通用技术最核心的可能就是 HTTP 请求了，我们至少至少应该掌握 HTTP 的 POST 和 GET 请求方法；其次就是 HTTP 请求和返回的 Header 含义及如何使用浏览器等工具跟踪请求 Header，因为爬虫链接请求时出现问题最多的情况一般都是 Header 有问题，譬如通常至少要保证 User-Agent、Referer、Cookie 等的伪装正确性，返回 Header 里的重定向链接，Gzip 数据需要解压等；还有就是 POST 数据的 urlencode 包装发送等；所以在进行爬虫前一定要具备比较扎实的前端与后端基础知识，同时要具备比较充足的 HTTP 知识。

有了这些知识我们可能就会急于开始爬取，其实这是不对的，我们应该做的第一件事是对要爬取的站点进行分析，至于如何分析，下面给出了一些常规套路：

首先倒腾下看你要抓取的站点有没有响应式的移动页面，如果有那就保持一个原则，尽可能的抓取他们的移动页面（原因就是一般移动页面都是内容干货啊，相对 PC 页面没那么臃肿，方便分析）。
Cookie 的操蛋之处，分析时建议开启隐身模式等，不然就面对清空 Cookie 大法了，清空 Cookie 对于爬虫网站分析至关重要，一定要 get 到。
分析爬取网页是静态页面还是动态页面，以便采取不同的爬取策略，使用不同的爬取工具。
查看网页源码找出对你有价值的数据的网页排版规律，譬如特定 CSS 选择等，从而指定抓取后的数据解析规则。
清洗数据后选择如何处理抓取到的有价值数据，譬如是存储还是直接使用，是如何存储等。

以上几个套路摸索清楚以后就可以开始编写爬虫代码了，不过这时候还是有很多代码套路需要注意的，譬如 URL 的重复爬取、无效 URL 的剔除、爬虫欺骗、爬取异常处理等，如果想要自己的爬虫十分健壮，上面这些套路似乎都是必须要考虑的。

当然了，上面说的只是爬虫基础的核心事项，大型爬虫项目涉及的知识点就更加琐碎了，随着这个系列的渐进，我们会慢慢接触到的，下面我们先小牛试刀一把。

【工匠若水 http://blog.csdn.net/yanbober 未经允许严禁转载，请尊重作者劳动成果。私信联系我】

3 实战一把，先爬起来嗨

BB 了辣么多基础，还没有任何实战，搞毛线啊！Talk is easy, show me the code！既然是 Python3.X 爬虫实战系列，所以我们先让自己爬起来，故我们先来看看一个爬虫的常规套路流程结构，如下图（此图引用自网络）：

看到了吧，一个爬虫的核心流程其实就是拿到一个 URL，下载下来这个 URL 指定的数据（网页或者结构化数据），解析出有价值的数据供自己使用，所以其实爬虫的核心机制流程就是不停的重复执行这个流程，日复一日的帮你在那各种爬呀爬呀爬。

依据上面的爬虫流程图，下面我们给出一个简单的爬虫程序，以便理解和感觉爬虫的魅力。下面是一个深度爬取百度百科 android 词条简介及其衍生词条简介的实例，具体可以点击我在 github 查看该爬虫模块源码，这个小爬虫程序不是那么健壮，但是足以说明上面的流程图，该小爬虫包结构如下图：

我们在命令行执行 python3 spider_main.py 或者在 PyCharm 中点击 spider_main.py 文件右键运行就能看到爬虫开始爬取数据了（注意：该小爬虫依赖 BeautifulSoup 外部模块，如果没安装建议运行前先使用 pip 进行安装，命令为 pip install beautifulsoup4；其次该小爬虫默认只深度爬取 30 个链接），最终 30 个链接爬取完成后会在当前目录下自动输出了一个名为 out_2017-06-13_21:55:57.html 的 HTML 页面的表格，我们可以打开文件发现爬取的结果如下：

怎么样？我们爬取了百度百科一些关于 Android 和深度链接的名词介绍，然后依据自己喜好输出了一张 WEB 页面，当然咯，我们可以把这些数据写入数据库，再用 PHP 等编写 RESTFUL 接口通过 JSON 结构化语句返回给 APP 使用，赞不赞，再也不用为了自己做个小 App 到处去寻找免费的 API（譬如去聚合数据寻找），完全可以解放双手自动抓取和使用，不过一定不要未经授权直接抓取给商业 APP 使用，这可能会被起诉的。

下面是 https://github.com/yanbober/SmallReptileTraining/tree/master/AndroidSpider 这个小爬虫的源码，大家可以对照上面的爬虫流程图进行对比。

''' spider_main.py 上面爬虫流程图中的[调度器] 面向对象写法，调度器负责循环从 UrlManager 获取爬取链接，然后交给 HtmlDownLoader 下载，然后把下载内容交给 HtmlParser 解析，然后把有价值数据输出给 HtmlOutput 进行应用。 '''
class SpiderMain(object):
    def __init__(self):
        self.urls = url_manager.UrlManager()
        self.downloader = html_downloader.HtmlDownLoader()
        self.parser = html_parser.HtmlParser()
        self.out_put = html_output.HtmlOutput()

    def craw(self, root_url):
        count = 1
        self.urls.add_new_url(root_url)
        while self.urls.has_new_url():
            try:
                new_url = self.urls.get_new_url()
                print("craw %d : %s" % (count, new_url))
                html_content = self.downloader.download(new_url)
                new_urls, new_data = self.parser.parse(new_url, html_content, "utf-8")
                self.urls.add_new_urls(new_urls)
                self.out_put.collect_data(new_data)
                #默认只爬取了深度 30，不然太慢，自己可以修改。
                if count >= 30:
                    break
                count = count + 1
            except Exception as e:
                print("craw failed!\n"+str(e))
        self.out_put.output_html()

if __name__ == "__main__":
    rootUrl = "http://baike.baidu.com/item/Android"
    objSpider = SpiderMain()
    objSpider.craw(rootUrl)
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34

''' url_manager.py 上面爬虫流程图中的[URL 管理器] 负责管理深度 URL 链接和去重等机制。 '''
class UrlManager(object):
    def __init__(self):
        self.new_urls = set()
        self.used_urls = set()

    def add_new_url(self, url):
        if url is None:
            return
        if url not in self.new_urls and url not in self.used_urls:
            self.new_urls.add(url)

    def add_new_urls(self, urls):
        if urls is None or len(urls) == 0:
            return
        for url in urls:
            self.add_new_url(url)

    def has_new_url(self):
        return len(self.new_urls) > 0

    def get_new_url(self):
        temp_url = self.new_urls.pop()
        self.used_urls.add(temp_url)
        return temp_url
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28

''' html_downloader.py 上面爬虫流程图中的[下载器] 负责对指定的 URL 网页内容进行下载获取，这里只是简单处理了 HTTP CODE 200，实质应该依据 400、500 等分情况进行重试等机制处理。 '''
class HtmlDownLoader(object):
    def download(self, url):
        if url is None:
            return None
        response = urllib.request.urlopen(url)
        if response.getcode() != 200:
            return None
        return response.read()
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12

''' html_parser.py 上面爬虫流程图中的[解析器] 负责对下载器下载下来的网页内容进行解析，解析规则就是我们自己定义的感兴趣的内容，这里我们只分析网页后解析出 url、title、content，其他的不关心，解析好的数据通过字典返回。 '''
class HtmlParser(object):
    def parse(self, url, content, html_encode="utf-8"):
        if url is None or content is None:
            return
        soup = BeautifulSoup(content, "html.parser", from_encoding=html_encode)
        new_urls = self._get_new_urls(url, soup)
        new_data = self._get_new_data(url, soup)
        return new_urls, new_data


    def _get_new_urls(self, url, soup):
        new_urls = set()
        links = soup.find_all("a", href=re.compile(r"/item/\w+"))
        for link in links:
            url_path = link["href"]
            new_url = urljoin(url, url_path)
            new_urls.add(new_url)
        return new_urls


    def _get_new_data(self, url, soup):
        data = {"url": url}
        title_node = soup.find("dd", class_="lemmaWgt-lemmaTitle-title").find("h1")
        data["title"] = title_node.get_text()
        summary_node = soup.find("div", class_="lemma-summary")
        data["summary"] = summary_node.get_text()
        return data
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31

''' html_output.py 上面爬虫流程图中的[应用器] 负责对解析后的数据应用，这里简单用一个 WEB 页面把爬取的所有存在在 datas 列表的数据以 Table 输出。 '''
class HtmlOutput(object):
    def __init__(self):
        self.datas = []

    def collect_data(self, data):
        if data is None:
            return
        self.datas.append(data)

    def output_html(self):
        file_name = time.strftime("%Y-%m-%d_%H:%M:%S")
        with open("out_%s.html" % file_name, "w") as f_out:
            f_out.write("<html>")
            f_out.write(r'<head>'
                        r'<link rel="stylesheet" '
                        r'href="https://cdn.bootcss.com/bootstrap/3.3.7/css/bootstrap.min.css" '
                        r'integrity="sha384-BVYiiSIFeK1dGmJRAkycuHAHRg32OmUcww7on3RYdg4Va+PmSTsz/K68vbdEjh4u" '
                        r'crossorigin="anonymous"></head>')
            f_out.write("<body>")
            f_out.write(r'<table class="table table-bordered table-hover">')

            item_css = ['active', 'success', 'warning', 'info']
            for data in self.datas:
                index = self.datas.index(data) % len(item_css)
                f_out.write(r'<tr class="'+item_css[index]+r'">')
                f_out.write('<td>%s</td>' % data["url"])
                f_out.write('<td>%s</td>' % data["title"])
                f_out.write('<td>%s</td>' % data["summary"])
                f_out.write("</tr>")

            f_out.write("</table>")
            f_out.write("</body>")
            f_out.write("</html>")
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34
   
   
   
   35
   
   
   
   36
   
   
   
   37
  
  
  
  
  
  
  
  
   
   
   
   1
   
   
   
   2
   
   
   
   3
   
   
   
   4
   
   
   
   5
   
   
   
   6
   
   
   
   7
   
   
   
   8
   
   
   
   9
   
   
   
   10
   
   
   
   11
   
   
   
   12
   
   
   
   13
   
   
   
   14
   
   
   
   15
   
   
   
   16
   
   
   
   17
   
   
   
   18
   
   
   
   19
   
   
   
   20
   
   
   
   21
   
   
   
   22
   
   
   
   23
   
   
   
   24
   
   
   
   25
   
   
   
   26
   
   
   
   27
   
   
   
   28
   
   
   
   29
   
   
   
   30
   
   
   
   31
   
   
   
   32
   
   
   
   33
   
   
   
   34
   
   
   
   35
   
   
   
   36
   
   
   
   37

哇呜！就是这么赞，怎么样，到此有没有对 Python 小爬虫产生一个整体的认知呢，如果表示了解了，那么我们下一篇会循序渐进的谈谈其他 Python 爬虫技术点（当然了，上面代码虽然很少，但是你可能还是觉得有些看不懂，那就的自己去补习下相关知识了，至于细节不在本系列探讨范围）。

^-^当然咯，看到这如果发现对您有帮助的话不妨扫描二维码赏点买羽毛球的小钱（现在球也挺贵的），既是一种鼓励也是一种分享，谢谢！

Git常用命令－修改远程仓库地址猿大师 Linux Java git java
查看远程仓库地址gitremote-v返回结果originhttps://git.coding.net/＊＊＊＊＊.git(fetch)originhttps://git.coding.net/＊＊＊＊＊.git(push)修改远程仓库地址gitremoteset-urloriginhttps://git.coding.net/＊＊＊＊＊.git先删除后增加远程仓库地址gitremotermori
冬天短期的暴利小生意有哪些？那些小生意适合新手做？一起高省
短期生意不失为创业的一个商机，不过短期生意的商机是转瞬即逝的，而且这类生意也很难作为长期的生意去做，那冬天短期暴利小生意查看更多关于短期暴利小生意的文章有哪些呢?给大家先推荐一个2023年风口项目吧，真很不错的项目，全程零投资，当做副业来做真的很稳定，不管你什么阶层的人，或多或少都网购吧？你们知道网购是可以拿提成，拿返利，拿分佣的吗？你们知道很多优惠券群里面，天天群主和管理发一些商品吗？他们其实在
2020-12-24 我和我的天使们
阅读《老子的心事》391—403“将欲取之，必固与之”：想要得到什么，首先就要送出什么。我常常对孩子们说，你希望别人怎样对你你就怎样对待别人。想要得到别人的尊重，首先要尊重别人。我希望她们可以不迟到，因为不迟到是对别人的尊重，我就自己就先做到不迟到。哪怕是约朋友逛街，我尽量准时赴约。我严格要求孩子们，也同样严格要求自己，我跟孩子们一起把好的品格变成习惯。“是谓微明”：这就是微妙的智慧。看起来很少很
男女关系里的13条真理梦仔i
1、爱情是一种神奇的力量，会使人从哪里摔倒就从哪里爬起来，除非摔得感情残废了。2、男的追女的，只要男的坚持不懈，最后一般可以追到；而女的追男的，只要男的不愿意，肯定追不到；因为男人皮较厚、心较硬，而女人则相反。3、男人往往可以同时有几个同性好朋友，这些朋友可以互相认识或不认识，可以相差很大；而女人的同性好朋友往往只能有一个，且是排他的。男人的朋友可以是有男有女且年长年幼的，而女人的朋友大多是男的且
k均值聚类算法考试例题_k均值算法(k均值聚类算法计算题) 寻找你83497 k均值聚类算法考试例题
?算法：第一步：选K个初始聚类中心，z1(1),z2(1)，…，zK(1)，其中括号内的序号为寻找聚类中心的迭代运算的次序号。聚类中心的向量值可任意设定，例如可选开始的K个.k均值聚类：---------一种硬聚类算法，隶属度只有两个取值0或1，提出的基本根据是“类内误差平方和最小化”准则；模糊的c均值聚类算法：--------一种模糊聚类算法，是.K均值聚类算法是先随机选取K个对象作为初始的聚类
Shell、Bash、Zsh这都是啥啊小白码上飞 bash linux 开发语言
Zsh和Bash都是我们常用的Shell，那先搞明白啥是shell吧。Shell作为一个单词，他是“壳”的意思，蛋壳坚果壳。之所以叫壳，是为了和计算机的“核”来区分，用它表示“为使用者提供的操作界面”。所以这个命名其实很形象，翻译成中文，直译过来叫“壳层”。个人认为这个叫法很奇怪，意译貌似也没有什么好的词汇来匹配。就还是叫shell吧。维基百科给的定义是：Incomputing,ashellisa
关于Mysql 中 Row size too large (＞ 8126) 错误的解决和理解秋刀prince mysql mysql 数据库
提示：啰嗦一嘴，数据库的任何操作和验证前，一定要记得先备份！！！不会有错；文章目录问题发现一、问题导致的可能原因1、页大小2、行格式2.1compact格式2.2Redundant格式2.3Dynamic格式2.4Compressed格式3、BLOB和TEXT列二、解决办法1、修改页大小（不推荐）2、修改行格式3、修改数据类型为BLOB和TEXT列4、其他优化方式（可以参考使用）4.1合理设置数据
【从浅识到熟知Linux】Linux发展史 Jammingpro 从浅学到熟知Linux linux 运维服务器
归属专栏：从浅学到熟知Linux个人主页：Jammingpro每日努力一点点，技术变化看得见文章前言：本篇文章记录Linux发展的历史，因在介绍Linux过程中涉及的其他操作系统及人物，本文对相关内容也有所介绍。文章目录Unix发展史Linux发展史开源Linux官网企业应用情况发行版本在学习Linux前，我们可能都会问Linux从哪里来？它是如何发展的。但在介绍Linux之前，需要先介绍一下Un
彩绘曼陀罗作品-第29幅《雪花》燕子心语
2018年12月18日彩绘曼陀罗-第29幅《雪花》图片发自App前夜梦见掉进电梯井，问自己：怎么办？梦醒，感觉有些害怕。想想生活中，事太多，压力大，一件事连着一件事，有点应付不过来了。不再追求完美，一件一件的做，终于完成了好几件事，其中有朋友帮忙完成，感恩画时，即想到此段过程，先画尖角部分，用了三种绿色，想对称，结果无法对称，好吧，接纳!想过渡，结果颜色画错，好吧，接纳!……我在想，错了又能怎样？
戴先华2021.4.18《我的第129篇幸运作业》 39f4298779c4
2021.4.18今天小宝和大表姐出去玩，我和婆婆在烧饭，突然小宝冲了进来，告诉奶奶说：“奶奶，奶奶姐姐在亭子里倒了”我一下子看出小宝的紧张，马上跑了出去，发现大外甥女又患了病，看起来心疼极了，整个人面朝地下的倒下了，在地上不停的抽搐，额头摔了一个大泡，整张脸都是紫色的，眼睛边上都出血了，真的是非常紧张，这么多年姐姐两夫妻就这样看着自己的孩子一次次晕倒，姐夫这么多年，年年都拿不出钱回家，使得家一次
4.C_数据结构_队列荣世蓥数据结构数据结构
概述什么是队列：队列是限定在两端进行插入操作和删除操作的线性表。具有先入先出(FIFO)的特点相关名词：队尾：写入数据的一段队头：读取数据的一段空队：队列中没有数据，队头指针=队尾指针满队：队列中存满了数据，队尾指针+1=队头指针循环队列1、基本内容循环队列是以数组形式构成的队列数据结构。循环队列的结构体如下：typedefintdata_t;//队列数据类型#defineN64//队列容量typ
古诗十九首⑩ 梁雪微
今日良宴会【原文】今日良宴会①，欢乐难具陈②。弹筝奋逸响③，新声妙入神④。令德唱高言⑤，识曲听其真⑥。齐心同所愿⑦，含意俱未申⑧。人生寄一世，奄忽若飙尘⑨。何不策高足⑩，先据要路津？无为守贫贱，轲常苦辛。【注释】①良宴会：犹言热闹的宴会。良，善也。②难具陈：犹言难以一一述说。具，备也。陈，列也。③筝：乐器。奋逸：不同凡俗的音响。④新声：指当时最流行的曲调，指西北邻族传来的胡乐。妙入神：称赞乐调旋律
一个纯真姑娘被现实社会磨灭了热情幽律
每个初入社会的人，都是满怀憧憬，热情对待这个社会，可往往都是被回馈以欺骗，恐吓，磨灭了热情。我的一个朋友，小吴，来自安徽的姑娘，初出校门，来到这座南方经济发达的城市，善良单纯，待人对事充满了朝气与热情。当时小吴所在的房产中介公司有一位女客户，是退休教师，谈吐方面能感觉得到很有素质，和她先生想要买房，小吴接待的。了解情况后，客户感觉经济方面还是有点压力的，所以委托小吴先帮她卖自己的旧房，周转开来再买
寓美于心琴韵无声
今天是“语文湿地2021网络年会”第一天。年会早上七点在尹东老师和王君老师的激情开幕致辞中开始。一天下来听了八节课，真是“八仙过海，各显神通。”精彩纷呈。愚笨如我，真的是找不出一个恰切的词来形容她们的美妙绝伦。今天一口气吃下了饕餮盛宴，留待日后慢慢反刍吧。今天的压轴大戏是王君老师的《若爱，深深爱；若写，深情写》——跟《土地的誓言》学意象铺排”艺术。又加上是最后一节听的，印象最为深刻。凭着印象先略记
Python 课程10-单元测试可愛小吉 Python教學 python 单元测试开发语言 TDD unittest
前言在现代软件开发中，单元测试已成为一种必不可少的实践。通过测试，我们可以确保每个功能模块在开发和修改过程中按预期工作，从而减少软件缺陷，提高代码质量。而测试驱动开发（TDD）则进一步将测试作为开发的核心部分，先编写测试，再编写代码，以测试为指导开发出更稳定、更可靠的代码。Python提供了强大的unittest模块，它是Python标准库的一部分，专门用于编写和执行单元测试。与其他测试框架相比，
天上的每颗星星都是殉难者的生命摘到月亮了吗
1.“小孩怎么一见到哥哥就脸红”——《偷偷藏不住》2.“娶她是我高中就认定的事”──《痛仰》3.“他扛下一切风雨先你一步成长然后来宠你他真的好喜欢你”——《偏偏宠爱》4.天上的每颗星星都是殉难者的生命——耳东兔子5.未经允许擅自特别喜欢你不好意思了——《默读》6.“许星纯你猜我在干嘛我在等风等风热吻你”——《等风热吻你》7.“我爱你如鲸向海似鸟投林不可避免退无可退”——陆霆骁《许你万丈光芒好》8.
浅谈MapReduce Android路上的人 Hadoop 分布式计算 mapreduce 分布式框架 hadoop
从今天开始，本人将会开始对另一项技术的学习，就是当下炙手可热的Hadoop分布式就算技术。目前国内外的诸多公司因为业务发展的需要，都纷纷用了此平台。国内的比如BAT啦，国外的在这方面走的更加的前面，就不一一列举了。但是Hadoop作为Apache的一个开源项目，在下面有非常多的子项目，比如HDFS，HBase,Hive，Pig,等等，要先彻底学习整个Hadoop，仅仅凭借一个的力量，是远远不够的。
七律卖书张成昱
谁把新筹换旧筹，洛阳心事总难休。纸因字贵凭诗赋，父为儿忙拟马牛。怕入秦坑先入秤，耻尝周粟又尝秋。千金一笑偷相换，万里何妨半卷羞。
朱元璋惩治贪官：贪污60两银子以上斩首，60两相当于现在多少钱？三晋风云客
但凡对明朝历史了解一些，都清楚在明朝做官不容易，而且还得担心自己的身家性命，指不定就因为某些事情就挂了，甚至祸及全家，不过在明代，出现过向皇帝讨薪的官员，还没有出现过朝廷无官的情况，党派之争、贪官污吏依然是存在的。看看朱元璋在位时，为惩治贪官做了哪些努力？对自己所培养的官员都不姑息迁就；制定整肃贪污的纲领《大诰》和《醒贪简要录》；允许民间的百姓上访；并且做出规定：贪污60两银子以上斩首。朱元璋曾先
109期亲子践行70/90 自在飞_2b5a
打卡日期：2019年08月4日90天打卡累计天数：70/90【宣言：超越昨天的自己，做好今天的我！先处理好情绪，再解决问题！监督员：儿子】张贺的第三个30天目标：每天早睡早起9:30-6:30妈妈的第三个30天目标:每天读书至少半小时张贺（10岁）践行打卡10/30（第三个）1.早睡早起：按照出团时间作息完成情况：外出游玩2.先吃青蛙：（1）海拉尔、满洲里游玩（2）看课外书3.️今日闪光点：（1）
我心归处是敦煌：第2季《文化参考》174 陌上花开wen
174樊锦诗和彭金章：敦煌为什么是一门学科昨天文化参考谈到的《荒野上的大师：中国考古百年纪》，介绍了一群敢为人先的地质学家、古生物学家、人类学家、考古学家、建筑学家，它们是各自领域的拓荒者，也是走出书斋、走向旷野的第一代中国人，他们上下求索，前赴后继，终于成就了蔚为大观的浩瀚风气。这节课的《樊锦诗自述》讲述了她在北京大学的求学往事，与终身伴侣、武汉大学考古系创始人彭金章相濡以沫的爱情诗篇，以及50
2019年6月24日（写给我的宝贝苏诗雨6）坚持才能胜利 e5bd79d99424
晚上8点左右跟宝宝商量先弹30分钟钢琴，时间到了吃点水果再弹30分钟。平时告诉她以后会主动的座在钢琴前弹琴，今天反常，不高兴的说不想弹琴，太累了，一遍一遍的！我对宝宝说：学习就是要这样，反反复复，为的是让你更熟练的掌握。还是撅着嘴找各种理由……我对宝宝说，妈妈跟你探讨一个问题，你告诉妈妈你的答案。当时钢琴是你自己选择的对吗？宝宝点点头。那你当时是喜欢它的对吗？答是的。你现在喜欢它吗？答喜欢。喜欢怎
康定城，一颗镶嵌在康巴藏区上的明珠，一曲《康定情歌》传唱至今蚕子桑叶
蚕子在桑叶上行走，小编在地球上旅游，嗨，大家好，我们又见面了！今天继续向大家分享我的“川西自驾游日记”。康定是甘孜州州府所在地。康定历史悠久，是川藏咽喉，茶马古道重镇，藏汉交汇中心。自古以来就是康巴藏区政治、经济、文化、商贸、信息中心和交通枢纽。康定系汉语名，因丹达山以东为“康”，取康地安定之意，故名。藏语称康定为“打折多”，意为打曲（雅拉河）、折曲（折多河）两河交汇处。这里海拔低了不少（2560
夏日随笔日记夏天的夜住在城里的庄户孩子
浅聊微信朋友圈及其它文/王立虎（一）又是一个深夜了，夏天的夜显得有些浮躁有些闷热，透过窗户外面街道上街灯依旧明亮，照着匆忙的车与人回家。关上电脑，打开，还是先完成日更，一直坚持着努力着写着，虽没有什么优秀的大作出现，但有时候还是佩服自己对文学的执着和爱好，佩服自己的自律。写点吧，在这夜深人静的时候，独处着，习惯着，随笔写下自己一天的心情，有感悟，有事件，有温度，我想写下总是好的。也有人喜欢这个点来
夏天孩子吹空调和不吹空调，在这3方面的差距明显，别不知道张女子育儿
大家好，我是张女子育儿！夏天让宝宝吹空调好，还是不吹空调好呢？可能有些父母会认为不让孩子吹空调更好，因为空调吹多了，容易让孩子更加怕热，并且空调屋里容易滋生细菌，长时间待在空调房里，容易导致孩子身体免疫力下降，让宝宝更容易感冒生病。然而事实上真的是如此吗？先不论这话是否有科学依据，就单说如今接近40度的高温，很多成人都会热的受不了，更不要说小孩子了。就连我们大人同样是被热得难受，恨不得整天都躲在空
家庭教育，先家庭后教育：家庭是硬件，教育是软件唯唯育家
很多家长为孩子付出很多，也学习很多家庭教育课程，看很多家庭教育书籍，为什么还是教育孩子很困难？因为主次颠倒，没有抓住家庭教育的主干！家庭教育，很多家长只行使“教育”功能，忽视了“家庭”功能！家长总想着怎么教孩子，怎么教育孩子！如果单靠教育，就能把孩子教好，学校老师在教育方面比家长在行，孩子应该在学校就被教好了，哪还需要家庭教育？为什么只有学校教育不够，还需要家庭教育？家庭教育的主要功能不在“教育”
leetcode刷题day13|二叉树Part01（递归遍历、迭代遍历、统一迭代、层序遍历）小冉在学习 leetcode 算法职场和发展
递归遍历思路：使用递归的方式比较简单。1、递归函数的传参：因为最后输出一个数组，所以需要传入根节点和一个容器，本来想写数组，但发现长度不能确定，所以选择list。2、终止条件：当访问的节点为空时，return3、递归函数的逻辑：先访问一个节点，递归访问其他节点144.二叉树的前序遍历代码如下：classSolution{publicListpreorderTraversal(TreeNoderoo
【品读国学经典】大学：第一章冰清九月
【原文】大学之道，在明明德，在亲民，在止于至善。知止而后有定，定而后能静，静而后能安，安而后能虑，虑而后能得。物有本末，事有终始。知所先后，则近道矣。古之欲明明德于天下者，先治其国;欲治其国者，先齐其家;欲齐其家者，先修其身;欲修其身者，先正其心;欲正其心者，先诚其意;欲诚其意者，先致其知;致知在格物。物格而后知至，知至而后意诚，意诚而后心正，心正而后身修，身修而后家齐，家齐而后国治，国治而后天下
Codeforces Round 972 (Div. 2) A-C 题解 AKDreamer_HeXY Codeforces 比赛题解 c++算法动态规划数据结构贪心算法
本来以为B2难度会1900什么的，结果感觉1200还没有，先做的B1，后悔了QwQ关于我现场没切出C这件事……现场排名：A.SimplePalindrome题意构造一个长度为nnn的字符串，只包含aeiou五种字母，需要使得构造出来的字符串所包含的回文子序列数量最小思路当n≤5n\le5n≤5时，只要555个字母不重复出现都是最优情况当n>5n>5n>5时，可以证明：把相同字母放在一起是最优情况：
2019-12-24 云叶子2020
金针菇、黄甜椒、葱段、蒜蓉、生抽、香醋、香油、蜂蜜（糖）。做法：1、水烧开，先放入金针菇、黄甜椒丝烫30秒，最后加入葱丝拌匀，捞出；2、将捞出的1料放入冰水里浸泡半分钟；3、1.5勺生抽、1勺香醋、小半勺蜂蜜（糖）和蒜蓉充分拌匀成湿料，将2料捞出，轻轻挤干水分放入拌匀；4、上桌前滴几滴香油即可。贴心提示：1、金针菇非常细嫩，在水里汆烫的时间最好不要超过30秒，否则口感太老，咀嚼的时候会塞牙；2、汆
iOS http封装 374016526 ios 服务器交互 http 网络请求
程序开发避免不了与服务器的交互，这里打包了一个自己写的http交互库。希望可以帮到大家。内置一个basehttp，当我们创建自己的service可以继承实现。 KuroAppBaseHttp *baseHttp = [[KuroAppBaseHttp alloc] init]; [baseHttp setDelegate:self]; [baseHttp
lolcat ：一个在 Linux 终端中输出彩虹特效的命令行工具 brotherlamp linux linux教程 linux视频 linux自学 linux资料
那些相信 Linux 命令行是单调无聊且没有任何乐趣的人们，你们错了，这里有一些有关 Linux 的文章，它们展示着 Linux 是如何的有趣和“淘气” 。在本文中，我将讨论一个名为“lolcat”的小工具 – 它可以在终端中生成彩虹般的颜色。何为 lolcat ? Lolcat 是一个针对 Linux，BSD 和 OSX 平台的工具，它类似于 cat 命令，并为 cat
MongoDB索引管理（1）——[九] eksliang mongodb MongoDB管理索引
转载请出自出处：http://eksliang.iteye.com/blog/2178427 一、概述数据库的索引与书籍的索引类似，有了索引就不需要翻转整本书。数据库的索引跟这个原理一样，首先在索引中找，在索引中找到条目以后，就可以直接跳转到目标文档的位置，从而使查询速度提高几个数据量级。不使用索引的查询称
Informatica参数及变量 18289753290 Informatica 参数变量
下面是本人通俗的理解，如有不对之处，希望指正 info参数的设置：在info中用到的参数都在server的专门的配置文件中（最好以parma）结尾下面的GLOBAl就是全局的，$开头的是系统级变量，$$开头的变量是自定义变量。如果是在session中或者mapping中用到的变量就是局部变量，那就把global换成对应的session或者mapping名字。 [GLOBAL] $Par
python 解析unicode字符串为utf8编码字符串酷的飞上天空 unicode
php返回的json字符串如果包含中文，则会被转换成\uxx格式的unicode编码字符串返回。在浏览器中能正常识别这种编码，但是后台程序却不能识别，直接输出显示的是\uxx的字符，并未进行转码。转换方式如下 >>> import json >>> q = '{"text":"\u4
Hibernate的总结永夜-极光 Hibernate
1.hibernate的作用,简化对数据库的编码,使开发人员不必再与复杂的sql语句打交道做项目大部分都需要用JAVA来链接数据库，比如你要做一个会员注册的页面，那么获取到用户填写的基本信后，你要把这些基本信息存入数据库对应的表中，不用hibernate还有mybatis之类的框架，都不用的话就得用JDBC，也就是JAVA自己的，用这个东西你要写很多的代码，比如保存注册信
SyntaxError: Non-UTF-8 code starting with '\xc4' 随便小屋 python
刚开始看一下Python语言，传说听强大的，但我感觉还是没Java强吧！写Hello World的时候就遇到一个问题，在Eclipse中写的，代码如下 ''' Created on 2014年10月27日 @author: Logic ''' print("Hello World!"); 运行结果 SyntaxError: Non-UTF-8
学会敬酒礼仪不做酒席菜鸟 aijuans 菜鸟
俗话说，酒是越喝越厚，但在酒桌上也有很多学问讲究，以下总结了一些酒桌上的你不得不注意的小细节。细节一：领导相互喝完才轮到自己敬酒。敬酒一定要站起来，双手举杯。细节二：可以多人敬一人，决不可一人敬多人，除非你是领导。细节三：自己敬别人，如果不碰杯，自己喝多少可视乎情况而定，比如对方酒量，对方喝酒态度，切不可比对方喝得少，要知道是自己敬人。细节四：自己敬别人，如果碰杯，一
《创新者的基因》读书笔记 aoyouzi 读书笔记《创新者的基因》
创新者的基因创新者的“基因”，即最具创意的企业家具备的五种“发现技能”：联想，观察，实验，发问，建立人脉。第一部分破坏性创新，从你开始第一章破坏性创新者的基因如何获得启示：发现以下的因素起到了催化剂的作用：(1) -个挑战现状的问题；(2)对某项技术、某个公司或顾客的观察；(3) -次尝试新鲜事物的经验或实验；(4)与某人进行了一次交谈，为他点醒
表单验证技术百合不是茶 JavaScript DOM对象 String对象事件
js最主要的功能就是验证表单,下面是我对表单验证的一些理解,贴出来与大家交流交流 ,数显我们要知道表单验证需要的技术点, String对象,事件,函数一:String对象;通常是对字符串的操作; 1,String的属性; 字符串.length;表示该字符串的长度; var str= "java"
web.xml配置详解之context-param bijian1013 java servlet web.xml context-param
一.格式定义： <context-param> <param-name>contextConfigLocation</param-name> <param-value>contextConfigLocationValue></param-value> </context-param> 作用：该元
Web系统常见编码漏洞（开发工程师知晓） Bill_chen sql PHP Web fckeditor 脚本
1.头号大敌：SQL Injection 原因：程序中对用户输入检查不严格，用户可以提交一段数据库查询代码，根据程序返回的结果，获得某些他想得知的数据，这就是所谓的SQL Injection，即SQL注入。本质: 对于输入检查不充分，导致SQL语句将用户提交的非法数据当作语句的一部分来执行。示例： String query = "SELECT id FROM users
【MongoDB学习笔记六】MongoDB修改器 bit1129 mongodb
本文首先介绍下MongoDB的基本的增删改查操作，然后，详细介绍MongoDB提供的修改器，以完成各种各样的文档更新操作 MongoDB的主要操作 show dbs 显示当前用户能看到哪些数据库 use foobar 将数据库切换到foobar show collections 显示当前数据库有哪些集合 db.people.update，update不带参数，可
提高职业素养，做好人生规划白糖_ 人生
培训讲师是成都著名的企业培训讲师，他在讲课中提出的一些观点很新颖，在此我收录了一些分享一下。注：讲师的观点不代表本人的观点，这些东西大家自己揣摩。 1、什么是职业规划：职业规划并不完全代表你到什么阶段要当什么官要拿多少钱，这些都只是梦想。职业规划是清楚的认识自己现在缺什么，这个阶段该学习什么，下个阶段缺什么，又应该怎么去规划学习，这样才算是规划。
国外的网站你都到哪边看？ bozch 技术网站国外
学习软件开发技术，如果没有什么英文基础，最好还是看国内的一些技术网站，例如：开源OSchina，csdn，iteye,51cto等等。个人感觉如果英语基础能力不错的话，可以浏览国外的网站来进行软件技术基础的学习，例如java开发中常用的到的网站有apache.org 里面有apache的很多Projects,springframework.org是spring相关的项目网站,还有几个感觉不错的
编程之美-光影切割问题 bylijinnan 编程之美
package a; public class DisorderCount { /**《编程之美》“光影切割问题” * 主要是两个问题： * 1.数学公式（设定没有三条以上的直线交于同一点）： * 两条直线最多一个交点，将平面分成了4个区域； * 三条直线最多三个交点，将平面分成了7个区域； * 可以推出：N条直线 M个交点，区域数为N+M+1。
关于Web跨站执行脚本概念 chenbowen00 Web 安全跨站执行脚本
跨站脚本攻击(XSS)是web应用程序中最危险和最常见的安全漏洞之一。安全研究人员发现这个漏洞在最受欢迎的网站,包括谷歌、Facebook、亚马逊、PayPal,和许多其他网站。如果你看看bug赏金计划,大多数报告的问题属于 XSS。为了防止跨站脚本攻击,浏览器也有自己的过滤器,但安全研究人员总是想方设法绕过这些过滤器。这个漏洞是通常用于执行cookie窃取、恶意软件传播,会话劫持,恶意重定向。在
[开源项目与投资]投资开源项目之前需要统计该项目已有的用户数 comsci 开源项目
现在国内和国外,特别是美国那边,突然出现很多开源项目,但是这些项目的用户有多少,有多少忠诚的粉丝,对于投资者来讲,完全是一个未知数,那么要投资开源项目,我们投资者必须准确无误的知道该项目的全部情况,包括项目发起人的情况,项目的维持时间..项目的技术水平,项目的参与者的势力,项目投入产出的效益.....
oracle alert log file（告警日志文件） daizj oracle 告警日志文件 alert log file
The alert log is a chronological log of messages and errors, and includes the following items: All internal errors (ORA-00600), block corruption errors (ORA-01578), and deadlock errors (ORA-00060)
关于 CAS SSO 文章声明 denger SSO
由于几年前写了几篇 CAS 系列的文章，之后陆续有人参照文章去实现，可都遇到了各种问题，同时经常或多或少的收到不少人的求助。现在这时特此说明几点： 1. 那些文章发表于好几年前了，CAS 已经更新几个很多版本了，由于近年已经没有做该领域方面的事情，所有文章也没有持续更新。 2. 文章只是提供思路，尽管 CAS 版本已经发生变化，但原理和流程仍然一致。最重要的是明白原理，然后
初二上学期难记单词 dcj3sjt126com english word
lesson 课 traffic 交通 matter 要紧；事物 happy 快乐的，幸福的 second 第二的 idea 主意；想法；意见 mean 意味着 important 重要的，重大的 never 从来，决不 afraid 害怕的 fifth 第五的 hometown 故乡，家乡 discuss 讨论；议论 east 东方的 agree 同意；赞成 bo
uicollectionview 纯代码布局, 添加头部视图 dcj3sjt126com Collection
#import <UIKit/UIKit.h> @interface myHeadView : UICollectionReusableView { UILabel *TitleLable; } -(void)setTextTitle; @end #import "myHeadView.h" @implementation m
N 位随机数字串的 JAVA 生成实现 FX夜归人 java Math 随机数 Random
/** * 功能描述随机数工具类<br /> * @author FengXueYeGuiRen * 创建时间 2014-7-25<br /> */ public class RandomUtil { // 随机数生成器 private static java.util.Random random = new java.util.R
Ehcache（09）——缓存Web页面 234390216 ehcache 页面缓存
页面缓存目录 1 SimplePageCachingFilter 1.1 calculateKey 1.2 可配置的初始化参数 1.2.1 cach
spring中少用的注解@primary解析 jackyrong primary
这次看下spring中少见的注解@primary注解，例子 @Component public class MetalSinger implements Singer{ @Override public String sing(String lyrics) { return "I am singing with DIO voice
Java几款性能分析工具的对比 lbwahoo java
Java几款性能分析工具的对比摘自：http://my.oschina.net/liux/blog/51800 在给客户的应用程序维护的过程中，我注意到在高负载下的一些性能问题。理论上，增加对应用程序的负载会使性能等比率的下降。然而，我认为性能下降的比率远远高于负载的增加。我也发现，性能可以通过改变应用程序的逻辑来提升，甚至达到极限。为了更详细的了解这一点，我们需要做一些性能
JVM参数配置大全 nickys jvm 应用服务器
JVM参数配置大全 /usr/local/jdk/bin/java -Dresin.home=/usr/local/resin -server -Xms1800M -Xmx1800M -Xmn300M -Xss512K -XX:PermSize=300M -XX:MaxPermSize=300M -XX:SurvivorRatio=8 -XX:MaxTenuringThreshold=5 -
搭建 CentOS 6 服务器(14) - squid、Varnish rensanning varnish
（一）squid 安装 # yum install httpd-tools -y # htpasswd -c -b /etc/squid/passwords squiduser 123456 # yum install squid -y 设置 # cp /etc/squid/squid.conf /etc/squid/squid.conf.bak # vi /etc/
Spring缓存注解@Cache使用 tom_seed spring
参考资料 http://www.ibm.com/developerworks/cn/opensource/os-cn-spring-cache/ http://swiftlet.net/archives/774 缓存注解有以下三个： @Cacheable @CacheEvict @CachePut
dom4j解析XML时出现"java.lang.noclassdeffounderror: org/jaxen/jaxenexception"错误 xp9802
java.lang.NoClassDefFoundError: org/jaxen/JaxenExc 关键字: java.lang.noclassdeffounderror: org/jaxen/jaxenexception 使用dom4j解析XML时，要快速获取某个节点的数据，使用XPath是个不错的方法，dom4j的快速手册里也建议使用这种方式执行时却抛出以下异常： Exceptio