bibby010

Python爬虫实战六之抓取爱问知识人问题并保存至数据库

大家好，本次为大家带来的是抓取爱问知识人的问题并将问题和答案保存到数据库的方法，涉及的内容包括：

Urllib的用法及异常处理
Beautiful Soup的简单应用
MySQLdb的基础用法
正则表达式的简单应用

环境配置

在这之前，我们需要先配置一下环境，我的Python的版本为2.7，需要额外安装的库有两个，一个是Beautiful Soup，一个是MySQLdb，在这里附上两个库的下载地址，

Beautiful Soup MySQLdb

大家可以下载之后通过如下命令安装

环境配置好之后，我们便可以开心地撸爬虫了

框架思路

首先我们随便找一个分类地址，外语学习 – 爱问知识人，打开之后可以看到一系列的问题列表。

我们在这个页面需要获取的东西有：

总的页码数，每一页的所有问题链接。

接下来我们需要遍历所有的问题，来抓取每一个详情页面，提取问题，问题内容，回答者，回答时间，回答内容。

最后，我们需要把这些内容存储到数据库中。

要点简析

其实大部分内容相信大家会了前面的内容，这里的爬虫思路已经融汇贯通了，这里就说一下一些扩展的功能

1.日志输出

日志输出，我们要输出时间和爬取的状态，比如像下面这样：

[2015-08-10 03:05:20] 113011 号问题存在其他答案我个人认为应该是樱桃沟很美的

[2015-08-10 03:05:20] 保存到数据库,此问题的ID为 113011

[2015-08-10 03:05:20] 当前爬取第 2 的内容,发现一个问题百度有一个地方，花儿带着芳香，水儿流淌奔腾是什么意思多多帮忙哦回答数量 1

[2015-08-10 03:05:19] 保存到数据库,此问题的ID为 113010

所以，我们需要引入时间函数，然后写一个获取当前时间的函数

以上分别是获取带具体时间和获取日期的函数，在输出时，我们可以在输出语句的前面调用这函数即可。

然后我们需要将缓冲区设置输出到log中，在程序的最前面加上这两句即可

这样，所有的print语句输出的内容就会保存到out.log文件中了。

2.页码保存

爬虫爬取过程中可能出现各种各样的错误，这样会导致爬虫的中断，如果我们重新运行爬虫，那么就会导致爬虫从头开始运行了，这样显然是不合理的。所以，我们需要把当前爬取的页面保存下来，比如可以保存到文本中，假如爬虫中断了，重新运行爬虫，读取文本文件的内容，接着爬取即可。

大家可以稍微参考一下函数的实现：

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
          #主函数 
         
          def  
          main 
          ( 
          self 
          ) 
          : 
         
          f_handler 
          = 
          open 
          ( 
          'out.log' 
          , 
            
          'w' 
          ) 
            
          sys 
          . 
          stdout 
          = 
          f_handler 
         
          page 
            
          = 
            
          open 
          ( 
          'page.txt' 
          , 
            
          'r' 
          ) 
         
          content 
            
          = 
            
          page 
          . 
          readline 
          ( 
          ) 
         
          start_page 
            
          = 
            
          int 
          ( 
          content 
          . 
          strip 
          ( 
          ) 
          ) 
            
          - 
            
          1 
         
          page 
          . 
          close 
          ( 
          ) 
                
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "开始页码" 
          , 
          start_page 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "爬虫正在启动,开始爬取爱问知识人问题" 
         
          self 
          . 
          total_num 
            
          = 
            
          self 
          . 
          getTotalPageNum 
          ( 
          ) 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "获取到目录页面个数" 
          , 
          self 
          . 
          total_num 
          , 
          "个" 
         
          if 
            
          not 
            
          start_page 
          : 
         
          start_page 
            
          = 
            
          self 
          . 
          total_num 
         
          for 
            
          x 
            
          in 
            
          range 
          ( 
          1 
          , 
          start_page 
          ) 
          : 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "正在抓取第" 
          , 
          start_page 
          - 
          x 
          + 
          1 
          , 
          "个页面" 
         
          try 
          : 
         
          self 
          . 
          getQuestions 
          ( 
          start_page 
          - 
          x 
          + 
          1 
          ) 
         
          except  
          urllib2 
          . 
          URLError 
          , 
            
          e 
          : 
         
          if 
            
          hasattr 
          ( 
          e 
          , 
            
          "reason" 
          ) 
          : 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "某总页面内抓取或提取失败,错误原因" 
          , 
            
          e 
          . 
          reason 
         
          except  
          Exception 
          , 
          e 
          : 
             
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "某总页面内抓取或提取失败,错误原因:" 
          , 
          e 
         
          if 
            
          start_page 
          - 
          x 
          + 
          1 
            
          < 
            
          start_page 
          : 
         
          f 
          = 
          open 
          ( 
          'page.txt' 
          , 
          'w' 
          ) 
         
          f 
          . 
          write 
          ( 
          str 
          ( 
          start_page 
          - 
          x 
          + 
          1 
          ) 
          ) 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "写入新页码" 
          , 
          start_page 
          - 
          x 
          + 
          1 
         
          f 
          . 
          close 
          ( 
          )

这样，不管我们爬虫中途遇到什么错误，妈妈也不会担心了

3.页面处理

页面处理过程中，我们可能遇到各种各样奇葩的HTML代码，和上一节一样，我们沿用一个页面处理类即可。

 
    ||
|
') 
               
          #将表格制表
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
          import  
          re 
         
          #处理页面标签类 
         
          class 
            
          Tool 
          : 
         
          #将超链接广告剔除 
         
          removeADLink 
            
          = 
            
          re 
          . 
          compile 
          ( 
          ') 
         
          #去除img标签,1-7位空格,  
         
          removeImg 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '| {1,7}| ' 
          ) 
         
          #删除超链接标签 
         
          removeAddr 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '|' 
          ) 
         
          #把换行的标签换为\n 
         
          replaceLine 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '
 
         替换为\t 
          
          replaceTD 
          = 
            
          re 
          . 
          compile 
          ( 
          '
' 
          ) 
               
          #将换行符或双换行符替换为\n 
         
          replaceBR 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '

|
' 
          ) 
         
          #将其余标签剔除 
         
          removeExtraTag 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '<.*?>' 
          ) 
         
          #将多行空行删除 
         
          removeNoneLine 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '\n+' 
          ) 
         
          def  
          replace 
          ( 
          self 
          , 
          x 
          ) 
          : 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          removeADLink 
          , 
          "" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          removeImg 
          , 
          "" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          removeAddr 
          , 
          "" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          replaceLine 
          , 
          "\n" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          replaceTD 
          , 
          "\t" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          replaceBR 
          , 
          "\n" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          removeExtraTag 
          , 
          "" 
          , 
          x 
          ) 
         
          x 
            
          = 
            
          re 
          . 
          sub 
          ( 
          self 
          . 
          removeNoneLine 
          , 
          "\n" 
          , 
          x 
          ) 
         
          #strip()将前后多余内容删除 
         
          return 
            
          x 
          . 
          strip 
          ( 
          )

我们可以用一段含有HTML代码的文字，经过调用replace方法之后，各种冗余的HTML代码就会处理好了。

比如我们这么一段代码：

 
   
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         

           7 
         

           8 
         

           9 
         

           10 
         

           11 
         

           12 
         
 
        
          < 
          article  
          class 
          = 
          "article-content" 
          > 
         
 
          < 
          h2 
          >前言 
          < 
          / 
          h2 
          > 
         
 
          < 
          p 
          >最近发现 
          MySQL服务隔三差五就会挂掉，导致我的网站和爬虫都无法正常运作。自己的网站是基于 
          MySQL，在做爬虫存取一些资料的时候也是基于 
          MySQL，数据量一大了， 
          MySQL它就有点受不了了，时不时会崩掉，虽然我自己有网站监控和邮件通知，但是好多时候还是需要我来手动连接我的服务器重新启动一下我的 
          MySQL，这样简直太不友好了，所以，我就觉定自己写个脚本，定时监控它，如果发现它挂掉了就重启它。 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          >好了，闲言碎语不多讲，开始我们的配置之旅。 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          >运行环境： 
          < 
          strong 
          > 
          Ubuntu  
          Linux 
            
          14.04 
          < 
          / 
          strong 
          > 
          < 
          / 
          p 
          > 
         
 
          < 
          h2 
          >编写 
          Shell脚本 
          < 
          / 
          h2 
          > 
         
 
          < 
          p 
          >首先，我们要编写一个 
          shell脚本，脚本主要执行的逻辑如下： 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          >显示 
          mysqld进程状态，如果判断进程未在运行，那么输出日志到文件，然后启动 
          mysql服务，如果进程在运行，那么不执行任何操作，可以选择性输出监测结果。 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          >可能大家对于 
          shell脚本比较陌生，在这里推荐官方的 
          shell脚本文档来参考一下 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          > 
          < 
          a 
            
          href 
          = 
          "http://wiki.ubuntu.org.cn/Shell%E7%BC%96%E7%A8%8B%E5%9F%BA%E7%A1%80" 
            
          data 
          - 
          original 
          - 
          title 
          = 
          "" 
            
          title 
          = 
          "" 
          > 
          Ubuntu  
          Shell 
           编程基础 
          < 
          / 
          a 
          > 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          > 
          shell脚本的后缀为 
          sh，在任何位置新建一个脚本文件，我选择在 
            
          / 
          etc 
          / 
          mysql 
           目录下新建一个 
            
          listen 
          . 
          sh 
           文件。 
          < 
          / 
          p 
          > 
         
 
          < 
          p 
          >执行如下命令： 
          < 
          / 
          p 
          > 
         
 
      
 
     
   

经过处理后便会变成如下的样子：

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           前言 
         
           最近发现 
          MySQL服务隔三差五就会挂掉，导致我的网站和爬虫都无法正常运作。自己的网站是基于 
          MySQL，在做爬虫存取一些资料的时候也是基于 
          MySQL，数据量一大了， 
          MySQL它就有点受不了了，时不时会崩掉，虽然我自己有网站监控和邮件通知，但是好多时候还是需要我来手动连接我的服务器重新启动一下我的 
          MySQL，这样简直太不友好了，所以，我就觉定自己写个脚本，定时监控它，如果发现它挂掉了就重启它。 
         
           好了，闲言碎语不多讲，开始我们的配置之旅。 
         
           运行环境： 
          UbuntuLinux14 
          . 
          04 
         
           编写 
          Shell脚本 
         
           首先，我们要编写一个 
          shell脚本，脚本主要执行的逻辑如下： 
         
           显示 
          mysqld进程状态，如果判断进程未在运行，那么输出日志到文件，然后启动 
          mysql服务，如果进程在运行，那么不执行任何操作，可以选择性输出监测结果。 
         
           可能大家对于 
          shell脚本比较陌生，在这里推荐官方的 
          shell脚本文档来参考一下 
         
          UbuntuShell编程基础 
         
          shell脚本的后缀为 
          sh，在任何位置新建一个脚本文件，我选择在 
          / 
          etc 
          / 
          mysql目录下新建一个 
          listen 
          . 
          sh文件。 
         
           执行如下命令：

经过上面的处理，所有乱乱的代码都会被处理好了。

4.保存到数据库

在这里，我们想实现一个通用的方法，就是把存储的一个个内容变成字典的形式，然后执行插入语句的时候，自动构建对应的sql语句，插入数据。

比如我们构造如下的字典：

构造sql语句并插入到数据库的方法如下：

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
          #插入数据 
         
          def  
          insertData 
          ( 
          self 
          , 
            
          table 
          , 
            
          my_dict 
          ) 
          : 
         
          try 
          : 
         
          self 
          . 
          db 
          . 
          set_character_set 
          ( 
          'utf8' 
          ) 
         
          cols 
            
          = 
            
          ', ' 
          . 
          join 
          ( 
          my_dict 
          . 
          keys 
          ( 
          ) 
          ) 
         
          values 
            
          = 
            
          '"," ' 
          . 
          join 
          ( 
          my_dict 
          . 
          values 
          ( 
          ) 
          ) 
         
          sql 
            
          = 
            
          "INSERT INTO %s (%s) VALUES (%s)" 
            
          % 
            
          ( 
          table 
          , 
            
          cols 
          , 
            
          '"' 
          + 
          values 
          + 
          '"' 
          ) 
         
          try 
          : 
         
          result 
            
          = 
            
          self 
          . 
          cur 
          . 
          execute 
          ( 
          sql 
          ) 
         
          insert_id 
            
          = 
            
          self 
          . 
          db 
          . 
          insert_id 
          ( 
          ) 
         
          self 
          . 
          db 
          . 
          commit 
          ( 
          ) 
         
          #判断是否执行成功 
         
          if 
            
          result 
          : 
         
          return 
            
          insert_id 
         
          else 
          : 
         
          return 
            
          0 
         
          except  
          MySQLdb 
          . 
          Error 
          , 
          e 
          : 
         
          #发生错误时回滚 
         
          self 
          . 
          db 
          . 
          rollback 
          ( 
          ) 
         
          #主键唯一，无法插入 
         
          if 
            
          "key 'PRIMARY'" 
            
          in 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          : 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "数据已存在，未插入数据" 
         
          else 
          : 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "插入数据失败，原因 %d: %s" 
            
          % 
            
          ( 
          e 
          . 
          args 
          [ 
          0 
          ] 
          , 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          ) 
         
          except  
          MySQLdb 
          . 
          Error 
          , 
          e 
          : 
         
          print  
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "数据库错误，原因%d: %s" 
            
          % 
            
          ( 
          e 
          . 
          args 
          [ 
          0 
          ] 
          , 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          )

这里我们只需要传入那个字典，便会构建出对应字典键值和键名的sql语句，完成插入。

5.PHP读取日志

我们将运行结果输出到了日志里，那么怎么查看日志呢？很简单，在这里提供两种方法

方法一：

PHP倒序输出所有日志内容

此方法可以看到所有的输入日志，但是如果日志太大了，那么就会报耗费内存太大，无法输出。为此我们就有了第二种方法，利用linux命令，输出后十行内容。

方法二：

 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
          < 
          html 
          > 
         
          < 
          head 
          > 
         
          < 
          meta  
          charset 
          = 
          "utf-8" 
          > 
         
          < 
          meta  
          http 
          - 
          equiv 
          = 
          "refresh" 
            
          content 
            
          = 
            
          "5" 
          > 
            
          < 
          / 
          head 
          > 
         
          < 
          body 
          > 
         
          $ph 
            
          = 
            
          popen 
          ( 
          'tail -n 100 out.log' 
          , 
          'r' 
          ) 
          ; 
         
          while 
          ( 
          $r 
            
          = 
            
          fgets 
          ( 
          $ph 
          ) 
          ) 
          { 
         
          echo 
            
          $r 
          . 
          "
" 
          ; 
         
          } 
         
          pclose 
          ( 
          $ph 
          ) 
          ; 
         
          ?> 
         
          < 
          / 
          body 
          > 
         
          < 
          / 
          html 
          >

上面两种方法都是5秒刷新一次网页来查看最新的日志。

源代码放送

好了，闲言碎语不多讲，直接上源码了

 
Python
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
          # -*- coding:utf-8 -*- 
         
          import 
            
          urllib 
         
          import 
            
          urllib2 
         
          import 
            
          re 
         
          import 
            
          time 
         
          import 
            
          types 
         
          import 
            
          page 
         
          import 
            
          mysql 
         
          import 
            
          sys 
         
          from 
            
          bs4  
          import 
            
          BeautifulSoup 
         
          class 
            
          Spider 
          : 
         
          #初始化 
         
          def 
            
          __init__ 
          ( 
          self 
          ) 
          : 
         
          self 
          . 
          page_num 
            
          = 
            
          1 
         
          self 
          . 
          total_num 
            
          = 
            
          None 
         
          self 
          . 
          page_spider 
            
          = 
            
          page 
          . 
          Page 
          ( 
          ) 
         
          self 
          . 
          mysql 
            
          = 
            
          mysql 
          . 
          Mysql 
          ( 
          ) 
         
          #获取当前时间 
         
          def 
            
          getCurrentTime 
          ( 
          self 
          ) 
          : 
         
          return 
            
          time 
          . 
          strftime 
          ( 
          '[%Y-%m-%d %H:%M:%S]' 
          , 
          time 
          . 
          localtime 
          ( 
          time 
          . 
          time 
          ( 
          ) 
          ) 
          ) 
         
          #获取当前时间 
         
          def 
            
          getCurrentDate 
          ( 
          self 
          ) 
          : 
         
          return 
            
          time 
          . 
          strftime 
          ( 
          '%Y-%m-%d' 
          , 
          time 
          . 
          localtime 
          ( 
          time 
          . 
          time 
          ( 
          ) 
          ) 
          ) 
         
          #通过网页的页码数来构建网页的URL

 
Python
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
          # -*- coding:utf-8 -*- 
         
          import 
            
          urllib 
         
          import 
            
          urllib2 
         
          import 
            
          re 
         
          import 
            
          time 
         
          import 
            
          types 
            
          import 
            
          tool 
         
          from 
            
          bs4  
          import 
            
          BeautifulSoup 
         
          #抓取分析某一问题和答案 
         
          class 
            
          Page 
          : 
         
          def 
            
          __init__ 
          ( 
          self 
          ) 
          : 
         
          self 
          . 
          tool 
            
          = 
            
          tool 
          . 
          Tool 
          ( 
          ) 
         
          #获取当前时间 
         
          def 
            
          getCurrentDate 
          ( 
          self 
          ) 
          : 
         
          return 
            
          time 
          . 
          strftime 
          ( 
          '%Y-%m-%d' 
          , 
          time 
          . 
          localtime 
          ( 
          time 
          . 
          time 
          ( 
          ) 
          ) 
          ) 
         
          #获取当前时间 
         
          def 
            
          getCurrentTime 
          ( 
          self 
          ) 
          : 
         
          return 
            
          time 
          . 
          strftime 
          ( 
          '[%Y-%m-%d %H:%M:%S]' 
          , 
          time 
          . 
          localtime 
          ( 
          time 
          . 
          time 
          ( 
          ) 
          ) 
          ) 
         
          #通过页面的URL来获取页面的代码 
         
          def 
            
          getPageByURL 
          ( 
          self 
          , 
            
          url 
          ) 
          : 
         
          try 
          : 
         
          request 
            
          = 
            
          urllib2 
          . 
          Request 
          ( 
          url 
          ) 
         
          response 
            
          = 
            
          urllib2 
          . 
          urlopen 
          ( 
          request 
          ) 
         
          return 
            
          response 
          . 
          read 
          ( 
          ) 
          . 
          decode 
          ( 
          "utf-8" 
          ) 
            
          except 
            
          urllib2 
          . 
          URLError 
          , 
            
          e 
          :

 
Python
 
    ||
|
') 
               
          #将表格制表
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
          #-*- coding:utf-8 -*- 
         
          import 
            
          re 
         
          #处理页面标签类 
         
          class 
            
          Tool 
          : 
         
          #将超链接广告剔除 
         
          removeADLink 
            
          = 
            
          re 
          . 
          compile 
          ( 
          ') 
         
          #去除img标签,1-7位空格,  
         
          removeImg 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '| {1,7}| ' 
          ) 
         
          #删除超链接标签 
         
          removeAddr 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '|' 
          ) 
         
          #把换行的标签换为\n 
         
          replaceLine 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '
 
         替换为\t 
          
          replaceTD 
          = 
            
          re 
          . 
          compile 
          ( 
          '
' 
          ) 
               
          #将换行符或双换行符替换为\n 
         
          replaceBR 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '

|
' 
          ) 
         
          #将其余标签剔除 
         
          removeExtraTag 
            
          = 
            
          re 
          . 
          compile 
          ( 
          '<.*?>' 
          )

 
Python
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
           20 
         
           21 
         
           22 
         
           23 
         
           24 
         
           25 
         
           26 
         
           27 
         
           28 
         
           29 
         
           30 
         
           31 
         
           32 
         
           33 
         
           34 
         
           35 
         
           36 
         
           37 
         
           38 
         
           39 
         
           40 
         
           41 
         
           42 
         
           43 
         
           44 
         
           45 
         
           46 
         
          # -*- coding:utf-8 -*- 
         
          import 
            
          MySQLdb 
         
          import 
            
          time 
         
          class 
            
          Mysql 
          : 
         
          #获取当前时间 
         
          def 
            
          getCurrentTime 
          ( 
          self 
          ) 
          : 
         
          return 
            
          time 
          . 
          strftime 
          ( 
          '[%Y-%m-%d %H:%M:%S]' 
          , 
          time 
          . 
          localtime 
          ( 
          time 
          . 
          time 
          ( 
          ) 
          ) 
          ) 
         
          #数据库初始化 
         
          def 
            
          __init__ 
          ( 
          self 
          ) 
          : 
         
          try 
          : 
         
          self 
          . 
          db 
            
          = 
            
          MySQLdb 
          . 
          connect 
          ( 
          'ip' 
          , 
          'username' 
          , 
          'password' 
          , 
          'db_name' 
          ) 
         
          self 
          . 
          cur 
            
          = 
            
          self 
          . 
          db 
          . 
          cursor 
          ( 
          ) 
         
          except 
            
          MySQLdb 
          . 
          Error 
          , 
          e 
          : 
         
          print 
            
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "连接数据库错误，原因%d: %s" 
            
          % 
            
          ( 
          e 
          . 
          args 
          [ 
          0 
          ] 
          , 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          ) 
         
          #插入数据 
         
          def 
            
          insertData 
          ( 
          self 
          , 
            
          table 
          , 
            
          my_dict 
          ) 
          : 
         
          try 
          : 
         
          self 
          . 
          db 
          . 
          set_character_set 
          ( 
          'utf8' 
          ) 
         
          cols 
            
          = 
            
          ', ' 
          . 
          join 
          ( 
          my_dict 
          . 
          keys 
          ( 
          ) 
          ) 
         
          values 
            
          = 
            
          '"," ' 
          . 
          join 
          ( 
          my_dict 
          . 
          values 
          ( 
          ) 
          ) 
         
          sql 
            
          = 
            
          "INSERT INTO %s (%s) VALUES (%s)" 
            
          % 
            
          ( 
          table 
          , 
            
          cols 
          , 
            
          '"' 
          + 
          values 
          + 
          '"' 
          ) 
         
          try 
          : 
         
          result 
            
          = 
            
          self 
          . 
          cur 
          . 
          execute 
          ( 
          sql 
          ) 
         
          insert_id 
            
          = 
            
          self 
          . 
          db 
          . 
          insert_id 
          ( 
          ) 
         
          self 
          . 
          db 
          . 
          commit 
          ( 
          ) 
         
          #判断是否执行成功 
         
          if 
            
          result 
          : 
         
          return 
            
          insert_id 
         
          else 
          : 
         
          return 
            
          0 
         
          except 
            
          MySQLdb 
          . 
          Error 
          , 
          e 
          : 
         
          #发生错误时回滚 
         
          self 
          . 
          db 
          . 
          rollback 
          ( 
          ) 
         
          #主键唯一，无法插入 
         
          if 
            
          "key 'PRIMARY'" 
            
          in 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          : 
         
          print 
            
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "数据已存在，未插入数据" 
         
          else 
          : 
         
          print 
            
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "插入数据失败，原因 %d: %s" 
            
          % 
            
          ( 
          e 
          . 
          args 
          [ 
          0 
          ] 
          , 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          ) 
         
          except 
            
          MySQLdb 
          . 
          Error 
          , 
          e 
          : 
         
          print 
            
          self 
          . 
          getCurrentTime 
          ( 
          ) 
          , 
          "数据库错误，原因%d: %s" 
            
          % 
            
          ( 
          e 
          . 
          args 
          [ 
          0 
          ] 
          , 
            
          e 
          . 
          args 
          [ 
          1 
          ] 
          )

数据库建表SQL如下：

PgSQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
           15 
         
           16 
         
           17 
         
           18 
         
           19 
         
          CREATE 
            
          TABLE 
            
          IF 
            
          NOT 
            
          EXISTS 
           `iask_answers` 
           ( 
         
            `id` 
            
          int(11) 
            
          NOT NULL 
           AUTO_INCREMENT 
            
          COMMENT 
            
          '自增ID', 
         
            ` 
          text` 
            
          text 
            
          NOT NULL 
            
          COMMENT 
            
          '回答内容', 
         
            `question_id` 
            
          int(18) 
            
          NOT NULL 
            
          COMMENT 
            
          '问题ID', 
         
            `answerer` 
            
          varchar(255) 
            
          NOT NULL 
            
          COMMENT 
            
          '回答者', 
         
            ` 
          date` 
            
          varchar(255) 
            
          NOT NULL 
            
          COMMENT 
            
          '回答时间', 
         
            `is_good` 
            
          int(11) 
            
          NOT NULL 
            
          COMMENT 
            
          '是否是最佳答案', 
         
          PRIMARY 
            
          KEY 
           (`id`) 
         
           ) 
           ENGINE 
          =InnoDB 
             
          DEFAULT 
           CHARSET 
          =utf8; 
         
          CREATE 
            
          TABLE 
            
          IF 
            
          NOT 
            
          EXISTS 
           `iask_questions` 
           ( 
         
            `id` 
            
          int(11) 
            
          NOT NULL 
           AUTO_INCREMENT 
            
          COMMENT 
            
          '问题ID', 
         
            ` 
          text` 
            
          text 
            
          NOT NULL 
            
          COMMENT 
            
          '问题内容', 
         
            `questioner` 
            
          varchar(255) 
            
          NOT NULL 
            
          COMMENT 
            
          '提问者', 
         
            ` 
          date` 
            
          date 
            
          NOT NULL 
            
          COMMENT 
            
          '提问时间', 
         
            `ans_num` 
            
          int(11) 
            
          NOT NULL 
            
          COMMENT 
            
          '回答数量', 
         
            `url` 
            
          varchar(255) 
            
          NOT NULL 
            
          COMMENT 
            
          '问题链接', 
         
          PRIMARY 
            
          KEY 
           (`id`) 
         
           ) 
           ENGINE 
          =InnoDB 
             
          DEFAULT 
           CHARSET 
          =utf8;

运行的时候执行如下命令即可

代码写的不好，仅供大家学习参考使用，如有问题，欢迎留言交流。

运行结果查看

我们把PHP文件和log文件放在同一目录下，运行PHP文件，便可以看到如下的内容：

小伙伴们赶快试一下吧。

斤斤计较的婚姻到底有多难？白心之岂必有为
很多人私聊我会问到在哪个人群当中斤斤计较的人最多？我都会回答他，一般婚姻出现问题的斤斤计较的人士会非常多，以我多年经验，在婚姻落的一塌糊涂的人当中，斤斤计较的人数占比在20～30%以上，也就是说10个婚姻出现问题的斤斤计较的人有2-3个有多不减。在婚姻出问题当中，有大量的心理不平衡的、尖酸刻薄的怨妇。在婚姻中仅斤斤计较有两种类型：第一种是物质上的，另一种是精神上的。在物质与精神上抠门已经严重的影响
情绪觉察日记第37天露露_e800
今天是家庭关系规划师的第二阶最后一天，慧萍老师帮我做了个案，帮我处理了埋在心底好多年的一份恐惧，并给了我深深的力量！这几天出来学习，爸妈过来婆家帮我带小孩，妈妈出于爱帮我收拾东西，并跟我先生和婆婆产生矛盾，妈妈觉得他们没有照顾好我…。今晚回家见到妈妈，我很欣赏她并赞扬她，妈妈说今晚要跟我睡我说好，当我们俩躺在床上准备睡觉的时候，我握着妈妈的手对她说:妈妈这几天辛苦你了，你看你多利害把我们的家收拾得
关于沟通这件事，项目经理不需要每次都面对面进行流程大师兄
很多项目经理都会遇到这样的问题，项目中由于事情太多，根本没有足够的时间去召开会议，那在这种情况下如何去有效地管理项目中的利益相关者？当然，不建议电子邮件也不需要开会的话，建议可以采取下面几种方式来形成有效的沟通，这几种方式可以帮助你努力的通过各种办法来保持和各方面的联系。项目经理首先要问自己几个问题，项目中哪些利益相关者是必须要进行沟通的？可以列出项目中所有的利益相关者清单，同时也整理出项目中哪些
机器学习与深度学习间关系与区别 ℒℴѵℯ心·动ꦿ໊ོ꫞ 人工智能学习深度学习 python
一、机器学习概述定义机器学习（MachineLearning,ML）是一种通过数据驱动的方法，利用统计学和计算算法来训练模型，使计算机能够从数据中学习并自动进行预测或决策。机器学习通过分析大量数据样本，识别其中的模式和规律，从而对新的数据进行判断。其核心在于通过训练过程，让模型不断优化和提升其预测准确性。主要类型1.监督学习（SupervisedLearning）监督学习是指在训练数据集中包含输入
铭刻于星（四十二）随风至
69夜晚，绍敏同学做完功课后，看了眼房外，没听到动静才敢从书包的夹层里拿出那个心形纸团。折痕压得很深，都有些旧了，想来是已经写好很久了。绍敏同学慢慢地、轻轻地捏开折叠处，待到全部拆开后，又反复抚平纸张，然后仔细地一字字默看。只是开头的三个字是第一次看到，让她心漏跳了几拍。“亲爱的绍敏：从四年级的时候，我就喜欢你了，但是我一直不敢说，怕影响你学习。六年级的时候听说有人跟你表白，你接受了，我很难过，但
2020-01-25 晴岚85
郑海燕坚持分享590天2020.1.24在生活中只存在两个问题。一个问题是：你知道想要达成的目标是什么，但却不知道如何才能达成；另一个问题是：你不知道你的目标是什么。前一个是行动的问题，后一个是结果的问题。通过制定具体的下一步行动，可以解决不知道如何开始行动的问题。而通过去想象结果，对结果做预估，可以解决找不着目标的问题。对于所有吸引我们注意力，想要完成的任务，你可以先想象一下，预期的结果究竟是什
随笔 | 仙一般的灵气海思沧海
仙岛今天，我看了你全部，似乎已经进入你的世界我不知道，这是否是梦幻，还是你仙一般的灵气吸引了我也许每一个人都要有一份属于自己的追求，这样才能够符合人生的梦想，生活才能够充满着阳光与快乐我不知道，我为什么会这样的感叹，是在感叹自己的人生，还是感叹自己一直没有孜孜不倦的追求只感觉虚度了光阴，每天活在自己的梦中，活在一个不真实的世界是在逃避自己，还是在逃避周围的一切有时候我嘲笑自己，嘲笑自己如此的虚无，
10月|愿你的青春不负梦想-读书笔记-01 Tracy的小书斋
本书的作者是俞敏洪，大家都很熟悉他了吧。俞敏洪老师是我行业的领头羊吧，也是我事业上的偶像。本日摘录他书中第一章中的金句：『一个人如果什么目标都没有，就会浑浑噩噩，感觉生命中缺少能量。能给我们能量的，是对未来的期待。第一件事，我始终为了进步而努力。与其追寻全世界的骏马，不如种植丰美的草原，到时骏马自然会来。第二件事，我始终有阶段性的目标。什么东西能给我能量？答案是对未来的期待。』读到这里的时候，我便
小丽成长记（四十三）玲玲54321
小丽发现，即使她好不容易调整好自己的心态下一秒总会有不确定的伤脑筋的事出现，一个接一个的问题，人生就没有停下的时候，小问题不断出现。不过她今天看的书，她接受了人生就是不确定的，厉害的人就是不断创造确定性，在Ta的领域比别人多的确定性就能让自己脱颖而出，显示价值从而获得的比别人多的利益。正是这样的原因，因为从前修炼自己太少，使得她现在在人生道路上打怪起来困难重重，她似乎永远摆脱不了那种无力感，有种习
学点心理知识，呵护孩子健康静候花开_7090
昨天听了华中师范大学教育管理学系副教授张玲老师的《哪里才是学生心理健康的最后庇护所，超越教育与技术的思考》的讲座。今天又重新学习了一遍，收获匪浅。张玲博士也注意到了当今社会上的孩子由于心理问题导致的自残、自杀及伤害他人等恶性事件。她向我们普及了一个重要的命题，她说心理健康的一些基本命题，我们与我们通常的一些教育命题是不同的，她还举了几个例子，让我们明白我们原来以为的健康并非心理学上的健康。比如如果
2021年12月19日，春蕾教育集团团建活动感受——黄晓丹黄错错加油
感受:1.从陌生到熟悉的过程。游戏环节让我们在轻松的氛围中得到了锻炼，也增长了不少知识。2.游戏过程中，我们贡献的是个人力量，展现的是团队的力量。它磨合的往往不止是工作的熟悉，更是观念上契合度的贴近。3.这和工作是一样的道理。在各自的岗位上，每个人摆正自己的位置、各司其职充分发挥才能，并团结一致劲往一处使，才能实现最大的成功。新知:1.团队精神需要不断地创新。过去，人们把创新看作是冒风险，现在人们
Cell Insight | 单细胞测序技术又一新发现，可用于HIV-1和Mtb共感染个体诊断尐尐呅
结核病是艾滋病合并其他疾病中导致患者死亡的主要原因。其中结核病由结核分枝杆菌（Mycobacteriumtuberculosis,Mtb）感染引起，获得性免疫缺陷综合症（艾滋病）由人免疫缺陷病毒（Humanimmunodeficiencyvirustype1,HIV-1）感染引起。国家感染性疾病临床医学研究中心/深圳市第三人民医院张国良团队携手深圳华大生命科学研究院吴靓团队，共同研究得出单细胞测序
《投行人生》读书笔记小蘑菇的树洞
《投行人生》----作者詹姆斯-A-朗德摩根斯坦利副主席40年的职业洞见-很短小精悍的篇幅，比较适合初入职场的新人。第一部分成功的职业生涯需要规划1.情商归为适应能力分享与协作同理心适应能力，更多的是自我意识，你有能力识别自己的情并分辨这些情绪如何影响你的思想和行为。2.对于初入职场的人的建议，细节，截止日期和数据很重要截止日期，一种有效的方法是请老板为你所有的任务进行优先级排序。和老板喝咖啡的好
《策划经理回忆录之二》路基雅虎
话说三年变六年，飘了，飘了……眨眼，2013年5月，老吴回到了他的家乡——油城从新开启他的工作幻想症生涯。很庆幸，这是一家很有追求，同时敢于尝试的，且实力不容低调的新星房企——金源置业(前身泰源置业)更值得庆幸的是第一个盘就是油城十路的标杆之一:金源盛世。2013年5月，到2015年11月，两年的陪伴，迎来了一场大爆发。2000个筹，5万/筹，直接回笼1个亿！！！这……让我开始认真审视这座看似五线
Long类型前后端数据不一致 igotyback 前端
响应给前端的数据浏览器控制台中response中看到的Long类型的数据是正常的到前端数据不一致前后端数据类型不匹配是一个常见问题，尤其是当后端使用Java的Long类型（64位）与前端JavaScript的Number类型（最大安全整数为2^53-1，即16位）进行数据交互时，很容易出现精度丢失的问题。这是因为JavaScript中的Number类型无法安全地表示超过16位的整数。为了解决这个问
如何在 Fork 的 GitHub 项目中保留自己的修改并同步上游更新？github_fork_update iBaoxing github
如何在Fork的GitHub项目中保留自己的修改并同步上游更新？在GitHub上Fork了一个项目后，你可能会对项目进行一些修改，同时原作者也在不断更新。如果想要在保留自己修改的基础上，同步原作者的最新更新，很多人会不知所措。本文将详细讲解如何在不丢失自己改动的情况下，将上游仓库的更新合并到自己的仓库中。问题描述假设你在GitHub上Fork了一个项目，并基于该项目做了一些修改，随后你发现原作者对
扫地机类清洁产品之直流无刷电机控制悟空胆好小清洁服务机器人单片机人工智能
扫地机类清洁产品之直流无刷电机控制1.1前言扫地机产品有很多的电机控制，滚刷电机1个，边刷电机1-2个，清水泵电机，风机一个，部分中高端产品支持抹布功能，也就是存在抹布盘电机，还有追觅科沃斯石头等边刷抬升电机，滚刷抬升电机等的，这些电机有直流有刷电机，直接无刷电机，步进电机，电磁阀，挪动泵等不同类型。电机的原理，驱动控制方式也不行。接下来一段时间的几个文章会作个专题分析分享。直流有刷电机会自动持续
30天风格练习-DAY2 黄希夷
Day2（重义）在一个周日/一周的最后一天，我来到位于市中心/市区繁华地带的一家购物中心/商场，中心内人很多/熙熙攘攘。我注意到/看见一个独行/孤身一人的年轻女孩/，留着一头引人注目/长过腰际的头发，上身穿一件暗红色/比正红色更深的衣服/穿在身体上的东西。走下扶梯的时候，她摔倒了/跌向地面，在她正要站起来/让身体离开地面的时候，过长/超过一般人长度的头发被支撑身体/躯干的手掌压/按在下面，她赶紧用
店群合一模式下的社区团购新发展——结合链动 2+1 模式、AI 智能名片与 S2B2C 商城小程序源码说私域人工智能小程序
摘要：本文探讨了店群合一的社区团购平台在当今商业环境中的重要性和优势。通过分析店群合一模式如何将互联网社群与线下终端紧密结合，阐述了链动2+1模式、AI智能名片和S2B2C商城小程序源码在这一模式中的应用价值。这些创新元素的结合为社区团购带来了新的机遇，提升了用户信任感、拓展了营销渠道，并实现了线上线下的完美融合。一、引言随着互联网技术的不断发展，社区团购作为一种新兴的商业模式，在满足消费者日常需
高级编程--XML+socket练习题 masa010 java 开发语言
1.北京华北2114.8万人上海华东2,500万人广州华南1292.68万人成都华西1417万人（1）使用dom4j将信息存入xml中（2）读取信息，并打印控制台（3）添加一个city节点与子节点（4）使用socketTCP协议编写服务端与客户端，客户端输入城市ID，服务器响应相应城市信息（5）使用socketTCP协议编写服务端与客户端，客户端要求用户输入city对象，服务端接收并使用dom4j
三大师传 beca酱
巴尔扎克的作品被誉为“法国社会的一面镜子”。文学大师维克多·雨果对巴尔扎克的评价是：“在最伟大的人物中间，巴尔扎克是名列前茅者；在最优秀的人物中间，巴尔扎克是佼佼者之一。”一个原本寂寂无名的小人物，从地中海的某个海岛上，只身一人来到巴黎，没有朋友，也没有名望。作为一个一文不名的外乡人，凭着赤手空拳赢得了巴黎，征服了整个法兰西，并且赢得了世界。这个人就是十九世纪法国伟大的军事家、政治家，法兰西第一帝
开心蒋泳频
从无比抗拒来上课到接受，感动，收获～看着波哥成长，晶晶幸福笑容满面。感觉自己做的事情很有意义，很开心！还有3个感召目标就是还有三个有缘人，哈哈。明天感召去明日计划：8：30-11：00小公益11：00-21点上班，感召图片发自App图片发自App图片发自App
2018-07-23-催眠日作业-#不一样的31天#-66小鹿小鹿_33
预言日：人总是在逃避命运的路上，与之不期而遇。心理学上有个著名的名词，叫做自证预言；经济学上也有一个很著名的定律叫做，墨菲定律；在灵修派上，还有一个很著名的法则，叫做吸引力法则。这3个领域的词，虽然看起来不太一样，但是他们都在告诉人们一个现象：你越担心什么，就越有可能会发生什么。同样的道理，你越想得到什么，就应该要积极地去创造什么。无论是自证预言，墨菲定律还是吸引力法则，对人都有正反2个维度的影响
《大清方方案》| 第二话谁佐清欢
和珅究竟说了些什么？竟能令堂堂九五之尊龙颜失色！此处暂且按下不表；单说这位乾隆皇帝，果真不愧是康熙从小带过的，一旦决定了要做的事，便杀伐决断毫不含糊。他当即亲自拟旨，着令和珅为钦差大臣，全权负责处理方方事件，并钦赐尚方宝剑，遇急则三品以下官员可先斩后奏。和珅身负皇上重托，岂敢有半点怠慢，当夜即率领相关人等，马不停蹄杀奔江汉。这一路上，和珅的几位幕僚一直在商讨方方事件的处置方案。有位年轻幕僚建议快刀
本周第二次约练 2cfbdfe28a51
中原焦点团队中24初26刘霞2021.12.3约练161次，分享第368天当事人虽然是带着问题来的，但是咨询过程中发现，她是经过自己不断地调整和努力才走到现在的，看到当事人的不容易，找到例外，发现资源，力量感也就随之而来。增强画面感，或者说重温，会给当事人带来更深刻的感受。
放下是一段成长的修行小莳玥
人来到这个世界上，只有两件事：生和死。一件事已经做完了，另一件你还急什么呢?是人，都有七情六欲。是心，都有喜怒哀乐，这些再正常不过了。别总抱怨自己活得累，过得辛苦。永远记住：舒坦是留给死人的。苦，才是生活；累，才是工作；变，才是命运；忍，才是历练；容，才是智慧；静，才是修养；舍，才会得到；做，才会拥有。人生，活得太清楚，才是最大的不明白。有些事，看得很清，却说不清；有些人，了解很深，却猜不透；有些
活给自己看，笑容才灿烂听着了么
白岩松说“有时候，我们活得很累，并非生活过于刻薄，而是我们太容易被外界的氛围所感染，被他人的情绪所左右。”心情是自己的。若只是活在别人的眼里、嘴里，便掌握不了让自己开心的主动权。人活着，不是为了活给别人看的，唯有做最真实的自己，活给自己看，笑容才灿烂。诚然，世事纷繁复杂，人人都有一张嘴，管也管不了。永远有人欣赏你，也永远有人批评你，不可能做到让所有人都满意，开心做自己才是最重要的。人生苦短，有太多
每日一题——第八十九题互联网打工人no1 C语言程序设计每日一练 c语言
题目：在字符串中找到提取数字，并统计一共找到多少整数，a123xxyu23&8889，那么找到的整数为123，23，8889//思想：#include#include#includeintmain(){charstr[]="a123xxyu23&8889";intcount=0;intnum=0;//用于临时存放当前正在构建的整数。boolinNum=false;//用于标记当前是否正在读取一个整
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
2022-04-18 Apbenz
语重心长的和我说，不要老是说不行，人至而立之年危机四伏，内在的，外在的，感觉就是心力憔悴，让人无所适从。面对职场的无情，突然好羡慕干体力劳动的外卖小哥。难道命运是想让我去送外卖了吗？干体力活才能让我活下去？fastadmin打卡成功,淘宝金币任务完成。ㅏㅓㅗㅜㅡㅣㅐㅔㅑㅕㅛㅠㅢㅒㅖY行。야자여자요리우유의사얘기예
windows下源码安装golang 616050468 golang安装 golang环境 windows
系统： 64位win7，开发环境：sublime text 2， go版本： 1.4.1 1. 安装前准备(gcc, gdb, git) golang在64位系
redis批量删除带空格的key bylijinnan redis
redis批量删除的通常做法： redis-cli keys "blacklist*" | xargs redis-cli del 上面的命令在key的前后没有空格时是可以的，但有空格就不行了： $redis-cli keys "blacklist*" 1) "blacklist:12: [email protected]
oracle正则表达式的用法 0624chenhong oracle 正则表达式
方括号表达示方括号表达式描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct：]] 标点符号字符 [[:space:]]
2048源码(核心算法有，缺少几个anctionbar，以后补上) 不懂事的小屁孩 2048
2048游戏基本上有四部分组成， 1：主activity，包含游戏块的16个方格，上面统计分数的模块 2：底下的gridview，监听上下左右的滑动，进行事件处理， 3：每一个卡片，里面的内容很简单，只有一个text，记录显示的数字 4：Actionbar，是游戏用重新开始，设置等功能(这个在底下可以下载的代码里面还没有实现) 写代码的流程 1：设计游戏的布局，基本是两块，上面是分
jquery内部链式调用机理换个号韩国红果果 JavaScript jquery
只需要在调用该对象合适(比如下列的setStyles)的方法后让该方法返回该对象（通过this 因为一旦一个函数称为一个对象方法的话那么在这个方法内部this（结合下面的setStyles）指向这个对象） function create(type){ var element=document.createElement(type); //this=element;
你订酒店时的每一次点击背后都是NoSQL和云计算蓝儿唯美 NoSQL
全球最大的在线旅游公司Expedia旗下的酒店预订公司，它运营着89个网站，跨越68个国家，三年前开始实验公有云，以求让客户在预订网站上查询假期酒店时得到更快的信息获取体验。云端本身是用于驱动网站的部分小功能的，如搜索框的自动推荐功能，还能保证处理Hotels.com服务的季节性需求高峰整体储能。 Hotels.com的首席技术官Thierry Bedos上个月在伦敦参加“2015 Clou
java笔记1 a-john java
1，面向对象程序设计（Object-oriented Propramming，OOP）：java就是一种面向对象程序设计。 2，对象：我们将问题空间中的元素及其在解空间中的表示称为“对象”。简单来说，对象是某个类型的实例。比如狗是一个类型，哈士奇可以是狗的一个实例，也就是对象。 3，面向对象程序设计方式的特性： 3.1 万物皆为对象。
C语言 sizeof和strlen之间的那些事 C/C++软件开发求职面试题必备考点（一） aijuans C/C++求职面试必备考点
找工作在即，以后决定每天至少写一个知识点，主要是记录，逼迫自己动手、总结加深印象。当然如果能有一言半语让他人收益，后学幸运之至也。如有错误，还希望大家帮忙指出来。感激不尽。后学保证每个写出来的结果都是自己在电脑上亲自跑过的，咱人笨，以前学的也半吊子。很多时候只能靠运行出来的结果再反过来
程序员写代码时就不要管需求了吗？ asia007 程序员不能一味跟需求走
编程也有2年了，刚开始不懂的什么都跟需求走，需求是怎样就用代码实现就行，也不管这个需求是否合理，是否为较好的用户体验。当然刚开始编程都会这样，但是如果有了2年以上的工作经验的程序员只知道一味写代码，而不在写的过程中思考一下这个需求是否合理，那么，我想这个程序员就只能一辈写敲敲代码了。我的技术不是很好，但是就不代
Activity的四种启动模式百合不是茶 android 栈模式启动 Activity的标准模式启动栈顶模式启动单例模式启动
android界面的操作就是很多个activity之间的切换,启动模式决定启动的activity的生命周期 ; 启动模式xml中配置 <activity android:name=".MainActivity" android:launchMode="standard&quo
Spring中@Autowired标签与@Resource标签的区别 bijian1013 java spring @Resource @Autowired @Qualifier
Spring不但支持自己定义的@Autowired注解，还支持由JSR-250规范定义的几个注解，如：@Resource、 @PostConstruct及@PreDestroy。 1. @Autowired @Autowired是Spring 提供的，需导入 Package:org.springframewo
Changes Between SOAP 1.1 and SOAP 1.2 sunjing Changes Enable SOAP 1.1 SOAP 1.2
JAX-WS SOAP Version 1.2 Part 0: Primer (Second Edition) SOAP Version 1.2 Part 1: Messaging Framework (Second Edition) SOAP Version 1.2 Part 2: Adjuncts (Second Edition) Which style of WSDL
【Hadoop二】Hadoop常用命令 bit1129 hadoop
以Hadoop运行Hadoop自带的wordcount为例， hadoop脚本位于/home/hadoop/hadoop-2.5.2/bin/hadoop，需要说明的是，这些命令的使用必须在Hadoop已经运行的情况下才能执行 Hadoop HDFS相关命令 hadoop fs -ls 列出HDFS文件系统的第一级文件和第一级
java异常处理（初级）白糖_ java DAO spring 虚拟机 Ajax
从学习到现在从事java开发一年多了，个人觉得对java只了解皮毛，很多东西都是用到再去慢慢学习，编程真的是一项艺术，要完成一段好的代码，需要懂得很多。最近项目经理让我负责一个组件开发，框架都由自己搭建，最让我头疼的是异常处理，我看了一些网上的源码，发现他们对异常的处理不是很重视，研究了很久都没有找到很好的解决方案。后来有幸看到一个200W美元的项目部分源码，通过他们对异常处理的解决方案，我终
记录整理-工作问题 braveCS 工作
1）那位同学还是CSV文件默认Excel打开看不到全部结果。以为是没写进去。同学甲说文件应该不分大小。后来log一下原来是有写进去。只是Excel有行数限制。那位同学进步好快啊。 2）今天同学说写文件的时候提示jvm的内存溢出。我马上反应说那就改一下jvm的内存大小。同学说改用分批处理了。果然想问题还是有局限性。改jvm内存大小只能暂时地解决问题，以后要是写更大的文件还是得改内存。想问题要长远啊
org.apache.tools.zip实现文件的压缩和解压，支持中文 bylijinnan apache
刚开始用java.util.Zip，发现不支持中文（网上有修改的方法，但比较麻烦）后改用org.apache.tools.zip org.apache.tools.zip的使用网上有更简单的例子下面的程序根据实际需求，实现了压缩指定目录下指定文件的方法 import java.io.BufferedReader; import java.io.BufferedWrit
读书笔记-4 chengxuyuancsdn 读书笔记
1、JSTL 核心标签库标签 2、避免SQL注入 3、字符串逆转方法 4、字符串比较compareTo 5、字符串替换replace 6、分拆字符串 1、JSTL 核心标签库标签共有13个，学习资料：http://www.cnblogs.com/lihuiyy/archive/2012/02/24/2366806.html 功能上分为4类： (1)表达式控制标签：out
[物理与电子]半导体教材的一个小问题 comsci 问题
各种模拟电子和数字电子教材中都有这个词汇-空穴书中对这个词汇的解释是; 当电子脱离共价键的束缚成为自由电子之后,共价键中就留下一个空位,这个空位叫做空穴我现在回过头翻大学时候的教材,觉得这个
Flashback Database --闪回数据库 daizj oracle 闪回数据库
Flashback 技术是以Undo segment中的内容为基础的，因此受限于UNDO_RETENTON参数。要使用flashback 的特性，必须启用自动撤销管理表空间。在Oracle 10g中， Flash back家族分为以下成员： Flashback Database， Flashback Drop，Flashback Query(分Flashback Query,Flashbac
简单排序:插入排序 dieslrae 插入排序
public void insertSort(int[] array){ int temp; for(int i=1;i<array.length;i++){ temp = array[i]; for(int k=i-1;k>=0;k--)
C语言学习六指针小示例、一维数组名含义，定义一个函数输出数组的内容 dcj3sjt126com c
# include <stdio.h> int main(void) { int * p; //等价于 int *p 也等价于 int* p; int i = 5; char ch = 'A'; //p = 5; //error //p = &ch; //error //p = ch; //error p = &i; //
centos下php redis扩展的安装配置3种方法 dcj3sjt126com redis
方法一 1.下载php redis扩展包代码如下复制代码 #wget http://redis.googlecode.com/files/redis-2.4.4.tar.gz 2 tar -zxvf 解压压缩包，cd /扩展包（进入扩展包然后运行phpize 一下是我环境中phpize的目录，/usr/local/php/bin/phpize (一定要
线程池(Executors) shuizhaosi888 线程池
在java类库中，任务执行的主要抽象不是Thread，而是Executor，将任务的提交过程和执行过程解耦 public interface Executor { void execute(Runnable command); } public class RunMain implements Executor{ @Override pub
openstack 快速安装笔记 haoningabc openstack
前提是要配置好yum源版本icehouse，操作系统redhat6.5 最简化安装，不要cinder和swift 三个节点 172 control节点keystone glance horizon 173 compute节点nova 173 network节点neutron control /etc/sysctl.conf net.ipv4.ip_forward =
从c面向对象的实现理解c++的对象（二） jimmee C++面向对象虚函数
1. 类就可以看作一个struct，类的方法，可以理解为通过函数指针的方式实现的，类对象分配内存时，只分配成员变量的，函数指针并不需要分配额外的内存保存地址。 2. c++中类的构造函数，就是进行内存分配(malloc)，调用构造函数 3. c++中类的析构函数，就时回收内存(free) 4. c++是基于栈和全局数据分配内存的，如果是一个方法内创建的对象，就直接在栈上分配内存了。专门在
如何让那个一个div可以拖动 lingfeng520240 html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml
第10章高级事件（中） onestopweb 事件
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
计算两个经纬度之间的距离 roadrunners 计算纬度 LBS 经度距离
要解决这个问题的时候，到网上查了很多方案，最后计算出来的都与百度计算出来的有出入。下面这个公式计算出来的距离和百度计算出来的距离是一致的。 /** * * @param longitudeA * 经度A点 * @param latitudeA * 纬度A点 * @param longitudeB *
最具争议的10个Java话题 tomcat_oracle java
1、Java8已经到来。什么！？ Java8 支持lambda。哇哦，RIP Scala！　　随着Java8 的发布，出现很多关于新发布的Java8是否有潜力干掉Scala的争论，最终的结论是远远没有那么简单。Java8可能已经在Scala的lambda的包围中突围，但Java并非是函数式编程王位的真正觊觎者。　　2、Java 9 即将到来　　 Oracle早在8月份就发布
zoj 3826 Hierarchical Notation(模拟) 阿尔萨斯 rar
题目链接：zoj 3826 Hierarchical Notation 题目大意：给定一些结构体，结构体有value值和key值，Q次询问，输出每个key值对应的value值。解题思路：思路很简单，写个类词法的递归函数，每次将key值映射成一个hash值，用map映射每个key的value起始终止位置，预处理完了查询就很简单了。这题是最后10分钟出的，因为没有考虑value为{}的情

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20	#-- coding:utf-8 -- import re #处理页面标签类 class Tool : #将超链接广告剔除 removeADLink = re . compile ( ' ) #去除img标签,1-7位空格, removeImg = re . compile ( '\| {1,7}\| ' ) #删除超链接标签 removeAddr = re . compile ( '\|' ) #把换行的标签换为\n replaceLine = re . compile ( '
替换为\t replaceTD = re . compile ( '	' ) #将换行符或双换行符替换为\n replaceBR = re . compile ( ' \| ' ) #将其余标签剔除 removeExtraTag = re . compile ( '<.*?>' )