用python爬取文章链接并分类

环境:

OS:win10 x64

Python:3.5.1

PyCharm:5.0.3


发现两个好网站:一个是python.jobbole.com,集合了大量python学习资料;另一个是dataunion.org,主要涉及机器学习领域。

为了方便学习,根据关键字过滤资料爬取下来,并做分类。

爬取jobbole

import requests
from bs4 import BeautifulSoup
import re
from operator import itemgetter
from multiprocessing.dummy import Pool as ThreadPool
import time

def FindoutMaxPageNumber():
    max = 1
    cer = re.compile('class=\"page-numbers\" href=\"(.*)\"')#找到一页上所有的页号
    soup = BeautifulSoup(requests.get("http://python.jobbole.com/all-posts/").text, "html.parser")
    strlist = cer.findall(soup.prettify())
    for link in set(strlist):
        link = link.strip('/')#去掉链接尾部的'/'
        cur = int(link[link.rindex('/')+1:], 10)#取得链接最后的数字,并转化为int型
        if cur > max:
            max = cur
    return max

def myFilter(text):
    for item in remove:
        #if re.match(item, text, re.IGNORECASE):#只从字符串的开始与正则表达式匹配
        if re.search(item, text, re.IGNORECASE):#将字符串的所有字串尝试与正则表达式匹配
            return True
    return False

def getPage(pageIndex):
    url = 'http://python.jobbole.com/all-posts/page/%d' % (pageIndex)
    sp = BeautifulSoup(requests.get(url).text, "html.parser")
    for tag in set(sp.find_all("a", class_="archive-title")):#找到一页上中心区域列出的全部文章的tag
        if not myFilter(tag.get_text()):
            dic[tag.get_text()] = tag.get('href')

pool = ThreadPool(8) # Sets the pool size
dic = dict()
remove = ['django', 'flask', 'game', '游戏', '2\.[a-z0-9A-Z_]']

#getPage(FindoutMaxPageNumber())
#start = time.time()
#for i in range(1, FindoutMaxPageNumber()+1):
#    getPage(i)
#print('Normal:', time.time() - start)

#start = time.time()
pool.map(getPage, range(1, FindoutMaxPageNumber()+1))
pool.close()
pool.join()
#print('multiprocessing:', time.time() - start)

cdi = sorted(dic.items(), key=itemgetter(0), reverse=False)
#cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False)
for d,x in cdi:
    print(d+' '+x)

执行结果

10 个 Python IDE 和代码编辑器 http://python.jobbole.com/80478/
10 行 Python 代码写的模糊查询 http://python.jobbole.com/81775/
11个并不广为人知,但值得了解的Python库 http://python.jobbole.com/81000/
12306的变态验证码算得了什么?我有Python神器! http://python.jobbole.com/83564/
12步轻松搞定python装饰器 http://python.jobbole.com/81683/
13岁Python开发者写给青少年的Python入门教程 http://python.jobbole.com/80379/
14个轻量级Python Web框架 http://python.jobbole.com/81134/
15个最受欢迎的Python开源框架 http://python.jobbole.com/72306/
2012年Linux Journal读者选择奖结果公布 http://python.jobbole.com/31329/
2013年2月Web编程语言就业趋势 http://python.jobbole.com/33825/
25本免费的Python电子书 http://python.jobbole.com/29281/
30 行 Python 代码搞定 X 算法 http://python.jobbole.com/74000/
30个有关Python的小技巧 http://python.jobbole.com/63320/
3个开源的 Python Shell http://python.jobbole.com/81612/
500 行 Python 代码做一个英文解析器 http://python.jobbole.com/67009/
50行Python代码写一个语言检测器 http://python.jobbole.com/54707/
70 行 Python 代码编写一个递归下降解析器 http://python.jobbole.com/83885/
9本免费的Python编程书 http://python.jobbole.com/765/
Dropbox 开源的 Python 解释器 Pyston 0.4 发布了 http://python.jobbole.com/82055/
Eric Raymond对于几大开发语言的评价 http://python.jobbole.com/79421/
Go学习笔记:关于Java、Python、Go编程思想的不同 http://python.jobbole.com/44849/
Hadoop中的Python框架的使用指南 http://python.jobbole.com/83855/
IPython 4.0发布:Jupyter和IPython分离后的首个版本 http://python.jobbole.com/81945/
IPython Notebook 和 Github 是怎样改变了我的 Python 教学方法 http://python.jobbole.com/50927/
Ian Bicking:跟Python说再见 http://python.jobbole.com/63037/
Iconfinder 如何杜绝盗版,哈希算法检测图像重复 http://python.jobbole.com/65914/
ML/NLP入门教程Python版(第一部分:文本处理) http://python.jobbole.com/81397/
MicroPython:针对微控制器的Python http://python.jobbole.com/81484/
PYTHON 源码阅读 – STRING http://python.jobbole.com/83461/
PYTHON 源码阅读 – 对象 http://python.jobbole.com/83443/
PYTHON 源码阅读 – 类型 http://python.jobbole.com/83441/
Pandas透视表(pivot_table)详解 http://python.jobbole.com/81212/
Peter Norvig:用 Python 解决数独问题 http://python.jobbole.com/81621/
Pyston:Dropbox 正开发的开源 Python 解释器 http://python.jobbole.com/65414/
Python 2013 精彩回顾:新闻、好文和资源 http://python.jobbole.com/59535/
Python 3 正在毁灭 Python http://python.jobbole.com/69811/
Python 3 能振兴 Python http://python.jobbole.com/75158/
Python 3.5发布:新增模块,性能优化,对开发者更友好 http://python.jobbole.com/82227/
Python HOWTOs 官方文档:Socket 编程 http://python.jobbole.com/81860/
Python Howto 之 logging 模块 http://python.jobbole.com/82221/
Python IDE:PyCharm中的那些实用功能 http://python.jobbole.com/51498/
Python yield 使用浅析 http://python.jobbole.com/32876/
Python 上下文管理器 http://python.jobbole.com/82289/
Python 不是 C http://python.jobbole.com/81904/
Python 与 Javascript 之比较 http://python.jobbole.com/81257/
Python 中 eval 带来的潜在风险 http://python.jobbole.com/82770/
Python 中 import 的机制与实现 http://python.jobbole.com/82604/
Python 中的 is 和 id http://python.jobbole.com/49705/
Python 中的 property 属性 http://python.jobbole.com/81967/
Python 中的类(上) http://python.jobbole.com/82297/
Python 中的类(下) http://python.jobbole.com/82312/
Python 中的类(中) http://python.jobbole.com/82308/
Python 中的贪婪排名算法 http://python.jobbole.com/83933/
Python 中的进程、线程、协程、同步、异步、回调 http://python.jobbole.com/81692/
Python 中的闭包 http://python.jobbole.com/82296/
Python 之父在 EuroPython 大会上谈论 Python http://python.jobbole.com/81951/
Python 代码性能优化技巧 http://python.jobbole.com/24197/
Python 入门到精通(1):Windows 搭建 Python 开发环境 http://python.jobbole.com/82331/
Python 入门到精通(2):基本语法(1) http://python.jobbole.com/82334/
Python 入门到精通(3):VS 2015 搭建开发环境 http://python.jobbole.com/82337/
Python 入门到精通(4):基本语法(2) http://python.jobbole.com/82340/
Python 入门到精通(5):Python运算符 http://python.jobbole.com/82706/
Python 关键字 yield 详解 http://python.jobbole.com/28506/
Python 内存管理方式和垃圾回收算法 http://python.jobbole.com/82446/
Python 函数相关 http://python.jobbole.com/82300/
Python 初学者的最佳学习资源 http://python.jobbole.com/82399/
Python 基于协同过滤的推荐 http://python.jobbole.com/83938/
Python 如何使基于 Java 的 StubHub 受益 http://python.jobbole.com/43976/
Python 安全编码指南 http://python.jobbole.com/82746/
Python 实用技巧(上) http://python.jobbole.com/50420/
Python 对象(上) http://python.jobbole.com/82280/
Python 对象(下) http://python.jobbole.com/82285/
Python 并行任务技巧 http://python.jobbole.com/81690/
Python 开发者节省时间的 10 个方法 http://python.jobbole.com/81888/
Python 快速教程(基础篇01):Hello World http://python.jobbole.com/82467/
Python 快速教程(基础篇02):基础数据类型 http://python.jobbole.com/82471/
Python 快速教程(基础篇03):序列 http://python.jobbole.com/82490/
Python 快速教程(基础篇04):运算 http://python.jobbole.com/82492/
Python 快速教程(基础篇05): 缩进和选择 http://python.jobbole.com/82523/
Python 快速教程(基础篇06): 循环 http://python.jobbole.com/82525/
Python 快速教程(基础篇07): 函数 http://python.jobbole.com/82529/
Python 快速教程(基础篇08): 面向对象的基本概念 http://python.jobbole.com/82531/
Python 快速教程(基础篇09): 面向对象的进一步拓展 http://python.jobbole.com/82550/
Python 快速教程(基础篇10):反过头来看看 http://python.jobbole.com/82552/
Python 快速教程(标准库01):正则表达式 (re包) http://python.jobbole.com/82688/
Python 快速教程(标准库02):时间与日期 (time, datetime包) http://python.jobbole.com/82690/
Python 快速教程(标准库03):路径与文件 (os.path包, glob包) http://python.jobbole.com/82692/
Python 快速教程(标准库04):文件管理 (部分os包,shutil包) http://python.jobbole.com/82699/
Python 快速教程(标准库05):存储对象 (pickle包,cPickle包) http://python.jobbole.com/82701/
Python 快速教程(标准库06):子进程 (subprocess包) http://python.jobbole.com/82711/
Python 快速教程(标准库07):信号 (signal包,部分os包) http://python.jobbole.com/82713/
Python 快速教程(标准库08):多线程与同步 (threading包) http://python.jobbole.com/82718/
Python 快速教程(标准库09):当前进程信息 (os包) http://python.jobbole.com/82720/
Python 快速教程(标准库10):多进程初步 (multiprocessing包) http://python.jobbole.com/82725/
Python 快速教程(标准库11):多线程与同步 (threading包) http://python.jobbole.com/82733/
Python 快速教程(标准库12):数学与随机数 (math包,random包) http://python.jobbole.com/82736/
Python 快速教程(标准库13):循环器 (itertools) http://python.jobbole.com/82740/
Python 快速教程(标准库14):数据库 (sqlite3) http://python.jobbole.com/82760/
Python 快速教程(标准库):学习准备 http://python.jobbole.com/82686/
Python 快速教程(标准库):走马观花 http://python.jobbole.com/82680/
Python 快速教程(深入篇01):特殊方法与多范式 http://python.jobbole.com/82618/
Python 快速教程(深入篇02):上下文管理器 http://python.jobbole.com/82620/
Python 快速教程(深入篇03):对象的属性 http://python.jobbole.com/82622/
Python 快速教程(深入篇04):闭包 http://python.jobbole.com/82624/
Python 快速教程(深入篇05): 装饰器 http://python.jobbole.com/82626/
Python 快速教程(深入篇06): Python的内存管理 http://python.jobbole.com/82653/
Python 快速教程(网络01):原始Python服务器 http://python.jobbole.com/82763/
Python 快速教程(网络02):Python服务器进化 http://python.jobbole.com/82765/
Python 快速教程(补充篇01): Python的序列的方法 http://python.jobbole.com/82655/
Python 快速教程(补充篇02): Python小技巧 http://python.jobbole.com/82663/
Python 快速教程(补充篇03): Python内置函数清单 http://python.jobbole.com/82665/
Python 快速教程(补充篇04): Python简史 http://python.jobbole.com/82671/
Python 快速教程(补充篇05):字符串格式化 (%操作符) http://python.jobbole.com/82673/
Python 快速教程(补充篇06):Python之道 http://python.jobbole.com/82678/
Python 快速教程(进阶篇01): 词典 http://python.jobbole.com/82554/
Python 快速教程(进阶篇02):文本文件的输入输出 http://python.jobbole.com/82555/
Python 快速教程(进阶篇03):模块 http://python.jobbole.com/82585/
Python 快速教程(进阶篇04):函数的参数对应 http://python.jobbole.com/82588/
Python 快速教程(进阶篇05):循环设计 http://python.jobbole.com/82590/
Python 快速教程(进阶篇06):循环对象 http://python.jobbole.com/82592/
Python 快速教程(进阶篇07):函数对象 http://python.jobbole.com/82597/
Python 快速教程(进阶篇08):异常处理 http://python.jobbole.com/82599/
Python 快速教程(进阶篇09):动态类型 http://python.jobbole.com/82616/
Python 快速教程:尾声 http://python.jobbole.com/83433/
Python 性能分析入门指南 http://python.jobbole.com/74266/
Python 性能快速优化 http://python.jobbole.com/82002/
Python 新手常犯错误(第一部分) http://python.jobbole.com/42706/
Python 新手常犯错误(第二部分) http://python.jobbole.com/43826/
Python 标准库 urllib2 的使用细节 http://python.jobbole.com/83696/
Python 格式化字符串 http://python.jobbole.com/82292/
Python 源码阅读 —— int http://python.jobbole.com/83464/
Python 源码阅读——dict http://python.jobbole.com/83480/
Python 源码阅读——tuple http://python.jobbole.com/83471/
Python 源码阅读——垃圾回收机制 http://python.jobbole.com/83548/
Python 爬虫的工具列表 http://python.jobbole.com/82633/
Python 的那些隐藏特性 http://python.jobbole.com/81081/
Python 程序员应该知道的 10 个库 http://python.jobbole.com/52355/
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 http://python.jobbole.com/81153/
Python 自然语言处理(NLP)工具库汇总 http://python.jobbole.com/81834/
Python 装饰器 http://python.jobbole.com/82344/
Python 调试工具 pudb 的使用指南 http://python.jobbole.com/82638/
Python 迭代器和生成器 http://python.jobbole.com/82320/
Python 面向对象(初级篇) http://python.jobbole.com/82023/
Python下用Scrapy和MongoDB构建爬虫系统(1) http://python.jobbole.com/81320/
Python下用Scrapy和MongoDB构建爬虫系统(2) http://python.jobbole.com/81280/
Python中setup.py一些不为人知的技巧 http://python.jobbole.com/80912/
Python中staticmethod和classmethod的差异 http://python.jobbole.com/83584/
Python中yield的解释 http://python.jobbole.com/83610/
Python中何时使用断言 http://python.jobbole.com/76285/
Python中使用内层函数的好处 http://python.jobbole.com/81679/
Python中内置的NotImplemented类型 http://python.jobbole.com/80913/
Python中备忘功能和装饰器 http://python.jobbole.com/81107/
Python中如何使用*args和**kwargs http://python.jobbole.com/83476/
Python中导入模块或包语句 http://python.jobbole.com/81187/
Python中循环语句中的else用法 http://python.jobbole.com/81063/
Python中的method http://python.jobbole.com/53989/
Python中的str与unicode处理方法 http://python.jobbole.com/81244/
Python中的上下文管理器 http://python.jobbole.com/64175/
Python中的函数详解 http://python.jobbole.com/81646/
Python中的并发编程 http://python.jobbole.com/64560/
Python中的生产者消费者问题 http://python.jobbole.com/52412/
Python中的类和对象(中级) http://python.jobbole.com/81108/
Python中的类和对象(二):描述符 http://python.jobbole.com/81211/
Python中的高级数据结构 http://python.jobbole.com/65218/
Python中的默认参数 http://python.jobbole.com/81105/
Python中的默认参数值 http://python.jobbole.com/40088/
Python之父从Google离职,加入Dropbox http://python.jobbole.com/31146/
Python之父:为什么Python数组下标从0开始 http://python.jobbole.com/58018/
Python也可以很美 http://python.jobbole.com/20351/
Python代码微优化之加快查找 http://python.jobbole.com/81210/
Python函数参数默认值的陷阱和原理深究 http://python.jobbole.com/81203/
Python函数式编程指南(1):概述 http://python.jobbole.com/82163/
Python函数式编程指南(2):函数 http://python.jobbole.com/82167/
Python函数式编程指南(3):迭代器 http://python.jobbole.com/82171/
Python函数式编程指南(4):生成器 http://python.jobbole.com/82178/
Python十分钟入门 http://python.jobbole.com/23425/
Python后端相关技术/工具栈 http://python.jobbole.com/83486/
Python命名空间和作用域窥探 http://python.jobbole.com/81367/
Python和数据科学的起步指南 http://python.jobbole.com/80853/
Python基础-元组小结 http://python.jobbole.com/83863/
Python基础-列表及列表解析小结 http://python.jobbole.com/83866/
Python基础技术问题总结 http://python.jobbole.com/81233/
Python多进程处理:如何将大量数据放入有限内存 http://python.jobbole.com/80753/
Python多进程编程 http://python.jobbole.com/82045/
Python奇技淫巧 http://python.jobbole.com/82750/
Python字符编码详解 http://python.jobbole.com/82107/
Python官方文档:Descriptor 指南 http://python.jobbole.com/83562/
Python实现ftp常用操作[ftplib] http://python.jobbole.com/83446/
Python实现控制台中的进度条 http://python.jobbole.com/83692/
Python实践:提取文章摘要 http://python.jobbole.com/83839/
Python实践:模块自动重载 http://python.jobbole.com/83844/
Python并发与并行的新手指南 http://python.jobbole.com/81260/
Python并发之threading模块 http://python.jobbole.com/80966/
Python开发指南:最佳实践精选 http://python.jobbole.com/82752/
Python开发者在转到Go语言之前需要了解什么? http://python.jobbole.com/42908/
Python循环语句中的索引变量作用域 http://python.jobbole.com/81274/
Python性能优化的20条建议 http://python.jobbole.com/81956/
Python技巧和陷阱 http://python.jobbole.com/81486/
Python招聘需求与技能体系 http://python.jobbole.com/83638/
Python指南(1.1):挑选解释器 http://python.jobbole.com/81064/
Python操作xml文件(xml.etree.ElementTree) http://python.jobbole.com/83593/
Python数据分析入门 http://python.jobbole.com/81133/
Python数据结构——链表的实现 http://python.jobbole.com/83953/
Python文件关闭机制详解 http://python.jobbole.com/81477/
Python文件管理 http://python.jobbole.com/83764/
Python模块学习 :pickle, cPickle 对象序列化/反序列化 http://python.jobbole.com/81509/
Python模块学习: re 正则表达式 http://python.jobbole.com/81558/
Python模块学习:atexit http://python.jobbole.com/81473/
Python模块学习:copy 对象拷贝 http://python.jobbole.com/81504/
Python模块学习:datetime http://python.jobbole.com/81482/
Python模块学习:filecmp 文件比较 http://python.jobbole.com/81480/
Python模块学习:fileinput http://python.jobbole.com/81469/
Python模块学习:glob 文件路径查找 http://python.jobbole.com/81552/
Python模块学习:hashlib hash加密 http://python.jobbole.com/81556/
Python模块学习:httplib HTTP协议客户端实现 http://python.jobbole.com/81542/
Python模块学习:logging 日志记录 http://python.jobbole.com/81521/
Python模块学习:marshal 对象的序列化 http://python.jobbole.com/81506/
Python模块学习:random 随机数生成 http://python.jobbole.com/81560/
Python模块学习:struct 数据格式转换 http://python.jobbole.com/81554/
Python模块学习:subprocess 创建子进程 http://python.jobbole.com/81517/
Python模块学习:tempfile 临时文件(夹)操作 http://python.jobbole.com/81515/
Python模块学习:thread 多线程处理 http://python.jobbole.com/81544/
Python模块学习:threading 多线程控制和处理 http://python.jobbole.com/81546/
Python模块学习:time 日期时间处理 http://python.jobbole.com/81550/
Python模块学习:urllib http://python.jobbole.com/81478/
Python模块学习:zipfile zip文件操作 http://python.jobbole.com/81519/
Python模块学习:zlib 数据压缩 http://python.jobbole.com/81513/
Python模板-Jinja2 http://python.jobbole.com/83560/
Python模板-Mako http://python.jobbole.com/83635/
Python正则表达式指南 http://python.jobbole.com/75188/
Python正则表达式的七个使用范例 http://python.jobbole.com/74844/
Python源码阅读-内存管理机制(一) http://python.jobbole.com/83533/
Python源码阅读-内存管理机制(二) http://python.jobbole.com/83535/
Python源码阅读-闭包的实现 http://python.jobbole.com/83545/
Python源码阅读——list http://python.jobbole.com/83469/
Python热点回顾第一期 http://python.jobbole.com/53346/
Python爬虫入门(1):综述 http://python.jobbole.com/81332/
Python爬虫入门(2):爬虫基础了解 http://python.jobbole.com/81334/
Python爬虫入门(3):Urllib库的基本使用 http://python.jobbole.com/81336/
Python爬虫入门(4):Urllib库的高级用法 http://python.jobbole.com/81339/
Python爬虫入门(5):URLError异常处理 http://python.jobbole.com/81341/
Python爬虫入门(6):Cookie的使用 http://python.jobbole.com/81344/
Python爬虫入门(7):正则表达式 http://python.jobbole.com/81346/
Python爬虫入门(8):Beautiful Soup的用法 http://python.jobbole.com/81349/
Python爬虫实战(1):爬取糗事百科段子 http://python.jobbole.com/81351/
Python爬虫实战(2):百度贴吧帖子 http://python.jobbole.com/81353/
Python爬虫实战(3):计算大学本学期绩点 http://python.jobbole.com/81357/
Python爬虫实战(4):抓取淘宝MM照片 http://python.jobbole.com/81359/
Python爬虫实战(5):模拟登录淘宝并获取所有订单 http://python.jobbole.com/81361/
Python状况:为什么PyPy是Python的未来? http://python.jobbole.com/39757/
Python的GIL是什么鬼,多线程性能究竟如何 http://python.jobbole.com/81822/
Python的defaultdict模块和namedtuple模块 http://python.jobbole.com/80847/
Python的中文编码问题 http://python.jobbole.com/80831/
Python的计数方式发展史 http://python.jobbole.com/83731/
Python的运行时方法补丁技术 http://python.jobbole.com/82357/
Python程序员必知必会的开发者工具 http://python.jobbole.com/58226/
Python程序员的10个常见错误 http://python.jobbole.com/68256/
Python程序员的常见错误 http://python.jobbole.com/69834/
Python程序员鲜为人知但你应该知道的16个问题 http://python.jobbole.com/82534/
Python程序的性能分析指南 http://python.jobbole.com/47619/
Python算法:Counting 101 http://python.jobbole.com/81450/
Python算法:分治法 http://python.jobbole.com/81461/
Python算法:动态规划 http://python.jobbole.com/81465/
Python算法:图 http://python.jobbole.com/81467/
Python算法:基础知识 http://python.jobbole.com/81445/
Python算法:推导、递归和规约 http://python.jobbole.com/81453/
Python算法:贪心策略 http://python.jobbole.com/81463/
Python算法:遍历 http://python.jobbole.com/81457/
Python线程指南 http://python.jobbole.com/82105/
Python编码和Unicode http://python.jobbole.com/50345/
Python编程中使用Pillow来处理图像的基础教程 http://python.jobbole.com/83685/
Python编程中常用的12种基础知识总结 http://python.jobbole.com/48541/
Python编程中的反模式 http://python.jobbole.com/74252/
Python编程中需要注意的一些事 http://python.jobbole.com/19835/
Python编程语言的发展简史 http://python.jobbole.com/77656/
Python自然语言处理 http://python.jobbole.com/80937/
Python自省(反射)指南 http://python.jobbole.com/82110/
Python装饰器与面向切面编程 http://python.jobbole.com/82112/
Python装饰器实例:调用参数合法性验证 http://python.jobbole.com/82114/
Python解析xml[xml.dom] http://python.jobbole.com/83453/
Python解析xml大文件(sax) http://python.jobbole.com/83713/
Python解释器简介(1):函数对象 http://python.jobbole.com/55327/
Python解释器简介(2):代码对象 http://python.jobbole.com/56300/
Python解释器简介(3):理解字节码 http://python.jobbole.com/56761/
Python解释器简介(4):动态语言 http://python.jobbole.com/57381/
Python解释器简介(5):深入主循环 http://python.jobbole.com/81660/
Python语言下的机器学习库 http://python.jobbole.com/81135/
Python读取修改ini配置文件[ConfigParser] http://python.jobbole.com/83454/
Python超级程序员使用的开发工具 http://python.jobbole.com/59000/
Python趣文:Import Girlfriend http://python.jobbole.com/56878/
Python进阶之“属性(property)”详解 http://python.jobbole.com/80955/
Python迭代器和生成器 http://python.jobbole.com/81881/
Python通用数据格式转换工具 http://python.jobbole.com/83447/
Python通用邮件发送(smtplib) http://python.jobbole.com/83719/
Python验证码识别处理实例 http://python.jobbole.com/83945/
Python高级特性(1):Iterators、Generators和itertools http://python.jobbole.com/66097/
Python高级特性(2):Closures、Decorators和functools http://python.jobbole.com/66895/
Python高级特性(3): Classes和Metaclasses http://python.jobbole.com/67748/
Python高级编程技巧 http://python.jobbole.com/61171/
Python,变调,电脑钢琴 http://python.jobbole.com/72745/
Scrapy 轻松定制网络爬虫 http://python.jobbole.com/73115/
Slashdot对Python之父的采访 http://python.jobbole.com/47081/
Vim 7.4 计划已公布,具体发布时间待定 http://python.jobbole.com/39429/
Y分钟学会Python http://python.jobbole.com/80995/
Zed Shaw:一位老程序员的建议 http://python.jobbole.com/943/
[摘要]Python 最佳实践指南 http://python.jobbole.com/83552/
fabric实现远程操作和部署 http://python.jobbole.com/83716/
python greenlet背景介绍与实现机制 http://python.jobbole.com/77240/
python 线程之 Condition http://python.jobbole.com/82742/
python 面向对象(进阶篇) http://python.jobbole.com/83747/
python:利用asyncio进行快速抓取 http://python.jobbole.com/63897/
python模块学习:Cookie http://python.jobbole.com/81492/
python模块学习:anydbm, shelve http://python.jobbole.com/81471/
python模块学习:smtplib 邮件发送 http://python.jobbole.com/81540/
python生成汉字图片字库 http://python.jobbole.com/81985/
“Hello world!” 混乱代码比赛第一名作品解析 http://python.jobbole.com/79737/
一个 11 行 Python 代码实现的神经网络 http://python.jobbole.com/82758/
一些简单的Python测试题 http://python.jobbole.com/83641/
一次Python内部的探险 http://python.jobbole.com/81062/
一篇文章让你彻底搞清楚Python中self的含义 http://python.jobbole.com/81921/
一行 Python 代码搞定一棵树 http://python.jobbole.com/18159/
一行 Python 实现并行化 — 日常多线程操作的新思路 http://python.jobbole.com/81757/
一行代码完成并行任务 http://python.jobbole.com/58700/
一起写一个 Web 服务器(1) http://python.jobbole.com/81524/
一起写一个 Web 服务器(2) http://python.jobbole.com/81523/
一起写一个Web服务器(3) http://python.jobbole.com/81820/
与 Python 无缝集成:基本特殊方法 1 http://python.jobbole.com/81657/
为什么 BIND 10 要用 C++ 和 Python 来写 http://python.jobbole.com/34289/
为什么Python中没有Switch/Case语句? http://python.jobbole.com/82008/
为什么Python对程序员重要? http://python.jobbole.com/13153/
为什么“except:pass”是一个不好的Python编程习惯? http://python.jobbole.com/59854/
为什么对数组排序让Python循环运行更快 http://python.jobbole.com/73819/
为什么数据科学家们选择了Python语言? http://python.jobbole.com/81039/
举例讲解 Python 中的死锁、可重入锁和互斥锁 http://python.jobbole.com/82723/
也谈如何阅读程序源代码 http://python.jobbole.com/81326/
人们对Python在企业级开发中的10大误解 http://python.jobbole.com/80936/
从Theano到Lasagne:基于Python的深度学习的框架和库 http://python.jobbole.com/81896/
从头开始实现神经网络:入门 http://python.jobbole.com/82208/
从豆瓣电影批量获取看过这部电影的用户列表 http://python.jobbole.com/82383/
以 Python 为实例,介绍贝叶斯理论 http://python.jobbole.com/81720/
作为一个python开发者需要知道的关于服务器的知识 http://python.jobbole.com/82009/
你所写过的最好的Python脚本是什么? http://python.jobbole.com/75244/
你最喜爱的编程语言不够好 http://python.jobbole.com/16231/
使用 Python 生成基于马尔可夫链的伪随机文本 http://python.jobbole.com/83908/
使用 Python 获取 Linux 系统信息 http://python.jobbole.com/44644/
使用 Python 进行稳定可靠的文件操作 http://python.jobbole.com/44442/
使用IronPython集成Python和.NET http://python.jobbole.com/80982/
使用PyQt来编写第一个Python GUI程序 http://python.jobbole.com/81276/
使用Python写一个小小的项目监控 http://python.jobbole.com/80897/
使用Python和OpenCV在视频中实时监测条形码 http://python.jobbole.com/81130/
使用Python开发Chrome插件 http://python.jobbole.com/81409/
使用Python的Socket模块构建一个UDP扫描工具 http://python.jobbole.com/81641/
使用Python的Supervisor来管理进程 http://python.jobbole.com/83799/
使用Python脚本在Linux下实现部分Bash Shell的教程 http://python.jobbole.com/83924/
使用Python进行并发编程 http://python.jobbole.com/81255/
使用Vagrant搭建跨平台的Python开发环境 http://python.jobbole.com/81861/
使用gettext模块翻译Python3源码以支持国际化 http://python.jobbole.com/80925/
使用python/casperjs编写终极爬虫-客户端App的抓取 http://python.jobbole.com/81995/
使用python扫描本地音乐并下载歌词 http://python.jobbole.com/83680/
使用python爬虫抓站的一些技巧总结:进阶篇 http://python.jobbole.com/82000/
使用马尔可夫模型自动生成文章 http://python.jobbole.com/81966/
值得关注的 10 个 Python 英文博客 http://python.jobbole.com/81730/
做一个字节码追踪器,从内部理解 Python 的执行过程 http://python.jobbole.com/81617/
像老大一样优化Python http://python.jobbole.com/54057/
像老大一样调试Python http://python.jobbole.com/52171/
八大排序算法的 Python 实现 http://python.jobbole.com/82270/
关于Python 3的一些想法 http://python.jobbole.com/54846/
关于Python日志系统的几点建议 http://python.jobbole.com/81132/
关于python中的setup.py http://python.jobbole.com/82077/
关于你不想知道的所有Python3 unicode特性 http://python.jobbole.com/73974/
再次介绍Into包:整洁地数据迁移 http://python.jobbole.com/81136/
再谈PHP、Python与Ruby http://python.jobbole.com/43792/
写给Python初学者的设计模式入门 http://python.jobbole.com/62023/
写给已有编程经验的 Python 初学者的总结 http://python.jobbole.com/79197/
函数式编程实战教程(Python版) http://python.jobbole.com/81075/
分析 Python 脚本 http://python.jobbole.com/82004/
创建成功的Python项目 http://python.jobbole.com/12649/
初学者必知的Python中优雅的用法 http://python.jobbole.com/81393/
初步理解Python进程的信号通讯 http://python.jobbole.com/83958/
利用 Python 练习数据挖掘 http://python.jobbole.com/83563/
利用Python中的mock库对Python代码进行模拟测试 http://python.jobbole.com/83922/
利用Python和OpenCV将URL直接转换成OpenCV格式 http://python.jobbole.com/81131/
利用图片指纹检测高相似度图片 http://python.jobbole.com/81277/
加速你的Python代码 http://python.jobbole.com/36701/
动态规划用于解决重叠子问题的示例(Python版) http://python.jobbole.com/67588/
单身数学家如何通过数据挖掘找真爱 http://python.jobbole.com/57618/
另一个Lambda表达式教程 http://python.jobbole.com/80954/
可爱的 Python : Python中函数式编程,第一部分 http://python.jobbole.com/35028/
可爱的 Python : Python中函数式编程,第二部分 http://python.jobbole.com/35042/
可爱的 Python : Python中的函数式编程,第三部分 http://python.jobbole.com/35045/
各种 Python 实现的简单介绍与比较 http://python.jobbole.com/82703/
同一个 bug 不要修复两次 http://python.jobbole.com/64440/
图解 Python 深拷贝和浅拷贝 http://python.jobbole.com/82294/
在 Python 中测试竞争条件 http://python.jobbole.com/81275/
在Linux中使用matplotlib进行科学画图 http://python.jobbole.com/81182/
在Python 3中实现类型检查器 http://python.jobbole.com/81423/
在Python中使用线性回归预测数据 http://python.jobbole.com/81215/
在Python中处理分数 http://python.jobbole.com/81213/
在Python中对MySQL中的数据进行可视化 http://python.jobbole.com/81110/
在Python中正确使用Unicode http://python.jobbole.com/80939/
在Raspberry Pi 2/B+上安装Python和OpenCV http://python.jobbole.com/81106/
基于 Python 和 Scikit-Learn 的机器学习介绍 http://python.jobbole.com/81721/
基于Python的测试驱动开发实战 http://python.jobbole.com/81305/
基于Python的行为驱动开发实战 http://python.jobbole.com/81303/
复杂度为 O(1) 的「最不常用」缓存算法的 Python 实现 http://python.jobbole.com/82424/
大数据全栈式开发语言 – Python http://python.jobbole.com/81878/
好奇号火星车的一些计算机软硬件信息 http://python.jobbole.com/25037/
如何使用 50 行 Python 代码制作一个计算器 http://python.jobbole.com/83889/
如何使用 urllib 包获取网络资源 http://python.jobbole.com/81398/
如何使用Python编写一个Lisp解释器 http://python.jobbole.com/47659/
如何入门 Python 爬虫? http://python.jobbole.com/81296/
如何创建和使用Python CGI脚本 http://python.jobbole.com/83788/
如何在Python中使用static、class、abstract方法(权威指南) http://python.jobbole.com/81595/
如何在Python中实现这五类强大的概率分布 http://python.jobbole.com/81321/
如何成为Python高手 http://python.jobbole.com/955/
如何教新人编程:授人以渔(可他要是钓到河豚会死的) http://python.jobbole.com/58281/
如何用 Python 爬取需要登录的网站? http://python.jobbole.com/83588/
如何用 Python 追踪 NBA 球员的移动轨迹 http://python.jobbole.com/82085/
如何用Python开发一个简单的Webkit浏览器 http://python.jobbole.com/82715/
如何用程序解图片迷宫? http://python.jobbole.com/62895/
如何获得NumPy的最佳性能 http://python.jobbole.com/81310/
如果一切需要重学,2014年应该学哪些技术? http://python.jobbole.com/61248/
学习Python编程的11个资源 http://python.jobbole.com/71064/
孩子们为什么要学Python编程 http://python.jobbole.com/17295/
定位Python built-in函数的源码实现 http://python.jobbole.com/82237/
对比Ruby和Python的垃圾回收(1) http://python.jobbole.com/60900/
对比Ruby和Python的垃圾回收(2):代式垃圾回收机制 http://python.jobbole.com/73300/
将Sublime Text 3设置为Python全栈开发环境 http://python.jobbole.com/81312/
小 200 行 Python 代码做了一个换脸程序 http://python.jobbole.com/82546/
常高伟:如何学习一门新的语言 http://python.jobbole.com/1322/
形象地解释 Python 中的列表解析 http://python.jobbole.com/83884/
必看的 Python 视频 http://python.jobbole.com/82605/
快速Python性能优化要点 http://python.jobbole.com/83628/
快速入门:十分钟学会Python http://python.jobbole.com/43922/
怎样写一个拼写检查器(Python 版) http://python.jobbole.com/81675/
想理解Python的列表解析吗?Think in Excel or SQL. http://python.jobbole.com/82087/
成人网站性能提升20倍之经验谈 http://python.jobbole.com/39323/
我不能胜任开发开源软件 http://python.jobbole.com/16387/
我希望初学Python时就能知道的一些用法 http://python.jobbole.com/81020/
我希望早点就知道的10个Python用法 http://python.jobbole.com/80865/
我常用的 Python 调试工具 http://python.jobbole.com/51062/
我常用的Python调试工具(二) http://python.jobbole.com/52090/
我是如何在12周内成为一名程序员的 http://python.jobbole.com/8464/
我是如何在8周內自学编程的 http://python.jobbole.com/25858/
我理解的 Python 最佳实践 http://python.jobbole.com/82939/
探索 Python(1): Python 的内置数值类型 http://python.jobbole.com/82498/
探索 Python(2): 探索 Python 类型的层次结构 —— 了解对象和容器 http://python.jobbole.com/82502/
探索 Python(3): 探索 Python 类型的层次结构 —— 使用字符串 http://python.jobbole.com/82505/
探索 Python(4): 探索 Python 类型的层次结构 —— 使用列表 http://python.jobbole.com/82510/
探索 Python(5): 用 Python 编程 —— 控制流 http://python.jobbole.com/82513/
探索 Python(6): 用 Python 编程 —— 兴趣 http://python.jobbole.com/82517/
提升 Python 程序性能的 6 个技巧 http://python.jobbole.com/81035/
提高你的Python能力:理解单元测试 http://python.jobbole.com/55180/
教你用Python创建瀑布图 http://python.jobbole.com/81259/
数据专家必知必会的 7 款 Python 工具 http://python.jobbole.com/81746/
数据科学的完整学习路径(Python版) http://python.jobbole.com/80981/
数据结构&算法实践—Bogo排序 http://python.jobbole.com/83709/
数据结构&算法实践—冒泡排序及改进 http://python.jobbole.com/83510/
数据结构&算法实践—地精排序及改进 http://python.jobbole.com/83728/
数据结构&算法实践—堆排序 http://python.jobbole.com/83722/
数据结构&算法实践—奇偶排序 http://python.jobbole.com/83540/
数据结构&算法实践—插入排序 http://python.jobbole.com/83726/
数据结构&算法实践—梳子排序 http://python.jobbole.com/83530/
数据结构&算法实践—选择排序 http://python.jobbole.com/83711/
数据结构&算法实践—鸡尾酒排序 http://python.jobbole.com/83504/
文本向量空间模型 http://python.jobbole.com/81311/
无需操作系统直接运行 Python 代码 http://python.jobbole.com/81420/
既然PyPy的速度是CPython的6.3倍,难道我不应该放弃CPython转用PyPy? http://python.jobbole.com/49341/
最好的Python机器学习库 http://python.jobbole.com/83605/
有史以来最出彩的编程语言名字 http://python.jobbole.com/42999/
机器学习之用Python从零实现贝叶斯分类器 http://python.jobbole.com/81019/
机器学习算法原理之人工神经元和单层神经网络 http://python.jobbole.com/81278/
构建健壮 Python 包的 5 个简单规则 http://python.jobbole.com/81579/
检测Python程序执行效率及内存和CPU使用的7种方法 http://python.jobbole.com/80754/
每个 Python 程序员都要知道的日志实践 http://python.jobbole.com/81666/
每个程序员都应该学习使用Python或Ruby http://python.jobbole.com/1141/
浅谈 Python 的 with 语句 http://python.jobbole.com/82494/
深入 Python 列表的内部实现 http://python.jobbole.com/82549/
深入 Python 整数对象的实现 http://python.jobbole.com/82632/
深入了解 Python 字符串对象的实现 http://python.jobbole.com/83732/
深入分析 Python 的垃圾回收机制 http://python.jobbole.com/82061/
深入理解Python中的生成器 http://python.jobbole.com/81911/
深入理解异步Web服务器 Tornado http://python.jobbole.com/83826/
深刻理解Python中的元类(metaclass) http://python.jobbole.com/21351/
漫画:为什么 C 被踢出窗外? http://python.jobbole.com/56762/
潜在的Python陷阱 http://python.jobbole.com/81564/
热门 Python 应用 The Fuck 是如何工作的 http://python.jobbole.com/82528/
爱上 SQLAlchemy 的 10 个理由 http://python.jobbole.com/82453/
理解 Python 中的线程 http://python.jobbole.com/52060/
理解 Python 字节码 http://python.jobbole.com/80815/
理解Python的迭代器 http://python.jobbole.com/81916/
理解python中的装饰器 http://python.jobbole.com/83625/
用 GDB 排查 Python 程序故障 http://python.jobbole.com/82232/
用 Opencv 和 Python 对汪星人做模糊检测 http://python.jobbole.com/83702/
用 Python 从零开始写一个简单的解释器(1) http://python.jobbole.com/82206/
用 Python 从零开始写一个简单的解释器(2) http://python.jobbole.com/82423/
用 Python 从零开始写一个简单的解释器(3) http://python.jobbole.com/82445/
用 Python 从零开始写一个简单的解释器(4) http://python.jobbole.com/82455/
用 Python 做了一个豆瓣用户读书短评下载工具 http://python.jobbole.com/82374/
用 Python 做单词拼写检查 http://python.jobbole.com/83804/
用 Python 创建 NBA 得分图表 http://python.jobbole.com/81968/
用 Python 制作 Powerpoint 演示文稿 http://python.jobbole.com/82394/
用 Python 和 OpenCV 检测和跟踪运动对象 http://python.jobbole.com/81593/
用 Python 和 OpenCV 检测图片上的条形码 http://python.jobbole.com/80448/
用 Python 将文本转为图片 http://python.jobbole.com/81983/
用 Python 绘制音乐图谱 http://python.jobbole.com/81186/
用 Python 编写一个国际象棋 AI 程序 http://python.jobbole.com/80007/
用 Python 脚本实现对 Linux 服务器的监控 http://python.jobbole.com/54563/
用 RAKE 和 Maui 做 NLP 关键词提取的教程 http://python.jobbole.com/82230/
用 kNN 算法预测豆瓣电影用户的性别 http://python.jobbole.com/82379/
用AIML开发人工智能聊天机器人 http://python.jobbole.com/82007/
用K-均值聚类来探索顾客细分 http://python.jobbole.com/83498/
用Pandas完成Excel中常见的任务 http://python.jobbole.com/80870/
用Pandas完成Excel中常见的任务(2) http://python.jobbole.com/80972/
用Python写一个FUSE(用户态文件系统)文件系统 http://python.jobbole.com/51268/
用Python写一个简单的Web框架 http://python.jobbole.com/83817/
用Python和MoviePy将数据动态可视化 http://python.jobbole.com/81185/
用Python和OpenCV创建一个图片搜索引擎的完整指南 http://python.jobbole.com/80860/
用Python在地图上模拟疫情扩散 http://python.jobbole.com/80938/
用Python处理视频 http://python.jobbole.com/58257/
用Python实现K-近邻算法 http://python.jobbole.com/83794/
用Python挖掘Linux系统 http://python.jobbole.com/80869/
用Python的 __slots__ 节省9G内存 http://python.jobbole.com/52420/
用python爬虫抓站的一些技巧总结 http://python.jobbole.com/81997/
用主题模型可视化分析911新闻(Python版) http://python.jobbole.com/81279/
用树莓派 + Python + OpenCV 实现家庭监控和移动目标探测(下) http://python.jobbole.com/81645/
用语音写代码比键盘更快 http://python.jobbole.com/45781/
由用户输入系列对称的点的解决方案 http://python.jobbole.com/82248/
白话 Tornado 源码(2):待请求阶段 http://python.jobbole.com/82145/
白话 Tornado 源码(3):请求来了 http://python.jobbole.com/82165/
白话 Tornado 源码(4):褪去模板外衣的前戏 http://python.jobbole.com/82127/
白话 Tornado 源码(5):褪去模板的外衣 http://python.jobbole.com/82176/
白话tornado源码(1):一个脚本引发的血案 http://python.jobbole.com/82095/
移植到 Python 3 http://python.jobbole.com/83848/
给Python初学者的一些技巧 http://python.jobbole.com/32748/
编程语言拟人化:Java、C++、Python、Ruby、PHP、C#、JS http://python.jobbole.com/63311/
网络爬虫剖析,以Pyspider为例 http://python.jobbole.com/81109/
自己动手写贝叶斯分类器给图书分类 http://python.jobbole.com/81764/
行为驱动开发在 Python 开发测试中的应用 http://python.jobbole.com/82580/
解密 Python 的描述符(descriptor) http://python.jobbole.com/81899/
让 Python 更快地进行验证 http://python.jobbole.com/81833/
让Python代码更快运行的 5 种方法 http://python.jobbole.com/81252/
设置 Sublime Text 的 Python 开发环境 http://python.jobbole.com/40660/
详解Python中的下划线 http://python.jobbole.com/81129/
详解在 Python 中解析并修改XML内容的方法 http://python.jobbole.com/82775/
说说Python中的几个内建函数和表推导 http://python.jobbole.com/81905/
谁说不能用Python写出让人迷惑的代码? http://python.jobbole.com/1414/
超酷算法:基数估计 http://python.jobbole.com/78255/
趣文:Python程序员的进化史 http://python.jobbole.com/15005/
趣文:如果编程语言是女人(新编版) http://python.jobbole.com/44736/
通过pymongo测试MongoDB的高可用性 http://python.jobbole.com/81638/
通过示例学习Python列表推导 http://python.jobbole.com/80823/
重写Reddit http://python.jobbole.com/79097/
陈皓:代码执行的效率 http://python.jobbole.com/23773/
陈皓:程序员技术练级攻略 http://python.jobbole.com/1101/
零基础学习PDB命令行调试Python代码 http://python.jobbole.com/81184/
零基础自学用Python 3开发网络爬虫(一) http://python.jobbole.com/77821/
零基础自学用Python 3开发网络爬虫(三): 伪装浏览器君 http://python.jobbole.com/77830/
零基础自学用Python 3开发网络爬虫(二): 用到的数据结构简介以及爬虫Ver1.0 alpha http://python.jobbole.com/77825/
零基础自学用Python 3开发网络爬虫(五): 使用第三方模块快速抓取与解析 http://python.jobbole.com/81102/
零基础自学用Python 3开发网络爬虫(四): 登录 http://python.jobbole.com/77878/
需求驱动学习之Python(如何编写Python脚本替换文件中的多行字符?) http://python.jobbole.com/81417/
非典型性吐槽:亲爱的Python,你为何如此丑陋 http://python.jobbole.com/18629/
高性能的Python扩展(1) http://python.jobbole.com/78859/
高性能的Python扩展(2) http://python.jobbole.com/79331/
高性能的Python扩展(3) http://python.jobbole.com/80005/
高级正则表达式技术(Python版) http://python.jobbole.com/65605/

爬取dataunion

import requests
from bs4 import BeautifulSoup
import re
from operator import itemgetter
from multiprocessing.dummy import Pool as ThreadPool

def FindoutMaxPageNumber():
    soup = BeautifulSoup(requests.get("http://dataunion.org/").text, "html.parser")
    link = soup.find("a", {"title": ["最末页"]})['href']
    return int(link[link.rindex('/')+1:], 10)

def myFilter(text):
    for item in add:
        #if re.match(item, text, re.IGNORECASE):#只从字符串的开始与正则表达式匹配
        if re.search(item, text, re.IGNORECASE):#将字符串的所有字串尝试与正则表达式匹配
            return True
    return False

def getPage(pageIndex):
    url = 'http://dataunion.org/page/%d' % (pageIndex)
    sp = BeautifulSoup(requests.get(url).text, "html.parser")
    for tag in set(sp.find_all("h2", class_="mecctitle")):
        if myFilter(tag.get_text()):
            cer = re.compile('href=\"(.*)\"')
            strlist = cer.findall(tag.prettify())
            dic[tag.get_text().strip()] = strlist[0]

pool = ThreadPool(8) # Sets the pool size
dic = dict()
add = ['cnn','deep','theano', '图像', '卷积', '机器学习', '深度学习','特征','提取','识别','caffe']

pool.map(getPage, range(1, FindoutMaxPageNumber()+1))
pool.close()
pool.join()

cdi = sorted(dic.items(), key=itemgetter(0), reverse=False)
#cdi = sorted(dic.items(), key=lambda d:d[0], reverse=False)
for d,x in cdi:
    print(d+' '+x)
执行结果
2015年科技预测:深度学习和机器智能将席卷世界 http://dataunion.org/5918.html
2016:深度学习的未来 http://dataunion.org/21069.html
20个顶尖的 Python 语言机器学习开源项目 http://dataunion.org/19321.html
33页PPT:关于机器学习的若干理论问题 http://dataunion.org/2011.html
46页PPT | 方法论:如何通过机器学习技术来保护隐私 http://dataunion.org/2052.html
47页PPT:基于大数据和深度学习的短文本交互 http://dataunion.org/2267.html
50个数据科学和机器学习速查表 http://dataunion.org/20083.html
62页PPT:随机数值代数: 回顾及在机器学习中的若干进展 http://dataunion.org/2376.html
8步从Python白板到专家,从基础到深度学习 http://dataunion.org/15057.html
Adam:大规模分布式机器学习框架 http://dataunion.org/19871.html
Amazon Web开展机器学习服务,用户可在云端学习预测模型 http://dataunion.org/15096.html
Azure机器学习平台的扩展和R编程 http://dataunion.org/11085.html
CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发 http://dataunion.org/21108.html
CNN卷积神经网络应用于人脸识别(详细流程+代码实现) http://dataunion.org/17618.html
Caffe 深度学习框架上手教程 http://dataunion.org/9188.html
Convolution Neural Network (CNN) 原理与实现 http://dataunion.org/12090.html
DMLC深盟分布式深度机器学习开源平台解析 http://dataunion.org/18124.html
Deep Learning and Shallow Learning http://dataunion.org/12896.html
Deep Learning 模型是如何学习和表示词、短语、句子和篇章的? http://dataunion.org/19554.html
DeepFace——Facebook的人脸识别 http://dataunion.org/20010.html
DeepID人脸识别算法之三代 http://dataunion.org/17149.html
DeepMind背后的人工智能:深度学习原理初探 http://dataunion.org/1548.html
EasyPR:一个开源的中文车牌识别系统 http://dataunion.org/13512.html
Facebook 开源的深度学习模块介绍 http://dataunion.org/8375.html
Facebook人工智能负责人Yann LeCun谈深度学习的局限性 http://dataunion.org/19897.html
Geoffrey Hinton 是这个人,把“深度学习”从边缘课题变成Google等网络巨头仰赖的核心技术 http://dataunion.org/3543.html
Google翻译是如何把深度学习“塞进”手机的? http://dataunion.org/20240.html
GraphLab Create:更简单更强大的深度学习 http://dataunion.org/6367.html
Guesswork:机器学习注意力应集中于客户 http://dataunion.org/613.html
Hadoop 2.0 上深度学习的解决方案 http://dataunion.org/8770.html
Iconfinder 如何杜绝盗版,哈希算法检测图像重复 http://dataunion.org/15022.html
Image classification with deep learning常用模型 http://dataunion.org/11913.html
Image classification的几个常见CNN model http://dataunion.org/6444.html
Kaggle 机器学习竞赛冠军及优胜者的源代码汇总 http://dataunion.org/14892.html
Kaggle上的一次比赛:利用机器学习进行恶意代码分类 http://dataunion.org/20505.html
Mike Jordan 推荐的13本机器学习书籍 http://dataunion.org/8230.html
Mllib机器学习工具包在Hadoop上的使用 http://dataunion.org/5544.html
NLP大神推荐的机器学习入门书单(附大量百度网盘电子书) http://dataunion.org/12565.html
Python 兵器谱:网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘 (转载) http://dataunion.org/367.html
Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱 http://dataunion.org/9005.html
Python机器学习库scikit-learn实践 http://dataunion.org/20953.html
Python语言下的机器学习库 http://dataunion.org/12410.html
Ramp:快速开发机器学习原型 http://dataunion.org/5031.html
R语言与机器学习学习笔记(分类算法) http://dataunion.org/672.html
Scala更适合用于大数据处理和机器学习 http://dataunion.org/2785.html
Spark 1.5.0发布:新增机器学习算法工具,扩展Spark R API http://dataunion.org/20751.html
Which GPU to use for deep learning? http://dataunion.org/15891.html
Wolfram推出了图像识别引擎,却不幸沦为大众调戏对象… http://dataunion.org/17310.html
cxxnet和大规模深度学习 http://dataunion.org/12555.html
mlpack:可伸缩C++机器学习库 http://dataunion.org/4953.html
​兔子和分布式机器学习 http://dataunion.org/8867.html
​机器学习代码心得(二):迭代器和流水处理 http://dataunion.org/6290.html
《机器学习实战》作者Peter Harrington:如何学好机器学习 http://dataunion.org/3603.html
《自然》深度机器学习未来将怎样改变人类生活 http://dataunion.org/12498.html
「人脸识别」很火,但你不知道的还有很多 http://dataunion.org/17080.html
【内推】机器学习工程师-15K~30K-北京-估值上亿美元大数据信用评估公司 http://dataunion.org/10367.html
【对话机器学习大神Michael Jordan】前言 http://dataunion.org/1442.html
【强烈推荐!】深度学习阅读清单 http://dataunion.org/5741.html
【急聘】深度学习技术专家-薪酬开放-杭州 http://dataunion.org/14864.html
【数盟内推】机器学习算法工程师-10K~25K-成都/北京-A轮千万级大数据公司 http://dataunion.org/6393.html
【转载】机器学习中的数学(1)-回归(regression)、梯度下降(gradient descent) http://dataunion.org/312.html
【转载】机器学习中的数学(2)-线性回归,偏差、方差权衡 http://dataunion.org/317.html
【转载】机器学习中的数学(3)-模型组合(Model Combining)之Boosting与Gradient Boosting http://dataunion.org/320.html
【转载】机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) http://dataunion.org/323.html
【转载】机器学习中的数学(5)-强大的矩阵奇异值分解(SVD)及其应用 http://dataunion.org/326.html
一文读懂机器学习,大数据/自然语言处理/算法全有了…… http://dataunion.org/6331.html
一篇关于机器学习的温和指南 http://dataunion.org/20783.html
万能的Quora啊,请告诉我:你用机器学习都做了什么? http://dataunion.org/20452.html
为什么一些机器学习模型需要对数据进行归一化? http://dataunion.org/15046.html
为什么机器学习广泛的用在谷歌的广告系统中,而很少用在搜索排序中? http://dataunion.org/13374.html
为什么统计学家、机器学习专家解决同一问题的方法差别那么大? http://dataunion.org/20616.html
为什么说数据分析、机器学习、物联网要放一起才玩的转 http://dataunion.org/20179.html
乔丹Reddit访谈实录:统计学和机器学习不能分开 http://dataunion.org/1545.html
云安全公司利用自然语言处理识别钓鱼网站 http://dataunion.org/11901.html
云视链、谷歌、微软都在说的虹膜识别,到底是什么? http://dataunion.org/20288.html
互联网公司机器学习、数据挖掘类的职位面试主要考察哪些? http://dataunion.org/11448.html
亚马逊等互联网巨头的“云+机器学习”之路要怎么走? http://dataunion.org/14276.html
京东DNN Lab首席科学家:京东深度学习应用及最新进展 http://dataunion.org/5846.html
人工智能\机器学习\统计学\数据挖掘之间有什么区别? http://dataunion.org/12251.html
人工智能和机器学习领域有哪些有趣的开源项目? http://dataunion.org/2954.html
人工智能,机器学习,统计学,数据挖掘之间有什么区别? http://dataunion.org/8576.html
人脸识别必有一战:腾讯背后的人脸识别技术支持团队——优图 http://dataunion.org/19379.html
人脸识别技术大总结(1)——Face Detection & Alignment http://dataunion.org/14010.html
人脸识别还不够,FBI要研究纹身识别 http://dataunion.org/20526.html
人脸识别通过公共场所的摄像头能抓住逃犯嚒? http://dataunion.org/14099.html
人脸验证 DeepID 算法实践 http://dataunion.org/17917.html
什么是机器学习:一次权威定义之旅 http://dataunion.org/9966.html
从How-Old.net到TwinsOrNot.net,看人脸识别技术是怎么 high 起来的 http://dataunion.org/19866.html
从感知摄像机看图像识别技术的具体行业应用 http://dataunion.org/19880.html
从技能到特征,全面解码数据科学家 http://dataunion.org/1359.html
从机器学习的视角来看人性中的“偏激” http://dataunion.org/18036.html
从统计学角度来看深度学习:递归广义线性模型 http://dataunion.org/17764.html
传12306图片验证12小时内被破解,机器自动识别验证码的原理是怎么样的? http://dataunion.org/12514.html
伯克利:探索深度学习在科学界的应用 http://dataunion.org/20925.html
使用GPU和Theano加速深度学习 http://dataunion.org/20365.html
克服了这些磨难,深度学习将更加优秀! http://dataunion.org/20086.html
入门科普:天天喊深度学习,到底深度学习是啥? http://dataunion.org/17834.html
八一八Leo Breiman,一位深深地影响了机器学习界的奇人 http://dataunion.org/16511.html
八一八深度学习的这三十年历程! http://dataunion.org/19598.html
关于Andrew Ng『应用机器学习的建议』的学习笔记 http://dataunion.org/14308.html
关于人工智能(机器学习、深度学习、强人工智能……)的二十件事 http://dataunion.org/17234.html
关于推荐系统中的特征工程 http://dataunion.org/13206.html
减少部署痛苦:七种基于云计算的机器学习服务 http://dataunion.org/14296.html
分析了全球855家公司,看人工智能产业(ML/图像识别/NLP/推荐引擎)的发展现状 http://dataunion.org/20500.html
利用GPU和Caffe训练神经网络 http://dataunion.org/19699.html
加速深度学习研发的几个常用方法 http://dataunion.org/20129.html
十个值得一试的开源深度学习框架 http://dataunion.org/21119.html
十张图解释机器学习的基本概念 http://dataunion.org/9512.html
卷积神经网络初探 http://dataunion.org/20942.html
卷积网络训练太慢?卷积网络之父Yann LeCun:已解决CIFAR-10,目标 ImageNet http://dataunion.org/8339.html
史上最强论战第二弹:一线大牛关于人工智能和深度学习的讨论 http://dataunion.org/19849.html
各种编程语言的深度学习库整理大全! http://dataunion.org/20798.html
吴恩达谈百度深度学习:为什么要建中文神经网络 http://dataunion.org/10254.html
四大机器学习降维算法:PCA、LDA、LLE、Laplacian Eigenmaps http://dataunion.org/13451.html
国际贸易支付工具PayPal,使用深度学习和监测工作打击欺诈 http://dataunion.org/14275.html
图像卷积与滤波的一些知识点 http://dataunion.org/20981.html
图像处理和图像识别中常用的329个OpenCV函数 http://dataunion.org/20333.html
图像局部特征点检测算法综述 http://dataunion.org/14125.html
图像特征提取三大法宝:HOG特征,LBP特征,Haar特征 http://dataunion.org/20584.html
图像的稀疏表示——ScSPM和LLC的总结 http://dataunion.org/9755.html
图像识别四大图像库比较:OpenCV/FreeImage/CImg/CxImage http://dataunion.org/20307.html
图像识别神器Deep Dream的前世今生 http://dataunion.org/20932.html
图像验证码和大规模图像识别技术 http://dataunion.org/21090.html
在机器学习方面使用 R + Hadoop 方案真的有那么好? http://dataunion.org/16326.html
在机器学习模型运行时保持高效的方法 http://dataunion.org/11647.html
基于 Python 和 Scikit-Learn 的机器学习介绍 http://dataunion.org/20071.html
基于Python的卷积神经网络和特征提取 http://dataunion.org/20587.html
基于SVM与人工神经网络的车牌识别系统 http://dataunion.org/18209.html
基于Spark的机器学习经验 http://dataunion.org/21012.html
基于分布式云的机器学习 http://dataunion.org/11977.html
基于机器学习方法的POI品类推荐算法 http://dataunion.org/4211.html
基于混沌的数字图像加密算法 http://dataunion.org/17038.html
基于面部表情的情绪识别,让计算机再感性一点 http://dataunion.org/8201.html
大数据/数据挖掘/推荐系统/机器学习相关资源 http://dataunion.org/21072.html
大数据日志分析的成功取决于机器学习 http://dataunion.org/1148.html
大数据时代,机器学习机制正在崛起…… http://dataunion.org/619.html
大数据预测的四大特征 http://dataunion.org/806.html
大数据+机器学习+平台,Dato拿了1850万美元B轮融资 http://dataunion.org/6532.html
大神亲传:26条深度学习的金科玉律! http://dataunion.org/20811.html
大量 Deep Learning 学习资源! http://dataunion.org/17663.html
如何在Hadoop 2.0上实现深度学习? http://dataunion.org/11887.html
如何看待深度学习? http://dataunion.org/20893.html
如何选择机器学习分类器? http://dataunion.org/13026.html
如何选择机器学习算法? http://dataunion.org/16495.html
它将是你的第二大脑——长文讲述谷歌深度学习的故事 http://dataunion.org/10570.html
实例详解机器学习如何解决问题 http://dataunion.org/10588.html
常用的机器学习&数据挖掘知识(点)总结 http://dataunion.org/14926.html
常见面试之机器学习算法思想简单梳理 http://dataunion.org/5341.html
干货整理:深度学习 vs 机器学习 vs 模式识别 http://dataunion.org/13071.html
干货:形而上的机器学习 http://dataunion.org/2974.html
干货:深度学习 vs 概率图模型 vs 逻辑学 http://dataunion.org/16436.html
干货:结合Scikit-learn介绍几种常用的特征选择方法 http://dataunion.org/14072.html
开发者成功玩转机器学习的十大诀窍! http://dataunion.org/20003.html
开源机器学习工具scikit-learn入门 http://dataunion.org/12228.html
张夏天:揭秘 TalkingData 的大规模机器学习的应用 http://dataunion.org/19768.html
当机器学习遇上计算机视觉(上) http://dataunion.org/10227.html
当机器学习遇上计算机视觉(下) http://dataunion.org/10232.html
当机器学习遇到计算机视觉 http://dataunion.org/15984.html
微软牛津计划——屌爆了的自然数据处理解决方案(人脸/语音识别/计算机视觉/NLP) http://dataunion.org/20598.html
微软黑科技:图像识别系统错误率已低于人类 http://dataunion.org/11065.html
微软:我家的深度学习超越了人类和Google http://dataunion.org/10929.html
心情识别技术:你不说,它也知道 http://dataunion.org/15268.html
总结Python正文提取的工具包(转) http://dataunion.org/424.html
情绪也是一种虚拟货币?告诉你情绪识别真正的应用前景! http://dataunion.org/8329.html
想入门机器学习、数据挖掘,我该怎么做? http://dataunion.org/19877.html
想搞机器学习,不会特征工程?你TM逗我那! http://dataunion.org/20276.html
我在面试机器学习、大数据岗位时遇到的各种问题 http://dataunion.org/20682.html
手把手,74行代码实现手写数字识别 http://dataunion.org/20992.html
技术向:一文读懂卷积神经网络CNN http://dataunion.org/11692.html
技术篇:预测建模、监督机器学习和模式分类概览 http://dataunion.org/16027.html
推荐一些从零开始学习机器学习算法的方法 http://dataunion.org/20758.html
推荐这六本关于机器学习的书籍,并说说它们的优缺点 http://dataunion.org/20692.html
推荐!国外程序员整理的机器学习资源大全 http://dataunion.org/3560.html
教程:使用Amazon Machine Learning构建机器学习预测模型 http://dataunion.org/15245.html
斯坦福大学公开课 :机器学习全套视频教程(免费) http://dataunion.org/5941.html
斯坦福深度学习博士,手把手教你用Javascript写神经网络和SVM http://dataunion.org/2668.html
无处可藏:Facebook开发无脸识别技术 http://dataunion.org/19765.html
易用的深度学习框架Keras简介及使用 http://dataunion.org/16787.html
智冠女神董事长:做手静脉生物识别认证技术领跑者 http://dataunion.org/951.html
最流行的4个机器学习数据集 http://dataunion.org/9232.html
有趣的机器学习:最简明入门指南 http://dataunion.org/9969.html
未来,语音识别可能应用于哪些商业化场景? http://dataunion.org/10046.html
本周最受资本追捧的两家机器学习创业公司 http://dataunion.org/2680.html
机器学习(Machine Learning)&深度学习(Deep Learning)资料汇总 http://dataunion.org/8463.html
机器学习+图像处理还原梵高《星空》全貌 http://dataunion.org/3076.html
机器学习API Top 10:AT&T Speech、IBM Watson和Google Prediction http://dataunion.org/20392.html
机器学习与统计学是互补的吗? http://dataunion.org/21087.html
机器学习专家与统计学家观点上有哪些不同? http://dataunion.org/15992.html
机器学习中导数最优化方法(基础篇) http://dataunion.org/11752.html
机器学习中的数学(1):回归(regression)、梯度下降(gradient descent) http://dataunion.org/8807.html
机器学习中的数学(2):线性回归,偏差、方差权衡 http://dataunion.org/8880.html
机器学习中的数学(3):模型组合(Model Combining)之Boosting与Gradient Boosting http://dataunion.org/9142.html
机器学习中的数学(4)-线性判别分析(LDA), 主成分分析(PCA) http://dataunion.org/9366.html
机器学习中的相似性度量,方法汇总对比 http://dataunion.org/7260.html
机器学习代码心得(一):​有监督学习的模块 http://dataunion.org/6288.html
机器学习代码心得(三):模板和张量库 http://dataunion.org/6297.html
机器学习优质公开课权威汇总 http://dataunion.org/10036.html
机器学习刀光剑影 之 屠龙刀 http://dataunion.org/11262.html
机器学习到底适合哪些人群学习? http://dataunion.org/20632.html
机器学习反欺诈实践:Python+scikit-learn+随机森林 http://dataunion.org/17797.html
机器学习和图像识别是怎样彻底改变搜索的? http://dataunion.org/11179.html
机器学习和深度学习学习资料 http://dataunion.org/5044.html
机器学习和统计模型的差异 http://dataunion.org/20159.html
机器学习和计算机视觉必需的数学基础 http://dataunion.org/8386.html
机器学习实践中应避免的七种常见错误 http://dataunion.org/11624.html
机器学习工具对比:Mahout vs Weka http://dataunion.org/2514.html
机器学习开发者的现代化攻略:对统计学微积分Say NO! http://dataunion.org/20636.html
机器学习的十个经典应用实例 http://dataunion.org/9962.html
机器学习的现状是什么,又究竟会走向何方呢? http://dataunion.org/9852.html
机器学习算法原理:人工神经元和单层神经网络 http://dataunion.org/14662.html
机器学习算法基础概念学习总结 http://dataunion.org/3238.html
机器学习算法汇总:人工神经网络、深度学习及其它 http://dataunion.org/4794.html
机器学习经典书籍汇总 http://dataunion.org/18325.html
机器学习经典算法详解及Python实现–CART分类决策树、回归树和模型树 http://dataunion.org/5771.html
机器学习经典算法详解及Python实现–K近邻(KNN)算法 http://dataunion.org/4237.html
机器学习经典算法详解及Python实现–决策树(Decision Tree) http://dataunion.org/5107.html
机器学习经典算法详解及Python实现–线性回归(Linear Regression)算法 http://dataunion.org/4914.html
机器学习经典算法详解及Python实现——聚类及K均值、二分K-均值聚类算法 http://dataunion.org/7781.html
机器学习进化史:从线性模型到神经网络 http://dataunion.org/16688.html
机器学习项目中最常见的误区有哪些 http://dataunion.org/15743.html
机器学习(一) 从一个R语言案例学线性回归 http://dataunion.org/17942.html
机器学习(非传统统计方法如回归)到底在量化金融里哪些方面有应用? http://dataunion.org/9994.html
机器学习:更多的数据总是优于更好的算法吗? http://dataunion.org/19715.html
根据十年的积累数据,揭示优质创业公司的十大特征 http://dataunion.org/20676.html
欺诈预测机器学习模型设计:准确率和召回率的故事 http://dataunion.org/20030.html
浅谈我对机器学习的理解 http://dataunion.org/7947.html
浪潮开源公布首款高性能深度学习软件 http://dataunion.org/12981.html
深度卷积神经网络CNNs的多GPU并行框架 及其在图像识别的应用 http://dataunion.org/5662.html
深度学习 vs. 大数据:神经网络权值的版权属于谁? http://dataunion.org/17854.html
深度学习“引擎”之争:GPU加速还是专属神经网络芯片? http://dataunion.org/16697.html
深度学习、自然语言处理和表征方法 http://dataunion.org/9331.html
深度学习中对抗样本的八个误解与事实 http://dataunion.org/20067.html
深度学习之浅见 http://dataunion.org/12358.html
深度学习在不同场景下的一些挑战及解决方案 http://dataunion.org/19947.html
深度学习在腾讯的平台化和应用实践 http://dataunion.org/6222.html
深度学习工具caffe详细安装指南 http://dataunion.org/19975.html
深度学习改变世界!Deep learning简析 http://dataunion.org/12735.html
深度学习的研究领域是否有被过度夸大? http://dataunion.org/6397.html
深度学习阅读清单:给初探深度学习的你 http://dataunion.org/19343.html
深度学习领域三大牛LeCun、Bengio和Hinton 联合打造史上最权威综述 http://dataunion.org/19192.html
深度学习:CNN的反向求导及练习 http://dataunion.org/5395.html
深度强化学习(Deep Reinforcement Learning)的资源汇总 http://dataunion.org/14473.html
深度神经网络DNN的多GPU数据并行框架 及其在语音识别的应用 http://dataunion.org/5744.html
漫谈:机器学习中距离和相似性度量方法 http://dataunion.org/11710.html
特征工程 vs. 特征提取: Game On! http://dataunion.org/20386.html
特征选择常用算法综述 http://dataunion.org/12105.html
用机器学习艺术 http://dataunion.org/1222.html
百度最新力作《基于深度学习的图像识别进展》摘要 http://dataunion.org/14465.html
百度深度学习语音识别系统DeepSpeech,嘈杂环境下识别率超Google、苹果 http://dataunion.org/4254.html
百度组建全球最大深度机器学习开源平台 http://dataunion.org/18040.html
盘点机器学习和统计模型的差异 http://dataunion.org/20017.html
盘点:人脸检测和识别的Web服务API大全! http://dataunion.org/20119.html
看DeepMind如何用Reinforcement learning玩游戏(转) http://dataunion.org/639.html
简明深度学习方法概述 Deep Learning:Methods and Application http://dataunion.org/11583.html
经验分享:如何提高机器学习数据采集的效率 http://dataunion.org/13861.html
结合美团下单率预测,详解机器学习中的数据清洗与特征处理 http://dataunion.org/10824.html
网易公开课:统计学之数据图像化 http://dataunion.org/838.html
美团推荐算法实践:机器学习重排序模型成亮点 http://dataunion.org/9900.html
美国最大婚恋交友网站eHarmony的机器学习实践 http://dataunion.org/12725.html
脸部识别JavaScript类库Tracking.js http://dataunion.org/941.html
腾讯OCR—自动识别技术,探寻文字真实的容颜 http://dataunion.org/17291.html
观点碰撞:深度学习能否取代其他机器学习算法 http://dataunion.org/17624.html
解密最接近人脑的智能学习机器——深度学习及并行化实现 http://dataunion.org/4968.html
解读机器学习基础概念:VC维的来龙去脉 http://dataunion.org/14581.html
计算机视觉:随机森林算法在人体识别中的应用 http://dataunion.org/12046.html
译文:机器学习ML简史 http://dataunion.org/11672.html
译文:机器学习工作职位需要的 7 项技能 http://dataunion.org/16411.html
译:使用 scikit-learn 进行机器学习的简介 http://dataunion.org/19483.html
译:机器学习算法概览 http://dataunion.org/12964.html
说到人脸识别,你再也找不到一个比腾讯更大更全的人脸数据集合了 http://dataunion.org/17862.html
谱聚类(Spectal Clustering)——简单易学的机器学习算法 http://dataunion.org/19721.html
谷歌利用机器学习简化CAPTCHA验证码服务 http://dataunion.org/3331.html
豆瓣 PARACEL:让分布式机器学习变得简单 http://dataunion.org/13539.html
赞!大量机器学习(Machine Learning)&深度学习(Deep Learning)资料(第二弹) http://dataunion.org/13920.html
这个必须赞!文科生也能读懂的 Deep Learning 科普帖 http://dataunion.org/19812.html
避免关注底层硬件,Nvidia将机器学习与GPU绑定 http://dataunion.org/1225.html
面向机器学习的分布式计算框架 Petuum 入门介绍 http://dataunion.org/12608.html
面试经验分享之机器学习、大数据问题 http://dataunion.org/7773.html
顶尖人工智能无法识别这些简单图像 http://dataunion.org/7306.html
预测建模、监督机器学习和模式分类概览 http://dataunion.org/11349.html
高大上的深度学习,在智能手机上就可实现了 http://dataunion.org/10956.html
鹅厂老手讲:分布式机器学习的故事 http://dataunion.org/9858.html

还想完善的:

1、排序不完美,汉字数字不能正确排序,10在2的前面

2、如何方便打开链接(目前在notepad++里双击链接)

你可能感兴趣的:(python)