文本挖掘需要的技术栈

  • 目地
  • 技术栈
    • 数据爬取方式
      • urllibRequests
      • Beautiful Soup
      • Selenium-PhantomJS
    • 爬取框架
      • Scrapy
    • 分布式爬虫
    • 数据存储
      • MySql存储
      • 分布式存储-NoSQL数据库
      • HDFS存储
      • Elastic Search存储
      • 其他分布式存储方案
    • 爬虫技巧
      • 表单处理
      • 模拟登陆
      • 验证码处理
      • 爬虫代理池
      • 网页内容处理
      • 爬虫容错
    • 文本挖掘库
      • NLTK
      • TextBlob文本处理库
      • 分词库
      • 词云
    • 文本挖掘相关概念
      • 文本预处理
      • 文本特征处理
      • 文本聚类
      • 深度学习与文本处理
  • 案例

目地

掌握网络信息的获取方法,熟练的进行文本分析处理

技术栈

数据爬取方式

urllib/Requests

Beautiful Soup

Selenium-PhantomJS

爬取框架

Scrapy

分布式爬虫

数据存储

MySql存储

分布式存储-NoSQL数据库

HDFS存储

Elastic Search存储

其他分布式存储方案

爬虫技巧

表单处理

模拟登陆

验证码处理

爬虫代理池

网页内容处理

爬虫容错

文本挖掘库

NLTK

TextBlob文本处理库

分词库

词云

文本挖掘相关概念

文本预处理

文本特征处理

文本聚类

深度学习与文本处理

案例

你可能感兴趣的:(文本挖掘需要的技术栈)