常用新技术

JAVA方面

1.Jsoup--Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容

2. HttpClient--网页抓取

3.Java爬虫webcrawler --网页抓取

4.Lucene--是一个开放源代码的全文检索引擎工具包

5.WEKA--基于JAVA环境下开源的机器学习以及数据挖掘软件

6.Mahout -提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多实现,包括集群、分类、推荐过滤、频繁子项挖掘。

7.Hadoop 是最受欢迎的在 Internet 上对搜索关键字进行内容分类的工具

8.JSON(JavaScript Object Notation)是一种轻量级的数据交换格式

内存数据库方面

H2是一个短小精干的嵌入式数据库引擎sqlite-是一款轻型的数据库,它的设计目标是嵌入式的

Memcached 是一个高性能的分布式内存对象缓存系统,用于动态Web应用以减轻数据库负载。

非关系型数据库方面

1.Membase -是 NoSQL 家族的一个新的重量级的成员。

2.Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言

3.Apache Cassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于储存特别大的数据。Facebook目前在使用此系统。

你可能感兴趣的:(技术)