Arrow

从数据中进行学习-基础知识

1. 大数据

大数据是一种理念、一种解决问题的方法和一系列技术的集合。他与传统BI一样，都是从数据中挖掘有价值的信息，以满足商业目标；但它的独特之处在于：分布式、并行化。
优秀的数据科学家需要具备的素质：懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析

2. 大数据挑战

1）实时性 (时间越久的数据，其价值越低)
2）安全性（保护用户隐私）

3. 大数据架构的组成

1）数据获取：探针、网络爬虫、日志采集
2）流处理：流式数据处理引擎：Storm, Spark Streaming, CEP架构， Eagle
3）批处理：批处理技术， spark架构和原理
4）数据处理算法：机器学习、数据挖掘、图像识别、语音识别、深度学习
5）资源管理：YARN, Mesos架构
6）存储技术：存储硬件、存储指标、RAID技术、存储接口、存储加速技术
7）大数据云化：Cloud Native、微服务、Docker、大数据上云的两种模式（集群模式和服务模式）

3.1 数据获取

3.1.1 网络爬虫

网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。

3.1.2 日志采集

1）Flume: 是Cloudera公司开发的一款高性能、高可用的分布式日志采集系统，现已开源。
2）Facebook Scribe：Facebook已经不再维护
3）Apache Chuwka：基于HDFS(Hadoop Distributed File System)和Map/Reduce框架实现，且继承了Hadoop的可伸缩性和健壮性。最后更新上期为：2016-10-08，好似不再维护

3.1.3 数据分发

Kafka：为了匹配数据采集与数据处理之间的速度差、以及多对多的关系，并确保消息可靠送达，需要一个消息中间件进行消息转发、分发。

4. 数据处理方式

按数据处理所需的时间，数据处理方式分为以下几类：
1）流处理：基于实时数据流的数据处理（Streaming Data Processing），数毫秒–数秒
2）交互式查询：基于历史数据的交互式查询（Interactive Query）,数秒–数分钟
3）批处理：批量数据处理(Batch Data Processing)，数分钟–数小时

目前的主要目标之一：一个算法框架同时支持批、流、交互式处理，以减轻系统部署的复杂度。

5. 流处理

5.1 流处理引擎

5.1.1 Storm

Storm：是Twitter开源的一个分布式实时流处理系统。
Storm与Hadoop比较如下表：

比较项目	Storm	Hadoop
数据处理方式	实时流处理	批处理
有无状态	无状态	有状态
系统角色	Nimbus	JobTracker
	Supervisor	TaskTracker
	Worker	Child
应用名称	Topology	Job
组件接口	Spout/Bolt	Mapper/Reducer

5.1.2 Spark Streaming

Spark：是基于内存的通用计算模型，其主要功能如下：
1）同时支持批、流、交互式查询
2）兼容支持HDFS和S3分布式文件系统
3）可以部署在YARN和Mesos等流行的集群资源管理器上
4）以 Mini−Batch 的形式模拟流（Streaming）处理，实时性不高

5.1.3 批流融合处理

5.1.3.1 Flink

Flink是Apache项目，是一个原生的流处理系统。与Spark相比，有如下优势：
1）Flink原生流，而Spark Streaming是通过Mini-Batch模拟流处理
2）自动对处理流程进行优化：即真正执行的流程不一定与用户所写的代码一致
3）自动对迭代计算的优化
4）Out-of-Core计算机制：可以灵活运用本地的硬盘和内存资料，而无须用户参与
5）Pipeline机制：处理数据及时，处理完即时送到下一个任务
6）同时支持批、流处理

5.1.3.2 Google Cloud Dataflow

Google内部停用MapReduce，而使用Cloud Dataflow，它有如下优点：
1）可以构建复杂的Pipeline
2）无须手工配置和管理MapReduce集群
3）支持从批到流模式的无缝切换

5.1.3.3 Google Beam & Calcite

1）Spark, Flink, Google Cloud Dataflow都是在引擎层面统一批流处理，在短期内很难广泛应用。另一种思路是先API先统一，统一的API再对接底层多个引擎。所以Google在Dataflow基础上开源了一个Beam项目（Beam = (B)atch + Str(eam)），Beam处于API层面，而对于SQL，则可以采用Calcite，通过SQL统一流式和批处理。
2）Beam & Calcite架构

3）Beam兼容矩阵

5.2 CEP (复杂事件处理)

CEP (Complex Event Processing)
在一个复杂系统中，不能基于单独事件进行处理，而需要依赖上下文环境来决定如何处理此事件，此种方式叫做CEP
Esper是一个开源的CEP处理和事件序列分析组件

5.4 实时流+机器学习

机器学习主要应用于离线批量数据处理，实际应用中也有一些在线学习的需求，如在安防领域需要实时监测异常
实时流处理+机器学习：Anodot、Apache Eagle(eBay开源的）

5.4.1Eagle

Eagle：用于在大数据平台（Hadoop，Spark，NoSQL等）上实时发现安全和性能问题，其主要特点如下：
- 高实时：可以毫秒级别内产生告警
- 可伸缩：在eBay，Eagle被部署在多个大型的Hadoop集群上，因此Eagle必须具有处理海量实时数据的高度可伸缩能力
- 简单易用：通过Eagle的Sandbox，可以数分钟内设置好环境并尝试运行

6.交互式分析

交互式分析：基于历史数据的交互式查询（Interactive Query），通常在数秒中内处理。
数据仓库领域： Adhoc Query （即时查询）
大数据领域：Interactive Query（交互式查询）
交互式查询具有以下特点：
- 时延低
- 查询条件复杂
- 查询范围大
- 返回结果数量小
- 并发数要求高
- 需要支持SQL等接口
数据仓库查询优化思路：
- 数据库索引
- 列式存储
- 内存缓存或Cube

6.1 MPP DB

随着数据量的增大，传统的数据仓库如Oracle、MySQL、PostgreSQL等单实例模式将无法支撑大数据的处理，需要支持分布式技术。
服务器系统架构分类：
- 对称多处理器架构（Symmetric Multi-Processor, SMP）
  系统中的所有CPU处于同等地位，内存共享访问，随着CPU的增加，内存访问带宽成了其发展的bottleneck
- 非一致存储访问架构（Non-Uniform Memory Access, NUMA）
  CPU模块内部是SMP，CPU模块之间可相互访问对方内存，从而导致访问不同的内存其所需时间是不一致的
- 海量并行处理结构（Massive Parallel Processing, MPP）
  多台SMP服务器通过网络连接，每个SMP只能访问本地内存
典型的MPP数据库
- Greenplum
- DB2 DPF
- Sybase IQ
MPP DB的缺点：
- 扩展性有限：MPP DB号称能扩展到1000个节点以上，实际应用中不超过100个节点。
- 并发数有数：50~100的并发能力
- MPP DB目前适合小集群（100以内）、低并发（50左右）的场景。

6.1.1 MPP & Hadoop

MPP的计算与存储是耦合的，而Hadoop中的MapReduce和HDFS是分离的，分离有更大的灵活性，可以支持更多的计算模块。

6.2 SQL on Hadoop

6.2.1 Hive

Hive 基本架构
Hive基本概念：
Hive是一个数据仓库的软件工具，它使用SQL读、写、管理位于分布式存储的大数据集，它位于Hadoop之上，它支持以下功能：
- 通过SQL轻松访问数据的工具，从而使数据仓库任务，如提取/转换/加载（Extract/Transform/Load ETL）、报告和数据分析成为可能。
- 在多种数据格式上强加结构的机制
- 访问直接存储在HDFS上或其他数据存储系统如HBase的文件
- 使用Hadoop MapReduce或Tez或Spark框架执行查询
- Hive是基于Hadoop的一个开源数据仓库系统，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，Hive可以把SQL中的表、字段转换为HDFS中的目录、文件。
- Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完全依赖于HDFS和MapReduce。Hive可以理解为一个客户端工具，将我们的SQL操作转换为相应的MapReduce jobs，然后在Hadoop上面运行。
Hive优势：
- Hive支持标准的SQL语法，免去了用户编写MapReduce程序的过程，大大减少了开发成本
- Hive的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据，毕竟精通SQL语言的人要比精通Java语言的多得多
- Hive是为大数据批量处理而生的，Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈好了

6.2.2 Phoenix

Phoenix与Hive类似，在指定的基础上执行SQL查询。Hive可以在Hadoop或Spark上执行SQL查询，而Phoenix是在HBase上执行查询。

6.2.2.1 HBase

HBase基本概念
- HBase使用了和Bigtable非常相似的数据模型。用户在表格里存储许多数据行。每个数据行都包括一个可排序的关键字，和任意数目的列。表格是稀疏的，所以同一个表格里的行可以有不同的列，只要用户喜欢这样做。
- 列名是“<族名>:<标签>”形式，其中<族名>和<标签>可以是任意字符串。一个表格的<族名>集合（又叫“列族”集合）是固定的，除非你使用管理员权限来改变表格的列族。不过你可以在任何时候添加新的<标签>。HBase在磁盘上按照列族储存数据，所以一个列族里的所有项应该有相同的读/写方式。
- 写操作是行锁定的，你不能一次锁定多行。所有对行的写操作默认是原子的。
- 所有数据库更新操作都有时间戳。HBase对每个数据单元，只存储指定个数的最新版本。客户端可以查询“从某个时刻起的最新数据”，或者一次得到所有的数据版本。
- HBase是一个构建在HDFS上的分布式列存储系统；
Hbase表的特点
- 大：一个表可以有数十亿行，上百万列；
- 无模式：每行都有一个可排序的主键和任意多的列，列可以根据需要动态的增加，同一张表中不同的行可以有截然不同的列；
- 面向列：面向列（族）的存储和权限控制，列（族）独立检索；
- 稀疏：空（null）列并不占用存储空间，表可以设计的非常稀疏；
- 数据多版本：每个单元中的数据可以有多个版本，默认情况下版本号自动分配，是单元格插入时的时间戳；
- 数据类型单一：Hbase中的数据都是字符串，没有类型。
HBase架构
HBase表逻辑视图
为什么需要Phoenix?
HBase不支持SQL语法，Phoenix为解决此问题而生。Phoenix通过JDBC查询存储在HBase中的数据，即通过Phoenix，可以在HBase数据集上执行SQL查询。对于简单查询，Phoenix的性能优于Hive。

6.2.3 Impala

Impala是Cloudera开源的实时交互SQL大数据查询工具。Impala没有使用缓慢的Hive+MapReduce批处理架构，而是使用与传统并行关系数据库中类似的分布式查询引擎（由QueryPlanner、QueryCoordinator和QueryExecEngine三部分组成），可以直接从 HDFS或HBase 中用SELECT、JOIN和统计函数查询数据，大大降低了延迟。

6.2.3 数据仓库&大数据

与传统数据仓库相比，大数据技术的优势：
- 支持非结构化数据
- 扩展性强
- 与新的分析方法和算法相结合
- 成本降低
与传统数据仓库相比，大数据技术的劣势：
- 小数据量时比传统的MPP差
- 大数据量时不能满足交互式分析秒级响应的要求
- 对SQL的支持不充分
- -

7. 批处理

7.1 MapReduce (Hadoop)

7.1.1 MapReduce概念

MapReduce是一种云计算的核心计算模式，是一种分布式运算技术，也是简化的分布式并行编程模式，主要用于大规模并行程序的计算问题。
整个MapReduce的过程大致分为 Map（映射）–>Shuffle（排序）–>Combine（组合）–>Reduce（化简），典型例子：统计文档中的单词数

7.1.2 MapReduce框架

7.1.3 性能差的主要原因

Hadoop的每个作业都要经历两个阶段：Map和Reduce。
Map包含4个子阶段(数据本地处理)：从磁盘上读数据 -> 执行Map函数 -> Combine结果 -> 将结果写到本地磁盘上
Reduce包含4个子阶段：从各个MapTask上读取相应的数据（Shuffle）-> Sort-> 执行Reduce函数 -> 将结果写到HDFS中
磁盘读/写速度是导致MapReduce性能差的订要原因。Spark恰好看到了内存容量的增加和成本下降，决定用一个基于内存的架构去替代MapReduce，在性能上有了极大的提升

7.1.4 Shuffle

Shuffle是MapReduce框架中的一个特定的phase，介于Map phase和Reduce phase之间，当Map的输出结果要被Reduce使用时，输出结果需要按key哈希，并且分发到每一个Reducer上去，这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输，因此shuffle性能的高低直接影响到了整个程序的运行效率。
下图清晰地描述了MapReduce算法的整个流程，其中shuffle phase是介于Map phase和Reduce phase之间。
Shuffle是影响Hadoop和Spark计算性能的关键因素

7.2 Spark

开发的起因：基于内存的增加和成本下降的趋势，Spark设计了一个基于内存的分布式处理软件，即Spark的目标是取代MapReduce
Spark目标：做一个统一的引擎，可以统一完成 “批处理、交互式处理、流处理(Mini−Batch)” ，以降低开发和运维难度

7.2.1 Spark架构

- Spark SQL: 提供了类 SQL 的查询,返回 Spark-DataFrame 的数据结构
- Spark Streaming: 流式计算,主要用于处理线上实时时序数据
- MLlib: 提供机器学习的各种模型和调优
- GraphX: 提供基于图的算法,如 PageRank

7.2.2 基本概念

RDD：Resilient Distributed Dataset, 弹性分布式数据集
Operation：作用于RDD的各种操作，包括Transformation和Action
Job：作业，一个Job包含多个RDD及作用于对应RDD上的各种Operation
Stage：一个作业分为多个阶段
Partition：数据分区，一个RDD中的数据可以分成多个不同的区
DAG：Directed Acycle Graph，有向无环图，反映RDD之间的依赖关系
Narrow Dependency：窄依赖，子RDD依赖于父RDD中固定的Data Partition
Wide Dependency：宽依赖，子RDD对父RDD中所有的Data Partition都有依赖
Caching Management：缓存管理，对RDD的中间计算结果进行缓存管理，以加快整体的处理速度

7.2.3 RDD

RDD是只读的数据分区（Partition）集合，它本质上是数据集。
RDD是Spark最基本的抽象，是对分布式内存的抽象使用，以操作本地集合的方式来操作分布式数据集的抽象实现。它表示已经被分区、不可变的、能够被并行操作的数据集。
RDD必须是可序列化的（把RDD数据集转化为字节流，以便在网络上传输或存储到文件中）。
RDD经过Transformation处理之后，数据集中的内容会发生改变，由数据集A转换成数据集B
数据集B经过Action处理之后，数据集B中的内容会被归纳为一个具体的数据
Spark支持Standalone、Mesos、YARN等部署模式，这些部署模式将作为TaskScheduler的初始化入参
RDD处理流程：

7.2.4 编程接口

Scala
Java
Python
SparkSQL
Spark之所以深受欢迎，Spark SQL是其关键因素。经过数据库多年的发展，以及SQL简单易用，所以一个处理平台具备SQL能力是其基本要求
Hive on Spark
Hive on Spark是从Hive on MapReduce演进而来，Hive的整体解决方案很不错，但是从查询提交到结果返回需要相当长的时间，查询耗时太长，这个主要原因就是由于Hive原生是基于MapReduce的，那么如果我们不生成MapReduce Job，而是生成Spark Job，就可以充分利用Spark的快速执行能力来缩短HiveQL的响应时间。

7.2.4.1 SparkSQL vs Hive on Spark

SparkSQL和Hive On Spark都是在Spark上实现SQL的解决方案。
Spark早先有Shark项目用来实现SQL层，不过后来推翻重做了，就变成了SparkSQL。这是Spark官方Databricks的项目，Spark项目本身主推的SQL实现。Hive On Spark比SparkSQL稍晚。Hive原本是没有很好支持MapReduce之外的引擎的，而Hive On Tez项目让Hive得以支持和Spark近似的Planning结构（非MapReduce的DAG）。所以在此基础上，Cloudera主导启动了Hive On Spark。这个项目得到了IBM，Intel和MapR的支持（但是没有Databricks）。
结构上Hive on Spark和SparkSQL都是一个翻译层，把一个SQL翻译成分布式可执行的Spark程序。
Hive on Spark和SparkSQL都不负责计算，它们只是告诉Spark，你需要什么计算，并把结果返回给我

7.2.5 Spark内部框架

Spark的内部框架如下图所示，主要包含四大组件：Driver、Master、Worker和Executor。

部署类型：
- 单机模型：主要用来开发测试。特点：Driver、Master、Worker和Executor都运行在同一个JVM进程之中。
- 伪集群模型：主要用来开发测试。特点：Master、Worker都运行在同一个JVM进程之中；Master、Worker和Executor都运行于同一台机器，无法跨机器运行；
- 独立集群（又叫做原生集群模式）：在集群规模不是非常大的情况下，可用于生产环境。特点：Master、Worker和Executor都运行于独立的JVM进程。
- YARN集群：YARN生态中的ApplicationMaster角色使用Apache开发好的Spark ApplicationMaster代替，每一个YARN生态中的NodeManager角色相当于一个Spark生态中的Worker角色，由NodeManger负责Executor的启动。
- Mesos集群：

7.2.6 Spark VS Hadoop

Spark和Hadoop的MapReduce在同一个层级，即主要解决分布式计算框架的问题。
Spark的中间数据存放在内存中，对于迭代计算（上一步的输出作为下一步的输入）而言，效率更高
Spark更适合迭代运算比较多的数据挖掘和机器学习运算，因为在Spark里有RDD(Resilient Distributed Dataset:弹性分布式数据集)的抽象概念
Spark更通用（支持：批、交互、流处理）
Spark提供的更多的操作，而Hadoop只提供了Map 和 Reduce两种操作
容错性：Spark在分布式数据集计算时通过Checkpoint来实现容错
可用性：Spark通过提供丰富的Scala、Java、Pythonb API及交互式Shell来提高可用性
提供 Cache 机制来支持需要反复迭代计算或者多次数据共享,减少数据读取的 IO 开销
提供了一套支持 DAG 图的分布式并行计算的编程框架,减少多次计算之间中间结果写到 Hdfs 的开销
使用多线程池模型减少Task启动开稍,shuffle过程中避免不必要的sort操作并减少磁盘IO操作。(Hadoop的Map和reduce之间的shuffle需要sort)

7.3 BSP并行模型

Spark、Hadoop是迭代模式，只适合一般的计算，在机器学习等计算量非常大的领域，传统的迭代模型不再适用，BSP就为此而生
BSP (Bulk Synchronous Parallel, 整体同步并行计算模型)：是一种并行计算模型。

7.3.1 BSP模型基本原理

一个 BSP 并行计算机由一组通过网络互连的处理器、内存单元组成。它主要有三个部分:
- 一组具有局部内存的分布式处理器
- 全局数据通讯网络
- 支持所有处理单元间全局路障同步的机制。

7.3.2 BSP vs MapReduce

7.3.2.1 执行机制

MapReduce：是一个数据流模型
每个任务只对输入数据进行处理，产生的输出数据作为另一个任务的个输入数据，并行任务之间独立地进行，串行任务之间以磁盘或数据复制作为交换介质和接口。
BSP：是一个状态模型
各个子任务在本地的子图数据上执行计算、通信、修改图的状态等操作，并行任务之间通过消息通信交流中间计算结果，不像MapReduce那样对全体数据进行复制

7.3.2.2 迭代处理

MapReduce：需要连续启动若干作业才能完成图的迭代处理，相邻作业之间通过分布式文件系统交换全部数据
BSP：仅启动一个作业，利用多个超步就可以完成迭代处理，两次迭代之间通过消息传递中间计算结果
用途：BSP(实时处理)、MapReduce(非实时处理)

7.3.3 BSP实现

7.3.3.1 Pregel

由Google实现的Pregel，量一个大规模计算框架，首次提出将BSP模型应用于图计算

7.3.3.2 Hama

Hama是Hadoop项目的一个子项目，基于BSP(Bulk Synchronous Parallel)计算技术的并行计算框架，用于大量的科学计算（比如矩阵、图论、网络等）。BSP计算技术最大的优势是加快迭代。同时，Hama提供简单的编程，比如flexible模型、传统的消息传递模型，而且兼容很多分布式文件系统，比如HDFS、Hbase等。用户可以使用现有的Hadoop集群进行Hama BSP.
运行环境：需要关联ZooKeeper、HBase、HDFS组件
包含的主要模型：矩阵计算（Matrix Package）、面向图计算（Graph Package）
应用领域：矩阵计算、面向图计算、PageRank、排序计算、BFS。
Hama架构

7.3.4 批处理关键技术

CodeGen
CPU亲和技术

8. 机器学习和数据挖掘

机器学习：从数据中学习经验，是从方法而言的（学习所得的经验以数据的形式存在），其本质是对从数据中提取本质特征
数据挖掘：从数据中获取商业价值，是从目的而言的，机器学习是数据挖掘的工具之一

8.1 按学习方式分类

8.1.1 监督式学习

在监督式学习下，输入数据被称为“训练数据”，每组训练数据有一个明确的标识或结果，如对手写数字识别中的“1“，”2“，”3“，”4“等。在建立预测模型的时候，监督式学习建立一个学习过程，将预测结果与“训练数据”的实际结果(Ground Truth)进行比较，不断的调整预测模型，直到模型的预测结果达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见监督式学习算法有：
- 决策树学习(ID3,C4.5等)
- 朴素贝叶斯分类
- 最小二乘回归
- 逻辑回归（Logistic Regression）
- 支撑矢量机
- 集成方法
- 反向传递神经网络（Back Propagation Neural Network）等等。

8.1.2 非监督式学习

在非监督式学习中，数据并不被特别标识，学习模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见非监督学习算法包括：
- 奇异值分解
- 主成分分析
- 独立成分分析
- Apriori算法
- k-Means算法等等。

8.1.3 半监督式学习

在此学习方式下，输入数据部分被标识，部分没有被标识，这种学习模型可以用来进行预测，但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归，算法包括一些对常用监督式学习算法的延伸，这些算法首先试图对未标识数据进行建模，在此基础上再对标识的数据进行预测。如
- 图论推理算法（Graph Inference）
- 拉普拉斯支持向量机（Laplacian SVM）等。

8.1.4 强化学习

学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。
强化学习就是智能系统从环境到行为映射的学习，以使奖励信号(强化信号)函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号)，而不是告诉强化学习系统RLS(reinforcement learning system)如何去产生正确的动作。由于外部环境提供的信息很少，RLS必须靠自身的经历进行学习。
通过这种方式，RLS在行动-评价的环境中获得知识，改进行动方案以适应环境。常见的应用场景包括动态系统以及机器人控制等。

8.1.5 各种学习方法用途

在企业数据应用的场景下，人们最常用的可能就是监督式学习和非监督式学习的模型。
在图像识别等领域，由于存在大量的非标识的数据和少量的可标识数据，目前半监督式学习是一个很热的话题。
而强化学习更多的应用在机器人控制及其他需要进行系统控制的领域。

8.2 按算法相似性分类

8.2.1 回归算法

回归算法是试图采用对误差的衡量来探索变量之间的关系的一类算法。回归算法是统计机器学习的利器。在机器学习领域，人们说起回归，有时候是指一类问题，有时候是指一类算法，这一点常常会使初学者有所困惑。常见的回归算法包括：
- 最小二乘法（Ordinary Least Square）
- 逻辑回归（Logistic Regression）
- 逐步式回归（Stepwise Regression）
- 多元自适应回归样条（Multivariate Adaptive Regression Splines）
- 本地散点平滑估计（Locally Estimated Scatterplot Smoothing）
回归算法的用途
- 信用评分
- 房价预测
- 度量营销活动的成功率
- 预测某一产品的收入
- 在一个特定的日子里会发生地震吗？

8.2.2 基于实例的算法

基于实例的算法常常用来对决策问题建立模型，这样的模型常常先选取一批样本数据，然后根据某些近似性把新数据与样本数据进行比较。通过这种方式来寻找最佳的匹配。因此，基于实例的算法常常也被称为“赢家通吃”学习或者“基于记忆的学习”。常见的算法包括：
- k-Nearest Neighbor(KNN)
- 学习矢量量化（Learning Vector Quantization， LVQ）
- 以及自组织映射算法（Self-Organizing Map ， SOM）

8.2.3 正则化方法

正则化方法是其他算法（通常是回归算法）的延伸，根据算法的复杂度对算法进行调整。正则化方法通常对简单模型予以奖励而对复杂算法予以惩罚。常见的算法包括：
- Ridge Regression
- Least Absolute Shrinkage and Selection Operator（LASSO）
- 弹性网络（Elastic Net）

8.2.4 决策树学习

决策树算法根据数据的属性采用树状结构建立决策模型，决策树模型常常用来解决分类和回归问题。常见的算法包括：
- 分类及回归树（Classification And Regression Tree， CART）
- ID3 (Iterative Dichotomiser 3)， C4.5
- Chi-squared Automatic Interaction Detection(CHAID)
- Decision Stump
- 随机森林（Random Forest）
- 多元自适应回归样条（MARS）以及梯度推进机（Gradient Boosting Machine， GBM）

8.2.5 贝叶斯方法

贝叶斯方法算法是基于贝叶斯定理的一类算法，主要用来解决分类和回归问题。常见算法包括：
- 朴素贝叶斯算法
- 平均单依赖估计（Averaged One-Dependence Estimators， AODE）
- Bayesian Belief Network（BBN）。
典型应用：
- 标记一个电子邮件为垃圾邮件或非垃圾邮件
- 将新闻文章分为技术类、政治类或体育类
- 检查一段文字表达积极的情绪，或消极的情绪？
- 用于人脸识别软件

8.2.6 基于核的算法

基于核的算法中最著名的莫过于支持向量机（SVM）了。基于核的算法把输入数据映射到一个高阶的向量空间，在这些高阶向量空间里，有些分类或者回归问题能够更容易的解决。常见的基于核的算法包括：
- 支持向量机（Support Vector Machine， SVM）
- 径向基函数（Radial Basis Function ，RBF)
- 以及线性判别分析（Linear Discriminate Analysis ，LDA)
就规模而言，其中一些最主要的问题已经使用支持向量机解决了（通过适当的修改），如：
- 广告显示
- 人类的剪接位点识别
- 基于图像的性别检测
- 大规模图像分类等等。

8.2.7 聚类算法

聚类，就像回归一样，有时候人们描述的是一类问题，有时候描述的是一类算法。聚类算法通常按照中心点或者分层的方式对输入数据进行归并。所以的聚类算法都试图找到数据的内在结构，以便按照最大的共同点将数据进行归类。常见的聚类算法包括：
- k-Means算法
- 期望最大化算法（Expectation Maximization， EM）
主要的聚类算法有：
- 基于质心的算法
- 基于连通性的算法
- 基于密度的算法
- 概率聚类
- 降维
- 神经网络/深度学习

8.2.8 关联规则学习

关联规则学习通过寻找最能够解释数据变量之间关系的规则，来找出大量多元数据集中有用的关联规则。常见算法包括：
- Apriori算法
- Eclat算法等。

8.2.9 人工神经网络

人工神经网络算法模拟生物神经网络，是一类模式匹配算法。通常用于解决分类和回归问题。人工神经网络是机器学习的一个庞大的分支，有几百种不同的算法。（其中深度学习就是其中的一类算法，我们会单独讨论），重要的人工神经网络算法包括：
感知器神经网络（Perceptron Neural Network）
反向传递（Back Propagation）
Hopfield网络
自组织映射（Self-Organizing Map, SOM）
学习矢量量化（Learning Vector Quantization， LVQ）。

8.2.10 深度学习

- 深度学习算法是对人工神经网络的发展。在计算能力变得日益廉价的今天，深度学习试图建立大得多也复杂得多的神经网络。很多深度学习的算法是半监督式学习算法，用来处理存在少量未标识数据的大数据集。常见的深度学习算法包括：
- 受限波尔兹曼机（Restricted Boltzmann Machine， RBN）
- Deep Belief Networks（DBN）
- 卷积网络（Convolutional Network）
- 堆栈式自动编码器（Stacked Auto-encoders）。

8.2.11 降低维度算法

像聚类算法一样，降低维度算法试图分析数据的内在结构，不过降低维度算法是以非监督学习的方式试图利用较少的信息来归纳或者解释数据。这类算法可以用于高维数据的可视化或者用来简化数据以便监督式学习使用。常见的算法包括：
- 主成份分析（Principle Component Analysis， PCA）
- 偏最小二乘回归（Partial Least Square Regression，PLS）
- Sammon映射
- 多维尺度（Multi-Dimensional Scaling, MDS）
- 投影追踪（Projection Pursuit）等。
  
  奇异值分解示意图

PCA降维示意图

独立成分分析示意图

其中，ICA 和 PCA 是相关的，但是它是一种更强大的技术，当那些经典的方法完全失效的时候，它能够从数据源中发现潜在的因素。它的应用包括数字图像，文档数据库，经济指标和心理测量。

8.2.12 集成算法

集成算法用一些相对较弱的学习模型独立地就同样的样本进行训练，然后把结果整合起来进行整体预测。集成算法的主要难点在于究竟集成哪些独立的较弱的学习模型以及如何把学习结果整合起来。这是一类非常强大的算法，同时也非常流行。常见的算法包括：
Boosting
Bootstrapped Aggregation（Bagging）
AdaBoost
堆叠泛化（Stacked Generalization， Blending）
梯度推进机（Gradient Boosting Machine, GBM）
随机森林（Random Forest）
那么集成方法是怎样工作的，为什么他们会优于单个的模型？
- 他们拉平了输出偏差：如果你将具有民主党倾向的民意调查和具有共和党倾向的民意调查取平均，你将得到一个中和的没有倾向一方的结果。
- 它们减小了方差：一堆模型的聚合结果和单一模型的结果相比具有更少的噪声。在金融领域，这被称为多元化——多只股票的混合投资要比一只股票变化更小。这就是为什么数据点越多你的模型会越好，而不是数据点越少越好。
- 它们不太可能产生过拟合：如果你有一个单独的没有过拟合的模型，你是用一种简单的方式（平均，加权平均，逻辑回归）将这些预测结果结合起来，然后就没有产生过拟合的空间了。

8.3 深度学习

8.3.1 特征

好的特征：应具有不变性（尺度<指离物体远近>、旋转、不同视角、光照变化）和可区分性
手工选取特征：是一项非常费力、启发式（需要专业知识）的方法
深度学习：自动学习关键特征，从而能误别图片中的内容
神经-中枢-大脑的工作过程：是一个不断迭代、不断抽象的过程。从原始信号做低级抽象，逐渐向高级抽象迭代，人类的逻辑思维经常使用高度抽象的概念。
特征：是机器学习系统的原材料，对最终模型的好坏起关键性作用。
特征表示的粒度：是指在什么程度上的特征表示。像素级的特征根本没有价值，只有具有结构性的特征才有意义。
初级（浅层）特征表示：复杂图形经常由一些基本结构组成
结构性特征表示：小块的图形可以由基本的edges构成
Deep Learning需要多层来获得更抽象的特征表达。
a
a
a
a
a

你可能感兴趣的:(Deep,Learning,大数据,深度学习)

Java后端开发技术详解小二爱编程· java 开发语言
Java作为一门成熟的编程语言，已广泛应用于后端开发领域。其强大的生态系统和广泛的支持库使得Java成为许多企业和开发者的首选后端开发语言。随着云计算、微服务架构和大数据技术的兴起，Java后端开发的技术栈也不断演进。本文将详细介绍Java后端开发的核心技术，包括Java基础、常见框架、数据库操作、缓存技术、异步编程等。1.Java基础：理解面向对象的编程Java是一种面向对象的编程语言，面向对象
使用Jupyter Notebook进行深度学习编程 - 深度学习教程 shandianfk_com ChatGPT AI jupyter 深度学习 ide
大家好，今天我们要聊聊如何使用JupyterNotebook进行深度学习编程。深度学习是人工智能领域中的一项重要技术，通过模仿人脑神经网络的方式进行学习和分析。JupyterNotebook作为一个强大的工具，可以帮助我们轻松地进行深度学习编程，尤其适合初学者和研究人员。本文将带领大家一步步了解如何在JupyterNotebook中开展深度学习项目。一、什么是JupyterNotebook？Jup
华山论剑，大模型(deepseek qwq gemini)辩论人生意义 Lifeng66666666 语言模型语言模型人工智能
借助DeepDiscussion程序，通过让大模型(deepseekqwqgemini)讨论“人生意义是什么”这一挑战问题，我们得以客观观察目前这几种大模型的价值观，能力，不足。部分讨论过程：问题:人生的意义是什么？deepseek/deepseek-r1:free初始方案:针对“人生的意义是什么”这一终极问题，我的解决方案分为以下五个层次，融合东西方哲学智慧与实践心理学，并提供具体行动方向：一、
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码强化学习曾小健2 大语言模型LLM 算法
DeepSeek关键RL算法GRPO，有人从头跑通了，贡献完整代码机器之心2025年03月02日11:54北京选自GitHub作者：AndriyBurkov机器之心编译GRPO（GroupRelativePolicyOptimization）是DeepSeek-R1成功的基础技术之一，我们之前也多次报道过该技术，比如《DeepSeek用的GRPO占用大量内存？有人给出了些破解方法》。简单来说，GR
深度学习 Deep Learning 第8章深度学习优化 odoo中国 AI编程人工智能深度学习人工智能优化
深度学习第8章深度学习的优化章节概述本章深入探讨了深度学习中的优化技术，旨在解决模型训练过程中面临的各种挑战。优化是深度学习的核心环节，直接关系到模型的训练效率和最终性能。本章首先介绍了优化在深度学习中的特殊性，然后详细讨论了多种优化算法，包括随机梯度下降（SGD）、动量法、Nesterov动量法、AdaGrad、RMSProp和Adam等。此外，还探讨了参数初始化策略、自适应学习率方法以及二阶优
景联文科技提供高质量文本标注服务，驱动AI技术发展景联文科技科技人工智能
文本标注是指在原始文本数据上添加标签的过程，这些标签可以用来指示特定的实体、关系、事件等信息，以帮助计算机理解和处理这些数据。文本标注是自然语言处理（NLP）领域的一个重要环节，它通过为文本的不同部分提供具体的含义和上下文信息，增强机器学习和深度学习模型对文本内容的理解能力。标注类型情感分析情感极性：确定文本表达的情感倾向，如正面、负面或中立。强度评估：衡量情感的强烈程度，从轻微到极端不等。命名实
IDC权威认证！永洪科技入选 IDC「GBI图谱」，点亮生成式 BI 价值灯塔永洪科技科技人工智能 BI 大数据数据分析
大数据市场正在稳步前进，生成式AI已成为厂商服务的重点方向，其发展离不开数据底座建设和数据工程管理，反过来AI也会帮助开发运维人员、业务人员和管理层更好地使用、查询数据。IDC调研数据显示，在生成式AI的驱动下，未来5年企业在数据管理和数据分析基础设施建设的投资增长率将分别达到8.7%和9.2%。近日，国际咨询机构IDC发布了《中国数据智能市场生态图谱V5.0》，在这一领域，永洪科技以其创新前沿的
打造金融数据新引擎，看永洪科技助力头部农信社搭建一站式分析平台永洪科技金融数据可视化 BI 数据分析大数据
在数字化转型的浪潮中，金融行业作为经济发展的核心引擎，正加速探索数字化、智能化的新路径。永洪科技，近日成功助力某省农村信用社联合社（简称：Z企业）完成了其数字化转型的重要一步，通过部署先进的商业智能解决方案，为Z企业的业务升级与效能提升注入了强劲动力。随着智能金融时代的来临，以大数据、人工智能、移动互联等新兴技术为核心的金融科技持续赋能银行金融业务数字化、智能化、开放化的发展，为金融机构营销体系的
清华DeepSeek教程1至7版，解锁前沿技术 2501_91206263 pdf
清华DeepSeek教程1至7版，解锁前沿技术「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8604f0e8a「DeepSeep使用手册」链接
清华出品DeepSeek教程7版合集，一站式掌握前沿技术 2501_91206263 pdf
亲爱的读者们，今天要给大家介绍一套由清华大学出品的超硬核教程——DeepSeek教程7版合集！「DeepSeek清华资料」共7册链接：https://pan.quark.cn/s/b8d8760976ca「DeepSeek使用手册大全」链接：https://pan.quark.cn/s/52c234062a2e「DeepSeek资料合集」链接：https://pan.quark.cn/s/71c8
Java中卫语句的设计思想而为. java 服务器开发语言
卫语句（GuardClauses）是一种通过提前返回简化条件嵌套、提升代码可读性的编程技巧。其核心思想是优先处理异常或边界情况，让主逻辑保持扁平化。以下是deepseek做出的设计思想详解：核心设计原则FailFast（快速失败）在函数入口处立即检查非法参数或无效状态，若不符合条件则提前终止（如返回、抛异常），避免后续无效操作。减少嵌套层级用卫语句替换多层if-else嵌套，将代码从“箭头型”结构
SpringAI集成DeepSeek 一诚学编程 java 人工智能 spring boot
1、利用spring-ai-openai集成DeepSeek1.1、在DeepSeek开放平台创建APIKEY1.2、创建SpringBoot工程，引入依赖4.0.0org.springframework.bootspring-boot-starter-parent3.3.8org.examplespringai-deepseek1.0-SNAPSHOT17171.0.0-M5org.spring
读书笔记五 ---大数据之路--数仓分层 qq_38215991 big data 大数据
数据分层在流式数据模型中,数据模型整体上分为五层。ODS层跟离线系统的定义一样,ODS层属于操作数据层,是直接从业务系统采集过来的最原始数据（进行了数据清洗）,包含了所有业务的变更过程,数据粒度也是最细的。在这一层,实时和离线在源头上是统一的,这样的好处是用同一份数据加工出来的指标,口径基本是统一的,可以更方便进行实时和离线问数据比对。例如:原始的订单变更记录数据、服务器引擎的访同日志。（原始数据
深度学习篇---对角矩阵&矩阵的秩&奇异矩阵 Ronin-Lotus 程序代码篇深度学习篇深度学习矩阵人工智能线性代数
文章目录前言一、对角矩阵（DiagonalMatrix）1.1定义1.2特性行列式运算简化1.3应用领域深度学习信号处理量子力学经济学二、矩阵的秩（RankofaMatrix）2.1定义2.2特性满秩降秩影响2.3应用领域深度学习图像压缩推荐系统控制理论三、奇异矩阵（SingularMatrix）3.1定义3.2特性秩不足行列式为零3.3应用领域深度学习正则化损失函数结构工程统计学数值计算四、跨领
DeepSeek、Grok 与 ChatGPT 三巨头：技术架构与应用场景的全方位解析云策量化 Deepseek chatgpt deepseek grok
前言在当今人工智能领域，DeepSeek、Grok和ChatGPT作为语言模型的三巨头，各自凭借独特的技术架构和广泛的应用场景，在自然语言处理领域占据着重要地位。本文将对这三款模型的技术架构和应用场景进行全方位解析，以期为读者提供深入的了解和有价值的参考。一、技术架构（一）DeepSeekDeepSeek是由DeepSeek团队开发的一款大型语言模型，其技术架构基于深度学习中的Transforme
探索AI模型的巅峰之战：ChatGPT、DeepSeek与Grok 3，谁才是最强？温暖阳光阿斌人工智能 chatgpt
近年来，人工智能领域正处于一场高速迭代的革命中。大型语言模型（LLMs）如ChatGPT、DeepSeek和Grok3纷纷亮相，各展所长，为人们带来了前所未有的体验。在这场"谁是最强"的竞争中，每一方都展现出了令人惊叹的能力和独特的优势。然而，这些模型之间的差异和特点，究竟是什么？它们各自的优势在哪里？又有哪些隐藏的短板？本文将带您深入了解这三位AI巨头的亮点与争议，共同探讨它们在AI领域的位置，
OpenCV 4.2.0与扩展模块安装与应用指南土城三富
本文还有配套的精品资源，点击获取简介：OpenCV4.2.0是一个先进的计算机视觉库，包含了图像处理、计算机视觉和机器学习算法。本压缩包包含OpenCV核心库和扩展模块（opencv_contrib），版本均为4.2.0。该版本引入了性能增强、API优化以及对深度学习框架和硬件加速技术的更新支持。扩展模块提供了额外的实验性算法和功能，有助于研究和开发新算法。指南详细介绍了如何安装和配置这些库，并提
强化学习中策略网络模型设计与优化技巧数字扫地僧计算机视觉深度学习
I.引言强化学习（ReinforcementLearning,RL）是一种通过与环境交互，学习如何采取行动以最大化累积奖励的机器学习方法。策略网络（PolicyNetwork）是强化学习中一种重要的模型，它直接输出动作的概率分布或具体的动作。本篇博客将深入探讨策略网络的设计原则、优化技巧，并结合具体实例展示其应用。II.策略网络的基本概念A.策略网络的定义策略网络是一种神经网络，它接受当前状态作为
基于腾讯云大模型知识引擎与DeepSeek的沉浸式历史文化体验系统实践 lijiek 腾讯云 microsoft 云计算
前言文化遗产数字化保护与传播是当今科技与人文交汇的重要领域。传统的数字化方法往往局限于静态展示，无法实现真正的互动体验。本文将探索一条创新路径：利用腾讯云大模型知识引擎(LKE)与DeepSeek模型构建沉浸式历史文化体验系统，实现与历史人物的"对话"、历史场景的"复原"，以及文化知识的智能传播。作为实践案例，我们以中国古代科技成就为切入点，打造了一个可交互的"古代科技馆"，让用户能够与张衡、祖冲
介于YOLOv5的裂缝识别系统程序员～小强 YOLO
介于YOLOv5的裂缝识别系统在现代工业中，裂缝监测是的保障设施安全的重要环节。我们公司的新项目——基于YOLOv5的裂缝识别系统，将为您提供高效、精准的解决方案，助力各类工程项目的质量管理。系统优势我们的裂缝识别系统借助YOLOv5进行深度学习，经过精心训练，拥有强大的图像识别能力。只需简单的步骤，您就能将复杂的裂缝检测转化为轻松的操作，让分析变得更加简单、高效。核心功能图片上传与场景选择用户可
使用LangGraph迁移MapReduceDocumentsChain进行长文档的摘要 dgay_hua python
在大数据处理和文本分析领域，MapReduce是一种非常重要的策略，用于处理和分析大型数据集。具体到文本处理方面，MapReduceDocumentsChain구현了一种map-reduce策略，可以有效地处理长文本。本文将介绍如何从MapReduceDocumentsChain迁移到LangGraph，并探讨LangGraph在流处理、检查点恢复等方面的优势。技术背景介绍MapReduceDoc
使用DeepSeek R1大模型编写迅投 QMT 的量化交易 Python 代码 wtsolutions qmt量化交易 python qmt deepseek 量化交易代码生成
随着人工智能技术的迅猛发展，利用AI工具提升工作效率已成为现代开发者的重要手段。在使用deepseek官方网页生成迅投QMT代码的时候，deepseek给出的代码是xtquant代码，也就是miniqmt代码，并不是我们传统意义上说的大QMT可用的代码。因此，我们需要自建一个知识库，让deepseek根据我的知识库里面的知识，去帮我生成大QMT可用的交易代码。一、建立迅投QMT的知识库建立迅投QM
Deepseek API 调用哦豁灬 LLM 深度学习生产工具 deepseek LLM API 大模型
1获取APIKey目前比较知名的提供了DeepSeek的推理服务商包括硅基流动、阿里云、腾讯云等等。这些推理服务商一般是提供API接口，需要安装大模型客户端并配置API。获取API密钥，以硅基流动为例：前往硅基流动官方网站（https://cloud.siliconflow.cn）注册账号。在账户管理的API密钥中点击新建API密钥并复制。安装一个本地的第三方大模型客户并配置，常见的包括Chatb
Python用Bokeh处理大规模数据可视化的最佳实践一键难忘 Bokeh python 开发语言
用Bokeh处理大规模数据可视化的最佳实践在大规模数据处理和分析中，数据可视化是一个至关重要的环节。Bokeh是一个在Python生态中广泛使用的交互式数据可视化库，它具有强大的可扩展性和灵活性。本文将介绍如何使用Bokeh处理大规模数据可视化，并提供一些最佳实践和代码实例，帮助你高效地展示大数据集中的重要信息。1.为什么选择Bokeh？Bokeh是一个专为浏览器呈现而设计的可视化库，它支持高效渲
SAP ABAP 调用 DeepSeek，API Key 存在什么地方最安全？汪子熙 ABAP 百科全书安全 ABAP NetWeaver 思爱普
笔者最近在处理一个SAP电商云和SAPS/4HANA集成后商品库存显示不同步的棘手问题。DeepSeek和ChatGPT没能帮上忙，最后还是查公司内网wiki搞定了。DeepSeek和ChatGPT确实不是万能的。ChatGPT3.5刚发布不久，我记得很多朋友聊起过大语言模型的「讨好型人格」，即倾向于迎合用户的观点、顺从用户的意愿。甚至在极端情况下，当用户对其回复提出质疑时，它会马上认怂，承认自己
分页优化之——游标分页 PhilipJ0303 Java面试 java 数据库优化游标分页分页查询
游标分页（Cursor-basedPagination）是一种高效的分页方式，特别适用于大数据集和无限滚动的场景。与传统的基于页码的分页（如page=1&size=10）不同，游标分页通过一个唯一的游标（通常是时间戳或唯一ID）来标记分页的位置，避免了传统分页在数据变动时的重复或遗漏问题。以下是游标分页在前后端的实现方式：1.游标分页的核心概念游标（Cursor）：游标是一个唯一标识符，通常是数据
轻松入门Apache SeaTunnel：数据集成利器窝窝和牛牛 SeaTunnel ETL 数据集成
文章目录轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnel基本原理运行流程SeaTunnelvsDataX：两大数据集成工具对比实战场景：MySQL数据同步至ElasticsearchSeaTunnel实现方案DataX实现方案实现原理对比底层依赖环境方案优缺点分析快速上手环境准备简单示例总结轻松入门ApacheSeaTunnel：数据集成利器什么是SeaTunnelAp
使用Dall-E生成图像：文本到图像的魔力 shuoac 计算机视觉人工智能 python
使用Dall-E生成图像：文本到图像的魔力技术背景介绍Dall-E是OpenAI开发的一个强大的文本到图像生成模型，它能够根据自然语言描述创造出全新的数字图像。这一技术基于深度学习的方法，使得创意与AI图像生成的结合更具可能性。本文将介绍如何调用Dall-EAPI来生成图像，从而使开发者能够将这一技术应用到自己的项目中。核心原理解析Dall-E利用大型语言模型（LLM）从用户提供的文本描述中提取详
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。 985小水博一枚呀深度学习人工智能
【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。文章目录【深度学习|地学应用】滑坡灾害早期隐患的概念、特征及识别方法，同时解释其与人工边坡、滑坡易发性之间的联系与区别。1.滑坡灾害早期隐患的概念与特征概念主要特征2.通过光学
给普通人看的深度学习说明书：用快递系统理解AI如何思考嵌入式Jerry Python AI 人工智能深度学习
第一章：理解AI的思维方式（快递版）1.1快递分拣站的故事假设你管理一个快递分拣站：传统方法：手动制定规则（比如根据邮编分拣）机器学习：观察老员工的分拣记录，总结规律深度学习：搭建自动分拣流水线，自主发现隐藏规则1.2神经网络就像智能分拣机传送带（输入层）：接收包裹信息（图片像素/文字等）#就像扫描快递单input_data=[0.2,0.7,0.1]#归一化后的特征数据分拣工人（隐藏层）：每个工
VMware Workstation 11 或者 VMware Player 7安装MAC OS X 10.10 Yosemite iwindyforest vmware mac os 10.10 workstation player
最近尝试了下VMware下安装MacOS 系统，安装过程中发现网上可供参考的文章都是VMware Workstation 10以下， MacOS X 10.9以下的文章，只能提供大概的思路，但是实际安装起来由于版本问题，走了不少弯路，所以我尝试写以下总结，希望能给有兴趣安装OSX的人提供一点帮助。写在前面的话：其实安装好后发现，由于我的th
关于《基于模型驱动的B/S在线开发平台》源代码开源的疑虑？ deathwknight JavaScript java 框架
本人从学习Java开发到现在已有10年整，从一个要自学 java买成javascript的小菜鸟，成长为只会java和javascript语言的老菜鸟（个人邮箱：[email protected]）一路走来，跌跌撞撞。用自己的三年多业余时间，瞎搞一个小东西（基于模型驱动的B/S在线开发平台，非MVC框架、非代码生成）。希望与大家一起分享，同时有许些疑虑，希望有人可以交流下平台
如何把maven项目转成web项目 Kai_Ge maven MyEclipse
创建Web工程，使用eclipse ee创建maven web工程 1.右键项目,选择Project Facets,点击Convert to faceted from 2.更改Dynamic Web Module的Version为2.5.(3.0为Java7的,Tomcat6不支持). 如果提示错误,可能需要在Java Compiler设置Compiler compl
主管？？？ Array_06 工作
转载：http://www.blogjava.net/fastzch/archive/2010/11/25/339054.html 很久以前跟同事参加的培训，同事整理得很详细，必须得转！前段时间，公司有组织中高阶主管及其培养干部进行了为期三天的管理训练培训。三天的课程下来，虽然内容较多，因对老师三天来的课程内容深有感触，故借着整理学习心得的机会，将三天来的培训课程做了一个
python内置函数大全 2002wmj python
最近一直在看python的document，打算在基础方面重点看一下python的keyword、Build-in Function、Build-in Constants、Build-in Types、Build-in Exception这四个方面，其实在看的时候发现整个《The Python Standard Library》章节都是很不错的，其中描述了很多不错的主题。先把Build-in Fu
JSP页面通过JQUERY合并行 357029540 JavaScript jquery
在写程序的过程中我们难免会遇到在页面上合并单元行的情况，如图所示如果对于会的同学可能很简单，但是对没有思路的同学来说还是比较麻烦的，提供一下用JQUERY实现的参考代码 function mergeCell(){ var trs = $("#table tr"); &nb
Java基础冰天百华 java基础
学习函数式编程 package base; import java.text.DecimalFormat; public class Main { public static void main(String[] args) { // Integer a = 4; // Double aa = (double)a / 100000; // Decimal
unix时间戳相互转换 adminjun 转换 unix 时间戳
如何在不同编程语言中获取现在的Unix时间戳(Unix timestamp)？ Java time JavaScript Math.round(new Date().getTime()/1000) getTime()返回数值的单位是毫秒 Microsoft .NET / C# epoch = (DateTime.Now.ToUniversalTime().Ticks - 62135
作为一个合格程序员该做的事 aijuans 程序员
作为一个合格程序员每天该做的事 1、总结自己一天任务的完成情况最好的方式是写工作日志，把自己今天完成了什么事情，遇见了什么问题都记录下来，日后翻看好处多多 2、考虑自己明天应该做的主要工作把明天要做的事情列出来，并按照优先级排列，第二天应该把自己效率最高的时间分配给最重要的工作 3、考虑自己一天工作中失误的地方，并想出避免下一次再犯的方法出错不要紧，最重
由html5视频播放引发的总结 ayaoxinchao html5 视频 video
前言项目中存在视频播放的功能，前期设计是以flash播放器播放视频的。但是现在由于需要兼容苹果的设备，必须采用html5的方式来播放视频。我就出于兴趣对html5播放视频做了简单的了解，不了解不知道，水真是很深。本文所记录的知识一些浅尝辄止的知识，说起来很惭愧。视频结构本该直接介绍html5的<video>的，但鉴于本人对视频
解决httpclient访问自签名https报javax.net.ssl.SSLHandshakeException: sun.security.validat bewithme httpclient
如果你构建了一个https协议的站点，而此站点的安全证书并不是合法的第三方证书颁发机构所签发，那么你用httpclient去访问此站点会报如下错误 javax.net.ssl.SSLHandshakeException: sun.security.validator.ValidatorException: PKIX path bu
Jedis连接池的入门级使用 bijian1013 redis redis数据库 jedis
Jedis连接池操作步骤如下： a.获取Jedis实例需要从JedisPool中获取； b.用完Jedis实例需要返还给JedisPool； c.如果Jedis在使用过程中出错，则也需要还给JedisPool； packag
变与不变 bingyingao 不变变亲情永恒
变与不变周末骑车转到了五年前租住的小区，曾经最爱吃的西北面馆、江西水饺、手工拉面早已不在，各种店铺都换了好几茬，这些是变的。三年前还很流行的一款手机在今天看起来已经落后的不像样子。三年前还运行的好好的一家公司，今天也已经不复存在。一座座高楼拔地而起，
【Scala十】Scala核心四：集合框架之List bit1129 scala
Spark的RDD作为一个分布式不可变的数据集合，它提供的转换操作，很多是借鉴于Scala的集合框架提供的一些函数，因此，有必要对Scala的集合进行详细的了解 1. 泛型集合都是协变的，对于List而言，如果B是A的子类，那么List[B]也是List[A]的子类，即可以把List[B]的实例赋值给List[A]变量 2. 给变量赋值(注意val关键字，a，b
Nested Functions in C bookjovi c closure
Nested Functions 又称closure，属于functional language中的概念，一直以为C中是不支持closure的，现在看来我错了，不过C标准中是不支持的，而GCC支持。既然GCC支持了closure，那么 lexical scoping自然也支持了，同时在C中label也是可以在nested functions中自由跳转的
Java-Collections Framework学习与总结-WeakHashMap BrokenDreams Collections
总结这个类之前，首先看一下Java引用的相关知识。Java的引用分为四种：强引用、软引用、弱引用和虚引用。强引用：就是常见的代码中的引用，如Object o = new Object();存在强引用的对象不会被垃圾收集
读《研磨设计模式》-代码笔记-解释器模式-Interpret bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 解释器（Interpreter）模式的意图是可以按照自己定义的组合规则集合来组合可执行对象 * * 代码示例实现XML里面1.读取单个元素的值 2.读取单个属性的值 * 多
After Effects操作&快捷键 cherishLC After Effects
1、快捷键官方文档中文版：https://helpx.adobe.com/cn/after-effects/using/keyboard-shortcuts-reference.html 英文版：https://helpx.adobe.com/after-effects/using/keyboard-shortcuts-reference.html 2、常用快捷键
Maven 常用命令 crabdave maven
Maven 常用命令 mvn archetype:generate mvn install mvn clean mvn clean complie mvn clean test mvn clean install mvn clean package mvn test mvn package mvn site mvn dependency:res
shell bad substitution daizj shell 脚本
#!/bin/sh /data/script/common/run_cmd.exp 192.168.13.168 "impala-shell -islave4 -q 'insert OVERWRITE table imeis.${tableName} select ${selectFields}, ds, fnv_hash(concat(cast(ds as string), im
Java SE 第二讲（原生数据类型 Primitive Data Type） dcj3sjt126com java
Java SE 第二讲： 1. Windows: notepad, editplus, ultraedit, gvim Linux: vi, vim, gedit 2. Java 中的数据类型分为两大类： 1）原生数据类型（Primitive Data Type） 2）引用类型（对象类型）（R
CGridView中实现批量删除 dcj3sjt126com PHP yii
1，CGridView中的columns添加 array( 'selectableRows' => 2, 'footer' => '<button type="button" onclick="GetCheckbox();" style=&
Java中泛型的各种使用 dyy_gusi java 泛型
Java中的泛型的使用：1.普通的泛型使用在使用类的时候后面的<>中的类型就是我们确定的类型。 public class MyClass1<T> {//此处定义的泛型是T private T var; public T getVar() { return var; } public void setVa
Web开发技术十年发展历程 gcq511120594 Web 浏览器数据挖掘
回顾web开发技术这十年发展历程： Ajax 03年的时候我上六年级，那时候网吧刚在小县城的角落萌生。传奇，大话西游第一代网游一时风靡。我抱着试一试的心态给了网吧老板两块钱想申请个号玩玩，然后接下来的一个小时我一直在，注，册，账，号。彼时网吧用的512k的带宽，注册的时候，填了一堆信息，提交，页面跳转，嘣，”您填写的信息有误，请重填”。然后跳转回注册页面，以此循环。我现在时常想，如果当时a
openSession()与getCurrentSession()区别： hetongfei java DAO Hibernate
来自 http://blog.csdn.net/dy511/article/details/6166134 1.getCurrentSession创建的session会和绑定到当前线程,而openSession不会。 2. getCurrentSession创建的线程会在事务回滚或事物提交后自动关闭,而openSession必须手动关闭。这里getCurrentSession本地事务(本地
第一章安装Nginx+Lua开发环境 jinnianshilongnian nginx lua openresty
首先我们选择使用OpenResty，其是由Nginx核心加很多第三方模块组成，其最大的亮点是默认集成了Lua开发环境，使得Nginx可以作为一个Web Server使用。借助于Nginx的事件驱动模型和非阻塞IO，可以实现高性能的Web应用程序。而且OpenResty提供了大量组件如Mysql、Redis、Memcached等等，使在Nginx上开发Web应用更方便更简单。目前在京东如实时价格、秒
HSQLDB In-Process方式访问内存数据库 liyonghui160com
HSQLDB一大特色就是能够在内存中建立数据库，当然它也能将这些内存数据库保存到文件中以便实现真正的持久化。先睹为快！下面是一个In-Process方式访问内存数据库的代码示例：下面代码需要引入hsqldb.jar包（hsqldb-2.2.8） import java.s
Java线程的5个使用技巧 pda158 java 数据结构
Java线程有哪些不太为人所知的技巧与用法？　　萝卜白菜各有所爱。像我就喜欢Java。学无止境，这也是我喜欢它的一个原因。日常工作中你所用到的工具，通常都有些你从来没有了解过的东西，比方说某个方法或者是一些有趣的用法。比如说线程。没错，就是线程。或者确切说是Thread这个类。当我们在构建高可扩展性系统的时候，通常会面临各种各样的并发编程的问题，不过我们现在所要讲的可能会略有不同。
开发资源大整合：编程语言篇——JavaScript（1） shoothao JavaScript
概述：本系列的资源整合来自于github中各个领域的大牛，来收藏你感兴趣的东西吧。程序包管理器管理javascript库并提供对这些库的快速使用与打包的服务。 Bower - 用于web的程序包管理。 component - 用于客户端的程序包管理，构建更好的web应用程序。 spm - 全新的静态的文件包管
避免使用终结函数 vahoa.ma java jvm C++
终结函数（finalizer）通常是不可预测的，常常也是很危险的，一般情况下不是必要的。使用终结函数会导致不稳定的行为、更差的性能，以及带来移植性问题。不要把终结函数当做C++中的析构函数（destructors）的对应物。我自己总结了一下这一条的综合性结论是这样的： 1）在涉及使用资源，使用完毕后要释放资源的情形下，首先要用一个显示的方