水木-刘

《Spark快速大数据分析》——读书笔记（5）

第五章数据读取与保存

5.1 动机

动机：数据量比较大，单台机器无法完成。
三类常见的数据源：

文件格式与文件系统。对于存储在本地文件系统或分布式文件系统（比如NFS、HDFS、Amazon S3等）中的数据，Spark可以访问很多种不同的文件格式，包括文本文件、JSONSequenceFile以及protocal buffer。
Spark SQL中的结构化数据源。
数据库与键值存储。

5.2 文件格式

5.2.1 文本文件

将一个文本文件读取为RDD时，输入的每一行都会成为RDD的一个元素。也可以将多个完整的文本文件一次性读取为一个pair RDD，键是文件名，值是文件内容。
1. 读取文本文件
使用SparkContext的textFile()函数。

例5-1：在Python中读取一个文本文件

input=sc.textFile("file:///..../README.md")

如果有多个输入文件以一个包含数据所有部分的目录的形式出现。有两种处理方式：

仍使用textFile函数，传递目录作为参数。
使用SparkContext.wholeTextFiles()方法，该方法会返回一个pairRDD，键是输入文件的文件名。

Spark支持读取给定目录中的所有文件，以及在输入路径中使用通配字符。
2. 保存文本文件
saveAsTextFile()方法接收一个路径，并将RDD中的内容都输入到路径对应的文件中。这个方法中，我们不能控制数据的哪一部分输出到那个文件中，不过有些输出格式支持控制。

例5-5：在Python中将数据保存为文本文件

result.saveAsTextFile(outputFile)

5.2.2 JSON

1. 读取JSON
将数据作为文本文件读取，然后对JSON数据进行解析，该方法在所有支持的编程语言中都可以使用。该方法假设文件中每一行都是一条JSON记录。

例5-6：在Python中读取非结构化的JSON

import json
data=input.map(lambda x:json.loads(x))

需要注意格式不正确的记录的处理。
2. 保存JSON
可以使用之前将字符串RDD转为解析好的JSON数据的苦，将由结构化数据组成的RDD转为字符串RDD，然后使用Spark的文本文件API写出去。

例5-9：在Python保存为JSON

(data.filter(lambda x:x["lovePandas"]).map(lambda x:json.dumps(x)).saveAsTextFile(outputFile))

5.2.3 逗号分隔值与制表符分割值

1. 读取CSV
先把文件当做普通文本文件来读取数据，再对数据进行处理。
如果CSV的所有数据字段均没有包含换行符，可以使用textFile()读取并解析数据。

例5-12：在Python中使用textFile()读取CSV

import csv
import StringIO
---
def loadRecord(line):
    """解析一行CSV记录"""
    input=StringIO.StringIO(line)
    reader=csv.DictReader(input,fieldnames=["name","favouriteAnimal"])
    return reader.next()
input=sc.textFile(inputFile).map(loadRecord)

如果在字段中嵌有换行符，就需要完整读入每个文件，然后解析各段，如果每个文件都很大，读取和解析过程可能会成为性能瓶颈。

例5-15：在Python中完整读取CSV

def loadRecords(fileNameContents):
    """读取给定文件中的所有记录"""
    input=StringIO.StringIO(fileNameContents[1])
    reader=csv.DictReader(input,fieldnames=["name","favouriteAnimal"])
    return reader
fullFileData=sc.wholeTextFiles(inputFile).flatMap(loadRecords)

2. 保存CSV
和JSON数据一样，写出CSV/TSV可以通过重用输出编码器来加速。由于在CSV中我们不会在每条记录中输出字段名，因此为了使输出保持一致，需要创建一种映射关系。

例5-18：在Python中写CSV

def writeRecords(records)
    """写出一些ＣＳＶ记录"""
    output=StringIO.StringIO()
    writer=csv.DictWriter(output,fieldnames=["name","favoriteAnimal"])
    for record in records:
        write.writerow(record)
    return [output.getvalue()]
pandaLovers.mapPartitions(writeRecords).saveAsTextFile(outputFile)

5.2.4 SequenceFile

SequenceFile是由没有相对关系结构的键值对文件组成的常用Hadoop格式。SequenceFile文件有同步标记，Spark可以用它定位到文件中的某个点，然后再与记录的边界对齐。这可以让Spark使用多个节点高效地并行读取SequenceFile文件。
由于Hadoop使用了一套自定义的序列化框架，因此SequenceFile是由实现Hadoop的Writable接口元素组成。

1. 读取SequenceFile
Spark有专门用来读取SequenceFile的接口。在SparkContext中，可以调用sequenceFile(path, keyClass, valueClass, minpartitions)，前面提及SequenceFile使用Writable类，因此keyClass和valueClass都必须使用正确的Writable类。

例5-20：在Python中读取SequenceFile

val data=sc.sequenceFile(inFile,"org.apache.hadoop.io.Text", "org.apache.hadoop.io.IntWritable")

2. 保存SequenceFile
在Scala中，需要创建一个又可以写出到SequenceFile的类型构成的PairRDD，如果要保存的是Scala的原生类型，可以直接调用saveSequenceFile(path) 。如果键和值不能自动转为Writable类型，或想使用变长类型，可以对数据进行映射操作，在保存之前进行类型转换。

5.2.5 对象文件

对象文件看起来详实对SequenceFile的简单封装，它允许存储至包含值的RDD。和SequenceFile不一样的是，对象文件是使用Java序列化写出的。

注意：如果你修改了类，比如增减了几个字段，已经生成的对象文件就不再可读了。

对对象文件使用Java序列化需要注意：

和普通的SequenceFile不同，对同样的对象，对象文件的输出和Hadoop的输出不一样。
对象文件通常用于Spark作业间的通信。
Java序列化有可能相当慢。

对象文件的保存：RDD上调用saveAsObjectFile。
对象文件的读取：用SparkContext中的objectFile()接受路径，返回RDD。
对象文件的优点：可以用来保存几乎任意对象而不需要额外的工作。

对象文件在Python中无法使用，不过Python中RDD和SparkContext支持saveAsPickleFile()和pickleFile()方法替代。

5.2.6 Hadoop输入输出格式

除了Spark封装的格式外，也可以与任何Hadoop支持的格式交互。Spark支持新旧两套Hadoop文件API。
1. 读取其他Hadoop输入格式
新版的Hadoop API读入文件，newAPIHadoopFile。第一个类是“格式”类，代表输入格式，第二个类是键的类，最后一个类是值的类。
旧版的Hadoop API读入文件，HadoopFile。
我们学习了通过读取文本文件并加以解析以读取JSON数据的方法。也可以自定义Hadoop输入格式来读取JSON数据。
2. 保存Hadoop输出格式
使用旧式API保存pair RDD。

例5-26：在Java保存SequenceFile

public static class ConvertToWritableTypes implements
    PairFunction<Tuple2<String,Integer>,Text,IntWritable>{
    public Tuple2 call(Tuple2 record){
        return new Tuple2(new Text(record._1),new IntWritable(record._2));
    }
}
JavaPairRDD rdd=sc.parallelizePairs(input);
JavaPairRDD result=rdd.mapToPair(new ConvertToWritableTypes());
result.saveAsHadoopFile(fileName,Text.calss,IntWritable.class,SequenceFileOutputFormat.class);

3. 非文件系统数据源
hadoopDataset/saveAsHadoopDataSet和newAPIHadoopDataset/saveAsNewAPIHadoopDataset可以访问Hadoop所支持的非文件系统的存储格式。

5.2.7 文件压缩

大数据工作中，我们经常需要对数据进行压缩以节省存储空间和网络传输开销。对于大多数Hadoop输出格式，我们可以制定一种压缩编码器来压缩数据。
这些压缩选项只是用与支持压缩的Hadoop格式，也就是那些写出到文件系统的格式。写入数据库的Hadoop格式一般没有实现压缩支持。
可以很容易从多个节点上并行读取的格式被称为“可分割”的格式。

5.3 文件系统

5.3.1 本地/“常规”文件系统

Spark支持从本地文件系统中读取文件，不过它要求文件在集群中所有节点的相同路径下可以找到。
一些像NFS、AFS以及MapR的NFS layer这样的网络文件系统会把文件以常规文件系统的形式暴露给用户。如果数据已经在这些系统中，则指定输入为一个file://路径；只要这个文件系统挂载在每个节点的同一个路径下，Spark就会自动处理，如例5-29。

例5-29：在Scala中从本地文件系统读取一个压缩的文本文件

val rdd=sc.textFile("file:///home/holden/happypandas.gz")

如果文件还没有放在集群中的所有节点上，可以在驱动器程序中从本地读取改文件而无需使用整个集群，然后再调用parallellize将内容分发给工作节点。不过这种方式可能会比较慢。

5.3.2 Amazon S3

要在Spark中访问S3数据，
首先应该吧S3访问凭据设置为AWS_ACCESS_KEY_ID和AWS_SECRET_ACCESS_KEY环境变量。
然后，将以s3n://开头的路径以s3n://bucket/path-within-bucket的形式传给Spark的输入方法。
如果得到S3访问权限错误，请确保制定了访问秘钥的账号对数据通有“read”和“list”的权限。

5.3.3 HDFS

在Spark中使用HDFS只需要将输入输出路径指定为hdfs://master:port/path就够了。

5.4 Spark SQL中的结构化数据

在各种情况下，我们把一条SQL查询给Spark SQL，让它对一个数据源执行查，然后得到有Row对象组成的RDD，每个Row对象表示一条记录。在Java和Scala中，Row对象的访问是基于下标的。每个Row都有一个get()方法，会返回一个一般类型让我们可以进行类型转换。在Python中，可以使用row[column_number]以及row.column_name来访问元素。

5.4.1 Apache Hive

Spark可以读取Hive支持的任何表。
要把Spark SQL连接到已有的Hive上，你需要提供Hive的配置文件。你需要将hive-site.xml文件复制到Spark的./conf/目录下。这样做好之后，再创建出HiveContext对象，也就是Spark SQL的入口，就可以使用HQL进行查询。

例5-30：用Python创建HiveContext并查询数据

from pyspark.sql import HiveContext
hiveCtx=HiveContext(sc)
rows=hiveCtx.sql("SELECT name, age FROM users")
firstRow=rows.first()
print firstRow.name

5.4.2 JSON

要读取JSON数据，首先需要和使用Hive一样创建一个HiveContext（这时不用安装好Hive）。然后使用HiveContext.jsonFile方法来从整个文件中获取由Row对象组成的RDD。

例5-34：在Python中使用SparkSQL读取JSON数据

tweets = hiveCtx.jsonFile("tweets.json")
tweets.registerTempTable("tweets")
results = hiveCtx.sql("SELECT user.name, text FROM tweets")

5.5 数据库

通过数据库提供的Hadoop连接器或者自定义Spark连接器，Spark可以访问一些常用的数据库系统。

5.5.1 Java数据库连接

Spark可以从任何支持Java数据库连接（JDBC）的关系型数据库中读取数据，包括MySQL、Postgre等系统。要访问这些数据需要构建一个org.apache.spark.rdd.JdbcRDD，将SparkContext和其他参数一起传给他。
JdbcRDD接受参数：

一个用于对数据库创建连接的函数。这个函数让每个节点在连接必要的配置后创建自己读取数据的连接。
一个可读取一定范围内数据的查询，以及查询参数中的lowerBound和upperBound的值。
可以将输出结果从java.sql.ResultSet转为对操作数据有用的格式的函数。

和其他数据源一样，使用JdbcRDD时，需确保数据库可以应付Spark并行读取的负载。

5.5.2 Cassandra

随着DataStax 开源其用于Spark 的Cassandra 连接器（https://github.com/datastax/spark-cassandraconnector），Spark 对Cassandra 的支持大大提升。这个连接器目前还不是Spark 的一部分，因此你需要添加一些额外的依赖到你的构建文件中才能使用它。Cassandra 还没有使用Spark SQL，不过它会返回由CassandraRow 对象组成的RDD，这些对象有一部分方法与Spark SQL 的Row 对象的方法相同，如例5-38 和例5-39 所示。Spark 的Cassandra 连接器目前只能在Java 和Scala 中使用。

5.5.3 HBase

由于org.apache.hadoop.hbase.mapreduce.TableInputFormat 类的实现，Spark 可以通过Hadoop 输入格式访问HBase。这个输入格式会返回键值对数据，其中键的类型为org.apache.hadoop.hbase.io.ImmutableBytesWritable，而值的类型为org.apache.hadoop.hbase.client.Result。Result 类包含多种根据列获取值的方法，在其API 文档（https://hbase.apache.org/apidocs/org/apache/hadoop/hbase/client/Result.html）中有所描述。

5.5.4 Elasticsearch

Spark 可以使用Elasticsearch-adoop（https://github.com/elastic/elasticsearch-hadoop）从Elasticsearch中读写数据。Elasticsearch 是一个开源的、基于Lucene 的搜索系统。Elasticsearch 连接器和我们研究过的其他连接器不大一样，它会忽略我们提供的路径信息，而依赖于在SparkContext 中设置的配置项。Elasticsearch 的OutputFormat 连接器也没有用到Spark 所封装的类型，所以我们使用saveAsHadoopDataSet 来代替，这意味着我们需要手动设置更多属性。

5.6 总结

在本章结束之际，你应该已经能够将数据读取到Spark 中，并将计算结果以你所希望的方式存储起来。我们调查了数据可以使用的一些不同格式，一些压缩选项以及它们对应的数据处理的方式。现在我们已经掌握了读取和保存大规模数据集的方法，后续章节会介绍一些用来编写更高效更强大的Spark 程序的方法。

2025.03.22【读书笔记】| fastq-multx：高效barcode拆分数据解决工具穆易青读书笔记数据处理读书笔记 linux 运维服务器
文章目录1.工具介绍为什么需要`fastq-multx`？`fastq-multx`的特点2.安装方式通过源代码编译安装使用包管理器安装3.使用命令基本命令高级参数设置结语1.工具介绍在生物信息学的世界里，工具的选择至关重要。今天，我们要介绍的这个工具，就是fastq-multx，一个用于高效barcode去复用和demultiplex的解决方案。fastq-multx是一个专门设计用于处理高通量
Effective Modern C++ 条款6：auto推导若非己愿，使用显式类型初始化惯用法举个栗子2 Effective Modern C++c++
更多C++学习笔记，关注wx公众号：cpp读书笔记Item6:Usetheexplicitlytypedinitializeridiomwhenautodeducesundesiredtypes在Item5中解释了比起显式指定类型使用auto声明变量有若干技术优势，但是有时当你想向左转auto却向右转。举个例子，假如我有一个函数，参数为Widget，返回一个std::vector，这里的bool表
数智读书笔记系列021《大数据医疗》：探索医疗行业的智能变革 Allen_Lyb 数智读书笔记大数据健康医疗人工智能 python
一、书籍介绍《大数据医疗》由徐曼、沈江、余海燕合著，由机械工业出版社出版。徐曼是南开大学商学院副教授，在大数据驱动的智能决策研究领域颇有建树，尤其在大数据驱动的医疗与健康决策方面有着深入研究，曾获天津优秀博士论文、教育部博士研究生新人奖。沈江等作者也在相关学术和实践领域有着丰富的经验和深厚的专业知识。这本书系统且深入地探讨了大数据技术在医疗领域的应用与变革，对推动医疗行业的智能化发展具有重要的理论
数据挖掘导论Pangaea-Ning Tan 读书笔记——（第一，二，三章）小黄人的黄数据挖掘数据挖掘
《数据挖掘导论》Pang-NingTan，MichaelSteinbach，VipinKumar读书笔记，第一章绪论数据挖掘任务预测任务描述任务分类任务回归任务聚类分析关联分析异常检测章节导读数据挖掘数据处理第2章第3章分类第4章决策树过拟合性能评估等第5章
《5G NR标准：下一代无线通信技术》读书笔记——LTE概述 Laolu5 读书笔记 5g
目录一.LTE概述1.频谱灵活性1.1载波聚合1.2授权辅助接入2.多天线增强2.1扩展的多天线传输2.2多点协作和传输2.3增强的控制信道结构3.密集度、微蜂窝和异构部署3.1中继3.2异构部署3.3微蜂窝开关3.4双连接3.5动态TDD3.6WLAN互通4.终端增强5.新场景5.1设备到设备通信5.2机器类型通信（MTC）5.3降低时延-sTTI5.4V2V和V2X5.5飞行器未完待续一.LT
低功耗设计的影响、概述、LPMM TrustZone_ 数字IC 低功耗
文章目录0-低功率芯片技术或影响整个芯片设计流程设计挑战2-更高抽象层1.数字IC设计中的低功耗处理方式概述1.1系统层面低功耗1.2处理器层面低功耗1.3单元层面低功耗1.4寄存器层面低功耗1.5锁存器层面低功耗1.6SRAM层面低功耗1.7组合逻辑层面低功耗3-《LowPowerMethodologyManualForSystem-on-ChipDesign》读书笔记1引言1.1功耗带来的问题
《数据仓库》读书笔记：第11章非结构化数据和数据仓库 search-lemon 数据仓库数据仓库
该系列博文为《数据仓库BuildingtheDataWarehouse》一书的读书笔记，笔者将书中重点内容进行概括总结。大致保留书中结构，一部分根据自己的理解进行调整。如发现问题，欢迎批评指正。章节博文1《数据仓库》读书笔记：第1章决策支持系统的发展2《数据仓库》读书笔记：第2章数据仓库环境3《数据仓库》读书笔记：第3章设计数据仓库4《数据仓库》读书笔记：第4章数据仓库中的粒度5《数据仓库》读书笔
两周学习安排 3分人生学习
日常安排白天看MySQL实战45讲，每日一讲看图解设计模式每天1-2道力扣算法题（难度中等以上）每天复习昨天的单词，记20个单词，写一篇阅读晚上写服创项目每日产出MySQL实战45讲读书笔记设计模式读书笔记力扣算法题ac记录单词本截图项目接口文档记录，git提交记录第二周MySQL：精读第1-6讲设计模式：学习工厂方法、抽象工厂、单例、建造者、适配器、桥接模式算法：每日1-2题第三周MySQL：精
嵌入式Linux设备驱动程序开发指南17（IIO子系统一）——读书笔记 Jack.Jia linux驱动 linux 运维服务器
IIO子系统一十七、IIO子系统(一)17.1简介17.2数模转换——DAC实验17.2.1IIO缓冲区17.2.2触发器17.2.3工业I/O事件17.2.4iio工具17.2.5LTC2607——DAC模块介绍17.2.5.1设备树17.2.5.2LTC2607驱动模块介绍17.2.5.2.1用作I2C交互的工业框架17.2.5.2.2用作IIO设备的工业框架17.2.5.3源代码17.3模数
丹尼尔·卡尼曼《噪声》——读书笔记阅读读书笔记思维
好久没有写博客了，趁着出差有时间，读完了《噪声》这本买了很久的书，整体感觉还是有一些认知层面的迭代的，也整理下书中的一些内容，让自己能够沉下心来把思维和逻辑整理清楚，也能给大家做个分享。书籍介绍这本书是已故诺贝尔经济学奖得主丹尼尔·卡尼曼的新书，之前就是在这位作者去世的时候买回来学习的。本书主要讲的是人类在判断过程中的一个常见“噪声”问题，由于人或者时间原因导致决策的随机性偏差。这本书通过对人类决
【读书笔记】《What is Mathematics》第一章：自然数还没入门的大菜狗具体数学读书笔记
为什么要读这本书啊？为什么要学数学？正如书的扉页所述：两千年以来，谙熟一定的数学知识是每一个文明人应有的基本智力为什么作为一个程序猿，也要从头学数学？我数学渣锻炼自己解决问题的能力数据结构逻辑训练为将来转行数据科学做底子（也许永远都不会转）考研（emmm想考一个非全日制玩一玩，感觉非全日制很适合工科学生）嗯，有了以上的理由，所以一定要坚持下去✊为什么是这本书？那么这本书做了什么呢？对整个数学领域中
【C++基础】第十一课：处理类型 x-jeff C++基础 c++开发语言
【C++基础】系列博客为参考《C++Primer中文版（第5版）》（C++11标准）一书，自己所做的读书笔记。1.类型别名类型别名是一个名字，它是某种类型的同义词。使用类型别名有很多好处，它让复杂的类型名字变得简单明了、易于理解和使用，还有助于程序员清楚地知道使用该类型的真实目的。有两种方法可用于定义类型别名。1.1.typedef第一种方法是使用关键字typedef，是一种比较传统的方法。typ
《DAMA数据管理知识体系指南》第十章参考数据和主数据管理读书笔记数据大包哥大数据
《DAMA数据管理知识体系指南》第十章参考数据和主数据管理读书笔记1.引言主数据和参考数据是组织跨系统共享的核心资源，其一致性直接影响业务决策和数据质量。主数据（如客户、产品）描述核心业务实体，参考数据（如国家代码、行业分类）提供分类和标准化支持。管理目标包括：确保数据完整、一致、最新降低集成成本和风险提升数据可信度参考数据和主数据语境关系图如图10-1所示。1.1业务驱动因素1.1.1主数据管理
《期权、期货及其他衍生产品》读书笔记（第五章：确定远期和期货价格） PerpetualLearner #期权量化期权期货衍生品远期价格期货价格
5.1投资资产与消费资产投资资产（InvestmentAsset）：至少有一些交易员仅仅是为了投资目的而持有的资产。可以从无套利假设出发，由即期价格与其他市场变量得出远期价格和期货价格。消费资产（Consumption）：持有目的主要是消费而不是投资。无法推演价格。5.2卖空交易另类报升（AlternativeUptick，2010.2）：当某一股票价格在某一天的跌幅超过10%时，在这一天与下一天
《Head First设计模式》读书笔记 —— 单件模式 Vcats 《Head First设计模式》读书笔记设计模式单例模式
文章目录为什么需要单件模式单件模式典型实现剖析定义单件模式本节用例多线程带来的问题解决问题优化Q&A总结《HeadFirst设计模式》读书笔记相关代码：Vks-Feng/HeadFirstDesignPatternNotes:HeadFirst设计模式读书笔记及相关代码用来创建独一无二的，只能有一个实例的对象的入场券为什么需要单件模式有些对象只能有一个实例线程池、缓存、对话框、设备的驱动程序的对象
【转载】2020融云：基于WebRTC的低延迟视频直播等风来不如迎风去 WebRTC入门与实战 webrtc 音视频网络
原文直接访问本文是读书笔记。基于WebRTC的低延迟视频直播需要学习rtp包的缓存设计，于是找到了这一篇文章rtp包缓存如何适应直播需求？直播与实时通信的区别流量更少：RTMP或者HLS主要基于TCP传输，WebRTC是基于UDP的传输，**UDP协议的头小。**TCP为了保证传输质量，因此会产生很多ACK，在网络不好的情况下会产生很多重传包，而WebRTC传输是基于RTP和RTCP，重传策略是基
《DAMA数据管理知识体系指南》第五章数据建模和设计读书笔记总结数据大包哥 #数据治理大数据
《DAMA数据管理知识体系指南》第五章数据建模和设计读书笔记总结在《DAMA数据管理知识体系指南》中，第五章围绕数据建模和设计展开深入探讨，数据建模和设计作为数据管理的关键环节，对组织有效理解、管理和利用数据起着基础性作用，为企业实现数据驱动的决策和运营提供了重要支撑。一、数据建模和设计的基础概念1.1定义与重要性数据建模是发现、分析和确定数据需求，并采用数据模型的精确形式表示和传递这些需求的过程
【机器学习基础】第六课：线性回归 x-jeff 机器学习基础机器学习线性回归人工智能
【机器学习基础】系列博客为参考周志华老师的《机器学习》一书，自己所做的读书笔记。1.线性模型基本形式给定由ddd个属性描述的示例x=(x1;x2;...;xd)\mathbfx=(x_1;x_2;...;x_d)x=(x1;x2;...;xd)，那么线性模型的基本形式可写为：f(x)=w1x1+w2x2+w3x3+...+wdxd+bf(\mathbfx)=w_1x_1+w_2x_2+w_3x_3
《JavaScript高级程序设计》——第四章：变量、作用域与内存管理 dorabighead javascript 开发语言 ecmascript
《JavaScript高级程序设计》——第四章：变量、作用域与内存管理大家好！我是小哆啦，欢迎回到《JavaScript高级程序设计》的读书笔记大本营！在这章中，我们要聊的是两个让人头疼又迷人的话题——变量、作用域与内存管理。有些人一提到这些，就会感到一阵头晕目眩，恍若置身一场JavaScript版的迷宫大冒险！但今天，小哆啦会带你们轻松过关，深入了解这些概念，并且保持足够的幽默感，让你既能笑着学
《Spring实战》读书笔记-第3章高级装配 2401_89790580 spring oracle 数据库
Spring表达式语言在上一章中，我们看到了一些最为核心的bean装配技术。你可能会发现上一章学到的知识有很大的用处。但是，bean装配所涉及的领域并不仅仅局限于上一章所学习到的内容。Spring提供了多种技巧，借助它们可以实现更为高级的bean装配功能。在本章中，我们将会深入介绍一些这样的高级技术。本章中所介绍的技术也许你不会天天都用到，但这并不意味着它们的价值会因此而降低。3.1环境与prof
【深度学习入门：基于python的理论与实现读书笔记】第五章误差反向传播法 Bin二叉深度学习 python 人工智能
目录摘要第五章误差反向传播法简单层的实现乘法层的实现加法层的实现激活函数层的实现ReLU层Sigmoid层Affine层和Softmax层的实现Affine层Softmax-with-Loss层误差反向传播法的实现摘要该文章简要介绍了神经网络的误差反向传播法，省去了大量的推理过程，重点讲述了神经网络误差反向传播法的代码实现。第五章误差反向传播法反向传播就是从后到前局部计算偏导数并将其与从上游传来的
使用 LLM 实现的 RSS 个性信息推送，效果实测 day2
每天早上，我都会点开coze推送的RSS邮件，经常能找到感兴趣的有用信息。因为铺天盖地的deepseek，蹭热点的文章很多，我往往只瞄一眼标题今天出现了这么3条信息，实在开心嵌入式那条，原因是我最近笔记里写了nRF的开发配置，我正在被zephyr开发工具链折磨。工作记忆那一条，跟我最近《学习的门道》读书笔记有关隐私优先那一条，跟我跟xBeta讨论笔记工具有关每天推送的邮件让人期待的感觉真好。
读书笔记 - 代码整洁之道：程序员的职业素养天罚神读书笔记 java
读书笔记-代码整洁之道：程序员的职业素养第1章职业道德了解你的领域，每个专业软件开发人员必须精通的事项坚持学习练习辅导第2章说“不”对抗角色高风险时刻要有团队精神试试看消极对抗说"是"的成本如何写出好代码第3章说“是”承诺用语承诺识别缺乏承诺的征兆坚守原则第4章编码不要在疲劳的时候写代码不要在焦虑的时候写代码理性应对中断如何应对阻塞状态关于调试保持好节奏进度延迟加班帮助帮助他人接受他人的帮助辅导定
读书笔记 - 修改代码的艺术天罚神读书笔记 java
读书笔记-修改代码的艺术第1章修改软件第2章带着反馈工作系统变更方式反馈方式遗留代码修改方法第3章感知和分离伪协作程序模拟对象第4章接缝模型接缝第5章工具自动化重构工具单元测试用具第6章时间紧迫，但必须修改新生方法（SproutMethod）新生类（SproutClass）包装方法包装类装饰器模式第7章永远都无法完成的修改第8章如何添加新特性测试驱动开发测试驱动开发使用了下面这样的步骤：对于遗留代
Effective Objective-C 2.0 读书笔记——内存管理（下）小鹿撞出了脑震荡 objective-c java 开发语言
EffectiveObjective-C2.0读书笔记——内存管理（下）在dealloc方法中只释放引用并解除监听对象在经历其生命期后，最终会为系统所回收，这时就要执行dealloc方法了。在每个对象的生命期内，此方法仅执行一次，也就是当保留计数降为0的时候。在这个方法之中，主要就是释放对象所拥有的引用。比如CoreFoundation对象就必须手工释放，因为它们是由纯C的API所生成的。在dea
【转】时间序列分析——基于R，王燕 weixin_30780221 r语言
《时间序列分析——基于R》王燕，读书笔记笔记：一、检验：1、平稳性检验：图检验方法：时序图检验：该序列有明显的趋势性或周期性，则不是平稳序列自相关图检验：（acf函数）平稳序列具有短期相关性，即随着延迟期数k的增加，平稳序列的自相关系数ρ会很快地衰减向0（指数级衰减），反之非平稳序列衰减速度会比较慢构造检验统计量进行假设检验：单位根检验adfTest()——fUnitRoots包2、纯随机性检验、
《构建之法》 –读书笔记 Lishq2004 读书笔记软件开发软件工程读书笔记构建
《构建之法》–读书笔记lishq为什么读这本书:这是一本非常接地气的讲《软件工程》的书，第一次了解到这本书是从豆瓣上看到，看了下密密麻麻的正面评论，觉得内容应该不错。翻阅了几个章节，发现干货确实挺多。为方便大家了解，摘抄作者简介以及部分书评如下。---------------------------------------------------------------------------
Java程序性能优化读书笔记（一）：Java性能调优概述 anxunnian1498 java 数据库操作系统
程序性能的主要表现点：执行速度：程序的反映是否迅速，响应时间是否足够短内存分配：内存分配是否合理，是否过多地消耗内存或者存在内存泄漏启动时间：程序从运行到可以正常处理业务需要花费多少时间负载承受能力：当系统压力上升时，系统的执行速度、响应时间的上升曲线是否平缓衡量程序性能的主要指标：执行时间：程序从运行到结束所使用的时间CPU时间：函数或者线程占用CPU的时间内存分配：程序在运行时占用内容的空间磁
The Devops Handbook 读书笔记01 Alice_HappyAlice ^_^ The Devops Handbook 读书笔记 devops
今天看了一下序，了解了一下Devops这本书是干啥的？ThepurposeoftheDevOpsHandbookistogiveyouthetheory,principles,andpracticesyouneedtosuccessfullystartyourDevOpsinitiativeandachieveyourdesiredoutcomes.Devops原则想要做到的事情，就是更快，更低风
Effective Objective-C 2.0 读书笔记——协议和分类小鹿撞出了脑震荡 objective-c 分类 ios
EffectiveObjective-C2.0读书笔记——协议和分类文章目录EffectiveObjective-C2.0读书笔记——协议和分类在分类中添加属性使用“class-continuation分类”隐藏实现细节通过协议提供匿名对象在分类中添加属性尽管从技术上说，分类里也可以声明属性，但这种做法还是要尽量避免。原因在于，除了class-continuation分类之外，其他分类都无法向类中
github中多个平台共存 jackyrong github
在个人电脑上，如何分别链接比如oschina,github等库呢，一般教程之列的，默认 ssh链接一个托管的而已，下面讲解如何放两个文件 1）设置用户名和邮件地址 $ git config --global user.name "xx" $ git config --global user.email "[email protected]"
ip地址与整数的相互转换(javascript) alxw4616 JavaScript
//IP转成整型 function ip2int(ip){ var num = 0; ip = ip.split("."); num = Number(ip[0]) * 256 * 256 * 256 + Number(ip[1]) * 256 * 256 + Number(ip[2]) * 256 + Number(ip[3]); n
读书笔记-jquey+数据库+css chengxuyuancsdn html jquery oracle
1、grouping ,group by rollup, GROUP BY GROUPING SETS区别 2、$("#totalTable tbody>tr td:nth-child(" + i + ")").css({"width":tdWidth, "margin":"0px", &q
javaSE javaEE javaME == API下载 Array_06 java
oracle下载各种API文档： http://www.oracle.com/technetwork/java/embedded/javame/embed-me/documentation/javame-embedded-apis-2181154.html JavaSE文档： http://docs.oracle.com/javase/8/docs/api/ JavaEE文档： ht
shiro入门学习 cugfy java Web 框架
声明本文只适合初学者，本人也是刚接触而已，经过一段时间的研究小有收获，特来分享下希望和大家互相交流学习。首先配置我们的web.xml代码如下，固定格式，记死就成 <filter> <filter-name>shiroFilter</filter-name> &nbs
Array添加删除方法 357029540 js
刚才做项目前台删除数组的固定下标值时，删除得不是很完整，所以在网上查了下，发现一个不错的方法，也提供给需要的同学。 //给数组添加删除 Array.prototype.del = function(n){
navigation bar 更改颜色张亚雄 IO
今天郁闷了一下午，就因为objective-c默认语言是英文，我写的中文全是一些乱七八糟的样子，到不是乱码，但是，前两个自字是粗体，后两个字正常体，这可郁闷死我了，问了问大牛，人家告诉我说更改一下字体就好啦，比如改成黑体，哇塞，茅塞顿开。翻书看，发现，书上有介绍怎么更改表格中文字字体的，代码如下
unicode转换成中文 adminjun unicode 编码转换
在Java程序中总会出现\u6b22\u8fce\u63d0\u4ea4\u5fae\u535a\u641c\u7d22\u4f7f\u7528\u53cd\u9988\uff0c\u8bf7\u76f4\u63a5这个的字符，这是unicode编码，使用时有时候不会自动转换成中文就需要自己转换了使用下面的方法转换一下即可。 /** * unicode 转换成中文
一站式 Java Web 框架 firefly aijuans Java Web
Firefly是一个高性能一站式Web框架。涵盖了web开发的主要技术栈。包含Template engine、IOC、MVC framework、HTTP Server、Common tools、Log、Json parser等模块。 firefly-2.0_07修复了模版压缩对javascript单行注释的影响，并新增了自定义错误页面功能。更新日志：增加自定义系统错误页面功能
设计模式——单例模式 ayaoxinchao 设计模式
定义 Java中单例模式定义：“一个类有且仅有一个实例，并且自行实例化向整个系统提供。” 分析从定义中可以看出单例的要点有三个：一是某个类只能有一个实例；二是必须自行创建这个实例；三是必须自行向系统提供这个实例。 &nb
Javascript 多浏览器兼容性问题及解决方案 BigBird2012 JavaScript
不论是网站应用还是学习js,大家很注重ie与firefox等浏览器的兼容性问题，毕竟这两中浏览器是占了绝大多数。一、document.formName.item(”itemName”) 问题问题说明：IE下，可以使用 document.formName.item(”itemName”) 或 document.formName.elements ["elementName&quo
JUnit-4.11使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误 bijian1013 junit4.11 单元测试
下载了最新的JUnit版本，是4.11，结果尝试使用发现总是报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing这样的错误，上网查了一下，一般的解决方案是，换一个低一点的版本就好了。还有人说，是缺少hamcrest的包。去官网看了一下，如下发现：
[Zookeeper学习笔记之二]Zookeeper部署脚本 bit1129 zookeeper
Zookeeper伪分布式安装脚本(此脚本在一台机器上创建Zookeeper三个进程，即创建具有三个节点的Zookeeper集群。这个脚本和zookeeper的tar包放在同一个目录下，脚本中指定的名字是zookeeper的3.4.6版本，需要根据实际情况修改)： #!/bin/bash #!!!Change the name!!! #The zookeepe
【Spark八十】Spark RDD API二 bit1129 spark
coGroup package spark.examples.rddapi import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.SparkContext._ object CoGroupTest_05 { def main(args: Array[String]) { v
Linux中编译apache服务器modules文件夹缺少模块(.so)的问题 ronin47 modules
在modules目录中只有httpd.exp，那些so文件呢？我尝试在fedora core 3中安装apache 2. 当我解压了apache 2.0.54后使用configure工具并且加入了 --enable-so 或者 --enable-modules=so (两个我都试过了) 去make并且make install了。我希望在/apache2/modules/目录里有各种模块，
Java基础-克隆 BrokenDreams java基础
Java中怎么拷贝一个对象呢？可以通过调用这个对象类型的构造器构造一个新对象，然后将要拷贝对象的属性设置到新对象里面。Java中也有另一种不通过构造器来拷贝对象的方式，这种方式称为克隆。 Java提供了java.lang.
读《研磨设计模式》-代码笔记-适配器模式-Adapter bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ package design.pattern; /* * 适配器模式解决的主要问题是，现有的方法接口与客户要求的方法接口不一致 * 可以这样想，我们要写这样一个类（Adapter）: * 1.这个类要符合客户的要求 ---> 那显然要
HDR图像PS教程集锦&心得 cherishLC PS
HDR是指高动态范围的图像，主要原理为提高图像的局部对比度。软件有photomatix和nik hdr efex。一、教程叶明在知乎上的回答： http://www.zhihu.com/question/27418267/answer/37317792 大意是修完后直方图最好是等值直方图，方法是HDR软件调一遍，再结合不透明度和蒙版细调。二、心得 1、去除阴影部分的
maven-3.3.3 mvn archetype 列表 crabdave ArcheType
maven-3.3.3 mvn archetype 列表可以参考最新的：http://repo1.maven.org/maven2/archetype-catalog.xml [INFO] Scanning for projects... [INFO]
linux shell 中文件编码查看及转换方法 daizj shell 中文乱码 vim 文件编码
一、查看文件编码。在打开文件的时候输入:set fileencoding 即可显示文件编码格式。二、文件编码转换 1、在Vim中直接进行转换文件编码,比如将一个文件转换成utf-8格式 &
MySQL--binlog日志恢复数据 dcj3sjt126com binlog
恢复数据的重要命令如下 mysql> flush logs; 默认的日志是mysql-bin.000001，现在刷新了重新开启一个就多了一个mysql-bin.000002
数据库中数据表数据迁移方法 dcj3sjt126com sql
刚开始想想好像挺麻烦的，后来找到一种方法了，就SQL中的 INSERT 语句，不过内容是现从另外的表中查出来的，其实就是 MySQL中INSERT INTO SELECT的使用下面看看如何使用语法：MySQL中INSERT INTO SELECT的使用 1. 语法介绍有三张表a、b、c，现在需要从表b
Java反转字符串 dyy_gusi java 反转字符串
前几天看见一篇文章，说使用Java能用几种方式反转一个字符串。首先要明白什么叫反转字符串，就是将一个字符串到过来啦，比如"倒过来念的是小狗"反转过来就是”狗小是的念来过倒“。接下来就把自己能想到的所有方式记录下来了。 1、第一个念头就是直接使用String类的反转方法，对不起，这样是不行的，因为Stri
UI设计中我们为什么需要设计动效 gcq511120594 UI linux
随着国际大品牌苹果和谷歌的引领，最近越来越多的国内公司开始关注动效设计了，越来越多的团队已经意识到动效在产品用户体验中的重要性了，更多的UI设计师们也开始投身动效设计领域。但是说到底，我们到底为什么需要动效设计？或者说我们到底需要什么样的动效？做动效设计也有段时间了，于是尝试用一些案例，从产品本身出发来说说我所思考的动效设计。一、加强体验舒适度嗯，就是让用户更加爽更加爽的用
JBOSS服务部署端口冲突问题 HogwartsRow java 应用服务器 jboss server EJB3
服务端口冲突问题的解决方法，一般修改如下三个文件中的部分端口就可以了。 1、jboss5/server/default/conf/bindingservice.beans/META-INF/bindings-jboss-beans.xml 2、./server/default/deploy/jbossweb.sar/server.xml 3、.
第三章 Redis/SSDB+Twemproxy安装与使用 jinnianshilongnian ssdb reids twemproxy
目前对于互联网公司不使用Redis的很少，Redis不仅仅可以作为key-value缓存，而且提供了丰富的数据结果如set、list、map等，可以实现很多复杂的功能；但是Redis本身主要用作内存缓存，不适合做持久化存储，因此目前有如SSDB、ARDB等，还有如京东的JIMDB，它们都支持Redis协议，可以支持Redis客户端直接访问；而这些持久化存储大多数使用了如LevelDB、RocksD
ZooKeeper原理及使用 liyonghui160com
ZooKeeper是Hadoop Ecosystem中非常重要的组件，它的主要功能是为分布式系统提供一致性协调(Coordination)服务，与之对应的Google的类似服务叫Chubby。今天这篇文章分为三个部分来介绍ZooKeeper，第一部分介绍ZooKeeper的基本原理，第二部分介绍ZooKeeper
程序员解决问题的60个策略 pda158 框架工作单元测试
根本的指导方针 1. 首先写代码的时候最好不要有缺陷。最好的修复方法就是让 bug 胎死腹中。良好的单元测试强制数据库约束使用输入验证框架避免未实现的“else”条件在应用到主程序之前知道如何在孤立的情况下使用日志 2. print 语句。往往额外输出个一两行将有助于隔离问题。 3. 切换至详细的日志记录。详细的日
Create the Google Play Account sillycat Google
Create the Google Play Account Having a Google account, pay 25$, then you get your google developer account. References: http://developer.android.com/distribute/googleplay/start.html https://p
JSP三大指令 vikingwei jsp
JSP三大指令一个jsp页面中，可以有0~N个指令的定义！ 1. page --> 最复杂：<%@page language="java" info="xxx"...%> * pageEncoding和contentType： > pageEncoding：它