readzw

【转】企业级搜索引擎Solr 第三章索引数据

转载自：http://quweiprotoss.blog.163.com/blog/static/4088288320128583524434/

企业级搜索引擎Solr 第三章索引数据（Indexing Data）[1]

Index Data

Author: David Smiley Eric Pugh

译者：Koala++ / 屈伟

在这一章中我们将了解如何将数据传入Solr。这个传入的过程称之为索引，尽管中间还包含了导入的过程。本章的结构如下：

l 与Solr交互。

l 以Solr的Update-XML格式发送数据。

l 提交，优化，回滚和删除。

l 以CSV 格式发送数据。

l 通过Solr的DataImportHandler直接读数据库和XML。

l 通过Solr的ExtractingRequestHandler从富文档中抽取数据。

l 用UpdateRequestProcessors进行文档后处理（post-processing）。

你会在第九章看到一些相关的内容，第九章中有语言绑定，框架集成，包括爬虫。大都用Solr的Update-XML格式。

Communicating With Solr

Solr提供了很多导入数据的方式。在本节中，我们将先介绍一些方法，给出一些交互的例子。一些特定格式，比如Solr的Update-XML的细节随后介绍。

Direct HTTP or a convenient client API

应用与Solr通过HTTP方式交互，你可以选择直接用你喜欢的HTTP客户端API，也可以使用与Solr集成的API，比如SolrJ或是Sunspot，它们将处理与HTTP交互的细节。这些API将在第九章介绍。HTTP Solr交互并不意味着需要索引的数据一定要通过HTTP传输，你马上会学习到如何告诉Solr去取数据。

Push data to Solr or have Solr pull it

尽管一个应用通过HTTP方式与Solr通信，并不意味着它需要将文档通过HTTP发送给Solr。Solr支持一种它称为remote streaming的方式，这种方式需要提供给它一个URL，它可以是一个HTTP URL，但一般它是一个基于文件系统的URL，基于文件系统的URL，可以在数据已经在Solr所在的本机或是在网络驱动中时可以使用。这种方式减少了HTTP方式的代价。另一种方式是让Solr通过DataImportHandler去拉取数据，这种方式可以从数据库和其它来源拉取数据。DIH提供了一个可扩展的框架，它可以扩展以适应自定义的数据源。

Data formats

下面是多种在Solr用来建索引的格式：

l Solr的Update-XML：Solr接受一种通过XML格式表达的Solr特定的格式。它也有删除，优化和提交的命令。

? 其它XML：任意的XML带上一个XSLT文件给Solr，Solr会将XML转化成Update-XML格式以进行后面的处理。

? Solr的Update-JSON：Solr的Update-XML的一个JavaScript Object Notation变形。更多细节见http://wiki.apache.org/solr/UpdateJSON。

? Java-Bin：Solr的Update-XML的一个高效的二进制变形。正式地只有SolrJ客户端API支持，但也有第三方的Ruby支持。

? CSV：逗号（或其它符号）分隔符的格式。

? 富文档：大多数常见的文件格式，比如PDF，XLS，DOC，PPT。文本和元数据都可以从这些格式中抽取出来，并放入Solr的域中。这可以通过Solr Cell Contrib模式完成。

我们将通过把MusicBrainz的数据以XML，CSV和数据库的方式导入Solr来展示Solr的能力。其它的例子将展示通过DIH将爬取的文件导入，和通过Solr Cell导入。但是通常来说一个应用只会用一种格式来导入。

在我们介绍这些方法之前，我们先介绍一下cURL和remote streaming，这两个是基本知识。

HTTP POSTing options to Solr

Solr通过HTTP POST接收命令，还可以接收文档数据。

发送HTTP POST的方法之一是使用UNIX命令行工具curl，我们将用它来介绍例子。另一个跨平台的工具是Solr中post.jar，它在Solr的example/exampledocs目录下。要得到一些使用信息，用下面的命令运行：

>> java –jar example/exampledocs/post.jar -help

有几种让Solr索引数据的方式，并所有的方式都是通过HTTP POST：

l 通过POST方式发送数据。curl的--data-binary参数可以做到这点，并会带一个与格式相符的content-type头。

l 发送一些类似一个HTML格式的键值对。Curl使用-F来进行。如果你不是在数据库中得到数据，你可以用下面的方式来进行：

? 将数据放在stream.body参数中。如果它比较小，也许小于1M，这种方式没有问题。大小的限制是在solrconfig.xml的multipartUpdateLimitInKB中，默认是2GB。如果你想提高限制，你应该再考虑一下你的方式。

? 用stream.file参数引用Solr服务器上的一个本地文件，或是通过stream.url参数通过一个URL去取数据。这些方式Solr称之为remote streaming。

下面是第一种选择的例子。我们假设有一个artists.xml在当前目录。我们可以用下面的命令Post这个文件。

>> curl http://localhost:8983/solr/mbartists/update -H 'Contenttype:text/xml; charset=utf-8' --data-binary @artists.xml

如果它成功了，你会得到下面的输出：

0128

要用stream.body来完成上例，你可以写：

curl http://localhost:8983/solr/mbartists/update -F [email protected]

在两个例子中，@符号指示curl从文件中取得数据。如果XML比较短，你可以直接在命令行中写：

curl http://localhost:8983/solr/mbartists/update -F stream.body=' '

注意在值中有一个空格，这是有意为之的。在本例中，curl对待@和<有特殊含义。在本例中应该用form-string而不是-F。但是我懒得打字了。

Remote streaming

在前面的例子中，我们通过HTTP方式将数据发给Solr建索引。另外，我们可以通过POST给Solr一个数据的位置让它去取数据，数据的位置可以是文件路径也可以是HTTP的URL。

像前面一样，如果Solr没有处理完请求，那么是不会返回响应的。如果文件大小合适或是它已经在某一已知的URL中了，那么你会发现remote streaming更快并且/或者更方便。

下面是一个Solr访问一个本地文件的例子：

curl http://localhost:8983/solr/mbartists/update -F stream.file=/tmp/artists.xml

如果要使用URL，那么参数就改为stream.url，并且将值指定为一个URL。我们现在传递的键值对参数，而不是真正的数据。

Solr's Update-XML format

你可以通过使用一个XML格式化的方式，来提供建索引的文档，告诉Solr提交改变，来优化索引，删除文档。下面是一个示例XML文件，你可以通过HTTP POST给Solr增加（或替换）两个文档：

5432a

2007-12-31T09:40:00Z

myid

2007-12-31T09:40:00Z

其中overwirte属性默认为true保证你在schema中指定为unique的域的值唯一，如果你添加的另一个文档在unique的域中有相同的值，那么这个文档会替换前一个文档。你不会得到一个错误。

其中boost值会影响匹配文档时的得分。在文档或是域级别可选提供一个boost值。默认值是1.0，即无boost。技术上讲，不应该对文档进行boost，只应该对域进行boost。域最终的boost值是文档的boost值乘以域的boost值。

Deleting documents

你可以通过unique域删除一个文档。下面的例子是我们删除两个文档：

Artist:11604Artist:11603

为更灵活地删除文档，你可以用Lucene/Solr查询删除文档：

timestamp:[* TO NOW-12HOUR]

内容中的delete标签可以有多个你想删除的id和query标签，这样一次可以批量删除多个文档。

查询语法会在第四章讨论。我简单解释上面的例子，我们假设我们的文档中有一个时间戳域，它是被索引的，并且你会每天进行一次数据全量重建。在一次全量数据更新后，就要删除以前的老数据。上面的查询会删除所有不在12小时以前建立索引的文档。12小时是随意选择一个值，但它需要小于24个小时并且大于加载所有数据的耗时。

Commit, optimize, and rollback

发送给Solr的数据不能立即搜索到，删除的文档也不会立即失效。像数据库一样，改动需要先提交（commit）。最简单的方式是在Solr的更新URL后加上commit=true请求参数。这个请求可以是包含更新数据的请求也可以是一个空的请求。比如，你可以通过访问URL产生一个提交到我们的mbreleases索引：http://localhost:8983/solr/mbreleases/update?commit=true。你也可以通过下面的XML语法提交，你只需要将它发送给Solr：

你需要知道关于Solr提交的三个重要的点：

l 提交是缓慢的。速度依赖于索引的大小，Solr的auto-warming配置，和Solr的Cache状态的提交，一次提交会花费一些时间。通常，它需要几秒钟，但在极端情况下，它会花费几分钟。要了解如何减少提交时间，可以参考第十章。

l 没有事务隔离：这意味着如果多个Solr客户端提交修改，并且提交的时间重叠，那么就可能一个客户端的在发出提交命令之前，一部分修改已经提交了。这种情况也适用于回滚（rollback）。如果你的应用中存在这个问题，你应该考虑只使用一个客户端处理Solr的更新。

l 同时提交是可以避免的，特别是多个客户端的情况。这个问题其实属于同时query warming，query warming是影响提交时间的主要因素。如果有太多同时进行的warming Solr会使用大量的资源，甚至会产生一个错误，但是提交最后还是会正常提交。

如果你批量载入数据，在最后进行一次提交，这次提交你倒不用担心。但如果Solr由多个独立的客户端异步更新数据，提交可能很频繁也可能重复。为了解决这个问题，Solr有两个相似的特性，autoCommit和commitWithin。autoCommit是solrconfig.xml中一小段注释掉的配置，配置后Solr会在达到文档数阈值或是时间阈值（最老未提交文档的时间）后自动提交。这样，你的应用不用再发送提交，Solr会自己来处理提交。commitWithin是一个类似的时间阈值选项。这个选项可以由客户端提交的更新信息设置，信息是放到XML更新数据的元素或是元素中，也可以通过设置请求的参数来设置。它会保证每隔多少毫秒进行一次提交。下面是30秒进行一次提交的例子：

Lucene的索引内部是由一个或是多个Segments组成的。当索引文档的缓冲区写入磁盘时，它会创建一个新的Segment。删除信息是在另一个文件中，但它们也要写入文件。有时，当一个新Segment写入时，Lucene会将多个Segment合并。当Lucene只有一个Segment时，它处在已优化（optimized）状态。Segment个数越多，则查询的效率就越低下。当然，优化一个索引是需要代价的，你的索引越大，那么优化花费的时间就越长。最后优化命令的语法与提交是相同的。如果你想在URL中使用，你可以用http://localhost:8983/solr/mbreleases/update?optimize=true。对于XML格式，可以发送：

建议在比如批量载入数据时，并且/或是如果有零星的更新时，可以在一天内比较空闲的时间显式地进行索引优化。后面章节会介绍如果优化时间过长的情况下，对多个索引进行优化。

提交和优化都有两个布尔选项，它们默认设置为true：

如果你把它们设置为false，那么提交和优化命令会立即返回，即使操作并没有真正完成。所以如果你写一个脚本进行提交，并将上面两个选项设置为false，再进行查询。你会发现查询结果并没有反应出改变。通过等待数据入写磁盘（waitFlush）和等待新的索引可以反应数据改变（waitSearcher），则可以避免上述情况。

最后还有一个索引命令回滚（rollback）。它可以将未提交的改变回滚。Solr的回滚命令可以通过URL参数：http://localhost:8983/solr/mbreleases/update?rollback=true或是XML：

Sending CSV formatted data to Solr

如果你已经有一个CSV格式的数据或是对你来说得到CSV文件比XML或是JSON格式要容易，那么你可以选择CSV方式导入数据。Solr的CSV支持比较灵活。但你不能指定一个索引时的boost，但是它也不常用。

要得到MusicBrainz的Track数据，可以从一个本地的PostgreSQL数据中用下面命令导出数据：

psql -U postgres -d musicbrainz_db -c "COPY (\

select 'Track:' || t.id as id, 'Track' as type, t.name as t_name,

t.length/1000 as t_duration, a.id as t_a_id, a.name as t_a_name,

albumjoin.sequence as t_num, r.id as t_r_id, r.name as t_r_name, array_

to_string(r.attributes,' ') as t_r_attributes, albummeta.tracks as t_r_

tracks \

from (track t inner join albumjoin on t.id = albumjoin.track \

inner join album r on albumjoin.album = r.id left join albummeta on

albumjoin.album = albummeta.id) inner join artist a on t.artist = a.id \

) to '/tmp/mb_tracks.csv' CSV HEADER"

它大约会产生7百万行数据像下面一样的数据（前三行）：

id,type,t_name,t_duration,t_a_id,t_a_name,t_num,t_r_id,t_r_name,t_r_

attributes,t_r_tracks

Track:183326,Track,In the Arms of Sleep,254,11650,The Smashing

Pumpkins,4,22471,Mellon Collie and the Infinite Sadness (disc 2: Twilight

to Starlight),0 1 100,14

Track:183328,Track,Tales of a Scorched Earth,228,11650,The Smashing

Pumpkins,6,22471,Mellon Collie and the Infinite Sadness (disc 2: Twilight

to Starlight),0 1 100,14

…

代码和CSV文件都在本书提供的补充资料中。要将CSV文件导入Solr，运行下面的命令：

curl http://localhost:8983/solr/update/csv -F f.t_r_attributes.split=true

-F f.t_r_attributes.separator=' ' -F overwrite=false -F commit=true -F

stream.file=/tmp/mb_tracks.csv

CSV选项通过-F来指定。

Configuration options

下面是对每个配置选项参数的解释。对于前面的MusicBrainz CSV文件例子，命令中只设置了多值域的分隔符t_r_attributes，并为了效率而禁用了唯一键（unique key）处理，其它的都采用默认值。

l separator：用于分隔域的分隔符。默认为逗号。

l header：如果设置为true，则文件的第一行是域名。

l fieldnames：如果第一行没有包含域名，那么你需要使用它来指定域名。用逗号分隔它们。如果某一列没有指定域名，这一列的值会被忽略。

l skip：指定不用导入的域。

l skipLines，指定要忽略输入文件中多少行。默认为0.

l trim：如果为true，则在最后一步移除域值开始和结尾的空格，即使是那些被引号引起来的空格。默认为false。Solr已经进行了初步的去空白字符了，但引号引起的空格不会被去除。

l encapsulator：这个符号是用于将一个域的值引起来，因为一个域中的值可能包括域分隔符，引起来后解析就不会错误地将域值解析成两个域值。它默认是双引号，除非它被转义了，比如：

11604, foo, "The ""second"" word is quoted.", bar

l escapse：如果输入文本中有这个字符，那么下一个字符就会被转义字符本身，即它不会被转义的字符不会被认为是特殊字符，比如：

11604, foo, The second\, word is followed by a comma., bar

l keepEmpty：指定是否空（0长度）域值是否应该被索引或是忽略。默认为false。

l overwirte：它是指是否有相同ID的文档是否应该覆盖另一个文档，ID是由Schema中指定的唯一键。它默认为true。如果你对确定你没有重复的ID，可以设置为false可以提高效率。

l split：它用于有多值的域的切分。指定多值间的分隔符。

l map：它可以将域值替换为另一个值，也可以移除某些域值。替换前和替换后的值用冒号分隔，你可以在MusicBrainz Track数据上用这一特性，你可将数值替换为一些更有意义的值。下面是一个例子：

-F keepEmpty=false -F f.t_r_attributes.map=0:

-F f.t_r_attributes.map=1:Album -F f.t_r_attributes.map=2:Single

这会使0被移除，因为它是无用的数据，几乎所有的Track都有这个值。我们将1映射为Album，2映射为Single。

2022-03-16 深巷传媒坤哥
需要时间经验积累才能成为一名合格导演一个胸怀抱负的导演很长时间都要将技能（摄影、剪辑、音效、制片管理、编剧）花费在商业需求上。甚至要拍摄会议短片和短视频等。踏踏实实地按照高标准完成这些片子，你一定也会受益匪浅。企业宣传片广告片是拍摄故事片影视片前绝好的锻炼机会，因为广告需要大量财力和精力的投入才能造就独具一格的最终影像。你从中获得的超群技术和丰富的制片知识自然能在故事片中体现，当然，你可能要放弃商
某银行基于容器负载均衡信创替代，实现完整全自动对外服务暴露的流水线实践
一、背景介绍外部硬件负载均衡作为容器业务统一入口的架构模式已在我行运行3年之久，通过长时间的容器云平台使用经验与负载均衡运维经验积累，在我行容器云环境形成一套特有的负载均衡适配模型，现部署模式下实现了应用上线人员以自服务的形式将容器服务对外暴露。根据2022年1月银保监会办发[2022]2号中关于科技能力建设的指导意见，坚持关键技术自主可控原则，降低外部依赖、避免单一依赖。为配合推进指导意见，同时
遗落的光阴古诗风光
第七篇，小明的学生时代。可能是因为每一个五金店老板都是一个技术控，当然所谓的技术也只是限于敲，打，点，焊，没有书本上的理论完全靠个人的经验积累。小明他们把想做的东西和老板描述了一下，小涛怕说的不够明白，还专门解释了一下，当然，老板根本就不在意，也没有听，他几十年的工作经验告诉他，这东西太简单没有什么好考虑的和思考的，只要材料用的还行，稍微修一下，焊一下就可以了，关键是几个初中拿它主要是娱乐为主，所
探讨敏捷开发方法论的优点、核心机制以及应用场景，以帮助企业实现“敏捷转型”。 AI天才研究院 Python实战自然语言处理人工智能语言模型编程实践开发语言架构设计
作者：禅与计算机程序设计艺术1.简介Agile方法论是一种敏捷开发方法，它鼓励适应需求、快速响应变化，并将其分解成可管理的迭代周期。这种方法可以促进业务流程的自动化和标准化，从而减少运营支出，提升速度和一致性。因此，它已经成为企业成功的关键工具。但目前，Agile方法论在中国发展还处于起步阶段。例如，企业通常不会采用敏捷开发方法，原因之一就是缺乏经验积累和资源投入。另一方面，由于外部环境的复杂性和
CVTE Android面试题及参考答案（100道题）大模型大数据攻城狮 android 大厂面试 android面试移动开发安卓面试大厂春招大厂校招
目录插件化组件化合并相似接口抽象通用方法使用接口代理引入设计模式编写源代码资源文件准备编译资源文件编译源代码生成dex文件打包APK文件技术能力提升项目经验积累职业发展知识分享与团队协作建立良好的沟通机制明确团队目标和职责尊重和理解团队成员采用合适的解决方法建立团队凝聚力性能优化兼容性问题帧动画属性动画转场动画动画集合基于物理的动画内存管理优化代码优化资源管理优化多线程优化虚拟机参数调整内存优化性
春招Java上岸指南：从0到1的备战全攻略
个人主页:java之路-CSDN博客(期待您的关注)目录春招前的自我评估与目标设定核心知识巩固与提升Java基础知识数据结构与算法多线程与并发编程数据库知识框架学习项目经验积累与优化回顾现有项目参与开源项目打造个人项目面试准备与技巧提升简历撰写常见面试题解析模拟面试面试技巧与注意事项春招实战与心态调整春招信息收集投递策略面试实战应对心态调整春招前的自我评估与目标设定在开始春招备战之前，首先要对自己
Stack overflow 伸头看云朵 Stack overflow
本文来源：腾讯元宝StackOverflow-WhereDevelopersLearn,Share,&BuildCareers开发者学习，分享通过学习、工作和经验积累等方式，逐步建立和发展自己的职业生涯。Findanswerstoyourtechnicalquestionsandhelpothersanswertheirs.发现你的技术问题的答案，帮助别人，回答他们的问题。cookies：（浏览网
职能型组织、项目型组织、矩阵型组织的介绍及优缺点比较 dushky PMP 项目管理
PMP考试中，经常会涉及到职能型组织、项目型组织、矩阵型组织的比较，下面简单介绍下职能型组织、项目型组织、矩阵型组织及其优缺点：一、职能型组织定义：以专业职能划分部门（如财务、技术、市场等），员工向职能经理汇报，项目经理多为兼职或仅有协调职责。优点：技术支持强：部门内专业资源集中，便于技术交流与经验积累。职责明确：员工仅向一个上级汇报，晋升路径清晰。稳定性高：成员有“归属感”，适合重复性工作为主的
HarmonyOS官网上线“稳定性”专栏助力更稳定流畅的鸿蒙原生应用开发 harmonyos
鸿蒙应用稳定性是影响用户体验的重要因素之一，常见的稳定性问题包括：崩溃、应用Freeze、内存泄漏、内存越界等。这类问题的定界与定位往往需要丰富的经验积累和技术沉淀，定位过程通常耗时耗力。最近，在鸿蒙开发者官网的最佳实践中上线了稳定性专栏，将DevEcoStudio问题定位工具与稳定性实际场景相结合，帮助开发者用好工具的同时，降低稳定性问题定位的难度。下面以CppCrash的问题为例，介绍一下如何
项目风险分析报告怎么写项目风险评估
厘清项目背景、识别关键风险源、评估发生概率与影响、制定对应应对方案，是写好项目风险分析报告的四大核心步骤。看似简单的条目，却在实际操作中蕴含着深厚的方法论与经验积累。我个人特别强调“识别关键风险源”，因为若定位不准、范围过宽或过窄，都可能导致资源浪费或风险漏判。掌握准确的风险范围能帮助我们在后续的评估和应对阶段精准发力，避免将过多精力投入到不具备实际威胁的环节中。“识别关键风险源”的实质是通过系统
Vue中Scoped的原理及深度解析喜欢代码的新之助 vue.js 前端 javascript
Vue中Scoped的原理及深度解析前言回想起几年前初入职场时，面对面试官的提问“Vue中Scoped的原理是什么？”时，我的回答虽然勉强过关，但内心却充满了不确定。那时，我对知识的理解还停留在表面，只能依靠死记硬背。如今，经过几年的开发经验积累，再次审视这个问题，我有了更深入的理解。CSS常见模块化方案在前端开发中，CSS模块化是一个重要的话题。常见的CSS模块化方案包括：BEM方案：通过.bl
大模型企业落地：汽车行业知识大模型应用 AGI大模型学习 python 人工智能 prompt 机器学习深度学习学习语言模型
前言在当今这个信息爆炸的时代，知识管理成为了企业提升核心竞争力的关键。特别是在汽车行业这样一个技术密集、信息量庞大的领域，如何高效管理和利用知识资源，成为了每个企业必须面对的挑战。汽车行业的知识管理痛点汽车行业作为现代工业的集大成者，其知识体系庞杂而精细。从设计知识到生产知识，从营销知识到客户服务知识，每一个环节都依赖于大量的专业信息和经验积累。然而，传统的知识管理方式面临着诸多挑战：知识分散：知
当你给大模型一段输入之后，它是怎么得到答案的牛不才 000-大模型 chatgpt AIGC 文心一言 gpt llama agi prompt
1.先把问题“嚼碎”（输入处理）比如你问：“太阳为什么东升西落？”切分知识点：模型会把这句话拆解成词汇单元（比如：“太阳”“为什么”“东”“升”“西”“落”），就像你背单词时先拆解句子。2.动用毕生所学（模型“回想”知识）大模型并不是真有一个“数据库”，而是依靠训练时海量的知识联结：（类似人类的经验积累）内在规律：从上学过的教材、论文、百科中记住过“地球自转导致太阳视运动”这个常识。猜测套路：统计
Spring Boot 接口防抖 + AOP注解 + 自定义异常处理 (防重复提交)的实现方案 cherry5230 Spring java spring boot 后端 java redis 分布式
前言在开发后端Java业务系统，包括各种管理后台和小程序等。在这些项目中，我设计过单/多租户体系系统，对接过许多开放平台，也搞过消息中心这类较为复杂的应用，但幸运的是，我至今还没有遇到过线上系统由于代码崩溃导致资损的情况。这其中的原因有三点：一是业务系统本身并不复杂；二是我一直遵循某大厂代码规约，在开发过程中尽可能按规约编写代码；三是经过多年的开发经验积累，我成为了一名熟练工，掌握了一些实用的技巧
拥抱AI，赋能药学：人工智能在药学领域的应用与展望明哲AI AI助力科研人工智能大模型 AI药学数智药学药师
拥抱AI，赋能药学：人工智能在药学领域的应用与展望医药行业正在经历一场静悄悄的革命，而这场革命的引擎正是近年来炙手可热的人工智能（AI）。如果说，过去药学实践更多依赖于药剂师的经验积累，那么未来，AI将引领药学走向“循证精准”的新时代。本文将深入解读《AREVIEWON“AIINTEGRATIONINPHARMACYPRACTICE”》这篇综述，抽丝剥茧地分析AI如何重塑药学实践的各个环节，探讨其
Deep learning for Computer Vision with Python（1）从零开始入门计算机视觉 Hazelyu27 计算机视觉大数据计算机视觉深度学习
本书的内容分成三个部分：1.初始阶段初始阶段学习：机器学习、神经网络、卷积神经网络、建立数据集。2.实践阶段实践阶段：深入学习深度学习，理解先进技术，发现最佳实践方式。3.图像网络阶段完成计算机视觉领域的经验积累。使用大规模数据集和真实图片案例作为数据集，包括年龄和性别预测，交通工具模型识别。本书提供了对应网站：http://pyimg.co/fnkxk本文介绍前两章内容：基本介绍和深度学习简介。
微积分在神经架构搜索中的应用光剑书架上的书深度强化学习原理与实战元学习原理与实战计算科学神经计算深度学习神经网络大数据人工智能大型语言模型 AI AGI LLM Java Python 架构设计 Agent RPA
微积分在神经架构搜索中的应用1.背景介绍随着深度学习技术的飞速发展,神经网络模型的复杂度也在不断提高,从最初的简单全连接网络,到如今的卷积神经网络、循环神经网络、注意力机制等各种复杂的神经网络架构。这些先进的神经网络架构大大提高了深度学习模型的性能,但同时也给神经网络的设计和调优带来了巨大的挑战。手工设计神经网络架构通常需要大量的专业知识和经验积累,过程繁琐复杂,难以推广。为了解决这一问题,神经架
关于写作和我的职业方向夏九久呢
写作能力重要吗？这一点毋庸置疑，我也很确定。不论是工作中与同事、上级沟通，还是生活中与家人、朋友交流。我们无时无刻不在表达。因此，表达内容的准确性，表达方式的合理性都是我们需要考虑的东西。因为一张嘴引发的坏事，这种案例不胜枚举。我们自己也曾有经历过。所以说，写作能力重要。但同时，写作能力又不是最重要的。一个人的核心竞争力，是其在一个领域内的经验积累，技能、能力的掌握数量和质量。如果他是在媒体、或者
网络安全售前入门09安全服务——安全加固服务努力工作的网安人安全服务安全 web安全 oracle
目录1.服务概述2.流程及工具2.1服务流程2.2服务工具3.服务内容4.服务方式5.风险规避措施6.服务输出1.服务概述安全加固服务是参照风险评估、等保测评、安全检查等工作的结果，基于科学的安全思维方式、长期的安全服务经验积累、对行业的深刻理解、处理安全事件的最佳实践，为客户提供完善的安全加固方案，并在客户侧反馈完成加固后，提供二次评估服务，从而帮助客户达到修补信息系统脆弱性，提高系统安全性，满
焦点中级班学习肖真坚持分享第18天肖真_6291
今晚w老师组织焦点活动实操展示。勤奋的老师带着问题向w老师请教。焦点方法关注正向，向重要他人借力，挖掘成功经验，评量问句等其他问句探究，一小步行动，反馈总结。完美的咨询，精彩的语言，贴心的服务，咨询师多次约练，成功经验积累，指导我们学习。感谢W老师，感谢团队合作。
2021年1月17日读书笔记龙套哥萨克海龙
今日阅读1小时，总计1479小时，第1424日阅读《康德纯粹理性批判句读》第2版序言部分与数学比起来，自然科学显然更加受制于后天经验的材料，所以它的发展要缓慢得多。这里呈现出一个阶梯：逻辑学、数学、自然科学，越来越不能够一劳永逸地解决问题，也越来越有可能受到修正和增补。自然科学更是一门经验积累式的科学，它的原则直到近代的培根才开始确立起来，这就是经验归纳法。康德的认识论中虽然有先验唯心论的理性主义
深度学习如何入门？科学的N次方深度学习
入门深度学习需要系统性的学习和实践经验积累，以下是一份详细的入门指南，包含了关键的学习步骤和资源：预备知识：•编程基础：熟悉Python编程语言，它是深度学习领域最常用的编程语言。确保掌握变量、条件语句、循环、函数等基本概念，并学习如何使用Python处理数据和文件操作。•数学基础：理解线性代数（矩阵运算、向量空间等）、微积分（导数、梯度求解等）、概率论与统计学（期望、方差、概率分布、最大似然估计
机器学习是什么三花学编程机器学习
机器学习是什么？机器学习，这一词汇在当今的科技领域中可谓炙手可热，其影响深远，不仅改变了科学研究的方式，也推动了社会的快速发展。那么，机器学习到底是什么呢？机器学习，顾名思义，是机器（通常指计算机）进行学习的过程。这个过程模仿了人类的学习方式，通过经验积累，不断优化自身性能，最终能够在没有人类直接干预的情况下，进行决策或预测。简单来说，机器学习就是让计算机具备从数据中学习并自动改进的能力。机器学习
领袖是怎么炼成的？如何一步一步加强领导能力和管理能力？给个路线小黄人软件学习生存能力专业能力
"领袖是怎么炼成的"这个问题可以从多个方面进行解析，包括领导力的发展、个人品质、经验积累、以及社会环境等因素。以下是一些普遍认为对培养领袖至关重要的因素：个人品质与特质：领袖往往具有一些共同的品质，如自信、责任心、坚韧不拔、正直和激情。这些品质有的是天生的，有的则是通过后天的努力培养出来的。教育与学习：良好的教育背景为领袖提供了必要的知识和技能，使其能够更好地理解世界和面对挑战。持续的学习和自我提
空间观念——10大核心概念之三感恩遇见0331
《数学课程标准（2011年版）》从四个方面对空间观念进行刻画描述：空间观念主要是指根据物体特征抽象出几何图形，根据几何图形想象出所描述的实际物体；想象出物体的方位和相互之间的位置关系；描述物体的运动和变化；依据语言的描述画出图形等。空间观念贯穿在图形与几何学习的全过程中，无论是图形的认识，图形的运动，图形与坐标，都承载着发展学生空间观念的任务。空间观念的培养是一个长期的经验积累的过程，因此对教学的
财报喜水之羊
最近得闲研究财报，发现数字游戏里隐藏了很多鲜为人知的内容，值得玩味。股票投资，包括盘面理解，财务状况结构以及资金流动状况分析，每个部分都需要大量的经验积累，才有可能取得成功。
新入职场，你不能不知道的6条军规醉月光
小雅初入职场，与部门赵姐一见如故。在一次共进午餐的时候，赵姐忽然压低声音，以一种望女成凤的神情对她说：姐姐我比你早几年进入职场，虽然没有取得很大的成绩，但血泪经验积累了不少，今儿送你几条儿，价值百万，一般人我可不告诉他。01不要离上司太远你知道职场上最危险的事情是什么吗？是老板不知道你干了什么！所以，你要多主动找上司汇报工作。不要只闷头干活儿，不敢或者不想和上司沟通。那些看见上司躲着走的人，最后往
Linux 问题故障定位，看这一篇就够了圆月弯刀丶 Linux系统 Linux 问题故障定位
1.背景有时候会遇到一些疑难杂症，并且监控插件并不能一眼立马发现问题的根源。这时候就需要登录服务器进一步深入分析问题的根源。那么分析问题需要有一定的技术经验积累，并且有些问题涉及到的领域非常广，才能定位到问题。所以，分析问题和踩坑是非常锻炼一个人的成长和提升自我能力。如果我们有一套好的分析工具，那将是事半功倍，能够帮助大家快速定位问题，节省大家很多时间做更深入的事情。2.说明本篇文章主要介绍各种问
深夜有感黑灯瞎火s
不知是因刚唱了几句小歌、运动了几会的缘故，在那么深的夜，我的意识却那么清醒，便不由自主地想到了许多。一直，我好像都不太自信，应是受早年影响的缘故，不知不觉中收到固式思维的影响，把自己困在了小天地里面，今天突然悟到了一直不自信的原因。自己一直刻意的表演，且是一种无意识的，自己想来也不知为何的那一种，应是潜意识中的由经验积累的，受看到的视频、文章、小说的影响，在不知不觉中，形成了自己偏执的思维价值体系
羊皮卷（三）博学的毛婆婆
向你挑战昨天我们分析了成功的人，都具有积极的心态，正确的思考，自我控制、合作精神以及经验积累。今天学习《向你挑战》这本书，作者廉.丹佛，是伟大的演说家、作者和成功学导师，他只不过想证实：在这个世界上的每一个人都有自己特殊的天分，都可以通过自身的努力取得成功。而成功的第1步就是行动，敢于行动，就已经向成功迈出了一大步。很多人夜里辗转反侧，想着明天我要努力学习，我要积极健身，我要奋发向上，……等到第2
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc

【转】企业级搜索引擎Solr 第三章 索引数据

转载自：http://quweiprotoss.blog.163.com/blog/static/4088288320128583524434/企业级搜索引擎Solr 第三章 索引数据（Indexing Data）[1]