joliny

中文搜索引擎技术揭密：网络蜘蛛

随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为学者，会把有代表性的搜索引擎作为研究对象……

而作为一个网站的经营者，其更关心的或许是如何通过网络载体让更多的网民知道自己的网站，进而获得更高的流量和知名度。这其中，搜索引擎已经成了一个重要的且是免费的宣传途径。一方面，搜索引擎会主动出击，寻找网络上的各种网页数据，并在后台按相关条件进行索引；另一方面，各大网站为了能让自己的内容更多的通过搜索引擎向网民展示，都开始对网站结构进行重大调整，其中包括扁平化结构设计、动态（网页）转静态（网页）、Sitemap等。

这些看来不经意的举动都让我们切身感受到搜索引擎对我们网络使用方式的改变起到了重要作用。并且，正因为搜索引擎的兴起以及社会各界对其重视程度日渐高涨，还由此创造了一个全新的职位——SEO。实际上，搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。

前言

搜索引擎一直专注于提升用户的体验度，其用户体验度则反映在三个方面：准、全、快。用专业术语讲是：查准率、查全率和搜索速度（即搜索耗时）。其中最易达到的是搜索速度，因为对于搜索耗时在1秒以下的系统来说，访问者很难辨别其快慢了，更何况还有网络速度的影响。因此，对搜索引擎的评价就集中在了前两者：准、全。中文搜索引擎的“准”，需要保证搜索的前几十条结果都和搜索词十分相关，这需由“分词技术”和“排序技术”来决定（参考作者相关文章[1] [2]）；中文搜索引擎的“全”则需保证不遗漏某些重要的结果，而且能找到最新的网页，这需要搜索引擎有一个强大的网页收集器，一般称为“网络蜘蛛”，也有叫“网页机器人”。

研究搜索引擎技术的文章不少，但大部分讨论的是如何评价网页的重要性，对于网络蜘蛛研究的文章不多。网络蜘蛛技术并不是一项十分高深的技术，但要做一个强大的网络蜘蛛，却非易事。在目前磁盘容量已经不是瓶颈的时候，搜索引擎一直在扩大自己的网页数量。最大的搜索引擎Google（http: //www.google.com）从2002年的10亿网页增加到现在近40亿网页；最近雅虎搜索引擎（http: //search.yahoo.com/）号称收录了45亿个网页；国内的中文搜索引擎百度（http://www.baidu.com）的中文页面从两年前的七千万页增加到了现在的两亿多。据估计，整个互联网的网页数达到100多亿，而且每年还在快速增长。因此一个优秀的搜索引擎，需要不断的优化网络蜘蛛的算法，提升其性能。

或许有些人有疑问，为何搜索引擎需要用网络蜘蛛抓取网站所有的网页，为什么不在搜索者输入关键词后只把那些需要的结果抓取过来？这实际上是效率问题，搜索引擎不可能在搜索时实时去检查每个网页，而是需要把网页先抓取下来，按照关键词建立好索引，每次搜索的结果都会直接从搜索引擎建立好索引的数据库中查找，然后把结果返回给访问者。关于搜索引擎系统架构方面的知识，参考文献[3]，本文主要介绍网络蜘蛛的相关技术。

网络蜘蛛基本原理

网络蜘蛛即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的问题，如果按照每个页面的平均大小为20K计算（包含图片），100亿网页的容量是100×2000G字节，即使能够存储，下载也存在问题（按照一台机器每秒下载 20K计算，需要340台机器不停的下载一年时间，才能把所有网页下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评价重要性主要的依据是某个网页的链接深度。

在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先（如下图所示）。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别，下图的说明会更加明确。

由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置了访问的层数。例如，在上图中，A为起始网页，属于0层，B、C、D、E、F属于第1 层，G、H属于第2层，I属于第3层。如果网络蜘蛛设置的访问层数为2的话，网页I是不会被访问到的。这也让有些网站上一部分网页能够在搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化的网站结构设计有助于搜索引擎抓取其更多的网页。

网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络蜘蛛不去抓取（下小节会介绍），但对于一些出售报告的网站，他们希望搜索引擎能搜索到他们的报告，但又不能完全免费的让搜索者查看，这样就需要给网络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜索者提供相应的权限验证。

网站与网络蜘蛛

网络蜘蛛需要抓取网页，不同于一般的访问，如果控制不好，则会引起网站服务器负担过重。今年4月，淘宝网（http://www.taobao.com）就因为雅虎搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法和网络蜘蛛交流呢？其实不然，有多种方法可以让网站和网络蜘蛛进行交流。一方面让网站管理员了解网络蜘蛛都来自哪儿，做了些什么，另一方面也告诉网络蜘蛛哪些网页不应该抓取，哪些网页应该更新。

每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己的身份。网络蜘蛛在抓取网页的时候会发送一个请求，这个请求中就有一个字段为 User －agent，用于标识此网络蜘蛛的身份。例如Google网络蜘蛛的标识为GoogleBot，Baidu网络蜘蛛的标识为 BaiDuSpider， Yahoo网络蜘蛛的标识为Inktomi Slurp。如果在网站上有访问日志记录，网站管理员就能知道，哪些搜索引擎的网络蜘蛛过来过，什么时候过来的，以及读了多少数据等等。如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。下面是博客中国（http: //www.blogchina.com）2004年5月15日的搜索引擎访问日志：

感谢车东提供相应数据

网络蜘蛛进入一个网站，一般会访问一个特殊的文本文件Robots.txt，这个文件一般放在网站服务器的根目录下，如：http: //www.blogchina.com/robots.txt。网站管理员可以通过robots.txt来定义哪些目录网络蜘蛛不能访问，或者哪些目录对于某些特定的网络蜘蛛不能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜索到，那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt语法很简单，例如如果对目录没有任何限制，可以用以下两行来描述：

User-agent: *

Disallow:

当然，Robots.txt只是一个协议，如果网络蜘蛛的设计者不遵循这个协议，网站管理员也无法阻止网络蜘蛛对于某些页面的访问，但一般的网络蜘蛛都会遵循这些协议，而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网页的抓取。

网络蜘蛛在下载网页的时候，会去识别网页的HTML代码，在其代码的部分，会有META标识。通过这些标识，可以告诉网络蜘蛛本网页是否需要被抓取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如：表示本网页不需要被抓取，但是网页内的链接需要被跟踪。

关于Robots.txt的语法和META Tag语法，有兴趣的读者查看文献[4]

现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页，因为这样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全面被抓取到，网站管理员可以建立一个网站地图，即Site Map。许多网络蜘蛛会把sitemap.htm文件作为一个网站网页爬取的入口，网站管理员可以把网站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很方便的把整个网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担。

内容提取

搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓取下来网页包括各种格式，包括html、图片、doc、pdf、多媒体、动态网页及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一方面对于网络蜘蛛正确跟踪其它链接有一定影响。

对于doc、pdf等文档，这种由专业厂商提供的软件生成的文档，厂商都会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻松的提取文档中的文本信息和文件其它相关的信息。

HTML等文档不一样，HTML有一套自己的语法，通过不同的命令标识符来表示不同的字体、颜色、位置等版式，如：、、等，提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，对于 HTML网页来说，除了标题和正文以外，会有许多广告链接以及公共的频道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需要过滤这些无用的链接。例如某个网站有“产品介绍”频道，因为导航条在网站内每个网页都有，若不过滤导航条链接，在搜索“产品介绍”的时候，则网站内每个网页都会搜索到，无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

对于多媒体、图片等文件，一般是通过链接的锚文本（即，链接文本）和相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片”，其链接指向一张bmp格式的图片，那么网络蜘蛛就知道这张图片的内容是“张曼玉的照片”。这样，在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张图片。另外，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解文件的内容。

动态网页一直是网络蜘蛛面临的难题。所谓动态网页，是相对于静态网页而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦。由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php等。这些类型的网页对于网络蜘蛛来说，可能还稍微容易一些。网络蜘蛛比较难于处理的是一些脚本语言（如VBScript和JavaScript）生成的网页，如果要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。

对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把其处理方式做成一个插件补充到插件管理服务程序之中。

更新周期

由于网站的内容经常在变化，因此网络蜘蛛也需不断的更新其抓取网页的内容，这就需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。

搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长，则总会有一部分新生成的网页搜索不到；周期过短，技术实现会有一定难度，而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所有的网站都采用同一个周期进行更新，对于一些重要的更新量大的网站，更新的周期短，如有些新闻网站，几个小时就更新一次；相反对于一些不重要的网站，更新的周期就长，可能一两个月才更新一次。

一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一遍，对于大部分的网页，只需要判断网页的属性（主要是日期），把得到的属性和上次抓取的属性相比较，如果一样则不用更新。

结论

本文主要讨论了网络蜘蛛相关的技术要点，如果要设计好的网络蜘蛛，需要了解更多的技术细节，可以参考文献[5]。

网络蜘蛛在搜索引擎中占有重要位置，对搜索引擎的查全、查准都有影响，决定了搜索引擎数据容量的大小，而且网络蜘蛛的好坏直接影响搜索结果页中的死链接（即链接所指向的网页已经不存在）的个数。目前如何发现更多的网页、如何正确提取网页内容、如果下载动态网页、如何提供抓取速度、如何识别网站内内容相同的网页等都是网络蜘蛛需要进一步改进的问题。

iOS使用Rust调研夜-鸽 ios rust cocoa
编辑已恢复我们已与您断开连接。尝试重连时会保存您所做的变更。尝试重连标题1已保存BinSongB要发布此内容，请选择键盘上的⌘Enter。发布关闭Rust技术空间…跨平台使用调研iOS使用Rust调研添加表情符号添加标题图像添加状态一、iOS项目接入RustLibrary约定：iOS项目目录DemoAppRustLibrary：demo-library-ffi1.1、RustLibrary将Rus
练习总结sql面试50题(2021-12-27完结) bloglin99999 sql 面试数据库
参考【数据分析】-SQL面试50题-跟我一起打怪升级一起成为数据科学家_哔哩哔哩_bilibili图解SQL面试题：经典50题-知乎sql面试题：topN问题sql分组查询分组查询查询每组的前几条数据_qq87802343的博客-CSDN博客_sql每组前几条记录sql面试题：行列如何互换？免费教程《图解SQL面试题》-知乎SQL面试必会50题（含答案和学习链接）_欢迎来到小丁的技术空间-CSDN
bayer raw & RGB raw 火鸟火腿 Camera 软件图像处理人工智能
BayerPattern——RGGB-梅长苏枫笑-博客园图像处理——传感器原始图像格式:BayerRGB和RGBRAW_夜风的博客-CSDN博客_bayer传感器RGBBayer转为RGB-茜茜的技术空间-博客园==========================================sensor直接吐出数据为Bayer图像（四种Bayerpattern：BGGR，GBRG，GRBG，R
人工智能导论学习笔记（教材王万良《人工智能导论》（第四版）高等教育出版社） glittering小透明笔记
1956年正式提出人工智能20世纪三大科学技术成就人工智能原子能技术空间技术智能的特征（1）感知能力（2）记忆与思维能力（会思考）【逻辑思维】【形象思维】【动物思维】（灵感思维）（3）学习能力（4）行为能力（输出能力）人工智能的定义：用人工的方法在机器（计算机）上实现的智能人工智能研究的内容1知识表示（将人类的知识表示模型化，形象化）【通用】（1）符号表示法谓词专家系统（2）连接机制表示法神经网络
【游戏客户端开发】Unity3D 学习笔记4 —— UGUI+uLua游戏框架 zhangzc----java 游戏客户端开发游戏客户端开发
使用到的资料下载地址以及基础知识框架讲解拓展热更过程在这里我们使用的是uLua/cstolua技术空间所以提供的UGUI+uLua的热更游戏框，我也只是把我学习和使用这个框架的笔记记录下来而已。一.资料下载地址以及基础知识：主要使用到的资料有：客户端框架：LuaFramework_UGUI-master服务端框架：ServerFramework-mastertoLua(uLua的升级版本)基本框架
网易云信携手“瑶台”，打造元宇宙商业化实践标杆案例人工智能虚拟化
在软硬件技术空间发展的背景下，人们对于互联网玩法的畅想逐步由创造虚拟空间向现实世界与虚拟空间融合迈进。甚至在刚刚过去的10月，Facebook创始人马克·扎克伯格将“脸书”改名为“Meta”，这使得“元宇宙”在整个科技圈、投资圈内风头一时无两。说到“元宇宙”，按照目前的发展形态来看，它是一种现实空间复制与再造的过程，即人们在互联网上再造一个具备高沉浸感、体验感、互动感的虚拟世界，甚至人们可以基于各
易效能时间管理二阶课2018.06学习记录早安eyes
课程设计四大模块，并按番茄工作法25+5，授课+休息。小休息大休息配合反思力：第一天信息力：第二天：印象笔记：秒搜系统之标签+目录技术空间力：第三天：断舍离、怦然心动整理、移动办公生命力：第三天第一天：对一阶主要内容反思力重温并加深对日历C5、清单OF功能的使用。举例如下：1、掌控全局聚焦重点，保持严谨不失弹性2、A4工作法之记录、排程、执行。（要不要做？不做删除；暂时不做搁置推迟进入其他待定；要
程序员什么时候就该辞职了？ Mr.Z java 后端 spring 程序员
作为一个技术人员，如果你满足以下条件中的任意一个，你应该去看看更多的机会：钱少了技术空间增长太少没有发展空间心里委屈了以及老板招你的时候，和你谈理想。现在，老板问你说：理想能赚钱吗？加班太多——都没有时间约会或者女朋友和别人跑了你的女朋友在北京，而你在上海这个技术公司已经没有大牛了程序员该不该裸辞？程序员千万不要裸辞，对你没有任何好处，你自己看看，信不信由你。1、不，裸辞别以为你一整天都能找到更好
Git、GitHub、GitLab三者的区别技术空间站 Git和GitHub git github
Git、GitHub的区别GitGitHub有兴趣小伙伴可以扫描二维码，关注“技术空间站”公众号，领取更多java学习资源。分不清Git和GitHub，做个笔记总结。GitGit是一个开源的分布式版本控制系统，用于敏捷高效地处理任何或小或大的项目。Git是LinusTorvalds为了帮助管理Linux内核开发而开发的一个开放源码的版本控制软件。Git与常用的版本控制工具CVS,Subversio
ArcGIS影像数据库的建立与入库 rommayer GIS
本文帮你解决以下疑问：影像数据是以怎样的方式保存在SDE等数据库中的，影像数据如何入库。空间数据库技术空间数据库技术用关系数据库管理系统(RDBMS)来管理空间数据,主要解决存储在关系数据库中的空间数据与应用程序之间的数据接口问题,即空间数据库引擎(SpatialDatabaseEngine)。更确切地说,空间数据库技术是解决空间数据对象中几何属性在关系数据库中的存取问题,其主要任务是：1)用关系
弹出窗口函数MessageBox用法、分析及相应源代码(转帖) xiaolajiao8787 VC
很多次使用弹出窗口作为提示的窗口之用，但是还真的没有认真的去研究一下，今天写程序的时候，希望不仅提示用户话，还加上一个警告的小窗口，顺便也研究一下如何去使用，好啦，现在开始吧。tEjSSE6工作室网络技术空间VC函数原型：tEjSSE6工作室网络技术空间intMessageBox(tEjSSE6工作室网络技术空间HWNDhWnd,tEjSSE6工作室网络技术空间LPCTSTRlpText,tEjS
开源互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总 yuv420,com 工具软件数据结构与算法爬虫
互联网爬虫，蜘蛛，数据采集器，网页解析器的汇总。转载自：影音视频技术空间PythonScrapy-一种高效的屏幕,网页数据采集框架。django-dynamic-scraper-基于Scrapy内核由djangoWeb框架开发的爬虫。Scrapy-Redis-基于Scrapy内核采用Redis组件的爬虫。scrapy-cluster-基于Scrapy内核采用Redis和Kafka开发的分布式爬虫框
三种宽带无线通信技术比较 keyouan2008 通讯
一、问题的提出目前3G、WLAN、Bluetooth都是涉及宽带无线数据通信的热门技术，从世界范围来看，3G刚刚进入导入期，WLAN和Bluetooth在不同范围也已经得到商业应用。由于中国3G牌照尚未发放，国内移动运营商已将WLAN(无线局域网)和2.5G的GPRS以及CDMA-20001X相互整合提上议事日程，以加强无线上网的宽带化和适用性，填补3G到来之前的部分市场和技术空间;与此同时固网运
【目录】姜晔的技术空间目录 ioio_jy 目录
逆向工程系列逆向工程第001篇：解锁FIFA07传奇模式逆向工程第002篇：打造自己的仙剑奇侠逆向工程第003篇：跨越CM4验证机制的鸿沟（上）逆向工程第004篇：跨越CM4验证机制的鸿沟（中）逆向工程第005篇：跨越CM4验证机制的鸿沟（下）逆向工程第006篇：简易游戏辅助的实现逆向工程第007篇：扫雷辅助的研究——0秒实现一键自动扫雷病毒木马查杀实战系列病毒木马查杀实战第001篇：基本查杀理论
12121 alex杨
萨克斯笔记本撒旦kjh能家奴我2的版本吹比耍宝不长不不完全不欧清波本波波呢你屁屁闪频傻逼的群殴我不懂请哦别抢我宝宝比把书包被冠以GV机读卡数据的佳佳几把空间被疯狂金杯尽快哈空间还上课较好1212的开奖号开奖号见好好卡技术空间的号角换空间的的HQUI我我个uqvwuqviqvuq欧巴哦boqwboqbdivh81ho2uhv8偶就那就女会计本科随便的科技你哦不积跬步哦哦弄几笔博纳哦uhvdbjkjd
Unity3D 学习笔记4 —— UGUI+uLua游戏框架河乐不为 Unity3D游戏开发 Unity学习笔记
Unity3D学习笔记4——UGUI+uLua游戏框架使用到的资料下载地址以及基础知识框架讲解拓展热更过程在这里我们使用的是uLua/cstolua技术空间所以提供的UGUI+uLua的热更游戏框，我也只是把我学习和使用这个框架的笔记记录下来而已。一.资料下载地址以及基础知识：主要使用到的资料有：客户端框架：LuaFramework_UGUI-master服务端框架：ServerFramework
【资讯】2020丰田技术空间: E路，不辜负轿车情报
这些年，全球各地频频发生异常天气和自然灾害，解决地球变暖的问题已经刻不容缓，需要我们像爱护自己一样，爱护人类的故乡“地球”。为了能够将如此美丽的地球传承给下一代，丰田一直基于这个视角在不断努力着。基于“环保车只有普及才能为环境做贡献”的理念，丰田从最早销售的量产HEV——Prius之后，并在HEV开发过程中积累了扎实经验，蓄电池，电机，动力控制单元等电动化车型开发所必需的核心技术得以不断进化和应用
丰田新款电动车将用中国产电池称目前无暇考虑改变股比问题 | 经观汽车头条汽车
摘要：“与其花那么多时间去讨论转让多少股份，不如讨论发展多少个车型，那样对大家都有好处。”文|干群芳当大众汽车通过入股中国汽车公司、电池公司，增持合资公司股权等方式在电动化转型上更进一步，另一汽车巨头丰田汽车则在中国采取了不同的方式。“到目前为止，我们没有（和合作伙伴）讨论到（调整）股比，没有提到日程上来。”6月9日，在于常熟举办的“丰田技术空间体验日”上，丰田中国高层对包括经济观察网在内的多家媒
“支聊”产品分析报告文yu忆心
直播新选择支聊是由鼎耀资本技术空间孵化，立志打造行业领先的在线知识社区。同时支聊也是专注于知识分享的平台，通过直播的形式让您直接找到各个领域的自身所需。数据显示，近几年随着人们消费结构逐步向文教娱乐转变，知识付费产品应运而生。文字、视频、音频作为知识变现的三大载体，各具特色，但音频可以深入到生活中各个场景，对碎片化时间的利用程度更高，在快节奏的时代中更具潜力。支聊以提供优质的内容，吸引听众。此外平
丰田技术空间“开课” PHEV好在哪？车市次位面
8月5日在上海举行的丰田技术空间体验课上，丰田向媒体介绍了自家一项引以为傲的动力技术——丰田双擎E+。丰田技术空间“开课”PHEV好在哪？“技术的原点就是让消费者所接受。”8月5日在上海举行的丰田技术空间体验课上，丰田汽车（中国）投资有限公司执行副总经理董长征用14个字向媒体介绍了丰田技术空间诞生的初衷。事实上，从2014年开始丰田就向外界推出了丰田技术空间体验活动，6年的时间里，从车身结构、到动
进程朱凡宇
引入从今天开始，我们步入了并发编程的内容，比如下载图片，按照之前的方式来做的话，一个图片下载完再下载另外一个图片，导致效率比较低，有了并发，我们就可以一下子同时对多个图片进行下载，效率会提高很多，学习并发编程，我们首先做一些简单的操作系统介绍。操作系统的作用隐藏丑陋复杂的硬件接口，提供良好的抽象接口管理、调度进程，并且将多个进程对硬件的竞争变得有序多道技术空间上的复用：如内存中同时有多道程序时间上
第七十期：IT技术人员的自我修养你知道歌谣吗？阅读(偏娱乐)
8月4日以下文章来源于空山新雨的技术空间，作者空山新雨的技术空间前言在IT领域摸爬滚打多年，从一个普通程序员到技术主管，到技术经理，再到技术总监，踩过不少坑、加过不少班，也背过不少锅。在提升自身技术能力与管理能力的同时，也一直在思考，作为IT技术从业者，如何做才能让我们在这个领域里发展得更好。在年龄渐长时能从容应对所谓的“中年危机”，或者说IT技术人员的自我修养，应从哪些方面去努力。本文不是所谓成
0912 回顾进程基础点 tomjoy
操作系统串行：一个程序完完整整的执行完再执行下一个并发：看起来像是同时运行，其实就是程序间的切换频率比较快，看不出来并行：真正的同时运行多道技术空间复用：共用一个内存条，多个进程相互隔离，物理级别隔离时间复用：共用一个CPU阻塞和非阻塞程序运行的三个状态：就绪（ready）运行（run）阻塞（blocked）开启子进程，申请新的内存空间，把父进程的所有代码，完整的拷贝一份过去，这就是子进程from
2019丰田技术空间：1400万辆的成功背后轿车情报
8月6日，丰田在上海崇明举办了第五届技术空间体验日，自2014年丰田首次举办以来，每年都会推出代表汽车行业最新发展方向的成果。丰田汽车（中国）投资有限公司执行副总经理董长征当撇去那些花哨的广告词、宣传标语，仔细聆听来自丰田汽车研发中心（中国）有限公司执行副总经理松本真一先生的技术讲解及其他专家的现场展示，你会由衷发现那些几十年积累和不断研发的丰田科技在现今造车新势力面前是如此强大而有说服力。丰田汽
雷凌双擎E+：献给中国市场的礼物名车志Daily
2019年丰田技术空间的主题是PHEV插电混动型车，丰田希望在电动化最积极的中国投入更多的力量。然而丰田担心的是，PHEV不会被消费者马上接受。最新的混合动力技术配合上一代平台，雷凌双擎E+是丰田为中国用户准备的礼物。11代卡罗拉衍生车型的最高峰丰田中国研究中心早在2016年就已经布局了卡罗拉和雷凌插电混动车型，这也意味着它们赶不上第四代普锐斯PHV上使用的TNGA架构。丰田喜欢使用不同的后缀名，
Android优秀博主汇总 ThePromonkeyOf_HeLuo 资源整理
1包建强的无线技术空间《Android插件化开发指南》和《App研发录》作者妥啦的技术博客出行类，仿写过滴滴的爆文大佬Kotlin极简教程igding的博客胖梁的技术笔记全栈知识lhl_012疑似鹅宋博客Code4Android
永久封号！欢迎大家举报这类文章…… CSDN官方博客首页公告栏投诉建议
最近不少用户反馈，有些文章起着各种非常干货的标题，点击进去以后却是邀请进群的软文广告，甚至有一些文章贩卖各种焦虑，进群可以免费获得资料，免费直播等，殊不知全部都是营销号的套路文！而且这些文章通过团队小伙伴点赞、评论，频频上首页。例如下面这两篇：图1图2为营造干净的技术空间，欢迎大家举报此类文章，如图2所示，大家可以点击文章右侧的感叹号标志，进行举报：图3工作人员收到举报后会立即进行审核处理，如果文
2018.6.27-29#易效能二阶课#35期鸿亮
易者，以用为妙，道术器三足鼎立。道明、术优、器利，持而用则可长保。是故当知，若非以用为妙，则道荒只、术废之、器钝之。若通达此理者，则真圆明无碍也。一阶：方法与工具。二阶：自我成长，不断更新。过去-当下-未来反思力：记录反思计划检视信息力：秒搜系统标签+目录技术空间力：断舍离怦然心动整理移动办公生命力：记录排程执行排除干扰轻重缓急分类执行三大习惯：睡眠、运动、饮食掌控全局聚焦重点保持严谨不失弹性。个
我的友情链接 pianzif
51CTO博客开发Shareyourknowle..抚琴煮酒南非蚂蚁▁▁技术控ヽ夜的博客李晨光原创技术博客notepadlinux运维贺春旸的技术专栏老男孩linux运维好好活着一树清劲马哥教育云计算与大数据_jxwpx转身离开-王军猫熊的幸福生活滴水穿石峰云，就她了。崔明坤尘风随影的天空IT工作实战Focusonthedatabase小何贝贝的技术空间->丁丁历险吴光科-专注自动化运维每天进步一
我的友情链接 qingsto
http://simeon.blog.51cto.com王春海的博客老男孩oldboy的BLOG我的excel畅享网网上课程kanxuewinOS千山岛主之微软技术空间站sery小飞的空间网管小王红黑Jackzhai道哥的黑板报Nuclear'Atk（核***）网络安全研究中心腾讯初学IT庄家知乎Odin>>安全|运维|6c33b1b7f393d3d2linkboy暗组安全博客习科"刷新"2012
312个免费高速HTTP代理IP（能隐藏自己真实IP地址） yangshangchuan 高速免费 superword HTTP代理
124.88.67.20:843 190.36.223.93:8080 117.147.221.38:8123 122.228.92.103:3128 183.247.211.159:8123 124.88.67.35:81 112.18.51.167:8123 218.28.96.39:3128 49.94.160.198:3128 183.20
pull解析和json编码百合不是茶 android pull解析 json
n.json文件: [{name:java,lan:c++,age:17},{name:android,lan:java,age:8}] pull.xml文件 <?xml version="1.0" encoding="utf-8"?> <stu> <name>java
[能源与矿产]石油与地球生态系统 comsci 能源
按照苏联的科学界的说法,石油并非是远古的生物残骸的演变产物,而是一种可以由某些特殊地质结构和物理条件生产出来的东西,也就是说,石油是可以自增长的.... 那么我们做一个猜想: 石油好像是地球的体液,我们地球具有自动产生石油的某种机制,只要我们不过量开采石油,并保护好
类与对象浅谈沐刃青蛟 java 基础
类，字面理解，便是同一种事物的总称，比如人类，是对世界上所有人的一个总称。而对象，便是类的具体化，实例化，是一个具体事物，比如张飞这个人，就是人类的一个对象。但要注意的是：张飞这个人是对象，而不是张飞，张飞只是他这个人的名字，是他的属性而已。而一个类中包含了属性和方法这两兄弟，他们分别用来描述对象的行为和性质（感觉应该是
新站开始被收录后，我们应该做什么？ IT独行者 PHP seo
新站开始被收录后，我们应该做什么？百度终于开始收录自己的网站了，作为站长，你是不是觉得那一刻很有成就感呢，同时，你是不是又很茫然，不知道下一步该做什么了？至少我当初就是这样，在这里和大家一份分享一下新站收录后，我们要做哪些工作。至于如何让百度快速收录自己的网站，可以参考我之前的帖子《新站让百
oracle 连接碰到的问题文强chu oracle
Unable to find a java Virtual Machine－－安装64位版Oracle11gR2后无法启动SQLDeveloper的解决方案作者：草根IT网来源：未知人气：813标签：导读：安装64位版Oracle11gR2后发现启动SQLDeveloper时弹出配置java.exe的路径，找到Oracle自带java.exe后产生的路径“C:\app\用户名\prod
Swing中按ctrl键同时移动鼠标拖动组件（类中多借口共享同一数据）小桔子 java 继承 swing 接口监听
都知道java中类只能单继承，但可以实现多个接口，但我发现实现多个接口之后，多个接口却不能共享同一个数据，应用开发中想实现：当用户按着ctrl键时，可以用鼠标点击拖动组件，比如说文本框。编写一个监听实现KeyListener,NouseListener,MouseMotionListener三个接口，重写方法。定义一个全局变量boolea
linux常用的命令 aichenglong linux 常用命令
1 startx切换到图形化界面 2 man命令:查看帮助信息 man 需要查看的命令,man命令提供了大量的帮助信息,一般可以分成4个部分 name:对命令的简单说明 synopsis:命令的使用格式说明 description:命令的详细说明信息 options:命令的各项说明 3 date:显示时间语法：date [OPTION]... [+FORMAT]
eclipse内存优化 AILIKES java eclipse jvm jdk
一基本说明在JVM中，总体上分2块内存区,默认空余堆内存小于 40%时，JVM就会增大堆直到-Xmx的最大限制；空余堆内存大于70%时，JVM会减少堆直到-Xms的最小限制。 1)堆内存(Heap memory):堆是运行时数据区域，所有类实例和数组的内存均从此处分配,是Java代码可及的内存，是留给开发人
关键字的使用探讨百合不是茶关键字
//关键字的使用探讨/*访问关键词private 只能在本类中访问public 只能在本工程中访问protected 只能在包中和子类中访问默认的只能在包中访问*//*final 类方法变量 final 类不能被继承 final 方法不能被子类覆盖，但可以继承 final 变量只能有一次赋值，赋值后不能改变 final 不能用来修饰构造方法*///this()
JS中定义对象的几种方式 bijian1013 js
1. 基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)： <html> <head> <title>基于已有对象扩充其对象和方法(只适合于临时的生成一个对象)</title> </head> <script> var obj = new Object();
表驱动法实例 bijian1013 java 表驱动法 TDD
获得月的天数是典型的直接访问驱动表方式的实例，下面我们来展示一下： MonthDaysTest.java package com.study.test; import org.junit.Assert; import org.junit.Test; import com.study.MonthDays; public class MonthDaysTest { @T
LInux启停重启常用服务器的脚本 bit1129 linux
启动，停止和重启常用服务器的Bash脚本，对于每个服务器，需要根据实际的安装路径做相应的修改 #! /bin/bash Servers=(Apache2, Nginx, Resin, Tomcat, Couchbase, SVN, ActiveMQ, Mongo); Ops=(Start, Stop, Restart); currentDir=$(pwd); echo
【HBase六】REST操作HBase bit1129 hbase
HBase提供了REST风格的服务方便查看HBase集群的信息，以及执行增删改查操作 1. 启动和停止HBase REST 服务 1.1 启动REST服务前台启动（默认端口号8080） [hadoop@hadoop bin]$ ./hbase rest start 后台启动 hbase-daemon.sh start rest 启动时指定
大话zabbix 3.0设计假设 ronin47
What’s new in Zabbix 2.0? 去年开始使用Zabbix的时候，是1.8.X的版本，今年Zabbix已经跨入了2.0的时代。看了2.0的release notes，和performance相关的有下面几个： :: Performance improvements::Trigger related da
http错误码大全 byalias http协议 javaweb
响应码由三位十进制数字组成，它们出现在由HTTP服务器发送的响应的第一行。响应码分五种类型，由它们的第一位数字表示： 1）1xx：信息，请求收到，继续处理 2）2xx：成功，行为被成功地接受、理解和采纳 3）3xx：重定向，为了完成请求，必须进一步执行的动作 4）4xx：客户端错误，请求包含语法错误或者请求无法实现 5）5xx：服务器错误，服务器不能实现一种明显无效的请求
J2EE设计模式-Intercepting Filter bylijinnan java 设计模式数据结构
Intercepting Filter类似于职责链模式有两种实现其中一种是Filter之间没有联系，全部Filter都存放在FilterChain中，由FilterChain来有序或无序地把把所有Filter调用一遍。没有用到链表这种数据结构。示例如下： package com.ljn.filter.custom; import java.util.ArrayList;
修改jboss端口 chicony jboss
修改jboss端口 %JBOSS_HOME%\server\{服务实例名}\conf\bindingservice.beans\META-INF\bindings-jboss-beans.xml 中找到 <!-- The ports-default bindings are obtained by taking the base bindin
c++ 用类模版实现数组类 CrazyMizzz C++
最近c++学到数组类，写了代码将他实现，基本具有vector类的功能 #include<iostream> #include<string> #include<cassert> using namespace std; template<class T> class Array { public: //构造函数
hadoop dfs.datanode.du.reserved 预留空间配置方法 daizj hadoop 预留空间
对于datanode配置预留空间的方法为：在hdfs-site.xml添加如下配置 <property> <name>dfs.datanode.du.reserved</name> <value>10737418240</value>
mysql远程访问的设置 dcj3sjt126com mysql 防火墙
第一步: 激活网络设置你需要编辑mysql配置文件my.cnf. 通常状况，my.cnf放置于在以下目录： /etc/mysql/my.cnf (Debian linux) /etc/my.cnf （Red Hat Linux/Fedora Linux) /var/db/mysql/my.cnf (FreeBSD) 然后用vi编辑my.cnf，修改内容从以下行： [mysqld] 你所需要: 1
ios 使用特定的popToViewController返回到相应的Controller dcj3sjt126com controller
1、取navigationCtroller中的Controllers NSArray * ctrlArray = self.navigationController.viewControllers; 2、取出后，执行， [self.navigationController popToViewController:[ctrlArray objectAtIndex:0] animated:YES
Linux正则表达式和通配符的区别 eksliang 正则表达式通配符和正则表达式的区别通配符
转载请出自出处：http://eksliang.iteye.com/blog/1976579 首先得明白二者是截然不同的通配符只能用在shell命令中,用来处理字符串的的匹配。判断一个命令是否为bash shell(linux 默认的shell)的内置命令 type -t commad 返回结果含义 file 表示为外部命令 alias 表示该
Ubuntu Mysql Install and CONF gengzg Install
http://www.navicat.com.cn/download/navicat-for-mysql Step1: 下载Navicat ，网址：http://www.navicat.com/en/download/download.html Step2：进入下载目录，解压压缩包：tar -zxvf navicat11_mysql_en.tar.gz
批处理，删除文件bat huqiji windows dos
@echo off ::演示：删除指定路径下指定天数之前（以文件名中包含的日期字符串为准）的文件。 ::如果演示结果无误，把del前面的echo去掉，即可实现真正删除。 ::本例假设文件名中包含的日期字符串（比如：bak-2009-12-25.log） rem 指定待删除文件的存放路径 set SrcDir=C:/Test/BatHome rem 指定天数 set DaysAgo=1
跨浏览器兼容的HTML5视频音频播放器天梯梦 html5
HTML5的video和audio标签是用来在网页中加入视频和音频的标签，在支持html5的浏览器中不需要预先加载Adobe Flash浏览器插件就能轻松快速的播放视频和音频文件。而html5media.js可以在不支持html5的浏览器上使video和audio标签生效。 How to enable <video> and <audio> tags in
Bundle自定义数据传递 hm4123660 android Serializable 自定义数据传递 Bundle Parcelable
我们都知道Bundle可能过put****()方法添加各种基本类型的数据，Intent也可以通过putExtras(Bundle)将数据添加进去，然后通过startActivity()跳到下一下Activity的时候就把数据也传到下一个Activity了。如传递一个字符串到下一个Activity 把数据放到Intent
C＃：异步编程和线程的使用（.NET 4.5 ） powertoolsteam .net 线程 C#异步编程
异步编程和线程处理是并发或并行编程非常重要的功能特征。为了实现异步编程，可使用线程也可以不用。将异步与线程同时讲，将有助于我们更好的理解它们的特征。本文中涉及关键知识点 1. 异步编程 2. 线程的使用 3. 基于任务的异步模式 4. 并行编程 5. 总结异步编程什么是异步操作？异步操作是指某些操作能够独立运行，不依赖主流程或主其他处理流程。通常情况下，C＃程序
spark 查看 job history 日志 Stark_Summer 日志 spark history job
SPARK_HOME/conf 下: spark-defaults.conf 增加如下内容 spark.eventLog.enabled true spark.eventLog.dir hdfs://master:8020/var/log/spark spark.eventLog.compress true spark-env.sh 增加如下内容 export SP
SSH框架搭建 wangxiukai2015eye spring Hibernate struts
MyEclipse搭建SSH框架 Struts Spring Hibernate 1、new一个web project。 2、右键项目，为项目添加Struts支持。选择Struts2 Core Libraries -<MyEclipes-Library> 点击Finish。src目录下多了struts

中文搜索引擎技术揭密：网络蜘蛛

前言

网络蜘蛛基本原理

网站与网络蜘蛛

内容提取

更新周期

结论

你可能感兴趣的:(技术空间)