Deep Web调查

1.概念

深网，即深层网络（英语：Deep Web），又称：不可见网、隐藏网，是指万维网上那些不能被标准搜索引擎索引的非表面网络内容。
——维基百科

简单来说，一切搜索引擎搜索不到的网页都可以被称为深网，与之相对的概念即为我们平时生活中经常接触到的网络，即“表层网”。其最常见的应用网络邮件、网络邮件、网上银行以及用户必须付费来获取服务的网站。

许多人在说到Deep Web时，都会将暗网（darknet）、黑网（dark web）也包含在内，但这样并不准确。后两者的含义如下：

什么是暗网(Darknet)?

Darknet是建立在现有互联网之上的加密网络，并且需要特定的软件或工具来访问暗网。因为在互联网上使用的常规协议可能不应用于暗网。它为用户提供匿名性。比如Tor或洋葱路由，需要Tor浏览器进入Tor的网络。

当然Tor可以用来访问日常的互联网网站，但它也有许多隐藏的网站和服务，无法在常规互联网上访问。Tor使用其称为Tor隐藏服务协议来工作。而限制在Tor的网站有一个特殊的.onion地址。因此，Tor的暗网也被称为洋葱。

F2F是另一种暗网。两个熟悉的人直接通过互联网相互通信。他们可能通过P2P连接共享一些文件。这样的网络，不能被其他人访问，可以被加密或密码保护。

什么是黑网(Dark Web)

黑网是深网的一个子集。也就是说，在暗网上运行的服务和网站是黑网。暗网在技术架构上支撑黑网的体系。
——什么是深网、暗网与黑网？别混淆了

但在一般情况下，大家所说的暗网和黑网指的是同一个概念。
下面是网上一幅关于三层网络之间的关系图。

三层网络之间的关系图

2.Deep Web特征及发展现状

与SurfaceWeb相比，DeepWeb蕴藏了更加丰富，更加“专业”(专注于某一领域)的信息。在2000年7月，Brightplanet对DeepWeb做了一次较为全面的宏观统计，发布了Deepw web的白皮书 (在该文中Brightplanet对DeepWeb的定义主要指的是Web数据库)，指出整个Web上大约有43000～96000个Web数据库，并从宏观上对DeepWeb做了定量的调查统计，下面列出其中部分的调查结果：
(1)DeepWeb蕴含的信息量是SurfaceWeb的400～500倍。
(2)对DeepWeb数据的访问量比SurfaceWeb要高出15%。
(3)DeepWeb蕴含的信息量比SurfaceWeb的质量更高。
(4)DeepWeb的增长速度要远大于SurfaceWeb。
(5)超过50%的DeepWeb的内容是特定于某个域的，即面向某个领域。
(6)整个DeepWeb覆盖了现实世界中的各个领域，比如商业、教育、政府等等。
(7)DeepWeb上95%的信息是可以公开访问的，即免费获取。
（以上信息来源于百度百科）

3.深网的内容类型

用以防止网页被搜索引擎索引的方法可以被分类为以下一个或多个：

Contextual Web（语境网络）
Dynamic content（动态内容）
Limited access content（有限访问内容）
Non-HTML/text content（非HTML或文本内容）
Private web（私人网站）
Scripted content（脚本内容）
Software：这类是指只有通过特殊软件才能访问的内容
Unlinked content（未被链接的内容）
Web archives：一种Web的存档服务，不可被搜索引擎索引

从这些分类中可以看出，深网不可索引的原因如下：
（1）深网内容并不是被直接存储在网页中的，而是通过用户填写表单发送请求而生成动态页面，但爬虫软件一般并不能填写表单，自然也就不能取到深网中的内容；
（2）有的内容则是因为没有与外网链接，爬虫也就没办法通过URL爬取到这些网站里的内容；
（3）被限制访问的内容也是爬虫无法获取的，譬如某些由政府主导的秘密任务数据的服务器和网站。

4.深网索引方法

由第二点对深网的特点阐述可以看出，深网在整个互联网中的占比极大，而且覆盖了现实生活中的各个领域。有机构为Deep Web构建了目录，并按照现实世界的各个领域为其制定了分类主要包括商业与经济、计算机与互联网、新闻媒体、娱乐等一共十几个分类。另外，这些分类下面还会有更小的分类。但即使是这样，列出来的也仅是整个web数据库的很小的一个比例。同时，深网中的数据质量也更高，所以研究如何获取深网中的信息是具有非凡意义的。

深网的研究目前主要分为两个方面:
(1) 深网的规模、分布和结构的研究。美国Bright Planet公司, 专门从事数据整合和企业信息分析, 开发了深网检索平台工具DQM。此外, 还对深网的规模和相关性进行了研究, 并发布了调查白皮书。
(2) 深网信息搜索中的关键技术的研究。目前主要的关键技术有Deep Web接口识别方法、信息提取算法、数据库选择算法、Deep Web集成查询接口生成方法等。
而深网的信息资源具有以下三个特点:
(1) 信息资源量巨大。深网是Internet中信息最快的增长点, 并且随着时间的推移, 深网的信息量会越来越大。
(2) 信息质量高。它与表层的一般网页相比, 深网的内容都更加的专业和有深度, 信息间的相关度也比较高, 具有巨大的商业价值和潜在信息。
(3) 信息便于处理。深网的信息多数容易使用一些统计软件处理, 格式相对整齐。
因此解析深网主要功能并研究其关键技术, 从而采集深网的巨大信息资源, 具有重要意义。
摘自：中国知网——全局模式下的深网数据抽取与挖掘

2001年， Sriram Raghavan 和 Hector Garcia-Molina 发明了一个从用户请求界面表格收集关键词的深网抓取模型并且抓取深网资源。加利福尼亚大学洛杉矶分校的 Alexandros Ntoulas、Petros Zerfos和Junghoo Cho创建了一个自动生成有意义的查询词的程序。
商业搜索引擎已经开始使用以上两种方法之一抓取深网。Sitemap协议（始创于Google）和mod oai是允许搜索引擎和其他网络服务探索深网解决方法。以上两种解决方法允许网络服务主动公布网址，这对于他们来说是容易的，因而允许自动探寻资源而不直接通过网络表面的链接。Google的深网探寻系统预先计算每个 HTML 表单并且添加结果 HTML 页面到 Google 搜索引擎索引。在这个系统里，使用三种方法计算提交词：
(1) 为输入搜索选择关键词允许的输入值；
(2) 确定是否只接受特定的值（例如时间）；
(3) 选择少量的组合生成适合纳入网站的搜索索引网址。

——百度百科

5.深网搜索引擎的工作原理

深网搜索引擎能够模仿用户访问数据库的流程，从而通过以下步骤自动访问数据库。
（1）深网搜索引擎发现互联网上的深网数据源。使用传统的爬虫程序来发现和识别某个站点是否提供 Http 服务，然后分析含有 Http 服务的站点页面，剔除非研究性表单，找到深网的数据源入口。
（2）对前面获得的表单页面进行分析和抽取。将查询表单分解，集成同一个领域的集合，从而得到一个统一的查询表单，通过这个集成的查询表单，深网搜索引擎可以同时访问多个数据源。
（3）模仿用户自动填充并提交表单。服务器端会产生一个完整的 HTML 页面，深网搜索引擎将这些页面进行分析，并提取数据到本地计算机，然后统一查询结果页面，最终将结果返回给用户。
摘自：中国知网——深网和搜索引擎

6.深网搜索结果与表面网结果的区别

对DeepWeb信息的访问是通过在查询接口上提交查询，这和对搜索引擎的访问在某种程度上来说是相似的，但DeepWeb数据和搜索引擎二者之间是有着很大区别的：
(1)搜索引擎搜索结果是网页，而Deepweb中的搜索结果主要是结构化的数据。
(2)Web数据库通常有复杂的接口，而搜索引擎的接口较为简单，一般是关键字搜索。
(3)搜索引擎对结果的排序是根据搜索结果与所提交查询的相似性，Web数据库则是根据结果中对DeepWeb中信息的获取主要的途径是通过某个属性的值。
——百度百科

以上即为我对深网所做的一些调查。