kanghua

我对语义网（Semantic Web）应用发展的一些看法

我对语义网（Semantic Web）应用发展的一些看法

前言:

前不久应朋友之邀，为其学生作了一次关于互联网应用发展和基础架构演变的技术讲座。为此我专门整理了一些关于当前网络应用——重点是语意网——的最新资讯，同时也结合自身工作中的思考，总结了一些语义网发展相关的个人看法，在这里很希望和大家讨论讨论。

关于网络应用所依赖基础架构演变的问题——重点是海量存储和计算的系统架构的趋势——我接下来也会找时间总结出来，希望抛砖引玉，与大家共同学习。

语义需求:

关心和观察互联网发展的朋友，都会了解到当前炒作正热的语义网概念。业界和学术界之所以热衷的追逐语义网，归根结底是因为对互联网对语义的需求越来越迫切。所谓需求推动技术，语义网技术的兴起无疑起源于目前万维网的不足。

万维网存在两个明显的不足：

1. 计算机不能理解目前网页内容的语义：因为万维网只是文档载体，它的目的只是供人来阅读。
2. 信息无序存在：网上信息爆炸，但是想要的信息却往往难找，即使借助功能强大的搜索引擎，查准率也比较低——因为冗余信息过多，且各种信息之间关系天生缺乏组织，各自为证，所以在网上找所需信息的成本越来越高——据调查很多人每周花在搜索上的时间超过6个小时。

存在这些问题的原因在于万维网现在采用的超文本标记语言（Hyper Text Markup Language，简称HTML），网页上的内容设计成专供人类浏览的，而非供计算机理解和处理的，因此无法为网民提供自动处理或分析网上数据的功能。

此外，万维网是按“网页的地址”，而非“内容的语义”来定位信息资源的（缺少语义联接），网上所有信息都是由不同的网站发布的，相同主题的信息分散在全球众多不同的服务器上，又缺少有效工具能将不同来源的相关信息综合起来，因此形成了一个个信息孤岛(其中有大量重复)，查找自己所需的信息就像大海捞针一样困难。

语义网概念

不需要教条的理解语已网！在我看来，其内涵一言以蔽之——计算机能识别意义的互联网。

注：wiki上的标准概念是——通过给万维网上的文档(如:HTML)添加能够被计算机所理解的语义(Meta data)，从而使整个互联网成为一个”通用”的信息交换媒介。

语义网的实现方式

语义网的实现方式相比它的定义来说，要发散的多——它没有像3G技术那种统一的实现标准（这点到有点像4G标准，只说传输速度到1G，而没有确定的技术规范）。因此在实现道路上可谓仁者见仁，智者见智，出现了多种多样的语义识别方法，我以自己的理解进行简单的归纳（由于我也是该领域的新兵，错误之处难免，见谅）。

语义识别的几种方法：

语义标注 – 采用RDF，Microformats 等语法标注原数据——最正统的方法。这种方法可看成是给词打上对应的语义标签，其目的主要是为了解决数据的互通性，比如交友社区中的朋友关系如果使用语义标注，就可帮助全网（跨不同网站的）范围内的朋友搜索（具体可参见 http://www.ibm.com/developerworks/cn/xml/x-watch/part3/index.html ）。让语义 Web 如此有意义和有用的关键设计特征之一就是跨 Web 数据集间互连数据的确立。就这点而言，目前最成功的项目我认为是 Open Linked Data，它已经整理了不少领域的数据信息可供识别。
建立语境 — 这种方法是通过有向网的方式描述我们身边的客观世界。网络上的节点表示物理实体、概念或状态，连接节点的“边”用于表示实体的关系。通过边的链接实体间的相关性得以表示，因此相关事实可以从直接相连的节点推导出来——而且目前语境的建立多采用面向对象中的属性继承方式，因此可以对继承的属性进行演绎如三段式推理，另外甚至可以建立状态和动作的描述（后面提到的freebase使用类似方法）。有了这种网络描述的语境（和专家系统有点像），那么就能够判断文档内容是何含义了——最简单的方法是将文档的词汇抽取出来，在各种语境网格下演算其匹配程度，最后收敛到最匹配的语境就代表了该文章的含义。
聚合方法 - 相比建立语境技术，聚合所采用的是基于统计的词群聚类。一般使用监督模型训练好不同语义的词群，然后分析文章的词汇主要落在那个词群中，就说明它的语义属于那个词群对应的语义。最后识别语义方式和语境下识别有相似之处，不同之处是：前者在语境图中进行匹配，后者则是通过匹配词群中匹配。

这几种方法各有利弊，简单的说：

1 语义标注方法需要人为去给词汇标注语义标签，工作量很大，而且希望以后所有网页，包括已有的网页都自觉标注很不现实；另外属性标注的正确性如何确保似乎也是一个问题。
2 建立语境同样需要人工建立，而且很多专业须有有专业背景的人来建立，想把世界上左右领域人工建立语境，不说不可能，但可能需要相当长一段时间而；另一个问题是语境建立的正确性也只能是一个含混的标准，可能需要后期的大量修正才能确保准确。
3 聚合方法是采用计算机自动完成，最省事的途径，不过它的缺点也显而易见——分类一般比较粗，且计算量较大（目前应用多在几百类这个级别上）。

解决信息孤岛问题方法：

建立全网数据库——说白了就是想办法将各个信息孤岛的数据进行统一的结构化，类似于一个妄想容纳世界所有数据，以及维护其组织关系的RMDB. 这里首先需要定义数据组织结构，也就是按照实体为单位建立schame，然后从全网上抽取出对应的字段，填充实体的内容。而抽取结构数据的做法，通常采用

1 从结构化网站爬下已经结构化好数据，如到wiki上找数据，或专业网站（比如汽车数据，自然到汽车网站）提取现成数据.
2 使用自然语言处理技术，从非结构化数据中提取需要的信息。
3 采用web2.0的方式，让网民生成数据。

语义网目前的应用探索

首先要要强调语义网的发展刚刚起步。学术界也好，企业也好，都处于懵懂时期，没并有出现非常清晰的应用模式，更不谈赢利模式了。虽然大家心里都隐约知道这玩意必然是趋势，是摇钱树，是恐龙蛋——但是谁也没法具体说出这个恐龙蛋最后孵出的是什么样的龙！

不过，既然是好东西，那当然不缺乏第一批吃螃蟹的先行者。目前世界上已经有一些公司开始尝试意开发一些以语义网技术为背景的互联网应用，这里我根据自己的认识挑几个典型的产品讲述一些目前语义网应用的发展趋势。

1 个性化服务

互联往从以门户为主的聚众时代，发展到现在以各种论坛、垂直门户为主的分众时代。那么下一步发展是什么呢？所有“专家”都无一例外的预测是个性化时代。

所谓个性化，说简单了就是为每个用户提供针对性的内容和服务。那么个性化的基础就是知道用户的“DNA”—— 这里所谓的用户DNA就是我们常说的用户的profile,或者说的个性特征——，从而给根据用户特性为用户定制服务(比如按兴趣推荐内容的个性化媒体，或者按照潜在购买需求推荐的商品等等)。

而目前最大的难题是如何获得用户的DNA, 想要获得用户DNA就需要获得有效的用户输入，而这种用户输入的获取排出掉流氓软件的非法窃取外（比如偷取你的浏览记录），主要是通过用户主动提交。而从用户提交的各种文档（主要是网页，邮件，文章，其次是照片和视频等）分析出用户的DNA则需要借助语义网技术对文档内容进行计算机自动识别（用人工作识别也可以，就怕是你给不起劳务费，因为信息量太大了。呵呵），这个技术点正好就是语义网所需要解决的第一个难题——语义识别。但是需要说明的是——个性化服务并非只有语义网一条道可走！比如baidu等根据用户关键词来确认用户的profile，这种情况并不需要复杂的语义分析就能完成——baidu的个性化广告和baidu知道等从一定意义上已经实现了个性化服务，要是你不知道自己去尝试一下吧。呵呵。

注，至于照片和视频的语义识别相比文字的语义识别要难的多得多，因为文字，词汇好歹是人思想直接表述的最小单元，而图像和视频严格的说是自然界对客观现实的反应，而非人思想的表述，因此对其内容识别够玄。当前的做法多是通过它周边的描述性词汇来猜测它的语义，比如宝马图片的周围难免会出现宝马相关的词句。

TWINE

语义网目前实现个性化服务的最主要应用是推荐系统——尤其以内容推荐为主。较为成功的应用当属TWINE (http://www.twine.com )。twine首页上就开宗明义的提到它提供的主要服务是:

发现你的兴趣
收集共享书签，提供网络书签服务
按照兴趣提供个性化推荐服务。

其中最核心的服务就在于第三点：个性化推荐。而个性化推荐前提是收集用户信息.Twine 采取两种方式完成用户信息收集。第一种是通过用户网络书签（这点和delicious，xmarks等网站无异，它们也实现站点推荐，只是方式大约是用协同过滤CF方式，而非语义识别），第二种则是通过让用户主动上传个人数据。比如自己的文档，电子邮件和YouTube视频。如果用户愿意的话，它还能自动保存用户所访问的网页，收到或发送的邮件等等。而当twine拥有了一些数据后，它会开始分析并进行分类——这正用到了语义分析技术。所以一言一蔽之Twine内部有一个语义分析为基础的智能标签引擎，可以分析用户输入的内容，自动进行内容分类。显而易见当你知道了用户提交内容的分类后，就知道了用户的DNA。

Twine在掌握语义的基础上具体提供了如下几个不错的服务：

首先可作为一个用户的个人资料自动归档系统，能将你提交的信息自动分门别类的归档整理（就像自己的个性化图书管）—— 根本不需要传统方式那样需要用户自己建立目录，或者自己打标签那么废时废力，而且也不准确统一。
其次，它可实现根据用户喜好给用户推荐内容，比如用户可能感兴趣的网站和网页（商品目前好像还没兜售吧）。
再次，它还一步瞄准了网络的社会化方向，具体的将同类用户（提交同样类别内容的人）组成了小社区圈子，实现了SNS的功能。
最后，它它还提供了社区内信息共享功能，让用户可以通过标签进行内容共享（搜索）。

这些尝试目前在美国已经取得了不错的效果，但是是否能博取广大用户的青睐呢，这个还需要很长的路。它所面临的最主要问题还是用户输入“过于复杂”，因此更多是高端用户使用，而广大中低端用户则不会或者没有耐心去完成需要的输入。如何降低用户使用门槛的最简单办法是减少用户输入，但是其代价则是降低了个性化能力，因此进退两难亚；或者干脆不慌不忙的等待用户提高技能，而逐步博得大众喜爱。到底如何是好，我们拭目以待的观察twine的发展吧，他所面临的问题大概是所有个性化服务网站都难以避免的难题。

2 语义搜索

语义网的最主要的需求来源大概是因为“用户对信息检索不断提高的要求，和当前落后的搜索工具之间的矛盾" ——偷用一句我们的政治用语。从长期看法一定是这样的。不过说实话，我看当前基于字符串匹配的web搜索引擎对于大多数人来说其实还是很够用的。但也要承认有些高端用户或者很低端的用户用现在的搜索引擎就有些吃力（这里所谓的高端或者低端并非用户社会地位，而是说互联网使用技能和耐心而言），比如很低端用户不会筛选关键词，因此往往面对数百页的搜索结果无所适从。对他们来说可能更希望采用问答的方式获得准确结果！而对于一些高端用户，比如一些分析师或者做写报告的主，则希望根据某个主数题获取网上各种维度的相关数据，这些多维数据可不可能在一个网页上全部出现（一个网站内也不会全面），因此需要搜索引擎可根据语义链接，检索全网上的相关数据为其所用。

低端客户要求的语义搜索有的地方称其为”语义分析能力的搜索引擎”(semantically enabled search engine)，其主要特点是利用自然语言处理，模式识别等技术为用户提高搜索体验。它支持用户用提问等方式，检索需要的信息，但返回的结果仍然是限于一篇网页的内容。而高端用户则看中跨信息孤岛的全网信息索引，这点更像是检索语义数据库。

因此我下面提到的一些引用就是按此层次进行归纳，先来看看抑郁分析能力的搜索引擎。在该领域我将给出三个有趣的公司。

Powerset

这个最有名（因为被互联网界的大头微软1亿美元买走了），其技术核心是用自然语言技术尝试理解句子的含义并进行匹配。它的数据源目前主要来自wiki,也就是说你可用生活中的问题去进行搜索。powerset会分析你的问题，并在wiki中找到对应答案的句子给你。—— 另外为了给用户提供更好的概况总结，它也结合了一些freebase（后面会谈到它）的结构化数据予以展示。

Cognition

这个引擎和powerset很像，特长都是自然语言处理。初期congition似乎提供了任意内容的搜索，而此刻好像更加专注——只限于提供法律，健康，wiki等有限领域的语义搜索（最赚钱的几个先做）。

自己去做个实验吧，比如搜索 who write linux kernel? 分别在两个网站上进行搜索，看看他们的结果你是否满意呢?

http://www.powerset.com/

http://wikipedia.cognition.com

Evri

Evri并没有像上面两个网站那样提供自然语言搜索为主，而是个很不错的内容组织引擎。它的核心技术并不是一个单纯的搜索引擎，因为它对对搜索结果并非不做任何加工的返回给用户，而是添加了一个复杂的语义层以强调不同搜索内容之间的关系。它的技术优势在于对搜索结果的无序内容，进行挖掘和分类——补充一下，在一个页面内对搜索内容提供概括总结似乎是目前搜索结果展示的一个趋势——而其对语义分类中最突出的地方是，强调了和结果主题相关的人，事，地几个重要维度。比如去查obama，结果中则会给出和他的基本个人情况，以及何时和地参与的事件等分类信息。

http://www.evri.com

语义搜索思考

语义搜索和关键字搜索还有一个比较大不同在于，语义搜索一般需要提供语境（或者说是知识架构），也就如同我们理解别人言语就需要知道其说话的上下文一样。断章取义的理解孤立的词往往词不达意，比如大家最爱举的例子，如果仅仅查询apple这个词，你到底是给

apple手机的内容呢，还是给真正吃的大苹果咨询呢？因此用户必须给出语境信息！那么如何给呢？机械的方式可能让用户选择语境，比如让用户搜索apple时，选择是植物类或是手机类（具体方式一般都由UE提供给用户方便选择），然后做定夺。如果智能一些的方法就是分析用户的提问，从中确定语境。

举个网上看到的不大恰当的例子吧——一个女孩希望找个男朋友，所以就把“帅” ，“有很多钱”，“有大房子”，“强壮” 等关键词输入搜索引擎，结果找到的答案是“奥特曼在银行里下象棋”这个笑话。笑完之后，我们来分析一下：帅对应到了下象棋；有钱，大房子对应到了银行；强壮对应到了奥特曼，从这几点上看都有语义分析的痕迹（可不是简单的关键词匹配呀），但却发现根本不是想要的——想要的自然是玉树临风，英俊潇洒，且少年多金的男朋友。

这里的问题就是处在语境不清，如果智能的语义引擎，就应该根绝上述的词汇分析出其语境是找男朋友。再发散思维一下，如果我们知道用户是个情窦初开的少女，那么就可更准确的提供给她个性化的语义搜索啦。那样就更不会错啦。哈哈。

3 知识库

下面我们来看上文提到的所谓高端用户需要的语义链接如何实现和应用。实现全网数据的语义链接其实就类似实现一个大的关系数据库——两个特点：1 大到了全体互联网；2 结构化或者半结构化的数据组织，可以方便进行语义查询。

很多人称其为“全网知识库”或者语义知识库。这里最出色莫过于

Freebase

它可以算作是目前世界上最大的“语义数据库”。要建立这样一个泛化的（是相对那些在特定领域定义了一些领域类的语义数据库，比如教学领域、地理领域）语义数据库，首先需要定义一个合理的数据组织方法论！

Freebase的方法论是——基本的数据层次划分为：域，类型，属性和话题（或者叫条目）。

域——是一个表示范畴的信息类别,例如旅游，战争，电影，体育等；
类型——是为一组或者称为一类具有共同特征的事物给出的信息抽象，比如人，演员，汽车等,其实很多地方叫它实体，类似于面向对象中的一个对象。
属性——是类型里的一个特定信息元素，如电影演员类型就有三个属性，电影演员，配音演员及IMDB分类等——这点类似于对象中的属性。前面几点都很直观，朴素（需要做的就是定义实体的schema，也就是包含哪些属性，这个工作多是人工完成的，对于专业领域可能还需要专业人员完成才准确）。
条目——最精彩的地方是最有一个概念——条目，它可以理解为是类型的实例（感觉是用面向对象的概念描述了信息之间的组织关系！），因此是具有对应类型属性的实例值。而各话题并非孤立的，它们之间存在各种逻辑关联（人为建立的）——它是一个信息集散地，能连接倒其他的域或者话题，他们之间的连接纽带，就是类型。类型之间按照逻辑定义了类似于网状的关系结构，不断蔓延开来，将全网信息无所不在的联系起来。

想想它的规模，真有点疯狂。需要赞扬这种信息组织方法，它清晰，适应性高，可不断演进。但愿freebase能坚持下去！

补充一点, freebase获得数据的途径如同前面所提到的3种方式。它支持web2.0，允许用户输入，比如我输入我老家xi'an可查询到它的很多结构化信息，而且我可以自己添加新的信息，比如西安的小吃，名胜等等。扩充性很棒吧！

注：Freebase的具体盈利方式，主要是通过给其他网站提供数据服务。具体到freebase网站上去看吧！

Wolfram Alpha

有地方称其为”知识引擎“（为是绘图计算器、参考书图书馆、以及搜寻引擎的综合体），可见其在知识库基础上还添加了一些分析推理功能。这个引擎的由wolfram（史蒂芬·沃尔弗拉姆）主持开发——这个人很牛，是个计算机科学家（我们都是工匠罢了，能称得上科学家又有几人呀），他试图通过把数量庞大的人类知识片段，与Mathematica用于计算、推理的众多simple program结合在一起，来完成对我们这个复杂世界的建模。可谓雄心勃勃呀！

目前Wolfram|Alpha 能帮助用户实现基于其输入的关键词或问题的统计学工作 ,除科学领域外，它还提供包括金融、技术、地理、天气、烹调、商业、旅行、人类、音乐等领域的知识和计算结果。

推理的前提是有足够的结构化数据，因此从这个方面来说它也需要首先建立庞大的全网知识库。虽然没有公布数据如何组织的，我想大概和freebase等都有类似之处吧。对于这个网站（www.wolframalpha.com），我建议大家去玩玩。你定会发现它许多惊人之处，纵然很多人认为其华而不实。

你可搜索下面的一些东东，结果一定挺不错

beijing

Sin(x)

China GDP

How many people in China

uncle's uncle's brother's son

未来什么样呢？

正如前文所说语义网的应用刚刚起步，虽然很多大师都拍着胸口预测她是大事所趋，是历史的必然选择，但谁也不能准确预测需要多久能达到此种传说中的境界。不过辩证的看她，其实这种不确定性也正说明了语义网内涵的博大精深，可挖掘，可想象的空间太大太多，以至于目前没人能指明它的发展道路和应用方向。这就好比一张白纸，才可画出最美好的图画一般。

所以对她未来目标的描述，我一个工匠不敢自作主张，妄自猜测。但有一点似乎已经明确——那就是互联网发展趋势必将向两个纬度发展（允许我剽窃一个报告的图片）：

1 向社会化发展——连接人与人
2 向语义化发展——连接知识与知识

而最终的目标似乎是The Ubiquitous Web”（无处不在的网）,具体如何定义，我也说不清楚，感觉似乎那时网络和人一样的智能，懂得思考，学习，而无所不知，无所不能。呵呵，我们仅仅向往一下就行，因为这种目标可类比共产主义，都是可以预见的近期渴望不可及的理想。但仍然但愿那一天早日来到！

你可能感兴趣的:(Web,数据库,互联网,搜索引擎,自然语言处理,Semantic)

第03讲原理探究，了解爬虫的基本原理 roc_lpy Python
转载于拉勾教育-52讲轻松搞定网络爬虫-崔庆才1.爬虫概述我们可以把互联网比作一张大网，而爬虫（即网络爬虫）便是在网上爬行的蜘蛛。如果把网的节点比作一个个网页，爬虫爬到这就相当于访问了该页面，获取了其信息。可以把节点间的连线比作网页与网页之间的链接关系，这样蜘蛛通过一个节点后，可以顺着节点连线继续爬行到达下一个节点，即通过一个网页继续获取后续的网页，这样整个网的节点便可以被蜘蛛全部爬行到，网站的数
MyBatis 注解使用指南小小小妮子~ tomcat java 开发语言 MyBatis
什么是MyBatis注解？MyBatis是一个老牌而强大的ORM框架，通过配置文件或注解来实现数据库操作。在注解模式中，你可以不用写XML配置文件，而是通过在代码中直接使用Java注解来实现。这种方式更简洁，会让你的项目代码极大约简化，同时保持构件的结构化。MyBatis注解的优势优化代码结构：较乎使用XML配置，注解使用更简洁。所有于SQL直接直观地位于接口中，汇总于一个场景中。清除多余配置文件
Python Sqlite数据库与配置文件的加载、编辑和保存 2201_75335496 数据库 sqlite python json pyqt
一、Sqlite数据库SQLite，是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它是D.RichardHipp建立的公有领域项目。它的设计目标是嵌入式的，而且已经在很多嵌入式产品中使用了它，它占用资源非常的低，在嵌入式设备中，可能只需要几百K的内存就够了。它能够支持Windows/Linux/Unix等等主流的操作系统，同时能够跟很多程序语言相结合，比如T
Node.js - Express框架蒜蓉大猩猩 Node.js node.js express 后端架构
1.介绍Express是一个基于Node.js的Web应用程序框架，主要用于快速、简便地构建Web应用程序和API。它是目前最流行的Node.jsWeb框架之一，具有轻量级、灵活和功能丰富的特点。核心概念包括路由，中间件，请求与响应，以及模板引擎支持2.Express应用的使用通过npm进行安装express包npminstallexpress示例：以下是一个最简单的Express应用程序cons
.net链接mysql简单而高效天堂镇的幽灵 .net mysql android
usingSystem;usingSystem.Collections.Generic;usingSystem.Data.SqlClient;usingSystem.Data;usingSystem.Linq;usingSystem.Web;usingMySql.Data;usingMySql.Data.MySqlClient;usingSystem.Configuration;namespace
flowable-ui 在tomcat中启动 xunbaogang ui tomcat java
使用原因：本地电脑通过命令启动flowable-ui.jar无法启动，总是提示锁定状态临时处理场景：通过阿里云租了一个月的云服务，云服务器使用centos系统，在云服务器中可以启动本地处理场景：本地使用：web服务程序：apache-tomcat-8.5.91数据库：mysql8.0.30flowable版本：flowable-6.8.0最后一个带ui的程序使用问题：直接启动时，提示缺少驱动，驱动
Spring Boot入门(19)：超酷炫！Spring Boot + Thymeleaf 带你玩转 Web 页面开发！喵手 Springboot spring boot 前端后端
前言在Web开发中，不管是MVC框架还是前后端分离，都需要使用模板引擎来渲染生成页面。Thymeleaf是一款非常优秀的模板引擎，它以自然的方式处理模板，支持HTML5标签，同时兼容HTML4。本文将介绍如何使用SpringBoot框架，整合Thymeleaf模板引擎来开发Web页面。摘要本文将分为以下几个部分:新建SpringBoot项目配置Thymeleaf模板引擎编写HTML页面模板引擎使用
JavaWeb原生框架开发JSP+Servlet+JDBC案例秦老师Q JavaWeb基础 java servlet 开发语言
目录概要功能技术名词解释技术细节1.项目列表2.网页3.Servlet小结概要JavaWeb开发案例，使用JSP、Servlet、JDBC原生框架技术，实现用户模块的功能开发，主要用于学习。功能1.注册2.登录3.用户模块3.1查询用户信息3.2删除用户信息3.3修改用户信息技术名词解释JSP：全称JavaServerPages,是由Sun公司主导创建的一种动态网页技术标准，JSP中可以编写Jav
EL表达式与JSTL标签库详解秦老师Q JavaWeb基础 java
前言本章主要学习EL表达式与JSTL标签库，用于简化JSP数据操作。收录JavaWeb基础系列，该系列主要学习JavaWeb开发原生框架、Servlet、JSP、request请求对象、response响应对象、Session会话对象、Filter过滤器、EL表达式、JSTL标签库、三层开发模型等知识点，欢迎童鞋们互相交流。觉得不错可以三连订阅喔。目标一、EL表达式1.概念2.语法3.示例4.EL
MySQL第一章 dos窗口mysql命令合集(超详细!!!)一篇就够了秦老师Q MySQL数据库基础 mysql adb 数据库 database
前言：本章节主要学习MySQL数据库在dos窗口下的基础命令，sql语句等相关知识点，收录于MySQL基础系列，该系列主要讲解MySQL数据库dos命令/sql约束/sql语句/sql连接查询等相关知识点，欢迎童鞋们互相交流。觉得不错可以三连订阅喔。目标：1连接Mysql1.1连接本机上的MYSQL1.2连接远程主机上的MYSQL1.3退出MYSQL命令2修改密码2.1给root加个密码ab122
[转载]Nodejs 利用 express 框架获取接口参数柒柒公子呐 node.js
Express是一个基于Node.js平台，快速、开放、极简的web开发框架Expresss是一个第三方模块（在npm上可以下载），在使用它之前要先去下载它，在下载包之前要先创建项目，并通过npminit创建package.json文件。1、get接口参数req.query属性express框架会自动收集get方式从url地址中传递的查询字符串参数，并自动保存在req对象的query属性中。我们直
如何利用Python下载酷狗音乐傻啦嘿哟关于python那些事儿 python 开发语言
目录一、酷狗音乐下载的挑战与解决方案二、Python下载酷狗音乐的步骤选择合适的第三方库安装you-get库下载酷狗音乐三、注意事项与常见问题版权问题链接失效下载速度四、案例与代码示例五、总结与展望随着互联网的迅猛发展，音乐已经成为人们日常生活中不可或缺的一部分。酷狗音乐作为中国领先的在线音乐平台，拥有庞大的音乐库和众多用户。然而，有时我们可能希望将酷狗音乐下载到本地，以便在没有网络或希望离线欣赏
在electron中实现一个桌面悬浮球
概要在electron+vue3搭建的应用中实现了一个桌面悬浮球/mini窗口的功能，支持任意拖拽、丝滑的菜单折叠展开动画效果。在实现过程中需要关注的一些点：1、管理悬浮球窗口创建以及配置：需要一个透明的窗口来承载视图。2、解决electron拖拽和点击事件冲突（核心）：因为使用-webkit-app-region:drag样式的方式会导致拖拽和点击事件冲突，所以需要通过渲染进程和主进程的通信来解
记录搭建一个私人搜索引擎
本人很喜欢搜索引擎技术，最近想搭建一个属于自己的私人搜索引擎，自动完成所有的出来流程，记录一下。把某个行业、某个领域，对应的网址放在一个txt文件内，接下来动动鼠标，点几下，从爬取到最后即时搜索，自动全部搞定，效果跟在百度搜索没什么两样。以下是具体的操作流程逻辑：第一步：创建一个索引任务，一键生成这个操作会自动创建对应的表，用来存放爬取的网页内容，不需要人工创建，省去一些过于细化的配置。第二步，开
如何使用Visual Studio Code调试PHP CLI应用和Web应用
Python中的class体内定义方法时，如果没有显式地包含self参数，有时候依然可以被调用。这是一个非常有趣的话题，因为它涉及到对Python中类与对象之间关系的更深理解。要理解为什么这种情况下方法依然能够被调用，我们需要逐步拆解Python类的构造方式以及方法绑定的原理。
云服务器与相关存储服务公网流量过高的问题 Joern-Lee 后台与服务器 Service 云服务器公网流量
最近作百度的一个智能音箱语音技能，发现CFC函数调用功能自从开始收费之后我的扣费一直居高不下，看了一下日志和监控发现公网流量这一项每一天都接近2GB，自己本身是Android开发出身的，数据库和后台接触不多，所以这个问题一直困扰着我，但是在朋友和同百度云服务器的工程师的交流中最终解决了该问题，不知道这个问题的解决方案是否具有泛用性又是否有很多人遇到跟我一样的问题，这里我还是贴出来一方面给自己做个笔
Spring Boot 3.x- MybatisPlus集成 laopeng301 Spring Boot 3.x教程 spring boot java 后端 mysql spring
系列文章目录系列文章:SpringBoot3.x系列教程文章目录系列文章目录简介一、快速开始1.数据库表和数据准备2.新增项目&导入依赖3.配置4.开发编码5.运行测试二、注解三、测试四、CRUDServiceCRUDMapperCRUD五、完整CRUD例子简介官网介绍:MyBatis-Plus（简称MP）是一个MyBatis的增强工具，在MyBatis的基础上只做增强不做改变，为简化开发、提高效
JavaWeb合集17-拦截器（Interceptor）和过滤器（Filter）永恒之月℡ JavaWeb合集 1024程序员节 java javaweb 过滤器拦截器
十七、拦截器和过滤器在JavaWeb开发中，拦截器（Interceptor）和过滤器（Filter）都是用于在请求处理前后执行某些操作的机制。虽然它们的功能相似，但在实现方式、使用场景和灵活性方面有一些重要的区别。1、拦截器和过滤器的区别及选择1.1拦截器定义：拦截器是Spring框架提供的一个机制，用于在请求处理前后执行某些操作。它基于AOP（面向切面编程）的思想。作用：通常用于处理与业务逻辑相
Spring 开发必备：深入解析 Spring Bean 的六大作用域码农技术栈 spring 后端微服务 spring cloud spring boot
SpringBean一共有六种作用域，我们可以将它们比作是不同场景下的“服务助手”。1.单例作用域（Singleton）：•就像餐厅里只有一个“领班助手”，无论顾客多少次呼唤，来的都是同一位助手。•在Spring容器中，单例作用域的Bean也只会有一个实例，无论在哪里获取，都是同一个对象。•适用于无状态的Bean，如数据库连接池等。2.原型作用域（Prototype）：•就像餐厅里每次顾客呼唤都会
hive批量修复分区青云游子 Hive hive 数据库 hadoop
#!/bin/bashset-x#定义Hive数据库的名称database_name="edu"#定义要排除的表名exclude_table="tab_name"#使用Hive的shell命令获取所有的表名tables=$(hive-e"USE$database_name;SHOWTABLES;")#初始化一个字符串，用于存储所有的MSCKREPAIRTABLE命令commands="USE$da
整理一下一些Qt/C++第三方库 MayZork qt 开发语言 c++
boost一个广泛的C++库集合，提供了大量的功能模块，包括但不限于数据结构、算法、并发编程、网络编程、文件系统、正则表达式、序列化等。poco也是一个广泛的C++库集合，提供了一套丰富的功能模块，包含网络通信、HTTP、文件系统、XML、JSON、数据库等。libevent轻量级的C语言库，主要用于异步网络编程。它提供了对I/O复用的支持，使得开发者可以在单线程中同时处理多个连接。QCustom
PouchDB + Dexie.js：构建高效的离线优先同步方案 maply 前端 Node.js javascript 开发语言前端 dexie.js PouchDB IndexedDB
PouchDB+Dexie.js：构建高效的离线优先同步方案在现代Web应用中，离线优先(Offline-First)已成为提升用户体验的关键策略。尤其是在网络环境不稳定的情况下，用户仍然可以访问和操作数据，并在网络恢复后自动同步。PouchDB和Dexie.js是IndexedDB生态中两款强大的库，结合它们可以构建一个高效、可扩展的离线优先同步方案。在这篇文章中，我们将深入探讨：Dexie.j
php.ini配置中有10处设置不当，会使网站存在安全问题瑆箫 php 安全开发语言
在php.ini配置文件中，有一些设置如果配置不当，可能会导致网站面临安全风险。PHP的安全性很大程度上依赖于这些配置选项的正确设置。以下是10个可能存在安全问题的PHP配置项，如果配置不当，可能会导致网站存在安全漏洞：1.display_errors问题：启用错误显示时，PHP会将错误信息直接输出到浏览器，这可能会泄露敏感信息（如数据库密码、文件路径等）给攻击者。解决方法：应该禁用错误显示，特别
【MySQL】JDBC的连接 m0_74823388 mysql 数据库
目录一.具体操作如下1.注册驱动二.实操JDBC（JavaDataBaseConnectivity）java数据库连接，是JavaEE平台下的技术规范，其定义了在Java语言中连接数据，执行SQL语句的标准，可以为多种关系数据库提供统一访问。一.具体操作如下1.注册驱动Class.forName("com.mysql.cj.jdbc.Driver");2.获取连接DriverManager(驱动管
Python的简介-课前甜点 cheese-liang Python实用小技巧 python 开发语言
Python的简介-课前甜点1.`Python`需求的任务2.Python代码的实现3.代码修改的位置4.运行结果5.注意事项6.其他文章链接快来试试吧Python的简介点击这里也可以查看1.Python需求的任务如果您的工作主要是用电脑完成的，总有一天您会想能不能自动执行一些任务。比如，对大量文本文件执行查找、替换操作；利用复杂的规则重命名、重排序一堆照片文件；也可能您想编写一个小型数据库、或开
【LLM】大语言模型（LLMs）林九生人工智能语言模型人工智能自然语言处理
大型语言模型（LLMs）1.什么是大型语言模型？大型语言模型（LargeLanguageModel，LLM）是基于深度学习的自然语言处理模型，能够理解和生成自然语言文本。它们通过在大规模文本数据上进行训练，学习语言的语法、语义和各种语言特征，从而可以执行诸如文本生成、翻译、总结、问答等多种语言任务。以下是大型语言模型的定义和基本原理：1.1定义大型语言模型是由大量参数组成的神经网络，这些参数通过在
全新 Hopper 架构的Transformer 引擎有什么特点？扫地的小何尚人工智能
Transformer引擎是全新Hopper架构的一部分，将显著提升AI性能和功能，并助力在几天或几小时内训练大型模型。Transformer模型是当今广泛使用的语言模型（例如asBERT和GPT-3）的支柱。Transformer模型最初针对自然语言处理用例而开发，但因其通用性，现在逐步应用于计算机视觉、药物研发等领域。与此同时，模型大小不断呈指数级增长，现在已达到数万亿个参数。由于计算量巨大，
大语言模型（LLMs）入门教程（非常详细）从零基础入门到精通，看完这一篇就够了大模型零基础教程语言模型人工智能自然语言处理大模型
大语言模型（LLMs）作为人工智能（AI）领域的一项突破性发展，已经改变了自然语言处理（NLP）和机器学习（ML）应用的面貌。这些模型，包括OpenAI的GPT-4o和Google的gemini系列等，已经展现出了在理解和生成类人文本方面的令人印象深刻的能力，使它们成为各行各业的宝贵工具。如下这份指南将涵盖LLMs的基础知识、训练过程、用例和未来趋势……一.WhatareLargeLanguage
node笔记05——Nodejs学习之Express中间件与接口的编写，GET和POST接口的编写和案例演示。 noahsark747 学习中间件前端
认识expressexpress是基于Node.js平台的web开发框架作用和Node.js内置的http模块类似，是专门用来创建Web服务器的。本质上Express就是一个npm的第三方包提供了快速创建Web服务器的便捷方法。中文官网：expressjs.com.cnexpress的作用：快速方便的创建Web网站服务器和API接口服务器express的基本使用一、下载express包npmiex
Nodejs 利用 express 第三方模块获取接口参数 H-萝贝 node.js
Express是一个基于Node.js平台，快速、开放、极简的web开发框架Expresss是一个第三方模块（在npm上可以下载），在使用它之前要先去下载它，在下载包之前要先创建项目，并通过npminit创建package.json文件。1、get接口参数req.query属性express框架会自动收集get方式从url地址中传递的查询字符串参数，并自动保存在req对象的query属性中。我们直
数据采集高并发的架构应用 3golden .net
问题的出发点：最近公司为了发展需要，要扩大对用户的信息采集，每个用户的采集量估计约2W。如果用户量增加的话，将会大量照成采集量成3W倍的增长，但是又要满足日常业务需要，特别是指令要及时得到响应的频率次数远大于预期。 &n
不停止 MySQL 服务增加从库的两种方式 brotherlamp linux linux视频 linux资料 linux教程 linux自学
现在生产环境MySQL数据库是一主一从，由于业务量访问不断增大，故再增加一台从库。前提是不能影响线上业务使用，也就是说不能重启MySQL服务，为了避免出现其他情况，选择在网站访问量低峰期时间段操作。一般在线增加从库有两种方式，一种是通过mysqldump备份主库，恢复到从库，mysqldump是逻辑备份，数据量大时，备份速度会很慢，锁表的时间也会很长。另一种是通过xtrabacku
Quartz——SimpleTrigger触发器 eksliang SimpleTrigger TriggerUtils quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208166 一.概述 SimpleTrigger触发器，当且仅需触发一次或者以固定时间间隔周期触发执行；二.SimpleTrigger的构造函数 SimpleTrigger(String name, String group)：通过该构造函数指定Trigger所属组和名称； Simpl
Informatica应用（1） 18289753290 sql workflow lookup 组件 Informatica
1.如果要在workflow中调用shell脚本有一个command组件，在里面设置shell的路径；调度wf可以右键出现schedule，现在用的是HP的tidal调度wf的执行。 2.designer里面的router类似于SSIS中的broadcast（多播组件）;Reset_Workflow_Var：参数重置（比如说我这个参数初始是1在workflow跑得过程中变成了3我要在结束时还要
python 获取图片验证码中文字酷的飞上天空 python
根据现成的开源项目 http://code.google.com/p/pytesser/改写在window上用easy_install安装不上看了下源码发现代码很少于是就想自己改写一下添加支持网络图片的直接解析 #coding:utf-8 #import sys #reload(sys) #sys.s
AJAX 永夜-极光 Ajax
1.AJAX功能:动态更新页面,减少流量消耗,减轻服务器负担 2.代码结构: <html> <head> <script type="text/javascript"> function loadXMLDoc() { .... AJAX script goes here ...
创业OR读研随便小屋创业
现在研一，有种想创业的想法，不知道该不该去实施。因为对于的我情况这两者是矛盾的，可能就是鱼与熊掌不能兼得。研一的生活刚刚过去两个月，我们学校主要的是
需求做得好与坏直接关系着程序员生活质量 aijuans IT 生活
这个故事还得从去年换工作的事情说起，由于自己不太喜欢第一家公司的环境我选择了换一份工作。去年九月份我入职现在的这家公司，专门从事金融业内软件的开发。十一月份我们整个项目组前往北京做现场开发，从此苦逼的日子开始了。系统背景：五月份就有同事前往甲方了解需求一直到6月份，后续几个月也完
如何定义和区分高级软件开发工程师 aoyouzi
在软件开发领域，高级开发工程师通常是指那些编写代码超过 3 年的人。这些人可能会被放到领导的位置，但经常会产生非常糟糕的结果。Matt Briggs 是一名高级开发工程师兼 Scrum 管理员。他认为，单纯使用年限来划分开发人员存在问题，两个同样具有 10 年开发经验的开发人员可能大不相同。近日，他发表了一篇博文，根据开发者所能发挥的作用划分软件开发工程师的成长阶段。　　初
Servlet的请求与响应百合不是茶 servlet get提交 java处理post提交
Servlet是tomcat中的一个重要组成,也是负责客户端和服务端的中介 1,Http的请求方式(get ,post); 客户端的请求一般都会都是Servlet来接受的,在接收之前怎么来确定是那种方式提交的,以及如何反馈,Servlet中有相应的方法, http的get方式 servlet就是都doGet(
web.xml配置详解之listener bijian1013 java web.xml listener
一.定义 <listener> <listen-class>com.myapp.MyListener</listen-class> </listener> 二.作用该元素用来注册一个监听器类。可以收到事件什么时候发生以及用什么作为响
Web页面性能优化（yahoo技术） Bill_chen JavaScript Ajax Web css Yahoo
1.尽可能的减少HTTP请求数 content 2.使用CDN server 3.添加Expires头(或者 Cache-control) server 4.Gzip 组件 server 5.把CSS样式放在页面的上方。 css 6.将脚本放在底部(包括内联的) javascript 7.避免在CSS中使用Expressions css 8.将javascript和css独立成外部文
【MongoDB学习笔记八】MongoDB游标、分页查询、查询结果排序 bit1129 mongodb
游标游标，简单的说就是一个查询结果的指针。游标作为数据库的一个对象，使用它是包括声明打开循环抓去一定数目的文档直到结果集中的所有文档已经抓取完关闭游标游标的基本用法，类似于JDBC的ResultSet(hasNext判断是否抓去完,next移动游标到下一条文档)，在获取一个文档集时，可以提供一个类似JDBC的FetchSize
ORA-12514 TNS 监听程序当前无法识别连接描述符中请求服务的解决方法白糖_ ORA-12514
今天通过Oracle SQL*Plus连接远端服务器的时候提示“监听程序当前无法识别连接描述符中请求服务”，遂在网上找到了解决方案： ①打开Oracle服务器安装目录\NETWORK\ADMIN\listener.ora文件，你会看到如下信息： # listener.ora Network Configuration File: D:\database\Oracle\net
Eclipse 问题 A resource exists with a different case bozch eclipse
在使用Eclipse进行开发的时候，出现了如下的问题： Description Resource Path Location TypeThe project was not built due to "A resource exists with a different case: '/SeenTaoImp_zhV2/bin/seentao'.&
编程之美-小飞的电梯调度算法 bylijinnan 编程之美
public class AptElevator { /** * 编程之美小飞电梯调度算法 * 在繁忙的时间，每次电梯从一层往上走时，我们只允许电梯停在其中的某一层。 * 所有乘客都从一楼上电梯，到达某层楼后，电梯听下来，所有乘客再从这里爬楼梯到自己的目的层。 * 在一楼时，每个乘客选择自己的目的层，电梯则自动计算出应停的楼层。 * 问：电梯停在哪
SQL注入相关概念 chenbowen00 sql Web 安全
SQL Injection：就是通过把SQL命令插入到Web表单递交或输入域名或页面请求的查询字符串，最终达到欺骗服务器执行恶意的SQL命令。具体来说，它是利用现有应用程序，将（恶意）的SQL命令注入到后台数据库引擎执行的能力，它可以通过在Web表单中输入（恶意）SQL语句得到一个存在安全漏洞的网站上的数据库，而不是按照设计者意图去执行SQL语句。首先让我们了解什么时候可能发生SQ
[光与电]光子信号战防御原理 comsci 原理
无论是在战场上,还是在后方,敌人都有可能用光子信号对人体进行控制和攻击,那么采取什么样的防御方法,最简单,最有效呢? 我们这里有几个山寨的办法,可能有些作用,大家如果有兴趣可以去实验一下根据光
oracle 11g新特性:Pending Statistics daizj oracle dbms_stats
oracle 11g新特性:Pending Statistics 转从11g开始，表与索引的统计信息收集完毕后，可以选择收集的统信息立即发布，也可以选择使新收集的统计信息处于pending状态，待确定处于pending状态的统计信息是安全的，再使处于pending状态的统计信息发布，这样就会避免一些因为收集统计信息立即发布而导致SQL执行计划走错的灾难。在 11g 之前的版本中，D
快速理解RequireJs dengkane jquery requirejs
RequireJs已经流行很久了，我们在项目中也打算使用它。它提供了以下功能：声明不同js文件之间的依赖可以按需、并行、延时载入js库可以让我们的代码以模块化的方式组织初看起来并不复杂。在html中引入requirejs 在HTML中，添加这样的 <script> 标签： <script src="/path/to
C语言学习四流程控制if条件选择、for循环和强制类型转换 dcj3sjt126com c
# include <stdio.h> int main(void) { int i, j; scanf("%d %d", &i, &j); if (i > j) printf("i大于j\n"); else printf("i小于j\n"); retu
dictionary的使用要注意 dcj3sjt126com IO
NSDictionary *dict = [NSDictionary dictionaryWithObjectsAndKeys: user.user_id , @"id", user.username , @"username",
Android 中的资源访问(Resource) finally_m xml android String drawable color
简单的说，Android中的资源是指非代码部分。例如，在我们的Android程序中要使用一些图片来设置界面，要使用一些音频文件来设置铃声，要使用一些动画来显示特效，要使用一些字符串来显示提示信息。那么，这些图片、音频、动画和字符串等叫做Android中的资源文件。在Eclipse创建的工程中，我们可以看到res和assets两个文件夹，是用来保存资源文件的，在assets中保存的一般是原生
Spring使用Cache、整合Ehcache 234390216 spring cache ehcache @Cacheable
Spring使用Cache 从3.1开始，Spring引入了对Cache的支持。其使用方法和原理都类似于Spring对事务管理的支持。Spring Cache是作用在方法上的，其核心思想是这样的：当我们在调用一个缓存方法时会把该方法参数和返回结果作为一个键值对存放在缓存中，等到下次利用同样的
当druid遇上oracle blob(clob) jackyrong oracle
http://blog.csdn.net/renfufei/article/details/44887371 众所周知，Oracle有很多坑, 所以才有了去IOE。在使用Druid做数据库连接池后，其实偶尔也会碰到小坑，这就是使用开源项目所必须去填平的。【如果使用不开源的产品，那就不是坑，而是陷阱了，你都不知道怎么去填坑】用Druid连接池，通过JDBC往Oracle数据库的
easyui datagrid pagination获得分页页码、总页数等信息 ldzyz007
var grid = $('#datagrid'); var options = grid.datagrid('getPager').data("pagination").options; var curr = options.pageNumber; var total = options.total; var max =
浅析awk里的数组 nigelzeng 二维数组 array 数组 awk
awk绝对是文本处理中的神器，它本身也是一门编程语言，还有许多功能本人没有使用到。这篇文章就单单针对awk里的数组来进行讨论，如何利用数组来帮助完成文本分析。有这么一组数据： abcd,91#31#2012-12-31 11:24:00 case_a,136#19#2012-12-31 11:24:00 case_a,136#23#2012-12-31 1
搭建 CentOS 6 服务器(6) - TigerVNC rensanning centos
安装GNOME桌面环境 # yum groupinstall "X Window System" "Desktop" 安装TigerVNC # yum -y install tigervnc-server tigervnc 启动VNC服务 # /etc/init.d/vncserver restart # vncser
Spring 数据库连接整理 tomcat_oracle spring bean jdbc
1、数据库连接jdbc.properties配置详解　　jdbc.url=jdbc:hsqldb:hsql://localhost/xdb 　　jdbc.username=sa 　　jdbc.password= 　　jdbc.driver=不同的数据库厂商驱动，此处不一一列举　　接下来，详细配置代码如下：　　 Spring连接池
Dom4J解析使用xpath java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常 xp9802
用Dom4J解析xml,以前没注意,今天使用dom4j包解析xml时在xpath使用处报错异常栈：java.lang.NoClassDefFoundError: org/jaxen/JaxenException异常导入包 jaxen-1.1-beta-6.jar 解决; &nb