信息检索综合报告

赵静2014141093041

**读书笔记:**

1元数据是对信息的陈述,元数据是对某个潜在信息对象做出的陈述。

2元数据的模式指一个规则集,规定允许进行哪些类型的主谓宾以及如何做出这样的陈述。例如日期的形式必须为年/月/日,规定了你应当提供什么数据以及应以什么样的形式提供数据。

3元素就是这个信息,这个实体的各个方面,元素的值是分配给某个元素的值,例如姓名-赵静,姓名就是元素,赵静就是元素的值。

4语法编码:规定如何表达或编制某种具体数据类型,单独的元数据元素有自己特定的语法编码体系,国际标准ISO 8601

5受控词汇表提供了可最终付诸应用的一个有限字符串集。例如LCSH,能将主题目标串联起来,形成所谓的细分。轮渡——华盛顿州——西雅图——1889年,用这种组合形式确定信息的陈述。还可以重新排列主题标目,从而运用潜在有限的术语集合来构建出几乎无限墨术语。

6规范文档提供一个有限的字符串集合,采用受控词汇表时,这个字符串的引用“马克.吐温”时唯一可接受的术语。

7叙词表,元素之间结构构成,包含使用这些术语命名的实体之间的关系。LSCH通过广义术语和狭义术语来说明层级关系,哪个词包含的范围更大,实体更多。USE FOR 关系说明某一特定术语是首选术语,如果你使用A,B是首选用于,而不是其他C或者D。

8元数据会失控,互联网成为不可控词汇表生长的热土。不可控词汇表允许使用任何术语。

9元数据记录:“一对一原则”,即一个资源只能有一条记录。

10元数据可能存在于两个位置:内部与外部。记录存在其代指的资源之中或者独立于该资源。

11唯一识别符可以用于唯一地识别某个实体,避免与其他实体混淆。一般来说,名字与地址是唯一的识别符。

**企业管理元数据:**

经过这些年的发展,国内外厂商在元数据管理能力的建设上有了一定的经验积累,企业级元数据管理正吸引着越来越多的厂商关注,有望成为未来元数据管理的主流方向,提出了企业级元数据管理需要具备的基本能力,并简要分析了未来企业级元数据管理体系架构的技术趋势。

企业级元数据管理将成为企业信息管理的核心

��-�����t

robots

http://www.tmall.com/robots.txt

User-agent: *

Disallow: /

针对所有的爬虫,并且所有内容都不允许爬

https://www.jd.com/robots.txt

User-agent: *

Disallow: /?*

Disallow: /pop/*.html

Disallow: /pinpai/*.html?*

User-agent: EtaoSpider

Disallow: /

User-agent: HuihuiSpider

Disallow: /

User-agent: GwdangSpider

Disallow: /

User-agent: WochachaSpider

Disallow: /

针对所有的爬虫,不允许爬取上面两个html,

Disallow: /?*表示不允许爬取以?开头的url

EtaoSpider

HuihuiSpider

GwdangSpider

WochachaSpider

这四个机器人所有内容都不允许爬取

https://www.amazon.cn/robots.txt

User-agent: *所有爬虫都适用

Disallow: /buycar

Disallow: /cart

Disallow: /checkout

Disallow: /class

Disallow: /com

Disallow: /common

Disallow: /css

Disallow: /dll

Disallow: /doc

Disallow: /dp/e-mail-friend/

Disallow: /dp/manual-submit/

Disallow: /dp/product-availability/

Disallow: /dp/rate-this-item/

Disallow: /dp/shipping/

Disallow: /dp/twister-update/

Disallow: /gp/aws/ssop

Disallow: /gp/cart

Disallow: /gp/css/homepage.html

Disallow: /gp/customer-reviews/common/du

Disallow: /gp/flex

Disallow: /gp/gfix

Disallow: /gp/history

Disallow: /gp/item-dispatch

Disallow: /gp/music/clipserve

Disallow: /gp/music/wma-pop-up

Disallow: /gp/offer-listing

Disallow: /gp/product/e-mail-friend

Disallow: /gp/product/product-availability

Disallow: /gp/product/rate-this-item

Disallow: /gp/recsradio

Disallow: /gp/slredirect

Disallow: /gp/twitter/

Disallow: /gp/vote

Disallow: /gp/voting/

Disallow: /gp/yourstore

Disallow: /inc

Disallow: /js

Disallow: /lib

Disallow: /mn/bookLookInsideApp

Disallow: /mn/checkInitApp

Disallow: /mn/checkoutAlertMsgApp

Disallow: /mn/checkoutredirectApp

Disallow: /mn/giftCardApp

Disallow: /mn/loginApplication

Disallow: /mn/loyaltyApp

Disallow: /mn/orderAddrApp

Disallow: /mn/orderCfmApp

Disallow: /mn/orderDetailApp

Disallow: /mn/orderFailApp

Disallow: /mn/orderHistoryApp

Disallow: /mn/orderModifyApp

Disallow: /mn/orderSummaryApp

Disallow: /mn/paymentRedriveApp

Disallow: /mn/recommendReviewApp

Disallow: /mn/releaseReviewApp

Disallow: /mn/reviewVoteApplication

Disallow: /mn/selectPaymentMethodApp

Disallow: /mn/selectShippingOpptionApplication

Disallow: /mn/shipmentTraceApp

Disallow: /mn/shoppingCartApplication

Disallow: /mn/tellFriend

Disallow: /mn/thankYouApplication

Disallow: /mn/virtualAccountApp

Disallow: /mn/yourAccountApp

Disallow: /paper

Disallow: /xml

Disallow: /youraccount

Disallow: /ap/signin

Disallow: /gp/registry/wishlist/

Disallow: /wishlist/

Allow: /wishlist/universal*

Allow: /wishlist/vendor-button*

Allow: /wishlist/get-button*

Disallow: /gp/wishlist/

Allow: /gp/wishlist/universal*

Allow: /gp/wishlist/vendor-button*

Allow: /gp/wishlist/ipad-install*

Disallow: /registry/wishlist/

Disallow: /gp/help/contact-us/general-questions.html*?type&email&skip=true

Disallow: /gp/help/customer/accessibility?ie=UTF8&initialIssue=forgotpw&skip=true

Disallow: /gp/registry/search.html

Disallow: /gp/orc/rml/

Disallow: /gp/digital/fiona/manage

Disallow: /gp/entity-alert/external

Disallow: /gp/customer-reviews/dynamic/sims-box

Disallow: /review/dynamic/sims-box

Disallow: /gp/redirect.html

Disallow: /gp/customer-media/upload/

Disallow: /gp/customer-media/actions/delete/

Disallow: /gp/customer-media/actions/edit-caption/

Disallow: /gp/dmusic/

Disallow: /registry

Disallow: /*/wishlist

Disallow: /gp/registry

Disallow: /gp/aag

Disallow: /gp/socialmedia/giveaways

Disallow: /gp/aw/so.html

Disallow: /gp/pdp/profile/

Disallow: /gp/help/customer/display.html*nodeId=200843370

Disallow: /gp/help/customer/display.html*nodeId=200877580

Disallow: /gp/help/customer/display.html*nodeId=200877590

Disallow: /gp/help/customer/display.html*nodeId=200879080

Disallow: /gp/help/customer/display.html*nodeId=200879100

Disallow: /gp/help/customer/display.html*nodeId=200879120

Disallow: /gp/help/customer/display.html*nodeId=200879160

Disallow: /gp/help/customer/display.html*nodeId=200879140

Disallow: /gp/help/customer/display.html*nodeId=200877610

Disallow: /gp/help/customer/display.html*nodeId=200878960

Disallow: /gp/help/customer/display.html*nodeId=200878980

Disallow: /gp/help/customer/display.html*nodeId=200879000

Disallow: /gp/help/customer/display.html*nodeId=200879040

Disallow: /gp/help/customer/display.html*nodeId=200879020

Disallow: /gp/help/customer/display.html*nodeId=200877630

Disallow: /gp/help/customer/display.html*nodeId=200879200

Disallow: /gp/help/customer/display.html*nodeId=200879220

Disallow: /gp/help/customer/display.html*nodeId=200879240

Disallow: /gp/help/customer/display.html*nodeId=200879280

Disallow: /gp/help/customer/display.html*nodeId=200879260

Disallow: /gp/help/customer/display.html*nodeId=200877650

Disallow: /gp/help/customer/display.html*nodeId=200879320

Disallow: /gp/help/customer/display.html*nodeId=200879340

Disallow: /gp/help/customer/display.html*nodeId=200879360

Disallow: /gp/help/customer/display.html*nodeId=200879400

Disallow: /gp/help/customer/display.html*nodeId=200879380

Disallow: /gp/help/customer/display.html*nodeId=200877560

Disallow: /gp/help/customer/display.html*nodeId=200843460

Disallow: /gp/help/customer/display.html*nodeId=200843440

Disallow: /gp/help/customer/display.html*nodeId=200899270

Disallow: /gp/help/customer/display.html*nodeId=200879440

Disallow: /gp/help/customer/display.html*nodeId=200899330

Disallow: /gp/help/customer/display.html*nodeId=200899350

Disallow: /gp/help/customer/display.html*nodeId=200899390

Disallow: /gp/help/customer/display.html*nodeId=200899410

Disallow: /gp/help/customer/display.html*nodeId=200899430

Disallow: /gp/help/customer/display.html*nodeId=200899220

Disallow: /gp/help/customer/display.html*nodeId=200899450

Disallow: /gp/help/customer/display.html*nodeId=200899670

Disallow: /gp/help/customer/display.html*nodeId=200899530

Disallow: /gp/help/customer/display.html*nodeId=200899470

Disallow: /gp/help/customer/display.html*nodeId=200899550

Disallow: /gp/help/customer/display.html*nodeId=200899570

Disallow: /gp/help/customer/display.html*nodeId=200899510

Disallow: /gp/help/customer/display.html*nodeId=200899610

Disallow: /gp/help/customer/display.html*nodeId=200899630

Disallow: /gp/help/customer/display.html*nodeId=200899650

Disallow: /gp/help/customer/display.html*nodeId=200879180

Disallow: /gp/help/customer/display.html*nodeId=200879060

Disallow: /gp/help/customer/display.html*nodeId=200879300

Disallow: /gp/help/customer/display.html*nodeId=200879420

Disallow: /gp/help/customer/display.html*nodeId=200899290

Disallow: /gp/help/customer/display.html*nodeId=200899310

Disallow: /gp/help/customer/display.html*nodeId=200843380

Disallow: /gp/help/customer/display.html*nodeId=200843420

Disallow: /gp/help/customer/display.html*nodeId=200899230

Disallow: /gp/help/customer/display.html*nodeId=200899250

Disallow: /gp/help/customer/display.html*nodeId=200899370

Disallow: /reviews/iframe

Disallow: /gp/help/reports/infringement/jquery/handle-notice-submit.html

Disallow: /gp/help/customer/handler/handle-email-submit.html

scrapy实验报告

赵静    信管   2014141093041

阿里云  IP:120.24.46.77      系统用户名: root

第一步:连接服务器

信息检索综合报告_第1张图片
信息检索综合报告_第2张图片

第二步:激活并且进入虚拟环境

信息检索综合报告_第3张图片
信息检索综合报告_第4张图片

第三步:本地编写spider代码并上传

抓取html

信息检索综合报告_第5张图片

此时文件为py文件,并且把它放入name下的spiders文件夹下面

信息检索综合报告_第6张图片
信息检索综合报告_第7张图片
信息检索综合报告_第8张图片

scrapy crawl slx_quotes

find / -name slx-quotes-1.html

生成html文件

信息检索综合报告_第9张图片

第四步:Scrapy爬取多页Json数据

本地编写Spiders文件

信息检索综合报告_第10张图片

crapy crawl slx_quotes_spider -o zj_777777.json

信息检索综合报告_第11张图片

生成json文件抓取四川大学公共管理学院动态新闻及详情页

赵静       信管

因为我们小组重新重置了阿里云,所以需要重新配置环境,

信息检索综合报告_第12张图片
信息检索综合报告_第13张图片
信息检索综合报告_第14张图片
信息检索综合报告_第15张图片
信息检索综合报告_第16张图片

开始抓取

信息检索综合报告_第17张图片
信息检索综合报告_第18张图片
信息检索综合报告_第19张图片
信息检索综合报告_第20张图片
信息检索综合报告_第21张图片

抓取的spider如下:

信息检索综合报告_第22张图片

spider1

我选择从more那一页进行抓取,即

信息检索综合报告_第23张图片

可以看到url

抓取这一页的每个新闻的url,再进一步抓取详情页的标题、时间、内容、图片等信息。

当spider 1 时,可以正确的爬取标题、时间、内容,结果如下:

信息检索综合报告_第24张图片

把抓取图片的代码加入,抓取图片的url

信息检索综合报告_第25张图片

spider2

当spider2 时,就是把图片抓取加进去时,并不能抓取图片的url

信息检索综合报告_第26张图片

综上:成功实现抓取标题、时间、内容,未成功地抓取图片url.

信息检索综合报告_第27张图片

mmseg4j分词报告

一、创建java环境,下载JDK并且运行

信息检索综合报告_第28张图片

二、下载中文分词包mmseg4j,并且下载相应的压缩文件

mmseg4j-core-1.10.0.jar

mmseg4j-analysis-1.9.1.jar

mmseg4j-solr-2.4.0.jar

三、运行windows cmd

信息检索综合报告_第29张图片

四、检查java环境

java -version

五、运行mmseg4j-core-1.10.0.jar

信息检索综合报告_第30张图片

分词内容为:

2017年4月27日到29日,案例中心杯首届“中国研究生公共管理案例大赛”在浙江大学紫金港校区举行,我院MPA代表队荣获大赛二等奖。本次参赛队伍由全国MPA教指委委员、公共管理学院院长姜晓萍教授带队,代表队由我院2016级MPA学生王丹华、周雄超、周玥伶和申洋组成,指导教师为郭金云。选取的案例为《信用保卫战:以“全程服务”化解地方政府“骗婚式”招商之尬》,在参赛的143所院校的671支队伍中经过激烈角逐脱颖而出进入大赛16强,并荣获二等奖。在现场展示环节,我院代表队充分展示了川大人的品质和风采,获得现场师生和兄弟院校的一致好评。

分词结果为:

信息检索综合报告_第31张图片

六、利用Complex方法进行分词

分词结果为:

信息检索综合报告_第32张图片

课上实验报告

1启动solr

使用我们自己的云服务器http://120.24.46.77:8983/solr/#/

root@iZwz917cdsoqcbr42li3daZ:~# cd /opt/solr-6.3.0

root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0# cd server

root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0/server# chmod 777 logs

root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0/server# cd ..

root@iZwz917cdsoqcbr42li3daZ:/opt/solr-6.3.0# bin/solr start -e techproducts

信息检索综合报告_第33张图片

根据老师给的ppt完成strat   solr

信息检索综合报告_第34张图片

2查看techproducts目录

包括:

overview

analysis

dataimport

documents

files

ping(2ms)

plugins /stats

query

replication

schema

segments info

索引数据的文件位置是

信息检索综合报告_第35张图片
信息检索综合报告_第36张图片

下载到本地index

信息检索综合报告_第37张图片

数据导入

solr  的目录

(1)bin:是脚本的启动目录

(2)contrib:第三方包存放的目录

(3)dev-tools:跟开发工具相关的包

(4)dist:编译打包后存放目录,即构建后的输出产物存放的目录

(5)docs:solr文档的存放目录

(6)example:示范例子的存放目录,这里展示了DIH,即数据导入处理的例子

(7)licenses:权限相关的

(8)lucene:solr基于Lucene开发,本身是lucene代码的目录,但是构建后都为空,相关东西已经到jar包中

(9)server:即solr搜索引擎框架,基于jetty web服务器开发的。包含jetty服务器的配置。(这个目录就类似于一个包含了tomcat服务器,里面有一个基于solr的web工程)

信息检索综合报告_第38张图片

查找

信息检索综合报告_第39张图片

你可能感兴趣的:(信息检索综合报告)