一堆信息抽取的资料文档(转载自:fullsearch.com)

一堆信息抽取的资料文档
http://FullSearch.Com 中文全文检索网 2005-11-25 14:19:09 sigz
关键词:结构化信息抽取

“一堆”,就是没有整理,是堆放的。不是自己写的,是找来的。
我会在这里继续添加的,依然是“堆”。有兴趣的可以看看,没有兴趣的就别碰了。

有谁有什么好文,拿出来大家共分享。

1.网上信息抽取技术纵览(下载) 
Line Eikvil 原著 (1999.7) 陈鸿标 译 (2003.3)
信息抽取(Information Extraction: IE是把文本里包含的信息进行结构化处理,变成表格一样的组织形式。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。这就是信息抽取的主要任务………
第一章导论
第二章简要介绍信息抽取技术
第三章介绍网页分装器(wrapper)的开发
第四章介绍已经开发出来的网站信息抽取系统
第五章介绍信息抽取技术的应用范围以及首批已经进入商业运作的商用系统

2.Language Independent Named Entity Recognition Combining Morphological and Contextual Evidence
 Silviu Cucerzan ,David Yarowsky
 一种独立于语言的命名实体识别方法。


3.信息抽取研究综述 
  王建会对自动摘要算法改进方面所做的研究工作


4.信息抽取综述
  这是介绍信息抽取(Information Extraction)的一篇报告,包括MUC、Web抽取(Web Extraction)等。


5.FASTUS: A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text
  本文介绍了FASTUS系统,这是一个从自然语言文本中进行信息抽取的系统, 抽取来的信息输入数据库或者用作其它用途。


6.MUC-7 Information Extraction Task Definition
  MUC-7信息抽取任务的定义


7.OVERVIEW OF MUC-7/MET-2
 本文简要介绍了MUL-7/MET-2的任务


8.Information Extraction: Techniques and Challenges
本文介绍了IE(Information Extration)技术(18页)。


9.信息抽取研究综述李保利,陈玉忠,俞士汶
摘要:信息抽取研究旨在为人们提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。与信息检索不同,信息抽取直接从自然语言文本中抽取事实信息。过去十多年来,信息抽取逐步发展成为自然语言处理领域的一个重要分支,其独特的发展轨迹——通过系统化、大规模地定量评测推动研究向前发展,以及某些成功启示,如部分分析技术的有效性、快速NLP系统开发的必要性,都极大地推动了自然语言处理研究的发展,促进了NLP研究与应用的紧密结合。回顾信息抽取研究的历史,总结信息抽取研究的现状,将有助于这方面研究工作向前发展。


10.Class-based Language Modeling for Named Entity Identification (Draft)
Jian Sun, Ming Zhou, Jianfeng Gao


(Accepted by special issue ///////"Word Formation and Chinese Language processing///////" of the International Journal of Computational Linguistics and Chinese Language Processing) Abstract: We address in this paper the problem of Chinese named entity (NE) identification using class-based language models (LM). This study is concentrated on three kinds of NEs that are most commonly used, namely, personal name (PER), location name (LOC) and organization name (ORG). Our main contributions are three-fold: (1) In our research, Chinese word segmentation and NE identification have been integrated into a unified framework. It consists of several sub-models, each of which in turn may include other sub-models, leads to the overall model a hierarchical architecture. The class-based hierarchical LM not only effectively captures the features of named entities, but also handles the data sparseness problem. (2) Modeling for NE abbreviation is put forward. Our modeling-based method for NE abbreviation has significant advantages over rule-based ones. (3) In addition, we employ a two-level architecture for ORG model, so that the nested entities in organization names can be identified. When decoding, two-step strategy is adopted: identifying PER and LOC; and identifying ORG. The evaluation on a large, wide-coverage open-test data has empirically demonstrated that the class-based hierarchical language modeling, which integrates segmentation and NE identification, unifies the abbreviation modeling into one framework, has achieved competitive results of Chinese NE identification.


11.BBN公司的信息抽取系统SIFT(中文详细说明)
Scott Miller, Michael Crystal, Heidi Fox, Lance Ramshaw, Richard Schwartz,
这是BBN的MUC7参评系统SIFT系统的说明,我把它翻译了一下,基本意思很明了,但部分细节我可能还没有把握准确,如果有问题,请给我来信说明。


12.(slides) Chinese Named Entity Identification using class-based language model
Jian Sun, Jianfeng Gao, Lei Zhang, Ming Zhou, and Changning Huang
This is the slides for the 19th International Conference on Computational Linguistics


13.Chinese Named Entity Identification using class-based language model
Jian Sun, Jianfeng Gao, Lei Zhang, Ming Zhou, and Changning Huang
We consider here the problem of Chinese named entity (NE) identification using statistical language model(LM). In this research, word segmentation and NE identification have been integrated into a unified framework that consists of several class-based language models. We also adopt a hierarchical structure for one of the LMs so that the nested entities in organization names can be identified. The evaluation on a large test set shows consistent improvements. Our experiments further demonstrate the improvement after seamlessly integrating with linguistic heuristic information, cache-based model and NE abbreviation identification.


14.MUC-7 EVALUATION OF IE TECHNOLOGY: Overview of Results
Elaine Marsh, Dennis Perzanowski
reviews MUC-7 and introduces the result and progress during this conference


15.Method of k-Nearest Neighbors 


16.Multilingual Topic Detection and Tracking:Successful Research Enabled by Corpora and Evaluation
Charles L. Wayne
Topic Detection and Tracking (TDT) refers to automatic techniques for locating topically related material in streams of data such as newswire and broadcast news. DARPA-sponsored research has made enormous progress during the past three years, and the tasks have been made progressively more difficult and realistic. Well-designed corpora and objective performance evaluations have enabled this success.


17.信息提取概述
骆卫华的综述报告


18.Information Extraction Supported Question Answering
Cymfony公司的IE系统,主要面向QA,包括已实现的NE系统和将要实现的CE和GE的原型。


19.ALGORITHMS THAT LEARN TO EXTRACT INFORMATION


20.Description of the American University in Cairo/"s System Used for MUC-7 


21.Analyzing the Complexity of a Domain With Respect To An Information Extraction Task 


22.从半结构化文本与自由格式文本中学习信息抽取规则

作者Stephen Soderland为华盛顿州立大学计算机科学系教授。本文的被引用次数高达50多次。论文以信息抽取系统WHISK系统为例,描述了如何以机器学习的方式,利用小规模样本训练系统自动学习目标文本的抽取模式,从而实现自动化信息抽取的一种技术。这种技术不但极具启发意义而且很有实用价值。


23.信息抽取研究综述

本文出自北京大学计算机科学与技术系,综述了信息抽取的一些基本概念。


24.利用Lixto进行可视化的信息抽取

作者分析了Lixto抽取系统的架构,介绍了一种半自动化的Wrapper生成技术与自动化Web信息抽取技术。


25.Web数据抽取工具综述

作者将目前的几种Web数据抽取工具按照六种分类:Wrapper开发语言,可感知HTML的工具,基于NLP的工具,Wrapper归纳工具,基于建模的工具,基于语义的工具依次介绍了各Web数据抽取工具的工作原理与特点,并且比较了它们的一般输出质量。 


26.针对BBS短文本的提取标注


本文前半段将会介绍有关本体的相关概念,后一部分将介绍本体在我们系统中的应用。为了配合信息提取,需要一些先验性的知识和统计信息。所以,我们构造了自己的针对BBS短文本的提取标注工具。为此构建了本体知识并以直观方式展现出来。结合本体推理机,我们的标注工具在标注的同时具备推理能力使得标注智能化,并能通过引用一个包装好的提取算法进行提取预览。


27.XWRAP

0
0
 
 

参考知识库

猜你在找
查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
快速回复 TOP
    个人资料
    一堆信息抽取的资料文档(转载自:fullsearch.com)_第1张图片
    chengg0769
    • 访问:831864次
    • 积分:11865
    • 等级:
    • 排名:第715名
    • 原创:279篇
    • 转载:211篇
    • 译文:0篇
    • 评论:358条
    文章分类
  • PB反编译与加密(12)
  • IOS和安卓(9)
  • PB与数据库(16)
  • 网络相关(1)
  • 搜索相关(0)
  • 闲话扯起耍(4)
  • 其他语言(7)
    文章存档
  • 2015年10月(3)
  • 2015年09月(2)
  • 2015年08月(3)
  • 2015年07月(1)
  • 2015年05月(1)
  • 2015年03月(1)
  • 2014年04月(1)
  • 2014年01月(1)
  • 2013年12月(2)
  • 2013年11月(2)
  • 2013年09月(1)
  • 2013年02月(1)
  • 2012年11月(1)
  • 2012年09月(1)
  • 2012年08月(6)
  • 2012年07月(1)
  • 2012年05月(3)
  • 2012年03月(4)
  • 2011年12月(2)
  • 2011年11月(2)
  • 2011年10月(9)
  • 2011年09月(6)
  • 2011年08月(11)
  • 2011年07月(2)
  • 2011年06月(4)
  • 2011年04月(3)
  • 2010年12月(1)
  • 2010年10月(2)
  • 2010年09月(8)
  • 2010年08月(1)
  • 2010年07月(8)
  • 2010年06月(17)
  • 2010年05月(2)
  • 2010年04月(2)
  • 2010年03月(4)
  • 2010年01月(1)
  • 2009年09月(8)
  • 2009年08月(5)
  • 2009年07月(8)
  • 2009年06月(8)
  • 2009年05月(16)
  • 2009年03月(2)
  • 2009年02月(7)
  • 2008年12月(2)
  • 2008年11月(4)
  • 2008年10月(5)
  • 2008年08月(1)
  • 2008年07月(2)
  • 2008年01月(12)
  • 2007年12月(29)
  • 2007年11月(7)
  • 2007年10月(4)
  • 2007年09月(20)
  • 2007年08月(55)
  • 2007年07月(176)
    阅读排行
  • 做代理网站最有效的4种宣传方法(admin9.com)(19248)
  • 搜索引擎学习资源(作者:dongdonglang)(15246)
  • PowerBuilder DeCompiler(PB DeCompiler) Demo download(PB反编译,支持5-12)(10861)
  • 再谈powerbuilder程序防止破解的办法(终结篇,以后不再写这个问题)(10186)
  • 浅谈Powerbuilder的未来和Powerbuilder使用者的未来(8565)
  • Powerbuilder混淆,加密(powerbuilder防止反编译,pb混淆器,PB加壳,支持5-12) obfuscator for PowerBuilder(8549)
  • PB11.5,PB12 web项目初探(8154)
  • 程序员的SEO总结(7905)
  • DataWindow调用存储器--SQLSTATE=22005--对于造型说明无效的字符值唯一解决方法[原创](7703)
  • 在一台联想3000G430 T1600笔记本上安装黑苹果(东皇v10.6.3)成功(7676)
    评论排行
  • 浅谈Powerbuilder的未来和Powerbuilder使用者的未来(49)
  • 程序员的SEO总结(32)
  • 有关Powerbuilder的悲观论和乐观论(由郭贴引发的300多贴争辩想到的,也是很久就想秉明的一个观点)(22)
  • Powerbuilder混淆,加密(powerbuilder防止反编译,pb混淆器,PB加壳,支持5-12) obfuscator for PowerBuilder(20)
  • 因为垄断形成,数据库市场将出现更多开源数据库(19)
  • 戏说DataWindow的“移植”和“临摹”(19)
  • 免费软件模式之随想(18)
  • PB11.5,PB12 web项目初探(15)
  • 软件提交到国外的下载站的几点操作和想法(15)
  • 关于对pbd反编译器的期待(11)
    推荐文章
    • *EventBus的使用与深入学习
    • *Android 拍照、选择图片并裁剪
    • *spark性能调优:开发调优
    • *Ceph架构
    • *neutron-server的启动流程(一)
    • * iOS 网络资源汇总之动画
    最新评论
  • PB inet组件 Post给php时怎么接收

    bczhan: 非常感谢,最近做接口,刚才用上了

  • 电讯业营收管理软件--菜单图示[JPG10张]

    weilexinye: 不懂,学习中。

  • 关于EXECryptor参数设置的问题

    fcmguanba: 你好!关于软件加壳加密的问题,我们可以探讨一下吗?你加我的QQ号码:1715960127

  • 四年级数学题难倒家长(转载)

    qing7416: 我能做,但换成我四年级,多半不会做,会做的也做不对

  • 中文垂直搜索引擎、行业搜索引擎大全(最新计137家) (转贴)

    defineconst: 真全!

  • 搜索引擎开发,垂直搜索开发探讨:蜘蛛,并行,搜索,垂直搜索,搜索开发,lucene,java,分布[原创]

    defineconst: 你好还在弄搜索吗?UserB是谁的啊

  • 如何用VC编写供PB调用的DLL (转)

    tang0575: 为啥我调用时,PB提示没有这个函数呢

  • 基于MapServer的WebGIS开发(转)

    qq_20787725: 很好的一片文章 谢谢

  • 垂直搜索开发:垂直搜索引擎开发全过程[原创]

    zww_ren_0: 要精英中的精英(就像你)才能玩。。。

  • 垂直搜索开发:垂直搜索引擎开发全过程[原创]

    zww_ren_0: C.忠告就表示这货没任何价值了。。。按你的意思来说,实际一点来说。

    我的未来方向
    • pconline/asp.net
    • 周金桥老师的aspnet
    友人Blog
    • 旧博客在sina
    • Bluesen的语音卡开发平台
    • JackXu的开源语音卡框架
    • 经验丰富的好友:杨光的专栏
    • 蓝星际语音平台,Koodoo语言
    • Lucene改造者-yuetiantian
    • 西部.阿呆's blog
    • manesking:全文检索c/c
    • fullfocus研究lucene,nutch
    • 黄国酬的博客
    • 把“天轰穿”的asp.net
    • 雨松.安卓

你可能感兴趣的:(一堆信息抽取的资料文档(转载自:fullsearch.com))