产品信息抽取

Internet上充斥着大量的网上商店和各种各样产品信息,能够准确自动的抽取这些网络上的产品信息可以服务于大量的应用程序,例如:为垂直搜索引擎提供结构化得检索结果或者为提供同类产品之间对应指标之间的比较

产品信息抽取_第1张图片

图一:google squared提供结构化得检索结果

产品信息抽取_第2张图片

图二:同类产品之间的比较购物网站

<!-- [if gte mso 9]><xml> <w:WordDocument> <w:View>Normal</w:View> <w:Zoom>0</w:Zoom> <w:PunctuationKerning/> <w:DrawingGridVerticalSpacing>7.8 磅</w:DrawingGridVerticalSpacing> <w:DisplayHorizontalDrawingGridEvery>0</w:DisplayHorizontalDrawingGridEvery> <w:DisplayVerticalDrawingGridEvery>2</w:DisplayVerticalDrawingGridEvery> <w:ValidateAgainstSchemas/> <w:SaveIfXMLInvalid>false</w:SaveIfXMLInvalid> <w:IgnoreMixedContent>false</w:IgnoreMixedContent> <w:AlwaysShowPlaceholderText>false</w:AlwaysShowPlaceholderText> <w:Compatibility> <w:SpaceForUL/> <w:BalanceSingleByteDoubleByteWidth/> <w:DoNotLeaveBackslashAlone/> <w:ULTrailSpace/> <w:DoNotExpandShiftReturn/> <w:AdjustLineHeightInTable/> <w:BreakWrappedTables/> <w:SnapToGridInCell/> <w:WrapTextWithPunct/> <w:UseAsianBreakRules/> <w:DontGrowAutofit/> <w:UseFELayout/> </w:Compatibility> <w:BrowserLevel>MicrosoftInternetExplorer4</w:BrowserLevel> </w:WordDocument> </xml><![endif]--><!-- [if gte mso 9]><xml> <w:LatentStyles DefLockedState="false" LatentStyleCount="156"> </w:LatentStyles> </xml><![endif]--> <!-- [if gte mso 10]> <mce:style><!-- /* Style Definitions */ table.MsoNormalTable {mso-style-name:普通表格; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-fareast-font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;} --> <!-- [endif]-->

但是这些包含产品信息的网页往往分布于大量的不同网站中,这些不同的网站之间网页结构迥异,利用传统的模板相关的方法抽取产品信息往往代价较大。最近对于模板无关的网页信息抽取方法的研究逐渐成为热点,诸多的研究说明无模板的抽取方法是可行和有效的。为此我们构建了一个原型系统用于抽取网络上的产品属性,该系统主要利用了产品属性的一些模板无关的特征,比如文本内容特征,树的编辑距离,视觉特征等等。首先找到描述页面中的描述产品信息的 block ,然后在进一步找到该 block 中的属性名和属性值。

产品信息抽取_第3张图片

图三:实验结果(页面的的属性名称和值被{name}和{value}标签标记出来)

([email protected])


你可能感兴趣的:(信息抽取)