足球比分直播

维基百科上的语义搜索.pdf

返回
维基百科上的语义搜索.pdf_第1页
第1页 / 共59页
维基百科上的语义搜索.pdf_第2页
第2页 / 共59页
维基百科上的语义搜索.pdf_第3页
第3页 / 共59页
维基百科上的语义搜索.pdf_第4页
第4页 / 共59页
维基百科上的语义搜索.pdf_第5页
第5页 / 共59页
点击查看更多>>
资源描述:
SEMANTIC SEARCH FOR WIKIPEDIA ABSTRACT Wikipedia, as one of the best-known Web 2.0 applications, is becoming the largest free online encyclopedia. The content and organization of articles in Wikipedia makes it a convenient online knowledge portal for users, which is an indispensable factor to its great success. Each article in Wikipedia has a full description about an entity, which results in Wikipedia’s rich textual ination. Besides, it also contains plentiful structural ination such as categories and infoboxes. Some recent work has been done to extract such structural ination from Wikipedia and make it available on the Web in of semantic data. However, current search service over Wikipedia does not fully exploit its rich structural ination, and involuntarily restricts users from further exploration of the large knowledge base. With the fast development of Wikipedia, the amount of its textual and semantic ination will become larger and larger. To fully harness its knowledge, it is necessary to provide an effective search service which allows a better, faster and more intelligent user access to both the two kinds of ination. Semantic Search is a key technology to solve this problem. Therefore, in this paper, we investigated applying semantic search technologies into Wikipedia and building a semantic search system for Wikipedia. It aims at providing users with more powerful search capability to fully leverage the large knowledge base. However, three challenges are faced when building a semantic search system for Wikipedia First, how to extract more semantic data from Wikipedia and creating large knowledge base; Second, how to provide a powerful hybrid query capability that supports efficient querying of both textual and semantic ination; Third, how to provide a user-friendly search interface which allows common users to easily create hybrid queries. Considering that the current s of extracting triples from Wikipedia infoboxes and article text suffer from low article coverage, we proposed s to automatically extract triples from the widespread Wikipedia categories. Based on the rich textual and semantic ination available in Wikipedia, we proposed a to efficiently support hybrid queries by extending IR engines’ index structures and functions. We first define a tree-shaped hybrid query capability that combines structured queries and keyword searches. Next we extend the inverted index used for keyword queries to also index categories and relations, and then reduce the uation of hybrid queries to basic IR operations over the index. To improve the quality of search results, we integrate a relation-based ranking scheme so that both the textual and semantic ination is considered in ranking. At the front end, we extend the typical faceted search interface with semantic relations to let users easily create hybrid queries. Starting with keyword search, users are then provided with faceted ination about both categories and relations so that they can stepwise refine the search results in different dimensions. Experiments showed that our of automatically extracting triples from Wikipedia categories achieved wider article coverage than previous s and contributed more semantic data to the Web. Experiments also showed that the semantic search system we implemented enhanced query capability for searching Wikipedia and improved search results without losing efficiency and usability too much, thus allowing users to better explore the rich knowledge in Wikipedia. KEY WORDS Semantic Search, Wikipedia, Large Knowledge Base, Hybrid Query Capability 图片目录 图 1-1 维基百科知识库的片段 .................................................................................. 2 图 3-1 维基百科中文章(实体)的结构化和语义信息 ........................................ 13 图 4-1 自动抽取维基百科类别中语义信息的流程图 ............................................ 16 图 5-1 混合查询样例 ................................................................................................ 23 图 5-2 检索算法 ........................................................................................................ 28 图 5-3 对维基百科关系数据的分析 ........................................................................ 31 图 6-1 系统架构图 .................................................................................................... 32 图 6-2 多视角浏览和搜索界面 ................................................................................ 34 图 7-1 与信息盒三元组的比较 ................................................................................ 39 表格目录 表 4-1 维基百科的统计信息 ..................................................................................... 14 表 4-2 三种类别层次 ................................................................................................. 20 表 5-1 针对关键字的倒排索引举例 ......................................................................... 24 表 5-2 针对类别的倒排索引举例 ............................................................................. 25 表 5-3 针对关系的倒排索引举例 ............................................................................ 25 表 7-1 评估结果 ........................................................................................................ 36 表 7-2 各个方法的统计信息 ..................................................................................... 38 表 7-3 属性比较 ......................................................................................................... 40 表 7-4 数据集规模及索引性能 ................................................................................. 42 表 7-5 在 LUBM 基准数据集上的查询响应时间(毫秒) ................................... 43 表 7-6 准确率评估 ..................................................................................................... 45 表 7-7 样例查询 ......................................................................................................... 45 表 7-8 易用性评估 ..................................................................................................... 46 – 1 – 1 引言 维基百科1,作为最著名的 Web 2.0 应用之一,在大批志愿者的协作编辑下,逐渐成为世界上最大的免费在线百科全书。维基 百科中的内容和文章组织方式使其成为一个方便的在线知识门户网站,这也是使其 取得巨大成功的关键因素。维基百科里,几乎每篇文章都是对某一个实体的详尽描 述,含有丰富的文本信息。此外,文章中也含有丰富的结构化和语义信息,如类别 系统和信息盒数据。每篇文章都隶属于至少一个类别。同一个类别下面的文章通常 常是讲述相同或相似的话题。比如,文章“上海交通大学”就被包含在“上海的大学和学院”和“ 211 工程”等类别里。而在类别里不仅有文章,还会有子类别。这样 ,最终就形成一个类别层次结构。但这个层次结构不是简单的树结构,而是图,并 且当中存在环。信息盒主要列举了当前文章实体的一些基本属性和重要信息,例如 关于“上海交通大学”的文章中的信息盒列举了该学校的类型、创建时间、校长、 人数、地址等等。其中,某些属性可以认为是两个实体之间的语义关系。例如上海 交通大学和校长张杰之间具有语义关系“校长” 。维基百科上这些类别信息以及信息框中丰富的关系数据与文章内容一起构成了一个巨大的知识库。 最近有越来越多的工作从维基百科中抽取出这 些结构化信息并表示成语义数据。为了让机器可以理解数据内容,语义网技术用 形式化的语言来定义数据,定义好的数据可以被机器解析,从而根据数据内容进行 具体操作和完成复杂查询。在现在的语义网中,机器可理解的语义是通过用本体对 数据定义的,用标准的资源描述框架RDF2或 OWL3语言表示出来。 本体定义了一系列概念、 实例、 及其相互关系和属性,可以用来形式化地、显式地描述领域知识。机 器可以根据本体的定义对概念和实例进行逻辑推理,也可以提供强大的查询能力, 支持对领域知识的复杂查询。基于维基百科上丰富的知识、结构化信息和语义特征 ,越来越多的工作开始从维基百科的文本、信息盒、类别等信息源中抽取语义数据,产生了大量的 RDF 三元组。与 XML的树形数据模型不同,这些语义数据即 RDF 三元组构成了一个覆盖维基百科文章的巨大的图。图 1-1 显示了该图的一个片段。基于这些语义数据,机器也能够理解和处理维基百科知识库中关于实体、类别、关系和属性的知识。 1http//www.wikipedia.org 2http//www.w3.org/RDF/ 3http//www.w3.org/2004/OWL/ – 2 – 图1-1 维基百科知识库的片段 Figure 1-1 A Segment of Wikipedia Knowledge Base 然而现有搜索引擎并没有充分利用维基百科中 丰富的结构化和语义数据,因此极大限制了用户对于该大规模知识库的利用。 大部分搜索引擎仅仅索引了维基百科中的文本信息并支持高效的关键字搜索,比如 Google 和 Yahoo 。这些引擎的关键字搜索界面虽然容易使用,但是缺乏对于去歧和 结果求精的支持为了过滤掉大量的无关结果,需要用户熟练的构造关键字查询和 进一步重组。已经有相关的研究工作来提高用户搜索维基百科时的体验,例如对结 果进行聚类或者对相关的类别进行推荐。这使得用户能够在不同维度上逐步缩小他 们搜索结果的范围。然而这些搜索引擎仍然忽视了维基百科里面的丰富的语义关系 ,没有利用这些信息来帮助提高搜索的效果,这可以说是一种极大的浪费。而这又 导致了当前的搜索引擎对于含有关系型需求的查询不能提供很好的支持。例如,对 于“查找由中国武打明星主演的动作影片”这种很直观的搜索请求,他们并不能提供较好的搜索支持。 为了让用户能充分利用维基百科这个大规模知 识库中的知识,必须为其提供一个基于文本及语义信息的有效的搜索服务。在 语义网中,不仅包含原有万维网的非形式化的信息(网页文档) ,也包含明确定义好的机器可理解的知识(本体) 。近几年万维网和语义网的发展非常迅速,这两种信 息都越来越多,因而,如何更好、更快并且更智能化的访问这些信息成为当前语义 网研究的一个热点。语义搜索技术就是用来解决这一新的应用需求的关键技术。因 此,本课题研究将语义搜索技术应用于维基百科, 搭建维基百科上的语义搜索系统, 从而让用户拥有更强大的搜索能力,得以更充分的利用该大规模知识库中丰富的文本信息和结构化信息。 在维基百科上搭建语义搜索系统有三大难点 如何更充分的挖掘维基百科中的语义数据,构建大规模知识库;如何提供尽可 能强大的混合查询能力,支持对文本– 3 – 信息和语义信息的混合查询,并高效地支持该 混合查询能力;如何对用户提供友好的搜索界面,使其在支持强大的混合查询能力的同时,仍然保持易用的特点。 本文将要介绍如何在维基百科上搭建语义搜索 系统。针对以上难点,本文提出如下解决方案考虑到现有基于维基百科信息 盒及文本抽取语义数据的方法具有较低的文章覆盖度,本文进一步挖掘维基百科分 类系统中所隐含的知识,提出了基于维基百科父子类别对的自动抽取 RDF 三元组的方法。首先我们使用自然语言处理技术( NLP)来分析类别的名称并识别出有用类 别对的名称模式。第二,我们根据这些名称模式提出了一些规则来抽取类别中显式 的属性和值。第三,为了确定一个类别上显式的值所对应的隐含属性,我们提出了 一种依赖于该类别下所有文章所包含的语义的投票策略。最后,在给定类别、属性 和值的情况下,我们使用类别层次来帮助我们推导出属于该类别的全部文章,再将 类别的属性和值传播到其下的每篇文章生成三元组。 有了从维基百科上获得的大量语义数据和丰富 文本信息,接下来的问题是如何对其支持高效的混合查询。本文提出了一个基 于现今信息检索引擎的索引结构和功能来提供高效混合查询的新方法。首先我们定 义了一种树型混合查询,同时具有结构化查询和关键字查询的能力。然后我们扩展 信息检索引擎中广泛使用的倒排索引技术来支持对关系的索引,将混合查询的处理 算法分解为倒排索引上的基本操作,并实现考虑关系的排序机制。利用这个方法可 以对海量的语义数据及文本信息进行索引,并且可以高效的处理用户的混合查询。 该方法的核心思想是对查询能力和查询速度做一个较好的权衡,利用信息检索引擎 的特性,牺牲一部分查询能力换取较高的效率。 为设计友好的搜索界面,本文扩展了广泛使用 于结构化数据的多视角浏览及搜索界面,让用户从熟悉的关键字搜索入手,在 返回搜索结果的同时自动对当前结果所属的类别及所涉及的关系给出提示,引导用户迭代该过程并完成复杂的混合查询。 实验表明,本文基于维基百科类别自动抽取语 义数据的方法在文章覆盖率上超越了以前的工作,同时进一步扩充了三元组数 量。本文实现的语义搜索系统在保证高效和易用的前提下, 大大增强了用户在维基百科上的查询能力, 改进了搜索效果,让用户更充分的利用到维基百科中丰富的知识。 接下来的章节是这样安排的第 2 章介绍相关的研究工作,第 3 章讲述维基百科的数据特点,接下来的两章分别讲述维基百科中的语义数据的抽取以及维基百科上语义搜索引擎的实现。 第 6 章描述了系统界面及用例分析, 第 7 章详细介绍实验、结果以及相关讨论。最后给出总结以及今后的工作方向。 – 4 – 2 相关研究工作 根据本课题所涉及的领域,本文将相关工作分 为维基百科中语义数据的抽取、维基百科的搜索现状、语义搜索三方面。 2.1 维基百科中语义数据的抽取 2.1.1 从信息盒中抽取语义数据 Auer 等人开发了 DBpedia[1]项目,它独创地从文章的信息盒里抽取语义关系,并把它们转换为 RDF 三元组。随后在 [2]里该方法又被进一步发展,从维基百科中各种结构化数据中抽取出更多的三元组。主要使用了两种方式 1)利用维基百科的数据库转储文件,将其关系数据表格中存储的关系直接转换为 RDF 三原则; 2)利用维基百科的文章内容及信息盒模板,抽取 RDF 三元组数据。其信息盒抽取算法通过模式匹配技术自动检测出信息盒模板、识别出 其中的结构,然后挑选出最为重要的模板,进行分析并转换为 RDF 三元组。该算法通过后处理技术来提高抽取的质量,包括数据类型的检测、启发式清理规则、标识的生成方法等。目前 DBpedia 数据集包含约 115,000 个类别, 650,000 个实体, 8,000 种语义关系, 103M 三元组。其中,60的三元组数据是从维基百科的内部链接结构中获得,只有 15是直接从信息盒中抽取得到。不过因为缺少对这些三元组的评 估,很难判断其准确性。不像其他的方法, DBpedia 项目非常依赖于 Wikipedia 编辑者的准确性。因此 Auer 和 Lehmann建议对编辑者们给予一定的准则,从而进一步改进信息盒数据的质量。 虽然从维基百科信息盒中抽取语义数据是最有 成效的方法之一,它也面临着一些问题, 比如 1) 维基百科中信息盒对于文章的覆盖率还是很有限的。 据我们统计,只有接近一半的文章含有信息盒,这也导致很多文章将缺少相应的语义关系。 2)有些信息盒本身的质量并不高,存在数据的缺失 、过期或者与模板之间的不一致,这就导致很多文章的语义关系中存在错误。 3)信息盒中属性的值和单位往往得不到统一,有些属性更有多种不同类型的值,这就导致统一启发式规则的不适用。
展开阅读全文
收藏
下载资源

加入会员免费下载





足球比分直播