信息检索

Published: 24 Mar 2017 Category: AI

0. 概述

Information Retrieval 是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。

狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程,也就是我们常说的信息查寻(Information Search 或Information Seek)。

一般情况下,信息检索指的就是广义的信息检索。信息检索(Information Retrieval)是指从信息资源的集合中查找所需文献或查找所需文献中包含的信息内容的过程。

广告相关的搜索技术范畴远远小于完整的网页搜索引擎,特别是不需要全网爬虫和Page Rank算法的部分。

信息检索是搜索引擎中非常重要的一个概念和技术。

先介绍其中两个重要的内容,后续遇到更多再作补充。

1. 倒排索引

见站内文章 倒排索引

2. 向量空间模型

如果说倒排索引技术是大规模信息检索的基石,那么向量空间模型(Vector Space Model, VSM)则是信息检索中最基础且最重要的文档相似度度量方法之一。

VSM的核心有两点,文档的表示方法*和相似度计算方法。 介绍见下图内容:

vsm1

vsm2


对海量文档进行检索的基线方案:在检索引阶段,需要对文档集合分词,并按照bag of words表示得到每个文档的TDIDF矢量,对分词后的文档集合建立倒排索引。当在线的查询到来时,也进行分词,并从倒排索引中查出所有符合要求的文档候选,并对其中的每个候选评价其与查询的余弦距离,按距离由小到大进行排序。

这样的一个基本框架,也同样适用于广告这一大规模数据挖掘问题。不过,实际的搜索系统也好,广告系统也好,都不是简单地采用这样的基线系统,而是在检索、排序甚至分词等各个部分都有着更具体深入。