【文智背后的奥秘】系列篇：海量数据抓取

大数据已经是个非常热门的话题，文智平台正是基于大数据的背景，利用并行计算系统和分布式爬虫系统，结合独特的语义分析技术, 一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。现有的研究、工程应用方向基本上都是围绕着大数据的存储、计算等方面展开，但是对于一个基础环节——数据获取却很少有相关的介绍。本文重点围绕如何获取垂直海量数据展开讨论。

一.引言

数据的作用不言而喻，在各行各业中，分门别类的数据为用户的在线生活体验提供了基本的素材，附近的餐馆、即将上映的电影、最近热门新闻等等能够涵盖我们生活的方方面面。同时所有的这一切也成就了今天在各个垂直领域诸如大众点评、豆瓣、今日头条等专业的公司。具体到搜索业务来说，无论是多么优秀的架构、精准的算法，最终也是需要依赖完备、准确、及时的数据作为落地基础。

从搜索业务来看，数据的价值主要体现在如下几个方面：

直接提供搜索数据源。海量的数据为检索提供了必不可少的素材。为此数据工作的一个基本目标是数据完备性。完备性可以从两方面来理解，一方面是实体本身的完备，是0和1的关系，这是刚性需求，例如你搜索《来自星星的你》，如果没有这部片子，那么结果显然不能满足用户需求；另一方面是实体内部信息的完备，例如《来自星星的你》如果缺少了演员字段，那么你搜索“金秀贤”的时候可能依然得不到想要的结果。另外要提的一点是完备性通常还对时间有约束，热点资讯、突发事件等如果不能在第一时间呈现，那么对于用户来说都是个硬伤。改善相关性质量。干净、精确的数据可以使得在相关性计算阶段减少歧义，改善召回品质，互联网中的数据鱼龙混杂，各个网站的水平也是良莠不齐，不做去噪直接使用的话往往会适得其反。通过高质量的数据补充，对最终结果的排序也有良好的辅助作用。例如豆瓣的影评分数、热度因子可以在视频搜索中辅助结果排序，并且可以改善数据刚上架时由于点击量缺失造成排序上不来这种冷启动的过程。丰富搜索产品特性，满足搜索直达需求。当数据完备、及时、准确之后就可以对数据做关联聚合，在这个时候超越文本本身的各种语义特征、知识关联等一些高阶应用相继涌现，大家常常听到的Google的Knowledge Graph、Facebook的Graph Search以及百度知心搜索等都是建立在这一个基础之上。将散落在互联网上碎片化的知识整合起来形成直观答案显然是一种更“懂”你的方式。如图1，搜索王菲老公的体重，知识图谱搜索可以直接输出想要的结果。

【文智背后的奥秘】系列篇：海量数据抓取