【文智背后的奥秘】系列篇:海量数据抓取

大数据已经是个非常热门的话题,文智平台正是基于大数据的背景,利用并行计算系统和分布式爬虫系统,结合独特的语义分析技术, 一站式满足用户NLP、转码、抽取、全网数据抓取等中文语义分析需求的开放平台。现有的研究、工程应用方向基本上都是围绕着大数据的存储、计算等方面展开,但是对于一个基础环节——数据获取却很少有相关的介绍。本文重点围绕如何获取垂直海量数据展开讨论。

一.引言

数据的作用不言而喻,在各行各业中,分门别类的数据为用户的在线生活体验提供了基本的素材,附近的餐馆、即将上映的电影、最近热门新闻等等能够涵盖我们生活的方方面面。同时所有的这一切也成就了今天在各个垂直领域诸如大众点评、豆瓣、今日头条等专业的公司。具体到搜索业务来说,无论是多么优秀的架构、精准的算法,最终也是需要依赖完备、准确、及时的数据作为落地基础。

从搜索业务来看,数据的价值主要体现在如下几个方面:

直接提供搜索数据源。海量的数据为检索提供了必不可少的素材。为此数据工作的一个基本目标是数据完备性。完备性可以从两方面来理解,一方面是实体本身的完备,是0和1的关系,这是刚性需求,例如你搜索《来自星星的你》,如果没有这部片子,那么结果显然不能满足用户需求;另一方面是实体内部信息的完备,例如《来自星星的你》如果缺少了演员字段,那么你搜索“金秀贤”的时候可能依然得不到想要的结果。另外要提的一点是完备性通常还对时间有约束,热点资讯、突发事件等如果不能在第一时间呈现,那么对于用户来说都是个硬伤。改善相关性质量。干净、精确的数据可以使得在相关性计算阶段减少歧义,改善召回品质,互联网中的数据鱼龙混杂,各个网站的水平也是良莠不齐,不做去噪直接使用的话往往会适得其反。通过高质量的数据补充,对最终结果的排序也有良好的辅助作用。例如豆瓣的影评分数、热度因子可以在视频搜索中辅助结果排序,并且可以改善数据刚上架时由于点击量缺失造成排序上不来这种冷启动的过程。丰富搜索产品特性,满足搜索直达需求。当数据完备、及时、准确之后就可以对数据做关联聚合,在这个时候超越文本本身的各种语义特征、知识关联等一些高阶应用相继涌现,大家常常听到的Google的Knowledge Graph、Facebook的Graph Search以及百度知心搜索等都是建立在这一个基础之上。将散落在互联网上碎片化的知识整合起来形成直观答案显然是一种更“懂”你的方式。如图1,搜索王菲老公的体重,知识图谱搜索可以直接输出想要的结果。

【文智背后的奥秘】系列篇:海量数据抓取

【文智背后的奥秘】系列篇:海量数据抓取

图1、搜狗知识图谱搜索结果

总体而言,数据获取工作主要围绕快、准、全三个要素以及一个高阶的关联需求展开。本文重点分析数据如何发现、抓取、更新等方面做一个介绍。

二.数据发现

互联网中的数据良莠不齐,如何从纷繁复杂的互联网中发现有价值的数据是一个有趣的问题。通常数据发现的过程中存在几个难点:

数据海量,无法遍历穷举;鱼龙混杂,需要甄别出高价值的数据;存在死链、无效参数、作弊、陷阱等页面使得数据获取的过程中存在各种坑。

问题3这里我们需要结合不同的场景做一些不同的策略,一般在目标对象很清晰的情况下可以通过人工手段做一些规避,因此这里不展开讨论。我们重点讨论1和2这种海量网页中发现高价值数据的问题,有了这个清晰的目标后,接下来就转换为另外两个问题:

从哪个网站获取?如何得到这个网站内有价值的链接?

问题1:如何获取有效站点?通常有下面几个办法:

垂直榜单数据,一般领域内的热门站点都会存在于各大垂直榜单数据中,以视频站点为例,可以监控类似类似 上的垂直分类数据做提取收集

【文智背后的奥秘】系列篇:海量数据抓取

【文智背后的奥秘】系列篇:海量数据抓取

图2.垂直榜单数据

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。