Python中怎么爬取各种文档类型

这篇文章给大家介绍Python中怎么爬取各种文档类型,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。

抓取TXT文档

在python3下,常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。

Python中怎么爬取各种文档类型

抓取CSV文档

Python中怎么爬取各种文档类型

抓取word

方法:

(1)利用urlopen抓取远程word docx文件;

(2)将其转换为内存字节流;

(3)解压缩(docx是压缩后文件);

(4)将解压后的文件作为xml读取

(5)寻找xml中的标签(正文内容)并处理

Python中怎么爬取各种文档类型

关于Python中怎么爬取各种文档类型就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。