这篇文章给大家介绍Python中怎么爬取各种文档类型,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。
抓取TXT文档
在python3下,常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。
抓取CSV文档抓取word方法:
(1)利用urlopen抓取远程word docx文件;
(2)将其转换为内存字节流;
(3)解压缩(docx是压缩后文件);
(4)将解压后的文件作为xml读取
(5)寻找xml中的标签(正文内容)并处理
关于Python中怎么爬取各种文档类型就分享到这里了,希望以上内容可以对大家有一定的帮助,可以学到更多知识。如果觉得文章不错,可以把它分享出去让更多的人看到。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。