python
今天给大家带来的是Python网络爬虫篇一 requests的简单实用

 

  • 首先:安装requests,在cmd下输入如下命令就OK了
pip install requests

如果出现pip用不了,首先查看是否安装完整的Python
如果Python没问题,那就是环境问题
在Python根目录下有一个名为Scripts的文件夹,进入文件夹之后可以看到里面就有pip
scripts
然后 我的电脑->右击->属性->高级系统设置->环境变量->添加到Path->保存->重启cmd即可

  • 开始正题吧!

我们今天需要做的是从这个sitemap中取出这些链接
web
既然需要取出里面指定内容,那么就需要正则表达式,那么我们就观察这个页面源码,f分析一下正则表达式该怎么写
view
通过观察可以看出url
那么我们的正则表达式就解决了 (.*?)
首先调用requests这个库
use
然后我们还需要正则表达式(re)
code
获取源码,通过如下代码可以实现

url(变量名,可任意) = requests.get('https://ka1i.org/sitemap.xml'(这是url))

获取到之后,我们就需要提取出我们需要到的东西,通过如下代码即可实现
urls(变量名,可任意) = re.findall(‘(.*?)‘(正则表达式),url.text)
匹配成功之后我们就可以输出了

for a in urls:
     print(a)
  • 结果

result
超过提取出了我们需要的东西
完整代码如下,不会的朋友可以Copy学习

#!usr/bin/python
#coding: utf8
import requests
import re
print ("-------------------------------")
print("|       孤独常伴  Ka1i.org     |")
print("-------------------------------")
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko'}
url = requests.get('https://ka1i.org/sitemap.xml',headers=headers)
title = re.findall('<loc>(.*?)</loc>',url.text)
for a in title:
    print(a)

有不懂的朋友可以联系我QQ99746460,希望大家常来本博客.