梧州市网站建设_网站建设公司_Node.js_seo优化
2026/1/8 21:09:55 网站建设 项目流程

文章目录

  • 前言
  • 一、Requests简介
  • 二、 快速上手
    • 2.1 发送请求
    • 2.2 传递参数
    • 2.3 响应内容
    • 2.4 自定义请求头
    • 2.5 重定向与历史记录
    • 2.6 错误与异常处理

前言

爬虫本质上是一种自动化程序,它通过模拟客户端向服务器发送网络请求,获取响应数据,并依据预设规则对数据进行解析与存储。在 Python 生态中,提及爬虫便不得不提及其核心库之一 —— Requests。


一、Requests简介

根据官方文档的描述:
Requests 是唯一一个非转基因的 Python HTTP 库,可供人类安全使用。
警告:非专业使用其他 HTTP 库可能导致危险的副作用,包括但不限于:安全缺陷、冗余代码、重复造轮子、啃文档、抑郁、头痛,甚至死亡。
这段介绍生动地概括了 Requests 库的特点,此处不再赘述。安装方式为在终端中执行命令:pip install requests。

二、 快速上手

2.1 发送请求

首先导入 Requests 模块:

pythonimportrequests

发起一个 GET 请求获取网页:

python r=requests.get('http://xxx.xxx')

此时我们获得了一个 Response 对象 r,可通过它进一步获取响应信息。Requests 提供了直观的 API 来支持常见 HTTP 方法,示例如下:

python r=requests.head('http://xxx.xxx/get')r=requests.post('http://xxx.xxx/post',data={'key':'value'})r=requests.put('http://xxx.xxx/put',data={'key':'value'})r=requests.delete('http://xxx.xxx/delete')

通常建议为请求设置超时时间,通过 timeout 参数指定(单位为秒):

python r=requests.head('http://xxx.xxx/get',timeout=1)

2.2 传递参数

使用 GET 请求时,参数通常以键值对形式附在 URL 问号之后,如 http://xxx.xxx/get?key=val。Requests 支持通过 params 参数以字典形式传入参数:

python params={'key1':'val1','key2':'val2'}r=requests.get("http://xxx.xxx/get",params=params)

也支持将列表作为值传入:

python params={'key1':'val1','key2':['val2','val3']}

注:字典中值为 None 的键不会被添加到 URL 查询字符串中。

2.3 响应内容

获取服务器返回的内容,以 https://api.github.com 为例:

pythonimportrequests r=requests.get('https://api.github.com')print(r.text)# 输出示例:# {"current_user_url":"https://api.github.com/user","current_user...

访问 r.text 时,Requests 会自动推测编码格式,可通过 r.encoding 查看或修改:

python r.encoding='GBK'# 修改编码
  1. 二进制内容
    如图片等二进制数据,可通过 r.content 获取:
pythonfromPILimportImagefromioimportBytesIO i=Image.open(BytesIO(r.content))
  1. JSON 内容
    Requests 内置了 JSON 解码器,可方便地解析 JSON 响应:
pythonimportrequests r=requests.get('https://api.github.com')data=r.json()

注意:调用 r.json() 成功并不代表请求成功。某些服务器可能在错误响应中也返回 JSON 数据(如 HTTP 500 错误信息)。因此建议通过 r.status_code(状态码 200 表示成功)或 r.raise_for_status()(成功时返回 None)进一步验证。

2.4 自定义请求头

如需添加请求头,可通过 headers 参数传入字典:

python url='http://xxx.xxx'headers={'user-agent':'xxx'}r=requests.get(url,headers=headers)

注意:自定义请求头的优先级低于某些特定配置。例如,若在 .netrc 中设置了认证信息,通过 headers 设置的 Authorization 将不会生效;若使用 auth 参数,则 .netrc 的配置将被覆盖。所有请求头值必须为字符串、字节串或 Unicode(通常不建议使用 Unicode)。

2.5 重定向与历史记录

默认情况下,Requests 会自动处理除 HEAD 外的所有重定向。可通过 history 属性查看重定向历史,该列表按请求时间从晚到早排序:

pythonimportrequests r=requests.get('http://github.com')print(r.history)# 输出示例:[<Response [301]>]

若需禁用重定向,可在 GET、POST、PUT、DELETE、OPTIONS、PATCH 请求中设置 allow_redirects=False:

python r=requests.get('http://xxx.xxx',allow_redirects=False)

2.6 错误与异常处理

网络问题(如 DNS 失败、连接拒绝)会抛出 ConnectionError;
HTTP 返回非成功状态码时,Response.raise_for_status() 会抛出 HTTPError;
请求超时会抛出 Timeout;
超过最大重定向次数会抛出 TooManyRedirects。
所有 Requests 显式抛出的异常均继承自 requests.exceptions.RequestException。


需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询