【python爬虫】aiohttp模块的基本使用样例

引出:(下列代码无法异步)

import asyncio
import requests
import time

urls = [
    'http://127.0.0.1:5000/lab',
    'http://127.0.0.1:5000/blob',
    'http://127.0.0.1:5000/count'
]


async def get_page(url):
    print("正在下载", url)
    # request发起的请求时同步的,所以无法异步,那么我们必须使用异步的网络请求 aiohttp:基于异步的网络请求
    response = requests.get(url)
    print(response.text)
    print(url, "下载完毕")


if __name__ == "__main__":
    tasks = []
    for url in urls:
        # 拿到任务对象
        c = get_page(url)
        # 创建task
        task = asyncio.ensure_future(c)
        tasks.append(task)
    start = time.time()
    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.wait(tasks))
    print("%.2f second" % (time.time() - start))

前文提到asyncio中不能有同步长耗时请求(会让异步失效),所以必须使用一个异步的http请求框架

pip install aiohttp

示例代码:

网站代码

from flask import Flask
# 构造app Flask对象 以__name__作为参数
app = Flask(__name__)
import time

# 通过app.route()指定路由
@app.route("/blob")
def blob():
    time.sleep(2)
    return 'blob'


@app.route("/lab")
def lab():
    time.sleep(2)
    return 'lab'


@app.route("/count")
def count():
    time.sleep(2)
    return 'count'


if __name__ == "__main__":
    app.run()

request发起的请求时同步的,所以无法异步,那么我们必须使用异步的网络请求 aiohttp:基于异步的网络请求

创建aiohttp.ClientSession对象(必须通过async with aiohttp.ClientSession()方法创建)

import asyncio
import time
# 安装: pip install aiohttp
# 使用该模块中的ClientSession发送请求
import aiohttp

urls = [
    'http://127.0.0.1:5000/lab',
    'http://127.0.0.1:5000/blob',
    'http://127.0.0.1:5000/count'
]


async def get_page(url):
    print("正在下载", url)
    # request发起的请求时同步的,所以无法异步,那么我们必须使用异步的网络请求 aiohttp:基于异步的网络请求
    # 创建aiohttp.ClientSession对象(必须通过async with aiohttp.ClientSession()方法创建)
    async with aiohttp.ClientSession() as session:
        # 通过await挂起
        # get/post都可以,用法与requests一致
        # headers也是一样的编写方法 params/data
        # 但是proxies被proxy取代,且只能用一个字符串'http://ip:port'
        # 必须使用async with await session.get() as response获取响应对象
        async with await session.get(url=url) as response:
            # text()返回的是字符串
            # read()返回的是二进制响应数据
            # json()返回的是json数据

            # 在获取响应数据之前一定要记得用await挂起
            page_text = await response.text()
            print(page_text)
            print(url, "下载完毕")


if __name__ == "__main__":
    tasks = []
    # 批量创建任务future
    for url in urls:
        # 拿到任务对象
        c = get_page(url)
        # 创建task
        task = asyncio.ensure_future(c)
        tasks.append(task)
    # 记录用时
    start = time.time()
    # 获取事件循环对象
    loop = asyncio.get_event_loop()
    # 包装事件循环任务并将其添加到事件循环事件
    loop.run_until_complete(asyncio.wait(tasks))
    print("%.2f second" % (time.time() - start))
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇