分类: python

8 篇文章

【python爬虫】selenium基本使用代码示例
Edge Driver下载地址:https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/ 一般操作 # 从selenuim中导入webdriver from selenium import webdriver from time import sleep # 特殊按键…
【python学习】Python协程
协程,又称微线程,纤程。英文名Coroutine。 def A(): print '1' print '2' print '3' def B(): print 'x' print 'y' print 'z' 假设由协程执行,在执行A的过程中,可以随时中断,去执行B,B也可能在执行过程中中断再去执行A,结果可能是: 1 2 x y 3 z pytho…
【python爬虫】Python线程池使用
线程池代码示例: 原则:线程池处理阻塞并且耗时的操作 # 线程池 import time # 导入线程池对应的类 from multiprocessing import Pool # 单线程串行爬虫 def get_data(url): print("正在下载%s" % url) time.sleep(2) print("%s 下载完成" % ur…
【转存】python爬虫相关的一些三方平台地址
验证码 识别人工肉眼识别 第三方自动识别(推荐) 超级鹰 超级鹰使用 https://www.chaojiying.com/ 代理服务器 突破自身ip访问的限制 隐藏自身真实ip 代理相关的网站 快代理 https://www.kuaidaili.com/ 西祠代理 www.goubanjia.com
【python爬虫】xpath使用与学习,python xpath解析
xpath: 通用性最强,最便捷高效 xpath解析原理 实例化一个etree对象,且需要将被解析的页面加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式来实现标签的定位和内容的捕获 xpath使用(from lxml import etree) ​ 1. 将本地的html文档中的源码数据加载到etree对象中 ​ etre…
【python爬虫】python爬虫笔记之requests,rebots.txt,bs4
robot.txt: 门户网站使用类似robot.txt规定哪些数据能爬,哪些不能爬 常用请求头信息: User-Agent: 请求载体的身份标识 Connection:请求完毕后是断开还是继续保持连接 常用响应头信息: Content-Type:服务端响应回客户端的数据类型 requests模块: UA检测:门户网站经常检查请求的载体身份标识 第…