【python爬虫】Python线程池使用
线程池代码示例: 原则:线程池处理阻塞并且耗时的操作 # 线程池 import time # 导入线程池对应的类 from multiprocessing import Pool # 单线程串行爬虫 def get_data(url): print("正在下载%s" % url) time.sleep(2) print("%s 下载完成" % ur…
【转存】tsconfig各项意义
自定义的一个tsconfig.json { "compilerOptions": { "incremental": true, "tsBuildInfoFile": "build/bulidFile", "diagnostics": true, "target": "ES6", "module": "ES6", "outDir": "dist" }…
【转存】python爬虫相关的一些三方平台地址
验证码 识别人工肉眼识别 第三方自动识别(推荐) 超级鹰 超级鹰使用 https://www.chaojiying.com/ 代理服务器 突破自身ip访问的限制 隐藏自身真实ip 代理相关的网站 快代理 https://www.kuaidaili.com/ 西祠代理 www.goubanjia.com
【python爬虫】xpath使用与学习,python xpath解析
xpath: 通用性最强,最便捷高效 xpath解析原理 实例化一个etree对象,且需要将被解析的页面加载到该对象中 调用etree对象中的xpath方法结合着xpath表达式来实现标签的定位和内容的捕获 xpath使用(from lxml import etree) ​ 1. 将本地的html文档中的源码数据加载到etree对象中 ​ etre…
【踩坑】云服务器通过tinyProxy自建代理
爬虫ip代理的时候,有些小伙伴可能会想要使用自己的服务器作为代理地址 本文通过tinyProxy来搭建一个Linux/Centos代理服务器 首先通过yum下载安装tinyProxy yum install -y tinyproxy 安装后,tinyproxy默认安装在/etc目录下,打开/etc/tinyproxy/ 目录 找到tinyproxy…
【python爬虫】python爬虫笔记之requests,rebots.txt,bs4
robot.txt: 门户网站使用类似robot.txt规定哪些数据能爬,哪些不能爬 常用请求头信息: User-Agent: 请求载体的身份标识 Connection:请求完毕后是断开还是继续保持连接 常用响应头信息: Content-Type:服务端响应回客户端的数据类型 requests模块: UA检测:门户网站经常检查请求的载体身份标识 第…

新主题hhhh

809 日 , 2020 22:49:32
Koa2基础入门教程
一、koa安装与hello world示例: koa需要node v7.6.0以上(因为需要ES6) ```npm install koa --save``` 习惯性加上save,不加也可以。 koa的hello world示例 const Koa = require('koa'); const app = new Koa(); app.use(a…