博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python_记一次网站数据定向爬取实现
阅读量:5129 次
发布时间:2019-06-13

本文共 703 字,大约阅读时间需要 2 分钟。

记一次网站数据定向爬取实现

by:授客 QQ1033553122

测试环境:

Python版本:Python 3.4

Win7

 

请勿用于商业及非法用途,仅供学习研究用,否则后果自负

 

 

数据爬取场景

如下,打开网站查询页面,输入关键字,点击查询

 

 

如上图,如果记录数比较多,还会有翻页按钮出现

 

 

 

Python_记一次网站数据定向爬取实现 

如上图,右侧还有个最新资助列表,和左侧记录是同一个性质

 

如下图,点击列表记录,打开以下界面

 

Python_记一次网站数据定向爬取实现 

 

数据爬取需求:获取上述红色选框部分的数据,因为记录检索可能比较多,可能有几百页,所以还要求可以只获取指定翻页数量

 

程序实现思路

1、获取关键字查询url

/index.php?m=&c=Search&a=index&keyword=丰巢&hash=dkFMbUhBTkJIPTNCRjc3Z09yczZVOWRONS1xRE89cU9JPThkTnYzeEM5MW1U&__hash__=77b9003885166213582f27c5e6098d21_53f9dce8d49ffef0259a38cb6a6a3c8b&p=1

 

2、获取记录页面访问url

 

3、获取数据

 

4、翻页查询,并重复1-3

由第1点可知,翻页查询仅需要替换 &p=1中的数字

 

需要注意的地方,就是要过滤右侧的 最新资助 列表中的记录链接,另外,要控制翻页数,所以访问xxx……&p=1的链接时,就要获取总记录数,然后计算总的翻页数量

 

实现效果

 

Python_记一次网站数据定向爬取实现 

 

代码下载

https://pan.baidu.com/s/1HJkGUgyZOxkjTNpPBrJKzA

 

 

转载于:https://www.cnblogs.com/shouke/p/10157470.html

你可能感兴趣的文章
selenium+python3模拟键盘实现粘贴、复制
查看>>
第一篇博客
查看>>
typeof与instanceof的区别
查看>>
网站搭建(一)
查看>>
SDWebImage源码解读之SDWebImageDownloaderOperation
查看>>
elastaticsearch
查看>>
postgreSQL 简单命令操作
查看>>
Spring JDBCTemplate
查看>>
Radon变换——MATLAB
查看>>
第五章笔记
查看>>
Iroha and a Grid AtCoder - 1974(思维水题)
查看>>
gzip
查看>>
转负二进制(个人模版)
查看>>
LintCode-Backpack
查看>>
查询数据库锁
查看>>
[LeetCode] Palindrome Number
查看>>
我对于脚本程序的理解——百度轻应用有感
查看>>
SQL更新某列包含XX的所有值
查看>>
网易味央第二座猪场落户江西 面积超过3300亩
查看>>
面试时被问到的问题
查看>>