爬虫实战|天天基金网

戴冠英

爬虫|2023-9-13|最后更新: 2023-9-14|

一、基本情况

今天我们要爬的网站是天天基金网。
这个网站长下面这样:
notion image
我们要把里面的东西爬出来

二,爬取过程

1,requests

观察一下网址:
没发现有什么规律,翻页后也没发现有什么规律,放弃。

2,selenium

notion image
点击翻页,加载很久。一股可耻的尊严感让我不要使用selenium,放弃。

3,network

翻页!翻页!我们的老朋友Fetch/XHR没有任何反应。。。
notion image
所以,今天认识一个新朋友——JS。
notion image
可以看到JS里面有个东西,其中,我们翻页分析一下,知道pi是第几页的意思,pn是一个页面里有50条记录的意思,sd和ed更不必多说,开!
但,其实,滑到最后可以发现更简单的办法。
notion image
这小子,这里搞了个不分页啊,好家伙!
所以,直接用这个js的爬就好了。

三、解析结果

于是,我们根据这个JS请求,获取到的东西如下:
notion image
你拳头已经握紧了,你发现这个跟平时的json不太一样。
但我是全才嘛,我啥都会一点,js也会的。
所以我知道只不过是数据存在rankData里面罢了。解析!
接下来你会得到一个list,解析里面的数据就可以了,这个大家都懂,也没必要写出来。

四、完整的代码

最终结果如下:
notion image

📎 参考文章