一、基本情况
今天我们要爬的网站是天天基金网。
这个网站长下面这样:
我们要把里面的东西爬出来
二,爬取过程
1,requests
观察一下网址:
没发现有什么规律,翻页后也没发现有什么规律,放弃。
2,selenium
点击翻页,加载很久。一股可耻的尊严感让我不要使用selenium,放弃。
3,network
翻页!翻页!我们的老朋友Fetch/XHR没有任何反应。。。
所以,今天认识一个新朋友——JS。
可以看到JS里面有个东西,其中,我们翻页分析一下,知道pi是第几页的意思,pn是一个页面里有50条记录的意思,sd和ed更不必多说,开!
但,其实,滑到最后可以发现更简单的办法。
这小子,这里搞了个不分页啊,好家伙!
所以,直接用这个js的爬就好了。
三、解析结果
于是,我们根据这个JS请求,获取到的东西如下:
你拳头已经握紧了,你发现这个跟平时的json不太一样。
但我是全才嘛,我啥都会一点,js也会的。
所以我知道只不过是数据存在rankData里面罢了。解析!
接下来你会得到一个list,解析里面的数据就可以了,这个大家都懂,也没必要写出来。
四、完整的代码
最终结果如下: