分析网站
网站url:https://www.studyinaustralia.gov.au/SIASearch/SIASearchResults.aspx?moduleId=13&mode=1&Keyword=Adelaide+University
首先根据网址,网站页面采用asp语言编写的。
其次查看想要抓取得数据是深层次的三级结构。想要抓到最终的数据,那么就要依次获取第二层数据,第一层数据。
其次再看页面跳转,当选择第二页,第三页时。网页的请求链接是不变的,则不能用直接通过链接来抓取数据的方法了,只能模拟网站请求,或者模拟网站点击()。
使用chrome 浏览器 ,进行网络请求时,header中 包含 formdata数据。本质上,只要使用sumbit提交数据时,携带必要的formdata数据就可以了。
查看网站的源代码,发现每一页的link只是 eventTarget, eventArgument 。分析发现,eventTarget 是固定的函数。eventArgument 是页码,
以上理清之后,就可以开始考虑抓包进度了。
展开全文 >>