www.055999.com

博客搬家系列(六)-爬取今日头条文章

时间:2019-08-26 04:06  作者:admin  来源:未知   查看:  
内容摘要:爬取今日头条的文章算是本系列中比较难的,不像其他如CSDN等网站,基本信息可以直接使用htmlunit就能爬取,但是当用同样的方法爬取今日头条时,则不行,很简单,我们随便找一多文章的博主,如打开主页,右击查看源码,我们发现源码中并不包含文章列表等信息

  爬取今日头条的文章算是本系列中比较难的,不像其他如CSDN等网站,基本信息可以直接使用htmlunit就能爬取,但是当用同样的方法爬取今日头条时,则不行,很简单,我们随便找一多文章的博主,如打开主页,右击查看源码,我们发现源码中并不包含文章列表等信息,说明文章列表是js动态加载的,于是还是老规矩,先审查元素,查看一下都进行了哪些请求再说

  发现这个get请求正是我想要的,preview查看一下不难发现这里的数据即是文章列表,但是我却并没有在url中发现跟页数相关的参数,只是滚动会发现另一个请求,而且最后的三个参数as,cp,_signature是不一样的,当max_behot_time=0时,即第一页信息,随便更改这三个参数均能得到正确数据

  但是当不等于0的时候,即第2,3...页信息,则后面的三个参数就起了作用,不能随便了,其实想想也知道,这肯定是签名算法,防的就是我们现在的这个行为,哈哈,好吧,先说结果,目前我还没有找到有效的办法,但是可以将过程同大家分享一下,共同学习。

  首先,这三个参数的加密算法是什么需要找到,然后才能破解,我们分析一下这条url

  当我们首页信息时max_behot_time是0,下拉时变成了1539352612,这个过程中没有其他的请求发生,那么就是在第一次请求时返回的信息或者通过js计算的数据,首先检查一下首次返回的数据:

  发现果然如此,这个参数我们是可以依次获取的,解决,那么as,cp,_signature这三个参数呢?刚刚分析,可能是js计算而来,那我们就把这几个关键字在所有的js文件中搜索一下,找到相关的js代码先

  经搜索发现,我们找到了相关的js,即文件index_34154e5.js,将其下载下来分析,我们找到了as,cp这两个参数的算法

  分析发现,这两个参数只是根据当前的时间经过md5加密生成的字符串,并没有用到user_id和max_behot_time参数,我们网上百度个md5算法或者引入md5js文件,简单写个html获取这两个参数试试看,

  经测试,这两个参数是可用的,那问题的关键就在于_signature这个参数了,同样搜索文件发现了算法

  第一条路是破解这个_signature签名的算法,其实js中都有,我只要改成java实现,或者直接使用java执行js即可

  可是将其带入到url中依然无法得到正确结果,可能毕竟运行有差别吧,不做多想,再试试方案一!

  显然含有特殊字符,暂时不管,先复制到本地html中试试看,经测试发现是可以用的,但由于特殊字符的原因不太好改成java版,偶然间在网上搜索竟然发现有人对这个算法研究了,结果也很失望,主要是大多是Python版的且多失效或者是使用selenium需要浏览器,并不是我想要的,不过倒是这篇管用一点,链接忘了,找到了会在尾部贴出。主要是将带有特殊字符的加密算法去除,重点如下:

  惊喜发现,将其嵌入到html中浏览器打开得到的参数是可以使用的,这是个好消息,接着就是冷水,当我使用htmlunit读取本地html时,也能得到参数,但是参数不可用,与方案二一样,然后我又将此网页嵌入到自己的网站,使用htmlunit模拟爬取自己的这个网页,同样,得到的参数也是不能使用。至此,陷入了困境!结果不重要(其实也很重要),享受的是过程!暂时先这样吧。

  虽然不能获取后续加载的文章列表,但是首次加载的文章还是可以获取的,下面分析一下吧,文章列表都在那个json中

  分析发现,数据在script标签中的变量BASE_DATA 中,解析即可得

  以上是小白爬虫记,高手请直接绕行。最近python那是相当的火,正好项目要用到爬虫,爬取今日头条的内容。作为一名伸手党,自然想到了度娘,发现一大堆东西,各种尝试,最后引用了这篇博客:利用Python3...博文来自:走着学磔的专栏

  Python3从零开始爬取今日头条的新闻【一、开发环境搭建】Python3从零开始爬取今日头条的新闻【二、首页热点新闻抓取】Python3从零开始爬取今日头条的新闻【三、滚动到底自动加载】Python...博文来自:weixin_30252155的博客

  项目源码爬虫目标爬虫设计思路爬取方式动态解析网页方式爬取解析接口方式爬取解析思路破解入口接口对比破解加密参数参数生成方式解析js分析接口返回值解析原文地址java项目解析基本功能队列和线程池操作界面—...博文来自:Mr_OOO的博客

  python爬取今日头条 学习爬虫有一段时间了,今天做个实战小项目,爬取今日头条的热点。很多人都喜欢刷头条, 本次将会爬取热点页面,每隔30秒抓取一次,并以追加的方式保存入文件中难度:简单工具:pyt...博文来自:的博客

  (终于找到了获取有效_signature的方法)博客搬家系列(六)-爬取今日头条文章(二)一.前情回顾博客搬家系列(六)-爬取今日头条文章:博文来自:rico_zhou的博客

  接下来我们就介绍一下对今日头条的爬取:对AJAX的爬取我也不是太熟,但是我想了以下这应该是最新的了,我也在网上搜索到不少今日头条的爬去,但是跟新过后就很难找到能顺利爬取美图的博客了,所以我把我的发现写...博文来自:weidaxueshen1的博客

  python分页爬取今日头条标题要爬取的内容(分页爬取今日头条中77事件的所有文章标题)爬取结果展示(只展示出了部分)#工具:pycharm(什么编译器都可以)、谷歌浏览器进入正文:一、首先对需求进行...博文来自:的博客

  此爬虫的目的是爬取今日头条街拍的组图图片工具 环境:python3.6,windows10,pycharm思路:首先在今日头条网站种搜索关键字街拍,审查网络,街拍显示内容是通过ajax加载的加载出的文...博文来自:菜菜鸟的博客

  【摘要】本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来。1.准备工作在本节开始之前...博文来自:老猿Python

  这几天闲来无事,想爬取视频,上午爬取b站(很简单),下午爬取头条上的小视频,爬取还是比较麻烦的,我是通过selenium获取的网页源代码,因为requests没有get到,而且selenium直接...博文来自:weixin_40444270的博客

  使用环境:python3scrapywin10爬取思路(一)关于as、cp的生成与_signature的想法对于今日头条的爬虫,网上搜索出来的文章大多是基于崔庆才(通过搜索爬取美女街拍的方案),怎么说...博文来自:徐代龙的技术专栏

  博客搬家系列(三)-爬取博客园博客一.前情回顾 博客搬家系列(一)-简介:博客搬家系列...博文来自:rico_zhou的博客

  这个功能思来想去想了很久,终于实现了基本功能,自己基于别人的后台权限管理系统写了一个博客系统,其实博客系统只是一小部分,但今天只讲博客部分,其他详见:RZSpider详见:博文来自:rico_zhou的博客

  抓取内容文章作者信息也就是文章作者管理客户端提供文章作者首页地址,通过如下方式可以获取到作者信息:publicvoid...博文来自:在路上

  首先说明一下,文件的命名不能含有:?*新浪:新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用JS异步加载,直接爬取就行了。frombs4importBeautifu...博文来自:勿忘初心

  分析动态页面,模拟ajax请求,爬取街拍美图分析页面:右击页面查看源代码,并没有发现...博文来自:漫鱼

  万年老掉牙的头条街拍爬取,不过用来练习还是可以的,也有很多资料查询1.获取总页面的代码在头条的右上角搜索选项内搜索街拍,我们看见街拍首页了,然后看看是不是js加载的发现还真是,头条全部都是js加载的,...博文来自:的博客

  闲来无事,写了个爬虫爬取今日头条的文章信息,然后使用ECharts展示出统计结果。那么怎样爬取今日头条的信息呢?首先,分析头条页面,文章是通过ajax获取的,所以要找到调用的url,然后跟踪代码查看u...博文来自:zhangzhong123456的博客

  用Python+Selenium爬取今日头条关于江歌案的文章关于江歌案的讨论和分析,我呢,当然是站在正义一方的,而且我也不想重复那些结论了。不过网上仍然有很多关于江歌案的文章和讨论,我也想了解一下其他...博文来自:myRealization的博客

  【摘要】本节中,我们以今日头条为例来尝试通过分析Ajax请求来抓取网页数据的方法。这次要抓取的目标是今日头条的街拍美图,抓取完成之后,将每组图片分文件夹下载到本地并保存下来。1.准备工作在本节开始之前...博文来自:华为云官方博客

  使用爬虫框架htmlunit整合springboot不兼容的一个问题本来使用htmlunit爬虫爬取数据非常正常好用,之前一直是直接java程序或者整合Javaswing界面,都没有问题,但是后来整合...博文来自:rico_zhou的博客

  今天抽出时间写了一个小爬虫来爬取今日头条的图片简要的说下1图片首页是通过ajax发生请求得到json数据然后渲染到网页,2然后每个详情页中在获取的网页的源代码中是包含图片地址的但是直接获取img元素来...博文来自:m_cainiaokuaifei的博客

  最近在学习word2vec,想利用word2vec训练一个同义词模型,准备采用新闻数据做为语料库。 但在爬取新闻的过程中发现,现在主流的新闻网站基本都是采用滚动式(名字我瞎编的)的新闻加载方式,也就是论坛

  今日头条爬取街拍图(动态页面抓取逆向解析实例)链接:目标:爬取今日头条街拍图高清图集 目标网站分析:(索引页分析)1.进入页面,滑下鼠标,发现新的页面...博文来自:的博客

  分析网页今日头条的网页是通过AJAX加载的所以如果单纯的复制网页是无法查看到内容的,只能看到一堆字典形式HTML代码。这里发现URL的参数共有offset,format,keyword,autolo...博文来自:a2639491403的博客

  之前已经爬过今日头条街拍的美图,今天再次完善一下代码,并详解爬取过程及遇到的坑。废话不多说,抓紧上车啦。分析页面分析索引页我们打开今日头条官网,在在搜索框输入「街拍」首页内容然后点击确定,跳转到街拍的...博文来自:sixkery的博客

  这几天一直在研究js解密的问题,学会了不少新东西,以前见到那些加密的参数基本直接放弃,现在也可以琢磨一会进行尝试一番。我先分享一下心得,首先找到参数是在哪个js文件里面加密的,然后看看都调用了...博文来自:weixin_40444270的博客

  最近在学习爬取头条,废话不多说直接简单回顾一下,我想爬取每个搜索页面中的图片链接,并且保存起来,但因为整个网页源码是被js渲染过的,所以无法直接从网页中爬取结果页面链接如上图所示,爬取的结果不是我们想...博文来自:的博客

  本来只要按照崔大大的步骤一步一步做下去,啥问题没有。但我看完他的操作之后,自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题,然后理所当然的访问其中一个子页面什么都没有想,我就...博文来自:Qwertyuiop2016的博客

  Python爬虫如何获取JS生成的URL和网页内容?获取JS动态内容—爬取今日头条 使用Selenium爬取QQ空间说说python爬虫的最佳实践(五)--selenium+PhantomJS的简单使...博文来自:每天进步一点点

  0x0背景最近学习爬虫,分析了几种主流的爬虫框架,决定使用最原始的两大框架进行练手:Jsoupamp;HttpUnit其中jsoup可以获取静态页面,并解析页面标签,最主要的是,可以采用类似...博文来自:gx304419380的博客

  如果爬虫不是为了抓取小姐姐照片的话,那就毫无意义和以往一样,写文章不是为了其他,只是单纯记录一下自己的学习生活,此文就是为了记录学习经历(小姐姐)而写的。正文:本文依旧是照着崔大书上内容完成的,没办法...博文来自:weigr的博客

  Python3爬取今日头条有关《人民的名义》文章最近一直在看Python的基础语法知识,五一假期手痒痒想练练,正好《人民的名义》刚结束,于是决定扒一下头条上面的人名的名义文章,试试技术同时可以集中看一...博文来自:奋斗的小geek

  在上一篇文章《使用python-aiohttp爬取网易云音乐》中,我们给自己的微信公众号添加了在线点歌的功能,这次我们再增加一个新闻浏览的功能。由于我平时浏览新闻用的是今日头条,所以在这里就想通过爬取...博文来自:SigalHu

  主要内容进入今日头条按F12进行数据分析,找到要爬取的内容根据获取的网页信息,编写代码一些模块的使用方法源代码展示打包成可执行程序exe1.进入今日头条...博文来自:乐亦亦乐的博客

  分类目录:《Python爬虫从入门到精通》总目录本文为实战篇,需提前学习Python爬虫从入门到精通中《基本库requests的使用》和《Ajax数据爬取(一):基本原理》、《Ajax数据爬取(二):...博文来自:洪远的博客

  Python3爬取今日头条(模拟ajax请求)注:本文是跟据博主崔庆才的博客来写的,不单单是思路值得学习,还有代码规范更值得去学习。...博文来自:Ying的博客

  爬取网页:,分析爬取页面,找到页面信息在Chrome按F12打开开发者工具,查找网页...博文来自:wenboyu的博客

  一、问题说明由于老师布置了一个任务,需要对一个网站的城市做一些统计,并提取出这个网站上的城市的经纬度信息然后绘制在百度地图上。香港六合开奖结果直播,如果是一些数量不多的城市那也到好办,但是如果对于这种存在几百上千的城市,而...博文来自:灰羽

  Python爬虫为什么受欢迎如果你仔细观察,就不难发现,懂爬虫、学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像Python这样的编程语言提供越来越多的优秀工具,让爬虫变得简单...博文来自:360linker

  要玩大数据,没有数据怎么玩?这里推荐一些33款开源爬虫软件给大家。爬虫,即网络爬虫,是一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。网络爬虫...博文来自:多看书多写文的博客

  授予每个自然周发布1篇到3篇原创IT博文的用户。本勋章将于次周周三上午根据用户上周的博文发布情况由系统自动颁发。

  Ant Design Vue Form表单验证后无法绑定数据的解决办法

  (终于找到了获取有效_signature的方法)博客搬家系列(六)-爬取今日头条文章(二)

  BangBrother:前端有点丑,杨青的配色本来不错的你改成这个鬼配色。。。