Browsed by
分类:Backend

微博爬虫“免登录”技巧详解及Java实现

微博爬虫“免登录”技巧详解及Java实现

一、微博一定要登录才能抓取?

目前,对于微博的爬虫,大部分是基于模拟微博账号登录的方式实现的,这种方式如果真的运营起来,实际上是一件非常头疼痛苦的事,你可能每天都过得提心吊胆,生怕新浪爸爸把你的那些账号给封了,而且现在随着实名制的落地,获得账号的渠道估计也会变得越来越少。 read more

Loading Likes...
HttpClient获取cookie时出现Invalid ‘expires’ attribute错误的解决方法

HttpClient获取cookie时出现Invalid ‘expires’ attribute错误的解决方法

在使用HttpClient进行抓取一些网页的时候,经常会保留从服务器端发回的Cookie信息,以便发起需要这些Cookie的请求。大多数情况下,我们使用内置的cookie策略,便能够方便直接地获取这些cookie。 read more

Loading Likes...