Browsed by
作者:fullstack yang

微博爬虫“免登录”技巧详解及Java实现

微博爬虫“免登录”技巧详解及Java实现

一、微博一定要登录才能抓取?

目前,对于微博的爬虫,大部分是基于模拟微博账号登录的方式实现的,这种方式如果真的运营起来,实际上是一件非常头疼痛苦的事,你可能每天都过得提心吊胆,生怕新浪爸爸把你的那些账号给封了,而且现在随着实名制的落地,获得账号的渠道估计也会变得越来越少。 read more

Loading Likes...
HttpClient获取cookie时出现Invalid ‘expires’ attribute错误的解决方法

HttpClient获取cookie时出现Invalid ‘expires’ attribute错误的解决方法

在使用HttpClient进行抓取一些网页的时候,经常会保留从服务器端发回的Cookie信息,以便发起需要这些Cookie的请求。大多数情况下,我们使用内置的cookie策略,便能够方便直接地获取这些cookie。 read more

Loading Likes...
IT从业者的绘图指南(Processon版)

IT从业者的绘图指南(Processon版)

一、引言

作为一名IT从业者,不仅要有扎实的知识储备,出色的业务能力,还需要具备一定的软实力。软实力体现在具体事务的处理能力,包括沟通,协作,团队领导,问题的解决方案等,这些能力在关键时刻比硬性的技术水平更能体现一名工程师的价值,它决定了IT职业生涯的高度和视野。 read more

Loading Likes...
MySQL和B树的那些事

MySQL和B树的那些事

零、铺垫

在介绍B树之前,先来看另一棵神奇的树——二叉排序树(Binary Sort Tree),首先它是一棵树,“二叉”这个描述已经很明显了,就是树上的一根树枝开两个叉,于是递归下来就是二叉树了(下图所示),而这棵树上的节点是已经排好序的,具体的排序规则如下: read more

Loading Likes...
MySQL数据库增量数据恢复案例

MySQL数据库增量数据恢复案例

一、场景概述

  1. MySQL数据库每日零点自动全备
  2. 某天上午10点,小明莫名其妙地drop了一个数据库
  3. 我们需要通过全备的数据文件,以及增量的binlog文件进行数据恢复

二、主要思想

  1. 利用全备的sql文件中记录的CHANGE MASTER语句,binlog文件及其位置点信息,找出binlog文件增量的部分
  2. 用mysqlbinlog命令将上述的binlog文件导出为sql文件,并剔除其中的drop语句
  3. 通过全备文件和增量binlog文件的导出sql文件,就可以恢复到完整的数据

三、过程示意图

QQ截图20160802163433 read more

Loading Likes...