Nai tiruvantel ar varyuvantel i Valar tielyanna nu vilya.

linux环境搭建的一些记录

最近搞到了两台腾讯云学生特惠主机,将搭建服务器环境的过程做一些记录(均是Ubuntu12.04) mysql 直接使用apt-get来进行安装 apt-get install mysql-server 设置好密码后便可以使用 Nginx 访问nginx官网挑选合适的版本载...

自己搭建服务器造梯子的小记

在学校时曾申请过github education pack,前段时间收到成功的邮件,仔细看了下,学生礼包里包含DigitalOcean的50刀代金券,拿来搞个VPS装上shadowsocks是极好的 Github education 在填写一些个人信息、申请理由,上传学生证明(如学...

爬虫数据去重小记

最近把之前写的知乎爬虫做了些调整,在数据去重这块遇到了点问题 写毕设之余将知乎爬虫算是重写了一遍,会依次抓取各用户关注的人信息,数据量呈指数级递增,因为用户的关注是交叉式的,不可避免的会遇到数据去重的问题 到目前为止,我抓取了15.8万条用户信息,1141.3万条用户之间关系信息,...

Datatables学习小记

最近在自己写的一些玩具内经常要用到表格,在用html+jquery实现了一些后,深感麻烦,于是便找了一个插件来用用 前段时间,写了几个统计游戏信息的网页: 统计游戏内角色物品 天尊区顶级角色统计 里面都涉及到很多表格的操作,我都是用jquery来简单操纵,对于这样功能不复杂的网...

jsoup学习笔记(四):监控动态与爬取所有动态

今日公司年会,微醺 在成功登录后,就可以搞一些好玩的事情了 比如知乎没有提供特别关心某用户的功能,我们可以自己做一个,当关注的用户有新的动态时,发送邮件提醒我们 或者,爬取某用户的所有动态,来分析他的喜好习惯 监控动态 1、分析dom,提取信息 首先分析个人主页的dom结构...

jsoup学习笔记(三):模拟登录

如上文所述,未登录状态爬取信息时会有很多限制,那么就来看看如何模拟登录知乎 采用最暴力的方法:硬塞cookie 首先,在浏览器上登录帐号,然后提取到cookie 关于如何获取,各个浏览器不一样,可以针对自己的百度下 拿到cookie值后,在程序里硬编码写入 Connectio...

jsoup学习笔记(二):读取知乎个人首页动态

在使用一段时间jsoup后,不满足仅仅处理一些本地文件,因知乎上不提供特别关注某位答主的功能,所以准备慢慢写一个监控动态的工具 jsoup从url加载网页 使用jsoup的connect方法,但注意 要在消息头内添加user-agent信息,用来模拟浏览器 合理设置ti...

jsoup学习笔记(一):一个简单的html处理工具

因最近在开发中需要对网页做特定处理,如px转为rem、类名的替换、class转为id、对某class进行排序等。 虽然用java里String的一些方法如正则替换等也能做到,但是会非常繁琐,所以抽出时间学习一下html解析器:jsoup, 然后写了一个小小的工具 什么是jsoup j...