孔天逸'Blog

人間って、不自由な生き物ね。


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

Hexo-Next主题修改配色

发表于 2017-01-31 | 分类于 hexo |

Next的配色文件是

1
\Hexo\themes\next\source\css\_variables\base.styl

里边是现有的配色方案,自定义的话只要修改一下参数的定义值就好了。

阅读全文 »

记一次失败的开车经历

发表于 2017-01-26 | 分类于 闲情偶记 |

2017年1月16日,刚放假三天,整个人还处于刚放假的兴奋状态。午后酒足饭饱,掏出手机发现同班同学问我有个项目要不要一起做,是一个在学校创新创业大赛中获奖的创意。想到下一个课设还没着落,瞬间感觉有点兴趣。回到屋里仔仔细细的看了他们的创业计划书,感觉创意确实不错,而且实现起来仿佛不是很难。而且他们只是想做个初期的产品试运营一下,可以先不考虑运维和安全的问题。于是我就傻呵呵的加入了。

阅读全文 »

用Scrapy shell调试xpath

发表于 2017-01-17 | 分类于 Python |

昨日一道友问我会不会用scrapy shell检查xpath,我表示没搞过,都是直接在代码里硬怼,尴尬。然而其实也没什么难的,在这记录一下方法。

首先还是安利一下国内翻译的scrapy文档,虽然最新的翻译版本是1.0版,scrapy已经出到1.3版,但是这份文档仍然非常好用,只是有些版本差异带来的小坑。

阅读全文 »

zerorpc-python官方入门

发表于 2017-01-14 | 分类于 Python |

原文地址:http://www.zerorpc.io/

一个易于使用的,直观的,跨语言的RPC

zerorpc是一个在服务端进程上提供分布式通信的轻量级的、可靠的跨语言的库。它基于ZeroMQ和MessagePack。提供流式相应(streamed response)——就像python的生成器(generators)——这让zerorpc不仅仅是个典型的RPC引擎。内置心跳包、超时监测以及从失败请求中恢复。自我修复能力、第一类异常以及命令行工具让debug也变得极其简单。

阅读全文 »

Python爬虫爬取动态页面思路+实例(二)

发表于 2016-12-29 | 分类于 Python |

简介

上篇Python爬虫爬取动态页面思路+实例(一)提到,爬取动态页面有两种方法

  • 分析页面请求
  • selenium模拟浏览器行为(这篇介绍这个)

理论上来讲,这种方法可以应对各种动态加载,因为模拟人的行为嘛,如果人自己用浏览器来看网页都加载不出数据来,这网站吃枣药丸。但是它的显著缺点就是——慢。所以一般情况下,这是一种万不得已的方法。

selenium是一种自动化测试的工具(话说这方面我并不懂),懂自动化测试的同学不用我介绍,不懂的同学,跟着我的思路走就好了,不影响我们写爬虫。

如何安装selenium我就不介绍了,网上很多教程,如果你在调用Firefox的时候出现了问题,那么请留意一下本文参考资料1。

首先说一下整体的思路,我们知道,动态加载的数据都是用户通过鼠标或键盘执行了一定的动作之后加载出来的。所以我们通过selenium提供的webdriver工具调用本地的浏览器,让程序替代人的行为,滚动页面,点击按钮,提交表单等等。从而获取到想要的数据。所以我认为,使用selenium方法爬取动态页面的中心思想是模拟人的行为。

这里举一个例子,爬取自己QQ空间的说说。

阅读全文 »

Python爬虫爬取动态页面思路+实例(一)

发表于 2016-12-21 | 分类于 Python |

简介

有时候,我们天真无邪的使用urllib库或Scrapy下载HTML网页时会发现,我们要提取的网页元素并不在我们下载到的HTML之中,尽管它们在浏览器里看起来唾手可得。

这说明我们想要的元素是在我们的某些操作下通过js事件动态生成的。举个例子,我们在刷QQ空间或者微博评论的时候,一直往下刷,网页越来越长,内容越来越多,就是这个让人又爱又恨的动态加载。

爬取动态页面目前来说有两种方法

  1. 分析页面请求(这篇介绍这个)
  2. selenium模拟浏览器行为(霸王硬上弓,以后再说)

言归正传,下面介绍一下通过分析页面请求的方法爬取动态加载页面的思路。中心思想就是找到那个发请求的javascript文件所发的请求。

阅读全文 »

为Hexo-Next主题设置头部图片

发表于 2016-12-03 | 分类于 hexo |

一周的课程考试实验将人推向崩溃的边缘,终于周末了,虽然接下来的考试仍然在催命,姑且先放松一下,美化一下博客。

第一步

首先在网上找或者自己PS一张心仪的图片,取名background.jpg,把它放在

1
Hexo\source\image

路径下。

阅读全文 »

Hadoop学习笔记(二)——MapReduce

发表于 2016-11-14 | 分类于 Hadoop |

MapReduce原理

分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce)。

阅读全文 »

Hadoop学习笔记(一)——HDFS

发表于 2016-11-14 | 分类于 Hadoop |

文件系统HDFS

设计架构

基本概念

  • 块(Block)
  • NameNode
  • DataNode
阅读全文 »

win10安装python3.x+scrapy

发表于 2016-11-07 | 分类于 Python |

下载安装python3

官网下载就好,https://www.python.org/downloads/release/python-352/

python

用installer下载比较方便,它直接把环境变量都帮你配了。


阅读全文 »
1234…7
孔天逸

孔天逸

67 日志
18 分类
32 标签
GitHub E-Mail CSDN
© 2016 — 2021 孔天逸
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4
已有 位大佬知道这儿有个菜鸡了 已被公开处刑 次