孔天逸'Blog

人間って、不自由な生き物ね。


  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

发表于 2016-09-26 | 分类于 Python |

声明

本教程为原创教程,转载请注明出处http://kongtianyi.cn/2016/09/26/python/Scrapy-Lesson-1/

前言

目前网上的Scrapy中文教程比较少,而且大多教程使用的Scrapy版本较老,比如说这个Scrapy 0.25 文档,如其名,上古时期的翻译文档(后注:这个文档在不断更新,现在已更至1.0版本,喜欢阅读文档学习的朋友可以移步);再比如极客学院的视频教程使用的是1.0.x版本,跟新版相比还是有出入(后注:当然喜欢视频的朋友可以移步)。这种情况使得新手入门Scrapy较为困难,而且各种掉坑。本人也是只刚入门的菜鸟,我希望能用菜鸟的语言给其他想要踏进Scrapy大门的小菜鸟指引一条道路。至少比我踩得坑少点吧^-^。

开发环境

  • Ubuntu 16.04
  • Python 2.7.12
  • Scrapy 1.1.2(后注:因版本更新较快,我会把所知的新改动在教程中更新)
  • PyCharm 2016.1.4

介绍

本教程将带领大家写一个爬取Discuz模板论坛网站的定向爬虫,网上的Discuz论坛数不胜数,当然我也不敢公开在这教唆大家去侵犯某一个,只好祭出自己搭的论坛来供大家练习——心韵论坛。当然,既然是Discuz模板,用哪个网站做教程都是大同小异的。有了思路后,其他网站也会触类旁通。本教程分为以下八个部分,将分为八篇博文向大家介绍:

  • Scrapy安装与项目创建
  • 通过Selector选择器解析页面获取内容
  • 爬取多个页面
  • 数据存入MongoDB
  • 保持登陆状态
  • 分析表单并回帖
  • 使用UA/代理中间件(因课业繁忙,未更新,可催)
  • 结束邮件通知(因课业繁忙,未更新,可催)
阅读全文 »

JavaScript闭包

发表于 2016-09-24 |

来源

本文转自菜鸟教程,原文章地址[JacaScript闭包|菜鸟教程](http://www.runoob.com/js/js-function-closures.html

JavaScript 闭包

JavaScript 变量可以是局部变量或全局变量。
私有变量可以用到闭包。

全局变量

函数可以访问由函数内部定义的变量,如:

1
2
3
4
function myFunction() {
var a = 4;
return a * a;
}

函数也可以访问函数外部定义的变量,如:

1
2
3
4
var a = 4;
function myFunction() {
return a * a;
}

后面一个实例中, a 是一个 全局 变量。
在web页面中全局变量属于 window对象。
全局变量可应用于页面上的所有脚本。
在第一个实例中, a 是一个 局部 变量。
局部变量只能用于定义它函数内部。对于其他的函数或脚本代码是不可用的。
全局和局部变量即便名称相同,它们也是两个不同的变量。修改其中一个,不会影响另一个的值。
变量声明时如果不使用 var 关键字,那么它就是一个全局变量,即便它在函数内定义。

变量生命周期

全局变量的作用域是全局性的,即在整个JavaScript程序中,全局变量处处都在。
而在函数内部声明的变量,只在函数内部起作用。这些变量是局部变量,作用域是局部性的;函数的参数也是局部性的,只在函数内部起作用。

计数器困境

设想下如果你想统计一些数值,且该计数器在所有函数中都是可用的。
你可以使用全局变量,函数设置计数器递增:

1
2
3
4
5
6
7
8
9
10
11
var counter = 0;

function add() {
counter += 1;
}

add();
add();
add();

// 计数器现在为 3

计数器数值在执行 add() 函数时发生变化。
但问题来了,页面上的任何脚本都能改变计数器,即便没有调用 add() 函数。
如果我在函数内声明计数器,如果没有调用函数将无法修改计数器的值:

1
2
3
4
5
6
7
8
9
10
function add() {
var counter = 0;
counter += 1;
}

add();
add();
add();

// 本意是想输出 3, 但事与愿违,输出的都是 1 !

以上代码将无法正确输出,每次我调用 add() 函数,计数器都会设置为 1。
JavaScript 内嵌函数可以解决该问题。

JavaScript 内嵌函数

所有函数都能访问全局变量。
实际上,在 JavaScript 中,所有函数都能访问它们上一层的作用域。
JavaScript 支持嵌套函数。嵌套函数可以访问上一层的函数变量。
该实例中,内嵌函数 plus() 可以访问父函数的 counter 变量:

1
2
3
4
5
6
function add() {
var counter = 0;
function plus() {counter += 1;}
plus();
return counter;
}

如果我们能在外部访问 plus() 函数,这样就能解决计数器的困境。
我们同样需要确保 counter = 0 只执行一次。
我们需要闭包。

JavaScript 闭包

还记得函数自我调用吗?该函数会做什么?

1
2
3
4
5
6
7
8
9
10
var add = (function () {
var counter = 0;
return function () {return counter += 1;}
})();

add();
add();
add();

// 计数器为 3

实例解析

  • 变量 add 指定了函数自我调用的返回字值。
  • 自我调用函数只执行一次。设置计数器为 0。并返回函数表达式。
  • add变量可以作为一个函数使用。非常棒的部分是它可以访问函数上一层作用域的计数器。
  • 这个叫作 JavaScript 闭包。它使得函数拥有私有变量变成可能。
  • 计数器受匿名函数的作用域保护,只能通过 add 方法修改。
  • 闭包是可访问上一层函数作用域里变量的函数,即便上一层函数已经关闭。

js函数内未声明变量的作用域

发表于 2016-09-24 | 分类于 js |

背景

js虽然一直在使用,但是脑中的知识并不成体系,多数情况是在网上搜索代码段然后复制粘贴。趁现在有时间通过菜鸟教程系统的学习一下js。

问题

在菜鸟教程函数这一部分,有下面这段话,我觉得比较神奇,于是验证一番。

向未声明的 JavaScript 变量分配值

如果您把值赋给尚未声明的变量,该变量将被自动作为全局变量声明。
这条语句:

1
2
>carname="Volvo";
>

将声明一个全局变量 carname,即使它在函数内执行

验证

起初我根据字面意思理解,在函数内只要定义了如上所述的一个变量,那么在全局就都可以访问,于是我写了如下一段代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
<script type="text/javascript">
function o() {
wang = "wanghan";
}
alert("hehe");
alert(wang);
</script>
</head>
<body>
</body>
</html>

发现hehe可以正常弹出,而wang却不行。我立马就火了,这菜鸟教程怎么回事?!明白过来是半个小时以后的事了,原来我只是定义了函数,而并未调用过它,变量也就无从创建了。所以改成下面这个样子,就可以访问啦。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Document</title>
<script type="text/javascript">
function o() {
wang = "wanghan";
}
o();
alert("hehe");
alert(wang);
</script>
</head>
<body>
</body>
</html>

后记

出现这个疑问归根结底还是基础知识不牢固,路漫漫其修远兮呀!不过实际运用中应该不会这样用,在函数外多打三个字母var,又方便又清晰,何乐而不为呢?

Linux下C语言进程间消息队列通信

发表于 2016-09-21 | 分类于 C |

背景

操作系统课程习作。

环境

Ubuntu16.04 LTS
gcc version 5.4.0

阅读全文 »

Linux下C语言进程间无名管道通信

发表于 2016-09-21 | 分类于 C |

背景

操作系统课程习作。

环境

Ubuntu16.04 LTS
gcc version 5.4.0

阅读全文 »

C语言文件拷贝

发表于 2016-09-16 | 分类于 C |

背景

操作系统课程习作。

环境

Windows10 专业版
CodeB::Blocks 13.12

简介

通过查阅资料和上网搜索,总结出下列四种办法,封装为统一输入输出的函数。

  • fgetc() and putc()/fputc()
  • fgets() and fputs()
  • fread() and fwrite()
  • system()函数执行DOC命令
阅读全文 »

Python删除某一目录下的空文件(夹)

发表于 2016-09-08 | 分类于 Python |

用途

输入文件夹路径,将此文件夹下所有的空文件夹和空文件删除,算是文件操作的一个习作吧。我拿它做什么就不广而告之了。

代码

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
# coding: utf-8
import os # 引入文件操作库

def CEF(path):
"""
CLean empty files, 清理空文件夹和空文件
:param path: 文件路径,检查此文件路径下的子文件
:return: None
"""
files = os.listdir(path) # 获取路径下的子文件(夹)列表
for file in files:
print 'Traversal at', file
if os.path.isdir(file): # 如果是文件夹
if not os.listdir(file): # 如果子文件为空
os.rmdir(file) # 删除这个空文件夹
elif os.path.isfile(file): # 如果是文件
if os.path.getsize(file) == 0: # 文件大小为0
os.remove(file) # 删除这个文件
print path, 'Dispose over!'

if __name__ == "__main__": # 执行本文件则执行下述代码
path = raw_input("Please input the files path:") # 输入路径
CEF(path)

执行示例

图一
图二

Ubuntu16.04安装Scrapy命令

发表于 2016-08-25 | 分类于 Python |

背景

命令行下有三种安装Scrapy的方式:

  • apt-get:千万不要用,因为你会下载到一个上古时期的Scrapy版本,产生一系列与你参考教程的代码不兼容的问题
  • easy_install:我没有安装成功
  • pip:Scrapy官网上推荐的下载方式,我们使用这种方法

安装

首先python、lxml、OpenSSL这些工具Ubuntu是自带的,不用管它们。

其次安装pip,在命令行中执行以下命令:

1
sudo apt-get install python-pip

然后安装两个安装Scrapy需要的依赖库,在命令行中分别执行以下三条命令:

1
2
3
sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev # 在阿里云上配置的时候发现还得确定有这个

最后安装Scrapy,在命令行中执行以下命令:

1
sudo pip install scrapy

然后我们的最新版Scrapy就安装好了,可以执行下列命令查看版本号:

1
scrapy version

Scrapy: AttributeError: 'list' object has no attribute 'iteritems'

发表于 2016-08-25 | 分类于 Python |

环境

Ubuntu16.04
Ubuntu14.04

问题背景

在学习Scrapy的过程中,跟着极客学院的课程模仿着写了一个爬取dz模板网站的爬虫,在本地运行的好好的,但是拷贝到服务器上就GG了,报了如题目所示的错误。

产生原因

Scrapy不同版本间不兼容所致,我的本机是Ubuntu16.04,安装Scrapy比较久远了,是1.0.x版本,在这个版本下,跟极客学院的课程同步,settings.py文件中配置ITEM_PIPELINES的时候做如下配置:

1
ITEM_PIPELINES = ['yourspider.pipelines.yourspiderPipeline']

我在服务器上使用pip安装的Scrapy的最新版本1.1.2,在这个版本下配置ITEM_PIPELINES的时候相较1.0.x版本应修改为:

1
2
3
ITEM_PIPELINES = {
'yourspider.pipelines.yourspiderPipeline': 300,
}

其中数字代表这个管道的优先级,取0-1000之间的任意一个数即可。

参考资料

参考Stackoverflow此贴

Ubuntu下Scrapy1.1.x版本下载

点此进入

Linux下pyCharm无法输入中文的解决办法

发表于 2016-08-24 | 分类于 Python |

问题描述

在Ubuntu下写Python代码的注释的时候,发现pyCharm无法输入中文。

解决办法

进入pyCharm的安装目录,进入bin目录,找到pycharm.sh文件,加入以下配置项:

1
2
3
export GTK_IM_MODULE=fcitx 
export QT_IM_MODULE=fcitx
export XMODIFIERS=@im=fcitx

之后重启pycharm即可。

1…4567
孔天逸

孔天逸

67 日志
18 分类
32 标签
GitHub E-Mail CSDN
© 2016 — 2021 孔天逸
由 Hexo 强力驱动
|
主题 — NexT.Gemini v5.1.4
已有 位大佬知道这儿有个菜鸡了 已被公开处刑 次