孔天逸'Blog

Scrapy定向爬虫教程(一)——创建运行项目和基本介绍

发表于 2016-09-26 | 分类于 Python |

声明

本教程为原创教程，转载请注明出处http://kongtianyi.cn/2016/09/26/python/Scrapy-Lesson-1/

前言

目前网上的Scrapy中文教程比较少，而且大多教程使用的Scrapy版本较老，比如说这个Scrapy 0.25 文档，如其名，上古时期的翻译文档(后注：这个文档在不断更新，现在已更至1.0版本，喜欢阅读文档学习的朋友可以移步)；再比如极客学院的视频教程使用的是1.0.x版本，跟新版相比还是有出入(后注：当然喜欢视频的朋友可以移步)。这种情况使得新手入门Scrapy较为困难，而且各种掉坑。本人也是只刚入门的菜鸟，我希望能用菜鸟的语言给其他想要踏进Scrapy大门的小菜鸟指引一条道路。至少比我踩得坑少点吧^-^。

开发环境

Ubuntu 16.04
Python 2.7.12
Scrapy 1.1.2(后注:因版本更新较快，我会把所知的新改动在教程中更新)
PyCharm 2016.1.4

介绍

本教程将带领大家写一个爬取Discuz模板论坛网站的定向爬虫，网上的Discuz论坛数不胜数，当然我也不敢公开在这教唆大家去侵犯某一个，只好祭出自己搭的论坛来供大家练习——心韵论坛。当然，既然是Discuz模板，用哪个网站做教程都是大同小异的。有了思路后，其他网站也会触类旁通。本教程分为以下八个部分，将分为八篇博文向大家介绍：

Scrapy安装与项目创建
通过Selector选择器解析页面获取内容
爬取多个页面
数据存入MongoDB
保持登陆状态
分析表单并回帖
使用UA/代理中间件(因课业繁忙，未更新，可催)
结束邮件通知(因课业繁忙，未更新，可催)

阅读全文 »

JavaScript闭包

发表于 2016-09-24 |

来源

本文转自菜鸟教程，原文章地址[JacaScript闭包｜菜鸟教程](http://www.runoob.com/js/js-function-closures.html

JavaScript 闭包

JavaScript 变量可以是局部变量或全局变量。
私有变量可以用到闭包。

全局变量

函数可以访问由函数内部定义的变量，如：

function myFunction() {
    var a = 4;
    return a * a;
}

函数也可以访问函数外部定义的变量，如：

var a = 4;
function myFunction() {
    return a * a;
}

后面一个实例中， a 是一个全局变量。
在web页面中全局变量属于 window对象。
全局变量可应用于页面上的所有脚本。
在第一个实例中， a 是一个局部变量。
局部变量只能用于定义它函数内部。对于其他的函数或脚本代码是不可用的。
全局和局部变量即便名称相同，它们也是两个不同的变量。修改其中一个，不会影响另一个的值。
变量声明时如果不使用 var 关键字，那么它就是一个全局变量，即便它在函数内定义。

变量生命周期

全局变量的作用域是全局性的，即在整个JavaScript程序中，全局变量处处都在。
而在函数内部声明的变量，只在函数内部起作用。这些变量是局部变量，作用域是局部性的；函数的参数也是局部性的，只在函数内部起作用。

计数器困境

设想下如果你想统计一些数值，且该计数器在所有函数中都是可用的。
你可以使用全局变量，函数设置计数器递增：

var counter = 0;

function add() {
    counter += 1;
}

add();
add();
add();

// 计数器现在为 3

计数器数值在执行 add() 函数时发生变化。
但问题来了，页面上的任何脚本都能改变计数器，即便没有调用 add() 函数。
如果我在函数内声明计数器，如果没有调用函数将无法修改计数器的值：

function add() {
    var counter = 0;
    counter += 1;
}

add();
add();
add();

// 本意是想输出 3, 但事与愿违，输出的都是 1 !

以上代码将无法正确输出，每次我调用 add() 函数，计数器都会设置为 1。
JavaScript 内嵌函数可以解决该问题。

JavaScript 内嵌函数

所有函数都能访问全局变量。
实际上，在 JavaScript 中，所有函数都能访问它们上一层的作用域。
JavaScript 支持嵌套函数。嵌套函数可以访问上一层的函数变量。
该实例中，内嵌函数 plus() 可以访问父函数的 counter 变量：

function add() {
    var counter = 0;
    function plus() {counter += 1;}
    plus();    
    return counter; 
}

如果我们能在外部访问 plus() 函数，这样就能解决计数器的困境。
我们同样需要确保 counter = 0 只执行一次。
我们需要闭包。

JavaScript 闭包

还记得函数自我调用吗？该函数会做什么？

var add = (function () {
    var counter = 0;
    return function () {return counter += 1;}
})();

add();
add();
add();

// 计数器为 3

实例解析

变量 add 指定了函数自我调用的返回字值。
自我调用函数只执行一次。设置计数器为 0。并返回函数表达式。
add变量可以作为一个函数使用。非常棒的部分是它可以访问函数上一层作用域的计数器。
这个叫作 JavaScript 闭包。它使得函数拥有私有变量变成可能。
计数器受匿名函数的作用域保护，只能通过 add 方法修改。
闭包是可访问上一层函数作用域里变量的函数，即便上一层函数已经关闭。

js函数内未声明变量的作用域

发表于 2016-09-24 | 分类于 js |

背景

js虽然一直在使用，但是脑中的知识并不成体系，多数情况是在网上搜索代码段然后复制粘贴。趁现在有时间通过菜鸟教程系统的学习一下js。

问题

在菜鸟教程函数这一部分，有下面这段话，我觉得比较神奇，于是验证一番。

向未声明的 JavaScript 变量分配值
如果您把值赋给尚未声明的变量，该变量将被自动作为全局变量声明。
这条语句：
1
2
>carname="Volvo";
>

将声明一个全局变量 carname，即使它在函数内执行

验证

起初我根据字面意思理解，在函数内只要定义了如上所述的一个变量，那么在全局就都可以访问，于是我写了如下一段代码：

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
    <script type="text/javascript">
        function o() {
            wang = "wanghan";
        }
        alert("hehe");
        alert(wang);
    </script>
</head>
<body>
</body>
</html>

发现hehe可以正常弹出，而wang却不行。我立马就火了，这菜鸟教程怎么回事？！明白过来是半个小时以后的事了，原来我只是定义了函数，而并未调用过它，变量也就无从创建了。所以改成下面这个样子，就可以访问啦。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
    <script type="text/javascript">
        function o() {
            wang = "wanghan";
        }
        o();
        alert("hehe");
        alert(wang);
    </script>
</head>
<body>
</body>
</html>

后记

出现这个疑问归根结底还是基础知识不牢固，路漫漫其修远兮呀！不过实际运用中应该不会这样用，在函数外多打三个字母var，又方便又清晰，何乐而不为呢？

Linux下C语言进程间消息队列通信

发表于 2016-09-21 | 分类于 C |

背景

操作系统课程习作。

环境

Ubuntu16.04 LTS
gcc version 5.4.0

阅读全文 »

Linux下C语言进程间无名管道通信

发表于 2016-09-21 | 分类于 C |

背景

操作系统课程习作。

环境

Ubuntu16.04 LTS
gcc version 5.4.0

阅读全文 »

C语言文件拷贝

发表于 2016-09-16 | 分类于 C |

背景

操作系统课程习作。

环境

Windows10 专业版
CodeB::Blocks 13.12

简介

通过查阅资料和上网搜索，总结出下列四种办法，封装为统一输入输出的函数。

fgetc() and putc()/fputc()
fgets() and fputs()
fread() and fwrite()
system()函数执行DOC命令

阅读全文 »

Python删除某一目录下的空文件(夹)

发表于 2016-09-08 | 分类于 Python |

用途

输入文件夹路径，将此文件夹下所有的空文件夹和空文件删除，算是文件操作的一个习作吧。我拿它做什么就不广而告之了。

代码

# coding: utf-8
import os  # 引入文件操作库

def CEF(path):
    """
    CLean empty files, 清理空文件夹和空文件
    :param path: 文件路径，检查此文件路径下的子文件
    :return: None
    """
    files = os.listdir(path)  # 获取路径下的子文件(夹)列表
    for file in files:
        print 'Traversal at', file
        if os.path.isdir(file):  # 如果是文件夹
            if not os.listdir(file):  # 如果子文件为空
                os.rmdir(file)  # 删除这个空文件夹
        elif os.path.isfile(file):  # 如果是文件
            if os.path.getsize(file) == 0:  # 文件大小为0
                os.remove(file)  # 删除这个文件
    print path, 'Dispose over!'

if __name__ == "__main__":  # 执行本文件则执行下述代码
    path = raw_input("Please input the files path:")  # 输入路径
    CEF(path)

执行示例

Ubuntu16.04安装Scrapy命令

发表于 2016-08-25 | 分类于 Python |

背景

命令行下有三种安装Scrapy的方式：

apt-get:千万不要用，因为你会下载到一个上古时期的Scrapy版本，产生一系列与你参考教程的代码不兼容的问题
easy_install:我没有安装成功
pip:Scrapy官网上推荐的下载方式，我们使用这种方法

安装

首先python、lxml、OpenSSL这些工具Ubuntu是自带的，不用管它们。

其次安装pip，在命令行中执行以下命令：

1	sudo apt-get install python-pip

然后安装两个安装Scrapy需要的依赖库，在命令行中分别执行以下三条命令：

1
2
3

sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev  # 在阿里云上配置的时候发现还得确定有这个

最后安装Scrapy，在命令行中执行以下命令：

1	sudo pip install scrapy

然后我们的最新版Scrapy就安装好了，可以执行下列命令查看版本号：

1	scrapy version

Scrapy: AttributeError: 'list' object has no attribute 'iteritems'

发表于 2016-08-25 | 分类于 Python |

环境

Ubuntu16.04
Ubuntu14.04

问题背景

在学习Scrapy的过程中，跟着极客学院的课程模仿着写了一个爬取dz模板网站的爬虫，在本地运行的好好的，但是拷贝到服务器上就GG了，报了如题目所示的错误。

产生原因

Scrapy不同版本间不兼容所致，我的本机是Ubuntu16.04，安装Scrapy比较久远了，是1.0.x版本，在这个版本下，跟极客学院的课程同步，settings.py文件中配置ITEM_PIPELINES的时候做如下配置：

1	ITEM_PIPELINES = ['yourspider.pipelines.yourspiderPipeline']

我在服务器上使用pip安装的Scrapy的最新版本1.1.2，在这个版本下配置ITEM_PIPELINES的时候相较1.0.x版本应修改为：

1
2
3

ITEM_PIPELINES = {
    'yourspider.pipelines.yourspiderPipeline': 300,
}

其中数字代表这个管道的优先级，取0-1000之间的任意一个数即可。

参考资料

参考Stackoverflow此贴

Ubuntu下Scrapy1.1.x版本下载

点此进入

Linux下pyCharm无法输入中文的解决办法

发表于 2016-08-24 | 分类于 Python |

问题描述

在Ubuntu下写Python代码的注释的时候，发现pyCharm无法输入中文。

解决办法

进入pyCharm的安装目录，进入bin目录，找到pycharm.sh文件，加入以下配置项：

1
2
3

export GTK_IM_MODULE=fcitx 
export QT_IM_MODULE=fcitx 
export XMODIFIERS=@im=fcitx

之后重启pycharm即可。