SEO好文章张亚楠:2016版《Google搜索质量评分指南》阅读心得及pdf下载 Google有个常规任务就是找普通用户做兼职给Google的搜索结果打分,也会有个文档给评分作指导。我在13年读过12年的评分指南文档,并试图翻译(结果放弃),最后也写了个读后感。 前一段发现Google有2016年的版本,而且内容变动挺大... 04月27日 2,402 1 阅读全文
SEO好文章【张亚楠】Selenium+PhantomJS+Xpath抓取网页JS内容 之前抓一个爬虫代理网站,发现在port上做了点手脚,使用了JS去计算port的方式,比如<script>document.write((2773^seal)+837);</script>。就这样一个改动搞得我费劲心思... 11月22日 1,990 1 阅读全文
SEO好文章【张亚楠】Python你必须知道的十个库【翻】 整理我用过的最好的十个库 Python是优雅的,使用这些库可以使你的代码更简洁,并保持持久性。欢迎各位补充,并提出意见! Docopt。抛弃optparse和argparse吧,使用docstrings来构建优雅的,可读性强的,并且复杂(如... 11月18日 1,108 发表评论 阅读全文
SEO好文章【张亚楠】用产品的思维去做SEO 最近和朋友聊天,我们都感到SEO行业有个很致命的问题,就是没有一个固定的规范和标准。不像python,PHP等程序语言,有个很完善的官方手册,实在不行就直接做个小程序跑下,马上就有准确的答案。而SEO,毛标准都没有,所以就经常出现这样的情况... 11月18日 1,293 发表评论 阅读全文
SEO好文章【张亚楠】python常用库 python常用库 WEB方面: 网页操作:urllib, urllib2, requests URL操作:urlparse 数据库操作:MySQLdb 处理json:simplejson,json 字体判断:chardet 网页解析: B... 11月18日 964 发表评论 阅读全文
SEO好文章【张亚楠】python requests的安装与简单运用 requests是python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢?官方文档中是这样说明的: python的标准库urllib2提供了大部分需要的HTTP功能,但是A... 11月18日 993 发表评论 阅读全文
SEO好文章【张亚楠】ETag简介与在SEO方面的应用 之前在《高性能网站建设指南》中了解过ETag,但一直没有应用。昨晚看到百度站长平台在大力推荐ETag,忽然有一种凌凌漆接到国家任务的感觉。 1. 什么是ETag ETag全称为Entity Tag,中文名为实体标签,是Web服务器和浏览器用... 11月18日 962 发表评论 阅读全文
SEO好文章【张亚楠】Python在我SEO工作中的应用(1) 1. 本系列前言 一直想写Python与SEO的系列文章,因为随着SEO工作的开展,以及自身Python水平的提高,Python在SEO中的应用越来越多,使用的范畴也越来越广。 本系列暂时计划分为几个主题,将在近几周完成: 数据采集 关键词... 11月18日 1,411 发表评论 阅读全文
SEO好文章【张亚楠】[翻]使用requests和lxml进行web抓取 web抓取 web站点是由HTML语言编写,这意味着每个网页都是结构化文档。有时,我们可利用当前结构获取所需数据并保留数据格式,但通常都不能以合适的结构获取数据(不像csv和json)。 web抓取适时而出。web抓取可利用计算机程序过滤网... 11月18日 902 发表评论 阅读全文
SEO好文章【张亚楠】Scrapy数据保存为excel 背景 Scrapy默认是可以保存为csv的,可以用excel打开,使用scrapy crawl spider_name -o data.csv即可。但csv格式有诸多不便,比如中文编码问题,比如说逗号分隔,虽然都能解决,但对一般用户来说还是... 11月18日 2,910 发表评论 阅读全文
SEO好文章【张亚楠】django-crontab实现Django定时任务 1. 前言 为了做一些报表,最近需要每日从爱站上抓取竞争对手的百度流量和移动流量,从我能实现的技术来看,大致有三种实现形式: 火车头定时抓取; python+crontab定时抓取,保存在txt或cav或数据库中; django定时任务,用... 11月18日 2,577 1 阅读全文
SEO好文章【张亚楠】Python读取大文件 1. 前言 前几天在做日志分析系统,需要处理几十G的文件,我尝试用原来的for line in open(filepath).readlines()处理,但停顿好久也没变化,可见占用不小的内存。在网上搜索了下,找到了两种方法来读取大文件。 ... 11月18日 940 1 阅读全文