背景 Scrapy默认是可以保存为csv的,可以用excel打开,使用scrapy crawl spider_name -o data.csv即可。但csv格式有诸多不便,比如中文编码问题,比如说逗号分隔,虽然都能解决,但对一般用户来说还是...
SEO好文章
【方法SEO】SEO好文章频道收藏了很多优秀的SEO技术文章,带你一起学习更高明的SEO方法,发现更大的SEO世界!
【张亚楠】Python读取大文件
1. 前言 前几天在做日志分析系统,需要处理几十G的文件,我尝试用原来的for line in open(filepath).readlines()处理,但停顿好久也没变化,可见占用不小的内存。在网上搜索了下,找到了两种方法来读取大文件。 ...
【张亚楠】django-crontab实现Django定时任务
1. 前言 为了做一些报表,最近需要每日从爱站上抓取竞争对手的百度流量和移动流量,从我能实现的技术来看,大致有三种实现形式: 火车头定时抓取; python+crontab定时抓取,保存在txt或cav或数据库中; django定时任务,用...
【张亚楠】用Python简单实现Google Analytics API
SEO需要经常看网站各种数据,如Visits,Keywords,landing page等,但总要登录Google Analytics(之后简称GA)查看,而且无法与其他系统数据结合。这时,就需要GA API了。GA API自动获取各种数据...

GoGo闯:【SEO】关于爬虫抓取JS、CSS、JSON
这是一个存在多年、经常出现但又从来没有标准解决办法的问题:搜索引擎爬虫(尤其是百度)抓取JS、CSS、JSON文件,robots屏蔽依然抓取的情况。 这就引出了几个问题: 1、爬虫抓取JS、CSS是干什么的? 2、爬虫能否执行JS? 3、爬...

GoGo闯:【SEO】关键词数据分析
上回投票次数降序排列,主题顺序为:4312,依次为‘关键词分析’>‘SEO数据获取与分析’>‘DDOS、CC的SEO处理’>‘寄生虫程序原理’,所以就按这个顺序更新了。 这几天下了班一直在折腾自己的事,微信号没更新,有一些...

GoGo闯:【黑帽】蜘蛛池、刷百度指数
这是一篇介绍蜘蛛池和刷百度指数的科普贴。 利用大中型站点搜索结果页做外推,估计在大中型网站工作的同学都碰到过,把业务词(大多是业务+联系方式,如“办假证联/系139_2011_329”)作为query,构造出搜索结果页的url,并将url主...

GoGo闯:【黑帽】劫持
劫持,一种古(guo)老(shi)的黑帽手法,差不多10年的时候就有一票前辈知道这个方法了。 劫持分很多种,流量劫持、快照劫持、PR劫持等,其实前几个步骤都一样,就是最后的脚本写的不一样而已。 因为是劫持别人的站,所以首先要获取劫持站的后台...

Zac:2015年搜索引擎排名因素调查【PDF下载】
前言 在今年年初的时候,有幸参与了Zac老师发起的关于百度排名因素调查问卷,在填写问卷的同时,我意识到了Zac老师出版第3版《SEO实战密码》将会成为一个SEO圈的热点话题,于是把当时所问的问题都截图保存了一下,打算作为一手资料发博文分享给...

【GoGo闯】【折腾】通过word2vec结合SEO做关键词分类
大概一年前开始研究nlp(自然语言处理)时,就接触过word2vec这个强大的文本聚类开源项目(见《自然语言处理方面的一些待好好研读的文章笔记》),当时就意识到这东西对SEO来说肯定特别有帮助,只因我不够专注,没能继续深入研究下去。今天去逛...

叶思明:理解搜索引擎和如何做页面
搜索引擎主要目标就是为了根据用户搜索词,把互联网上跟用户搜索词相关的网页找出来,并把越符合用户需要的页面排在越前面。 SEO要做的就是帮助网站让搜索引擎更好的理解它上面的内容,以便在相关搜索词上能够有更好的表现。 搜索引擎在理解一个网页的时...

【GoGo闯】SEO的标准化流程
国平曾经曰过:SEOer最易犯的毛病是把过程当结果、把手段当目标、把方向当计划,入行至今已见识过不少SEOer“拍脑门”、“拿来主义”、“生搬硬套”、“排名为王”式的SEO行为。不可否认,现在大多SEO只知道要这么做,却不知道出于何种原因要...