- A+
@ 2016年9月9日
为满足查询效率,搜索引擎多采用倒排索引的存储方式,即关键词为主键,映射多个与这个关键词相关的网页,每个网页都是这个主键对应的值。
首先可以肯定,在库里,一个词对应多少个相关网页,这个数量是有限额的,不可能1亿个网页标题都包含这个关键词,它就都做上映射关系,肯定得在限额内,计算页面质量最好网页做上映射关系,
从上面两点似乎可以推测:如果一个网页上的主关键词,包含这个词的其他网页越多,则这个页面被收录的概率越低。
所以,新网页标题不一定非要包含众所周知的、非常有规律的搜索词。
@ 2016年9月15日
百度历史搜索缓存,用户输入某个查询词,点击触发“百度一下”后,查询的记录以cookie的形式存储到本地电脑上。
这些查询记录也会上传到百度的记录中,因为不同电脑同账号登陆仍会显示搜索缓存。
如果我们对流量进行区分,针对各类流量分别植入满足对应搜索需求的搜索缓存,当他们进行二次搜索时,恰巧看到搜索缓存,可能会产生点击,达到引流的效果。
虽然这种引流不是直接性质的,可能给1万个用户植入,最后引流过来的可能就10个,1%的转化。但是这种方式成本很低啊,且引流过来的人都是通过点击植入的缓存词进来的,所以都是精准流量。
@ 2016年9月18日
某位同学看见“历史搜索缓存”的文章留言,之前使用过这个方法,忽然某天自己无意间发现之前的植入缓存代码失效了,然后没多久网站就被K了~~
@ 2016年9月23日
最近做新的单站,需要抓新闻源内容,但新闻源网站众多,模板各不相同,对每个站单独配置采集规则太麻烦,需要一种通用爬虫的解决方案,用于不同模板网页正文的抽取。试了下readability正文提取算法,效果还不错。
@ 2016年9月24日
前几天看了一篇公众号文章,主要是推测未来赚钱机会的,且这些机会与站长、SEO出身的有很强的关联性,确实给了我不少的启发。
于是我对这篇文章产生了两个态度,第一是这篇文章触动了我,第二是我只会收藏但不会转载,为什么?因为害怕被朋友圈中执行力强的人看到,多个竞争过对手就多一分难度。
所以发现,一篇文章被转到朋友圈的必要条件,除了内容能够触动对方,还要不会牵扯到对方的利益。
@ 2016年9月25日
学习路径:组织问题 → 主题阅读 → 构建框架 → 实际应用 → 迭代优化
学习速度:( 密度+专注 ) x 方法 x 时长
学习这件事,方法重于一切
@ 2016年10月13日
想知道一个流量有多少商业价值,先想清楚4个问题:
1)一个流量背后是什么人?
2)这个人搜索这个词是要解决什么需求?
3)他愿意为这个需求花多少钱?
4)有多少人跟他一样也需要解决这个需求?
@ 2016年11月04日
主观上认为不存在的东西,可能在客观上是存在的,只不过主观的我看不到。世界很大,时刻保持质疑和好奇
@ 2016年11月18日
骑川藏线,海拔太高,翻过去太难,如何克服?
答:翻一座海拔更高的山。
@ 2016年11月20日
大道至间,简单到让人容易忽略,所以简单也不简单
@ 2016年11年21日
和一堆人抢一块蛋糕,拼的是资源,谁资源多,就可能拿得多。与其和一堆土豪争蛋糕,不如想办法让蛋糕变的更大。