SEO是一个多边的生态,“用户”、“你的站点”、“竞品站点”、“搜索引擎”,这4个点随便一个发生变化,都有可能导致自身站点的SEO流量波动。(其实还应该把像新浪、知乎这种“流氓站点”也算进来,但是“流氓站点”拿到不同行业流量的占比差不多是恒定的,所以也不那么重要。)
任何行业,判断任何手段是够有效的前提,是“有反馈”,而反馈时间越长,这越会影响判断的准确性。
比如网站流量涨了,有可能不代表SEO搞的好,可能是因为某个竞品网站的流量掉了。
比如有些高竞争、存在巨头网站的行业,一个处于第二梯队的网站流量变化,大部分取决于巨头网站的流量变化,它掉,你才有可能涨,它不掉,你就没机会涨,所以,除非行业整体搜索量变大,否则只能放弃行业流量竞争,寻找行业弱相关的流量来做。
然而在搞SEO的过程中,很容易把大部分目光集中在“自身网站”,而忽视了“用户”、“竞品网站”、“搜索引擎”的变化。
之前流传很广的SEO公式,“整体收录量×整体排名×整体点击率×整体搜索量”这个,放到现在感觉十分尴尬。
比如其中几个子因素:
整体收录率 = 搜索引擎抓取量 × 页面质量 排名 = 页面排名 × 网站权重增益
“页面质量”怎么定义?什么页面才能叫页面质量好的?权重增益又怎么算?
如果能够得到有效“反馈”的前提,是能够对结果性指标及其影响因素做出明确且及时的数据量化。
而能够量化,就意味着不能够使用诸如“页面质量”、“权重增益”这类含糊其辞的名词,应该全部换成“XX率”、“XX量”、“XX占比”之类可进行数据计算的明确指标。
基于此,本渣渣对这个公式做了如下修改:
有几个点可以一本道下。
全网非重复页面占比
这是反应竞争度的一个指标,公式为:
全网非重复页面占比 = 自身站点包含关键词的页面数 / 关键词搜索结果总数
比方说我拉出1180个词,标题中完整包含这1180个词的页面有3400个,而这1180个词在百度搜索结果数的总量为1341722539
则:
3466 / 1341722539 = 0.0000025 = 2.5/1000000 = 1/400000
对标一下,竞争度为4到5之间,约4.4左右,这个竞争度,差不多有10%的网页能够进入倒排。
采集内容滞后时间点
识别采集网页最粗暴的特征,就是看网页上线的时间呗,搜索爬虫抓到A网页,隔了2天,抓到B网页,B网页正文与A网页正文几乎一致,假设两个权值一样,哪个留下来的概率大?
所以,如果网站有较大比例内容是采集的,则需要努力缩短采集页面与源页面的上线时间间隔。比方说,A网页12:20发出来的,我12:25就抓过来,12:30就上线了,这种接近于实时同步采集。这种采集,能够能够一定比例提升采集内容被收录的概率。
所以定时采集的站为啥容易挂呢?这个应该是一个比较重要的因素。
真实用户使用特征
现在一些网站,无论SEO怎么搞,什么上词、做聚合页、搞链接结构,反正死活上不去,所以感觉高竞争行业的站点,用之前传统手段搞SEO可能已经行不通了。
人无我有的阶段,拼的是流量,人有我优的阶段,拼的是留存,靠的是产品体验。所以搜索引擎机器学习到现在,会不会根据有真实用户使用、体验好的网页上的共同特征,来参考其他网页?
比方说我看到阿里巴巴SEO专利有一条关于流量分发的情况,可以理解为,电商网站一个产品词的SEO搜索页面。
电商网站有B端和C端用户,如果一个电商网站有大量真实用户在使用,那么在网页产品设计上,必然要考虑给B端用户分发的流量要尽可能公平。
有大量真实用户使用的电商网站,会兼顾流量分发,同一个B端用户发布的商品,在列表中只能出现一次,不能出现多次,也就是列表中出现的商品,全是由不同的B端发布的。
这也就意味着,如果一个电商网站,它产品词的SEO搜索列表页,在列表中出现同一个B端用户发布的多条商品,则这个列表规则意味着对其他B端用户的不公平。而一个真实用户量少,或者纯靠广告赚钱的网站,在网页设计过程中,是不考虑流量分发这一点的。
路径搜索量
用户在搜索框,输入一个关键词,在点击“百度一下”,这个流量是直接搜索流量。
接着上步,跳转到搜索结果页,看到下拉框推荐的词是符合自己需求的,点击这个词,这个流量是路径搜索流量。
用户搜索行为变化越多样的行业,路径搜索流量占比越高,比如娱乐行业,每天都有新的热点出来,围绕这个热点,又有很多的衍生词。
个别几个行业,通过路径搜索产生的流量,能够接近总搜索流量的50%。