1、百度搜索引擎对CSDN的文章非常照顾,一般是以这个网站的文章排到第一位,博客园和知乎至少要排到第二、第三位;
2、但是实际上CSDN有很多文章都是爬虫僵尸爬出来的,或者直接搬运博客园、知乎等网站,甚至还标原创的;
3、除此之外CSDN会把很多需要会员才能访问的文档资源也供给百度爬虫,导致虽然搜索结果中有我们也看不到里面的内容。
4、我之所以写这篇文章,就是做一个感慨——“在我主动跳过CSDN的垃圾文章而去看那些更好的文章时,我的学习效率大大提高了。”
1、在很多浏览器扩展中提供这样一个功能——直接在百度谷歌等搜索引擎中把CSDN给屏蔽了,我觉得这个方法好,但是还是有缺陷;因为CSDN中虽然三成的文章都是烂文,CSDN的界面再花里胡哨,广告再多......也还是有精品文章在里面。因此我不推荐直接屏蔽这种方法。
2、相比之下,不如我们人为过滤,看到百度搜索结果中如果前面有CSDN的文章,先别急着点进去;先看看有没有B站专栏、知乎专栏、博客园(精华)等口碑比较好的平台结果;如果有先点击非CSDN的。
如下图所示,在可释放差值的搜索结果中,优先选择第二个有图的文章,再看看文字描述,相关度也比较高,就点进去。
对文字描述的瞄一眼,也能大致判断这个文章的质量如何,作者是否严谨认真,以及这篇文章是否是爬虫爬出来的(CSDN中很多爬虫号是weixing__xxx开头的,他们的“原创”文都是爬虫爬出来的)。
本人的经验是,标题的重要性和文字描述的重要性基本相同。有些博客标题起得烂,比如出现范围界定不明,用词不准确等错误。
假设我们想要知道HOG算法的知识,我们在谷歌图片搜索HOG,得到下面的结果
其实这些结果大多是从博客文章中爬取的。
如果文章的图用得好,作者在用心地作图,其实我相信这篇文章应该是更值得你看!
既然浏览器扩展能够屏蔽某些搜索结果,那能不能强行对搜索结果进行排序呢?比如说我设置CSDN的优先级在博客园和知乎专栏的最后面,那么即使百度搜出来的原始顺序是CSDN>知乎专栏>博客园,经过扩展程序调整后,会将博客园的文章排在最前面,其次是知乎专栏,最后才是CSDN。
网上很多博客文章是互相转载的,某IT网站尤甚,在一个关键词的搜索结果中,该网站中竟然有好几篇内容完全相同的文章,搜索效率直接受到影响。因此建议将搜索结果相似度太高的网页进行特定的标注,比如网页A和网页B的正文相似度高于90%,建议只打开其一即可。