SEO笔记_[每天更新中]


题记:[写在开始 转载请注明出处]
SEOer的友谊基础是尊重,所谓君子之交,淡如水,确实如此.学会尊重别人,别人也会尊重你.

08.11.05
1.JavaScript对SEO的影响
解决办法:
A,将这部分JavaScript脚本放在一个或几个.js文件中,这样能够避免干扰到搜索引擎的抓取和分析。
B,实在不能放在.js文件中的部分JavaScript脚本,将它们放在html代码的底端,之前,这样使搜索引擎分析网页时最后才会发现它,降低对搜索引擎的干扰。
正面效果:
利用JavaScript来过滤一些垃圾信息,如广告、版权申明、大量导出链接、与内容不相关的信息等等.

08.11.06
2,百度将首页降权解决办法

最近很多点石的朋友都在谈论在百度首页被K或者出现未收录的办法,现在给一个个人的解决思路。主要分析如下:首页被K,有可能的原因是首页关键字词密度过大,title过长等原因造成(不要一味的骂街,要学会从自己身上找原因,也许有个别的案例能够说百度的一些不好的地方,但并不意味着百度不够好。如果说搜索引擎全部都智能,除非真的人肉搜索或者搜索引擎发展出人工智能。)降权或者不收录首页,再者不收录你部分页面,也许你做的就是桥页,就是关键字词页面。

解决思路:
1、减少该页面关键字词密度
2、title长度减少,不相关的关键字词删除,违反国家政策等词语全部删除。
3、减少堆积(这点很重要)
4、保持更新
5、检查你的robots.txt文件,是否符合百度的抓取政策,千万不要因为是自己的问题迁怒搜索引擎。
6、检查LOG,是否百度Bot还在抓取,频率。

一般来说,下个更新周期就会回来。如果还没有回来,证明修改不够彻底。声明:这个只是一个解决办法,不能说是通用法则。(本办法已经经过多次验证,大多数情况下有效)
[原载: 点石互动搜索引擎优化博客]

3,如何写robots.txt

在国内,网站管理者似乎对robots.txt并没有引起多大重视,应一些朋友之请求,今天想通过这篇文章来简单谈一下robots.txt的写作。


robots.txt基本介绍

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt写作语法

首先,我们来看一个robots.txt范例:http://www.375job.cn/robots.txt

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

# Robots.txt file from http://www.375job.cn
# All robots will spider the domain

User-agent: *
Disallow:

以上文本表达的意思是允许所有的搜索机器人访问www.375job.cn站点下的所有文件。

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

下面,我将列举一些robots.txt的具体用法:

允许所有的robot访问

User-agent: *
Disallow:

或者也可以建一个空文件 "/robots.txt" file

禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)

User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">
<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

其中

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME="googlebot" CONTENT="index,follow,noarchive">

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。
[转:robin]

4.网站排名的基本方法 

1)  用标准代码设计网页,一个页面最主要有2个部分需要关注, 一个是<head></head>, 另外一个是<body></body>, 至少这2部分应该设计好了

, SE喜欢从左到右,自上而下搜索信息, 它认为页面上面的信息更重要, 所以尽量把你要突出的  信息放在页面的上面。标准化是指要满足

xhtml的web标准。
 
2)  <title>标志:  
title标志作为页面的重要信息, SE非常看重, 应该把本页面要突出的信息精简到20个字以内作为title的值. 但不要用与页面无关的关键字作

为title值, 否则会被SE惩罚. 

3) <Meta>标志: 

每页都加上关键词比较好,但是不要堆砌关键词,堆砌关键词会被搜索引擎视为作弊,最好是有2、3百字的内容。在内容中有主要关键词,而

关键词密度在2%到8%之间(这是目前几个月的最佳关键词密度,以后可能会变). 关键词要注意:Title和网页内容中含有关键词最重要、其

次是Meta描述&Meta 关键词。然后网页内容中的<h></h>之间的标题中是否含有关键词也很重要。Meta最重要的是Description,而Meta 

Keywords现在大型的搜索引擎都不会在意,比如Google和Yahoo都不会根据Meta Keywords来进行网页排名。Description中关键词的原则同样是

搜索量最大最相关的放在最前面,比如我们网站是做在线问卷调查的,原来我们网站的关键字是这样描述的

<meta content="在线设计问卷,设计问卷,问卷调查,市场调查"name="keywords"> 
在baidu中打入“问卷”,你会发现“问卷调查”这个关键词的搜索量是最高的,这个关键词不用,等于浪费,按照百度确定关键词搜索量的方

法,排在最前面的关键词是:问卷调查,市场调查,满意度调查,调查问卷,问卷星,所以我改成这样:

<meta content="问卷星是专业的在线问卷调查平台,提供功能强大的免费自助式在线设计问卷、自定义统计报表、调查结果分析等系列服务,

已经被广泛应用于市场调查、满意度调查、在线报名、讨论投票等领域,与传统调查方式和其它调查网站相比具有快捷、易用、低成本的明显

优势。" name="DESCRIPTION">

<meta content="问卷调查,市场调查,满意度调查,调查问卷,问卷星" name="keywords">
并且保证关键字在描述里面都能够出现至少1次,这样会增加关键字的重要性。 

4)  之所以把“设计问卷”去掉了,是因为按照我的方法在百度中搜索会发现“设计问卷”这个关键词根本没有什么人搜索,所以放在后面,

没有人搜索就表示没有人流,关键词是别人的搜索习惯,不是俺们做网页的自己想出来的,所以首先要分析什么关键词别人用的最多。 

5)   javascript: SE一般对javascript不感冒, 尽量不要在页面的<head></head>间放置大量的javascript函数, 这样会使SE不知所措, 而且

大部分SE在爬行你的页面时都有时间限制, 或者最大信息量限制, 在前面放置很多javascript代码会使SE运行缓慢, 降低对你的兴趣, 最主要

还是这部分代码把你后面有用信息占用了,使得SE无法获取你页面有用的信息, 如果你实在要用javascript, 尽量把所有javascript代码放在一

个js文件里, 然后在页面连接这个JS文件即可 

6)   给所有<img>加上alt属性个一个好的习惯, 尤其是指向一个连接的图片一定要加上要连接网址的关键信息, SE会对有连接指向的图片的

ALT属性进行识别, 但对无连接的图片不作处理.如对问卷星logo的处理:<img alt="问卷星-专业的在线问卷调查平台" 

src="/Images/WJX/Default/wjxLogo.jpg" /> 

7)尽量不要把整个页面都用Flash或者图片来实现, 这样SE无法找到页面的有用信息. 

8) <h1><h2>: SE对这样的信息很感兴趣, 而且会对其增加权重, 所以把最重要的信息用<h1></h1>标识出来, 把次重要的信息用<h2></h2>标识

出来. 注意: 一个页面应该只有一个<h1></h1>, 可以有多个<h2></h2>, 否则会被SE认为是作弊的 

9)    尽量不要套用多层次的<table>, SE一般最多只能读取3个<table>的嵌套, 如果多了, 它就懒得读下去了, 造成你的有用信息没有被检测

到.尽量改用DIV+CSS布局,配合table一起使用,非常有效,网页打开速度也会有明显提升。 

10) <b><strong>: 这些标识也会被SE很好的注意到, 虽然权重不如<h1><h2>那么高, 可以灵活使用.  

11) 一个页面的连接数量最多不要超过100个, google认为只有前100个是有用的 

12)对于搜索引擎来说,页面各个元素的权重比例。

  内部连接: 10 分. 

  标题title: 10 分. 

  域名: 7 分. 

  <h1>和<h2>: 5 分. 

  页面第一个段落的开始部分: 5 分. 

  路径和文件名: 4 分. 

  相似关键词: 4 分. 

  每个句子的开始部分 1.5 分. 

  <b>和<strong>: 1 分. 

  内容: 1 分. 

  Title属性: 1 分. (注意不是<title>, 是title属性, 比如<a href=… title=””>) 

  alt 标志: 0.5 分. 

  <meta>的description属性: 0.5 分. 

  <meta>的 keywords属性: 0.05 分.  

13)尽量用HTML的格式, 如果的确要用数据库, 尽量减少参数的长度 。 


14) 我的问卷调查网站以前显示商品都是用一个aspx文件通过参数传递的, 结果这个aspx文件只能被SE收录1页, 而且排名根本找不到; 后来我

把动态页面进行了url-rewrite转换成了静态页面的链接形式,每个问卷一个静态链接, 结果google收录增加了几万页, 而且每个问卷在google

的排行基本都在第一页了。 

15)反向连接:google非常重视反向连接, 可以通过以下方式来增加反向连接:  

A: 友情连接, 最好找PR高的, 而且被SE收录很多页面, 排名靠前的连接, 千万不要和看起来PR很高, 但一眼就看出来是作弊的网站连接. 也不

要和PR状态栏是灰色的连接, 这样的网站有可能是没有被收录, 也有可能是被惩罚了; 另外, 连接的时候也不一定非要连接你的首页, 也可以

多连接些你的其他重要的页面, 比如网站的站点地图等页面, 首页外部连接不要太多,不超过40个. 20个以内最好. 

B: 登陆网址站, 象dmoz, yahoo等目录要使出浑身解数来登陆, 但不要隔两天就登陆一次, 其他的网址站登陆越多越好, 至于如果找网址站, 

你可以看看你的竞争对手在google里的反向连接, 在google输入 “link:www.****.com”, 就可以看到对方网站的反向连接, 你可以挨个进入

搜索的结果, 在每个页面里也申请你的连接, 可以方便的找到很多连接网址站. 

C: 留言板留言: 类似网址站登陆, 但写法一定要科学, 否则就没有意义了, 一般我是这样写的: 

  <a href=http://….>网站名</a> 

  网站名 

  网站名 http://....  申请和贵站友情连接

  D: Blog博客 

  现在博客也在中国兴起了, 完全可以充分利用一下, 可以注册一个帐号,来宣传你的网站, 也可以直接发表评论, 评论内容基本和留言板的

格式一样 

  E: 论坛宣传 

  这个我就不多说了, 反正不要让人一看就是广告就行了  

16) 内部连接 

很多人只看重外部连接, 岂不知道内部连接也相当重要, 我的基本思路是, 所有页面都包含主页和其他重要页面的连接, 和本页相关的页面也

加上连接, 最终让你所有的页面都能够互连.  

17)  域名和文件名

  SE看重域名和页面文件名, 但多情况下, 域名已经不想改了, 只好修改文件名了, 尽量让你的文件名包含页面关键字的英文名称  

18) 不要用作弊的手段来欺骗SE, 即使成功一时, 也不会成功永久, 到时候肯定会被惩罚. 所谓善恶到头终有报, 只挣来早与来迟.况且, 合法

优化网站也完全可以达到这个效果  

19)网站速度的影响,网站速度对SE的排名也很有影响, 访问速度慢, 会让SE爬行你页面的时候失去耐性, 从而减少你页面的信息量, 让你的排

名靠后, 如果你的服务器非常慢, 就应该考虑重新换应该快点的服务器了。 
则开始我们网站打开速度要7,8秒,通过使用多个域名来加载图片,javascript,使用div+css布局,让网站在1,2秒就可以显示出来 

20)经常更新你的重要页面, 哪怕只是更换应该图片也好, 这样会让SE了解到你的网站更新很快, 有生命力, 对你的重视程度会增加, 排名当然

也会提高的. 我网站基本每天百度和谷歌都会更新。 

21) 网站建好后首先到各大搜索引擎免费登录你的网站 下面是一个汇总的网址:http://www.sowang.com/freesubmit.htm 

22) 下载一个spider模拟器, 来查看你网页被SE检测到的信息, 可以在这个网址查看你页面被搜索引擎收集到的信息: 

http://www.webconfs.com/search-engine-spider-simulator.php, 根据这些信息, 修改页面, 去掉无用信息, 增加你认为有用的信息。 

原作者:Ray


评论: 0 | 引用: 0 | 查看次数: 2770
发表评论
昵 称:
密 码: 游客发言不需要密码.
验证码:
内 容:
选 项:
虽然发表评论不用注册,但是为了保护您的发言权,建议您注册帐号.
字数限制 1000 字 | UBB代码 开启 | [img]标签 关闭