很多站长都试图通过SEO为自己的网站获得一个良好排名,于是在网络上搜索各种不同的SEO技术。网络上虽说有各种各样的SEO技术,但这些技术可以说是五花八门,没有一个标准,甚至经常会看到各种观点是相对的,有时更是一个公说公有理,婆说婆有理的,搞得我们很多站长不知听哪个得好,只得把自己的站当作小白鼠一样来做实验,最很往往弄得得不偿失!其实我们做SEO时最好要了解一些基本的知识,这些就如一座大厦的基石一样,你看到的只有高楼,但没有基石,高楼是立不稳的~!今天我们就来谈谈搜索引擎排行的基石之一:分词技术。
相信大部分站长都听过个种技术,有些也有相当的了解。其实分词技术并不高深,它虽在操作上有些抽像,但他应该是比较好理解的。分词就是把一串字符序列切分成一个一个单独的词。分词包括英文分词,中文分词等,我们这里主要讲的是中文分词(Chinese Word Segmentation)。中文分词应用很广,特别是在搜索引擎中,它的主要目的是为了对一段文字进行文本挖掘,以达到让电脑自动识别语句的含义。这样我们就不难理解,为什么我们在百度,GOOGLE这些搜索引擎中输入一些文字,它们就能提供出相似的一些结果出来让我们来参考选择。其实这些引擎也是能过分词技术把你所输的信息分词,以达到“理解”你所要信息的“真正含义”。虽说有时电脑得出的结果并非你所要的,但这是无法避免的,有时可能是你的表达有误,有时可能是这些搜索引擎的分词并不完美。
在分词技术中,有一种开发人员常用的指标方法叫TF-IDF(term frequency–inverse document frequency),是一种用于信息搜索和信息挖掘的常用加权技术.其中TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数,而IDF是反文档频率(Inverse Document Frequency)的主要思想是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。使用TF*IDF可以计算某个关键字在某篇文章里面的重要性,因而识别这篇文章的主要含义,实现计算机读懂文章的功能。这种技术说直白一点就用这些指标来判断一段信息中某个词的重要性到底如何?在搜索引擎中也是通过这些指标来排列您所要找的资料。我们作为SEOer,反过来逆推,就能得知,如果我们能对分词技术有一定理解的话,在设置关键词,描述,文章,标签时,就能结合普通人的搜索习惯,分词权重,再科学地组织这些关键词,或者是描述等等。以达到你的这些词的布局正是这个行业里搜索引擎所关注的,网友朋友使用得最多的一些搜索关键词。这样,你的设置就会发挥出最大的功效!
分词技术总地来说是通过一些词汇,平常人的使用习惯,把一段话进行区分,再理解。这些词会有很多是人们习以为常用的词:如中国,吃饭,医院。也可能有些是以前没出现,但社会在发展中出现的一些新词,这些词使用率越来越高,如IT的发展出现了一大批的有名的企业:如微软,新浪,等等,这些在传统词汇中并不是一个词,但在发展中这些又成了人们经常用到的词汇,也会纳入进分词系统。一句话来说,分词就是人们生活习惯用语的一种解析手段。今天我们就先讲这些理论,希望能起到引路的作用,下次我将继续举例来说明这些技术的使用以及技巧