日志分类:上海SEO案例
实现蜘蛛捕捉的PHP代码 (WEB爬虫)
另类搜索资料的方法:网络爬虫程序,WEB爬虫,网页蜘蛛,网络机器人大家比较熟悉使用各种搜索引擎,但是,还有一种更主动和专门的搜索技术:网络爬虫。
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。
这些处理被称为网络抓取或者蜘蛛爬行。很多站点,尤其是搜索引擎,都使用爬虫提供最新的数据,它主要用于提供它访问过页面的一个副本,然后,搜索引擎就可以对得到的页面进行索引,以提供快速的访问。蜘蛛也可以在web上用来自动执行一些任务,例如检查链接,确认html代码;也可以用来抓取网页上某种特定类型信息,例如抓取电子邮件地址(通常用于垃圾邮件)。 全文阅读 »
中文搜索引擎技术揭密:中文分词
什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。
中文分词技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。 全文阅读 »
关于网站的PR值以及ALEXA
关于网站的PR值以及ALEXA
很多做网站的朋友特别在乎这两个东西,一个是标志着你网站目前被GOOGLE的评价度是几,另外一个代表着你的网站在世界上的排名是多少。
我们是搞网络的,应该注重更实际一点的东西,这两件东西都不能体现你的价值,应该有一个更好的体现方式,那就是你的站目前日赢利多少。
不要去追求毫无价值的东西,要来点实际点的,例如有朋友去刷PR值,去刻意的找软件刷ALEXA,这个意义都不大,因为他不能真正意义的直接给你带来人民币。
有朋友昨天晚上让我给刷ALEXA,我帮着刷了一天,就是用软件刷的,他是为了注册易趣才刻意去注册的,后来他告诉我这个目的后,我说可以告诉你一个捷径,你去注册.net.cn后缀的,这种都是可以直接申请易趣的,因为这种ALEXA排名看不出来它的真实排名,显示的排名都是万网的真实排名。 全文阅读 »
寻找友情链接
上海SEO 建站也有几个月了,现排名和PR都有一点点小成绩。但还是远远不够的,发此贴的目的就是为了和更多的朋友站点建立有情链接。
链接要求: PR >= 2 收录正常,常更新, 同行优先。
需要友情链接的朋友速度来啦。


