给做技术的朋友们推荐两个开源搜索引擎(ZZ)
在日常的工作中,有不少朋友应该都会多少涉及到一些和搜索引擎技术相关的项目,最相关的估计是搜索引擎结果排序的算法,最好入门的估计是爬虫,以下是我们在做项目的时候接触到的两个开源搜索引擎,或许能对你有点小帮助:
一:Nutch
Nutch 可谓大名鼎鼎,是我接触过的开源搜索引擎里面名气大且比较完整的一个了。包含了爬虫,页面分析,链接分析以及最后的文本检索,结果排序等搜索引擎最基本的架构了。它的代码是用流行语言 JAVA 书写,代码可读性不错,对一些著名的算法,譬如Google 的 PAGERANK 算法进行了完整的实现,并且你可以通过 Eclipse 进行完整的过程跟踪调试,相信这对你理解这样的著名算法肯定有所帮助。Nutch 的文件系统同样是大名鼎鼎,不过这块我跟踪的很少。有兴趣搭建自己的搜索引擎的朋友可以通过这个项目入门,虽然在实用性上面可能不尽人意(我自己的测试感觉效率不高),不过非常值得学习。
有关这方面国内的资料可以参考CSDN上的资源
由于我自己是在12年附近学习,不少资料都有点记不清楚,印象里面CSDN上面的资料是最好的。
二:Xapian
Xapian 是谷粉的开发人员 CJY 正在使用的一个全文检索系统,虽然我并未参与该项目,不过因为经常接触搜索引擎技术,从那天他给我演示的效果来看可以知道非常强大,以450万篇的文本为样例,xapian 几乎是瞬间就能检索出相关度极好的搜索结果,而我们自己开发的文本检索系统单单20万篇文本就要15分钟,效率之高可想而知。xapian 也将会是谷粉正在开发的社区使用的站内检索系统。 不过有关它的资料国内稀少,是我们测试过的最好用的全文检索系统。
原文:http://www.gfsoso.org/292/
[Comments]: