Sunday, August 19, 2012

Daily Bookmarks 20120819

Nutch 相关 (一) 爬虫的研究 - stme - BlogJava
http://www.blogjava.net/stme/archive/2007/04/18/91788.html
Doug Cutting (Lucene-Nutch-Hadoop 创始人简介)_大云与云计算技术讨论_圈子_移动Labs 一小故事跟對搜尋引擎的想法
http://labs.chinamobile.com/groups/10219_12301
基于词典的正向最大匹配中文分词算法,能实现中英文数字混合分词 - lucene + hadoop 分布式并行计算搜索框架 - BlogJava
http://www.blogjava.net/nianzai/archive/2011/08/04/355786.html
Nutch 相关 (二)分词的算法 - stme - BlogJava
http://www.blogjava.net/stme/archive/2007/01/05/90111.html
Nutch 1.3 学习笔记 8 LinkDb - lemo的专栏 - 博客频道 - CSDN.NET 非常詳盡的解析linkdb
http://blog.csdn.net/amuseme_lu/article/details/6730756
源代码阅读笔记(2) --- nutch (Injector) 對於crawlerDB做解說
http://blog.sheimi.me/blog/2012/05/17/source-code-02.html


Lucene:基于Java的全文检索引擎简介 (笔记 by 车东)
http://www.chedong.com/tech/lucene.html
Lucene学习总结之三:Lucene的索引文件格式(1) - 觉先 - 博客园 非常好的文章
http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623597.html
Lucene学习总结之三:Lucene的索引文件格式(2) - 觉先 - 博客园
http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623599.html
谈谈Hadoop和分布式Lucene
http://www.chinacloud.cn/show.aspx?id=50&cid=12







-end-

No comments: