查询结果
search result
查询类型 日志评论 | 关键词 | 共找到 46 条记录
前面有几篇
相关日志: 对Nutch 初学者的建议
文档得分的算法,默认公式是ln(e+n),其中n是链接到这个页面的链接数。增加e是保证网页得分起始值大于1
相关日志: 转贴:Lucene的特性分析
感谢jaddy0302 提供教程阿。我是用nutch0.81爬行了校园网,当初研究爬行的设置也弄了一周时间。现在想具体了解nutch的原代码,但因为第一次接触java。事实上,我是因为对nutch感兴趣才学习的,呵呵!所以,能不能提供一份教程关于如何建立调试环境的。
相关日志: 对Nutch 初学者的建议
是这东西啊,谢了。 

相关日志: 转贴:Lucene的特性分析
PageRank 类似的 一个 文档得分 ,平均分和最高分
相关日志: 转贴:Lucene的特性分析
jaddy ,我想问下,在nutch 0.8中,用readdb读出来的:
2006-10-19 16:30:00,921 INFO crawl.CrawlDbReader - CrawlDb statistics start: crawled/crawldb
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - Statistics for CrawlDb: crawled/crawldb
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - TOTAL urls: 2111
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - avg score: 1.053
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - max score: 8.237
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - min score: 1.0
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - retry 0: 2110
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - retry 3: 1
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 1 (DB_unfetched): 1889
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 2 (DB_fetched): 215
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 3 (DB_gone): 7
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - CrawlDb statistics: done
不知道这里的avg score,max score代表什么意思。。。
2006-10-19 16:30:00,921 INFO crawl.CrawlDbReader - CrawlDb statistics start: crawled/crawldb
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - Statistics for CrawlDb: crawled/crawldb
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - TOTAL urls: 2111
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - avg score: 1.053
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - max score: 8.237
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - min score: 1.0
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - retry 0: 2110
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - retry 3: 1
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 1 (DB_unfetched): 1889
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 2 (DB_fetched): 215
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - status 3 (DB_gone): 7
2006-10-19 16:30:05,312 INFO crawl.CrawlDbReader - CrawlDb statistics: done
不知道这里的avg score,max score代表什么意思。。。
相关日志: 转贴:Lucene的特性分析
向量空间模型(Vector Space Model)
M个无序特征项ti ,词根/词/短语/其他
每个文档dj可以用特征项向量来表示
(a1j,a2j,…,aMj)
权重计算,N个训练文档
AM*N= (aij)
文档相似度比较
1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.
2)内积计算,直接计算内积,计算强度低,但是误差大.
M个无序特征项ti ,词根/词/短语/其他
每个文档dj可以用特征项向量来表示
(a1j,a2j,…,aMj)
权重计算,N个训练文档
AM*N= (aij)
文档相似度比较
1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.
2)内积计算,直接计算内积,计算强度低,但是误差大.
相关日志: 转贴:向量相似度的计算和向量夹角余旋的关系
setMaxBufferedDocs
这个是什么来的?
这个是什么来的?
就是没有这个minMergeDocs..其他都有..用的是lucene2.0
Lucene 在IndexWriter中设置,分别是 mergeFactor 、minMergeDocs 、maxMergeDocs






