查询结果

jaddy0302 [2006-10-26 12:04 AM]
前面有几篇
kevinlin [2006-10-25 06:55 PM]
文档得分的算法,默认公式是ln(e+n),其中n是链接到这个页面的链接数。增加e是保证网页得分起始值大于1
kevinlin [2006-10-25 06:47 PM]
感谢jaddy0302 提供教程阿。我是用nutch0.81爬行了校园网,当初研究爬行的设置也弄了一周时间。现在想具体了解nutch的原代码,但因为第一次接触java。事实上,我是因为对nutch感兴趣才学习的,呵呵!所以,能不能提供一份教程关于如何建立调试环境的。
eitan [2006-10-20 09:25 AM]
是这东西啊,谢了。
jaddy0302 [2006-10-19 06:28 PM]
PageRank 类似的 一个 文档得分 ,平均分和最高分
eitan [2006-10-19 05:32 PM]
jaddy ,我想问下,在nutch 0.8中,用readdb读出来的:
2006-10-19 16:30:00,921 INFO  crawl.CrawlDbReader - CrawlDb statistics start: crawled/crawldb
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - Statistics for CrawlDb: crawled/crawldb
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - TOTAL urls:    2111
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - avg score:    1.053
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - max score:    8.237
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - min score:    1.0
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - retry 0:    2110
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - retry 3:    1
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - status 1 (DB_unfetched):    1889
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - status 2 (DB_fetched):    215
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - status 3 (DB_gone):    7
2006-10-19 16:30:05,312 INFO  crawl.CrawlDbReader - CrawlDb statistics: done

不知道这里的avg score,max score代表什么意思。。。
admin [2006-10-11 02:45 PM]
向量空间模型(Vector Space Model)


M个无序特征项ti ,词根/词/短语/其他
每个文档dj可以用特征项向量来表示
(a1j,a2j,…,aMj)
权重计算,N个训练文档
AM*N= (aij)


文档相似度比较
1)Cosine计算,余玄计算的好处是,正好是一个介于0到1的数,如果向量一直就是1,如果正交就是0,符合相似度百分比的特性,余玄的计算方法为,向量内积/各个向量的模的乘积.
2)内积计算,直接计算内积,计算强度低,但是误差大.

lulu [2006-10-09 11:45 AM]
setMaxBufferedDocs

这个是什么来的?
lulu [2006-10-09 11:44 AM]
就是没有这个minMergeDocs..其他都有..用的是lucene2.0
jaddy0302 [2006-10-09 10:14 AM]
Lucene 在IndexWriter中设置,分别是 mergeFactor 、minMergeDocs 、maxMergeDocs