lucene分析与应用

资料百科

《lucene分析与应用》城至鱼是2008年机械工业出版社出版的图书来自,作者是吴众欣,沈家立。

  • 书名 lucene分析与应用
  • 作者 吴众欣 沈家立
  • 出版社 机械工业出版社
  • 出版时间 2008 年8月
  • 页数 374 页

作品简介

  【作者】吴众欣沈家立等编著

  【出版社】机械工业出版社

重已束胡许  【书号】978-7-111-24992-4

  【出版日期】2008年8月

  【开本】16开

  【页码】374

lucene分析与应用

  【定价】39.00

内容简介

  本书介绍Lucene工作原理及应用。

前言

  Google被人熟知,Baidu在中国成功推广,搜索吸引着IT界的眼球,也吸引了更多开发者的好奇心。于是诞生了Lucene,一个开源的全文检索API。并在Lucene的基础上,衍生出了一个全文检索引擎(Nutch)和分布式文件系统(Hadoop)。

  大家一定很好奇,Google的搜索引擎是如何工作的球严杀氢?采用什么样的文适卫说皮测守审件系统?……等等。但是我们无法得知。Lucene与其相关的项目Nutch和Hadoop弥补了这个不足。让我们有机笑代酸脸度会了解到搜索引擎、分布式文件系统的内部工作原理。

  如果介绍一个软件或者一套框架如何使用,是比较容易说清楚的。但是要描述一个软件源代码,却不容易。老吴与家立在写作期间,辗转难眠,不知道如何表述才能够准确的把Lucen际孙e的设计精髓展现给读者,于是通过对Lucen束规缩镇举苏可仅e源代码的解说、辅以图著少触考纪述长表,并通过一些具体实例把所有源代码的进行组织与剖析,完整的展示载质足Lucene从建立索引到查询的完整过程。并通过介绍一些Lucene的应用,和读者分享Lucene在长于析他三当先论互具体项目开发正的应用环境。同时,插入一些Lucene开发实例,抛砖引玉,试图让被盾读者也能亲自体会Lu来自cene本身的强大功能。最后,为了进一步说明Lucene的应用环境,简单的似剂总础江害推穿声检换介绍了Nutch和Hadoop。

  老你否若围手汽船它八根吴很早开始研读Lucene的源代码,并阅读了DongCutting的相关论文,对Lucene的内核具有深刻的认识。家360百科立想让大家分享他和老吴的研究成果,于是决定把它写出来,家立负责lucene多处应用部分的写作。俩个人都没有写书的经验。在此之前,总觉得写书是一件很容易的事情,经历过才知道,写书的压力和工作量,远远超过开发一个项目。写书,重要的不仅仅要把自己把所写的内容搞懂,而且更重要的是需要让读者能够容易看懂。Lucene是一个很活跃的开源项目,因为老吴研究得比较早,版本以1谓滑略减刻法脸尼支.4.3为主。为了能够跟上Lucene的步伐,家立推荐采用了较新的1.9-2.1版本进行分析。但是该版本的内核变化比较大,因此需要重新分析、调试、总结。为了尽快完成,日日熬夜,真所谓痛并快乐着。这里非常感谢家人的支持,朋友的鼓励。

  希望对搜索引擎内核与运行机制感兴趣的朋友阅读此书,由于时间仓促,难免有错,请读者批评指正轻排品

目录

  前言3

  第1章搜索引擎与Lucene7

  1.尼失煤课获弱阿1搜索引擎与Lucene简介7

  1.1背把四弦几.1搜索引擎分类7

  1.1.2Lucene项目简介12

  1.1.3其他搜索引擎开发包介绍12

  1.2Lucene的系统架构15

  1.2.1Lucene最简示例15

  1.2.2Lucene采用的索引结构21

  1.2.3Lucene软件包架构22

  1.3本书的章节导航23

  第2章文档逻辑视图与文本分析25

  2.1文档逻辑视图25

  2.2Lucene的文本分析过程简介29

  2.3空格解析器(WhitespaceAnalyzer)31

  2.3.1空格分词器(WhitespaceTokenizer)31

  2.3.2Token(标志)34

  2.4标准解析器(StandardAnalyzer)34

  2.4.1标准分词器(StandardTokenizer)37

  2.4.2标准过滤器(StandardFilter)39

  2.5打造自己的解析器41

  2.5.1常用的中文分词法41

  2.5.2对CJKAnalyzer的分析42

  2.5.3构造自己的解析器43

  第3章Lucene创建索引之1(段索引方式与倒排索引结构)54

  3.1倒排(invertedindex)结构与段索引(segmentindex)方式54

  3.2索引写入过程概述66

  第4章Lucene创建索引之2(内存中创建索引)69

  4.1创建Document层面索引70

  4.2写入field信息74

  4.3文件倒排过程77

  4.4填写postingTable84

  4.5postingTable的排序过程89

  4.6写入Field名字文件(.fnm文件)93

  4.7写入field信息文件(.fdt,.fdx文件)96

  4.8写入频率与位置文件(.frq与.prx文件)102

  4.9TermVector方式写入索引(.tvf,.tvd与.tvx文件)111

  4.10字典文件(.tis与.tii文件)123

  4.11写入规格化文件129

  第5章Lucene创建索引之3(索引合并过程)131

  5.1Document层面的合并过程。133

  5.2Field与term的合并过程143

  5.2.1Field信息合并过程144

  5.2.2Term信息合并过程147

  5.2.3合并Norm信息167

  5.3Lunece索引采用的压缩算法170

  5.4小结173

  第6章Lucene查询过程之1(查询模型与引擎预热)175

  6.1查询模型175

  6.1.1向量(Vector)模型175

  6.1.2布尔(Boolean)模型176

  6.1.3Lucene的查询(query)评分(score)方式177

  6.2查询简单示例178

  6.3引擎预热182

  6.3.1获得并打开索引文件183

  6.3.2获得segment信息187

  6.3.3FSDirectory打开索引过程207

  6.3.4获得field信息213

  6.3.5获得Term信息218

  第7章Lucene查询过程之2(查询解析与语法)225

  7.1构建查询解析器(QueryParser)225

  7.2Lucene的查询语法225

  7.2.1项(Term)查询226

  7.2.2域(Fields)226

  7.2.3词条查询(TermModifiers)227

  7.2.4布尔操作符(BooleanOperators)229

  7.2.5组合查询(Grouping)231

  7.2.6针对Field的组合查询(FieldGroupingField)231

  7.2.7EscapingSpecialCharacters(转意字符)231

  7.3Lucene查询语法树的构建过程231

  7.3.1过程分析232

  7.3.2语法树分析实例237

  第8章Lucene查询过程之3(相似度匹配与算法分析)239

  8.1查询与相似度计算239

  8.1.1查询器(Searcher)的查询过程240

  8.1.2查询语句的权重计算242

  8.1.3获得TopK个document260

  8.2Lucene查询算法分析294

  8.2.1相似度计算简单实例(tf×idf)294

  8.2.2线性相似度计算296

  8.2.3基于倒排索引的相似度计算297

  8.2.4Lucene的相似度计算299

  第9章Lucene标引与查询全程示例305

  9.1实例描述305

  9.2建立索引过程306

  9.2.1选择文档中建立索引的field306

  9.2.2选择field录入方式307

  9.2.3生成segment文件307

  9.2.4生成fields文件307

  9.2.5posting文件309

  9.2.6合并segmentindex生成index文件313

  9.2.6合并后的文件关系326

  9.3查询过程327

  第10章Lucene的常用应用场景分析329

  10.1对大型XML文档集合的检索329

  10.1.1都柏林文件介绍329

  元素名称:题名(Title)329

  元素名称:创建者(Creator)329

  10.1.2XML分析器介绍332

  10.1.3Lucene在大型XML文件应用333

  10.2MultiSearcher的应用340

  10.2.1MultiSearcher的应用341

  10.2.2ParallelMultiSearcher的应用348

  第11章利用Lucene构建分布式搜索引擎350

  11.1分布式文件系统和Hadoop350

  11.1.1Hadoop文件系统体系结构351

  11.1.2系统交互过程:单一NameNode方式351

  11.1.3系统组件描述352

  11.2Nutch简单剖析360

  11.3体验Nutch363

  资源的抓取364

  附录ATestIndexWriterMerging372

  附录BTestDocumentWriter与DocHelper374

标签:
声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:yongganaa@126.com