分析在Lucene中指的是将域文本转换为最基本的索引表示单元—项的过程。分析器对分析操作进行了封装,通过执行一系列操作,将文本语汇单元化,这些操作包括提取单词、去除标点符号、去除语汇单元上的音调符号、将大写字母转换成小写、移除常用词、将单词转换为词干(词干还原)等。这个过程也可称为语汇单元化过程,而从文本流中得到的文本块称为语汇单元(tokens)。各tokens与关联的Field名结合就构成了各个项(Term)。在Lucene中,一个标准的分析器Analyzer由两部分组成,一部分是分词器,被称为Tokenizer;另一部分是过滤器,被称为TokenFilter。一个分析器Analyzer往往由一个分词器和多个过滤器组成。这里所说的过滤器,和检索时用的过滤器是完全不同的两个概念,这里所讲的过滤器是用于对用户切分出来的词进行一些处理,