在搜索的过程中,有两个地方会用到分析器,一个就是建索引的时候,我们都知道,Lucene是以倒排的方式建索引的。我们来看下倒排序的概念
倒排序索引
在对文档进行预处理,建立一种便于检索的数据结构,以此来提供信息检索的速度,这种数据结构就是索引。目前广泛使用的一种索引方式是倒排序索引。
倒排序索引的原理就如同查字典。要先查找目录,得到数据对应的页面,在直接翻到指定的页面。不是在文章中找词,而是从目录中找词所在的文章。这需要在索引库中生成一个词汇表(目录),在词汇表中的每一条记录都类似与“词---》所在文档的编号列表”的结构,记录了每一个出现过的单词,和单词出现的地方(哪些文档)。查询时先查询词汇表,得到文档的编号,再直接取出相应的文档。
把数据转化成指定格式放到索引库中的操作叫做建立索引。建立索引时,在把数据存到索引库中,再更新词汇表。
进行搜索时,先从检索词汇表开始,然后找到相对应的文档。如果查询中仅包含一个关键词,在在词汇表中找到该单词,并取出他对应的文档就可以了。如果查询中包含多个关键词,则需要将各个单词检索出的记录进行合并再取出相应的文档记录。
文本分析的过程简单的可以理解为把一系列字符串按某种方式分成一个个的词。
Lucene中,Document就是我们要建索引的文档,比如我有一个文本文件,里面内容是“Beijing is the Capital of China”,我们就把它当成一个Documnet,先把Document传给分词组件(Tokenizer),分词组件会把这个文档里面的域值Field分成一个个的单词,去掉标点符号,去除停词(一些没有实际意义的词,如the,a等等),这样处理之后,得到的就是词汇单元(Token)了,比如”Beijing”,”Capitial”,”China”等等就是词汇单元了。然后词汇单元又会经过一系列处理,如转换成小写,还会把单词还原成原型,也就是把过去时,复数等等转换成相应的原来的形式,如把cars转换成car。这样得到的就是词(Term)了,最后得到的”beijing”,”capitial”,”china”就是词了,然后把这些词传递给索引组件,建立索引。
先看几个名词
1、分析器
Analysis(分析)是从要索引的文本中提取term(索引项)的过程。Lucene中,分析是由实现Analyzer抽象类的分析器来实现;
Lucene自带有如下分析器:
WhitespaceAnalyzer:仅仅是去除空格,对字符没有lowcase化,不支持中文;
SimpleAnalyzer:功能强于WhitespaceAnalyzer,将除去letter之外的符号全部过滤掉,并且将所有的字符lowcase化,不支持中文;
StopAnalyzer:StopAnalyzer的功能超越了SimpleAnalyzer,在SimpleAnalyzer的基础上增加了去除StopWords的功能,不支持中文;
StandardAnalyzer:英文的处理能力同于StopAnalyzer.支持中文采用的方法为单字切分;
2、Token
Token我们先可以这样理解,就是一个单词,又叫语汇单元。Token是分析后的基本元素
它有四个属性,也就是四个字段,
termText:代表的是文本值,也就是单词本身;
startOffset:就是这个单词起始点的偏移量,也就是语汇单元文本的起始字符在原始文本中的位置;
endOffse:就是这个单词终点的偏移量,终点偏移量是语汇单元文本终止字符的下一个位置;
type:就是指这个语汇单元的类型,这里的类型可以是文本,数字,主机名,缩写等等。大家可以看到这个类型可以是自定义的,在构造函数中传进去,也可以用它内置的,是一个枚举。也就是TokenTypes 枚举,它里面有如下几个枚举成员:
3、TokenStream
TokenStream叫语汇单元流,可能理解为一个字符串,就是若干个Token语汇单元组成的。真正的是从别处传过来一个Document,暂且理解为一个字符串,经过一系列操作后,变成一个个Token,然后把这些Token组合成一个TokenStream。
再接着我们就要看TokenStream的子类了,这里先介绍一下,TokenStream有两种类型的子类
Tokenizer(分词组件)
Tokenizer是真正进行分词的,是Analyzer的第一步
Tokenizer类继承于TokenStream类,它的作用主要是把一个字符串分隔成一个个的词汇单元,不同的子类实现不同的切分方式。有按空格的,有按非英文字符的。把切分出来的词Token组合成TokenStream。
Tokenizer拆分成一个个的语汇单元,并记录每个语汇单元的偏移量,里面最重要的就是一个Next方法,这个方法就是遍历文本流中的每个字符,然后来判断这个字符是不是一个语汇单元的的分拆条件,比如如果我的条件是以空格来分词,那么当这个字符不是空格的话,我就接着遍历下一个字符,一直循环,如果到某一个字符,它恰好是空格,那么就符合我们分词的条件,我们就把前面所遍历的字符当作一个语汇单元,也就是一个词(Token)返回去,顺便也返回它的偏移量,
TokenFilter(过滤器)
就是完成一些其他操作的,比如去除停词,转换成小写。这两个子类也是抽象类,他们也作为父类,后面有很多继承他们的类。
TokenFilter类也是继承于TokenSteam类,它的作用是对分出来的词进行一些处理,比如去掉停词,转换大小写。
分享到:
相关推荐
基于芷浩仔的MMSeg算法( )实现的中文分词器,并实现lucene.net的分析器以方便在Lucene.Net中使用。本代码来源于王员外( )基于Java版的翻译,升级到了最新版本Lucene.Net(≥3.0.3),并包含简单示例和NuGet...
IK Analysis插件将Lucene IK分析器( )集成到elasticsearch中,支持自定义词典。 分析器: ik_smart , ik_max_word , ik_smart ik_max_word : ik_smart , ik_max_word 版本号 IK版本 ES版 主 7.x->主 6.x 6.x...
从3.0版本开始,IK已经发展成为Java通用的分词组件,独立于Lucene项目,同时提供了Lucene的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义消除算法,标志着 IK tokenizer 从纯字典分词到模拟语义分词的...
提供了一些内置的分析器:最常用的是StandardAnalyzer 2) index模块:负责索引的读写。 对索引文件的segment进行写、合并、优化的IndexWriter类。对索引进行读取和删除操作的IndexReader类。 3) store模块:负责...
分析器是Lucence的精华,又分为分词和过滤两部分,而且中文分词更是难点,我的例子里是用从博客园程序中提取出来的Lucene.Net.Analysis.Cn.dll来实现中文分词的,谁有中科院的那套中科院ICTCLAS分词工具的C#版麻烦...
1)org.apache.1ucene.analysis语言分析器,主要用于的切词Analyzer是一个抽象类,管理对文本内容的切分词规则。 2)org.apache.1uceene.document索引存储时的文档结构管理,类似于关系型数据库的表结构。 3)...
分析(Analysis),在Lucene当中指的是将域(Field)文本转换为最基本的索引表示单元——项(Term)的过程。在搜索过程中,这些项用于决定什么样的文档能匹配查询条件。例如,如果这句话“For example, if this ...
适用于Apache Lucene / Solr的土耳其语分析组件 在土耳其,开源软件的使用正日益增长。 Apache Lucene / Solr(和其他 )邮件列表上的土耳其用户正在增加。 该项目利用公共可用的土耳其语NLP工具从中创建。 我创建...
从3.0版本开始,IK已经发展成为Java通用的分词组件,独立于Lucene项目,同时提供了Lucene的默认优化实现。 在 2012 版本中,IK 实现了简单的分词歧义消除算法,标志着 IK tokenizer 从纯字典分词到模拟语义分词的...
对数据源分析,使用Lucene的分析器(Analyzer),根据分析器所得到的词条,构造一个索引器IndexWriter。索引器IndexWriter的功能主要就是创建索引,是建立索引工作中最核心的。 当构造完一个索引器IndexWriter之后,...
7. 分析器Analysis 16 7.1. 自带分析器和过滤器 16 7.2. 第三方过分析器 17 7.2.1. JE分词用法 17 8. 索引的合并 18 9. 各种Query 18 9.1. 概述 18 9.2. 使用特定的分析器搜索 18 9.3. 按词条搜索—TermQuery 19 9.4...
elasticsearch-analysis-hanlpHanLP Analyzer for ElasticSearch此分词器基于,提供了HanLP中大部分的分词方式。今年一年都在忙其他事,所以插件更新基本一年没有更新,年底更新一波。今年学习了一下ES向量插件...
该插件随附以下分析器: mmseg_maxword , mmseg_complex , mmseg_simple和令牌生成器: mmseg_maxword , mmseg_complex , mmseg_simple和token_filter: cut_letter_digit 。 版本号 Mmseg版本 ES版 掌握 5.x->...
IK Analyzer是一个开源的,基于Java语言开发的轻量级的...最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件;从 3.0 版本开始,IK 发展为面向 Java 的公用分词组件,独立亍 Lucene 项目
从3.0版本开始,IK发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算 法的中文分词组件。新版本的IK Analyzer 3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提 供了对Lucene的默认优化实现。 采用...
IK分析器()集成到elasticsearch中,支持自定义字典。 分析器: ik_smart , ik_max_word ,分词器: ik_smart , ik_max_word 版本 IK版 ES版 掌握 7.x -> 主 6.x 6.x 5.x 5.x 字典配置 IKAnalyzer.cfg.xml可以位于{...
适用于Elasticsearch的Rosette分析介绍Rosette Analysis插件将Lucene分析模块集成到elasticsearch中。 这些模块封装了(Rosette)。 有关更多信息,请参阅《 Rosette语言学平台应用程序开发人员指南:Lucene / Solr...
分析器实际上只是结合了字符过滤器,令牌生成器和令牌过滤器的包装器。 Elasticsearch提供了许多内置分析器,但仍有改进的空间,尤其是对于波斯语言。 该插件提供了用于标记,规范化和阻止波斯文字的工具。 主要特征...