全文检索技术以各类数据如文本、声音、图像等为对象,提供按数据的内容而不是外在特征来进行的信息检索,其特点是能对海量的数据进行有效管理和快速检索。
常见的搜索引擎有很多,比如Lucene、Sphinx、XunSearch、还有大名鼎鼎的Elasticsearch,我们可以根据项目需求,来选择合适的搜索引擎来优化我们的项目,下面来说说这几个搜索引擎的区别。
1.Sphinx
一款基于Python语言开发的支持SQL的全文搜索引擎,在github 上 start达到5k,提供MySQL数据库插件,可以很方便的监听数据库变动,方便数据库集成,也支持API调用,对接搜索引擎相对来说比较灵活,不会局限在开发语言上。
需要中文分词的话可以安装Coreseek插件,支持短语搜索,自动生成文档摘要等。默认支持分布式搜索。
2.XunSearch
采用C/C++开发,最大特色是:快,搜索响应快,开发上手快。支持海量数据,单库最多支持40亿条数据,在 5 亿网页大约 1.5TB 的数据中,非缓存情况下检索时间不超过 1 秒,中文分词是自主研发的 scws分词应用,搜索效果符合国人习惯。可能是官方比较青睐PHP的关系, 自带PHP插件,支持包括字段检索、结果高亮、字段排序、布尔语法、区间检索、聚合搜索、相关搜索、权重微调、拼音搜索、搜索建议等等专业搜索引擎具备的功能。
3.MeiliSearch
基于高性能编程语言RUST开发的RESTful API搜索服务,目前github上面star数量为31.1K,欢迎程度可想而知,为所有希望为最终用户提供快速且相关的搜索体验的人提供现成的解决方案。它安装方便,使用简单,特别适合中小型企业或者个人项目中使用,在某些场景下用来替代Elasticsearch 将是个不错的选择,由于其对接方式为API,可以很容易的进行对接,还可以基于此打造管理搜索引擎的操作平台,进行可视化管理。
4.Elasticsearch
支持海量数据的分布式搜索和分析引擎,支持集群,是当前主流的企业级搜索引擎,可以与Logstash 和 Kibana 结合使用堪称三剑客, 互联网大型项目中都有他们的身影,因为定位原因, 上手难度高,开发者需要熟悉很多理念才能使用,同时由于其资源占用多,中小型项目亲和度比较低,很少在中小型项目中见到。