搜索引擎是什么（搜索引擎是网站吗）

独孤一剑 • 2022-07-13 09:48:22 • 电商经验 • 阅读 405

在了解Lucene之前，我们先看下什么是搜索引擎？

在实际的项目中，我们可能会写了类似这样的SQL。

按标题模糊查询，查询标题与xxxxx有关的新闻:

select * from t_news where title like ‘%xxxxx%’;

按关键字查询，如查询与xxxx有关的新闻:

select * from t_news where title like '%苍老师%' or content like '%苍老师'’;

当数据量变大时，这四个查询都变慢了,我们可能会建立索引，但是有的like语句会使索引失效。

可能有的需求对搜索的结果进项相关度排名的显示，对应的sql是否可以满足需求吗？

例如：

要查询中国、冠状病毒、复工有关的新闻：

含有三个关键字（相关度最高）的新闻排前面

含两个关键字（相关度次之），排次之

含一个关键字的，排次次之。

这时利用数据库sql实现还是比较困难的。

数据库适合结构化数据的精确查询，而不适合半结构化、非结构化数据的模糊查询及灵活搜索（特别是数据量大时），无法提供想要的实时性。

这个问题，一个解决思路是：

我们查询时，输入的是冠状病毒，想要得到标题或内容中包含“冠状病毒”的新闻列表。

如果标题、内容列上都有一个这样的索引，里面能快速找到与冠状病毒关键字对应的文章id，再根据文章id就可以快速找到文章了。

倒排索引

上面建立索引就是倒排索引，或者又叫做反向索引。

例如：

标题列索引：

搜索引擎是什么（搜索引擎是网站吗）

内容类索引：

搜索引擎是什么（搜索引擎是网站吗）

这么多的词，那么需要建立多少个词呢？

反向索引的记录数会不会很大？

搜索引擎是什么（搜索引擎是网站吗）

通过上面的看，词的总数也不多，那怎么分词，也就是怎么把一句话分成很多常用的词呢？

这时就需要用到了分词器。

分词器

分词器，可以将一段语句分出若干个词。

英文：this is my car 分词后：this，is，my，car

中文：今日头条厉害。今日头条，厉害

常用的中文分词器：

word分词器，Stanford分词器，Ansj分词器，smartcn分词器，FudanNLP分词器，

IKAnalyzer分词等。

有了分词器，还可以获取词在文章的位置，出现的次数。此时可以这样的索引：

词：中国，

内容包含该词的文章id：

{{1,2,{21,32}},{5,3,{18,29,45}}}

1：文章id

2：出现的次数

{21,22}：出现的位置

建立好了这样的反向索引，那怎么索引呢？

步骤1：对搜索输入的内容进行分词

步骤2：在反向索引中找出包含中国、复工的文章列表

搜索引擎是什么（搜索引擎是网站吗）

步骤3：合并两个列表，排序输出

{1,12,8,5}

输出结果，那怎么排序输入结果呢？把最关注的放到最前面。怎么建立一个相关性评估模型？

这时可以按照词的出现的次数建立模型，当然还有其他的模型来面对更复杂的场景。

统计出现次数，根据次数从高到低排：

中国

搜索引擎是什么（搜索引擎是网站吗）

排序后：

{{1,5},{5,3},{12,1},{8,1}}

文章id为1，总共出现了5词，文章id为5的出现了3词。。。

其他的复杂的相关性计算模型有：

tf-idf 词频-逆文档率模型

向量空间模型

贝叶斯概率模型，如： BM25

搜索引擎中会提供一种、或多种实现供选择使用，也会提供扩展。

电商网站中的搜索相关性计算会考虑更多，更复杂。

这里引入什么是搜索引擎？

搜索引擎

一套可对大量结构化、半结构化数据、非结构化文本类数据进行实时搜索的专门软件。

最早应用于信息检索领域，经谷歌、百度等公司推出网页搜索而为大众广知。后又被各大电商网站采用来做网站的商品搜索。现广泛应用于各行业、互联网应用。

搜索引擎专门解决大量结构化、半结构化数据、非结构化文本类数据的实时检索问题。这种实时搜索数据库做不了。

使用场景：

信息检索（如电子图书馆、电子档案馆）

网页搜索

内容提供网站的内容搜索（如新闻、论坛、博客网站）

电子商务网站的商品搜索

如果你负责的系统数据量大，通过数据库检索慢，可以考虑用搜索引擎来专门负责检索。

核心部件：

数据源

分词器

反向索引（倒排索引）

相关性计算模型

工作原理：

从数据源加载数据，分词、建立反向索引

搜索时，对搜索输入进行分词，查找反向索引

计算相关性，排序，输出

开源搜索引擎组件、系统：

搜索引擎是什么（搜索引擎是网站吗）

Lucene:Apache顶级开源项目，Lucene-core是一个开放源代码的全文检索引擎工具包，但它不是一个完整的全文检索引擎，而是一个全文检索引擎的框架，提供了完整的查询引擎和索引引擎，部分文本分词引擎（英文与德文两种西方语言）。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

Nutch：Apache顶级开源项目，包含网络爬虫和搜索引擎(基于lucene)的系统（同百度、google）。Hadoop因它而生。

Solr:Lucene下的子项目，基于Lucene构建的独立的企业级开源搜索平台，一个服务。它提供了基于xml/JSON/http的api供外界访问，还有web管理界面。

Elasticsearch：基于Lucene的企业级分布式搜索平台，它对外提供restful-web接口，让程序员可以轻松、方便使用搜索平台，而不需要了解Lucene。

赞 (0)

打赏

微信扫一扫

独孤一剑文章编辑

0

电商经验

数字皮肤水份检测仪（皮肤水分测试仪怎么看）

现在皮肤水分测试很火，大家都希望能够更了解自己的皮肤，找到适合自己的护肤品。皮肤测试仪靠谱么？你用过化妆品专柜小姐给你测试的仪器吗？当你测完之后整个人都不好了，刺痛、缺水、细纹、斑…

华山三剑客
2021-12-24
00617
电商经验

网店装修设计与制作（网上开店铺怎么样开）

在电商平台开店，好的店铺装修风格是可以一下子就吸引买家的，这样不仅可以增加点击率，还可以大大提高购买率，那网店装修具体包含哪些内容?接下来我们就来给大家讲解一下这方面的内容。 1、…

电商小甜兔
2022-10-09
00392
电商经验

跨境支付平台排名全球第三方支付平台排名

跨境支付机构是国家外汇局向支付机构颁发的跨境电子商务外汇支付业务许可证。那么跨境支付平台是干嘛的？跨境支付平台有哪些？跨境支付平台是干嘛的？跨境支付平台有哪些？一.PayPal…

电商小甜兔
2023-03-18
00471
官方旗舰店是什么意思（官方旗舰店都是正品吗）

京东的购物体验一直不错，但是体验好的主要是那些自营店，像一些第三方的店体验就没有自营的好，不管是售后还是物流，特别是物流，由商家发货，发货时间慢，到货时间长，快递也不是京东，服务也…

电商小甜兔
2022-11-04 • 电商经验
00550
赵薇为什么被全网封主要原因（赵薇真实身份,惊动全国）

看到赵薇作品一夜被下架的消息，决定再写一篇，简单谈谈个人的感受。 Part.1 如果你是个夜猫子，你会在8月26日深夜，发现一桩毫无征兆又平波乍起的爆炸性新闻：一夜之间，看似没有曝…

电商小甜兔
2022-09-06 • 电商经验
00629
电商经验

空调制热有必要开辅热吗？空调制热开了半天没反应

首先赵宇在这里说一下，那么要不要开电辅热，电辅热是什么。那么有不少同学不知道电辅热，那么电辅热是什么呢，实际上电辅热就是空调额外地加了一个辅助电加热管。如果不开电辅热，那么这个电加…

电商小甜兔
2022-11-26
00580
电商经验

迅达燃气灶怎么样？迅达燃气灶是十大名牌吗

燃气灶在厨房里的地位不可估量，真的不能随便敷衍买，要重视呀！我身边许多朋友在购买燃气灶的时候都是跟风买，或者只选择大品牌。但其实，每个人需求是不一样的，记住要根据自己的需要去选择适…

电商小甜兔
2023-06-26
00591
如何解散微信群（群主怎么不踢人解散群）

我们在日常的工作和娱乐中，经常会为了某个项目或节目的排练、聚餐等临时需要建立一个微信群，完成这些事情之后，我们就不再需要这个微信群，就需要解散群聊，以前解散群聊有两种方法:一是需要…

电商小甜兔
2022-08-12 • 电商经验
00804
电商经验

火山直播主播月收入（做直播一个月收入大概多少）

前年偶然在微信朋友圈刷到了一条小视频，唯美的音乐、文艺范儿的滤镜一下子引起了我的注意，于是赶忙在视频下端留言：这是啥软件？微友回曰：抖音。呵！软件名字还挺不错，比快手神马的高大上…

华山三剑客
2022-02-21
00611
电商经验

如何退货给卖家拼多多（拼多多退货怎么寄回去）

在拼多多上有的顾客购买了商品后想要退货，若在退货的时候和商家客服联系的时候，商家却不同意退货，这种情况有的顾客就会放弃退货退款了，要是有的买家则想强制性退款，如何退呢? 拼多多联系…

独孤一剑
2022-04-26
00445

本站部分文章来源或改编自互联网及其他公众平台，主要目的在于分享信息，版权归原作者所有，内容仅供读者参考，如有侵权请联系我们，如若转载，请注明出处：https://www.5iyuyan.com/53761.html