作者 | luanhz
责编 | 郭芮
本文对MySQL中几种常用的模糊搜索方式进行了介绍,包括LIKE通配符、RegExp正则匹配、内置字符串函数以及全文索引,最后给出了性能对比。
引言
MySQL根据不同的应用场景,支持的模糊搜索方式有多种,例如应用最广泛的可能是Like匹配和RegExp正则匹配,二者虽然用法和原理都很相似,但实际上匹配原则却不尽相同,其中Like要求模式串与整个目标字段完全匹配才检索该记录,而RegExp则是要求目标字段包含模式串即可。
对于简单的判断模式串是否存在类型的模糊搜索,应用MySQL内置函数即可实现,例如Instr、Locate、Position等。
当然,提到MySQL查询性能就不得不提到索引,对于字段模糊查询需求,我们也可以考虑添加全文索引(Fulltext)。
注:本文所用MySQL版本8.0.19,可视化工具Navicat Primium。
4种模糊查询
为了便于描述和测试不同模糊查询方式结果,首先给出一个简单的测试用数据表tests如下:
其中,tests表仅含有一个名为words的字段,并对该字段添加全文索引。表中共有6条记录。
Like
Like算作MySQL中的谓词,其应用与is、=、>和
例如,在如上表中查找所有以"hello"开头的记录,则其SQL语句为:
1SELECT words FROM tests WHERE words LIKE 'hello%';
查询结果:
如果想查找所有以"hello"开头且至少含有6个字符的记录,则可简单修改SQL语句如下:
1SELECT words FROM tests WHERE words LIKE 'hello_%';
查询结果:
另外:当在Like模式字段中,若不包含任何"_"和"%"通配符,则等价于"=",表示精确匹配,例如查询语句……Like "hello",则仅返回hello一条记录;还可在Like前加限定词Not,表示结果取反。
RegExp
正则表达式具有庞大而丰富的语法,MySQL语法中支持绝大部分正则表达式功能,几乎可以满足所有需求。本文不过多展开正则表达式相关介绍,仅在Like的基础上,简单介绍其与Like模糊搜索方式的区别。
如前所述,Like匹配原则是要求模式串与整个目标字段匹配时,才返回该条记录;而RegExp中则是当目标字段包含模式串时即返回该条记录。例如如下SQL语句将返回所有包含"hello"的记录:
1SELECT words FROM tests WHERE words REGEXP 'hello';
而在Like中这样的写法仅返回记录="hello"的记录。为了限定正则表达式以某个模式串开头或者结尾,可以通过添加"^"和"$"标识符来限定,例如仍然搜索以"hello"开头的目标字段,则其SQL语句为:
1SELECT words FROM tests WHERE words REGEXP '^hello';
内置函数
对于包含某些特定模式串的模糊搜索,可以通过MySQL内置函数实现。可以完成这一功能的函数包括Instr、Locate和Position等,其功能语法很相近,均是返回子串在字符串中的索引,且索引下标从1开始,当子串不存在是返回0。需要注意的是三个函数中子串和字符串的先后顺序是不一致的。例如以下语句均成功检索,且返回目标索引1
1SELECT INSTR("hello,world