利用中文分词打造数据库全文检索

本文发布于 6 年前，部分内容可能已经失去参考价值。

传统的 LIKE 模糊查询（前置百分号）无法利用索引，特别是多个关键词 OR，或在多个字段中 LIKE，更是效率低下。本文研究对文章进行分词以提高检索的准确度和查询效率。

根据自己的编程语言选择一款合适的中文分词组件，我在 ASP.NET 平台下选择了 jieba.NET。

设想的步骤：

分别对文章标题、标签、正文进行分词，保存到一张分词表上。该表把“文章 ID”和“词语”设为联合主键，用 3 个字段记录该词语分别在标题、标签、正文中出现的次数，另外还可以按需要添加文章分类 ID、文章创建时间等字段。
当用户输入关键词进行检索时，先将关键词分词，在分词表中用 in 语法查询到所有相关的记录；
使用 group by 语法对查询结果按文章 ID 分组；
关键在排序上，理想的排序是：
a. 先按搜索关键词中不同词语的出现量排序，即：若搜索关键词分词后是 3 个词语，那么全部包含这 3 个词的文章优先，只匹配其中 2 个词语的其次；
b. 再按搜索关键词在文中累计出现的次数排序（考虑权重），即：我们先假定标题和标签的分词权重为 5（意思是一个分词在标题中出现 1 次相当于在正文中出现 5 次），那么累加每个分词在标题、标签、正文的权重次数，得分高的优先；
c. 再进一步考虑文章的发布时间，即将文章的发布时间距离最早一篇文章的发布时间（或一个较早的固定日期）相隔的天数，乘以一个系数加入到权重中，这个系数按不同文章分类（场景）不同，比如新闻类的大一点，情感类的小一点）。乘以系数时一篇文章只加权一次，不要加权到每个分词。
d. 根据需求还可以加入文章热度（阅读数）的权重。

根据上述逻辑对一个有 18 万篇文章的内容管理系统进行改造，循环所有文章进行分词统计，得到一张包含 5 千万条记录的分词表（系统中部分文章只有标题、标签和外链，没有正文，否则更多）。

由于查询中包含 in、group by、count、sum、运算等，再若分类是无级限的，即文章分类 ID 也是 in 查询，然后分页，即使创建索引，效率也只能呵呵了。

简化：

不对正文进行分词；

不按权重进行排序；

那么分词表的记录数降到 250 万条，同样用 in 查询分词，先按搜索关键词中不同词语的出现量排序，再按发布时间排序，分页后获得一页的文章 ID 集合，再去文章表中 in 获取详细信息（注意保持一页中的排序）。

添加相关索引后，查询一个包含 3 个分词的关键词仅需十几毫秒。因为 in 的内容比较离散，所以索引的利用率比较高。