多标签搜索，后端一般是怎样实现的？不会是多表直接 join 吧？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 389 天前的主题，其中的信息可能已经有所发展或是发生改变。

提到多对多关系，第一个反应是 3 张表 —— 即，两张数据表、一张关系表，例如：

t_product
| id (integer) | name (character verying) |

t_tag
| id (integer) | name (character verying) |

r_product_tag
| product_id (integer) | tag_id (integer) |

但需要根据多个 `tag` 查询 `product` 时（`/product?tags=苹果,橘子`），只用数据库该怎样实现？

直接将 3 张表 JOIN 在一起？感觉查询效率会很低。
建立倒排索引？例如，将表 t_product 新增一冗余列 tags (character verying)，并在该列上建立 PostgreSQL 的 GIN 索引。这种方式顺便还可以通过分词将单个标签的字符串拆分成多个关键字，更容易搜索。

t_product
| id (integer) | name (character verying) | tags (character verying) |

如果只按标签的 `id` 查询（`/product?tag_ids=22,12,45`），表 `t_product` 新增一冗余列 `tag_ids (integer[])`，这种情况该在此列上建立 `B+树索引` 还是 `倒排索引`？

t_product
| id (integer) | name (character verying) | tag_ids (integer[]) |

不知道 PostgreSQL 对 integer[] 类型字段的索引机制是怎样的？

18 条回复 • 2023-03-27 22:26:58 +08:00

liprais

2023-03-27 10:38:21 +08:00

谁告诉你多表 join 效率低的?

liuzhen

2023-03-27 10:49:16 +08:00

脱离数据量说效率是耍流氓；大表 join 效率是低的，可以考虑拆 sql 多次查询，小表 join 就完事了

Ashore

2023-03-27 10:49:47 +08:00

@liprais csdn(狗头

CNife

2023-03-27 10:54:06 +08:00

建议自己实验一下，用 EXPLAIN ANALYZE 看看如何处理和代价如何

LeegoYih

2023-03-27 10:54:24 +08:00

表设计合理可以 join ，走索引性能不会差，如果是微服务或者后续需要分库分表还是拆分成三次查询吧

1. select id from t_tag where name in ("苹果","橘子")
2. select product_id from r_product_tag where tag_id in (...)
3. select * from t_product where id in (...)

如果 t_tag 更新频率较低可以放缓存里