从零开始的搜索引擎(更新中) Aug 18, 2020 MVP 分词 去标点 字典 关键词库 tokenId -> token 文档库 docId -> doc 倒排索引 tokenId -> docId[] 查询 or tokens and tokens 归并多个docId[] 可用性改进 结果高亮 分词偏移量 查询结果排序 数据热更新 文档 去重 删除标记 关键词 同义词 个性化排序 改进 数据持久化 海量数据 索引和数据分离 B+ LSM 数据合并 数据去重 bloom filter 索引更新 查询 权重排序 结果缓存 热度排序 纠错 相关推荐 更好的分词 混合粒度 参考资料