搓了个 Java 小脚本,用于关键词去重。
https://gist.github.com/Ghost-chu/684440e78bfb3e9c034cca2b7848e824
网上的 1 7000+ 的关键词库经过处理可以砍到只有 4000+ 个关键词。
简述:
- 全部转换为小写
- 去重
- 关键词精简
精简:
例如,同时出现下列关键字时:
- hello
- qjrwr9weruwhello
- hello2po3fjwpf
- ejeiworhellowihrewirh
- HeLlO
- iowqHIhsrihEllOwiofhewiew
只保留最短的 hello。
缺点:
- 时间复杂度较高,运行缓慢。不过只运行一次应该问题不大,期待算法大佬优化一下
- 只有 Java 版本的,有好心人来转写为其他语言的吗?