【[145星]Rensa:高性能的MinHash实现,为大规模数据集的相似性估计和去重提供极致效率。亮点:1. 比传统datasketch快40倍;2. 内存占用更低;3. 提供Python绑定,易于集成】
'Rensa: High-performance MinHash implementation in Rust with Python bindings for efficient similarity estimation and deduplication of large datasets'
GitHub: github.com/beowolx/rensa
MinHash 数据去重 性能提升 AI创造营