局部敏感哈希(LSH)与文本去重
本文旨在搞清楚哈希函数、局部敏感哈希、MinHash、SimHash之间的关系。对利用局部敏感哈希来做最近邻查找的问题做一个梳理和总结。本文主要参考stanford公开课cs246的课件,讲得非常清晰,要系统的理解一个问题,还是得看这种课件,比网上搜索的碎片化信息有用多了。课件链接在文末的参考文档中,文中的截图均来自课件。
本文旨在搞清楚哈希函数、局部敏感哈希、MinHash、SimHash之间的关系。对利用局部敏感哈希来做最近邻查找的问题做一个梳理和总结。本文主要参考stanford公开课cs246的课件,讲得非常清晰,要系统的理解一个问题,还是得看这种课件,比网上搜索的碎片化信息有用多了。课件链接在文末的参考文档中,文中的截图均来自课件。
本文主要介绍有赞数据团队为了满足在不同维度查看、分析重点指标的需求而搭建的OLAP分析工具。这个工具对Kylin、Mondrian以及Saiku做了一个整合,主要工作包括一些定制化的修改以及环境的配置。
目前这个系统还处于一个需要优化、完善的过程,这篇博文也会相应地更新。
在有赞发展的初期,数据团队主要的工作之一就是根据运营人员的报表需求,编写sql,从hive中获得数据并写入mysql中存储。最后,前端人员写相应的代码展现mysql中存储的报表数据。
随着公司业务的快速发展,如此长周期的报表开发流程已经很难跟上运营人员的分析需求了。为了避免深陷报表开发、维护的泥潭,数据组决定调研大数据场景下的OLAP分析工具。参考了明略数据的解决方案之后,我们选择整合Kylin,Mondrian,Saiku来实现这样一个OLAP系统。