灵玖软件认为大数据分析,隐含包括几个需求:
1 大数据存储与计算,这方面的软件开源hadoop+HBase,利用这个系统,可以搭建小到几十TB,大到PB级的分布式存储和计算系统。硬件使用刀片服务器,利用板载硬盘存储数据
2 大数据查询需求。大数据查询,常常出现在一些日志记录的查询,传统的存储利用昂贵的商业Db系统,因此,很大大型企业的日志信息,如银行的客户记录,是离线存储的,要查询很麻烦。利用Hadoop/HBase,可以搭建大到Pb级的集群查询系统,通过二级索引系统,也可以做到查询体验较好。
3 大数据挖掘,可以使用Mahout挖掘算法库,如果有挖掘算法,也可以直接使用Mr编写。这些挖掘程序,运行在上述的Hadoop系统中,实现分布式的分析。
4 如果有需求,可能还需要考虑实时分析,这需要Spark,内存计算框架。
温馨提示:内容为网友见解,仅供参考