数据来源繁杂
需要从多种数据源中手动的挑选各种结构化、非结构化以及实时数据,并通过SQL代码实现数据关联,效率很低。
无法实现海量数据分析
能支持少量离线数据分析,面临海量实时/非实时数据的挑战。
数据质量低
对于很多原始数据,需要耗费大量精力执行格式转换、过滤、填充在内的各种清洗和预处理。
算法开发门槛高
不具备专业的算法工程师,因此无法实现代码级别的算法开发,无法完成深层次的分析任务。
不支持在线分析和预测分析
目前很多数据分析工具,都只能实现有限的、离线的统计分析,无法实现海量数据的在线分析和实时的预测;无法对离线分析结果进行自动部署。
不支持机器学习和人工智能
部分分析工具只能支持统计分析,无法实现海量数据的机器学习和人工智能模型的开发、训练、测试、评估。
无法实现协作
不同团队开发的模型和算法,无法被其他人所使用,知识无法实现传递。