研发一套领域可定制的可视化交互式大数据分析方法及框架,支持数据挖掘分析完整生命周期管理,支持面向领域定制算法组件库和分析流程模板,分析人员可视化建模并高效执行。已完成1.0版本,集成Hadoop和Spark及相关算法库。突破一系列大数据分布式处理优化技术,发表若干高水平论文。与国家脑卒中中心合作,基于研发的领域可定制大数据分析应用支撑平台,提出基于虚拟数据工作空间的心脑血管大数据管理共享框架,研发开放式大数据创新分析平台,支持不同技术背景、不同应用背景人员选择合适的工具在虚拟空间来开展数据分析,有效促进心脑血管大数据的共用共享。该成果已正式上线运行,并作为中科院代表成果参展2016年深圳高交会。针对广泛流行的Spark框架,研究设计了Spark应用可靠性测试基准SparkFaultBench。该基准选取了有代表性的大数据应用(如大数据SQL,图应用,机器学习应用等),通过生成异常数据、削减参数组合空间来对部署好的Spark系统进行测试。在测试过程中,发现了1个Spark系统bug和5个应用bug,并贡献到社区。项目获得OW2 Contest 2016的二等奖,增强版本获得全国应用第十五届全国软件与应用学术会议(NASAC 2016)的原型竞赛三等奖。