大数据及其核心处理工具解析
一、Hadoop
主要优点
高可靠性:按位存储和处理数据的能力值得信赖,能有效应对硬件故障。
高扩展性:可在可用的计算机集群间分配数据并完成计算任务,集群可方便扩展到数千个节点。
高效性:通过并行处理方式加快数据处理速度,能在节点间动态移动数据并保证各节点的动态平衡。
高容错性:自动保存数据的多个副本,并能自动将失败的任务重新分配。
二、HPCC
项目主要组成部分
高性能计算机系统(HPCS):包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等。
先进软件技术与算法(ASTA):涵盖巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等。
国家科研与教育网格(NREN):涉及中接站及 10 亿位级传输的研究与开发。
基本研究与人类资源(BRHR):包括基础研究、培训、教育及课程教材等,旨在增加创新意识流,扩大熟练人员联营,提供必要基础架构支持调查和研究活动。
信息基础结构技术和应用(IITA):目的是保证美国在先进信息技术开发方面的领先地位。
三、Storm
应用领域与特点
应用领域:包括实时分析、在线机器学习、不停顿的计算、分布式 RPC(远过程调用协议)、ETL(数据抽取、转换和加载)等。
处理速度:经测试,每个节点每秒钟可处理 100 万个数据元组。
优势:具有可扩展性、容错性,且设置和操作简单。
四、Apache Drill
五、RapidMiner
功能和特点
免费提供数据挖掘技术和库,100% 用 Java 代码编写,可在多种操作系统上运行。
数据挖掘过程简单、强大且直观,内部 XML 保证了标准化的格式来表示交换数据挖掘过程。
支持用简单脚本语言自动进行大规模进程,提供多层次的数据视图,确保有效和透明的数据展示。
具备图形用户界面的互动原型、命令行(批处理模式)自动大规模应用、Java API(应用编程接口)、简单的插件和推广机制。
拥有强大的可视化引擎,支持许多尖端的高维数据的可视化建模,提供 400 多个数据挖掘运营商支持。
六、Pentaho BI
主要组成与特点
核心架构:以流程为中心,中枢控制器是工作流引擎,使用流程定义来定义在 BI 平台上执行的商业智能流程,流程可定制且能添加新流程。
主要组成元素:包括报表生成、分析、数据挖掘和工作流管理等,这些组件通过 J2EE、WebService、SOAP 等多种技术集成到 Pentaho 平台中。
发行形式:主要以 Pentaho SDK 的形式发行,包含 Pentaho 平台、Pentaho 示例数据库、可独立运行的 Pentaho 平台、Pentaho 解决方案示例和预先配制好的 Pentaho 网络服务器。