《大数据大挑战 整合是关键》
1 大数据大挑战 整合是关键 但彬 Informatica中国 bdan@informatica.com 2 技 术 突破带来 互联时 代 • 24小时在线(Connected 24 hours Era) • 全 方 位网络覆盖 3 随 之 而来的数据爆炸 4 Big Data 成 为 流行语 大数据(Big Data) 是 大 交 易 数 据,大 交互数 据和大 数据处 理的统 称。 在线交易处理 (OLTP) 在线分析处理 (OLAP) Hive HQL Informatica 开发人员 1. Informatica 映射转换成优化的 Hive HQL 2. HQL 调用 Informatica DTM 中的自定义 UDF 进行某 些特殊的数据转换 3. 优化的 HQL 转换为 MapReduce 4. 在 Hadoop 上执行的 MapReduce 和 UDF 数据节点 数据节点 数据节点 UDF MapReduce Informatica 数据转换库 数 据 集成和数据质量 Hadoop MapReduce 处理 Beta 31 重 复 使用和导 入 Hadoop 的 PC 元数据 将现有 PC 开 发的产品导入 到 Hadoop 开 发环境中 在实际导入流 程之前验证导 入逻辑,确保 兼容性 Beta 32 与 往 常一样设 计映射 … 图形和元数据驱动环 境中的 Hadoop 设计 集成和质量逻辑 配置应在何处运行集 成逻辑 – Hadoop 或 本地 Beta 33 查 看 生成的 HiveQL 从 Hadoop 映射 查看完整生成和 向下推动的 Hive 或 MR 代码 Beta 34 混 合 工作流编 排 Hadoop 和 本 地环境的单一 工作流运行任 务 Cmd_Choose 加载路径 MT_Load2Hadoop + 解析 Cmd_Load2 Hadoop MT_Parse Cmd_ProfileData MT_Cleanse MT_Data 分析 通知 名称 类型 默认值 说明 $User.LoadOptionPath 整型 2 根据 cmd 任务的输出加载工作 流路径 $User.DataSourceConnection 字符串 HiveSourceConnection 源连接对象 $User.ProfileResult 整型 100 从“探查”命令任务输出 。 添加 编辑 移除 变量列表: 35 监控 – Hive 查 询 计划详情 开发人员工具中同 样可用的 hive 查询。 Beta 36 单个 M/R 作业的可跟 踪性。作业 跟踪器链接 URL 查看 Hive 查询详情 作业跟踪器状态摘要 监控 – Hive 查 询 追溯 M/R Beta 37 网络日志 传统网格 近乎实时 挑战 : 随着数据量和处理负荷的迅速增长 , 对更快的数据驱动型决策的需求不断增加 解决方案 结果 • 经济高效地拓展性能 • 降低硬件成本 • 通过在统一数据集成平 台上的标准化,增加了 灵活度 RDBMS RDBMS RDBMS 数据集市 数据集市 数据仓库 阶段 2 扩展 数 据集成并 控制 成本 为 大 数据分析奠定基 础 大 型 国 际 金 融 机构 38 挑战 :为 “ 互联车辆 ” 计划 , 在年底前实现实时收集汽车 数据 解决方案 结果 • 助力实现互联车辆的目标: • 嵌入移动技术提升客户体验 • 预测维修维护和提高燃料效 率 • 电话道路救援和自动调度服 务 • 持续收集所有车辆的所有信息 • 所有车辆在年底时,都将把数据传送 到中央Teradata 数 据仓库 • 利用PowerCenter, CDC 和CEP 实现实时数据集成 互 联 车辆项目 开 发 创新产品和服务 业务报告 企业数 据仓库 复杂事件处理 (CEP ) Power Center 大 型 国 际 汽 车 制造 商 39 更多大 数据解决方案 通过传感器、 移动和地理空 间数据,改善 货运业务并赋 予业务Hadoop 形式,节省了 数百万美元 将源自100 多个 国家的200 多个 品牌的业务数据 从五个系统中转 移到一个系统中 通过数据源, 将客户、风险 和投诉等各种 来源的数据( 数 据仓库、遗留 数据、30000 数据集市和 10M 投诉) 的访 问迅速提高了5 倍,而成本仅 是之前的1/3 提供 分析洞见 改善 业务流程 提高效率& 降低成本 兼并收购& 资产剥离 获取及挽留 客户 外包 非核心职能 治理风险 合规 提升合作伙伴网 络效率 提高业务 灵活性 业务需求 大数据仓库 & 运营商业智能 大数据服务 大数据存档 社交/ 大数据 同步 大数据整合 复杂事件处理 通过地理空间 和视频追踪, 将人工检查转 换为以秒数计 的自动提醒, 保证了航海安 全 为全球177 多 个业务部门及 53,000,000 个 联系人提供云 访问。 保持 360 应用程序 与LinkedIn 和 Twitter 的更新 每 月插槽收入提 高4% ,并在社 交数据和机器数 据中,实时从 500 个来源中将 目标客户段从 40 扩大到160 节省25% 的数据 中心空间(100 万美元),将延 迟降低83% 至 340 微秒,将每 天10亿交易的吞 吐量提高580% , 且还在持续提高 Ultra messaging 实时客户视图 大数据收集及 汇总 通过On- Boarding New Data Sources Faster 将进 入市场时间 缩短90% , 并可支持更 多数据类型 合理化应用程序 组合,并在6 个 月内得到回报节 省了100 万美 金。 将用于服务监测 和图案识别的大 型数据年龄降低 87% 40 从Informatica 获取竞争优势 • 重复性 • 可预测、可重复的部署和方法 • 与 快 速的 Hadoop 变 化 隔离 • 经常推出新版本和项目 • 避免对错误的技术下注 • 现 有 资产的重复使用 • 应用现有集成逻辑向 Hadoop 加载数据 • 重新使用现有数据质量规则验证 Hadoop 数据 • 现 有 技能的重复使用 • 使 ETL 开发人员能够利用 Hadoop 的功能 • 治理 • 执行并验证数据安全性、数据质量和法规遵从政策 • 可管理 41 谢 谢!