TalkingData-大数据统计分析平台架构故事---TalkingData数据库架构变迁.pptx
从草根到云端 – TalkingData 数据库技术进化,TalkingData Tech VP 周海鹏 2014-10,“人们”眼中的TalkingData,,App Analytics,Game Analytics,Mobile Ad Tracking,Enterprise,游戏运营分析,移动广告监测,企业解决方案,移动应用统计分析,11500+,应用款数,7.5亿+,累计覆盖,2500万+,日活设备,35%覆盖,Top盈收游戏,2.5亿+,玩家覆盖,1000万+,日活玩家,49家,网盟对接,40%覆盖,行业广告主,1500万点击,日监测点,两大一线应用市场,三大运营商,四大银行,业务模型,,,计算需求,,草根时代(HelloWorld),,草根时代(统计分析系统计算模型),group by,multi join,distinct count,,青铜时代,草根时代,了解业务模型 清晰计算模型,青铜时代,支持业务横向扩展 数据量支持亿级表,2011,2012,2013,2014,青铜时代,,基于Hadoop生态的批处理系统,数据库批量Insert/Update,压力大,数据库读压力小,Schema 更新多,青铜时代(TokuDB),,大数据量 Insert/Update/Delete/优化,均是message,lazy式操作,自上而下逐步Flush到leaf节点,天然多版本,无需做undo log,Fast insert/ Fast update,延迟小,Schema更改,例如Column增加/删除/更改,青铜时代,,青铜时代,,大数据量插入能力,更新能力的确比较突出,InnoDB也不差,和索引、数据Layout、操作模式有关,青铜时代,,针对SSD有一定优化,如果考虑随机查询能力,不少专门针对SSD优化的KV库更合适,例如AeroSpike,,黄金时代,草根时代,了解业务模型 清晰计算模型,青铜时代,支持业务横向扩展 数据量支持亿级表,2011,2012,2013,2014,黄金时代,数据量支持百亿表 查询能力到毫秒级 支持多维交叉业务,,黄金时代(从行式到列式),,黄金时代,Infobright,InfiniDB,MonetDB,Vertica,,黄金时代,select avg( score ) from example where class =‘Junior’ and grade = A group by gender;,,黄金时代,查询速度(ms),存储能力(G),,黄金时代,left outer join,(select devid from activeuser where job_time=20141008001501 and productid=3012470 group by devid) l on (n.devid=l.devid) where l.devid is not null;,(select devid from newuser where job_time=20141007001501 and productid=3012470) n,select count(*) from,黄金时代:Join操作的难点和解决思路,,以Bitmap计算替换原始日志扫描(优化存储,降低成本),高效的内存计算(优化速度,优化功能),优化:逻辑计算等价 优化:串行改并行,黄金时代,,Select count(*) from user where status = ‘married’ and region = ‘central’ or region = ‘west’,,status = “married”,region = “central”,region = “west”,,黄金时代,,云端时代,草根时代,了解业务模型 清晰计算模型,青铜时代,支持业务横向扩展 数据量支持亿级表,2011,2012,2013,2014,黄金时代,数据量支持百亿表 查询能力到毫秒级 支持多维交叉业务,云端时代,支持统一数据查询能力 支持多数据库混合存储 面向场景的数据库研发,,云端时代,,云时代,列式数据库(count/Group by),HDFS/Kafka等文件存储(scan),搜索引擎(文本随机查询),Redis/LMDB/RocksDB等KV数据库,传统关系型数据库,,,,,,,云时代,JDBC client,JDBC server,SQL parser / validator,Query optimizer,3rd party ops,3rd party ops,3rd party data,3rd party data,Optional,Core,Pluggable,Metadata SPI,Pluggable rules,,,,,,,云时代,,,,潜在高价值客群,居住城市:北、上、广、深等一线城市 生活半径:上海内环以外,中环以内,,年龄:22 ~ 30岁 生活特征:宅男腐女,至少拥有一张信用卡 招行、交通、中信卡用户更为优质,iphone用户较多 三星galaxy、note系列用户较多,总结,,不同的时期不同的选型,每种数据库都有它特定的场景---读写优化的平衡,数据库和计算紧密捆绑在一起---存储和计算的平衡,,自主创新和产品使用珠联璧合---底层研究和应用能力的平衡,,官网 / www.talkingdata.com 微博 / @TalkingData,微信 / TalkingData 服务支持 / support@tendcloud.com,Q&A,