《数据科学与大数据PPT》 统计基础与数学建模
开篇实例:Google的PageRank,基于大数据的搜索引擎的原理,,搜索示例:同济大学,网页排序结果,问题:搜索引擎怎么知道哪个网页排在前面,哪个排在后面呢?即如何衡量网页的重要性?,付费广告,大规模网页排名算法:PageRank,网页排名是网络搜索引擎的核心 PageRank 是著名网络搜索引擎 Google 用于评测一个网页 “重要性” 或 “影响力” 的一种方法,PageRank的决定因素,Google 的 PageRank是基于这样一个理论: 若 B 网页上有连接到 A 网页的链接 ,说明 B 认为 A 有链接价值,是一个“重要”的网页 一个网页的重要性大致由下面两个因素决定: 该网页的导入链接的数 这些导入链接的重要性,B,A,尝试计算PageRank值,问题 先有鸡还是先有蛋? Internet的拓扑结构,页面C,页面A,页面B,页面D,,,,,100,9,?,50,53,可以用数据挖掘工具来解决这类问题,50,3,例:右图为一个有向图,记为 D 顶点组成的集合:V(D)={u,v,w} 弧组成的集合: A(D)={(u,w),(w,u),(u,v)},有向图的知识,有向图 顶点的出度(Out-degree) 顶点的入度(In-degree),顶点 u 的出度:,顶点 u 的入度:,od(u)=2,id(u)=1,如何表示这个图,以便更好计算PageRank值呢?,为研究需要,我们定义邻接矩阵,对于下例 中的有向图,其邻接矩阵为,邻接矩阵,,1 2 3 4 5 6 7 8,1 2 3 4 5 6 7 8,超链接矩阵(Hyperlink Matrix),进一步,如果将邻接矩阵中的元素除以对应节点的出度,可以得到该图的超链接矩阵,超链接矩阵的特点: 所有元素非负 每列元素的总和为1,随机矩阵 (Stochastic Matrix) 马尔可夫矩阵,,1 2 3 4 5 6 7 8,1 2 3 4 5 6 7 8,矩阵的特征向量和特征值,I 是 H 的对应于特征值 =1 的特征向量,,数学的奇妙:原来不知如何下手的互联网页的排序问题,现在已经轻而易举地变成了求解矩阵H的特征向量问题,定理:超链接矩阵H的最大特征向量即为该矩阵的PageRank值,,,如何计算PageRank值?,幂迭代方法,,PageRank算法,第一步:将互联网作为一个有向图,并用邻接矩阵进行表示; 第二步:将该邻接矩阵转换为超链接矩阵; 第三步:求解该超链接矩阵的最大特征向量(如幂迭代法); 第四步:求得的特征向量中的值即为对应网页的PageRank值。,PageRank算法,PageRank 算法中使用的数学知识包括:矩阵的性质、特征值和特征向量、幂迭代方法等,这一漂亮的想法出自于Stanford大学1998年在读博士研究生Larry Page和Sergey Brin,第七次国际World Wide Web会议(WWW’98)上的论文“The PageRank citation ranking:Bringing order to the Web”,参考文献,L. Page, S. Brin, R. Motwani, T. Winograd, The PageRank Citation Ranking: Bringing Order to the Web, Technical Report, Stanford University, 1998. K. Bryan, T. Leise, The $25,000,000,000 eigenvector: The linear algebra behind Google, SIAM Review, 48 (3), 569-81, 2006. P. Berkin, A survey on PageRank computing, Internet Mathematics, 2:73–120, 2005.,第11课 统计基础与数学建模,数据科学与大数据的数学基础 基于统计模型的数据分析 数据分析的工具,数据科学与大数据的数学基础,Matrices & Linear Algebra(矩阵和线性代数) Relational Algebra (关系代数) Probability Theory(概率论) Statistics(统计) Machine Learning Foundation(机器学习基础),矩阵和线性代数,矩阵(Matrix)是一个按照长方阵列排列的复数或实数集合。涉及到的机器学习应用有SVD、PCA、最小二乘法、共轭梯度法等。 线性代数是研究向量、向量空间、线性变换等内容的数学分支。向量是线性代数最基本的内容。中学时,数学书告诉我们向量是空间(通常是二维的坐标系)中的一个箭头,它有方向和数值。在数据科学家眼中,向量是有序的数字列表。线性代数是围绕向量加法和乘法展开的。 矩阵和线性代数是一体的,矩阵是描述线性代数的参数。它们构成了数据科学的庞大基石。,Relational Algebra(关系代数),它是一种抽象的查询语言。基本的代数运算有选择、投影、集合并、集合差、笛卡尔积和更名。 关系型数据库就是以关系代数为基础,在SQL语言中都能找到关系代数相应的计算。,Probability Theory(概率论),Bayes Theorem(贝叶斯定理) Random Variables(随机变量) Cumulative Distribution Function(累计分布函数) Continues Distributions(连续分布) Probability Density Function(概率密度函数) ANOVA(方差分析) Central Limit Theorem(中心极限定理) Monte Carlo Method(蒙特卡罗方法) Hypothesis Testing(假设检验) p-Value(P值) Estimation(估计),Confidence interval(置信区间) Maximum Likelihood Estimate(极大似然估计) Kernel Density Estimate(核密度估计) Regression(回归) Covariance(协方差) Correlation(相关性) Pearson correlation coefficient(Pearson相关系数) Causation(因果性) Least Squares Fitting(最小二乘法) Euclidean Distance(欧氏距离),统计学,统计学(Statistics)是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。 事物的发展充满了不确定性,而统计学,既研究如何从数据中把信息和规律提取出来,找出最优化的方案;也研究如何把数据当中的不确定性量化出来。 大数据告知信息但不解释信息。打个比方,大数据是“原油”而不是“汽油”,不能被直接拿来使用。 大数据时代,统计学是数据分析的灵魂。,统计分析方法,统计分析是基于统计理论,是应用数学的一个分支。在统计理论中,随机性和不确定性由概率理论建模。统计分析技术可以分为: Descriptive Statistics(描述性统计):解释数据的一些特征; Exploratory Statistics Analysis(探索性统计分析):开始关注数据的内在规律; Inferential Statistics(推断性统计):怎样用已知数据来进行预测和判断。 例如多元统计分析:回归、因子分析、聚类和判别分析等。,关于统计学、概率论和数理统计的区别与联系,公众号文章:说说统计学、概率论和数理统计这些老梗,2017-02-17,Machine Learning Foundation(机器学习基础),Numerical Variable(数值变量) 数值变量和分量变量 Supervised Learning(监督学习) 常见于KNN、线性回归、朴素贝叶斯、随机森林等 Unsupervised Learning(非监督学习) 常见于聚类、隐马尔可夫模型等 Input space , Output space and Feature space(输入空间、输出空间、和特征空间) Training Data and Test Data(训练集和测试集) Cross validation(交叉验证),Machine Learning Foundation(机器学习基础),Classifier(分类) Prediction(预测) Regression(回归) Ranking(排序) Lift curve (Lift曲线) Receiver Operating Characteristic Curve(ROC曲线) Overfitting and underfitting(过拟合和欠拟合) Bias and Variance(偏差和方差) Classification Rate(分类正确率) Boosting(提升方法) Perceptron(感知机) Neural Networks(神经网络),思考题,统计学、概率论和数据分析三个概念之间的区别与联系是什么?,基于统计模型的数据分析,统计:起源,起源:用单个数或者数的小集合捕获可能很大值集的各种特征 频率度量:众数 位置度量:均值和中位数 散度度量:极差和方差 数据分布:频率表、直方图 多元汇总统计:相关矩阵、协方差矩阵,总不能指望领导看几十万客户的消费变化细节,来得到公司运营状况吧,汇总数据的初衷如公司的组织结构,高层期望看到工作概要,而不是细节,统计:设计,标准差:想设计一个指标,可以用来衡量数据集合的发散性,经过如下思考 每个样本的偏差累加就可以衡量 (real num - mean)加和 偏差较大的值应该具有更大的权重 (real num - mean)^2 集合中数字越多,方差越大,应该与集合大小无关 Mean((real num – mean)^2) 量纲与原始数据不同,无法比 Sqrt(Mean((real num – mean)^2)) 最终结果,RMSE(均方根误差),汇总数据指标的设计,源于非常朴素的思想,,,貌似这个宽度就可以体现数据的波动性大小,5次约会,每次迟到10分钟,与一次迟到50分钟,哪个更难接受?,统计:需要多少样本,在美国总统选举的各种民意测验中,关于支持率的一个常用标准是置信度为95%(误差在+-2.5%以内,置信区间宽度为5%),那么要达到这样的标准需要多少人呢? 根据置信度公式: 计算出N=1067,至少要一千个样本以上,才能满足需求 Z0.025=1.96, 通过R语句 qnorm(0.025, low=F)得到 n是样本数量,n越大,置信区间越小 p是真实的概率,p=0.5时候,p(1-p)最小,所需n最大,统计概率是真实概率的一个模拟,既然是模拟,就期望有方法来描述其准确性,置信度/置信区间,社区中部分居民进行投票,支持率为70%,真实的概率以90%的概率在68%~72%之间,,,,统计:细拆与汇总的权衡,能细致,越细致越好 人最喜欢穿黑色的鞋子(20%) 5~10岁的女性最喜欢穿红色的童皮鞋(70%) 越细致,分类的数据更纯,信息也更有效(准确) 分类更纯:人的更细致分类,鞋的更细致分类 信息更准确:只有20%的人最喜欢黑色鞋子,但70%的5~10岁的女性喜欢红色的童皮鞋,但需要保证细致分类后,分类中的样本足够,使统计结论具有有效性 做鞋子喜好的调研,选取了全中国3000位客户,为了结论更加细致有效,对年龄、性别、居住地点做了分类统计 结论:北京的5-10岁女童,100%喜欢男性旅游鞋 可信否?满足北京、5-10岁、女童这三个条件的样本数量是1,,,,,,,,,,,,,,,在数据量充足的时候,加一些维度、拆的更细,使得每个小格里的样本更加类似,结论更加准确 但数据不足或分拆未带来结论改变,就不能再拆,以免结果失去统计意义,,,,OLAP 概念:汇总统计的极致工具,概念:多维度多层次汇总观察数据的技术 核心概念 维 维的层次 维的成员 度量 核心操作 切片/切块 钻取/上卷 旋转/钻透,实例:数据透视表,应用: 交互分析与 万能报表,数据立方体,统计模型:模型为什么work?,为什么存在实例“张三抽烟比李四不抽烟活的久”,还要劝人不要抽烟? 概率分布问题,“人事”与“天命” 虽然选择健康的生活方式(尽人事),我们也得听天命(自己是正态曲线的好尾巴,还是坏尾巴),但是天命整体分布可以变得更好(正态曲线的中轴向好的一面偏移) 如果没有附加的抽烟信息,如何从一组寿龄数据中作预测? 目标:MSE做为评价指标,MSE越小越好 方法:数据为正态分布的话,中位数(即波峰)做为预测值使得MSE最小 通过如上两点,证明抽烟信息对预测是有效的,如果一个人抽烟,那么我们预测他活到70岁,否则75岁 如果再多一个酗酒的信息呢?,统计、模型、哲学的统一 世界的本源,抽烟与否的寿龄统计分布图,思考题,为什么统计模型是大数据分析的强有力方法?,数据分析的工具,2016 年编程语言排序,三大数据科学编程语言,数据分析的工具,新工具的涌现,Notebook/ Zeppelin,Midas,DataShire IDE,Interactive learning environment,本周思考问题,你觉得在线使用数据分析工具会是趋势吗?为什么?,数据科学与大数据的数学基础 基于统计模型的数据分析 数据分析的工具,总结,书籍推荐,