-
蒙特卡洛方法求π值的可视化
什么是蒙特卡洛 蒙特卡络不是一个人名,而是一个地名,因摩纳哥著名的赌场而得名,而该方法的提出者是大名鼎鼎的数学家冯·诺伊曼(现代计算机之父)。 蒙特卡洛(Monte Carlo)方法,又称为随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法,本质是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。它将所求解的问题同一定的概率模型相联系,以获得问题的近似解。 这里要说明的一点是蒙特卡络方法是一种基于概率方法的统称,包含蒙特卡洛算法、模拟、过程、搜索树等。而且使用可能得到的数…
-
淘宝用户购物之探索性可视化分析及业务指标分类
什么是描述统计学 描述是指对现有数据的总结和提炼,原始数据是杂乱无章的,所以将原始数据通过某种形式浓缩成一个有意义的统计量,比如通过图表形式对所收集的数据进行加工处理和显示;或将一系列复杂的数据序列减少为几个能够起到描述作用的数字(比如一套多难度复杂的体育动作浓缩为9.8分)。但是任何一种简化都会面临被滥用的危险。 在对任何数据做分析时有个前提,那必然是在拿到数据后,结合业务对数据做一个充分了解,我所拥有的数据是来自淘宝的购买商品 与 婴儿信息 两个数据集。 接下来要对淘宝婴儿的商品数据集做探索…
-
生日悖论的可视化分析
什么是生日悖论 生日悖论(Birthday paradox)是指假设一个班级有50个人,如果说在这个班级里概率大到可以肯定的说至少有2个人的生日相同(当然这里还不包括双胞胎,不包括闰年2月29日的情况),你信吗? 一般情况下,我们的直觉会认为班级里至少有两个人生日相同的概率会比较低,毕竟每个人的生日有365种选择,而班级只有50人,但是实际上计算得到在50个人的班级里出现同生日的概率甚至达到了惊人的97%! 正是因为理性的计算与日常的直觉经验产生了如此明显的矛盾,该问题才被称为生日悖论。 生日的…
-
COVID-19疫情简要可视化分析
2020年全球遭遇了新冠肺炎疫情,各大门户网站和主流App其实都有多维度的疫情数据分析。但是我还是打算尝试做一些简单的数据分析展示,同时会将数据以地图的形式可视化展示。 整个数据文件一共有两个分别为data_ncov.xlsx和chinadata.json。前一个文件是我们的疫情数据集文件,后一个则是后续创建地图时用到的全国各地省市的地理数据信息。 # COVID-19 数据分析 import pandas as pd import numpy as np import matplotl…
-
COVID-19疫情数据动态排行
很久之前,我在抖音app上看到有用动态的数据排行效果来展示各种经济,人口增长等数据,非常震撼又很有视觉直观性。而2020年疫情爆发期时的每日疫情数据又是大家最关心的。所以我就想着自己仿造类似的效果。 网上的动态数据排行在我了解之后主要发现是用javascript写出来的,但是基于对javascript没有那么深入了解,我找到了其它可替代方案,就是使用matplotlib的animation方法来绘制动图。 效果展示 最终的效果还不错,可以看下GIF效果动图。 设计逻辑 对于整个代码的设计逻辑主要…
-
Kaggle - Rossmann Store Sales 销量预测项目
本篇内容大纲目录如下[支持页内跳转]: I. 问题的定义 项目概述 问题陈述 评价指标 II. 分析 数据的探索 探索性可视化 算法和技术 基准和模型 III. 方法 数据预处理 执行过程 完善 IV. 结果 模型的评价与验证 合理性分析 V. 项目结论 结果可视化 对项目的思考 需要作出的改进 I. 问题的定义 项目概述 无论是飞速发展的互联网电商行业还是传统的零售行业,销售预测在企业的整个运营体系中都是必不可少的环节。所谓销售预测,是在对影响市场供求变化的众多因素上进行系统地调查和研究,并…
-
数据处理 - 异常值分析及可视化
异常值(Outlier) 是指样本中的个别值,其数值明显偏离所属样本的其余观测值。大多数情况下,异常值是由于数据录入或者数据后台数据运算错误导致。但是要说明的一点,异常值只是代表这个值属于异常而不一定代表这个值就是错误的。所以对于异常值的处理要适具体情况而定。 检测到了异常值,我们需要对其进行一定的处理。而一般异常值的处理方法可大致分为以下几种: 直接将含有异常值的记录删除。 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理。 平均值修正:可用前后两个观测值的平均值修正该异常值。 不…
-
数据特征分析 - 帕累托分析法
帕累托分析法是基于帕累托法则的一种分析法。 先来说说什么是帕累托法则,其原型是19世纪意大利经济学家帕累托所创的库存理论。帕累托运用大量的统计资料分析当时的一些社会现象,概括出一种关键的少数和次要的多数的理论,并根据统计数字画成排列图,后人把它称为帕累托曲线图。简单的说,帕累托法则其实就是我们常说的二八法则,在经济学定律中说的是80%的财富掌握在20%的人手中,而在运营中说的则是80%的贡献度来自于20%的用户。 而基于帕累托法则的帕累托分析法(Pareto Analysis)是制定决策的统计方…