-
纯Python实现MNIST图像识别的(ANN)神经网络编程
1、什么是神经网络 神经网络是当前机器学习领域普遍所应用的,例如可利用神经网络进行图像识别、语音识别等,从而将其拓展应用于自动驾驶汽车等领域。神经网络的衍生变种目前有很多种,如CNN、RNN、GAN等,它们在不同应用场景有着各自针对性。但最简单且原汁原味的神经网络则是多层感知器(Muti-Layer Perception ,MLP)也叫人工神经网络(ANN,Artificial Neural Network),除了输入输出层,它中间可以有多个隐层,最简单的MLP只含一个隐层,即三层的结构。只有理…
-
SettingwithCopyWarning在pandas中的解决方案
我在用Pandas对数据集做处理的时候会容易被抛出SettingWithCopyWarning警告信息,我相信很多人都会对它视而不见。其实,SettingWithCopyWarning 警告不应该被忽略,因为出现该警告正说明你的代码执行的结果可能没有按预期运行,需要检查结果,这是Pandas的针对链式赋值(Chained Assignment)的保护机制导致的结果。。如果视而不见的话当代码量足够大的时候再去排查就更加困难了。 如下我先模拟一个数据集来说明如何解决这个问题,以DataFrame类型…
-
图解axis=0/1参数的理解使用
在numpy与pandas的使用中,有个常见的参数axis,根据对axis的设定值不同就会得到截然不同的结果。对于如何正确设置axis的参数值,如果有人与我曾经一样有似懂非懂的经历,那一定是在某方面没有正确的理解作者对这个参数的定义。 为了彻底说清楚axis到底是什么,我会用手稿图结合多个详细的例子来总结。 先借用网上常见描绘的axis图: 其实这个图里的方向指示很容易误导人,包括一些网上的解释也比较模糊,只要你站在不同角度去理解就会造成理解偏差,我曾经就误解绕了进去,虽然用自己理解的方法…
-
pandas中set_index( )和reset_index( )以及reindex()区别
在数据分析过程中,对数据表的索引操作是经常会遇到的。尤其在pandas中常用的有几个方法如set_index() 和 reset_index() 以及 reindex() ,这几个方法看着很相近但是如果没有完全搞明白区分它们的不同的话,在日后的使用中会极大影响数据预处理时的工作效率。 为了更好的以不同例子说明这几个方法的作用与区别,如下先声明一个初始数据集。 一、set_index() 的使用 set_index() 主要可以将数据表中指定的某列设置为索引或复合索引,如下是常涉及使用的几个参数:…
-
蒙特卡洛方法求π值的可视化
什么是蒙特卡洛 蒙特卡络不是一个人名,而是一个地名,因摩纳哥著名的赌场而得名,而该方法的提出者是大名鼎鼎的数学家冯·诺伊曼(现代计算机之父)。 蒙特卡洛(Monte Carlo)方法,又称为随机抽样或统计试验方法,是以概率和统计理论方法为基础的一种计算方法,本质是使用随机数(或更常见的伪随机数)来解决很多计算问题的方法。它将所求解的问题同一定的概率模型相联系,以获得问题的近似解。 这里要说明的一点是蒙特卡络方法是一种基于概率方法的统称,包含蒙特卡洛算法、模拟、过程、搜索树等。而且使用可能得到的数…
-
淘宝用户购物之探索性可视化分析及业务指标分类
什么是描述统计学 描述是指对现有数据的总结和提炼,原始数据是杂乱无章的,所以将原始数据通过某种形式浓缩成一个有意义的统计量,比如通过图表形式对所收集的数据进行加工处理和显示;或将一系列复杂的数据序列减少为几个能够起到描述作用的数字(比如一套多难度复杂的体育动作浓缩为9.8分)。但是任何一种简化都会面临被滥用的危险。 在对任何数据做分析时有个前提,那必然是在拿到数据后,结合业务对数据做一个充分了解,我所拥有的数据是来自淘宝的购买商品 与 婴儿信息 两个数据集。 接下来要对淘宝婴儿的商品数据集做探索…
-
生日悖论的可视化分析
什么是生日悖论 生日悖论(Birthday paradox)是指假设一个班级有50个人,如果说在这个班级里概率大到可以肯定的说至少有2个人的生日相同(当然这里还不包括双胞胎,不包括闰年2月29日的情况),你信吗? 一般情况下,我们的直觉会认为班级里至少有两个人生日相同的概率会比较低,毕竟每个人的生日有365种选择,而班级只有50人,但是实际上计算得到在50个人的班级里出现同生日的概率甚至达到了惊人的97%! 正是因为理性的计算与日常的直觉经验产生了如此明显的矛盾,该问题才被称为生日悖论。 生日的…
-
COVID-19疫情简要可视化分析
2020年全球遭遇了新冠肺炎疫情,各大门户网站和主流App其实都有多维度的疫情数据分析。但是我还是打算尝试做一些简单的数据分析展示,同时会将数据以地图的形式可视化展示。 整个数据文件一共有两个分别为data_ncov.xlsx和chinadata.json。前一个文件是我们的疫情数据集文件,后一个则是后续创建地图时用到的全国各地省市的地理数据信息。 # COVID-19 数据分析 import pandas as pd import numpy as np import matplotl…
-
COVID-19疫情数据动态排行
很久之前,我在抖音app上看到有用动态的数据排行效果来展示各种经济,人口增长等数据,非常震撼又很有视觉直观性。而2020年疫情爆发期时的每日疫情数据又是大家最关心的。所以我就想着自己仿造类似的效果。 网上的动态数据排行在我了解之后主要发现是用javascript写出来的,但是基于对javascript没有那么深入了解,我找到了其它可替代方案,就是使用matplotlib的animation方法来绘制动图。 效果展示 最终的效果还不错,可以看下GIF效果动图。 设计逻辑 对于整个代码的设计逻辑主要…
-
Kaggle - Rossmann Store Sales 销量预测项目
本篇内容大纲目录如下[支持页内跳转]: I. 问题的定义 项目概述 问题陈述 评价指标 II. 分析 数据的探索 探索性可视化 算法和技术 基准和模型 III. 方法 数据预处理 执行过程 完善 IV. 结果 模型的评价与验证 合理性分析 V. 项目结论 结果可视化 对项目的思考 需要作出的改进 I. 问题的定义 项目概述 无论是飞速发展的互联网电商行业还是传统的零售行业,销售预测在企业的整个运营体系中都是必不可少的环节。所谓销售预测,是在对影响市场供求变化的众多因素上进行系统地调查和研究,并…