在机器学习中,同一个数据集可能训练出多个模型即多个函数,那么我们在众多函数中该选择哪个函数呢?首选肯定是那个预测能力较好的模型,那么什么样的函数/模型就是预测好的呢?有没有什么评判...
【大数据的生命线之数据质量】数据质量是数据人永恒的话题
不管是从事数据或者用数据的人,应该实时把数据质量放到第一位,数据质量是生命线,怎么强调都不过分。本篇文章【应该是系列】是很久之前就答应一个朋友要写成文章的,一直没有去梳理。
t检验只能用于样本量少于30个的数据?要做z检验吗?
经常在统计教材里面看到,t检验适用于样本量n
如何轻松学习Python数据分析?
今天这篇文章来聊聊如何轻松学习『Python数据分析』,我会以一个数据分析师的角度去聊聊做数据分析到底有没有必要学习编程、学习Python,如果有必要,又该如何学习才能做到毫不费力...
SKlearn参数详解—随机森林
随机森林(RandomForest,简称RF)是集成学习bagging的一种代表模型,随机森林模型正如他表面意思,是由若干颗树随机组成一片森林,这里的树就是决策树。
你费那么大劲做的数据分析,有用吗?
我们做数据分析的目的,是为了解决问题,换个词,是为了有用啊。那么你做的分析,有用吗,怎样做的分析才有用呢?
三分钟读懂用户画像&画像构建流程
在日常生活中,我们为了以更简单的方式描述"人"这种复杂动物,会习惯性地(包括以戏谑的方式)对拥有共同特征的人进行归纳:比如犹太人"会赚钱",广东人"爱吃"(我可没说hu jian人...
什么是变量?数值变量和分类变量区别是什么?
统计学中的变量(variables)大致可以分为数值变量(numrical)和分类变量(categorical)。
企业运营七大指标及提升思路
大家好,我是 Herblink 的创始人李东亮。Herblink 是一家食药品原料的 B2B 企业。今天我想和大家分享的是:我们在创业过程中关注的七大企业经营指标及其提升的关键点。
最常用的四种大数据分析方法
本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。
评论