正是基于本文所描述的架构特点,数据魔方目前已经能够提供压缩前80TB的数据存储空间,数据中间层glider支持每天4000万的查询请求,平均响应时间在28毫秒(6月1日数据),足以...
什么是”小数据”?一文解读”小数据”的统计学
大多数数据科学家和机器学习从业人员就是在这样的情况下积累了经验,逐渐习惯于那些用着顺手的算法,而且在那些常见的需要权衡的问题上面拥有良好的直觉但小的数据集仍然时不时的出现,而且伴随...
基础知识:统计学和数据挖掘区别
统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导致了反感。统计学有着正统的理论基础(尤其是经过本世纪的发展),而现在又出现了一个新的学科,有新的主人,而且声称要解决...
数据产品经理的前世今生
我看到过很多讨论数据产品的文章,但大家基本没有统一的认识,对概念的理解也不太认同,所以这里想简单写写自己的观点,主要内容也是不会在其它网文看到的一家之谈。
Hadoop简介和集群搭建
Hadoop是Apache旗下的一个用java语言实现开源软件框架,用来解决海量数据的存储和分析计算问题。Hadoop核心组件有HDFS(分布式文件系统)、YARN(作业调度和集群...
实时计算数据平台建设的思考
为了尽量能比其他领域的开发者维持相当的发量,实时计算平台的建设,就势在必行。本文将从需求与风险、试试计算平台组建分析由上至下地阐述对平台建设的一些思考。
SQL查询优化原理分析与实战(900W+ 数据,从 17s 到 300ms)
MySQL并不是挑过offeset行,而是取offset+N行,然后返回放弃前offset行,返回N行,那当offset特别大的时候,效率就非常的底下,要么控制返回的总页数,要么对...
SQL查询优化:拒绝一整天只跑一个查询
SQL优化,无论是面试还是工作,都是常问和常用的知识点。这是一个相对复杂的问题,在MySQL官方文档中也是用了相当长的篇幅来专门介绍MySQL优化,所以想要全部掌握可能会有点难啃,...
数据挖掘在电商的应用:如何选择商品关键词?
在选择商品关键词时,卖家可以从四个途径下手:站外投放热词、站内搜索热词、商品属性以及行业数据。而对平台或者独立B2C来说,如何选择商品关键词是数据挖掘应用的第一步,接下来就是如何匹...
零售数据分析必备知识:购物篮分析
购物篮指的是超级市场内供顾客购物时使用的装商品的篮子,当顾客付款时这些购物篮内的商品被营业人员通过收款机一一登记结算并记录。所谓的购物篮分析(Market Basket Analy...
评论