2025年03月23日
大数据没有公认的定义,最常见的是IBM的4V。Volume,Velocity,Variety和Veracity。最近还有加Value的5V版本。
4V定义很深,然而对于大部分做大数据的人而言,这个定义并没有什么卵用。一般语用中的大数据事实上是指分布式存储系统(distributed file
system)和基于此系统的数据生态环境。
在理解“大数据”之前,首先要回答为啥这个问题不能用抽样生成的小样本+概率统计来解决?
目前来看,有两种情况。第一,需要描述全局状态的,比如page rank 算法; 第二,需要做长尾的,抽样很可能方差太大,大概也就是做个性化推荐的。最近“大数据”的兴起,跟个性化算法的兴起有很大关系。没有个性化服务要求,就搜索那几家大佬折腾一下就完了。
2025年03月23日
文章来源于数据仓库与Python大数据 ,作者大圣归来
数据库SQL分析函数/窗口函数专题,值得收藏!几乎涵盖所有数据库,例如:Oracle、Hive、MySQL8.0、MaxComputer等。企业面试中,更是钟情分析函数问题,笔试、面试到基本跑不了。
分析函数主要分为四类:
1.聚合分析函数