不以预测为目的的大数据都是耍流氓

-回复 -浏览
楼主 2021-01-05 13:38:59
举报 只看此人 收藏本贴 楼主

龚才春说:“不以预测为目的的大数据都是耍流氓”。研究表明,世界有94%的事情是可以完全预测的。奥斯卡得奖一共是24个奖项,2013年微软预测准了19个,2014年21个,2015年预测准了20个,通过对电影上影期间大家对这个电影的评价预测系统,最后预测到奥斯卡奖每个奖项的最后得主,这就是大数据的威力。

麦肯锡给大数据的定义是大小超过常规数据库工具的数据,但什么叫常规数据库工具这是没有定义的。超过数据处理能力的数据就叫大数据吗?自然也不一定。因此,从大数据的属性上分析会更加合理。

大数据必须同时满足4V+1C这五个条件才能称之为大数据。

首先是Volume。一定要求体量特别大。有人将重庆马拉松做成了一个大数据研究,得出的结论一半是重庆人,一半是外地人,这不能称之为大数据,一共只有两万多人参加了重庆的马拉松,这个体量不够大。但林彪当年打辽沈战役的时候,用十万人攻打国民党将领廖耀湘所率的二十万人,并用这十万人包围了一个叫胡家窝棚的小村子,就把敌将最好的指挥官给抓住。就是基于林彪每次打完账之后,就会让人汇报缴获的机枪、步枪、冲锋枪、手枪等情况,那次小规模的战役之后,他发现当时缴获的手枪比例特别高,所以林彪才得出那个地方是敌对指挥所的结论。在那个年代,这就是典型的大数据应用,但20万数据到现在就不行了。也就是数据体量大小与时间有关。数据体量与当时的技术及应用场景有关系。

第二、Variety。要求数据类型多。重庆的马拉松比赛类型很简单,从这点分析也不是大数据。一个大数据任务,一定要有各种各样类型的数据在一块处理,包括文本的、音频的、视频的等格式化的或者非格式化的数据类型等等。

第三、Velocity。今天的大数据在明天就不一定是大数据,同时,数据还应该是动态的,比如中国有14亿人口的大数据,如果这个数据不适时更新,今年处理不了14亿数据,明年就有可能处理。

第四、Value。即数据价值。 Value应具有两个特性,一个是商业价值高,另外,价值密度低。大数据就是在金矿上去淘金,金矿上淘金就满足这两个条件,淘金一定有商业价值,因为黄金很贵重,此外,价值密度特别低。因为一个金矿,这个金矿也许有上万吨的金沙,但是里面也许只有几百公斤的黄金。

第五、Complex。需要足够复杂才能称之为大数据。如果脑袋拍一拍就知道,也一定不是大数据。比如淘宝说用“大数据告诉你:武汉大学男生最浪漫”,原因是武汉大学的男生经常给女性买玫瑰,这个因果关系如此简单,自然也不是大数据。





长按下方二维码添加关注,分享最有价值的农村金融新闻,获取最新国家政策、行业资讯。赶紧关注我们吧,等你哦!


我要推荐
转发到