大数据时代:大数据是什么?

如题所述

大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。通过大量的统计了解大家的喜好,想要的东西,从而得到他们想要的,比如精准营销,征信分析,消费分析等等

温馨提示:内容为网友见解,仅供参考
第1个回答  2013-11-03
大数据是什么?是一种运营模式,是一种能力,还是一种技术,或是一种数据集合的统称?今天我们所说的“大数据”和过去传统意义上的“数据”的区别又在哪里?大数据的来源又有哪些?等等。当然,我不是专家学者,我无法给出一个权威的,让所有人信服的定义,以下所谈只是我根据自己的理解进行小结归纳,只求表达出我个人的理解,并不求全面权威。先从“大数据”与“数据”的区别说起吧,过去我们说的“数据”很大程度上是指“数字”,如我们所说的客户量,业务量,营业收入额,利润额等等,都是一个个数字或者是可以进行编码的简单文本,这些数据分析起来相对简单,过去传统的数据解决方案(如数据库或商业智能技术)就能轻松应对;而今天我们所说的“大数据”则不单纯指“数字”,可能还包括“文本,图片,音频,视频……”等多种格式,其涵括的内容十分丰富,如我们的博客,微博,轻博客,我们的音频视频分享,我们的通话录音,我们位置信息,我们的点评信息,我们的交易信息,互动信息等等,包罗万象。用正规的语句来概括就是,“数据”是结构化的,而“大数据”则包括了“结构化数据”“半结构化数据”和“非结构化数据”。关于“结构化”“半结构化”“非结构化”可能从字面上比较难理解,在此我试着用我的语言看能否形象点地表达出来:由于数据是结构化的,数据分析可以遵循一定现有规律的,如通过简单的线性相关,数据分析可以大致预测下个月的营业收入额;而大数据是半结构化和非结构化的,其在分析过程中遵循的规律则是未知的,它通过综合方方面面的信息进行模拟,它以分析形式评估证据,假设应答结果,并计算每种可能性的可信度,通过大数据分析我们可以准确找到下一个市场热点。 基于此,或许我们可以给“大数据”这样一个定义,“大数据”指的是收集和分析大量信息的能力,而这些信息涉及到人类生活的方方面面,目的在于从复杂的数据里找到过去不容易昭示的规律。相比“数据”,“大数据”有两个明显的特征:第一,上文已经提到,数据的属性是包括结构化、非结构化和半结构化数据;第二,数据之间频繁产生交互,大规模进行数据分析,并实时与业务结合进行数据挖掘。解决了大数据是什么,接下来还有一个问题,大数据的来源有哪些?或者这个问题这样来表达会更清晰“大数据的数据来源有哪些?”对于企业而言,大数据的数据来源主要有两部分,一部分来自于企业内部自身的信息系统中产生的运营数据,这些数据大多是标准化、结构化的。(若继续细化,企业内部信息系统又可分两类,一类是“基干类系统”,用来提高人事、财会处理、接发订单等日常业务的效率;另一类是“信息类系统”,用于支持经营战略、开展市场分析、开拓客户等。)传统的商业智能系统中所用到的数据基本上数据该部分。而另外一部分则来自于外部,包括广泛存在于社交网络、物联网、电子商务等之中的非结构化数据。这些非结构化数据由源于 Facebook、Twitter、LinkedIn 及其它来源的社交媒体数据构成,其产生往往伴随着社交网络、移动计算和传感器等新的渠道和技术的不断涌现和应用。具体包括了:如,呼叫详细记录、设备和传感器信息、GPS 和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web 文本和点击流数据、科学信息、电子邮件等等。由于来源不同,类型不同的数据透视的是同一个事物的不同的方面,以消费客户为例,消费记录信息能透视客户的消费能力,消费频率,消费兴趣点等,渠道信息能透视客户的渠道偏好,消费支付信息能透视客户的支付渠道情况,还有很多,如,客户会否在社交网站上分享消费情况,消费前后有否在搜索引擎上搜索过相关的关键词等等,这些信息(或说数据)从不同的方面表达了客户的消费过程的方方面面。因此,一般来说,企业用以分析的数据来源越广越全面,其分析的结果就越立体,越接近于真实。因此,大数据分析意味着企业能够从不同来源的数据中获取新的洞察力,并将其与企业业务体系的各个细节相融合,以助力企业在创新或者市场拓展上有所突破。针对“数据量”这个话题,亚马逊CTO Vogels曾经说过,“在运用大数据时,你会发现数据越大,结果越好。为什么有的企业在商业上不断犯错?那是因为他们没有足够的数据对运营和决策提供支持。一旦进入大数据的世界,企业的手中将握有无限可能。”可以预料,在不远的未来,企业如何通过抓住用户获取源源不断的数据资产将会是一个新的兵家必争之地。在这个层面上,Facebook、Twitter、Google、Amazon,包括电信运营商等领先企业具有无可比拟的优势。在大数据的领域里是否数据量越大越好?很多时候我们写文章,并不是想要去重复某一个众所周知的事实,而更多的是想从另外一个角度试图去质疑那些已成事实的事实,并不是想要去推翻,而只是去看这个事实是否存在另外的可能性,虽然很多时候我的那些质疑会漏洞百出,并显得幼稚可笑,但我觉得一个事物的健康发展需要不同的声音,而这正是我们写文章的意义所在。所以,我现在问题是,在大数据的领域里是否数据量越大越好?对于这个问题,我觉得应该分两个层面来看,第一个层面是,对大数据这个整体而言,数据肯定是越大越好的,多元的数据能让不同行业,不同组织都可以从大数据中寻找到解决问题的方法,也是基于此,现在越来越多的企业组织通过不同的终端、应用或者其他手段去疯狂地收集多元的数据,大数据让人们能有足够的能力和视野将地球(包括地球上的一切)作为一个整体去看待,这是在从前无法想象的。第二个层面是,对于大数据的具体应用而言,数据量是否越大越好,我却有不同的看法。我的理解是,在大数据的实际应用中你用以分析的数据量越大,你能得到的东西就越多,而至于得到的那些东西是否是你所需要的,或者对你是否有价值的,没有人能保证。就如同树林里有100条路,每条路上都有一些你觉得有意思的东西,如果你有足够的时间,你可以走遍这100条路,收获很多有意思的小东西,但不是每一条路都会让你得到真正有价值的东西。经常做数据分析的朋友应该会有同感,在分析的过程中你会发现不同的数据通过不同的组合导入不同的分析模型会得到很多不同的结果,有时候会有一些很新鲜的结果被发现,这会让你很惊喜,但大部分这些新鲜的结果最后只会出现在你的微博里,而不会出现在正式的分析报告中,因为分析报告是为解决某一具体问题而存在的,旁枝末节太多会显得臃肿且容易混淆。所以,我认为,在大数据的具体应用面前,我们先要做的是把“大数据”这个概念忘掉,我们必须弄清楚到底想从大数据中得到什么,然后带着目的去收集有用的数据,输入至分析模型中,直接导向我们想要的结果。否则你将花费大量时间、资源成本去获取数据,分析数据。我们需要大数据应用是能够帮助解决问题的行为洞察,而不是试图研究每一条能够得到的信息。不得不说,大数据的世界太魔幻了,里面的诱惑很多,如果你不是带着明确的目标去应用,你很有可能被陷入在五光十色的诱惑中无法自拔。即使你走进了一座金山,最后你能带走的最多也只是你能提动的一小口袋。另外,这同时也揭示,为了避免应用者困在“大数据的金山”,大数据必须往下细化,针对不同行业不同领域的特定问题制定不同的解决工具,未来大数据将会遵循消费化模式,核心基础设施将作为服务或应用程序来提供。本回答被提问者采纳
第2个回答  推荐于2017-10-15
大数据(big data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。大数据的4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。

对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
根据维基百科的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
第3个回答  2019-09-09
数据是什么?百度百科里说:数据是指对客观事件进行记录并可以鉴别的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或这些物理符号的组合。它是可识别的、抽象的符号。
大家会发现:数据具有抽象的、可识别的这两个最基本的特征。那么大数据呢?
首先想象一下:旧石器时代的原始人类。对于他们,山洞的一副壁画就足以记录他们现存的知识库,那壁画就是那个时期的大数据;接着来到前朝历史,记录的数据多了,竹签慢慢发展到纸张,成为承载数据的媒介,一堆纸,一房间的书券成为了大数据;再看当今这个社会,数据已经巨量到我们要用庞大的计算机群去存储。所以说大数据其本身是一个相对的、抽象的的概念。为了描述这层抽象,学者们做了一个5个v的诠释,这5个v分别是:Volume 数据量大,Variety 种类和来源多样化,Value 数据价值密度较低,Velocity 数据增长速度快,Veracity 数据的准确性和可信赖度,前三个v是基础,后面两个是逐渐延伸扩展出来的。对于这5个v已经有很多文章去详细解释了,有兴趣的话,大家可以自行搜索。
为了更容易去理解什么是大数据,我这里想引用一下这个暑期档关于高考题材的电视剧《小欢喜》中的一个片段,黄磊正在苦口婆心的和海清解释小凡 - 他们的儿子被老师蹲班原因。黄磊:”如果说参加高考的话,你就是一稳定的分母,考上了,你就是分子,这个升学率就上去了,如果没考上,你就是一坏分子,那你还不就蹲班呢“,海清:”这还没正式开学呢,学校怎么知道一凡就当不了这分子呢“,黄磊:”大数据呀,他根据你高一高二历次考试的这些东西,他就判断一下,你到底是一个什么级别的,如果你是一个好分子,肯定让你考,但如果你是个坏分子的话,分母都不让你当。“剧中,黄磊一针见血的谈到了大数据意味着什么,代表着现如今大部分观众已经普遍能够开始接受这个词。
其实纵观当今的社会,大数据已然无处不在。这里随便举些家喻户晓的应用场景:豆瓣的电影评分,大众点评的美食推荐,抖音视频的自动推送,淘宝的广告推送,世界杯各个国家的赔率计算。大数据影响着我们的决策,影响着生活的所见所闻。
有研究指出,随着数字化社会的推进,人类平均每天生成2.2EB(23亿GB)的数据,全球数据总量中有90%是过去24个月创建的,这充分说明海量的数据在当下已经不可避免地成为个人和企业的一项重要资产。如何利用好这些数据,并且深度发掘其中潜在的价值,是很多企业提高核心竞争力的一项重要手段,在一些数据驱动型的企业中甚至起到了决定性的作用。
微策略为什么会被众多世界500强企业所青睐呢?它的其中一个优势在于它支持连接到一百多个企业数据库和其他信息资产,而且每个季度都在不停的引入新的数据源并提供不间断对数据源新版本的支持。包括传统的数据库MS SQL Server, Oracle, DB2, Teradata 和大数据源,Spark, Impala, Hive等等。当数据源的推陈出新可能带来用户选择性的困扰,微策略提供各项功能性能指标的白皮书从纵向、横向剖析各个数据源与微策略集成的优势劣势,以提供给广大企业和用户参考。
数据像空气一样围绕着我们的生活。我们可以预见,未来不仅是企业决策要由数据驱动,数据分析师、数据科学家将成为最热门的新兴需求职位之一。
第4个回答  2014-12-18
大数据就是互联网发展到现今阶段的一种表象或特征而已,没有必要神话它或对它保持敬畏之心,在以云计算为代表的技术创新大幕的衬托下,这些原本很难收集和使用的数据开始容易被利用起来了,通过各行各业的不断创新,大数据会逐步为人类创造更多的价值。对于公司决策发展这块,我们都用FineBI去解决的,非常好!
相似回答