â大æ°æ®âè¿å å¹´æ¥å¯è°è¬ååå±ï¼å®ä¸ä» æ¯ä¼ä¸è¶å¿ï¼ä¹æ¯ä¸ä¸ªæ¹åäºäººç±»çæ´»çææ¯åæ°ã大æ°æ®å¯¹è¡ä¸ç¨æ·çéè¦æ§ä¹æ¥ççªåºãææ¡æ°æ®èµäº§ï¼è¿è¡æºè½åå³çï¼å·²æ为ä¼ä¸è±é¢èåºçå ³é®ãå æ¤ï¼è¶æ¥è¶å¤çä¼ä¸å¼å§éè§å¤§æ°æ®æç¥å¸å±ï¼å¹¶éæ°å®ä¹èªå·±çæ ¸å¿ç«äºåã
å½å å大æ°æ®çå ¬å¸ä¾æ§å为两类ï¼ä¸ç±»æ¯ç°å¨å·²ç»æè·å大æ°æ®è½åçå ¬å¸ï¼å¦ç¾åº¦ãè ¾è®¯ãé¿éå·´å·´çäºèç½å·¨å¤´ä»¥åå为ã浪潮ãä¸å ´çå½å é¢åä¼ä¸ï¼å大æ°æ®è´åºä¸åæåè³é¢ä¸æ³è´°äºé¶ï¼æ¶µçäºæ°æ®ééï¼æ°æ®åå¨ï¼æ°æ®åæï¼æ°æ®å¯è§å以åæ°æ®å®å ¨çé¢å;å¦ä¸ç±»åæ¯ååç大æ°æ®å ¬å¸ï¼ä»ä»¬ä¾èµäºå¤§æ°æ®å·¥å ·ï¼é对å¸åºéæ±ï¼ä¸ºå¸åºå¸¦æ¥åæ°æ¹æ¡å¹¶æ¨å¨ææ¯åå±ãå ¶ä¸å¤§é¨åç大æ°æ®åºç¨è¿æ¯éè¦ç¬¬ä¸æ¹å ¬å¸æä¾æå¡ã
è¶æ¥è¶å¤çåºç¨æ¶åå°å¤§æ°æ®ï¼è¿äºå¤§æ°æ®çå±æ§ï¼å æ¬æ°éï¼é度ï¼å¤æ ·æ§ççé½æ¯åç°äºå¤§æ°æ®ä¸æå¢é¿çå¤ææ§ï¼æ以ï¼å¤§æ°æ®çåææ¹æ³å¨å¤§æ°æ®é¢åå°±æ¾å¾å°¤ä¸ºéè¦ï¼å¯ä»¥è¯´æ¯å³å®æç»ä¿¡æ¯æ¯å¦æä»·å¼çå³å®æ§å ç´ ãåºäºæ¤ï¼å¯¹å¤§æ°æ®è¿è¡åæç产åæåªäºæ¯è¾ååéçå¢?
èå¨è¿éé¢ï¼æèç¼çææå½å±Hadoopï¼Hadoopå·²è¢«å ¬è®¤ä¸ºæ¯æ°ä¸ä»£ç大æ°æ®å¤çå¹³å°ï¼EMCãIBMãInformaticaãMicrosoft以åOracleé½çº·çº·æå ¥äºHadoopçææ±ã对äºå¤§æ°æ®æ¥è¯´ï¼æéè¦çè¿æ¯å¯¹äºæ°æ®çåæï¼ä»éé¢å¯»æ¾æä»·å¼çæ°æ®å¸®å©ä¼ä¸ä½åºæ´å¥½çåä¸å³çãä¸é¢ï¼æ们就æ¥çç以ä¸å大ä¼ä¸çº§å¤§æ°æ®åæå©å¨å§ã
éçæ°æ®çç¸å¼çå¢é¿ï¼æ们æ£è¢«åç§æ°æ®å å´çãæ£ç¡®å©ç¨å¤§æ°æ®å°ç»äººä»¬å¸¦æ¥æ大ç便å©ï¼ä½ä¸æ¤åæ¶ä¹ç»ä¼ ç»çæ°æ®åæ带æ¥äºææ¯çææï¼è½ç¶æ们已ç»è¿å ¥å¤§æ°æ®æ¶ä»£ï¼ä½æ¯â大æ°æ®âææ¯è¿ä»å¤äºèµ·æ¥é¶æ®µï¼è¿ä¸æ¥å°å¼å以å®å大æ°æ®åæææ¯ä»æ§æ¯å¤§æ°æ®é¢åççç¹ã
å¨å½åçäºèç½é¢åï¼å¤§æ°æ®çåºç¨å·²ç»åå广æ³ï¼å°¤å ¶ä»¥ä¼ä¸ä¸ºä¸»ï¼ä¼ä¸æ为大æ°æ®åºç¨ç主ä½ã大æ°æ®çè½æ¹åä¼ä¸çè¿ä½æ¹å¼å?çæ¡æ¯åº¸ç½®çæ¯è¯å®çãéçä¼ä¸å¼å§å©ç¨å¤§æ°æ®ï¼æ们æ¯å¤©é½ä¼çå°å¤§æ°æ®æ°çå¥å¦çåºç¨ï¼å¸®å©äººä»¬çæ£ä»ä¸è·çã大æ°æ®çåºç¨å·²å¹¿æ³æ·±å ¥æ们çæ´»çæ¹æ¹é¢é¢ï¼æ¶µçå»çã交éãéèãæè²ãä½è²ãé¶å®çåè¡åä¸ã
å¯è§ååæ
大æ°æ®åæç使ç¨è
æ大æ°æ®åæä¸å®¶ï¼åæ¶è¿ææ®éç¨æ·ï¼ä½æ¯ä»ä»¬äºè
对äºå¤§æ°æ®åææåºæ¬çè¦æ±å°±æ¯å¯è§ååæï¼å 为å¯è§ååæè½å¤ç´è§çåç°å¤§æ°æ®ç¹ç¹ï¼åæ¶è½å¤é常容æ被读è
ææ¥åï¼å°±å¦åçå¾è¯´è¯ä¸æ ·ç®åæäºã
2. æ°æ®ææç®æ³
大æ°æ®åæççè®ºæ ¸å¿å°±æ¯æ°æ®ææç®æ³ï¼åç§æ°æ®ææçç®æ³åºäºä¸åçæ°æ®ç±»ååæ ¼å¼æè½æ´å ç§å¦çåç°åºæ°æ®æ¬èº«å
·å¤çç¹ç¹ï¼ä¹æ£æ¯å 为è¿äºè¢«å
¨ä¸çç»è®¡
å¦å®¶æå
¬è®¤çåç§ç»è®¡æ¹æ³ï¼å¯ä»¥ç§°ä¹ä¸ºççï¼æè½æ·±å
¥æ°æ®å
é¨ï¼ææåºå
¬è®¤çä»·å¼ãå¦å¤ä¸ä¸ªæ¹é¢ä¹æ¯å 为æè¿äºæ°æ®ææçç®æ³æè½æ´å¿«éçå¤ç大æ°æ®ï¼å¦
æä¸ä¸ªç®æ³å¾è±ä¸å¥½å å¹´æè½å¾åºç»è®ºï¼é£å¤§æ°æ®çä»·å¼ä¹å°±æ ä»è¯´èµ·äºã
3. é¢æµæ§åæ
大æ°æ®åææç»è¦çåºç¨é¢åä¹ä¸å°±æ¯é¢æµæ§åæï¼ä»å¤§æ°æ®ä¸ææåºç¹ç¹ï¼éè¿ç§å¦ç建ç«æ¨¡åï¼ä¹å便å¯ä»¥éè¿æ¨¡å带å
¥æ°çæ°æ®ï¼ä»èé¢æµæªæ¥çæ°æ®ã
4. è¯ä¹å¼æ
éç»æåæ°æ®çå¤å
åç»æ°æ®åæ带æ¥æ°çææï¼æ们éè¦ä¸å¥å·¥å
·ç³»ç»çå»åæï¼æç¼æ°æ®ãè¯ä¹å¼æéè¦è®¾è®¡å°æ足å¤ç人工æºè½ä»¥è¶³ä»¥ä»æ°æ®ä¸ä¸»å¨å°æåä¿¡æ¯ã
5.æ°æ®è´¨éåæ°æ®ç®¡çã 大æ°æ®åæ离ä¸å¼æ°æ®è´¨éåæ°æ®ç®¡çï¼é«è´¨éçæ°æ®åææçæ°æ®ç®¡çï¼æ 论æ¯å¨å¦æ¯ç 究è¿æ¯å¨åä¸åºç¨é¢åï¼é½è½å¤ä¿è¯åæç»æççå®åæä»·å¼ã
大æ°æ®åæçåºç¡å°±æ¯ä»¥ä¸äºä¸ªæ¹é¢ï¼å½ç¶æ´å æ·±å
¥å¤§æ°æ®åæçè¯ï¼è¿æå¾å¤å¾å¤æ´å æç¹ç¹çãæ´å æ·±å
¥çãæ´å ä¸ä¸ç大æ°æ®åææ¹æ³ã
大æ°æ®çææ¯
æ°æ®ééï¼ ETLå·¥å
·è´è´£å°åå¸çãå¼ææ°æ®æºä¸çæ°æ®å¦å
³ç³»æ°æ®ãå¹³é¢æ°æ®æ件çæ½åå°ä¸´æ¶ä¸é´å±åè¿è¡æ¸
æ´ã转æ¢ãéæï¼æåå è½½å°æ°æ®ä»åºææ°æ®éå¸ä¸ï¼æ为èæºåæå¤çãæ°æ®ææçåºç¡ã
æ°æ®ååï¼ å
³ç³»æ°æ®åºãNOSQLãSQLçã
åºç¡æ¶æï¼ äºåå¨ãåå¸å¼æ件åå¨çã
æ°æ®å¤çï¼
èªç¶è¯è¨å¤ç(NLPï¼Natural Language
Processing)æ¯ç 究人ä¸è®¡ç®æºäº¤äºçè¯è¨é®é¢çä¸é¨å¦ç§ãå¤çèªç¶è¯è¨çå
³é®æ¯è¦è®©è®¡ç®æºâç解âèªç¶è¯è¨ï¼æ以èªç¶è¯è¨å¤çåå«åèªç¶è¯è¨ç解ä¹ç§°ä¸ºè®¡ç®è¯è¨å¦ãä¸æ¹é¢å®æ¯è¯è¨ä¿¡æ¯å¤ççä¸ä¸ªåæ¯ï¼å¦ä¸æ¹é¢å®æ¯äººå·¥æºè½çæ ¸å¿è¯¾é¢ä¹ä¸ã
ç»è®¡åæï¼
å设æ£éªãæ¾èæ§æ£éªãå·®å¼åæãç¸å
³åæãTæ£éªã æ¹å·®åæ ã
å¡æ¹åæãåç¸å
³åæãè·ç¦»åæãåå½åæãç®ååå½åæãå¤å
åå½åæãéæ¥åå½ãåå½é¢æµä¸æ®å·®åæãå²åå½ãlogisticåå½åæãæ²çº¿ä¼°è®¡ã
å ååæãèç±»åæã主æååæãå ååæãå¿«éèç±»æ³ä¸èç±»æ³ãå¤å«åæã对åºåæãå¤å
对åºåæï¼æä¼å°ºåº¦åæï¼ãbootstrapææ¯ççã
æ°æ®ææï¼
åç±» ï¼Classificationï¼ã估计ï¼Estimationï¼ãé¢æµï¼Predictionï¼ãç¸å
³æ§åç»æå
³èè§åï¼Affinity
grouping or association rulesï¼ãèç±»ï¼Clusteringï¼ãæè¿°åå¯è§åãDescription and
Visualizationï¼ãå¤ææ°æ®ç±»åææ(Text, Web ,å¾å½¢å¾åï¼è§é¢ï¼é³é¢ç)
模åé¢æµ ï¼é¢æµæ¨¡åãæºå¨å¦ä¹ ã建模仿çã
ç»æåç°ï¼ äºè®¡ç®ãæ ç¾äºãå
³ç³»å¾çã
大æ°æ®çå¤ç
1. 大æ°æ®å¤çä¹ä¸ï¼éé
大æ°æ®çééæ¯æå©ç¨å¤ä¸ªæ°æ®åºæ¥æ¥æ¶åèªå®¢æ·ç«¯ï¼WebãAppæè
ä¼ æå¨å½¢å¼çï¼ç
æ°æ®ï¼å¹¶ä¸ç¨æ·å¯ä»¥éè¿è¿äºæ°æ®åºæ¥è¿è¡ç®åçæ¥è¯¢åå¤çå·¥ä½ãæ¯å¦ï¼çµåä¼ä½¿ç¨ä¼ ç»çå
³ç³»åæ°æ®åºMySQLåOracleçæ¥åå¨æ¯ä¸ç¬äºå¡æ°æ®ï¼é¤
æ¤ä¹å¤ï¼RedisåMongoDBè¿æ ·çNoSQLæ°æ®åºä¹å¸¸ç¨äºæ°æ®çééã
å¨å¤§æ°æ®çééè¿ç¨ä¸ï¼å
¶ä¸»è¦ç¹ç¹åæææ¯å¹¶åæ°é«ï¼å 为åæ¶æå¯è½ä¼ææåä¸ä¸çç¨æ·
æ¥è¿è¡è®¿é®åæä½ï¼æ¯å¦ç«è½¦ç¥¨å®ç¥¨ç½ç«åæ·å®ï¼å®ä»¬å¹¶åç访é®éå¨å³°å¼æ¶è¾¾å°ä¸ç¾ä¸ï¼æ以éè¦å¨éé端é¨ç½²å¤§éæ°æ®åºæè½æ¯æã并ä¸å¦ä½å¨è¿äºæ°æ®åºä¹é´
è¿è¡è´è½½åè¡¡ååççç¡®æ¯éè¦æ·±å
¥çæèå设计ã
2. 大æ°æ®å¤çä¹äºï¼å¯¼å
¥/é¢å¤ç
è½ç¶éé端æ¬èº«ä¼æå¾å¤æ°æ®åºï¼ä½æ¯å¦æè¦å¯¹è¿äºæµ·éæ°æ®è¿è¡ææçåæï¼è¿æ¯åºè¯¥å°è¿
äºæ¥èªå端çæ°æ®å¯¼å
¥å°ä¸ä¸ªéä¸ç大ååå¸å¼æ°æ®åºï¼æè
åå¸å¼åå¨é群ï¼å¹¶ä¸å¯ä»¥å¨å¯¼å
¥åºç¡ä¸åä¸äºç®åçæ¸
æ´åé¢å¤çå·¥ä½ãä¹æä¸äºç¨æ·ä¼å¨å¯¼å
¥æ¶ä½¿
ç¨æ¥èªTwitterçStormæ¥å¯¹æ°æ®è¿è¡æµå¼è®¡ç®ï¼æ¥æ»¡è¶³é¨åä¸å¡çå®æ¶è®¡ç®éæ±ã
导å
¥ä¸é¢å¤çè¿ç¨çç¹ç¹åææ主è¦æ¯å¯¼å
¥çæ°æ®é大ï¼æ¯ç§éç导å
¥éç»å¸¸ä¼è¾¾å°ç¾å
ï¼çè³åå
级å«ã
3. 大æ°æ®å¤çä¹ä¸ï¼ç»è®¡/åæ
ç»è®¡ä¸åæ主è¦å©ç¨åå¸å¼æ°æ®åºï¼æè
åå¸å¼è®¡ç®é群æ¥å¯¹åå¨äºå
¶å
çæµ·éæ°æ®è¿è¡æ®é
çåæååç±»æ±æ»çï¼ä»¥æ»¡è¶³å¤§å¤æ°å¸¸è§çåæéæ±ï¼å¨è¿æ¹é¢ï¼ä¸äºå®æ¶æ§éæ±ä¼ç¨å°EMCçGreenPlumãOracleçExadataï¼ä»¥ååºäº
MySQLçåå¼åå¨Infobrightçï¼èä¸äºæ¹å¤çï¼æè
åºäºåç»æåæ°æ®çéæ±å¯ä»¥ä½¿ç¨Hadoopã
ç»è®¡ä¸åæè¿é¨åç主è¦ç¹ç¹åæææ¯åææ¶åçæ°æ®é大ï¼å
¶å¯¹ç³»ç»èµæºï¼ç¹å«æ¯I/Oä¼ææ大çå ç¨ã
4. 大æ°æ®å¤çä¹åï¼ææ
ä¸åé¢ç»è®¡ååæè¿ç¨ä¸åçæ¯ï¼æ°æ®ææä¸è¬æ²¡æä»ä¹é¢å
设å®å¥½ç主é¢ï¼ä¸»è¦æ¯å¨ç°ææ°
æ®ä¸é¢è¿è¡åºäºåç§ç®æ³ç计ç®ï¼ä»èèµ·å°é¢æµï¼Predictï¼çææï¼ä»èå®ç°ä¸äºé«çº§å«æ°æ®åæçéæ±ãæ¯è¾å
¸åç®æ³æç¨äºèç±»çKmeansãç¨äº
ç»è®¡å¦ä¹ çSVMåç¨äºåç±»çNaiveBayesï¼ä¸»è¦ä½¿ç¨çå·¥å
·æHadoopçMahoutçã该è¿ç¨çç¹ç¹åææ主è¦æ¯ç¨äºææçç®æ³å¾å¤æï¼å¹¶
ä¸è®¡ç®æ¶åçæ°æ®éå计ç®éé½å¾å¤§ï¼å¸¸ç¨æ°æ®ææç®æ³é½ä»¥å线ç¨ä¸ºä¸»ã
腾讯、阿里、百度国内三大巨头公司都有大数据业务,比如腾讯大数据平台、阿里云等;
还有各种BI数据平台,能提供数据解决方案的,也能提供比较好用的数据功能,有思迈特等传统BI,有BDP商业数据平台等轻型敏捷BI;
数据可视化工具:国外有tableau等可视化软件,国内有BDP个人版、大数据魔镜等;
还有各行各业的专业数据平台,比如金融有万得等等;