以现在的趋势,hadoop,spark,storm,哪个更适合未来的大数据架构,尽量详细的说明,请不要 从网上复制粘贴,谢谢
从网上还有的是学习hadoop+spark,不知道这三个究竟怎么学
我的方向是大数据架构,就单论大数据架构怎么学习最好呢
大æ°æ®æ°éåºå¤§ï¼æ ¼å¼å¤æ ·åã大éæ°æ®ç±å®¶åºãå¶é å·¥åååå ¬åºæçåç§è®¾å¤ãäºèç½äºå¡äº¤æã社交ç½ç»çæ´»å¨ãèªå¨åä¼ æå¨ã移å¨è®¾å¤ä»¥åç§ç 仪å¨ççæãå®ççç¸å¼å¢é¿å·²è¶ åºäºä¼ ç»ITåºç¡æ¶æçå¤çè½åï¼ç»ä¼ä¸å社ä¼å¸¦æ¥ä¸¥å³»çæ°æ®ç®¡çé®é¢ãå æ¤å¿ é¡»å¼åæ°çæ°æ®æ¶æï¼å´ç»âæ°æ®æ¶éãæ°æ®ç®¡çãæ°æ®åæãç¥è¯å½¢æãæºæ §è¡å¨âçå ¨è¿ç¨ï¼å¼å使ç¨è¿äºæ°æ®ï¼éæ¾åºæ´å¤æ°æ®çéèä»·å¼ã
ä¸ã大æ°æ®å»ºè®¾æè·¯
1ï¼æ°æ®çè·å¾
大æ°æ®äº§ççæ ¹æ¬åå å¨äºæç¥å¼ç³»ç»ç广æ³ä½¿ç¨ãéçææ¯çåå±ï¼äººä»¬å·²ç»æè½åå¶é æå ¶å¾®å°ç带æå¤çåè½çä¼ æå¨ï¼å¹¶å¼å§å°è¿äºè®¾å¤å¹¿æ³çå¸ç½®äºç¤¾ä¼çå个è§è½ï¼éè¿è¿äºè®¾å¤æ¥å¯¹æ´ä¸ªç¤¾ä¼çè¿è½¬è¿è¡çæ§ãè¿äºè®¾å¤ä¼æºæºä¸æç产çæ°æ°æ®ï¼è¿ç§æ°æ®ç产çæ¹å¼æ¯èªå¨çãå æ¤å¨æ°æ®æ¶éæ¹é¢ï¼è¦å¯¹æ¥èªç½ç»å æ¬ç©èç½ã社交ç½ç»åæºæä¿¡æ¯ç³»ç»çæ°æ®éä¸æ¶ç©ºæ å¿ï¼å»ä¼ªåçï¼å°½å¯è½æ¶éå¼æºçè³æ¯å¼æçæ°æ®ï¼å¿ è¦æ¶è¿å¯ä¸åå²æ°æ®å¯¹ç §ï¼å¤è§åº¦éªè¯æ°æ®çå ¨é¢æ§åå¯ä¿¡æ§ã
2ï¼æ°æ®çæ±éååå¨
äºèç½æ¯ä¸ªç¥å¥ç大ç½ï¼å¤§æ°æ®å¼åå软件å®å¶ä¹æ¯ä¸ç§æ¨¡å¼ï¼è¿éæä¾æ详ç»çæ¥ä»·ï¼å¦æä½ ççæ³åï¼å¯ä»¥æ¥è¿éï¼è¿ä¸ªææºçå¼å§æ°åæ¯ä¸å «ä¸ä¸é´çæ¯ä¸å¿é¶æåçæ¯ä¸åäºäºé¶ï¼æç §é¡ºåºç»åèµ·æ¥å°±å¯ä»¥æ¾å°ï¼ææ³è¯´çæ¯ï¼é¤éä½ æ³åæè äºè§£è¿æ¹é¢çå 容ï¼å¦æåªæ¯åçé¹çè¯ï¼å°±ä¸è¦æ¥äº
æ°æ®åªæä¸ææµå¨åå åå ±äº«ï¼ææçå½åãåºå¨åä¸ç¨æ°æ®åºå»ºè®¾çåºç¡ä¸ï¼éè¿æ°æ®éæï¼å®ç°å级å类信æ¯ç³»ç»çæ°æ®äº¤æ¢åæ°æ®å ±äº«ã æ°æ®åå¨è¦è¾¾å°ä½ææ¬ãä½è½èãé«å¯é æ§ç®æ ï¼é常è¦ç¨å°åä½é ç½®ãåå¸ååäºè®¡ç®ææ¯ï¼å¨åå¨æ¶è¦æç §ä¸å®è§å对æ°æ®è¿è¡åç±»ï¼éè¿è¿æ»¤åå»éï¼åå°åå¨éï¼åæ¶å å ¥ä¾¿äºæ¥åæ£ç´¢çæ ç¾ã
3ï¼æ°æ®ç管ç
大æ°æ®ç®¡ççææ¯ä¹å±åºä¸ç©·ãå¨ä¼å¤ææ¯ä¸ï¼æ6ç§æ°æ®ç®¡çææ¯æ®éè¢«å ³æ³¨ï¼å³åå¸å¼åå¨ä¸è®¡ç®ãå åæ°æ®åºææ¯ãåå¼æ°æ®åºææ¯ãäºæ°æ®åºãéå ³ç³»åçæ°æ®åºã移å¨æ°æ®åºææ¯ãå ¶ä¸åå¸å¼åå¨ä¸è®¡ç®åå ³æ³¨åº¦æé«ãä¸å¾æ¯ä¸ä¸ªå¾ä¹¦æ°æ®ç®¡çç³»ç»ã
4ï¼æ°æ®çåæ
æ°æ®åæå¤çï¼æäºè¡ä¸çæ°æ®æ¶åä¸ç¾ä¸ªåæ°ï¼å ¶å¤ææ§ä¸ä» ä½ç°å¨æ°æ®æ ·æ¬æ¬èº«ï¼æ´ä½ç°å¨å¤æºå¼æãå¤å®ä½åå¤ç©ºé´ä¹é´ç交äºå¨ææ§ï¼é¾ä»¥ç¨ä¼ ç»çæ¹æ³æè¿°ä¸åº¦éï¼å¤ççå¤æ度å¾å¤§ï¼éè¦å°é«ç»´å¾åçå¤åªä½æ°æ®éç»´å度éä¸å¤çï¼å©ç¨ä¸ä¸æå ³èè¿è¡è¯ä¹åæï¼ä»å¤§éå¨æèä¸å¯è½æ¯æ¨¡æ£±ä¸¤å¯çæ°æ®ä¸ç»¼åä¿¡æ¯ï¼å¹¶å¯¼åºå¯ç解çå 容ã大æ°æ®çå¤çç±»åå¾å¤ï¼ä¸»è¦çå¤ç模å¼å¯ä»¥å为æµå¤çåæ¹å¤ç两ç§ãæ¹å¤çæ¯å åå¨åå¤çï¼èæµå¤çåæ¯ç´æ¥å¤çæ°æ®ãææçä»»å¡ä¸»è¦æ¯å ³èåæãèç±»åæãåç±»ãé¢æµãæ¶åºæ¨¡å¼ååå·®åæçã
5ï¼å¤§æ°æ®çä»·å¼ï¼å³çæ¯æç³»ç»
大æ°æ®çç¥å¥ä¹å¤å°±æ¯éè¿å¯¹è¿å»åç°å¨çæ°æ®è¿è¡åæï¼å®è½å¤ç²¾ç¡®é¢æµæªæ¥ï¼éè¿å¯¹ç»ç»å é¨çåå¤é¨çæ°æ®æ´åï¼å®è½å¤æ´å¯äºç©ä¹é´çç¸å ³å ³ç³»ï¼éè¿å¯¹æµ·éæ°æ®çææï¼å®è½å¤ä»£æ¿äººèï¼æ¿æ èµ·ä¼ä¸å社ä¼ç®¡ççèè´£ã
6ï¼æ°æ®ç使ç¨
大æ°æ®æä¸å±å 涵ï¼ä¸æ¯æ°æ®é巨大ãæ¥æºå¤æ ·åç±»åå¤æ ·çæ°æ®éï¼äºæ¯æ°åçæ°æ®å¤çååæææ¯ï¼ä¸æ¯è¿ç¨æ°æ®åæå½¢æä»·å¼ã大æ°æ®å¯¹ç§å¦ç 究ãç»æµå»ºè®¾ã社ä¼åå±åæåçæ´»çå个é¢åæ£å¨äº§çé©å½æ§çå½±åã大æ°æ®åºç¨çå ³é®ï¼ä¹æ¯å ¶å¿ è¦æ¡ä»¶ï¼å°±å¨äº"IT"ä¸"ç»è¥"çèåï¼å½ç¶ï¼è¿éçç»è¥çå 涵å¯ä»¥é常广æ³ï¼å°è³ä¸ä¸ªé¶å®é¨åºçç»è¥ï¼å¤§è³ä¸ä¸ªåå¸çç»è¥ã
ããäºã大æ°æ®åºæ¬æ¶æ
åºäºä¸è¿°å¤§æ°æ®çç¹å¾ï¼éè¿ä¼ ç»ITææ¯åå¨åå¤ç大æ°æ®ææ¬é«æãä¸ä¸ªä¼ä¸è¦å¤§ååå±å¤§æ°æ®åºç¨é¦å éè¦è§£å³ä¸¤ä¸ªé®é¢ï¼ä¸æ¯ä½ææ¬ãå¿«éå°å¯¹æµ·éãå¤ç±»å«çæ°æ®è¿è¡æ½åååå¨ï¼äºæ¯ä½¿ç¨æ°çææ¯å¯¹æ°æ®è¿è¡åæåææï¼ä¸ºä¼ä¸åé ä»·å¼ãå æ¤ï¼å¤§æ°æ®çåå¨åå¤çä¸äºè®¡ç®ææ¯å¯ä¸å¯åï¼å¨å½åçææ¯æ¡ä»¶ä¸ï¼åºäºå»ä»·ç¡¬ä»¶çåå¸å¼ç³»ç»ï¼å¦Hadoopçï¼è¢«è®¤ä¸ºæ¯æéåå¤ç大æ°æ®çææ¯å¹³å°ã
Hadoopæ¯ä¸ä¸ªåå¸å¼çåºç¡æ¶æï¼è½å¤è®©ç¨æ·æ¹ä¾¿é«æå°å©ç¨è¿ç®èµæºåå¤çæµ·éæ°æ®ï¼ç®åå·²å¨å¾å¤å¤§åäºèç½ä¼ä¸å¾å°äºå¹¿æ³åºç¨ï¼å¦äºé©¬éãFacebookåYahooçãå ¶æ¯ä¸ä¸ªå¼æ¾å¼çæ¶æï¼æ¶ææåä¹å¨ä¸ææ©å å®åä¸ï¼é常æ¶æå¦å¾2æ示ï¼
Hadoopä½ç³»æ¶æ
ï¼1ï¼Hadoopæåºå±æ¯ä¸ä¸ªHDFSï¼Hadoop Distributed File Systemï¼åå¸å¼æ件系ç»ï¼ï¼åå¨å¨HDFSä¸çæ件å 被åæåï¼ç¶ååå°è¿äºåå¤å¶å°å¤ä¸ªä¸»æºä¸ï¼DataNodeï¼æ°æ®èç¹ï¼ã
ï¼2ï¼Hadoopçæ ¸å¿æ¯MapReduceï¼æ å°ååç®ç¼ç¨æ¨¡åï¼å¼æï¼Mapæ为å°å个任å¡å解为å¤ä¸ªï¼èReduceåæ为å°å解åçå¤ä»»å¡ç»ææ±æ»ï¼è¯¥å¼æç±JobTrackersï¼å·¥ä½è¿½è¸ªï¼å¯¹åºå½åèç¹ï¼åTaskTrackersï¼ä»»å¡è¿½è¸ªï¼å¯¹åºæ°æ®èç¹ï¼ç»æãå½å¤ç大æ°æ®æ¥è¯¢æ¶ï¼MapReduceä¼å°ä»»å¡å解å¨å¤ä¸ªèç¹å¤çï¼ä»èæé«äºæ°æ®å¤ççæçï¼é¿å äºåæºæ§è½ç¶é¢éå¶ã
ï¼3ï¼Hiveæ¯Hadoopæ¶æä¸çæ°æ®ä»åºï¼ä¸»è¦ç¨äºéæçç»æ以åéè¦ç»å¸¸åæçå·¥ä½ãHbase主è¦ä½ä¸ºé¢ååçæ°æ®åºè¿è¡å¨HDFSä¸ï¼å¯åå¨PB级çæ°æ®ãHbaseå©ç¨MapReduceæ¥å¤çå é¨çæµ·éæ°æ®ï¼å¹¶è½å¨æµ·éæ°æ®ä¸å®ä½æéçæ°æ®ä¸è®¿é®å®ã
ï¼4ï¼Sqoopæ¯ä¸ºæ°æ®çäºæä½æ§è设计ï¼å¯ä»¥ä»å ³ç³»æ°æ®åºå¯¼å ¥æ°æ®å°Hadoopï¼å¹¶è½ç´æ¥å¯¼å ¥å°HDFSæHiveã
ï¼5ï¼Zookeeperå¨Hadoopæ¶æä¸è´è´£åºç¨ç¨åºçåè°å·¥ä½ï¼ä»¥ä¿æHadoopé群å çåæ¥å·¥ä½ã
ï¼6ï¼Thriftæ¯ä¸ä¸ªè½¯ä»¶æ¡æ¶ï¼ç¨æ¥è¿è¡å¯æ©å±ä¸è·¨è¯è¨çæå¡çå¼åï¼æåç±Facebookå¼åï¼æ¯æ建å¨åç§ç¼ç¨è¯è¨é´æ ç¼ç»åçãé«æçæå¡ã
Hadoopæ ¸å¿è®¾è®¡
Hbaseââåå¸å¼æ°æ®åå¨ç³»ç»
Clientï¼ä½¿ç¨HBase RPCæºå¶ä¸HMasteråHRegionServerè¿è¡éä¿¡
Zookeeperï¼ååæå¡ç®¡çï¼HMasteréè¿Zookeepeå¯ä»¥éæ¶æç¥å个HRegionServerçå¥åº·ç¶åµ
HMaster: 管çç¨æ·å¯¹è¡¨çå¢å æ¹æ¥æä½
HRegionServerï¼HBaseä¸ææ ¸å¿ç模åï¼ä¸»è¦è´è´£ååºç¨æ·I/O请æ±ï¼åHDFSæ件系ç»ä¸è¯»åæ°æ®
HRegion:Hbaseä¸åå¸å¼åå¨çæå°åå ï¼å¯ä»¥ç解æä¸ä¸ªTable
HStoreï¼HBaseåå¨çæ ¸å¿ãç±MemStoreåStoreFileç»æã
HLogï¼æ¯æ¬¡ç¨æ·æä½åå ¥Memstoreçåæ¶ï¼ä¹ä¼åä¸ä»½æ°æ®å°HLogæ件
ç»åä¸è¿°Hadoopæ¶æåè½ï¼å¤§æ°æ®å¹³å°ç³»ç»åè½å»ºè®®å¦å¾æ示ï¼
åºç¨ç³»ç»ï¼å¯¹äºå¤§å¤æ°ä¼ä¸èè¨ï¼è¿è¥é¢åçåºç¨æ¯å¤§æ°æ®ææ ¸å¿çåºç¨ï¼ä¹åä¼ä¸ä¸»è¦ä½¿ç¨æ¥èªç产ç»è¥ä¸çåç§æ¥è¡¨æ°æ®ï¼ä½éç大æ°æ®æ¶ä»£çå°æ¥ï¼æ¥èªäºäºèç½ãç©èç½ãåç§ä¼ æå¨çæµ·éæ°æ®æé¢èè³ãäºæ¯ï¼ä¸äºä¼ä¸å¼å§ææåå©ç¨è¿äºæ°æ®ï¼æ¥æ¨å¨è¿è¥æççæåã
æ°æ®å¹³å°ï¼åå©å¤§æ°æ®å¹³å°ï¼æªæ¥çäºèç½ç»å°å¯ä»¥è®©å家æ´äºè§£æ¶è´¹è ç使ç¨**æ¯ï¼ä»èæ¹è¿ä½¿ç¨ä½éªãåºäºå¤§æ°æ®åºç¡ä¸çç¸åºåæï¼è½å¤æ´æé对æ§çæ¹è¿ç¨æ·ä½éªï¼åæ¶æææ°çåä¸æºä¼ã
æ°æ®æºï¼æ°æ®æºæ¯ææ°æ®åºåºç¨ç¨åºæ使ç¨çæ°æ®åºæè
æ°æ®åºæå¡å¨ã丰å¯çæ°æ®æºæ¯å¤§æ°æ®äº§ä¸åå±çåæãæ°æ®æºå¨ä¸ææå±ï¼è¶æ¥è¶å¤æ ·åãå¦ï¼æºè½æ±½è½¦å¯ä»¥æå¨æè¡é©¶è¿ç¨åææ°æ®ï¼åµå
¥å°ç产设å¤éçç©èç½å¯ä»¥æç产è¿ç¨å设å¤å¨æç¶åµåææ°æ®ã对æ°æ®æºçä¸ææå±ä¸ä»
è½å¸¦æ¥éé设å¤çåå±ï¼èä¸å¯ä»¥éè¿æ§å¶æ°çæ°æ®æºæ´å¥½å°æ§å¶æ°æ®çä»·å¼ãç¶èæå½æ°ååçæ°æ®èµæºæ»éè¿è¿ä½äºç¾æ¬§ï¼å°±å·²ææéçæ°æ®èµæºæ¥è¯´ï¼è¿åå¨æ ååãåç¡®æ§ãå®æ´æ§ä½ï¼å©ç¨ä»·å¼ä¸é«çæ
åµï¼è¿**éä½äºæ°æ®çä»·å¼ã
ä¸ã大æ°æ®çç®æ ææ
éè¿å¤§æ°æ®çå¼å ¥åé¨ç½²ï¼å¯ä»¥è¾¾å°å¦ä¸ææï¼
1ï¼æ°æ®æ´å
·ç»ä¸æ°æ®æ¨¡åï¼æ¿è½½ä¼ä¸æ°æ®æ¨¡åï¼ä¿è¿ä¼ä¸ååæ°æ®é»è¾æ¨¡åçç»ä¸ï¼
·ç»ä¸æ°æ®æ åï¼ç»ä¸å»ºç«æ åçæ°æ®ç¼ç ç®å½ï¼å®ç°ä¼ä¸æ°æ®çæ ååä¸ç»ä¸åå¨ï¼
·ç»ä¸æ°æ®è§å¾ï¼å®ç°ç»ä¸æ°æ®è§å¾ï¼ä½¿ä¼ä¸å¨å®¢æ·ã产ååèµæºçè§è§è·åå°ä¸è´çä¿¡æ¯ã
2ï¼æ°æ®è´¨é管æ§
·æ°æ®è´¨éæ ¡éªï¼æ ¹æ®è§å对æåå¨çæ°æ®è¿è¡ä¸è´æ§ãå®æ´æ§ååç¡®æ§çæ ¡éªï¼ä¿è¯æ°æ®çä¸è´æ§ãå®æ´æ§ååç¡®æ§ï¼
·æ°æ®è´¨é管æ§ï¼éè¿å»ºç«ä¼ä¸æ°æ®çè´¨éæ åãæ°æ®ç®¡æ§çç»ç»ãæ°æ®ç®¡æ§çæµç¨ï¼å¯¹æ°æ®è´¨éè¿è¡ç»ä¸ç®¡æ§ï¼ä»¥è¾¾å°æ°æ®è´¨ééæ¥å®åã
3ï¼æ°æ®å ±äº«
·æ¶é¤ç½ç¶æ¥å£ï¼å»ºç«å¤§æ°æ®å ±äº«ä¸å¿ï¼ä¸ºåä¸å¡ç³»ç»æä¾å ±äº«æ°æ®ï¼éä½æ¥å£å¤æ度ï¼æé«ç³»ç»é´æ¥å£æçä¸è´¨éï¼
·以å®æ¶æåå®æ¶çæ¹å¼å°æ´åæ计ç®å¥½çæ°æ®åå¤ç³»ç»æä¾ã
4ï¼æ°æ®åºç¨
·æ¥è¯¢åºç¨ï¼å¹³å°å®ç°æ¡ä»¶ä¸åºå®ãä¸å¯é¢è§ãæ ¼å¼çµæ´»çæéæ¥è¯¢åè½ï¼
·åºå®æ¥è¡¨åºç¨ï¼è§ç»è®¡ç»´åº¦åææ åºå®çåæç»æçå±ç¤ºï¼å¯æ ¹æ®ä¸å¡ç³»ç»çéæ±ï¼åæ产çåç§ä¸å¡æ¥è¡¨æ°æ®çï¼
·å¨æåæåºç¨ï¼æå ³å¿ç维度åææ 对æ°æ®è¿è¡ä¸»é¢æ§çåæï¼å¨æåæåºç¨ä¸ç»´åº¦åææ ä¸åºå®ã
åãæ»ç»
åºäºåå¸å¼ææ¯æ建ç大æ°æ®å¹³å°è½å¤ææéä½æ°æ®åå¨ææ¬ï¼æåæ°æ®åæå¤çæçï¼å¹¶å ·å¤æµ·éæ°æ®ãé«å¹¶ååºæ¯çæ¯æè½åï¼å¯å¤§å¹ 缩çæ°æ®æ¥è¯¢ååºæ¶é´ï¼æ»¡è¶³ä¼ä¸åä¸å±åºç¨çæ°æ®éæ±ã
个完整的大数据平台应该提供离线计算、即席查询、实时计算、实时查询这几个方面的功能。
hadoop、spark、storm 无论哪一个,单独不可能完成上面的所有功能。
hadoop+spark+hive是一个很不错的选择.hadoop的HDFS毋庸置疑是分布式文件系统的解决方案,解决存储问题;hadoop mapreduce、hive、spark application、sparkSQL解决的是离线计算和即席查询的问题;spark streaming解决的是实时计算问题;另外,还需要HBase或者Redis等NOSQL技术来解决实时查询的问题。
除了这些,大数据平台中必不可少的需要任务调度系统和数据交换工具;
任务调度系统解决所有大数据平台中的任务调度与监控;数据交换工具解决其他数据源与HDFS之间的数据传输,比如:数据库到HDFS、HDFS到数据库等等。关于大数据平台的架构技术文章,可搜索"lxw的大数据田地",里面有很多。
大数据是什么意思:
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
本回答被网友采纳