BTC/HKD+1.34%
HK$ 695037
$ 89210.2

ETH/HKD+0.89%
HK$ 12759
$ 1637.67

LTC/HKD+0.23%
HK$ 623.36
$ 80.01

DOT/HKD-2.37%
HK$ 29.54
$ 3.791

ADA/HKD+1.2%
HK$ 5.01
$ 0.643

SOL/HKD+2.4%
HK$ 1102.9
$ 141.556

XRP/HKD-0.36%
HK$ 16.42
$ 2.107

DOGE/US+3.07%
HK$ 1.29
$ 0.165

以太坊交易所最好的以太坊交易所

幣安

世界排名第一的以太坊交易所

URL：https://www.binance.com

火幣

成立於2013年的以太坊交易所

URL：https://www.huobi.com

歐易OKX

成立於2014年的以太坊交易所

URL：https://www.okx.com

Cloud:董老師開講了：系列一之大數據入門

Author：

Time：1900/1/1 0:00:00

?獨立、敏捷的中美科技觀察，硅發布微信號Guifabucom

作者董飛

在硅谷，大家非常熱情地談創業談機會，我也通過自己觀察和積累，看到不少最近幾年涌現的熱門創業公司。我先給大家一個列表，這是華爾街網站全世界創業公司融資規模的一個評選，它本來標題是“十億美金俱樂部”，可以看出不到一年時間，截至今年1月17日，排名和規模已經發生很大變化。

首先，估值在十億美金的公司達到7家，而一年前都沒有；第二，第一名是中國的小米；第三，前20名中，絕大多數比如Uber、Airbnb、Dropbox、Pinterest；第四，里面也有不少相似模式成功的，比如Flipkart就是印度市場的淘寶，Uber與Airbnb都是共享經濟的范疇。

所以，大家還是可以在移動、大數據、消費級互聯網、通訊、支付及O2OApp里尋找大機會。這里面，很多公司我都曾面試和感受過他們環境，下面有機會我也會給大家一一詳細介紹。

第二，在Linkedin，每年會評選一個最有需求的創業公司名單，基本是結合Linkedin用戶訪問量和申請數做出的挖掘。下面，我列出最近3年數據，大家可以做個判別和趨勢分析。

里面還是很靠譜的，比如不少上榜名單已成功IPO，里面有很多大數據領域公司，而除了之前看到的一些互聯網項目，在一些醫療健康、智能硬件、在線教育也吸引很大注意力。

第三，看了那么多高估值公司，很多人都覺得非常瘋狂，是不是很大泡沫了，泡沫是不是要破了，這是很多人的疑問。在硅谷這個充滿夢想的地方，投資人鼓勵創業者大膽去發展同樣也助長泡沫，很多項目在幾個月時間估值就會翻2、3倍，例如在Uber、Snapchat上，我也驚訝他們的巨額融資規模和顛覆速度。

下面這張圖，就是講新事物的發展規律，這是硅谷孵化器YCombinator公開課Howtostartastartup提到的。一個新Idea加上一點點原型，就會迅速吸引眼球，然后先驅者引發潮流，在大眾爆發把泡沫吹到極致，接下來就是各種負面質疑，名聲一落千丈，而這時離Peak也許才過去幾個月。

但這東西本質沒有變，從“看山不是山”到“看山還是山”，這段重心回歸到產品上重新積累用戶，然后就到了可持續增長的健康軌道上。從Quora網站流量、Tesla股票到比特幣，你都發現它們驚人的匹配這張圖的某個節點。背后不變的是人性，舉例在牛市，大家都很容易掙錢，但只有熬過最痛苦的時代，才能體會事物發展本質和踏實的意義。

第四，未來趨勢是什么？大家都很關心。我先提最近看的一部電影《ImitationGame》，它講的是計算機邏輯奠基者艾倫圖靈艱難的一生，當年為破譯德軍密碼制作了圖靈機為二戰勝利作出卓越貢獻，挽回幾千萬人的生命，可在那個時代因為同性戀被判化學閹割，自殺結束了短暫的42歲生命。

PeckShield：7月價值約173萬美元NFT被盜，環比下降31%:8月7日消息，PeckShield監測顯示，2023年7月，價值約173萬美元NFT被盜，環比下降31%。再165分鐘內，半數被盜NFT在各大市場被拋售。最初在Blur上出售的被盜NFT占比67.3%，其次為OpenSea，占比19.63%。[2023/8/7 21:28:51]

他的一個偉大貢獻就是在人工智能的開拓，他提出圖靈測試，測試某機器是否能表現出與人等價或無法區分的智能。我們現在回到今天，人工智能已有很大進步，從專家系統到基于統計的學習，從支持向量機到神經網絡深度學習，每一步都帶領機器智能走向下一個階梯。

谷歌資深科學家吳軍博士提出當前技術發展的三個趨勢：第一，云計算和和移動互聯網，這是正在進行時；第二，機器智能，現在開始發生，但對社會的影響很多人還沒意識到；第三，大數據和機器智能結合，這是未來時，一定會發生，有公司在做，但還沒太形成規模。

他認為未來機器會控制98%的人，而現在我們就要做個選擇，怎么成為剩下的2％？李開復在2015年新年展望也提出未來五年物聯網帶來龐大創業機會。

大數據入門

接下來，我講一講大數據入門。先來做個思考，以前有個國王很闊綽也很愛排場，有天，他很高興想獎賞他的寵臣，然后說，讓他來提任何獎勵。

這個大臣給國王看下面這個棋盤，是個8＊8的方格，如果我在每個標號的格子內放米粒，第一個格子放1粒米，后面格子總是前面格子的兩倍。那么問題來了，如果我把整個棋盤放滿，需要多少米粒？

我們學過級數的話，可以快速做個演算，它的推演是1+2+4…+2^63＝2^64–1。這個數字多大很多人沒印象，反正如果真要兌現的話，這個國家肯定是破產了。

其實我把這個棋盤分成上下兩半，在上一半總共需要的米粒是2^32，這并不是個很大的數，其實前幾年計算機的32位就是那么大，但下半場就完全不一樣了，這是個平方級別的規模，我下面會給大家一個交代。現在大家也經常聽到什么手機64位處理器，并無實際意義。

我們接著看看這張曲線圖是信息時代的增長，其實工業革命前，世界人均GDP在1800年前的兩三千年里基本沒變化，而從1820年到2001年180年里，世界人均GDP從原來667美元增長到6049美元。

由此足見，工業革命帶來的收入增長的確翻天覆地。這里面發生了什么？大家可以思考一下。但人類的進步，并沒停止或者說穩步增長，在發明了電力、電腦、互聯網、移動互聯網，全球年GDP增長從萬分之5到2％，信息也是在急劇增長。根據計算，最近兩年信息量是之前30年總和，最近10年是遠超人類所有之前累計信息量之和。

Coinbase和Uniswap市值之比于7月13日達到6.2的年度高點:金色財經報道，The Block的數據儀表板顯示，Coinbase和Uniswap市值之比已大幅飆升，于7月13日達到6.2的年度高點。盡管Coinbase的股價自今年年初以來飆升了213%以上（受貝萊德出人意料地申請現貨比特幣交易所交易基金的推動），但DeFi交易所Uniswap的市值卻沒有變化。DEX的市值一直保持穩定，今年大部分時間徘徊在40億美元左右。與此同時，Coinbase的市值從年初的70億美元以上增加到周五的近250億美元。

私人投資公司WedBush在周四的一份報告中表示，將Coinbase的目標股價提高至110美元。[2023/7/16 10:57:42]

在計算機時代，有個著名摩爾定律，就是說同樣成本每隔18個月晶體管數量會翻倍，反過來，同樣數量晶體管成本會減半。這個規律已經很好匹配了最近30年的發展，并且可以衍生到很多類似領域：存儲、功耗、帶寬、像素。

而最下面這個頭像是馮諾伊曼，20世紀最重要數學家之一，在現代計算機、博弈論和核武器等諸多領域有杰出建樹的最偉大科學全才之一。他提出技術會逼近人類歷史上某種本質的奇點，在那后，全部人類行為都不可能以我們熟悉的面貌繼續存在。

這就是著名的“奇點理論”，目前會呈越來越快的指數性增長，美國未來學家RayKurzweil稱：人類能在2045年實現數字化永生，他自己也創辦奇點大學，相信隨信息技術、無線網、生物、物理等領域的指數級增長，將在2029年實現人工智能，人的壽命也將會在未來15年得到大幅延長。

我們再回到現在，地球上至今的數據量從GB、TB、PB、EB到達ZB，我們之前提出的2^64就相當于16EB的大小。

大數據有什么用？

所謂“學以致用”，大數據領域在各行業都可以應用，這里舉幾個有趣的例子。在Linkedin時，CEO提出“經濟圖譜”的概念，希望整合用戶、公司、工作機會、技能、學校和帖子變成一個復雜而有蘊含無限可能的數字化社會。

比如說找對象，有個國外極客，他抓取約會網站的數據，根據一些指標如地理、年齡、興趣，建立下面的3D模型找到真愛；又如阿里巴巴通過數據魔方，提煉出消費跟女生胸部成正比的結論。

在移動App上，今日頭條通過你的個人社會化信息，建起興趣圖譜推薦文章并隨你的使用會越來越聰明；在線教育領域：MOOC中的M就是大規模的意思；其他如互聯網金融人人貸，通過大數據積累信用，釋放一些傳統金融體系下未被滿足而又廣泛存在的巨大需求，最近也是拿到1.3億美金融資。硅谷有家Wealthfront做大數據理財，23andMe提供個人基因組的“大數據”等等。

加密借貸平臺Nexo一月份回購約990萬NEXO:2月2日消息，加密借貸平臺Nexo發布5000萬美元回購計劃的定期更新，1月6日至2月2日回購9,905,593.74枚NEXO，支出金額為7,650,341.3美元。目前該計劃已共回購53,049,948.138枚NEXO，總支出金額為42,391,859.24美元，加權平均價格為0.7991美元。[2023/2/3 11:44:17]

下面是2014年別人總結的大數據公司列表，我們大致可以分成基礎架構和應用，而底層都是會用到一些通用技術，如Hadoop、Mahout、HBase和Cassandra，我在下面也會涵蓋。

我可以舉幾個例子，在分析這塊，Cloudera、hortonworks、mapr作為Hadoop三劍客，一些運維領域，mangodb、couchbase都是nosql代表，作為服務領域AWS和GoogleBigQuery劍拔弩張，在傳統數據庫，甲骨文收購了MySQL、DB2老牌銀行專用，Teradata做了多年數據倉庫。

上面的Apps更多，比如社交消費領域的谷歌、亞馬遜、Netflix、Twitter、商業智能：SAP、GoodData，一些在廣告媒體領域：TURN、Rocketfuel，做智能運維sumologic等等。最后還有個去年的新星Databricks伴隨著Spark的浪潮震撼Hadoop的生態系統。

大數據之中國公司

對迅速成長的中國市場，大公司也意味大數據，BAT三家都是對大數據投入不惜余力，我4年前在百度時，百度就提出框計算的東東，最近兩年成立硅谷研究院，挖來AndrewNg做首席科學家，研究項目就是百度大腦，在語音、圖片識別大幅提高精確度和召回率，最近還做了個無人自行車非常有趣。

騰訊作為最大社交應用對大數據也情有獨鐘，自己研發C++平臺的海量存儲系統。淘寶去年雙十一主戰場，2分鐘突破10億，交易額突破571億，背后是有很多故事，當年在百度做Pyramid有志之士，繼續在OceanBase創造神話。

而阿里云當年備受爭議，馬云也在懷疑是不是被王堅忽悠，最后經歷了雙十一洗禮證明OceanBase和阿里云的靠譜。小米的雷軍對大數據也是寄托厚望，一方面，這么多數據幾何級數增長；另一方面存儲帶寬都是巨大成本，沒價值就真破產。

大數據相關技術，最緊密的就是云計算，我列出主要是AmazonWebService和GoogleCloudPlatform，在國內還有阿里云、金山云、百度云、騰訊云、小米云、360云、七牛……每個里面都是大量技術文檔和標準，從計算到存儲，從數據庫到消息，從監控到部署管理，從虛擬網絡到CDN，把所有一切用軟件重新定義了一遍。

IoTeX核心版本1.9.0發布，將在區塊高度21,542,761激活硬分叉:12月28日消息，IoTeX核心版本1.9.0發布，這是一次硬分叉，也是今年最后一次重大升級，將在區塊高度21,542,761激活，所有節點必須升級以保持與iotex鏈同步。[2022/12/29 22:13:14]

先來講亞馬遜的云。我本人在亞馬遜云計算部門工作過，所有還是比較了解AWS，總體上成熟度很高，有大量創業公司都是基于上面開發，比如有名的Netflix、Pinterest、Coursera。

亞馬遜還是不斷創新，每年召開reInvent大會推廣新的云產品和分享成功案例，在這里面我隨便說幾個，像S3是簡單面向對象的存儲，DynamoDB是對關系型數據庫的補充，Glacier對冷數據做歸檔處理，ElasticMapReduce直接對MapReduce做打包提供計算服務，EC2就是基礎的虛擬主機，DataPipeline會提供圖形化界面直接串聯工作任務。

這邊還可以說一下Redshift，它是一種架構，是非常方便的數據倉庫解決方案，就是SQL接口，跟各個云服務無縫連接，最大特點就是快，在TB到PB級別非常好的性能，我在工作中也直接使用，它還支持不同硬件平臺，如果想速度更快，可以使用SSD的，當然支持容量就小些。

在數據庫領域，我就列出三種代表，一類是關系型數據庫管理系統，它的特點是A(Atomic)、C(consistent)、I(isolation)、D(duration)，連起來就是ACID。簡單說，就是支持事務回滾和外鍵關聯，而NoSQL是與之對應的Base，所謂Basic可用，為了擴大Scale，犧牲一些一致性和事務。而谷歌提出F1，希望解決在大規模數據同時還要做到事務強一致性。在這里面都是非常常見的NoSQL,這些公司可能你都沒聽過，但它們都是融資過億，估值都非常高，在幾個Billion以上。

我會花一些篇幅介紹Hadoop，首先看Hadoop從哪里開始的，不得不提谷歌的先進性，在10多年前，谷歌出了3篇論文論述分布式系統的做法，分別是GFS、MapReduce、BigTable，非常牛逼的系統，但沒人見過，在工業界很多人癢癢的，就想按其思想去仿作。

當時，ApacheNutchLucene作者DougCutting也是其中之一，后來他們被雅虎收購，專門成立團隊去投入做，就是Hadoop的開始和大規模發展的地方，之后隨著雅虎衰落，牛人去了Facebook、谷歌，也有成立Cloudera、Hortonworks等大數據公司，把Hadoop的實踐帶到各個硅谷公司。

而谷歌還沒停止，又出了新的三輛馬車：Pregel、Caffeine和Dremel，后來又有很多步入后塵，開始新一輪開源大戰。

轉移3000萬枚XRP至Bitstamp的“巨鯨”顯示為BitGo:金色財經報道，據Whale Alert此前披露數據顯示，今日一個匿名巨鯨將3000萬枚XRP轉移到歐洲加密貨幣交易所Bitstamp，雖然該交易發送方被標記“未知”，但據專注于XRP的追蹤平臺共享信息顯示，這筆資金來自于BitGo。另據Coingecko交易數據，XRP過去24小時下跌6.1%，已降至0.381792美元。（u.today）[2022/11/28 21:07:56]

那么為啥Hadoop就比較適合做大數據呢？首先擴展很好，直接通過加節點就可以把系統能力提高，它有個重要思想是：移動計算而不是移動數據，因為數據移動是很大的成本需要網絡帶寬。

其次，它提出的目標就是利用廉價普通計算機，這樣雖然可能不穩定，但通過系統級別上的容錯和冗余達到高可靠性。并且非常靈活，可以使用各種data，二進制、文檔型、記錄型。使用各種形式，在按需計算上也是個技巧。

另一個問題，我們提到Hadoop一般不會說某個東西，而是指生態系統，在這里面太多交互的組件了，涉及到IO、處理、應用、配置、工作流。在真正的工作中，當幾個組件互相影響，你的頭疼的維護才剛剛開始。

我也簡單說幾個：HadoopCore就三個HDFS、MapReduce、Common，在外圍有NoSQL:Cassandra、HBase，有Facebook開發的數據倉庫Hive，有雅虎主力研發的Pig工作流語言，有機器學習算法庫Mahout，工作流管理軟件Oozie，在很多分布式系統選擇Master中扮演重要角色的Zookeeper。

下面是Hortonworks提出的數據平臺，這個公司比較強勢，它有最多的HadoopCommittee成員，是真正的標準制定者，而2.0就是由它們提出。

在Hadoop1.0前，是0.16到0.19、0.20，還有一只是0.23進化成現在的2.0，應該說，現在大致都被2.0取代了，主要區別是1.0只能支持MapReduce框架、資源和數據處理限制在一起。

而2.0首先抽象出Yarn這個資源管理器，然后上層可以支持各種插件機制，便于擴展，Hortonworks還研發了Tez作為加速引擎把一些相關任務合并共享或者并行來優化。

下面這個是英特爾給出的HadoopStack，英特爾也是個對技術前沿由追求的公司，雖然它主業是處理器，但在互聯網的時代，為抓住一些軟件機會，它們也在積極融合，為生態系統做貢獻。

另外，Cloudera是老牌Hadoop公司，成立7、8年了，當年Hadoop之父就是在那做首席架構，它提出的CDH版本是很多公司的穩定Hadoop版本，一般公司也不會自己去搭Hadoop最新版，否則出了Bug會很痛苦，它提供了一個打包方便部署。

涉及技術細節甚至源代碼

下面內容涉及技術細節甚至源代碼，可能有些枯燥，我也盡量深入淺出。我們先說HDFS，所謂Hadoop的分布式文件系統，它是能真正做到高強度容錯。并且根據locality原理，對連續存儲做了優化。

簡單說，就是分配大的數據塊，每次連續讀整數個。如果讓你自己來設計分布式文件系統，在某機器掛掉還能正常訪問該怎么做？首先需要有個master作為目錄查找，那么數據節點是作為分割好一塊塊的，同一塊數據為了做備份不能放到同一個機器上，否則這臺機器掛了，你備份也同樣沒辦法找到。

HDFS用一種機架位感知的辦法，先把一份拷貝放入同機架上的機器，然后在拷貝一份到其他服務器，也許是不同數據中心的，這樣如果某個數據點壞了，就從另一個機架上調用，而同一個機架它們內網連接是非常快的，如果那個機器也壞了，只能從遠程去獲取。這是一種辦法，現在還有基于erasurecode本來是用在通信容錯領域的辦法，可以節約空間又達到容錯的目的，大家感興趣可以去查詢。

接著說MapReduce，首先是個編程范式，它的思想是對批量處理的任務，分成兩個階段，所謂的Map階段就是把數據生成key、valuepair再排序，中間有一步叫shuffle，把同樣的key運輸到同一個reducer上面去，而在reducer上，因為同樣key已經確保在同一個上，就直接可以做聚合，算出一些sum，最后把結果輸出到HDFS上。對應開發者來說，你需要做的就是編寫Map和reduce函數，像中間的排序和shuffle網絡傳輸，容錯處理，框架已經幫你做好了。但據說，谷歌內部早不用這種，又有新的強大工具出現了。

HBase就是對應的BigTable的克隆版，它是基于列的存儲，可以很好的擴展型，這里面出現了Zookeeper作為它高可靠性的來源，我們在分布式系統中經常怕SinglePointofFailure，它能保證在少于一半節點損害情況下，還是可以工作的。

這里的regionserver是說把數據的key做范圍劃分，比如regionserver1負責key從1到1w的，regionserver2負責1w到2w的，這樣劃分之后，就可以利用分布式機器的存儲和運算能力了。

雖然MapReduce強大，但編寫很麻煩，在一般工作中，大家不會直接寫MapReduce程序。有人又開動大腦，簡化開發。Hive的簡單介紹，它主要是Facebook開發，確實很容易上手，如果做datascientist，經常也要用到這個工具。

我們想MapReduce模型有什么問題？第一：需要寫很多底層的代碼不夠高效，第二：所有事情必須要轉化成兩個操作，這本身就很奇怪，也不能解決所有的情況。那么下面就看看有什么可以做的更好的。

Spark介紹

我還是介紹一些Spark的起源。BerkeleyAMPLab，發表在hotcloud是一個從學術界到工業界的成功典范，也吸引了頂級VC：AndreessenHorowitz的注資。

AMPLab這個實驗室非常厲害，做大數據、云計算，跟工業界結合很緊密，之前就是他們做mesos、hadooponline，在2013年，這些大牛從BerkeleyAMPLab出去成立了Databricks，引無數Hadoop大佬盡折腰，其實也不見得是它們內心這么想，比如Cloudera也有自家的impala，支持Spark肯定會讓它自家很難受，但如果你的客戶強烈要求你支持，你是沒有選擇的

另外起名字也很重要，Spark就占了先機，它們CTO說WhereThere’sSparkThere’sFire，它是用函數式語言Scala編寫，Spark簡單說就是內存計算框架，之前MapReduce因效率低下大家經常嘲笑，而Spark的出現讓大家很清新。Reynod作為Spark核心開發者,介紹Spark性能超Hadoop百倍，算法實現僅有其1/10或1/100。

那為啥用Spark呢？最直接就是快啊，你用Hadoop跑大規模數據幾個小時跑完，這邊才幾十秒，這種變化不僅是數量級的，并且是對你的開發方式翻天覆地的變化，比如你想驗證一個算法，你也不知道到底效果如何，但如果能在秒級就給你反饋，你可以立馬去調節。

其他的如比MapReduce靈活啊，支持迭代的算法，ad-hocquery，不需你費很多力氣花在軟件搭建上。如果說你用Hadoop組建集群、測試、部署一個簡單任務要1周時間，Spark可能只要一天。在去年的Sortbenchmark上，Spark用了23分鐘跑完100TB的排序，刷新之前Hadoop保持的世界紀錄。

下面這個圖，是Hadoop跟Spark在回歸算法上比較，在Hadoop世界里，做迭代計算是非常耗資源，它每次的IO序列畫代價很大，所以每次迭代需要差不多的等待。而Spark第一次啟動需要載入到內存，之后迭代直接在內存利用中間結果做不落地的運算，所以后期迭代速度快到可以忽略不計。

此外，Spark也是一個生態系統，除核心組建Spark，它也可以跑在Hadoop上，還提供了很多方便的庫，比如做流式計算，SparkStreaming，比如GraphX做圖的運算，MLBase做機器學習，Shark類似Hive，BinkDB也很有意思，為達到高效，它允許你提供一個誤差概率，如果你要求精確度越低，它運算速度就越快，在做一些模糊計算時像Twitter的Follower數目，可以提高效率。

所以總體說，Spark是一個非常精煉的API，提供常用的集合操作，然后本身可以獨立運行，或在HadoopYarn上面，或者Mesos，而存儲也可以用HDFS，做到了兼容并包，敏捷高效。是不是會取代Hadoop或成為Hadoop的下一代核心，我們拭目以待！

如何學習大數據

那同學們如果問如何開始學習大數據，我也有一些建議，首先還是打好基礎，Hadoop雖然火熱，但它的基礎原理，都是書本上很多年的積累，像Unix設計哲學、數據庫的原理；

其次是選擇目標，如果你想做數據科學家，我可以推薦Coursera的數據科學課程，通俗易懂，學習Hive、Pig這些基本工具；如果做應用層，主要是把Hadoop的一些工作流要熟悉，包括一些基本調優；如果是想做架構，除能搭建集群，對各基礎軟件服務很了解，還要理解計算機的瓶頸和負載管理，Linux的一些性能工具。

最后，還是要多加練習，大數據本身就是靠實踐，你可以先按API寫書上的例子，能夠先調試成功，在下面就是多積累，當遇到相似問題能找到對應的經典模式，再進一步就是實際問題，也許周邊誰也沒遇到，你需要些靈感和網上問問題的技巧，然后根據實際情況作出最佳選擇。

本文版權歸作者所有，轉載未經作者授權，任何組織、機構或個人不得對作品實施轉載。

Tags：Cloud HDFS HDF Cloud幣是什么幣 HDFS幣是什么幣HDF價格 HDF幣