<tbody id="3ylgf"><pre id="3ylgf"></pre></tbody>

  • <rp id="3ylgf"><ruby id="3ylgf"><u id="3ylgf"></u></ruby></rp>

  • <rp id="3ylgf"></rp>

    中國數據存儲服務平臺

    鄭緯民院士出席數據與存儲峰會:實現數據與存儲系統從“0”到“1”的創新

    2021年11月23日,由百易傳媒(DoIT)主辦,中國計算機學會信息存儲專委會、中國計算機行業協會信息存儲與安全專委會、華中科技大學武漢光電國家實驗室、固態技術協會(JEDEC ) 等機構支持,主題為“數據覺醒”的“2021中國數據與存儲峰會”召開。

    這是中國數據與存儲峰會連續16年在北京成功舉辦后,首次在線上舉行。峰會為期三天,著名院士、專家教授和領導廠商、行業用戶發表主題演講,首日吸引產業界專業人士10萬人次觀看、互動。

    中國工程院院士、清華大學計算機科學與技術系教授鄭緯民應邀為峰會發表致辭,介紹了存儲技術應用現狀、發展趨勢以及清華大學創新的成就。以下內容根據速記整理,未經本人審定。

    中國工程院院士、清華大學計算機科學與技術系教授鄭緯民

    尊敬的各位領導,各位專家、朋友們,大家好,我是清華大學鄭緯民,非常高興來參加“2021中國數據與存儲峰會”。

    大數據誕生以來,各種各樣的數據越來越多,數字化、數字經濟時代,數據按照指數形式增加,這么多數據都放在存儲器里,對存儲器提出了越來越高的要求,如功能強、容量大、性能好、安全,還有很重要一點:自主可控。

    去年,習總書記跟科學家座談會上談到,要盡可能地做從0到1的創新。我一直在想,我們存儲系統,我們數字這方面能不能做從0~1的創新?

    我想應該是可以的。下面舉兩個例子來說說這件事。

    第一個,我們做了一個大容量、高可靠、自維護的存儲系統。大家都都知道,硬盤它有一定的出錯率,也有可能要壞掉,但是硬盤壞了以后呢,如何挽救其中存儲的數據不要丟,現在常用的兩種辦法。

    一是把文件往磁盤寫的時候,寫三份在不同盤里,因此,有一份壞了,還有兩份是好的,我們說多備份技術。它的缺點是要多買200%的硬盤。

    還有一個常用辦法呢,就磁盤陣列,如RAID 5,RAID 6。

    以RAID 5為例,一個文件來了后記在五塊磁盤里,其中四塊記數據,還一塊記校驗碼,一塊盤壞了以后呢,能把數據恢復出來。

    但是有兩個不好的地方。一是磁盤壞了,得趕快把這個壞盤拔出來,換一塊新盤,如果忘了,有可能第二塊盤故障后那就數據全丟了。

    第二個呢,新盤存進去以后要做數據的恢復,這個過程非常慢。

    針對兩種常用辦法,我們基于糾刪碼的高可靠采取了新的對策。

    舉個簡單例子。

    一個文件來了,我把它分成32段,每段放在一個磁盤里頭,往磁盤寫的時候呢同時做運算,把糾刪碼算出來記到16塊硬盤里頭,最后32塊是實際的真正的數據,還有16塊是糾刪碼,一共48個盤,這個系統允許小于等于16塊盤壞的情況下自動把數據呢恢復出來。我們就是基于這個原理做了一個存儲器,一個高可靠、自維護的一個存儲器。

    什么意思呢?就是說,這個系統大概是一個大冰箱這么大,42U的里邊192塊硬盤,我們要在生命周期內,就是五年,或者六年或者七年,這個系統可能要淘汰了,磁盤本身是有可能要出錯的,但是里面存的數據肯定不會丟,我們覺得高可靠又大容量(大概1.5個PB),又做到了自維護,數據不會丟。

    我們采取兩個辦法實現上述目標。

    一是把計算的方程盡可能簡單,那計算量就小了,另外一個,真正算的時候,我們把多核的、并行的、分布的、流水的手段都把它采用上。

    第二個例子。

    我們最近做了一個分布式文件系統,是為鵬城實驗室“鵬城云腦”這臺機器做的,參加“世界IO 500比賽”的時候,去年6月我們得到冠軍,去年11月份我們也是冠軍,今年11月又得到冠軍,連續三次得到冠軍,而且,我們第一名的成績比第二名要快很多很多。

    你可能要問了,你的文件系統有什么最大的特點?大概有三個關鍵技術。

    第一個,過去的文件系統有很多元數據,元數據服務器只有一臺,或者兩臺,因此要成為瓶頸了。我們取消所有的服務器,既是存數據又存元數據,因此這么多機器都是元數據服務器了,瓶頸就沒有了。

    第二個呢,過去大家用的分布式文件系統呢就調用操作系統,一調用,要進到內部去了,要進保護現場,因此開銷比較大,我們這一次就不調用操作系統,因此性能有很大的提高。

    第三個,我們說有Cache,Cache的好處是下一次訪問的時候不要再到硬盤去取數據,但是它的問題是要做一致性,因此開銷很大,我們這次取消Cache,直接做。

    這三個關鍵技術使得我們分布的文件系統性能非常高,我相信,可能最近一兩年我們一直會是冠軍。

    因此我在想,我們在數據跟存儲系統方面,我們能夠做從0~1的創新工作,希望我們做數據和存儲方面的人一起努力做從0~1的工作,做到先進的系統出來。

    最后呢,再次預祝我們“2021中國數據與存儲峰會”圓滿舉行,謝謝大家!

    (根據速記整理,未經本人審定)

    未經允許不得轉載:存儲在線 » 鄭緯民院士出席數據與存儲峰會:實現數據與存儲系統從“0”到“1”的創新
    分享到: 更多 (0)