【深セン(中国)2023年10月18日PR Newswire】「締め切りに間に合うようにこのタスクを実行する必要があります。リソースのキューイング時間が長すぎます。どうすればよいでしょうか?」
「実験の締め切りは来週ですが、一部のデータが間違っていることに気づきました。シミュレーションを再度実行するには100時間以上かかります。もっと早くできるでしょうか?」
「この実験は私にとって極めて重要です。締め切りが迫っています。最初にタスクを実行できますか?」
科学研究者を悩ませているのは、分子運動、デオキシリボ核酸(DNA)組成、風洞試験、複雑なモデリングおよびシミュレーション実験だけでなく、限られたコンピューティングリソースを管理し、長いキューイング時間を調整しなければならないことです。
HPCの効率を向上させ、科学研究のコストを削減するために、北京大学のパブリックHPCプラットフォームはベンダーの評価をまとめ、期待に応えられるHPCネットワークを選択しました。ファーウェイ(Huawei、華為技術)のインテリジェント・ロスレスHPCネットワークは、その比類のないコンピューティング性能のおかげで第1位にランク付けされました。
輝かしい実績を誇るコンピューティングセンター
北京大学は1963年に最初のコンピューターを購入し、中国の大学の中で計算センター設立の先駆けとなりました。2001年にさまざまな分野の専門家を集めてCenter for Computational Science & Engineering(計算科学・工学センター)を設立しました。このセンターは、大学の教育・研究活動に貢献できる学際的な研究プラットフォームとして位置付けられています。2018年にパブリックHPCプラットフォームが公開され、3つのクラスター(Weiming No. 1、Weiming Teaching No. 1、Weiming Biological Science No. 1)が段階的に運用を開始しました。パブリックプラットフォーム上のコンピューティングコアの総数は3万1732に達し、最大コンピューティング能力は3.65 PFLOPSに達しました。このプラットフォームは、数学、力学、物理学、化学、生物学、地質学など、多くの分野にHPC環境を提供しました。
科学研究のための強固な基盤
HPCプラットフォームは、大学の科学研究の重要な支えとなります。2023年5月12日までに北京大学のHPCプラットフォームは、96の学部に分散する5070人のユーザーを獲得しました。このプラットフォームは、総額31億3600万人民元の545以上の研究プロジェクトと、1400以上の質の高い論文をサポートしてきました。また、2020年のゴードン・ベル賞の発表もサポートしました。この受賞歴のあるプロジェクトは、分子動力学のシミュレーション限界を向上させました。機械学習によって最大1億個の原子を扱えるようになりましたが、これは驚くべきことでした。これは、これまでに計算科学分野で達成された最も重要なブレークスルーの1つと考えられています。
コンピューティング需要の増大によりネットワークの再構築が急務に
プラットフォーム上のユーザー数が増加し続けるにつれて、運用負荷は徐々に上限を超えてきています。このため、ネットワークインフラストラクチャーのスループットおよび複雑さが前例のないレベルに達しています。Weiming Biological Science No. 1を例に取ります。ノード使用率は長い間95%以上を維持しています。タスクの最大実行時間は109時間、最大キューイング時間は550時間です。システムとネットワークの再構築が急務であることは明らかです。
これらの問題を解決するために、ベンダーはInfiniBand(IB)、RoCEv1、RoCEv2などのロスレスネットワークテクノロジーを使用することを提案しました。厳格なテストの結果、北京大学のパブリックHPCプラットフォームは、その比類のない性能により、最終的にファーウェイのCloudFabric 3.0ハイパーコンバージドDCNソリューションを選択しました。インテリジェント・ロスレスHPCネットワークに基づくこのソリューションは、コンピューティングパワーを100%発揮し、タスクの操作とキューイング時間を最小限に抑えることができるHPCクラスターを構築するのに最適です。
ファーウェイのインテリジェント・ロスレスHPCネットワークが北京大学の科学研究の効率向上に貢献
このテストは、HPCベンチマークテストツールのLINPACK、Community Earth System Model(CESM)、分子動力学ソフトウエアのVirtual Analogue Switching Point(VASP)など、さまざまなアプリケーションシナリオにおけるTCP/IP、IB、RoCEv2の性能に焦点を当てました。
VASPテストでは、ファーウェイのインテリジェント・ロスレスHPCネットワーク(100GE RoCEv2)がIBを上回りました。LINPACKおよびCESMテストでは、ファーウェイの100GE RoCEv2は基本的にIBと同じ性能を示しました。これら全ては、ファーウェイのインテリジェント・ロスレスHPCネットワークが実際のアプリケーションシナリオでIBを置き換えられることを証明しました。
ファーウェイのインテリジェント・ロスレスHPCネットワークソリューションは、ロスレスEthernetを独自に実現します。従来のEthernetと比較して、ロスレスEthernetは同じサーバー規模でコンピューティングパワーを2倍にすることができます。このソリューションのもう1つの注目点は、CloudEngine 16800スイッチです。この機能豊富なスイッチは、業界最高密度の768 x 400GEポートを提供し、10Eレベルの超大規模コンピューティングクラスターの構築に最適です。さらに、ファーウェイはネットワーク支援コンピューティング、つまりネットワーク内コンピューティング(INC)を実装する唯一のベンダーです。Tollyが検証したように、ファーウェイのソリューションのジョブ完了時間(JCT)はIBのソリューションより17%短いです。
北京大学のHPCプラットフォームは、中国全土をリードするスーパーコンピューティングクラスターの所有権を持っています。システム全体のLINPACK効率は常に第1位にランク付けされており、ネットワークの性能と信頼性に対して非常に高い要件が課されます。これらのテストは、ファーウェイのハイパーコンバージドDCNがいかに強力であるかを改めて証明し、スーパーコンピューティング業界からファーウェイのさらなる認知を獲得するのに役立ちます。ファーウェイのインテリジェント・ロスレスHPCネットワークは、今後も教育や科学研究などのさまざまな分野で幅広く応用され、科学コンピューティング、技術革新、ハイエンド科学研究のための強固な基盤を築くことになります。
この記事はICT Insights誌のSmart Education Issueから抜粋したものです。詳細はファーウェイの公式ウェブサイトをご覧ください。
https://e.huawei.com/en/ict-insights/global/ict_insights/ict34-intelligent-education
▽問い合わせ先 hwebgcomms@huawei.com