Linuxにおける10億ファイル問題

       

あるAnonymous Coward 曰く、

ファイルシステムが大容量に対応し、ハードディスクの容量あたりの価格が安くなるにともない、1つのパーティションに入るファイル数も増えている。しかし、Red HatのRic Wheeler氏によると、100万ファイルではしっかりと動くファイルシステムも、10億ファイルともなるとスケーラビリティの問題が発生してくるとのこと。

詳細はLinuxcon 2010での発表スライド(PDF)及びLWNの記事を参照。

大量のデータを扱いたければデータベースを使うか、複数のパーティションに分割して使え、という話があると思われるが、発表スライドでは「ファイルシステムは無料で多くの人々にとって親しみやすく分かりやすい、また複数のパーティションに分割するとユーザーによるデータの管理が面倒になり、またディスクシークの最適化が難しくなる」とし、大容量のファイルシステムの必要性が説かれている。

現在でもRAIDやJBODを使って複数台のHDDを束ねれば「単一ファイルシステム内で10億ファイルを格納できるストレージ」は構築可能だが、その場合ファイルシステムの作成や大量のファイルの作成、ファイルシステムの修復などに時間がかかるという問題があるとのこと。Linux向けの最新ファイルシステムの1つであるext4では多量のファイルを格納できるように設計・開発が進められているが、とある大容量システムでテストした結果、それでもファイルシステムの作成に4時間、10億のファイルを書き込むのに4日、ファイルシステムのチェック(fsck)に2.5時間かかったそうだ。さらにfsckで大量のメモリを要するのも問題とのことだ。

ちなみに、このような大量のファイルを含むディレクトリに対して「ls」を実行すると最悪な結果になるそうで、lsはreaddir()とstat()でディレクトリ内のファイルを取得するために毎秒数千ファイル程度の処理しかできないそうだ。そのため、10億のファイルに対してlsを実行すると実行完了まで数日かかるという。

スラッシュドットのコメントを読む | スラッシュドットにコメントを書く | Linux

スラドの記事をもっと見る

トピックス

今日の主要ニュース 国内の主要ニュース 海外の主要ニュース 芸能の主要ニュース スポーツの主要ニュース トレンドの主要ニュース おもしろの主要ニュース コラムの主要ニュース 特集・インタビューの主要ニュース

ITニュースアクセスランキング

ITランキングをもっと見る

コメントランキング

コメントランキングをもっと見る
2010年8月30日のIT記事

キーワード一覧

このカテゴリーについて

最新IT業界情報やiPhoneやAndroidやガジェット、話題のサービス、IoT情報、スタートアップにまつわるニュースをお届け中。

通知(Web Push)について

Web Pushは、エキサイトニュースを開いていない状態でも、事件事故などの速報ニュースや読まれている芸能トピックなど、関心の高い話題をお届けする機能です。 登録方法や通知を解除する方法はこちら。