日曜日, 5月 4, 2025
ホームニューステックニュース「デジタルデータのアーカイブに対する誤解」について熟練デジタルアーキビストが語る - GIGAZINE

「デジタルデータのアーカイブに対する誤解」について熟練デジタルアーキビストが語る – GIGAZINE



「デジタルデータのアーカイブに対する誤解」について熟練デジタルアーキビストが語る - GIGAZINE


メモ


1998年からスタンフォード大学図書館の資料長期保存プロジェクトに従事しているデジタルアーキビストのデイビッド・ローゼンタール氏が、2025年3月にバークレー大学で行った講演「Archival Storage」の内容を自身のブログにまとめています。ローゼンタール氏はこの講演で、「アーカイブのデータは半永久的なメディアで保存されなくてはならないというのは誤解である」と主張しています。

DSHR’s Blog: Archival Storage
https://blog.dshr.org/2025/03/archival-storage.html


普段、ローゼンタール氏は週に一度、メールとウェブサーバーを同一ネットワーク上にあるRaspberry Piへ完全バックアップし、さらに毎日増分バックアップを行い、加えて週ごとにこれらのバックアップを2枚のDVD-Rに書き込んでいるとのこと。デスクトップPCは3台の外付けハードドライブを循環使用して毎晩完全バックアップを作成し、iPhoneは毎日MacBook Airにバックアップ。また、そのMacBook Airも3台の外付けSSDを循環使用してTime Machineバックアップを毎日実施し、DVD-Rや使用したSSD・HDDは毎週別の場所に移動させているそうです。

これらのバックアップの目的について、ローゼンタール氏は「火災やランサムウェアなどの災害が発生した時に、災害前の状態にできるだけ近い状態に復旧するためであり、最悪の場合でも1週間以上前の状態に戻ることはありません」と説明しています。

ここで重要なポイントは、「バックアップデータの有用な寿命は、災害前の最後のバックアップから復旧までの時間のみである」という点です。ローゼンタール氏は数百組のDVD-Rを保存しているそうですが、DVD-Rが書き込みから数週間後にアクセスされるのは毎年行っている「光学メディアの耐久性チェック」の時だけ。このチェックでは、特別な保存対策なしで20年以上前のCD-Rや18年近く前のDVD-Rからも正常にデータが読み出せることを確認しているとローゼンタール氏は報告しています。

ただし、ローゼンタール氏がDVD-Rでバックアップするのは、DVD-Rのメディア寿命が15年以上保持できることがわかったからではなく、DVD-Rが書き込み専用であるという特性を重視しているため。書き込み専用であることによって、バックアップデータが破壊されることはあっても変更されることはないという利点があるというわけです。


そして、ローゼンタール氏はこうしたバックアップとアーカイブは根本的に異なると主張しています。バックアップはあくまで短期間保存による保険であり、メディアの長寿命は本質的に関係ありませんが、アーカイブストレージシステムの根本的な設計目標は「増加したアクセス遅延を許容することで長期間保存のコストを削減すること」だとローゼンタール氏は強調しました。

例えば、民間組織のLong Now Foundationは「Clock of the Long Now」という1万年以上時を刻み続ける時計を建設しており、同時に1万年間保存されるアーカイブの作成も検討しています。

Amazon創設者のジェフ・ベゾスが支援する「1万年時計」はどのように実現したのか? – GIGAZINE


しかし、ローゼンタール氏は1万年という非常に長期的な保存を視野に入れている点を認めながらも、「1万年という時間スケールは、現在のデジタル保存の議論において考慮している時間枠よりも少なくとも2桁は長い」と指摘しています。プログラムを保存できるコンピューターが最初に登場したのはわずか75年ほど前のことで、デジタル技術の歴史全体が非常に短いことを考えると、「1万年という超長期的な保存は理想的かもしれませんが、技術の急速な変化、互換性の問題、媒体の劣化などの課題があり、100年という保存期間を目指すことでさえかなり野心的な取り組みです」とローゼンタール氏は指摘しています。

同様に、DNAを長期データ保存媒体としてストレージ化する研究も進んでいますが、2019年の実験では5バイトのデータの書き込みと読み取りに21時間もかかった上、運用に1万ドル(約140万円)ものコストがかかっていることを考えると、実用的なアーカイブメディアとはいえません。ローゼンタール氏は、メディアの物理的寿命よりもシステム全体の経済性が重要であり、「半永久的メディア」への過度の期待がデジタル保存の本質的課題を見誤らせると警告しています。

MicrosoftはDNAストレージをクラウドサービスに活用する計画を持っている – GIGAZINE


特にローゼンタール氏は、アーカイブストレージについて一般的に抱かれている誤解があるとして、以下の5点を指摘しています:

1:市場規模の誤解
DNAストレージをはじめとする、研究室で開発された新技術は将来的に大量のデータを長期間保存できると期待されていますが、実際にはアーカイブ専用のストレージ市場は全ストレージ市場のごく一部に過ぎません。(PDFファイル)IBMのデータによると、LTOテープですらメディア市場だと金額ベースで全体の1%未満、容量ベースで全体の5%未満しかなく、アーカイブ専用のストレージ市場の規模は非常に小さいとのこと。2023年にソニーのオプティカルディスク・アーカイブが市場規模不足で販売終了したことも、この市場規模の小ささを示しているとローゼンタール氏は論じました。

2:タイムスケールの誤解
新しいストレージ技術はすぐに市場に登場すると思われがちですが、実際にはストレージ技術の開発と市場投入には非常に長い時間がかかります。例えば、Seagateの次世代ハードディスク技術「HAMR」は研究開始から26年経過し、実際に市場へ出荷され始めたのは2025年でした。ガラスにデータを保存するシリカデータ技術は15年前から研究されており、DNAストレージは36年前から研究されていますが、どちらも市場投入まであと5年以上かかる見込みです。

3:消費者製品になるという誤解
新しいアーカイブ技術が一般消費者向け製品になると期待されることはありますが、実際はアーカイブシステム全体のコストがメディア自体よりもはるかに高く、アーカイブストレージの経済性を実現するにはデータセンター規模で運用する必要があります。消費者個人がこうした技術を採用することは経済的に非現実的で、コスト効率の良いアーカイブソリューションを一般消費者が扱えるようになることはないとローゼンタール氏は述べました。

by Stephan T. (He/Them — even if our idiot-in-chief says my gender doesn’t exist)

4:消費者の関心の誤解
一般消費者は自分のデータがどのようなメディアに保存されているかを気にしておらず、そこに気を払っているのは大手クラウド企業だけです。ユーザーはクラウドにある自分のデータが安全だと信じていますが、バックアップやアーカイブの必要性をあまり感じていません。Amazon Web SerivicesのAmazon S3 Glacier ストレージクラスのようなサービスを使用する場合でも、そのデータがどのようなメディアに保存されているかを知ることはありません。

5:データの自然劣化だけが問題という誤解
データの自然劣化が注目されがちですが、半永久的なメディアであってもデータを安全に保つための多数のコピーが必要だ、とローゼンタール氏。どんなメディアも完璧ではなく、修復不能ビットエラー率(UBER)という概念があります。例えば、一般的なディスクのUBERは10-15で、これは1ペタバイトを読み取る時に最大8回のエラーが発生する可能性があることを意味します。さらに、シリカやDNAなどの半永久的メディアでも、火災、洪水、地震、ランサムウェア、内部攻撃などの他の脅威に対しては脆弱であるということも重要。そのため、長期保存でも複数のコピーを維持する必要があり、これがコストを大幅に増加させます。

ローゼンタール氏は「LOCKSS(Lots Of Copies Keep Stuff Safe)」の基本理念、すなわち「限られた予算と現実的な脅威の範囲を考慮した場合、データは単一の高価で耐久性のあるコピーよりも、多数の安価で信頼性の低い、緩やかに結合したレプリカの方が生存率が高い」という考え方に立ち返るよう訴えています。

例えば、2014年1月に(PDFファイル)発表されたFacebookのデータストレージは約1万枚の100GB Blu-Rayディスクを収容し、1ラック当たり1ペタバイトの容量を誇ります。書き込み可能なBlue-Rayディスクは1枚当たりせいぜい100円前後なので、1ラック当たりのメディアのコストは約1万円程度。IBMのLTOテープ20本を使ったデータストレージは最低でも2万ドル(約280万円)で、LTOテープ2本の価格は約4000ドル(約65万円)ということを考えると、Facebookのアーカイブデータシステムは非常に安価といえます。また、Facebookがこのシステムをデータセンター規模で運用しながらも、通常のデータセンターよりコスト効率の良い倉庫空間を活用し、電力、冷却、スタッフなどのコストも最適化している点をローゼンタール氏は評価しました。このFacebookのアーカイブデータシステムは、「アーカイブは技術的な問題ではなく経済的な問題である」というローゼンタール氏の主張を示す一例といえます。


クラウドストレージ企業・BackBlazeの最高技術責任者であるブライアン・ウィルソン氏の「信頼性が2倍になっても、それはコスト増加の0.1%の価値しかない」という発言を引用し、「ウィルソン氏の指摘からは、『故障を想定して設計し、できるだけ安価な部品を購入するべき」という教訓が得られます」と語りました。

この記事のタイトルとURLをコピーする

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -

Most Popular