|
| 1 | +# オープンソースAIの定義 |
| 2 | +### バージョン 0.0.7.1 |
| 3 | + |
| 4 | +:information_source: 注:この文書は3つの部分から構成されている: この文書の意図を述べた前文、オープンソースAIの定義そのもの、そして法的文書を評価するためのチェックリストである。 |
| 5 | + |
| 6 | +:information_source: この文書は、[経済協力開発機構(OECD)](https://legalinstruments.oecd.org/en/instruments/OECD-LEGAL-0449)が採用したAIシステムの定義に従っている。 |
| 7 | + |
| 8 | + |
| 9 | + |
| 10 | +> AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムである。AIシステムによって、自律性や導入後の適応性のレベルは異なる。 |
| 11 | +
|
| 12 | +AIシステムの定義の詳細については、[OSIのブログ](https://blog.opensource.org/open-source-ai-establishing-a-common-ground/)をご覧ください。 |
| 13 | + |
| 14 | + |
| 15 | +# 前文 |
| 16 | + |
| 17 | +## オープンソースの人工知能(AI)が必要な理由 |
| 18 | +オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除けば、誰にでも多大な恩恵がもたらされることを実証してきた。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果もたらされるものです。その恩恵は、自律性、透明性、共同改善に集約される。 |
| 19 | + |
| 20 | +AIによるこれらの恩恵は誰もが必要としている。ユーザーが信頼性と透明性のあるAIシステムを構築し、展開できるようにするため、我々には本質的な自由が必要である。 |
| 21 | + |
| 22 | +## 範囲外の問題 |
| 23 | +オープンソースAIの定義は、倫理的で信頼でき、あるいは責任あるAIシステムを開発し、展開する方法については述べていないが、それを妨げるものではない。政府の適切な規制を含め、AIシステムの責任ある開発、展開、使用について議論する取り組みは、別の話となる。 |
| 24 | + |
| 25 | + |
| 26 | +# オープンソースAIとは何か |
| 27 | + |
| 28 | +オープンソースAIとは、以下のような自由を与える条件の下で利用できるAIシステムのことである: |
| 29 | + |
| 30 | +* **使用**:どのような目的であれ、許可を得ることなくシステムを使用すること。 |
| 31 | +* **研究**:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。 |
| 32 | +* **改変**:出力を変更することを含め、どのような目的であれシステムを改変すること。 |
| 33 | +* **共有**:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。 |
| 34 | + |
| 35 | +これらの自由を行使するための前提条件は、システムに修正を加えるための好ましい形式へのアクセス権を持っていることである。 |
| 36 | + |
| 37 | +# 機械学習システムを評価するためのチェックリスト |
| 38 | + |
| 39 | +このチェックリストは、2024年3月21日に発行された論文[「The Model Openness Framework: Promoting Completeness and Openness for Reproducibility, Transparency and Usability in AI」](https://arxiv.org/abs/2403.13784)に基づいています。 |
| 40 | + |
| 41 | +## 機械学習システムに改変を加えるための推奨される形式 |
| 42 | + |
| 43 | +機械学習のオープンソースAIに必要なコンポーネントのデフォルトのセットは以下の通りである: |
| 44 | + |
| 45 | +* **データの透明性**:システムの学習方法に関する十分に詳細な情報。これには、学習方法および技術、使用された学習用データセット、それらのデータセットの出所および範囲と特徴に関する情報などが含まれる;データがどのように取得と選択がされたか、ラベリングの手順とデータクリーニングの方法。 |
| 46 | +* **コード**:データの前処理に使用されたコード、学習と検証およびテストに使用されたコード、(使用されている場合)トークナイザーやハイパーパラメータ検索コード等のサポートライブラリ、推論コード、モデルアーキテクチャ。 |
| 47 | +* **モデル**:重みを含むモデル・パラメータ。適用可能な場合は、最終的なオプティマイザの状態だけでなく学習の重要な中間的段階も含める。 |
| 48 | + |
| 49 | + |
| 50 | +### デフォルトの必須コンポーネントの表 |
| 51 | + |
| 52 | + |
| 53 | +| 必須コンポーネント | 法的枠組み | |
| 54 | +| ------------------------| ------------------------------ | |
| 55 | +| **コード** | |
| 56 | +| - データ前処理 | OSI準拠のライセンスで利用可能 | |
| 57 | +| - 学習、検証、テスト | OSI準拠のライセンスで利用可能 | |
| 58 | +| - 推論コード | OSI準拠のライセンスで利用可能 | |
| 59 | +| - サポート用のライブラリとツール | OSI準拠のライセンスで利用可能 | |
| 60 | +| **モデル** | |
| 61 | +| - モデル・アーキテクチャ | OSI準拠のライセンスで利用可能 | |
| 62 | +| - モデル・パラメータ(重みを含む) | オープンソースの原則と互換性のある条件で利用可能 | |
| 63 | +| **データの透明性** | |
| 64 | +| - 学習の方法論と技術 | OSI準拠のライセンスで利用可能 | |
| 65 | +| - 学習データの範囲と特徴 | OSI準拠のライセンスで利用可能 | |
| 66 | +| - 学習データの出所(データの入手方法、選択方法等) | OSI準拠のライセンスで利用可能 | |
| 67 | +| - 学習データのラベリング手順(使用する場合) | OSI準拠のライセンスで利用可能 | |
| 68 | +| - 学習データのクリーニング技法 | OSI準拠のライセンスで利用可能 | |
| 69 | + |
| 70 | +以下のコンポーネントは必須ではありませんが、公開リリースに含めることを推奨します。 |
| 71 | + |
| 72 | +| オプションのコンポーネント | |
| 73 | +|----------------------| |
| 74 | +| **コード** | |
| 75 | +| - ベンチマークテストの推論に使用されるコード | |
| 76 | +| - 評価コード | |
| 77 | +| **データ** 以下を含む全てのデータセット: | |
| 78 | +| - 学習用データセット | |
| 79 | +| - テスト用データセット | |
| 80 | +| - 検証用データセット | |
| 81 | +| - ベンチマーク用データセット | |
| 82 | +| - データカード | |
| 83 | +| - 評価指標と結果 | |
| 84 | +| - その他の全データ文書 | |
| 85 | +| **モデル** 以下を含む全てのモデル要素: | |
| 86 | +| - モデル・カード | |
| 87 | +| - モデル出力のサンプル | |
| 88 | +| **その他** 以下を含むその他の作成または使用した文書やツール: | |
| 89 | +| - 研究論文 | |
| 90 | +| - 使用法の文書 | |
| 91 | +| - テクニカルレポート | |
| 92 | +| - サポートツール | |
0 commit comments