日本の国立情報学研究所(NII)の革新的な日本語LLM: llm-jp-3-172b-instruct3
私は常にAI研究の飛躍に魅了されています、特にそれが身近に感じられるときは。国立情報学研究所(NII)がまさに素晴らしいものをリリースしました: llm-jp-3-172b-instruct3、1,720億のパラメータを持つ日本語大型言語モデルです。
そうです、あなたが読んだ通りです — このモデルはGPT-3.5を凌駕するだけでなく、AIの透明性と革新における新しい基準を設定します。
国立情報学研究所(NII)について
国立情報学研究所またはNII(日本語では国立情報学研究所)は、近年、大型言語モデル(LLM)の開発において大きく貢献してきました。以下はいくつかの主な内容です:
-
2023年5月に、NIIはLLM研究グループ(LLM-jp)を設立し、様々な研究機関や民間企業から参加者を含んでいます。
-
2023年10月に、LLM-jpグループは130億パラメータの最初のLLMを開発・リリースし、そのコーパスデータ、開発プロセス、技術文書とともに研究者に完全に公開しました。
-
NIIはより高度なモデルの開発に積極的に取り組んでいます。2024年4月時点で、GPT-3レベルに相当する1,750億パラメータのLLMを開発中で、2024年夏頃の完成を目指しています。
-
2024年4月1日に、NIIは国内LLMの開発を加速し、生成AIモデルの透明性と信頼性を確保するために大型言語モデル研究開発センター(LLMC)を設立しました。
これらの取り組みは、日本におけるLLM研究開発の進展に対するNIIのコミットメントを示しており、研究コミュニティ内でのオープン性、透明性、協力に焦点を当てています。
今回のリリースが重要な理由
何年もの間、私は日本が技術革新とコミュニティ中心の原則をバランスよく保っていることに感心してきました。このモデルで、NIIは単に技術力を誇示しているだけではなく、AIにおけるオープン性について大胆な声明を発表しています。データ、ツール、詳細なドキュメントをllm-jp-3-172bの背後に公開することで、NIIはAIの世界で標準となるべきコラボレーション精神を育んでいると、私は信じています。
これは特に重要です。なぜなら、大型言語モデルはしばしば企業の塀の中に閉じ込められているように感じられるからです。2.1兆トークンで開発され、日本語を第一に考えたアプローチで微調整されたオープンモデルを持つことは、ただ新鮮なだけでなく、力を与えてくれます。
いくつかのハイライト
-
比類なき性能
このモデルはLlama 2アーキテクチャに基づいて構築され、印象的なデータセットで訓練されています。日本語特有の「llm-jp-eval」ベンチマークでGPT-3.5よりも0.023ポイント高いスコアを獲得しました。日本語のNLPタスクに取り組んでいるなら、この精度はゲームチェンジャーです。 -
多用途なアプリケーション
私が最もワクワクするのは、潜在的なアプリケーションです。いくつかのシナリオを想像してみました:- 大規模な日本のソーシャルメディアデータセットでの感情分析の実施。前例のない規模で文化的なトレンドを理解することを想像してみてください。
- 密集した法律や医療文書の要約。契約書や医療報告書の漢字の壁に直面したことがあるなら、その重要性がわかるでしょう。
- よりスマートなカスタマーサポートシステムの構築。日本の企業が文化的なニュアンスを理解し、対応するAIをどのように作るかが既に見えています。
-
共同開発
これは一研究所のショーではありません。日本の経済産業省とNEDOが支援するGENIACプロジェクトのもと、1,900人以上の研究者がこのモデルに貢献しました。これは学術界、産業界、政府が力を合わせたときに達成できることの真の証です。
私が思ってること
このモデルは、特に主流のAI開発とのわずかな断絶を常に感じてきた私たちにとって、転機のように感じます。今日私たちが使用している多くのもの—GPT、BERT、その他諸々—は日本国外から来ています。素晴らしいツールではありますが、日本語のタスクのために設計された世界クラスのモデルを見ることには何か特別な力があります。
LLMは、今私たちが知っているAIの基礎です。これはNVIDIAのJensen Huangが2024年2月に述べたように、各国が「主権AI」を必要とするという需要を追求しています。私も以前のブログ投稿でAIの領域で競争する:日本の不可欠性で、チップの製造技術を活用した自国製LLMの必要性について触れました。
それ以上に、私はNIIの透明性と信頼性への焦点が、私たち全員が注意を払うべきものだと思います。AIがしばしばブラックボックスのように感じられる時代に、モデルがどのように訓練されたか、どのデータで、何のためにということを知ることは、私たちが向かう方向に対して楽観的にさせてくれます。
このモデルがどのように進化していくのか、私は本当に興味があります。NIIのオープンなアプローチで、llm-jp-3-172bがまだ想像もしていない革新を引き起こすことも驚かないでしょう。これは日本だけでなく、AIの境界を押し広げることに情熱を持ちながらも、重要な原則に基づいているすべての人にとっての勝利です。