コンテンツ詳細

テクノロジーと知識が絡み合う世界では、読書はすべて、知恵を与え、無限の創造性を刺激する素晴らしい冒険のようなものだ。

AIGCビッグモデル:工学と科学の二重革命の時代の到来を告げる

蓝衫云

人工知能のビッグモデルとは何か

人工知能マクロモデルは、機械学習やディープラーニングの分野において、大規模データと複雑なネットワーク構造を用いて構築される巨大なニューラルネットワークモデルである。

この開発は、単なる科学的革命ではなく、工学的革命である。.大規模言語モデルのデータ量は、ここ10年ほどの間に指数関数的に増加しており、この傾向は他のドメインの大規模モデルにも見られる。大規模モデルのデータ量が増えるにつれて、汎化可能性も質的に変化する。

実際のアプリケーションでは、パラメータサイズが大きければ大きいほど良いというわけではなく、最適なモデルサイズを決定するためには、多くの要素を考慮する必要がある。各業界に的を絞った知識強化が重要な役割を果たすだろう。テクノロジーの進化に伴い、ビッグモデル業界はモデル構築と展開の自動化プロセスを進め、業界ユーザーがAI能力を獲得する敷居を下げる方向に向かうだろう。

国内外における大型モデルの総合成績

以下の図は、SuperCLUE(中国語理解度評価ベンチマーク)の測定結果に基づいています。 SuperCLUEは、ビッグモデル時代のCLUEベンチマークを継承・発展させたもので、汎用的なビッグモデルの総合評価に焦点を当てています。

国内と海外の大型モデルのパフォーマンスには明確なギャップがあるGPT4-Turboの総得点は90.63点で、他の国内外のビッグモデルを大きく引き離している。国産最高峰の文信易韻4.0(API)の総合得点は79.02点で、GPT4-Turboとは11.61点、GPT4(web)とは4.9点の差がある。

例えば、百度の「文心易韻4.0」、AliCloudの「同義前前2.0」と「Qwen-72B-Chat」、OPPOの「AndesGPT」、清華と紫宸アル(Zhispectrum Al)の「紫宸青韻」、Byteの「ラークビッグモデル」など。JumpのLark Big Modelなどが比較的好調だった。

加えて国産オープンソースモデル、中国語で海外オープンソースモデルを上回る例えば、白川諜報のBaichuan2-13B-Chat、阿里雲のQwen-72B、Yi-34B-ChatはLlama2-13B-Chatより優れている。

図1 SuperCLUEによる中国内外の大型モデルのベンチマークスコア

大型モデルの分類

ユニバーサル・ラージ・モデル複数の自然言語タスクを扱うことができる大規模なニューラルネットワークモデルのことで、強力な言語理解・生成能力を特徴とし、テキストの分類、感情分析、質問応答システムなど、様々な自然言語タスクを扱うことができる。一般的な大規模モデルには、Googleが開発したBERT、OpenAIが開発したGPT-2、Facebookが開発したRoBERTaなどがある。

下垂体種の大規模モデルこれは、特定のドメインやタスクに最適化された大規模なニューラルネットワークモデルであり、より高い精度と効率性を特徴とし、特定のドメインのニーズによりよく適合させることができる。医療分野のBioBERT、金融分野のFinBERT、法律分野のLegalBERTなどがその例である。

図2 中国大型モデルの全景

大型モデル・サービスこれは、大規模なニューラルネットワークモデルを実際のビジネスシナリオに適用し、対応するサービスやソリューションを提供することを指し、さまざまな顧客のニーズに対応するための高度なカスタマイズ性と柔軟性が特徴である。大規模モデルのサービスには、インテリジェントな顧客サービス、インテリジェントな推薦、インテリジェントなリスクコントロールなどが含まれる。

図3 ビッグモデルのアーキテクチャ図

ビッグモデルによる産業効率の革命

ビッグモデルが産業効率に革命を起こす..ディープラーニングと大規模データでのトレーニングにより、大規模モデルは、マルチモーダル、生成的、解釈可能、会話的なインテリジェントなインタラクションを可能にする。

より具体的なドメインやシナリオをターゲットとする場合、ナレッジグラフ、転移学習、連合学習などのテクノロジーを組み合わせることで、異なる垂直ドメインの専門知識を効率的に組み合わせ、ドメインの専門知識とビジネスロジックを備えた専門的なモデルを構築することができる。.このようなモデルは、様々な産業における特定のシナリオや問題に対するインテリジェントなソリューションを提供することができ、ビッグモデルの下流アプリケーションのコストと敷居を根本的に低減し、より多くの企業や組織が効率性と革新性を向上させるためにビッグモデルの強力な機能を便利に適用できるようになります。

実体経済の強化、最適化、拡大を促進するために、ビッグモデルを主要な推進力として、デジタル経済を実体経済に深く統合する。.例えば、自動車製造、エネルギー、運輸などの産業は、ビッグモデルを通じて、インテリジェントな顧客サービス、サプライチェーン、システムスケジューリングなどの分野でイノベーションを起こし、産業のデジタルトランスフォーメーションとインテリジェント化を促進することができる。

図4 AIデータ産業マッピング

さらに、大規模なモデルは従来のAIモデルと比べて以下のような利点がある。::

  • AIの細分化と多様化の問題を解決し、モデルの一般性を向上させる。従来のAIモデルは、カスタマイズされた開発、チューニング、最適化を必要とする。従来のAIモデルは、カスタマイズされた開発、チューニング、最適化を必要とし、人的投資を増大させるが、ビッグモデルは「事前学習+微調整」アプローチを採用し、大量の情報を蓄積し、微調整を行うことで、一般的な使い勝手を大幅に向上させる。
  • トレーニングの研究開発コストを削減する自己教師あり学習機能.自己教師あり学習では、データのラベル付けの必要性が減り、ラベル付けされていない大量のデータでも十分に活用できるようになる。
  • 構造変化による制約から解放されることで、モデル精度の上限が広がる.以前は、モデルの精度を向上させるためには、主にネットワーク構造の変更に頼っていたが、構造設計技術が成熟するにつれて、これは難しくなった。データサイズが大きくなると、モデル精度の上限が上がることが示されている。

大型モデルの開発動向

2023年、AI大型モデル市場は準備期、成長期を経験し、最終的に百隻梭の発生に達し、その中で成長期の代表的なモデルは百度が文心怡をリリースし、ターボのGPT-4リリースなどの後半期の発生。

図5 2023年大型モデル開発スケジュール

中でもGPTはGPT1.0から3.5まで急速に反復している。 GPTは、GPT-1、GPT-2、GPT-3を含む大規模な教師なし言語モデルです。GPT-1は、教師なし事前学習と教師あり微調整を利用し、良好な汎化能力を持っていますが、GPT-2は、汎化能力を向上させるためにマルチタスクモードを採用しており、モデルの容量とデータ量が大きいほど、潜在能力が高いことが検証されています。GPT3.5は人間フィードバック強化学習を導入し、その変種であるcode-davinci-002を微調整してChatGPTを生み出した。

図6 大規模モデル開発の反復図

人工知能の大規模モデル市場の急速な拡大がトレンドとなっており、2020年以降、大規模な事前学習済みモデルが自然言語処理、コンピュータビジョン、音声認識、レコメンダーシステムなどの分野で優れた性能を実証し、業界で広く注目されるきっかけとなっている。

一方、政府の支援と投資、技術企業の振興により、人材の育成と導入が強化され、中国のビッグモデル産業の発展が促進された。さらなる技術の躍進と革新により、中国はビッグモデル分野でより多くの成果を上げ、世界の先進国とともにAIビッグモデルの開発と応用を推進することが期待される。

詳しくは

ChatGPTの代わりになるツールは?

AIで農業の産業化を促進する|AIが農業生産の品質と効率を向上させる方法

AI+ヘルスケアのビッグモデル|国内医療におけるAIGCの未来を探る

最適なai描画ツールは何ですか?

gpts衝撃のデビュー:エリート集結、無数の知性をあなたのバックボーンに

検索

のカテゴリーに分類される。

ニュースレター

広告スペース

AIのスーパーマジックを一緒に目撃しよう!

AIアシスタントを活用し、ワンクリックで生産性を向上させましょう!