Was ist das große Modell der künstlichen Intelligenz?
Makromodelle der künstlichen Intelligenz sind riesige neuronale Netzmodelle, die unter Verwendung großer Datenmengen und komplexer Netzstrukturen im Bereich des maschinellen Lernens und des Deep Learning erstellt werden.
Diese Entwicklung ist eine technische Revolution, nicht nur eine wissenschaftliche Revolution. Die Datenmenge in großen Sprachmodellen ist in den letzten zehn Jahren exponentiell gestiegen, und dieser Trend ist auch bei großen Modellen in anderen Bereichen zu beobachten. Da die Datenmenge in großen Modellen zunimmt, wird sich auch die Verallgemeinerbarkeit qualitativ verändern.
In praktischen Anwendungen ist es nicht so, dass eine größere Parametergröße besser ist, sondern dass eine Reihe von Faktoren berücksichtigt werden müssen, um die am besten geeignete Modellgröße zu bestimmen. Gezielte Wissenserweiterung für verschiedene Branchen wird eine wichtige Rolle spielen. Mit der technologischen Entwicklung wird die Big-Model-Branche den Automatisierungsprozess für die Erstellung und den Einsatz von Modellen vorantreiben, um die Schwelle zu senken, ab der die Anwender in der Branche KI-Fähigkeiten erwerben können.
Gesamtleistung der großen Modelle im In- und Ausland
Die folgenden Zahlen basieren auf den Messungen von SuperCLUE (Chinese Language Understanding Evaluation Benchmark), einer Weiterentwicklung des CLUE-Benchmarks im Zeitalter der Big Models, die sich auf die umfassende Bewertung von generischen Big Models konzentriert.
Es besteht eine deutliche Kluft zwischen der Leistung großer Modelle im In- und AuslandDie Gesamtpunktzahl des GPT4-Turbo liegt mit 90,63 Punkten weit vor den anderen großen in- und ausländischen Modellen. Das beste inländische Modell, Wenxin Yiyin 4.0 (API), hat eine Gesamtpunktzahl von 79,02, 11,61 Punkte von GPT4-Turbo und 4,9 Punkte von GPT4 (Web) entfernt.
Es ist erwähnenswert, dass inländische große Modelle im vergangenen Jahr große Fortschritte gemacht haben, wobei 11 Modelle GPT3.5 und Gemini-Pro in Bezug auf ihre umfassenden Fähigkeiten übertroffen haben. z.B. Baidu's Wenxin Yiyin 4.0, AliCloud's Tongyi Qianqian 2.0 und Qwen-72B-Chat, OPPO's AndesGPT, Tsinghua & Zhispectrum Al's Zhispectrum Qingyin, und Byte Jump's Lark Big Model, etc. haben alle relativ gut abgeschnitten.
Darüber hinaus.Einheimische Open-Source-Modelle übertreffen ausländische Open-Source-Modelle in chinesischer SpracheDer Baichuan2-13B-Chat von Baichuan Intelligence, der Qwen-72B von Aliyun und der Yi-34B-Chat von Aliyun sind beispielsweise dem Llama2-13B-Chat überlegen.
Abb. 1 Benchmark-Ergebnisse von SuperCLUE für große Modelle in China und im Ausland
Klassifizierung von Großmodellen
Universal Großes ModellEs handelt sich um ein großes neuronales Netzwerkmodell, das mehrere natürlichsprachliche Aufgaben bewältigen kann, das sich durch leistungsstarke Sprachverstehens- und -generierungsfähigkeiten auszeichnet und eine Vielzahl von natürlichsprachlichen Aufgaben bewältigen kann, wie z. B. Textkategorisierung, Stimmungsanalyse und Frage- und Antwortsysteme. Zu den generischen großen Modellen gehören das von Google entwickelte BERT, das von OpenAI entwickelte GPT-2, das von Facebook entwickelte RoBERTa und so weiter.
Großes Modell einer HypophysenartEs handelt sich um ein großes neuronales Netzmodell, das für einen bestimmten Bereich oder eine bestimmte Aufgabe optimiert ist und sich durch höhere Genauigkeit und Effizienz auszeichnet und besser an die Bedürfnisse eines bestimmten Bereichs angepasst werden kann. Zu den entsprechenden großen Modellen gehören BioBERT im medizinischen Bereich, FinBERT im Finanzbereich, LegalBERT im juristischen Bereich usw.
Abb. 2 Panoramablick auf das große chinesische Modell
Dienstleistungen für große ModelleEr bezieht sich auf die Anwendung großer neuronaler Netzmodelle auf reale Geschäftsszenarien und die Bereitstellung entsprechender Dienste und Lösungen, die sich durch ein hohes Maß an Anpassung und Flexibilität auszeichnen, um den Bedürfnissen unterschiedlicher Kunden gerecht zu werden. Zu den Diensten mit großen Modellen gehören intelligenter Kundenservice, intelligente Empfehlungen, intelligente Risikokontrolle usw.
Abb. 3 Architekturdiagramm des großen Modells
Eine Revolution in der industriellen Effizienz, angetrieben durch große Modelle
Große Modelle werden eine Revolution der industriellen Effizienz auslösen.. Durch Deep Learning und Training auf großen Datenmengen ermöglichen große Modelle intelligente Interaktionen, die multimodal, generativ, interpretierbar und dialogfähig sind.
Wenn wir auf spezifischere Bereiche und Szenarien abzielen, können wir durch die Kombination von Technologien wie Knowledge Graph, Transfer Learning und Federated Learning das Fachwissen verschiedener vertikaler Bereiche effizient kombinieren, um ein professionelles Modell mit Fachwissen und Geschäftslogik aufzubauen.. Solche Modelle können intelligente Lösungen für spezifische Szenarien und Probleme in verschiedenen Branchen bieten, wodurch die Kosten und die Schwelle für die nachgelagerte Anwendung großer Modelle grundlegend gesenkt werden, so dass mehr Unternehmen und Organisationen die leistungsstarken Funktionen großer Modelle bequem nutzen können, um ihre Effizienz und Innovation zu verbessern.
Tiefgreifende Integration der digitalen Wirtschaft in die Realwirtschaft, mit großen Modellen als Hauptantriebskraft, um die Stärkung, Optimierung und Expansion der Realwirtschaft zu fördern. So können beispielsweise die Automobilindustrie, die Energiewirtschaft, der Verkehrssektor und andere Branchen in Bereichen wie intelligenter Kundenservice, Lieferkette, Systemplanung und anderen Bereichen mit Hilfe großer Modelle innovativ sein, um die digitale Transformation und die intelligente Verbesserung der Branche zu fördern.
Abbildung 4 Abbildung der KI-Datenindustrie
Darüber hinaus haben große Modelle gegenüber herkömmlichen KI-Modellen folgende Vorteile::
- Löst das Problem der Fragmentierung und Diversifizierung der KI und verbessert die Verallgemeinerbarkeit der ModelleHerkömmliche KI-Modelle müssen individuell entwickelt, abgestimmt und optimiert werden. Herkömmliche KI-Modelle erfordern eine individuelle Entwicklung, Abstimmung und Optimierung, was die Investitionen in Menschen erhöht, während große Modelle einen "Pre-Training + Feinabstimmung"-Ansatz verfolgen, der eine große Menge an Informationen speichert und die Feinabstimmung ermöglicht, was die allgemeine Nutzbarkeit erheblich verbessert.
- Die Fähigkeit zum selbstgesteuerten Lernen reduziert die F&E-Kosten für Schulungen. Durch selbstüberwachtes Lernen wird der Bedarf an Datenetikettierung reduziert, so dass selbst große Mengen unetikettierter Daten vollständig genutzt werden können, was die Personalkosten senkt und ein Training mit kleinen Stichproben ermöglicht.
- Die Befreiung von den durch den Strukturwandel auferlegten Beschränkungen eröffnet die oberen Grenzen der Modellgenauigkeit. In der Vergangenheit beruhte die Verbesserung der Modellgenauigkeit hauptsächlich auf Änderungen an der Netzstruktur, was jedoch mit der Weiterentwicklung der strukturellen Entwurfstechniken schwierig wurde. Es hat sich gezeigt, dass größere Datenmengen die Obergrenze der Modellgenauigkeit erhöhen können.
Entwicklungstrends bei großen Modellen
Im Jahr 2023, die AI große Modell-Markt erlebt die Vorbereitungszeit, die Wachstumsperiode und schließlich erreichte den Ausbruch von hundert Kähnen, in denen die Wachstumsperiode repräsentatives Modell hat Baidu veröffentlicht Wenxin Yiyin, die zweite Hälfte des Ausbruchs der zweiten Hälfte des Zeitraums, wie die GPT-4 Release von Turbo.
Abbildung 5 Zeitplan für die Entwicklung des Großmodells 2023
Darunter befindet sich das GPT, das sich rasch von GPT 1.0 bis 3.5 entwickelt. GPT ist ein groß angelegtes unüberwachtes Sprachmodell, zu dem GPT-1, GPT-2 und GPT-3 gehören.GPT-1 verwendet unüberwachtes Pre-Training und überwachtes Feintuning und hat eine gute Generalisierungsfähigkeit; GPT-2 verwendet jedoch einen Multitasking-Modus, um die Generalisierungsfähigkeit zu verbessern, was beweist, dass das Potenzial umso höher ist, je größer die Modellkapazität und die Datenmenge sind.GPT-3 übertrifft die traditionellen, auf massiven Parametern und Trainingsdaten basierenden GPT-3 übertrifft die traditionellen, auf massiven Parametern und Trainingsdaten basierenden Techniken und schneidet bei mehreren Aufgaben gut ab.GPT3.5 führte das Verstärkungslernen mit menschlichem Feedback ein, und seine Variante code-davinci-002 wurde feinabgestimmt, so dass ChatGPT entstand, das eine Version des auf menschlichem Feedback basierenden Verstärkungslernens zur Feinabstimmung des Modells mit Anweisungen verwendet.
Abbildung 6 Iteratives Diagramm der Entwicklung eines großen Modells
Der Markt für große Modelle der künstlichen Intelligenz wächst rasant, und seit 2020 haben große vortrainierte Modelle in Bereichen wie der Verarbeitung natürlicher Sprache, dem Computersehen, der Spracherkennung und Empfehlungssystemen eine überlegene Leistung gezeigt, was in der Branche große Aufmerksamkeit erregt.
In der Zwischenzeit haben staatliche Unterstützung und Investitionen sowie die Förderung von Technologieunternehmen die Kultivierung und Einführung von Talenten gestärkt und die Entwicklung von Chinas Big-Model-Industrie gefördert. Es wird erwartet, dass China mit weiteren technologischen Durchbrüchen und Innovationen weitere Ergebnisse im Bereich der Großmodelle erzielen und die Entwicklung und Anwendung von KI-Großmodellen gemeinsam mit führenden Ländern auf der ganzen Welt vorantreiben wird.
Weitere Informationen finden Sie unter
Welches Werkzeug im Land kann ChatGPT ausgleichen?
AI+Healthcare Big Model|Erkundung der Zukunft von AIGC im heimischen Gesundheitswesen
Welches ist das beste Werkzeug zum Zeichnen von KI?
gpts atemberaubendes debüt: elite gathering, lass unzählige intelligenzen dein rückgrat sein