I. Introdução
Recentemente.A Moonshot AI revelou oficialmente a sua última geração de macromodelos multimodais Kimi VL A3BTrata-se de um modelo leve baseado na arquitetura Mixed Expert (MoE), com um total de 16 mil parâmetros, mas apenas 2,8 mil activações para inferência. Janela de contexto extra-longa de 128Kecapacidade de raciocínio multimodal. O mais interessante é que o modelo está emAberto sob licença MITEste facto não só realça o seu avanço tecnológico, como também oferece possibilidades ilimitadas de investigação e aplicação. O presente documento debruçar-se-á sobre as principais caraterísticas do Kimi VL A3B e o seu valor potencial.
II. destaques técnicos: pequenos modelos, grandes capacidades
1. arquitetura e conceção ligeira do MoE
O Kimi VL A3B utiliza uma arquitetura Mixed Expert (MoE) que melhora significativamente a eficiência computacional, atribuindo dinamicamente tarefas a diferentes sub-redes de peritos. Apesar de um parâmetro total de 16B, apenas 2,8B é ativado durante a inferência, o que lhe permite reduzir significativamente o espaço de memória e os custos de inferência, mantendo o desempenho. Por exemplo, no MathVista Mathematical Reasoning Benchmark, o KimiVL A3B atinge uma precisão de 68,7% com 2,8B de parâmetros activos, superando o GPT-4o (68,5%) com um tamanho de parâmetro muito maior.
2. Janela de contexto de 128K, uma nova referência para o processamento de textos longos
Suportando uma janela de contexto de 128K, o Kimi VL A3B é capaz de lidar com documentos de dezenas de milhares de palavras, diálogos complexos ou tarefas interactivas de várias rondas. Esta caraterística permite-lhe destacar-se em cenários como a análise de ficheiros jurídicos, a interpretação de documentos técnicos e a criação de relatórios financeiros. Por exemplo, no teste de compreensão de documentos longos MMLongBench-Doc, o Kimi VL A3B obteve uma pontuação de 35,1%, o que está à frente de modelos semelhantes.
3. capacidades multimodais: fusão profunda de texto, imagens e vídeo
-
- Compreensão visual: O codificador visual de resolução nativa MoonViT suporta a entrada de imagens de alta resolução para analisar diagramas complexos, fórmulas matemáticas e conteúdo manuscrito sem necessidade de corte. Obteve 867 pontos no teste de referência OCRBench, alcançando o SOTA.
- Análise de vídeo: a capacidade de captar pormenores importantes de aulas em vídeo com uma hora de duração e gerar resumos estruturados.
- Raciocínio multimodal: Combinar informações de texto e imagem para resolver problemas de geometria, analisar tabelas financeiras e gerar código LaTeX ou tabelas Markdown.
- Comparação da capacidade de reconhecimento de imagem (Kimi-VL-A3B vs GPT-4o): O conteúdo da imagem é uma captura de ecrã do Cyberpunk 2077, ambos estão corretos na análise do conteúdo da imagem, sendo que o GPT-4o analisa mais rapidamente, enquanto o Kimi-VL-A3B dá uma resposta mais abrangente.
4) A licença MIT: um novo começo para o ecossistema de código aberto
- Comercialização a baixo custo: as empresas podem integrar modelos em produtos de código fechado sem pagar taxas de licenciamento adicionais.
- Colaboração da comunidade: os investigadores e programadores são livres de melhorar o modelo e de o utilizar em conjunto com outros projectos de fonte aberta, como o Hugging Face.
- Redução dos obstáculos técnicos: as PME e as empresas em fase de arranque podem explorar aplicações multimodais de IA a um custo mais baixo, promovendo a inclusão tecnológica.
5) Comparação de desempenho: ultrapassando os valores de referência do sector
avaliação comparativa | Kimi VL A3B | GPT-4o | Qwen2.5-VL-7B |
---|---|---|---|
MathVista | 68.7% | 68.5% | 65.2% |
MMLongBench-Doc | 35.1% | 32.8% | 30.5% |
ScreenSpot-Pro | 34.5% | 32.1% | 28.7% |
III. resumo
Se quiser utilizar a conta exclusiva paga oficial GPT Plus, Claude Pro, Grok Super, pode contactar a nossa equipa de profissionais (wx: abch891) se não souber como carregar a sua conta.