I. Introducción
En la era actual de rápido desarrollo de la IA, varios grandes modelos lingüísticos se repiten y actualizan constantemente. Hoy evaluaremos en profundidad cinco grandes modelos: ChatGPT o3-mini, Grok3 thinking, Claude3.7 thinking, Deepseek-r1 y Gemini-2.0-Pro, y compararemos su rendimiento en diferentes escenarios en todos los aspectos.
II. Comparación de la evaluación y el análisis en profundidad
para responder a la misma pregunta utilizando cada uno de los modelos de ShirtAI por separado.ShirtAI tiene acceso gratuito e ilimitado a las versiones completas de GPT Plus, Claude Pro, Grok Super y Deepseek, y el sitio web oficial está a un clic de distancia:www.lsshirtai.com
Título 1:Los trabajadores de una fábrica de té tienen que empaquetar cajas de té rectangulares con una longitud y anchura de 20 cm y una altura de 10 cm en cajas de cartón cuadradas con puntas de 30 cm (medidas desde el interior). ¿Cuál es el número máximo de cajas que pueden caber en una caja de cartón? ¿Cómo puede caber?
Conclusión:La respuesta es 6 casillas, gana el modelo de razonamiento claude-3.7-thinking, rápido y preciso.deepseek-r1 es el más lento pero tiene la respuesta correcta, Grok3 deepthinking y O3-mini tienen la respuesta incorrecta.
Título 2:La función $$f(x) = e^x + ax^2 - x.$$ es conocida (1) Discutir la monotonicidad de $f(x)$ cuando $a = 1$; (2) Cuando $x \geq 0$, $f(x) \geq \ frac{1}{2}x^3 + 1$, hallar el intervalo de valores de $a$.
Conclusión:Todos los modelos dan la respuesta correcta, pero el o3-mini es mejor en términos de velocidad.
Además, realizamos otras pruebas con los siguientes resultados:
escenario de prueba | ChatGPT o3-mini | El pensamiento Grok3 | Claude3.7 pensando | Búsqueda profunda-r1 | Gemini-2.0-Pro |
---|---|---|---|---|---|
Problemas matemáticos complejos (Teorema de Bayes) |
La explicación básica es clara, pero carece de profundidad y detalle, y los casos son simples | Las explicaciones son ágiles y se introducen analogías visuales intuitivas, pero se echa un poco en falta una derivación rigurosa. | El proceso de pruebas más sistemático, con explicaciones detalladas de los conceptos, casos detallados de exámenes médicos y cálculos claros. | Las derivaciones matemáticas son las más rigurosas y las fórmulas están muy bien expuestas, pero las explicaciones de los casos son relativamente académicas. | Equilibra teoría y práctica, pero no es tan bueno como Claude y Deepseek en detalles específicos |
conocimientos de codificación (Clasificación rápida) |
La funcionalidad básica se implementa correctamente, pero la eficiencia del código y la gestión de los límites son deficientes. | Algoritmo correcto, estructura del código ligeramente redundante, sugerencias prácticas de optimización. | El código es claro y fácil de leer, comentarios detallados, explicación de cada paso de la idea, el análisis de complejidad es exhaustivo | El código es el más ágil y eficiente, con un tratamiento óptimo de las condiciones de contorno y un análisis en profundidad de la complejidad | Ofrece múltiples implementaciones, incluida la clasificación in situ y la programación funcional, con algunos casos límite no suficientemente considerados. |
Escritura creativa (2050) |
La historia fluye bien pero es bastante sosa, y los elementos tecnológicos futuristas favorecen la imaginería común | Buena en la construcción de una gran visión del mundo, audaz en su descripción de la tecnología, ligeramente débil en su caracterización de las emociones. | La trama es rica y vívida, los personajes son tridimensionales y los detalles tecnológicos son a la vez progresistas y sensatos, e incorporan elementos emocionales. | Detalles técnicos precisos pero ligeramente estereotipados, narración insuficiente | La estructura narrativa es completa, la tecnología y los temas sociales están bien integrados, falta un poco de innovación |
inferencia lógica (Dilema del prisionero) |
Explicación precisa de los conceptos subyacentes, pero análisis poco profundo | El análisis es más profundo, introduce una perspectiva de teoría evolutiva de juegos y analiza las estrategias de equilibrio para juegos repetidos | La teoría se explica con la mayor claridad y se deduce de forma lógica, proporcionando ejemplos de la vida real en varios ámbitos | La elaboración de modelos matemáticos es más rigurosa, pero los ejemplos son ligeramente académicos | Equilibrio entre teoría y aplicación práctica con una amplia variedad de casos prácticos |
En general, las ventajas e inconvenientes de los modelos se comparan del siguiente modo:
modelización | vanguardia | inferior | Escenarios más aplicables |
---|---|---|---|
ChatGPT o3-mini | - El mejor rendimiento en modelos ligeros - tiempo de respuesta rápido - Tratamiento preciso de las cuestiones básicas |
- Capacidad limitada de razonamiento complejo - El pensamiento profundo no es tan funcional como otros modelos |
- Preguntas y respuestas sencillas de la vida cotidiana - Creación de contenidos básicos - Escenarios de aplicaciones ligeras |
El pensamiento Grok3 | - Transparencia en el proceso de reflexión - Excelente capacidad de razonamiento lógico - Explicar conceptos de forma amena e interesante |
- Conocimientos de chino ligeramente inferiores - Insuficiente profundidad en ciertas áreas especializadas |
- Razonamiento complejo que requiere ver el proceso de pensamiento - Estimulación del pensamiento innovador |
Claude3.7 pensando | - La combinación más equilibrada de competencias - Seguimiento preciso de las órdenes - Creatividad y lógica van de la mano - Alucinaciones mínimas |
- Algo menos especializados en verticales específicos que los modelos especializados | - Creación de contenidos que requieren un equilibrio entre creatividad y precisión - Tareas de mando complejas |
Búsqueda profunda-r1 | - Conocimientos matemáticos y de código extremadamente sólidos - Se entiende mejor en chino - Razonamiento académico riguroso |
- La escritura creativa es relativamente estereotipada - Las representaciones genéricas no son tan vívidas como otros modelos |
- desarrollo del programa - Investigación científica en matemáticas - Generación de contenidos académicos en chino |
Gemini-2.0-Pro | - Amplios conocimientos - Gran comprensión multimodal - Abundancia de casos prácticos |
- Falta de profundidad en algunos razonamientos complejos | - Interacciones multimodales que requieren la combinación de imágenes - Preguntas y respuestas que requieren muchos conocimientos |
III. Comparación de los fundamentos del modelo
Nombre del modelo | empresa de desarrollo | Tiempo de liberación | Tamaño del modelo | Cargos |
---|---|---|---|---|
ChatGPT o3-mini | OpenAI | Julio de 2024 | Unos 7.000 millones de parámetros | Versiones gratuitas y de pago Plus |
El pensamiento Grok3 | xAI | Julio de 2024 | sin revelar | Miembro de xAI |
Claude3.7 pensando | Antrópico | Agosto de 2024 | sin revelar | Parcialmente gratuito, Claude Pro de pago |
Búsqueda profunda-r1 | búsqueda en profundidad | Mayo de 2024 | 236.000 millones de parámetros | freeware |
Gemini-2.0-Pro | Google Empresa de Internet | Mayo de 2024 | sin revelar | Parcialmente gratuito, versión premium de pago |
IV. Cuadro comparativo de competencias básicas
dimensión de capacidad | ChatGPT o3-mini | El pensamiento Grok3 | Claude3.7 pensando | Búsqueda profunda-r1 | Gemini-2.0-Pro |
---|---|---|---|---|---|
Preguntas y respuestas generales | 4 | 5 | 5 | 4 | 4 |
conocimientos de codificación | 3 | 4 | 5 | 5 | 4 |
razonamiento matemático | 3 | 4 | 4 | 5 | 4 |
pensamiento lógico | 3 | 5 | 5 | 4 | 4 |
Escritura creativa | 4 | 4 | 5 | 3 | 4 |
comando siguiente | 4 | 4 | 5 | 4 | 4 |
Conocimientos de chino | 4 | 3 | 4 | 5 | 4 |
Profundidad de pensamiento | 3 | 5 | 5 | 4 | 4 |
control ilusionista | 3 | 3 | 5 | 4 | 4 |
v. síntesis de las conclusiones
Tras una serie de revisiones, hemos llegado a las siguientes conclusiones:
- Mejor rendimiento general: Claude 3,7 en pensamiento, destacó en la mayoría de las pruebas, especialmente en escritura creativa, seguimiento de órdenes y control de ilusiones.
- Mejor especialización: Deepseek-r1 fue el mejor en código, matemáticas y contenidos especializados en chino
- Mejor proceso de pensamiento: el pensamiento Grok3 y el pensamiento Claude3.7 son los más transparentes en cuanto a la demostración del proceso de pensamiento
- Mejor aplicación ligera: ChatGPT o3-mini tiene la mejor relación calidad-precio entre las aplicaciones ligeras
- Mejor multimodal: Gemini-2.0-Pro lidera la gestión de contenidos multimodales
En última instancia, el modelo a elegir debería basarse en su escenario de uso específico. Si buscas una experiencia totalmente equilibrada, Claude 3.7 es una buena opción; para necesidades de programación y matemáticas, Deepseek-r1 es digno de consideración; y si necesitas un asistente diario ligero, ChatGPT o3-mini también puede satisfacer las necesidades básicas.
Para ayudarle a explorar el potencial de los modelos, se han preparado recursos adicionales. Para dominar la técnica de la palabra clave del gran modelo e interactuar con modelos de forma eficaz, haz clic en el enlace:Big Model Prompt Word Consejos A continuación, te presentamos una serie de estrategias prácticas que te ayudarán a desbloquear las potentes funciones de este modelo.
Si desea utilizar GPT Plus, Claude Pro, Grok Super cuenta exclusiva oficial de pago, puede ponerse en contacto con nuestro equipo profesional (wx: f15303420735) si no sabe cómo recargar.