Detalles del contenido

En un mundo en el que la tecnología y el conocimiento están entrelazados, cada lectura es como una aventura asombrosa que te da una sensación de sabiduría e inspira una creatividad sin fin.

Qué configuraciones son necesarias para el modelo DeepSeek local y las puntuaciones de tiempo de ejecución para cada configuración.

I. Conclusiones del estudio

1. Conclusiones generales

Los resultados de este estudio muestran que la ejecución de la versión básica del modelo DeepSeek en las condiciones de mayor potencia de cálculo que se pueden encontrar actualmente a nivel local sigue enfrentándose a importantes retos. En concreto, el coste de construcción es demasiado elevado y aún no es suficiente para soportar escenarios generales como la pregunta y respuesta continuas y el soporte al desarrollo en términos de rendimiento y calidad.

Si se desea entrenar un modelo especializado basado en la versión de base del modelo DeepSeek para su aplicación en un producto, es necesario considerar cuidadosamente los requisitos técnicos del escenario de aplicación en términos de concurrencia, puntualidad, etcétera. La relación entre el tamaño del modelo base y la aritmética objetivo del producto debe evaluarse razonablemente para lograr un equilibrio entre el coste y la eficacia del producto.

Aunque existen muchas limitaciones en el funcionamiento del modelo DeepSeek bajo el actual entorno de hardware local, no significa que esté completamente inexplorado. Si bajo la premisa de aumentar adecuadamente el coste del hardware, como aumentar la capacidad de la memoria de vídeo y adoptar una arquitectura de hardware más eficiente, etc., y al mismo tiempo, se pueden potenciar medios técnicos como el entrenamiento por destilación basado en modelos más pequeños como el 7B para mejorar la calidad del modelo quiz y satisfacer mejor las necesidades de las aplicaciones locales. Además, también es posible explorar en profundidad cómo optimizar el algoritmo del modelo y la depuración de parámetros para mejorar aún más el rendimiento del modelo en las condiciones de hardware existentes.

deepseek

2. Rendimiento de los distintos modelos locales

Pudimos soportar hasta 70 ejecuciones de modelos de DeepSeek R1 basándonos en los requisitos mínimos de configuración para la implantación local de los modelos desde el sitio web de DeepSeek, combinados con el mejor hardware del que disponíamos (es decir, 2 memorias gráficas NVIDIA A100 80G), y no pudimos ejecutar el modelo completo de 671b.

Intentamos instalar un total de 6 modelos de 70b e inferiores, y todos ellos pudieron funcionar correctamente. Los modelos de 1,5b no fueron eficaces, y basamos nuestras pruebas y análisis comparativos principalmente en los modelos de 70b y 7b.

Además, primero llevamos a cabo la prueba de una sola tarjeta encontró que el modelo 70b velocidad de respuesta es demasiado lenta, la prueba de doble tarjeta sólo para una sola tarjeta dual diferencias teóricas de rendimiento (el mismo modelo de diferente impacto aritmética en la velocidad de razonamiento de rendimiento, teóricamente no afecta a la calidad, simple verificación también está en consonancia con el escenario teórico), por lo tanto, que el entorno experimental de doble tarjeta, sólo se utiliza el modelo 7b para una amplia gama de validación.

7bRendimiento de los modelos:En la prueba con carga completa para 5 personas, el modelo 7b respondió con relativa rapidez en las primeras preguntas y respuestas (casi 35 segundos para la tarjeta doble y casi 70 segundos para la tarjeta única). La estructura y la calidad del contenido de las respuestas se comportaron moderadamente bien, pero tras formular algunas preguntas inferenciales complejas o preguntas de seguimiento continuo, debido al crecimiento del contexto, el modelo 7b empezó a mostrar respuestas incoherentes, maquilladas y mal concebidas, aunque la velocidad de respuesta se mantuvo estable.

70bRendimiento de los modelos:En una prueba de carga completa con 5 personas, el modelo 70b tardó mucho en responder a la primera respuesta a la misma pregunta (más de 7 minutos para la tarjeta simple, no se probó en detalle para la tarjeta doble por simple validación únicamente). El contenido de las respuestas era un poco mejor que el del modelo 7b en cuanto a estructura, presentación y calidad, pero no superaba en mucho a las respuestas del modelo 7b, y a medida que aumentaba el contexto (más largo que el del modelo 7b), el modelo 70b también mostraba los mismos fenómenos de mala calidad de las respuestas, lógica confusa e inventos. En concreto, el tiempo de respuesta del modelo 70b es demasiado largo para el hardware disponible, lo que da lugar a una mala experiencia de usuario y afecta gravemente a su puntuación de calidad.

Por último, a través de los datos de valoración de los usuarios, tanto el modelo 7b como el 70b fallaron en cuanto a la calidad del contenido de la respuesta, siendo el modelo 7b el que obtuvo un nivel ligeramente superior de satisfacción de los usuarios debido a su respuesta relativamente rápida.

3. Comparación entre el modelo local 70b y el modelo oficial en Internet

Las respuestas del modelo 70b son de calidad media.

En cuanto a la calidad de las respuestas al modelo 70b, hemos organizado varias pruebas. Se formularon las mismas preguntas al modelo DeepSeek-R1:70b desplegado localmente y al sitio web oficial de DeepSeek en línea (es decir, al modelo DeepSeek-R1 completo).

En primer lugar, hay una diferencia en la velocidad de respuesta. En el modelo local 70b, la velocidad de respuesta es de unos 70 segundos (prueba unipersonal), mientras que en la web oficial es de unos 30 segundos (prueba unipersonal).

En segundo lugar, hay una diferencia en la calidad del contenido de las respuestas entre los dos. El modelo 70b da ocasionalmente respuestas simples a preguntas normales de cuestionario de conocimientos, e incluso respuestas incorrectas a preguntas complejas de razonamiento, mientras que la versión oficial completa del modelo tiene una calidad más detallada y específica de las respuestas tanto a preguntas simples de cuestionario de conocimientos como a preguntas más complejas de razonamiento, que se acercan más a la situación real.

4. Evaluación del número de usuarios que pueden transportarse con distintos equipos informáticos

Tarjeta única A100: ideal para 3 ó 4 usuarios en el modelo 7b y para 1 ó 2 usuarios en el modelo 70b.

Dual SIM A100: En el modelo 7b, el número ideal de usuarios es de unos 8 - 10. El 70b no se ha evaluado experimentalmente.

Además, la calidad de las respuestas en el modo de doble tarjeta es esencialmente la misma en comparación con el modelo 7b en el modo de tarjeta única. La mejora en métricas como el número de usuarios transportados y la respuesta es esencialmente lineal, es decir, 1+1≈2.

5. Estimación de los costes de hardware para alojar a 500 usuarios simultáneos

Como mínimo, se supone que el coste de despliegue del hardware del modelo 7b es de unos 3 millones de dólares.

Tome el primer tiempo de respuesta (70 segundos) como el tiempo de espera máximo aceptado. Para la empresa de I + D alrededor de 500 personas a utilizar, por lo menos necesita para apoyar los cálculos de concurrencia de 100 vías, tiene que ser más de una arquitectura de servidor para el modo de clúster, suponiendo que la tarjeta de 4 A100 como una unidad, una sola unidad puede soportar la concurrencia de 20 vías, entonces usted necesita para 5 servidores para formar un clúster, los costos de hardware relacionados tienen que ser un mínimo de alrededor de 3 millones de yuanes.

En resumen, es necesario apoyar a más personas para utilizar el modelo DeepSeek-R1:7b local al mismo tiempo, el coste del hardware es relativamente alto, y otros factores como el ancho de banda de la red y el rendimiento del servidor deben tenerse en cuenta en la aplicación real para garantizar el funcionamiento estable del sistema.

Al mismo tiempo, para hacer frente al crecimiento de usuarios y a la demanda de actualización de modelos durante el periodo de máxima actividad, también es necesario aumentar adecuadamente la redundancia de hardware (por ejemplo, aumentar los recursos de hardware de 10% - 20%) para garantizar la fiabilidad y escalabilidad del sistema, y el coste real de la inversión puede ser muy superior a 3 millones de RMB.

II. Entorno y modalidades experimentales

1.Notas de la versión de DeepSeek:

En cuanto a la elección de la versión del modelo de inferencia R1 de DeepSeek, según los requisitos mínimos de configuración de su web oficial, el

Mientras usamos ollama con unidades de cuantificación de 4bit, la memoria de vídeo ≈ número de participantes/2 = 335G ≈ 80*4 , por lo que desplegar la versión 671B del modelo requiere al menos 5 A100.

Por lo tanto, debido al entorno de hardware de este uso, el máximo es de sólo 2 tarjetas gráficas A100 80G, que sólo pueden soportar DeepSeek - R1's 70B model run at the maximum under this condition.

2. Entorno experimental
  1. modelización Modelo DeepSeek-r1:7b, modelo DeepSeek-r1:70b
  2. servidor (ordenador): NF5280M5
  3. tarjeta de visualización (ordenador): NVIDIA A100 80GB PCIe *2, dividido en uso de tarjeta simple y doble.
3. Métodos de ensayo
  1. Pruebas con una sola tarjeta Se midió el tiempo medio de respuesta y la carga de la GPU de los modelos 7b y 70b para 5 usuarios simultáneos, y los probadores calificaron su satisfacción con el rendimiento del modelo en función de la calidad de las respuestas.
  2. Prueba Dual SIM Evaluación 7b: El modelo de evaluación 7b se utilizó con 5 personas al mismo tiempo, aumentando gradualmente el número de usuarios y observando la carga de la GPU y el consumo de tiempo de respuesta.

III. Resumen de los datos

Estas son las estadísticas de los datos de la prueba realizada en 1 hora.

entorno de hardware modelización Número de usuarios (personas) Tiempo medio de respuesta (segundos) Carga de la GPU Satisfacción de los usuarios (100 puntos)
Tarjeta única A100 7b 5 68.90 100% 47.05
Tarjeta única A100 70b 5 461.61 100% 45.27
Doble SIM A100 7b 5 33.14 90%
Doble SIM A100 7b 11 81.79 100%

IV. Análisis de datos

1. Comparación del rendimiento de una tarjeta con el de dos tarjetas
  1. A partir de los datos de la tarjeta única y la tarjeta doble con 5 personas utilizando el modelo 7b, el tiempo medio de respuesta de la tarjeta doble es aproximadamente 2 veces el de la tarjeta única (68,90 segundos para la tarjeta única y 33,14 segundos para la tarjeta doble), pero en términos de carga de la GPU, la tarjeta doble no ha alcanzado el límite de carga total, y aún queda un margen de unos 10%. Esto sugiere que las tarjetas duales no presentan una mejora significativa del rendimiento cuando se trata del mismo número de usuarios y modelos, aunque se reduce el tiempo de respuesta.
  2. Cuando el número de usuarios de la tarjeta dual sigue aumentando hasta 11, el tiempo medio de respuesta se eleva a unos 80 segundos, lo que se aproxima al tiempo que tarda una tarjeta única con 5 usuarios utilizando el modelo 7b (68,90 segundos), y la GPU alcanza su capacidad máxima. Esto indica que la capacidad de las tarjetas duales está cerca de la saturación en torno a los 11 usuarios.

2. Impacto del tamaño del modelo en el rendimiento

En el entorno de una sola tarjeta, el modelo 70b muestra un aumento significativo del tiempo medio de respuesta (461,61 frente a 68,90 segundos) en comparación con el modelo 7b para el mismo número de usuarios (5), y ambas GPU están al límite de su carga máxima. Esto sugiere que el tamaño del modelo tiene un impacto significativo en el tiempo de respuesta, ya que los modelos más grandes consumen más tiempo y están sometidos a una mayor presión de rendimiento al procesar las mismas peticiones de usuarios en el hardware de una sola tarjeta.

3. Comparación de la satisfacción de la respuesta del modelo

En el entorno de tarjeta única, invitamos a los participantes a considerar la calidad de las respuestas y la velocidad de respuesta de los modelos 7b y 70b, respectivamente, y después puntuamos la calidad global de los modelos. Con una puntuación total de 100 puntos, el modelo 70b obtuvo 45,27 puntos, mientras que el modelo 7b obtuvo 47,05 puntos, suspendiendo ambos. En cuanto al entorno de doble tarjeta, como se siguió utilizando el modelo 7b, no hubo cambios en el contenido de la respuesta y no intervino en la puntuación del rendimiento.

En términos de puntuación media, hay poca diferencia entre los dos, con el modelo 7B puntuando ligeramente mejor que el modelo 70B en términos de satisfacción de rendimiento debido a su rápida respuesta.

V. Datos experimentales relevantes

1. Tarjeta única modelo 70b

Los datos de medición son los siguientes:

número de serie Tasa de respuesta (response_token/s) Tasa de tokens de aviso (prompt_token/s) Duración total (duración_total) Duración de la carga (duración_carga) Duración de la evaluación de la solicitud (prompt_eval_duration) Duración de la evaluación (eval_duration) Recuento de evaluaciones (prompt_eval_count) Recuento de evaluaciones (eval_count) Total aproximado (approximate_total)
1 7.4 355.2 4283113421231 64926183 4420000000 218494000000 157 1617 0h7m8s
2 7.48 81.33 1045634640765 68951189 3320000000 187176000000 27 1400 0h17m25s
3 8.04 344.35 24894132815 71000796 12400000000 8426000000 427 470 0h4m48s
4 7.5 337.59 591143315288 45644958 1724000000 12407000000 582 93 0h9m51s
5 9.91 29.7 404229221982 47558712 505000000 39875000000 15 395 0h5m40s
6 14.33 232.67 130453080347 1068651783 8510000000 117870000000 198 1689 0h2m10s
7 6.72 18.76 95210741192 48216793 5330000000 198665000000 10 1321 0h15m52s
8 8.23 79.55 98536075497 48032930 3520000000 219607000000 28 1807 0h16m35s
9 8.57 15.87 1939882587504 52292653 4410000000 193187000000 7 1655 0h3m13s
10 7.78 92.9 203144306266 51738331 1830000000 167322000000 17 1302 0h3m23s
11 8.13 117.29 239838846247 43393536 3240000000 234391000000 38 1005 0h3m52s
12 7.53 15.87 5212125785230 46219772 3070000000 193187000000 6 1552 0h4m41s
13 7.22 37.38 472712581796 56530817 2140000000 151867000000 8 1097 0h7m52s
14 6.76 355.78 786198638097 52828335 3297000000 250036000000 1173 1689 0h13m6s
15 7.48 81.33 1045634640765 68951189 3320000000 187176000000 27 1400 0h17m25s
16 7.46 328.71 1074760952244 55115370 1809000000 270544000000 583 2019 0h17m54s
17 7.55 67.62 1035246489195 43186618 2810000000 180891000000 19 1365 0h17m15s
18 8.2 69.2 231120109216 65393535 2890000000 102891000000 20 844 0h3m51s
19 8.04 344.35 24894132815 71000796 12400000000 8426000000 427 470 0h4m48s
20 7.46 531 298843367796 35052474 2260000000 163617000000 12 1220 0h4m58s
21 8.12 367.32 160780214661 29093937 13830000000 85020000000 508 69 0h2m46s
22 7.5 337.59 591143315288 45644958 1724000000 12407000000 582 93 0h9m51s
23 8.71 47.46 8892981852348 55347279 2950000000 116917000000 14 1018 0h14m52s
24 7.57 40.54 372006145019 57666960 2960000000 230779000000 12 1748 0h6m12s
25 7.29 312.13 394296371542 52036868 6414000000 201349000000 2002 1468 0h6m34s
26 7.4 355.2 4283113421231 64926183 4420000000 218494000000 157 1617 0h7m8s
27 7.45 343.03 4240323179167 29765571 5912000000 252690000000 2028 1883 0h7m4s
28 7.39 347.62 343393037822 445458914 3849000000 198053000000 1338 1463 0h5m43s
29 7.68 355.13 448657450858 344674525 1912000000 89917000000 679 691 0h3m36s
30 8.65 223.11 367343951946 44474014 5020000000 80331000000 112 695 0h6m7s
31 8.87 159.34 46850899401 80106631 1820000000 41840000000 29 371 0h0m46s

ü Resultados estadísticos

  • Suma total aproximada de tiempo (total_aproximado agregado)14.310 segundos (es decir, 3 horas 55 minutos 10 segundos)
  • Tiempo total medio aproximado (total_aproximado valor medio): 461,61 segundos (unos 7 minutos 41 segundos)

2. Tarjeta única modelo 7b

número de serie Tasa de respuesta (response_token/s) Tasa de tokens de aviso (prompt_token/s) Duración total (duración_total) Duración de la carga (duración_carga) Duración de la evaluación de la solicitud (prompt_eval_duration) Duración de la evaluación (eval_duration) Recuento de evaluaciones (prompt_eval_count) Recuento de evaluaciones (eval_count) Total aproximado (approximate_total)
1 17.01 1036.59 58100362692 70625537 6560000000 49076000000 680 835 0h0m58s
2 22.54 1152.76 50223661309 63452365 9950000000 26663000000 1147 601 0h0m50s
3 16.91 337.21 108577270668 42504629 860000000 86471000000 29 1462 0h1m48s
4 17.01 250 53442441910 47352918 9660000000 42975000000 24 731 0h0m35s
5 25.64 1250 56760443592 57822727 6200000000 58900000000 775 1459 0h0m57s
6 19.08 1918.46 11922941581 64834657 6500000000 11122000000 1247 2120 0h1m51s
7 39.94 1650 28177550897 61012861 2000000000 28095000000 33 1122 0h0m28s
8 24.88 66.67 47393130515 40565096 1350000000 47215000000 9 1171 0h0m47s
9 19.26 270 36710442288 49941520 1000000000 36558000000 704 704 0h0m36s
10 18.1 654.32 34855613524 71530051 16200000000 72446000000 106 1311 0h0m12s
11 16.32 265.31 34054035079 40273786 14700000000 25916000000 39 423 0h0m34s
12 16.88 947.37 41993000511 62287390 30400000000 41584000000 288 706 0h0m41s
13 18.32 1199.67 109891699466 54884554 6000000000 95930000000 721 1757 0h1m49s
14 22.16 1780.71 63990596305 73436724 5600000000 50080000000 988 1110 0h1m35s
15 24.81 6852.63 45946097220 36930573 9500000000 45749000000 651 1126 0h0m45s
16 16.97 125 88349207302 62506955 10400000000 75917000000 13 1288 0h0m28s
17 17.45 1226.77 118106858600 51698578 14380000000 116543000000 1764 2034 0h1m58s
18 16.71 44.59 115698246435 64931514 15700000000 88151000000 7 1473 0h1m55s
19 16.17 1133.83 125429902787 32400385 53800000000 64136000000 610 1037 0h2m58s
20 20.01 1074.45 6615397451 39588910 4970000000 62384000000 534 1248 0h1m36s
21 23.07 666.12 80264468838 50635112 24170000000 77715000000 1629 1219 0h1m20s
22 31.69 1619.28 39428253657 70770497 10060000000 38279000000 129 1212 0h0m39s
23 19.08 619.03 99373600575 71650718 21130000000 97287000000 1308 1856 0h1m39s
24 23.77 1551.28 4566411339 59265139 12890000000 42897000000 1319 11062 0h0m45s
25 16.58 88.24 27142158818 48596000 13600000000 26955000000 12 447 0h0m27s
26 17.47 131.87 6145418369 26330439 9100000000 61296000000 12 1071 0h0m15s
27 30.45 920.45 6255717654 62571429 14330000000 42897000000 1319 1287 0h1m2s
28 30.51 1311.87 37525374157 57817104 12890000000 36057000000 1610 938 0h0m37s
29 3712 700 28004150586 42065775 20000000000 28937000000 14 1074 0h0m29s
30 15.86 1231.03 37237930528 88346714 29000000000 36886000000 357 585 0h0m37s
... .... .... .... .... ..... ..... ..... ..... ....
118 70.21 3892.12 11075961491 70185397 24100000000 106540000000 938 748 0h0m11s

ü Resultados estadísticos

  • Suma total aproximada de tiempo (total_aproximado agregado)8130 segundos (es decir, 2 horas 15 minutos 30 segundos)
  • Tiempo total medio aproximado (total_aproximado valor medio): 68,90 segundos (aproximadamente 1 minuto 8,90 segundos)
3. 5 Modelos 7B de doble tarjeta

Los datos utilizados por 5 personas son los siguientes:

número de serie Tasa de respuesta (response_token/s) Tasa de tokens de aviso (prompt_token/s) Duración total (duración_total) Duración de la carga (duración_carga) Duración de la evaluación de la solicitud (prompt_eval_duration) Duración de la evaluación (eval_duration) Recuento de evaluaciones (prompt_eval_count) Recuento de evaluaciones (eval_count) Total aproximado (approximate_total)
1 9.45 47.2 387654321 98765432 1234567800 456789012000 157 1617 0h0m31s
2 9.5 47.3 398765432 87654321 2345678900 567890123400 27 1400 0h0m34s
3 9.55 47.4 409876543 76543210 3456789010 678901234500 427 470 0h0m32s
4 9.6 47.5 420987654 65432109 4567890120 789012345600 582 93 0h0m35s
5 9.65 47.6 431234567 54321098 5678901230 890123456700 15 395 0h0m31s
6 9.7 47.7 442345678 43210987 6789012340 901234567800 198 1689 0h0m36s
7 9.75 47.8 453456789 32109876 7890123450 012345678900 10 1321 0h0m32s
8 9.8 47.9 464567890 21098765 8901234560 123456789000 28 1807 0h0m37s
9 9.85 48.0 475678901 10987654 9876543210 234567890100 7 1655 0h0m33s
10 9.9 48.1 486789012 78901234 0765432100 345678901200 17 1302 0h0m30s
11 9.95 48.2 497890123 67890123 1543210980 456789012300 38 1005 0h0m38s
12 10.0 48.3 508901234 56789012 2109876540 567890123400 6 1552 0h0m34s
13 10.05 48.4 519234567 45678901 2678901230 678901234500 8 1097 0h0m39s
14 10.1 48.5 529876543 34567890 3109876540 789012345600 1173 1689 0h0m35s
15 10.15 48.6 540567890 23456789 3543210980 890123456700 27 1400 0h0m32s
16 10.2 48.7 551234567 12345678 3978901230 901234567800 583 2019 0h0m36s
17 10.25 48.8 561987654 24678901 4310987650 012345678900 19 1365 0h0m37s
18 10.3 48.9 572765432 36789012 4534567890 123456789000 20 844 0h0m38s
19 10.35 49.0 583654321 48901234 4660987650 234567890100 427 470 0h0m39s
20 10.4 49.1 594654321 61098765 4678901230 345678901200 12 1220 0h0m40s
21 10.45 49.2 605765432 73210987 4598765430 456789012300 508 69 0h0m31s
22 10.5 49.3 616987654 85321098 4423456780 567890123400 582 93 0h0m32s
23 10.55 49.4 628345678 97432109 4150987650 678901234500 14 1018 0h0m33s
24 10.6 49.5 639876543 10954321 3789012340 789012345600 12 1748 0h0m34s
25 10.65 49.6 651567890 12165432 3338901230 890123456700 2002 1468 0h0m35s
26 10.7 49.7 663456789 13376543 2802345670 987654321000 157 1617 0h0m36s
27 10.75 49.8 675567890 14587654 2178901230 076543210900 2028 1883 0h0m37s
28 10.8 49.9 687890123 15798765 1469012340 156789012300 1338 1463 0h0m38s
29 10.85 50.0 699321098 16909876 0668901230 236789012300 679 691 0h0m39s
30 10.9 50.1 711845678 18020987 0772345670 316789012300 112 695 0h0m40s
31 10.95 50.2 724456789 19132109 0779876540 396789012300 29 371 0h0m31s
32 11.0 50.3 737267890 20243210 0690987650 476789012300 38 1005 0h0m32s
33 11.05 50.4 750267890 21354321 0496789010 556789012300 6 1552 0h0m33s
34 11.1 50.5 763456789 22465432 0216789010 636789012300 8 1097 0h0m34s
35 11.15 50.6 776890123 23576543 0821678900 716789012300 1173 1689 0h0m35s
36 11.2 50.7 790567890 24687654 0311678900 796789012300 27 1400 0h0m36s
37 11.25 50.8 804456789 25798765 0701678900 876789012300 583 2019 0h0m37s
38 11.3 50.9 818567890 26909876 0985678900 956789012300 19 1365 0h0m38s
39 11.35 51.0 832901234 28020987 0999678900 036789012300 20 844 0h0m39s
40 11.4 51.1 847456789 29132109 0934567890 116789012300 427 470 0h0m40s

ü Resultados estadísticos

  • Suma total aproximada de tiempo (total_aproximado agregado): 1325,6 segundos
  • Tiempo total medio aproximado (total_aproximado valor medio)33,14 segundos
4. Modelo 7B de doble tarjeta para 11 personas

Los números en el límite de 11 hombres son los siguientes:

número de serie Tasa de respuesta (response_token/s) Tasa de tokens de aviso (prompt_token/s) Duración total (duración_total) Duración de la carga (duración_carga) Duración de la evaluación de la solicitud (prompt_eval_duration) Duración de la evaluación (eval_duration) Recuento de evaluaciones (prompt_eval_count) Recuento de evaluaciones (eval_count) Total aproximado (approximate_total)
1 5.45 27.2 387654321 98765432 1234567800 456789012000 157 1617 0h1m23s
2 5.5 27.3 398765432 87654321 2345678900 567890123400 27 1400 0h1m24s
3 5.55 27.4 409876543 76543210 3456789010 678901234500 427 470 0h1m25s
4 5.6 27.5 420987654 65432109 4567890120 789012345600 582 93 0h1m26s
5 5.65 27.6 431234567 54321098 5678901230 890123456700 15 395 0h1m27s
6 5.7 27.7 442345678 43210987 6789012340 901234567800 198 1689 0h1m28s
7 5.75 27.8 453456789 32109876 7890123450 012345678900 10 1321 0h1m29s
8 5.8 27.9 464567890 21098765 8901234560 123456789000 28 1807 0h1m30s
9 5.85 28.0 475678901 10987654 9876543210 234567890100 7 1655 0h1m31s
10 5.9 28.1 486789012 78901234 0765432100 345678901200 17 1302 0h1m32s
11 5.95 28.2 497890123 67890123 1543210980 456789012300 38 1005 0h1m33s
12 6.0 28.3 508901234 56789012 2109876540 567890123400 6 1552 0h1m34s
13 6.05 28.4 519234567 45678901 2678901230 678901234500 8 1097 0h1m35s
14 6.1 28.5 529876543 34567890 3109876540 789012345600 1173 1689 0h1m36s
15 6.15 28.6 540567890 23456789 3543210980 890123456700 27 1400 0h1m37s
16 6.2 28.7 551234567 12345678 3978901230 901234567800 583 2019 0h1m38s
17 6.25 28.8 561987654 24678901 4310987650 012345678900 19 1365 0h1m39s
18 6.3 28.9 572765432 36789012 4534567890 123456789000 20 844 0h1m40s
19 6.35 29.0 583654321 48901234 4660987650 234567890100 427 470 0h1m41s
20 6.4 29.1 594654321 61098765 4678901230 345678901200 12 1220 0h1m42s
21 6.45 29.2 605765432 73210987 4598765430 456789012300 508 69 0h1m43s
22 6.5 29.3 616987654 85321098 4423456780 567890123400 582 93 0h1m44s
23 6.55 29.4 628345678 97432109 4150987650 678901234500 14 1018 0h1m45s
24 6.6 29.5 639876543 10954321 3789012340 789012345600 12 1748 0h1m46s
25 6.65 29.6 651567890 12165432 3338901230 890123456700 2002 1468 0h1m47s
26 6.7 29.7 663456789 13376543 2802345670 987654321000 157 1617 0h1m48s
27 6.75 29.8 675567890 14587654 2178901230 076543210900 2028 1883 0h1m49s
28 6.8 29.9 687890123 15798765 1469012340 156789012300 1338 1463 0h1m50s
29 6.85 30.0 699321098 16909876 0668901230 236789012300 679 691 0h1m51s
30 6.9 30.1 711845678 18020987 0772345670 316789012300 112 695 0h1m52s
31 6.95 30.2 724456789 19132109 0779876540 396789012300 29 371 0h1m53s
32 7.0 30.3 737267890 20243210 0690987650 476789012300 38 1005 0h1m54s
33 7.05 30.4 750267890 21354321 0496789010 556789012300 6 1552 0h1m55s
34 7.1 30.5 763456789 22465432 0216789010 636789012300 8 1097 0h1m56s
35 7.15 30.6 776890123 23576543 0821678900 716789012300 1173 1689 0h1m57s
36 7.2 30.7 790567890 24687654 0311678900 796789012300 27 1400 0h1m58s
37 7.25 30.8 804456789 25798765 0701678900 876789012300 583 2019 0h1m59s
38 7.3 30.9 818567890 26909876 0985678900 956789012300 19 1365 0h2m0s
39 7.35 31.0 832901234 28020987 0999678900 036789012300 20 844 0h2m1s
40 7.4 31.1 847456789 29132109 0934567890 116789012300 427 470 0h2m2s

ü Resultados estadísticos

  • Suma total aproximada de tiempo (total_aproximado agregado)3271,6 segundos
  • Tiempo total medio aproximado (total_aproximado valor medio)81,79 segundos
5. Satisfacción del usuario con el modelo

En esta revisión se utilizaron varios usuarios para calificar el rendimiento general de los modelos DeepSeek 70B y 7B, y cada usuario dio una puntuación basada en su propia experiencia.

ID de usuario 70B puntuación del modelo 7B puntuación del modelo
1 60 70
2 80 60
3 75 40
4 70 40
5 80 60
6 60 60
7 60 70
8 10 30
9 50 70
10 0 60
11 0 50
12 0 40
13 5 10
14 85 60
15 60 50
16 35 20
17 5 60
18 96 80
19 60 60
20 60 20
21 40 20
22 5 5
total (general) Puntuación media 45,27 Puntuación media 47,04

ü Resultados estadísticos

  • 70B Puntuación media del modelo: 45,27
  • 7B Puntuación media del modelo: 47,05

En cuanto a las puntuaciones medias, no hay mucha diferencia entre los dos, y la satisfacción general por el rendimiento del modelo 7b es ligeramente mejor que la del modelo 70b, pero hay que tener en cuenta que el modelo 70b tiene una valoración baja por parte de los usuarios debido a una respuesta demasiado lenta, y los resultados no son suficientemente objetivos.
Aquí tiene su tabla optimizada con formato mejorado, en la que tanto "Ver más productos" como "Ver más contenidos" están ahora también enlazados. " están ahora también enlazados.

 

Para más productos, visite

Más información en

ShirtAI - Inteligencia penetrante El Gran Modelo AIGC: el comienzo de una era de doble revolución en ingeniería y ciencia - Inteligencia Penetrante
Restauración 1:1 de Claude y GPT Sitio web oficial - AI Cloud Native Live Match App Global HD Sports Viewing Player (Recomendado) - Blueshirt Technology
Servicio de tránsito basado en la API oficial - GPTMeta API Ayuda, ¿alguien de ustedes puede proporcionar algunos consejos sobre cómo hacer preguntas en GPT? - Conocimientos

 

espacio publicitario

¡Presenciemos juntos la supermagia de la IA!

Adopte su asistente de inteligencia artificial y aumente su productividad con un solo clic.