Athrun Data Intelligence


Los modelos de jerga egregio (LLM) se han convertido en herramientas esenciales en el avance de software y ofrecen capacidades como ocasionar fragmentos de código, automatizar pruebas unitarias y depurar. Sin confiscación, estos modelos a menudo no logran producir código que no sólo sea funcionalmente correcto sino todavía capaz en tiempo de ejecución. Advenir por stop la eficiencia del tiempo de ejecución puede provocar que el software tenga un rendimiento deficiente, aumente los costos operativos y afecte la experiencia del beneficiario. Este problema es particularmente pronunciado para los desarrolladores menos experimentados, que pueden tener fe en el código sugerido por la IA sin comprender completamente sus implicaciones. Salesforce Research aborda estos desafíos con PerfCodeGen, un ámbito que tiene como objetivo mejorar tanto la corrección como el rendimiento del código generado por LLM.

fuerza de ventas AIPerfCodeGen de es un ámbito sin capacitación diseñado para mejorar la eficiencia del tiempo de ejecución del código generado por LLM. Lo logra mediante el uso de feedback de ejecución en un proceso iterativo de autorrefinamiento. A diferencia de los enfoques que requieren ajustes con datos de entrenamiento extensos, PerfCodeGen emplea un ciclo de feedback que evalúa y refina el código en función de métricas de tiempo de ejecución durante la ejecución de la prueba. El ámbito opera en dos fases secreto: refinar la corrección y optimizar el rendimiento. Inicialmente, garantiza que el código generado cumpla con los requisitos funcionales al atracar los problemas identificados en las pruebas unitarias. Una vez que se establece la corrección, el ámbito se centra en la eficiencia del tiempo de ejecución, optimizando el código apuntando y refinando los casos de prueba que consumen más posibles. Este proceso iterativo da como resultado soluciones que son correctas y eficientes.

Información técnica y beneficios

PerfCodeGen se integra con los flujos de trabajo de LLM existentes y comienza generando múltiples soluciones candidatas mediante muestreo de núcleos. En la primera grado, se evalúa la corrección de estos candidatos mediante pruebas unitarias. Los comentarios de las pruebas fallidas se utilizan para perfeccionar las soluciones. Una vez que se garantiza la corrección sencillo, el ámbito pasa a la segunda grado, analizando las métricas de tiempo de ejecución para identificar cuellos de botella. Luego, esta información se utiliza para optimizar aún más el código, centrándose en los casos de prueba que consumen más tiempo.

Este proceso de dos fases aumenta la probabilidad de producir programas óptimamente eficientes. La metodología de PerfCodeGen refleja las prácticas de optimización y depuración humana, lo que la hace efectiva e intuitiva. Adicionalmente, la dependencia del ámbito de la feedback en superficie de la reentrenamiento le permite medrar en varios LLM y dominios de aplicaciones. Ha mostrado mejoras constantes en la eficiencia y corrección del tiempo de ejecución en modelos como Phi-3-mini, Flama 3 y GPT-4.

PerfCodeGen ha sido probado en puntos de relato como HumanEval, MBPP y APPS, lo que demuestra su fuerza:

  1. Eficiencia en tiempo de ejecución: En HumanEval, la tasa de optimización de GPT-4 (%Opt) aumentó del 24,54 % al 28,83 % con PERFCODEGEN, y se observaron mejoras similares en otros modelos.
  2. Mejoría de la corrección: En MBPP, la tasa de corrección de GPT-3.5 (% de corrección) aumentó del 66,38 % al 73,36 % con una sola muestra (Best@1).
  3. Superando la verdad del demarcación: PERFCODEGEN permitió a los LLM ocasionar soluciones más eficientes que la verdad básica en aproximadamente el 55 % de las tareas de HumanEval y el 67 % de las tareas de MBPP.
  4. Escalabilidad: Los modelos abiertos como Phi-3-mini y Mixtral lograron un rendimiento comparable al de modelos cerrados como GPT-3.5 y GPT-4.

Estos resultados resaltan la capacidad de PERFCODEGEN para equilibrar la corrección y la eficiencia del tiempo de ejecución de forma efectiva, lo que lo convierte en una valiosa suplemento a los flujos de trabajo de concepción de código basados ​​en LLM.

Conclusión:

PerfCodeGen ofrece una decisión maña a una valla secreto de los LLM actuales: su enfoque en la corrección a desembolso de la eficiencia del tiempo de ejecución. Al incorporar comentarios de ejecución en un proceso de refinamiento iterativo, PerfCodeGen permite la concepción de código correcto y capaz. Este enfoque mejoría la usabilidad de los LLM en el avance de software, proporcionando a los desarrolladores herramientas para producir código de maduro calidad sin una recapacitación extensa. El éxito del ámbito en diversos puntos de relato demuestra su potencial como un paso delante en la creación de soluciones de programación basadas en IA eficientes, confiables y accesibles.


Demostrar el Papel y Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este tesina. Adicionalmente, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 Asesorar plataforma de código hendido: Parlant es un ámbito que transforma la forma en que los agentes de IA toman decisiones en escenarios de cara al cliente. (Promovido)


Asif Razzaq es el director ejecutante de Marktechpost Media Inc.. Como patrón e ingeniero fantaseador, Asif está comprometido a servirse el potencial de la inteligencia fabricado para el acertadamente social. Su esfuerzo más nuevo es el tiro de una plataforma de medios de inteligencia fabricado, Marktechpost, que se destaca por su cobertura en profundidad del estudios necesario y las noticiario sobre estudios profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el divulgado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *