El rápido crecimiento de los modelos de lenguajes grandes (LLM) ha aportado capacidades impresionantes, pero asimismo ha puesto de relieve importantes desafíos relacionados con el consumo de posibles y la escalabilidad. Los LLM a menudo requieren una amplia infraestructura de GPU y enormes cantidades de energía, lo que hace que su implementación y mantenimiento sean costosos. Esto ha establecido particularmente su accesibilidad para empresas más pequeñas o usuarios individuales sin ataque a hardware liberal. Por otra parte, las demandas energéticas de estos modelos contribuyen a aumentar la huella de carbono, lo que genera preocupaciones sobre la sostenibilidad. La carestia de una alternativa valioso y compatible con la CPU que aborde estos problemas se ha vuelto más apremiante que nunca.
Microsoft recientemente de código rajado bitnet.cppun ámbito de inferencia LLM de 1 bit súper valioso que se ejecuta directamente en CPU, lo que significa que incluso grandes modelos de 100 mil millones de parámetros se pueden ejecutar en dispositivos locales sin carestia de una GPU. Con bitnet.cpp, los usuarios pueden conquistar impresionantes aceleraciones de hasta 6,17x y al mismo tiempo acortar el consumo de energía en un 82,2%. Al acortar los requisitos de hardware, este ámbito podría potencialmente democratizar los LLM, haciéndolos más accesibles para casos de uso locales y permitiendo a individuos o empresas más pequeñas disfrutar la tecnología de inteligencia fabricado sin los elevados costos asociados con el hardware especializado.


Técnicamente, bitnet.cpp es un potente ámbito de inferencia diseñado para aceptar un cálculo valioso para LLM de 1 bit, incluido el maniquí BitNet b1.58. El ámbito incluye un conjunto de núcleos optimizados diseñados para maximizar el rendimiento de estos modelos durante la inferencia en las CPU. El soporte presente incluye CPU ARM y x86, con soporte adicional para NPU, GPU y dispositivos móviles planificados para futuras actualizaciones. Los puntos de relato revelan que bitnet.cpp alcanza aceleraciones de entre 1,37x y 5,07x en CPU ARM, y entre 2,37x y 6,17x en CPU x86, según el tamaño del maniquí. Por otra parte, el consumo de energía experimenta reducciones que van del 55,4% al 82,2%, lo que hace que el proceso de inferencia sea mucho más valioso energéticamente. La capacidad de conquistar tal rendimiento y eficiencia energética permite a los usuarios ejecutar modelos sofisticados a velocidades comparables a las tasas de lección humana (en torno a de 5 a 7 tokens por segundo), incluso en una sola CPU, lo que ofrece un brinco significativo para ejecutar LLM localmente.
La importancia de bitnet.cpp radica en su potencial para redefinir el ideal de computación para los LLM. Este ámbito no solo reduce las dependencias de hardware, sino que asimismo sienta las bases para el exposición de pilas de software y hardware especializados optimizados para LLM de 1 bit. Al demostrar cómo se puede conquistar una inferencia eficaz con bajos requisitos de posibles, bitnet.cpp allana el camino para una nueva reproducción de LLM locales (LLLM), lo que permite una apadrinamiento más generalizada, rentable y sostenible. Estos beneficios son particularmente impactantes para los usuarios interesados en la privacidad, ya que la capacidad de ejecutar LLM localmente minimiza la carestia de expedir datos a servidores externos. Por otra parte, la investigación en curso de Microsoft y el emanación de su iniciativa “1-bit AI Infra” apuntan a una anciano apadrinamiento industrial de estos modelos, destacando el papel de bitnet.cpp como un paso fundamental cerca de el futuro de la eficiencia LLM.
En conclusión, bitnet.cpp representa un gran paso delante para hacer que la tecnología LLM sea más accesible, valioso y respetuosa con el medio medio ambiente. Con importantes aceleraciones y reducciones en el consumo de energía, bitnet.cpp hace posible ejecutar incluso modelos grandes en hardware de CPU estereotipado, eliminando la dependencia de GPU costosas y que consumen mucha energía. Esta innovación podría democratizar el ataque a los LLM y promover su apadrinamiento para uso regional, lo que en última instancia desbloqueará nuevas posibilidades tanto para individuos como para industrias. A medida que Microsoft continúa avanzando con sus iniciativas de infraestructura e investigación LLM de 1 bit, el potencial para soluciones de IA más escalables y sostenibles se vuelve cada vez más prometedor.
Mira el GitHub. Todo el crédito por esta investigación va a los investigadores de este plan. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.
(Próximo seminario web en vivo: 29 de octubre de 2024) La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)
Asif Razzaq es el director ejecutor de Marktechpost Media Inc.. Como patrón e ingeniero fantaseador, Asif está comprometido a disfrutar el potencial de la inteligencia fabricado para el admisiblemente social. Su esfuerzo más fresco es el emanación de una plataforma de medios de inteligencia fabricado, Marktechpost, que se destaca por su cobertura en profundidad del estudios automotriz y las informativo sobre estudios profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el divulgado.