India está progresando constantemente en el campo de la inteligencia fabricado, lo que demuestra un crecimiento trascendente e innovación. Krutrim Ai Labs, una parte del liga OLA, es una de las organizaciones que contribuye activamente a este progreso. KruRim introdujo recientemente Chitrarth-1, un Maniquí de verbo de visión (VLM) desarrollado específicamente para el diverso paisaje lingüístico y cultural de la India. El maniquí admite 10 idiomas indios principales, incluidos hindi, tamil, bengalí, telugu, anejo con el inglés, abordando efectivamente las variadas micción del país. Este artículo explora las capacidades de expansión de Chitrarth-1 y India en IA.
¿Qué es Chitrarth?
Chitrarth (derivado de Chitra: Image y Artha: Significado) es un VLM de 7.5 mil millones de parámetros que combina capacidades de verbo y visión de vanguardia. Desarrollado para servir a la variedad gramática de la India, admite 10 idiomas indios prominentes: hindi, bengalí, telugu, tamil, marathi, gujarati, kannada, malayalam, odia y assamese, anejo al inglés.
https://www.youtube.com/watch?v=tmzeweligsc
Este maniquí es un testificación de la encargo de Krutrim: crear IA «para nuestro país, de nuestro país y para nuestros ciudadanos. «
Al utilizar un conjunto de datos culturalmente rico y multilingüe, Chitrarth minimiza los sesgos, perfeccionamiento la accesibilidad y garantiza un rendimiento robusto en los idiomas e inglés. Se destaca como un paso alrededor de los avances equitativos de IA, lo que hace que la tecnología sea inclusiva y representativa para los usuarios en la India y más allá.
La investigación detrás de Chitrarth-1 ha aparecido en documentos académicos prominentes como «Chitrarth: puente de visión y verbo para mil millones de personas ” (Neurips) y «Chitranuvad: acoplamiento de LLM multilingües para la traducción multimodal « (Novena conferencia sobre traducción cibernética).
Lea además: Momento de IA de la India: carreras contra China y los Estados Unidos en Genai
Edificación y parámetros de Chitrarth
Chitrarth se base en el KRUTRIM-7B LLM como su columna vertebral, aumentada por un codificador de visión basado en el maniquí SIGLIP (Siglip-So400M-Patch14-384). Su bloque incluye:
- Un codificador de visión Siglip previamente provocado para extraer características de imagen.
- Una capa de mapeo directo capacitable que proyecta estas características en el espacio de token de la LLM.
- Ajuste fino con conjuntos de datos de texto de imagen de instrucciones para un rendimiento multimodal mejorado.
Este diseño garantiza una integración perfecta de datos visuales y lingüísticos, lo que permite que Chitrarth sobresalga en tareas de razonamiento complejas.
Datos de capacitación y metodología
El proceso de capacitación de Chitrarth se desarrolla en dos etapas, utilizando un conjunto de datos multilingüe diverso:
Etapa 1: pre-entrenamiento del adaptador (PT)
- Pretrado en un conjunto de datos cuidadosamente seleccionado, traducido a múltiples idiomas indic utilizando un maniquí de código franco.
- Mantiene una división equilibrada entre el inglés y los idiomas indic para asegurar la variedad gramática y el rendimiento equitativo.
- Previene el sesgo alrededor de cualquier idioma único, optimizando para la eficiencia computacional y las capacidades robustas.
Etapa 2: Ajuste de instrucciones (IT)
- Conveniente en un arduo conjunto de datos de instrucciones para aumentar el razonamiento multimodal.
- Incorpora un conjunto de datos de ajuste de instrucciones basado en inglés y sus traducciones multilingües.
- Incluye un conjunto de datos en idioma de visión con tareas académicas e imágenes indias culturalmente diversas, como:
- Personalidades prominentes
- Monumentos
- Obra de arte
- Platos culinarios
- Cuenta con datos de texto en inglés patentados de ingreso calidad, lo que garantiza una representación equilibrada entre los dominios.
Este proceso de dos pasos equipa a Chitrarth para manejar tareas multimodales sofisticadas con matices culturales y lingüísticos.
Lea además: Top 10 llm que son bulit en la India
Rendimiento y evaluación
Chitrarth ha sido rigurosamente evaluado contra VLMS de última coexistentes como IDEFICS 2 (7B) y Palo 7B, superando constantemente los superan en varios puntos de remisión mientras permanece competitivo en tareas como TextVQA y Vizwiz. Igualmente supera la instrucción de visión de Pasión 3.2 11B en métricas secreto.
Bharatbench: un nuevo tipificado
Krutrim presenta a Bharatbench, un conjunto de evaluación integral para 10 idiomas IND de medios poco medios en tres tareas. El rendimiento de Chitrarth en Bharatbench establece una semirrecta de pulvínulo para futuras investigaciones, mostrando su capacidad única para manejar todos los idiomas incluidos. A continuación se presentan los resultados de la muestra:
Idioma | PAPA | Llava-Bench | Mmvet |
---|---|---|---|
Telugu | 79.9 | 54.8 | 43.76 |
hindi | 78.68 | 51.5 | 38.85 |
bengalí | 83.24 | 53.7 | 33.24 |
Malayalam | 85.29 | 55.5 | 25.36 |
Kannada | 85.52 | 58.1 | 46.19 |
Inglés | 87.63 | 67.9 | 30.49 |
Para memorizar más, haga clic aquí.
¿Cómo lograr a Chitrarth?
git clone https://github.com/ola-krutrim/Chitrarth.git
conda create --name chitrarth python=3.10
conda activate chitrarth
cd Chitrarth
pip install -e .
python chitrarth/inference.py --model-path "krutrim-ai-labs/Chitrarth" --image-file "assets/govt_school.jpeg" --query "Explain the image."

Ejemplos de Chitrarth-1
1. Exploración de imágenes

2. Concepción de subtítulos de imagen

3. Exploración de pantalla UI/UX

Lea además: Sutra-R0: el brinco de la India al razonamiento innovador de IA
Nota final
Una parte del liga OLA, Krutrim se dedica a crear la pila de computación AI del mañana. Cercano con Chitrarth, sus ofertas incluyen GPU como servicio, AI Studio, Ola Maps, Krutrim Assistant, Language Labs, Krutrim Silicon y Contact Center AI. Con Chitrarth-1, Krutrim AI Labs establece un nuevo tipificado para la IA inclusiva y culturalmente consciente, allanando el camino para un futuro tecnológico más equitativo.
Manténgase actualizado con los últimos acontecimientos del mundo de AI con Exploración Vidhya News!