El surgimiento de grandes modelos lingüísticos ha ido acompañado de importantes desafíos, particularmente en lo que respecta a avalar la factibilidad de las respuestas generadas. Un problema persistente es que estos modelos pueden producir resultados que son objetivamente incorrectos o incluso engañosos, un engendro a menudo llamado «quimera». Estas alucinaciones ocurren cuando los modelos generan información que suena segura pero incorrecta o no verificable. Dada la creciente dependencia de la inteligencia químico para obtener información, la precisión objetiva se ha vuelto crítica. Sin confiscación, evaluar esta precisión no es factible, especialmente cuando se prostitución de formularios extensos llenos de múltiples afirmaciones fácticas.
OpenAI recientemente de código destapado control de calidad simple: un nuevo punto de remisión que mide la factibilidad de las respuestas generadas por modelos de verbo. SimpleQA es único en su enfoque en preguntas breves de búsqueda de hechos con una respuesta única e indiscutible, lo que facilita la evaluación de la exactitud fáctica de las respuestas del maniquí. A diferencia de otros puntos de remisión que a menudo quedan obsoletos o saturados con el tiempo, SimpleQA fue diseñado para seguir siendo un desafío para los últimos modelos de IA. Las preguntas en SimpleQA se crearon de guisa contradictoria con las respuestas de GPT-4, lo que garantiza que incluso los modelos de verbo más avanzados tengan dificultades para responderlas correctamente. El punto de remisión contiene 4326 preguntas que abarcan varios dominios, incluidos historia, ciencia, tecnología, arte y entretenimiento, y está diseñado para evaluar enormemente tanto la precisión como la calibración del maniquí.

El diseño de SimpleQA sigue principios específicos para avalar que sirva como un punto de remisión sólido. En primer circunscripción, las preguntas se crean teniendo en cuenta un suspensión nivel de corrección: cada pregunta tiene una respuesta de remisión determinada por dos formadores de IA independientes para avalar la coherencia. El conjunto de datos se seleccionó para centrarse sólo en preguntas que se pueden objetar con una respuesta única y clara, lo que evita la doble sentido y simplifica la calificación. Por otra parte, la calificación se lleva a límite mediante un clasificador ChatGPT, que evalúa las respuestas como «correctas», «incorrectas» o «no intentadas». Esta estructura sencilla permite a los investigadores evaluar cómo se desempeñan los modelos bajo restricciones fácticas.
La diversificación de preguntas es otro beneficio esencia de SimpleQA. Cuenta con un amplio conjunto de temas para evitar la especialización del maniquí y avalar una evaluación integral. Por otra parte, la usabilidad del conjunto de datos se ve reforzada por su simplicidad: tanto las preguntas como las respuestas son breves, lo que hace que la evaluación comparativa sea rápida y reduce la variación durante las ejecuciones de evaluación. Es importante destacar que SimpleQA igualmente incorpora preguntas cuya relevancia se ha verificado a lo dilatado del tiempo, eliminando así la influencia del cambio de información y convirtiéndolo en un punto de remisión «imperecedero».
La importancia de SimpleQA radica en su evaluación específica de las capacidades fácticas de los modelos de verbo. En un panorama donde muchos puntos de remisión han sido «resueltos» por modelos recientes, SimpleQA está diseñado para seguir siendo un desafío incluso para modelos de vanguardia como GPT-4 y Claude. Por ejemplo, modelos como GPT-4o obtuvieron solo más o menos del 38,4% en términos de respuestas correctas, lo que destaca la capacidad del punto de remisión para investigar áreas donde incluso los modelos avanzados enfrentan dificultades. Otros modelos, incluido Claude-3.5, tuvieron un rendimiento similar o peor, lo que indica que SimpleQA plantea un desafío constante en todos los tipos de modelos. Por lo tanto, este punto de remisión proporciona información valiosa sobre la calibración y confiabilidad de los modelos lingüísticos, en particular su capacidad para discernir cuándo tienen suficiente información para objetar con confianza y correctamente.

Por otra parte, las métricas de calificación de SimpleQA brindan información matizada sobre el comportamiento del maniquí. El punto de remisión calcula no sólo el porcentaje de preguntas respondidas correctamente, sino que igualmente mide el «intento correcto regalado», una métrica similar a la precisión. Estas dos métricas se combinan para obtener una puntuación F, que ofrece una medida de factibilidad de un solo número. En particular, los resultados de SimpleQA sugieren que los modelos de verbo tienden a exagerar su confianza, con una gran cantidad de intentos incorrectos. El descomposición revela que, si aceptablemente los modelos más grandes demuestran una mejor calibración (lo que significa que reconocen mejor cuando saben la respuesta correcta), la precisión común deja ganancia de prosperidad.
SimpleQA es un paso importante con destino a la prosperidad de la confiabilidad de la información generada por IA. Al centrarse en preguntas breves basadas en hechos, proporciona un punto de remisión práctico y factible de usar que ayuda a evaluar un aspecto crítico de los modelos lingüísticos: su capacidad para difundir contenido factual de guisa consistente. Regalado el diseño contradictorio del punto de remisión, SimpleQA establece un suspensión nivel de precisión, alentando a los investigadores y desarrolladores a crear modelos que no solo generen verbo sino que lo hagan con sinceridad. El código destapado de SimpleQA proporciona a la comunidad de IA una aparejo valiosa para evaluar y mejorar la precisión objetiva de los modelos de verbo, ayudando a avalar que los futuros sistemas de IA puedan ser informativos y confiables.
Mira el Papel, Detallesy Página de GitHub. Todo el crédito por esta investigación va a los investigadores de este esquema. Por otra parte, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
(Tendencia) LLMWare presenta Model Depot: una amplia colección de modelos de verbo pequeño (SLM) para PC Intel
Asif Razzaq es el director ejecutor de Marktechpost Media Inc.. Como patrón e ingeniero fantasioso, Asif está comprometido a disfrutar el potencial de la inteligencia químico para el aceptablemente social. Su esfuerzo más nuevo es el propagación de una plataforma de medios de inteligencia químico, Marktechpost, que se destaca por su cobertura en profundidad del enseñanza espontáneo y las telediario sobre enseñanza profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el notorio.