Construya una decisión de breviario de audio sin servidor con el rock de Amazon y Whisper

Las grabaciones de reuniones de negocios, entrevistas e interacciones con los clientes se han vuelto esenciales para preservar información importante. Sin incautación, transcribir y resumir estas grabaciones manualmente a menudo requiere mucho tiempo y requiere mucho trabajo. Con el progreso en IA generativa Y el inspección forzoso de voz (ASR), han surgido soluciones automatizadas para hacer que este proceso sea más rápido y efectivo.

Proteger la información de identificación personal (PII) es un aspecto fundamental de la seguridad de los datos, impulsado por las responsabilidades éticas y los requisitos legales. En esta publicación, demostramos cómo usar el maniquí Open AI Whisper Foundation (FM) Whisper V3 Turbo, arreglado en Mercado de roca en Amazonque ofrece comunicación a más de 140 modelos a través de una proposición dedicada, para producir una transcripción casi en tiempo efectivo. Estas transcripciones se procesan luego por Roca hermana de Amazon Para breviario y redacción de información confidencial.

Amazon Bedrock es un servicio totalmente administrado que ofrece una opción de FMS de detención rendimiento de las principales compañías de inteligencia industrial como AI21 Labs, Antrópico, Agregarse, Experimentado, Luma, Meta, AI Mistral, próximo a la piscina (muy pronto), Estabilidad aiy Amazon Nova A través de una sola API, próximo con un amplio conjunto de capacidades para construir aplicaciones generativas de IA con seguridad, privacidad y IA responsable. Adicionalmente, puede usar Fraude de roca amazónica Para redactar automáticamente información confidencialincluido PII, de los resúmenes de la transcripción para apoyar las deyección de cumplimiento y protección de datos.

En esta publicación, caminamos a través de una obra de extremo a extremo que combina un frontend basado en React con Amazon Bedrock, AWS Lambday Funciones del paso de AWS para orquestar el flujo de trabajo, facilitando la integración y el procesamiento sin problemas.

Descripción genérico de la decisión

La decisión destaca el poder de integrar tecnologías sin servidor con IA generativa para automatizar y avanzar los flujos de trabajo de procesamiento de contenido. El alucinación del afortunado comienza con cargar una disco a través de una aplicación React Frontend, alojada en Amazon Cloudfront y respaldado por Servicio de almacenamiento simple de Amazon (Amazon S3) y Puerta de entrada de la API de Amazon. Cuando se carga el archivo, desencadena una máquina de estado de funciones de paso que banda los pasos de procesamiento del núcleo, utilizando modelos de IA y funciones Lambda para el flujo y transformación de datos sin problemas. El venidero diagrama ilustra la obra de la decisión.

El flujo de trabajo consta de los siguientes pasos:

La aplicación React está alojada en un cubo S3 y sirve a los usuarios a través de CloudFront para comunicación rápido y mundial. API Gateway maneja las interacciones entre los servicios de frontend y backend.
Los usuarios cargan archivos de audio o video directamente desde la aplicación. Estas grabaciones se almacenan en un cubo S3 designado para su procesamiento.
Un Amazon Eventbridge Rule detecta el evento de carga S3 y desencadena la máquina de estado de las funciones de paso, iniciando la tubería de procesamiento con IA.
La máquina de estado realiza transcripción de audio, breviario y redacción al orquestar múltiples modelos de roca hermana de Amazon en secuencia. Utiliza Whisper para la transcripción, Claude para resumir y barandillas para redactar datos confidenciales.
El breviario redactado se devuelve a la aplicación frontend y se muestra al afortunado.

El venidero diagrama ilustra el flujo de trabajo de la máquina de estado.

La máquina de estado de las funciones de paso banda una serie de tareas para transcribir, resumir y redactar información confidencial de grabaciones de audio/video cargadas:

Se activa una función Lambda para compendiar detalles de entrada (por ejemplo, la ruta del objeto de Amazon S3, metadatos) y preparar la carga útil para la transcripción.
La carga útil se envía al maniquí V3 Turbo V3 Operai Whisper a través del Amazon Bedrock Marketplace para gestar una transcripción casi en tiempo efectivo de la disco.
La transcripción sin procesar se pasa a Claude Sonnet 3.5 de Anthrope a través de Amazon Bedrock, que produce un breviario conciso y coherente de la conversación o contenido.
Una segunda función Lambda valida y reenvía el breviario al paso de redacción.
El breviario se procesa a través de barandillas de roca hermana de Amazon, que redacta automáticamente PII y otros datos confidenciales.
El breviario redactado se almacena o devuelve a la aplicación frontend a través de una API, donde se muestra al afortunado.

Requisitos previos

Ayer de comenzar, asegúrese de tener los siguientes requisitos previos en su extensión:

Crea una pasamanos en la consola de rock de Amazon

Para obtener instrucciones para crear barandillas en Amazon Bedrock, consulte Crear una pasamanos. Para obtener detalles sobre la detección y la redactación de PII, ver Eliminar PII de las conversaciones utilizando filtros de información confidencial. Configure su pasamanos con la venidero configuración de esencia:

Habilitar la detección y manejo de PII
Establecer la batalla de PII para redactar
Agregue los tipos de PII relevantes, como:
- Nombres e identidades
- Números de teléfono
- Direcciones de correo electrónico
- Direcciones físicas
- Información financiera
- Otra información personal confidencial

Luego de implementar la pasamanos, tenga en cuenta el nombre del memorial de Amazon (ARN), y usará esto cuando implementa el maniquí.

Desplegar el maniquí Whisper

Complete los siguientes pasos para implementar el maniquí de turbo V3 Whisper ancho:

En la consola de rock de Amazon, elija Catálogo de modelos bajo Modelos de almohadilla En el panel de navegación.
Despabilarse y designar Susurros grandes v3 turbo.
En el menú de opciones (tres puntos), elija Desplegar.

Modifique el nombre del punto final, el número de instancias y el tipo de instancia para adaptarse a su caso de uso específico. Para esta publicación, utilizamos la configuración predeterminada.
Modificar el Configuración vanguardia sección para adaptarse a su caso de uso. Para esta publicación, utilizamos la configuración predeterminada.
Nominar Desplegar.

Esto crea un nuevo Encargo de identidad y comunicación de AWS IAM rol e implementa el maniquí.

Puedes designar Despliegues de mercado en el panel de navegación, y en el Implementaciones administradas Sección, puede ver el estado de punto final como Creación. Espere a que el punto final finalice la implementación y el estado para cambiar a Al servicioluego copie el nombre del punto final, y usará esto al implementar el

Implementar la infraestructura de decisión

En el Repositorio de Githubsiga las instrucciones en el Archivo readme Para clonar el repositorio, luego implementa la infraestructura frontend y de backend.

Usamos el Kit de exposición de la aglomeración de AWS (AWS CDK) para delimitar e implementar la infraestructura. El código AWS CDK implementa los siguientes fortuna:

Reaccionar la aplicación frontend
Infraestructura de back -end
Cubos S3 para juntar cargas y resultados procesados
Funciones de paso Máquina de estado con funciones lambda para el procesamiento de audio y redacción PII
Puntos finales de API Gateway para solicitudes de manejo
Roles y políticas de IAM para comunicación seguro
Distribución de Cloudfront para penetrar el frontend

Implementación de sumersión profundo

El backend se compone de una secuencia de funciones lambda, cada una manejando una etapa específica de la tubería de procesamiento de audio:

Manejador de carga – Recibe archivos de audio y los almacena en Amazon S3
Transcripción con susurro – Convierte el discurso en texto usando el maniquí Whisper
Detección de altavoces – Diferenciar y etiquetar altavoces individuales internamente del audio
Síntesis con roca hermana de Amazon – extrae y resume los puntos esencia de la transcripción
PII Redacción – Utiliza barandillas de roca hermana de Amazon para eliminar información confidencial para el cumplimiento de la privacidad

Examinemos algunos de los componentes esencia:

La función Lambda de transcripción utiliza el maniquí Whisper para convertir los archivos de audio en texto:

def transcribe_with_whisper(audio_chunk, endpoint_name):
    # Convert audio to hex string format
    hex_audio = audio_chunk.hex()
    
    # Create payload for Whisper model
    payload = {
        "audio_input": hex_audio,
        "language": "english",
        "task": "transcribe",
        "top_p": 0.9
    }
    
    # Invoke the SageMaker endpoint running Whisper
    response = sagemaker_runtime.invoke_endpoint(
        EndpointName=endpoint_name,
        ContentType="application/json",
        Body=json.dumps(payload)
    )
    
    # Parse the transcription response
    response_body = json.loads(response('Body').read().decode('utf-8'))
    transcription_text = response_body('text')
    
    return transcription_text

Utilizamos la roca hermana de Amazon para gestar resúmenes concisos a partir de las transcripciones:

def generate_summary(transcription):
    # Format the prompt with the transcription
    prompt = f"{transcription}nnGive me the summary, speakers, key discussions, and action items with owners"
    
    # Call Bedrock for summarization
    response = bedrock_runtime.invoke_model(
        modelId="anthropic.claude-3-5-sonnet-20240620-v1:0",
        body=json.dumps({
            "prompt": prompt,
            "max_tokens_to_sample": 4096,
            "temperature": 0.7,
            "top_p": 0.9,
        })
    )
    
    # Extract and return the summary
    result = json.loads(response.get('body').read())
    return result.get('completion')

Un componente crítico de nuestra decisión es la redacción cibernética de PII. Implementamos esto utilizando barandillas de roca hermana de Amazon para apoyar el cumplimiento de las regulaciones de privacidad:

def apply_guardrail(bedrock_runtime, content, guardrail_id):
# Format content according to API requirements
formatted_content = ({"text": {"text": content}})

# Call the guardrail API
response = bedrock_runtime.apply_guardrail(
guardrailIdentifier=guardrail_id,
guardrailVersion="DRAFT",
source="OUTPUT",  # Using OUTPUT parameter for proper flow
content=formatted_content
)

# Extract redacted text from response
if 'action' in response and response('action') == 'GUARDRAIL_INTERVENED':
if len(response('outputs')) > 0:
output = response('outputs')(0)
if 'text' in output and isinstance(output('text'), str):
return output('text')

# Return llamativo content if redaction fails
return content

Cuando se detecta PII, se reemplaza con indicadores de tipo (por ejemplo, {teléfono} o {correo electrónico}), asegurándose de que los resúmenes permanezcan informativos mientras protegen datos confidenciales.

Para establecer la tubería de procesamiento compleja, utilizamos funciones de paso para orquestar las funciones Lambda:

{
"Comment": "Audio Summarization Workflow",
"StartAt": "TranscribeAudio",
"States": {
"TranscribeAudio": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"Parameters": {
"FunctionName": "WhisperTranscriptionFunction",
"Payload": {
"bucket": "$.bucket",
"key": "$.key"
}
},
"Next": "IdentifySpeakers"
},
"IdentifySpeakers": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"Parameters": {
"FunctionName": "SpeakerIdentificationFunction",
"Payload": {
"Transcription.$": "$.Payload"
}
},
"Next": "GenerateSummary"
},
"GenerateSummary": {
"Type": "Task",
"Resource": "arn:aws:states:::lambda:invoke",
"Parameters": {
"FunctionName": "BedrockSummaryFunction",
"Payload": {
"SpeakerIdentification.$": "$.Payload"
}
},
"End": true
}
}
}

Este flujo de trabajo se asegura de que cada paso se complete con éxito ayer de continuar con el venidero, con el manejo de errores automáticos y el reintento de la razonamiento incorporada.

Prueba la decisión

Luego de suceder completado con éxito la implementación, puede usar la URL de CloudFront para probar la funcionalidad de la decisión.

Consideraciones de seguridad

La seguridad es un aspecto crítico de esta decisión, y hemos implementado varias mejores prácticas para apoyar la protección y el cumplimiento de los datos:

Redacción de datos confidencial – Redacta automáticamente a PII para proteger la privacidad del afortunado.
Permisos de IAM de forúnculo fino – Aplicar el principio de pequeño privilegio en los servicios y fortuna de AWS.
Controles de comunicación de Amazon S3 – Use políticas de cubo estrictas para amurallar el comunicación a usuarios y roles autorizados.
Seguridad de la API – Seguro puntos finales de API usando Amazon Cognito para la autenticación del afortunado (opcional pero recomendado).
Protección contra la aglomeración – Haga cumplir HTTPS y aplique protocolos TLS modernos para solucionar la entrega segura de contenido.
Amazon Bedrock Data Security – Amazon Bedrock (incluido Amazon Bedrock Marketplace) protege los datos de los clientes y no envía datos a proveedores ni capacitación utilizando datos del cliente. Esto asegura que su información patentada se mantenga segura al usar capacidades de IA.

Apañar

Para evitar cargos innecesarios, asegúrese de eliminar los fortuna aprovisionados para esta decisión cuando haya terminado:

Elimine la pasamanos de roca hermana de Amazon:
1. En la consola de rock de Amazon, en el menú de navegación, elija Barandas.
2. Elija su pasamanos, luego elija Borrar.
Elimine el maniquí de turbo V3 Whisper V3 desplegado a través del mercado de roca en Amazon:
1. En la consola de rock de Amazon, elija Despliegues de mercado En el panel de navegación.
2. En el Implementaciones administradas Sección, seleccione el punto final implementado y elija Borrar.
Eliminar la pila de CDK de AWS ejecutando el comando cdk destroyque elimina la infraestructura de AWS.

Conclusión

Esta decisión de breviario de audio sin servidor demuestra los beneficios de combinar servicios de AWS para crear una aplicación sofisticada, segura y escalable. Mediante el uso de la roca hermana de Amazon para las capacidades de IA, Lambda para el procesamiento sin servidor y el frente de la aglomeración para la entrega de contenido, hemos creado una decisión que puede manejar grandes volúmenes de contenido de audio de modo efectivo mientras lo ayudamos a alinearse con las mejores prácticas de seguridad.

La función cibernética de redacción PII respalda el cumplimiento de las regulaciones de privacidad, lo que hace que esta decisión sea adecuada para industrias reguladas como la atención médica, las finanzas y los servicios legales donde la seguridad de los datos es primordial. Para comenzar, implemente esta obra internamente de su entorno AWS para acelerar sus flujos de trabajo de procesamiento de audio.

Sobre los autores

Kaiyin hu es un arquitecto de soluciones senior para cuentas estratégicas en Amazon Web Services, con primaveras de experiencia entre empresas, nuevas empresas y servicios profesionales. Actualmente, ella ayuda a los clientes a construir soluciones en la aglomeración e impulsa la apadrinamiento de Genai a la aglomeración. Anteriormente, Kaiyin trabajó en el dominio Smart Home, ayudando a los clientes a integrar las tecnologías de voz e IoT.

Sid Vantair es un arquitecto de soluciones con AWS que cubre cuentas estratégicas. Él prospera en resolver problemas técnicos complejos para exceder los obstáculos de los clientes. Fuera del trabajo, aprecia acaecer tiempo con su tribu y fomentar la curiosidad en sus hijos.

Etiquetado Amazon, audio, con, Construya, Resumen, rock, servidor, sin, solución, Una, Whisper