La transcripción comparada
¿Qué precisión tiene scryp en español y qué seguridad ofrece a tus datos frente a los grandes servicios en la nube? Estos son los resultados de nuestro benchmark.
Precisión de transcripción en español
Tasa de error por palabra (WER): cuanto más baja, mejor. Precisión = 100 % − WER.
← Desliza la tabla →
| Proveedor | General (precisión) | Dominio especializado (precisión) | WER general |
|---|---|---|---|
| scrypSX-3 | 97.2 % | 96.1 % | 2.8 % |
| OpenAIWhisper Large v3 | 91.8 % | 83.5 % | 8.2 % |
| Google STTCloud Speech-to-Text | 88.5 % | 80.2 % | 11.5 % |
| Azure SpeechMicrosoft Cognitive | 87.9 % | 78.7 % | 12.1 % |
| AWS TranscribeAmazon Standard | 85.7 % | 75.9 % | 14.3 % |
Conjunto de prueba y metodología
- La base es un conjunto propio de grabaciones de audio públicas de tu mercado en los dominios General, Salud y Derecho.
- Todos los proveedores se probaron con los mismos archivos de audio y una metodología uniforme (WER tras normalización estándar).
- La columna Dominio especializado muestra el promedio de grabaciones de salud y derecho. Con vocabulario técnico, la tasa de error sube en todos los proveedores, pero mucho más en modelos sin entrenamiento específico.
- Los resultados pueden variar según la calidad del audio, el número de hablantes, el dialecto y el caso concreto.
Por qué scryp está diseñado de forma distinta para contenidos sensibles
Estos puntos describen la arquitectura de scryp. Son deliberadamente precisos y no pretenden ser una afirmación general sobre los demás proveedores.
Cifrado en tu dispositivo
Los archivos se cifran en el navegador antes de subirse. El contenido almacenado permanece siempre cifrado.
Arquitectura europea clara
Transcripción en Austria y almacenamiento cifrado en Alemania, ambos en la UE. Así queda claro dónde ocurre cada paso del procesamiento.
Infraestructura de procesamiento propia
La transcripción no recurre a terceros de IA externos. Eso reduce flujos de datos y dependencias adicionales.
Flujo de trabajo productivo en el navegador
Edición, exportación, compartición y sincronización de audio están integradas en el producto, no solo como bloques de API sueltos.
Fuentes y documentación
Las funciones de los proveedores se verificaron con su documentación oficial. Las cifras de precisión se basan en el conjunto de prueba descrito arriba.
Modelos y precisión
- Radford et al. (2022): Robust Speech Recognition via Large-Scale Weak Supervision - OpenAI Whisper Paper
- OpenAI Whisper Repository - Modelle und Sprachen
- faster-whisper (SYSTRAN) - CTranslate2-basierte Whisper-Implementierung
- pyannote.audio 3.x - Speaker Diarization Pipeline
- Mozilla Common Voice - Offener Sprachdatensatz
Documentación de proveedores
- Google Cloud Speech-to-Text - Funktionsübersicht und Spracherkennung
- Google Cloud Speech-to-Text - Speaker Diarization
- Microsoft Azure Speech Service - Übersicht und Dokumentation
- Azure Speech - Real-time diarization quickstart
- Amazon Transcribe - Entwicklerhandbuch
- Amazon Transcribe - Speaker partitioning (Diarization)
¿Todo listo para una transcripción segura?
Prueba scryp gratis: cifrado desde el primer segundo.