Cómo usar IA en local en tu móvil y ordenador

  • La IA local te permite usar modelos como Llama o DeepSeek sin conexión y con máxima privacidad.
  • El hardware (RAM, VRAM y CPU) determina el tamaño y velocidad de los modelos que puedes ejecutar.
  • Herramientas como Ollama, LM Studio, Jan o GPT4All facilitan instalar y gestionar modelos en PC.
  • En móvil, apps como PocketPal AI, MNN Chat o Private LLM llevan la IA local a Android e iOS.

usar ia en local

Instalar y usar inteligencia artificial en local en tu móvil u ordenador ya no es cosa de frikis ni de empresas enormes. Hoy cualquiera puede montarse su propio “ChatGPT casero” con modelos abiertos como Llama, DeepSeek, Phi, Gemma o Mistral y tenerlos funcionando sin conexión a Internet, con tus datos quedándose siempre en tu equipo.

La idea es sencilla: en vez de mandar tus consultas a los servidores de OpenAI, Google o Anthropic, descargas un modelo de IA y lo ejecutas tú mismo. Eso implica algunas renuncias en potencia y comodidad, pero a cambio ganas privacidad, control total sobre la configuración y libertad para personalizar la IA a tu gusto. Vamos a ver, con calma pero sin enredar demasiado, qué puedes hacer, qué necesitas y cuáles son las mejores aplicaciones para montar tu IA local tanto en móvil como en PC.

Qué es realmente “usar IA en local” y por qué puede interesarte

Cuando se habla de usar IA en local nos referimos a ejecutar los modelos de inteligencia artificial directamente en tu dispositivo: el modelo, sus pesos y todo el procesamiento se hacen en tu PC, portátil o móvil, sin depender de servidores externos. Esto contrasta con los asistentes típicos como ChatGPT, Gemini, Copilot o Claude, que corren en la nube y solo te devuelven el resultado.

Al hacerlo así, cualquier prompt, documento o dato sensible que utilices no sale de tu máquina. Nada pasa por los servidores de terceros, salvo que tú decidas explícitamente conectar con modelos comerciales a través de API. Para muchos usos cotidianos (preguntar dudas, escribir correos, generar código, etc.) los asistentes online son suficientes, pero si manejas información médica, financiera, legal o corporativa, la posibilidad de que haya una filtración en la nube deja de ser aceptable.

Además, ejecutar IA en local te permite experimentar con modelos de código abierto sin las restricciones habituales: menos filtros de contenido, posibilidad de modificar el comportamiento, ajustar el sistema de instrucciones o combinarlo con datos propios (RAG, agentes, herramientas externas…). Eso sí, estos modelos suelen ser menos potentes que los gigantes comerciales y necesitan hardware decente para ir fluidos.

Ventajas y riesgos de la IA en la nube frente a la IA local

Los asistentes en la nube son muy cómodos porque no dependen de la potencia de tu equipo: puedes usar GPT-4, Gemini o Claude en un portátil modesto o en el móvil sin preocuparte de la RAM o de la GPU. Suelen tener mejor acceso a información actualizada, plugins, búsqueda web y una experiencia pulida.

La parte negativa es que todo lo que escribes queda registrado en algún punto del servidor, al menos temporalmente. Ha habido incidentes en los que conversaciones o datos internos han quedado expuestos por fallos de seguridad. Si solo generas cuentos, ideas creativas o itinerarios de viaje, el riesgo es muy bajo; pero si introduces contraseñas, números de tarjeta, informes médicos o datos de clientes, la cosa cambia.

Con una IA local, el procesamiento se hace íntegramente en tu ordenador o móvil. No hay terceros viendo los datos y puedes trabajar completamente sin conexión. El precio a pagar es que necesitas un dispositivo con suficiente RAM, VRAM y almacenamiento, además de lidiar con instalaciones, descargas de modelos y cierta configuración inicial. Por defecto, además, estos modelos no tienen acceso a Internet ni buscan información en tiempo real, salvo que tú configures explícitamente esa capacidad.

El enfoque más equilibrado suele ser combinar ambos mundos: modelos locales para contenido sensible y tareas internas, y modelos en la nube para consultas generales, búsquedas en web o trabajos que requieran la máxima calidad en generación de texto, imagen o código.

Qué hardware necesitas para ejecutar IA en local

No hace falta tener un superordenador para empezar, pero sí conviene saber qué recursos marcan la diferencia al usar modelos en local. Los requisitos varían según el tipo de modelo (texto, imagen, multimodal) y su tamaño, pero hay algunos puntos comunes.

En modelos de lenguaje grandes (LLM) la clave está en la RAM y la memoria de vídeo. La RAM determina si el modelo cabe o no y cuántos procesos paralelos puedes ejecutar, mientras que la VRAM de la GPU influye en la velocidad de generación. Con muy poca RAM o VRAM, la IA local funciona a paso de tortuga: 1-2 palabras por segundo, suficiente para experimentar pero desesperante para uso diario.

Como base razonable para ordenador de sobremesa o portátil, se suele recomendar a partir de 16 GB de RAM, CPU moderna (por ejemplo, un Core i7 de 2017 con soporte para AVX2 ya puede servir), y una GPU con al menos 4 GB de VRAM. Con menos que eso puedes arrancar modelos pequeños, pero tendrás que elegir versiones muy comprimidas y aceptar tiempos de respuesta lentos.

En Mac, los chips Apple Silicon (M1, M2 y posteriores) tienen ventaja porque la memoria unificada actúa como VRAM. El sistema puede usar hasta el 75 % de la RAM como memoria de vídeo, lo que permite manejar modelos bastante grandes en un MacBook Pro o un Mac Studio, especialmente en versiones Max o Ultra con mucha RAM.

La buena noticia es que existen modelos cuantizados y simplificados que se ejecutan de forma decente incluso en hardware viejo, sacrificando algo de precisión pero manteniendo una calidad más que aceptable para tareas de texto, resúmenes o pequeñas ayudas de codificación.

Conceptos básicos: modelos, parámetros, contexto y cuantización

Un LLM (Large Language Model) es el “cerebro” del asistente de IA. Es el archivo grande que descargas y que contiene los pesos entrenados: números que representan el conocimiento y las reglas con las que el modelo genera texto. Modelos como Llama 2, Mistral, Gemma, Phi o DeepSeek son bases sobre las que luego se construyen variantes especializadas.

La mayoría de modelos que encontrarás son “fine-tunes”: versiones afinadas para tareas concretas (diálogo, programación, matemáticas, rol, traducción…). Nombres como Wizard, Vicuna, Nous-Hermes, CodeLlama, WizardMath o Orca Mini indican distintos entrenamientos adicionales. Muchas veces se combinan (por ejemplo, un modelo Wizard-Vicuna) para intentar sacar lo mejor de varios ajustes.

El tamaño del modelo se expresa en miles de millones de parámetros (3B, 7B, 13B, 34B, 70B…). Cuantos más parámetros, más capaz suele ser el modelo, aunque también crece el consumo de memoria. Un 70B puede comportarse casi como una persona en conversación larga, mientras un 3B puede atascarse si el diálogo se complica. Curiosamente, muchos usuarios consideran que los modelos de 13B bien afinados dan una relación calidad/rendimiento excelente para uso general.

Otro concepto clave es el contexto: la “ventana” de memoria que el modelo utiliza para generar cada respuesta. Los Llama originales manejaban unas 2048 fichas de contexto (aprox. 1500 palabras), Llama 2 suele subir a 4096 o más, y los modelos modernos amplían aún más esta ventana. Cuanto mayor el contexto, más historial de conversación, instrucciones y documentos puedes enviar de una vez antes de que el modelo “olvide” lo anterior.

Por último, está la cuantización, que es la técnica que permite que estos modelos gigantes quepan en ordenadores normales. Los pesos del modelo se guardan originalmente con alta precisión (por ejemplo, 16 bits), pero se pueden redondear a 8, 4 o incluso 2 bits, reduciendo drásticamente el tamaño del archivo y la memoria necesaria, a costa de perder algo de precisión.

En la práctica, un modelo grande fuertemente cuantizado (por ejemplo, 34B en 3 bits) puede rendir mejor que un modelo pequeño con pesos más precisos, porque el número de parámetros pesa más que la precisión bruta. El juego está en encontrar la combinación más grande que quepa en tu VRAM y que responda a una velocidad aceptable.

Dónde conseguir modelos de IA y qué formatos existen

El gran repositorio de referencia para descargar modelos abiertos es Hugging Face. Su sección de modelos permite filtrar por tamaño, tipo de tarea, licencia, cuantización y muchas otras variables. Desde allí puedes bajar modelos de Llama, Mistral, Gemma, DeepSeek, Phi y decenas de variantes entrenadas por la comunidad.

Cuando mires modelos verás varios formatos de archivo. Los más habituales hoy son GGUF, GPTQ y exl2, además de formatos más antiguos como GGML. Cada uno está pensado para un tipo de ejecución distinto (CPU+GPU, GPU pura, diferentes librerías). Muchas aplicaciones modernas se llevan especialmente bien con modelos en formato GGUF, que son herederos del antiguo GGML y funcionan combinando CPU y GPU con bastante eficiencia.

También hay modelos ya cuantizados a distintas precisiones (q2, q3, q4, q5, q6, q8), a veces con sufijos como K_S, K_M o K_L que indican variantes de cuantización. Por regla general, suele ser mejor usar un modelo más grande con una cuantización moderada que uno pequeño con mucha precisión si tu hardware lo permite.

Si el modelo que te interesa no existe en la cuantización que necesitas, puedes cuantizarlo tú con herramientas como GPTQ u otras utilidades especializadas, aunque para empezar suele ser más práctico elegir uno de los muchos modelos ya preparados.

Las mejores apps para tener IA local en tu móvil

Si quieres llevarte tu asistente de IA en el bolsillo, hay varias aplicaciones que permiten descargar y ejecutar modelos LLM directamente en el móvil, tanto en Android como en iOS. Ten en cuenta que los modelos ocupan bastante espacio, así que conviene revisar bien la memoria libre antes de lanzarte.

PocketPal AI es una de las apps de referencia en móviles para tener IA local. Es gratuita, de código abierto y está disponible tanto en Android como en iOS. Su gran ventaja es que se integra directamente con Hugging Face, de modo que puedes navegar y descargar modelos desde el propio móvil, sin tener que pelearte con descargas manuales ni rutas de archivos extrañas.

Desde PocketPal AI puedes elegir entre montones de modelos diferentes, ajustar parámetros básicos y decidir si quieres priorizar velocidad o calidad. El diseño se centra en la sencillez: una interfaz de chat limpia y una gestión de modelos bastante directa para ser una herramienta móvil.

En Android, MNN Chat destaca por ser una de las opciones más rápidas y por integrar soporte multimodal completo. Esto significa que puedes enviar texto, imágenes o incluso audios como parte del prompt, utilizando distintos modelos para visión, texto o generación de imágenes. La aplicación incluye catálogo interno de modelos y facilita muchísimo su descarga e instalación local.

Para usuarios de iOS que buscan algo más pulido, Private LLM es una alternativa premium de pago único (en torno a los 5 dólares). Incluye más de 60 modelos curados y emplea cuantización avanzada para apurar el rendimiento en dispositivos Apple. Se integra con Siri y Atajos de Apple, y puede usarse tanto en iPhone como en iPad y Mac, con opciones para compartir la compra vía Family Sharing.

En Android también tienes Google AI Edge Gallery, una app de Google orientada a probar y gestionar modelos de IA en el propio dispositivo para tareas como clasificación y consulta de imágenes, transcripción de audio o chat. Es de código abierto, pero aún está en desarrollo, así que es normal encontrarse errores o funciones inacabadas.

Para el ecosistema Apple, Locally AI ofrece una experiencia muy cuidada visualmente y está optimizada para procesadores Apple Silicon. Permite usar modelos de lenguaje y visión de código abierto, tiene modo de voz local y ofrece integración con Siri y Atajos. La idea es recrear la sensación de una app tipo ChatGPT pero con todo funcionando offline y sin depender de servidores externos.

En Android también vas a encontrar AnythingLLM en versión móvil. Esta app apuesta menos por tener un catálogo enorme y más por ofrecer unos pocos modelos rápidos y bien optimizados para móviles. Incluye un modo de agente que permite hacer cosas como leer páginas web, hacer búsquedas, interactuar con otras aplicaciones o usar tu ubicación. Si necesitas más potencia, puedes conectar con modelos comerciales en la nube, a costa de perder algo de privacidad.

Otra opción en Android es SmolChat, pensada para descargar y ejecutar modelos de IA populares localmente con una interfaz adaptada a Android. Ofrece bastantes opciones de personalización y permite fijar chats favoritos como accesos directos en la pantalla de inicio.

Aplicaciones para instalar IA local en tu ordenador

En escritorio, la oferta es todavía más amplia; incluso hay apps de escritorio con búsqueda e IA que comienzan a integrar funciones potentes. Hay desde herramientas muy simples que solo muestran una ventana de chat hasta plataformas avanzadas con agentes, conectores a servicios externos y servidores locales compatibles con API estilo OpenAI.

Ollama se ha convertido en una de las opciones más populares para montar IA local en PC. Es gratuita, de código abierto y está disponible para Windows, macOS y GNU/Linux. No trae una interfaz gráfica compleja: se maneja principalmente por comandos, lo que lo hace muy ligero y fácil de automatizar.

Con Ollama puedes instalar modelos como DeepSeek, Llama, Phi, Gemma, Mistral, Qwen y otros, en distintas variantes según el número de parámetros. Por ejemplo, DeepSeek-R1 en versión 7B ocupa unos pocos gigas y puede funcionar en equipos con 8 GB de RAM, mientras que versiones gigantes con cientos de miles de millones de parámetros requieren decenas o cientos de gigas de RAM y varias GPUs, algo reservado a entornos profesionales.

La instalación de modelos en Ollama se basa en comandos muy sencillos, por ejemplo ollama run deepseek-r1:8b. El propio programa se encarga de descargar el modelo, mostrar el progreso y dejarlo listo para chatear desde la terminal o para exponerlo como servicio local que otras aplicaciones puedan usar. Si tu tarjeta gráfica tiene suficiente VRAM, el rendimiento de generación puede ser muy bueno incluso con modelos medianos.

Si prefieres algo con interfaz gráfica, LM Studio ofrece una aplicación unificada para buscar, descargar y ejecutar modelos de IA. Es de código abierto y tiene versiones para Windows, macOS y Linux. Desde su buscador integrado puedes localizar modelos de Hugging Face, aplicar filtros, descargarlos y lanzarlos directamente en una ventana de chat.

LM Studio permite usar los modelos en su propia interfaz o exponerlos como servidor local compatible con la API de OpenAI. Esto hace que muchas herramientas pensadas para ChatGPT (clientes de chat, plugins, integraciones caseras) puedan funcionar con tu modelo local simplemente cambiando la URL de la API. También permite trabajar con documentos locales, hacer resúmenes, traducciones y otras tareas complejas de texto sin conexión.

Otra herramienta muy potente es AnythingLLM en su versión de escritorio. Es de código abierto y está orientada a montar un entorno de trabajo completo: chatear con documentos, ejecutar agentes de IA que realicen tareas por ti, conectar con modelos locales y también con proveedores en la nube (OpenAI, Azure y otros) si lo deseas. Tiene una arquitectura flexible con varios componentes y se centra mucho en la privacidad y la personalización.

GPT4All es otra solución popular para escritorio. Es de código abierto y puede funcionar usando solo la CPU o aprovechando la GPU cuando está disponible. Permite instalar hasta alrededor de un millar de modelos diferentes de lenguaje, incluyendo DeepSeek, LLaMA, Mistral, Nous-Hermes y muchos más. Cuenta con versiones para Windows (incluida ARM), macOS y Ubuntu.

Aunque la aplicación completa es de pago, suele ofrecer una versión gratuita con tokens limitados suficiente para uso ligero o pruebas. Su gran ventaja es que está muy orientada a usuarios que no quieren complicarse con instalaciones manuales: se descarga, se elige un modelo del catálogo y listo.

Jan es otro programa de código abierto con millones de descargas que permite ejecutar modelos de código abierto (Llama, Gemma, Mistral…) y conectarse a servicios externos como OpenAI o Anthropic. Todo el almacenamiento de datos se hace localmente y ofrece versiones para Windows, macOS y GNU/Linux, con soporte para GPUs NVIDIA (CUDA), AMD (Vulkan) e Intel Arc.

Jan incorpora además un sistema de extensiones y conectores para trabajar con Gmail, Amazon, Google, YouTube, Google Drive y otros servicios, así como un sistema de memorias locales que se ejecutan en tu propio dispositivo. Es una buena opción como “centro de mando” de tus IAs, combinando local y nube.

Para usuarios avanzados, Msty Studio (a veces citado como Msty Studio) ofrece una de las experiencias más ricas en funciones. Soporta modelos locales a través de Ollama, llama.cpp y MLX, y también puede conectarse a proveedores en la nube para usar modelos comerciales. Permite integrar APIs, herramientas MCP, stacks de conocimiento y crear flujos de trabajo personalizados, priorizando siempre que los datos sensibles no abandonen tu entorno.

Si te interesa ir más al bajo nivel, llama.cpp es un pequeño programa de código abierto diseñado para ejecutar localmente modelos basados en LLaMA de Meta. Funciona tanto sobre CPU como sobre GPU y es la base sobre la que se construyen muchas otras herramientas. Es algo más complejo de manejar, pero muy eficiente y flexible, ideal si quieres aprender cómo funciona todo por dentro.

Otra pieza interesante es Llamafile, un proyecto de Mozilla Builders que combina llama.cpp con Cosmopolitan Libc para empaquetar modelos de IA como archivos ejecutables independientes. Esto facilita distribuir modelos que puedan ejecutarse en Windows, Linux, macOS o BSD simplemente lanzando un único archivo, sin instalaciones complejas.

Además, aparecen herramientas especializadas como Chat With RTX de NVIDIA, un chatbot local pensado para PCs con Windows, 16 GB de RAM y una GPU RTX serie 30 o 40 con al menos 8 GB de VRAM. Puede resumir vídeos de YouTube, procesar conjuntos de documentos y realizar otras tareas aprovechando modelos como Mistral y Llama 2. Es una beta pesada (en torno a 40 GB) y algo delicada de instalar, pero muestra hacia dónde va el ecosistema de asistentes locales acelerados por GPU.

Cómo organizar un flujo de trabajo práctico con IA local

Para sacarle jugo de verdad a la IA en local conviene pensar en flujos de trabajo concretos, no solo en “chatear con la máquina”. Un ejemplo típico es el procesamiento de documentos confidenciales: informes médicos, contratos, estados financieros o documentación interna de empresa.

Con un modelo local puedes cargar PDFs o imágenes escaneadas, transcribirlos, obtener resúmenes adaptados al nivel de conocimiento del destinatario (técnico, paciente, cliente…), generar borradores de correos o informes y traducirlos a otros idiomas, todo sin que esos datos salgan de tu ordenador. Herramientas como LM Studio, AnythingLLM o Jan permiten combinar lectura de documentos con chat, lo que facilita mucho estas tareas.

En la parte creativa, una IA local puede encargarse de generar imágenes, reinterpretar escenas, modernizar estilos antiguos e incluso animar elementos básicos a partir de instrucciones de texto. Plataformas como Comfy (muy usada para generación de imágenes y flujos visuales) permiten montar pipelines de creación complejos, manteniendo los datos e imágenes en tu máquina y evitando problemas de propiedad intelectual ligados a servicios online.

Otra línea de uso potente es la programación: modelos como Code Llama o variantes especializadas pueden ayudarte a escribir, revisar y explicar código sin que tus repositorios privados o proyectos de cliente tengan que salir a servidores externos. Combinados con editores o IDEs a través de APIs locales compatibles con OpenAI, tienen un potencial muy grande en workflows de desarrollo.

La clave está en elegir bien la herramienta central (Ollama, LM Studio, AnythingLLM, Jan, GPT4All, etc.), los modelos específicos para cada tarea y, a partir de ahí, ir ampliando poco a poco con agentes, conectores o scripts propios según tus necesidades reales.

En última instancia, ejecutar IA en local te permite tener un asistente flexible y privado que se adapta a tu hardware: en máquinas potentes podrás correr modelos grandes casi al nivel de los servicios comerciales, y en equipos modestos, aunque vayas algo más justo de velocidad, seguirás ganando en confidencialidad y control sobre tus datos, sin depender de la disponibilidad ni de las políticas cambiantes de las grandes plataformas.

app de dictado por IA que funciona sin conexión
Artículo relacionado:
Google AI Edge Eloquent: así es la nueva app de dictado por IA que funciona sin conexión