Grandes Modelos de Lenguaje
Un Gran Modelo de Lenguaje (LLM) es una red neuronal entrenada con enormes cantidades de texto para predecir el siguiente token de una secuencia. De ese objetivo aparentemente simple emerge un abanico sorprendente de capacidades: escribir, resumir, traducir, responder preguntas y razonar paso a paso.
Los LLMs modernos se basan en la arquitectura Transformer y se escalan a miles de millones de parámetros. Primero se pre-entrenan con grandes corpus de texto y luego se ajustan o alinean (por ejemplo, con aprendizaje por refuerzo a partir de retroalimentación humana) para que sus respuestas sean útiles y seguras.
Por qué importan
Los LLMs convirtieron el lenguaje natural en una interfaz de programación. En lugar de escribir reglas rígidas, describes lo que quieres y el modelo lo produce. Esto es lo que impulsa a los asistentes de chat, la generación de código y los agentes y sistemas RAG que construyo.
Sus principales limitaciones son que pueden alucinar datos y que su conocimiento queda congelado en el momento del entrenamiento, que es justamente la razón por la que existen técnicas como la generación aumentada por recuperación.