首页
零基础教程
分类浏览
编程
- Sentinel
- Go语言
- C语言
- 汇编语言
- Android
- Java工具库
- Spring Cloud Alibaba
- Spring Cloud
- Spring Data
- Spring Boot
- Spring Batch
- JSP/Servlet
- Hadoop
- Dubbo
- J2Cache
- Hibernate
- OpenJPA
- MyBatis
- ShardingSphere
- Freemarker
- Thymeleaf
- Activiti
- POI
- JMail
- Log4j
- LogBack
- Dom4j
- XML
- RxJava
- JasperReport
- JUnit
- JMock
- Apache Commons
- HttpComponents
- CGLib
- WebSocket
- ESAPI
- 设计模式
前端
- CSS/CSS3
- HTML5
- JavaScript
- JQuery
- DHTMLX
- 浏览器
- HTML
- 前端小知识
- Vue.js
- NodeJS
- ECharts
- Less
- UmiJS
- React
- Ant Design
- Bootstrap
- uni-app
- JS-XLSX
数据库
- SQL
- PL/SQL
- MySQL
- Oracle
- Redis
- SQLite
- MongoDB
- Zookeeper
- H2
服务器
- Prometheus
- Tomcat
- JBoss
- RocketMQ
- Docker
- Nginx
- RabbitMQ
其他
- 程序员
- Maven
- SVN
- Git
- UML
- Windows
- 办公软件
- Axure
- Jenkins
- HTTP
- macOS
APP/微信小程序
- 轻松俯卧撑
Java
Spring
Linux
AI
代码片段
Get小技能
面试题

什么是 LLM？Large Language Model，大语言模型

AI概念

387 0 2024-07-19

LLM大语言模型（Large Language Model）是一种基于深度学习技术的自然语言处理模型，它通过大量文本数据的训练，能够生成自然语言文本或理解语言文本的含义。

LLM 即大型语言模型（Large Language Model），是一种利用机器学习技术来理解和生成人类语言的人工智能模型。

LLM 通过在大规模的文本数据集上进行无监督学习，来学习语言的模式、结构和语义信息。即使没有明确的人类指令，模型也能从数据中提取信息、建立联系并“学习”语言。模型通过学习语言中单词如何组合在一起的模式来理解语法和结构，之后便可以根据概率预测句子应采用的结构，从而形成能够捕捉单词和句子之间复杂关系的模型。

LLM 通常基于神经网络（NN，Network Node），运用自然语言处理（NLP，Natural Language Processing）技术来处理和生成自然语言文本。其常见的架构是 Transformer 架构，该架构使用了自注意力机制（Self-Attention Mechanism，是一种特殊的注意力机制，它允许模型在处理一个序列时，考虑到序列中每个元素与其他所有元素的关系。这种机制通过计算序列中每个元素与其他元素的关联度/权重，帮助模型更好地理解序列中的上下文信息，从而更准确地处理序列数据），可以有效地捕捉输入序列中的长距离依赖关系，并且能够高效并行地进行计算。

LLM 具有广泛的应用，例如可以生成文本、归纳内容、进行翻译、重写、归类、分类和分析等。在业务环境中，它能够帮助实现与语言相关任务的自动化以降低运维成本，快速扫描大量文本数据以生成见解，以及提供高度个性化的内容来创造更出色的客户体验等。

然而，LLM 也存在一些挑战和局限：

（1）资源问题：它需要大量的计算资源来开发、训练和部署（即要求很高的算力，算力通常用每秒浮点运算次数（FLOPS）来衡量。在训练和推理过程中，LLM 都需要大量的 GPU 算力支持），成本较高；

（2）安全问题：在使用时需要注意隐私和安全问题，特别是涉及访问大量信息的情况；如果训练数据存在偏差或不能准确代表总体，可能导致输出存在准确性和偏见的问题。

一些知名的 LLM（大型语言模型）包括：

GPT（Generative Pre-trained Transformer）
BERT（Bidirectional Encoder Representations from Transformers）

LLM发展历程

早期研究

语言建模的研究始于20世纪90年代，最初采用了统计学习方法。2003年，深度学习先驱Bengio首次将深度学习的思想融入到语言模型中，为计算机提供了更强大的“大脑”来理解语言。

Transformer模型

2017年6月，Google 发布论文《Attention is all you need》，首次提出 Transformer 模型，成为 GPT 发展的基础。

Transformer 模型是一种在自然语言处理中广泛应用的深度学习模型架构。

Transformer 模型的核心特点包括：

摒弃了传统的循环神经网络（RNN）和卷积神经网络（CNN）结构，主要依赖于注意力机制（Attention Mechanism）来对输入序列中的不同位置进行动态的权重分配，从而能够更好地捕捉长距离的依赖关系。
由多个相同的层堆叠而成，每个层通常包含多头注意力机制（Multi-Head Attention）和前馈神经网络（Feed Forward Network）两个主要部分，并且在层与层之间使用残差连接（Residual Connection）和层归一化（Layer Normalization）来促进训练的稳定性和收敛速度。

GPT系列模型

GPT-1：2018年6月，OpenAI发布论文《Improving Language Understanding by Generative Pre-Training》，首次提出GPT模型。

GPT-2：2019年2月，OpenAI发布GPT-2模型，与GPT-1相同的模型和架构，但更加侧重于Zero-shot设定下语言模型的能力。

GPT-3：2020年5月，OpenAI发布GPT-3模型，具有1750亿参数规模，标志着大语言模型时代的正式开启。

ChatGPT：2022年11月30日，OpenAI公司发布ChatGPT，它基于GPT技术，并引起了广泛的社会关注。

Grok-1：2024年3月，马斯克的xAI公司正式发布大模型Grok-1，参数量达到3140亿，超过OpenAI GPT-3.5的1750亿。

常见大模型

闭源LLM（未公开源代码）：如GPT系列（GPT-3、GPT-4）、ChatGPT、Claude 系列、PaLM 系统等。

开源LLM（公开源代码）：如LLaMA系列、GLM系列等。

总之，大语言模型在推动自然语言处理领域的发展方面发挥了重要作用，为人们提供了更加智能和便捷的语言交互服务。

一寸光阴一寸金，寸金难买寸光阴。——《增广贤文》

0 不喜欢

说说我的看法 - 你的看法对我很重要

* 必填

全部评论（0）

没有评论