本文提出了一种新的简单网络架构——Transformer,它完全基于注意力机制,彻底抛弃了循环和卷积结构...
我们提出了一种新的语言表示模型BERT,它代表来自Transformers的双向编码器表示...
我们展示了通过扩大语言模型的大小来显著提高任务无关的少样本性能,我们训练了一个具有1750亿参数的自回归语言模型GPT-3...
根据当前搜索结果生成文献综述
分析当前领域研究热点和趋势