近期根据彭博社最新发布的报告显示,其构建迄今为止最大的特定领域数据集,并训练了专门用于金融领域的LLM,开发了拥有500亿参数的语言模型——BloombergGPT。
受到消息影响,金证股份午后涨停,同花顺涨超16%,顶点软件直线拉升触及涨停,古鳌科技、东方财富、财富趋势均涨超10%。
这款金融大模型的应用将实现哪些惊人的功能?相关金融业公司是否将受益于大模型的应用而实现降本增效?产业链机遇有哪些?本文将详细解析。
【资料图】
金融大模型开发与应用难度均不大
据《BloombergGPT: A Large Language Model for Finance》一文中所述, BloombergGPT和 OpenAI GPT模式一样,也是基于 Transformer架构的,采用的是只有译码器的技术路线。通过比较, BloombergGPT模型参数为500亿,在GPT-2 (1.5亿)和GPT-3 (1750亿)之间。
不同之处在于,为了加强 LLM对金融垂直领域的专业理解, Bloomberg构建了目前规模最大的金融数据集 FINPILE,通过对通用文本+金融知识的混合训练,使得 BloombergGPT在执行金融任务方面的表现超过了现有的通用 LLM模型,而在通用场景方面的表现则与现有的通用 LLM模型基本持平。
GPT-3和GPT-4等大型语言模型都是由专业的人工智能团队开发出来的,而且模型的训练对计算能力的要求很高。BloombergGPT的成功验证了"开放源代码模型+优质垂直数据"的思路,为基于垂直数据构建大语言模型提供了可能。
大量的、高质量的垂直领域知识可以弥补模型在规模上的不足。通过对 BloombergGPT和GPT-3的对比,虽然 BloombergGPT的模型参数相对于GPT-3来说是比较小的,但是由于 BloombergGPT的预训练数据增加了大量的高质量的金融数据,并且对预训练数据进行了一系列的清洗和标注,所以 BloombergGPT在通用性和GPT-3基本持平的前提下,实现了对金融垂直能力的大幅提升。
算法方面,作者也有计划披露他们训练BloombergGPT的细节方法;算力方面,约使用512块40GB的A100 GPU,在训练过程中备份了4个模型,每个模型分了128块GPU。从这个角度出发来看,无论是数据、算法、还是算力,国内头部金融科技公司都是可复制、可追赶的。
金融GPT投资机遇或蓄势待发
在 BloombergGPT的成功案例中,训练数据是影响大规模语言模型性能的一个重要因素。
其原因主要有三点:第一,在金融垂直领域的数据输入中, BloombergGPT成功地形成了对金融知识的理解,变得更加专业;二是 BloombergGPT模型的参数虽然有所缩减,但其通用性和垂直性依然很强,这说明当参数尺度一定时,高质量的数据才是决定模型性能的关键因素;三是 Bloomberg在文章中明确表示,为了避免数据泄露, Bloomberg GPT将采用和 OpenAI一样的封闭源码,这也从侧面证明了 Bloomberg GPT所拥有的原始源码是各大模型争夺的关键。
广告
X 关闭
广告
X 关闭