Can LLM-based Financial Investing Strategies Outperform the Market in Long Run?

大语言模型(LLMs)在资产定价和股票交易中应用,但评估多在狭窄时间框架和有限股票范围内,可能夸大效果。

FINSABER旨在提供一个全面的LLM投资策略评估标准,支持更长的回测期和更广泛的股票覆盖,并减轻偏差。

市场状态分析表明,LLM策略在牛市中过于保守,表现不及被动基准;在熊市中过于激进,导致重大损失。需开发能够优先考虑趋势检测和市场状态风险控制的LLM策略,而非单纯增加复杂性。

图片

摘要

大语言模型(LLMs)在资产定价和股票交易中应用,但评估多在狭窄时间框架和有限股票范围内,可能夸大效果。本文提出FINSABER框架,评估更长时间和更大股票范围的时机策略。系统回测显示,LLM策略在更广泛的交叉验证和长期评估中效果显著下降。市场状态分析表明,LLM策略在牛市中过于保守,表现不及被动基准;在熊市中过于激进,导致重大损失。需开发能够优先考虑趋势检测和市场状态风险控制的LLM策略,而非单纯增加复杂性。

简介

大语言模型(LLMs)在金融决策中越来越多地用于生成投资行动(买入、持有、卖出),并作为自主金融代理进行交易。当前LLM投资研究在评估实践上存在碎片化和不足,主要表现为短期评估、少量股票和缺乏代码发布,导致可重复性差。短期和狭窄的股票范围导致生存偏差、前瞻偏差和数据挖掘偏差,可能导致误导性的绩效评估。

FINSABER旨在提供一个全面的LLM投资策略评估标准,支持更长的回测期和更广泛的股票覆盖,并减轻偏差。实证研究表明,许多LLM优势在更广泛和更长的评估下消失,表明结论可能受到选择性或脆弱设置的影响。LLM策略在牛市中表现不佳,因过于保守;在熊市中因风险控制不足而遭受重大损失。本文提出未来LLM策略设计应关注市场动态变化的适应性风险管理,而非单纯增加模型复杂性。

相关工作

近期研究利用LLM(大语言模型)进行投资决策,主要通过情感分析生成交易情感评分,但未形成完整的交易策略。更先进的方法通过多源金融文本的总结和推理来指导决策,如Fatouros等(2024)引入的记忆模块和LLMFactor(Wang et al., 2024)提取历史新闻中的盈利因子。越来越多的研究采用LLM代理进行金融分析和预测,包括多个协作代理的应用。一些模型结合强化学习(RL)实现自我迭代改进。

投资策略的定义

时机****型投资策略

定时投资策略通过预定义规则或算法决定资产的买卖持有,旨在预测短期价格波动以实现正收益。设定每日持仓 S t ∈ {−1, 0, +1},其中 +1 表示买入,−1 表示卖出,0 表示持有。策略通常基于技术指标、宏观经济变量、市场情绪或机器学习模型,旨在利用资产定价中的时间性低效。

选择型投资策略

选择型策略通过从广泛资产中识别子集来构建投资组合,侧重于资产的相对预期表现。与时机策略不同,选择型策略不关注入场和出场时机,而是基于动量、波动性或模型预测等信号进行资产选择。采用等权重或前k名选择的方式分配资本,定期调整以适应市场变化。目标是持续优先选择预期表现优异的资产,通过纪律性选择和再平衡实现长期超额收益。

为什么更广泛和更长时间的评估很重要

财务策略的评估需谨慎设计回测,因金融数据噪声大、非平稳且样本有限,回测易受偏差影响。

  • 生存偏差: 仅包含当前活跃股票,忽略退市或破产资产,导致回报高估和风险低估。
  • 前瞻偏差: 策略使用决策时未知的信息,导致未来知识影响回测结果。
  • 数据窥探偏差: 重复实验同一数据集导致过拟合,尤其在样本小、信噪比低的金融领域,常导致假阳性率上升。

更广泛和更长期评估的理由

评估策略需跨长时间和广泛资产,日交易至少三年数据,周/月策略需10-20年数据。Gatev等(2006)测试了40年日数据的配对交易,Do和Faff(2010)扩展至48年,发现盈利能力下降,强调长期评估的重要性。深度学习模型依赖多年的数据集以确保稳健性。

符号选择至关重要,许多基于LLM的投资研究仅使用少数知名股票,限制了普遍性,且存在生存偏差和前瞻偏差。回测需明确解决生存偏差、前瞻偏差和数据窥探偏差,使用历史准确的股票宇宙和跨多个市场周期的评估,以产生可靠的结果。

FINSABER

FINSABER是一个金融投资策略评估的回测框架,旨在解决现有评估中的生存偏差、前瞻偏差和数据挖掘偏差。框架包含三个核心模块:多源数据模块、策略库和偏差意识回测管道,支持多种投资策略的基准测试。

多源数据模块整合了2000至2024年的历史股价、金融新闻和公司财报,确保回测窗口内的数据不包含前瞻信息,并包括退市股票。

策略设计分为基于选择和基于时机的策略,后者包括规则基础、机器学习、深度学习、强化学习和大型语言模型(LLM)投资者。

为减少生存偏差,使用历史S&P 500成分股列表,并在回测中包含退市股票;为降低数据挖掘偏差,采用滚动窗口评估。

评估指标分为收益、风险和风险调整绩效,使用年化收益、累积收益、年化波动率、最大回撤、夏普比率和索提诺比率等标准指标。

实验

实验针对当前LLM投资评估中的方法论缺陷,特别是幸存者和数据挖掘偏差,展示了这些问题如何导致过于乐观的结果。实验分为两部分:

  • 复制近期LLM投资者的表现结果,延长评估期后发现表现下降。
  • 采用综合方法,结合系统性选股方法,减少幸存者和数据挖掘偏差,实现公平评估。

仅考虑多头交易,因为现有LLM策略不支持做空。

选择性评估的陷阱

重新评估Yu等(2023)对TSLA、NFLX、AMZN和MSFT的FinMem和FinAgent策略,结果显示LLM投资者并不总是优越,FinMem仅在TSLA上表现突出,传统策略在其他股票上更具竞争力。

LLM策略表现出高年波动性和显著最大回撤,强调风险评估的重要性。语言模型的选择显著影响策略表现,GPT-4o和GPT-4o-mini的表现差异表明模型大小并非唯一决定因素,可能存在数据挖掘偏差。

延长评估期至2004-2024年,发现传统策略如买入持有在大多数股票中表现更佳,LLM优势可能是短期和选择性结果。需扩大股票范围以避免幸存者偏差,确保评估的系统性和公正性。

与综合方法的公平比较

引入复合评估设置以克服偏见,整合系统选择策略扩展股票宇宙,解决生存偏差和数据挖掘偏差。使用三种无偏股票选择方法:随机五只、动量因子、波动性效应。

为有效减轻生存偏差,选择过程仅使用每个评估期开始时的历史S&P 500成分股列表,并包括退市股票。通过评估大规模多样化的符号(随机五只91个、动量84个、波动性63个),在两十年的广泛时间段内消除数据挖掘偏差。

通过随机五和动量选择的评估,传统策略(如Buy and Hold、ATR Band、ARIMA)在风险调整指标上优于LLM投资者(FinMem和FinAgent)。在波动性选择中,传统方法表现更佳,Buy and Hold的夏普比率为0.703,年回报率为7.898%。LLM方法(如FinAgent)表现较弱,尽管在动量选择中FinAgent年回报率最高(13.950%),但夏普比率和最大回撤较低,需改进风险管理。

不同选择策略的相对有效性:波动性选择优于动量选择,动量选择优于随机五选择。

强化学习方法(如PPO、SAC、TD3)在波动性选择下表现最佳,显示出对股票候选质量的敏感性。FinAgent对选择质量的依赖性高于FinMem,强调了无偏、系统的股票选择方法在评估LLM投资策略能力的重要性。

市场机制分析

LLM投资策略在不同市场条件下的适应性仍需评估,金融市场存在时间变化的可预测性和不确定性。市场环境(牛市、熊市、横盘)对策略的挑战和机会各异,需分析策略在不同市场中的表现。

年度回报率用于分类市场状态:牛市(≥+20%)、熊市(≤-20%)、横盘(其他)。

采用三种选择策略(RANDOM 5、MOMENTUM FACTOR、VOLATILITY EFFECT)分析各市场状态下的Sharpe比率。

传统策略(如ATR Band、ARIMA)在所有市场状态下表现良好,而被动策略(Buy and Hold)在牛市表现最佳。LLM策略表现不佳,FinAgent和FinMem在牛市和熊市中均未能有效捕捉市场趋势。

未来改进方向:提升趋势检测能力和嵌入明确的风险控制机制,以平衡风险管理与收益。

限制

研究未对传统规则策略进行个别调优,尽管如此,当前配置仍有效展示了LLM策略的竞争劣势,调优可能进一步提升传统策略表现。

评估未完全消除前瞻性偏差,预训练LLM可能包含与测试集重叠的历史股票信息,尽管如此,LLM策略的低表现仍支持我们的批判性评估。

为确保实验可重复性,分析仅使用公开数据,排除专有来源,FINSABER框架允许集成额外信息源,研究者可用公开资源复现结果。

总结

使用FINSABER框架重新评估LLM时机投资策略,减轻回测偏差,扩展评估范围和标的。LLM方法的优势在更广泛的长期测试中减弱,当前策略在牛市中错失上涨机会,在熊市中因风险控制不当遭受重大损失。

未来LLM投资者需关注:1) 提升上升趋势检测以匹配或超越被动投资;2) 包含基于市场状态的风险控制以动态调整投资策略。

大规模LLM回测成本高,未来需追求成本效益的模型设计,并将API成本纳入绩效评估。

如何学习AI大模型 ?

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。【保证100%免费】🆓

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

👉1.大模型入门学习思维导图👈

要学习一门新的技术,作为新手一定要先学习成长路线图,方向不对,努力白费。

对于从来没有接触过AI大模型的同学,我们帮你准备了详细的学习成长路线图&学习规划。可以说是最科学最系统的学习路线,大家跟着这个大的方向学习准没问题。(全套教程文末领取哈)
在这里插入图片描述

👉2.AGI大模型配套视频👈

很多朋友都不喜欢晦涩的文字,我也为大家准备了视频教程,每个章节都是当前板块的精华浓缩。

在这里插入图片描述
在这里插入图片描述

👉3.大模型实际应用报告合集👈

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。(全套教程文末领取哈)

在这里插入图片描述

👉4.大模型落地应用案例PPT👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。(全套教程文末领取哈)

在这里插入图片描述

👉5.大模型经典学习电子书👈

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。(全套教程文末领取哈)
img

在这里插入图片描述

👉6.大模型面试题&答案👈

截至目前大模型已经超过200个,在大模型纵横的时代,不仅大模型技术越来越卷,就连大模型相关的岗位和面试也开始越来越卷了。为了让大家更容易上车大模型算法赛道,我总结了大模型常考的面试题。(全套教程文末领取哈)

在这里插入图片描述
👉学会后的收获:👈
基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习

CSDN粉丝独家福利

这份完整版的 AI 大模型学习资料已经上传CSDN,朋友们如果需要可以扫描下方二维码&点击下方CSDN官方认证链接免费领取 【保证100%免费】

读者福利: 👉👉CSDN大礼包:《最新AI大模型学习资源包》免费分享 👈👈

(👆👆👆安全链接,放心点击)
Logo

更多推荐