天天微资讯!国盛证券刘高畅:拥抱AI时代的早期阶段
嘉宾介绍:刘高畅,国盛计算机首席、机器人大组组长,2021&2022年新财富计算机行业第一名(首席)。南开大学物理学、金融学双学士,香港中文大学系统工程硕士。曾任申万宏源人工智能组组长,计算机高级分析师。
今年一季度,随着ChatGPT的火爆,前期沉寂多年的TMT板块出现非常好的表现。资本市场在ChatGPT出现之后为什么这么看好TMT行业?人工智能背后的技术积累和突破的关键在哪里?算力和数据方面我们和海外有多大的差距?人工智能产业链中,哪些赛道会比较好,后续行情将如何演绎?
国盛证券刘高畅表示,ChatGPT不再是0—1,和应用端结合起来之后已经进入1—N的阶段,使得资本市场开始真关注到ChatGPT的价值。大模型的出现是人工智能技术经过积累和发展后,量变产生质变的结果。在当前人工智能巨大变革的产业早期,在算力、大模型、应用这三个领域都有非常好的机会。这一轮人工智能的影响力可能比1999年的互联网更大,行情的持续性和高度可能会超过预期。
以下为文字精华:
1、国盛证券刘高畅:ChatGPT应用落地 进入1—N阶段
提问:很高兴今天能有机会和大家一起交流人工智能以及TMT行业的观点,我们非常荣幸地请来了国盛证券计算机行业首席分析师刘高畅,刘总是连续两届的新财富计算机行业第一名,同时去年年底就非常前瞻地看好人工智能行业。
首先想问一下刘总,计算机行业以及人工智能今年如此好的表现是因为什么?
刘高畅:去年底的时候,我们也看了一下所有卖方的年度策略,我们应该是唯一一个把人工智能列入其中进行推荐的,而且列在核心的推荐里。我们当时的年度策略写的是信创、数据以及AI三个方向,今年应该来讲,验证程度还不错。
去年12月份的时候,OpenAI放开了ChatGPT的公测。ChatGPT的对话体系展现的智能性,和以前的AI,包括大家比较熟悉的NLP自然语言处理已经发生了比较大的区别。
首先他能理解你的问题,他的回答非常也很有逻辑和条理,而且他的认知范围非常广阔,所以我们当时就觉得这个东西和之前的不一样。我们在机器人的研究当中发现,机械部分甚至控制平衡的部分,都不是一个机器人最重要的点,要让机器人真的发挥作用,关键在他的“大脑”,这可能是通用人工智能改变世界最缺失的一环。
去年12月份我们用了ChatGPT之后,在12月11日也发布了相关的报告,探讨ChatGPT是否是新一轮的科技革命。实话实说,当时我们的认知还略浅显,并不坚定,只是觉得它的可能性和方向已经出现了,所以我们在年度策略里没有把人工智能列为第一主线,而是列为三大主线之一。
1月3日,微软宣布推出New Bing,在New Bing的搜索层面运用ChatGPT。当时给了我们一定的触动,我们发现ChatGPT不只是一个对话系统,它可以和应用端结合起来。对资本市场来讲,我们觉得有两个点特别重要,让大家真正开始认可。
第一点,我们和资本市场共同看到,在我们的春节期间,微软宣布Microsoft的Office全家桶包括微软的全套体系会接入ChatGPT开发应用。当时中国的资本市场的话也是看到ChatGPT不再只是0—1的过程,它真正开始和整个产业界全面结合起来,已经进入1—N的阶段。
之后我们就开始深入研究,看很多的相关论文,我们在2月下旬提出的多模态GPT的方向,甚至领先学术界预判了市场包括产业的下一个重要方向,这一块研究我们非常的自豪。从当时开始,我们就已经将其作为整个年度最重要的产业。
资本市场特别是对公募保险这样的一些大机构来说,真正让他们触动的,相信是3月16日晚,微软的Copilot六件套的发布,包括 Word、Excel、PPT等。这个时候,我们发现资本市场真正开始相信了。
因为大家以前觉得它只是一个小工具,不能提升社会生产力,但是做PPT这个工作,应该来讲我们每个人都有做过,可能对很多投资者来说非常难受,有这么多的PPT要做,大家经常熬夜做PPT熬得头发都掉了。但是我们发现ChatGPT接入之后,它真的可以开始帮我们自动生成PPT,虽然还比较粗浅,需要我们大量的修改,但是从中可以明确地感受到ChatGPT的魅力。
从那时开始的话,资本市场无论是机构还是个人投资者,对ChatGPT的关注度快速爆炸,真正的热了起来。
2、国盛证券刘高畅:第三次AI浪潮 量变产生质变
提问:直到2023年,人工智能中在我们看起来“比较基础”的人机对话功能才得以实现,背后的技术积累和突破到底在哪里?
刘高畅:2006年以后的AI发展,我们把它列为人工智能的第三次浪潮,它的标志是深度学习的成熟,以深度学习模型的成熟和可实现程度的完成作为标志,像Geoffrey Hinton这样的一些大牛在里面做出了很多贡献。
2006年到2017年是以深度神经网络为代表,包括CNN(卷积神经网络)、RNN(循环神经网络)、DNN(深度神经网络),一些深度神经网络的分支。
2017年,代表性的模型框架就是Transformer开始出现,它吸取了CNN体系,残差神经网络里残差块的体系,去解决梯度下降或者梯度爆炸的问题,在循环神经网络里,它吸取了Self Organizing Maps(SOM,自组织映射神经网络)。当时是Google的研究团队提出了Transformer大模型的逻辑,模型规模很大,有的可能是以编码器为主,有的是以解码器为主,Google坚持以编码器为主,这个路线在识别客户的问题或者识别客户的需求方面效果比较好,也有利于Google的搜索产品。
OpenAI非常有意思,它看重的是GPT路线,也就是生成式AI的路线。生成式AI,它的复合里面放的都是解码器,也就是说在训练之后会有一个特点,就是会有多种多样的表达,可以按照各种逻辑去表达。
因为OpenAI在早期的目标就是致力于AIGC,也就是通用人工智能的成型,他们认为GPT路线离实现通用人工智能的距离会更近一些,所以一直进行这种训练发展。从处理数据集到网络结构的设计,到训练的布置实施,包括训练过程中的修正与调教。
中间有个比较意思的点,就是它用大语言模型去写代码。这一点非常有意思,当时是GPT3初始模型之后开始去写代码,写完代码并做了对齐,对齐叫Instruct Lenition,初始的指导中只有少部分的道德指导,大部分做指令的指导,把代码和人类的语言进行一一对齐。简单说就是让机器去理解人类的语言,用代码的形式去实现一些逻辑上的操作,并且把结果反馈成人类的语言,可以理解为把机器相关的东西进行翻译。
这个操作完成之后不再叫“GPT3初始模型”,叫“GPT3达芬奇002模型”。我们当时去测,大概是在2021年底,他的表达表现还不是特别好,但是用特殊方式的引导词去提问他,你会发现他已经具备了非常强的逻辑能力,只是道德水准还有点问题,所以后面OpenAI做了一定的工作,叫做Instruct GPT指导。
指导分为几个内容,一方面进一步去调教指令,能够更好地理解人类的一些指令,一些通俗易懂的话怎么转化成机器的逻辑。
另外一种就是做道德上的调教,因为怕出现一些黄色暴力血腥的话,以及一些反人类反道德反社会的话。就像我们教小孩子一样,他可能有逻辑也很聪明,但是表达有问题,世界观价值观也有问题,我们要去调教他的三观。
经过Instruct指导性的调教之后,再进行一些微调,行业化和效果的一些调整,到了2012年12月份,发出来的GPT3.5之上的衍生产品,也就是ChatGPT。
GPT3以前用的是公开数据为主,用了很多的开源代码,也可能用了一些微软内部比较高阶的代码,这是一种猜想,但总体来说是以公开数据为主,但是未来往行业化的方向去发展,可能专业化的数据,能够支撑应用形成的数据会相对来说比较重要。
人工智能技术经过不同的积累和发展到了大模型阶段,大模型学习了很多人类互联网上的公开数据形成了自己的智能,是模型规模到了一定程度量变产生质变的结果。
3、国盛证券刘高畅:中文数据欠缺 算力消耗显著
提问:除了算法,人工智能训练的时候也需要很大的算力,包括海量的数据,特别是我们中国跟海外的数据源可能还存在一些割裂。在算力和数据方面,我们和海外有多少差距?
刘高畅:数据方面,在GPT3以前用的都是互联网的公开数据,中文目前来看,客观的条件就是高质量的语料库相对来讲会稀缺一些。
在整个OpenAI的大模型中,我们了解到中文的语料库使用只有5%,从误差率的角度来讲,英文可能在2%—3%,中文大概在10%以上。用中文去测试ChatGPT,效果也不如英文。但是,我们也看到国内的高质量语料库在快速生成中,大家也在探索,包括知乎和万方这样的一些高质量语料库在形成。
大模型的数据还是以互联网公开数据为主,可能在写代码这个阶段,一些顶尖大厂比如微软,代码的水平会比较高,但是毕竟这一块只是小部分,我们推测起不了决定性的作用,应该不是特别大的瓶颈。OpenAI在去年GPT3.5的时候,大概用了45TB的数据,做模型数据集处理和倾斜的部分应该是不超过1TB的,所以其实是很少的数据,这一点不用特别担心。
算力方面,如果从训练端的角度来看,如果在GPT3以前,用2000张英伟达A100的算力,如果你训不出来成果,我们建议就不要去做了,说明这个团队水平有点问题。如果在GPT3.5以前,5000张如果训不出来,我们建议也不要再做训练了,说明这个团队多多少少有点问题。
我们认为在训练阶段,对算力的需求量没有那么极限,国内明面上和潜在的产业中的储备我们认为是够的。
应用端来看,做模型蒸馏和模型裁剪,把算力的消耗做到以前的90%,已经是很高的缩减度了。但是就这样的情况来看,算力还是会捉襟见肘,对未来算力的消耗还会非常显著,包括我们国家的一些晶圆代工和设计厂商,这也是他们需要努力的地方,其实是机遇也是挑战。
4、国盛证券刘高畅:关注三个领域 皆有可观机会
提问:在ChatGPT或者人工智能产业链上,您觉得哪个赛道会比较好?
刘高畅:我觉得在这样巨大变革的产业早期,算力、大模型、应用这三个领域都有非常好的机会。
算力领域我们也测算过,在应用端来看,如果应用快速扩张的情况下,它的算力需求相较于现在可能是以万倍为基数的提升,甚至会更高。我们做过一个很有意思的测算,就是通用的人形机器人出现的时候,它的模型规模我们认为至少是3万亿—4万亿的参数级别。
到了三四万亿的参数,即使我们做了很好的模型的蒸馏裁剪,我们认为机器人也需要10张英伟达A100,未来的话我们相信机器人的数量会超过人类,因为它可以解放你的生产力。
假如100亿的机器人,现在一张英伟达A100的卡基本上都在十多万,可以看到形成了多么大的空间。当然这是比较远期的假设,可能需要十年左右的时间,但也让我们感受到算力扩张的量级,因为算力严格意义上是跟着应用走的,所以算力是一个比较确定的方向。
需求上也是比较确定的,方向上可能我们国家的企业更多的是解决供给的问题,如何设计出高密度的计算芯片。如何比较好地保证在晶圆代工这一块供应链的稳定性,可能是整个产业需要重视的地方。
大模型端,国内的大模型逐渐多了起来,但是我们也看到,大模型是驱动整个产业链启动的发动机,到底谁能做出来其实现在不好讲。如果在比较深的优势的行业,做行业的大模型,就很多人讲的“小模型”。其实不对,Transformer它就是大模型,对Fine Tune微调之后的行业大模型,通用智能更好的这种大模型不一定比你效果更好,或者说即使效果比较好,综合的能耗可能消耗比你大,这样的一些可能性也是存在的,所以一定会有自己的机会所在。
在应用的阶段,我们现在看到不管是办公的这种多模态,金融领域、医疗领域、教育领域,还是像智能助理这样一些To C的应用,都在蓬勃发展。我们相信在未来的半年到三年内,我们的生活一定会发生巨变,巨变之下可能大家就会真正感受到时代的魅力以及巨大的投资机会。
5、国盛证券刘高畅:产业周期变化 行情生命力强
提问:最近市场有比较大的波动,到了这种分歧的时刻,后市该怎么看?
刘高畅:我们前期写了一篇报告——《1999年互联网行情的复盘》。淡化所有对投资的理解,对护城河、PE、PB等框架的各种认知,从产业周期来讲,最可比的就是1999年互联网新技术的颠覆,带来了巨大的变化。短期内可能产品形态、商业模式都不是非常清晰,因为它在快速变化,大家都在攻城略地,去改变这个世界。
这一轮的影响力可能比1999年的互联网更大,因为影响的并不是说我们计算机行业的400家公司,也不是A股的4000家公司,它影响的是我们每一个人的生活,每一个人的工作状态,影响的是整个社会的形态。我们认为,如此颠覆性的技术,它的持续期、它的高度、它的生命力是非常强的。
复盘1999年,当时产业的行情演绎大概是1年9个月的时间,也有十几倍的一些公司,涨几倍的公司不胜枚举。其实从春节之后到现在,整个ChatGPT的演绎也就两个月的时间,考虑到现在社会节奏变快,信息传递加速,行情的持续性和高度可能会超过大家的想象。
前一段交易上的波动我们认为问题不大,而且持续的时间也不会太长。我个人判断时间可能不会特别长,下一轮的AI行情会开启新一轮的机会,所以近期基于交易的回调是非常好的。
我们从2月份的路演开始一直讲一件事,就是年内ChatGPT有且只有两个利空,一个是大家意识到芯片这一块有封锁的风险,另外一个就是大家认识到我们国家的大模型和OpenAI有比较大的差距。但这两件事情在2月底和3月中已经发生了,所以博弈已经完成了。纯交易性的因素造成的调整,我们觉得每次回调都是非常好的布局机会,上一波重视程度不高的投资者,可以在新一轮的大行情中加大重视。