杭州AI力量！恒生电子首席科学家白硕透露了这些

http://www.chaguwang.cn 2024-04-11 恒生电子内幕信息

来源 :恒生电子股份有限公司2024-04-11

　　在此次的【对话杭州AI力量】专题报道中，恒生电子首席科学家白硕的专访文章成为本期主推内容，并在报纸上整版刊出。

　　让我们看看，针对目前AI领域最受关注的话题，白老师是怎么说的…

　　橙柿专访|对话恒生电子首席科学家白硕

　　记者林司楠

　　人工智能，可能是时下讨论热度最高的一个话题。

　　今年春节期间，OpenAI公司推出了自己的文生视频大模型Sora，与此同时，苹果公司也放弃了自己的十年“造车梦”，集结火力转攻AI。

　　人工智能就是我们的未来吗？当下国内的AI又发展到了什么水平？带着这样的疑问，我们专访了恒生电子首席科学家、人工智能专家白硕。

　　白硕是金融科技领域的资深专家。他先后就读于清华大学、北京大学计算机系，是计算机科学理论专业人工智能方向博士，曾任中科院计算所软件研究室主任、国家网络安全管理中心技术管理处处长、上海证券交易所总工。现在，白硕担任恒生电子首席科学家、恒生研究院院长，还是中国计算机学会数字金融分会常务执委、中科院计算所兼职博士生导师。

　　Q1.春节后OpenAI的文生视频大模型吸引了非常多的关注，金融界、学术界、媒体界都在讨论有关人工智能的未来。有人说，Sora的诞生是人工智能的又一个iPhone时刻，您认可这样的观点吗？您觉得Sora会带来现实世界的哪些改变？

　　白硕：Sora的出道应该说是一个不小的突破，文生视频能做到这样的体验，这样的技术进步是值得肯定的，之前国内外相同领域的系统也一直没有达到类似的水平。Sora可以根据自然语言指令生成60秒钟的视频，我们可以看到灯火阑珊的街道上行走的时尚女性，也可以看到咖啡杯中破浪行驶的船只。这些视频不仅内容贴切扣题，而且还体现出一种对物理定律细致入微的遵从。

　　我觉得可以从这样几个层面去评价它：一是Sora应用本身在文生视频领域取得的一系列技术突破，这些变化是非常具有冲击力的。目前，我们已经可以看到Sora给文创、营销等场景带来的价值，未来我相信它还会继续进化。

　　第二个层面是它进一步实现了“语控万物”的愿景。Sora的诞生为我们打开了一种新的可能性，它揭示了视频作为语义根基的一个重要方面，给大模型带来了更加强大的“形象思维”能力。比如我对着机器说了一句话，机器把我的意图掰开揉碎之后，用一种图像和视频的方式来呈现出来，而且效果还十分理想。未来自然语言在各个垂直领域（也包括金融领域）的语义根基，很可能就建立在若干个类似Sora这样的“世界模型”基础之上。

　　第三是Sora带给我们的Think Different的启示。我们要向Sora学习这种Think different的决心和勇气，它不仅是一种技术上的成功，更是一种思维创新上的成功。它告诉我们自然语言指令标注和“有业务属性的优质数据”之间的有机结合，可能真的会打通某种关窍，产生新的可能，新的物种。

　　Q2.究竟是什么技术原理让Sora如此强大呢？

　　白硕：首先，Sora秉持了OpenAI一贯的简单加规模、大力出奇迹的技术路线，它把原先仅用来处理语言编码的Transformer模型改造成为了Diffusion Transformer，在Transformer的框架内实现了基于自然语言描述指令对视频流next patch的预测和生成，并取得了令人印象深刻的成功。这种技术路线的选择，使得Sora在处理用自然语言描述的复杂视频生成场景任务时，能最大限度地发挥语言处理和视频处理的双边优势，保持处理过程的精准、贴切和流畅。

　　其次，Sora的研发过程中算力充足，视频原始数据具有很好的品质，自然语言标注描述数据贴切、精准，这是保证文生视频质量的重要条件。自然语言标注的加持，不仅实现了文本视频的宏观效果，也在微观上，借助自然语言描述中不同抽象程度的概念，具备了对视频数据在不同颗粒度水平上特征要素进行拆解和重组的能力。

　　Sora渲染出来的视频，最让人称道的是对物理世界规律的一种逼真的遵从效果。这当然首先要归功于在真实物理世界中拍摄的大量视频数据，其次要归功于自然语言标注的加持。

　　Q3. 2023年以来，随着OpenAI、谷歌、Midjourney等公司相继推出自己的AIGC应用，很多人认为通用人工智能AGI时代很快就会出现。在国内市场上，我们也知道很多科技大厂包括百度、阿里、腾讯、华为等都相继推出了各自的人工智能大模型，恒生电子也有自己的大模型，科技界称之为“百模大战”。也有不少人关心，目前国内的人工智能究竟已经发展到了什么程度？它与海外的科技巨头相比，是不是真的有这么大的差距？

　　白硕：坦白说，国内目前的人工智能水平和海外科技巨头还存在一定的差距，这种差距体现在算力和模型本身的原创性上。我觉得我们要承认这种差距，大力支持国内开发原创性的算法，发展自有算力。

　　此外，我们看到国内出现了很多优秀的大模型，只是原创的算法没那么多。但这并不是说算法不是原创的就没有价值。通过高质量的特色数据，用目前通用的大模型框架和适当规模的算力，同样可以打磨出一个比较好的大模型，并不是说一定要从零开始造轮子。

　　另一方面，国内人工智能产业的发展，还可以更多地寻求相对优势，比如在技术实际应用层面的发展。将大模型在关键业务场景上应用好，用出效益、用出价值，这些地方就是我们可以重点发力的部位。作为金融科技公司，恒生电子也着重在大模型应用层面加大投入，助力大模型更好地应用落地于金融实际业务场景中，助力金融行业数智化升级。

　　Q4.您觉得AGI（通用人工智能）真正到来还需要多长的时间？如何去定义最终形态的AGI？

　　白硕：这个目前还很难判断，人工智能技术目前取得了一定的进步，我们可以说已经摸到（通用人工智能的）一些边了，但是后续到底是用什么方式去把它（AGI）搞得更全面一点，常识性的错误更少犯一点，关键是需要我们用更多的常识把AI武装起来。

　　这些常识（知识）可能连我们自己都意识不到，在一个人成长的过程中，这些常识（知识）都是靠日积月累学习出来的。机器也是一样的，AI也需要通过不断的数据学习，但是学习的速度（进展）挺难判断的。我觉得5年之内还做不到（通用人工智能），大概需要更多的时间，比如10年或者15年？我们可以一起期待一下。

　　Q5.有人说在算力、算法和大数据领域，中国的数据可能有更大的比较优势，您认可这样的观点吗？

　　白硕：作为互联网大国，中国的大数据有一定的优势。但对于AI来说，原始数据是不够的，它需要优质数据。互联网自然环境下产生的数据谈不上优质数据，这里就涉及大量的数据清洗、加工、标注等技术工作，这也对我们的大数据人才提出了更高的要求。大数据对于中国而言，既是一种机遇也是一种挑战。

　　Q6.如何去解决AI算力瓶颈的问题？

　　白硕：面对算力瓶颈，短期内可以通过建立算力联盟来应对。特定的AI使用群体可以联盟方式共享算力资源。尤其是在训练环节，算力消耗大，但从单个用户看重复使用率不高，联盟方式有利于削峰填谷，充分利用现有算力。通过算力联盟，可以实现资源的优化配置，提高算力的使用效率，缓解算力瓶颈的问题。

　　中期来看，可以通过平行替代的方式来应对算力瓶颈，即用国产算力替代受到禁运的进口算力。随着我国在半导体技术上的不断突破，国产算力的性能和稳定性都在逐步提高，完全有能力替代进口算力。

　　长期来看，解决算力瓶颈的根本途径，在于研发所需算力规模更小、系统开销规模更小的AI训练和推理算法，即低资源AI模型。这种模型可以在保证性能和精度的同时，大幅度降低对算力的需求，从根本上解决算力瓶颈的问题。这要求算法框架上有本质的创新和改进。如果这方面实现了突破，比如说不借助面向AI专门优化的GPU就可以在通用CPU上跑AI模型，那将从根本上改变现有的算力供需格局，同时也将使AI的实现更加绿色环保、造福人类。

　　Q7. AI的发展可以串联千行百业，比如AI+金融、AI+医疗、AI+教育，我们知道恒生电子是科技金融领域一家非常优秀的企业，它是如何将AI应用到金融层面，更好地赋能金融科技的发展？

　　白硕：恒生目前的重点在大模型应用。金融行业有其特有的行业属性，这对我们来说是一个很大的挑战。

　　比如在金融领域有很多专业化的要求，一个专业性问题，你告诉客户一个错误的答案，由此引发的后果可能是比较严重的，因此金融行业对回答的内容和服务的质量要求非常高，数据的专业化和准确性非常重要。这个不像是和一个聊天的大模型对话，大家可以相互调侃，它输出的结果大家可能不会特别在意。但金融大模型输出的结果是要提供给实际金融业务的，在这种场景下就不能出错，避免出现知识幻觉。

　　金融行业有着严格的监管合规要求。金融行业的监管对数据流动、身份（例如是否持牌经营）等有明确限制。恒生通过大模型中控平台“光子”，将公开数据和金融机构的私有数据，像运营、合规、交易等系统产生的数据和一些特色数据，有效地连接起来，形成一个有机的整体。

　　此外，行业想要将大模型和金融专业应用系统、已经有的专业数据库、专业知识图谱和其他的资源完成对接，还需要完善“最后一公里”的工程化服务体系，这个服务体系是用户从通用大模型服务上无法获得的，这也是恒生聚焦发力的地方。

　　Q8. AI时代，飞速的发展会给年轻人或者创业者带来哪些机会？我们当中的一些读者也非常想把握AI时代的红利，对于这些年轻的创业者，您作为行业里面的专家能否提供一些建议？

　　白硕：创新创业是值得鼓励和保护的。但普通创业者如果直接和那些拥有“重型装备”的大厂，或者和那些资本重型加持的团队去正面作战是不明智的。在AI基础设施建设上，创业的机会可能不是太多。但整个大模型基础设施很庞大，它会有各种配套环节，创业者如果能抓住一个配套环节把它做精做透，那也是很好。

　　另外，技术的变化飞快，创业者需要经常去预判产业发展的潮流，避免被时代的车轮碾压。

　　我看到有些年轻人在利用AI制作内容，比如AI授课或者其它的一些AI应用，他们不是造轮子，而是直接拿着轮子过来用。将基础大模型与应用场景、特色数据结合起来，我觉得这是AI创业很好的点。

　　Q9.中国要发展人工智能，并从中走出自己的OpenAI、自己的Deepmind、自己的英伟达或者微软可能需要几代人的共同努力，对于那些有志发展中国人工智能的学子而言，您对于他们又有哪些建议和期许？

　　白硕：对于想要从事AI基础设施建设的学子来说，深入学习人工智能底层的一些基础学科是至关重要的。但对于大多数学子来说，未来学计算机可能不是最关键的。

　　过去你想构造一个东西，可能需要做很多的编程工作，在这之前要学习很多编程、数学、统计的知识。随着大模型技术的发展，AI的门槛会越来越低。未来，大部分的人都不再需要编程，技术鸿沟已经完全弥合。我们只要学会如何使用人工智能，再发挥自己的想象力，通过描述就可以实现很多梦想，这是AI的一个发展趋势。

　　现在的人工智能已经不是一个纯粹的学一门技术这样一个概念了，而是了解未来的一种生活方式，并不是每个人都要成为人工智能专家，而是要根据这种趋势，站在未来的角度反过来去思考我们需要什么，为未来的智能化生存做好准备。