下载
登录/ 注册
主页
论坛
视频
热股
可转债
下载
下载

《天涯篇》锦瑟年华谁与度 云在青天水在瓶

24-03-09 10:47 12244次浏览
半只烟l
+关注
博主要求身份验证
登录用户ID:


千禧年那会,工作之余较之泡妞更喜欢泡天涯。彼时最POP的论坛。誉为“全球最大中文社区”,拥有超过2000万活跃用户,最火的时候用户超过2.5亿。如日中天。那会能上网的人其实还并不多。那会我们还没怎么见过世面。见过天涯,就算见过了世面。你所关心的能想到的,知道的和不知道的,什么都有,森罗万象。奇人大神遍地走,也还真都有些货。记得那会最喜欢厮混的是天涯杂谈、煮酒论史和舞文弄墨。书生意气,激扬文字,粪土当年万户侯。笔诛墨伐,纵死侠骨香。都是干货,没点斤两的都不好意思出来走两步。当年明月的《明朝那些事儿》、天下霸唱的《鬼吹灯》、蜘蛛的《十宗罪》、借佛献花的《你不该翻看的X罪案》、慕容雪村的《遗忘在光阴之外》等等,等等。那些年我们曾经追过的连载,你还记得吗?历史的车轮一路向前,滚滚碾过,碾过天涯,碾过你和我。林花谢了春红,太匆匆。芳草年年与恨长。一曲肝肠断,天涯何处觅知音?

当时明月在,曾照彩云归。那是最好的年代。繁花似锦。
打开淘股吧APP
59
评论(1003)
收藏
展开
热门 最新
河小白

25-02-11 22:09

0
惭愧。
乐山大佛罩我

25-02-11 21:57

0
LC小飞机

25-02-09 23:53

0
总感觉今年是科技大年,创新的一年。
河小白

25-02-09 23:42

0
在这个大时代面前,这并不是中国搞出来Deepseek,就可以一劳永逸了,也不是英伟达的末日来了,大家都可以去做空。
而是AI第三年的发展进入到了中国的节奏,我们也要为接下来必然会出现的一些事情未雨绸缪。
以英伟达为例,别看股价暴跌,甚至未来还可能会跌,但DeepSeek并不是他的灾难和敌人,他的敌人会在未来出现,相反,随着DeepSeek代表的中国AI成本大幅下降,全球的AI需求会因此激增。
还是以摩尔定律的半导体芯片来对照,随着晶体管成本的不断降低,半导体的需求也在以更快的速度激增,总的市场规模反而因此不断地扩大。(更知名的教科书案例还有美国的福特T型,德国的大众甲壳虫)
同理,随着今年开始,一批批的Deepseek出现,人工智能的各项成本会迅速降低,未来,在资本的推动与竞争下,很多东西甚至会变得免费。(参考十年前的乐视手机、电视)
回顾历史,一旦中国下场搞“降成本”,全球的产业都将迎来一轮大调整,很多神话也都会出现。
上一个十年周期,中国的产业降成本路线选择的是互联网“提速降费”,持续降低移动流量费用,缔造了全球移动互联网独角兽盛宴。
再上一个十年周期,中国产业降成本路线选择的是轨道交通“提速降费”,持续降低劳动力流动和制造业物流成本,缔造了全球MadeinChina的神话。
由于中国是政府主导,经济周期也是以十年作为一个周期,因此,节奏感上,比西方国家的市场模式更为显著。
如今,新一个十年DeepSeek代表的人工智能“提速降费”,同样的,跟轨道交通“提速降费”,移动网络“提速降费”类似,将推动全球AI市场进行一个“十年计划”的结构再调整。
在这个周期里,大约会是这样的“节奏”:
短期:降低了市场对算力的需求,潮水褪去,新应用尚未出现,部分短期炒作资金将撤出,产生恐慌。
中期:成本降低后大量新应用出现,对算力的需求指数级激增,大量长期资金进入,全球都会依赖于中国的降低成本,我们的外部环境会突然变好。
远期:在算力应用端占据优势的中国政府,必然搞自研和国产替代,走独立路线,美西方全力打压中国。
因此,Deepseek虽好,但不要神化。
我们可以把2025的英伟达,视作2005年的西门子和阿尔斯通,2015年后的高通英特尔,那么2025年的Deepseek,大约就相当于2005年的CH3、CH5动车组,2015年的乐视、红米手机,很快就会被更优异的复兴号和华为将其取代。
同样,英伟达虽然会是受益者,但如果不能迅速依靠中国市场扩张并建立稳固的护城河,也同样有阿尔斯通和英特尔这种被新势力取代的风险。
而真正给大众触感的,是AI算力成本大幅降低后,那些跟广大民众息息相关的AI消费与金融。
毕竟,2005年轨道交通提速降费,带来的是以万达广场为产业链与影子银行扩张的中国首富王健林,2015年移动网络提速降费,带来的是以淘宝产业链与支付宝扩张的中国首富马云。
河小白

25-02-09 20:32

1
01AI 交易策略:回报率远超指数2016 年,幻方量化已经率先推出了第一个AI模型,并将第一份由深度学生成的交易仓位成功上线执行。这一具有开创性的举措,开启了幻方量化 AI 交易的新纪元。
此后,幻方量化在AI技术的应用上不断深入,将所有交易策略都进行了全面的AI化改造。在AI技术的强大赋能下,幻方量化旗下基金的回报率大幅增长。与同期沪深300指数相比,其旗下基金的回报率优势显著,能超出指数涨幅的数倍。例如,在2018-2020年期间,沪深300 指数的年化收益率约为15%,而幻方量化旗下部分基金的年化收益率高达***%以上(点此查看收益) 。这一优异的成绩,不仅让投资者们获得了丰厚的回报,也让幻方量化在量化投资领域的地位更加稳固。
02DeepSeek - V2:引发价格战的 “拼多多”2024年5月,幻方量化旗下的DeepSeek公司推出了DeepSeek-V2大模型,这款模型以其创新的架构和史无前例的性价比,迅速在 AI 界掀起了一场风暴,被誉为 “AI 界的拼多多”。
DeepSeek-V2 采用了一系列创新的架构设计,如在注意力机制方面引入了 MLA(多头潜在注意力),在前馈网络方面采用了 DeepSeekMoE 架构等。这些创新设计使得模型在训练和推理过程中,能够更加高效地利用计算资源,从而实现了更高经济性的训练效果和更高效的推理。
在价格方面,DeepSeek-V2 的 API 定价极具震撼力。其定价为每百万 tokens 输入1元、输出2元,这个价格仅为 GPT-4Turbo的百分之一 。如此低廉的价格,让更多的企业和开发者能够轻松使用高质量的大模型服务,极大地降低了AI技术的应用门槛。
DeepSeek-V2 的推出,引发了AI大模型市场的价格战。字节、阿里、百度等大厂纷纷宣布对自家大模型产品进行降价,以应对 DeepSeek-V2 带来的竞争压力。这场价格战,不仅让大模型服务的价格更加亲民,也推动了整个AI行业的发展和普及。
03(三)“一只平凡的小猪”不平凡2023年1月9日,幻方量化的一则公告惊艳众人,在基金圈引起轩然大波。2022年度,幻方量化共计向慈善机构捐赠2.2138亿元。除此以外,其公司员工“一只平凡的小猪”个人向慈善机构捐赠1.38亿元。彼时大家都在找“平凡的小猪”,但“平凡的小猪并不平凡”,虽然公开信息极少,但经过网友的抽丝剥茧,这位“平凡的小猪”几乎可以确定是顶级量化私募的掌门人——梁文锋。
河小白

25-02-09 20:29

1
01初涉量化:执着开启财富大门这一切,都要从创始人梁文锋说起。公开资料显示,梁文锋1985出生于广东湛江,17岁考入浙江大学电子信息工程专业,后攻读信息与通信工程硕士学位,专注于机器视觉研究。师从项志宇,主要做机器视觉研究。大学期间,他不仅学业优异,还积极参与科研项目,为自己的未来奠定了坚实的基础。

(数据来源:网络)
2008年,从浙江大学软件工程专业毕业的梁文锋,没有选择像大多数同学那样进入大厂,成为一名安稳的程序员。他怀揣着对财富与技术融合的独特憧憬,毅然决然地踏上了一条充满未知与挑战的道路——独自前往成都,投身于量化投资领域的探索。
初到成都,梁文锋租住在狭小的出租屋内,开启了与孤独和未知相伴的创业生活。那时的量化投资,在国内尚属新兴领域,犹如一片未经开垦的荒地,充满了不确定性和质疑声。许多人对量化投资能否盈利持怀疑态度,认为这种依靠计算机算法和数据模型的投资方式过于抽象和不可靠。但梁文锋却被量化投资背后的科学逻辑深深吸引,他坚信,在看似无序的金融市场波动中,一定存在着某种可以被数学模型捕捉到的规律。而当时正值全球金融危机的爆发。
在那段艰难的日子里,每当遇到难以克服的困难,梁文锋总会想起量化投资之父西蒙斯的那句名言:“一定有办法对价格建模。” 这句话如同黑暗中的灯塔,给予他源源不断的动力和信心。他整日沉浸在数据的海洋中,不断尝试各种算法和模型,试图找到那把能打开财富大门的钥匙。
经过无数个日夜的艰苦钻研和反复试验,两年的时光悄然流逝。2010年,沪深300股指期货正式推出,这一里程碑事件为量化投资带来了前所未有的发展机遇,就像一场及时雨,滋润了梁文锋等量化投资者的心田。凭借着扎实的技术功底和敏锐的市场洞察力,梁文锋带领他的团队迅速抓住这一机遇,在市场中大展身手。他们所采用的量化投资策略取得了巨大的成功,自营资金如滚雪球般迅速增长,超过了5亿元。这一亮眼的成绩,不仅证明了梁文锋的坚持和努力是值得的,也让他在量化投资领域崭露头角,为后续的发展奠定了坚实的基础。
02创立私募:量化与AI的创新融合随着深度学算法在全球范围内取得重大突破,人工智能迎来了爆发式发展的黄金时代。这股科技浪潮深深触动了梁文锋,他敏锐地意识到,人工智能与量化投资的深度融合将孕育出无限的潜力,一个全新的投资时代即将拉开帷幕。
早在浙江大学求学期间,梁文锋就对人工智能领域展现出浓厚的兴趣,并进行了深入的研究。此刻,他内心的创业热情被再次点燃,一个宏伟的蓝图在他心中逐渐成型。2015年,梁文锋与几位志同道合的浙大校友携手合作。他们满怀壮志,立志要用数学和人工智能这两大强大的武器,在中国打造一个比肩文艺复兴科技公司的世界顶级量化对冲基金。私募排排网数据显示,九章资产于2015年6月11日在杭州成立,目前办公地点位于杭州,共有38名员工;幻方量化于2016年2月15日在宁波成立,目前办公地点同样位于杭州,共有66名员工。梁文锋同时是九章资产、宁波幻方量化两家百亿量化私募的实控人。
在幻方量化成立后的短短一年时间里,梁文锋和他的团队充分发挥专业优势,凭借着对技术的精湛理解和对市场的丰富经验,成功上线了第一笔由AI驱动的实盘交易。这一创新举措,犹如一颗投入平静湖面的石子,在金融市场中激起了层层涟漪。此后,他们不断加大对人工智能技术的研发和应用力度,逐步将所有交易策略都进行了AI化改造。
在新技术的有力加持下,幻方量化旗下基金的回报率大幅增长,超越了同期沪深300指数的表现。这一显著的业绩表现,吸引了众多投资者的目光,大量资金如潮水般涌入幻方量化,推动其基金规模持续攀升。到了2021年,幻方量化的基金规模成功突破千亿元大关,跻身国内量化四大天王之列,成为了国内量化投资领域的领军企业之一。而在量化私募圈,也素有“北九坤,南幻方”的说法。目前,幻方量化依然是量化头部,管理规模超600亿元。
截至2024年底,九章资产、宁波幻方量化共有14只产品在私募排排网展示业绩,上述产品管理规模合计25.52亿元,2024年收益均值为***%,近三年收益均值为***%,近五年收益均值为***%。值得一提的是,徐进管理的“九章幻方沪深300量化多策略1号”2024年收益为***%,大幅跑赢同期沪深300指数。(点此查看收益)


03算力布局:远见卓识的疯狂之举随着幻方量化基金规模的不断扩大,梁文锋也面临着一个严峻的挑战:AI交易策略对算力的需求呈现出指数级增长的趋势。为了满足日益增长的算力需求,力争公司在激烈的市场竞争中保持前列,梁文锋做出了一个在当时看来近乎疯狂的决定——大规模布局AI算力。
2019年,幻方量化果断投资2亿元,建成了 “萤火一号”AI 算力集群。这个算力集群搭载了1100块GPU显卡,在当时的技术条件下,堪称一项壮举。值得一提的是,彼时的特斯拉才刚刚提出Dojo超算概念,而幻方量化已经率先迈出了大规模算力布局的步伐。几个月后,当英伟达发布最新的 A100 芯片时,梁文锋再次展现出他的前瞻性和果断性,抢在众多企业之前,成为亚太地区第一批拿到此卡的人。
2021年,梁文锋对算力布局的决心进一步彰显,幻方量化再度豪掷10亿元,建成了 “萤火二号”。“萤火二号” 搭载了1万张A100显卡,其算力之强大令人惊叹,相当于76万台个人电脑的计算能力总和。其占地面积比10个篮球场还要大,宛如一个算力的 “巨无霸”。在AI大模型尚未爆发的年代,幻方量化如此大规模的算力投入,让许多人感到难以理解,甚至引来了一些质疑和批评。有人认为,一家私募基金花费如此巨额的资金囤积算力,是一种不切实际的疯狂行为,这些算力资源在短期内似乎无法带来直接的经济效益。
但梁文锋的目光早已超越了眼前的利益,他深知,算力是未来科技竞争的核心要素,尤其是在人工智能领域,强大的算力将为算法的训练和优化提供坚实的保障。他坚信,在不远的将来,这些看似疯狂的投入将为公司带来不可估量的回报。事实证明,梁文锋的决策是极具远见卓识的。这些大规模的算力布局,为幻方量化后续在AI领域的深入探索和创新发展奠定了坚实的基础,也为DeepSeek-V3和DeepSeek-R1大模型的成功研发提供了不可或缺的算力支持。
河小白

25-02-06 17:02

0
当地时间 2 月 2 日,美国首富马斯克,也就是特斯拉、星链和社交媒体 X 公司的大老板,同时还是美国政府新成立的政府效率部负责人,在他自己的社交媒体 X 上转发了一条帖子,直接炸了锅!他说美国国际开发署( USAI D)资助生物武器研究,像导致数百万人死亡的新冠病毒,就跟他们脱不了干系!
这消息一出来,瞬间在网上掀起惊涛骇浪。
河小白

25-02-05 21:19

1
1

年后第一天,数十人的工作组全面进驻万科。工作组的负责人,当然是新上任的万科董事长辛杰。
以类似海南省救助海航的经验,走到工作组这一步,一般意味着企业进入重整阶段,官方彻底承认了万科的危机。拯救万科的行动,正式开始。万科的管理层,也开始被拉清单问询摸底公司情况。
连业已退休的王石,也不例外。
《企业破产法》等法律中规定,成立工作组可以确保处置过程符合法律法规,保证各方的权益。无论是海航还是安邦危机,都是由工作组来收拾的。
海航的工作组由海南省政府牵头成立的,而安邦是由银保监会接管,最终也都没有引发系统性风险。
和海航或安邦工作组不同,万科工作组显然是完全由深圳市政府牵头成立的,成员全是深圳国有企业抽调上来。
现在看,万科目前的危机还没有上升到广东省或更高监管部门:
而完全由深圳“承办”。
从海航集团的工作组流程上来看,当时工作组组长顾刚进驻后,第一项重要任务是摸底。
他们首先把公司所有财务集结起来,然后他们花费了几个月的时间,对海航集团及旗下2000余家企业的资产、负债、关联往来等逐一核查,理清整个集团的资产底数、管理结构、股权关系和债权关系。
在数轮经济周期里穿越过来的四十一岁的万科,接下来发生什么新闻,也许都不意外。

2

万科基本所有部门都在改组。
根据万科公告的人员变动,战投部、财务部、法务部总经理,以及万科最大的两个区域——北京区域和华东区域的总经理全部换人,由工作组成员担任,分别是:
战投部总经理赵正阳,深圳资产管理副总经理;
财务部总经理肖静华,深铁集团专家;
法务部总经理商德良,深铁集团专职监事;
北京区域总经理王智余,深铁置业副总经理;
华东区域总经理陈武,天健兴业房地产总经理;
......
万科最有实权的几个部门或城市公司,就这样换了领导。当然,从名义上来说,战投部、法务部、财务部原先的合伙人和负责人还得到了保留。
在万科内部,这些实权人物的第一头衔原本是合伙人,比如前华东区域总经理吴镝,她首先是万科华东区域的首席合伙人,然后才是总经理。这也是万科职业经理人文化最显著的特征。
但现在,合伙人们的权力消失了。在生死存亡面前,职业经理人的小缱绻,已经不重要了。
万科公布的人员变动公告中,战投部总经理排在首位。包叔的好友兽爷是“战投帮”这个词的发明者,战投帮也曾是前董事长郁亮管理公司的权力核心部门。
2009年年底,在搭建3000亿规模的管控平台之时,郁亮对万科进行了一轮结构调整,让战投部兼并了其他不少部门:
战投部从此开始凌驾于万科的所有部门。
2007年,万科分管人力资源的解冻在哈佛广场旁的一个酒吧认识了留学生孙嘉。29岁的孙嘉成为战投部副总经理。
2025年2月5日,万科战投部新的副总经理是36岁的鄢伯通。一代新人换旧人,前途无量的总是年轻人啊。
而在拯救万科的这场行动力,大换血只是最简单的一步。

3

深圳政府是有担当的。
过去几年,暴雷的地产公司应该都向地方政府求助过,最著名的是恒大向广东、建业向河南发出的求助信。河南政府尝试出手了,但杯水车薪。
救建业都这么难,何况是体量几乎大建业n倍的万科?
深圳愿意在此刻接过万科重整的重任,冒了很大风险,担了很大责任。既有经济责任,更重要的是政治责任。
别的不说,救助一家混合所有制的房地产公司,本身也有一定道德风险。
中央多次强调过,不兜底企业债务,让企业自救。在这种情况下,之前深圳国资积极表态,有足够“子弹”支持万科,就太宝贵了。
怎样避免万科走到保交楼的那一步,工作组面临巨大的挑战。
海航工作组光摸海航的家底,就摸了一年。更不用说,怎么控制风险外溢?万科的资产肯定没犹如八爪鱼一般的海航复杂。
但社会影响,万科也不亚于海航。
比如债权人可能反对政府主导的重整方案,尤其是境外债权人,可能引发英美法系内的法律争议。
哪怕是境内银行、信托等金融机构,面临坏账计提压力,怎么去沟通?需要央行流动性支持,怎么去沟通?
海航工作组负责人后来说,经历了无数推演、争吵,熬过了无数个通宵,去了无数次北京,才让海航迎来新生。这一过程,他们遵循的原则只有两条:
市场化、法制化。
更重要的是,大换血后的万科,还能不能有战斗力?有人算过,万科至少需要维持每个月200亿的销售。
有万科城市总跟包叔说,员工已经开始观望摸鱼:
觉得领导应该都干不长了。
深圳已经做出选择,举特区之力,把万科救回来。
河小白

25-01-27 12:07

1
中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。
一年前,这种出其不意源自它背后的量化私募巨头幻方,是大厂外唯一一家储备万张A100芯片的公司,一年后,则来自它才是引发中国大模型价格战的源头。
在被AI连续轰炸的5月,DeepSeek一跃成名。起因是他们发布的一款名为DeepSeek V2的开源模型,提供了一种史无前例的性价比:推理成本被降到每百万token仅 1块钱,约等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek被迅速冠以“AI界拼多多”之称的同时,字节、腾讯、百度、阿里等大厂也按耐不住,纷纷降价。中国大模型价格战由此一触即发。
弥漫的硝烟其实掩盖了一个事实:与很多大厂烧钱补贴不同,DeepSeek是有利润的。
这背后,是DeepSeek对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA架构的5%-13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。
在硅谷,DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为,DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前员工Andrew Carr认为论文“充满惊人智慧”,并将其训练设置应用于自己的模型。而OpenAI前政策主管、Anthropic联合创始人Jack Clark认为,DeepSeek“雇佣了一批高深莫测的奇才”,还认为中国制造的大模型,“将和无人机、电动汽车一样,成为不容忽视的力量。”
在基本由硅谷牵动故事进展的AI浪潮里,这是罕有的情形。多位行业人士告诉我们,这种强烈的反响源自架构层面的创新,是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。一位AI研究者表示,Attention架构提出多年来,几乎未被成功改过,更遑论大规模验证。“这甚至是一个做决策时就会被掐断的念头,因为大部分人都缺乏信心。”
而另一方面,国产大模型之前很少涉足架构层面的创新,也是因为很少有人主动去击破那样一种成见:美国更擅长从0-1的技术创新,而中国更擅长从1-10的应用创新。何况这种行为非常不划算——新一代模型,过几个月自然有人做出来,中国公司只要跟随、做好应用即可。对模型结构进行创新,意味着没有路径可依,要经历很多失败,时间、经济成本都耗费巨大。
DeepSeek显然是逆行者。在一片认为大模型技术必然趋同,follow是更聪明捷径的喧哗声中,DeepSeek看重“弯路”中积累的价值,并认为中国的大模型创业者除应用创新外,也可以加入到全球技术创新的洪流中。
DeepSeek的很多抉择都与众不同。截至目前,7家中国大模型创业公司中,它是唯一一家放弃“既要又要”路线,至今专注在研究和技术,未做toC应用的公司,也是唯一一家未全面考虑商业化,坚定选择开源路线甚至都没融过资的公司。这些使得它经常被遗忘在牌桌之外,但在另一端,它又经常在社区被用户“自来水”式传播。
DeepSeek究竟是如何炼成的?我们为此访谈了甚少露面的DeepSeek创始人梁文锋。
这位从幻方时代,就在幕后潜心研究技术的80后创始人,在DeepSeek时代,依旧延续着他的低调作风,和所有研究员一样,每天“看论文,写代码,参与小组讨论”。
和很多量化基金创始人都有过海外对冲基金履历,多出身物理、数学等专业不同的是,梁文锋一直是本土背景,早年就读的也是浙江大学电子工程系人工智能方向。
多位行业人士和DeepSeek研究员告诉我们,梁文锋是当下中国AI界非常罕见的“兼具强大的infra工程能力和模型研究能力,又能调动资源”、“既可以从高处做精准判断,又可以在细节上强过一线研究员”的人,他拥有“令人恐怖的学能力”,同时又“完全不像一个老板,而更像一个极客”。
这是一次尤为难得的访谈。访谈里,这位技术理想主义者,提供了目前中国科技界特别稀缺的一种声音:他是少有的把“是非观”置于“利害观”之前,并提醒我们看到时代惯性,把“原创式创新”提上日程的人。
一年前,DeepSeek刚下场时,我们初次访谈了梁文锋 :《疯狂的幻方:一家隐形AI巨头的大模型之路》 。如果说当时那句「务必要疯狂地怀抱雄心,且还要疯狂地真诚」还是一句美丽的口号,一年过去,它已经在成为一种行动。

以下为对话部分
价格战第一枪是怎么打响的?
「暗涌」:DeepSeek V2模型发布后,迅速引发一场血雨腥风的大模型价格战,有人说你们是行业的一条鲶鱼。梁文锋:我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。
「暗涌」:这个结果让你们意外吗?梁文锋:非常意外。没想到价格让大家这么敏感。我们只是按照自己的步调来做事,然后核算成本定价。我们的原则是不贴钱,也不赚取暴利。这个价格也是在成本之上稍微有点利润。
「暗涌」:5天后智谱AI就跟进了,之后是字节、阿里、百度、腾讯等大厂。梁文锋:智谱AI降的是一个入门级产品,和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的。旗舰模型降到和我们一样的价格,然后触发了其它大厂纷纷降价。因为大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事,最后就变成了互联网时代的烧钱补贴的逻辑。
「暗涌」:外部看来,降价很像在抢用户,互联网时代的价格战通常如此。梁文锋:抢用户并不是我们的主要目的。我们降价一方面是因为我们在探索下一代模型的结构中,成本先降下来了,另一方面也觉得无论API,还是AI,都应该是普惠的、人人可以用得起的东西。
「暗涌」:在这之前,大部分中国公司都会直接copy这一代的 Llama结构去做应用,为什么你们会从模型结构切入?梁文锋:如果目标是做应用,那沿用 Llama结构,短平快上产品也是合理选择。但我们目的地是AGI,这意味着我们需要研究新的模型结构,在有限资源下,实现更强的模型能力。这是scale up到更大模型所需要做的基础研究之一。除了模型结构,我们还做了大量其他的研究,包括怎么构造数据,如何让模型更像人类等,这都体现在我们发布的模型里。另外,Llama的结构,在训练效率和推理成本上,和国外先进水平估计也已有两代差距。
「暗涌」:这种代差主要来自哪里?梁文锋:首先训练效率有差距。我们估计,国内最好的水平和国外最好的相比,模型结构和训练动力学上可能有一倍的差距,光这一点我们要消耗两倍的算力才能达到同样效果。另外数据效率上可能也有一倍差距,也就是我们要消耗两倍的训练数据和算力,才能达到同样的效果。合起来就要多消耗4倍算力。我们要做的,正是不停地去缩小这些差距。「暗涌」:大部分中国公司都选择既要模型又要应用,为什么DeepSeek目前选择只做研究探索?梁文锋:因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年,中国公司惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。
「暗涌」:互联网和移动互联网时代留给大部分人的惯性认知是,美国擅长搞技术创新,中国更擅长做应用。梁文锋:我们认为随着经济发展,中国也要逐步成为贡献者,而不是一直搭便车。过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。Scaling Law也在被如此对待。但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
真正的差距不是一年或两年,而是原创和模仿之差
「暗涌」:为什么DeepSeek V2会让硅谷的很多人惊讶?
梁文锋:在美国每天发生的大量创新里,这是非常普通的一个。他们之所以惊讶,是因为这是一个中国公司,在以创新贡献者的身份,加入到他们游戏里去。毕竟大部分中国公司惯follow,而不是创新。

「暗涌」:但这种选择放在中国语境里,也过于奢侈。大模型是一个重投入游戏,不是所有公司都有资本只去研究创新,而不是先考虑商业化。
梁文锋:创新的成本肯定不低,过去那种拿来主义的惯性也和过去的国情有关。但现在,你看无论中国的经济体量,还是字节、腾讯这些大厂的利润,放在全球都不低。我们创新缺的肯定不是资本,而是缺乏信心以及不知道怎么组织高密度的人才实现有效的创新。

「暗涌」:为什么中国公司——包括不缺钱的大厂,这么容易把快速商业化当第一要义?
梁文锋:过去三十年,我们都只强调赚钱,对创新是忽视的。创新不完全是商业驱动的,还需要好奇心和创造欲。我们只是被过去那种惯性束缚了,但它也是阶段性的。

「暗涌」:但你们究竟是一个商业组织,而非一个公益科研机构,选择创新,又通过开源分享出去,那要在哪里形成护城河?像5月这次MLA架构的创新,也会很快被其他家copy吧?
梁文锋:在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,我们的同事在这个过程中得到成长,积累很多know-how,形成可以创新的组织和文化,就是我们的护城河。
开源,发论文,其实并没有失去什么。对于技术人员来说,被follow是很有成就感的事。其实,开源更像一个文化行为,而非商业行为。给予其实是一种额外的荣誉。一个公司这么做也会有文化的吸引力。

「暗涌」:你怎么看类似朱啸虎的这种市场信仰派观点?
梁文锋:朱啸虎是自洽的,但他的打法更适合快速赚钱的公司,而你看美国最赚钱的公司,都是厚积薄发的高科技公司。

「暗涌」:但做大模型,单纯的技术领先也很难形成绝对优势,你们赌的那个更大的东西是什么?
梁文锋:我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。
英伟达的领先,不只是一个公司的努力,而是整个西方技术社区和产业共同努力的结果。他们能看到下一代的技术趋势,手里有路线图。中国AI的发展,同样需要这样的生态。很多国产芯片发展不起来,也是因为缺乏配套的技术社区,只有第二手消息,所以中国必然需要有人站到技术的前沿。



更多的投入并不一定产生更多的创新「暗涌」:现在的DeepSeek有一种OpenAI早期的理想主义气质,也是开源的。后边你们会选择闭源吗?OpenAI和Mistral都有过从开源到闭源的过程。
梁文锋:我们不会闭源。我们认为先有一个强大的技术生态更重要。

「暗涌」:你们有融资计划吗?看有媒体报道,幻方对DeepSeek有独立拆分上市的计划,硅谷的AI创业公司,最终也都难免要和大厂绑定。
梁文锋:短期内没有融资计划,我们面临的问题从来不是钱,而是高端芯片被禁运。

「暗涌」:很多人认为,做AGI和做量化是完全不同的两件事,量化可以闷声去做,但AGI可能更需要高举高打,需要结盟,这样可以让你的投入变大。
梁文锋:更多的投入并不一定产生更多的创新。否则大厂可以把所有的创新包揽了。

「暗涌」:你们现在不做应用,是因为你们没有运营的基因吗?
梁文锋:我们认为当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说,我们希望形成一种生态,就是业界直接使用我们的技术和产出,我们只负责基础模型和前沿的创新,然后其它公司在DeepSeek 的基础上构建toB、toC的业务。如果能形成完整的产业上下游,我们就没必要自己做应用。当然,如果需要,我们做应用也没障碍,但研究和技术创新永远是我们第一优先级。

「暗涌」:但选择API的话,为什么选择DeepSeek,而不是大厂?
梁文锋:未来的世界很可能是专业化分工的,基础大模型需要持续创新,大厂有它的能力边界,并不一定适合。

「暗涌」:但技术真的可以拉开差距吗?你也说过并不存在绝对的技术秘密。
梁文锋:技术没有秘密,但重置需要时间和成本。英伟达的显卡,理论上没有任何技术秘密,很容易复制,但重新组织团队以及追赶下一代技术都需要时间,所以实际的护城河还是很宽。

「暗涌」:你们降价后,字节率先跟进,说明他们还是感受到某种威胁。你怎么看创业公司与大厂竞争的新解法?
梁文锋:说实话我们不太care这件事,只是顺便做了这件事。提供云服务不是我们的主要目标。我们的目标还是去实现AGI。
目前没有看到什么新解法,但大厂也没有明显占优。大厂有现成的用户,但它的现金流业务也是它的包袱,也会让它成为随时被颠覆的对象。

「暗涌」:你怎么看DeepSeek之外的6家大模型创业公司的终局?
梁文锋:可能活下来2到3家。现在都还处在烧钱阶段,所以那些自我定位清晰、更能精细化运营的,更有机会活下来。其它公司可能会脱胎换骨。有价值的东西不会烟消云散,但会换一种方式。

「暗涌」:幻方时代,面对竞争的姿态就被评价为“我行我素”,很少在意横向比较。关于竞争,你思考的原点是什么?
梁文锋:我经常思考的是,一个东西能不能让社会的运行效率变高,以及你能否在它的产业分工链条上找到擅长的位置。只要终局是让社会效率更高,就是成立的。中间很多都是阶段性的,过度关注必然眼花缭乱。

一群做“高深莫测”事的年轻人「暗涌」:OpenAI前政策主管、Anthropic联合创始人Jack Clark认为DeepSeek雇佣了“一批高深莫测的奇才”,做出DeepSeek v2的是怎样一群人?
梁文锋:并没有什么高深莫测的奇才,都是一些Top高校的应届毕业生、没毕业的博四、博五实生,还有一些毕业才几年的年轻人。

「暗涌」:很多大模型公司都执着地去海外挖人,很多人觉得这个领域前50名的顶尖人才可能都不在中国的公司,你们的人都来自哪里?
梁文锋:V2模型没有海外回来的人,都是本土的。前50名顶尖人才可能不在中国,但也许我们能自己打造这样的人。

「暗涌」:这次MLA创新是如何发生的?听说idea最早来自一个年轻研究员的个人兴趣?梁文锋:在总结出Attention架构的一些主流变迁规律后,他突发奇想去设计一个替代方案。不过从想法到落地,中间是一个漫长的过程。我们为此组了一个team,花了几个月时间才跑通。
「暗涌」:这种发散性灵感的诞生和你们完全创新型组织的架构很有关系。幻方时代,你们就很少自上而下地指派目标或任务。但AGI这种充满不确定性的前沿探索,是否多了管理动作?梁文锋:DeepSeek也全是自下而上。而且我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。
「暗涌」:听说DeepSeek对于卡和人的调集非常灵活。梁文锋:我们每个人对于卡和人的调动是不设上限的。如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。
「暗涌」:一种松散的管理方式也取决于你们筛选到了一批强热爱驱动的人。听说你们很擅长从细节招人, 可以让一些非传统评价指标里优秀的人被选出来。梁文锋:我们选人的标准一直都是热爱和好奇心,所以很多人会有一些奇特的经历,很有意思。很多人对做研究的渴望,远超对钱的在意。
「暗涌」: transformer诞生在谷歌的AI Lab,ChatGPT诞生在OpenAI,你觉得大公司的AILab 和一个创业公司对于创新产生的价值有什么不同?梁文锋:不管是Google实验室,还是OpenAI,甚至中国大厂的AI Lab,都很有价值的。最后是OpenAI做出来,也有历史的偶然性。
「暗涌」:创新很大程度也是一种偶然吗?我看你们办公区中间那排会议室左右两侧都设置了可以随意推开的门。你们同事说,这就是给偶然留出空隙。transfomer诞生中就发生过那种偶然经过的人听到后加入,最终把它变成一个通用框架的故事。梁文锋:我觉得创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。但创新首先需要自信。这种信心通常在年轻人身上更明显。
「暗涌」:但你们不参与融资,很少对外发声,社会声量上肯定不如那些融资活跃的公司,怎么确保DeepSeek就是做大模型的人的首选?梁文锋:因为我们在做最难的事。对顶级人才吸引最大的,肯定是去解决世界上最难的问题。其实,顶尖人才在中国是被低估的。因为整个社会层面的硬核创新太少了,使得他们没有机会被识别出来。我们在做最难的事,对他们就是有吸引力的。
「暗涌」:前一段OpenAI的发布并没有等来GPT5,很多人觉得这是技术曲线明显在放缓,也很多人开始质疑Scaling Law,你们怎么看?梁文锋:我们偏乐观,整个行业看起来都符合预期。OpenAI也不是神,不可能一直冲在前面。
「暗涌」:你觉得AGI还要多久实现,发布DeepSeek V2前,你们发布过代码生成和数学的模型,也从dense模型切换到了MOE,所以你们的AGI路线图有哪些坐标?梁文锋:可能是2年、5年或者10年,总之会在我们有生之年实现。至于路线图,即使在我们公司内部,也没有统一意见。但我们确实押注了三个方向。一是数学和代码,二是多模态,三是自然语言本身。数学和代码是AGI天然的试验场,有点像围棋,是一个封闭的、可验证的系统,有可能通过自我学就能实现很高的智能。另一方面,可能多模态、参与到人类的真实世界里学,对AGI也是必要的。我们对一切可能性都保持开放。
「暗涌」:你觉得大模型终局是什么样态?梁文锋:会有专门公司提供基础模型和基础服务,会有很长链条的专业分工。更多人在之上去满足整个社会多样化的需求。


所有的套路都是上一代的产物
「暗涌」:过去这一年,中国的大模型创业还是有很多变化的,比如去年开头还很活跃的王慧文中场退出了,后来加入的公司也开始呈现出差异化。
梁文锋:王慧文自己承担了所有的损失,让其他人全身而退。他做了一个对自己最不利,但对大家都好的选择,所以他做人是很厚道的,这点我很佩服。

「暗涌」:现在你的精力最多放在哪里?
梁文锋:主要的精力在研究下一代的大模型。还有很多未解决的问题。

「暗涌」:其他几家大模型创业公司都是坚持既要又要,毕竟技术不会带来永久领先,抓住时间窗口把技术优势落到产品也很重要,DeepSeek敢于专注在模型研究上是因为模型能力还不够吗?
梁文锋:所有的套路都是上一代的产物,未来不一定成立。拿互联网的商业逻辑去讨论未来AI的盈利模式,就像马化腾创业时,你去讨论通用电气和可口可乐一样。很可能是一种刻舟求剑。

「暗涌」:过去幻方就有很强的技术和创新基因,成长也比较顺利,这是你偏乐观的原因吗?
梁文锋:幻方某种程度上增强了我们对技术驱动型创新的信心,但也不都是坦途。我们经历了一个漫长的积累过程。外部看到的是幻方2015年后的部分,但其实我们做了16年。

「暗涌」:回到关于原创式创新的话题。现在经济开始进入下行,资本也进入冷周期,所以它对原创式创新是否会带来更多抑制?
梁文锋:我倒觉得未必。中国产业结构的调整,会更依赖硬核技术的创新。当很多人发现过去赚快钱很可能来自时代运气,就会更愿意俯身去做真正的创新。

「暗涌」:所以你对这件事也是乐观的?
梁文锋:我是八十年代在广东一个五线城市长大的。我的父亲是小学老师,九十年代,广东赚钱机会很多,当时有不少家长到我家里来,基本就是家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。
以后硬核创新会越来越多。现在可能还不容易被理解,是因为整个社会群体需要被事实教育。当这个社会让硬核创新的人功成名就,群体性想法就会改变。我们只是还需要一堆事实和一个过程。
河小白

24-12-30 10:05

0
12月2日,国防部新闻发言人吴谦就美国新一轮对台售武答记者问时表示:将持续加强练兵备战。公开讲备战二字,绝不是在开玩笑,不仅仅是因为军事层面。从2020年开始,中国的粮食库存占了全球一半以上的规模;煤炭库存已从2021年底的不到9000万吨升至今年6月底的6.35亿吨这一前所未见的水平;钢铁领域关键原材料铁矿石的港口库存已飙至历史最高水平;全球超过90%的可见铜库存、全球近四分之一的原油库存都在中国……这些东西,都是为了保证中国庞大的工业体系能够在战时状态之下正常运行,而且我认为,这些大宗商品的高库存状态会持续到2030年。中国现在没法藏锋了,毕竟实力摆在那里,怎么藏都藏不住,所以干脆开始打明牌了。
刷新 首页 上一页 下一页 末页
提交