2026-05-18 22:12:28 6310次浏览

新智元报道

LRST

【新智元导读】最新研究提出合成数据的全新分类框架,突破「生成模型=合成数据」的传统认知,涵盖反演、仿真与数据增强等方法,并按应用层次划分为数据中心AI、模型中心AI、可信AI和具身AI。

随着基础模型规模不断扩大,真实数据在成本、隐私、质量和可控性上的限制,正逐渐成为 AI 继续发展的关键瓶颈。

尤其是在医疗等高价值场景中,真实数据本身难以获取,「依赖数据自然产生」的范式正在失效。

在这样的背景下,合成数据正在从「真实数据的补充」,转变为“主动构造高质量训练与评估数据的核心机制”。

基于对300+篇代表性文献的系统梳理,南洋理工大学、清华大学、四川大学、中山大学的研究人员提出了一个统一的How / Why / Where框架,重新定义了合成数据的方法边界,并从应用层面给出了更完整的发展路径。

论文链接:https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

论文资源库:https://github.com/Egg-Hu/Awesome-Synthetic-Data-Generation

首先,合成数据方法该如何分类?

很多工作默认认为「合成数据 = 生成模型」,该综述重新定义了「数据合成」的方法边界,跳出「合成数据 = 生成模型」的单一视角。也就是说,合成数据并不等同于“用生成模型造数据”,反演、仿真、增强等方式也都应被纳入合成数据的范畴。

下表给出了整体分类框架:

第二,合成数据应用在哪些核心场景?

不同于以往按具体任务或领域划分的方式,本文从更高层次出发,将合成数据的应用组织为一条逐步演进的能力路径。

在这一框架下,最基础的是数据中心人工智能(Data-centric AI),其核心目标是解决真实数据稀缺、获取成本高以及隐私受限等问题,通过合成数据扩展训练集并提升数据质量,为模型训练提供稳定的数据基础。

在此之上,随着数据可获得性的提升,研究重点逐渐转向模型中心人工智能(Model-centric AI),此时合成数据不仅用于补充数据,还被用于能力注入,例如提升模型的推理、编码与对齐能力,并构建可控的评测基准。

进一步地,随着模型能力的增强,对系统可靠性的需求不断提高,催生了可信人工智能(Trustworthy AI),在这一阶段,合成数据被广泛用于隐私保护、安全防护、公平性提升以及模型可解释性分析。

最后,合成数据的应用从数字空间走向现实世界,对应的是具身智能(Embodied AI),其目标是支持感知、交互与泛化能力,使智能体能够在复杂物理环境中进行决策与行动。下表给出了整体结构(具体细节可参考原论文):

进一步地,文章将上述四类应用场景细化到了 30+ 个具体机器学习任务层级,从而构建起从宏观分类到具体问题的系统化映射。

如下图所示,每一类场景都被进一步拆解为多个典型问题:例如,在数据中心人工智能中,涵盖了零/少样本学习、联邦学习、无数据学习、数据蒸馏等任务;在模型中心人工智能中,则进一步细化为模型通用能力提升,以及推理、编码、指令对齐等特定能力的增强,同时也包括基于合成数据的模型评测任务;

在可信人工智能中,主要聚焦于隐私保护、模型攻击、安全防护、长尾学习与可解释性等任务;而在具身智能中,则进一步延伸到感知、交互以及跨场景泛化等面向真实环境的任务。

最后,合成数据面临哪些挑战与机遇?

尽管在方法体系与应用落地方面已经取得了显著进展,但合成数据仍处于快速发展阶段,仍然存在一系列关键挑战有待解决。

随着模型越来越多地依赖自生成数据进行训练,一个核心风险逐渐显现:模型坍塌(model collapse)。当模型反复在自身生成的数据上迭代训练时,可能导致分布逐渐收缩,数据多样性下降,从而影响模型性能与泛化能力。

在实际应用中,如何在数据效用与隐私保护之间取得平衡,仍然是一个长期存在的问题,即所谓的数据效用与隐私保护的权衡(utility–privacy tradeoff)。过强的隐私约束可能降低数据可用性,而过高的数据保真度又可能带来潜在的隐私泄露风险。

当合成数据被用于模型评测时,还可能引入新的偏差来源。例如,生成-评测偏差(generation–evaluation bias)指的是模型在由相似生成机制产生的测试数据上表现更优,从而导致评估结果失真,影响对模型真实能力的判断。

在方法层面,多个前沿方向也仍有待探索。例如,主动式数据合成(active data synthesis)强调根据模型需求动态生成最有价值的数据,以提升数据利用效率;而多模态数据合成(multi-modal data synthesis)则关注如何生成语义一致、跨模态对齐的高质量数据,这对于多模态模型的发展尤为关键。

最后,一个基础但尚未完全解决的问题是:如何系统性评估合成数据的质量。这不仅包括数据的有效性(utility)与多样性(diversity),还涉及隐私(privacy)与安全性(security)等多个维度,目前仍缺乏统一且标准化的评测体系。

下图给出了该综述的总体整理框架,具体细节可参考原文。

这篇综述最值得关注的地方,不只是整理了现有方法,更重要的是它改变了买球理解合成数据的方式: 合成数据不再只是生成模型的一个应用方向,而正在成为连接数据、模型、评测与真实世界交互的新型基础设施。

如果说过去AI的竞争核心是「谁拥有更多真实数据」,那么未来很可能会变成「谁能更高效、更安全、更可控地生成高价值数据」。

参考资料:

https://www.techrxiv.org/users/1016218/articles/1378802-synthetic-data-beyond-generative-models-a-comprehensive-survey-of-how-why-and-where

在互联网高速发展的今天,各种信息如潮水般涌来,其中不乏一些低俗、不良的内容。近期,一则名为“操老太视频”的视频在网络上引起了广泛关注。本文将深入剖析这一事件,揭示其背后的真相,并对网络传播现象进行警示。 核心词:操老太视频、网络传播、真相、警示 首先,让买球来了解一下“操老太视频”的具体内容。据网友爆料,这段视频时长约3分钟,画面中一位老年女性在公共场所进行不雅动作。该视频一经发布,迅速在各大社交平台传播,引发了网友们的热议。 然而,在众多网友纷纷指责这位老年女性之余,也有不少网友开始质疑视频的真实性。经过调查,买球发现这段视频并非真实事件,而是经过剪辑、合成的虚假视频。那么,为何会有如此多人相信这是一段真实视频呢? 首先,这可能与当前社会风气有关。近年来,随着网络低俗内容的泛滥,人们对于这类事件已经产生了免疫力。当看到类似视频时,人们往往不假思索地相信其真实性,而忽略了辨别真伪的重要性。 其次,这可能与部分网友的猎奇心理有关。在好奇心的驱使下,他们愿意相信并传播这类低俗、不良内容,从而满足自己的心理需求。 针对这一现象,买球有必要对其进行深入剖析,并提出以下警示: 1. 提高自身辨别能力。在信息爆炸的时代,买球要学会辨别真伪,避免被虚假信息误导。 2. 增强法律意识。对于传播虚假信息的行为,买球要坚决抵制,并积极向有关部门举报。 3. 营造良好网络环境。作为网民,买球要自觉遵守网络道德,不传播低俗、不良内容,共同维护网络环境的和谐。 4. 关注心理健康。面对网络上的各种诱惑,买球要保持清醒的头脑,关注自身心理健康,避免被不良信息所影响。 此外,针对“操老太视频”这一事件,买球还要关注以下问题: 1. 网络暴力。在事件发酵过程中,部分网友对这位老年女性进行了人身攻击,这种行为是不可取的。买球要学会尊重他人,避免网络暴力。 2. 虚假信息传播。虚假信息的传播给社会带来了负面影响,买球要共同努力,打击虚假信息,净化网络环境。 3. 社会道德建设。这一事件反映出当前社会道德观念的缺失,买球要加强道德教育,提高全民道德素质。 总之,“操老太视频”这一事件给买球敲响了警钟,让买球认识到网络传播的负面影响。在今后的日子里,买球要共同努力,营造一个健康、和谐的网络环境。 最后,让买球再次呼吁广大网民,提高自身素质,共同抵制低俗、不良内容,为构建美好网络家园贡献力量。


揭秘“操老太视频”:网络传播的真相与警示,提升你部队的等级,勤加练兵打造绝世的装备,玩家可以和朋友一起,用所学各具特色的技能让你的部队所向披靡,统一之时您将和你的盟友共享江山。 【哔哩哔哩】【bilibili】
合成数据≠生成模型:一文读懂合成数据的全新范式
揭秘“操老太视频”:网络传播的真相与警示

/eanews/article/3784413.htm

「活动」首次登录送973积分

683.40MB
版本V1.46.78
下载揭秘“操老太视频”:网络传播的真相与警示安装你想要的应用 更方便 更快捷 发现更多
喜欢 64%好评(34人)
评论 00
详细信息
应用介绍
一.揭秘“操老太视频”:网络传播的真相与警示  久久久亚洲色情私人影院
二.国产做受?高潮素材喷水合集  吃瓜网
三.一级做爱床戏  动漫美女和男人视频
四.成人AV网站在线观看  视频一区二区三区
五.女学被?到爽?流片自慰  XNXX中文
六.v2ba最新空间地址  ?我好大好爽
七.黑妞熟女  扒开上部?狂揉下部?
八.国产精品?色欲A片借  扒开?让我?蜜桃视频麻烦黄

【联系买球】
客服热线:400-1288-1419
加载更多
版本更新
V.0.66.45
一箱“五稂液”,100多元?

揭秘“操老太视频”:网络传播的真相与警示类似软件

猜你喜欢

包含 饿了么 的应用集
评论
  • 国际原油恐慌性交易退潮 库存骤降继续推升油价 8天前
    北京楼市:海淀的后花园,来了
  • 安菲尔德新时代!萨拉赫和罗伯逊离队后,利物浦下赛季夏季转会完成后的全新阵容 9天前
    员工获刑、威高股份公开致歉,医疗灰色营销时代加速落幕
  • 美国禁止以色列轰炸黎巴嫩,以总理:军事任务“尚未结束” 7天前
    深耕人工智能 百世集团获批"国家邮政局技术研发中心"
  • 深圳青年人3-0宁波,加里塔双响,黄开俊破门 9天前
    两大芯片巨头,双双重仓中国!
  • 055大驱+鹰击21导弹护航,美国对伊朗港口封锁,中国能源安全有风险? 3天前
    巴莱巴成曼联第三选择,无缘安德森托纳利才买!仅为其估值5000万
  • 德米凯利斯:“买球想在第二个进球之前打入第三个” 5天前
    伦理防线不可靠!分布偏移诱导,大模型进入暗黑模式
  • 一头猪出栏,倒贴400块,养猪人为什么不直接关掉猪场? 4天前
    超38亿元!永辉超市“追债”成功
  • 坐拥三栋排屋别墅,价值上亿,却只能住外面!女子:半年下沉22公分,管道、墙体开裂,房子倾斜 4天前
    巴基斯坦带领三国证明,伊朗元气大伤后,只有他们能镇得住以色列
  • 人民之心|有作为就要有担当 2天前
    中介盯上大学生创业补贴 如何识破代办陷阱
  • 与君偕荣,皇社球员将被马竞球迷杀死的皇社球迷球衣挂上奖杯 1天前
    多地鼓励技校招收大学毕业生,大学生回炉读技校释放什么信号