联合国教科文组织国际创意与可持续发展中心

2024-11-22 13:25 乐鱼官方是赞助了大巴黎

逻辑清晰，语调幽默，感情饱满，很难想象这是现实中人类与AI间的对线日凌晨，美国人工智能公司OpenAI的春季发布会上线，发布了人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场，这位提问的研发负责人在得到GPT-4o的回应后，随即故意大喘几口气，这一动作成功被手机上的GPT-4o捕捉到，并给出了“放松点，你可不是吸尘器”的回应。

OpenAI发布会现场，GPT-4o正在告诉工作人员“放松点，你可不是吸尘器”。图源：OpenAI官网视频截图

在科技快速的提升的今天，人工智能（AI）已成为推动社会进步的重要力量。AI大模型作为这一领域的佼佼者，正以前所未有的速度更新迭代，带来一系列令人惊叹的“黑科技”。这些技术不仅改变了我们的工作和生活方式，更让我们对未来充满了无限的想象和期待。今天，创意中心就跟大家一起走进这个充满黑科技的世界，看看最近火热的大模型有哪些？又有哪些新奇的黑科技产品？

AI大模型，即利用深度学习技术构建的具有海量参数和强大计算能力的神经网络模型。近年来，随着计算能力的提升和大数据的爆发式增长，AI大模型得到了迅猛发展。它是“大数据+大算力+强算法”结合的产物，凝聚了大数据内在精华的“隐式知识库”。目前，AI大模型已经逐渐从单一任务向多任务、多模态发展。多任务学习使得AI大模型能够同时处理多种不同的任务，提高了模型的泛化能力；而多模态学习则使得AI大模型能够同时处理文本、图像、音频等多种不同的信息形式，进一步拓展了AI大模型的应用场景范围。科技巨头们掀起一轮又一轮的AI军备竞赛。比如这两天在大洋彼岸的OpenAI和谷歌。

5月14日凌晨，继提早预告了ChatGPT和GPT-4“就像魔法一样”的重大更新后，OpenAI揭开了最新大模型的神秘面纱。会上，OpenAI发布了新旗舰模型“GPT-4o”，这里的“o”代表“omni”，意为“全能”。顾名思义，最新的GPT-4o是款全能型大模型，也是OpenAI CEO阿尔特曼口中“很有意思的东西。”

为了彰显“全能”，OpenAI首席技术官米拉穆拉蒂用大量篇幅介绍GPT-4o的先进程度。比如，GPT-4o可以综合利用语音、文本和视觉信息进行推理；GPT-4o在GPT-4的基础上，新增语音解决能力，掌握多国语言；GPT-4o还可接受文本、音频和图像的任意组合作为输入，并生成文本、音频和图像的任意组合输出。用OpenAI官网的线o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能，同时在多语言、音频和视觉功能上也达到了新高水位线。

整场发布会最大的亮点，也是最特别之处莫过于GPT-4o更像人。一方面，GPT-4o几乎能做到即时回应，没有停顿。另一方面，GPT-4o能在与人的对话中，通过图表、图像等形式判断用户的情绪、状态，并给出“情绪化”的回应夸张的、戏剧的、低沉的是的，GPT-4o驱动下的ChatGPT，已不再是一个单纯追求性能的AI工具，而是可以主动给予用户情绪价值的AI助理。

这一次，GPT-4o的出现，是OpenAI向本就不平静的池水中投掷了一枚极具杀伤力的炸弹，并直指同在硅谷的科技巨头谷歌。

5月15日，谷歌举办了2024年I/O开发者大会，AI是全场的主题，谷歌CEO皮查伊发布数十款Google和 AI 结合产品，堪称“全家桶”级别。其中包括支持200万Tokens长文本的Gemini 1.5 Pro和 Gemini 1.5 Flash、谷歌版Sora技术Veo，最强开源模型Gemma 2，支持生成式搜索的AI Overviews、第六代TPU等。围绕AI，皮查伊及同事进行了长达110分钟的演讲，据谷歌统计，皮查伊提及AI的次数高达121次。

最受关注的莫过于AI助手Project Astra。相比于谷歌上一代AI助手Google Assistant，Project Astra是一个实时、多模式的AI助手，通过接收信息、记住它所看到的内容、处理该信息和理解上下文细节来与周围的世界进行交互，没有延迟或延迟，可以回答问题或帮助你做几乎任何事情。演示视频中，Project Astra可以通过手机摄像头识别现实环境，实现了能看、能说、能听。这与前一天GPT-4o的功能不谋而合。相比于GPT-4o提供情绪价值，Project Astra更强调指向人、机器与现实世界的三重交互。用谷歌Deepmind负责人哈萨比斯的话说，这是真正通向AGI的万能助手项目。在谷歌最擅长的搜索上，谷歌在一周内将在美国推出“AI概览”（AI Overviews）功能，搜索引擎会直接归纳总结搜索结果；谷歌还推出了新的TPU，第六代TPU芯片Trillium，较上一代芯片的算力表现翻4.7倍。

而在大洋彼岸的中国，也聚集了一众参与大模型军备竞赛的玩家，正努力缩小与国外科技公司的差距，并在场景、价格、落地上有更多的探索。

5月15日，字节推出豆包大模型，日均处理1200亿Tokens文本，生成3000万张图片；5月14日，腾讯混元大模型升级开源，采用与Sora同款DiT架构；5月9日，阿里云正式发布通义千问2.5，模型性能全面赶超GPT-4 Turbo

在日前举行的一场生成式AI产业应用峰会上，“全球首个大熊猫行为智能识别模型”及智慧管理系统正式亮相。

在中国大熊猫保护研究中心和腾讯云的支持、指导下，广东工业大学的师生团队打造了全球第一个大熊猫行为智能识别模型及智慧系统，这个“大熊猫AI奶爸”可以识别圈养大熊猫进食、喝水和睡觉等日常行为，准确率超过80%。

以大熊猫彩云为例。模型识别后生成的报告显示，大熊猫彩云一天中大概有4至5个小时都在进食，喝了2次水，睡觉时间超过12个小时。广东工业大学教授蔡念介绍，这些行为都是判断大熊猫健康状况的重要依据，用AI识别并记录这些行为的发生时间、时长和频率，可以帮助饲养员展开研究，对于大熊猫保护具有重要意义。蔡念介绍，通过AI赋能，能做到全天候、全场景的对大熊猫的智能看护。第一阶段已经完成了吃喝睡行为的分析，而且也能够生成相应的日报，饲养员看到日报后就能分析，发现大熊猫生病与否，或者是否正在发情期要准备生育等。

蔡念说，“大熊猫AI奶爸”的出现是大模型在动物保护领域的一次探索和尝试，让行业看到了生成式人工智能更多的想象空间。

只需牵住“狗绳”，报一声想去的区域，智能电子导盲犬“小西”便会缓缓启动，为视障人士带路。

在去年举办的杭州第4届亚洲残疾人运动会上，智能电子导盲犬走红网络。“由它带着我们，再也用不着担心找不到方向了。”参加杭州亚残运会的运动员说。

目前，我国约有1700万视障人士，导盲犬是他们出行、参与社会生活的重要工具，它也被称为视障人士的“第二双眼睛”。不过，由于培训周期长、成本高，我国导盲犬数量远不能够满足实际需要。

除了能导航，智能电子导盲犬还有别的本领。西湖大学机器智能实验室成员联合企业研发的智能电子导盲犬“小西”集成了激光雷达等多种传感器。利用这些传感器，“小西”可以对周围环境进行判断，实现自主避障行走。此外，“小西”还能播报路况，“听懂”中英双语指令，自动规划出最优行进路径，在检测到障碍物时主动提醒用户，并按需调整行进速度、改变行进路线。

在现实生活中电子导盲犬的形态千差万别，除了像真实导盲犬的机器人外，还可以是一部手机。深圳市信息无障碍研究会联合企业一起，成功将电子导盲犬功能嵌入到导航软件中。

“在使用该导航软件的过程中，若用户偏离了导航方向，手机就会以震动的方式反馈给用户，提示当前路线是错误的并告知方向和偏离的角度。”深圳市信息无障碍研究会工程师沈广荣说。

电子导盲犬、智能仿生手、无障碍导航一大批切中残障人士生活“痛点”的科学技术产品，正努力消除他们与外界的数字鸿沟，很多残障人士借此开启了“无碍”生活。

小型化、轻量化和无感化是VR、AR设备的重要发展的新趋势之一。隐形眼镜贴合于人眼，可随眼球转动而动。如果将眼动追踪技术应用于隐形眼镜，又将带来什么新体验？

日前，南京大学与江苏省人民医院、南京航空航天大学的研究团队研发出一种具有眼动追踪功能的隐形眼镜。该眼镜无线无源、轻量无感，可以和配备的无线射频装置“里应外合”，高精度追踪眼球运动轨迹、识别眼动命令。

佩戴在模拟眼球上的嵌入无线射频位置标签的隐形眼镜图源：南京大学2020级博士生朱衡天

目前，市面上许多眼动追踪技术需要将红外光投射到眼球上，通过摄像头拍摄并识别眼球特征，来推算眼球移动的位置轨迹。“但这种技术易受到眼睑、睫毛遮挡的干扰和瞳孔、虹膜等个体差异的影响，对于特定场景的应用会有局限，例如如果要分析人在睡眠时的眼动规律，就没办法实现。”南京大学教授徐飞说。

在该项研究中，团队采取了一种新的技术路径，利用无线射频装置与隐形眼镜的信号传输，实现了“即使闭着眼睛，也能捕捉眼动信号”的突破。

徐飞解释道，“我们在隐形眼镜中植入了四个无线射频位置标签，这四个标签覆盖在眼球的四周。当无线射频装置向眼球发出射频信号时，如果眼球移动了，反射回无线射频装置的射频信号的频率和强度就会发生明显的变化。通过一系列分析信号的数据，我们就能知道眼动的轨迹。”同时，这些位置标签、隐形眼镜具有和人眼角膜相匹配的曲率，加之隐形眼镜进行了表面亲水化改性，使得隐形眼镜水润透氧、舒适无感。

科研团队研发的隐形眼镜的无线射频装置图源：南京大学2020级博士生朱衡天

据了解，该隐形眼镜有望在人机交互、眼脑医学诊疗、眼-脑科学研究、心理学研究等领域展开应用。

科学技术是一把双刃剑。人工智能革命在如火如荼进行时，也带来了一系列挑战：

首先，人工智能大模型存在泄露个人隐私信息、敏感数据的风险。大模型的运行需要大量的数据，这一些数据中可能包含用户的个人隐私信息、公司的商业机密甚至政府的敏感数据等。这些个人隐私信息、敏感数据一旦遭到泄露并被恶意利用，将会严重威胁公共安全。

其次，人工智能大模型潜藏伦理风险。一方面，人类天然的“科技崇拜”促使其容易对大模型的运算结果产生高度信赖，如果大模型的算法和数据存在问题，就会产生错误的判断和推荐，形成“错误权威”，从而误导大众。例如医疗、法律等专业性质的错误信息就可能严重误导用户，并对其合法权益造成损害。另一方面，如果大模型的学习数据中存在不良的社会导向，比如基于种族、民族、信仰、国别、地域、性别、年龄、职业等因素产生偏见与歧视，那么在这一些数据的学习下生产的内容，可能使某些群体处于不公平的境遇。

最后，大模型的不当利用更易产生违法犯罪。大模型超强的生成能力及基于大量数据训练而具备的“类人”输出和交互能力，使其能够以低成本方式大规模制造更逼真、更具欺骗性的虚假信息，例如，可以大量制作更具说服力的网络钓鱼电子邮件，使网络用户在不知不觉中受到引导，深陷感情类、财产类诈骗的陷阱。对此若不进行相对有效规制，对经济社会持续健康发展将会导致非常严重的负面影响。

安全方能长远。不管多么先进，只有在确保数据安全和隐私保护、健全人工智能伦理与安全的前提下，AI技术才能真正释放应用价值，才真正具有存在的意义。期待未来AI在各领域中有更精彩应用、普惠全世界的同时，更符合人类价值观、更具有“人情味儿”。

上一篇: 科学技术创新的发展印迹下一篇: 从近5万人到112亿人——科学技术创新大步前行