123悬赏网_发布悬赏任务_广告任务平台

首頁(yè) > 活動(dòng)線報(bào) > 每日福利 > 谷歌對(duì)壘OpenAI,誰(shuí)更勝一籌?

谷歌對(duì)壘OpenAI,誰(shuí)更勝一籌?

發(fā)布時(shí)間:2024-05-17 23:13:19

中國(guó)戰(zhàn)略新興產(chǎn)業(yè)融媒體記者 艾麗格瑪

當(dāng)?shù)貢r(shí)間5月14日,谷歌在2024 Google I/O大會(huì)上展示了其在AI技術(shù)上的一系列突破。就在一天前,OpenAI發(fā)布的GPT-4o已經(jīng)引發(fā)了一波熱議,而發(fā)布時(shí)間僅差一天的兩個(gè)技術(shù)產(chǎn)品被視為是這兩家科技企業(yè)在AI領(lǐng)域真刀明槍的激烈對(duì)壘。

谷歌和OpenAI的發(fā)布會(huì),不約而同地強(qiáng)調(diào)了AI與現(xiàn)實(shí)世界的真正交互——例如用攝像頭感知環(huán)境、識(shí)別內(nèi)容和互動(dòng)。不過(guò),在產(chǎn)品功能重點(diǎn)方面,兩家公司各有千秋。

那么,最新的AI大模型到底能做到什么程度?它們能帶來(lái)生產(chǎn)力的質(zhì)變,還是僅僅停留在概念性的炒作?

01

各有側(cè)重的階段性更新

當(dāng)?shù)貢r(shí)間5月13日,OpenAI通過(guò)直播展示了產(chǎn)品更新。

這次,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是發(fā)布了GPT-4系列新模型GPT-4o以及AI聊天機(jī)器人ChatGPT的桌面版本。這可以看作是對(duì)GPT-4的一次階段性更新,而根據(jù)OpenAI官方網(wǎng)站介紹,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

據(jù)介紹,GPT-4o文本、推理、編碼能力達(dá)到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的兩倍,但成本僅為GPT-4 Turbo的一半,視頻、音頻功能得到改善。OpenAI公司CEO山姆·奧爾特曼在博客中表示,ChatGPT免費(fèi)用戶也能用上新發(fā)布的GPT-4o。此外,OpenAI還與蘋(píng)果走到一起,推出了適用于macOS的桌面級(jí)應(yīng)用。

OpenAI技術(shù)負(fù)責(zé)人Mira Murati在直播中表示:“這是我們第一次在易用性方面真正邁出的一大步。”

OpenAI將GPT-4o定位為GPT-4性能級(jí)別的模型。據(jù)介紹,GPT-4o在傳統(tǒng)基準(zhǔn)測(cè)試中,文本、推理、編碼能力達(dá)到GPT-4 Turbo的水平。該模型接收文本、音頻和圖像輸入時(shí),平均320毫秒響應(yīng)音頻輸入,與人類(lèi)對(duì)話中的響應(yīng)時(shí)間相似,英文文本和代碼能力與GPT-4 Turbo相當(dāng),在非英文文本上有改善,提高了ChatGPT針對(duì)50種不同語(yǔ)言的質(zhì)量和速度,并通過(guò)OpenAI的API提供給開(kāi)發(fā)人員,使其即時(shí)就可以開(kāi)始使用新模型構(gòu)建應(yīng)用程序。

與之形成對(duì)比的是,谷歌終于將自己在搜索領(lǐng)域的強(qiáng)項(xiàng)融入了AI產(chǎn)品:比如“Ask with video”,利用Gemini的多模態(tài)能力與Google Lens相結(jié)合,可以實(shí)現(xiàn)視頻搜索——錄制一段視頻,就能知道用戶使用唱片機(jī),甚至維修照相機(jī);Google Photos中還推出了新的AI功能“Ask Photos”,可以通過(guò)簡(jiǎn)單的提問(wèn)在大量照片中找出“孩子多年來(lái)學(xué)習(xí)游泳的歷程”。

谷歌版 AI 搜索的輸出結(jié)果不再是網(wǎng)址的羅列,而是一個(gè)全新的整合頁(yè)面——它更像一份針對(duì)用戶提問(wèn)而形成的報(bào)告,不僅包括對(duì)問(wèn)題本身的回答,也包括對(duì)用戶可能忽略問(wèn)題的猜測(cè)和補(bǔ)充。

在大會(huì)上,谷歌搜索部門(mén)負(fù)責(zé)人Liz Reid表示,“生成式AI搜索將為你做的比你想象更多。不管你腦子里在想什么,或者你需要做什么,只要問(wèn),谷歌就會(huì)為你搜索。”她解釋說(shuō),AI概述在收到一個(gè)一般查詢后會(huì)提供一系列潛在答案,并鏈接到更深入的內(nèi)容。它還能通過(guò)在搜索中使用“多重推理”在幾秒鐘內(nèi)回答更復(fù)雜的問(wèn)題和子問(wèn)題。

谷歌同樣展示了現(xiàn)實(shí)交互功能,其一款名為Project Astra的多模式AI助手,可以觀看并理解通過(guò)設(shè)備攝像頭看到的內(nèi)容,記住用戶的東西在哪里,幫用戶在現(xiàn)實(shí)世界搜索物品,或是完成其他任務(wù)。

但是,相比于OpenAI簡(jiǎn)單直接的視頻說(shuō)明,谷歌在現(xiàn)場(chǎng)演示的AI工具卻遭遇“翻車(chē)”。

開(kāi)場(chǎng)時(shí),一位從舞臺(tái)上的茶杯中鉆出的DJ,在臺(tái)上使用谷歌內(nèi)部開(kāi)發(fā)的一款A(yù)I DJ小工具 MusicFX DJ,在舞臺(tái)上現(xiàn)場(chǎng)用隨機(jī)生成的關(guān)鍵詞,來(lái)創(chuàng)造出一首曲目——很可惜,創(chuàng)造出的曲調(diào)有點(diǎn)糟糕。

不過(guò),相比于2023年在演示Gemini后的“群嘲”,今年谷歌DeepMind推出的Project Astra使用視頻顯得更加可信:操作者以智能手機(jī)為媒介,讓大模型實(shí)時(shí)收集環(huán)境中的各種信息,并在圍繞著辦公室轉(zhuǎn)了一圈后突然提問(wèn):“你記得眼鏡在哪里嗎?”AI從環(huán)境信息中捕捉到了眼鏡的位置,并給出了正確的方位提示。

02

多模態(tài)成為重點(diǎn)

在直播中,OpenAI演示了一段員工與GPT-4o對(duì)話的視頻,模型反應(yīng)速度與人類(lèi)相近,GPT-4o可利用手機(jī)攝像頭描述其“看到”的東西。另一段展示視頻里,GPT-4o被裝在兩個(gè)手機(jī)上,其中一個(gè)代表人類(lèi)與電信公司打電話溝通設(shè)備更換事項(xiàng),另一個(gè)GPT-4o扮演電信公司客服人員。OpenAI還展示了GPT-4o搭載在手機(jī)上的實(shí)時(shí)翻譯能力。

GPT-4o的發(fā)布,標(biāo)志著OpenAI在多模態(tài)AI領(lǐng)域的重大突破。這款新模型不僅能夠?qū)崟r(shí)對(duì)音頻、視覺(jué)和文本進(jìn)行推理,還能夠生成文本、音頻和圖像的任意組合輸出,大大提升了與人類(lèi)的交互體驗(yàn)。GPT-4o的響應(yīng)速度極快,音頻輸入的平均響應(yīng)時(shí)間僅為320毫秒,與人類(lèi)對(duì)話中的自然反應(yīng)時(shí)間相當(dāng)。此外,GPT-4o在多語(yǔ)言處理、視覺(jué)和音頻理解方面的能力也有顯著提升,創(chuàng)下了多項(xiàng)新的行業(yè)紀(jì)錄。

根據(jù)OpenAI介紹,GPT-4o與GPT-3.5、GPT-4的語(yǔ)音對(duì)談機(jī)制不同。GPT-3.5和GPT-4會(huì)先將音頻轉(zhuǎn)換為文本,再接收文本生成文本,最后將文本轉(zhuǎn)換為音頻,經(jīng)歷這三個(gè)過(guò)程,音頻中的情感表達(dá)等信息會(huì)被折損,而GPT-4o是跨文本、視覺(jué)和音頻的端到端模型,是OpenAI第一個(gè)綜合了這些維度的模型,可更好進(jìn)行對(duì)談。

而如前所述,谷歌本次發(fā)布的AI Overview,也在多模態(tài)的問(wèn)題上做足了文章。

那么,“多模態(tài)”到底是什么?

多模式深度學(xué)習(xí),是一個(gè)機(jī)器學(xué)習(xí)的子領(lǐng)域,旨在訓(xùn)練人工智能模型來(lái)處理和發(fā)現(xiàn)不同類(lèi)型數(shù)據(jù)——也就是模式之間的關(guān)系,通常是圖像、視頻、音頻和文本。通過(guò)結(jié)合不同的模態(tài),深度學(xué)習(xí)模型可以更普遍地理解其環(huán)境,因?yàn)槟承┚€索僅存在于某些模態(tài)中。

例如一個(gè)能夠識(shí)別人類(lèi)面部情緒的任務(wù),它不僅需要AI看一張人臉(視覺(jué)模態(tài)),還需要關(guān)注人聲音(音頻模態(tài))的音調(diào)和音高,這些內(nèi)容編碼了大量關(guān)于他們情緒狀態(tài)的信息,這些信息可能無(wú)法通過(guò)他們的面部表情看到,即使他們經(jīng)常是同步的。

在多模態(tài)深度學(xué)習(xí)中,最典型的模態(tài)是視覺(jué)(圖像、視頻)、文本和聽(tīng)覺(jué)(語(yǔ)音、聲音、音樂(lè))。其他不太典型的模式包括3D視覺(jué)數(shù)據(jù)、深度傳感器數(shù)據(jù)和LiDAR 數(shù)據(jù),這是在自動(dòng)駕駛汽車(chē)中經(jīng)常用到的典型數(shù)據(jù)。

此外,在臨床實(shí)踐中,成像方式包括計(jì)算機(jī)斷層掃描(CT)掃描和X射線圖像,而非圖像方式包括腦電圖(EEG)數(shù)據(jù)。傳感器數(shù)據(jù),如熱數(shù)據(jù)或來(lái)自眼動(dòng)追蹤設(shè)備的數(shù)據(jù)也可以包含在列表中。

多模態(tài)神經(jīng)網(wǎng)絡(luò)通常是多個(gè)單模態(tài)神經(jīng)網(wǎng)絡(luò)的組合。例如,視聽(tīng)模型可能由兩個(gè)單峰網(wǎng)絡(luò)組成,一個(gè)用于視覺(jué)數(shù)據(jù),一個(gè)用于音頻數(shù)據(jù)。這些單峰神經(jīng)網(wǎng)絡(luò)通常分別處理它們的輸入。這個(gè)過(guò)程稱為編碼。在進(jìn)行單峰編碼之后,必須將從每個(gè)模型中提取的信息融合在一起。已經(jīng)提出了多種融合技術(shù),范圍從簡(jiǎn)單的連接到注意機(jī)制。多模態(tài)數(shù)據(jù)融合過(guò)程是最重要的成功因素之一。融合發(fā)生后,最終的“決策”網(wǎng)絡(luò)接受融合后的編碼信息,并接受最終任務(wù)的訓(xùn)練。

可以看出,要想讓停留在“畫(huà)畫(huà)寫(xiě)字唱歌”程度的AI們真正與現(xiàn)實(shí)世界產(chǎn)生交互并影響生產(chǎn)過(guò)程,多模態(tài)研發(fā)是必經(jīng)之路。

每日福利更多>>

bp pulse與小鵬汽車(chē)合作的首座超充站落地廣州 濟(jì)南高新區(qū)章錦小學(xué):孩子們演示正確的洗手方法 傳祺M8:混動(dòng)油耗6.15L+綜合續(xù)航1200km,限時(shí)優(yōu)惠3.8萬(wàn)的豪華MPV 堅(jiān)守3.0T發(fā)動(dòng)機(jī) 全新寶馬M350諜照曝光 有望明年底投產(chǎn) 零陵:移風(fēng)易俗顯成效 巋山新風(fēng)撲面來(lái) 香港導(dǎo)演林奕華:梁祝舞臺(tái)劇的“專”“轉(zhuǎn)”“傳” 大眾ID.2量產(chǎn)版首曝:最親民純電掀背車(chē)即將登場(chǎng) 本田思域TYPE-R最終版,限量40臺(tái),轉(zhuǎn)型純電化? 美國(guó)FDA叫停吉利德HIV復(fù)方藥物臨床試驗(yàn) 從SUV王者到越野專家,長(zhǎng)城把″聚焦″這個(gè)方法論貫徹始終 國(guó)產(chǎn)煥新Model Y 或是特斯拉5月份澳大利亞銷(xiāo)量主要來(lái)源 小桔充電與比亞迪達(dá)成戰(zhàn)略合作 共建超充網(wǎng)絡(luò)開(kāi)放生態(tài) 一汽奧迪Q6L e-tron:讓華為智駕有“德味”,比“堆料”更懂本質(zhì) 蔚來(lái)精細(xì)化管理研發(fā)投入:CBU機(jī)制推行后,非必要研發(fā)項(xiàng)目不予立項(xiàng) 蘋(píng)果iPhone 13 5G手機(jī)128GB午夜色到手價(jià)1584元 多彩小直屏vivo S30系列發(fā)布 官方稱vivo X Fold5 將打破 X Fold3最輕記錄 榮耀 Earbuds 4i 耳機(jī)首銷(xiāo):50dB 降噪、11mm 鍍鈦低音單元,249 元 帕沃森摸魚(yú)戰(zhàn)士手機(jī)殼限時(shí)特惠9.1元 榮耀進(jìn)軍機(jī)器人!手機(jī)廠商扎堆機(jī)器人賽道 環(huán)球、華納和索尼音樂(lè)正與兩初創(chuàng)公司磋商AI音樂(lè)權(quán)限 小米618推出線下主題科技展,國(guó)內(nèi)首款自主研發(fā)3 nm旗艦亮相展出 東風(fēng)汽車(chē)賀琳曼詳解車(chē)載光通信的技術(shù)研究與應(yīng)用實(shí)踐 大眾報(bào)業(yè)集團(tuán)駐地媒體聯(lián)合采訪團(tuán)走進(jìn)山東鳳凰制藥股份有限公司 滬深兩市今日成交額合計(jì)1.19萬(wàn)億,比亞迪成交額居首 吉利集團(tuán)旗下電池公司吉曜通行:預(yù)計(jì)到2027年形成70GWh電池產(chǎn)能規(guī)模 2025款長(zhǎng)安UNI-Z上市,燃油版11.59萬(wàn)起、PHEV版12.69萬(wàn)起 阿電入烏儲(chǔ)能采購(gòu)開(kāi)標(biāo):0.46-0.58元/Wh,構(gòu)網(wǎng)型600MWh,比亞迪最低,陽(yáng)光最高 日系車(chē)質(zhì)量投訴霸榜,一汽豐田“開(kāi)不壞”神話破滅了? 小鵬MONA發(fā)布會(huì)變身車(chē)友派對(duì),歐陽(yáng)娜娜亮相何小鵬信心十足
主站蜘蛛池模板: 广州/东莞小字符喷码机-热转印打码机-喷码机厂家-广州瑞润科技 | 广西正涛环保工程有限公司【官网】 | 酒糟烘干机-豆渣烘干机-薯渣烘干机-糟渣烘干设备厂家-焦作市真节能环保设备科技有限公司 | 胀套-锁紧盘-风电锁紧盘-蛇形联轴器「厂家」-瑞安市宝德隆机械配件有限公司 | 安全,主动,被动,柔性,山体滑坡,sns,钢丝绳,边坡,防护网,护栏网,围栏,栏杆,栅栏,厂家 - 护栏网防护网生产厂家 | 高低温老化试验机-步入式/低温恒温恒湿试验机-百科 | 蜘蛛车-高空作业平台-升降机-高空作业车租赁-臂式伸缩臂叉装车-登高车出租厂家 - 普雷斯特机械设备(北京)有限公司 | 华禹护栏|锌钢护栏_阳台护栏_护栏厂家-华禹专注阳台护栏、楼梯栏杆、百叶窗、空调架、基坑护栏、道路护栏等锌钢护栏产品的生产销售。 | 电主轴,车床电磨头,变频制动电机-博山鸿达特种电机 | 加热制冷恒温循环器-加热制冷循环油浴-杭州庚雨仪器有限公司 | 消泡剂-水处理消泡剂-涂料消泡剂-切削液消泡剂价格-东莞德丰消泡剂厂家 | PC构件-PC预制构件-构件设计-建筑预制构件-PC构件厂-锦萧新材料科技(浙江)股份有限公司 | 湖南成人高考报名-湖南成考网 | 影视模板素材_原创专业影视实拍视频素材-8k像素素材网 | 四川实木门_成都实木门 - 蓬溪聚成门业有限公司 | 上海刑事律师|刑事辩护律师|专业刑事犯罪辩护律师免费咨询-[尤辰荣]金牌上海刑事律师团队 | 贝朗斯动力商城(BRCPOWER.COM) - 买叉车蓄电池上贝朗斯商城,价格更超值,品质有保障! | 小区健身器材_户外健身器材_室外健身器材_公园健身路径-沧州浩然体育器材有限公司 | 太平洋亲子网_健康育儿 品质生活| 氮化镓芯片-碳化硅二极管 - 华燊泰半导体 | 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 橡胶膜片,夹布膜片,橡胶隔膜密封,泵阀设备密封膜片-衡水汉丰橡塑科技公司网站 | Magnescale探规,Magnescale磁栅尺,Magnescale传感器,Magnescale测厚仪,Mitutoyo光栅尺,笔式位移传感器-苏州连达精密量仪有限公司 | 厚壁钢管-厚壁无缝钢管-小口径厚壁钢管-大口径厚壁钢管 - 聊城宽达钢管有限公司 | 咖啡加盟,咖啡店加盟连锁品牌-卡小逗| 非小号行情 - 专业的区块链、数字藏品行情APP、金色财经官网 | 翻斗式矿车|固定式矿车|曲轨侧卸式矿车|梭式矿车|矿车配件-山东卓力矿车生产厂家 | 济南货架定做_仓储货架生产厂_重型货架厂_仓库货架批发_济南启力仓储设备有限公司 | 胃口福饺子加盟官网_新鲜现包饺子云吞加盟 - 【胃口福唯一官网】 | SMC-ASCO-CKD气缸-FESTO-MAC电磁阀-上海天筹自动化设备官网 | 强效碱性清洗剂-实验室中性清洗剂-食品级高纯氮气发生器-上海润榕科学器材有限公司 | 考勤系统_考勤管理系统_网络考勤软件_政企|集团|工厂复杂考勤工时统计排班管理系统_天时考勤 | 蜘蛛车-登高车-高空作业平台-高空作业车-曲臂剪叉式升降机租赁-重庆海克斯公司 | 直齿驱动-新型回转驱动和回转支承解决方案提供商-不二传动 | 科箭WMS仓库管理软件-TMS物流管理系统-科箭SaaS云服务 | 郑州宣传片拍摄-TVC广告片拍摄-微电影短视频制作-河南优柿文化传媒有限公司 | ★塑料拖链__工程拖链__电缆拖链__钢制拖链 - 【上海闵彬】 | 哈希余氯测定仪,分光光度计,ph在线监测仪,浊度测定仪,试剂-上海京灿精密机械有限公司 | 世界箱包品牌十大排名,女包小众轻奢品牌推荐200元左右,男包十大奢侈品牌排行榜双肩,学生拉杆箱什么品牌好质量好 - Gouwu3.com | 电解抛光加工_不锈钢电解抛光_常州安谱金属制品有限公司 | WF2户外三防照明配电箱-BXD8050防爆防腐配电箱-浙江沃川防爆电气有限公司 |