美國(guó)人工智能公司OpenAI發(fā)布的ChatGPT以其高效信息獲取、海量數(shù)據(jù)調(diào)用、超強(qiáng)優(yōu)化學(xué)習(xí)能力火速出圈。ChatGPT不僅是人工智能技術(shù)的應(yīng)用端普及,更是憑借完善的邏輯歸納能力、有監(jiān)督的持續(xù)改進(jìn)調(diào)優(yōu)以及連續(xù)對(duì)話的交互體驗(yàn)開啟了通用人工智能(AGI)的一扇窗,不僅僅在內(nèi)容生產(chǎn)、便捷交互和簡(jiǎn)化工作等消費(fèi)端的應(yīng)用快速普及,并向工業(yè)設(shè)計(jì)、藥物研發(fā)、材料科學(xué)等領(lǐng)域快速擴(kuò)散。
而隨著集度、吉利、紅旗等汽車企業(yè)紛紛宣布支持汽車機(jī)器人自然交流,以人工智能為技術(shù)驅(qū)動(dòng)的自動(dòng)駕駛,將成為新能源汽車發(fā)展的重要方向。本文就近期ChatGPT此類預(yù)訓(xùn)練大模型人工智能技術(shù)的突破,將對(duì)自動(dòng)駕駛領(lǐng)域帶來(lái)哪些變革進(jìn)行探討。
ChatGPT能夠給自動(dòng)駕駛帶來(lái)語(yǔ)音交互提升,成為提升智能座艙語(yǔ)音交互質(zhì)量的重要工具
ChatGPT是以其令人驚艷的“對(duì)話聊天”能力出圈的,對(duì)比市面上現(xiàn)有的機(jī)械式的車載智能語(yǔ)音交互模式,ChatGPT依托海量參數(shù)的預(yù)訓(xùn)練大模型實(shí)現(xiàn)了降維打擊。當(dāng)前車載智能語(yǔ)音交互主要有識(shí)別、理解和執(zhí)行三大重點(diǎn),而在目前提供的解決方案中,語(yǔ)音識(shí)別部分已經(jīng)能夠達(dá)到90%以上,堵點(diǎn)難點(diǎn)主要聚焦于“理解”部分。
由于機(jī)器不具備語(yǔ)義理解能力,用戶只能通過(guò)觸摸屏與部分語(yǔ)音相結(jié)合的方式,按照指定命令與汽車進(jìn)行交互,功能的復(fù)雜性和關(guān)鍵詞的多少成正相關(guān),整個(gè)系統(tǒng)機(jī)械化運(yùn)行、功能單一。據(jù)相關(guān)機(jī)構(gòu)調(diào)研,2022年1-8月,語(yǔ)音交互功能在智能座艙的滲透率達(dá)到73.3%,但用戶對(duì)智能語(yǔ)音交互感興趣程度僅為42.9%。
所以,ChatGPT作為自然語(yǔ)言處理技術(shù)功能強(qiáng)大,ChatGPT能夠在溝通中結(jié)合用戶提出的問(wèn)題不斷做出精準(zhǔn)的、連續(xù)的回應(yīng),一方面通過(guò)對(duì)模型在車內(nèi)對(duì)話場(chǎng)景的專項(xiàng)定制,可以在車載運(yùn)行環(huán)境中取得優(yōu)異的識(shí)別效果;另一方面模型的學(xué)習(xí)能力和上下文結(jié)合能力,可以讓ChatGPT實(shí)現(xiàn)連續(xù)對(duì)話交互。這種語(yǔ)義理解能力應(yīng)用在車機(jī)交互上,最直觀的變革就是語(yǔ)音交互更加直接,更符合人類思考的習(xí)慣,會(huì)更加接近于人與人之間的交流,交互效率直線提升,大幅提升用戶體驗(yàn)。
生成式AI為自動(dòng)駕駛模型訓(xùn)練提供高質(zhì)量合成數(shù)據(jù),破解自動(dòng)駕駛數(shù)據(jù)和測(cè)試難題
ChatGPT屬于生成式AI在自然語(yǔ)言對(duì)話場(chǎng)景中的應(yīng)用,而AIGC(人工智能生產(chǎn)內(nèi)容)能夠靈活運(yùn)用于寫作、繪圖、語(yǔ)音、視頻等不同維度的創(chuàng)作領(lǐng)域,結(jié)合自動(dòng)駕駛模型訓(xùn)練的數(shù)據(jù)需求,AIGC能夠生成任何人類想象到的駕駛場(chǎng)景。
自動(dòng)駕駛需要通過(guò)真實(shí)世界的數(shù)據(jù)來(lái)訓(xùn)練、測(cè)試和驗(yàn)證模型算法的安全性和準(zhǔn)確性,其過(guò)程需要大量數(shù)據(jù)支持和復(fù)雜的駕駛環(huán)境,甚至涵蓋許多極端環(huán)境的“邊緣案例”,某種意義上說(shuō)需要數(shù)百年的真實(shí)駕駛才能收集構(gòu)建真正安全的自動(dòng)駕駛汽車所需的所有數(shù)據(jù),并且真實(shí)世界的圖像數(shù)據(jù)必須先手動(dòng)標(biāo)記,然后才能用于訓(xùn)練AI模型。谷歌(Waymo)已經(jīng)投入了數(shù)十億美元,并花費(fèi)了十多年的時(shí)間來(lái)收集數(shù)百萬(wàn)英里的真實(shí)駕駛數(shù)據(jù),并將其作為其自動(dòng)駕駛技術(shù)堆棧的護(hù)城河。
相較而言,合成數(shù)據(jù)無(wú)論從成本還是場(chǎng)景方面都有著無(wú)可比擬的優(yōu)勢(shì),因此第一批出現(xiàn)的合成數(shù)據(jù)初創(chuàng)公司也主要瞄準(zhǔn)了自動(dòng)駕駛汽車終端市場(chǎng),幫助自動(dòng)駕駛企業(yè)解決其在自動(dòng)駕駛系統(tǒng)開發(fā)過(guò)程中所面臨的數(shù)據(jù)和測(cè)試難題。
隨著AIGC技術(shù)持續(xù)創(chuàng)新發(fā)展,基于AIGC算法模型創(chuàng)建、生成合成數(shù)據(jù)迎來(lái)重大進(jìn)展,有望解決自動(dòng)駕駛發(fā)展應(yīng)用過(guò)程中的數(shù)據(jù)限制。一是通過(guò)合成數(shù)據(jù)來(lái)改善基準(zhǔn)測(cè)試數(shù)據(jù)的質(zhì)量來(lái)實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問(wèn)題;二是利用合成數(shù)據(jù)訓(xùn)練AI模型可以有效避免用戶隱私問(wèn)題;三是合成數(shù)據(jù)可以自動(dòng)創(chuàng)建、生成現(xiàn)實(shí)世界中難以或者無(wú)法采集的數(shù)據(jù)場(chǎng)景,能有效應(yīng)對(duì)長(zhǎng)尾、邊緣案例,提高模型算法的準(zhǔn)確性、可靠性;四是合成數(shù)據(jù)技術(shù)可以實(shí)現(xiàn)更廉價(jià)、高效地批量生產(chǎn)自動(dòng)駕駛模型訓(xùn)練開發(fā)所需的海量數(shù)據(jù),畢竟人工標(biāo)注一張圖片可能需要6美元,但人工合成的話只需要6美分。
大模型技術(shù)路線啟發(fā)自動(dòng)駕駛底層算法躍遷升級(jí)
ChatGPT作為一個(gè)語(yǔ)言模型主要用于生成自然語(yǔ)言文本,如對(duì)話、文章等,而自動(dòng)駕駛算法需要處理的是感知、決策和控制等方面的問(wèn)題,看似二者并沒(méi)有太大的關(guān)聯(lián),但是從技術(shù)邏輯上,ChatGPT能夠給自動(dòng)駕駛算法技術(shù)路線發(fā)展帶來(lái)兩大啟發(fā)。
第一點(diǎn),是大模型的突現(xiàn)能力,即參數(shù)規(guī)模超過(guò)一個(gè)閾值后,模型的“思維鏈”能力突然就涌現(xiàn)出來(lái),這就是所謂大模型的“突現(xiàn)能力,通俗講就是量變引起質(zhì)變,大模型就意味著大參數(shù)、大數(shù)據(jù),當(dāng)然伴隨的也是大成本和大投入。ChatGPT的破圈給人工智能業(yè)界帶來(lái)的突破性認(rèn)知和范式轉(zhuǎn)變是突現(xiàn)能力只存在于大型模型中,而不是小型模型。各種測(cè)試表明,只有模型達(dá)到175B的規(guī)模才有可能形成“突現(xiàn)能力”,模型能夠展示類似人類的復(fù)雜推理和知識(shí)推理能力——思維鏈,基于“思維鏈”的推理能力能夠在提問(wèn)時(shí)附加給出提示,模型就能自動(dòng)學(xué)習(xí)并做出相應(yīng)推理得到正確結(jié)果。這對(duì)于自動(dòng)駕駛“躍進(jìn)式”和“漸進(jìn)式”兩大路線的選擇無(wú)疑會(huì)產(chǎn)生深遠(yuǎn)影響。
第二點(diǎn),是人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),簡(jiǎn)單理解就是應(yīng)用人類處理問(wèn)題的方式去訓(xùn)練算法。從2020版本的GPT-3到2022版本的ChatGPT,在控制參數(shù)量和訓(xùn)練數(shù)據(jù)不變的情況下對(duì)比監(jiān)督學(xué)習(xí)指令微調(diào)和RLHF,能夠發(fā)現(xiàn)在RLHF的參與下,模型的回答更加詳實(shí)、公正,并且能夠拒絕不當(dāng)和知識(shí)范圍以外的問(wèn)題。將這類模式映射到自動(dòng)駕駛的算法模型中就是應(yīng)用人類司機(jī)正確的駕駛數(shù)據(jù)來(lái)訓(xùn)練算法,駕駛員針對(duì)自動(dòng)駕駛算法的接管視為決策糾正,同時(shí)也是正向反饋的強(qiáng)化學(xué)習(xí)。ChatGPT的成功則證明應(yīng)用RLHF是可以訓(xùn)練出模型來(lái)驗(yàn)證、評(píng)價(jià)機(jī)器模型的輸出,使其不斷進(jìn)步,最終達(dá)到人類的駕駛水平,在自動(dòng)駕駛業(yè)內(nèi)毫末通過(guò)該方式,在掉頭、環(huán)島等公認(rèn)的困難場(chǎng)景,通過(guò)率提升30%以上。
一句話,以ChatGPT為代表的內(nèi)容生成式AI在自動(dòng)駕駛領(lǐng)域還處于探索階段,目前看在智能座艙語(yǔ)音、自動(dòng)駕駛模型訓(xùn)練等方面具備應(yīng)用,隨著科技領(lǐng)域、產(chǎn)業(yè)領(lǐng)域、資本領(lǐng)域的持續(xù)介入,預(yù)訓(xùn)練大模型“思維”能力更強(qiáng),在自動(dòng)駕駛領(lǐng)域的應(yīng)用將進(jìn)一步拓寬,我團(tuán)隊(duì)將持續(xù)關(guān)注。
相關(guān)稿件