搜索引擎的求變信號(hào),比以往任何時(shí)候都要強(qiáng)烈。
(資料圖)
先是谷歌推出AI snapshot,讓搜索結(jié)果不再只是“10條藍(lán)色鏈接”,還加上了AI智能總結(jié);很快百度也把“AI伙伴”嵌入搜索引擎,通過對(duì)話就能得到問題解答。
不過,這些都還只是針對(duì)外部搜索。
對(duì)于移動(dòng)端來說,“內(nèi)部搜索”需要也正在同步發(fā)生改變。
內(nèi)部搜索,相比于搜索外部世界知識(shí),是把用戶個(gè)人信息當(dāng)成一個(gè)巨大知識(shí)庫(kù)的搜索技術(shù)。
不同于谷歌和百度,這種搜索引擎更像是用戶的“第二大腦”,能從拍攝過的照片、下載過的文件中精準(zhǔn)找出所需的個(gè)人資料。
但無論哪種搜索,對(duì)于智能化要求都很高,甚至需要借助千億參數(shù)級(jí)別的大模型實(shí)現(xiàn)。
以從手機(jī)中找一張照片為例。以前我們的操作習(xí)慣可能是翻個(gè)10分鐘相冊(cè),從幾百?gòu)埍砬榘蚴菐浊堈掌姓业较胍哪菑垼ㄉ踔琳也坏剑?/p>
但在搭載HarmonyOS 3.1的華為P60系列和Mate X3手機(jī)上,現(xiàn)在只需用自然語(yǔ)言描述想找的照片特征,系統(tǒng)就能高效識(shí)別、并給出相關(guān)圖像。
不僅能理解整體語(yǔ)義,如在圖庫(kù)輸入“山頂看日出”——
就連更精細(xì)的時(shí)間、地點(diǎn)描述也能快速get到,如語(yǔ)音喚起小藝搜索“去年在長(zhǎng)白山滑雪的照片”:
最關(guān)鍵的是,這種堪比大模型語(yǔ)義理解的搜索方式,直接在端側(cè)就能實(shí)現(xiàn),無需將數(shù)據(jù)上傳到云端處理。
換而言之,即使手機(jī)開飛行模式,這種內(nèi)部搜索也照樣能進(jìn)行。
所以,這個(gè)新出的圖片搜索功能究竟有啥特點(diǎn),率先把它部署到端側(cè)的華為又做了什么?
華為智慧搜圖長(zhǎng)啥樣?
此前,在手機(jī)上搜索圖片主要有兩種方式。
一種相當(dāng)于“換皮”的文件搜索,用戶不僅得準(zhǔn)確回憶起具體時(shí)間、拍攝地址等信息,甚至得精確到文件名:
另一種則是依靠分類AI做的圖像識(shí)別功能,但這種搜圖也只能通過某些場(chǎng)景關(guān)鍵詞描述縮小搜索范圍,例如風(fēng)景、美食、人像等。
顯然,這兩種方法都還停留在“信息匹配”階段,支持的標(biāo)簽數(shù)量也有限,一旦搜不出來,最終還是得回到手動(dòng)翻照片流程上。
這是因?yàn)?,我們不僅習(xí)慣用自然語(yǔ)言描述圖片內(nèi)容,而且描述的內(nèi)容不限定某個(gè)名詞,還可能是動(dòng)詞、場(chǎng)景、代詞等。
要想做到搜索“記憶中”的個(gè)人圖片,AI模型不僅得聽得懂人話,還要能提取人話中的細(xì)粒度標(biāo)簽,并將之對(duì)應(yīng)到圖片上。
現(xiàn)在,華為最新的智慧搜圖,就很好地實(shí)現(xiàn)了這兩大功能。
除了可以直接搜名詞找圖片,還可以用任何短描述詞來形容圖像,如桌面下拉在智慧搜索中輸入“奔跑的”,系統(tǒng)就能自動(dòng)搜出相冊(cè)中奔跑的各種人像,快速給出推薦:
如果感覺搜出來的范圍還是太大了,還能隨時(shí)增加信息標(biāo)簽,如“奔跑的”變成“奔跑的小狗”,立刻就能找到想要的圖像:
當(dāng)然,不止能添加一兩個(gè)標(biāo)簽。如果你想,還可以靈活地細(xì)化描述,如加上時(shí)間、地點(diǎn)、人物、語(yǔ)義等各種復(fù)合標(biāo)簽,像“前年冬天和女朋友去內(nèi)蒙古拍的各種好吃的”等。
體驗(yàn)過華為智慧搜圖后,最直觀的感受應(yīng)該就是“AI理解力”和“響應(yīng)速度”了。
相比傳統(tǒng)的文件搜索、或是AI圖像識(shí)別方法,華為智慧搜圖主要實(shí)現(xiàn)了圖片搜索功能的兩大“躍遷”:
其一,“人話”解讀能力。傳統(tǒng)圖像AI往往按“時(shí)間”、“地點(diǎn)”等概括詞分類,而智慧搜圖不僅能單獨(dú)搜詞分類,甚至還能放一起搜,如“去年在動(dòng)物園拍的老虎”等。
其二,高效搜索速度。相比動(dòng)輒翻上十幾分鐘半個(gè)小時(shí)的相冊(cè),現(xiàn)在無論從桌面下拉智慧搜索、打開圖庫(kù)、或是用小藝語(yǔ)音,都只需要一句話就能搜到想要的圖片,系統(tǒng)級(jí)地提升了找信息的效率。
雖然聽起來只是手機(jī)等移動(dòng)端搜索功能上的一個(gè)小突破,然而在華為之前,端側(cè)卻沒有一個(gè)廠商能夠解決這個(gè)難題。
究竟是什么技術(shù)這么難實(shí)現(xiàn)?
技術(shù)上突破了什么難點(diǎn)?
事實(shí)上,無論是大模型的語(yǔ)義理解能力,還是搜索引擎的響應(yīng)速度,都并非計(jì)算資源極其有限的端側(cè)所能承受。
因此,之前大部分搜索引擎和大模型相關(guān)APP解決“上線到移動(dòng)端”的唯一辦法,是將模型計(jì)算量分配到云端,解決資源不夠的問題。
但這勢(shì)必意味著,數(shù)據(jù)處理要在云端進(jìn)行。
具體到技術(shù)細(xì)節(jié)來看,又有三大難點(diǎn):
其一,壓縮多模態(tài)大模型并確保精度。這并非簡(jiǎn)單用剪枝或量化等方法,直接壓縮幾倍模型大小就能搞定。畢竟對(duì)于端側(cè)而言,算力有限的情況下,能部署的模型大小是往往只能達(dá)到大模型的幾十分之一。
其二,搜索所需功耗隨著數(shù)據(jù)增加逐漸增大。對(duì)于端側(cè)搜索引擎而言,面對(duì)不斷更新的照片、文件等數(shù)據(jù),只能將索引重新寫一遍,這勢(shì)必導(dǎo)致大量新的計(jì)算開支。
其三,模型更新等面臨的云端協(xié)同問題。雖然AI模型最終部署在端側(cè),但無論是模型效果迭代、更新,訓(xùn)練還是得在云端進(jìn)行,最終再下發(fā)到端側(cè),這勢(shì)必要求廠商同時(shí)具備云端兩方面的技術(shù)。
因此,對(duì)于數(shù)據(jù)隱私極為敏感的內(nèi)部搜索而言,這兩類技術(shù)想要布局到端側(cè)上非常難。此前的“折中”方法,最多也就是將圖像分類AI這種“小模型”布局到端側(cè),實(shí)現(xiàn)簡(jiǎn)單的智能搜圖。
所以,華為究竟是如何解決這些難點(diǎn),同時(shí)又最大程度上保留大模型“理解人話”效果和搜索響應(yīng)速度的?
簡(jiǎn)單來說,華為在AI模型和搜索引擎兩方面,都自研了對(duì)應(yīng)的技術(shù)。
一方面,華為專門為端側(cè)自研了輕量級(jí)的多模態(tài)語(yǔ)義理解模型,能夠在不損失精度的情況下,將大模型縮小幾十倍。
首先,用多模態(tài)語(yǔ)義表征模型將不同模態(tài)輸入轉(zhuǎn)變?yōu)檎Z(yǔ)義向量,結(jié)合多模態(tài)語(yǔ)義對(duì)齊算法模型對(duì)齊文本和圖片的語(yǔ)義信息,結(jié)合華為內(nèi)部的海量高質(zhì)量數(shù)據(jù),提升召回率。
然后,依靠輕量化部署技術(shù),在端側(cè)實(shí)現(xiàn)高精度檢索,同時(shí)確保數(shù)據(jù)留在本地,提高隱私安全保護(hù)。
另一方面,華為又使用索引分段、定期壓縮合并等方式,成功將檢索引擎“塞”進(jìn)了移動(dòng)端中。
檢索引擎部署到端側(cè)的核心難點(diǎn),是云側(cè)離線構(gòu)建索引的方式在端側(cè)無法實(shí)現(xiàn)。
為了解決這一問題,華為先通過采用索引分段,減少單次落盤時(shí)間,并通過定期壓縮合并的方式,釋放已刪除數(shù)據(jù)占用的內(nèi)存/磁盤資源,以降低所需的存儲(chǔ)空間;
隨后,又通過定義索引的格式,將地點(diǎn)、時(shí)間等信息作為索引的一部分,快速實(shí)現(xiàn)檢索條件過濾,并返回和查詢語(yǔ)句最相關(guān)的結(jié)果,相比數(shù)據(jù)庫(kù)檢索能提升十幾倍效率。
△幾乎不需要計(jì)算時(shí)間
不過,耗費(fèi)這么大的技術(shù)資源,去實(shí)現(xiàn)移動(dòng)端一個(gè)看似很小的“搜圖”功能,華為這樣做的目的究竟是什么?
為什么要做智慧搜圖?
直接原因當(dāng)然是手機(jī)用戶——也就是你我,真的很需要這個(gè)功能。
試問誰(shuí)沒有經(jīng)歷過,因?yàn)檎乙粡垐D片而需要化身福爾摩斯展開縝密分析的場(chǎng)景:
“我上一次看到這張圖是什么時(shí)候”、“它是什么時(shí)候存的”、“那天我還拍什么了”……
但即便根據(jù)這些問題思索完,最終也不一定真能找到那張圖。
尤其隨著大家在手機(jī)內(nèi)存的照片越來越多、種類越來越復(fù)雜——不光是記錄生活的照片,還有上課拍下的PPT、網(wǎng)上保存的旅行圖文攻略等堆在相冊(cè)里,手動(dòng)查找的難度也越來越高。
手機(jī)系統(tǒng)廠商們?cè)缇妥⒁獾竭@個(gè)事了。
如自動(dòng)分類相冊(cè)、根據(jù)標(biāo)簽檢索、OCR檢索照片文字等功能,都陸續(xù)出現(xiàn)在大家的手機(jī)里。
但是這些能力相對(duì)而言,靈活性不高、實(shí)際效果有限,很多時(shí)候也是躺在手機(jī)里“吃灰”。
所以,讓搜圖功能更智能化是目前用戶側(cè)真實(shí)存在的需求,也直接驅(qū)動(dòng)了華為上線智慧搜圖功能。
而深層原因上,還有內(nèi)外兩方面因素驅(qū)動(dòng)。
外因來自于行業(yè)方面:搜索功能更擁抱AI是大勢(shì)所趨。
通過行業(yè)各種數(shù)據(jù)的初步驗(yàn)證,讓搜索更加智能、高效符合用戶當(dāng)下的需求,能推動(dòng)行業(yè)向前發(fā)展。
不過目前覆蓋的范圍是互聯(lián)網(wǎng)上的內(nèi)容搜索,而日常生活中還有另一大搜索場(chǎng)景——端側(cè)搜索,也需要智能化升級(jí)。
尤其隨著用戶在手機(jī)/電腦本地及個(gè)人賬戶中存儲(chǔ)的文件、圖片、音頻等越來越多,涉及到對(duì)個(gè)人信息的搜索操作增加,這種升級(jí)也變得更加迫切起來。
比如微軟在變革必應(yīng)的同時(shí),也推出了Windows Copilot,一舉替代原本的“小娜”。它們的定位雖是AI助手,但也同樣覆蓋了端側(cè)搜索的應(yīng)用場(chǎng)景,二者最大的差距便是Windows Copilot引入更強(qiáng)的AI能力、更加智能化。
總之,無論對(duì)內(nèi)對(duì)外,搜索接入更加強(qiáng)大的AI、向著更智能高效便捷的方向發(fā)展,已經(jīng)是行業(yè)的共識(shí)。
深層內(nèi)因:則來自于華為自身。
智慧搜圖其實(shí)是作為華為智慧搜索戰(zhàn)略與藍(lán)圖的一部分推出。
所謂智慧搜索,具體來看就是一個(gè)一站式聚合入口,實(shí)現(xiàn)了手機(jī)桌面下拉一下,就能以最快捷的方式,一步直達(dá)各類本機(jī)應(yīng)用及信息內(nèi)容,同時(shí)支持全場(chǎng)景跨終端搜索。
它的定位是進(jìn)行“我的”搜索。
搜索范圍是用戶在手機(jī)端上的各類信息和功能,比如圖片文件APP等;搜索的目標(biāo)是智能識(shí)別用戶的需求,讓用戶在“我的”領(lǐng)域內(nèi),實(shí)現(xiàn)更加快速便捷的操作。
智慧搜索的戰(zhàn)略是要實(shí)現(xiàn)“本機(jī)搜索+生態(tài)搜索+全場(chǎng)景搜索”。
這三者聯(lián)通,便能覆蓋所有“我的”搜索。
其一,本機(jī)搜索是指本機(jī)應(yīng)用搜索、圖片搜索、文件搜索(含云端文件)、搜設(shè)置項(xiàng)、搜備忘錄等。
比如最新升級(jí)版本中,智慧搜索下拉即搜華為云空間的云盤文件,只需輸入文件名稱關(guān)鍵詞就能開始搜索,范圍包括自己存入云盤的本地文件、微信/QQ保存的文件等。
前文提到的智慧搜圖,也在這一范疇內(nèi)。
此外還能智慧搜索備忘錄,如采購(gòu)清單、密碼賬單、朋友生日等等零碎信息,如果在記錄時(shí)沒有對(duì)內(nèi)容進(jìn)行分類的話,想要再查看之前記錄的文稿十分費(fèi)事。現(xiàn)在智慧搜索能幫人省去這一步了。
其二生態(tài)內(nèi)容搜索,包括搜服務(wù)及網(wǎng)頁(yè)內(nèi)容、旅游出行、本地生活、音樂視頻、購(gòu)物等。
尤其是購(gòu)物方面,能聚合全網(wǎng)精品商品,提供與“我”相關(guān)的購(gòu)物服務(wù)。
其三則是全場(chǎng)景搜索,即跨設(shè)備搜索。
HarmonyOS將手機(jī)、電腦、平板等設(shè)備之間壁壘打通,形成了一個(gè)“超級(jí)終端”。
在登錄同一帳號(hào)情況下,用戶在PC端點(diǎn)擊華為電腦桌面任務(wù)欄控制中心內(nèi)搜索圖標(biāo),或使用快捷鍵Ctrl+Alt+Q,可快速檢索手機(jī)、平板內(nèi)的文件。包括文檔、應(yīng)用、圖片、視頻等,并支持選擇不同類型文件進(jìn)行快捷預(yù)覽。
通過整合“軟硬芯云一體化”技術(shù),端側(cè)預(yù)置AI模型的加持,保障跨端搜索也不會(huì)有延遲感。
總之,無論是從最基本的用戶層面,還是行業(yè)層面、華為自身,都在推動(dòng)操作系統(tǒng)將端側(cè)搜索體驗(yàn)進(jìn)一步升級(jí)。
由此也就不難理解華為為什么要上線智慧搜圖功能。
尤其是當(dāng)下,手機(jī)操作系統(tǒng)經(jīng)過十余年發(fā)展,在功能、內(nèi)容、生態(tài)上的搭建都已經(jīng)相對(duì)完善,接下來的升級(jí)和迭代一定是朝著更加細(xì)微處發(fā)展。
這些細(xì)小的升級(jí)和改變,更加潤(rùn)物細(xì)無聲,往往讓人在使用了很久后不得不感慨一句:真香。
如果從更加宏觀的角度來看,這些細(xì)微功能的升級(jí)和改變,還能把人機(jī)交互體驗(yàn)“卷”向一個(gè)新的水平和高度。
從華為的動(dòng)作里可以看到,它們選擇了端側(cè)搜索作為切入口之一,由點(diǎn)及面帶來改變。
智慧搜圖的出現(xiàn),更像是一個(gè)“序章”,后面隱藏著華為對(duì)智慧搜索、手機(jī)系統(tǒng)、乃至人機(jī)交互的無限想象。
AI升級(jí)端側(cè),從搜索看起
不僅僅是華為。
一方面,從AI技術(shù)落地場(chǎng)景來看,本機(jī)搜索、甚至是“搜圖”這個(gè)特定功能,或許是AI技術(shù)應(yīng)用到移動(dòng)端最容易忽略、又最為重要的方式之一。
當(dāng)前這波最新的AI浪潮,正在飛速改變搜索引擎的交互方式。
正如開頭所言,無論谷歌還是百度,都已經(jīng)投身這場(chǎng)搜索引擎革新,在云側(cè)改變搜索的方式,核心就是讓搜索引擎具備自然語(yǔ)言理解能力,更好地認(rèn)知并理解用戶的意圖。
但這并不意味著只有云端的搜索引擎會(huì)被迭代。
在端側(cè)用自然語(yǔ)言搜“內(nèi)部數(shù)據(jù)”,與在云端用自然語(yǔ)言提問一樣,是長(zhǎng)期以來用戶隱秘的剛需之一。隨著計(jì)算硬件的迭代和算法的優(yōu)化,AI用于移動(dòng)端改善用戶體驗(yàn),也必然成為一種全新的趨勢(shì)。
另一方面,從人機(jī)交互角度來看,這種對(duì)內(nèi)的搜索,不會(huì)局限于單一設(shè)備,必然是多端互通,形成核心以“人”為單位,最終完成全局智能化檢索的生態(tài)。
如今人類對(duì)移動(dòng)計(jì)算平臺(tái)的暢想,已經(jīng)從PC、手機(jī)逐漸延伸到VR、AR、智能汽車等新型終端上。
而在這些新型移動(dòng)計(jì)算平臺(tái)上,交互的形式開始不再局限于一塊屏幕,轉(zhuǎn)而變成更加自然的語(yǔ)言、手勢(shì)交互。
最終在“萬物互聯(lián)”的前提下,實(shí)現(xiàn)多端信息的互通。
總之,無論從AI落地應(yīng)用、還是人機(jī)交互趨勢(shì)而言,搜索都是移動(dòng)端必不可少的體驗(yàn)改善功能之一。
無論技術(shù)趨勢(shì)如何,華為已經(jīng)都從移動(dòng)端側(cè)做好了提升用戶體驗(yàn)的準(zhǔn)備。
標(biāo)簽: