本站 3 月 11 日消息,據(jù)騰訊云今日消息,清華大學(xué)、騰訊云、英特爾于 3 月 7 日在北京宣布啟動(dòng)“數(shù)據(jù)庫(kù) AI 聯(lián)合創(chuàng)新計(jì)劃”,圍繞數(shù)據(jù)庫(kù)與大模型的交叉技術(shù)展開(kāi)深度研究,推動(dòng)數(shù)據(jù)庫(kù)智能化升級(jí),同時(shí)為 AI 應(yīng)用構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施。這也是國(guó)內(nèi)首個(gè)數(shù)據(jù)庫(kù) AI 領(lǐng)域的產(chǎn)學(xué)研聯(lián)動(dòng)項(xiàng)目。
隨著大語(yǔ)言模型技術(shù)爆發(fā),數(shù)據(jù)庫(kù)系統(tǒng)面臨從“被動(dòng)存儲(chǔ)”向“主動(dòng)服務(wù)”轉(zhuǎn)型的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫(kù)依賴人工編寫復(fù)雜查詢語(yǔ)句,而大模型的自然語(yǔ)言交互能力可大幅降低使用門檻;另一方面,AI 訓(xùn)練與推理所需的海量數(shù)據(jù)處理,也亟需數(shù)據(jù)庫(kù)在分布式架構(gòu)、緩存管理等環(huán)節(jié)實(shí)現(xiàn)性能躍升。
本站從公告獲悉,針對(duì)這一趨勢(shì),本次合作規(guī)劃了兩大技術(shù)攻堅(jiān)路徑:
一方面研發(fā)基于大模型的智能查詢生成與優(yōu)化系統(tǒng)(Text2SQL),讓用戶通過(guò)自然語(yǔ)言直接操作數(shù)據(jù)庫(kù),實(shí)現(xiàn)艱深的數(shù)據(jù)庫(kù)技術(shù)也能聽(tīng)懂“人話”;
另一方面打造面向大模型推理的分布式緩存產(chǎn)品,解決 AI 任務(wù)調(diào)度、存儲(chǔ)資源分配等核心難題。
在 Text2SQL 方向,項(xiàng)目組提出端到端技術(shù)框架,重點(diǎn)突破語(yǔ)義理解、模式匹配、SQL 驗(yàn)證等關(guān)鍵環(huán)節(jié)。通過(guò)大模型微調(diào)、強(qiáng)化學(xué)習(xí)(DPO)與檢索增強(qiáng)(RAG)技術(shù),系統(tǒng)可將用戶提問(wèn)拆解為多級(jí)子任務(wù),并動(dòng)態(tài)匹配數(shù)據(jù)庫(kù)表結(jié)構(gòu),最終生成高準(zhǔn)確率 SQL 語(yǔ)句。
面向大模型推理加速,項(xiàng)目組設(shè)計(jì)了分布式緩存系統(tǒng),通過(guò)兩階段任務(wù)調(diào)度、KVCache 優(yōu)化及 GPU 直連存儲(chǔ)技術(shù),顯著降低計(jì)算資源浪費(fèi)。
清華大學(xué)數(shù)據(jù)庫(kù)科研組表示:“未來(lái)的數(shù)據(jù)庫(kù)不僅是存儲(chǔ)工具,更是 AI 產(chǎn)業(yè)鏈的數(shù)據(jù)大腦。我們期待通過(guò)這次合作,為全球數(shù)據(jù)庫(kù)技術(shù)發(fā)展提供中國(guó)方案。”