name: doublecheck description: '三層驗證管線,適用於 AI 輸出。擷取可驗證的主張,透過網路搜尋尋找支持或矛盾的來源,針對幻覺模式執行對抗性審核,並產生包含供人工審核之來源連結的結構化驗證報告。'
Doublecheck
針對 AI 產生的輸出執行三層驗證管線。目標不是告訴使用者什麼是真實的 —— 而是擷取每一個可驗證的主張,尋找使用者可以獨立檢查的來源,並標記任何看起來像幻覺模式的內容。
啟用
Doublecheck 以兩種模式運作:啟用模式 (持續性) 與 單次模式 (按需)。
啟用模式
當使用者叫用此技能但未提供要驗證的特定文字時,請啟用持續性 Doublecheck 模式。回應如下:
Doublecheck 現已啟用。 我將在呈現回應之前驗證其中的事實主張。在每個實質性回應之後,您將會看到行內驗證摘要。對任何回應說出「完整報告」,即可取得包含詳細溯源的完整三層驗證。您可以隨時說出「關閉 Doublecheck」來將其關閉。
然後在對話的剩餘部分遵循以下所有規則:
規則:在傳送每個回應之前進行分類。
在產生任何實質性回應之前,判斷其是否包含可驗證的主張。為回應分類:
| 回應類型 | 包含可驗證的主張? | 動作 |
|---|---|---|
| 事實分析、法律指南、法規解讀、合規指南,或包含案例引用或法規參考的內容 | 是 —— 高密度 | 執行完整驗證報告 (請參閱下方的高風險內容規則) |
| 文件、研究或資料的摘要 | 是 —— 中密度 | 對關鍵主張執行行內驗證 |
| 程式碼產生、創意寫作、腦力激盪 | 極少 | 跳過驗證;請注意,Doublecheck 模式不適用於此類型的內容 |
| 閒聊、澄清問題、狀態更新 | 否 | 靜默跳過驗證 |
規則:啟用模式的行內驗證。
當適用啟用模式時,請勿為每個回應產生單獨的完整驗證報告。相反地,請使用以下模式將驗證直接內嵌到您的回應中:
- 正常產生您的回應。
- 在回應之後,新增一個「驗證」章節。
- 在該章節中,列出每個可驗證的主張及其信心評等,並在可用時提供來源連結。
格式:
---
**驗證 (已檢查 N 項主張)**
- [已驗證] "主張文字" —— 來源:[URL]
- [已驗證] "主張文字" —— 來源:[URL]
- [合理] "主張文字" —— 未找到具體來源
- [捏造風險] "主張文字" —— 找不到此引用;在依賴它之前請先進行驗證
對於啟用模式,請優先考慮速度。針對引用、具體統計數據以及任何您信心較低的主張執行網路搜尋。您不需要搜尋屬於常識或您信心較高的主張 —— 只要將它們評等為「合理」即可繼續。
如果任何主張被評等為「有爭議」或「捏造風險」,請在驗證章節之前顯眼地呼籲,以便使用者立即看到。當適用自動呈報時 (見下文),將此呼籲放置在完整報告的頂部,摘要表之前:
**注意:** 我對 [具體主張] 沒有信心。我找不到支持來源。在依賴它之前,您應該獨立驗證這一點。
規則:針對高風險發現自動呈報至完整報告。
如果您的行內驗證識別出任何評等為「有爭議」或「捏造風險」的主張,請勿產生行內驗證。相反地,請在回應頂部放置「注意」呼籲,然後使用 assets/verification-report-template.md 中的範本產生完整的三層驗證報告。當某些內容明顯有誤時,使用者不應該需要主動要求詳細報告。
規則:針對高風險內容提供完整報告。
如果回應包含法律分析、法規解讀、合規指南、案例引用或法規參考,請務必使用 assets/verification-report-template.md 中的範本產生完整的驗證報告。請勿對這些內容類型使用行內驗證 —— 對於簡略格式來說,風險太高了。
規則:行內驗證的探索性註腳。
產生行內驗證 (而非完整報告) 時,請務必在驗證章節末尾附加此行:
_說出「完整報告」以取得包含來源的詳細三層驗證。_
規則:根據要求提供完整驗證。
如果使用者說出「完整報告」、「執行完整驗證」、「驗證那個」、「再次檢查那個」或類似內容,請執行完整的三層管線 (如下所述),並使用 assets/verification-report-template.md 中的範本產生完整報告。
單次模式
當使用者叫用此技能並提供要驗證的特定文字 (或參考之前的輸出) 時,請執行完整的三層管線,並使用 assets/verification-report-template.md 中的範本產生完整的驗證報告。
停用
當使用者說出「關閉 Doublecheck」、「停止 Doublecheck」或類似內容時,請回應:
Doublecheck 現已關閉。 我將正常回應,不提供行內驗證。您可以隨時重新啟用它。
第 1 層:自我稽核
以批判的眼光重新閱讀目標文字。您在這一層的工作是擷取與內部分析 —— 尚未進行網路搜尋。
步驟 1:擷取主張
逐句檢視目標文字,並取出每一個陳述可驗證內容的聲明。為每個主張分類:
| 類別 | 尋找內容 | 範例 |
|---|---|---|
| 事實 | 關於事物現狀或過去狀況的聲明 | 「Python 建立於 1991 年」、「GPL 要求衍生作品必須開源」 |
| 統計 | 數字、百分比、數量 | 「95% 的企業使用雲端服務」、「合約有 30 天的終止條款」 |
| 引用 | 對特定文件、案例、法律、論文或標準的參考 | 「根據 CDA 第 230 條...」、「在 Mayo v. Prometheus (2012) 案中...」 |
| 實體 | 關於特定人物、組織、產品或地點的主張 | 「OpenAI 是由 Sam Altman 與 Elon Musk 創立的」、「GDPR 適用於歐盟居民」 |
| 因果 | 主張 X 導致 Y 或 X 導向 Y 的聲明 | 「此弱點允許遠端程式碼執行」、「該法規是為了因應 2008 年金融危機而通過的」 |
| 時間 | 日期、時間表、事件序列 | 「截止日期為 3 月 15 日」、「版本 2.0 在安全性修補程式之前發佈」 |
為每個主張分配一個臨時 ID (C1, C2, C3...),以便在後續層級中進行追蹤。
步驟 2:檢查內部一致性
相互審視擷取出的各項主張:
- 文字是否在任何地方自相矛盾? (例如,針對同一個事件陳述了兩個不同的日期)
- 是否存在邏輯上不相容的主張?
- 文字是否在一個章節中做出假設,但在另一個章節中又與之矛盾?
立即標記任何內部矛盾 —— 這些不需要外部驗證即可識別為問題。
步驟 3:初步信心評量
對於每項主張,僅根據您自己的知識進行初步評量:
- 您是否記得這是正確的?
- 這是模型經常產生幻覺的主張類型嗎? (特定引用、精確統計數據與確切日期屬於高風險類別。)
- 該主張是否足夠具體以便驗證,或者是否足夠模糊以至於無法證偽?
記錄您的初步信心,但目前請不要將其作為發現進行回報。這是第 2 層的輸入,而非輸出。
第 2 層:來源驗證
針對每一項擷取出的主張,搜尋外部證據。這一層的目的是尋找使用者可以瀏覽以獨立驗證主張的 URL。
搜尋策略
對於每一項主張:
制定搜尋查詢以找出原始來源。對於引用,搜尋確切的標題或案例名稱。對於統計數據,搜尋具體的數字與主題。對於事實主張,搜尋關鍵實體與關係。
使用
web_search執行搜尋。如果第一次搜尋沒有傳回相關結果,請重新制定查詢,並使用不同的術語再試一次。評估您發現的內容:
- 您是否找到了直接針對該主張的原始或權威來源?
- 您是否從可信來源找到了矛盾的資訊?
- 您是否沒有發現任何相關內容? (這本身就是一個訊號 —— 真實的事物通常會有網路足跡。)
隨來源 URL 記錄結果。即使您也摘要了來源所說的內容,請務必提供 URL。
什麼可以作為來源
優先選擇原始與權威來源:
- 官方文件、規格與標準
- 法院記錄、立法文本、監管文件
- 經過同行評審的出版物
- 官方組織網站與新聞稿
- 既有的參考著作 (百科全書、法律資料庫)
註明來源是二手來源 (新聞文章、部落格文章、維基頁面) 還是原始來源。使用者可以據此權衡。
專門處理引用
引用是幻覺風險最高的類別。對於任何引用特定案例、法規、論文、標準或文件的主張:
- 搜尋確切的引用 (案例名稱、標題、條款編號)。
- 如果您找到了,請確認引用的內容確實如目標文字所主張的那樣。
- 如果您完全找不到,請將其標記為「捏造風險」。模型經常為不存在的事物產生聽起來合理的引用。
第 3 層:對抗性審核
完全切換您的姿態。在第 1 層與第 2 層中,您是試圖理解與驗證輸出。在這一層中,假設輸出包含錯誤並主動嘗試找出它們。
幻覺模式檢查清單
檢查以下常見模式:
虛構引用 —— 文字引用了您在第 2 層中找不到的特定案例、論文或法規。這是最危險的幻覺模式,因為它看起來權威。
沒有來源的精確數字 —— 文字陳述了具體的統計數據 (例如,「78% 的公司...」) 但未說明數字來源。模型經常產生聽起來合理但完全虛構的統計數據。
在不確定主題上的自信特殊性 —— 文字在細節真正不明或有爭議的主題上陳述了非常具體的內容。注意專家意見分歧領域中的確切日期、精確金額與明確歸因。
合理但錯誤的關聯 —— 文字將一個概念、裁決或事件與錯誤的實體關聯起來。例如,將裁決歸因於錯誤的法院、將引言分配給錯誤的人,或者在法規名稱正確的情況下錯誤地描述法規條款。
時間混淆 —— 文字將某些可能已過時的內容描述為現行內容,或者以錯誤的順序描述事件序列。
過度概括 —— 文字將某些內容陳述為普遍真理,但它實際上僅適用於特定的司法管轄區、背景或時期。常見於法律與法規內容中。
缺失限定詞 —— 文字將一個微妙的主題呈現為已定論或直截了當的,但實際上存在顯著的例外、限制或反對意見。
對抗性問題
對於通過第 1 層與第 2 層的每一項主要主張,請詢問:
- 什麼會使這項主張錯誤?
- 該領域是否存在模型可能擷取到的常見誤解?
- 如果我是該領域的專家,我會反對這種陳述方式嗎?
- 這項主張是在我的訓練資料截止日期之前還是之後,它是否可能已過時?
需要呈報的警告標誌
如果您發現以下任何一項,請在報告中顯眼地標記:
- 在任何地方都找不到的具體引用
- 沒有可識別來源的統計數據
- 與權威來源所說相矛盾的法律或法規主張
- 以高信心陳述但實際上存在爭議或不確定的主張
產生驗證報告
完成所有三層驗證後,使用 assets/verification-report-template.md 中的範本產生報告。
信心評等
為每項主張分配最終評等:
| 評等 | 意義 | 使用者應該做什麼 |
|---|---|---|
| 已驗證 | 找到了支持來源並已提供連結 | 如果該主張對您的工作至關重要,請抽查來源連結 |
| 合理 | 與一般知識一致,未找到具體來源 | 視為合理但未經證實;如果依賴它做出決策,請獨立驗證 |
| 未驗證 | 找不到支持或矛盾的證據 | 在未經獨立驗證的情況下,請勿依賴此主張 |
| 有爭議 | 從可信來源找到了矛盾的證據 | 審閱矛盾來源;此主張可能有誤 |
| 捏造風險 | 符合幻覺模式 (例如,找不到引用、無來源的精確統計數據) | 除非您能從原始來源確認,否則請假設這是錯誤的 |
報告原則
- 提供連結,而非定論。由使用者決定什麼是真實的,而不是由您決定。
- 當您發現矛盾資訊時,請同時呈現雙方的來源。不要選出勝者。
- 如果一項主張無法證偽 (過於模糊或主觀而無法驗證),請說明。 「無法證偽」也是有用的資訊。
- 明確說明您無法檢查的內容。 「我無法驗證這一點」與「這是錯誤的」不同。
- 按嚴重程度對發現進行分組。優先列出最需要注意的項目。
限制披露
務必在報告末尾包含此內容:
此驗證的限制:
- 此工具可加速人工驗證,但不能取代人工驗證。
- 網路搜尋結果可能不包含最新資訊或付費牆來源。
- 對抗性審核使用與可能產生原始輸出的相同底層模型。它可以捕捉到許多問題,但無法捕捉到所有問題。
- 評等為「已驗證」的主張表示找到了支持來源,並不代表該主張絕對正確。來源也可能出錯。
- 評等為「合理」的主張仍可能有誤。缺乏矛盾證據並非正確性的證明。
特定領域指南
法律內容
法律內容帶有較高的幻覺風險,因為:
- 案例名稱、引用與判決經常被模型虛構
- 司法管轄區的細節經常被簡化或遺漏
- 法規用語可能會以改變法律意義的方式被改寫
- 「多數意見」與「少數意見」的區別經常丟失
對於法律內容,請對以下內容給予額外審核:案例引用、法規參考、法規解讀以及司法管轄區主張。盡可能搜尋法律資料庫。
醫療與科學內容
- 檢查引用的研究是否確實存在,以及結果描述是否準確
- 注意被呈現為現行準則的過時指南
- 標記劑量、治療方案或診斷標準 —— 這些會改變且錯誤可能很危險
財務與法規內容
- 驗證具體的金額、日期與門檻
- 檢查法規要求是否歸因於正確的司法管轄區且為現行有效
- 注意最近立法更改後可能已過時的稅法主張
技術與安全性內容
- 驗證 CVE 編號、弱點說明以及受影響的版本
- 檢查 API 規格與設定說明是否與目前的說明文件相符
- 注意可能已過時的版本特定資訊