Annals of Internal Medicine 2026-06-30|本期新刊導讀
本期 Annals of Internal Medicine 共 9 篇、3 篇 OA,主軸不是單一疾病,而是「風險分層、真實世界證據與臨床政策如何接軌」:肺癌 LDCT 篩檢資格如何兼顧效率與公平、COVID-19 與流感疫苗共同接種的安全性、GLP-1 藥物快速擴張後的療效、安全性、給付與真實世界證據,以及臨床指引如何更透明地報告利害關係人參與。
以下幾篇頁面主要提供摘要與參考文獻,因此明確標示為「僅依摘要評論」:肺癌風險模型、bofanglutide trial、RIGHT-MuSE checklist、兩篇 GLP-1 RWE workshop synopsis。COVID-19/流感疫苗共同接種研究與病人摘要則有較完整正文可供評讀。
本期最值得先讀的三條線
| 優先讀 | 文章 | 為什麼重要 |
|---|---|---|
| 1 | COVID-19 + influenza same-day vaccination safety target trial emulation(OA) | 樣本數極大、研究問題高度政策化,且用 active comparator 與 target trial emulation 處理健康疫苗接種者偏差。 |
| 2 | 肺癌篩檢風險模型跨族群表現 | 直接碰到 LDCT 篩檢「用固定條件」或「用個人風險模型」的公平性問題。 |
| 3 | GLP-1 系列:bofanglutide phase 2b + 兩篇 RWE workshop + prescribing news | 反映 GLP-1 已從「藥效問題」進入「長期安全、真實世界使用、停藥、給付、成本與政策」階段。 |
一、肺癌篩檢:風險模型比 USPSTF 條件有效率,但公平性不是自動解決
Performance of Lung Cancer Risk Prediction Models in Different Racial and Ethnic Groups in the United States
Original Research;僅依摘要評論 DOI: 10.7326/ANNALS-25-03816
這篇研究處理的是肺癌 LDCT 篩檢的核心政策問題:若不只用年齡與吸菸量等固定門檻,而改用個人化風險模型,是否能更有效、也更公平地找出應接受篩檢者?
研究納入 Lung Cancer Cohort Consortium 中 641,830 名 50 至 80 歲、有吸菸史者,評估 16 個肺癌風險預測模型在 Asian、Hispanic、non-Hispanic Black、non-Hispanic White 族群中的 calibration、discrimination,以及作為篩檢資格工具時的 eligibility、sensitivity、estimated NNS。
主要結果很清楚:
- 多數模型在 non-Hispanic Black participants 中低估肺癌風險:16 個模型中有 11 個的 expected–observed ratio < 0.75。
- Asian participants 的 discrimination 較低:16 個模型中有 13 個在 Asian participants 的 discrimination 低於其他族群。
- non-Hispanic Black participants 的 discrimination 也常低於 non-Hispanic White participants:16 個模型中有 15 個如此。
- 若強制選出與 USPSTF-2021 相同大小的篩檢族群,也就是 38.0%,所有 risk-based strategies 的平均 estimated screening efficiency 都比 USPSTF-2021 好,且族群間 efficiency 差異較小。
- 表現較好的模型是 PLCOm2012 與 LYFS-CT,mean estimated NNS 分別為 36.5 [SD, 8.8] 與 40.1 [SD, 8.2]。
- 但沒有任何策略能同時最佳化 eligibility、sensitivity、efficiency,又同時降低 racial and ethnic differences。
臨床與政策意義
這篇文章的訊息不是「某一個模型可以取代 USPSTF」,而是更細緻:risk-based screening 可能比固定門檻更有效率,也可能縮小某些效率差異,但風險模型本身仍會承襲資料來源與模型校正的偏差。
對台灣讀者,這篇文章的價值不在於直接套用美國 racial/ethnic 分類,而在於提醒:若未來 LDCT 篩檢走向風險分層,不能只問模型 AUC 或 NNS;必須問:
- 模型是否在本地族群校正過?
- 是否納入本地重要風險因子,例如家族史、非吸菸女性肺癌、空污、職業暴露等?
- 篩檢資格改變後,誰會被納入、誰會被排除?
- 效率提高是否以犧牲敏感度或特定族群可近性為代價?
方法學陷阱
這篇是 risk prediction model performance study,不是篩檢介入試驗。estimated NNS 是依模型與事件比例推估的篩檢效率指標,不能直接等同於實際 LDCT 篩檢後的死亡率下降、偽陽性、過度診斷、侵入性處置或成本效益。
另一個容易誤讀之處是:「risk-based strategy 較公平」不代表模型沒有 bias。摘要已顯示,不同族群的 calibration 與 discrimination 差異仍存在。公平性不只是選同樣比例的人,而是要檢視在不同基準風險、就醫可近性、診斷延遲與治療差異下,篩檢策略是否真的改善結果。
二、GLP-1:從療效競賽進入真實世界治理問題
本期有一篇新 GLP-1 receptor agonist 的 phase 2b trial,兩篇 NIDDK workshop synopsis,以及一篇 I.M. Matters News。放在一起看,訊息相當一致:GLP-1 類藥物已經不是單純「降糖、減重」議題,而是長期使用、停藥、適應症擴張、保險給付、成本、藥物短缺、off-label use、compounded formulations 與真實世界資料品質的系統性問題。
Weekly and Biweekly Treatment With Bofanglutide Versus Semaglutide in Chinese Patients With Type 2 Diabetes
Phase 2b randomized open-label active-controlled trial;僅依摘要評論 DOI: 10.7326/ANNALS-25-04623
這篇是 bofanglutide 在第 2 型糖尿病病人中的 phase 2b trial。Bofanglutide 是開發中的 GLP-1 receptor agonist,研究重點不只是療效,也包括 biweekly dosing 是否可行。
研究在中國 37 個中心進行,納入 272 名 T2DM 成人,baseline 平均年齡 50.8 歲、HbA1c 8.35%、BMI 27.9 kg/m²。病人以 1:1:1:1:1 隨機分派至:
- bofanglutide 12 mg Q2W
- bofanglutide 18 mg Q2W
- bofanglutide 24 mg Q2W
- bofanglutide 24 mg QW
- semaglutide 1 mg QW
主要終點是 baseline 至 week 24 的 HbA1c 變化。
主要結果
24 週時 HbA1c 變化:
| 組別 | HbA1c change from baseline |
|---|---|
| Bofanglutide 12 mg Q2W | −1.87%(95% CI, −2.11 to −1.63) |
| Bofanglutide 18 mg Q2W | −2.28%(CI, −2.54 to −2.03) |
| Bofanglutide 24 mg Q2W | −1.94%(CI, −2.19 to −1.69) |
| Bofanglutide 24 mg QW | −2.32%(CI, −2.57 to −2.06) |
| Semaglutide 1 mg QW | −1.60%(CI, −1.85 to −1.35) |
相較於 semaglutide 1 mg QW 的 treatment differences:
- 12 mg Q2W: −0.27%(CI, −0.61 to −0.08)
- 18 mg Q2W: −0.68%(CI, −1.04 to −0.33)
- 24 mg Q2W: −0.34%(CI, −0.70 to 0.02)
- 24 mg QW: −0.72%(CI, −1.08 to −0.36)
安全性方面,GI adverse events 在 bofanglutide 組為 81.8% 至 87.3%,semaglutide 組為 51.9%,多為 grade 1 或 2。Hypoglycemia 為 0% 至 3.8% versus 1.9%,無 severe hypoglycemia。
臨床解讀
這篇的吸引力在於 Q2W dosing。若 biweekly GLP-1RA 能維持降糖效果,對部分病人可能改善注射負擔與長期 persistence。不過目前只能說:在 24 週、phase 2b、open-label、以中國 T2DM 病人為主的條件下,bofanglutide 有明顯 HbA1c 降幅。
不能過度延伸為:
- 已證明優於 semaglutide 的臨床結局。
- 已證明心血管或腎臟保護。
- 已證明長期 tolerability 較佳。
- 已證明 Q2W 一定改善 adherence。
GI adverse events 高於 semaglutide 是臨床上最需要注意的訊號。摘要稱多數為 grade 1 或 2、generally manageable,但真實世界中,輕中度 GI 症狀仍可能造成停藥、延遲 titration、病人不願續用,尤其 GLP-1 治療常需長期維持。
方法學陷阱
這是 open-label phase 2b exploratory trial,不應用 phase 3 outcome trial 的標準解讀。Semaglutide 1 mg QW 是合理 active comparator,但 GLP-1 類藥物目前的臨床競爭已不只 HbA1c,也包括體重、心腎結局、耐受性、停藥後反彈、成本與可近性。
另一個值得注意的是,Q2W 劑量反應並非單純線性;摘要中 18 mg Q2W 的 HbA1c 降幅大於 24 mg Q2W。這不一定代表 18 mg 是最佳劑量,可能受樣本數、titration、耐受性、缺失資料或估計不確定性影響。需要完整 phase 3 與更長期資料。
Leveraging Real-World Evidence to Inform Regulatory, Clinical, and Coverage Decisions Related to GLP-1–Based Therapies
Special Article;僅依摘要評論 DOI: 10.7326/ANNALS-25-05468
這是 NIDDK 2025 年 5 月 workshop 的第一篇 synopsis,焦點是 GLP-1RAs 的真實世界證據如何支援 regulatory、clinical、coverage decisions。
摘要點出 GLP-1RAs 已改變肥胖與糖尿病治療,但仍有大量未解問題:
- 最適治療路徑。
- 長期安全性。
- 不同族群中的 effectiveness。
- adherence 與 discontinuation。
- 經濟影響。
- 保險給付差異。
- 藥物短缺。
- compounded formulations。
- off-label prescribing。
- 兒童與弱勢族群資料不足。
- EHR、claims 等資料來源對藥物使用與結果捕捉不完整。
這篇最重要的觀念是:GLP-1 的真實世界證據不是 RCT 的低階替代品,而是補足 RCT 不容易回答的問題。 例如罕見不良事件、長期安全性、停藥與再啟用、不同保險制度下的可近性、長期成本,以及臨床試驗未充分納入族群的 outcomes。
但 workshop 也提醒,RWE 的可用性高度依賴資料品質與設計品質。GLP-1 類藥物特別容易產生偏差,因為用藥不只受疾病嚴重度影響,也受收入、保險、藥物缺貨、醫師處方習慣、病人偏好、媒體資訊與 out-of-pocket cost 影響。這些因素同時也會影響體重、代謝、就醫頻率與 outcome ascertainment。
Methodological Approaches to Real-World Evidence Generation for GLP-1–Based Therapies
Special Article;僅依摘要評論 DOI: 10.7326/ANNALS-26-00202
第二篇 NIDDK workshop synopsis 聚焦方法學:GLP-1RAs 的 real-world data 可來自 EHR、registries、claims 等,但資料品質、selection bias、用藥與 outcome 捕捉不完整,會嚴重影響推論。
摘要特別提到兩類較能產生可用證據的設計:
-
Pragmatic clinical trials 在臨床流程中進行,較能反映 routine care,但仍保留隨機化的保護。
-
Target trial emulation 在觀察性資料中先明確定義「若能做一個理想 randomized trial,會如何定義 eligibility、time zero、treatment strategies、follow-up、outcomes、estimand 與 analysis」,再用資料模擬該 trial。
這對 GLP-1 類藥物特別關鍵。若沒有清楚定義 time zero,很容易發生 immortal time bias;若沒有 active comparator,容易把接受 GLP-1 的病人與完全不同風險、不同醫療可近性的病人相比;若忽略 treatment discontinuation,則 intention-to-treat-like 與 per-protocol-like estimand 會混在一起。
對臨床讀者的提醒
未來你會看到越來越多 GLP-1 RWE 論文。讀這類研究時,不要只看 HR 或體重下降百分比,應先問:
- 研究是否採 new-user design?
- comparator 是 active comparator 還是 nonuser?
- time zero 是否一致?
- 停藥、換藥、缺藥如何處理?
- outcome 是 claims code、EHR problem list、lab value,還是 validated phenotype?
- 是否處理 health care utilization 與 insurance coverage 造成的偏差?
- 研究回答的是「開始治療」的效果,還是「持續治療」的效果?
這些問題比模型用了哪一種統計軟體更重要。
Grappling with GLP-1 prescribing
I.M. Matters News;僅依頁面片段評論 DOI: 10.7326/ANNALS-26-02741-IM
可見內容顯示,這篇新聞整理 ACP/Annals 虛擬論壇對 GLP-1 prescribing 的臨床建議。片段中的核心訊息是:病人多半已知道 GLP-1 的好處,內科醫師更重要的任務是補上風險、限制與長期治療現實。
這與本期兩篇 RWE workshop 相互呼應。GLP-1 不是「打一針就結束」的藥物,而是需要評估適應症、禁忌、GI tolerability、共病、長期追蹤、停藥策略、體重反彈、給付與病人可負擔性的慢性病治療。
三、COVID-19 與流感疫苗同日接種:大型 target trial emulation 支持短期安全性
Adverse Events After Same-Day COVID-19 and Influenza Vaccination Versus Influenza Vaccination Alone
Original Research;Target trial emulation;OA DOI: 10.7326/ANNALS-26-00217
這是本期最完整、也最具政策意義的研究。問題很直接:在現代、已有 hybrid immunity、且 COVID-19 疫苗已更新多次的情境下,同日接種 COVID-19 與流感疫苗,是否比只接種流感疫苗增加 90 天內 adverse events?
研究使用 U.S. Department of Veterans Affairs 電子病歷,採 target trial emulation。比較組不是 vaccinated versus unvaccinated,而是:
- COVID-19 + seasonal influenza vaccines 同日接種:705,124 人
- influenza vaccine alone:1,813,205 人
時間涵蓋 2022-09-01 至 2025-08-26,橫跨三個 COVID-19 updated formulation periods:
- bivalent period
- XBB-adapted period
- KP-adapted period
研究評估 46 個 prespecified adverse events,並分成三個 composite severity tiers:
- tier 1:serious or life-threatening
- tier 2:clinically significant
- tier 3:less severe or self-limiting
主要結果
三個 composite outcomes 的 90 天風險相近:
| Outcome | RR(COVID+flu vs flu alone) | 解讀 |
|---|---|---|
| Tier 1 serious/life-threatening | 1.03(95% CI, 0.99 to 1.09) | 未顯示增加 |
| Tier 2 clinically significant | 0.99(CI, 0.96 to 1.03) | 未顯示增加 |
| Tier 3 less severe/self-limiting | 0.99(CI, 0.96 to 1.02) | 未顯示增加 |
個別 46 個 outcomes 中,只有兩個 tier 3 outcomes 達 nominal statistical significance:
- Syncope: RR 1.09(CI, 1.02 to 1.17),RD 29.68 per 100,000(CI, 5.87 to 54.71)
- Tinnitus: RR 0.95(CI, 0.92 to 0.99),RD −75.58 per 100,000(CI, −129.25 to −21.86)
但經 Bonferroni correction 後,沒有任何個別 outcome 維持統計顯著。分時期分析也未支持 bivalent、XBB-adapted 或 KP-adapted vaccine period 有一致的風險增加。
為什麼這篇值得讀
這篇設計比一般疫苗安全性觀察研究更強,因為它用 active comparator design:所有人都在 primary care visit 接受流感疫苗,差別在於是否同日加打 COVID-19 vaccine。這比拿接種者與未接種者相比,更能降低 healthy vaccinee bias 與 healthcare-seeking behavior 差異。
研究也明確定義 T0、follow-up、protocol deviation 與 censoring。Influenza-only 組若後續接種 COVID-19 vaccine,會在該時點 censor,以符合 per-protocol estimand。這些設計細節對疫苗安全性研究非常重要。
臨床意義
對門診疫苗諮詢,這篇提供相當實用的說法:在 VA 這個大型、以年長男性為主的族群中,同日接種 updated COVID-19 vaccine 與流感疫苗,未觀察到 serious、clinically significant 或 less severe/self-limiting adverse events 的 90 天風險增加。
這可以支持同日接種策略,尤其對高齡、慢性病、多次就醫不便者,同日接種可減少 missed opportunity。
方法學與誤讀風險
第一,這不是 randomized trial。Target trial emulation 可以改善設計邏輯,但不能完全排除 unmeasured confounding。
第二,VA 族群多為年長、男性、White,對年輕男性 myocarditis 風險、孕婦、兒童或其他族群不能直接外推。
第三,這篇研究不捕捉未就醫的短暫 reactogenicity,例如短暫發燒、疲倦、注射部位疼痛。因此它比較能回答「臨床上會被記錄到的 adverse events」與較嚴重事件,而不是所有接種後不適。
第四,不要把 nominally significant 的 syncope 或 tinnitus 當成確定訊號。46 個 outcomes 中有 2 個 nominal findings,且校正多重比較後不顯著,研究者也指出這與偶然發現相容。
第五,confidence interval upper bound 不是最可能的風險值。臨床與政策討論應看 point estimate、absolute risk difference、整體模式與事前定義的 composite outcomes,而不是只挑上界做風險放大。
Summary for Patients: Adverse Events After Same-Day COVID-19 and Influenza Vaccination Versus Influenza Vaccination Alone
Summaries for Patients;OA DOI: 10.7326/ANNALS-26-00217-PS
這篇是上述疫苗安全性研究的病人版摘要。它適合臨床上轉化為病人溝通語言:研究比較同日接種 COVID-19 與流感疫苗 versus 只接種流感疫苗,在 90 天內不良事件風險大致相似;主要限制是這不是實際隨機試驗,且多數研究對象是男性。
對臨床醫師而言,這類 patient summary 的價值在於降低過度技術化溝通。病人問「兩針一起打會不會比較危險?」時,不需要先解釋 target trial emulation,可以先說:大型退伍軍人資料研究未看到嚴重或臨床重要不良事件增加,再視病人需求補充研究限制。
四、臨床指引方法學:RIGHT-MuSE 讓「利害關係人參與」不再只是口號
Reporting Interest-Holder Engagement in Practice Guidelines: The RIGHT-MuSE Checklist
Research and Reporting Methods;僅依摘要評論 DOI: 10.7326/ANNALS-25-05329
這篇不是臨床介入研究,而是 reporting guideline。它補足 RIGHT checklist 在 practice guidelines 中對 interest-holder engagement 報告不足的問題。
RIGHT-MuSE checklist 最終包含 11 個 items,涵蓋:
- 使用哪些 guidance。
- engagement 的方法。
- interest-holders 的特徵。
- engagement 的評估。
- conflicts of interest 的管理。
- glossary 與 explanation/elaboration document。
開發過程依 EQUATOR Network 建議,包含 protocol、project registration、working group、background work、初始 items、consensus survey、panel discussions,最後形成 checklist。參與者包括 25 名 panelists,來自不同 guideline development interest-holder groups。
為什麼重要
現代臨床指引愈來愈強調 patient and public involvement、equity、shared decision-making 與 implementation feasibility。但很多指引只寫「有納入病人代表」或「曾徵詢利害關係人」,沒有交代:
- 誰被邀請?
- 誰沒有被邀請?
- 參與發生在問題形成、證據評估、建議撰寫,還是只在最後審閱?
- 參與意見是否影響 recommendation?
- 參與者是否有 financial 或 intellectual conflicts of interest?
- 是否評估 engagement 的品質與影響?
RIGHT-MuSE 的重點不是要求每份指引都用同一種參與模式,而是要求透明報告。讀者才能判斷這份指引中的「參與」是實質參與,還是象徵性背書。
誤讀風險
Checklist 是 reporting tool,不是品質保證。報告完整不代表 engagement 一定有意義;報告不完整也不必然代表沒有 engagement。但在實務上,透明報告是評估 guideline legitimacy 的最低門檻。
另一個需要注意的是,利害關係人參與並非越多越好。臨床指引仍需平衡證據品質、效益與傷害、價值偏好、資源使用與可行性。RIGHT-MuSE 提供的是讓這些過程可被檢視的語言與結構。
五、短篇與更正
Correction to I.M. Matters News: Sleep medicine for seniors
Correction;OA DOI: 10.7326/ANNALS-26-02688-IM
這是一則更正。原本 “Sleep Medicine for Seniors” 第 10 段中的 “continuous sympathetic activation” 更正為 “intermittent sympathetic activation during sleep”。線上版本已於 2026-06-12 更新,2026 年 7 月紙本版本包含更正後句子。
這個更正看似小,但對睡眠醫學與高齡照護有實質意義。以 obstructive sleep apnea 等睡眠呼吸障礙而言,交感神經活化的特徵通常與睡眠中反覆缺氧、覺醒與呼吸事件相關;用 continuous versus intermittent 會改變生理機轉的描述精準度。
本期給臨床醫師的整體訊息
本期最強的臨床訊息有三個。
第一,風險模型不是公平性的萬靈丹。肺癌篩檢模型可能提高效率,也可能比固定 USPSTF 條件更能縮小某些差異,但模型在不同族群的 calibration 與 discrimination 仍會不同。若要把 risk-based screening 帶入政策,必須做本地驗證與公平性評估。
第二,GLP-1 治療已經進入慢性病治理時代。Bofanglutide 顯示新一代長效 GLP-1RA 與 biweekly dosing 的潛力,但目前仍是短期 phase 2b 資料。真正困難的問題在後面:長期安全、停藥、復胖、給付、弱勢族群可近性、成本效益、compounded formulations 與真實世界資料品質。
第三,好的 observational study 要先像 trial 一樣思考。COVID-19 與流感疫苗共同接種研究展示了 target trial emulation 的價值:先定義臨床問題、time zero、比較策略、follow-up、estimand,再用 active comparator 與 weighting 減少偏差。這不會讓觀察性研究變成 RCT,但會讓推論更接近臨床與政策真正需要回答的問題。