iPAS 備考筆記 - AI 應用規劃師
TLDR
- AI 基礎:AI、ML、DL 為巢狀關係;目前主流商用 AI 均屬「弱 AI(Narrow AI)」。
- 資料工程:資料湖倉(Data Lakehouse)結合了資料湖的彈性與資料倉儲的治理能力;獎牌架構(Bronze/Silver/Gold)是資料分層管理的標準模式。
- 資料處理:ELT 逐漸取代 ETL,以保留原始資料細節供 AI 訓練使用。
- 資料治理:Data Mesh 透過領域導向所有權解決集中式平台的擴展瓶頸。
- 特徵工程:類別型特徵編碼需視基數與模型類型選擇(One-Hot, Target, WoE 等);數值特徵需標準化(Z-score, Robust Scaling)。
- 模型評估:類別不平衡問題應優先考慮指標選擇(F1, AUC, MCC)與決策閾值調整,而非僅依賴 Accuracy。
- 深度學習:Transformer 架構是現代 NLP 的基石;CNN 擅長影像空間特徵;Diffusion Model 是目前圖像生成的主流。
- AI 治理:EU AI Act 採取風險分級管理;AI 系統需具備公平性、可解釋性與安全性,並透過 Model Card 與 Datasheet 進行透明度揭露。
AI 基礎概念
AI 能力層次與分類
人工智慧泛指讓機器模擬人類智慧行為的技術。目前的商用 AI(如 ChatGPT、AlphaGo)皆屬於「弱 AI(Narrow AI)」,其特徵為:
- 無自主目標設定:僅能回應提示或外部任務。
- 無持續性記憶:對話結束後不會自主累積經驗。
- 跨領域遷移受限:表現依賴大量訓練資料與後訓練流程。
AI 功能可分為:分析型、預測型、生成型與規範型(推薦最佳行動方案)。
AI、機器學習與深度學習
三者為層層包含的巢狀關係:
- AI:任何讓機器展現智慧行為的技術。
- ML:透過資料自動學習模式,不需明確編寫規則。
- DL:使用多層神經網路自動萃取特徵。
資料工程
資料儲存架構
- Data Warehouse:結構化資料,寫入時定義綱要(Schema-on-Write),適合報表。
- Data Lake:原始資料,讀取時解析綱要(Schema-on-Read),適合探索。
- Data Lakehouse:結合兩者,支援 ACID 交易與版本追蹤,適合報表、ML 與 RAG。
獎牌架構(Medallion Architecture)
- Bronze(銅層):原始資料,維持原貌。
- Silver(銀層):清洗與標準化,跨業務通用。
- Gold(金層):業務消費層,預先計算好的資料集。
資料治理
- Data Mesh:將資料所有權下放給各業務領域,透過自助式基礎設施與聯邦式治理管理。
- Data Catalog/Metadata/Lineage:分別解決資料「找得到」、「看得懂」與「追得出」的問題。
特徵工程
類別型特徵編碼選型
- One-Hot:適用類別少、無順序的特徵(樹模型)。
- Ordinal:適用有明確順序的特徵(如教育程度)。
- Target Encoding:適用高基數特徵,但需防範 Data Leakage(資料洩漏)。
- WoE:金融領域二元分類標準做法。
- Feature Hashing:適用串流資料或記憶體受限場景。
資料品質與不平衡處理
- 資料品質六維度:準確性、完整性、一致性、時效性、唯一性、有效性。
- 不平衡處理:
- SMOTE:適用數值型特徵,在少數類別樣本間插值生成合成樣本。
- 決策閾值調整:訓練後調整,成本最低。
- 異常偵測:當類別比例極端(如 99.99:0.01)時,改用 Isolation Forest 或 One-Class SVM。
機器學習演算法
監督式學習
- 線性模型:羅吉斯迴歸(Logistic Regression)輸出機率,適合二元分類。
- 決策樹:透過分裂規則做預測,可解釋性高,但單棵樹易過擬合。
- SVM:透過最大間隔(Maximum Margin)尋找決策邊界,適合高維、小樣本資料。
- 集成學習:
- Bagging(Random Forest):降低 Variance。
- Boosting(XGBoost, LightGBM, CatBoost):降低 Bias,提升預測力。
非監督式學習
- K-Means:球狀分群,需事先指定 K 值。
- DBSCAN:基於密度分群,可自動識別噪音點,不需指定群數。
深度學習與模型架構
- CNN:卷積層萃取局部特徵,適合影像處理。
- RNN/LSTM:處理序列資料,LSTM 透過門控機制解決梯度消失問題。
- Transformer:基於 Self-Attention 機制,支援平行運算,是現代 LLM 的基礎。
- Diffusion Model:透過反向去雜訊過程生成高品質圖像。
AI 治理與安全
AI 治理架構
- EU AI Act:基於風險的分級管理框架,禁止不可接受風險,嚴格規範高風險 AI。
- NIST AI RMF:提供風險管理的流程語言(Govern, Map, Measure, Manage)。
- ISO/IEC 42001:AI 管理系統的國際標準,強調責任分工與持續改善。
安全防護
- 提示注入(Prompt Injection):防禦重點在於指令與資料隔離。
- 隱私保護:透過差分隱私(Differential Privacy)注入雜訊,或使用聯邦學習(Federated Learning)確保原始資料不離開本地。
- 可解釋性(XAI):SHAP 與 LIME 是事後解釋黑箱模型的主流工具。
異動歷程:2026-05-20 初版文件建立。