2022 | DataAgent

NLP, 網路爬蟲, 資料科學

經典 NLP 任務標籤生成：串接非官方 ChatGPT API

2022-12-19 / 0 評論

這篇文章紀錄我串接非官方 ChatGPT API 「試圖」取得 NLP 資訊抽取任務標籤的過程。結論是...

閱讀全文

 martech_jy
NLP

NLP 界的核武：ChatGPT 實測心得和未來應用分析

2022-12-09 / 0 評論

大家最想知道，核武級的 ChatGPT 出現後該如何應對？未來的運作方式可能會變成像是人類先有一個 idea ，先請 AI 做初步的資料蒐集、整理，再由人類做判斷、再使用類似 Prompt Engineering ...

閱讀全文

 martech_jy
資料產品開發

Git 協作不可不知的重要指令

2022-06-27 / 0 評論

以下整理套件開發協作時常遇到與用到的 Git 指令： SSH Key 與 HTTPS 的差別其中 <repo_link> 的開頭有 https:// 和 git@ 兩種： git@ 開頭：需在 Githu...

閱讀全文

 martech_jy
NLP

【自然語言處理】基於語義角色標註的事件三元組抽取實作

2022-06-26 / 0 評論

本文介紹自然語言處理中的經典任務之一：語義角色標註，並分享開源專案「事件三元組抽取」如何利用語義角色標注的結果，以及復現心得、改良想法

閱讀全文

 martech_jy
網路爬蟲

【Python 網路爬蟲】克服網站反爬蟲機制的 8 種做法

2022-06-03 / 0 評論

隨著公開資料使用的普及化，網站對自家資料的保護也越來越嚴謹。開發者如何在符合道德和不觸發網站擋爬機制的同時，合法取得所需的公開資訊，是當今資料技術開發人員不可或缺的技能點之一。 (I) 發送 Request 時帶上 He...

閱讀全文

 martech_jy
Python

【Python】複製一份 conda 環境的各種方式

2022-05-27 / 0 評論

使用 .yml 檔案將當前環境設置輸出為 environment.yml ，再用來創建配置一致的新環境更新現有環境在 environment.yml 中對 pip 安裝指令加參數 [ref] 使用 .txt 檔案 ...

閱讀全文

 JiunYi Yang
Debugging

【除錯紀錄】MAC 更新後 git 指令出現 xcrun: error

2022-05-23 / 0 評論

更新 Mac 到 12.3.1 後，日常使用 git 進行版控時，出現以下錯誤訊息：解法是要安裝/升級 XCode command line tools 畫面跳出按下「安裝」> 「同意」，等待完成就可以正常使用...

閱讀全文

 martech_jy
NLP

【自然語言處理】Longformer 中文長文本 RoBERTa 模型 – 新聞分類實作

2022-05-03 / 0 評論

使用 pre-trained model BERT 進行各種 NLU 下游任務 fine-tuning 時，會有輸入限制 512 字符的限制，真實世界文章往往超過這個長度，因此如何應用 BERT 到長文本上是一個重要的議...

閱讀全文

 JiunYi Yang