-
【自然語言處理】基於語義角色標註的事件三元組抽取實作
本文介紹自然語言處理中的經典任務之一:語義角色標註,並分享開源專案「事件三元組抽取」如何利用語義角色標注的結果,以及復現心得、改良想法
-
【Python 網路爬蟲】克服網站反爬蟲機制的 8 種做法
隨著公開資料使用的普及化,網站對自家資料的保護也越來越嚴謹。開發者如何在符合道德和不觸發網站擋爬機制的同時,合法取得所需的公開資訊,是當今資料技術開發人員不可或缺的技能點之一。 (I) 發送 Request 時帶上 He...
-
【Python】複製一份 conda 環境的各種方式
使用 .yml 檔案 將當前環境設置輸出為 environment.yml ,再用來創建配置一致的新環境 更新現有環境 在 environment.yml 中對 pip 安裝指令加參數 [ref] 使用 .txt 檔案 ...
-
【除錯紀錄】MAC 更新後 git 指令出現 xcrun: error
更新 Mac 到 12.3.1 後,日常使用 git 進行版控時,出現以下錯誤訊息: 解法是要安裝/升級 XCode command line tools 畫面跳出 按下「安裝」> 「同意」,等待完成就可以正常使用...
-
【自然語言處理】Longformer 中文長文本 RoBERTa 模型 – 新聞分類實作
使用 pre-trained model BERT 進行各種 NLU 下游任務 fine-tuning 時,會有輸入限制 512 字符的限制,真實世界文章往往超過這個長度,因此如何應用 BERT 到長文本上是一個重要的議...
-
【2021 Shopee Code League】解題紀錄|Week1:Multi-Channel Contact Problem
以下用中文解釋題意和解題思考過程,若有誤、更優解等建議,歡迎留言或私訊。 本週題意 基本上希望的目的是,將聯繫蝦皮客服的用戶進行 unify(歸一化),方便計算客服流程的總聯繫次數。由於用戶會用不同信件、手機、基於不同訂...
-
【資料探索性分析】#1 電商零售 – 天貓電商用戶行為
(一)主題 從天貓 TMall 用戶網站行為紀錄,透過視覺化整理: 基本的資料分布 比較不同用戶分組的行為分布差異 *何謂探索性資料分析? 運用 Python 套件進行視覺化或基本統計等方式,讓資料的特點更清楚地被了...
-
【Python 資料科學教程】環境架設、Numpy, Pandas 基礎 – Data Science with Python
不管是提升工作技能或對資料有興趣,都可以簡單上手 Python 數據分析,文末我們將提供 Colab 範本給讀者進行練習。滑到文末 *Colab 是什麼?>> Colaboratory (簡稱為「Colab」...
-
【給初學者】自學三階段,教你入門資料分析 4 大環節
前言 有鑒於資料領域廣受各路工作者喜愛,未來各大公司一定也會導入更多有關數據應用,資料分析能力將成為基本門檻。本篇整理站長當時在初學時期是如何點資料分析技能樹的,希望對讀者們有幫助。 本文大綱走起: 學習資料分析對你的意...
-
Google Tag Manager 教學 (VII) – DOM 元素應用
打給賀,本篇是 Google Tag Manager 中文導覽的第七篇,我們將介紹 DOM 元素變數 的應用。如果你想要跳脫內建變數,紀錄頁面上的內容、用戶資訊到 Google Analytics 或其他第三方平台,你會...