Skip to content

Latest commit

 

History

History
74 lines (48 loc) · 3.48 KB

README.md

File metadata and controls

74 lines (48 loc) · 3.48 KB

Python-WordCloud: 文字雲視覺化應用:新聞關鍵字分析

使用者輸入欲搜尋新聞主題,得到 Google 新聞搜尋文字內容,接續使用 Jieba / CKip 套件進行斷詞分析,提取關鍵詞,最終生成文字雲。

理想目標:擴大文本搜尋範圍,改善斷詞結果,在網頁前端直接生成文字雲,方便分享至社群平台。

To-do:

  • 指定日期範圍搜尋新聞
  • 使用正則表達式過濾英文
  • 使用 tl-idf 篩選關鍵詞
  • 調整圖片遮罩增強視覺效果
  • 使用 CkipTagger 取代 Jieba
  • 解決中文新聞日期格式問題
  • 圖表呈現媒體來源類型

文字雲輸出畫面

疫情關鍵字文字雲

新聞關鍵字文字雲

柯文哲關鍵字文字雲

參考資料:

延伸閱讀

中研院中文詞知識庫小組計畫主持人馬偉雲專訪內容 https://aiacademy.tw/what-is-nlp-natural-language-processing/

中央研究院詞庫小組聊天機器人應用 https://ckip.iis.sinica.edu.tw/project/chatq/

文理組人都能上手的入門 NLP(自然語言處理) 鐵人賽系列 https://ithelp.ithome.com.tw/articles/10295726

簡單好學的中文LDA(Latent Dirichlet Allocation)主題分類模型 https://medium.com/@hjeremy1222/簡單好學的中文lda-latent-dirichlet-allocation-主題分類模型-b0a0d2435b60

檔案內容

Googlenews_bs4.ipynb : 嘗試解析 Google Search 的版本

Googlenews_test.ipynb : GoogleNews 套件語法測試,資料轉換,資料呈現方式規劃

Googlenews_v1.py : 原始構想版本

Googlenews_v2.ipynb : 基於原始版本進行修改

  1. Jienba / Ckip transformer 斷詞模型比較
  2. 正則表達式篩選字詞,Counter 統計字數
  3. Pandas Series / DataFrame 資料排序轉換
  4. 從網頁獲取顏色清單 ( 使用 Javascript )
  5. 自定義圖片遮罩,產生棋盤形狀圖片遮罩
  6. Pillow Numpy 圖片去躁,邊緣檢測

其他想法:

  1. 使用者輸入"時事",從 Google Trends RSS 得到資料,分析時事產出文字雲。
  2. 使用著輸入"焦點",從 Google News RSS 得到焦點新聞,分析時事產出文字雲。
  3. 搭配 Google Search 查詢相關主題,加大文本資料。
  4. 斷詞後能否評估此文章為正向還是負向情緒?