newspaperprogram

爬蟲專案

使用說明

點開https://github.com/choliage/newspaperprogram/ 下載最新版本的System 現版本1.4

首頁 EPU分析網站

現功能

自動排程掃描

一小時一次，聯合、中時已通過一晚上的測試以及凌晨長跑
聯合:不會一次丟一堆，所以只保持最簡單的檢索是否有新文章，缺點是要是一個colume更新一堆，會有漏掉的問題，但按照觀察，並不算太需要關注這個問題，一小時一次的頻率算夠用了。
中時:更新文章會在5:10丟一堆，因此一次暴力解掃八頁。已確認可行。
自由:暫時通過了每小時檢驗，如果有需要可以回推到很久以前，已攻破li page=n的限制，一次掃描一個colume約產生83篇文章的掃描量。另外，我有特別換個寫法讓他偵測網頁的各類別新聞，並不是單純抓已有的，而是未來的也會一起抓。

匯出各周excel

直接用time套件解決要去想日期問題的部分，Excel的匯出也是直接交給套件處理，狀況很好，依照這是今年的第幾周去分類。

Newspaper轉txt

這套件直接解決了過去OCR之類的可能掃到多餘文字的問題，準確率在排除url問題後已經提升，個人認為約有98%左右(2%的問題出在抓到了如延伸閱讀的部分)。

輸出全自動化以及高度模組化的main檔案

現在已經可以完全自動爬蟲，漏抓的問題已得有解決，高度模組化的檔案也可以以更高的效率進行補綴，僅需搞清楚param_name的名稱即可，同一網域需要爬蟲則沿用已有的{}就可以進行多的補充。

轉出為.exe檔案並且完成全自動抓cd

原本是使用絕對路徑進行coding，但現在改用os套件進行路徑的獲得，現在不再需要在使用前先改路徑才能使用，也不需要再額外弄一堆有的沒有。

GUI和Log系統的建立

GUI建立，擺脫了cmd，畫面會變得更加視覺化跟更現代化，並且Log系統的建立有助於未來我找有沒有哪裡長期跑下來有問題。

Excel EPU自動檢索與各日文章結合

目前已經可以讓爬蟲下來的文章進行下一步的epu檢索以及按照報社分類，並匯出圖表。

盡量優化

做了一些月底的結算工作，會打包每月多餘的內容以簡化效能需求並增加運算效率。

簡易HTML

寫了一個簡單的html檔案，用我少量的美工能力去做了一些css設定，比原本的預設好多了，有待前端工程師改善。

~~pyinstaller –onefile –windowed –icon=fakemimi.ico –name=Systemversion1.4.0 –add-data=”c:/Users/lolee/AppData/Local/Programs/Python/Python313/Lib/site-packages/newspaper/resources:newspaper/resources” main.py ~~