點開https://github.com/choliage/newspaperprogram/ 下載最新版本的System 現版本1.4
一小時一次,聯合、中時已通過一晚上的測試以及凌晨長跑
聯合:不會一次丟一堆,所以只保持最簡單的檢索是否有新文章,缺點是要是一個colume更新一堆,會有漏掉的問題,但按照觀察,並不算太需要關注這個問題,一小時一次的頻率算夠用了。
中時:更新文章會在5:10丟一堆,因此一次暴力解掃八頁。已確認可行。
自由:暫時通過了每小時檢驗,如果有需要可以回推到很久以前,已攻破li page=n的限制,一次掃描一個colume約產生83篇文章的掃描量。另外,我有特別換個寫法讓他偵測網頁的各類別新聞,並不是單純抓已有的,而是未來的也會一起抓。匯出各周excel
直接用time套件解決要去想日期問題的部分,Excel的匯出也是直接交給套件處理,狀況很好,依照這是今年的第幾周去分類。
Newspaper轉txt
這套件直接解決了過去OCR之類的可能掃到多餘文字的問題,準確率在排除url問題後已經提升,個人認為約有98%左右(2%的問題出在抓到了如延伸閱讀的部分)。
輸出全自動化以及高度模組化的main檔案
現在已經可以完全自動爬蟲,漏抓的問題已得有解決,高度模組化的檔案也可以以更高的效率進行補綴,僅需搞清楚param_name的名稱即可,同一網域需要爬蟲則沿用已有的{}就可以進行多的補充。
轉出為.exe檔案並且完成全自動抓cd
原本是使用絕對路徑進行coding,但現在改用os套件進行路徑的獲得,現在不再需要在使用前先改路徑才能使用,也不需要再額外弄一堆有的沒有。
GUI和Log系統的建立
GUI建立,擺脫了cmd,畫面會變得更加視覺化跟更現代化,並且Log系統的建立有助於未來我找有沒有哪裡長期跑下來有問題。
Excel EPU自動檢索與各日文章結合
目前已經可以讓爬蟲下來的文章進行下一步的epu檢索以及按照報社分類,並匯出圖表。
盡量優化
做了一些月底的結算工作,會打包每月多餘的內容以簡化效能需求並增加運算效率。
簡易HTML
寫了一個簡單的html檔案,用我少量的美工能力去做了一些css設定,比原本的預設好多了,有待前端工程師改善。
~~pyinstaller –onefile –windowed –icon=fakemimi.ico –name=Systemversion1.4.0 –add-data=”c:/Users/lolee/AppData/Local/Programs/Python/Python313/Lib/site-packages/newspaper/resources:newspaper/resources” main.py ~~