日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

半自动化批量下载专利全文pdf傻瓜攻略

發(fā)布時間:2024/3/12 编程问答 43 豆豆
生活随笔 收集整理的這篇文章主要介紹了 半自动化批量下载专利全文pdf傻瓜攻略 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

半自動化批量下載專利全文pdf傻瓜攻略

  • 寫在前面
    • 適合人群
    • 使用前提
    • 基本思路
    • 鍵鼠記錄器腳本
      • 前期準備
      • 腳本原理
      • 注意事項
    • 檢查下載效果

寫在前面

整理專利的時候,在專利引擎上只能一條條的下載,很是煩人。我比較討厭這種重復性勞動,所以每次碰上都得想想辦法怎么自動化操作,雖然上每次研究自動化辦法的時間把都足夠把活干完了哈哈??上У氖敲看胃阃甓紱]有把文檔保留下來,下次有點什么事情又得從頭開始。因此準備開始寫寫文檔記錄一些思路,同時如果能幫到有需要的人就更好了!

適合人群

不會爬蟲的都可以來看看!能大概看明白python就夠了。

使用前提

  • python環(huán)境配好
  • 有梯子
  • 不排斥鍵鼠記錄器讀取鍵鼠記錄
  • 基本思路

    現(xiàn)在的專利搜索引擎大概都有批量下載庫,如果只要摘要的話直接下載就可以了。但是下載全文的時候,大部分引擎都不支持批量下載,只能一個一個點,還得輸驗證碼。

    這里就不得不提到google patent了,這是我目前找到的唯一一個不需要驗證碼就能下載的專利引擎了(其實主要是還不會用python識別驗證碼)。那么有了google patent這個神器,就可以用自動辦法來進行下載了。我這里使用的是按鍵精靈,傻瓜式操作。(沒用python爬蟲的原因是requests不能掛梯子。。。這里我不是很確定是什么問題,希望有大佬指點一下。anyway,主要思路就是用鍵鼠記錄器點點點,我用的是按鍵精靈,理論上什么記錄器都可以。

    ps. 聽說poxoq能批量下載,但是新版本只能下載前十頁,因此我沒有嘗試,如果能直接下載全文的話請評論區(qū)告訴我。

    鍵鼠記錄器腳本

    前期準備

  • 按格式排好公開號或者申請?zhí)?#xff0c;在編輯器中打開;
  • 把google patent搜索頁面和文本編輯器分屏顯示,便于操作。
  • 腳本原理

    以edge瀏覽器為例,按鍵精靈雙擊全選文本中第一行的公開號,ctrl+c復制,鼠標轉到網(wǎng)頁搜索框,ctrl+v粘貼,點搜索。等搜索完成右鍵download PDF,選鏈接另存為并確定,之后點擊網(wǎng)頁關閉下載欄,一次下載完成。返回編輯器,刪除第一行的文本,把第二行提到第一行,完成復位。
    這樣就形成了完整的一次過程,只要重復運行腳本就可以把所有專利全文下載下來。

    注意事項

    實際操作中,可能遇到兩大問題:

  • 網(wǎng)頁反饋問題
    這里指的是搜索后沒有來到我們想象中的專利頁,可能是沒有搜索到專利,或該專利google patent沒有pdf文檔,這時如果腳本還在運行,那么顯然就會錯誤運行。
  • 腳本運行問題
    主要要考慮的是命令之間的延時。延時調小確實運行速度會變快,但是如果電腦運行速度不夠或者網(wǎng)速/服務器慢了,就會錯誤執(zhí)行命令。我的建議是文本操作可以適當刪減延時,涉及網(wǎng)頁的部分適量增加延時,保證腳本的容錯率。
  • 由此可以看出來這個腳本還是離不開人的,在跑的時候還是需要盯著點,如果有錯誤可以及時處理。

    檢查下載效果

    看了上面的注意事項,想必你也知道這個腳本不太靠譜。那么解決這個問題的方法就是負反饋。下載完了檢查一遍就好了。
    由于google patent下載的文件是以公開號命名的,所以對照要下載的和已下載的公開號就能看出哪些專利沒有下載成功。
    我這里寫了一個python小腳本。

    import pandas as pd import os #讀取待下載專利的公開號,地址修改成你自己存放的位置 df = pd.read_excel("target.xlsx",header= 0, usecols= "B").drop_duplicates() #取前11位作為對比(以中國專利作為參考) PublicNumber_tgt = list(map(lambda x: x[0:11],df["公開(公告)號"].to_list())) #讀取已下載專利的公開號,地址修改成你自己存放的位置 filelist=os.listdir(r'C:\Users\mornthx\Desktop\專利全文') #取前11位作為對比 PublicNumber_dl = list(map(lambda x: x[0:11],filelist)) #比較兩者差值 diff = set(PublicNumber_tgt).difference(set(PublicNumber_dl)) print(diff)

    沒下載的專利具體問題具體解決就好了。
    希望能幫到大家!

    總結

    以上是生活随笔為你收集整理的半自动化批量下载专利全文pdf傻瓜攻略的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內容還不錯,歡迎將生活随笔推薦給好友。