linux 运行scrapy,python 文件 运行 scrapy
寫了一個(gè)scrapy,程序可以跑,沒有任何問題。
爬下30個(gè)網(wǎng)站的body存入json文件,并且保存為test.json
如果test.json存在就保存到一個(gè)新建的test1.json
新建了一個(gè)python文件叫check.py,對(duì)比兩個(gè)文件的hash值,如果有不一樣,就發(fā)郵件到我郵箱。
在這個(gè)check.py內(nèi) 有一句os.system(scrapy crawl xxxx)
問題來(lái)了。。 因?yàn)橄M芏〞r(shí)運(yùn)行,比如我在win上設(shè)置了定時(shí)執(zhí)行計(jì)劃,則每5分鐘執(zhí)行一次。這個(gè)是可以的。
有個(gè)問題和vps上一樣,系統(tǒng)是centos 6。
比如隨意在一個(gè)地方,用路徑的方式打開這個(gè)check.py文件
python Documents/check_web/check.py
Scrapy 1.1.1 - no active project
Unknown command: crawl
Use "scrapy" to see available commands
0s
10s
Traceback (most recent call last):
File "Documents/check_web/check.py", line 35, in
f1 = open("./test.json", "rb")
IOError: [Errno 2] No such file or directory: './test.json'
check.py大致如下
def getJson():
os.system('scrapy crawl check_web_sprider')
time.sleep(10)
def getHash(f):
line = f.readline()
hash = hashlib.md5()
while (line):
hash.update(line)
line = f.readline()
return hash.hexdigest()
def IsHashEqual(f1, f2):
str1 = getHash(f1)
str2 = getHash(f2)
return str1 == str2
if __name__ == '__main__':
f1 = open("./test.json", "rb")
f2 = open("./test1.json", "rb")
if (IsHashEqual(f1, f2) is False):
def _format_addr(s):
name, addr = parseaddr(s)
return formataddr(( \
Header(name, 'utf-8').encode(), \
addr.encode('utf-8') if isinstance(addr, unicode) else addr))
求問為什么會(huì)這樣。。路徑的方式就會(huì)顯示
Scrapy 1.1.1 - no active project
Unknown command: crawl
但是如果我進(jìn)入到check.py的路徑下 然后
python check.py
就沒有任何問題。。爬蟲也能正常工作。。
非常抱歉 文筆不太好 希望有人能看懂。。并且又知道如何解決。
thx!
check.py是在scrapy的工程目錄下的。。
總結(jié)
以上是生活随笔為你收集整理的linux 运行scrapy,python 文件 运行 scrapy的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: mysql字符集排序规则_MySQL原理
- 下一篇: 红旗linux安装oracle,Redf