Merge branch 'master' of https://e.coding.net/ctcdevteam/zcspider/zcspider
This commit is contained in:
commit
b002d9588c
|
@ -2,7 +2,6 @@ dbs/*
|
||||||
venv/*
|
venv/*
|
||||||
__pycache__/
|
__pycache__/
|
||||||
*.pyc
|
*.pyc
|
||||||
summary*.md
|
|
||||||
twistd.pid
|
twistd.pid
|
||||||
~$*
|
~$*
|
||||||
*.xlsx
|
*.xlsx
|
||||||
|
|
4
count.py
4
count.py
|
@ -7,7 +7,7 @@ def count_web():
|
||||||
web_dir = os.path.join(current_dir, 'web_dir')
|
web_dir = os.path.join(current_dir, 'web_dir')
|
||||||
for file in os.listdir(web_dir):
|
for file in os.listdir(web_dir):
|
||||||
try:
|
try:
|
||||||
df = pd.read_csv(os.path.join(web_dir, file), encoding='gb18030')
|
df = pd.read_excel(os.path.join(web_dir, file))
|
||||||
except pd.errors.EmptyDataError:
|
except pd.errors.EmptyDataError:
|
||||||
pass
|
pass
|
||||||
total = total + len(df)
|
total = total + len(df)
|
||||||
|
@ -15,7 +15,7 @@ def count_web():
|
||||||
return total
|
return total
|
||||||
|
|
||||||
def count_wechat():
|
def count_wechat():
|
||||||
articles_full_path = os.path.jon(current_dir, 'wechat_dir/articles_full.csv')
|
articles_full_path = os.path.join(current_dir, 'wechat_dir/articles_full.csv')
|
||||||
df = pd.read_csv(articles_full_path)
|
df = pd.read_csv(articles_full_path)
|
||||||
return len(df)
|
return len(df)
|
||||||
print(count_web(), count_wechat())
|
print(count_web(), count_wechat())
|
|
@ -0,0 +1,25 @@
|
||||||
|
# 项目总结2023.6
|
||||||
|
|
||||||
|
爬取时间为6月5-9日, 分析时间为6月12-13 日
|
||||||
|
|
||||||
|
## 涉及单位
|
||||||
|
|
||||||
|
目前爬取并分析了阵地类型为官方网站、微信公众号两种类型的数据,其中官网网站69个(成功爬取63个),微信公众号102个。
|
||||||
|
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
|
||||||
|
共爬取网页数量27876页,公众号文章4153篇
|
||||||
|
|
||||||
|
## 分析结果
|
||||||
|
|
||||||
|
根据分析要求进行得到分析结果,具体见结果表
|
||||||
|
|
||||||
|
## 存在问题
|
||||||
|
|
||||||
|
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
|
||||||
|
| 单位 | 可能原因 |
|
||||||
|
| ---- | ---- |
|
||||||
|
| 中国建筑材料科学研究总院有限公司_http://www.cbma.com | 网址错误 |
|
||||||
|
| 对比服务平台_http://www.ctc-online.cn/companyLogin?company | 网站需登录 |
|
||||||
|
| 中国建材检验认证集团江苏有限公司_http://www.ctcjs.com | 不能访问 |
|
||||||
|
| 乌鲁木齐京诚检测技术有限公司_http://www.wlmqjc.cn/ | 网站域名过期 |
|
||||||
|
| 中材江西电瓷电气有限公司_http://www.sinoma-insulator.com | 不能访问 |
|
||||||
|
| 中国新型建材设计研究院有限公司_http://www.cnhdi.com/ | 不能访问 |
|
|
@ -0,0 +1,24 @@
|
||||||
|
# 项目总结2023.5
|
||||||
|
|
||||||
|
爬取时间为4月24-28日, 分析时间为5月4-5日
|
||||||
|
|
||||||
|
## 涉及单位
|
||||||
|
|
||||||
|
目前爬取并分析了阵地类型为官方网站、微信公众号二种类型的数据,其中官网网站58个,微信公众号89个。
|
||||||
|
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
|
||||||
|
共爬取网页数量118526页,公众号文章4904篇
|
||||||
|
|
||||||
|
## 分析结果
|
||||||
|
|
||||||
|
根据分析要求进行得到分析结果,具体见结果表
|
||||||
|
|
||||||
|
## 存在问题
|
||||||
|
|
||||||
|
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
|
||||||
|
| 单位 | 可能原因 |
|
||||||
|
| ---- | ---- |
|
||||||
|
| 中材高新材料股份有限公司_www.zoomber.com | 无法访问 |
|
||||||
|
| 中国国检测试控股集团咸阳有限公司_www.cnmpi.net | 爬虫限制 |
|
||||||
|
| 南京国材检测有限公司_www.ctcnj.net | 单页面应用 |
|
||||||
|
| 国检测试控股集团安徽元正检测有限公司_www.ctc-yz.com | 爬虫限制 |
|
||||||
|
| 中国国检测试控股集团陕西有限公司_www.ceramictest.com | 爬虫限制 |
|
Binary file not shown.
Binary file not shown.
Loading…
Reference in New Issue