This commit is contained in:
caoqianming 2023-06-13 08:30:55 +08:00
commit b002d9588c
6 changed files with 51 additions and 3 deletions

1
.gitignore vendored
View File

@ -2,7 +2,6 @@ dbs/*
venv/* venv/*
__pycache__/ __pycache__/
*.pyc *.pyc
summary*.md
twistd.pid twistd.pid
~$* ~$*
*.xlsx *.xlsx

View File

@ -7,7 +7,7 @@ def count_web():
web_dir = os.path.join(current_dir, 'web_dir') web_dir = os.path.join(current_dir, 'web_dir')
for file in os.listdir(web_dir): for file in os.listdir(web_dir):
try: try:
df = pd.read_csv(os.path.join(web_dir, file), encoding='gb18030') df = pd.read_excel(os.path.join(web_dir, file))
except pd.errors.EmptyDataError: except pd.errors.EmptyDataError:
pass pass
total = total + len(df) total = total + len(df)
@ -15,7 +15,7 @@ def count_web():
return total return total
def count_wechat(): def count_wechat():
articles_full_path = os.path.jon(current_dir, 'wechat_dir/articles_full.csv') articles_full_path = os.path.join(current_dir, 'wechat_dir/articles_full.csv')
df = pd.read_csv(articles_full_path) df = pd.read_csv(articles_full_path)
return len(df) return len(df)
print(count_web(), count_wechat()) print(count_web(), count_wechat())

25
summary/summary juin.md Normal file
View File

@ -0,0 +1,25 @@
# 项目总结2023.6
爬取时间为6月5-9日, 分析时间为6月12-13 日
## 涉及单位
目前爬取并分析了阵地类型为官方网站、微信公众号两种类型的数据其中官网网站69个成功爬取63个微信公众号102个。
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
共爬取网页数量27876页公众号文章4153篇
## 分析结果
根据分析要求进行得到分析结果,具体见结果表
## 存在问题
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
| 单位 | 可能原因 |
| ---- | ---- |
| 中国建筑材料科学研究总院有限公司_http://www.cbma.com | 网址错误 |
| 对比服务平台_http://www.ctc-online.cn/companyLogin?company | 网站需登录 |
| 中国建材检验认证集团江苏有限公司_http://www.ctcjs.com | 不能访问 |
| 乌鲁木齐京诚检测技术有限公司_http://www.wlmqjc.cn/ | 网站域名过期 |
| 中材江西电瓷电气有限公司_http://www.sinoma-insulator.com | 不能访问 |
| 中国新型建材设计研究院有限公司_http://www.cnhdi.com/ | 不能访问 |

24
summary/summary.md Normal file
View File

@ -0,0 +1,24 @@
# 项目总结2023.5
爬取时间为4月24-28日, 分析时间为5月4-5日
## 涉及单位
目前爬取并分析了阵地类型为官方网站、微信公众号二种类型的数据其中官网网站58个微信公众号89个。
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
共爬取网页数量118526页公众号文章4904篇
## 分析结果
根据分析要求进行得到分析结果,具体见结果表
## 存在问题
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
| 单位 | 可能原因 |
| ---- | ---- |
| 中材高新材料股份有限公司_www.zoomber.com | 无法访问 |
| 中国国检测试控股集团咸阳有限公司_www.cnmpi.net | 爬虫限制 |
| 南京国材检测有限公司_www.ctcnj.net | 单页面应用 |
| 国检测试控股集团安徽元正检测有限公司_www.ctc-yz.com | 爬虫限制 |
| 中国国检测试控股集团陕西有限公司_www.ceramictest.com | 爬虫限制 |

BIN
summary/summary.pdf Normal file

Binary file not shown.

BIN
summary/summary_juin.pdf Normal file

Binary file not shown.