This commit is contained in:
parent
358d1d750d
commit
b5fcb72064
|
@ -2,9 +2,11 @@ dbs/*
|
|||
venv/*
|
||||
__pycache__/
|
||||
*.pyc
|
||||
summary*.md
|
||||
output/*
|
||||
twistd.pid
|
||||
~$*
|
||||
*.xlsx
|
||||
!biao.xlsx
|
||||
!biao.xlsx
|
||||
wechat_dir/*
|
||||
ana_web.csv
|
||||
ana_wechat.csv
|
||||
.idea/*
|
|
@ -0,0 +1,8 @@
|
|||
# 默认忽略的文件
|
||||
/shelf/
|
||||
/workspace.xml
|
||||
# 基于编辑器的 HTTP 客户端请求
|
||||
/httpRequests/
|
||||
# Datasource local storage ignored files
|
||||
/dataSources/
|
||||
/dataSources.local.xml
|
|
@ -0,0 +1 @@
|
|||
web.py
|
|
@ -0,0 +1,12 @@
|
|||
<component name="InspectionProjectProfileManager">
|
||||
<profile version="1.0">
|
||||
<option name="myName" value="Project Default" />
|
||||
<inspection_tool class="PyUnresolvedReferencesInspection" enabled="true" level="WARNING" enabled_by_default="true">
|
||||
<option name="ignoredIdentifiers">
|
||||
<list>
|
||||
<option value="selenium.webdriver.chrome.get" />
|
||||
</list>
|
||||
</option>
|
||||
</inspection_tool>
|
||||
</profile>
|
||||
</component>
|
|
@ -0,0 +1,6 @@
|
|||
<component name="InspectionProjectProfileManager">
|
||||
<settings>
|
||||
<option name="USE_PROJECT_PROFILE" value="false" />
|
||||
<version value="1.0" />
|
||||
</settings>
|
||||
</component>
|
|
@ -0,0 +1,4 @@
|
|||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<project version="4">
|
||||
<component name="ProjectRootManager" version="2" project-jdk-name="Python 3.11 (zcspider)" project-jdk-type="Python SDK" />
|
||||
</project>
|
|
@ -0,0 +1,8 @@
|
|||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<project version="4">
|
||||
<component name="ProjectModuleManager">
|
||||
<modules>
|
||||
<module fileurl="file://$PROJECT_DIR$/.idea/zcspider.iml" filepath="$PROJECT_DIR$/.idea/zcspider.iml" />
|
||||
</modules>
|
||||
</component>
|
||||
</project>
|
|
@ -0,0 +1,10 @@
|
|||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<project version="4">
|
||||
<component name="RunConfigurationProducerService">
|
||||
<option name="ignoredProducers">
|
||||
<set>
|
||||
<option value="com.android.tools.idea.compose.preview.runconfiguration.ComposePreviewRunConfigurationProducer" />
|
||||
</set>
|
||||
</option>
|
||||
</component>
|
||||
</project>
|
|
@ -0,0 +1,6 @@
|
|||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<project version="4">
|
||||
<component name="VcsDirectoryMappings">
|
||||
<mapping directory="" vcs="Git" />
|
||||
</component>
|
||||
</project>
|
|
@ -0,0 +1,9 @@
|
|||
<?xml version="1.0" encoding="UTF-8"?>
|
||||
<module type="JAVA_MODULE" version="4">
|
||||
<component name="NewModuleRootManager" inherit-compiler-output="true">
|
||||
<exclude-output />
|
||||
<content url="file://$MODULE_DIR$" />
|
||||
<orderEntry type="inheritedJdk" />
|
||||
<orderEntry type="sourceFolder" forTests="false" />
|
||||
</component>
|
||||
</module>
|
|
@ -0,0 +1,197 @@
|
|||
错误表述,建议修改词语,错误分类
|
||||
党的“二十大”,党的二十大,固定表述错误
|
||||
党的二十大会议精神,党的二十大精神,固定表述错误
|
||||
党的二十大及党的二十届一中全会精神,党的二十大和二十届一中全会精神,固定表述错误
|
||||
党的二十大开幕仪式,党的二十大开幕会,政治差错
|
||||
党的十九大精神和十九届历次全会精神,党的十九大和十九届历次全会精神,固定表述错误
|
||||
党的十九届系列全会精神,党的十九届历次全会精神,固定表述错误
|
||||
党二十大,党的二十大,固定表述错误
|
||||
党二十大精神,党的二十大精神,固定表述错误
|
||||
习近平生态文明建设思想,习近平生态文明思想,固定表述错误
|
||||
"习近平为核心,以习近平为核心的党中央","以习近平同志为核心的党中央,以习近平同志为核心的党中央",固定表述错误
|
||||
习近平新时代中国特色社会主义思想、党的十九大精神,习近平新时代中国特色社会主义思想和党的二十大精神,固定表述错误
|
||||
习近平新时代中国特色社会主义思想的宣传教育,习近平新时代中国特色社会主义思想主题教育,政治差错
|
||||
"习近平总书记生态文明思想,总书记生态文明思想","习近平生态文明思想,习近平生态文明思想",政治差错
|
||||
习总书记,习近平总书记,固定表述错误
|
||||
习总书记重要讲话,习近平总书记重要讲话,固定表述错误
|
||||
学了习近平总书记有关重要讲话精神,学习习近平总书记重要讲话精神,固定表述错误
|
||||
学习聆听习近平总书记重要讲话精神,学习习近平总书记重要讲话精神,固定表述错误
|
||||
学习习近平总书记重要讲话和批示精神,学习习近平总书记重要讲话精神,固定表述错误
|
||||
“八项规定”精神,八项规定精神,固定表述错误
|
||||
“不忘初心、牢记使命”主题教育活动,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
不忘初心,牢记使命,不忘初心、牢记使命,固定表述错误
|
||||
“工匠”精神,工匠精神,固定表述错误
|
||||
“两个百年”奋斗目标,“两个一百年”奋斗目标,固定表述错误
|
||||
“两会”,两会,固定表述错误
|
||||
“两学一做”学习教育活动,“两学一做”学习教育,固定表述错误
|
||||
“一带一路”战略,“一带一路”倡议,固定表述错误
|
||||
"《中共中央关于党的半年奋斗重大成就和历史经验的决议》,中共中央关于党的半年奋斗重大成就和历史经验的决议","《中共中央关于党的百年奋斗重大成就和历史经验的决议》,中共中央关于党的百年奋斗重大成就和历史经验的决议",政治差错
|
||||
《中华人民共和国民典法》,《中华人民共和国民法典》,政治差错
|
||||
不想腐、不敢腐、不能腐,不敢腐、不能腐、不想腐,政治差错
|
||||
产业部署创新链,产业链部署创新链,一般文字差错
|
||||
创新链、布局产业链,创新链布局产业链,固定表述错误
|
||||
创新是第一推动力,创新是第一动力,固定表述错误
|
||||
从严党,从严治党,政治差错
|
||||
党风廉洁建设,党风廉政建设,固定表述错误
|
||||
党管干部、管人才,党管干部、党管人才,固定表述错误
|
||||
党史学习教育活动,党史学习教育,固定表述错误
|
||||
党员及领导干部,党员领导干部,固定表述错误
|
||||
发展改革委员会,发展和改革委员会,固定表述错误
|
||||
反腐败斗争攻坚战、持久战,反腐败斗争攻坚战持久战,固定表述错误
|
||||
"改革全面深化,稳中求质的工作总基调","全面深化改革,稳中求进工作总基调",固定表述错误
|
||||
高举习近平新时代中国特色社会主义的伟大旗帜,习近平新时代中国特色社会主义思想,政治差错
|
||||
巩固脱贫攻坚成果同乡村振兴有效衔接,巩固拓展脱贫攻坚成果同乡村振兴有效衔接,固定表述错误
|
||||
贯彻落实习总书记,贯彻落实习近平总书记,固定表述错误
|
||||
国内、国际双循环,国内国际双循环,固定表述错误
|
||||
"纪念中国共产党,纪念中国共产党建党","庆祝中国共产党,庆祝中国共产党建党",政治差错
|
||||
纪念中华人民共和国成立70周年,庆祝中华人民共和国成立70周年,政治差错
|
||||
坚持与自然和谐共生,坚持人与自然和谐共生,固定表述错误
|
||||
坚定四个自信,坚定“四个自信”,固定表述错误
|
||||
坚守共产党人的精神追求,坚守共产党人精神追求,固定表述错误
|
||||
建党101年,建党101周年,固定表述错误
|
||||
建国70周年,庆祝中华人民共和国成立70周年,政治差错
|
||||
建国七十周年,庆祝中华人民共和国成立七十周年,政治差错
|
||||
牢记使命、不忘初心,不忘初心、牢记使命,固定表述错误
|
||||
雷峰精神,雷锋精神,政治差错
|
||||
联合国应对气候变化框架公约,联合国气候变化框架公约,固定表述错误
|
||||
练就金刚不坏之身,炼就金刚不坏之身,一般文字差错
|
||||
两个确定,两个确立,政治差错
|
||||
绿色低碳循环发展体系,绿色低碳循环发展经济体系,固定表述错误
|
||||
马克思主义基本原理同中国革命具体实践相结合,马克思主义基本原理同中国具体实际相结合,固定表述错误
|
||||
名族,民族,一般文字差错
|
||||
起航新征程,启航新征程,固定表述错误
|
||||
"庆祝建国73周年,建国73周年","庆祝新中国成立73周年,庆祝中华人民共和国成立73周年",政治差错
|
||||
庆祝中国共产党青年团成立100周年,庆祝中国共青团成立100周年,政治差错
|
||||
全党和全国各族人民,全党全国各族人民,固定表述错误
|
||||
全面加强党的领导党的建设,全面加强党的领导和党的建设,固定表述错误
|
||||
"全面建成小康社会决定性阶段,国土空间开发格局","全面建成小康社会决胜阶段,国土空间开发保护格局",固定表述错误
|
||||
全面落实从严治党,落实全面从严治党,固定表述错误
|
||||
人大副主任,人大常委会副主任,固定表述错误
|
||||
人大主任,人大常委会主任,固定表述错误
|
||||
人民当家做主,人民当家作主,政治差错
|
||||
入党誓言,入党誓词,固定表述错误
|
||||
三个“务必”,三个务必,固定表述错误
|
||||
社会主义价值观,社会主义核心价值观,固定表述错误
|
||||
生态环保优先、绿色低碳,生态优先、绿色低碳,固定表述错误
|
||||
省第十三届党代会,省第十三次党代会,固定表述错误
|
||||
实现民族伟大复兴,实现中华民族伟大复兴,固定表述错误
|
||||
实现伟大的中华民族复兴,实现中华民族的伟大复兴,固定表述错误
|
||||
实现中华民族复兴,实现中华民族伟大复兴,固定表述错误
|
||||
市委政府,市委市政府,固定表述错误
|
||||
思想与文化建设,思想文化建设,固定表述错误
|
||||
提高政治领悟力、政治判断力、政治执行力,提高政治判断力、政治领悟力、政治执行力,固定表述错误
|
||||
"团的十八大,团的十八大精神","团十八大,团十八大精神",政治差错
|
||||
卫建委,卫健委,固定表述错误
|
||||
为实现中华民族伟大复兴中国梦团结奋斗,为实现中华民族伟大复兴的中国梦不懈奋斗,固定表述错误
|
||||
稳重求进,稳中求进,固定表述错误
|
||||
以“人民为中心”,以人民为中心,政治差错
|
||||
以实现中华民族伟大复兴中国梦为己任,以实现中华民族伟大复兴为己任,政治差错
|
||||
疫情爆发,疫情暴发,固定表述错误
|
||||
疫情常态防控,疫情常态化防控,固定表述错误
|
||||
疫情防控狙击战,疫情防控阻击战,固定表述错误
|
||||
"迎接党二十大,党二十大","迎接党的二十大,党的二十大",固定表述错误
|
||||
战略型新兴产业,战略性新兴产业,一般文字差错
|
||||
中囯,中国,政治差错
|
||||
中国共产党初心和使命,中国共产党人的初心和使命,政治差错
|
||||
中国共产党第二十次代表大会,中国共产党第二十次全国代表大会,固定表述错误
|
||||
中国共产党二十大,中国共产党第二十次全国代表大会,固定表述错误
|
||||
中国共产党人初心和使命,中国共产党人的初心和使命,固定表述错误
|
||||
中国解放军,中国人民解放军,政治差错
|
||||
中国特色的现代企业制度,中国特色现代企业制度,固定表述错误
|
||||
中国特色社会主义法制体系,中国特色社会主义法治体系,政治差错
|
||||
中华名族,中华民族,政治差错
|
||||
中华人民共和国人力资源社会保障部,中华人民共和国人力资源和社会保障部,固定表述错误
|
||||
中央“八项规定”,中央八项规定,固定表述错误
|
||||
中央环保督查,中央环保督察,固定表述错误
|
||||
中央经济会议,中央经济工作会议,固定表述错误
|
||||
重温入党宣誓,重温入党誓词,固定表述错误
|
||||
住房城乡建设部,住房和城乡建设部,固定表述错误
|
||||
住房城乡建设局,住房和城乡建设局,固定表述错误
|
||||
抓好“稳定、发展、生态、强边”四件大事,抓好稳定、发展、生态、强边四件大事,固定表述错误
|
||||
总共中央总书记,中共中央总书记,政治差错
|
||||
做到两个维护,做到“两个维护”,固定表述错误
|
||||
深入开展贯彻学习习近平新时代中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展习近平新时代中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新阶段中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会主义思想学习教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育实践,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会主义思想主体教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会主义思想专题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色社会主义新思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时代中国特色主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻习近平新时期中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习贯彻新时代习近平中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
深入开展学习宣传贯彻习近平新时代中国特色社会主义思想主题教育,深入开展学习贯彻习近平新时代中国特色社会主义思想主题教育,固定表述错误
|
||||
“不记初心、牢记使命”主题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不亡初心、牢记使命”主题教育,“不忘初心、牢记使命”主题教育,一般文字差错
|
||||
“不忘初心,牢记使命”主题教育,“不忘初心、牢记使命”主题教育,一般文字差错
|
||||
“不忘初心,牢记使命”主题教育活动,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、罕记使命”主题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、劳记使命”主题教育,“不忘初心、牢记使命”主题教育,一般文字差错
|
||||
“不忘初心、牢记使命”学习教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、牢记使命”主题学习教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、牢记使命”主体教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、牢记使命”专题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、牢记使命”专题学习教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘初心、牢忘使命”主题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“不忘粗心、牢记使命”主题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“牢记使命、不忘初心”主题教育,“不忘初心、牢记使命”主题教育,固定表述错误
|
||||
“党的群众路线”教育实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
“二学一做”学习教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一作”学习教育,“两学一做”学习教育,一般文字差错
|
||||
“两学一做”教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”教育活动,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”教育学习,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”学习,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”学习和教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”学习活动,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”学习教育活动,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”主题教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”主题教育活动,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”主题学习教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”专题教育,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”专题教育活动,“两学一做”学习教育,固定表述错误
|
||||
“两学一做”专题教育学习,“两学一做”学习教育,固定表述错误
|
||||
“两做一学”学习教育,“两学一做”学习教育,固定表述错误
|
||||
“三实三严”专题教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”实践教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”实践教育活动,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”学习教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”学习教育活动,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”学习专题教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”主题教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”主题教育活动,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”专题教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”专题教育活动,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”专题学习教育,“三严三实”专题教育,固定表述错误
|
||||
“三严三实”专项教育,“三严三实”专题教育,固定表述错误
|
||||
三严三实专题教育,“三严三实”专题教育,固定表述错误
|
||||
党的群众教育路线实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育活动实践,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育践行活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育主题活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育专题活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育专题教育活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线教育专题学习活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线实践教育活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线学习教育实践,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线学习教育实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线主题教育实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线专题教育,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众路线专题教育实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
党的群众线路教育实践活动,党的群众路线教育实践活动,固定表述错误
|
||||
党史学习教育活动,党史学习教育,固定表述错误
|
||||
党史等学习教育,党史学习教育,固定表述错误
|
||||
党史学习和教育,党史学习教育,固定表述错误
|
||||
党史学习教育实践,党史学习教育,固定表述错误
|
||||
党史学习实践教育,党史学习教育,固定表述错误
|
||||
提高政治领悟力、政治判断力、政治执行力,提高政治判断力、政治领悟力、政治执行力,固定表述错误
|
||||
“一带一路”战略,“一带一路”倡议,固定表述错误
|
||||
《中国共产党党章》,《中国共产党章程》,政治差错
|
||||
中央中央,中共中央,政治差错
|
||||
《中国共产党国有企业基层党组织工作条例(试行)》,《中国共产党国有企业基层组织工作条例(试行)》,固定表述错误
|
||||
党的建设的规律,党的建设规律,固定表述错误
|
|
4
count.py
4
count.py
|
@ -7,7 +7,7 @@ def count_web():
|
|||
web_dir = os.path.join(current_dir, 'web_dir')
|
||||
for file in os.listdir(web_dir):
|
||||
try:
|
||||
df = pd.read_csv(os.path.join(web_dir, file), encoding='gb18030')
|
||||
df = pd.read_excel(os.path.join(web_dir, file))
|
||||
except pd.errors.EmptyDataError:
|
||||
pass
|
||||
total = total + len(df)
|
||||
|
@ -15,7 +15,7 @@ def count_web():
|
|||
return total
|
||||
|
||||
def count_wechat():
|
||||
articles_full_path = os.path.jon(current_dir, 'wechat_dir/articles_full.csv')
|
||||
articles_full_path = os.path.join(current_dir, 'wechat_dir/articles_full.csv')
|
||||
df = pd.read_csv(articles_full_path)
|
||||
return len(df)
|
||||
print(count_web(), count_wechat())
|
9
main.py
9
main.py
|
@ -14,7 +14,7 @@ def trans_to_json():
|
|||
f.write(json_str)
|
||||
|
||||
def make_wechat_articles_full():
|
||||
df = pd.read_csv(os.path.jon(wechat_dir, 'articles.csv'), encoding='gb18030')
|
||||
df = pd.read_csv(os.path.join(wechat_dir, 'articles.csv'), encoding='gb18030')
|
||||
df['content'] = ''
|
||||
ind = 0
|
||||
for ind, row in df.iterrows():
|
||||
|
@ -28,7 +28,8 @@ def make_wechat_articles_full():
|
|||
except:
|
||||
print(full_path + '---不存在')
|
||||
ind +=1
|
||||
df.to_csv('articles_full.csv', encoding='utf-8_sig')
|
||||
output_path = os.path.join(wechat_dir, 'articles_full.csv')
|
||||
df.to_csv(output_path, encoding='utf-8_sig')
|
||||
|
||||
def ana_wechat():
|
||||
articles_full_path = os.path.join(wechat_dir, 'articles_full.csv')
|
||||
|
@ -62,10 +63,10 @@ def ana_web():
|
|||
for file in os.listdir(web_dir):
|
||||
full_path = os.path.join(web_dir, file)
|
||||
if os.path.getsize(full_path) > 0:
|
||||
df = pd.read_csv(os.path.join(web_dir, file), encoding='gb18030')
|
||||
df = pd.read_excel(os.path.join(web_dir, file))
|
||||
ind = 0
|
||||
for ind, row in df_s.iterrows():
|
||||
mask = df['text'].str.contains(row['错误表述'])
|
||||
mask = df['text'].str.contains(row['错误表述'], na=False)
|
||||
result = df[mask]
|
||||
if result.empty:
|
||||
continue
|
||||
|
|
|
@ -3,4 +3,5 @@ scrapyd==1.4.1
|
|||
scrapyd-client==1.2.3
|
||||
html2text==2020.1.16
|
||||
pandas==2.0.0
|
||||
openpyxl==3.1.2
|
||||
openpyxl==3.1.2
|
||||
scrapy-xlsx==0.1.1
|
||||
|
|
17
scrape_nj.py
17
scrape_nj.py
|
@ -55,12 +55,12 @@ def process_page(driver, url, visited_pages, start_domain, data):
|
|||
if check_href(href, driver.current_url, visited_pages):
|
||||
continue
|
||||
try:
|
||||
# Open the href in the same tab and retrieve data
|
||||
driver.get(href)
|
||||
# Check if the new href belongs to the same domain as the original URL
|
||||
parsed_href = urlparse(href)
|
||||
if parsed_href.netloc != start_domain:
|
||||
continue
|
||||
# Open the href in the same tab and retrieve data
|
||||
driver.get(href)
|
||||
print(href)
|
||||
# Wait for the page to load
|
||||
time.sleep(2)
|
||||
|
@ -92,12 +92,19 @@ def check_href(href, original_url, visited_pages):
|
|||
return False
|
||||
|
||||
def export_to_excel(data):
|
||||
# Create a DataFrame from the data list
|
||||
df = pd.DataFrame(data, columns=['URL', 'Domain', 'Content'])
|
||||
# Create separate lists for URL, Domain, and Content
|
||||
domains = [item[0] for item in data]
|
||||
urls = [item[1] for item in data]
|
||||
texts = [item[2] for item in data]
|
||||
|
||||
# Create a DataFrame from the data lists
|
||||
df = pd.DataFrame({'domain': domains, 'url': urls, 'text': texts})
|
||||
|
||||
# Export the DataFrame to an Excel file
|
||||
df.to_excel('output.xlsx', index=False)
|
||||
|
||||
|
||||
|
||||
def get_cookies_from_previous_session(driver):
|
||||
cookies = {}
|
||||
try:
|
||||
|
@ -122,7 +129,7 @@ def add_cookies(driver, cookies):
|
|||
|
||||
def main():
|
||||
# Starting URL
|
||||
start_url = 'http://www.ctc-yz.com/'
|
||||
start_url = 'http://www.ctchn.ac.cn/'
|
||||
# Parse the domain from the starting URL
|
||||
parsed_start_url = urlparse(start_url)
|
||||
start_domain = parsed_start_url.netloc
|
||||
|
|
|
@ -0,0 +1,25 @@
|
|||
# 项目总结2023.6
|
||||
|
||||
爬取时间为6月5-9日, 分析时间为6月12-13 日
|
||||
|
||||
## 涉及单位
|
||||
|
||||
目前爬取并分析了阵地类型为官方网站、微信公众号两种类型的数据,其中官网网站69个(成功爬取63个),微信公众号102个。
|
||||
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
|
||||
共爬取网页数量27876页,公众号文章4153篇
|
||||
|
||||
## 分析结果
|
||||
|
||||
根据分析要求进行得到分析结果,具体见结果表
|
||||
|
||||
## 存在问题
|
||||
|
||||
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
|
||||
| 单位 | 可能原因 |
|
||||
| ---- | ---- |
|
||||
| 中国建筑材料科学研究总院有限公司_http://www.cbma.com | 网址错误 |
|
||||
| 对比服务平台_http://www.ctc-online.cn/companyLogin?company | 网站需登录 |
|
||||
| 中国建材检验认证集团江苏有限公司_http://www.ctcjs.com | 网站被恶意篡改 |
|
||||
| 乌鲁木齐京诚检测技术有限公司_http://www.wlmqjc.cn/ | 网站域名过期 |
|
||||
| 中材江西电瓷电气有限公司_http://www.sinoma-insulator.com | 不能访问 |
|
||||
| 中国新型建材设计研究院有限公司_http://www.cnhdi.com/ | 不能访问 |
|
|
@ -0,0 +1,24 @@
|
|||
# 项目总结2023.5
|
||||
|
||||
爬取时间为4月24-28日, 分析时间为5月4-5日
|
||||
|
||||
## 涉及单位
|
||||
|
||||
目前爬取并分析了阵地类型为官方网站、微信公众号二种类型的数据,其中官网网站58个,微信公众号89个。
|
||||
其中官方网站爬取了同域名下所有链接地址,微信公众号爬取了历史所有文章。
|
||||
共爬取网页数量118526页,公众号文章4904篇
|
||||
|
||||
## 分析结果
|
||||
|
||||
根据分析要求进行得到分析结果,具体见结果表
|
||||
|
||||
## 存在问题
|
||||
|
||||
目前存在部分网站因反爬措施或无法访问或技术原因,未获取到数据,见下表
|
||||
| 单位 | 可能原因 |
|
||||
| ---- | ---- |
|
||||
| 中材高新材料股份有限公司_www.zoomber.com | 无法访问 |
|
||||
| 中国国检测试控股集团咸阳有限公司_www.cnmpi.net | 爬虫限制 |
|
||||
| 南京国材检测有限公司_www.ctcnj.net | 单页面应用 |
|
||||
| 国检测试控股集团安徽元正检测有限公司_www.ctc-yz.com | 爬虫限制 |
|
||||
| 中国国检测试控股集团陕西有限公司_www.ceramictest.com | 爬虫限制 |
|
4
web.py
4
web.py
|
@ -4,7 +4,7 @@ from urllib.parse import urlparse
|
|||
import signal
|
||||
import sys
|
||||
|
||||
df = pd.read_excel('web_sites.xlsx', sheet_name='Sheet1')
|
||||
df = pd.read_excel('web_sites_full.xlsx', sheet_name='Sheet1')
|
||||
|
||||
processes = []
|
||||
# 定义 SIGINT 信号处理函数
|
||||
|
@ -36,7 +36,7 @@ for ind, row in df.iterrows():
|
|||
name = ename
|
||||
url = 'http://www' + sx[1]
|
||||
domain = urlparse(url).netloc
|
||||
cmd = ['scrapy', 'crawl', 'basespider', '-a', f'domain={domain}', '-a', f'start_url={url}', '-a', f'name={name}', '-a', f'group={group}', '-o', f'web_dir/{name}_{domain}.csv']
|
||||
cmd = ['scrapy', 'crawl', 'basespider', '-a', f'domain={domain}', '-a', f'start_url={url}', '-a', f'name={name}', '-a', f'group={group}', '-o', f'web_dir/{name}_{domain}.xlsx']
|
||||
process = subprocess.Popen(cmd)
|
||||
processes.append(process)
|
||||
ind +=1
|
||||
|
|
741444
wechat_dir/articles_full.csv
741444
wechat_dir/articles_full.csv
File diff suppressed because one or more lines are too long
|
@ -2,12 +2,29 @@
|
|||
#
|
||||
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
|
||||
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html
|
||||
|
||||
import os.path
|
||||
from openpyxl import Workbook, load_workbook
|
||||
|
||||
# useful for handling different item types with a single interface
|
||||
from scrapy.exceptions import IgnoreRequest
|
||||
import psycopg2
|
||||
|
||||
# class ZcspiderPipeline2:
|
||||
# """
|
||||
# 保存为xlsx
|
||||
# """
|
||||
# sheet = None
|
||||
# def open_spider(self, spider):
|
||||
# web_dir = 'd:/xx/web_dir'
|
||||
# file_path = os.path.join(web_dir, f'{item["name"]}_{item["domain"]}.xlsx')
|
||||
# wb = load_workbook(file_path)
|
||||
# self.sheet = wb.get_sheet_names('Sheet1')
|
||||
#
|
||||
# def process_item(self, item, spider):
|
||||
# self.sheet
|
||||
#
|
||||
# return item
|
||||
|
||||
class ZcspiderPipeline:
|
||||
|
||||
def open_spider(self, spider):
|
||||
|
|
|
@ -95,5 +95,9 @@ LOG_LEVEL = 'INFO'
|
|||
DOWNLOAD_TIMEOUT = 30
|
||||
|
||||
ITEM_PIPELINES = {
|
||||
# 'zcspider.pipelines.ZcspiderPipeline': 300,
|
||||
# 'zcspider.pipelines.ZcspiderPipeline2': 300,
|
||||
}
|
||||
|
||||
FEED_EXPORTERS = {
|
||||
'xlsx': 'scrapy_xlsx.XlsxItemExporter',
|
||||
}
|
Loading…
Reference in New Issue