python爬取企业电话_如何用python抓取爱企查企业信息

news/2024/7/5 20:00:52

前段时间,经理让我去找一些企业的信息,我平常习惯于使用爱企查。所以,便想着写一个程序来实现这个,所以有以下的代码:import json

import requests

import re

from lxml import etree

url="https://aiqicha.baidu.com/s?q="+公司名称+"=0"

headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36",

"Cookie": "BAIDUID=FCA8661E3619BECE060CC564924BCC62:FG=1; PSTM=1598866843; BIDUPSID=E0F38C456F9E422ADF83AC42B7D6101A; BDUSS=WQ0VGd1RFNjMmZsallMY2h0cHpxcGJ3UX4tc000d1RSU3RFaUt0eTE2R1VGSGhmSVFBQUFBJCQAAAAAAAAAAAEAAAA3fsVHxfSzzLrDs7UAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJSHUF-Uh1BfO; BDUSS_BFESS=WQ0VGd1RFNjMmZsallMY2h0cHpxcGJ3UX4tc000d1RSU3RFaUt0eTE2R1VGSGhmSVFBQUFBJCQAAAAAAAAAAAEAAAA3fsVHxfSzzLrDs7UAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAJSHUF-Uh1BfO; BDPPN=4a85ba200a8603ef878bc33a1be441f3; log_guid=1a14b30029743b225cc8614df11b9eb2; H_PS_PSSID=7560_32606_1431_32045_32680_32116_31322_32691; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; BDSFRCVID=B_FOJeC627JtTMnro8G-M4zom7dhgP3TH6aogQEIojxEwhB2gJ6wEG0PeM8g0KAbDINlogKK3gOTH4PF_2uxOjjg8UtVJeC6EG0Ptf8g0M5; H_BDCLCKID_SF=tRKOoILKfIt3fP36qRQj-ICShUFs3qRlB2Q-5KL-JhcMSh6kK4PWQIuIjh6y26bb2IvToMbdJJjoeUjHytn82MLWM-KHKMIqb2TxoUJHBCnJhhvq-xOzX4AebPRiJ-b9Qg-JbpQ7tt5W8ncFbT7l5hKpbt-q0x-jLTnhVn0MBCK0HPonHjKKejoX3f; Hm_lvt_baca6fe3dceaf818f5f835b0ae97e4cc=1599189361,1599210076,1599439817,1599439901; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; PSINO=6; Hm_lpvt_baca6fe3dceaf818f5f835b0ae97e4cc=1599448132"}

res=requests.get(url,headers=headers)

res=res.text.replace('\/','')

res=res.encode('utf-8').decode('unicode_escape')

# res=re.findall('{(.*?)}',res)

res=re.findall(r'{"pid":(.*?)}],',res)

# print(res)

for aa in res:

#     # aa=aa.strip('')

aa=aa.replace('','')

aa=aa.replace('','')

# print(aa)

bb=re.findall(r'"entName":"(.*?)",',aa)

cc=re.findall(r'"regCap":"(.*?)",',aa)

bids=re.findall(r'"bid":"(.*?)",',aa)

gongsiming={'username':'',

'zijin':'',

'dizhi':''}

for ae,ac,bid in zip(bb,cc,bids):

# print(ae,ac,bid)

# if ae=="北京蜂盒科技有限公司":

#     print(ac)

gongsiming={'username':ae,

'zijin':ac,

'dizhi':bid}

# gongsiming['username']=ae

# gongsiming['zijin']=ac

# gongsiming['dizhi']=bid

print(gongsiming)

我这里需要的是公司的名称、注册资金,其他的参数都是不需要的,所以这里我只做了简单的提取,想要提取其他信息,用正则选以下就好了。至于为什么使用正则,主要是因为这个源代码太复杂了,本想用json,但是没搞懂json,使用正则效果也是一样。


http://www.niftyadmin.cn/n/1996500.html

相关文章

在cc里用class和function实现counter

前言 随着CcFragment支持hook了,私底下有小伙伴问我,在 什么 场景下使用hook,才能体现出hook的精髓,以及什么时候支持useStore和useReducer。 这里我分开回答一下,解开小伙伴的疑惑: 1 什么时候使用hook&am…

CDHtmlDialog类的使用心得

在CDHtmlDialog类使用中,总是会遇到HTML不能正确解析资源的问题。我的经验如下: 1。使用绝对路径在资源里引入HTML网页和图片资源: 使用RES://应用程序名称/资源类型/#资源号, 例如:如果你的应用程序名为c.ex…

tortoisesvn创建部署项目_TortoiseSVN服务器端的配置

编辑推荐:本文来自csdn,主要主要从安装、建立、导入、配置、启动等方面讲解了服务器的配置。配置过程如下:下载所需程序安装(路径可以更改)解压subversion-1.3.2.zip并安装到C:\Subversion按安装一般软件的方法安装TortoiseSVN,成功安装后在任…

免费好课 前端课程

01.明确你的前端学习路线与方法.pdf 01.明确你的前端学习路线与方法.html 02.列一份前端知识架构图.pdf 02.列一份前端知识架构图.html 开篇词.从今天起,重新理解前端.html 开篇词.从今天起,重新理解前端.mp3 01.明确你的前端学习路线与方法.mp3 02.列一…

python在窗口与机器人聊天_Python如何实现机器人聊天

今天午休的时候,无意之中看了一篇博客,名字叫Python实现机器人,感觉挺有的意思的。于是用其写了一个简单的Python聊天,源码如下所示:# -*- coding: utf-8 -*-import aimlimport sysimport osdef get_module_dir(name):print("…

12 学习里程碑:设计篇完结

到此为止,小册的全部设计篇的章节已经全部完结,后续我们将进入实战的环节。 在正式阅读实战的内容之前,本章我们一起来聊下小册的学习路线与目标。 如何阅读小册 如果是你高级前端或者自学能力较强的话,那么对于你来说技术栈将不…

Drag Drop 全解析

Drag & Drop 全解析 一、基本概念拖放,是指用鼠标拖动的方法,在不同程序的窗口之间、同一个程序的不同窗口之间或同一程序同一窗口的不同控件之间,进行移动、复制和粘贴等操作的技术。拖放操作是在操作系统的帮助下完成的。被拖动…

9.Dart中的类有何不同?

目录传送门:《Flutter快速上手指南》先导篇Dart 使用 class 来定义一个类。定义一个类class Point{var x;var y;Point(x, y){this.x x;this.y y;} } 复制代码在 Dart 中,如果一个类没有显示的定义默认的构造函数,会默认有一个空的构造函数。…