56 Pandas+Pyecharts | 2024年中国500强企业数据分析可视化

大家好,我是欧K~

本期我们利用Python分析「2024年中国500强企业信息数据」,看看:我国各城市500强企业数量地图分布、各行业500强数量、员工数量和营业收入关系、正负资产收益率占比、净利率分布、利润最高的十大行业都有哪些等等,希望对大家有所帮助,如有疑问或者需要改进的地方可以联系小编。

涉及到的库:

  • Pandas — 数据处理
  • Pyecharts — 数据可视化

1. 导入模块

import pandas as pd
from pyecharts.charts import *
from pyecharts import options as opts
import warnings
warnings.filterwarnings('ignore')

2. Pandas数据处理

2.1 读取数据

df = pd.read_excel('./2024年中国五百强排行榜.xlsx')

2.2 数据信息

df.info()

2.3 数据去重

df = df.drop_duplicates()

2.4 地址数据处理

df['地址'] = df['地址'].replace({'香港特别行政区':'香港','上海市':'上海'})

2.5 员工数量数据处理

df['员工数量'] = df['员工数量'].replace({'-':0})
df['员工数量'] = df['员工数量'].fillna(0).astype('int')

3. Pyecharts数据可视化

3.1 各城市500强企业数量地图分布

def get_map_city():
    map_city = (
    Map()
    .add('',
          data_pair=data_pair,
          maptype='china-cities',
    )
    .set_global_opts(
        visualmap_opts=opts.VisualMapOpts(
            pos_left = '20%',
            pos_bottom='20%',
            range_color=range_color,
        ),
        title_opts=opts.TitleOpts(
            title='1-各城市500强企业数量地图分布',
            subtitle=subtitle,
            pos_top='1%',
            pos_left="center",
        ),
    ))

中国500强最多的10个城市:北京(97)、上海(49)、深圳(37)、香港(33)、杭州(23)、广州(22)、 南京(9)、 重庆(6)、济南(6)、台北(6)。

3.2 各行业500强数量

def get_bar1():
    bar1 = (
        Bar()
        .add_xaxis(x_data)
        .add_yaxis("",y_data)
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='2-各行业500强数量',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                range_color=range_color
             ),
        )    )

中国500强最多的10个行业:金属产品(55)、房地产(37)、化学品(29)、银行(28)、车辆与零部件(27)、电子、电气设备(26)、 多元化金融(23)、 工程与建筑(22)、能源(21)、半导体、电子元件(619)。

3.3 员工数量TOP20公司的营业收入

上图可以看出:员工数量和营业收入没有很显著的线性关系。

3.4 正负资产收益率占比

def get_bar1():
    pie1 = (
        Pie()
        .add('',
             data,
            )
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='4-正负资产收益率占比',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                range_color=range_color
            ),
        )    )

正资产收益率的公司一共442家,占比88.4%,负资产收益率的公司一共54家,占比超过了10%。

3.5 净利率分布

3.6 利润最高的十大行业

利润最高的10大行业:炼油(10463.67)、银行(9341.71)、电信(6186.23)、邮件、包裹及货物包装运输(5884.5)、互联网服务和零售(3544.58)、人寿与健康保险(股份)(3225.64)、船务(2996.4)、饮料(2693.53)、网络、通讯设备(2661.97)、采矿、原油生产(2283.48)

3.7 负利润行业数量

def get_scatter1():
    scatter1 = (
        Scatter()
        .add_xaxis(x_data)
        .add_yaxis('', y_data,
                  )
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='7-负利润行业数量',
                subtitle=subtitle,
                pos_top='2%',
                pos_left="center",
            ),
            visualmap_opts=opts.VisualMapOpts(
                type_='size',
            ),
        )
    )

负利润最多的行业:房地产(19家),金属产品(10家),食品生产(6家),车辆与零部件(4家),航空(3家),化学品(2家),林产品与纸制品(2家),人寿与健康保险(股份)(2家),贸易(1家),酒店、赌场、度假村(1家)

3.8 公司名称词云

def get_wordcloud(x_data,y_data):
    wordcloud = (
        WordCloud()
        .add(series_name="", data_pair, word_size_range=[5, 45])
        .set_global_opts(
            title_opts=opts.TitleOpts(
                title='8-公司名称词云',
                subtitle=subtitle,
                pos_top='1%',
                pos_left="1%",
            )
        )
    )

 

4. 源码+数据

下载资源