《机构投资者抱团与股价崩盘风险》数据处理代码

《机构投资者抱团与股价崩盘风险》数据处理代码

主要参考文献为:《机构投资者抱团与股价崩盘风险》(吴晓晖,郭晓冬,乔政)。这篇文献发表在中国工业经济杂志上,但作者只提供了处理过的投资机构团体持股数据,具体处理的代码则并未展示。
这里根据这篇文献,依据如下步骤进行复原:
1、下载国泰安中机构团体持股比例数据,合并为一个文件,约475万条数据。
2、根据投资机构名称,筛选机构名称中含有“投资”“公司”字样的机构。
3、使用python,筛选出每年,任意两家投资机构持有某家公司股票大于5%的组合,输出到csv文件。
4、按年进行拆分,并加入权重列,保存为txt文件。
5、使用python,将数据根据louvain算法,得出社区团体。
6、将多年的社区团体合并为一个文件,一共两列,一列为投资机构id,一列为年份。
7、根据第6步的数据,筛选第一步中475万条数据中,某机构在某年,对某公司属于任意一投资团体的数据。
8、根据年份、股票代码进行汇总,得出最终数据,2003年到2020年,一共27424条数据。

数据截图:

《机构投资者抱团与股价崩盘风险》数据处理代码插图

获取代码,联系微信:canglang12002