跳转到主要内容

原始研究的文章

前面。大数据,2023年1月18日
秒,数据挖掘和管理
卷5 - 2022 | https://doi.org/10.3389/fdata.2022.989469

机器学习的方法来量化性别偏见合作实践的数学家

基督教Steinfeldt__海伦娜Mihaljević * __
  • 部门4 -计算机科学、通信和经济学,Hochschule皮毛技术和经济柏林,柏林,德国应用科学大学

协作实践已被证明是至关重要的决定因素的科学事业。我们检查性别coauthorship-based协作数学的影响,女性继续弱势学科,特别是在较高的学术地位。我们专注于科学的两个关键方面的协作中许多不同的合作者和单一的作者身份的数量。更多的合作者有积极的影响,例如,引用的数量和生产力,而单一的作者身份,例如,作为科学成熟的证据和帮助发出一个明确信号的能力。使用基于机器学习的方法,我们表明,协作网络的女数学家比那些男同事当潜在的混杂因素如资历或文献数量控制,当他们自己论文作者明显减少。这证实了先前的描述性的探索和提供更精确的模型数学性别合作的作用。

1。介绍

如今,研究建立小组的努力,个人通过共同讨论合作的理念和方法,口头和书面报告,反馈获得进一步的集成工作(油墨辊et al ., 2018)。因此不太奇怪,数学作为一门学科的概念所追求的个人天才被认为是过时的。但即使从历史上看,数学提供了一系列富有成效的合作的例子。大概是最突出的例子是哈代和Littlewood等人共同写了100篇论文的重视纯数学上半年在英国20世纪(威尔逊,2002)。保罗•Erdős史上最多产的数学家之一,帮助把学科转变成一个社会活动与超过500的合作者合作。公众以论坛为基础的合作Hales-Jewett定理,由蒂姆·高尔的博学的人项目中,已经证明,即使是“大规模协作的数学”是可能的(高尔,2009)。

coauthorship数据证实合作的趋势,通过联合作者的科学出版物。根据数学评论,与多个作者论文的比例从1940年代的9%增加到46%在1990年代(格罗斯曼,2002)。这些数字与zbMATH吻合较好,表明目前大约四分之三的出版物在数学合作编写(MihaljevićSantamaria, 2020)。写论文与其他学者在研究社区增加的可见性,因此可以推进学术生涯。例如,研究表明各种学科网络规模,即。,the number of one's distinct coauthors, is positively correlated with a larger number of citations (Wuchty et al ., 2007;Sarigol et al ., 2014;Servia-Rodriguez et al ., 2015和更高的生产率油墨辊,2015;Servia-Rodriguez et al ., 2015)。同时,出版组降低各种风险,如公开反对批评或错误的责任(Kwiek Roszka, 2022)。

然而,一个成功的学术生涯,在数学和其他学科,通常是建立在合作和个人工作。在过去的预测,单一作者身份通常是被许多研究人员看作介于减少和灭绝(价格,1963;艾伦et al ., 2014;巴洛et al ., 2018;Kuld和欧哈根,2018;Ryu 2020)。尽管合作的增加,相应的减少说是论文,这种预测没有成真。在某些学科如人文和文学,而且数学,论文写的个人仍占很大份额,如果不是大多数发表的所有研究。单一作者身份履行一定的功能不能取代了合作。他们作为证据的能力和信誉作为一个科学家,显示一个不是“依赖于高层人士的想法,指导,技术,[…]因此,准备一个教员的位置”(麦肯齐,2012)。这使得个人出版物特别是价值处于职业生涯早期阶段(Kuld和欧哈根,2018),学术就业市场发出一个明确信号。此外,在合作相比,单独写论文不需要做出妥协,就没有不清楚责任和沟通问题通常被称为“协调成本”(Olechnicka et al ., 2020;Kwiek Roszka, 2022),它不受不清楚影响信贷归因。后者表明与强烈的性别歧视研究经济学,把女经济学家与男性处于劣势(合作Sarsons et al ., 2021)。

鉴于合作实践的重要性的追求最终研究和学术生涯的轨迹,性别的角色的问题与网络参数。虽然开始发布在干细胞领域的妇女的数量不断增长,他们往往有较短的职业(见,例如,Boekhout et al ., 2021),他们的比例逐渐降低时,高层次的学术职位,特别是终身职位(参见如,Golbeck et al ., 2018;欧洲委员会,董事会研究和创新,2019年)。因此,我们问是否有性别差异的大小合著网络和单一的作者身份的比例。在先前的研究在数学(Mihaljević-Brandt et al ., 2016),我们表明,男人写38%的科学记录单一作者,相比之下,29%为女性。这种趋势保持稳定甚至在分组分成7段作者基于他们的总数出版物。与此同时,网络规模的女性和男性数学家是相似的。然而,描述性分析,部分反映了出版物的数量相对较粗,和资历等进一步潜在混杂因素没有考虑过不允许得出结论,有一些固有的男性和女性在数学方面的合作模式。

在本文中,我们研究两个目标变量网络规模数量的单一作者身份使用适当的比较模型,它允许我们进一步孤立和量化性别的影响。我们遵循两种基于机器学习的方法来量化模型偏差和比较他们的结果为了获得一个健壮的性别变量的评估作用。模型训练使用数据从zbMATH开放、最全面的数学(索引和评估服务发嘶嘶声卡尔斯鲁厄,2022)。我们表明,女性在数学方面也有类似的,甚至略高,数量的不同的合作者和男性当我们控制出版物的数量,基于时间的变量,如出版年和资历,领域,认为期刊质量和大陆作者的从属关系。与此同时,我们表明,单一的作者身份的数量较低,约4.5%对出版物的总人数,甚至在控制了上述潜在的混杂因素。这种差异,而引人注目,仍不到怀疑基于现有的研究。

2。相关工作

coauthorship的许多研究已经检查了网络方面与性别、不同结果根据学科研究和底层数据集。合著网络的大小,根据研究和建模方法,有时男人,有时女性出现在面前,尽管通常观察到的差异很小。

Jadidi et al。(2018)女性和男性计算机科学家推断DBLP数据构建coauthorship网络时出现一些结构性差异。特别是男性发展明显更大的网络,即使时间控制变量如今年或资历,尽管小尺寸效应。在最近的一个描述性的分析主要会议于2017年在计算机系统(山本Frachtenberg, 2022),表明男性比女性更多的合作者纸和整体,但差别很小。分析四个意大利会议领域的信息系统和计算机科学显示,“男人比女人更重要”只有一个的四个社区。虽然男性被证明比女性有更多的连接三个社区的学位,学位中心而言,女性“中间性相似的价值观,eigencentrality和亲密,因此,类似的概率扩散的话题。这意味着女性更倾向于连接与关键成员对男人做什么”(2021年德尼古拉和D \ ' agostino博士)。研究分析的完整出版记录近4000名教员在六杆学科选择在美国研究型大学透露,“女教师有显著不同的合作者在他们的职业生涯比男性少,但这种差异可以完全由女性的发表率低和长度较短的事业”(曾庆红等人。,2016年)。稍微年长的个案研究勃兹曼,Gaughan (2011)分析反应从1714年终身任期和跟踪卡内基研究广泛的大学教员,在干学科工作。他们的模型,考虑因素,如任期内,纪律,家庭地位,和博士群体,表明“女人其实比男人更平均的合作者”(勃兹曼,Gaughan, 2011年)。作者进一步表明,交互与工业伙伴和研究中心与合作者的数量呈正相关。冰镇et al。(2019)研究样本的初级和高级生命科学的受让人从欧洲研究委员会(ERC)从2007年至2009年关于出版物和引用输出和协作网络对性别、资历和工作的国家。作者是“特别感兴趣出版物性能的变化与格兰特奖”,因此研究5年期间之前和之后获得奖项。几乎没有观察到性别差异相关科学网络,唯一的例外是一个更大的网络规模在格兰特奖男青年的受让人。

而引用的研究发现,而细微的差别对不同的合作者的数量,油墨辊等人画一个更多的经济对比照片。基于一个广泛的分析1627年经济学期刊在1970年至2011年之间,他们“识别巨雷竞技电竞体育竞猜平台大而持久的性别差异”coauthorship网络。女经济学家较低数量的不同的合作者,并随时间增加的区别。此外,他们表明,女性“合著者更多的和更有经验的高级经济学家”(油墨辊et al ., 2018)。作者推断总体的结果通过coauthorship建立网络的差异源于不同的风险,这可能进而解释差异的偏好或环境,例如,不同的奖励相同类型的行动。这与结果Sarsons et al。(2021)显示对经济学家来说,“一个额外的合著论文与一个任期内增加7.4%概率是男性女性只增加了4.7%。“后者差距不太明显的女性合作,表明归因的信贷组工作与合著者的性别,所以异性合作,主要是男性获得信贷联合工作。

单一作者身份不幸的是已经在先前的研究更少,尽管相关职业因素对职业发展的影响可能与coauthorship相比,更少依赖作者的性别。如图所示,Sarsons et al。(2021),男性和女性经济学家写的论文就有类似的任期,取决于他们的贡献的质量。现有研究的唯一作者似乎认为,单独写一个小比例的出版物的女性(西方et al ., 2013;油墨辊et al ., 2018;Sarsons et al ., 2021;山本Frachtenberg, 2022)。在为数不多的作品独自解决性别问题和详细的研究,然而,Kwiek和Roszka (2022)只找到边际波兰大学研究人员之间的性别差异。他们正式介绍性别单独研究差距和广泛研究其基本假设”女科学家参与出版仅低于男科学家。“他们找到显著性别差异只在年轻学者,和很小的效果。总体而言,个人独奏的最强预测出版率是包罗万象的科学学科和他们的合作实践的团队规模平均(干细胞领域和国际合作产生负面影响,同时发布在男性主导的领域积极影响)。也观察到类似的专门规程的区别法伯(2005)在以色列大学里单一的作者身份,更有可能在理论研究。基于出版物在会计和金融领域,Vafeas (2010)表明个人作者身份的可能性较高的概念或分析项目,而不是实证的,但同时,例如,“当作者隶属于一个高排名的大学。”

专门为数学、coauthorship网络的问题大小和单一研究作者身份的比例Mihaljević-Brandt et al。(2016)。基于数据从zbMATH覆盖40多年,比例的差异被发现单身男女作者身份。即使在分组所有作者分成六段总数的基础上发表的作品,一个稳定的总体差异观察到近10%。同时,几乎没有区别的网络规模,用均值和中值略高值对女性的一些部分。然而,这项工作并不考虑进一步的变量,比如资历,出版年,或数学subfield-all潜在混杂因素各自的目标变量。

3所示。数据和方法

3.1。数据源、变量和格式

我们的分析是基于数据从自由访问存储库zbMATH开放(前Zentralblatt数学),“世界上最全面、时间最长的纯粹和应用数学抽象和审查服务”(发嘶嘶声卡尔斯鲁厄,2022)。截至2022年4月,服务包括大约420万条目超过110万种不同的作者写的。

zbMATH打开索引出版物从纯粹和应用数学的各个领域,他们的应用程序中,历史和哲学的数学和数学的大学教育。zbMATH导致部分包含的广泛覆盖的科学家的主要专业知识属于其他学科如物理或计算机科学。我们因此限制通过所谓的出版物核心的数学家,大致定义为个人发表至少一篇文章在杂志明确数学的重点;对于一个定义各自的启发式(见MihaljevićSantamaria, 2020)。从这些数据,我们提取下面的变量,我们认为相关手头的任务和构建我们最后的数据集。

我们考虑两个authorship-related目标变量网络规模,网络是指ego-network coauthorship网络内的作者两个作者之间绘制一条边缘的节点,如果他们合著联合出版(因此等于给定的数学家的数量的不同的合作者),和数量的单一作者身份。衡量性别的相关性对目标变量,我们构建预测模型的年度累计每个作者的成就。更具体地说,每个记录在我们的数据集代表了网络规模以及单独的出版物的数量的一个作者在某一年的终结。因此,作者ID1并提供一个惟一的标识符。

我们使用多个特性构建预测模型,考虑手头的任务有关。除了许多出版物,我们计算资历随着年数量的作者的第一次出版。图1表明这两个变量与目标变量相关系数最高(重印以来,讣告,和类似的出版物出现在作者死后,但也与各自的作者在zbMATH有关,我们排除了所有出版物后9年的差距。测试样本数据显示,程序健壮和产生合理的结果)。

图1
www.雷竞技rebatfrontiersin.org

图1。两两之间的皮尔逊相关系数数值输入变量和目标变量。对于更好地理解,我们包括单一作者身份的比例在所有作者的作者身份。所有的关系都具有统计学意义p值0.01。

举一个例子,假设一个作家一个开始出版在2015年共同撰写两篇论文的合著者B。在随后的2016年和2017年,一个没有进一步出版活动。在2018年,一个回报说是纸,以及与一群4新的合作者合作,总结作者的出版事业。在我们的数据集,作者一个将建模与显示的记录表1

表1
www.雷竞技rebatfrontiersin.org

表1。表示选择的变量使用一个虚构的作者所有记录一个作为一个例子。

出版实践是特定于领域的。zbMATH提供代码基于MSC2010反映主题的出版物,分层树型计划有63码的最高水平2。减小粒度,我们之前构建一个数据驱动的集群的MSC代码,产生18子域集群完全。每个记录在我们的数据集分配中最常见的子域集群视为出版物。图2礼物Box-Whisker情节的跨领域的集群目标变量,显示显著的变化在特定集群中说是出版物的比例。

图2
www.雷竞技rebatfrontiersin.org

图2。目标变量的值分布差异分区集群。目标变量正常化的总数除以每个出版物,后者是一样紧紧地与目标变量和在同一时间子域具体。白色虚线标志着整个数据的归一化的意思。整体差异是显著的p值0.01,用单向方差分析测量。

此外,我们利用zbMATH的计划组成的5人杂志排名优先出版地点索引服务。我们求助于他们内部计划定期更新以来zbMATH的编辑人员和一群专家从不同的分支学科,虽然没有公开分类被数学共同体(cf。MihaljevićSantamaria, 2020)。注意,一些老的期刊不发表了没有排名。雷竞技电竞体育竞猜平台至于子域集群,每个记录我们分配最常见的期刊中排名考虑出版物。图3显示了一个明确的期刊排名和两个目标变量之间的相关性:作者主要发布在期刊等级较高的有更大的coauthorship网络,而1级,特别是相关的旧期刊没有排名,而较小的网络规模。雷竞技电竞体育竞猜平台现在的趋势是相反的方向为第二目标变量。

图3
www.雷竞技rebatfrontiersin.org

图3。目标变量的值分布差异期刊行列。中被规范化为目标变量图2。白色虚线标志着整个数据的归一化的意思。整体差异是显著的p值0.01,用单向方差分析测量。

网络建设工作进一步相关国家(参见如,冰镇et al ., 2019;MihaljevićSantamaria, 2020,p . 106)。从属关系包含地理信息不完整zbMATH开放,与差距最为明显,较年长的出版物。减少缺失值的数量,简化了数据模型,我们(1)减少粒度从国家到大陆,(2)保持首先发现大陆/作者多年来,而小从一个大陆迁移到另一个可观测到的数据。在最后的数据集,一个位置是所有记录的失踪~ 25%;几乎30%都是隶属于一个机构在欧洲,~ 21%在亚洲,~ 19 ~ 2%,北美和南美,分别在非洲和大洋洲占~ 1%。

书目数据不包含作者的信息性别,与作者的名字是唯一的信息能够提供相应的指示。我们组合来自不同性别分配的响应服务,最大化召回(即。,the number of names that can be assigned a gender), while keeping the error rate under a certain threshold. Our heuristic which is described inMihaljević和Santamaria (2020)更详细的,是基于一个比较和基准(Santamaria Mihaljevi, 20185)专用性别推理基于名称的来源。特别是,我们的程序确保性别预测的偏差理解为不平衡的女性并被错误地归类为男性相比误差相反的方向保持接近零。应该注意的是,基于名称的性别推理收益率无数挑战。除了accuracy-related问题通过缩写、音译等,它的脸,所有的方法自动性别推理,概念和伦理问题,如一个二进制的使用计划(cf。Mihaljevićet al ., 2019)。我们因此要强调,我们不理解“女性”和“男性”,因为单一类别;我们的分类是由于实际原因,特别是缺乏数据源于自我认同。

最后,我们包括在这一年里的手稿出版,因为它是一个重要的预测网络的大小和出版物的总人数,如所示图1,5

表2总结了所有变量用于生成的数据模型。

表2
www.雷竞技rebatfrontiersin.org

表2。在最后一个数据集的描述所有变量,目标变量以粗体突出显示。

3.2。数据概述

最终数据集包含2、806、493条记录对应于260年,968年独特的作家。其中,127年,983年预计男性,34岁的793名女性。

naıve观察目标变量与性别显示,男性平均~ 6.9不同的合作者(std = 11.5),与女性~ 4.8 (std = 7.7)。同样,男人写几乎8出版物(std = 13.9),而女性有~ 3.4 solo-authored文章(std = 13.9)。的百分比,这转化为平均41%左右的出版物在男性和30%的女性写的。图4显示两个目标变量的经验分布。

图4
www.雷竞技rebatfrontiersin.org

图4。实证目标变量的分布根据性别划分的,显示,没有考虑到其他任何变量,作者中女性的比例较小的网络和那些写论文就高于男性少。

然而,这些数字本身是误导,因为两组显著差异的最重要的因素对目标变量,即出版物的数量和资历(cf。图1)。男性数学家发布更多的,高级的男性比例显著提高,图5所示。

图5
www.雷竞技rebatfrontiersin.org

图5。平均作者资历(上)和出版物的数量(底部)累积到某一年,按照作者的性别。阴影区域标志着[75]置信区间;更饱和的阴影区域的置信区间的男性和女性重叠。

3.3。方法

隔离和量化的影响性别对每个目标变量,我们适应两个已知的技术和应用在不同的变化,以确保鲁棒性。一个示意图说明两种方法中可以看到图6

图6
www.雷竞技rebatfrontiersin.org

图6。示意图说明两种方法的“男性基准”和“性别交换”用于隔离和量化性别的影响。

3.3.1。分层随机抽样

由于数据集包含更多的记录显示为男性比女性高w.r.t.多个不同的分布特性,我们需要一种方法来生成两个可比较的数据集对男性和女性的产生有意义的结果。我们使用分层抽样生成两个同样大小的数据集,所以每层,记录的数量从男人和女人是平等的。

在我们的例子中,是有意义的选择出版物的数量或资历作为分层变量,因为这两个与我们的目标变量相关性最高图1)。然而,由于出版物的数量显示长尾分布,我们第一组的值分成13段1 - > 50岁,在特定的更高的出版物的数量合并在一起(见,例如,x方向图7:出版物的数量)。由于规模不平衡我们的样本子集记录代表男性基于记录的数量的女性每层。

图7
www.雷竞技rebatfrontiersin.org

图7。男性基线的方法:指实际曲线(固体)和预测之间的区别(虚线曲线)目标变量的值网络规模。阴影区域标志着[75]地面实况数据的置信区间。

3.3.2。方法1:男性基线

我们遵循的方法Caplar et al。(2017)那些模型的影响性别的引用数量和著名的天文学和天体物理学期刊作者身份。雷竞技电竞体育竞猜平台每个两个目标变量我们训练的一个预测模型,不以性别变量为特征,并训练男性数学家只使用记录。然后我们训练模型适用于测试数据集从男性和女性分别和评估每种情况的真实值和预测值之间的差异。这让我们探索如何被一个oracle,只有女人知道男人,和比较真实的世界。对于这种方法,女性测试集包括所有301199名女性的记录。同样大小的男性创建测试集使用上面描述的分层抽样方法。剩余的1427908名男性记录构成训练集。

3.3.3。方法2:性别交换

我们的第二个方法是灵感来自于实验的想法伯特兰和穆雷风(2004)发送简历的招聘广告为了衡量属性,如性别和种族的影响可能被邀请参加面试。对于每一个目标变量,我们训练预测模型从男性和女性使用数据,包括性别的特征。我们确保这两个数据集是平衡性别通过使用上面描述的分层样品等量的男性记录。这个收益率~ 600000条记录的数据集。在一个10倍交叉验证我们训练模型和测试集上计算分数。在每一轮中,训练数据由90%(542158条记录)和测试组10%(60240条记录)的数据集,这两个平衡的性别。

此外,我们互换性别属性的测试数据的补充和验算的分数。交换有助于推断目标变量如何预测如果只有性别不同,但一切保持不变。

3.3.4。变化

我们的目标是为基于树的预测模型,因为他们已经可以捕捉非线性关系。被发现使用随机hyperparameter搜索最优模型。确保建模和结果评价尽可能健壮,我们实现的不同变体两种方法使用以下参数的组合:

•分层出版物的数量和资历和运行在多个随机选择的样本数据。

•使用梯度增强回归(弗里德曼,2001)和随机森林回归(Breiman 2001)算法。

•评估模型与不同hyperparameters:除了与最优hyperparameters模型,评估另一个模型少,导致过度拟合,但仍然显示了性能优越的验证集。

•在第一种方法中,使用整个训练数据包含1427908条记录,或应用相同的分层用于创建测试集样本791937记录与类似的分布。

4所示。结果

所有的评估都是在实现Python 3.6使用scikit-learn库(版本0.24.2;Pedregosa et al ., 2011)。不同的变体产生相似的结果,表明我们的程序是可靠和健壮。因此,在这里我们只报告培训的结果GradientBoostingRegressor3最优hyperparameters和出版物的数量作为分层变量(第一种方法男性训练数据不另外取样)。因为这两种方法之间的设置是非常相似的,我们应用hyperparameter搜索只在第一种方法和重用结果第二。hyperparameter搜索收益率140年估计,至少5样品/叶和15作为最优参数的最大深度为目标变量。代码和评估覆盖所有实现场景中可以找到一个公共存储库(https://github.com/math-collab/gender)。

4.1。网络规模

第一种方法,我们的表现最佳回归达到平均培训得分为0.85分,平均成绩为0.74。按预期从3.1节的探索,最重要的特征是出版物的数量(相关性得分:0.75),其次是作者资历(0.07)和出版年(0.06)。模型的收益率R2测试数据的分数为0.63(女)和0.68(男性)。

正如前面解释3.3节中,我们评估模型为男性和女性两个测试集,分别由301199条记录。模型低估了女性的合作者的数量:在预测ŷ和真实值之间的平均差y男性测试集是0.001,它等于−0.227女性测试集的情节图7说明模型的预测和地面之间的偏差真理为测试集,dis-aggregated出版物的数量,作者资历和出版。表示实际值的曲线几乎完全重叠的曲线代表预测值男性测试集。t以及对两个相关样本显示了男性实际和预测数据之间没有意义的组织反映出版物的数量。这证实了男性的预测模型的质量测试数据。女测试集,下面的曲线代表预测值是一个代表真正的价值观,和实际值和预测值之间的差异每组是重要的(p值0.01)。散度增加而越来越多的出版物,后者更高的资历和出版年。然而,应该注意的是,记录的数量在各自的领域是小很多,,例如,很少有女性50年以上的资历。因此,女性的真实值和预测值之间的偏差可以被视为相当低,这意味着女性展览实际上略大如果我们控制变量,如合著网络出版物的数量,资历、集群分区等。

我们的第二个方法,产生类似的培训和考试成绩,证实了这些观察。图8显示在左侧列中女性测试集的预测作为一个坚实的曲线和相同的数据,但从女性与男性性别价值交换的虚线。同样,男性测试集的结果显示在右边一列。再次,可视化反映分解预测的出版物的数量,作者资历和出版年。合作者的情节表明,预测数量略有减少的女数学家当改变他们的性别女变男在测试集。这种趋势是完全相反男性数学家测试集的节目当交换他们的性别女略有增加。同样,真正的和交换数据之间的偏差增加越来越多的出版物,资历,后来出版年。

图8
www.雷竞技rebatfrontiersin.org

图8。性别交换方法:偏差值分布的预测应用于实际数据(固体曲线)和数据交换性别价值观(虚线曲线)为目标变量网络规模。曲线显示的平均值,而阴影区域的[75]置信区间预测的测试数据。

4.2。数量的单一作者身份

使用第一种方法,我们获得非常相似的性能结果在训练和测试数据(平均0.87和平均成绩0.78分的火车)网络规模目标变量。再次,出版物的数量最大的影响模型,但略低于前(相关性得分:0.66),随后在一个大的距离作者资历(0.08),(0.07)和出版年。模型,训练数据代表男性的出版物,大大减少能够解释方差的女性比男性测试集,R2得分分别为0.53和0.79。这已经表明,有一个重要区别这两个数据集的统计特性。

预测的评估更详细地揭示了这种差异:male-baseline模型高估了写论文的数量由女性,这种差异是显著的组(t以及对配对样本p值0.01)。模型预测女性出版更多的独自写一半左右(平均ŷ和之间的区别y女性的测试集是0.55),而几乎是零男性测试集(−0.004);实际值和预测值之间的差异不具有统计学意义的任何组男性的出版物。

至于之前的模型,我们可视化预测之间的区别和地面测试集的真理图9。为了突出分布之间的差异,图表表示单个作者身份的百分比在总作者身份,而不是数量。和之前一样,被分解的数据数量的出版物,资历,和年。与网络规模的预测相反,男性和女性之间的差异而言,单一的数量不仅是作者身份明显增大,但也稳定在各自的数字出版物,资历,出版年。作为图9显示,单身女性的作者身份的平均比例约为4 - 5%(平均4.6%)低于基线预测的男模,这是明显低于~ 11%的原始数据中观察到的差异而不考虑任何其他变量(见3.2节)。

图9
www.雷竞技rebatfrontiersin.org

图9。男性基线的方法:指实际曲线(固体)和预测之间的区别(虚线曲线)目标变量的值数量的单一作者身份。阴影区域标志着[75]地面实况数据的置信区间。

图10显示的平均预测从模型训练中获得10倍交叉验证数据平衡的性别和数字出版物和用于测试数据的正确和交换性别价值观。和之前一样,这种方法产量结果类似于上一个,确认我们的整体方法的鲁棒性。更准确地说,上面的行图10说明了模型预测,女性比男性少11%左右单独写的作者身份,和这种差异仍然稳定在所有箱子。然而,在大多数情况下,不同之处在于,其他变量;如图所示的固体和冲曲线之间的比较各自的次要情节,预测偏离4.5%向上(从女变男交换)或向下(从男女交换)在性别变量的值交换各自的测试数据集。

图10
www.雷竞技rebatfrontiersin.org

图10。性别交换方法:偏差值分布的预测应用于实际数据(固体曲线)和数据交换性别价值观(虚线曲线)为目标变量数量的单一作者身份。曲线显示的平均值,而阴影区域的[75]置信区间预测的测试数据。

在第一行图9,10另外分别显示比例(相对于总数)的单身小取决于作者身份的总数出版物。两性的曲线相对水平在大多数领域,在开始和结束与略有下降。同时,最后一行的情节揭示了学科的发展从单一向更多的合作作者身份。这一趋势也反映在图的中间行,略有上升的曲线随着作者的资历。

4.2.1。准备当地的解释使用世鹏科技电子值

来说明如何利用机器学习模型的主要特征,特别是作者的性别,到达一个预测数量的单一的作者身份,我们训练一个梯度提高分类器并应用世鹏科技电子(她和李,2017年),一个因果机器学习模型的解释技术。我们训练模型的基础上,602年,398条记录中显示图6(数据平衡而言,作者的性别)但这一次,包括性别变量。我们利用Python世鹏科技电子包4分配到每一个输入特征相关性得分为每个预测。的分数,计算从合作博弈理论,利用夏普利值可以作为当地解释为个体预测,展示模型的推理特定数据记录。

为当地的比较中,我们创建角色水平资历的5,10,15年,分别代表不同的职业生涯阶段:虽然资历15年可以关联到一个安全的永久性的学术地位,5年,而可以看作是现实的代表早期博士后阶段数学。我们也解决出版物的数量/资历水平3、6和10。展示不同的数学分支学科的影响,我们另外区分集群“PDE /数字/物理,”一个跨学科的研究和应用集群,和“数论、代数几何,”两种,而传统领域的结合纯粹数学。此外,我们创建一个女性和男性版的每个组合,产生12个角色。我们解决剩下的特性通过设置2010出版年,北美大陆和期刊等级为1。

图11显示模型的主要特征的相关性分数为每个12角色,列代表分区的集群,行级别的作者的性别和线类型。在所有六个情节可以看出,性别变量导致两条曲线偏离,虚曲线代表女性形象进一步向左移动。这表明该模型将女性角色所示()与低数量的单一作者身份。这种效应部分减轻其他变量:特别是对于角色年资5(第一行),不同的是变量代表总数的近中和出版物。一个可能的原因是我们的假设相同数量的出版物的男女双方在同一资历。由于男性数学家往往有更大的输出的出版物(MihaljevićSantamaria, 2020),两个性别的参数与不同频率相关,所以该模型分配一个更积极的重量出版物的总数的女性形象。此外,每个情节的两条曲线之间的偏差随工龄为子域集群,虽然或多或少的绝对数量比例出版物,确认捕捉到的整体趋势图10

图11
www.雷竞技rebatfrontiersin.org

图11。世鹏科技电子决策图的梯度提升分类器预测单为十二个不同的作者身份角色的数量。我们显示的本地相关性四个主要功能“,”“资历”,“许多出版物,”和“性别。“曲线代表世鹏科技电子值相对于模型的期望值大约四个在这种情况下。世鹏科技电子值为每个特性先后被添加到模型的期望值(从下到上),显示每个特性有助于整体预测。行代表不同级别(5、10和15),列对应的子域集群“PDE /数字/物理学”(左)和“数论、代数几何”(右),而线类型区分角色的性别。我们认为欧洲大陆北美、出版年2010和主导的期刊等级为1。

5。总结和讨论

成功的研究生涯通常涉及个人和协作工作。持久性的性别差异在数学研究的学科,不仅在简单的计数,在职业生涯的成功塑造,需要检查相应的合作实践。

评估网络上的性别角色的大小和数量的单一的作者身份,我们应用两种方法,使不同性别的影响从其他gender-correlated变量。在“男性基线”的方法,预测模型训练是男性在女性和男性测试数据和评估数据进行比较。“性别交换”的方法,我们已经训练预测模型从男性和女性在数据并应用与实际测试数据和交换性别变量的值。我们已经表明,女性甚至略大网络控制出版物总数时,资历,出版年,子域,大陆工作,或者认为期刊质量。相同的模型条件下,女性有更少的单一的作者身份,不过不同的是小于之前的研究工作表明,与男性相比4.5%。它遵循的两个维度对网络规模和数量的单一的作者身份,性别差异很小,这些就可以大概贡献小的解释在数学性别差距。

此外,我们已经训练一个模型来预测个人作者身份的数量,考虑到性别变量,并说明其推理运用世鹏科技电子情节决定预测12角色。我们提供的训练模型与代码计算世鹏科技电子决策的情节在项目的Github库,使其他研究人员探索更详细地执行的预测模型。

除了纯粹的网络规模,有很多其他collaboration-related参数,如性别或资历的合作者,附属大学的排名,共同创作的频率或ego-network内连通性,我们不详细调查。对于其他学科,不仅相关性等方面的性能,而且是已知的(性别上的差异勃兹曼,Gaughan, 2011年;Lindenlaub普鲁姆,2016;Jadidi et al ., 2018;油墨辊et al ., 2021;Kwiek Roszka, 2022)。未来的工作可以为数学调查相应的问题。然而,一些大学的考虑等方面需要各自的命名实体的提取从所属关系字符串和显著更高的可用性数据。

我们专注于coauthorship合作为主要形式的记录在数学(和大多数其他科学)。虽然其他形式的合作,比如在研讨会分享想法和反馈意见或会议、科技工作中扮演着重要的角色在一般情况下,coauthorship,通过数据库如zbMATH开放、全面可用,可衡量的和可信的形式的贡献,因此对于科学生涯不仅重要,而且特别适合从方法论的角度。然而,其他不那么正式的类型的科学合作值得进一步研究,但通常缺乏数据,可以用于各自的分析。然而,最近,确认在学术文章中,作为一种信用归因更详细地进行了分析,表明相应的实践与学术地位和性别相关(Paul-Hus et al ., 2020)。更深入的分析也会感兴趣的数学领域。

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入数量(s)可以发现:https://github.com/math-collab/gender

作者的贡献

所有作者列出了一大笔,直接和知识贡献的工作,批准发布。

确认

作者感谢主编发嘶嘶声的卡尔斯鲁厄的服务zbMATH开放提供访问数据库记录。

的利益冲突

CS和HM以前在zbMATH工作。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1。^作者是分配给一个作者ID通过的组合算法程序和手动检查zbMATH人员。消歧过程一样,它并不完美,可以分离和不正确补充作者简介。然而,由于巨大的努力投入到开发的作者姓名消歧过程,特别是数学的参与社区矫正的作者概要文件通过一个专用的web界面,同时已经达到一个固态。作者zbMATH创建的配置的更多细节,明白了Mihaljević-Brandt et al。(2014)穆勒et al。(2017)

2。^https://www.msc2010.org/mediawiki/index.php?title=MSC2010

3所示。^https://scikit-learn.org/0.24/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html

4所示。^https://github.com/slundberg/shap

引用

艾伦,L。,Scott, J., Brand, A., Hlava, M., and Altman, M. (2014). Publishing: credit where credit is due.自然508年,312 - 313。doi: 10.1038 / 508312 a

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

巴洛,J。,Stephens, P. A., Bode, M., Cadotte, M. W., Lucas, K., Newton, E., et al. (2018). On the extinction of the single-authored paper: the causes and consequences of increasingly collaborative applied ecological research.j:。生态。55岁,1 - 4。doi: 10.1111 / 1365 - 2664.13040

CrossRef全文|谷歌学术搜索

伯特兰,M。,和Mullainathan, S. (2004). Are Emily and Greg more employable than Lakisha and Jamal? A field experiment on labor market discrimination.点。经济学。牧师。94年,991 - 1013。doi: 10.1257 / 0002828042002561

CrossRef全文|谷歌学术搜索

Boekhout, H。,van der Weijden, I., and Waltman, L. (2021). Gender differences in scientific careers: a large-scale bibliometric analysis.arXiv: 2106.12624

谷歌学术搜索

勃兹曼,B。,和Gaughan, M. (2011). How do men and women differ in research collaborations? An analysis of the collaborative motives and strategies of academic researchers.政策》40岁,1393 - 1402。doi: 10.1016 / j.respol.2011.07.002

CrossRef全文|谷歌学术搜索

Breiman, l (2001)。随机森林。马赫。学习。45,5-32。doi: 10.1023 /: 1010933404324

CrossRef全文|谷歌学术搜索

Caplar, N。,Tacchella, S., and Birrer, S. (2017). Quantitative evaluation of gender bias in astronomical publications from citation counts.Nat。阿斯特朗。1,1 - 5。doi: 10.1038 / s41550 - 017 - 0141

CrossRef全文|谷歌学术搜索

De尼古拉。,和D'Agostino, G. (2021). Assessment of gender divide in scientific communities.科学计量学126年,3807 - 3840。doi: 10.1007 / s11192 - 021 - 03885 - 3

CrossRef全文|谷歌学术搜索

油墨辊,l (2015)。共同创作导致更高的学术生产力吗?牛津的公牛。经济学。统计。77年,385 - 407。doi: 10.1111 / obes.12070

CrossRef全文|谷歌学术搜索

油墨辊,L。,Goyal, S., and Prummer, A. (2018). “Gender & collaboration,” in预印本,856号工作报告(伦敦:伦敦大学玛丽皇后;学院的经济学和金融学)、36。网上:https://www.qmul.ac.uk/sef/media/econ/research/workingpapers/2017/items/wp856.pdf

油墨辊,L。,Goyal, S., and Prummer, A. (2021). Gender and collaboration.启经济学。统计。1-40。doi: 10.1162 / rest_a_01113

CrossRef全文|谷歌学术搜索

Epasto,。,Lattanzi, S., and Paes Leme, R. (2017). “Ego-splitting framework: from non-overlapping to overlapping clusters,” inKDD’,第23届ACM SIGKDD学报》国际会议上知识发现和数据挖掘(纽约:ACM出版社),145 - 154。doi: 10.1145/3097983.3098054

CrossRef全文|谷歌学术搜索

欧洲委员会,董事会研究和创新(2019)。她的数字2018。卢森堡:出版物的欧盟。

法伯,m (2005)。说是在以色列大学科学出版物。j .通知。Sci。31日,62 - 66。doi: 10.1177 / 0165551505049261

CrossRef全文|谷歌学术搜索

发嘶嘶声卡尔斯鲁厄(2022)。About-zbMATH开放。网上:https://zbmath.org/about/

Friedman, j . h (2001)。贪婪的函数近似:梯度增加机器。安。统计。29日,1189 - 1232。doi: 10.1214 /市场/ 1013203451

CrossRef全文|谷歌学术搜索

Golbeck, a . L。巴尔,t·H。,和Rose, C. A. (2018). Fall 2016 departmental profile report.不是。点。数学。Soc。65年,952 - 962。

谷歌学术搜索

高尔,t (2009)。“大规模协作的数学是可能的吗?,“在高尔的博客雷竞技公司。网上:https://gowers.wordpress.com/2009/01/27/is-massively-collaborative-mathematics-possible/

谷歌学术搜索

格罗斯曼,j . w . (2002)。在数学研究的合作模式。暹罗的新闻35:485。

谷歌学术搜索

Jadidi, M。,Karimi, F., Lietz, H., and Wagner, C. (2018). Gender disparities in science? Dropout, productivity, collaborations and success of male and female computer scientists.放置复杂系统。21:1750011。doi: 10.1142 / S0219525917500114

CrossRef全文|谷歌学术搜索

Kuld, L。,和O'Hagan, J. (2018). Rise of multi-authored papers in economics: demise of the “lone star” and why?科学计量学114年,1207 - 1225。doi: 10.1007 / s11192 - 017 - 2588 - 3

CrossRef全文|谷歌学术搜索

Kwiek, M。,和Roszka, W. (2022). Are female scientists less inclined to publish alone? The gender solo research gap.科学计量学1697 - 1735。doi: 10.1007 / s11192 - 022 - 04308 - 7

CrossRef全文|谷歌学术搜索

Lindenlaub,我。,和Prummer, A. (2016). “Gender, social networks and performance,” in工作论文807(伦敦:伦敦大学玛丽皇后;学院的经济学和金融学)。网上:https://econpapers.repec.org/RePEc: qmw: qmwecw: wp807

谷歌学术搜索

Lundberg, s M。,和Lee, S.-I. (2017). “A unified approach to interpreting model predictions,” in捏,31日学报》国际会议上神经信息处理系统(纽约:ACM出版社),4768 - 4777。

谷歌学术搜索

r·h·麦肯齐(2012)。“单一作者论文的价值”浓缩的概念。网上:lhttps://condensedconcepts.雷竞技公司blogspot.com/2012/05/value-of-single-author-papers.html

Mihaljević,H。,和Santamaria, L。(2020). “Measuring and analyzing the gender gap in science through the joint data-backed study on publication patterns,” in全球性别差距在数学方法,计算,和自然科学:如何测量它,如何减少风险吗?(柏林:国际数学联盟),83 - 153。doi: 10.5281 / zenodo.3882609

CrossRef全文|谷歌学术搜索

Mihaljević,H。Tullney, M。,Santamaria, L。,和Steinfeldt, C. (2019). Reflections on gender analyses of bibliographic corpora.前面。大数据2:29。doi: 10.3389 / fdata.2019.00029

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Mihaljević-Brandt, H。穆勒,F。,和Roy, N. (2014). “Author profile pages in zbMATH-improving accuracy through user interaction,” inMathUI的联合诉讼,OpenMath ThEdu车间和工作进展跟踪在智能计算机数学CICM位于与会议(Coimbra的)。

谷歌学术搜索

Mihaljević-Brandt, H。Santamaria, L。,和Tullney, M. (2016). The effect of gender in the publication patterns in mathematics.《公共科学图书馆•综合》11:e0165367。doi: 10.1371 / journal.pone.0165367

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

穆勒,M.-C。那个宿舍叫赖茨,F。,和Roy, N. (2017). Data sets for author name disambiguation: an empirical analysis and a new resource.科学计量学111年,1467 - 1500。doi: 10.1007 / s11192 - 017 - 2363 - 5

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Olechnicka,。Ploszaj,。,和Celińska-Janowicz, D. (2020).地理科学协作,第1版。伦敦:劳特利奇。

谷歌学术搜索

Paul-Hus,。,Mongeon, P., Sainte-Marie, M., and Larivière, V. (2020). Who are the acknowledgees? An analysis of gender and academic status.科学量化。螺柱。1,582 - 598。doi: 10.1162 / qss_a_00036

CrossRef全文|谷歌学术搜索

Pedregosa F。,Varoquaux, G., Gramfort, A., Michel, V., Thirion, B., Grisel, O., et al. (2011). Scikit-learn: machine learning in Python.j·马赫。学习。Res。2825 - 2830。doi: 10.5555/1953048.2078195

CrossRef全文|谷歌学术搜索

碧娜,d G。Barać,L。,Buljan, I., Grimaldo, F., and Maruši, A. (2019). Effects of seniority, gender and geography on the bibliometric output and collaboration networks of European Research Council (ERC) grant recipients.《公共科学图书馆•综合》14:e0212286。doi: 10.1371 / journal.pone.0212286

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

价格,d . j . d . s . (1963)。小科学、大科学。奇切斯特;纽约:哥伦比亚大学出版社。doi: 10.7312 / pric91844

CrossRef全文|谷歌学术搜索

Ryu, b . k . (2020)。的说是在计算机科学出版物:引文网络分析。arXiv: 2001.00350

谷歌学术搜索

Santamaria, L。,和Mihaljević,H。(2018). Comparison and benchmark of name-to-gender inference services.PeerJ第一版。Sci。2018:e156。doi: 10.7717 / peerj-cs.156

《公共医学图书馆摘要》|CrossRef全文

Sarigol E。,Pfitzner, R., Scholtes, I., Garas, A., and Schweitzer, F. (2014). Predicting scientific success based on coauthorship networks.EPJ数据科学。上说。doi: 10.1140 / epjds / s13688 - 014 - 0009 x

CrossRef全文

Sarsons, H。,Gërxhani, K., Reuben, E., and Schram, A. (2021). Gender differences in recognition for group work.j . Polit。经济学。129年,101 - 147。doi: 10.1086/711401

CrossRef全文|谷歌学术搜索

Servia-Rodriguez, S。Noulas,。,Mascolo, C., Fernndez-Vilas, A., and Daz-Redondo, R. P. (2015). The evolution of your success lies at the centre of your co-authorship network.《公共科学图书馆•综合》10:e0114302。doi: 10.1371 / journal.pone.0114302

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Vafeas: (2010)。决定因素的单一的作者。EuroMed j .总线。5,332 - 344。doi: 10.1108 / 14502191011080845

CrossRef全文|谷歌学术搜索

西方,j . D。,Jacquet, J., King, M. M., Correll, S. J., and Bergstrom, C. T. (2013). The role of gender in scholarly authorship.《公共科学图书馆•综合》8:e66212。doi: 10.1371 / journal.pone.0066212

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

威尔逊,r . j . (2002)。“哈迪和littlewood”剑桥科学头脑,第1版、eds p·哈曼和美国在剑桥:剑桥大学出版社,202 - 219。doi: 10.1017 / CBO9781107590137.016

CrossRef全文|谷歌学术搜索

Wuchty, S。,Jones, B. F., and Uzzi, B. (2007). The increasing dominance of teams in production of knowledge.科学316年,1036 - 1039。doi: 10.1126 / science.1136099

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

山本,J。,和Frachtenberg, E. (2022). Gender differences in collaboration patterns in computer science.出版物10:10。doi: 10.3390 / publications10010010

CrossRef全文|谷歌学术搜索

曾,x h . T。杜赫,J。,Sales-Pardo, M., Moreira, J. A. G., Radicchi, F., Ribeiro, H. V., et al. (2016). Differences in collaboration patterns across discipline, career stage, and gender.公共科学图书馆杂志。14:e1002573。doi: 10.1371 / journal.pbio.1002573

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:协作网络,机器学习,性别在数学,回归分析,作者,科学出版社,说是出版物,coauthorship

引用:Steinfeldt C和MihaljevićH(2023)机器学习的方法来量化性别偏见合作实践的数学家。前面。大数据5:989469。doi: 10.3389 / fdata.2022.989469

收到:08年7月2022;接受:2022年12月28日;
发表:2023年1月18日。

编辑:

习妞妞美国夏洛特,北卡罗莱纳大学

审核:

亚历山大诉Mantzaris美国佛罗里达中央大学
Xueru张,美国俄亥俄州立大学
Riyi邱美国夏洛特,北卡罗莱纳大学

版权©2023 Steinfeldt和Mihaljević。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:海伦娜Mihaljević,是的helena.mihaljevic@htw-berlin.de

__这些作者贡献了同样的工作

下载