跳转到主要内容

原始研究的文章

前面。Artif。智能。,19 May 2023
秒。语言和计算
卷6 - 2023 | https://doi.org/10.3389/frai.2023.986890

那些讨厌我的人是谁?仇恨言论的作者的基于语料库的统计分析

丽莎Hilte 1 *,髂骨马尔可夫 2,尼古拉Ljubešić3、4、5,Darja Fišer 3、5、6所示沃尔特Daelemans 1
  • 1剪辑、语言学、艺术学院、大学的安特卫普,比利时安特卫普
  • 2CLTL、语言、文学和交流,人文学院,sccp阿姆斯特丹,荷兰阿姆斯特丹
  • 3知识技术的部门,研究所Jožef Stefan (ij),斯洛文尼亚卢布尔雅那
  • 4实验室认知建模、计算机与信息科学学院、卢布尔雅那、斯洛文尼亚卢布尔雅那大学
  • 5当代历史研究所、卢布尔雅那、斯洛文尼亚
  • 6部门的翻译、文学院、卢布尔雅那、斯洛文尼亚卢布尔雅那大学

作品简介:我们检查仇恨言论的作者的资料在一个多语言数据集的Facebook反应新闻文章讨论移民和LGBT +社区相关的话题。包含的语言是英语,荷兰语,斯洛文尼亚和克罗地亚。

方法:首先,所有的话语都手动标注为可恶的或可接受的演讲。接下来,我们使用二元逻辑回归检查生产可恨的评论是如何影响作者的概要文件(即。、年龄、性别和语言)。

结果:我们的结果证实了以前的发现:在所有的四种语言,男性比女性产生更多的仇恨言论,人们产生更多的仇恨言论随着他们年龄的增长。但我们的研究结果也添加之前重要的细微差别的倾向:特定年龄和性别动力学在不同语言或文化略有不同,显示不同的(例如,社会政治)现实在起作用。

讨论:最后,我们讨论为什么作者研究的人口是重要的仇恨言论:典型的“仇敌”的概要文件可以用于仇恨言论检测,对敏化作用和counter-initiatives(在线)的传播仇恨。

1。介绍

仇恨言论通常被定义为语言交流,贬低一个人或一组特征的基础上,如种族,国籍,性别,性取向,宗教和文化(Nockleby 2000)。在本文中,我们将使用“仇恨言论”作为一个涵盖性术语涵盖其他密切相关的现象,比如在线骚扰和攻击性的语言使用。注意,一个等价的从社会科学术语是“社会不可接受的话语”(SUD),包括各种类型的攻击性语言(Fišer et al ., 2017)。

这些的最后几年里,仇恨言论稳步增长的现象和问题变得越来越明显。普遍受欢迎的社交媒体平台上,特别是在所谓的“回音室”,即。,更多的利基在线平台,可用于传播和传播仇恨。根据南(2004),人们可能会表现出更强烈的(包括,例如,更可恨的)在网上设置比人因为“去抑制效应。“这种效应是影响网络设置的多个方面,如匿名和异步性(南,2004)。

作为一个在线仇恨言论的应对这种日益严重的现象,各种利益相关者想理解它和战斗。这包括政府组织等执法和安全机构,所关心的现实影响在线仇恨言论和想要战斗,为了对抗激进和防止讨厌crimes-see为例Relia et al。(2019)在社交媒体上的歧视和仇恨犯罪之间的关系在美国。此外,社交媒体平台可以或必须检测和温和的仇恨言论,为了保持建设性的讨论,提高“健康”或无毒性的交互平台。

在本文中,我们不调查在线仇恨言论本身(例如,卡拉奇警察局et al ., 2017;马尔可夫et al ., 2021做的),而是它的作者。从一个大数据集和多语种(包括英语、荷兰语、斯洛文尼亚和克罗地亚)组成的在线评论,我们提取人口属性的在线可恨的内容的创造者。我们专注于三个关键社会人口变量:年龄,性别认同和语言(区域)。结果提供什么样的人更有可能把可恶的在线内容,这反过来会导致更深入地理解现象的仇恨言论(参见下面的部分理论框架)。

本文的结构如下。首先,部分理论框架提出了相关研究的概述。接下来,在材料和方法部分,数据收集和描述方法。在结果与讨论部分,最后,我们分别报告和讨论的结果分析。

2。理论框架

在本节中,我们首先提供相关工作的概述,突出作者的重要性人口在仇恨言论检测(部分作者人口的重要性在仇恨言论检测),最常见的用例仇恨言论的作者人口研究。接下来,我们总结先前证明人们的社会人口资料之间的相关性及其生产和仇恨言论的态度(部分社会人口的仇恨言论的作者)。

2.1。作者在仇恨言论人口检测的重要性

增加我们的理解的一种方式仇恨言论的现象在于获得洞察力概要文件的“仇敌”,即。可恶的内容创造者(Vidgen Derczynski, 2020)。一个数据驱动的方法研究问题涉及的元信息在用户创建了可恶的内容。例如,社会人口的概要文件可以包含各个方面,而且网上的信息行为和从属关系,及其与其他用户(即。、社区环境)(Vidgen Derczynski, 2020)。下面,我们描述了几条可恶的内容的概要信息创造者有助于更健壮的仇恨言论探测系统,以及更好的应对策略来进攻的话语。

首先,先前的研究表明,当用户信息添加到模型除了文本特性可以提高仇恨言论分类的性能。例如,当卡拉奇警察局和Hovy (2016)结合文本特征和用户的性别身份数据集的tweet,分类性能略有改善。和钱et al。(2018)首先每个用户建模(根据他们之前的帖子和语义上类似的文章被其他用户)为了更好地理解他们的语言和行为模式。这产生了一个提高分类器的性能。最后一个例子,我们将包括在这里,是研究Mishra et al。(2018),他把“社区”的用户属性的基础上作者的社交网络,用户很容易倾向于发布可恨的内容形式(在线)社会团体。这些概要文件特性改善分类性能。

此外,洞察可恨的概要文件的内容创建者可以提高自动化的仇恨言论寻址模型偏差的检测。Sap et al。(2019)探讨了种族的角色在这方面(社会方言)的偏见。他们发现,当用户的种族背景(即用户非裔美国人或不)提供给人类的注释器,注释器明显不太可能标签信息作为进攻,因为他们似乎意识到特定的(潜在的)进攻可以使用单词或短语在non-offensive方面在美国黑人英语。但当分类模型被训练在相同的数据集,美国黑人英语信息标记进攻的2倍,因为模型不考虑这个特殊的方言、社会方言的性质。一个类似的系统模型观察了种族偏见戴维森et al。(2019):他们也报告消息写在美国黑人英语被自动标记为可恨的以更高的利率。黄et al。(2020)人口偏见的发现,不仅展示了用户的种族或种族偏见的分类器,而且他们的年龄,国籍,和性别identity-three主要变量对应的包含在目前的研究设计。因为单纯的文字不确定人进攻的看法(见上图),可以怀疑它应该是唯一的来源模型来作为决策依据。仇恨言论检测模型可以受益的混杂因素等内容的社会身份creators-which如果不包括,可能导致偏见的分类器(例如,人口)。

最后,用户元信息可以帮助一代的反叙手法:non-offensive回应仇恨言论提供好辩的反馈,这被认为是一个重要的战略打击网上仇恨和打击网上激进化(Schieb,就2016;钟et al ., 2019)。“仇敌”的分析可以帮助发展有效的和有说服力的counter-narratives个性化或面向目标的,例如,对在线用户的人口统计学特征或行为。钟et al。(2019)组成的,例如,创建了一个数据集对可恶的话语和相应的话语反叙手法,作者的性别、年龄、教育水平考虑在内。这元信息使更准确的配对,从而更有效的应对话语的攻势。

所以元信息的包容在可恨的内容创作者有几个目的自动检测仇恨言论。它能提高分类性能和洞察,甚至有助于避免各种各样的意想不到的偏见。此外,它可以帮助有效counter-narratives的发展。自己的可恶的人口统计分析内容创造者(部分结果)旨在补充以前的工作解决在这一节中,并提供新的见解的概要文件典型的在线“仇敌”的年龄和性别身份,这对于一些欧洲语言的地区。在本文中,我们想了解提供实证依据如何人口影响人们的仇恨言论的生产。

2.2。仇恨言论的作者的社会人口资料

下面我们将描述之前证明人民概要文件和生产之间的相关性和仇恨言论的态度。我们会放大两个社会人口变量,即。,age and gender identity, as these variables are included in our own research design. Note that literature on this topic is very scarce and often limited to a specific platform, dataset, and language, and/or to a very specific type of hate speech. In addition, there do not yet seem to exist any studies on the impact of language (area) or culture (i.e., our third sociodemographic variable) on the production of hate speech.

关于年龄,De Smedt et al。(2018)发现大多数网上圣战仇恨言论的作者在Twitter上是25岁以上的成年人(95%)。只有一小部分是25岁以下(5%)。和最大的份额作者发布圣战tweet都在20到35岁之间的年轻人。关于对仇恨言论和宽容的态度,拉姆(2004)发现以下年龄模式:年长的人,他们似乎越不愿支持仇恨言论审查,但不显著。

关于性别、卡拉奇警察局和Hovy (2016)发现大多数作者(性别可以识别)的数据集可恨的推文是男性。在圣战tweet的数据集,De Smedt et al。(2018)认为大多数罪犯是男性(95%)。关于攻击性语言的人们的态度,女性比男性更有可能出现仇恨言论审查的批准(拉姆,2004)。

节的结果,我们将比较这些先前的发现自己的结果对年龄和性别可恨的内容创建者的身份在我们的数据集,我们将提供额外的信息社会人口变量:用户的语言或语言区。

3所示。材料和方法

下面,我们讨论数据集和数据收集(部分数据和注释),社会人口变量纳入研究设计(部分社会人口变量),和统计分析的方法(部分方法)。

3.1。数据和注释

为了创建的数据集研究,我们咨询了几家主流媒体的官方Facebook页面在四种语言:英语、荷兰语、斯洛文尼亚和克罗地亚。1在每一个Facebook页面,新闻媒体发表的文章,(重新)或(重新)共享发布Facebook帖子。读者可以把书面反应这些帖子和讨论文章,导致评论部分。我们最后的语料库由基于主题选择的文章和相关的读者评论,与注释(见下文)。

特定的媒体选择如下:为每个四种语言,我们选择访问量排名前三的媒体网站(根据Alexa服务)2,也有受欢迎的Facebook页面。表1提供了一个概述。而整个各种各样的新闻内容的国家显然不是因为样本不是详尽的覆盖,我们相信Facebook页面的三个最著名的新闻来源当然覆盖一个足够大的新闻消费者/读者分享(以及他们的反应和评论新闻)能够检测现象的主要特征。这抽样策略使我们调查的一般感知我们感兴趣的话题,关注两个目标群体的仇恨言论:移民和LGBT +社区的成员。这些目标群体的关注更大的研究项目目前的贡献是(参见讨论部分讨论)。目前的贡献,然而,目标群体都是合并的。对于每一个Facebook页面,我们确定职位(即。,news articles re-posted by the media outlets) discussing these two topics/target groups. We selected the posts through (a) a keyword-based search and (b) a machine-learning classifier trained on already identified relevant posts, in order to find additional relevant posts. Finally, after these automated searches, we manually filtered the output (i.e., selected relevant posts).

表1
www.雷竞技rebatfrontiersin.org

表1。选择的主流媒体和他们的Facebook页面。

媒体内容的基于主题的选择之后,最后一个步骤进行:注释。3每个评论反应这些Facebook帖子是手工注释的现象由多个训练,仇恨言论独立的注释器。注释器(带薪)来自不同大学的学生参与研究项目,和荷兰的一个博士生(见下文)。他们得到适当的培训、指导和支持对手头的任务。上下文执行注释:注释器第一次读到整个线程然后标记每个评论发表评论。他们必须决定是否一个注释是可接受的演讲或仇恨言论。他们要求包括各种类型的可恶的“仇恨言论”的标签,如:不恰当的言论不是针对某人(如咒骂和诅咒),攻击性言论针对的人,对他们的背景,和言论violence-inciting针对某人,无论是他们的背景。人们的“背景”包括例如他们的宗教,性别,性取向,他们的国家,种族,民族,语言,残疾和潜在的难民和移民身份。在目前的研究中,我们这个多层次的变量为一个二进制崩溃,只区分可接受或从仇恨言论(即non-hateful演讲。,包括所有剩余的类别)。仇恨言论的更细粒度的分析,使用带注释的所有不同的子类,留给未来的工作(参见最后一节讨论)。

每个数据集是由多个注释中的注释注释器的细粒度的上述类型的仇恨言论。二进制仇恨言论类用于这项工作(仇恨言论和不仇恨言论),实现inter-annotator协议适中(根据Landis和科赫,1977密切相关的指标)。这些协议Krippendorff的分数计算语言α(Krippendorff 2018),并进行了总结表2。注意,低inter-annotator协议是常见的仇恨言论检测和相关任务(如有毒和侮辱性语言检测)由于其主观性质(卡拉奇警察局,2016)。对英语、斯洛文尼亚和克罗地亚,有一个注释轮包括八个独立的注释器(学生)。荷兰在项目后期的注解。基于足够高的国米注释器协议中观察到三种语言,我们决定只包括两个“普通”注释器荷兰(学生)和高技能“super-annotator”(语言学博士生)解决潜在的分歧。最后一个标签,我们使用模式(最频繁分配类别)不同的注释器的决定英语,斯洛文尼亚,克罗地亚,并为荷兰super-annotator的决定。

表2
www.雷竞技rebatfrontiersin.org

表2。初始inter-annotator协议分数。

3.2。社会人口变量

除了仇恨言论标注语料库的评论,评论作者的社会人口资料也手工注释。考虑到最初收集语料的庞大规模,这是唯一可行的执行这些手工注释来消息的一个随机选择的子集。在本文的其余部分,和所有的分析,介绍了语料库是指这个注释的子集,因此包括作者的相关元数据在所有。三个社会人口变量都包含在目前的研究设计:语言区域的用户(实施的语言区域媒体outlets-see上图),他们的年龄,他们的性别身份。最后这两个变量注释在用户级通过手工检查用户的Facebook资料。注意,某些用户的年龄和/或性别身份无法确认有足够的确定性。这些用户被排除在最终的语料库。

用户的语言(区域)是一个四级分类变量,用下面的标签:英语(英国),荷兰(佛兰德),斯洛文尼亚,克罗地亚。至于自己的性别身份,两个标签(男/女)分配给用户的注释器,基于在Facebook上可用的元信息。年龄,最后,我们使用一个四级分类变量,区分用户25岁以下,26 - 35岁,36岁和65岁之间,最后65岁以上。我们选择了这些特定的四类,因为对很多人来说,他们生活中对应于以下阶段:即“教育年”。,youth until the end of formal education or training (0–25), then the “working years,” divided in young adulthood (26–35) and adulthood (36–65), and finally retirement (65+).

语料库中的分布的Facebook评论的新闻体裁的语言和作者的性别身份和年龄所示表3。在样本容量有显著的不同作者的性别(男性比女性更多的数据在所有语言),年龄最年轻和最古老的(最少的数据组在所有语言),和语言(英语和最少的数据最荷兰)。然而,我们认为我们足够强大的方法是为了解决这一问题,广义线性模型可以处理数据失衡有关预测水平不同(见下文)。

表3
www.雷竞技rebatfrontiersin.org

表3。仇恨言论的分布(HS)和non-hate演讲(non-HS)评论/语言(地区),性别和年龄。

3.3。方法

在下面的分析中(部分结果),我们的概率统计模型一个Facebook评论(转载新闻文章)被可恶的基于作者的社会人口的概要文件。我们使用二进制广义线性模型(即。,with a binomial distribution), which are the recommended and most straightforward models to analyze binary data. We use the model implementation from the R package “stats” (R核心团队,2022年)。语料库中每个数据点代表一个带注释的仇恨或non-hateful评论,即二进制响应模型。我们将调查对这个反应的影响三个预测因子(或固定效应),即,three aspects of the authors' sociodemographic profiles: their age, gender identity, and language area (of the news outlet). Potential interactions between these predictors will be examined too.

注意,当我们获得作者个人信息/社交媒体消息,我们无法获得独特的标识符实际和作者的道德理由:所需的独特的作者信息不能刮从Facebook与我们使用的软件,随着这个过程对GDPR规定。因此,我们不知道哪些消息可能是同一个作者写的。的模型,这意味着我们不能包括作者/主题的一个随机效应为了纠正潜在的重复测量。然而,根据定性检查的数据集以及可比语料库,我们假设重复测量的实际数量(即。由相同的用户),多个反应相对较小。手工检查的定性检查包括下面几个评论线程的多个Facebook帖子(由所选新闻媒体发布)的数据集,我们没有观察到许多明显的基于用户名重复的用户。虽然这显然是一个小规模的分析数据在这方面——作为一个务实的隐私法规和规模巨大的语料库,并给我们一个指示的惯例读者回答新闻媒体,包括其重复反应(没有问题)。

在下面的结果部分,我们将讨论最适合的模型数据。这是通过实验确定通过向后逐步选择:系统删除无关紧要的预测,确定与方差分析测试。我们开始从一个完整的模型包括所有潜在的社会人口预测因子之间的相互作用,即。,the two-way interaction between age and gender for the per-language models, and the three-way interaction between age, gender, and language, for the model for the entire dataset.

4所示。结果

下面,我们将讨论的最佳模型为每个数据集的基于四个语言的子集:英语、荷兰语、斯洛文尼亚和克罗地亚的子集(部分英语克罗地亚)。最后,我们提出一个模型对整个数据集,包括语言作为预测(部分)。

4.1。英语

的第一子集的数据我们会放大,由读者评论Facebook帖子由英国英语新闻媒体。这些评论”(非)可恶是最好的预测作者的性别身份和年龄,但不是由性别这两个变量的交互作用并不取决于作者的年龄,反之亦然。表4显示模型的汇总表。4在英语数据集,男性似乎更有可能产生比女人可恶的Facebook评论。这证实了以前的发现(见部分理论框架)在性别划分生产仇恨言论(卡拉奇警察局和Hovy, 2016;De Smedt et al ., 2018),这反过来又可能与不同的态度,不同的攻击性言论的敏感程度由男性和女性(拉姆,2004)。最后,少生产仇恨言论的女性用户也可能与反复证明发现,女性倾向于写作和说话比男性更有礼貌和谨慎的方式(例如,包括更多的篱笆等我想,我想,…),从而减轻他们的意见(纽曼et al ., 2008)。

表4
www.雷竞技rebatfrontiersin.org

表4。英语子集:汇总表。

英语一般年龄趋势数据,可能随着年龄的增加产生仇恨的消息。这似乎证实了流行的信念,年轻人更宽容,但也与以前的工作的年轻人(20 - 35岁)出现最倾向于完全(圣战)仇恨言论,即。,老年人以上(De Smedt et al ., 2018)。而仇恨言论的特定主题或目标可能发挥作用在这些年龄模式(例如,一个与年龄有关的“偏好”仇恨言论指向移民和LGBT +社区与圣战仇恨言论),这个超出范围的贡献但是我们回到讨论。回想一下,在分析,我们区分连续四个年龄组。英语子集,每个组明显不同于其他人,除了中间的两个组:26 - 35岁之间的用户与用户36岁和65岁之间(见也图15)。对于英语,我们可能重组而不是四级年龄变量分为三个层次:年轻人(0-25),年轻和中年成人(26 - 65),和老年人(65 +)。在青年和老年人之间的年龄时期(即。,26–65), people's production of hateful online comments does not significantly increase or decrease. Note that the absence of a significant difference between these two age groups is not likely the result of a difference in sample size: recall that these two middle age categories are actually the best represented in all four languages and thus offer the models the most information and certainty (resulting in the plot in the smallest confidence intervals).

图1
www.雷竞技rebatfrontiersin.org

图1。英语子集:年龄对仇恨言论的影响(预测概率)。

4.2。荷兰

下一个数据子集的问题读者评论从佛兰德荷兰新闻媒体Facebook帖子。在这个子集,评论的(非)可恶是最好的预测之间的交互作者的性别身份和年龄(见表5汇总表)。图2说明了女性与男性作家写作的概率可恨的文章根据作者的年龄,反之亦然。整体性别模式是,在任何年龄,男性更有可能产生比对照组中同样年龄的女性,仇恨言论的回应我们的发现对英语以及以前的工作(见上图)。这种性别差异统计学意义在每个年龄段中,除了用户年龄在26 - 35周不等。

表5
www.雷竞技rebatfrontiersin.org

表5。荷兰的子集:汇总表。

图2
www.雷竞技rebatfrontiersin.org

图2。荷兰子集:年龄*性别对仇恨言论的影响(预测概率)。

一般年龄趋势是,男性和女性随着年龄的增长产生更多的仇恨言论。然而,图2揭示了不同特定年龄动力学为男性和女性。年龄和性别之间的交互模式如下:当男人的仇恨言论的生产逐渐随着年龄的增加,女性似乎达到某种“仇恨高原”,26岁和35岁之间。,他们不继续发布讨厌评论,在35岁之后。为了解释这种模式,社会学研究是必需的(参见最后一节讨论)。

最后,注意这种互动是英语完全不同于观察到的模式数据(年龄模式不是男女不同),这表明一个社会文化差异英语和荷语区。稍后我们将回到这里。

4.3。斯洛维尼亚语

读者评论的可恶斯洛文尼亚新闻媒体的Facebook帖子是最好的预测作者的性别身份和年龄,但不是通过这两个变量之间的相互作用(见表6汇总表)。在斯洛文尼亚的数据子集,男人再次比女性更有可能写可恨的消息,就像在英国和荷兰的数据。

表6
www.雷竞技rebatfrontiersin.org

表6。斯洛文尼亚子集:汇总表。

一般年龄趋势是相似的,有讨厌的帖子产生较大的年龄时(包括男人和女人)。然而,两个年轻组(用户0-25岁和26 - 35周不等)不显著不同,和都是两个古老的团体(用户年龄在36 - 65和65 +)。这是可视化的图3。所以斯洛文尼亚Facebook用户的数据集,它似乎更合理的使用二进制年龄变量比较人35岁以下35岁以上的人。因此,35岁似乎是某种临界点在斯洛文尼亚人民生产可恨的网上评论。这不同于特定年龄模式发现在英国和荷兰的数据集,并指向之间的文化差异这三个语言区域(参见下面更详细的讨论)。还记得,最年轻和最古老的年龄组中最小数据集,从而提供最少的信息和确定性模型得出结论(导致更大的置信区间的情节)。因此,这些年龄段的收集更多的材料可能是深刻的。我们回到这个讨论。

图3
www.雷竞技rebatfrontiersin.org

图3。斯洛文尼亚子集:年龄对仇恨言论的影响(预测概率)。

4.4克罗地亚

最后的数据子集问题读者评论流行克罗地亚媒体的Facebook页面。这些评论的可恶是最好的预测作者的性别身份和年龄,但不是由他们的交互(见表7汇总表)。就像其他三种语言,在以前的工作证明(见上图),男性在克罗地亚数据集明显更可能产生比女人可恶的消息。

表7
www.雷竞技rebatfrontiersin.org

表7。克罗地亚的子集:汇总表。

再次对一般年龄模式,更讨厌评论似乎随着年龄的增长产生(包括男人和女人)。然而,最古老的组(65人)似乎是一个例外,显示多可恶的变化在individuals-this了这个群体的庞大的置信区间图4(这也可能与较小的样本量group-see讨论)。因此,这个年龄段没有显著不同于其他组。所以当生产可恨的在线消息的概率显著增加从青年(0-25)年轻成年(26 - 35周不等),然后略微无关紧要的增加成年以后(36 - 65),这些三组明显不同(关于仇恨言论的生产)的人超过65。所以,与基于其他语言的子集的数据不同,克罗地亚的结果表明,另一个(例如,社会、政治、文化、…)变量为年长的集团,占大变化在这个年龄category-see也讨论。

图4
www.雷竞技rebatfrontiersin.org

图4。克罗地亚的子集:年龄对仇恨言论的影响(预测概率)。

4.5。所有

基于单独的模型的四个语言数据的子集(部分英语克罗地亚)显示两个异同subcorpora对仇恨言论的作者的资料。在本节中,我们将分析整个数据集,包括所有的四种语言,包括语言的预测模型。这将使一个系统和统计语言之间的比较,以及验证的特定于语言的倾向明显不同于彼此,哪些没有。

最好的拟合模型的数据,包括一个三方互动之间的三个社会人口变量:作者的性别认同,他们的年龄和语言(区域)的新闻媒体页面。这三方相互作用显著预测可恶的读者评论(表8介绍了汇总表)。图5说明了通过显示年龄和性别的交互模式/语言。正如上面单独的模型中观察到的,荷兰脱颖而出,显然男女不同年龄动力学。斯洛文尼亚,我们现在看到的高点和低点男性和女性的仇恨言论出现在不同的年龄,但是这两个性别组不显著不同于对方关于仇恨写在最年轻和最古老的年龄组。这是单独的模型没有透露的斯洛文尼亚语言。所以目前的数据表明,斯洛文尼亚男性和女性表达他们的仇恨和愤怒的情绪(以及相关的情绪)最高的程度在不同的点在他们的生活中。它还表明,男性和女性的社会现实可能有所不同在斯洛文尼亚工作/活动26年和65年之间,但与其说在青年(−26)和老年(65 +)。

表8
www.雷竞技rebatfrontiersin.org

表8。所有的语言:汇总表。

图5
www.雷竞技rebatfrontiersin.org

图5。所有的语言:年龄性别* *语言对仇恨言论的影响(预测概率)。

注意,除了这对斯洛文尼亚额外发现,目前的模型不仅证实了先前的模型的结果。这也证实了语言之间的差异具有统计学意义。最后,我们跑了四个额外的模型相比,我们每个语言三个其他语言的总和。这些模型(我们不会详细讨论)同样证实了先前观察到的趋势。

5。讨论

和兴趣的重要性识别在线可恨的内容大大增加了这些最后几年。这导致了不同的方法的发展领域的自然语言处理(NLP)旨在自动国旗这种类型的内容(Mandl et al ., 2019;Zampieri et al ., 2019,2020年)。以前的工作表明作者人口纳入的重要性仇恨言论的研究(见部分理论框架),因为它可以促进发展的战略,计数器可恨的话语,以及更健壮,更少的偏见和性能更好的分类模型。

本文旨在探索仇恨言论的作者在一个多语言数据集的概要文件(包括英语、荷兰语、斯洛文尼亚和克罗地亚)的读者的评论新闻媒体“Facebook帖子关于移民或LGBT +社区。我们关注社会人口变量特定年龄和性别身份的相互交互和用户的语言(地区)或文化。我们的分析揭示异同数据集的基于四个语言子集关于仇恨言论的作者的资料。在所有的四种语言,男性比女性更有可能出现生产在线讨厌评论(作为媒体的反应“Facebook帖子),人们似乎产生更多的仇恨言论随着他们年龄的增长。这两种趋势确认发现以前的工作(见部分理论框架)。更详细的年龄模式,然而,添加重要的细微差别,因为它们表明,这些趋势普遍观察到在不同语言或语言地区略有不同。对于英语来说,理想似乎接近作者age-regarding它对生产的影响可恨的Facebook言论是类别变量有三个级别:0-25岁(主要对应于年轻人直到正式的教育/培训)与26 - 65岁(活跃的年)和65 +(退休)。但对于斯洛文尼亚,二进制年龄分类似乎比(0-35岁和35 +)。在克罗地亚,老大集团(65 +)是一个离群值的变化对仇恨言论生产,且不明显的区别于其他年龄组。最后,荷兰脱颖而出,因为男性和女性的观察年龄模式不同:男性继续产生更多的仇恨言论随着他们年龄的增长,而女性达到一种“恨高原”的26岁和35岁之间。 These differences between the four subsets of the data suggest that distinct social, cultural, and/or political realities might be at play in these respective language areas. In fact, the sociocultural context of data collection differed to some extent for the respective language areas and communities. Since the research project started with a Slovenian focus, the news topics for the dataset were selected based on two phenomena that were in progress in Slovenia at the time of collection: (a) an unprecedented migrant crisis (the so-called “Balkan route”), and (b) a referendum campaign on LGBT+ rights. At that time, similar contexts and situations occurred in Croatia too–(a) a migrants crisis of similar proportions and (b) a “marriage referendum” defining marriage as a community of man and woman–but not in Belgium or in the UK, especially on the LGBT+ front. So the collected news posts and their reader comments were more affected by ongoing events for Slovenian and Croatian, and were somewhat more “general” for Dutch and English, especially for the LGBT+ topic. It is probable that topics that are more current, real-time, and local, evoke hateful reactions to a different extent than more general, global subjects. So the specific type of hate speech that is under investigation (with respect to targeted groups) may play a role and should be taken into consideration when interpreting the findings, in tandem with the regions and cultures from which the data are derived. Finally, the plots showed how for Slovenian and Croatian only, the production of hateful messages went down for the eldest group (65+) (although not always significantly so, due to the higher variation in this age group). An additional factor that may be at play for older people in Croatia and Slovenia, but not in Belgium or the UK, is having lived under a socialistic regime. This might (in part) explain the lower probability of hate speech among older people for these language areas: it could be related to a less outspoken inclination to openly express opinions in general. In addition, former Yugoslavia's active promotion of multiculturality may play a role too (Kuhar Ceplak, 2016)。但进一步的社会学和sociohistorical研究需要检查这些假设。

后续的研究不仅可以探索老年人(65 +)的位置在克罗地亚和斯洛文尼亚的社会,但也放大潜在的生活变化,斯洛文尼亚人脸上35岁左右,并检查女性和男性的现实如何发散在弗兰德斯26岁和35岁之间。此外,捕捉用户的年龄在更细粒度的方法,例如,包括更多的分类注释或使用的确切年龄或出生,能产生更详细的年龄模式。所以可以收集更多的材料至少代表年龄分类,和/或重采样导致更多关于用户分布元数据。然而,请注意,语料库中的分布不均对如用户的年龄并不是随机或巧合,但本身的信息,反映了实际的用户分布在Facebook等社交媒体平台。另一个后续分析担忧仇恨言论更细粒度的方法,不同的子类的可恶的话语注释是有区别的,以及两个不同的目标群体,现在合并,因为人们倾向把可恶的反应的在线不明显以同样的方式在不同的主题。和主题可以与人互动的资料或地区:例如,某些话题可能引起更多的恨从某个性别或年龄在某些地区,由于文化背景的差异。其他路径未来工作在于分析作者的不同方面的社会人口资料,例如他们的社会阶层或教育水平。属性对社交网络也可以检查。例如可以调查的规模和性质是否一个Facebook用户的在线网络,或者他们的社交媒体活动,影响其生产的可恶的文章。和有趣的可能比较目前的结果为其他语言,发现和验证(一般)年龄和性别趋势是否确实,和潜在的差异和细微差别出现。 In terms of generalizing our findings, reproducing this paper's experiments after gathering additional data (especially for the languages and age groups that are less well-represented) can strengthen or nuance our conclusions and increase statistical power. Finally, an interesting future line of research would be how particular unusual circumstances and crises such as pandemics, refugee crises, and environmental crises may influence the hate speech landscape, including the profiles of prototypical perpetrators.

总之,我们的研究结果证实了以前的发现年龄和性别身份的典型的在线“仇敌”,同时也添加重要的细微差别和显示特定的年龄和性别动力学不同在不同的语言区域(也对应于不同的地区,社会和文化),甚至当这些不是远(回想一下,所有四个选择语言区域属于欧洲国家)。可恶的细粒度的性别和年龄资料内容创造者,我们的分析显示,可以作为未来信息(例如,特性)仇恨言论检测任务,以及为敏化作用和counter-initiatives(在线)的传播仇恨。

数据可用性声明

在这项研究中提出的数据集可以在网上找到存储库。库的名称/存储库和加入号码可以找到(s)如下:http://hdl.handle.net/11356/1483

作者的贡献

所有作者列出了一大笔,直接和知识贡献的工作,批准发布。

资金

这项工作一直支持的斯洛文尼亚研究机构(arr)和佛兰德研究基金会(FWO)通过双边研究项目arr n06 - 0099和FWO G070619N LiLaH:语言的仇恨言论在社交媒体上;arr研究核心资助。p6 - 0411语言资源和技术斯洛文尼亚人的语言;欧盟的权利、平等和公民计划(2014 - 2020)项目IMSyPP(批准号875263);和arr项目p6 - 0436数字人文学科:资源、工具和方法,p6 - 0215斯洛文尼亚人的语言:基本的认知和应用研究,j5 - 3102仇恨言论在当代概念化的民族主义,种族主义,性别和迁移,j7 - 4642基础研究口语的发展资源和语音技术的斯洛文尼亚语言。

的利益冲突

作者声明,这项研究是在没有进行任何商业或财务关系可能被视为一个潜在的利益冲突。

出版商的注意

本文表达的所有索赔仅代表作者,不一定代表的附属组织,或出版商、编辑和审稿人。任何产品,可以评估在这篇文章中,或声称,可能是由其制造商,不保证或认可的出版商。

脚注

1。^对于英语来说,只有英国媒体选择,因为我们的目标是调查在线仇恨言论在欧洲上下文。对于荷兰来说,只有佛兰德媒体(即。,from Flanders, northern Belgium) are included due to the scope of the underlying project.

2。^https://www.alexa.com/topsites/countries

3所示。^注释的程序的详细信息,请参阅Ljubešićet al。(2019)。注释指南项目可以在这里咨询:http://hdl.handle.net/11356/1462

4所示。^下面的汇总表显示不同的预测/模式的影响。对于所有的预测水平,总结统计提供了比较参照群体:这里总是最年轻的年龄组的女性作者(0-25)。“估计”表达的预测水平如何影响预测的概率的可恶的写作。这个系数是伴随着一个标准错误指示它的传播,和z -假定值表明其重要性(相对于参考类别)。

5。^回忆这些二进制模型预测的概率(表示在0和1之间)的作者产生一个可恶的消息,考虑到作者的社会人口方面的资料。例如,图1显示比25岁以下的人有24%的机会在这个数据集生产在线仇恨言论。情节上的间隔是95%的置信区间。

引用

钟,Y。,Kuzmenko, E., Tekiroglu, S. S., and Guerini, M. (2019). “CONAN – COunter NArratives through Nichesourcing: A multilingual dataset of responses to fight online hate speech,” in学报》第57届计算语言学协会的年度会议(意大利的佛罗伦萨:ACL), 2819 - 2829。doi: 10.18653 / v1 / p19 - 1271

CrossRef全文|谷歌学术搜索

戴维森,T。,Bhattacharya, D., and Weber, I. (2019). “Racial bias in hate speech and abusive language detection datasets,” in《第三侮辱性语言在线研讨会(意大利的佛罗伦萨:ACL), 25 - 35。doi: 10.18653 / v1 / w19 - 3504

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

De Smedt T。,De Pauw, G., and Van Ostaeyen, P. (2018). Automatic detection of online jihadist hate speech.第一版。语言学语言心理学技术。报告系列7日至31日。doi: 10.48550 / arXiv.1803.04596

CrossRef全文|谷歌学术搜索

Fišer D。,Erjavec, T., and Ljubešić, N. (2017). “Legal framework, dataset and annotation schema for socially unacceptable online discourse practices in Slovene,” in第一届研讨会论文集在线侮辱性语言(加拿大温哥华:ACL), 46-51。doi: 10.18653 / v1 / w17 - 3007

CrossRef全文|谷歌学术搜索

黄,X。,Xing, L., Dernoncourt, F., and Paul, M. J. (2020). “Multilingual Twitter corpus and baselines for evaluating demographic bias in hate speech recognition,” in学报》12日语言资源和评估会议(法国马赛的:ELRA), 1440 - 1448。

谷歌学术搜索

Krippendorff, k (2018)。内容分析:介绍其方法。洛杉矶/伦敦/新德里/新加坡:圣人出版物。

谷歌学术搜索

Kuhar, R。,和Ceplak, M. M. (2016). “Same-sex partnership debate in Slovenia: Between declarative support and lack of political will,” in欧盟东扩和同性恋政治,eds k . Slootmaeckers h . Touquet和p . Vermeersch(伦敦:Palgrave Macmillan), 147 - 172。doi: 10.1057 / 978 - 1 - 137 - 48093 - 4 - _7

CrossRef全文|谷歌学术搜索

拉姆,j·l . (2004)。谁想色情和仇恨言论审查?Commun质量。Soc。7,279 - 299。doi: 10.1207 / s15327825mcs0703_2

CrossRef全文|谷歌学术搜索

兰迪斯,j . R。,和Koch, G. G. (1977). The measurement of observer agreement for categorical data.生物识别技术33岁,159 - 174。doi: 10.2307 / 2529310

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Ljubešić,N。Fišer D。,和Erjavec, T. (2019). “The FRENK datasets of socially unacceptable discourse in slovene and English,” in文本、演讲和对话eds k . Ekštein (Cham Springer): 103 - 114。doi: 10.1007 / 978 - 3 - 030 - 27947 - 9 - _9

CrossRef全文|谷歌学术搜索

Mandl, T。,Modha, S., Majumder, P., Patel, D., Dave, M., Mandlia, C., et al. (2019). “Overview of the HASOC track at FIRE 2019: Hate speech and offensive content identification in Indo-European languages,” in美国11日论坛信息检索评价(纽约:ACM), 14 - 17。doi: 10.1145/3368567.3368584

CrossRef全文|谷歌学术搜索

马尔可夫,我。,Ljubešić,N。Fišer D。,和Daelemans, W. (2021). “Exploring stylometric and emotion-based features for multilingual cross-domain hate speech detection,” in十一车间的程序计算方法主观性,情绪和社交媒体分析(基辅,乌克兰:ACL), 149 - 159。

谷歌学术搜索

Mishra, P。,Del Tredici, M., Yannakoudakis, H., and Shutova, E. (2018). “Author profiling for abuse detection,” in美国27日计算语言学国际会议(美国圣达菲:ACL), 1088 - 1098。

谷歌学术搜索

纽曼,m . L。,Groom, C. J., Handelman, L. D., and Pennebaker, J. W. (2008). Gender differences in language use: an analysis of 14,000 text samples.话语的过程。45岁,211 - 236。doi: 10.1080 / 01638530802073712

CrossRef全文|谷歌学术搜索

Nockleby, j . (2000)。“仇恨言论”美国宪法的百科全书eds l·w·利维,k l .岩溶和a·温克勒(麦克米伦引用美国)1277 - 1279。

谷歌学术搜索

钱,J。,ElSherief, M., Belding, E., and Yang Wang, W. (2018). “Leveraging intra-user and inter-user representation learning for automated hate speech detection,” in学报2018年大会北美的计算语言学协会章:人类语言技术,卷2(新奥尔良:ACL), 118 - 123。doi: 10.18653 / v, 1 / n.18 - 2019

CrossRef全文|谷歌学术搜索

R核心团队(2022)。接待员:统计计算的语言和环境。维也纳:R统计计算的基础。网上:http://www.R-project.org

谷歌学术搜索

Relia, K。李,Z。,Cook, S. H., and Chunara, R. (2019). “Race, ethnicity and national origin-based discrimination in social media and hate crimes across 100 US cities,” in《国际AAAI网络和社会化媒体会议上,体积13日,417 - 427。doi: 10.1609 / icwsm.v13i01.3354

CrossRef全文|谷歌学术搜索

Sap, M。,Card, D., Gabriel, S., Choi, Y., and Smith, N. A. (2019). “The risk of racial bias in hate speech detection,” in学报》第57届计算语言学协会的年度会议(意大利的佛罗伦萨:ACL), 1668 - 1678。doi: 10.18653 / v1 / p19 - 1163

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

Schieb C。,和Preuss, M. (2016). “Leveraging intra-user and inter-user representation learning for automated hate speech detection,” in国际交流协会第66届年会(日本福冈:ICA), 1。

谷歌学术搜索

南,j . (2004)。在线去抑制效应。Cyberpsychol。Behav。7,321 - 326。doi: 10.1089 / 1094931041291295

CrossRef全文|谷歌学术搜索

Vidgen B。,和Derczynski, L. (2020).方向侮辱性语言训练数据:垃圾,垃圾。doi: 10.1371 / journal.pone.0243300

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

卡拉奇警察局,z (2016)。“你是一个种族主义者或我看到东西吗?注释器对仇恨言论影响检测在Twitter上,”第一届研讨会论文集NLP和计算社会科学(美国奥斯汀:ACL), 138 - 142。doi: 10.18653 / v1 / w16 - 5618

CrossRef全文|谷歌学术搜索

卡拉奇警察局,Z。,戴维森,T。,Warmsley, D., and Weber, I. (2017). “Understanding abuse: A typology of abusive language detection subtasks,” in第一届研讨会论文集在线侮辱性语言(加拿大温哥华:ACL), 78 - 84。doi: 10.18653 / v1 / w17 - 3012

CrossRef全文|谷歌学术搜索

卡拉奇警察局,Z。,和Hovy, D. (2016). “Hateful symbols or hateful people? Predictive features for hate speech detection on Twitter,” in学报NAACL学生研究研讨会(美国圣地亚哥:ACL), 88 - 93。doi: 10.18653 / v1 /但- 2013不行了

CrossRef全文|谷歌学术搜索

Zampieri, M。,Malmasi, S., Nakov, P., Rosenthal, S., Farra, N., and Kumar, R. (2019). “SemEval-2019 task 6: Identifying and categorizing offensive language in social media (OffensEval),” in《13语义评价国际研讨会(美国明尼阿波利斯:ACL), 75 - 86。doi: 10.18653 / v1 / s19 - 2010

CrossRef全文|谷歌学术搜索

Zampieri, M。Nakov, P。,Rosenthal, S., Atanasova, P., Karadzhov, G., Mubarak, H., et al. (2020).semeval - 2020任务12:多语种攻击性语言识别在社交媒体(offensEval 2020)。doi: 10.18653 / v1/2020.semeval - 1.188

《公共医学图书馆摘要》|CrossRef全文|谷歌学术搜索

关键词:仇恨言论、人口、年龄、性别、语言区

引用:Hilte L,马尔可夫我LjubešićN, Fišer D和Daelemans W(2023)那些讨厌我的人是谁?仇恨言论的作者的基于语料库的统计分析。前面。Artif。智能。6:986890。doi: 10.3389 / frai.2023.986890

收到:2022年7月05;接受:2023年4月28日;
发表:2023年5月19日。

编辑:

罗伊Loughran邓多克理工学院,爱尔兰

审核:

旧金山的安东尼奥·卡斯蒂略墨西哥,理工大学的地方
Gabriele怒不可遏卢森堡大学卢森堡

版权©2023 Hilte,马尔可夫、LjubešićFišer Daelemans。这是一个开放分布式根据文章知识共享归属许可(CC)。使用、分发或复制在其他论坛是允许的,提供了原始作者(年代)和著作权人(s)认为,最初发表在这个期刊引用,按照公认的学术实践。没有使用、分发或复制是不符合这些条件的允许。

*通信:丽莎Hilte,lisa.hilte@uantwerpen.be

下载