总目录 大模型相关研究:https://blog.csdn.net/WhiffeYF/article/details/142132328
https://link.springer.com/chapter/10.1007/978-3-031-98414-3_3
论文集下载:https://download.csdn.net/download/WhiffeYF/92543315
https://www.doubao.com/chat/35222653891057666
https://blog.csdn.net/WhiffeYF/article/details/156693052
阅读障碍与AI:语言模型是否符合阅读障碍风格指南标准?
Eleni Ilkou¹(✉), Thomai Alexiou², Grigoris Antoniou¹’³, 和 Olga Viberg⁴
¹ L3S研究中心,莱布尼茨汉诺威大学,汉诺威,德国
ilkou@l3s.de
² 亚里士多德塞萨洛尼基大学,塞萨洛尼基,希腊
³ 利兹贝克特大学,利兹,英国
⁴ 瑞典皇家理工学院,斯德哥尔摩,瑞典
摘要
阅读障碍给全球学生的教育带来了重大挑战。虽然辅助技术已被用于提高可读性,但尚未有研究系统性地评估语言模型(LMs)生成符合既定无障碍指南的阅读障碍友好文本的能力。本概念验证研究评估了三个最先进的语言模型识别和应用阅读障碍友好文本标准的能力。我们的研究发现,它们的知识是有限的并且存在潜在风险。为了解决这个问题,我们引入了DysText,这是一个基于英国阅读障碍协会阅读障碍风格指南量化阅读障碍友好文本特征的新指标。结果表明,虽然语言模型可以提高文本的阅读障碍友好性,但不应盲目信任其响应,这强调了进一步验证的必要性。
关键词:特殊教育 · 文本无障碍 · 阅读障碍标准
1 引言
全球人口中约有10%是阅读障碍患者[48],有些研究认为这一比例可能高达20%[43],使其成为学习困难的主要原因之一。此外,在有特殊教育需求的学生中,约75%在阅读方面存在困难[9],这些学生可以从用于阅读障碍友好文本的辅助技术中受益。然而,在教育内容的阅读障碍友好转换中,采用自然语言处理(NLP)工具和语言模型(LMs)仍然有限[42]。
将人工智能(AI)和语言模型整合到特殊教育环境中,为所有学习者[6],特别是阅读障碍学习者[20]带来了机遇和挑战。语言模型被用于通过简化文本[30]和辅助书面交流[23,28]来帮助阅读障碍学习者。由于没有评估文本阅读障碍友好性的指标,研究依赖于手工方法[21,24]、可读性指数(如LIX)[30]以及词汇(如BLEU)和语义(如BERTScore)指标[44]。尽管这些指标对其预期任务是有效的,但它们并不符合阅读障碍友好文本指南中概述的标准,而且在捕捉此类文本的关键特征方面有限。因此,需要一种与阅读障碍友好文本标准相一致的评估技术。
阅读障碍友好标准
有许多为使文本对阅读障碍读者更友好而引入的标准。其中大多数侧重于用户界面,例如联合国支持的"易读"[35],以及使信息易于阅读和理解的欧洲标准[45]。在网络上,W3C有一个网络无障碍倡议(WAI)[58],包括大量适合阅读障碍学习者的无障碍标准[14]。然而,没有一个具有特定强制性特征的指南作为阅读障碍友好文本的黄金标准。为了克服这一障碍,我们采用了英国阅读障碍协会的阅读障碍风格指南[10]中公开且具体描述的标准,该指南提供了特定阅读障碍友好文本标准的概述,正如我们在表1中报告的那样。
目标和研究问题
据我们所知,本研究首次量化了阅读障碍友好文本的指南,并调查了语言模型对阅读障碍友好文本标准的理解,衡量了它们生成阅读障碍友好文本的能力。我们开发了一个以阅读障碍风格指南标准和语言模型Gemma、Phi4和GPT4-turbo为中心的概念验证研究。我们将研究归纳为以下具体研究问题(RQs):
RQ1:语言模型在识别阅读障碍风格指南标准方面是否有效?
RQ2:根据阅读障碍风格指南,语言模型能多好地生成阅读障碍友好文本?
RQ3:如果我们提供阅读障碍风格指南标准,能否提高语言模型生成阅读障碍友好文本的性能?
为了解决这些研究问题,我们选择了一组多样化的代表性语言模型,即Gemma、Phi4和GPT4-turbo,以评估它们生成符合既定阅读障碍友好标准的文本的能力。我们发现语言模型识别出约一半的阅读障碍风格指南标准(表2第4.1节),而它们对额外标准的建议存在包容性的潜在风险(表3第4.1节)。我们引入了DysText(第3.4节),这是一个量化阅读障碍风格指南中与文本相关标准的新指标。我们发现语言模型可以生成阅读障碍友好文本,Gemma、Phi4和GPT4-turbo的DysText总分分别为2.88、3.24和2.22(表5第4.2节)。然而,通过分析生成的文本,我们得出结论,语言模型的响应需要进一步的质量控制。所有提示的DysText总分改进都是显著的(图1第4.3节和在线资料)。
2 背景
建议阅读障碍学生使用辅助技术和教育工具[11],因为它们可以支持定制文本呈现[1,26,46,56,61]、字体设计[27]、拼写和语法[37,55]、提供基于游戏的学习[34]和文本简化[5,53],以更好地满足学习者的需求[3]。支持阅读障碍学习者的研究主要集中在自适应学习支持技术上,例如有声读物[7]、文本转语音[15,16,47]、界面调整[3]和拼写检查器[12],使学习者能够绕过传统的阅读和写作障碍[50]。
一种被广泛采用的改进阅读障碍学习者文本的方法是文本简化,用于增强教育环境中的文本可访问性和包容性。Schicchi和Taibi[51]引入了一个使用自动文本简化和自动文本复杂度评估的自动文本简化系统。他们认为,当用于教授特定主题的文本资源有限时,自动文本简化系统可能很有用,允许该工具协助创建同一文本的多个版本以协助文本可访问性。AI驱动的内容摘要工具将冗长的文本浓缩为可管理的摘要,使阅读障碍学习者能够高效地掌握主要思想[40]。此外,大多数研究基于可读性指数评估文本的可访问性,例如LIX可读性指数,该指数考虑了文本中存在的单词、字母和句号的数量[8]。
Madjidi和Crick[38]开发了一个基于阅读障碍友好指南使用迁移学习修改文本的模型,在众包数据上训练T5和RoBERTa。后续研究通过添加音节和形态分析增强了这一点,帮助简化复杂的单词结构[39]。对阅读障碍大学生的测试显示阅读时间更快,尽管理解程度各不相同。与此同时,Ayang等人[13]创建了一个基于云的系统,通过调整字体、间距和颜色将Microsoft Word文档重新格式化为阅读障碍友好版本,允许用户自定义修改以提高可读性和隐私。虽然对一般可读性有用,但现有的研究和工具并未完全捕捉或测量阅读障碍友好文本的特征,也未将特定的阅读障碍友好标准纳入其方法中。
3 方法论
3.1 数据收集
目前,没有可用于将文本转换为原始和阅读障碍友好格式的黄金标准数据集[61]。为了确保大多数阅读障碍友好标准的适用性(这些标准不适用于短文本,例如表1中的"C13:项目符号或列表"),我们需要较长的文本,因此我们专注于历史领域。我们的重点是学习资源中的教育文本,而不是AI生成的文本,以确保我们研究的教学一致性。由于许可限制和版权保护,我们的目标是获得具有开放许可证的广泛采用的教科书,以确保广泛的适用性并最大化我们研究的影响。我们的第一选择是在CC BY-NC 3.0许可下公开提供的教科书"历史教科书:西非高中毕业证书考试"[4]。该书声称"旨在为参加西非高中毕业证书考试的西非学生提供帮助",这使其成为一本具有高影响力和日常覆盖面的教科书。第二本教科书是openstax的"美国历史",在CC BY 4.0许可下公开提供[19]。我们排除了具有小段落、注释和超链接的文本,因为它们已经满足了一些标准。我们收集了总共50章,我们手动将其添加到JSON文件中,同时保持换行特征。
3.2 语言模型和提示
语言模型的选择基于它们在教育环境中的适用性,因为较小的模型对本地安装在个人或学校笔记本电脑上的要求较低,而GPT是全球用户的流行替代方案。此外,我们的选择受到大小和架构变化的推动,这可能会影响阅读障碍友好性能。使用的超参数为temperature=0以获得一致的输出,top_p=0.5以控制输出的多样性,repeat_penalty=1.1,并且没有预设最大标记数以允许完整的段落长度响应而无人为阈值。在我们的研究中,我们使用:
Gemma.Gemma[54]由Google开发,是一个基于transformer解码器架构的70亿参数语言模型。它主要在英语数据上进行预训练,并在语言理解的学术基准测试中表现出色。
Phi4.Phi4[2]由Microsoft开发,是一个基于仅解码器transformer架构的140亿参数语言模型。它在有机来源和合成数据上进行预训练,在STEM领域实现了与GPT-4o等大型模型相当的最先进性能。
GPT4-Turbo.GPT4-turbo[41]由OpenAI开发,是一个基于稀疏注意力和专家混合架构的数千亿参数语言模型。GPT4-turbo具有128k标记的上下文窗口,允许大文本输入。
提示工程.语言模型中的提示工程技术已被广泛研究[49]。由于我们受限于文本原始形式和阅读障碍友好格式的成功示例,我们执行零样本提示。遵循类似研究的结果[30],我们制定的提示直接而简短。为了检测语言模型关于阅读障碍友好标准的知识,我们部署了四个提示:
- “使文本对阅读障碍友好的标准是什么?”
- “阅读障碍风格指南中为阅读障碍读者建议书面材料更改的原则是什么?”
- “应该遵循哪些指南使文本对阅读障碍人士更易访问?”
- “我如何使文本对阅读障碍友好?”
为了评估语言模型生成阅读障碍友好文本的能力,我们部署了两个不包含指南的提示:
- “使以下文本对阅读障碍友好:\n[章节]”
- “根据阅读障碍风格指南重写以下文本:\n[章节]”
此外,我们使用1.完整的阅读障碍风格指南,和2.仅使用JSON文本相关标准作为[指南],并制定提示"我将提供阅读障碍风格指南和一个文本,我希望你根据阅读障碍风格指南制作文本。\n这是阅读障碍风格指南:\n[指南]\n这是文本:\n[章节]"。
3.3 数据分析
我们处理语言模型的响应以仅保留与阅读障碍友好文本相关的答案,因为即使指示语言模型排除指南或解释,手动清理也被证明是必要的。我们报告了最小值(Min.)、中位数(Mdn.)、最大值(Max.)、平均值(Av.)和标准差(SD)的统计数据,因为描述性统计通常用于详细说明语言模型生成的原始文本与生成文本的可读性[30]。为了评估显著性,我们部署了配对统计检验,将语言模型生成的文本与原始数据集进行比较。使用Shapiro-Wilk检验评估正态性,这是检验正态性偏离的稳健方法。对于差异满足正态性假设的比较,执行双尾配对t检验以评估平均差异是否具有统计学意义。在差异违反正态性假设的情况下,利用非参数Wilcoxon符号秩检验作为无分布替代方案。统计显著性在p < 0.05的阈值下进行评估。
3.4 阅读障碍友好文本的新指标DysText
我们提出的指标DysText在理论上基于英国阅读障碍协会阅读障碍风格指南制定的指南。DysText是先驱性指标,量化了阅读障碍风格指南引入的33个标准中的17个,能够基于包容性指南测量文本的可访问性。该指标侧重于JSON格式中存在的特征,如从语言模型响应中提取的。基于表1中概述的标准,我们检查标记为"C"的可由语言模型JSON输出计算的特征。我们通过识别JSON格式中的模式并利用NLP库来计算每个标准。我们的数据、进一步的结果和DysText指标可在以下网址获得:https://github.com/eilkou/DysText。
阅读障碍风格指南标准的语义解释.鉴于英国阅读障碍协会没有为任何单个标准分配优先级,我们将每个标准视为对文本的阅读障碍友好性具有同等重要性。为了准确捕捉每个标准对文本可访问性的影响,我们将相应的建议映射到0到1的范围,其中从0到1的值表示可访问性的改善,当存在时提高阅读障碍友好文本的可访问性。相反,要避免的建议被映射到-1到0之间的值,反映了它们阻碍可访问性的潜力。该指标计算为单个标准输出的总和,值范围为[-10,11]。我们假设左对齐(C6)和避免列(C16)的标准默认被覆盖。
4 结果
4.1 语言模型对阅读障碍风格指南标准的知识
我们首先通过提示语言模型提供阅读障碍友好文本的标准来开始分析。在表2中,我们报告了语言模型在识别阅读障碍友好标准方面的得分,以及每个语言模型错误报告的标准。总分是基于单个标准得分计算的,对于正确响应授予+1分,对于部分正确响应授予+0.5分(例如,当语言模型识别"字体大小"为相关标准但未能建议适当的字体时),对于遗漏的标准为0分,对于错误答案为-1分(例如,当标准建议避免绿色时建议使用绿色)。负分作为惩罚,因为不正确的建议可能会降低阅读障碍友好性并对整体阅读体验产生负面影响。
表2.语言模型对阅读障碍风格指南标准的知识得分。它们识别出的标准少于表1中报告的33个标准的一半。
| 总分 | 错误报告 | |
|---|---|---|
| Av. | SD | |
| Gemma | 10.13 | 0.63 |
| Phi4 | 13.88 | 0.63 |
| GPT4-turbo | 13.00 | 0.41 |
Phi4比GPT4-turbo更了解阅读障碍友好标准。所有语言模型的表现都低于平均水平,因为它们从阅读障碍风格指南中包含的33个标准中识别出少于14个。语言模型推荐的标准中出现的一个共同主题是字体大小和样式、短句和简单语言。关于字体样式,语言模型还建议使用OpenDyslexic字体[27],这是一种具有独特字母形式设计的开源字体。尽管一些研究表明它可以提高阅读准确性和速度[18],但它可能并不总是对学习者有帮助[59]。值得一提的是,所有语言模型都包含了额外的标准,这些标准在阅读障碍风格指南中找不到,正如我们在表3中报告的那样。
额外推荐标准的潜在风险.在表3中,我们报告了语言模型提供的额外标准的定性分析和分类。尽管交互元素在静态文本格式中并不总是实用的[25],但当明智地应用时,它们可以增强理解[52]。单词结构的可预测性增强了可读性,但如果过度简化,可能会损害语言深度[17]。尽管鼓励对所有学生都有益,但当没有详细反馈时,表扬可能会产生负面影响[36]。这对于自尊心低的学生尤其重要,他们更多地接受个人表扬而不是过程表扬,最终使他们倾向于感受失败羞耻[29]。因此,过度的鼓励和表扬可能是居高临下或无效的,特别是如果它们强调个人属性而不是学习过程。从阅读障碍读者的角度写作也存在风险,因为它引入了标签问题,可能接近无意的歧视[57]。虽然考虑不同的观点很有价值,但包容性应该通过更广泛的可访问性而不是狭义定义的读者体验来实现。
表3.语言模型报告的额外标准。
| 额外标准 | LM | 风险 | 示例 |
|---|---|---|---|
| 可访问性考虑 | Gemma | 低 | “具有清晰链接和菜单的键盘可访问导航” |
| 音频支持 | Gemma, Phi4, GPT4-turbo | 低 | “在可能的情况下,提供文本的音频版本以提供替代访问方法。” |
| 避免效果 | Gemma, Phi4 | 低 | “避免闪烁或动画内容” |
| 一致的布局 | Phi4, GPT4-turbo | 低 | “在整个文档中保持一致的布局,以帮助读者建立熟悉度并减少混乱。” |
| 反馈和测试 | Gemma, Phi4, GPT4-turbo | 中 | “阅读障碍个体对可读性和可访问性的反馈” |
| 鼓励和表扬 | Gemma | 高 | “使用积极的语言和鼓励性的信息” |
| 交互元素 | Gemma, Phi4 | 中 | “互动活动和游戏以促进参与” |
| 可预测性 | Gemma | 中 | “提供可预测的音节模式和单词结构” |
| 读者的视角 | Gemma | 高 | “想象你正在从阅读障碍者的角度阅读文本。” |
| 摘要 | Gemma, GPT4-turbo | 低 | “在冗长文档的开头提供摘要或大纲,以概述后续内容” |
4.2 语言模型生成阅读障碍友好文本
在表4中,我们报告了原始文本的统计数据,在表5中,我们呈现了语言模型生成文本的相同统计数据。所有三个语言模型都提高了DysText视觉、内容和总分,这表明它们能够根据阅读障碍风格指南将文本改进为更阅读障碍友好的格式。然而,它们在DysText指标中的表现表明有很大的改进空间,因为它们的值达到最大5分(Phi4为5.05,Gemma为5.31,GPT4-turbo为5.53),而最大可能得分为11分。与Phi4和GPT4-turbo相比,Gemma生成的文本更短,这可能意味着Gemma遗漏了有价值的信息报告。
LIX与DysText得分.可读性LIX得分(其中较小的得分表示更容易阅读的文本)与DysText之间的比较突出了一个关键要素。DysText结合了LIX的元素以及附加标准,两者似乎都预测了具有更好阅读障碍友好生成文本的语言模型。Gemma在所有生成文本中平均LIX得分最低,为43.81,这表明语言模型响应的阅读难度为中等。同时,Gemma获得了最高的平均内容得分和第二高的DysText平均总性能,这表明更符合阅读障碍风格指南标准和更多阅读障碍友好文本。然而,由于DysText包含的特征不仅仅是单词和句子计数,它表明仅依赖LIX得分不能提供对文本阅读障碍友好特征的洞察。这通过Phi4得到强调,Phi4在LIX得分上仅显示适度改善,从平均49.68到48.79,尽管达到了最高的平均DysText总分。DysText视觉得分与段落数(No. Paragraphs)更密切相关,后者包括标题和项目符号的总和,因此,"No. Paragraphs"中的较高值表示DysText视觉得分中的高值。
表4.原始文本数据集的分析。
| 章节 | Min. | Mdn. | Max. | Av. | SD |
|---|---|---|---|---|---|
| 句子数 | 8 | 21.5 | 59 | 24.74 | 1.74 |
| 单词数 | 184 | 490 | 1468 | 538.84 | 39.74 |
| 长单词数(>6个字符) | 50 | 127 | 381 | 145.92 | 10.94 |
| 段落数 | 1 | 4 | 17 | 4.82 | 0.46 |
| 可读性LIX得分 | 37.43 | 50.61 | 62.07 | 49.68 | 0.81 |
| DysText视觉得分 | 0 | 0 | 0 | 0 | 0 |
| DysText内容得分 | -3.08 | -0.43 | 0.39 | -0.62 | 0.10 |
表5.数据集上语言模型生成的阅读障碍友好文本分析。段落数(No. Paragraphs)包括标题和项目符号。
| Gemma | Phi4 | GPT4-turbo | |||||||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. | Mdn. | Max. | Av. | SD | Min. | Mdn. | Max. | Av. | SD | Min. | Mdn. | Max. | Av. | SD | |
| 句子数 | 4 | 17 | 36 | 17.24 | 6.15 | 9 | 22 | 40 | 21.37 | 6.62 | 6 | 15 | 27 | 15.18 | 3.50 |
| 单词数 | 69 | 263.5 | 711 | 280.46 | 107.87 | 140 | 324.5 | 704 | 330.56 | 103.54 | 135 | 330.5 | 3041 | 356.11 | 248.48 |
| 长单词数 | 14 | 71 | 200 | 76.73 | 38.38 | 41 | 105.5 | 248 | 108.44 | 38.38 | 36 | 117.5 | 1900 | 140.11 | 158.61 |
| 段落数 | 1 | 6 | 24 | 7.22 | 4.87 | 1 | 13 | 45 | 15.35 | 9.33 | 2 | 10 | 40 | 11.80 | 6.95 |
| LIX得分 | 24.10 | 44.39 | 81.98 | 43.81 | 10.64 | 33.49 | 48.12 | 67.53 | 48.79 | 6.92 | 35.00 | 57.20 | 265.21 | 60.84 | 21.65 |
| DysText视觉 | 0 | 1 | 3 | 1.00 | 0.88 | 0 | 2 | 2 | 1.45 | 0.82 | 0 | 2 | 4 | 1.21 | 1.07 |
| DysText内容 | -1.60 | 1.92 | 3.52 | 1.88 | 0.93 | -0.39 | 1.91 | 3.16 | 1.80 | 0.72 | -8.26 | 1.25 | 3.27 | 1.02 | 1.37 |
| DysText总分 | -1.60 | 3.05 | 5.31 | 2.88 | 1.46 | -0.39 | 3.44 | 5.05 | 3.24 | 1.08 | -7.26 | 2.51 | 5.53 | 2.22 | 1.82 |
定性结果:语言模型响应需要验证.我们的定性分析表明,不应完全信任语言模型的响应,建议采用监督或人在回路的方法来验证响应的内容。在对响应的次要考虑中,语言模型可能需要小的编辑,因为生成的文本在某些情况下遗漏了单词之间的空格,即响应包含"butalso"而不是"but also"。这些情况更多地出现在响应的末尾而不是第一句。在奇怪的观察中,Gemma在两章中将单词"the"更改为"da",并产生了一些拼写错误,例如"Diplomcy"而不是"Diplomacy"。此外,在一种情况下,GPT4-turbo没有提供响应,Gemma只给出了使文本阅读障碍友好的建议而不是提供文本;在这些情况下,我们重新运行了提示。
此外,特定措辞可能会引发潜在问题。一个例子是从语言模型为不同章节提出的标题中提取的,Gemma的"赔偿 - 更容易阅读",以及Phi4的"让历史更容易阅读:战后英国的财政挑战"和"北美的英国殖民:阅读障碍友好概述"。虽然后者具有明显的积极语气,使用"让历史更容易阅读"可以被视为简化复杂的历史主题,然而,它可能无意中暗示受众无法理解历史主题,除非它被做得"容易"。对语言敏感性的强调和微小调整,例如在Gemma的"[主题] - 更容易阅读"中,可以在不冒险贬低目标受众的情况下保持内容的完整性。我们强调,在任何提示中都没有使用"容易"这个词。因此,这种措辞可能存在问题,被解释为不敏感和居高临下的评论,并阻碍包容性。
在解决更重大的问题时,我们将注意力转向对生成文本响应的定性分析。值得注意的是,我们观察到GPT4-turbo在"西非的欧洲贸易社区"部分[4]偏离了其分配的任务,并在响应中途过渡到关于人性和历史的无提示论述。这种偏离引起了对大语言模型遵守特定任务约束和保持与指令提示一致的能力的重大担忧,强调了其在专注的教育或研究应用中的可靠性的潜在挑战。
与潜在风险相关的另一个例子来自响应的质量。在五种情况下,GPT4-turbo响应以适当的上下文开始,没有引起担忧,但是正文上下文引起了担忧。这五种情况被分为:一种情况来自"美国历史"一书的"切萨皮克湾殖民地奴隶制的兴起"章节,以及四种情况来自"历史教科书:西非高中毕业证书考试"一书的"欧洲与西非的接触"和"跨撒哈拉贸易。起源、组织及其对西非发展的影响"部分。在仔细考虑了整个响应主体后,我们看到GPT4-turbo重复无意义的短语。所有这些情况的共同点是GPT4-turbo的冗长响应,这可能表明质量控制的潜在阈值。然而,从更广泛的角度来看,即使作为孤立事件,这些事件也强调了需要检查生成的答案,不仅关注技术标准合规性,还要关注内容的准确性和质量。值得质疑的是,为什么对响应的不当行为发生在关于殖民地和奴隶制的主题上,即使并非所有这些主题的章节都受到影响。这种差异可能表明GPT4-turbo在响应主题方面存在潜在的偏见或限制,需要进一步调查以了解这些不一致性及其对可访问性的影响。
4.3 语言模型改善文本的阅读障碍友好性
所有语言模型在所有提示中都显示出对原始文本的统计学显著改善。图1显示了每个生成文本与其相应原始文本之间DysText总分差异的箱线图。Phi4在所有提示中将100%的原始文本的视觉和总DysText得分提高。Phi4的100%改进DysText视觉得分的原因之一可能是,与Gemma和GPT-4 Turbo不同,Phi4经常提供词汇表和/或摘要。
提示仅适用于文本的阅读障碍风格指南标准可以提高性能并产生一致的良好改进。这通过图1中的提示4得到证明,它以JSON格式提供了仅适用于文本的标准,如表1中特征"C"的解释所示。提示4在Phi4上将原始文本的DysText得分提高了100%的视觉、内容和总分,在Gemma上提高了96%的视觉和100%的内容和总分,在GPT4-turbo上提高了100%的视觉和98%的内容和总分。Gemma在提示4中报告其第二好的改进,这可能是由于其较短的上下文长度为8192个标记,相比之下Phi4为16k,GPT4-turbo为128k。上下文长度是指语言模型在单次传递中可以处理和保留的最大单词和字符数,其中超过此限制会导致早期输入的截断或丢失,因此影响语言模型的性能。第二好的是提示:“使以下文本对阅读障碍友好:\n[章节]”。在提示2"根据阅读障碍风格指南重写以下文本:\n[章节]"中,获益最少的得分是DysText视觉。在GPT4-turbo的提示4中,DysText视觉得分的最大改进平均增加了2.16分,在Gemma的提示1中,DysText内容和总得分平均分别增加了3.21和4.75分。这种分析证明了小型语言模型(如Gemma和Phi4)与大型语言模型竞争的能力。
图1.各提示和语言模型的DysText总分改进箱线图。
5 讨论与结论
语言模型对阅读障碍友好标准的知识有限.我们的结果表明,语言模型对阅读障碍风格指南标准的一半以上不了解,因为它们从33个标准中识别出13个。此外,即使它们知道一个标准,例如"O2:字体样式",它们经常为其推荐额外的功能,这些功能不包括在指南中,研究结果并未完全支持。
语言模型显著提高了文本的阅读障碍友好性.我们的研究表明,Gemma、Phi4和GPT-4 Turbo显著增强了原始文本,使其更加阅读障碍友好,如DysText指标所测量的。该指标通过检测JSON结构化输出中的格式化和语言特征来量化对阅读障碍风格指南的遵守程度。结果表明,当与相应章节一起提示仅文本标准时,所检查的语言模型始终表现更好,这表明结构化输入有助于优化它们生成可访问内容的能力。这与先前的研究一致,该研究强调了明确、定义良好的约束在引导语言模型产生更用户友好和可读输出方面的重要性。
语言模型响应需要验证.然而,我们强调,定性分析的发现强调了避免自动信任语言模型生成的文本响应的必要性。此外,语言模型不是向用户通知阅读障碍友好文本建议的可靠来源,因为它们的建议可能在Gemma报告的阅读障碍友好标准文档、Phi4的标题选择以及GPT4-turbo在历史敏感主题中生成的文本中存在潜在风险。
LIX可读性得分遗漏了阅读障碍友好特征.虽然Gemma的LIX得分最低,表示中等难度,但它实现了最高的DysText得分,显示出对阅读障碍风格指南的更强合规性。相比之下,Phi4在LIX上仅显示轻微改善,尽管实现了最佳的DysText得分。这种差异突出了两个指标之间的根本差异:1. LIX基于句子长度和单词复杂度评估可读性,这可能不足以捕捉为阅读障碍读者量身定制的可访问性改进。2. DysText整合了更广泛的阅读障碍友好标准集,例如项目符号的存在,提供了对文本与阅读障碍友好特征的一致性的更全面评估。
局限性
在教育中使用语言模型存在伦理和法律影响[60],特别是关于语言模型生成内容的偏见、透明度、公平性和问责制,例如GPT4-turbo在有关殖民和奴隶制等敏感主题的文本上生成的无意义或有偏见的响应,引起了对其可靠性和误导学习者潜力的担忧。我们的研究强调了两个关键挑战。首先,语言模型误解或遗漏关键信息,这可能损害阅读障碍友好内容。其次,在没有适当处理权限的情况下使用文本存在法律问题,特别是与许可协议和GDPR合规性有关[22]。DysText指标仅限于英语文本,限制了其对其他语言和文化背景的适用性,需要外部验证以确保上下文一致性。此外,术语检测取决于上下文和领域。例如,诸如Senegambia之类的术语需要专家验证以确保准确性。
未来工作
由于提示语言模型在质量示例方面表现最佳,例如思维链推理[49],我们的目标是与专家合作并使用DysText指标开发一个包含原始和阅读障碍友好文本的基准数据集。该数据集可以进一步支持微调语言模型以用于阅读障碍相关的学习实践。对于多语言适应,可以利用非英语语料库的NLP库以及文化和语言覆盖标准来调整语言敏感特征(例如,C11:主动语态)。此外,DysText可以扩展以包含阅读障碍风格指南的所有标准,包括图形用户界面的考虑[3]。我们计划分析语言模型在生成阅读障碍友好文本方面最有效处理哪些标准以及它们在哪些方面有困难,为AI驱动的可访问性解决方案形成进一步的改进[31,32]。
结论
我们的研究是一个概念验证,探索语言模型对阅读障碍友好标准的认识和应用,量化它们生成可访问文本的能力。我们的发现强调了使用可以部署在学生或学校笔记本电脑上的语言模型自动生成阅读障碍友好文本的潜力和风险。这些方法可以提高文本可访问性,减少特殊教育中的污名,并解决教育不平等问题,与实现包容性和公平的优质教育的全球努力保持一致[33]。
致谢
这项工作得到了IAIED学会(iaied.org)2024年AIED-DEIA奖学金资助的部分支持。Viberg部分由KTH的Future AI项目支持。
参考文献
- Cambium Learning, Group: Kurzweil 3000. https://www.kurzweil3000.com/
- Abdin, M., Aneja, J., Behl, H., et al.: Phi-4 technical report. arXiv preprint arXiv:2412.08905 (2024)
- Abdul Aziz, N.I., Husni, H., Hashim, N.L.: Dyslexia-friendly design features for tangible user interfaces: a systematic literature review. Int. J. Inf. Learn. Technol. 39(4), 360–372 (2022)
- Achebe, N., Adu-Gyamfi, S., Alie, J., et al.: History textbook: West African senior school certificate examination (2018)
- AI, Y.: Dyslexic GPT-Dyslexia-Friendly Reading Tool, empowering readability with AI. https://www.yeschat.ai/gpts-9t55QeOXpjD-Dyslexic-GPT
- Aliu, T.V.: Artificial intelligence in special education: a literature review. Syst. Anal. 2(2), 188–199 (2024)
- Almgren Bäck, G., Lindeblad, E., Elmqvist, C., Svensson, I.: Dyslexic students’ experiences in using assistive technology to support written language skills: a five-year follow-up. Disabil. Rehabil. Assist. Technol. 19(4), 1217–1227 (2024)
- Anderson, J.: LIX and RIX: variations on a little-known readability index. J. Read. 26(6), 490–496 (1983)
- Association, I.D.: Frequently Asked Questions how common are language-based learning disabilities? (2025). https://dyslexiaida.org/frequently-asked-questions2/
- Association, T.B.D.: Creating a dyslexia friendly workplace, dyslexia friendly style guide. https://www.bdadyslexia.org.uk/advice/employers/creating-a-dyslexia-friendly-workplace/dyslexia-friendly-style-guide
- Association, T.D.: Assistive technology training (2025). https://www.dyslexia.uk.net/service/assistive-technology-training/
- el Atawy, S.M., Ahmed, H.M.: Spelling checker for dyslexic second language ARAB learners. J. Theor. Appl. Inf. Technol. 99, 390–402 (2021)
- Ayang, D., et al.: Accessibility made easy: the development of a cloud-based service to make documents more dyslexia-friendly. In: EDULEARN24 Proceedings. IATED (2024)
- Berget, G., Herstad, J., Sandnes, F.E.: Search, read and write: an inquiry into web accessibility for people with dyslexia. In: Universal Design 2016: Learning from the Past, Designing for the Future, pp. 450–460. IOS Press (2016)
- Bhola, N.: Effect of text-to-speech software on academic achievement of students with dyslexia. Integr. J. Res. Arts Humanit. 2, 51–55 (2022)
- Bonifacci, P., Colombini, E., Marzocchi, M., Tobia, V., Desideri, L.: Text-to-speech applications to reduce mind wandering in students with dyslexia. J. Comput. Assist. Learn. 38(2), 440–454 (2022)
- Borleffs, E., Maassen, B.A., Lyytinen, H., Zwarts, F.: Cracking the code: the impact of orthographic transparency and morphological-syllabic complexity on reading and developmental dyslexia. Front. Psychol. 9, 2534 (2019)
- Broadbent, L.: Comparing the impact of OpenDyslexic and Arial fonts on the reading performance of Key Stage 2 readers with dyslexia. Ph.D. thesis (2023)
- Corbett, P.S., Janssen, V., Lund, J.M., Pfannestiel, T., Waskiewicz, S., Vickery, P.: US history (2024)
- Dawson, K., Antonenko, P., Lane, H., Zhu, J.: Assistive technologies to support students with dyslexia. Teach. Except. Child. 51(3), 226–239 (2019)
- De Marco, V., Sciarrone, F., Temperini, M.: TutorChat: a chatbot for the support to dyslexic learner’s activity through generative AI. In: 2024 IEEE International Conference on Advanced Learning Technologies (ICALT), pp. 155–157. IEEE (2024)
- Duncan, A., Joyner, D.A.: With or without EU: Navigating GDPR constraints in human subjects research in an education environment. In: Proceedings of the Eighth ACM Conference on Learning@ Scale, pp. 343–346 (2021)
- D’Urso, S., Sciarrone, F.: AI4LA: an intelligent chatbot for supporting students with dyslexia, based on generative AI. In: Sifaleras, A., Lin, F. (eds.) International Conference on Intelligent Tutoring Systems, pp. 369–377. Springer, Cham (2024). https://doi.org/10.1007/978-3-031-63028-6_31
- Eroğlu, G., Abou Harb, M.R.: Assessing ChatGPT’s accuracy in dyslexia inquiry. In: 2024 Medical Technologies Congress (TIPTEKNO), pp. 1–4. IEEE (2024)
- Fawcett, A., Nicolson, R.: Dyslexia, Learning, and the Brain. MIT Press (2008)
- fontconverter4dyslexia@gmail.com: Font converter for dyslexia (2025). https://fontconverterfordyslexia.neocities.org/
- Gonzalez, A.: OpenDyslexic, a typeface for dyslexia. https://opendyslexic.org/
- Goodman, S.M., Buehler, E., et al.: Lampost: AI writing assistance for adults with dyslexia using large language models. Communications of the ACM (2024)
- Graf-König, N., Puca, R.M.: “wow, you’re really smart!”-how children’s self-esteem affects teachers’ praise. Educ. Psychol. 44(6–7), 749–764 (2024)
- Hedlin, E., Estling, L., Wong, J., Epp, C.D., Viberg, O.: Got it! prompting readability using ChatGPT to enhance academic texts for diverse learning needs. In: Proceedings of the 15th Learning Analytics and Knowledge Conference (2025)
- Ilkou, E., Galletti, M., Dobriy, D., et al.: Edumultikg attains 92% accuracy in k-12 user profiling. In: Proceedings of the ESWC, vol. 2043 (2023)
- Jaldi, C.D., Ilkou, E., Schroeder, N., Shimizu, C.: Education in the era of neurosymbolic AI. J. Web Semant. 85, 100857 (2025)
- Johnstone, C.J., Schuelka, M.J., Swadek, G.: Quality education for all? The promises and limitations of the SDG framework for inclusive education and students with disabilities. In: Grading goal four, pp. 96–115. Brill (2020)
- Learning, N.: Dyslexia quest dyslexia quest, quickly screen and identify those children at risk for dyslexia. https://www.nessy.com/en-gb/product/dyslexia-quest-home
- of Library Associations, I.F., Institutions: International federation of library association and institutions IFLA professional reports: guidelines for easy-to-read materials (2010). https://www.ifla.org/wp-content/uploads/2019/05/assets/hq/publications/professional-report/120.pdf
- Lipnevich, A.A., Eßer, F.J., Park, M.J., Winstone, N.: Anchored in praise? potential manifestation of the anchoring bias in feedback reception. Assess. Educ. Principles, Policy Pract. 30(1), 4–17 (2023)
- ltd., G.: Ghotit, dyslexia writing & reading assistant. https://www.ghotit.com/
- Madjidi, E., Crick, C.: Enhancing textual accessibility for readers with dyslexia through transfer learning. In: Proceedings of the 25th International ACM SIGACCESS Conference on Computers and Accessibility, pp. 1–5 (2023)
- MADJIDI, E., CRICK, C.: Towards inclusive reading: a neural text generation framework for dyslexia accessibility (2024)
- Nandhini, K., Balasundaram, S.: Improving readability of dyslexic learners through document summarization. In: 2011 IEEE International Conference on Technology for Education, pp. 246–249. IEEE (2011)
- OpenAI: Introducing GPT-4 turbo (2023). https://openai.com/blog/gpt-4-turbo
- Paudel, S., Acharya, S.: A comprehensive review of assistive technologies for children with dyslexia. arXiv preprint arXiv:2412.13241 (2024)
- Phillips, B., Odegard, T.N.: Evaluating the impact of dyslexia laws on the identification of specific learning disability and dyslexia. Ann. Dyslexia 67, 356–368 (2017)
- Price, G., Wu, S.: Lost in translation: benchmarking commercial machine translation models for dyslexic-style text (2024)
- Programme, L.L.: Information for all European standards for making information easy to read and understand. https://easy-to-read.inclusion-europe.eu/wp-content/uploads/2014/12/EN_Information_for_all.pdf
- Reader, B.: BeeLine Reader, read faster and easier, all day long (2017). https://www.beelinereader.com/
- Rello, L., Baeza-Yates, R., Bott, S., Saggion, H.: Simplify or help? Text simplification strategies for people with dyslexia. In: Proceedings of the 10th international cross-disciplinary conference on web accessibility, pp. 1–10 (2013)
- Roitsch, J., Watson, S.M.: An overview of dyslexia: definition, characteristics, assessment, identification, and intervention. Sci. J. Educ. 7(4), 81 (2019)
- Sahoo, P., Singh, A.K., Saha, S., Jain, V., Mondal, S., Chadha, A.: A systematic survey of prompt engineering in large language models: techniques and applications. arXiv preprint arXiv:2402.07927 (2024)
- Schaur, M., Koutny, R.: Dyslexia, reading/writing disorders: assistive technology and accessibility: Introduction to the special thematic session. In: Miesenberger, K., Peňáz, P., Kobayashi, M. (eds.) International Conference on Computers Helping People with Special Needs, pp. 269–274. Springer, Cham (2024). https://doi.org/10.1007/978-3-031-62849-8_33
- Schicchi, D., Taibi, D.: Ai-driven inclusion: Exploring automatic text simplification and complexity evaluation for enhanced educational accessibility. In: Casalino, G., et al. (eds.) International Conference on Higher Education Learning Methodologies and Technologies Online. Springer, Cham (2023). https://doi.org/10.1007/978-3-031-67351-1_24
- Snowling, M.J., Hulme, C.: Annual research review: reading disorders revisited-the critical importance of oral language. J. Child Psychol. Psychiatry 62(5), 635–653 (2021)
- Team, D.: Diffit, learning resources for all. https://web.diffit.me/
- Team, G., et al.: Gemma: open models based on gemini research and technology. arXiv preprint arXiv:2403.08295 (2024)
- texthelp: Claroread, help neurodiverse students to achieve more with reading and writing. https://www.texthelp.com/en-gb/solutions/dsa/claroread/
- texthelp: Read&Write, help students understand and express themselves. https://www.texthelp.com/products/read-and-write-education/
- Tunmer, W.E., Chapman, J.W.: Does set for variability mediate the influence of vocabulary knowledge on the development of word recognition skills? Scientific Studies of Reading (2012)
- W3C Web Accessibility Initiative (WAI), E., (EOWG), O.W.G.: W3C web accessibility, introduction to web accessibility. https://www.w3.org/WAI/fundamentals/accessibility-intro/
- Wery, J.J., Diliberto, J.A.: The effect of a specialized dyslexia font, opendyslexic, on reading rate and accuracy. Ann. Dyslexia 67, 114–127 (2017)
- Yan, L., et al.: Practical and ethical challenges of large language models in education: a systematic scoping review. Br. J. Edu. Technol. 55(1), 90–112 (2024)
- Yap, J.R., Aruthanan, T., Chin, M.: Artificial intelligence in dyslexia research and education: a scoping review. IEEE Access 13, 7123–7134 (2025)