基于R语言的自动数据收集:网络抓取和文本挖掘实用指南【1.4】

张开发
2026/4/7 9:57:44 15 分钟阅读

分享文章

基于R语言的自动数据收集:网络抓取和文本挖掘实用指南【1.4】
2.3.11 表格标签table、tr、td和th下一组元素让HTML能够显示表格。查看一下表2-2并把它和如下所示的HTML对应表示进行比较。我们用table标签来产生一个表格。我们用tr产生一个新行。在tr内部我们可以用td来定义一个单元或用th定义表头的一个单元。表2-2的HTML代码如下。完整HTML网页见本书相关材料中的HTMLTable.html。[1] MIME模式是一种用于文件格式的标准化两段标识符。针对该主题的更充分讨论见第5章。[2 ] 公平地说Passed.html并不是纯粹的HTML而是包含了一些JavaScript代码。在第6章我们会接触到JavaScript。[3] 如需详细了解相关主题请查阅第6章。2.4 解析在学习HTML网页的关键特性之后现在我们就要在一个R的会话中加载并展现HTML/XML文件的内容。[1]如果我们需要从R内部以规范和可靠的方式从网页上提取信息这一步就是很关键的。[2]在进行网络抓取的时候我们往往通过两个步骤接触HTML首先我们会查看网络上的内容并检查它对于后续分析是否有用。其次我们会把HTML文件导入R并从中提取信息。对HTML的解析在这两个步骤都会用到一是通过浏览器准确地显示HTML内容二是通过R的解析器在我们的编程环境里构造HTML网页的可用表征。在本章的剩余部分我们会先说明解析器的使用方法然后讨论在这个过程中会出现的问题及其解决办法。2.4.1 解析简介在演示解析器的应用之前让我们思考一下为什么我们需要解析像HTML这样的标记文档的内容而不是仅仅把它们读取到一个R会话里就可以了。读取和解析的区别并不仅仅是语义上的。相反读取函数和解析函数的差异在于前者并不关心对HTML基础性的正式语法的理解而只是识别HTML文件中包含的符号序列。要想看清这个差别让我们运用R的readLines基础函数它会加载HTML文件中的内容。作为本部分一个程序化的实际运行例子我们来看看fortunes.html请查看本章材料——一个包含了几条关于R的名言警句的简单HTML文件。我们对该文档运用readLines方法把输出保存到一个叫fortunes的对象中并将其内容输出到屏幕上readLines会把输入文件的每一行分别映射到一个字符向量的一个值里。虽然用起来很简单但readLines给该文档创建的是一个扁平化的表示法这种形式对于从中提取信息的用处不大。主要问题在于readLines对不同的标签元素名字、属性、值等是不了解的它产生的结果从任何意义上说都不能反映嵌套的标签所对应的文档内部层次关系。为了获得有用的HTML文件表征我们需要运用一个能够理解标记结构特殊含义的程序并在某个R的专用数据结构内部重建HTML文件隐含的层次结构。这种表示法也被称为文档对象模型DOM。这是一种可查询的数据对象我们可以从任何HTML文件构建它而且它对于网页部分的后续处理也是有用的。这种从HTML代码到DOM的转化就是DOM解析器的任务。解析器属于一般类型的域相关程序它会遍历HTML符号序列并在编程环境的一个数据对象里重建文档的语义结构。在本书剩余部分我们会使用来自XML组件的功能来解析网页Temple Lang 2013c。XML组件提供了一个和libxml2库的接口这个库是一个用C语言编写的功能强大的解析库能够应付很多与解析相关的问题。作为起始步骤让我们用XML组件的htmlParse方法解析fortunes.html并把它保存在一个叫parsed_fortunes的新对象里把结果对象输出到屏幕之后我们就获得了在R会话中创建文件拷贝的视觉反馈。对于传统的解析任务来说htmlParse就是产生正确解析的文档对象所需要的全部操作了。在最简单的情况下需要通过file参数把文件路径传递给这个函数。这个参数可能是一个已经存放在硬盘上的HTML文件或者HTML文件的压缩存档或者是指向某个网页的一个URL。htmlParse和其他DOM风格的解析器能够有效地执行下列步骤。1htmlParse首先会解析整个目标网页并在一个C语言的树形数据结构里产生DOM。在这个数据结构里每个在HTML中出现的元素会被表示为它自己的实体或者表示为单个节点。所有节点合在一起被称为节点集。解析过程也包括了对不良形态的自动合法性检查步骤。从它的源代码参见fortunes对象我们可以知道fortunes.html含有两处结构错误。不仅某些属性值缺少了引号而且第二个段落标签p缺少闭合标签。不过正如我们在解析输出里看到的这两个错误都被纠正了。这归功于libxml2有能力处理形态不良的HTML网页因为它会识别并纠正错误从而产生合法的DOM。2下一步C语言层次的节点结构会被转化为R语言的一个对象。这个步骤是有必要的因为后续对DOM的处理如修改和提取其中的信息在R这样的更高级语言中会方便得多。在内部R会使用列表来表达节点的层次顺序。更具体地说C语言和R语言之间的转化是由所谓的处理器handler函数来管理的。这些处理器函数会规范C语言层次节点到R列表元素的翻译过程并允许用户拦截该过程以确定某个节点是否要表达为R对象以及要表达的方式。对于大部分解析任务你会发现htmlParse的默认选项对于产生DOM已经足够好用了。不过如果目标文档体量巨大、包含了无用信息或需要以预定的方式进行更改具备对解析过程的控制能力还是有益的。针对这些情况2.4.2节会分析一些影响DOM创建过程的方法例如通过制定一些规则来组织特定元素映射到R对象的过程。2.4.2 丢弃节点在解析阶段丢弃网页中不需要的部分有助于消除内存不足的问题并加快提取速度。在构建树的阶段处理器为处理节点如删除、添加、修改提供了方便实用的方法。正如我们已经提到的处理器函数会规范C语言层次节点结构转化到R对象的过程。在处理器默认没有变化的情况下所有节点都会被映射到R列表结构但是我们可以随心所欲地控制这个过程。我们把处理器指定为带有命名的函数的一个列表这里的命名对应某个节点名而函数明确了对该节点的操作。当处理到某个符合特定名字的节点时对应的函数就会执行。举例来说考虑要在HTML样本文件中删除body节点的情况。在解析阶段我们可以轻松地去掉这个节点及其所有子节点也就是那些嵌套在树的更深层次的节点如下所示首先我们创建了一个对象h1里面包含了由一个函数组成的列表该函数以我们希望删除的节点来命名。然后我们通过handlers参数把这个对象传递给htmlTreeParse函数。在屏幕上输出parsed_fortunes后可以看到body节点已经不再是DOM树的一部分了。从内部原理来说处理器会把所有body节点的实例替换为NULL对象这就相当于删除了这些节点。当使用处理器函数的时候需要设置asTree参数为TRUE以指定返回的是DOM而不是处理器函数本身。通过XML组件我们可以传递处理器函数对特定的XML元素进行操作例如操作指令、XML注释、CDATA或一般节点集。[3]在表2-3里有对这些通用处理器的完整概括。为了讲述它们的用法我们来讨论有关删除文档中的注释和所有带有div或title名字的节点的问题。我们再次从创建一个处理器函数列表的步骤开始。在这个列表内部第一个处理器元素指定了一个函数作用于文档中的所有XML节点startElement。这样命名的处理器定义了针对文档内所有节点执行的函数。该函数指定了对节点名的请求xmlName并实现了一个控制结构对名字为div或title的节点返回NULL对象意味着丢弃该节点对于其他节点则整个包含到DOM树中。第二个处理器元素comment则指定了一个丢弃任何HTML注释的函数。资料来源Nolan和Temple Lang2014153让我们把处理器函数传递给htmlTreeParse如果把parsed_fortunes输出到屏幕可以发现那些在处理器中指定的节点都被丢弃了2.4.3 在创建过程中提取信息我们在前面讲解了HTML文件的解析它是从网页提取信息所必要的中间步骤。在这个过程中我们通常需要解析器完整遍历C语言层次的节点集然后在R数据结构中创建文档树并从中提取出特定的信息。从概念上说还有另外一种替代策略那就是在解析过程中直接进行提取。在某些情况下这种策略具有相当大的优势因为它可以避免多次加载文档虽然它和前面介绍的DOM风格解析方法相比会稍稍更有难度。同样处理器函数在这个过程中也会发挥关键作用。但是不同于之前用处理器描述C语言层次节点应该如何转化为R语言DOM树元素现在我们要让处理器把特定的节点直接赋值给我们自己选择的R对象。最终这个方法让我们能节省一次额外的遍历步骤这样就形成了更高效的提取目标信息的方法。在更深入地讨论本节之前我们要指出本节的内容是比较高阶水平的。如果你还不太熟悉R的作用域问题也可以直接跳到本章的总结部分。不看这部分你也能继续学好本教材。举个例子考虑从fortunes.html中提取封装在i标签里的斜体字信息的问题。在这项任务里我们需要解决一个棘手的函数作用域问题。我们最终要创建一个数据对象存放当前工作区或者说全局环境里的信息。但是R里的函数——包括我们的处理器函数也一样——是针对局部变量进行操作的对于全局环境则没有写权限而这对本节的问题却是必要条件。解决办法是把对应网页中i节点的处理器函数定义为所谓的闭包即一种能够引用非本地局部对象的函数。一个闭包函数不仅包含了函数的参数和函数体还包含了一个环境。这里说的环境对于定义容器变量是必要的即我们会把处理器的输出赋值给容器变量此外还要给该变量的内容定义一个返回函数。我们先定义一个嵌套函数getItalics。i_container是局部容器变量它会存放所有设置为斜体的信息。下一步我们为i节点定义处理器函数。在这个函数第一行的右侧我们用当前i节点的值产生一个新的实例放入容器变量并把容器变量里的内容串接起来。然后通过使用能够给非局部变量赋值的超级赋值符-用结果产生的向量覆盖已有的容器对象。最后我们要创建一个叫returnI的函数用来返回前面产生的容器对象下一步我们执行getItalics并将它的返回值赋值给新的对象h3。实际上现在h3包含了我们的处理器函数但除此之外该处理器函数能够访问i_container和returnI因为这两个对象是和处理器函数在同一个环境创建的现在我们可以把这个函数传递给htmlTreeParse的处理器参数为清楚起见我们调用了invisible函数来阻止DOM输出到屏幕上。要查看获取的信息我们可以调用h3的returnI函数把文档中出现的所有i节点输出到屏幕[1] 虽然HTML和XML在很多方面有差异它们的语法是相似的因此对于HTML解析的讨论对于XML解析也有很高的相关度。XML是第3章的主题[2 ] 有关分析被解析网页代码以便进行数据提取的方法请查看第4章。[3] 有关XML注释和CDATA的讲解请查看第3章。小结本章重点讨论对HTML的基本理解。在网上冲浪时我们看到的是浏览器对存放内容的标记源代码的一种解释表现。标签构成了在HTML里所使用标记的核心并可以用于定义结构、表现及内容。此外页面元素不但包含了信息还可以用来从客户端向服务器传输信息或包含来自其他计算机语言最常见的是JavaScript的功能。学习到这个程度我们应该能够在源代码中定位相应的信息并把源代码和浏览器的解释联系起来反之亦然。结合有关HTML元素结构的知识我们能够了解如何利用HTML文件的结构和布局以便采集所需要的信息。在从网页中处理信息的过程中解析是一个重要的步骤。HTML的本地结构并不是自然地映射到R对象的。我们可以把HTML文件作为原始文本导入但这样会把这些文档里最有用的特性给剥离了。我们在本章学习了如何解析HTML网页的树结构在R环境里产生一个它们的表示法。我们将要在第4章了解一些有力的工具用来在这些对象及其包含的信息里定位并提取节点。但首先我们会转到XML的学习XML是HTML更通用的伙伴也是在网络上交换数据经常使用的格式。延伸阅读由于HTML是一个W3C标准我们推荐浏览W3网页以及配套的W3schools网页http://www.w3schools.com如果你希望更深入地学习HTML和JavaScript的话。同时HTML也是一个WHATWG的标准你可能会愿意查看他们的网页了解更多有关HTML及其相关技术的信息http://www.whatwg.org/。例如它的历史解释了W3C和WHATWG会并行制定HTML5标准的原因。更多有用的网络资源如下所示·HTML标签的完整清单带有描述和例子http://www.w3schools.com/tags·一个特殊字符、符号及其完整表示法的长清单http://www.w3schools.com/charsets/ref_html_8859.asp·一个字符集及其完整表示法的超级长清单http://unicode-table.com·一个HTML校验器http://validator.w3.org对于那些喜欢简短内容而且能拿在手里的实体书的同学有本不到200页的Niederst Robbins2013写的HTML5Pocket ReferenceHTML5口袋参考书。你还可以在Castro and Hyslop2014有关HTML和CSS以及Flanagan2011有关JavaScript的书里看到更全面深入的讲解。习题1.HTML是一个网络标准。为什么这很重要2.为如下元素编写HTML标签a主标题b开始一个新的段落c插入外部代码d构造排序列表e创建一个超链接f创建一个电子邮件链接。3.HTML源代码检查a在浏览器里打开三个你常用的网页。b查看所有三个网页的源代码。c用浏览器的检查元素工具查看各种元素。d把每个网页保存到硬盘。4.创建一个基本的HTML网页第一部分a编写一个最小的HTML文件。b加入你的名字作为注释。c加入一个一级和一个二级标题。d继续增加一些内容例如关于现在天气的一个句子。e加入一个段落里面有更多内容例如有关明天天气的一个句子。5.创建一个基本的HTML网页第二部分a编写一个最小的HTML网页。b加入一个段落其中包含10个特殊字符其中只能有5个是在表2-1里提到过的。c使用http://www.r-datacollection.com/materials/html/simple.css作为你的缺省样式文件。d到http://validator.w3.org检查你的网页的合法性。6.创建一个基本的HTML网页第三部分a编写一个最小的HTML网页。b加入一个两列三行的表格。c第一列必须包含firstsecond和third。第二列必须包含你最常使用的那三个网页的链接。d到http://www.w3schools.com/tags浏览标签列表。试着在你的HTML网页中用到一些你还不太熟悉的标签。7.R的基础函数download.file是一个用来在R里从网络收集数据的标准工具。调研一下该函数的语法尝试用它把你最喜欢的那三个网站首页保存到硬盘上。8.R的基础函数readLines和writeLines可以用来向R导入和从R导出字符数据。尝试用它们导入你在上一个练习收集的网页并把它们保存到不同的对象里。然后把这三个对象合并成一个列表对象。最后用writeLines再次把这些网页保存到外部文件里。9.尝试JavaScripta在浏览器打开http://www.r-datacollection.com/materials/html/fortunes3.html。b查看网页的源代码。c用download.file函数下载链接到网页的两个JavaScript文件。10.创建一个基本的HTML网页第四部分a编写一个最小的HTML网页。b加入一个表单里面包括两个输入元素name和age。c把表单定义成通过GET方法向http://www.r-datacollection.com/materials/http/GETexample.php发送数据。d确保它管用服务器传回的响应应该是“Hello YourNameYou are YourAge years old.”。e尝试发送很大的年龄值。在这种情况下响应消息有变化吗

更多文章