基于Web结构的网站新闻采集系统的设计与实现

2022-10-23 来源：布克知识网

第３３卷第２期　２０１２年３月　Ｖｏ１．３３　Ｎｏ．２　Ｍａｒ．２０１２　井冈山大学学报（自然科学版）　Ｊｏｕｒｎａｌ　ｏｆ　Ｊｉｎｇｇａｎｇｓｈａｎ　Ｕｎｉｖｅｒｓｉｔｙ（Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ）　５４　文章编号：１６７４．８０８５（２０１２）０２—００５４－０４　基于Ｗｅｂ结构的网站新闻采集系统的设计与实现　陈建国　（１．湖南大学软件学院，湖南，长沙４１００８２；２．厦门理工学院，福建，厦门３６１０２１）　摘要：在深入研究网络信息采集技术的基础上，提出一个基于Ｗｅｂ结构的新闻采集模型。该模型加载采集入口　地址后，通过信息采集和过滤算法确定新闻列表页，结合正则表达式技术自动识别新闻内容页的链接地址，访问　目标新闻内容页，使用采集算法自动提取新闻信息数据。同时，它可以过滤在此页面中嵌入的广告等信息。实践　结果表明，该模型工作良好，可以自动化、高效率地采集新闻信息。　关键词：信息采集；Ｗｅｂ结构；正则表达式；数据挖掘；新闻采集　中图分类号：ＴＰ２７矿．２　文献标识码：Ａ　ＤＯＩ：ＩＯ．３９６９￣．ｉｓｓｎ．１６７４—８０８５．２０１２．０２．０１４　ＤＥ　ＳＩＧＮ　ＡＮＤ　ＩＭＰＬＥＭＥＮ，Ｉ＇．ＡＴＩｏＮ　ｏＦ　ＮＥＷＳ　ＧＡＴＨＥＲＩＮＧ　ＳＹＳＴＥＭ　ＢＡＳＥＤ　ｏＮ　ＷＥＢ　ＳＴＲＵＣＴＵＲＥ　ＣＨＥＮ　Ｊｉａｎ－．ｇｕｏ　，　（１．ＳｏＲｗａｒｅ　Ｓｃｈｏｏｌ　ｏｆＨｕｎａｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｃｈａｎｇｓｈａ，Ｈｕｎａｎ　４１００８２，Ｃｈｉｎａ；２．Ｘｉａｍｅｎ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆＴｅｃｈｎｏｌｏｇｙ，Ｘｉａｍｅｎ，Ｆｕｊｉａｎ　３６１０２１，Ｃｈｉａ）ｎ　Ａｂｓｔｒａｃｔ：Ｏｎ　ｔｈｅ　ｂａｓｉｓ　ｏｆ　ｄｅｐｔｈ　ｓｔｕｄｙｉｎｇ　ｔｈｅ　ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　ｗｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　ｇａｔｈｅｒｉｎｇ，ａ　ｗｅｂ　ｓｔｒｕｃｔｕｒｅ—ｂａｓｅｄ　ｎｅｗｓ　ｇａｔｈｅｒｉｎｇ　ｍｏｄｅｌ　ｉｓ　ｐｒｏｐｏｓｅｄ．Ｉｔ　ｌｏａｄ　ｔｈｅ　ｇａｔｈｅｒｉｎｇ　ｅｎｔｒｙ　ａｄｄｒｅｓｓ，ｆｉｎｄ　ｔｈｅ　ｎｅｗｓ　ｌｉｓｔ　ｐａｇｅ　ｗｉｔｈ　ｔｈｅ　ｉｆｏｒｍａｔｎｉｏｎ　ｇａｔｈｅｒｉｎｇ　ａｎｄ　ｉｆｌｔｅｒ　ａｌｇｏｒｉｔｈｍ，ｉｄｅｎｔｉｆｙ　ａｎｄ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｎｅｗｓ　ｃｏｎｔｅｎｔ　ｐａｇｅ　ｌｉｎｋ　ａｄｄｒｅｓｓ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅ　ｒｕｌｅｓ　ｓｅｔ　ｂｙ　ａｃｑｕｉｓｉｔｉｏｎ　ａｎｄ　ｔｈｅ　ｒｅｇｕｌａｒ　ｅｘｐｒｅｓｓｉｏｎ　ｔｅｃｈｎｏｌｏｇｙ　ａｕｔｏｍａｔｉｃａｌｌｙ．Ｆｕｒｔｈｅｒｍｏｒｅ，ｉｔ　ｌｏａｄ　ｔｈｅ　ｔａｒｇｅｔ　ｐａｇｅ－－ｎｅｗｓ　ｃｏｎｔｅｎｔ　ｐａｇｅ，ｇａｔｈｅｒ　ｔｈｅ　ｎｅｗｓ　ｉｎｆｏｒｍａｔｉｏｎ　ｗｉｔｈ　ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ａｕｔｏｍａｔｉｃａｌｌｙ．Ａｔ　ｔｈｅ　ｓａｍｅ　ｔｉｍｅ，ｉｔ　ｃａｎ　ｉｌｆｔｅｒ　ａｎｙ　ｉｎｆｏｒｍａｔｉｏｎ　ｔｈａｔ　ｉｓ　ｓｅｔ　ｉｎ　ｔｈｉｓ　ｐａｇｅ　ｓｕｃｈ　ａｓ　ｅｍｂｅｄｄｅｄ　ａｄｖｅｒｔｉｓｉｎｇ　ｍｅｓｓａｇｅｓ．Ｐｒａｃｔｉｃａｌ　ｒｅｓｕｌｔｓ　ｓｈｏｗ　ｔｈａｔ　ｔｈｅ　ｐｒｏｐｏｓｅｄｍｏｄｅｌｗｏｒｋｓｗｅｌｌ　ａｎｄｇａｔｈｅｒｓｎｅｗｓｉｆｏｒｍａｔｎｉｏｎ　ｅｆｉｃｉｆｅｎｔｌｙ　ａｎｄａｕｔｏｍａｔｉｃａｌｌｙ．　Ｋｅｙ　ｗｏｒｄｓ：ｉｎｆｏｒｍａｔｉｏｎ　ｇａｔｈｅｒｉｎｇ；Ｗｅｂ　ｓｔｒｕｃｔｕｒｅ；ｒｅｇｕｌａｒ　ｅｘｐｒｅｓｓｉｏｎｓ；ｄａｔａ　ｍｉｉｎｇ；ｎｅｗｓ　ｎｇａｔｈｅｒｉｎｇ　将这些ＵＲＬ放入一个采集队列，顺序读取ＵＲＬ以　１　ＷＥＢ信息采集和新闻采集　１．１　Ｗｅｂ信息采集　Ｗｅｂ信息采集是指通过Ｗｅｂ页面之间的链接　关系，从Ｗｅｂ上自动地获取页面信息，并且随着链　获取目标网页，调用采集和过滤规则在信息页面中　进行信息识别和提取，最后将采集得到的新闻信息　和相关数据保存到数据库或其他进一步加工。　１．３研究现状　目前，国内外关于Ｗｅｂ信息采集技术的研究已　接，使用广度优先遍历算法不断地向所需要的Ｗｅｂ　页面查找、扩展的过程【】Ｊ。　１．２新闻采集　新闻采集是Ｗｅｂ信息采集在网络新闻领域的应　用［２】。其核心实现过程如下：由采集入口ＵＲＬ开始，　取得一定成果，总结如下：　基于自然语言处理Ｌ３】：主要适用于含有大量文　本的Ｗｅｂ页面，将ｗ＿ｅｂ文档视为文本进行处理的，　抽取的实现没有利用Ｗｅｂ文档独特于普通文本的　层次特性．获得有效的抽取规则需要大量的样本学　收稿日期：２０１２－０１—１７；修改日期：２０１２—０２—１８　作者简介：陈建１￣（１９８５一），男，福建泉州人，讲师，硕士，主要从事软件开发及数据挖掘研究（Ｅ－ｍａｉｌ：ｘｕｘｌ６１２５＠１６３．ｃｏｍ）．　井冈山大学学报（自然科学版）　５５　习【４】ｏ　基于包装器归纳方式的信息抽取【５　Ｊ：该系统语　义和模式信息是用户附加的，通过感兴趣信息的左　右边界实现信息的定位，该方法仅仅使用语义项的　上下文来定位信息并没有使用语言的语法约束【ｂＪ。　基于本体的信息采集方法【７】：利用对数据本身　的描述信息实现抽取，较少依赖网页结构。　基于查询的Ｗｅｂ信息提取［８１：使用Ｗｅｂ的相关　技术解决Ｗｅｂ的问题，由于Ｗｅｂ抽取规则的形式　和感兴趣信息的定位方式各不相同，因此均不具有　通用性。　基于语义信息抽取技术［９１：由于ＨＴＭＬ标志缺　乏对数据本身的描述，又因为数据受描述语法，文　化区域和应用领域等方面的限制，缺乏足够的语义　信息，因此影响抽取效率和准确度。　１．４本文工作内容　虽然网页类型和结构不同，但一个网站中的各　页面结构具有一些特定规则，如页面内容往往是以　一种结构化的方式来组织，所以我们可以根据ｗｅｂ　结构进行网络新闻信息的提取和采集，研究ｗｅｂ结　构，结合正则表达式，通过页面结构的模式匹配实　现数据提取和收集。本文的主要任务：　（１）设计一个基于Ｗｅｂ结构的新闻采集系统　模型；　（２）页面采集算法，信息块采集算法和信息　块过滤算法研究；　（３）实现基于Ｗｅｂ结构的新闻采集系统。　２基于Ｗｅｂ结构模型的新闻采访　２．１系统模型　本系统通过采集入口和页面采集算法进入新　闻列表页，调用信息块采集方法确定新闻内容页的　ＵＲＬ列表，然后自动加载ＵＲＬ列表中的目标页，　调用信息采集和过滤算法反复采集新闻内容的信　息，最后存放到相应数据库中。本系统支持采集入　口设置，采集规则和过滤规则设置，并支持批量采　集功能，采集时间和周期可调节。　２．２信息采集和过滤算法　本系统所用到的信息采集和过滤算法主要包　括以下三种：　（１）页面采集算法：通过ＵＲＬ加载一个页面，　然后获得页面的源代码［ｍ】。该算法将用于加载新闻　列表页和新闻内容页。核心算法代码如下（Ｃ＃）：　ＩＩＩ＜ｓｕｍｍａｒｙ＞　／／／Ａｌｇｏｒｉｔｈｍ　ｏｆＷｅｂ　ｉｎｆｏｒｍａｔｉｏｎ　Ｇａｔｈｅｒｉｎｇ　／／／＜／ｓｕｍｍａｒｙ＞　／／／＜ｐａｒａｍ　ｎａｍｅ＝”ｗｅｂｕｒｌ”＞Ｐａｇｅ　ＵＲＬ　ｆｏｒ　Ｇａｔｈｅｒ＜／ｐａｒａｍ＞　ｐｕｂｌｉｃ　ｓｔｒｉｎｇ　ＧｅｔＲＳＳ——ＨｔｍｌＣｏｄｅ（ｓｒｔｉｎｇ　ｗｅｂｕｒ１）　｛　ｓｔｒｉｎｇＨｔｍｌＣｏｄｅ＝　：　Ｗ＿ｅｂＣｌｉｅｎｔ　ＷＣ＝ｎｅｗ　ＷｌｅｂＣｌｉｅｎｔ（）；　ＷＣ．Ｃｒｅｄｅｎｆｉａｌｓ＝ＣｒｅｄｅｎｔｉａｌＣａｃｈｅ．ＤｅｆａｕｌｔＣｒｅｄｅｎ　ｔｉａｌｓ；　Ｂｙｔｅ口ＰａｇｅＤａｔａ＝ＷＣ．ＤｏｗｎｌｏａｄＤａｔａ（ｗｅｂｕｒ１）；　ＨｔｍｌＣｏｄｅ　＝　Ｅｎｃｏｄｉｎｇ．Ｄｅｆａｕｌｔ．ＧｅｔＳｔｒｉｎｇ　（ＰａｇｅＤａｔａ）；　ＷＣ．Ｄｉｓｐｏｓｅ（）；　Ｓｅｓｓｉｏｎ．Ａｂａｎｄｏｎ（）；　ｒｅｔｕｒｎ　ＨｔｍｌＣｏｄｅ；　）　（２）信息块采集算法：该算法接收三个参数：　信息块代码、采集开始标志和采集结束标志：使用正　则表达式技术进行信息匹配，以确定要采集的信息　块。核心算法代码如下（Ｃ＃）：　／／／＜ｓｕｍｍａｒｙ：＞　／／／Ａｌｇｏｒｉｔｈｍ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｂｌｏｃｋ　Ａｃｑｕｉｓｉｉｔｏｎ　／／／＜／ｓｕｍｍａｒｙ＞　／／／＜ｐａｒａｍｎａｍｅ＝”ｈｔｍｌｓｔｒ”＞信息块代码＜／ｐａｒａｍ＞　／／／＜ｐａｒａｍ　ｎａｍｅ＝”ｓｔａｒｔｓｔｒ”＞起始标志＜／ｐａｒａｍ＞　／／／＜ｐａｒａｍ　ｎａｍｅ＝”ｅｎｄｓｔｒ”＞结束标志＜／ｐａｒａｍ＞　ｓｔｒｉｎｇ［］Ｇｅｔ＿＿ＲＳＳ　Ｓｔｒ（ｓｔｒｉｎｇ　ｈｔｍｌｓｔｒ，ｓｔｒｉｎｇ　ｓｔａｒｔｓｔｒ，　ｓｔｒｉｎｇ　ｅｎｄｓｔｒ）　｛　ｓｔｒｉｎｇ　ｓｒｔ　ｓｔａｒｔｓｔｒ　”ｃｃｃｊｉａｎｇｕｏ”　ｅｎｄｓｔｒ；　ｓｔｒｉｎｇ　ＲＬＡｒｅａ　ｓｔｒ．Ｒｅｐｌａｃｅ（”ｃｃｃｊｉａｎｇｕｏ”，　＠”（［＼Ｓ＼ｓ］　？）”）；　ｓｔｒｉｎｇ［］￣ｌｔＡｒｙ；　Ｒｅｇｅｘ　ｔｍｐｒｅｇ　ｎｅｗ　Ｒｅｇｅｘ（ＲＬＡｒｅａ，　ＲｅｇｅｘＯｐｔｉｏｎｓ．Ｃｏｍｐｉｌｅｄ）；　ＭａｔｃｈＣｏＵｅｃｔｉｏｎ　ｓＭＣ＝　５６　井冈山大学学报（自然科学版）　ｔｍｐｒｅｇ．Ｍａｔｃｈｅｓ（ｈｔｍｌｓｔｒ）；　ｉｆ（ｓＭＣ．Ｃｏｕｎｔ！＝０）　｛　ＲｓｌｔＡｒｙ＝ｎｅｗ　ｓｔｒｉｎｇ［ｓＭＣ．Ｃｏｕｎｔ］；　ｆｏｒ（ｉｎｔｉ＝０；ｉ＜ｓＭＣ．Ｃｏｕｎｔ；ｉ＋＋）｛　ＲｓｌｔＡｒｙ［ｉ］＝ｓＭＣ［ｉ］．Ｇｒｏｕｐｓ［１］．Ｖａｌｕｅ；　）　）ｅｌｓｅ｛　￣ｌｔａｒｙ　ｎｅｗ　ｓｔｒｉｎｇ［１］；　ＲｓｌｔＡｒｙ［Ｏ】＝…’；　｝　ｒｅｔｕｒｎ　ＲｓｌｔＡｒｙ；　）　（３）信息块过滤算法：该算法接收三个参数：　信息块代码、过滤开始标志和过滤结束标志；使用正　则表达式技术进行信息匹配，以确定要过滤的信息　块［１１］。　２－３采集入口　在这里进行采集入口的设置，我们可以设置一个　新闻网站的主页作为采集入口，调用页面采集算法　提取新闻列表页路径代码。　２．４新闻列表采集　从新闻列表页中采集新闻内容页的链接ＵＲＬ　的工作有两个步骤。首先，删除无关信息，提取新　闻列表信息块代码，然后从列表信息块代码中标识　新闻内容页面地址，制定地址标准格式来修订和改　善的新闻链接地址。　（１）获取新闻列表页代码　获取新闻列表页面代码，人工分析和识别页面　代码，找到新闻列表信息块的起始标志和结束标　志。调用采集算法，输入页面代码、信息块起始标　志和结束标志，系统根据获得新闻列表信息块代　码。　（２）新闻链接网址采集　对获取的信息块代码重新进行人工分析和识　别，找到新闻链接信息的代码，标志起始和结束标　记［１２－１３］。调用采集和过滤算法，输入信息块代码列　表、新闻链接起始标志和结束标志，系统自动删除　无关信息，准确读取新闻内容页链接ＵＲＬ列表。　２．５新闻内容采集　（１）获取新闻内容页代码：调用采集算法从新　闻链接ＵＲＬ列表中的各项找到新闻内容页，获取　新闻内容页面代码。　（２）新闻信息采集：手动分析和识别页面代码，　标记各新闻信息块的开始和结束标志，如标题、来　源，内容，创建时间，调用信息采集和过滤算法，　提取有关的新闻信息，然后保存到数据库或其他媒　介中。　３基于Ｗｅｂ结构的新闻采集系统实现　３．１应用程序概述　本文采用作者自主开发的“锐龙新闻采集系统”　作为实现案例，“锐龙新闻采集系统”是新闻网站系　统的一个子系统。该系统采用Ｂ／Ｓ模式，主要用于　新闻发布网站的新闻信息采集工作，方便新闻稿件　管理，大大提高新闻稿件编辑的效率和准确性，有　很强的适用性和推广价值。　３．２采集入口设置　通过友好的可视化界面进行采集入口地址的设　置，界面如图１所示。本实例的采集入口设置如下：　ｈｔｔｐ：／／ｗｗｗ．ｒｕｉｌｏｎｇｉｔ．ｃｏｒｎ／Ｎｅｗｓ　Ｌｉｓｔ．ａｓｐｘ？ＮＴ　ＩＤ＝Ｉ。　ｉ　；蔓ｉ；　　ｊ来瑕弼站　ｌ襄Ｉｊ臣名耨　｛　。　。。＝＝＝：＝：＝＝　＝　：＝＝＝　：＝．－。ｃ．。ｔ。　ｅ．ｔ　。　ｔ　＝＝＝二＝；　，。了ｉ．　ｌＩｉＬ．＾‘ｓ。ｆｔ　ｃ．　ｔｔ－　｜｜　一眷，０｜｜　二Ｈ＝　二二＝＿＝二一　＝　一…一……～……－－＿＿～　ｆ　采集地址　｛　：　：：　：：：　：　』　ｉ　ｊ嗣褥凇爱　■一……………～　ｌ　＿…＊　＊ｂ～……一～一…一　ｉ　ｌ　ｊ糕　囊彰　ｌ　ｌ　图１采集入口设置　Ｆｉｇ．１　Ａｃｑｕｉｓｉｔｉｏｎ　ｅｎｔｒａｎｃｅｓ　ｓｅｔｔｉｎｇ　３－３新闻列表采集　（１）新闻列表页采集：分析和确定的新闻列表　页中的代码，找到新闻列表信息块的开始和结束目　标，提取新闻列表，作为新闻内容页链接网址的采　集源。　新闻列表信息块的起始标志：＜ｕｌ　ｃｌａｓｓ＝”ｎｅｗｓｌ”＞　新闻列表信息块的结束标志：＜／ｕｌ＞　（２）新闻内容页ＵＲＬ采集：通过链接地址采集　算法进行分析和识别源代码，找到新闻内容页链接　信息块的开始和结束标志，获取新闻内容页的ＵＲＬ　列表。新闻内容页ＵＲＬ采集设置如图２所示。　新闻内容页链接信息块的起始标志：　＜ｌｉ＞　＜ｌａｂｅｌ＞＜ａｈｒｅｆ＝”　新闻内容页链接信息块的结束标志：　”ｔａｒｇｅｔ　＝”ｂｌａｎｋ”ｔｉｔｌｅ＝”　井冈山大学学报（自然科学版）　５７　Ｗｅｂ结构的新闻采集模型，结合互联网新闻网站的　新闻采集系统实例，重点实现了基于Ｗｅｂ结构的新　闻采集系统。实践表明，该系统可以利用信息采集　和过滤算法自动化、高效率地进行新闻信息采集。　５　致谢　图２新闻列表采集设置　Ｆｉｇ．２　Ｎｅｗｓ　ｌｉｓｔ　ｇａｔｈｅｒｉｎｇ　ｓｅｔｔｉｎｇ　本课题得到了国家自然科学基金项目（Ｎｏ．　采集得到的页面链接ＵＲＬ列表如图３所示。　ｈｔｔｐ：，，蚋＿”．ｒｕｔｌｏｎｇｉｔ．ｃｏｍ／ＨｅｗｓＣｏｎｔｅｎｔ．ａｓｐｘ？Ｘ＿ＩＯ－１１　—ｈｔｔｐ：，，蚋螂．ｒｏｉｌｏｎｇｉｔ．ｃｏｎｌＮｅ＠ｓ—Ｃｏｎｔｅｎｔ．ａｓｐｘ？Ｈ　ＩＤ。１　ｈｔｔｐ：，，＿Ｈ　．ｒｕｉｌｏｎｇｉｔ．ｃｏｍ］Ｈｅｗｓ＿Ｃｏｎｔｅｎｔ．ａｓｐｘ？ＸＩＤ　８２　＿ｈｔｔｐ：ｌｌ＠ｗｗ．ｒｕｉｌｏｎｇｉｔ．ｃｏｒｎ／Ｈｅｗｓ—Ｃｏｎｔｅｎｔ．ａｓｐｘ？Ｈ＿ＩＤ‘２１　ｈｔｔｐ：，，＂＂＿．ｒｕｔｌｏｎｇｔｔ．ｃｏｍ／Ｎｅｗｓ　Ｃｏｎｔｅｎｔ．ａｓｐｘ？ＨＩＤ　８１　＿ｈｔｔｐ：ｌｌｕｗｗ．ｒｕｔｌｏｎｇｌｔ．ｃｏｍ／Ｈｅｓ￣ｓＣｏｎｔｅｎｔ－ａｓｐｘＹＨｌＯ。Ｓ３　＿＿ｈｔｔｐ：ｔｉｍ．ｒｕｉｌｏｎｇｉｔ．ｃｏｒｎ／ＮｅｗｓＣｏｎｔｅｎｔ．ａｓｐｘＴＮＩＤ－１２　．—图３新闻列表采集结果　Ｆｉｇ．３　Ｒｅｓｕｌｔｓ　ｏｆ　ｎｅｗｓ　ｌｉｓｔ　ｇａｔｈｅｒｉｎｇ　３．４新闻内容采集　调用采集算法，通过每个新闻内容页的链接路　径，得到各新闻内容页面代码，作为新闻内容的采　集源。经过人工识别和分析页面代码，标志各新闻　信息块的开始和结束标记，如标题，来源，内容，　创建时间，如图４所示。然后调用信息采集和过滤　算法，删除无关的信息，提取相关的新闻信息，并　保存到系统数据库中。　“标题”起始标志：＜！一ＲＬＩＴ　ｔｉｔｌｅ　ｓｔｇｒｔ．＞　“标题”结束标志：＜！一ＲＬＩＴ　ｔｉｔｌｅ　ｅｎｄ一＞　“来源”起始标志：＜一！ＲＬＩＴ　ｓｏｕｒｃｅ　ｓｔａｒｔ一＞　“来源”结束标志：＜．！ＲＬＩＴ　ｓｏｕｒｃｅ　ｅｎｄ．＞　“内容”起始标志：＜．！ＲＬＩＴ　ｃｏｎｔｅｘｔ　ｓｔａｒｔ．＞　“内容”结束标志：＜．！ＲＬＩＴ　ｃｏｎｔｅｘｔ　ｅｎｄ．＞　“创建时间”起始标志：＜．！ＲＬＩＴ　ｄａｔｅ　ｓｔａｒｔ一＞　“创建时间”结束标志：＜．！ＲＬＩＴ　ｄａｔｅ　ｅｎｄ．＞　图４新闻内容采集设置（节选）　Ｆｉｇ．４　Ｎｅｗｓ　Ｃｏｎｔｅｎｔ　Ｇａｈｔｅｎｎｇ　Ｓｅｔｔｎｉｇ（ｅｘｃｅｒｐｔ）　４结论　本文阐述了Ｗｅｂ信息采集技术，提出一个基于　６１０７０１９４），国家发改委信息安全专项（发改办高　技［２００９１１８８６号文），国家财政部、工信部重大科技　成果转化项目（财建［２０１０１３４１），湖南省科技计划　一应用基础研究重点项目（２０１１ＦＪ２００３）的资助，　在此表示感谢！　参考文献：Ⅲ　　彭涛．面向专业搜索引擎的主题爬行技术研究【Ｄ】．长春：　吉林大学，２００７．　赵建涛，徐玉凤．基于ＲＳＳ的新闻采集系统的研究［Ｊ］．西　安航空技术高等专科学校学报，２０１０，２８（３）：５３．５５　宗校军．中文网页定题采集及分类研究［Ｄ】．武汉：华中科　技大学，２００６．　Ｇａｕｔａｍ　Ｐａｎｔ，Ｐａｄｍｉｎｉ　Ｓｆｉｎｉｖａｓａｎ．Ｌｉｎｋ　Ｃｏｎｔｅｘｔｓ　ｉｎ　Ｃｌａｓｓｉｉｆｅｒ－Ｇｕｉｄｅｄ　Ｔｏｐｉｃａｌ　Ｃｒａｗｌｒｅｓ［Ｃ】．ＩＥＥＥ　Ｔｒａｎｓａｃｔｉｏｎｓ　ｏｎ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｄａｔａ　Ｅｎｇｉｎｅｅｒｉｎｇ，２００６，１８（１）：１０７－１２２　胡静芳，沈亚斌．基于Ｗｅｂ的新闻采集系统［Ｊ］．电脑知识　与技术，２００９，５（１９）：５１１１－５１１３．　胡凌云，胡桂兰，徐勇，等．基于Ｗｅｂ的新闻文本分类技术　的研究［Ｊ］．安徽大学学报：自然科学版，２０１　０，３４（６）：６６．７０．　王涛．基于ＨＴＭＬ标记的主题爬行器的设计与实现［Ｄ］．　西安：电子科技大学，２００９．　Ｓｒｉｎｉｖａｓｎａ只Ｍｅｎｃｚｅｒ　Ｅ　Ｐａｎｔ　Ｇ．Ａ　Ｇｅｎｅｒａｌ　Ｅｖａｌｕａｔｉ０１１　Ｆｒａｍｅｗｏｒｋ　ｆｏｒ　Ｔｏｐｉｃａｌ　Ｃｒａｗｌｒｅｓ［Ｊ］．Ｉｎｆｏｒｍａｔｉｏｎ　Ｒｅｔｒｉｅｖａｌ，　２００５，８（３）：４１７－４４７．　王煜，张浩斌．面向主题的网页采集系统的设计与研　究［Ｊ］．计算机与数字工程，２００８（４）：７８，８０．　张春元，康耀红，伍小芹．Ｗｅｂ新闻自动采集发布系统的　设计与实现［Ｊ］．计算机技术与发展，２００９，１９（９）：２５０．２５２．　姜鑫．基于网页连通信息的主题爬行技术研究与实现【Ｄ】．　吉林：吉林大学，２００９．　吴定明，赵东岩．一种互联网新闻网页的采集分析方　法［Ｊ］．计算机工程与应用，２００７，４３（３６）：１６９．１７２．　洪辉，刘子敬，李石君，等．智能ＷＥＢ信息提取系统的研　究和设计［Ｊ】．微计算机信息，２００５，２１（１　１）：７１．７４．　．　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

基于Web结构的网站新闻采集系统的设计与实现