您的当前位置:首页正文

基于Web结构的网站新闻采集系统的设计与实现

2022-10-23 来源:布克知识网
第33卷第2期 2012年3月 Vo1.33 No.2 Mar.2012 井冈山大学学报(自然科学版) Journal of Jinggangshan University(Natural Science) 54 文章编号:1674.8085(2012)02—0054-04 基于Web结构的网站新闻采集系统的设计与实现 陈建国 (1.湖南大学软件学院,湖南,长沙410082;2.厦门理工学院,福建,厦门361021) 摘要:在深入研究网络信息采集技术的基础上,提出一个基于Web结构的新闻采集模型。该模型加载采集入口 地址后,通过信息采集和过滤算法确定新闻列表页,结合正则表达式技术自动识别新闻内容页的链接地址,访问 目标新闻内容页,使用采集算法自动提取新闻信息数据。同时,它可以过滤在此页面中嵌入的广告等信息。实践 结果表明,该模型工作良好,可以自动化、高效率地采集新闻信息。 关键词:信息采集;Web结构;正则表达式;数据挖掘;新闻采集 中图分类号:TP27矿.2 文献标识码:A DOI:IO.3969 ̄.issn.1674—8085.2012.02.014 DE SIGN AND IMPLEMEN,I'.ATIoN oF NEWS GATHERING SYSTEM BASED oN WEB STRUCTURE CHEN Jian-.guo , (1.SoRware School ofHunan University,Changsha,Hunan 410082,China;2.Xiamen University ofTechnology,Xiamen,Fujian 361021,Chia)n Abstract:On the basis of depth studying the technology of web information gathering,a web structure—based news gathering model is proposed.It load the gathering entry address,find the news list page with the iformatnion gathering and iflter algorithm,identify and improve the news content page link address according to the rules set by acquisition and the regular expression technology automatically.Furthermore,it load the target page--news content page,gather the news information with the algorithm automatically.At the same time,it can ilfter any information that is set in this page such as embedded advertising messages.Practical results show that the proposedmodelworkswell andgathersnewsiformatnion eficifently andautomatically. Key words:information gathering;Web structure;regular expressions;data miing;news ngathering 将这些URL放入一个采集队列,顺序读取URL以 1 WEB信息采集和新闻采集 1.1 Web信息采集 Web信息采集是指通过Web页面之间的链接 关系,从Web上自动地获取页面信息,并且随着链 获取目标网页,调用采集和过滤规则在信息页面中 进行信息识别和提取,最后将采集得到的新闻信息 和相关数据保存到数据库或其他进一步加工。 1.3研究现状 目前,国内外关于Web信息采集技术的研究已 接,使用广度优先遍历算法不断地向所需要的Web 页面查找、扩展的过程【】J。 1.2新闻采集 新闻采集是Web信息采集在网络新闻领域的应 用[2】。其核心实现过程如下:由采集入口URL开始, 取得一定成果,总结如下: 基于自然语言处理L3】:主要适用于含有大量文 本的Web页面,将w_eb文档视为文本进行处理的, 抽取的实现没有利用Web文档独特于普通文本的 层次特性.获得有效的抽取规则需要大量的样本学 收稿日期:2012-01—17;修改日期:2012—02—18 作者简介:陈建1 ̄(1985一),男,福建泉州人,讲师,硕士,主要从事软件开发及数据挖掘研究(E-mail:xuxl6125@163.com). 井冈山大学学报(自然科学版) 55 习【4】o 基于包装器归纳方式的信息抽取【5 J:该系统语 义和模式信息是用户附加的,通过感兴趣信息的左 右边界实现信息的定位,该方法仅仅使用语义项的 上下文来定位信息并没有使用语言的语法约束【bJ。 基于本体的信息采集方法【7】:利用对数据本身 的描述信息实现抽取,较少依赖网页结构。 基于查询的Web信息提取[81:使用Web的相关 技术解决Web的问题,由于Web抽取规则的形式 和感兴趣信息的定位方式各不相同,因此均不具有 通用性。 基于语义信息抽取技术[91:由于HTML标志缺 乏对数据本身的描述,又因为数据受描述语法,文 化区域和应用领域等方面的限制,缺乏足够的语义 信息,因此影响抽取效率和准确度。 1.4本文工作内容 虽然网页类型和结构不同,但一个网站中的各 页面结构具有一些特定规则,如页面内容往往是以 一种结构化的方式来组织,所以我们可以根据web 结构进行网络新闻信息的提取和采集,研究web结 构,结合正则表达式,通过页面结构的模式匹配实 现数据提取和收集。本文的主要任务: (1)设计一个基于Web结构的新闻采集系统 模型; (2)页面采集算法,信息块采集算法和信息 块过滤算法研究; (3)实现基于Web结构的新闻采集系统。 2基于Web结构模型的新闻采访 2.1系统模型 本系统通过采集入口和页面采集算法进入新 闻列表页,调用信息块采集方法确定新闻内容页的 URL列表,然后自动加载URL列表中的目标页, 调用信息采集和过滤算法反复采集新闻内容的信 息,最后存放到相应数据库中。本系统支持采集入 口设置,采集规则和过滤规则设置,并支持批量采 集功能,采集时间和周期可调节。 2.2信息采集和过滤算法 本系统所用到的信息采集和过滤算法主要包 括以下三种: (1)页面采集算法:通过URL加载一个页面, 然后获得页面的源代码[m】。该算法将用于加载新闻 列表页和新闻内容页。核心算法代码如下(C#): III<summary> ///Algorithm ofWeb information Gathering ///</summary> ///<param name=”weburl”>Page URL for Gather</param> public string GetRSS——HtmlCode(srting webur1) { stringHtmlCode= : W_ebClient WC=new WlebClient(); WC.Credenfials=CredentialCache.DefaultCreden tials; Byte口PageData=WC.DownloadData(webur1); HtmlCode = Encoding.Default.GetString (PageData); WC.Dispose(); Session.Abandon(); return HtmlCode; ) (2)信息块采集算法:该算法接收三个参数: 信息块代码、采集开始标志和采集结束标志:使用正 则表达式技术进行信息匹配,以确定要采集的信息 块。核心算法代码如下(C#): ///<summary:> ///Algorithm of Information Block Acquisiiton ///</summary> ///<paramname=”htmlstr”>信息块代码</param> ///<param name=”startstr”>起始标志</param> ///<param name=”endstr”>结束标志</param> string[]Get__RSS Str(string htmlstr,string startstr, string endstr) { string srt startstr ”cccjianguo” endstr; string RLArea str.Replace(”cccjianguo”, @”([\S\s] ?)”); string[] ̄ltAry; Regex tmpreg new Regex(RLArea, RegexOptions.Compiled); MatchCoUection sMC= 56 井冈山大学学报(自然科学版) tmpreg.Matches(htmlstr); if(sMC.Count!=0) { RsltAry=new string[sMC.Count]; for(inti=0;i<sMC.Count;i++){ RsltAry[i]=sMC[i].Groups[1].Value; ) )else{  ̄ltary new string[1]; RsltAry[O】=…’; } return RsltAry; ) (3)信息块过滤算法:该算法接收三个参数: 信息块代码、过滤开始标志和过滤结束标志;使用正 则表达式技术进行信息匹配,以确定要过滤的信息 块[11]。 2-3采集入口 在这里进行采集入口的设置,我们可以设置一个 新闻网站的主页作为采集入口,调用页面采集算法 提取新闻列表页路径代码。 2.4新闻列表采集 从新闻列表页中采集新闻内容页的链接URL 的工作有两个步骤。首先,删除无关信息,提取新 闻列表信息块代码,然后从列表信息块代码中标识 新闻内容页面地址,制定地址标准格式来修订和改 善的新闻链接地址。 (1)获取新闻列表页代码 获取新闻列表页面代码,人工分析和识别页面 代码,找到新闻列表信息块的起始标志和结束标 志。调用采集算法,输入页面代码、信息块起始标 志和结束标志,系统根据获得新闻列表信息块代 码。 (2)新闻链接网址采集 对获取的信息块代码重新进行人工分析和识 别,找到新闻链接信息的代码,标志起始和结束标 记[12-13]。调用采集和过滤算法,输入信息块代码列 表、新闻链接起始标志和结束标志,系统自动删除 无关信息,准确读取新闻内容页链接URL列表。 2.5新闻内容采集 (1)获取新闻内容页代码:调用采集算法从新 闻链接URL列表中的各项找到新闻内容页,获取 新闻内容页面代码。 (2)新闻信息采集:手动分析和识别页面代码, 标记各新闻信息块的开始和结束标志,如标题、来 源,内容,创建时间,调用信息采集和过滤算法, 提取有关的新闻信息,然后保存到数据库或其他媒 介中。 3基于Web结构的新闻采集系统实现 3.1应用程序概述 本文采用作者自主开发的“锐龙新闻采集系统” 作为实现案例,“锐龙新闻采集系统”是新闻网站系 统的一个子系统。该系统采用B/S模式,主要用于 新闻发布网站的新闻信息采集工作,方便新闻稿件 管理,大大提高新闻稿件编辑的效率和准确性,有 很强的适用性和推广价值。 3.2采集入口设置 通过友好的可视化界面进行采集入口地址的设 置,界面如图1所示。本实例的采集入口设置如下: http://www.ruilongit.corn/News List.aspx?NT ID=I。 i ;蔓i;  j来瑕弼站 l襄Ij臣名耨 { 。 。。===:=:== = :=== :=.-。c.。t。 e.t 。 t ===二=; ,。了i. lIiL.^‘s。ft c. tt- || 一眷,0|| 二H= 二二=_=二一 = 一…一……~……--__~ f 采集地址 { : :: ::: : 』 i j嗣褥凇爱 ■一……………~ l _…* *b~……一~一…一 i l j糕 囊彰 l l 图1采集入口设置 Fig.1 Acquisition entrances setting 3-3新闻列表采集 (1)新闻列表页采集:分析和确定的新闻列表 页中的代码,找到新闻列表信息块的开始和结束目 标,提取新闻列表,作为新闻内容页链接网址的采 集源。 新闻列表信息块的起始标志:<ul class=”newsl”> 新闻列表信息块的结束标志:</ul> (2)新闻内容页URL采集:通过链接地址采集 算法进行分析和识别源代码,找到新闻内容页链接 信息块的开始和结束标志,获取新闻内容页的URL 列表。新闻内容页URL采集设置如图2所示。 新闻内容页链接信息块的起始标志: <li> <label><ahref=” 新闻内容页链接信息块的结束标志: ”target =”blank”title=” 井冈山大学学报(自然科学版) 57 Web结构的新闻采集模型,结合互联网新闻网站的 新闻采集系统实例,重点实现了基于Web结构的新 闻采集系统。实践表明,该系统可以利用信息采集 和过滤算法自动化、高效率地进行新闻信息采集。 5 致谢 图2新闻列表采集设置 Fig.2 News list gathering setting 本课题得到了国家自然科学基金项目(No. 采集得到的页面链接URL列表如图3所示。 http:,,蚋_”.rutlongit.com/HewsContent.aspx?X_IO-11 —http:,,蚋螂.roilongit.conlNe@s—Content.aspx?H ID。1 http:,,_H .ruilongit.com]Hews_Content.aspx?XID 82 _http:ll@ww.ruilongit.corn/Hews—Content.aspx?H_ID‘21 http:,,""_.rutlongtt.com/News Content.aspx?HID 81 _http:lluww.rutlonglt.com/Hes ̄sContent-aspxYHlO。S3 __http:tim.ruilongit.corn/NewsContent.aspxTNID-12 .—图3新闻列表采集结果 Fig.3 Results of news list gathering 3.4新闻内容采集 调用采集算法,通过每个新闻内容页的链接路 径,得到各新闻内容页面代码,作为新闻内容的采 集源。经过人工识别和分析页面代码,标志各新闻 信息块的开始和结束标记,如标题,来源,内容, 创建时间,如图4所示。然后调用信息采集和过滤 算法,删除无关的信息,提取相关的新闻信息,并 保存到系统数据库中。 “标题”起始标志:<!一RLIT title stgrt.> “标题”结束标志:<!一RLIT title end一> “来源”起始标志:<一!RLIT source start一> “来源”结束标志:<.!RLIT source end.> “内容”起始标志:<.!RLIT context start.> “内容”结束标志:<.!RLIT context end.> “创建时间”起始标志:<.!RLIT date start一> “创建时间”结束标志:<.!RLIT date end.> 图4新闻内容采集设置(节选) Fig.4 News Content Gahtenng Settnig(excerpt) 4结论 本文阐述了Web信息采集技术,提出一个基于 61070194),国家发改委信息安全专项(发改办高 技[200911886号文),国家财政部、工信部重大科技 成果转化项目(财建[20101341),湖南省科技计划 一应用基础研究重点项目(2011FJ2003)的资助, 在此表示感谢! 参考文献:Ⅲ  彭涛.面向专业搜索引擎的主题爬行技术研究【D】.长春: 吉林大学,2007. 赵建涛,徐玉凤.基于RSS的新闻采集系统的研究[J].西 安航空技术高等专科学校学报,2010,28(3):53.55 宗校军.中文网页定题采集及分类研究[D】.武汉:华中科 技大学,2006. Gautam Pant,Padmini Sfinivasan.Link Contexts in Classiifer-Guided Topical Crawlres[C】.IEEE Transactions on Knowledge and Data Engineering,2006,18(1):107-122 胡静芳,沈亚斌.基于Web的新闻采集系统[J].电脑知识 与技术,2009,5(19):5111-5113. 胡凌云,胡桂兰,徐勇,等.基于Web的新闻文本分类技术 的研究[J].安徽大学学报:自然科学版,201 0,34(6):66.70. 王涛.基于HTML标记的主题爬行器的设计与实现[D]. 西安:电子科技大学,2009. Srinivasna只Menczer E Pant G.A General Evaluati011 Framework for Topical Crawlres[J].Information Retrieval, 2005,8(3):417-447. 王煜,张浩斌.面向主题的网页采集系统的设计与研 究[J].计算机与数字工程,2008(4):78,80. 张春元,康耀红,伍小芹.Web新闻自动采集发布系统的 设计与实现[J].计算机技术与发展,2009,19(9):250.252. 姜鑫.基于网页连通信息的主题爬行技术研究与实现【D】. 吉林:吉林大学,2009. 吴定明,赵东岩.一种互联网新闻网页的采集分析方 法[J].计算机工程与应用,2007,43(36):169.172. 洪辉,刘子敬,李石君,等.智能WEB信息提取系统的研 究和设计[J】.微计算机信息,2005,21(1 1):71.74. . 

因篇幅问题不能全部显示,请点此查看更多更全内容