科研成果

Web精确爬取、分析与处理系统

发布日期:1970年01月01日浏览次数:41 打印

本系统包括3个子系统:
Web精确爬取子系统
网络商城数据采集与分析子系统
微博数据采集与分析子系统
Web精确爬取子系统
本系统结合目标Web站点的特征,运用信息定制技术对指定的网页进行信息抽取和解析,并且对抽取得到的信息进行建立索引,同时实现了中文分词技术以提供分类更细致精确、数据更全面深入、更新更及时的因特网搜索服务。系统功能:
1)Web结构分析、解析模块
对Web页面及其结构进行精确分析;在HTML协议的基础上,对Web页面进行解析,精确提取出所需要的信息。
2)爬取模块
爬取模块通过制定Web站点的爬取策略,对目标站点进行遍历爬取,将所爬取的内容存入数据库。
3)索引与搜索模块
建立全文检索,可以方便的嵌入到各种应用中实现针对应用的全文索引/检索功能。
网络商城数据采集与分析子系统
随着网络购物的流行和网络商城的增多,网络商城的信息量逐渐增多,那么如何对网络商城进行数据采集和数据分析也成为了一种趋势。本系统利用主题爬虫算法对网络商城进行数据采集和分析,对网络商城上各商品的销售等相关情况进行分析,为各种商务提供决策支持。
子系统功能:
1)商城数据采集模块
在网络商城数据采集模块中,主要包括以下几个子功能:
a)设置初始链接,即我们想要采集的页面。
b)在初始链接中抓取孩子链接,即根据初始页面,采集该页面下的所有子页面。
c)根据网络商城爬虫算法,算出对应子链接的价值,并进行排序。
d)根据对每个子链接进行访问。
e)利用爬虫工具抓取所访问页面的商品名称、商品价格、商品销售量等我们想要爬的数据。
f)把以上爬虫工具所抓取的数据保存到数据库中。
2)商城数据分析处理模块
对所采集到数据进行处理,得到相关统计信息,为网络商城的业务开展提供决策支持。
微博数据采集与分析子系统
微博作为Web2.0概念下的典型应用正在推动整个互联网业的发展,如今,微博已经成为互联网上一种重要的信息源。本系统通过对大量微博数据的采集、挖掘和分析,根据微博信息资源个性化和多样性的特点,利用不同的分析策略,组织、检索微博资源,挖掘有价值的信息;同时,利用不同模型分析微博的信息传播途径,生成多种多样的图表统计分析报告。为微博营销等提供建设性的意见和建议。
子系统的功能主要有如下几个:
重点微博账号监控:针对某些特定的微博账号,进行实时监控。
微博用户的属性:微博用户的创建时间;微博用户的博文数量;男女粉丝比例、粉丝数好友数的极值和平均值等信息。
微博传播方式:某一微博的传播路径;微博的双向传播关系,微博用户中粉丝数和朋友数的关系,即被关注与关注的关系;分析微博传播的方式,如蝴蝶模式、蒲公英式传播、HUB式传播、双子星式传播等传播方式。
微博情感分析:对于微博内容中出现积极词汇(包括开心,喜悦,快乐,笑)和消极词汇(难过,难受,郁闷,哭)的分析微博用户的情感。
微博关注领域分析:分析出对微博内容中的特定关注领域,如汽车、装修等相关感兴趣内容。
微博营销:根据微博用户的特点,有针对性的制定营销方案。

专利名称:

专利类型:

专利号:

专利申请日期:

联系人:陈志德

联系电话:13959158448