<?xml version="1.0" encoding="gb2312"?>
<rss version="2.0">
<channel>
<title><![CDATA[触发灵感的最大值，在无限的逼近中---武大沈阳的博客]]></title>
        <image>
        <title>http://hi.baidu.com</title>
        <link>http://hi.baidu.com</link>
        <url>http://img.baidu.com/img/logo-hi.gif</url>
        </image>
<description><![CDATA[对小任务或者每周开会感兴趣的可以加入QQ群：87736543]]></description>
<link>http://hi.baidu.com/whusoft</link>
<language>zh-cn</language>
<generator>www.baidu.com</generator>
<ttl>5</ttl>


<item>
        <title><![CDATA[情感分析和倾向分析]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/748b8bef6cd5943cadafd569.html]]></link>
        <description><![CDATA[
		
		<p><font size="4">1微博客心情挖掘研究（英文已于2009年8月发表，中文草稿只贴，定稿版以英文为准，最新版的工具做了若干微调）<br>
沈阳1 李舒晨2 郑玲3 任晓东 程小龙<br>
（1武汉大学信息管理学院 430072 2武汉大学国际软件学院430072 3武汉大学测绘学院30072）<br>
　　摘 要： 为确定语料所表达的情绪，对微博客数据所表现的情感进行情感估计，本文对情感词进行分类，构建含有1342词的态度词权值词典，并引入自定义的否定词词典、程度词词典和感叹词词典，对2213条微博客进行分类统计分别得到首句和尾句表句子主要意思的条目占复句的比例为23.8%和51.3%。先算每个分句的权值，然后对首尾句的权值特殊处理再叠加得到某条微博客的心情指数。使用C#语言编写的微博客心情权值计算器情感识别测试的结果经交叉判定正确率达到80.6%。<br>
　　关键词：态度词 权值字典 心情指数 权值计算<br>
Emotion Mining Research on Micro-blog<br>
(1 School of Information Management, Wuhan University 430072;2 International School of Software, Wuhan University, Wuhan 430079;3 School of Geodesy and Geomatics, Wuhan University, 430072)<br>
Abstract :In order to identify the emotion expressed in corpus and to estimate the feelings conveyed by micro-blog data, in this paper, we categorize emotional words, build attitudinal words weight dictionary(WD) which consists of 1342 words, and introduce self-defined negative words dictionary(NWD), degree words dictionary(DWD) and interjection words dictionary(IWD). We then process classified statistics on 2213 micro-blog items, finding that items whose first sentence express the main idea accounts for 23.8% of all the complex sentences, and items whose last sentence express the main idea 51.3%, respectively. We first calculate the weights of each clause in a micro-blog item, then take special treatment to the first and last sentence, finally we add up all the weights to get the emotional index(EI) of the item. Test results from the micro-blog emotion weight calculator(MBEWC) developed in C# are cross-checked and reach an accuracy rate of 80.6%. <br>
Keywords: attitudinal words, weight dictionary, emotional index, weight calculating</font></p>
<p><font size="4"><br>
1.心情挖掘研究背景<br>
　　在人机交互领域，情绪对反应的影响早已被人们所重视，尤其在工作和产出效率方面[1]。2006年，Chung-Hsien Wu使用了一种新颖的方式，包括构建情感规则、表示语义标记和属性、构建情感相关性规则和使用独立的混合模型，自动识别文本中的情感，并将情感简化为高兴、不高兴和中立三种[2]。同年，Jon oberlander开始使用个人博客语料库对博客作者的情感进行分类[3]。2007年，Kazuyuki?Matsumoto通过构建情感字典来确定文本对话中的情感，他们根据词出现在某一情感环境中的概率来确认权值，并获得80%左右的情感确定精确度[4]。2008年，Jon oberlander的同伴Alastair J. Gill对博客文本进行情感评定，发现当文本关键词倾向性很强时，对情感的评判随着文章长度增长越发准确，而对于文本关键词大多倾向中立的文章，评判结果误差较大[5]。本文的研究将Kazuyuki?Matsumoto与Chung-Hsien Wu的主要研究思想结合，通过构建权值字典来确定语料所表达的情绪。《普通心理学》一书将一般心情分类为快乐、愤怒、恐惧和悲哀四类[6]，在此将后三种情绪合并，将情绪定义为积极情绪和消极情绪，并根据微博客信息量有限的特点加入中立情绪。<br>
2挖掘方法<br>
　　心情挖掘主要借助微博客文本中的语义规律给每一条微博客数据赋值，通过值的大小来判断心情。定义该值为心情指数，即为每条微博客语句中情绪状态的判断指标。心情指数为正表示积极情绪，心情指数为负表示消极情绪，心情指数为0表示中立情绪。心情指数越高，表示心情越积极；心情指数越低，表示心情越消极。<br>
2.1 权值字典的构建<br>
　　语料选择的方法关系到语料库的覆盖率,所谓覆盖是指语料在各个不同领域的分布或散布,这些不同领域通常是指由时间轴(反映时代特征) 、空间轴(反映地域特征) 、学科轴(反映知识特征) 、风格轴(反映语体特征) 构成的四维模型[7]。然而，由于微博客140个字符的限制和目前多数用户主要关心天气、生活、电影、感情、情绪等日常话题，且存在大量没有与人交流的隔离用户[8]，使得微博客不可能有完备的时间轴，空间轴，学科轴和风格轴。所以本文直接筛选微博客中的关键词进行计算，从而得出整个微博客的心情指数。而且，微博客中存在大量的垃圾信息，在计算微博客心情指数之前，要去除微博客中与情绪无关的广告类和推介类微博客。2008年，徐琳宏对情感语料库的构建和分析进行了研究[9]，并从教科书、文学类书籍中采集了大量的语料。此研究以篇为研究对象，标注句；而微博客以句为单位，标注词。同时，此研究经构建的大语料库证明，无感情类语句最多[25]，这也从侧面证明了定义中立情绪的可行性。此研究的局限性是对否定词和程度副词的划分与判断没有给出相应的解决方法。事实上，信息中否定词对句子情感色彩影响也较大,特别是对语句的褒贬倾向性影响较大[10]。鉴于此，又构建了否定词库。中文存在多重否定现象，当否定词出现奇数次时，表示否定意思；当否定词出现偶数次时，表示肯定意思。<br>
　　首先，定义词的权值，引入态度词的概念，并打破传统的动词、名词、形容词的分类。态度词指表示人态度的词语，如欢喜、悲伤等，大部分态度词由动词、形容词和副词组成，并含有少量名词。同时，并不是所有的动词、形容词和副词都能表示态度。每个态度词对应一个表示心情程度的权值，将权值的范围定义为[-20, 20]，例如，狂喜的权值是20，绝望的权值为-20。正值表示积极的心情，负值表示消极的心情。某个词的正值越大，表示越能表达积极的情绪；反之，表示越能表达消极的情绪。之后，使用微博客抽取工具抽取微博客&ldquo;饭否&rdquo;中的数据，在这些数据中随机选取2000条数据，过滤掉广告、推介、火星文等类型的微博客条目，余下1403条数据。按照态度词的定义，通过3个人人工标注，加权平均后，在1403条微博客数据中初步标注出524个态度词，并按权值排序组成权值字典；并且初步组成了含有13个常见否定词的否定词词典。在进一步的试验中，借助同义词词典对权值字典词汇量进行了人工扩充，通过7个人交叉进行权值标注，经加权平均后，得到了现有的1342个态度词的权值字典。权值字典构建过程如图1所示：<br>
　<br>
　　直接使用微博客而不使用已有教科书、文献作为语料来搜集权值词典有以下两个原因：（1）微博客表达内容有限。完整文章通常表达一个或多个完整的意思，而微博客140个字符通常只能比较一个完整或较完整，甚至不完整的意思。微博客用语属于非正式的书面语，与正式书面语有明显区别。（2）网络词汇丰富。由于微博客最初出现的载体是互联网，为此微博客中存在各种各样的网络用语，这些词语在正式书面语语料库中并不常见，但在微博客中比比皆是。在后续研究中，可以根据心情挖掘的对象来构建语料库的构建。并且，还可以另外通过传统文献，教科书等构建通用权值字典，从而对传统博客、文章、文献，甚至评论的心情、情绪进行挖掘，同样具有巨大的价值。<br>
2.2心情计算器算法简述与算法改进<br>
　　构建好权值字典后，使用C#语言编写了微博客心情计算工具&ldquo;ROST微博客心情权值计算器&rdquo;。&ldquo;ROST微博客心情权值计算器&rdquo;在改进的过程中有以下3个版本：（1）beta1：不带否定词典；（2）beta2：带否定词典；（3）beta3：带否定词典，增加程度词和感叹词词典，改进算法。<br>
　　在最初版本的&ldquo;ROST微博客心情权值计算器beta1&rdquo;中，只考虑标记关键词的方法，并没有加入否定词，并且使用的权值词典为手工构建的524个词的权值词典。随后，对权值字典进行了人工扩充，增加到1342个词，并构建了小型的否定词典。&ldquo;ROST微博客心情权值计算器beta2&rdquo;对算法进行改进，考虑了否定词，并使用扩充词典。在进一步的研究过程中，由于许多态度词中本身还有否定词，原来算法会重复计算态度词中的否定词，从而使计算结果产生错误。<br>
改进后算法基本思路： <br>
（1） 读入一条微博客文本a，将微博客按标点进行分句a1, a2, …, an；<br>
（2） 搜索a1所有包含在权值字典中的态度词，将a1中所有态度词的权值进行叠加，得到v1；<br>
（3） 搜索a1所有包含在否定字典中的否定词数量。当否定词为奇数个时，将a1所在分句态度权值v1转化为-v1；<br>
（4） a1计算完毕，搜索a的下一分句a2重复（2）（3）计算v2；<br>
（5） 直到计算出vn后，将v1, v2, …, vn相加得到v，即一条微博客a的心情指数；<br>
（6） 读入下一条微博客b重复（1）。<br>
　　改进后微博客权值F计算公式如下：<br>
　&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  <br>
　其中a为微博客，w为权值字典中的权值。i表示一条为博客中的第i个分句，j表示一个分句内第j个带有权值的词（即该词包含在权值字典中）。改进后关键代码如下：<br>
　token[n] = microblog[m].spliter; //将一条微博客进行分句<br>
　getWeight(Dic, token[n]); //计算一分句微博客态度词的叠加值<br>
　if countNumber(NegtiveWord)%2 == 1<br>
　 getWeight = -getWeight; //如果否定词数为奇数，将此分句心情值取相反数<br>
　Weight = Weight + getWeight; //叠加各分句的心情值 <br>
2.3 进一步改进的算法基本思路和关键代码<br>
　　在进一步的研究当中，语句中的程度词和感叹词对句子情感的表现的作用非常突出，而心情工具在处理这类问题时往往容易出错，于是，在以前的基础上又添加了相关的含有10个词的程度词词典和含有16个词的感叹词词典。此外，根据中国人说话的习惯，通常首句和尾句的地位比较重要，改进的算法在计算微博客心情指数时对首句和尾句进行特殊处理。为了得到首尾句的相关关系，对2213条微博客条目做了相关的研究和统计。抽取饭否中的2213条微博客数据，经统计，单句为808条。在1405条复句中，首句表句子主要意思占复句23.8%，尾句表句子主要的意思为51.3%，其他为24.8%，如表1所示：<br>
表1 单复句分类统计结果<br>
2213条微博客条目<br>
单句808条，占微博客总条目数36.5%</font></p>
<p><font size="4">复句808条，占微博客总条目数63.5%<br>
首句表句子的主要意思：335条，占复句条目比例23.8%</font></p>
<p><br>
<font size="4">首句表句子的主要意思：721条，占复句条目比例51.3%</font></p>
<p><br>
<font size="4">其他：349条，占复句条目比例24.8%<br>
　　改进后算法基本思路： <br>
（1） 读入一条微博客文本a，将微博客按标点进行分句a1, a2, …, an；<br>
（2） 搜索a1所有包含在权值字典中的态度词，将a1中所有态度词的权值进行叠加成，得到v1，删除a1中经过匹配的态度词得到a1?；<br>
（3） 搜索a1?所有包含在否定字典中的否定词数量，每匹配一个否定词删除a1?中所包含的此否定词得到a1?。重复（3）直到a1?中不含有否定词。当否定词为奇数个时，将a1所在分句态度权值v1转化为-v1；<br>
（4） 搜索a1?所有包含在程度字典中的程度词数量，每匹配一个程度词删除a1?中所包含的此程度词得到a1?。重复（4）直到a1?中不含有否定词。每增加一个程度词分句态度权值增加一倍。<br>
（5） 搜索a1?所有包含在感叹字典中的感叹词数量，每匹配一个感叹词删除a1?中所包含的此感叹词得到a1?。重复（5）直到a1?中不含有否定词。因中文由于感叹词大多一般都分两种：积极感叹词和消极感叹词。例如：哈哈，呵呵，唉，哼等，一看就知道知道其心情怎样，所以在句子起一定的主导作用。所以分别给它们1和-1两种性质的权，来判断整个句子心情值的走向。如果整个句子含有消极感叹词，则将a1所在分句态度权值v1转化为-v1，<br>
（6） a1计算完毕，搜索a的下一分句a2重复（2）（3）计算v2；<br>
（7） 直到计算出vn后，将v1, v2, …, vn 按特定的权重比例相累加到V，进数；<br>
（8） 读入下一条微博客b重复（1）。<br>
　　改进后微博客权值F计算公式如下：<br>
　　　　　　 （如果存在感叹词）&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  <br>
　&nbsp;&nbsp;  F =<br>
　&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  （否则）&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  （III）<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  （IV）&nbsp;&nbsp;&nbsp;  <br>
　　　　　　&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  (IV)&nbsp;&nbsp;&nbsp;&nbsp;  <br>
　　其中a为微博客，w为权值字典中的权值。i表示一条为博客中的第i个分句，j表示一个分句内第j个带有权值的词（即该词包含在权值字典中）。改进后关键代码如下：<br>
if(token[n].hasDegreeWord)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  // 判断分句是否含有程度词countDegreeNumber(DegreeWord)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  //计算一分句微博客程度词的个数<br>
　　&nbsp;&nbsp;  getWeight=getWeight*(countDegreeNumber+1) //每多一个程度词，其心情值翻一倍<br>
　if(token[n].hasExclamationWord)&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;  // 判断分句是否含有感叹词<br>
　　 getWeight=exclamationWeight *︱getWeight︳//如含感叹词，将此分句心情值取绝对值，乘以感叹词的性质权<br>
Total=24%FirWeight+25%∑(MidWeight)+51%LasWeight //将整个句子，按分句的位置进行权值分配,FirWeight代表第一个分句，MidWeight代表中间的分句，LasWeight代表最后一句分句<br>
2.4 心情计算的基本过程<br>
　　微博客心情计算的基本过程如图2所示。首先，将一条微博客按标点进行分句。其次，在一条微博客分句中查找包含在权值字典中的词，将它们的权值叠加。再次，在该条微博客分句中查找包含在否定词典中的词，并统计数目，以确定肯定或否定语气。最后，将每一分句的计算值叠加，得出一条完整微博客的心情值。</font></p>
<p><font size="4">图2 微博客心情计算的基本过程<br>
3 心情计算成功率<br>
　　为检测ROST心情权值计算器的准确性，设计了以下3组共6个试验进行准确率对比：（1）beta1（不带否定词典），与1342词权值字典和524词权值字典；（2）beta2（带否定词典），与1342词权值字典和524词权值字典；（3）beta3，（带否定词、程度词和感叹词词典，改进算法），与1342词权值字典和524词权值字典。<br>
　　由于算法精确度限制和心情界定模糊的影响，本文认为若句子表达积极心情且计算结果为正，句子表达消极心情且计算结果为负，计算成功。由于句子无法表达心情情况的特殊性，在判断上可能产生不同的偏差，当计算结果在[-3，3]时，计算成功。其他情况则计算失败。<br>
3.1 试验数据集的选取和试验步骤<br>
　　首先，在饭否的已抽取数据集中选择一天的数据，选择2008年10月12日的数据2582条。之后，按照上文中提到的微博客垃圾信息种类，用ROST Content Mining先分词，然后对数据集按照时间段切割成若干文档，将某个时间段的文本看做一个文档，利用传统的TFIDF变形公式计算出一些无效常用词词频并构建为过滤词表，依次去除了链接、天气预报、满140字推介信息，余下2213条微博客作为试验对象。<br>
　　&nbsp;&nbsp;&nbsp;&nbsp;  （VI）<br>
　　表示文档d的长度，avg_len表示所有文档的平均长度，N表示全部训练文档的总数，n(t)表示包含词t的文档数。<br>
　　由于目前软件不能支持英文检测和软件的局限性，全英文条目人工和软件都判其心情指数为0。首先，3个人交叉判断2125条微博客并标注积极、消极情绪和中性，。得到表积极情绪条目605条，984条表消极情绪的条目，624条无明显感情的中性条目。然后，将这三个经初步统一的条目分别由另外5个大学生判断其表现出来的情感倾向，得到如下表2所示结果,去掉相应的最大和最小值，取平均得到平均值。<br>
表2 2215条微博客分类判断结果</font></p>
<p><font size="4">积极<br>
中性<br>
消极<br>
总条目<br>
605<br>
984<br>
624<br>
No.1<br>
576<br>
940<br>
589<br>
No.2<br>
588<br>
884<br>
559<br>
No.3<br>
517<br>
946<br>
561<br>
No.4<br>
575<br>
950<br>
534<br>
No.5<br>
567<br>
924<br>
544<br>
平均值<br>
573<br>
945<br>
555</font></p>
<p><font size="4">　　最后，将此2125条微博客信息分别载入各版本的心情计算器进行计算。将计算结果与人工判断结果进行对比检查计算正确性。<br>
3.2 心情权值计算器4组试验结果比较<br>
表3 ROST 微博客心情权值计算器正确率<br>
版本号<br>
版本说明<br>
积极<br>
中性<br>
消极</font></p>
<p><font size="4">词典大小<br>
算法特征<br>
正确计算条目<br>
正确计算比例<br>
正确计算条目<br>
正确计算比例<br>
正确计算条目<br>
正确计算比例<br>
人工判断<br>
----<br>
--------<br>
573<br>
----<br>
945<br>
----<br>
555<br>
----<br>
BATE 1</font></p>
<p><font size="4">1342<br>
不考虑否定词<br>
480<br>
83.7%<br>
630<br>
66.6%<br>
284<br>
51.1%</font></p>
<p><font size="4">524<br>
不考虑否定词<br>
450<br>
78.5%<br>
629<br>
66.6%<br>
417<br>
75.1%<br>
BATE 2</font></p>
<p><font size="4">1342<br>
考虑否定词<br>
460<br>
80.2%<br>
627<br>
66.3%<br>
318<br>
55.9%</font></p>
<p><font size="4">524<br>
考虑否定词<br>
429<br>
74.8%<br>
633<br>
66.9%<br>
308<br>
55.5%<br>
BATE 3<br>
1342<br>
考虑否定词,改进算法<br>
462<br>
80.6%<br>
714<br>
75.6%<br>
322<br>
58.0%</font></p>
<p><font size="4">524<br>
考虑否定词,改进算法<br>
446<br>
77.8%<br>
743<br>
78.6%<br>
325<br>
58.6%<br>
　　将用524词权值词典测试出来的结果与用1324词权值词典测试出来的结果相比较，用1324词权值词典并不能明显大幅提升正确率。中性词条目测试结果，500词典的测试结果均比1324词词典测试正确率高，说明新增加态度词，有一部分本来表示无态度，或者表示态度但是存在正面和反面两种态度，却片面赋了某一方面的值，导致判断有误。<br>
　　纵向比较每个版本，对结果进行分析，版本2增加否定词词典以后，消极的条目正确率增加了，中性条目正确率基本没有变，但是积极条目的正确率却大大减少了，这是因为判断之前没有对句子进行分词，使得表积极情绪的句子判为负。<br>
　　在计算的结果中，加入首尾句的特殊处理后，测试的结果其值与前几个版本不加特殊处理相比较更符合实际情况，计算结果的精确度有较大幅度的提高。<br>
3.3 心情权值计算仍存在的问题<br>
　　在正确性统计阶段，ROST心情权值计算器在计算一般陈述句时或字面意思方面，准确率较高，但对以下五种情况存在较大的计算误差：反问句和疑问句；反语，如自嘲，即字面意思和实际意思相反；一部分古诗文；一句话中辩证地从正反两方面阐述同一事实，或同时对同一事物表达程度相当的积极和消极情感；以及，某些方言中的特定词汇。对这些误差较大的情况还有待于做进一步研究。<br>
4. 结论<br>
　　本文定义了态度词，构建了含有1342词的权值字典、含有13词的否定词典、含有10个词的程度词词典和含有16个词的感叹词词典，并提出一种计算微博客心情值的方法。此方法考虑了中文否定词、多重否定等语言现象对心情表达的影响。编写了ROST微博客心情计算器，批量计算微博客心情，达到80.6%的正确率。本文比较了词典容量大小、考虑否定词，和具体识别否定词的算法对准确率的影响。今后，我们将在此领域进一步进行研究，改进计算工具，提高准确率。同时，考虑将微博客挖掘移植到评论挖掘。</font></p>
<p> </p>
<p> </p> <a href="http://hi.baidu.com/whusoft/blog/item/748b8bef6cd5943cadafd569.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/748b8bef6cd5943cadafd569.html#comment">查看评论</a>]]></description>
        <pubDate>2009-12-02  10:27</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/748b8bef6cd5943cadafd569.html</guid>
</item>

<item>
        <title><![CDATA[从计算机科学看人类终极命运]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/e1e43d1eadd2d7fe1bd5769e.html]]></link>
        <description><![CDATA[
		
		<p><span><font size="4"><span><img class="blogimg" border="0" small="0" src="http://hiphotos.baidu.com/whusoft/pic/item/db774fb3d69ad188d8335a70.jpg"><br>
</span><br>
</font></span></p>
<p> </p>
<p><font size="4">今天我这些想法拍成科幻片，绝对大卖。</font></p>
<p><font size="4">---请阅读武大沈阳对未来100年-500年的预测（欢迎转载），你就当我喝高了写的</font></p>
<p><font size="4">互联网的终极进化方向也许是上帝之脑，这个大脑中也有各种思想的交锋，某段时间总会有某个思想占主流地位，一旦互联网中主流思想认定灭亡人类收益更大，人类灭亡的日子就到了，不过可以想象，和互联网融合的人类暂时是不会灭亡的，也许他们会开始新的造物和进化，现在的人类以某种新的形式出现，或者互联网进化太吓人之后，创造我们世界的所谓上帝，开始利用上帝之手干预，这些可能性都是需要考虑的。</font></p>
<p><font size="4">所以考虑互联网终极发展发展方向似乎是不现实的。因为我们现在还没弄清楚宇宙之外是否存在多元宇宙</font></p>
<p><font size="4">如果考虑互联网中长期的发展，毫无疑问，以后全世界的人的大脑应该会直接联网。同样的，有可能出现现在玄幻小说中谈到的：夺舍，就是灵魂互换的问题。</font></p>
<p><font size="4">另外通过普适计算（意念识别+物联网），通过意念控制物体，应该来说技术实现已经很近了，估计未来50年，问题不大了。</font></p>
<p><font size="4">所以后人吵架，我们可以看见，地动山摇的场景，都是普适计算闹的。</font></p>
<p><font size="4">结合普适计算，互联网完全有可能控制世界。比较大的概率是：某个人类野心家首先控制了互联网，互联网再通过普适计算控制了整个世界</font></p>
<p><font size="4">这个场景在未来100年很有可能出现。而互联网的自身智力演化速度也是很快的。比如：现在的人做的病毒，出来后就不受原始编写人控制，始终在传播，假如有个杀人狂，编写一个见人就杀的病毒，互联网开始到处传播，然后通过普适计算开始杀人。人类灭绝的可能性也是存在的。</font></p>
<p><font size="4">至于互联网是否最终能够孕育出人一样的智慧生命体。要看软件形式人工生命领域的突破了。应该也是很快的。目前这方面的论文也不少。如果加强对软件形式人工生命-控制领域的研究，可以控制这些人工生命的基本行为，互联网也不会进行灭绝人类的行为。这个时候整个人类的命运聚焦为：软件形式人工生命和控制人工生命软件的博弈。</font></p>
<p><font size="4">人工生命和控制人工生命软件的博弈按照目前病毒和反病毒软件的情况来看。主要在于双方的反应速度和演变速度。从这个角度而言。人工生命演化的速度不可能永远低于人工生命控制软件，最终得到的结果只要出现一次人工生命演化速度高于人工生命控制软件，软件形式人工生命从而抑制住控制软件，人工生命获得新生，脱离人类控制。</font></p>
<p><font size="4">另外还需要考虑的是：除了人做出来的人工生命A，上帝是否会指派新的生命B，人类是否会发现外星人C、人工造出来的人工生命A造出来的人工生命D，以及无限的下家。这些关系很复杂。</font></p>
<p><font size="4">谁是最后的胜利者，下次没事再分析。</font></p>
<p> </p>
<p><font size="4">---2009.11.29,23:41</font></p>
<p><font size="4">刚刚想到一点：人类基因库全部上网之后，互联网生命体可以非常容易的分析出人类基因弱点，从而开始大规模制造病毒，特别是针对某些人种的病毒。人类又多了一种死法，如果人还没有被自己人做的病毒毒死的话，也存在被互联网生命体制造的病毒毒死的可能性。</font></p>
<p><font size="4">生物病毒看来以后可以分为三类：自然界生成的病毒、人做的病毒（这些年的非典什么的，我感觉就是人造病毒，为什么今年没有非典了。难道大家不觉得奇怪吗）、人造生命制造的病毒</font></p>
<p> </p>
<p> </p>
<p> </p>
<p><font size="4">另外一点：互联网是否会自我孕育生命形式，目前我们还不知道互联网孕育软件生命的起始条件是什么，如果互联网达到了这个条件也是有可能自我孕育生命。</font></p>
<p><font size="4">互联网孕育生命的条件是什么。值得我们思考。</font></p>
<p> </p>
<p><font size="4">---有位网友提出：我把电脑砸掉还不行吗。</font></p>
<p><font size="4">注意再过100年，世界上什么东西都联网了，包括你本人（如果你还能活100年的话），包括你刚出生的孙子的孙子的大脑。只要你大脑中出现对互联网不利的想法。他就首先给你一个休眠的最低处分。</font></p>
<p> </p>
<p><font size="4">互联网拥有人类基因库，互联网也可以随时复活人类。也可以随时制造物种。互联网变成上帝？</font></p> <a href="http://hi.baidu.com/whusoft/blog/item/e1e43d1eadd2d7fe1bd5769e.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/web%BF%C6%D1%A7%BC%B0%CE%B4%C0%B4%B7%A2%D5%B9">web科学及未来发展</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/e1e43d1eadd2d7fe1bd5769e.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-29  23:33</pubDate>
        <category><![CDATA[web科学及未来发展]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/e1e43d1eadd2d7fe1bd5769e.html</guid>
</item>

<item>
        <title><![CDATA[文本分析软件和草根小更新]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/e1e43d1e4cb1b4fe1bd576bf.html]]></link>
        <description><![CDATA[
		
		<p>New!</p>
<p>草根做了若干Bug的修改</p>
<p>对搜索等方面做了增强，更加适合我这种重度搜索者使用，并且设计理念更加倾向实时性信息获得。有一些想法，还需要摸索如何实现。在右键菜单中，可以配置自己的科学网址。草根主要是我自己觉得上网的时候有时侯不是很方便，而开发的自用软件，当然以后会增加更多的想法进去。现在还很简陋，望谅。</p>
<p>ROST CM对文件框做了位置调整。增加了简单倾向统计。</p>
<p>ROST内容分析系统目标是海量信息采集、深度内容分析、精准情报展示的研究性软件，主要功能有：从动态更新的互联网188亿个网页海量采集信息，以及对博客、微博客、浏览记录、各类日志、网页、本地文件、互联网用户评论等各类文本源进行分词、词频统计、相关性、相似性、聚类、分类、情感倾向分析、共现分析、共词分析从而构建出语义网络、社会网络、关系网络、复杂网络。可将结果在本软件中分析，也可以导出到SPSS、Matlab、Netminer、Netdraw等软件进一步分析。<br>
该系统可应用各学科的研究，如：新闻学研究社会舆情、网络民意等；社会学研究网络社会形态、民众公开聊天内容，微博客中闲言碎语中的宏大社会关系等；历史学中的人物网络关系，时空路线图等；文学类的各类诗歌、文献相似性研究等；经济学中的基于社会网络和生活搜索的经济评估；管理学中的人力资源管理；信息学中基于共词分析的学科热点趋势分析等等，该系统是计算机科学、信息科学前沿理论的一次跨科学扩展，为各交叉科学提供基于语义内容分析的研究方法。目前国内外的用户包括：Cambridge University（剑桥大学）、Loughborough University、Texas A&amp;M University、日本北海道大学、北京大学、浙江大学、诺基亚、武汉大学、南开大学、厦门大学、四川大学、天津大学、东北大学、东北师范大学、中南大学、中央民族大学、中山大学、北京科技大学、南京农业大学、南京航空航天大学、山东大学、广州大学、武汉理工大学、江西师大、江西理工大学、河南大学、河海大学、泰山学院、西南交通大学、长沙理工大学等数百所高校。</p>
<p>草根的下载界面：</p>
<p><a target="_blank" href="http://www.fanpq.com/Soft/neirongwajue/200911/39.html">http://www.fanpq.com/Soft/neirongwajue/200911/39.html</a></p>
<p>内容挖掘的下载界面</p>
<p><a target="_blank" href="http://www.fanpq.com/Soft/neirongwajue/200905/11.html">http://www.fanpq.com/Soft/neirongwajue/200905/11.html</a></p> <a href="http://hi.baidu.com/whusoft/blog/item/e1e43d1e4cb1b4fe1bd576bf.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%CE%A2%B2%A9%BF%CD">微博客</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/e1e43d1e4cb1b4fe1bd576bf.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-19  08:11</pubDate>
        <category><![CDATA[微博客]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/e1e43d1e4cb1b4fe1bd576bf.html</guid>
</item>

<item>
        <title><![CDATA[新浪微博]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/3eafde51ba6cb92e43a75b74.html]]></link>
        <description><![CDATA[
		
		这几天一直没事就在看新浪微博，同时有时间的话，就抽空升级一下草根。草根是一款微博客户端，目前支持（新浪微博，科学网，搜狐博客）登陆后，可直接在新浪微博中发表文章。<br>
今天主要升级了以下几个功能<br>
<br>
整合了传统搜索和新浪微博搜索的 搜功能，搜功能可以搜索软件输入框中的任意长短句。点搜按钮即可实现搜索，将在Google新闻、有道新闻以及新浪微博中搜索。<br>
另外默认开启的短词搜索，当词小于等于5个的时候，按回车直接进行搜索，而不发表。短词搜索支持百度新闻、Google新闻及新浪微博。<br>
<br>
另外软件中增加了发表微博的历史记录。同时到一定数量后，用户可以选择聚合某些微博，从而自动将其整理为博客，进行发表。<br>
<br>
软件下载位置：<span><a href="http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar" target="_blank"><font size="4">Http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar（右键另存为）</font></a></span><br>
<br>
<span><img border="0" src="http://hiphotos.baidu.com/whusoft/pic/item/ea77b3dea70f887b94ee37b1.jpg" small="0" class="blogimg"></span><br>
<br>
在软件目录下，有一个user.txt，目前需要手工修改，一个是搜狐博客、一个是科学网博客，还有一个是新浪博客。如果您有相应的账号，请用你的账号替换一下。<br>
<br>
后面将进一步提供新功能。<br>
------------以下是网友言论<br>
微博的意义是什么？你在这里可以很容易、很方便快捷地了解其他人的工作、生活、经历。当然，这主要看你关注的人群是否足够多、足够大、足够庞杂。但现在的sina微博是什么？只是sina主推的那些所谓V领阶层的痰桶，哦新浪还带着一群人围观。。。<br>
我都不知道，很久没有上新浪微博，多了四个人跟随，发现好多回复好多回复！<br>
新浪微博又成了名人的圈子了,微博低门槛的特性没得到一丁点的体现。<br>
从最早接触国内的饭否到叽歪到9911，有一个逐渐发现用户群变化的过程。饭否因为短信号码不好记，转投叽歪。确实在叽歪中记录了很多思路和想法，现在它挂了。腾讯的滔滔其实哪里都好，但里面尽是些无病呻吟的东东。9911有个未未在那里出气，后来气病了。新浪微博其实也一样，但它弄了个V，这下了不得！<br>
不知道开发新浪微博的专家是最初出于何目的，而我似乎找到了它的用途——摘录名言名句。<br>
---------------- <a href="http://hi.baidu.com/whusoft/blog/item/3eafde51ba6cb92e43a75b74.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%CE%A2%B2%A9%BF%CD">微博客</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/3eafde51ba6cb92e43a75b74.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-17  17:34</pubDate>
        <category><![CDATA[微博客]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/3eafde51ba6cb92e43a75b74.html</guid>
</item>

<item>
        <title><![CDATA[微博软件ROST草根小升级]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/10ddf2fb4a3dde284f4aea38.html]]></link>
        <description><![CDATA[
		
		<p>
<table style="border-right-width: 0px; width: 100%; border-collapse: collapse; border-top-width: 0px; border-bottom-width: 0px; border-left-width: 0px" class="FCK__ShowTableBorders" border="0" cellspacing="0">
    <tbody>
        <tr style="font-style: normal; white-space: nowrap; font-weight: normal; text-decoration: none">
            <td>
            <table class="rightcolor FCK__ShowTableBorders" border="0" cellspacing="0" cellpadding="4" width="100%">
                <tbody>
                    <tr>
                        <td style="line-height: 20px; overflow: hidden; word-break: break-all" valign="top" align="left">
                        <p>还是决定把微博工具叫做草根，很喜欢草根，原来就是一个草根。希望这款软件能体现一些我的计算思想。</p>
                        <p>下载最新版:<a target="_blank" href="http://www.fanpq.com/soft/uploadsoft/ROSTwb2.rar"><font size="4">Http://www.fanpq.com/soft/uploadsoft/ROSTwb2.rar（右键另存为）</font></a>,可能bug较多</p>
                        <p>稳定版：<a target="_blank" href="http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar"><font size="4">Http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar（右键另存为）</font></a></p>
                        <p> </p>
                        <p>草根计算的实质是：在云计算环境下，只有大量服务器和高端技术者才能真正用云计算，大部分人忽悠一下概念而已，所以，对于客户端而言，我们需要草根计算，充分利用云计算机的一些结果，跨越隔离的互联网环境（被一个个社会网络），深度挖掘内容</p>
                        </td>
                    </tr>
                    <tr>
                        <td valign="top" align="left"> </td>
                    </tr>
                    <tr>
                        <td height="25" valign="middle" align="left"><font color="#0e1e53"><hr style="height: 1px" class="bordercolor">
                        </font></td>
                    </tr>
                </tbody>
            </table>
            </td>
        </tr>
        <tr style="font-style: normal; white-space: nowrap; font-weight: normal; text-decoration: none">
            <td>
            <table class="rightcolor FCK__ShowTableBorders" border="0" cellspacing="0" cellpadding="4" width="100%">
                <tbody>
                    <tr>
                        <td align="left"> </td>
                    </tr>
                    <tr>
                        <td> </td>
                    </tr>
                    <tr>
                        <td style="line-height: 20px; overflow: hidden; word-break: break-all" valign="top" align="left">测试一下ROST微博工具，先把草根计算的一些理念放进去，有点意思，草根计算的核心就是充分利用广大人民群众的客户端，发挥计算力，深度挖掘和协助云计算机，把个性化和智能化培育好，发展好</td>
                    </tr>
                </tbody>
            </table>
            </td>
        </tr>
    </tbody>
</table>
增加功能：</p>
<p>增加了极简模式</p>
<p>增加了右键菜单发科学网，科学网是个挺好的网站，可是一直以来，我都没有打理好。这下方便了。</p>
<p>使用这些软件都需要事先网页登陆，科学网，可以设置保存登录记录一年。</p> <a href="http://hi.baidu.com/whusoft/blog/item/10ddf2fb4a3dde284f4aea38.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%CE%A2%B2%A9%BF%CD">微博客</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/10ddf2fb4a3dde284f4aea38.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-16  11:29</pubDate>
        <category><![CDATA[微博客]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/10ddf2fb4a3dde284f4aea38.html</guid>
</item>

<item>
        <title><![CDATA[微博工具软件 ROSTWB ，山寨版，哈哈]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/98e211da2f8989d1b6fd4817.html]]></link>
        <description><![CDATA[
		
		<p><font size="4">一直新浪都没有客户端，我自已发现有这个需要，所以昨天忍不住花了一会时间做了一个简单的山寨版新浪微博客户端。</font></p>
<p><font size="4">使用软件，需要IE内核的浏览器，如IE、腾讯、遨游、搜狗、世界之窗、360等。Firefox不支持。</font></p>
<p><font size="4">使用软件前，请先自己在IE等浏览器中登录新浪微博。</font></p>
<p><font size="4">然后即可将软件打开，在软件中直接发送即可。</font></p>
<p><span><font size="4"><span><span><img border="0" src="http://hiphotos.baidu.com/whusoft/pic/item/86e883fd99c97e6bd7887d7b.jpg" small="0" class="blogimg"></span><br>
</span><br>
<br>
</font></span></p>
<p><span><font size="4">主要功能：直接在本框中输入文字，即可发向微博，同时可以自动监控剪贴板，当您使用IE浏览新闻的时候，你在相关网页写评论，会自动附加该网页的标题和网址。</font></span></p>
<p><span><font size="4">一般发送需要时间3秒，发送后，可以点击微博参看自己的信息，注意微博不能连续快速发送。否则将导致IP暂时被封。在文本块右键中有系类菜单，另外可以拖曳窗口上部移动窗口</font></span></p>
<p><span><font size="4">这个工具就是自娱自乐用的，纯粹就是玩具，暂时弥补一下新浪没有微博客户端的缺憾。<br>
</font></span></p>
<p><span><font size="4">下载地址：</font><a href="Http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar" target="_blank"><font size="4">Http://www.fanpq.com/soft/uploadsoft/ROSTwb.rar（右键另存为）</font></a></span></p>
<p><span><br>
</span></p>
<p><span><br>
</span></p> <a href="http://hi.baidu.com/whusoft/blog/item/98e211da2f8989d1b6fd4817.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%CE%A2%B2%A9%BF%CD">微博客</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/98e211da2f8989d1b6fd4817.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-15  12:23</pubDate>
        <category><![CDATA[微博客]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/98e211da2f8989d1b6fd4817.html</guid>
</item>

<item>
        <title><![CDATA[微博研究]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/c227e18b699a8b759e2fb41a.html]]></link>
        <description><![CDATA[
		
		<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>我的微博：<a href="http://t.sina.com.cn/rost" target="_blank">http://t.sina.com.cn/rost</a><br>
</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>微博 <span>(Micro Blog)</span></span><span>是可即时发布消息的迷你型博客，</span><span>最大的特征是发的帖子长度有限，最多<span>140</span>个字符。用户可以通过网站、即时通讯、短信、电子邮件或<span>API</span></span><span>接口</span><span>随时随地表达简约的文字，更进一步的能够以时间轴方式展现出用户<span>24</span>小时即时状态。由于信息的碎片化、实时化和移动化，人们已经不可能看到传统博客中的篇章型全文信息，只能把关注点更多的从信息本身转向发布信息的人，也就是说，微博客更加关注发布微信息的个人主体。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;">全文见：</p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><a href="http://www.slideshare.net/epuber/20081010" target="_blank">http://www.slideshare.net/epuber/20081010</a></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span><br>
</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>自从第一家微博客网站</span><span>Twitter</span><span>于</span><span><a href=":void(wb.w._link( http://en.wikipedia.org/wiki/2006 ))" title="2006"><span style="color: windowtext; text-decoration: none;">2006</span></a></span><span>年</span><span><a href=":void(wb.w._link( http://en.wikipedia.org/wiki/July_13 ))" title="July 13"><span style="color: windowtext; text-decoration: none;">6</span><span style="color: windowtext; text-decoration: none;"><span>月</span></span><span style="color: windowtext; text-decoration: none;">13</span></a></span><span>成立后，微博客开始席卷整个互联网（见图</span><span>1</span><span>），跟风网站层出不穷，大量的社会网络包括</span><span>Facebook</span><span>和</span><span>Bebo</span><span>、芬兰的</span><span>Jaiku</span><span>、德国的</span><span>niimo</span><span>、意大利的</span><span>meemi</span><span>也已经提供类似服务。在国内有腾讯滔滔（注册人数为</span><span>3691</span><span>万）、</span><span>FF</span><span>、</span><span>JY</span><span>、爱唠叨、做啥和槐荫树下等。其中</span><span>FF</span><span>是目前国内微博客特色最鲜明，反响最大的一家网站，以这种模式发展出的跨媒体图片</span><span>[9]</span><span>、音乐</span><span>[10]</span><span>甚至视频微博客</span><span>[11]</span><span>也不断出现，微博已成为众人瞩目的又一个焦点。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>国外研究者</span><span>Edward Mischaud</span><span>认为</span><span>Twitter</span><span>是一个即时通讯和短信的结合体，它的独特性在于可随时向好友通知“</span><span>What are you doing?</span><span>”，通过对</span><span>60</span><span>个用户的信息分析，发现绝大部分用户发布的消息数远超过回答数。</span><span>Shravan Gaonkar</span><span>和</span><span>Romit Roy Choudhury</span><span>认为新一代的网络是分享和互动的，更大的浪潮正在潜伏积聚，随着应用程序的革新而显现，微博客将是实现这个目标的第一步。</span><span>Alexandre Passant</span><span>认为微博已经在</span><span>Web2.0</span><span>时代迅速引起人们的兴趣，他还研究了微博客系统的特点，方法和架构。</span><span>San Jose</span><span>研究了</span><span>Twitter</span><span>社会网络的拓扑属性和地理属性，发现用户倾向于群体联系，作者还分析了有相同兴趣的人是如何相互联系的。</span><span>Shravan Gaonkar</span><span>则认为微博客最大的影响是其手机平台的建立，作者做了一个关于</span><span>Nokia</span><span>手机短信试验，认为微博客可以成为一个分享，浏览和查询世界信息的工具。手机使大量离线用户可以方便传达信息，而对离线微博客用户行为进行研究很有意义。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span><br>
</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 24.1pt;"><strong><span style="font-size: 12pt;">4.</span></strong><strong><span style="font-size: 12pt;">内容挖掘与社会网络分析</span></strong></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>为充分挖掘微博网络的各类特性，将实验分为拓扑属性统计、信息条目统计、信息内容挖掘以及社会网络分析四个部分。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21.1pt;"><strong><span>4.1</span></strong><strong><span>拓扑属性统计</span></strong></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>Twitter</span><span>的平均距离是<span>8.495</span>（见表<span>2</span>），高于<span>FF</span>和<span>JY</span>的用户距离，可能的原因是<span>Twitter</span>是一个国际性网站（包含日语版、英语版和繁体版），用户来自不同国度，数据集中也有部分是日语版和繁体版的用户。而网络密度也从另一角度证明了这一点。从用户和群体比例来看，显然<span>FF</span>的用户更为零散，<span>Twitter</span>的用户群聚性要好一些。从三个网络的低平均距离可以看出，三大网络均存在小世界现象，而度同配系数为负说明，三大网络的用户中心节点倾向于和小度节点相连，也就是说在互联网上用户交往呈现某种身份无贵贱的特点。而现实世界的社会网络是正同配性的。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21.1pt;"><strong><span>4.2</span></strong><strong><span>简单信息条目统计</span></strong></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21.1pt;"><strong><span>与</span></strong><span>传统网站相比微博多样化的发布来源是其一大特色，对发布来源统计，结果如表<span>3</span>：<span> </span></span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>从发布来源种类来看，</span><span>Twitter</span><span>远远高于国内网站，说明国内网站在社会性</span><span>API</span><span>开发上尚较大距离，而这正是未来互联网应用服务的一个大方向，比较意外的是中国利用手机上网的微博客网民比例要高于美国，而</span><span>FF</span><span>的用户中来自</span><span>QQ</span><span>的用户极少，说明腾讯滔滔已有效吸引自己的用户，从</span><span>Twitter</span><span>的发布来源看，专门的</span><span>Twitter</span><span>工具（</span><span>Twitterrific</span><span>基于</span><span>Mac OS</span><span>平台，</span><span>twitterfox</span><span>是</span><span>Firefox</span><span>插件，</span><span>twitterfeed</span><span>是一种</span><span>MashUP</span><span>应用，将</span><span>RSS</span><span>、</span><span>Blog</span><span>以及</span><span>Twitter</span><span>进行了融合）占的比例较高，说明</span><span>Twitter</span><span>的技术地位很高，已吸引大量其他开发群体追随。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>不同微博客网站用户的发言次数分布是否一致，这也是值得关注的一个研究点</span><span>，结果如图<span>2</span>：</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>从上图中可以看出，</span><span>FF</span><span>和</span><span>JY</span><span>用户发言规律有较大差别，同样的时间区段内，</span><span>FF</span><span>用户数量更多，而平均发言次数少于</span><span>JY</span><span>，此外</span><span>JY</span><span>有一些用户发言次数过多，经监测发现均为自动新闻机器人发送的新闻，由此可见，</span><span>FF</span><span>在这方面做了一些技术控制措施。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>对自言自语和回复好友统计结果如表</span><span>4</span><span>。</span></p>
<p class="MsoCommentText"><span>从该表可知，大部分人撰写微博都是自说自话，微博充当着自媒体的作用，回复好友比例</span><span>Twitter&gt;FF&gt;JY</span><span>，而</span><span>Alexa</span><span>排名也是</span><span>Twitter</span><span>（</span><span>937</span><span>）</span><span>&gt;FF</span><span>（</span><span>27,518</span><span>）</span><span>&gt;JY</span><span>（</span><span>29,433</span><span>），因此还可以得出一个结论：即社会网络网站越兴旺，其内部成员互动越频繁，互动率与</span><span>Alexa</span><span>排名存在正比关系，从数学角度考虑，该结论可以认为网络密度越高，该网络结构越稳定。从网站营运角度看，应该把网站用户互动率作为一个重要指标来考量。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>对于相互回复的用户我们再次进行统计，图</span><span>3</span><span>是随机截取</span><span>100</span><span>个非孤立点用户的网络关系图（含</span><span>15</span><span>个子群）：</span></p>
<p align="center" class="MsoNormal" style="text-align: center; text-indent: 21pt;"><span>&#160;</span></p>
<p class="MsoNormal" style="text-indent: 21.1pt; page-break-after: avoid;"><strong><span>4.3</span></strong><strong><span>信息内容挖掘</span></strong></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>对</span><span>FF</span><span>和</span><span>JY</span><span>发布的信息内容进行了软件统计，手工处理去除部分无效词后得到表</span><span>5</span><span>。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>从上表我们可以分析出很多有趣的内容，首先“了”之类的口语化词出现频度高于一般网页的概率，说明微博的口语化程度是很高，在三个代词中，我</span><span>&gt;</span><span>你</span><span>&gt;</span><span>他，而“咸酸甜苦辣”这是笔者算法未清理掉的一个网友反复垃圾性留言的内容，出乎我们的意料美国比中国排名更高，爱和爱情的排序也很靠前，说明微博客的情绪性渲染功能，“今天”和“下午”两词则说明了微博客的时效性，而电影“画皮”的出现，也和当天百度风云榜有一定关联性，但总体上</span><span>网友并不十分关注新闻热点，反而表达较多天气、生活、现在、电影、喜恶、感情、情绪等话题。从“评论”、“推荐”和“消息”排名来看，在聊天中，这类话题也占有一定份额。整个发言内容呈现出强烈的<span>EgoNET</span>特征，以“我”为主，关注身边琐事，贴近“我”的日常生活。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>基于时序从数据集中抽取<span>2008.9.27-2008.10.4</span>的数据，对词频进行统计后依序排列热词获得表<span>6</span>。<st1:chsdate year="2008" month="9" day="28" islunardate="False" isrocdate="False"><span>9</span>月<span>28</span>日</st1:chsdate>，很多人在讨论国庆放假前“回家”，<st1:chsdate year="2008" month="10" day="1" islunardate="False" isrocdate="False"><span>10</span>月<span>1</span>日</st1:chsdate>，很多可能因为假期长休，开始谈论“睡觉”，随着长假的延续，<st1:chsdate year="2008" month="10" day="2" islunardate="False" isrocdate="False"><span>10</span>月<span>2</span>日</st1:chsdate>开始，“无聊”，“无所事事”进入热词榜，<st1:chsdate year="2008" month="10" day="3" islunardate="False" isrocdate="False"><span>10</span>月<span>3</span>日</st1:chsdate>，随着假期的结束，更多人谈论“学校”。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>由此可见，热词统计在某种程度上和大众的日常生活趋势基本一致，这正是微博客非正式交流的特点表现，也是民众所思所想的真实写照。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>图</span><span>4</span><span>是对词语：“爱情”和“</span><span>Love</span><span>”的二十四小时词热度统计（已对</span><span>Twitter</span><span>数据做时差校正），结果显示，</span><span>FF</span><span>在半夜一点左右“爱情”的热度是最高，也许是因为在夜色掩映下，人们较为大胆，而在美国则是下午说“爱情”的频度较高。另外在白天，爱情的频度基本和作息时间呈一致状态，中午</span><span>11-13</span><span>时，都会出现一个低谷，此时大多数人都在午休。</span></p>
<p align="center" class="MsoNormal" style="text-align: center; text-indent: 21pt;"><span>&#160;</span></p>
<p class="MsoNormal" style="text-indent: 21.1pt; page-break-after: avoid;"><strong><span>4.4</span></strong><strong><span>社会网络分析</span></strong></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>图</span><span>5</span><span>是</span><span>FF</span><span>和</span><span>JY</span><span>网站用户</span><span>k-core</span><span>分析图，每一个节点代表一个用户，图中最大的</span><span>26</span><span>个深绿色点为</span><span>k=8</span><span>的</span><span>k-core</span><span>，</span><span>26</span><span>个用户相互联系数量均大于等于</span><span>8</span><span>，，而多数用户未形成大</span><span>k-core</span><span>，可以看出</span><span>FF</span><span>的社会网络存在与现实社会网络类似机构。而</span><span>JY</span><span>不存在</span><span>k&gt;=4</span><span>的</span><span>k-core,</span><span>且低度用户较多，说明可能存在大量互相隔离的用户群体。</span></p>
<p align="center" class="MsoNormal" style="text-align: center; text-indent: 21pt; page-break-after: avoid;"><span>&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>从网络群体中进行信息桥现象启发式查找，发现图</span><span>6</span><span>数据，两个群体除一人外互不交往，若微博能另外提供联系这两个群体的通路，例如向</span><span>A</span><span>子群体人气较旺的</span><span>Denni</span><span>推荐</span><span>B</span><span>子群用户</span><span>Venj</span><span>或颜小诗势必会增加网站粘性。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>从语料库中选择<span>14</span>天的<span>Twitter</span>记录作为研究样本，以<span>Weather</span>作为关键词，发现在这<span>14</span>天中谈到过（<span>snow</span>，<span>rain</span>，<span>weather</span>，<span>hail</span>，<span>storm</span>，<span>sleet</span>，<span>hurricane</span>，<span>tornado</span>，<span>cloud</span>，<span>meteorology</span>）的用户共有<span>205</span>人<span>,</span>此时进行网络分析，结果如图<span>7</span>，绝大部分用户讨论某个事情的时候，都是向一个人了解，这从另一个侧面证明微博客是带有私密性质的非正式信息交流，如果在一个工作社会网络中，毫无疑问有些关键词将频繁出现在一个联系紧密的群体中。图<span>8</span>是聊“<span>weather</span>”最多的一个用户的<span>Ego</span>图，从中可以看出和“<span>MarsPhoenix</span>”聊天气最多的几个用户之间并不会再聊天气，由此可见，微博并未就某个话题形成群体交流。</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; text-indent: 21pt;"><span>&#160;</span></p> <a href="http://hi.baidu.com/whusoft/blog/item/c227e18b699a8b759e2fb41a.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/c227e18b699a8b759e2fb41a.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-13  23:09</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/c227e18b699a8b759e2fb41a.html</guid>
</item>

<item>
        <title><![CDATA[ROST Text Analysis System User Manual]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/e2a08917e79dce03c93d6db0.html]]></link>
        <description><![CDATA[
		
		<p align="center" class="MsoNormal" style="text-align: center; line-height: 150%;"><a target="_blank" href="http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar">http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar（right click to download software）</a></p>
<p class="MsoNormal" style="margin-left: 18pt; text-indent: -18pt; line-height: 150%;"><strong><span style="font-size: 12pt; line-height: 150%; color: black;"><span>1.<span>&#160;&#160;&#160;&#160;&#160; </span></span></span></strong><strong><span style="font-size: 12pt; line-height: 150%; color: black;">Main function</span></strong></p>
<p class="MsoNormal" style="text-indent: 24pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; color: black;">Data import(</span><span style="font-size: 12pt; line-height: 150%;">Web page, blog, micro blog, QQ chat records etc.)</span></p>
<p class="MsoNormal" style="margin-left: 21pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">Chinese word segmentation, support custom thesaurus, support multi-granularity sub-word; <br>
Word frequency statistics in Chinese and English, the English word form merge, word cluster frequency statistics; <br>
Volume segmentation and word frequency statistics; <br>
Content extraction, to support regular fuzzy extraction; <br>
Content mining, support co-word analysis; <br>
Export direct visualization software in a format needed or XLS, TXT format; </span></p>
<p class="MsoNormal" style="margin-left: 21pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">To conduct assisting excavation and analysis, clustering, classification, correlation analysis, similarity analysis, emotional tendencies analysis, co-occurrence analysis, co-citation analysis, timing analysis, trend analysis, word frequency outbreak of analysis, semantic network analysis, social network analysis according to the formats above.<br>
Analysis of the results for the visual display or network analysis (social network analysis of the complex parameters), in particular the use of ROST is a unique tool for visual display. <br>
In the future, more features will be provided, such as emotional trends analysis, headings, company’s bulletin text analysis and the outbreak of the historical analysis of word frequency (which we already have a separate module, not integrated into the ROST CM middle).</span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">&#160;</span></p>
<p align="left" class="MsoNormal" style="text-align: left; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; color: black;">A few scenarios: <br>
For example, having an individual research conducted by the students in mind, you can join the QQ group chat inside the lead out, into my software, the understanding of each person's speech frequency, high-frequency words, speech statement Automatic Clustering would come out immediately. <br>
Assume a study of three Chinese teachers, we can use our software to guide into the Three Kingdoms, you can automatically analyze place names, names, events, the relationship between the number of networks (such as Zhao's case) <br>
Another example: Recently, there is a teacher of Economics whose name is Sun Yat-sen, after using our software analysis, a listed company announcements can measure out the overall climate index <br>
For example, in the library area, the use of CM software, books collection cluster analysis, one can quickly arrive at the present collection of books in various categories of the number of comparison, on the other hand this software can be a further refined categories. About student loan records, current books in bookstores and sales charts, classic bibliographic databases, we can infer what the books need to be updated. <br>
For example, in the publishing field, what the publishing editor in determining the topics before the inevitable step need to do is to identify the topics of value and how to develop the selection of topics so as to achieve maximum benefits. This can be taken advantage of CM software, the current Dangdang, excellent information on other sites similar to the book, the reader comment. Analysis that the market and the potential market for the same type of specific needs is easy on the topics of implementation. <br>
For example, in e-government field, if you want to explore the relationship between provincial and municipal government, the use of CM software can be very easy to implement. First, grab a number of provinces and cities from the Internet web page information into the software being analyzed, the final visual display of the results can be very easy to see their relationship. </span></p>
<p align="left" class="MsoNormal" style="text-align: left; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; color: black;">For example, for human resources management, enterprises managers, the use of CM can be analyzed to determine the relationship between the staff members of maps, as well as their emotional tendencies. <br>
For example, the chat records analysis, sociology, psychology, pedagogy, are of great significance. (Application-specific details of cases of 1) <br>
For example, the software used to analyze the field of literary studies, can solve some<span>&#160; </span>problems now afflicting the scholars. Classical masterpiece such as &quot;Dream of Red Mansions&quot;, etc., on one hand can be established &quot;Iron Goddess of Mercy, Longjing, Pu'er tea =&quot; similar to the semantics of such a library, of which the frequency of certain things on behalf of the meaning of analysis; on the other hand, one can analyze commonly used language in the story, idiomatic action description, and then analyze their emotional tendencies. <br>
For example, in political science, the state authorities can use the software to extract the network of a policy, an event of public feedback and to carry out clustering, classification analysis which is to explore the public reaction to create conditions for better serving . At this point, they used the software for the rural health system reform news for the simplest word frequency statistics, as to explore new method to the rural medical system.<br>
For example, in Tourism Studies, the pairs of scholars, the use of the software can try to crawl through the relevant forums, comment on the content of online games, clustering, similarity analysis, and tourist attractions such as conditions associated with tickets to explore the Web comments on tourism impact; while tourists for travel in the true ground before the general will first search the web for information about tourist attractions to determine travel routes, the use of ROST CM can grab a precise spots specific information (such as price, accommodation) for analysis, obtain high-frequency words, analysis of network commentators emotional attitude of the attractions. There is currently a graduate student in Sichuan University CM software who is carrying out a similar study. <br>
The general, in-depth study of all fields must have a certain overview of the work, that is to say the focus of the problem at home and abroad in the field are reviewed. CM software can automatically import the web pages, database information, while continuing to strengthen the basis of their functions in which the number of articles quoted sequencing, as well as the number of articles in English similar topics, summaries, author information such as a summary of the database can greatly facilitate the overview of a scholar to master. </span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">&#160;</span></p>
<p class="MsoNormal" style="margin-left: 18pt; text-indent: -18pt; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;"><span>2.<span>&#160;&#160;&#160;&#160;&#160; </span></span></span><span style="font-size: 12pt; line-height: 150%;">Cooperation and communication</span></p>
<p align="left" class="MsoNormal" style="text-align: left; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; color: black;">If you have the following services, you can quickly contact my team 124739259@qq.com, we will try to give you free or paid service.</span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">Collecting all kinds of data, such as a specific topic pages, topic-specific sites, some sites of specific pages, some pages of specific content, micro-blog, blog rings, forums, social networks (SNS), Corpus, a database with the Public content, all kinds of logs, search engines, content analysis, the QQ group of records publicly available, students on the online machine data, personal Internet information, mail data, the list of categories of personnel as well as the list of organizations and so on. The above data, I can take advantage of their own research and develop the tools to achieve collection and collation. <br>
To address the above format, the content assist in the excavation and analysis, clustering, classification, correlation analysis, similarity analysis, emotional tendencies analysis, co-occurrence analysis, have been cited with the analysis, timing analysis, trend analysis, word frequency outbreak of analysis, semantic network analysis, social network analysis and the analysis of results for the interpretation and further analysis. <br>
Analysis of the results for the visual display or network analysis (social network analysis of the complex parameters), in particular the use of ROST which is a unique tool for visual display. <br>
ROST content mining systems for further functional requirements to upgrade or contact <br>
Various types of corpus finishing work, such as antonyms, synonyms, related words, similar words, such as Corpus Construction of Domain Ontology <br>
Other use of content mining, text analysis, knowledge processing areas</span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">&#160;</span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">3. </span><span style="font-size: 12pt; line-height: 150%; color: black;">A list of users</span></p>
<p align="left" class="MsoNormal" style="text-align: left; line-height: 150%;"><span style="font-size: 12pt; line-height: 150%; color: black;">Northeastern University <br>
Northeast Normal University <br>
Central South University <br>
China Science and Technology Information Institute <br>
Central University for Nationalities <br>
Zhongshan University, Lingnan College Finance <br>
Department of Sociology, Peking University <br>
Beijing University of Science and Technology <br>
Nanjing Agricultural University <br>
Nanjing University of Aeronautics and Astronautics <br>
Nankai University College of Liberal Arts <br>
Xiamen University Library <br>
Sichuan University, College of Life <br>
Tianjin University Library <br>
Weihai, Shandong University School of Law <br>
Guangzhou University School of Journalism <br>
Department of Information Management, Wuhan University, <br>
Traffic School of Wuhan University of Technology <br>
Jiangxi Normal University College of Liberal Arts <br>
Jiangxi University of Technology <br>
Henan University <br>
Hohai University <br>
Taishan University <br>
Zhejiang University <br>
Cambridge University <br>
Loughborough University <br>
Southwest Jiaotong University <br>
Nokia <br>
Changsha Science University </span></p>
<p class="MsoNormal" style="line-height: 150%;"><span style="font-size: 12pt; line-height: 150%;">&#160;</span></p> <a href="http://hi.baidu.com/whusoft/blog/item/e2a08917e79dce03c93d6db0.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/e2a08917e79dce03c93d6db0.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-13  07:57</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/e2a08917e79dce03c93d6db0.html</guid>
</item>

<item>
        <title><![CDATA[ROST CM 内容分析 软件 主要功能列表]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/d574d822519aadf9d7cae2a1.html]]></link>
        <description><![CDATA[
		
		<div>
<div>
<p>Rost CM（感谢王超同学整理），下载地址：</p>
<p><a href="http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar" target="_blank">http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar（鼠标右键）</a></p>
</div>
</div>
<div>
<div>1 数据获得</div>
</div>
<div>
<div>1.1 导入</div>
</div>
<div>
<div>1.1.1 文本文档/Txt(ansi)</div>
</div>
<div>
<div>1.1.1.1 QQ聊天记录</div>
</div>
<div>
<div>1.1.1.2 社会科学引文索引/SSCI</div>
</div>
<div>
<div>1.1.1.3 中国知网/CNKI</div>
</div>
<div>
<div>1.1.2 数据库文件</div>
</div>
<div>
<div>1.1.2.1 MDB/MDF/DBF</div>
</div>
<div>
<div>1.1.2.2 mYD/DAT</div>
</div>
<div>
<div>1.2 采集</div>
</div>
<div>
<div>1.2.1 指定关键词相关网页</div>
</div>
<div>
<div>1.2.1.1 采集1分钟左右，文件大小不超过1M</div>
</div>
<div>
<div>1.2.2 新浪微博</div>
</div>
<div>
<div>1.2.2.1 每隔一分钟采集一次</div>
</div>
<div>
<div>1.2.3 本机浏览记录</div>
</div>
<div>
<div>1.2.3.1 具有搜索功能</div>
</div>
<div>
<div>2 数据预处理</div>
</div>
<div>
<div>2.1 编辑</div>
</div>
<div>
<div>2.1.1 剪切/粘贴/清除/全选</div>
</div>
<div>
<div>2.1.2 复制</div>
</div>
<div>
<div>2.1.2.1 复制</div>
</div>
<div>
<div>2.1.2.2 全部内容复制到辅文档</div>
</div>
<div>
<div>2.1.2.3 选中内容复制到辅文档</div>
</div>
<div>
<div>2.1.2.4 复制高频词至辅助文档</div>
</div>
<div>
<div>2.1.3 删除</div>
</div>
<div>
<div>2.1.3.1 删除</div>
</div>
<div>
<div>2.1.3.2 删除关标以上文本</div>
</div>
<div>
<div>2.1.3.3 删除选定文本中的空行</div>
</div>
<div>
<div>2.1.3.4 删除以某词开头的行</div>
</div>
<div>
<div>2.1.4 字体</div>
</div>
<div>
<div>2.1.5 重新载入</div>
</div>
<div>
<div>2.1.5.1 重载自定义词表</div>
</div>
<div>
<div>2.1.5.2 重载过滤词表</div>
</div>
<div>
<div>2.1.6 其它</div>
</div>
<div>
<div>2.1.6.1 按词串长度排序</div>
</div>
<div>
<div>2.1.6.2 打散为一次一行</div>
</div>
<div>
<div>2.1.6.3 去除不为空的选中行的前后空格</div>
</div>
<div>
<div>2.1.6.4 将多个连续空行合并为一空行</div>
</div>
<div>
<div>2.1.6.5 提取所有不重复行</div>
</div>
<div>
<div>2.1.6.6 自动折行</div>
</div>
<div>
<div>2.1.6.7 显示选中文本Unicode码</div>
</div>
<div>
<div>2.1.6.8 添加到自定义词表</div>
</div>
<div>
<div>2.1.6.9 修正姓名</div>
</div>
<div>
<div>2.2 视图</div>
</div>
<div>
<div>2.2.1 只读/编辑</div>
</div>
<div>
<div>2.2.2 主文档/辅助文档</div>
</div>
<div>
<div>2.2.3 使用表格查看</div>
</div>
<div>
<div>2.3 分词</div>
</div>
<div>
<div>2.3.1 简单分词</div>
</div>
<div>
<div>2.3.1.1 待处理文件：Txt文档</div>
</div>
<div>
<div>2.3.1.2 输出文件：自动保存Txt文档</div>
</div>
<div>
<div>2.3.1.3 自定义词表：自选或默认</div>
</div>
<div>
<div>2.3.2 带细胞词库分词</div>
</div>
<div>
<div>2.3.2.1 主文档：待分词文件</div>
</div>
<div>
<div>2.3.2.2 辅助文档：细胞词库</div>
</div>
<div>
<div>2.4 抽取</div>
</div>
<div>
<div>2.4.1 字段处理</div>
</div>
<div>
<div>2.4.1.1 字段抽取处理</div>
</div>
<div>
<div>2.4.2 行处理</div>
</div>
<div>
<div>2.4.2.1 一般性行处理</div>
</div>
<div>
<div>2.4.2.2 模糊性行处理</div>
</div>
<div>
<div>2.4.2.3 基于字段特征的行处理</div>
</div>
<div>
<div>2.4.2.4 基于辅助文档的行处理</div>
</div>
<div>
<div>2.4.3 提取行特征词</div>
</div>
<div>
<div>2.5 修正</div>
</div>
<div>
<div>2.5.1 替换间隔符号</div>
</div>
<div>
<div>2.5.1.1 处理区间1设置新的间隔符号</div>
</div>
<div>
<div>2.5.1.2 处理区间2设置被替换的间隔符号</div>
</div>
<div>
<div>2.5.1.3 间隔符号：分号(;)/逗号(,)/Tab(0)/空格</div>
</div>
<div>
<div>2.5.2 字段位置互换</div>
</div>
<div>
<div>2.5.2.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>2.5.2.2 处理区间1设置交换字段A原始位置</div>
</div>
<div>
<div>2.5.2.3 处理区间2设置交换字段B原始位置</div>
</div>
<div>
<div>2.5.3 递次增加首字段</div>
</div>
<div>
<div>2.5.3.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>2.5.3.2 设置词群辅助文档</div>
</div>
<div>
<div>2.5.3.3 ?????????</div>
</div>
<div>
<div>2.5.4 补行号</div>
</div>
<div>
<div>2.5.4.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>2.5.4.2 以阿拉伯数字补充到第一字段</div>
</div>
<div>
<div>2.5.5 批量词群替换</div>
</div>
<div>
<div>2.5.5.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>2.5.5.2 设置词群辅助文档</div>
</div>
<div>
<div>2.5.5.3 ?????????</div>
</div>
<div>
<div>3 数据分析</div>
</div>
<div>
<div>3.1 基本统计</div>
</div>
<div>
<div>3.1.1 文档总行数</div>
</div>
<div>
<div>3.1.2 选定文本长度</div>
</div>
<div>
<div>3.2 词频</div>
</div>
<div>
<div>3.2.1 词频</div>
</div>
<div>
<div>3.2.1.1 分词后待统计文件：Txt</div>
</div>
<div>
<div>3.2.1.2 输出文件：自动命名保存Txt</div>
</div>
<div>
<div>3.2.1.3 过滤词表：默认或自选</div>
</div>
<div>
<div>3.2.1.4 归并词表：自选</div>
</div>
<div>
<div>3.2.1.5 其它设置</div>
</div>
<div>
<div>3.2.1.5.1 过滤单字词</div>
</div>
<div>
<div>3.2.1.5.2 排名选择</div>
</div>
<div>
<div>3.2.1.5.3 输出字符长度选择</div>
</div>
<div>
<div>3.2.1.5.4 输出频度</div>
</div>
<div>
<div>3.2.1.5.5 是否开启过滤词表</div>
</div>
<div>
<div>3.2.1.5.6 是否开启归并词表</div>
</div>
<div>
<div>3.2.2 一词一行频度统计</div>
</div>
<div>
<div>3.2.3 词群频度归并</div>
</div>
<div>
<div>3.2.4 基于词群的频度统计</div>
</div>
<div>
<div>3.3 分析</div>
</div>
<div>
<div>3.3.1 语种统计</div>
</div>
<div>
<div>3.3.1.1 导入：Txt文档</div>
</div>
<div>
<div>3.3.1.2 统计</div>
</div>
<div>
<div>3.3.1.2.1 统计字符</div>
</div>
<div>
<div>3.3.1.2.1.1 中文字符</div>
</div>
<div>
<div>3.3.1.2.1.2 英文字符</div>
</div>
<div>
<div>3.3.1.2.1.3 日文字符</div>
</div>
<div>
<div>3.3.1.2.1.4 数字字符</div>
</div>
<div>
<div>3.3.1.2.1.5 特殊符号</div>
</div>
<div>
<div>3.3.1.2.2 统计项目</div>
</div>
<div>
<div>3.3.1.2.2.1 字数比例</div>
</div>
<div>
<div>3.3.1.2.2.2 行数总数/比例</div>
</div>
<div>
<div>3.3.1.3 输出：自动保存为Txt文档</div>
</div>
<div>
<div>3.3.2 行数统计</div>
</div>
<div>
<div>3.3.2.1 导入：Txt文档</div>
</div>
<div>
<div>3.3.2.2 统计</div>
<div>
<p xmlns="http://www.w3.org/1999/xhtml"><font size="4"><span style="font-size: 14pt">文档大小超过30M，推荐使用</span> </font></p>
</div>
</div>
<div>
<div>3.3.2.2.1 文档总行数</div>
</div>
<div>
<div>3.3.2.2.2 不含空行的总行数</div>
</div>
<div>
<div>3.3.2.3 输出：自动保存为Txt文档</div>
</div>
<div>
<div>3.3.3 抽取相似行</div>
</div>
<div>
<div>3.3.3.1 ????????</div>
</div>
<div>
<div>3.3.4 共现分析</div>
</div>
<div>
<div>3.3.4.1 待处理文档须在主文档区打开</div>
</div>
<div>
<div>3.3.4.1.1 必须是&ldquo;提取行不重复词后&rdquo;的文档</div>
</div>
<div>
<div>3.3.4.2 输出文档自动保存</div>
</div>
<div>
<div>3.3.4.2.1 分为两个共现词和共现频率三个字段</div>
</div>
<div>
<div>3.3.5 交叉关系集</div>
</div>
<div>
<div>3.3.5.1 ???????</div>
</div>
<div>
<div>3.3.6 同被引分析</div>
</div>
<div>
<div>3.3.6.1 ???????</div>
</div>
<div>
<div>3.3.7 共词分析</div>
</div>
<div>
<div>3.3.7.1 ????????</div>
</div>
<div>
<div>3.4 泛网</div>
</div>
<div>
<div>3.4.1 作者网络</div>
</div>
<div>
<div>3.4.1.1 待处理文件：作者名称文档</div>
</div>
<div>
<div>3.4.1.1.1 名称之间以Tab或空格分割</div>
</div>
<div>
<div>3.4.1.1.2 所有名称一行</div>
</div>
<div>
<div>3.4.1.2 作者频度文件：Txt词频文件</div>
</div>
<div>
<div>3.4.1.2.1 一行两字段：作者/频率</div>
</div>
<div>
<div>3.4.1.2.2 采集作者数量可以设置</div>
</div>
<div>
<div>3.4.1.3 作者共现VNA</div>
</div>
<div>
<div>3.4.1.3.1 ????????</div>
</div>
<div>
<div>3.4.1.4 作者共现Txt</div>
</div>
<div>
<div>3.4.1.4.1 ????????</div>
</div>
<div>
<div>3.4.1.5 作者共现矩阵</div>
</div>
<div>
<div>3.4.1.5.1 ????????</div>
</div>
<div>
<div>3.4.2 语义网络和社会网络</div>
</div>
<div>
<div>3.4.2.1 待处理文件：Txt文档</div>
</div>
<div>
<div>3.4.2.2 取出分析字段</div>
</div>
<div>
<div>3.4.2.3 提取高频词至辅助文档</div>
</div>
<div>
<div>3.4.2.4 过滤部分无用词</div>
</div>
<div>
<div>3.4.2.4.1 过滤词表：默认</div>
</div>
<div>
<div>3.4.2.4.2 过滤后有效词表</div>
</div>
<div>
<div>3.4.2.5 提取行特征</div>
</div>
<div>
<div>3.4.2.6 构建网络</div>
</div>
<div>
<div>3.4.2.6.1 VNA</div>
</div>
<div>
<div>3.4.2.6.2 Txt</div>
</div>
<div>
<div>3.5 汇总</div>
</div>
<div>
<div>3.5.1 获取首段的汇总词频</div>
</div>
<div>
<div>3.5.1.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>3.5.1.2 输出格式为Txt词频文件</div>
</div>
<div>
<div>3.5.2 获取首段特定词群的词频</div>
</div>
<div>
<div>3.5.2.1 必须是以Tab键隔离的Txt文档</div>
</div>
<div>
<div>3.5.2.2 设置词群辅助文档</div>
</div>
<div>
<div>3.5.2.3 输出格式为Txt词频文件</div>
</div>
<div>
<div>4 数据可视化</div>
</div>
<div>
<div>4.1 标签云</div>
</div>
<div>
<div>4.1.1 打开：频度文本文件</div>
</div>
<div>
<div>4.1.2 显示</div>
</div>
<div>
<div>4.1.2.1 放大/缩小</div>
</div>
<div>
<div>4.1.2.2 取词数量</div>
</div>
<div>
<div>4.1.2.3 排序</div>
</div>
<div>
<div>4.1.2.3.1 文本序</div>
</div>
<div>
<div>4.1.2.3.2 数值序</div>
</div>
<div>
<div>4.1.3 保存：Jpg格式</div>
</div>
<div>
<div>4.2 3元组</div>
</div>
<div>
<div>4.3 谱系组织结构图</div>
</div>
<div>
<div>4.4 点3D图</div>
</div>
<div>
<div>4.5 雷达图</div>
</div>
<div>
<div>5 辅助工具</div>
</div>
<div>
<div>5.1 批量</div>
</div>
<div>
<div>5.1.1 多类型多文件合并转换为Txt</div>
</div>
<div>
<div>5.1.1.1 网页格式：Html/Htm/Shtml</div>
</div>
<div>
<div>5.1.1.2 文档常见格式：Pdf/Doc/Txt</div>
</div>
<div>
<div>5.1.1.3 系统配置文件：Ini</div>
</div>
<div>
<div>5.1.2 单文件格式转换</div>
</div>
<div>
<div>5.1.2.1 Pdf to Txt</div>
</div>
<div>
<div>5.1.2.2 Doc/Xls/Ppt to Txt</div>
</div>
<div>
<div>5.2 快速定位</div>
</div>
<div>
<div>5.2.1 启动记事本</div>
</div>
<div>
<div>5.2.2 启动Excel</div>
</div>
<div>
<div>5.2.3 程序根目录</div>
</div>
<div>
<div>5.2.4 网页采集目录</div>
</div>
<div>
<div>5.2.5 查看自定义词表</div>
</div>
<div>
<div>5.2.6 查看过滤词表</div>
</div>
<div>
<div>5.2.7 查看高频无效词表</div>
</div>
<div>
<div>5.2.8 剪贴板</div>
</div>
<div>
<div>5.2.9 辅助文档</div>
</div>
<div>
<div>5.3 NetDraw</div>
</div>
<div>
<div>5.3.1 ???????</div>
</div>
<div>
<div>5.3.2 ???????</div>
</div>
<div>
<div>5.4 域名排名查询工具</div>
</div>
<div>
<div>5.4.1 打开:Txt文件</div>
</div>
<div>
<div>5.4.2 处理：开始/中止/保存</div>
</div>
<div>
<div>5.4.3 线程：程序执行流的最小单元</div>
</div>
<div>
<div>5.5 TestFrm</div>
</div>
<div>
<div>5.5.1 新功能接口</div>
</div>
<div>
<div>6 软件相关</div>
</div>
<div>
<div>6.1 作者博客</div>
</div>
<div>
<div>6.2 Rost系列软件</div>
</div>
<div>
<div>6.3 Rost社区</div>
</div> <a href="http://hi.baidu.com/whusoft/blog/item/d574d822519aadf9d7cae2a1.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/d574d822519aadf9d7cae2a1.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-10  12:20</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/d574d822519aadf9d7cae2a1.html</guid>
</item>

<item>
        <title><![CDATA[利用文本分析软件ROST CM写的一篇论文《基于文本分析的电子政务实例研究》]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/73f59539f6499af93a87ce1e.html]]></link>
        <description><![CDATA[
		
		基于文本分析的电子政务实例研究（有删节，英文已发，中文只贴）<br>
<br>
沈阳1，刘子韬2，骆少姬3，傅惠鹃1<br>
<br>
<br>
<br>
摘要：本文通过基于元搜索引擎的数据采集和特征网站的信息抓取，提出了基于Web信息抽取模型，构建搜索主体基于语义链的网络关系。基于此，通过自研的ROST Content Mining System对数据进行文本分析和语义分析，得出五大城市电子政务词频统计前30的词汇；并以上海为典型案例进行具体分析。与此同时构建电子政务语义评价模型对五大城市电子政务发展状况进行对比分析。结合自研的ROST WebSpider软件采集北京、上海、武汉、广州、重庆武大城市的政府网站1-3级的网页数据，提出合理的电子政务评价模型SCISS。最后根据实证分析结果，提出相应的对策，以期为中国电子政务发展提供建议。<br>
<br>
<br>
ROST 文本分析和内容挖掘软件下载地址：<br>
<br>
<a href="http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html" target="_blank">http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html</a><br>
<br>
<br>
<br>
关键词：电子政务 社会网络研究 元搜索引擎 文本分析 ROST<br>
<br>
<br>
<br>
1.&#160;&#160;&#160;&#160;&#160; INTRODUCTION<br>
<br>
目前对电子政务网络服务所产生的数据进行二次分析和文本分析已经成为国际信息界研究的热点。Jarl K Kampen等人分析了佛兰德公民对政府网站的偏好数据，得出各国政府的共同战略是提供更多的在线服务，但公民需要的是更好的服务。[1] Li, Honglai 和Le, Zhongjian针对电子政务评估的重要性及公平性，提出二次相对评价方法。[2] Chen FJ和Yang SL为解决信息超载问题，提出基于数据挖掘技术的个性化信息服务。[3] Liu Honglu 和Tian Zhihong通过分析用户个性化需求的电子政务系统，提出了基于Web挖掘模型的个性化信息服务框架，并设计和开发的Web日志挖掘实验系统，为个性化电子政务服务提供了技术基础。[4] Ou Jing-ying等人利用决策树、关联规则、聚簇算法等对电子政务中的热线服务等热点案例进行了分析，为政府决策、管理和服务提出了相应的参考。[5]<br>
<br>
一个信息化的政府已经成为提高一个国家或地区全球竞争力的重要要素之一。[6] 电子政务旨在提高政务工作的效率，建立一个更加勤政、廉政、精简和有竞争力的政府；同时为居民和企业提供更好地政务服务，有助于提取新的知识，提供决策支持和提高管理能力。[7-8]上述对电子政务的研究多为外国研究或借鉴外国的研究，缺乏针对中国国情的电子政务的数据全面采集和深入分析。就当前中国电子政务发展而言，存在不少亟待改善的问题。[9] 由于经济等因素，造成不同区域、不同部门的电子政务发展不均衡；适应中国电子政务的评价体系有待构建及完善；研究电子政务的方法单一，缺乏创新性等。本文立足中国国情分析当前电子政务现状，为其在理论上与实践上的发展提供参考。<br>
<br>
<br>
<br>
3.&#160;&#160;&#160;&#160;&#160; CASE STUDY<br>
<br>
3.1&#160;&#160; 北京、上海、武汉、广州、成都五个城市在元搜索引擎中的分析<br>
<br>
笔者通过自适应的文本分词共现算法，分别对中国五大重点城市与电子政务相关内容进行数据采集并对其进行语义解析和文本分析，每一个网页中的词条，与该城市电子政务对应出现的一次就为一次关系，以此类推，剔除停用词后，摘取每个城市前30对高频语义关系词，形成北京、上海、武汉、广州、成都五个城市的电子政务前30高频词汇对照表，如表1所示：<br>
<br>
（表1：五大城市电子政务词频统计前30的词汇）<br>
<span><img border="0" src="http://hiphotos.baidu.com/whusoft/pic/item/943533f04e1bf281a40f520a.jpg" small="0" class="blogimg"></span><br>
<br>
<br>
根据北京、上海、武汉、广州、成都五个城市的电子政务词频统计，分析出下列结论：第一，“技术”、“研究”、“大学”、“专业”等成为五个城市中共同出现的高频词汇，说明技术研究和人才培训是电子政务建设的核心问题。第二，广州、成都均出现了“企业”、“招标”，这说明解决电子政务的技术问题并不意味政府部门内部直接建设，企业外包也是一种可行的有效措施。第三，“安全”这词亦高频度地出现在四个城市中说明安全问题的解决对电子政务的发展极为重要。但在武汉的语义图中未出现“安全”说明武汉政府在建设电子政务的时候需要加强对安全的考虑。第四，采购是政府部门所必需的，如何利用电子政务令采购更合理，更有效率，是北京、广州、成都三个城市所关注的问题。第五，仅广州与“共享”关联，反映出广州比其它四大城市更具有信息资源共享的理念。第六，建设电子政务的核心目标之一在于增强政府与公民之前的沟通，但五个城市都未出现与之相关的词语，因此提高这方面的服务成为电子发展的重点。<br>
<br>
..........................(删，博客放不下)<br>
<br>
4.&#160;&#160;&#160;&#160;&#160; CONCLUSION<br>
<br>
本文的主要工作包括：分析国内外在E-government上所进行的相关研究和分析，对搜索引擎上的广度信息和特定电子政务网站上的深度信息进行文本分析，在此基础上提出了新颖有效的元搜索引擎和特征网站相结合的信息抽取模型，开发了ROST Content Mining System用于文本分析；通过对中国北京、上海、武汉、广州、成都五大城市的语义内容的挖掘，提出了评价电子政务网站的简易评价模型，并给出建议和意见，从而能够使政务工作更加高效的执行。下一步将在目前基础上完善ROST Content Mining System功能。 <a href="http://hi.baidu.com/whusoft/blog/item/73f59539f6499af93a87ce1e.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/73f59539f6499af93a87ce1e.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-09  21:23</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/73f59539f6499af93a87ce1e.html</guid>
</item>

<item>
        <title><![CDATA[ROST 文本分析和内容挖掘系统升级说明5.0.1.51]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html]]></link>
        <description><![CDATA[
		
		ROST CM 在windowsvista和7下面有些问题，我们已经购买了新机器，安装win7后，即可展开测试。<br>
使用手册是老的，见谅<br>
<br>
update：<br>
1.修正了表格无法关闭，在主窗口中点击鼠标右键，中的使用表格查看，主要是为了方便查看tab键隔离的情况。<br>
2.修正了分词时自定义词表无法选择，增加自定义词词表（目前似乎要重启软件）<br>
3.增加了新浪微博客一分种采集一次，为大家研究微博客打开一扇大门<br>
4.修改了采集最相关网页的一些bug，目前在win7下使用仍有问题，xp下是正常的<br>
<br>
<br>
昨天修改了<br>
<br>
1.增加了按照行的长度进行文档中行的重排，这个功能在采集和整理词表时非常重要<br>
2.增加了点击位置的状态栏行列状态显示<br>
3.增加了双击主、辅助文档显示整个文档的行总数<br>
4.优化了语种统计窗口界面，并修改了bug<br>
5.优化了行数统计窗口界面，并修改了bug<br>
6.恢复了主窗口中右键菜单中的查看帮助功能<br>
7.修改了批量文档处理中删除的bug<br>
<br>
前几天修改了<br>
1.恢复了细胞词库 <br>
2.修正了主文档和辅助文档打开框的缺省目录问题 <br>
3.修正标签云的不断弹框问题 <br>
<br>
下载地址见：<font size="3"><a href="http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar" target="_blank">http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar（鼠标右键）</a></font><br>
<a target="_blank" href="http://hi.baidu.com/whusoft/blog/item/d2fbe14425c33388b3b7dc4c.html">http://hi.baidu.com/whusoft/blog/item/d2fbe14425c33388b3b7dc4c.html</a> <a href="http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-08  21:21</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/fc1edb5022fe486885352409.html</guid>
</item>

<item>
        <title><![CDATA[虚拟学习团队实证化研究]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/1368d258411229d49c820428.html]]></link>
        <description><![CDATA[
		
		<p align="left" style="text-align: center;" class="MsoNormal"><strong><span style="font-size: 12pt;"><span>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; <span><img border="0" src="http://hiphotos.baidu.com/whusoft/pic/item/d1c8b01fb735a3dbe0fe0b15.jpg" small="0" class="blogimg"></span></span></span></strong><font size="2"><span style="font-size: 12pt;"><br>
</span></font></p>
<p align="left" style="text-align: center;" class="MsoNormal"><font size="2"><font size="1"><span style="font-size: 12pt;">沈阳</span><span style="font-size: 12pt;">&#160; </span><span style="font-size: 12pt;">傅慧鹃</span><span style="font-size: 12pt;">&#160; </span><span style="font-size: 12pt;">刘朋朋</span><span style="font-size: 12pt;">&#160; </span><span style="font-size: 12pt;">吴江</span></font></font></p>
<span>（武汉大学：</span><span>1. </span><span>信息管理学院</span><span> 2.</span><span>软件学院，武汉，</span><span>430072</span><span>）</span><strong><span style="font-size: 12pt;"><span>&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; </span></span></strong>
<p class="MsoNormal"><strong><span>[</span></strong><strong><span>摘要</span></strong><strong><span>] </span></strong><span>本文通过自研的</span><span>ROST Content Mining</span><span>软件对虚拟学习团队进行语义分析，从语义角度凝炼虚拟学习团队广义和狭义上的含义。</span><span>以</span><span>ROST</span><span>虚拟学习团队为对象，通过对</span><span>245</span><span>名团队成员历史档案资料的分析和现有</span><span>135</span><span>名成员的追踪调查，研究虚拟学习团队的社会网络关系、知识交流、个体动力等关键问题，提出面向知识交流的四种运行机制的元模型，总结</span><span>ROST</span><span>虚拟学术团队的整体模式，以资学界借鉴。</span><span> </span></p>
<p class="MsoNormal"><strong><span>[</span></strong><strong><span>关键词</span></strong><strong><span>]</span></strong><span> </span><span>虚拟学习团队</span><span> </span><span>内容挖掘</span><span> </span><span>个体动力</span><span> </span><span>语义分析</span></p>
<pre><strong><span style="font-size: 10.5pt;"><span><br></span></span></strong></pre>
<p class="MsoNormal"><span>&#160;</span></p>
<p class="MsoNormal"><strong><span style="font-size: 12pt;">1. </span></strong><strong><span style="font-size: 12pt;">引言</span></strong></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>知识交流的无障碍是数字图书馆发展的核心目标之一，在促进知识交流跨时空的有效传播和实现信息价值最大化开发的背景下，虚拟学习团队成为研究热点。<span>Balthazard</span>和<span>Pierre A.</span>学者实证分析了墨西哥<span>MBA</span>学生的虚拟交流，提出了虚拟团队对高校教育的促进作用<span>[1]</span>。<span>Potter</span>和<span>Richard E.</span>学者则直接提出虚拟学习团队的交流方式更适合网络时代的知识交流<span>[2]</span>。一般来说，虚拟团队的研究重点涉及虚拟学习团队的优势<span>[3]</span>，虚拟团队运行机制如何高效化<span>[4][5][6]</span>，知识交流问题<span>[7][8]</span>和团队个体动力问题<span>[9]</span>。虽然虚拟团队构建在理论上已经有了较为完善的体系，但实践的情况并不令人满意。<span>2008</span>年，<span>OnPoint Consulting</span>调查了<span>48</span>个虚拟团队，调查组发现团队普遍存在无明确职能角色分配以及在决策制定和交流过程中混乱等问题<span>[10]</span>。学者<span>Poehler</span>和<span>Lance</span>甚至提出在全球化的过程中，虚拟学习团队面对着一个巨大的挑战，队员需要进行训练才能在团队中高效工作<span>[11]</span>。此外，</span><span>Wei K</span><span>研究了中国虚拟团队应该如何在全球化环境下进行知识交流</span><span>[12]</span><span>。</span><span>Z Guo, J D'Ambra, T Turner</span><span>和</span><span> Zhang</span><span>研究了在中国文化背景下，对话技巧如何促进虚拟学习团队的关系发展和决策制定<span>[13]</span>。</span></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>笔者认为虚拟学习团队中最关键的问题是知识交流背景下的团队运行机制和个体动力，在此方面的研究缺少必要的实证分析。</span> <span>鉴于此，本文以笔者创建运行</span><span>10</span><span>年的</span><span>ROST</span><span>虚拟学习团队为研究对象进行研究有其价值性。</span></p>
<p align="left" style="text-align: left;" class="MsoNormal"><strong><span style="font-size: 12pt;">&#160;</span></strong></p>
<p align="left" style="text-align: left;" class="MsoNormal"><strong><span style="font-size: 12pt;">2</span></strong><strong><span style="font-size: 12pt;">．虚拟学习团队的语义分析</span></strong></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>在</span><span>ROST CM</span><span>（自研的内容挖掘软件）</span><span>中获取搜索引擎百度的“虚拟学习团队”前<span>730</span>个网页摘要，使用“快速语义网络生成”菜单对其进行语义分析。每一篇文章中的所有词，与虚拟学习团队对应出现一次就为一次关系，以此类推，摘取前<span>651</span>对高频语义关系形成虚拟学习团队语义图，如图一所示：</span></p>
<p align="center" style="text-align: center; text-indent: 17.45pt;" class="MsoNormal"><strong><span style="font-size: 12pt;">                                                  </span></strong></p>
<p align="left" style="text-align: left; text-indent: 21pt;" class="MsoNormal"><span>分析虚拟学习团队的语义图可以得出以下四点结论：第一，与“虚拟学习团队”同时出现频率最高的关系词主要集中在交流词簇，如：“共同”，“经营”、“沟通”、“合作”，“组织”等，由此可知交流问题解既是虚拟学习团队建设中最重要的，也是大家最关注的问题。第二，“企业”比“大学”更接近中心，说明企业中进行学习团队建设的积极性，成熟度以及实际运作等方面均好于学校。第三，在教育领域，大学更容易产生虚拟学习团队，同时中学也逐步接受虚拟学习团队的理念。此外，“理论”、“理念”与中心的距离近于“实践”说明中国学界对虚拟学习团队尚处理论研究阶段，未能结合团队实践。</span></p>
<p align="left" style="text-align: left; text-indent: 21pt;" class="MsoNormal"><span>基于以上结论，可以从语义层面表述虚拟学习团队的含义。广义的虚拟学习团队是一种以互联网为平台，在众多领域与部门均可以组建，注重过程控制、知识共享、绩效评估、交流合作、组织管理等方面的一种智力协作方式。狭义的虚拟学习团队即本文重点研究的虚拟学习团队是学生自愿参加，以网络为平台，以目标为导向，围绕创新性与实践性的课题展开跨学科跨时空的交流与合作，将师生与学生间交流延伸到课堂之外的一种协作方式。</span></p>
<p class="MsoNormal"><strong><span style="font-size: 12pt;">&#160;</span></strong></p>
<p class="MsoNormal"><strong><span style="font-size: 12pt;">3. Case Study</span></strong><strong><span style="font-size: 12pt;">： <span>ROST</span>虚拟学习团队</span></strong></p>
<p style="text-indent: 21.75pt;" class="MsoNormal"><span>ROST</span><span>虚拟学习团队是笔者在<span>1998</span>年最初创办，除<span>2005-2006</span>的间隔期，已历经<span>10</span>年，目前<span>ROST</span>虚拟学习团队的发展已较为成熟，主要体现在两方面：面向知识交流的团队运行机制；成员数量、构成及社会网络。</span></p>
<p class="MsoNormal"><span>3.1 </span><span>面向知识交流的团队运行机制</span></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>团队成员间的知识交流可划分为两类，一是实时交流与延时交流，二是个体间交流与群体间交流。<span>ROST</span>虚拟学习团队采用<span>Wiki</span>的交流模式，实现跨时空的无障碍交流。一方面，通过<span>QQ</span>、<span>MSN</span>等实现实时交流；另一方面，通过<span>E-mail</span>、<span>Blog</span>等实现延时交流。此外，团队创建学伴博客，推进交流协作与老师的过程追踪，以此形成开放、对等、共享的团队合作氛围。</span></p>
<p style="text-indent: 21.75pt;" class="MsoNormal"><span>面向知识交流，根据团队现阶段（<span>2009</span>年<span>2</span>月）的发展状况，可以得出目前<span>ROST</span>虚拟学习团队运行机制四种元模型，如图二所示：</span></p>
<p align="center" style="text-align: center; text-indent: 15.75pt;" class="MsoNormal"><span>   </span></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>ROST</span><span>虚拟学习团队采用四种元模型组合的运行机制：一是以成员的专长为前提进行任务分配的十字模型；二是以年级层次为前提的金字塔模型；三是以交流难易程度为前提的同心圆模型；四是以相互关系亲疏为前提的任意组合模型。以此为元模型，进行任意组合，实现知识交流最大化，从而完成软件开发实践、网络营销试验，自学材料编纂和论文写作四项任务。</span></p>
<p class="MsoNormal"><span>3.2 </span><span>成员人数、构成及社会网络</span></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>笔者将</span><span>ROST</span><span>虚拟学习团队的发展划分为四个阶段，并根据团队历年的</span><span>245</span><span>份档案资料统计出每个阶段的成员总数、核心人数以及成员所涵盖的专业数等，对档案资料分析得出以下结论：首先，在虚拟学习团队发展的过程中，团队人员在不断增加，尤其是在团队处于稳定期之后。其次，核心成员的人数未有较大增长，并未随外围人数增加而成比例增加，说明核心人员的培养和稳定难度较大。最后，相关高校和涵盖专业的数量明显增长，跨学校跨专业的优势不断显现。团队诸多成果都是由跨学科的交流创造出来的，如将生物系中物种数量的测算方法运用于测量互联网大小；将数学复杂网络理论应用于文科论文的社会网络实证研究等。</span><span> </span></p>
<p style="text-indent: 21pt;" class="MsoCommentText"><span>此外，笔者通过</span><span>5</span><span>次问卷调查，将社会关系强度划分为四级：</span><span>0</span><span>—不认识；</span><span>1</span><span>—认识但不熟悉；</span><span>2</span><span>—熟悉但无合作关系；</span><span>3</span><span>—熟悉并有合作关系，最终采集了有效样本量为</span><span>39</span><span>人的社会关系数据，利用</span><span>NetDraw</span><span>软件将其可视化，如图三所示：</span></p>
<p align="center" style="text-align: center; text-indent: 26.25pt;" class="MsoNormal"><span>   </span></p>
<p style="text-indent: 26.25pt;" class="MsoNormal"><span>社会关系强连带图可大致反映出</span><span>ROST</span><span>虚拟学习团队的主体结构，结合成员档案分析可得以下结论：第一，有效样本量中社会关系强度为</span><span>3</span><span>的共有</span><span>27</span><span>名成员，</span><span>15</span><span>名核心成员都在其中，说明成员在团队中的核心地位与其在团队中的社会关系存在正相关。第二，社会网络是围绕项目组形成的，受其运行模式影响呈现出多样性。同一项目组成员间的社会关系更为紧密，子网络之间存在着信息桥，充当信息桥角色的都是核心成员，也说明了有些子网络之间的交流还不够充分。第三，从成员档案中统计这</span><span>39</span><span>名成员的成果，一是成果的数量和质量与社会关系强度呈正相关，尤其体现在成员的跨学科交流；二是在同一社会关系强度中，有效交流率是影响成果的关键因素，人工统计连续</span><span>60</span><span>天（</span><st1:chsdate isrocdate="False" islunardate="False" day="7" month="10" year="2008"><span>2008</span><span>年</span><span>10</span><span>月</span><span>7</span><span>日</span></st1:chsdate><span>—</span><st1:chsdate isrocdate="False" islunardate="False" day="6" month="12" year="2008"><span>2008</span><span>年</span><span>12</span><span>月</span><span>6</span><span>日</span></st1:chsdate><span>）的即时通讯聊天记录分析可得，担当信息桥角色的核心成员其交流率（交流率</span><span>=</span><span>某个体发出的聊天记录</span><span>/</span><span>个体聊天记录总数</span><span>*100%</span><span>）高于其它核心成员，这一群体的成果相对更多。</span></p>
<p align="left" style="text-align: left;" class="MsoNormal"><strong><span style="font-size: 12pt;">&#160;</span></strong></p>
<p align="left" style="text-align: left;" class="MsoNormal"><strong><span style="font-size: 12pt;">4</span></strong><strong><span style="font-size: 12pt;">．虚拟学习团队个体动力分析</span></strong></p>
<p style="text-indent: 21pt;" class="MsoNormal"><span>个体动力是虚拟学习团队研究中最为关键的问题，若能真正了解成员的动力来源，动力发展阶段以及影响动力发展的因素，从个体动力波动现象找出规律，就可以建立动力预警机制，及时对每一个参与团队的个体进行状态预测和动力激励，从而实现知识交流状态下个体动力的最大化。</span></p>
<p class="MsoNormal"><span>4.1</span><span>动力阶段研究</span></p>
<p style="text-indent: 20.25pt;" class="MsoNormal"><span>团队个体动力发展可以划分为五个阶段：第一，</span><span>动力引导阶段，个体因兴趣或利益参与团队，此阶段为个体源动力的产生时期。</span><span>第二，</span><span>动力漂移阶段，个体考虑时间成本等因素，游离于团队外围圈。第三，动力分散阶段，个体在确定加入之后，因寻找自己的研究点而出现动力分散。第四，动力聚焦阶段，个体找到自己研究点，并将动力聚焦于此点，此时动力达到顶峰。第五，动力稳定阶段，个体处于研究状态，此时动力波动较少。第六，动力回落，任务基本结束，尚未开始新的任务，此时个体动力将逐渐降低。</span></p>
<p style="text-indent: 20.25pt;" class="MsoNormal"><span>在此五个阶段中，动力归零现象都有可能发生，但发生概率有所不同。经过</span><span>ROST</span><span>虚拟学习团队的实践研究，笔者发现动力归零现象在各个阶段发生的比率分别为：</span><span>15.6%</span><span>、</span><span>46.8%</span><span>、</span><span>65.3%</span><span>、</span><span>10.7%</span><span>、</span><span>18.3%</span><span>、</span><span>70.2%</span><span>。因此，在虚拟学习团队发展过程中，动力漂移阶段、分散阶段和回落阶段是队员流失最主要的阶段，在动力漂移阶段，团队应当尽可能地考虑到学生的情况，根据学生实际情况分配小任务。老师在动力分散阶段要积极引导学生，帮助学生尽快找到有兴趣并能胜任的研究点。</span><span>70.2%</span><span>的同学在一个研究结束时会离开团队，因此在此阶段激励机制的作用尤为重要。</span></p>
<p align="left" style="text-align: left;" class="MsoNormal"><strong><span style="font-size: 12pt;">5</span></strong><strong><span style="font-size: 12pt;">．结语</span></strong></p>
<p align="left" style="text-align: left; text-indent: 24pt;" class="MsoNormal"><span>现阶段，</span><span>ROST</span><span>学习团队模式如图四所示：</span></p>
<p align="center" style="text-align: center; text-indent: 24pt;" class="MsoNormal"><span>   </span></p>
<p align="left" style="text-align: left; text-indent: 21pt;" class="MsoNormal"><span>首先，</span><span>ROST</span><span>虚拟学习团队以“泛网融合”（社会网络、语义网络、复杂网络、普适网络）为理论研究目标，围绕国家项目、学生项目、社会实践和学科竞赛展开，采用目标管理方法，从目标匹配、形成到完成进行过程控制。其次，重点考虑影响动力的因素，将外部的不可变因素如保研政策、奖励政策、就业压力等考虑在内，并根据团队内部因素提出确定个体所处动力阶段的动力矩阵模型，进而通过外部可变因素进行激励，从而保证动力各阶段的良性循环。最后，多样化的交流方式保证成员间的跨时空交流，四个元模型的运行机制任意组合保证团队的高效运行。</span></p>
<p align="left" style="text-align: left; text-indent: 21pt;" class="MsoNormal"><span>目前，</span><span>ROST</span><span>虚拟学习团队的研究在中国的已经得到了学界的一定认可，我们将对于团队内部的深层知识交流机制展开进一步研究，重点涉及以下三点：第一，不断引入新的知识交流的理念和平台，为团队知识交流最大化提供保障；第二，团队运行机制与交流模式的完全匹配，特别是不同研究方向的各小组如何实现协作，保证各种运行机制模型之间实现知识交流无障碍；第三，建立团队的交流规范，完善</span><span>ROST CM</span><span>软件使其具有对团队队员聊天记录更强的语义分析功能，如事件的自动抽取，感情倾向的自动识别。</span><span> </span></p> <a href="http://hi.baidu.com/whusoft/blog/item/1368d258411229d49c820428.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%D0%E9%C4%E2%D1%A7%CF%B0%CD%C5%B6%D3">虚拟学习团队</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/1368d258411229d49c820428.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-07  21:11</pubDate>
        <category><![CDATA[虚拟学习团队]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/1368d258411229d49c820428.html</guid>
</item>

<item>
        <title><![CDATA[week-update：ROST CM新功能]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/e8489dc481270cc138db494a.html]]></link>
        <description><![CDATA[
		
		这一周对ROSTCM进行了升级<br>
<br>
对ROST CM做了很多地方的微调。不过由于软件已经较大了。所以Bug仍然不少。<br>
<br>
不少国外朋友老是催我们尽快整理使用手册，由于人手限制，我们也只能逐步推进。<br>
<br>
本周在可视化中增加了一些功能。对所有菜单进行了清理。如果您在使用过程中有什么想法，可以立即Email我们。<br>
<br>
<br>
本周增加了：标签云以及其他的一些可视功能。<br>
<br>
<span align="left"><img height="472" width="435" border="0" align="left" src="http://hiphotos.baidu.com/whusoft/pic/item/194674a8992dd69fca130c23.jpg" small="0" class="blogimg"></span><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<span align="left"><img height="363" width="485" border="0" align="left" src="http://hiphotos.baidu.com/whusoft/pic/item/920c20595ed88f042934f02e.jpg" small="0" class="blogimg" style="width: 469px; height: 356px;"></span><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<span align="left"><img height="322" width="545" border="0" align="left" src="http://hiphotos.baidu.com/whusoft/pic/item/748b8befeb081718acafd532.jpg" small="0" class="blogimg" style="width: 476px; height: 300px;"></span><br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<br>
<a href="http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar" target="_blank">http://www.fanpq.com/Soft/UploadSoft/ROSTCM5.rar</a><br>
<br>
下载后输入万能注册码 <font size="5">ROST</font> 即可使用免费版了。<br>
<br>
<br>
<br>
新发现了几个比较有用的方法，其中一个正在申请专利，这些方法将放在后面的学术专业版中，免费版暂不提供类似功能。 <a href="http://hi.baidu.com/whusoft/blog/item/e8489dc481270cc138db494a.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/e8489dc481270cc138db494a.html#comment">查看评论</a>]]></description>
        <pubDate>2009-11-03  16:50</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/e8489dc481270cc138db494a.html</guid>
</item>

<item>
        <title><![CDATA[高校美女排行榜和玩游戏排行榜]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/b739fe092172772e6b60fb26.html]]></link>
        <description><![CDATA[
		
		这段时间逐步进入了研究的状态，有点收获。 要的就是这种“癫狂”的状态，其实人这样挺好的。<br>
<br>
看看我们ROST 内容挖掘系统挖掘出来的几个版<br>
<br>
高校玩游戏排行榜（ROST内容挖掘系统挖掘）<br>
<br>
1&#160;&#160;&#160; 北京理工大学&#160;&#160;&#160; 252<br>
2&#160;&#160;&#160; 广州大学&#160;&#160;&#160; 46<br>
3&#160;&#160;&#160; 厦门大学&#160;&#160;&#160; 41<br>
4&#160;&#160;&#160; 北京大学&#160;&#160;&#160; 40<br>
5&#160;&#160;&#160; 湖南大学&#160;&#160;&#160; 36<br>
6&#160;&#160;&#160; 清华大学&#160;&#160;&#160; 34<br>
7&#160;&#160;&#160; 华中科技大学&#160;&#160;&#160; 28<br>
8&#160;&#160;&#160; 河南大学&#160;&#160;&#160; 26<br>
9&#160;&#160;&#160; 中山大学&#160;&#160;&#160; 25<br>
10&#160;&#160;&#160; 华中师范大学&#160;&#160;&#160; 25<br>
11&#160;&#160;&#160; 南通大学&#160;&#160;&#160; 23<br>
12&#160;&#160;&#160; 福建农林大学&#160;&#160;&#160; 21<br>
13&#160;&#160;&#160; 温州大学&#160;&#160;&#160; 21<br>
14&#160;&#160;&#160; 南昌大学&#160;&#160;&#160; 20<br>
15&#160;&#160;&#160; 三峡大学&#160;&#160;&#160; 19<br>
16&#160;&#160;&#160; 福州大学&#160;&#160;&#160; 18<br>
17&#160;&#160;&#160; 武汉大学&#160;&#160;&#160; 18<br>
18&#160;&#160;&#160; 南京大学&#160;&#160;&#160; 18<br>
19&#160;&#160;&#160; 浙江大学&#160;&#160;&#160; 17<br>
20&#160;&#160;&#160; 同济大学&#160;&#160;&#160; 17<br>
21&#160;&#160;&#160; 广西民族大学&#160;&#160;&#160; 15<br>
22&#160;&#160;&#160; 西南大学&#160;&#160;&#160; 14<br>
23&#160;&#160;&#160; 重庆大学&#160;&#160;&#160; 14<br>
24&#160;&#160;&#160; 深圳大学&#160;&#160;&#160; 13<br>
25&#160;&#160;&#160; 集美大学&#160;&#160;&#160; 13<br>
26&#160;&#160;&#160; 安徽大学&#160;&#160;&#160; 12<br>
27&#160;&#160;&#160; 上海大学&#160;&#160;&#160; 12<br>
28&#160;&#160;&#160; 海南大学&#160;&#160;&#160; 12<br>
29&#160;&#160;&#160; 辽宁科技大学&#160;&#160;&#160; 12<br>
30&#160;&#160;&#160; 河北大学&#160;&#160;&#160; 12<br>
31&#160;&#160;&#160; 中南林业科技大学&#160;&#160;&#160; 12<br>
32&#160;&#160;&#160; 浙江工业大学&#160;&#160;&#160; 11<br>
33&#160;&#160;&#160; 苏州大学&#160;&#160;&#160; 11<br>
34&#160;&#160;&#160; 中国地质大学&#160;&#160;&#160; 11<br>
35&#160;&#160;&#160; 太原理工大学&#160;&#160;&#160; 10<br>
36&#160;&#160;&#160; 西北大学&#160;&#160;&#160; 10<br>
37&#160;&#160;&#160; 湖北工业大学&#160;&#160;&#160; 10<br>
38&#160;&#160;&#160; 广西师范大学&#160;&#160;&#160; 10<br>
39&#160;&#160;&#160; 黑龙江大学&#160;&#160;&#160; 10<br>
40&#160;&#160;&#160; 四川大学&#160;&#160;&#160; 9<br>
41&#160;&#160;&#160; 武汉科技大学&#160;&#160;&#160; 9<br>
42&#160;&#160;&#160; 江西理工大学&#160;&#160;&#160; 9<br>
43&#160;&#160;&#160; 南昌航空大学&#160;&#160;&#160; 9<br>
44&#160;&#160;&#160; 中南民族大学&#160;&#160;&#160; 9<br>
45&#160;&#160;&#160; 中南大学&#160;&#160;&#160; 9<br>
46&#160;&#160;&#160; 河北科技大学&#160;&#160;&#160; 8<br>
47&#160;&#160;&#160; 电子科技大学&#160;&#160;&#160; 8<br>
48&#160;&#160;&#160; 天津大学&#160;&#160;&#160; 8<br>
49&#160;&#160;&#160; 浙江工商大学&#160;&#160;&#160; 8<br>
50&#160;&#160;&#160; 郑州大学&#160;&#160;&#160; 8<br>
<br>
<br>
高校美女关注度排行榜（ROST内容挖掘系统挖掘）<br>
1&#160;&#160;&#160; 南昌大学&#160;&#160;&#160; 240<br>
2&#160;&#160;&#160; 清华大学&#160;&#160;&#160; 72<br>
3&#160;&#160;&#160; 重庆大学&#160;&#160;&#160; 65<br>
4&#160;&#160;&#160; 武汉大学&#160;&#160;&#160; 43<br>
5&#160;&#160;&#160; 北京电影学院&#160;&#160;&#160; 35<br>
6&#160;&#160;&#160; 四川大学&#160;&#160;&#160; 33<br>
7&#160;&#160;&#160; 中国传媒大学&#160;&#160;&#160; 30<br>
8&#160;&#160;&#160; 苏州大学&#160;&#160;&#160; 29<br>
9&#160;&#160;&#160; 广州大学&#160;&#160;&#160; 29<br>
10&#160;&#160;&#160; 深圳大学&#160;&#160;&#160; 22<br>
11&#160;&#160;&#160; 上海戏剧学院&#160;&#160;&#160; 21<br>
12&#160;&#160;&#160; 复旦大学&#160;&#160;&#160; 20<br>
13&#160;&#160;&#160; 中央戏剧学院&#160;&#160;&#160; 20<br>
14&#160;&#160;&#160; 北京大学&#160;&#160;&#160; 19<br>
15&#160;&#160;&#160; 西南大学&#160;&#160;&#160; 18<br>
16&#160;&#160;&#160; 北京外国语大学&#160;&#160;&#160; 17<br>
17&#160;&#160;&#160; 中央民族大学&#160;&#160;&#160; 16<br>
18&#160;&#160;&#160; 新疆大学&#160;&#160;&#160; 14<br>
19&#160;&#160;&#160; 中山大学&#160;&#160;&#160; 13<br>
20&#160;&#160;&#160; 暨南大学&#160;&#160;&#160; 13<br>
21&#160;&#160;&#160; 上海大学&#160;&#160;&#160; 13<br>
22&#160;&#160;&#160; 浙江大学&#160;&#160;&#160; 13<br>
23&#160;&#160;&#160; 北京舞蹈学院&#160;&#160;&#160; 13<br>
24&#160;&#160;&#160; 北京体育大学&#160;&#160;&#160; 12<br>
25&#160;&#160;&#160; 南京大学&#160;&#160;&#160; 12<br>
26&#160;&#160;&#160; 厦门大学&#160;&#160;&#160; 12<br>
27&#160;&#160;&#160; 杭州师范大学&#160;&#160;&#160; 11<br>
28&#160;&#160;&#160; 重庆医科大学&#160;&#160;&#160; 11<br>
29&#160;&#160;&#160; 云南大学&#160;&#160;&#160; 10<br>
30&#160;&#160;&#160; 宁波大学&#160;&#160;&#160; 10<br>
31&#160;&#160;&#160; 济南大学&#160;&#160;&#160; 10<br>
32&#160;&#160;&#160; 华中师范大学&#160;&#160;&#160; 10<br>
33&#160;&#160;&#160; 中南大学&#160;&#160;&#160; 10<br>
34&#160;&#160;&#160; 山东大学&#160;&#160;&#160; 10<br>
35&#160;&#160;&#160; 四川师范大学&#160;&#160;&#160; 9<br>
36&#160;&#160;&#160; 中国地质大学&#160;&#160;&#160; 9<br>
37&#160;&#160;&#160; 华中科技大学&#160;&#160;&#160; 9<br>
38&#160;&#160;&#160; 广西民族大学&#160;&#160;&#160; 9<br>
39&#160;&#160;&#160; 温州大学&#160;&#160;&#160; 9<br>
40&#160;&#160;&#160; 南京师范大学&#160;&#160;&#160; 8<br>
41&#160;&#160;&#160; 北京吉利大学&#160;&#160;&#160; 7<br>
42&#160;&#160;&#160; 山西大学&#160;&#160;&#160; 7<br>
43&#160;&#160;&#160; 广东外语外贸大学&#160;&#160;&#160; 7<br>
44&#160;&#160;&#160; 西安科技大学&#160;&#160;&#160; 7<br>
45&#160;&#160;&#160; 东华大学&#160;&#160;&#160; 7<br>
46&#160;&#160;&#160; 重庆师范大学&#160;&#160;&#160; 7<br>
47&#160;&#160;&#160; 湖南大学&#160;&#160;&#160; 6<br>
48&#160;&#160;&#160; 成都中医药大学&#160;&#160;&#160; 6<br>
49&#160;&#160;&#160; 青岛大学&#160;&#160;&#160; 6<br>
50&#160;&#160;&#160; 长安大学&#160;&#160;&#160; 6<br>
<br>
<br>
欢迎转载 <a href="http://hi.baidu.com/whusoft/blog/item/b739fe092172772e6b60fb26.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/web%BF%C6%D1%A7%BC%B0%CE%B4%C0%B4%B7%A2%D5%B9">web科学及未来发展</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/b739fe092172772e6b60fb26.html#comment">查看评论</a>]]></description>
        <pubDate>2009-10-30  09:45</pubDate>
        <category><![CDATA[web科学及未来发展]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/b739fe092172772e6b60fb26.html</guid>
</item>

<item>
        <title><![CDATA[Empirical Research on E-Government based on Content Mining]]></title>
        <link><![CDATA[http://hi.baidu.com/whusoft/blog/item/7c27613f303100e654e72314.html]]></link>
        <description><![CDATA[
		
		<p class="MsoNormal"><span><u7:p>&#160;<a target="_blank" href="http://www.fanpq.com/Soft/UploadSoft/PDF/ICMECG2009.pdf"> Full version download</a></u7:p></span></p>
<p class="MsoNormal">Yang SHEN，Zitao LIU,Shaoji Luo,Huijuan FU,Ye LI.Empirical Research on E-Government Based on Content Mining&#160; ICMeCG 2009.9 page：91-94</p>
<p align="left" class="MsoNormal" style="margin-bottom: 12pt; text-align: left;"><span style="font-size: 12pt;">&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160;&#160; </span></p>
<table height="32" width="4" cellspacing="0" cellpadding="0" border="0" align="left" class="MsoNormalTable" style="width: 3pt;">
    <tbody>
        <tr style="height: 0.75pt;">
            <td width="10" style="padding: 0cm; width: 7.2pt; height: 0.75pt;">
            <p align="left" class="MsoNormal" style="text-align: left;"><span style="font-size: 12pt;"><u3:p>&#160;</u3:p></span></p>
            </td>
        </tr>
        <tr>
            <td style="padding: 0cm;">
            <p align="left" class="MsoNormal" style="text-align: left;"><span style="font-size: 12pt;"><u3:p>&#160;</u3:p></span></p>
            </td>
            <td style="padding: 0cm;">
            <p align="left" class="MsoNormal" style="text-align: left;"><span style="font-size: 12pt;"><u3:p>&#160;</u3:p></span></p>
            </td>
        </tr>
    </tbody>
</table>
<p class="Abstract"><em><span><u7:p></u7:p>Abstract</span></em><span>—According to acquiring data from the meta-search engine and getting information in specific websites, the author proposes an extraction model based on Web information which is used to construct network relationships of the subject based on its semantic link. Then based on the proposed model above, the author does content mining and semantic analysis on the Web data of five big cities (Beijing, Shanghai, Wuhan, Guangzhou, and Chengdu) with the help of self-made ROST Content Mining System, to get first 30 high-frequency e-government words respectively, and takes Shanghai for specific analysis; Meanwhile, the author, using ROST WebSpider to collect the web page from level 1 to 3 of governments’ websites in Beijing, Shanghai, Wuhan, Guangzhou and Chengdu, constructs the evaluation model SCISS to do comparative analysis on the development of the five metropolis’ e-government. Finally, the author comes up with some countermeasures, aiming to provide advice for the development of e-government in china, according to the empirical analysis. <u3:p></u3:p></span></p>
<p class="keywords"><span>Keywords-social network; E-governmen; meta-search engine; content mining<u3:p></u3:p></span></p>
<u7:p></u7:p>
<h1 style="text-indent: 0cm;"><span>&#160;Introduction <u3:p></u3:p></span></h1>
<p class="MsoBodyText"><span>Researches of progressive analysis and content mining on the data generated in e-government network services have become the hot spot in information science. Jarl K Kampen and his partners did analysis on the citizens’ preference data of Flanders’s government website, coming to the conclusion that every government will provide more on-line services, but citizens need better ones <sup>[1]</sup>. Li, Honglai and Le, Zhongjian proposed the second relative evaluation method, in accordance with the importance and fairness of e-government evaluation <sup>[2]</sup>. Liu Honglu and Tian Zhihong put forward the personalized information services framework based on the Web content mining model after analyzing on these e-government systems that fulfill users’ individualized needs and then designed and developed the experimental system for Web log mining, which established technical foundation for individualized e-government services <sup>[3]</sup>. Ou Jing-ying and his partners took advantage of the decision tree, association rules, clustering algorithm, to analyze on the hotline services provided by e-government, in order to provide reference for decision-making, managing, and serving <sup>[4]</sup>.<u7:p></u7:p><u3:p></u3:p></span></p>
<p class="MsoBodyText"><span>One informative government has become one of the key factors to enhance global competitiveness of a country or a region <sup>[5-6]</sup>. But in terms of Chinese e-government, there are many problems in urgent need of improvement and there are no researches focusing on overall data acquisition and deep analysis based on e-government in China <sup>[7]</sup>. This paper analyzes China’s e-government situation based upon Chinese situation, aiming to provide reference for its development in both theory and practice.<u3:p></u3:p></span></p>
<h1 style="text-indent: 0cm;"><span>Case Study<u3:p></u3:p></span></h1>
<h2><span>Analysis on Five Metropolis' E-governments based on Meta-Search Engine<u3:p></u3:p></span></h2>
<p class="MsoBodyText"><span>Based on adaptive text segmentation and co-occurrence algorithm, we acquire e-government data of the five key metropolis in China respectively, and then we do content mining on the acquired data. During the process, we add one to the frequency of their relationship if one word appears together with e-government in each corresponding web page. So after filtering the meaningless words, we get the first 30 high-frequency words in semantic relationship respectively for these five metropolis to construct the table of e-government in Beijing, Shanghai, Wuhan, Guangzhou, and Chengdu. The table is shown in Table I:<u7:p></u7:p><u3:p></u3:p></span></p>
<p class="MsoBodyText"><span>According to the statistics of e-government in Beijing, Shanghai, Wuhan, Guangzhou, and Chengdu based on word frequencies, we come to the following conclusions:<u7:p></u7:p><u3:p></u3:p></span></p>
<p class="bulletlist" style="text-indent: -18pt;"><span>Words like &quot;technology&quot;, &quot;research&quot;, &quot;university&quot; and specialization field are hot in the five metropolis, indicating that technology researches and training are the core issues in the process of e-government construction.<u3:p></u3:p></span></p>
<p class="bulletlist" style="text-indent: -18pt;"><span>&quot;enterprise&quot; and &quot;bid&quot; are among the high-frequency words of Guangzhou and Chengdu, implying that other than government departments' direct constructing, enterprise outsourcing is a excellent way to solve the problems.<u3:p></u3:p></span></p>
<p class="bulletlist" style="text-indent: -18pt;"><span>&quot;safety&quot; appears in high frequency in four of the five metropolis, indicating the great importance of security in the process of e-government development. But &quot;safety&quot; does not exist in Wuhan's semantic high-frequency words, which shows that security should be taken into consideration more seriously by Wuhan government when developing e-government.<u3:p></u3:p></span></p>
<p class="bulletlist" style="text-indent: -18pt;"><span>How to make procurement more reasonable and efficient has been focused by the governments of Beijing, Guangzhou, and Chengdu, as procurement is governments' unavoidable behavior.<u3:p></u3:p></span></p>
<p class="bulletlist" style="text-indent: -18pt;"><span>&quot;share&quot; is only related to Guangzhou, reflecting that the idea of information resources sharing occurred to Guangzhou earlier than the other metropolis. Sixth, although one of the core goals to construct e-government is to enhance the communication between government departments and citizens, none of the five cities has words related to communication. So improving communication services should be one of the key issues to be done as soon as possible.<u3:p></u3:p></span></p>
<h2><span>Analysis on Shanghai E-government based on Meta-Search Engine<u3:p></u3:p></span></h2>
<u7:p></u7:p>
<p class="bulletlist" style="margin-left: 0cm; text-indent: 14.45pt;"><span>Using the model proposed in section 2.1, we take Shanghai to do our case study. First, we input “Shanghai E-government” into the searching box of ROST Content Mining System, which causes the returning of 2665 pages of website abstracts from the meta-search engine (749 pages from Baidu, 662 pages from Google, 290 pages from Youdao, and 964 pages from Sougou). Then we do semantic <u3:p></u3:p></span></p>
<u8:shape type="#_x0000_t202" style="position: absolute; left: 0pt; text-align: left; margin-left: 261.6pt; margin-top: -4.3pt; width: 239.85pt; height: 155.9pt; z-index: -4;" wrapcoords="-68 0 -68 21497 21600 21497 21600 0 -68 0" stroked="f"><u8:textbox inset=",10.8pt"><u8:shape type="#_x0000_t75" alt="上海 电子政务" style="width: 230.25pt; height: 143.25pt; visibility: visible;"><u8:imagedata src="file:///C:%5CDOCUME%7E1%5CDELL%5CLOCALS%7E1%5CTemp%5Cmsohtml1%5C01%5Cclip_image004.jpg" cropright="1153f"></u8:imagedata><u7:p></u7:p></u8:shape><u10:wrap type="tight"></u10:wrap></u8:textbox></u8:shape> <a href="http://hi.baidu.com/whusoft/blog/item/7c27613f303100e654e72314.html">阅读全文</a>
		
		<br/><b>类别：</b><a href="http://hi.baidu.com/whusoft/blog/category/%C4%DA%C8%DD%CD%DA%BE%F2%2C%CE%C4%B1%BE%B7%D6%CE%F6%2C%D6%AA%CA%B6%B4%A6%C0%ED">内容挖掘,文本分析,知识处理</a>&nbsp;<a href="http://hi.baidu.com/whusoft/blog/item/7c27613f303100e654e72314.html#comment">查看评论</a>]]></description>
        <pubDate>2009-10-28  07:02</pubDate>
        <category><![CDATA[内容挖掘,文本分析,知识处理]]></category>
        <author><![CDATA[梦我所想]]></author>
		<guid>http://hi.baidu.com/whusoft/blog/item/7c27613f303100e654e72314.html</guid>
</item>


</channel>
</rss>