查看文章
 
ROST CM 内容分析 软件 主要功能列表
2009-11-10 12:20

Rost CM(感谢王超同学整理功能清单),ROST内容挖掘软件(本软件由我本人设计、编码,后期有少量工作由学生完成)下载地址:

http://hi.baidu.com/rostcm/blog/item/6dea9f0d7a13068fd0581bf6.html

1 数据获得
1.1 导入
1.1.1 文本文档/Txt(ansi)
1.1.1.1 QQ聊天记录
1.1.1.2 社会科学引文索引/SSCI
1.1.1.3 中国知网/CNKI
1.1.2 数据库文件
1.1.2.1 MDB/MDF/DBF
1.1.2.2 mYD/DAT
1.2 采集
1.2.1 指定关键词相关网页
1.2.1.1 采集1分钟左右,文件大小不超过1M
1.2.2 新浪微博
1.2.2.1 每隔一分钟采集一次
1.2.3 本机浏览记录
1.2.3.1 具有搜索功能
2 数据预处理
2.1 编辑
2.1.1 剪切/粘贴/清除/全选
2.1.2 复制
2.1.2.1 复制
2.1.2.2 全部内容复制到辅文档
2.1.2.3 选中内容复制到辅文档
2.1.2.4 复制高频词至辅助文档
2.1.3 删除
2.1.3.1 删除
2.1.3.2 删除关标以上文本
2.1.3.3 删除选定文本中的空行
2.1.3.4 删除以某词开头的行
2.1.4 字体
2.1.5 重新载入
2.1.5.1 重载自定义词表
2.1.5.2 重载过滤词表
2.1.6 其它
2.1.6.1 按词串长度排序
2.1.6.2 打散为一次一行
2.1.6.3 去除不为空的选中行的前后空格
2.1.6.4 将多个连续空行合并为一空行
2.1.6.5 提取所有不重复行
2.1.6.6 自动折行
2.1.6.7 显示选中文本Unicode码
2.1.6.8 添加到自定义词表
2.1.6.9 修正姓名
2.2 视图
2.2.1 只读/编辑
2.2.2 主文档/辅助文档
2.2.3 使用表格查看
2.3 分词
2.3.1 简单分词
2.3.1.1 待处理文件:Txt文档
2.3.1.2 输出文件:自动保存Txt文档
2.3.1.3 自定义词表:自选或默认
2.3.2 带细胞词库分词
2.3.2.1 主文档:待分词文件
2.3.2.2 辅助文档:细胞词库
2.4 抽取
2.4.1 字段处理
2.4.1.1 字段抽取处理
2.4.2 行处理
2.4.2.1 一般性行处理
2.4.2.2 模糊性行处理
2.4.2.3 基于字段特征的行处理
2.4.2.4 基于辅助文档的行处理
2.4.3 提取行特征词
2.5 修正
2.5.1 替换间隔符号
2.5.1.1 处理区间1设置新的间隔符号
2.5.1.2 处理区间2设置被替换的间隔符号
2.5.1.3 间隔符号:分号(;)/逗号(,)/Tab(0)/空格
2.5.2 字段位置互换
2.5.2.1 必须是以Tab键隔离的Txt文档
2.5.2.2 处理区间1设置交换字段A原始位置
2.5.2.3 处理区间2设置交换字段B原始位置
2.5.3 递次增加首字段
2.5.3.1 必须是以Tab键隔离的Txt文档
2.5.3.2 设置词群辅助文档
2.5.3.3 ?????????
2.5.4 补行号
2.5.4.1 必须是以Tab键隔离的Txt文档
2.5.4.2 以阿拉伯数字补充到第一字段
2.5.5 批量词群替换
2.5.5.1 必须是以Tab键隔离的Txt文档
2.5.5.2 设置词群辅助文档
2.5.5.3 ?????????
3 数据分析
3.1 基本统计
3.1.1 文档总行数
3.1.2 选定文本长度
3.2 词频
3.2.1 词频
3.2.1.1 分词后待统计文件:Txt
3.2.1.2 输出文件:自动命名保存Txt
3.2.1.3 过滤词表:默认或自选
3.2.1.4 归并词表:自选
3.2.1.5 其它设置
3.2.1.5.1 过滤单字词
3.2.1.5.2 排名选择
3.2.1.5.3 输出字符长度选择
3.2.1.5.4 输出频度
3.2.1.5.5 是否开启过滤词表
3.2.1.5.6 是否开启归并词表
3.2.2 一词一行频度统计
3.2.3 词群频度归并
3.2.4 基于词群的频度统计
3.3 分析
3.3.1 语种统计
3.3.1.1 导入:Txt文档
3.3.1.2 统计
3.3.1.2.1 统计字符
3.3.1.2.1.1 中文字符
3.3.1.2.1.2 英文字符
3.3.1.2.1.3 日文字符
3.3.1.2.1.4 数字字符
3.3.1.2.1.5 特殊符号
3.3.1.2.2 统计项目
3.3.1.2.2.1 字数比例
3.3.1.2.2.2 行数总数/比例
3.3.1.3 输出:自动保存为Txt文档
3.3.2 行数统计
3.3.2.1 导入:Txt文档
3.3.2.2 统计

文档大小超过30M,推荐使用

3.3.2.2.1 文档总行数
3.3.2.2.2 不含空行的总行数
3.3.2.3 输出:自动保存为Txt文档
3.3.3 抽取相似行
3.3.3.1 ????????
3.3.4 共现分析
3.3.4.1 待处理文档须在主文档区打开
3.3.4.1.1 必须是“提取行不重复词后”的文档
3.3.4.2 输出文档自动保存
3.3.4.2.1 分为两个共现词和共现频率三个字段
3.3.5 交叉关系集
3.3.5.1 ???????
3.3.6 同被引分析
3.3.6.1 ???????
3.3.7 共词分析
3.3.7.1 ????????
3.4 泛网
3.4.1 作者网络
3.4.1.1 待处理文件:作者名称文档
3.4.1.1.1 名称之间以Tab或空格分割
3.4.1.1.2 所有名称一行
3.4.1.2 作者频度文件:Txt词频文件
3.4.1.2.1 一行两字段:作者/频率
3.4.1.2.2 采集作者数量可以设置
3.4.1.3 作者共现VNA
3.4.1.3.1 ????????
3.4.1.4 作者共现Txt
3.4.1.4.1 ????????
3.4.1.5 作者共现矩阵
3.4.1.5.1 ????????
3.4.2 语义网络和社会网络
3.4.2.1 待处理文件:Txt文档
3.4.2.2 取出分析字段
3.4.2.3 提取高频词至辅助文档
3.4.2.4 过滤部分无用词
3.4.2.4.1 过滤词表:默认
3.4.2.4.2 过滤后有效词表
3.4.2.5 提取行特征
3.4.2.6 构建网络
3.4.2.6.1 VNA
3.4.2.6.2 Txt
3.5 汇总
3.5.1 获取首段的汇总词频
3.5.1.1 必须是以Tab键隔离的Txt文档
3.5.1.2 输出格式为Txt词频文件
3.5.2 获取首段特定词群的词频
3.5.2.1 必须是以Tab键隔离的Txt文档
3.5.2.2 设置词群辅助文档
3.5.2.3 输出格式为Txt词频文件
4 数据可视化
4.1 标签云
4.1.1 打开:频度文本文件
4.1.2 显示
4.1.2.1 放大/缩小
4.1.2.2 取词数量
4.1.2.3 排序
4.1.2.3.1 文本序
4.1.2.3.2 数值序
4.1.3 保存:Jpg格式
4.2 3元组
4.3 谱系组织结构图
4.4 点3D图
4.5 雷达图
5 辅助工具
5.1 批量
5.1.1 多类型多文件合并转换为Txt
5.1.1.1 网页格式:Html/Htm/Shtml
5.1.1.2 文档常见格式:Pdf/Doc/Txt
5.1.1.3 系统配置文件:Ini
5.1.2 单文件格式转换
5.1.2.1 Pdf to Txt
5.1.2.2 Doc/Xls/Ppt to Txt
5.2 快速定位
5.2.1 启动记事本
5.2.2 启动Excel
5.2.3 程序根目录
5.2.4 网页采集目录
5.2.5 查看自定义词表
5.2.6 查看过滤词表
5.2.7 查看高频无效词表
5.2.8 剪贴板
5.2.9 辅助文档
5.3 NetDraw
5.3.1 ???????
5.3.2 ???????
5.4 域名排名查询工具
5.4.1 打开:Txt文件
5.4.2 处理:开始/中止/保存
5.4.3 线程:程序执行流的最小单元
5.5 TestFrm
5.5.1 新功能接口
6 软件相关
6.1 作者博客
6.2 Rost系列软件
6.3 Rost社区

类别:内容挖掘,文本分析,知识处理||添加到搜藏 |分享到i贴吧|浏览(7606)|评论 (0)
 
最近读者:
 
网友评论:
发表评论:
姓 名:
网址或邮箱: (选填)
内 容:
     

   
帮助中心 | 空间客服 | 投诉中心 | 空间协议
©2012 Baidu