文章图片

转:http://www.uml.org.cn/pzgl/200904106.aspEclipse中SVN版本控制插件的安装和使用

 2009-04-10 来源:网络

以前提到过SVN版本控制器和客户端的安装和配置,这里再在说一下在编译器中怎么使用SVN,使其既可以单独使用,也可以配合SVN客户端一起使用。由于编译器种类众多,插件种类也不同,这里只简单介绍下Eclipse的插件安装。我用的版本是Eclipse3.2.2+MyEclipse_5.1.1,由于本身只有CVS而没有集成SVN,所以要想使用SVN做版本控制只好装一个Eclipse插件Subclipse,Subclipse的详细安装过程在其官方网站 http://subversion.tigris.org写的很清楚,还带配图,我就直接copy了:

一、Install Subclipse in Eclipse 3.x(安装)Step 1:

Begin the installation from the Eclipse Help menu item.

Step 2:

This screenshot show the screen as it initially comes up. In this case you will need to change the radio button to indicate that this is a new install.

Step 3:

This screen will vary depending on the features you have installed already. You want to click on the New Remote Site button. If you are behind a proxy and the Eclipse install mechanism does not work, then you can download a zipped version of the update site and then click the New Local Site button instead.

Step 4:

This screen is showing the New Remote Site dialog, filled in with the correct information to install Subcl

基于向量空间模型的文本自动分类系统的研究与实现

Research and Implementation of Text Categorization System Based on VSM

(Pang jianfeng) (Bu dongbo) (Bai shuo)Institute of Computing Technology , CAS 100080E-mail: pangjf@ncic.ac.cn              TP391

AbstractIn recent years , information processing turns more and more important for us to get useful information . Text Categorization, the automated assigning of natural language texts to predefined categories based on their contents, is a task of increasing importance. This paper gives a research to several key techniques about Text Categorization , including Vector Space Model , Feature Extraction , Machine Learning . It also describes a text categorization model based on VSM, and gives the evaluations and results .

Key wordsText Categorization Chinese Information Processing Vector Space Model

1 引言

       Internet        2问题描述

2.1              

       2.2              

              F1

另外有微平均和宏平均两种计算准确率、查全率和 F1 值的方法。

微平均:计算每一类的准确

文章图片

   相信非常多的人都在用流量统计器,先进一点的功能齐全一点的流量统计系统会告诉你,你的网站在一定的时间区间访问你网站的访客性别,比如008年8月8日访问广州正佳科技的人数中,1%是女性,99%是男性。这个问题就很有趣了,那么这些数据的计算是通过什么方式分析的呢,毕竟电脑没有性别,只有操作电脑上网的人才有性别。那么这些数据可不可靠?网站流量统计器实现的原理又是什么样的呢?

    你肯定与我一样很有好奇心!下面是国内其中一款有知的网站流量统计系统识别访客性别的工作原理。

    首先,网站流量统计系统开发团队会耗费了大量的时间,建立了一个庞大的词库,这个词库是不断更新的,更新包括2个方面,第一个方面是不断的加入新的词汇,另一个方面则是进行词性的分析。不断加入新词大家比较容易理解,但是对于词性的判断可能大家不是很熟悉,词性的判断是这样的,比如:“软件”这个词,在一定程度上是存在男女性别兴趣度的,通过维度的算法和大量的基础调研,我们统计到如下数据:“软件”在概率上有1%的女性对这个词敏感,其中有99%的男性敏感。

    第二步,一般URL上都会附着着一个句子,比如

 /**

  * 快速读取文件后几行

  * @param file

  * @param charset

  * @return

  * @throws IOException

  */

 public static List  readLastLine(File file, String charset) throws IOException {  

  List list = new ArrayList();

  long count = 0;

  if (!file.exists() || file.isDirectory() || !file.canRead()) {  

      return null;  

    }  

    RandomAccessFile raf = null;  

    try {  

      raf = new RandomAccessFile(file, "r");  

      long len = raf.length();  

      if (len == 0L) {  

        return list;  

      } else {  

        long pos = len - 1;  

        while (pos > 0) {  

          pos--;  

          raf.seek(pos);  

          if (raf.readByte() == '\n') {  

           String str=  raf.readLine();

   &nbs

怎么提高cassandra读的性能

cassandra作为一个分布式的存储性能,其特点是写快读慢。最近看了cassandra 1.0的文档,发现1.0在读性能上做了一些提高。用户可以根据系统的要求,合理配置,从而提高读的性能。总结一下,有下面4个方面可以提高读性能。

(1) 禁用read repair

每一次读操作,cassandra都会在后台进行read repair操作。如果只要求读一个节点数据,cassandra在读到一个节点后,就将结果返回客户端,然后用read repair对其他的replicas进行同步(根据timestamp)。如果要求读多个节点,那么cassandra就读多个节点,然后根据timestamp进行比较,返回客户端最新的数据,然后再调用read repair对其他节点进行同步。Read repair在后台的操作,会占用一定的CPU和I/O,所以影响读性能。要提高读的性能,可以将read repair禁用掉,当然这会影响到一致性,但是对于节点比较稳定的系统,是可以考虑的。一种方法时用hinted off和nodel tool的node reapair定期对其进行同步,提高一致性。在cassandra1.0之前,禁用read repair需要修改代码,新的cassandra1.0可以通过对每个读操作调参(0到1),来设定read repair的机率。

(2) Compaction:使用Leveled compaction,并设定multithreaded_compaction,提高compaction的速度。

安装JDK

1、下载

jdk-6u11-linux-i586.bin

2、修改为可执行文件

chmod u+x ./jdk-6u11-linux-i586.bin

3、安装(解压)

sudo ./jdk-6u11-linux-i586.bin

3、在/usr/local/下创建java目录

4、将解压之后的目录复制到/usr/local/java下

sudo mv jdk1.6.0_11 /usr/local/java/jdk6

5、修改所有用户的配置文件/etc/profile

增加以下内容:

export JAVA_HOME=/usr/local/java/jdk6

export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin

5、如果只希望部分用户可以使用,那么可以设置对应用户的.bashrc文件(位于该用户主目录下的一个隐藏文件)

在 

.bashrc文件中加入:

export JAVA_HOME=/usr/local/java/jdk6

export CLASSPATH=$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH:$HOMR/bin

首先来说一个高级程序员并非靠自己读几本书写几万行代码就能练就的,更应该关注于低层的环境,也就是程序员实实在在的工作环境。因为程序员的高低还得从实际的工作来衡量,而非其它。所以我想说的是,中国的软件公司的性质直接导致程序员的水平的高低。而我所说的软件公司,不是指某个或者某几个,而是指主流的软件公司,大众型的软件公司。所以我希望那些已经步入一个理想的公司的程序员理解我这篇文章的定位。

软件公司的无偿加班对程序员的影响:

国内的软件公司中程序员是常常加班的,每日加,周未也常加。基于这种性质,出现了一种很莫名其妙的现象:每天程序员的实际下班时间总是要晚于规定下班时间,至于晚一个小时还是两个小时还是更多这就另说,总之,程序员这份工作,如果按时下班反而自己感觉自己像是做贼似的。表面上公司并没有强迫谁加班,但实际上在潜移默化中有一种威慑力,要求你要多为公司工作几个小时,而且表面上你所工作的这几个小时还是你自己愿意的。正因为是“自己愿意的”,所以公司更有理由认为是无偿的。

还有就是周未加班,一般周未加班是因为“忙”(关于这个带引号的“忙”,见“软件公司的‘忙’对程序员的影响”)。但周未加班一般是无偿的

Spring引用Tomcat的 JTA事务

    Tomcat是Servlet容器,但它提供了JNDI的实现,因此用户可以象在Java EE应用程序服务器中一样,在Tomcat中使用JNDI查找JDBC数据源。在事务处理方面,Tomcat本身并不支持JTA,但是可以通过集成JOTM达到目的。

    如果你的应用最终部署到一个功能齐备的Java EE应用服务器上,也许你更希望使用Java EE应用服务器的JTA功能,这样可以利用应用服务器本身许多优化措施。下面,我们让Tomcat通过JNDI开放JOTM的JTA的数据源,进而在Spring容器引用这个JNDI数据源,并在此基础上提供JTA事务。我们所使用的环境是:Tomcat 5.5+JOTM 2.3。

    1. 添加所需的JAR文件

    将JOTM以下类包添加到<Tomcat安装目录>/common/lib目录中:

    jotm.jar

    jotm_jrmp_stubs.jar

    jotm_iiop_stubs.jar

    ow_carol.jar

    jta-spec1_0_1.jar

    jts1_0.jar

    objectweb-datasource.jar

    xapool.jar

    howl.jar

    connector-1_5.jar

    同时,还需要添加相应数据库的JDBC驱动类包,例如MySQL的mysql.jar。

    2. 配置JOTM

    新建一个carol.properties配置文件,放置到<Tomca