閱讀564 返回首頁    go 魔獸


深入下Ruby中的String

Ruby語言中的String是mutable的,不像java、C#中的String是immutable的。比如
       str1="abc"
       str2="abc"
在java中,對於字麵量的字符串,jvm內部維持一張表,因此如果在java中,str1和str2是同一個String對象。而在Ruby中,str1和str2是完全不同的對象。同樣,在java中對於String對象的操作都將產生一個新的對象,而Ruby則是操縱同一個對象,比如:
       str="abc"
       str.concat("cdf")
此時str就是"abccdf"。Ruby對String是怎麼處理的呢?我們隻談談c ruby中的實現,有興趣的先看看這篇文章《管窺Ruby——對象基礎》。在ruby.h中我們可以看到String對象的結構,Ruby中的對象(包括類也是對象)都是一個一個的struct,String也不能例外:
struct RString {
    struct RBasic basic;
    long len;
    char *ptr;
    union {
      long capa;
      VALUE shared;
    } aux;
};
//ruby.h

    顯然,len是String的長度;ptr是一個char類型的指針,指向實際的字符串;然後是一個聯合,這個稍後再說。如果你看看ruby.h可以發現,幾乎所有定義的對象結構都有一個struct RBasic。顯然,struct RBasic包含由所有對象結構體共享的一些重要信息的。看看RBasic:

struct RBasic {
 unsigned long flags;
 VALUE klass;
};
其中的flags是一個多用途的標記,大多數情況下用於記錄結構體的類型,ruby.h中預定義了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一個VALUE類型,VALUE也是unsigned long,可以地將它當成指針(一個指針4字節,綽綽有餘了),它指向的是一個Ruby對象,這裏以後再深入。
    那麼聯合aux中的capa和shared是幹什麼用的呢?因為Ruby的String是可變的,可變意味著len可以改變,我們需要每次都根據len的變換來增減內存(使用c中的realloc()函數),這顯然是一個很大的開銷,解決辦法就是預留一定的空間,ptr指向的內存大小略大於len,這樣就不需要頻繁調用realloc了,aux.capa就是一個長度,包含額外的內存大小。那麼aux.shared是幹什麼的呢?這是一個VALUE類型,說明它是指向某個對象。aux.shared其實是用於加快字符串的創建速度,在一個循環中:
while true do  # 無限重複
a = "str" # 以“str”為內容創建字符串,賦值給a
a.concat("ing") # 為a所指向的對象添加“ing”
p(a) # 顯示“string”
end
每次都重新創建一個"str"對象,內部就是重複創建一個char[],這是相當奢侈,aux.shared就是用於共享char[],
以字麵量創建的字符串會共享一個char[],當要發生變化時,將字符串複製到一個非共享的內存中,變化針對這
個新拷貝進行,這就是所謂的“copy-on-write"技術。解釋了String的內部構造,貌似還沒有介紹String是怎麼
實現mutable,我們寫一個Ruby擴展測試下,我們想寫這樣一個Ruby類:
class Test
def test
str="str"
str.concat("ing")
end
end
對應的c語言代碼就是:
#include<stdio.h>
#include 
"ruby.h"

static VALUE t_test(VALUE self)
{
  VALUE str;
  str
=rb_str_new2("str");
  printf(
"before concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",str,
       (RSTRING(str)->aux).shared,RSTRING(str)->ptr);
  rb_str_cat2(str,
"ing");
  printf(
"after concat: str:%p, str.aux.shared:%p, str.ptr:%s"n",
       str,(RSTRING(str)->aux).shared,RSTRING(str)->ptr);
  
return self;
}
VALUE cTest;
void Init_string_hack(){
  cTest
=rb_define_class("Test",rb_cObject);
  rb_define_method(cTest,
"test",t_test,0);

}
//string_hack.c
   rb_define_class函數定義了一個類Test,rb_define_method將t_test方法以test的名稱添加到Test類。在
t_test中,通過rb_str_new2每次生成一個RString結構,然後通過rb_str_cat2將str與"ing"連接起來,添加
了一些打印用於跟蹤。利用mkmf產生Makefile,寫一個extconf.rb
require 'mkmf'
create_makefile("string_hack");
執行ruby extconf.rb,將產生一個Makefile,執行make,生成一個string_hack.so的鏈接庫。擴展寫完了,通過
ruby調用:
require 'string_hack"
t=Test.new
(1..3).each{|i| t.test}
輸出:
before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string
從結果可以看出,在str concat之前之後,str指向的位置沒有改變,改變的僅僅是str中ptr指向的字符串的值
,看看rb_str_cat2函數的實現就一目了然了:
VALUE rb_str_cat(str, ptr, len)
    VALUE str;
    const char *ptr;
    long len;
{
    if (len < 0) {
        rb_raise(rb_eArgError, "negative string size (or size too big)");
    }
    if (FL_TEST(str, STR_ASSOC)) {
        rb_str_modify(str);
        REALLOC_N(RSTRING(str)->ptr, char, RSTRING(str)->len+len);
        memcpy(RSTRING(str)->ptr + RSTRING(str)->len, ptr, len);
        RSTRING(str)->len += len;
        RSTRING(str)->ptr[RSTRING(str)->len] = '"0'; /* sentinel */
        return str;
    }
    return rb_str_buf_cat(str, ptr, len);
}
VALUE rb_str_cat2(str, ptr)
    VALUE str;
    const char *ptr;
{
    return rb_str_cat(str, ptr, strlen(ptr));
}
//string.c

文章轉自莊周夢蝶  ,原文發布時間2007-09-12

最後更新:2017-05-18 10:32:49

  上一篇:go  SSH無密碼登錄:隻需兩個簡單步驟 (Linux)
  下一篇:go  利用Doug Lea的並發包實現帶超時機製的線程池