对齐步走的看法


【第一篇】对齐步走的看法我的弟弟

我的弟弟作文300字(共9“走,我们去车站接你妗妗和弟弟!”我感到很外,飞速下楼去接我弟弟。到了车站,我们在人山人海的出站口旁等我弟弟。不一会儿,弟弟和妗妗就来了。在回家的路上,我和弟弟天南地北的聊了起来。到了家,我们开起了玩具会和零食会。大吃二喝三玩,实在是太开心了!“吃饭了!”妈妈喊了一声,我和弟弟就狼吞虎咽的吃了起来。弟弟呀,永远都是弟弟,我吃了三碗米饭,他吃了两碗米饭。他还不服气!非要和我下棋。我同意了。马上下棋能手就要对战下棋狂人啦!结果我以两胜一和的成绩让我弟弟对我俯首称臣!下完棋后,我领着我弟弟到小区里去玩健身器材,这些器材我弟弟都没见过,因为我弟弟是生活在农村里的,一年才来一次。所以他左碰碰、右捶捶、前看看、后瞧瞧,百玩不厌。不知过了多久,我们才意识到该上楼了,回家的路上,又是一阵天南地北的闲聊......回到家后,我们坐在电脑旁边玩了一会儿游戏,我弟和我的技术都是很好的,我们玩得可高兴了!不知过了多少个月,弟弟一家该走了,我希望明年早点到来,我好再和我弟弟玩。新华小学4.1班


搞笑 幽默=我弟弟

我的弟弟,现在刚从农村来读幼儿园。他每次说的话都是“家乡话”。

这天晚上,我在我弟弟家玩,我的弟弟不小心把我碰了一下,我笑呵呵的说:“你太温柔了。”可是我弟弟却说“什么,‘瘟肉’”,当时我哈哈大笑起来!

还有一次,我在我的弟弟去逛街,我说过马路,弟弟说:“马楼(应该是‘马路’我弟弟读不来,还丢脸哦。)”

还有我的弟弟把“眉毛”读成“迷毛”。

怎样我的弟弟是不是很“搞笑 幽默”啊!


淘气=我弟弟

松松是我弟弟。他可爱但不斯文,他淘气但让人喜欢,他神气但没有男子气概。他相貌平平但他那双炯炯有神的大眼睛让人忘不了!

但我谈起他就气,唉……

一个艳阳天,我听说弟弟要来,忙把家里的玩具全部献出来并整理好。由于

时间太紧,慌乱之中把我一些钉书丁落在了地上,没发现!“叮当”门铃响了,

我弟弟来了!!!他把鞋一扔就跑过来粘着我,烦死了!好不容易才把他弄去玩

具,可是没过多久他又跑来了。忽然,他趴在地上,似乎在找什么东西。上帝呀

!谢谢了!我暗自在那里高兴。“哥哥!”我一惊,他稚气里带着一丝温柔的说

:“哥哥你能不能先到屋里去一下呀!求你了!”哈!我终于可以解放了!我吹

着小调走进了我的房间。十分钟以后……“哥哥!”我高兴的心情被他这声哥哥

给打碎了。“什么事……!ˇˇ”(其意思是无语了)我走出房间。“哥哥请座

!”嘿!太阳打西边出来啦!我被弟弟的话给说蒙了。我一座,“哇!!!!!

!!!我的pp !”那情景比山蹦地裂还要严重。我弟弟在那里笑得人仰马翻。

看到弟弟这样,我心中的怒火一点一点加大,最后比三味真火还要大。“给我站

住!”……

这就是我弟弟,令人喜爱的小顽皮。


我弟弟的变化

河北区第二实验小学六年一班姚惠敏

弟弟喜欢玩。而且他非常幽默。他已经九岁了,他还是我家的电视迷。坐在电视前一个小时眼珠都不带动的,玩就是它最大的特点,他还挺会玩。不过那些日子变了。

我的弟弟爱玩陀螺。

星期日下午,他和他的铁哥们儿比赛陀螺。弟弟的陀螺叫龙卷风,对手的驼螺叫旋风豹,他们比赛的地点凹凸不平,弟弟势力较强,所以对这场比赛非常有信心,他有十足的把握赢,弟弟说:“来吧!”对方说:“我不怕。”这时激烈的比赛开始了。比赛中弟弟势弱了,也许由于他骄傲的原因,不一会儿他反败为胜了,比赛结束了,弟弟获胜了。也许由于这场比赛让他懂得了学习也是这样,虚心使人进步,骄傲使人落后。弟弟变了。他学习变得认真了,这次他考试考了第3名,从今往后,他对待学习总是那么努力,我想,总有一天弟弟会成功的。我为你加油!

2010年的春节他过得非常愉快,非常快乐。我想他还是最喜欢玩,但玩中总能学到一些知识。

人生就像一场比赛,有成功,有失败。只要努力,坚持不懈,总能赢对方。虽然弟弟这次比赛赢了。但比赛中他也有松懈。最后抓住机会赢了。不过,我今天很高兴,他不再那么贪玩了,而把学习看重了。


我弟弟的自画像

我弟弟的自画像 我的弟弟他今年5岁。我弟弟他很淘气。 他的眼睛小小的, 非常可爱 , 他的眼睫毛很短 ,皮肤很光滑, 他的身体胖胖的真的非常可爱, 他的头很大就是应为他头所以到我们家的叔叔阿姨都爱摸她的头。我和妈妈一起问你长大做什么?我长大做战士。他还做了一个动作。 他喜欢穿米老鼠的衣服,和裤子。 他喜欢听奶奶讲故事你看我弟弟多可爱呀 !!!!!!!! !


我弟弟是个大学生

我弟弟考了100分,爸爸表扬弟弟,我很羡慕弟弟,我想我有那么好的成绩,我就好好的努力一定会考100分的?


小学写人作文 看我弟弟七十二变

看我弟弟七十二变

三变弟弟是个“捣蛋鬼”

主要语句:

弟弟乐呵呵,我们苦笑着。

主要事例:

有一次,我、妈妈、爸爸都来看琪琪。外公抱着琪琪,大家正有说有笑,忽然,外公觉得腿上热烘烘的,一看,原来是琪琪在外公的腿上撒尿了!看着外公惊慌失措又狼狈的样子,他还笑了呢!

过了一会儿,我要去做作业了,我就进书房了。一会儿小姨抱着琪琪进来了,3秒后,一声尖叫从书房里传出,是谁呀?就是我发出的。因为弟弟力气大,进来的时候提着一包刚刚从冰箱里拿出来的桃子,走近我的座位时,偷偷的放进了我的背部,要知道,我穿的是背心,桃子又重,又冰又痛,换谁谁都受不了!

受害者感言:我们好可怜啊!

四变――弟弟是个“开心果”

主要语句:

弟弟对我们笑,我们乐呵呵!

主要事例:

弟弟喜欢对人笑。弟弟对大家笑,大家心里就会有一股暖流在心里。弟弟对我笑,我就不由自主的高兴,最重要的是,他第一个会叫的人竟然是我!我太激动了,我一个星期才去一两回,怎么会呢!

我的感言:我激动,激动,再激动!

我的弟弟还有许多“变”,弟弟一天一天的变化,怎么写得完呢?我爱弟弟,弟弟也爱着爱他的家庭。


我的弟弟

我的弟弟

中卫三小三年级(2)班翟丽娜指导教师张晓帆

我的弟弟叫葛辰坤,今年7岁半了,他和所有的小朋友一样,天真活波,聪明调皮。

他的一对大大的招风耳最有特色,好像天外来客,一双滴溜乱转的小眼睛,一张能说会到的小嘴巴。他的嗓门可大了,像个高音喇叭。他喜欢玩玩具枪,每次我一到姥姥家,这个小家伙就先把门打开,然后躲在门后面,突然蹦出来,嘴里发出:“碰,碰,碰。”的声音,吓人一大跳。

我在姥姥家吃完饭,我就下去跳绳。弟弟要在家里玩枪,姥姥说:“他很讨厌,嘴不住地说话。”所以姥姥让我把他带到楼下玩,玩上一会儿在上楼,我就带着他去跳绳,跳一会儿,姥姥叫我们上楼吃饭了。他的目标不是吃饭而是电视。把电视打开,我俩坐在小板凳上,看起了动画片,我俩这样,一看电视,什么事都忘在九宵云外了。

只要姥姥一把电视关了,我们就撂撅子,不过我们会改掉这个坏毛病的。

这就是我弟弟,一个活波可爱的小男孩。


我的弟弟

我的弟弟叫潇潇,今年四岁。他弯弯的眉毛下面是一双不大的眼睛,那双眼睛不睡觉的时候总是转个不停。他活泼可爱、调皮捣蛋。

在他两岁时有一次,他出去玩,妈妈跟在他后面看着他,妈妈看见弟弟前面有一滩水,急忙喊到:“潇潇,前面有水别踩。”谁知不说还好,他本来没看见有水,可以绕过去,妈妈一喊,他看见了水,特意跑过去对着水踩了两脚,然后后头对着妈妈“嘿嘿”一笑,急忙跑了。

还有一次,我老爷过生日,我们给老爷唱完生日歌后,我弟弟对着蛋糕啃去,弄得他满脸都是蛋糕,尤其是嘴唇上方都是白色的奶油,使他看起来像一个六十岁的老爷爷。

这就是我的弟弟,一个活泼可爱又调皮的弟弟。


我改变了对弟弟的看法

我弟弟确实很调皮,但发生了一件事,让我改变了对他的看法。

一天,弟弟突然告诉我说他去姥姥家时,给我带回了一件礼物,我心中暗暗自喜:不知道是什么礼物呢?过了不久,弟弟把礼物拿了出来。哇,是一直外形用贝壳拼成的企鹅!很可爱,它的两只眼睛似乎在注视着我,鼻子尖尖的,肚子胖胖的,雪白雪白的,憨态可掬。我对他说:“谢谢你哟!”他却笑了笑。

没想到弟弟也没有我想象中的那么调皮嘛!

【第二篇】对齐步走的看法DVX对齐步骤

DVX对齐步骤:

→File

→ new

→ alignment workfile

→ 选择对齐文件存储的位置

→ 导入source和target(注意第二栏language是否对应)

→ client and subject一步跳过

→ 在对齐表格中利用下面的两组按钮(join和split)对不对应的文本进行人工调整 → 调整完后点击右下角next

→ creat(创建一个trans memory,用来存储对齐结果)

→ 对trans memory进行命名并保存

→ next

→ finish

导出对齐结果:

→找到刚才创建的trans memory文件打开

→ file

→ export

→ file or database

→ next

→ format(text)

→ 选择text文件存储的位置,命名并保存

→ add两个fields,语言分别是Chinese(PRC)和English(United States) → text option(Tab),unicode(UTF-8)

→ finish导出对齐结果

【第三篇】对齐步走的看法内存对齐的初步讲解

内存对齐的初步讲解

一.内存对齐的初步讲解

内存对齐可以用一句话来概括:

“数据项只能存储在地址是数据项大小的整数倍的内存位置上”

例如int类型占用4个字节,地址只能在0,4,8等位置上。

例1:

#include <stdio.h>

struct xx{

char b;

int a;

int c;

char d;

};

int main()

{

struct xx bb;

printf("&a = %p\n", &bb.a);

printf("&b = %p\n", &bb.b);

printf("&c = %p\n", &bb.c);

printf("&d = %p\n", &bb.d);

printf("sizeof(xx) = %d\n", sizeof(struct xx));

return 0;

}

执行结果如下:

&a = ffbff5ec

&b = ffbff5e8

&c = ffbff5f0

&d = ffbff5f4

sizeof(xx) = 16

会发现b与a之间空出了3个字节,也就是说在b之后的

0xffbff5e9,0xffbff5ea,0xffbff5eb空了出来,a直接存储在了0xffbff5ec, 因为a的大小是4,只能存储在4个整数倍的位置上。打印xx的大小会发现,是16,有些人可能要问,b之后空出了3个字节,那也应该是13啊?其余的3个 呢?这个往后阅读本文会理解的更深入一点,这里简单说一下就是d后边的3个字节,也会浪费掉,也就是说,这3个字节也被这个结构体占用了.对齐步走的看法

可以简单的修改结构体的结构,来降低内存的使用,例如可以将结构体定义为: struct xx{

char b;

char d;

int a;

int c;

};

这样打印这个结构体的大小就是12,省了很多空间,可以看出,在定义结构体的时候,一定要考虑要内存对齐的影响,这样能使我们的程序占用更小的内存。

二.操作系统的默认对齐系数

每 个操作系统都有自己的默认内存对齐系数,如果是新版本的操作系统,默认对齐系数一般都是8,因为操作系统定义的最大类型存储单元就是8个字节,例如 long long(为什么一定要这样,在第三节会讲解),不存在超过8个字节的类型(例如int是4,char是1,long在32位编译时是4,64位编译时是 8)。当操作系统的默认对齐系数与第一节所讲的内存对齐的理论产生冲突时,以操作系统的对齐系数为基准。

例如:

假设操作系统的默认对齐系数是4,那么对与long long这个类型的变量就不满足第一节所说的,也就是说long long这种结构,可以存储在被4整除的位置上,也可以存储在被8整除的位置上。

可以通过#pragma pack()语句修改操作系统的默认对齐系数,编写程序的时候不建议修改默认对齐系数,在第三节会讲解原因

例2:

#include <stdio.h>

#pragma pack(4)

struct xx{

char b;

long long a;

int c;

char d;

};

#pragma pack()

int main()

{

struct xx bb;

printf("&a = %p\n", &bb.a);

printf("&b = %p\n", &bb.b);

printf("&c = %p\n", &bb.c);

printf("&d = %p\n", &bb.d);

printf("sizeof(xx) = %d\n", sizeof(struct xx));

return 0;

}

打印结果为:

&a = ffbff5e4

&b = ffbff5e0

&c = ffbff5ec

&d = ffbff5f0

sizeof(xx) = 20

发现占用8个字节的a,存储在了不能被8整除的位置上,存储在了被4整除的位置上,采取了操作系统的默认对齐系数。

三.内存对齐产生的原因

内存对齐是操作系统为了快速访问内存而采取的一种策略,简单来说,就是为了放置变量的

二次访问。操作系统在访问内存 时,每次读取一定的长度(这个长度就是操作系统的默认对齐系数,或者是默认对齐系数的整数倍)。如果没有内存对齐时,为了读取一个变量是,会产生总线的二 次访问。

例如假设没有内存对齐,结构体xx的变量位置会出现如下情况:

struct xx{

char b; //0xffbff5e8

int a; //0xffbff5e9

int c; //0xffbff5ed

char d; //0xffbff5f1

};

操作系统先读取0xffbff5e8-0xffbff5ef的内存,然后在读取0xffbff5f0-0xffbff5f8的内存,为了获得值c,就需要将两组内存合并,进行整合,这样严重降低了内存的访问效率。(这就涉及到了老生常谈的问题,空间和效率哪个更重要?这里不做讨论)。

这样大家就能理解为什么结构体的第一个变量,不管类型如何,都是能被8整除的吧(因为访问内存是从8的整数倍开始的,为了增加读取的效率)!

内存对齐的问题主要存在于理解struct等复合结构在内存中的分布。

首先要明白内存对齐的概念。

许多实际的计算机系统对基本类型数据在内存中存放的位置有限制,它们会要求这些数据的首地址的值是某个数k(通常它为4或8)的倍数,这就是所谓的内存对齐。

这个k在不同的cpu平台下,不同的编译器下表现也有所不同。比如32位字长的计算机与16位字长的计算机。这个离我们有些远了。我们的开发主要涉及两大平台,windows和linux(unix),涉及的编译器也主要是microsoft编译器(如cl),和gcc。

内存对齐的目的是使各个基本数据类型的首地址为对应k的倍数,这是理解内存对齐方式的终极法宝。另外还要区分编译器的分别。明白了这两点基本上就能搞定所有内存对齐方面的问题。

不同编译器中的k:

1、对于microsoft的编译器,每种基本类型的大小即为这个k。大体上char类型为8,int为32,long为32,double为64。

2、对于linux下的gcc编译器,规定大小小于等于2的,k值为其大小,大于等于4的为4。 明白了以上的说明对struct等复合结构的内存分布就应该很清楚了。

下面看一下最简单的一个类型:struct中成员都为基本数据类型,例如:

struct test1

{

char a;

short b;

int c;

long d;

double e;

};

在windows平台,microsoft编译器下:

假设从0地址开始,首先a的k值为1,它的首地址可以使任意位置,所以a占用第一个字节,即地址0;然后b的k值为2,他的首地址必须是2的倍数,不能是1,所以地址1那个字节被填充,b首地址为地址2,占用地址2,3;然后到c,c的k值为4,他的首地址为

4的倍数,所以首地址为4,占用地址4,5,6,7;再然后到d,d的k值也为4,所以他的首地址为8,占用地址8,9,10,11。最后到e,他的k值为8,首地址为8的倍数,所以地址12,13,14,15被填充,他的首地址应为16,占用地址16-23。显然其大小为24。 这就是 test1在内存中的分布情况。我们建立一个test1类型的变量,a、b、c、d、e分别赋值2、4、8、16、32。然后从低地址依次打印出内存中每个字节对应的16进制数为: 2 0 4 0 8 0 0 0 10 0 0 0 0 0 0 0 0 0 0 0 0 0 40 40

验证:

显然推断是正确的。

在linux平台,gcc编译器下:

假设从0地址开始,首先a的k值为1,它的首地址可以使任意位置,所以a占用第一个字节,即地址0;然后b的k值为2,他的首地址必须是2的倍数,不能是1,所以地址1那个字节被填充,b首地址为地址2,占用地址2,3;然后到c,c的k值为4,他的首地址为4的倍数,所以首地址为4,占用地址4,5,6,7;再然后到d,d的k值也为4,所以他的首地址为8,占用地址8,9,10,11。最后到e,从这里开始与microsoft的编译器开始有所差异,他的k值为不是8,仍然是4,所以其首地址是12,占用地址12-19。显然其大小为20。

验证:

我们建立一个test1类型的变量,a、b、c、d、e分别赋值2、4、8、16、32。然后从低地址依次打印出内存中每个字节对应的16进制数为:

2 0 4 0 8 0 0 0 10 0 0 0 0 0 0 0 0 0 40 40

显然推断也是正确的。

接下来,看一看几类特殊的情况,为了避免麻烦,不再描述内存分布,只计算结构大小。 第一种:嵌套的结构

struct test2

{

char f;

struct test1 g;

};

在windows平台,microsoft编译器下:

这种情况下如果把test2的第二个成员拆开来,研究内存分布,那么可以知道,test2的成员f占用地址0,g.a占用地址1,以后的内存分布不变,仍然满足所有基本数据成员的首地址都为其对应k的倍数这一原则,那么test2的大小就还是24了。但是实际上test2的大小为32,这是因为:不能因为test2的结构而改变test1的内存分布情况,所以为了使test1种各个成员仍然满足对齐的要求,f成员后面需要填充一定数量的字节,不难发现,这个数量应为7个,才能保证test1的对齐。所以test2相对于test1来说增加了8个字节,所以test2的大小为32。

在linux平台,gcc编译器下:

同样,这种情况下如果把test2的第二个成员拆开来,研究内存分布,那么可以知道,test2的成员f占用地址0,g.a占用地址1,以后的内存分布不变,仍然满足所有基本数据成员的首地址都为其对应k的倍数这一原则,那么test2的大小就还是20了。但是实际上test2的大小为24,同样这是因为:不能因为test2的结构而改变test1的内存分布情况,所以为了使test1种各个成员仍然满足对齐的要求,f成员后面需要填充一定数量的字节,不难发现,这个数量应为3个,才能保证test1的对齐。所以test2相对于test1来说增加了4个字节,所以test2的大小为24。

第二种:位段对齐

struct test3

{

unsigned int a:4;

unsigned int b:4;

char c;

};

或者

struct test3

{

unsigned int a:4;

int b:4;

char c;

};

在windows平台,microsoft编译器下:

相邻的多个同类型的数(带符号的与不带符号的,只要基本类型相同,也为相同的数),如果他们占用的位数不超过基本类型的大小,那么他们可作为一个整体来看待。不同类型的数要遵循各自的对齐方式。

如:test3中,a、b可作为一个整体,他们作为一个int型数据来看待,所以test3的大小为8字节。并且a与b的值在内存中从低位开始依次排列,位于4字节区域中的前0-3位和4-7位

如果test4位以下格式

struct test4

{

unsigned int a:30;

unsigned int b:4;

char c;

};

那么test4的大小就为12个字节,并且a与b的值分别分布在第一个4字节的前30位,和第二个4字节的前4位。

如过test5是以下形式

struct test5

{

unsigned int a:4;

unsigned char b:4;

char c;

};

那么由于int和char不同类型,他们分别以各自的方式对齐,所以test5的大小应为8字节,a与b的值分别位于第一个4字节的前4位和第5个字节的前4位。

在linux平台,gcc编译器下:

struct test3

{

unsigned int a:4;

unsigned int b:4;

【第四篇】对齐步走的看法越汉双语句子自动对齐研究初步

越汉双语句子自动对齐研究初步

陈坚忠,李 鹏,孙茂松

智能技术与系统国家重点实验室

清华信息科学与技术国家实验室(筹)

清华大学计算机系 北京 100084

E-mail: tktrungna@gmail., pengli09@gmail., sms@mail.tsinghua.edu.cn

摘 要:句子级对齐双语语料是自然语言处理的重要资源之一,对于机器翻译、跨语言检索、双语词典编纂等研究有很大应用价值。关于自动句子对齐的研究主要针对于英语、法语、汉语等语言,据我们所知,尚未见到针对越南语-汉语的相关研究。本文考查了使用不同参数时,基于长度的句子对齐算法、Champollion算法在越南语-汉语双语文本上的效果,并根据汉字与越南语音节间的独特对应关系对Champollion算法进行了改进,获得了更好的对齐效果。

关键词:越汉句子自动对齐

Preliminary Study on Vietnamese-Chinese Bilingual

Sentence Alignment

Kien Trung Tran, Peng Li, Maosong Sun

State Key Laboratory of Intelligent Technology and Systems

Tsinghua National Laboratory for Information Science and Technology

Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China

E-mail: tktrungna@gmail., pengli09@gmail., sms@mail.tsinghua.edu.cn

Abstract: Sentence-level aligned parallel corpora are very important resources for a number of natural language processing tasks, including machine translation, cross language information retrieval and lexicography. In this paper, we investigate the performance of length-based sentence alignment algorithm and Champollion algorithm for Vietnamese-Chinese sentence alignment. And we propose a method to improving the Champollion algorithm by adopting the correspondence between Vietnamese syllables and Chinese characters. Preliminary experiments show the effectiveness of this method. Keywords: Vietnamese-Chinese bilingual sentence alignment.

1 引言

随着经济的发展,中越两国之间的交流、合作越来越多,越南语-汉语(简称越汉)双语相关信息处理需求也越来越强,如越汉机器翻译技术、跨语言检索技术等,相应的研究工作也蓬勃开展起来。越汉双语语料库,特别是句子级对齐的越汉双语语料,是这些研究工作的基础性资源,越汉双语语料库的构建技术具有重要的学术和商业价值。互联网上具有大量越汉双语网页,是越汉双语语料的重要来源,但这些网页多数都只是在篇章级对齐,手工找出这些篇章中句子间的对应关系(即“句子对齐”)费时费力,无法实用。因此利用计算机自动进行句子对齐对构建越汉双语语料库具有重要意义,但据我们所知,目前尚未见到越汉双语句子对齐的相关研究工作发表。在本论文中,我们考查了在其他语言对上常用的基于长度的句子对齐算法和Champollion算法在越汉语言对上的性能,并针对汉字与越南语音节间的独特对应关系对Champollion算法进行了改进,以解决汉语和越南语分词标准不一致带来的问题。

现代越南语文字采用拉丁字母,其基本组成单位是音节,音节间以空格进行分隔。在历史上的一段时期内,越南与中国之间有着比较深刻的接触,并以汉字作为自己的正式文字,因此汉语对越南语产生了很大影响。在现代越南语中,对于每个汉字,都有一个或多个音节与之对应,称为汉越音(Sino-Vietnamese),这一现象是越南语与汉语间所特有的。

例子1展示了一个越南语句子及其对应的汉语句子,以及该对句子中汉字与越南语音节之间的对应关系。

例子1:Tôi là l

ưu học sinh Việt Nam, tôi yêu xử lý ngôn ngữ tự nhiên.

我 是 越 南 留 学 生,我 爱 自 然 语 言 处 理。

正如上文所述,越南语中的空格只作为音节间的分隔符,而不是词的分隔符,因此越南语像汉语一样存在分词问题。例子2中展示了例子1中句对理想的分词结果,表1列出了例子2中越南语词和汉语词间的对应关系。近十年来,学术界对越南语的分词问题进行了大量研究,目前已有一定的成果[4,5,6,8]。现代越南语词汇大致可分成三类:固有词(本身就有的词汇)、汉越词(自古汉语派生出的词汇)以及外来词(由古汉语以外的语言如英语、法语等传入的词汇)。其中,汉越词的意义和用法跟相应的现代汉语词并不完全一致,在不同类型文档中的比例也有所不同,如在科学、行政等领域的文档中比例较高,而在小说、新闻等领域的文档中比例则会低一些,但一般其比例不低于60%1。

例子2:【越南语】Tôi/ là/ lưu học sinh/ Việt Nam/,/ tôi/ yêu/ xử lý/ ngôn ngữ/ tự nhiên/.

【汉 语】我/是/越南/留学生/,/我/爱/自然/语言/处理/。

论文后续的内容安排如下:第二部分介绍了句子对齐有关的概念和相关工作,第三部分介绍了算法细节和我们所作的改进,第四部分给出实验结果和讨论,第五部分进行总结。

2 概念与相关工作

2.1. 句子对齐相关概念对齐步走的看法

为了叙述方便,我们首先定义“句珠”和“互译单元”这两个概念。

句珠 (bead):一个句珠由一句或多句源文与一句或多句译文组成。在本文中,记V、C分别为越南语文档和汉语文档,我们用如下符号表示一个句珠: ( ) ,其中 、 分别表示V、C的第i个和第j个句子。后文中我们用m-n表示一个句珠包含m个源文句子和n个译文句子。

互译单元:我们称一对互为翻译的字串为一个互译单元。互译单元的粒度比较灵活,可以是一对互译的汉字与越南语音节,如“lưu”与“留”,也可以是一对互译的词,如“lưu học sinh”与“留学生”,甚至可以是一对互译的句子片断,如“Tôi là lưu học sinh Việt Nam”与“我是越南留学生”。

2.2. 基于长度方法

基于长度方法的出发点是:一般比较长的句子的译文也比较长,而比较短的句子的译文也比较短,从而可以利用源文与译文句子长度间的对应关系作为对齐的依据。

在已有文献中,对于句子长度有两种度量方式:Brown等人在文献[1]中认为翻译的基本单位应该是词,所以应以词数作为句子长度的度量单位;而Gale和Church在文献[2]中认为某些句子中所含的词的数目比较少,以词数作为句子长度的度量单位会使度量准确性变差,而以字节数作为度量单位的准确性会更高,所以应以字节数作为句子长度的度量

单位。本文在实验部分对这两种度量方式都进行了考查。

基于长度方法优点在于存储开销小、运行速度快。对于一些比较相近的语言对,如英语和法语等,采用这种方法可得到比较好的结果[1,2]。但是,它只用了简单的长度信息而忽略了句子中的丰富词汇信息,所以对于语系上差别较大的语言对(如英汉)正确性有所下降[3]。

2.3. 基于词汇信息方法

该类方法考虑了词汇信息在句子对齐中的作用,一般会比基于长度方法取得更好的效果。基于词汇信息方法又可细分为两大类:不使用词典的方法与使用词典的方法。不使用词典的方法适用于使用相似文字的语言对(如英语与法语),这些语言对中存在一定的同源词,可以利用启发式规则和字符串匹配来对这些同源词进行匹配,以帮助进行句子对齐。使用词典的方法借助双语词典实现语言间词汇的匹配,以帮助进行句子对齐,适用范围更广。越南语与汉语文字存在较大差别,无法通过简单的规则在词语间或音节与汉字间实现匹配,只适合使用基于词典的方法。

Champollion算法[3]是Xiaoyi Ma在2006年提出的一种使用词典的句子对齐算法。它认为在确定句子是否互译的过程中,仅在少数文档中偶尔出现的互译词汇要比常常在很多文档中出现的互译词汇具有更高的置信度。基于这一观察,它参考信息检索中常用的tf–idf模型对互译词汇进行加权,取得了很好的效果。这一方法简单有效,因此本文中将其作为典型的基于词汇信息方法进行考查,并针对越南语与汉语的特点对其进行了改进。

基于词汇信息方法较基于长度方法存储开销要大,速度要慢,但具有更好的鲁棒性。另外,这一类方法的效果依赖于词典规模。采用的词典规模越大、质量越高,效果越好。所以准备比较好的词典是一个很重要的工作步骤。

3 越汉句子对齐实现

3.1. 基于长度方法

基于长度方法为每一种可能的对齐结果赋予不同的概率,将概率最大的对齐作为最优对齐。概率模型的定义如下:

假设 互为翻译的概率只依赖于它们的长度属性,且句珠间是相互独立的,则V、C对齐的概率可表示为: ∏ ( ),根据条件概率公式: ( ) ( ) ( ) ( )

(这里对于任意的 ( )可以认为是常数,所以可以忽略)

对于0-1或1-0型句珠,可以利用V、C中句子长度的分布来估计 ( )。而对于其他类型的句珠,可进一步分解为:

( ) ( ) ( | )

( ) ( 其中 ( ), 为归一化因子, 与 可从标注语料

库上统计得到。

本文中我们考虑了两种长度单位的定义,即音节/汉字和字节。计算方法为:对于越南语,以空格作为音节的分隔符,被空格分开的每一组越南语字母计一个音节,每个越南语的字母(如a, b, ă, ắ, ...)计一个字节;对于汉语,每个标点也计作一个汉字,每个汉字计两个字节。

3.2. Champollion算法

Champollion算法定义了句珠的相似度,并将一个对齐中各句珠相似度的总和作为该

对齐的评分,取评分最高的对齐作为最优对齐。

对于两段文本 ,设P={( , ), ( , ), ..., ( , )}为它们中的k-互译单元集。

借用信息检索中常用的tf–idf模型,对于每个互译单元对 ,定义idtf (term frequency–inverse document frequency)、stf (segment–wide term frequency) 如下:

在整个文档 中出现的频率 , { }, 在 中出现的频率

其中 分别为 在V,C中出现的频率。 , 的相似度评价函数 定义为:

∑ ( ) ,

对于 型句珠其中 {, 大于 小于 的值 对于其他类型句珠

是关于 的长度的函数。

对于英语、法语等,句子中的最小单元是词,且可以简单的按空格来分词,然而对于汉语、越南语,最小单元分别是汉字和音节,且二者间除了词间的对应关系外还有音节与汉字间的对应关系,因此可以考虑将词或音节作为互译单元。相应的对每一种互译单元的定义,需要构造相应的双语词典(基于词的词典、基于音节/汉字的词典)。

虽然越南语、汉语的分词算法已经做得比较好,但两种语言的分词器采用的分词标准不同,分词结果也不同,这样当以词为互译单元时会出现找不到互译单元对的情况。例如在例子2中,有两个互译词对:(ngôn ngữ,语言)和(tự nhiên,自然),而对齐步走的看法

23vnTokenizer会把“ngôn ngữ tự nhiên”分为一个词,但ICTCLAS则把“自然语言”分成

“自然”、“语言”两个词。这样通过词典就无法找出这两个词组的互译关系,导致例子2的两个句子相似度下降。如果定义互译单元为音节,通过音节词典可以找到两词组中音节互译关系为:(ngôn,言)、(ngữ,语)、(tự,自)、(nhiên,然),因此会把例子2的两个句子相似度提高。但越南语词汇中除了汉越词还有固有词、外来词,另外不少汉字对应的越南音在现代越南语中很少使用,例如在例子3中,汉字 “胶”对应的越南音是“giao”,而句子中使用的是“cao su”这个词,需要使用基于词汇的词典来对这个互译对进行验证。对齐步走的看法

例子3: 【越南语】Ông ta/ đi/ dép/ cao su/ lên lớp/./

【汉 语】他/穿/了/胶鞋/上/课/。/

为了解决这一问题,我们提出一个改进方法。借用前向最大匹配分词方法的思想,我们利用词典来“分词”,找出互译单元。设V = { , ,..., , }、C = { , ,..., , }分别为越南语文本与汉语文本, , 为相应文本中的音节或汉字。找出对应互译的单元

算法如算法1所示。后文中,我们将使用“改进音节”指代用此算法找出的互译对。

4 实验结果与讨论

4.1. 测试语料与评价方法

我们从网上收集了31篇越汉双语文章作为测试语料,这些文章涵盖政府文档、短篇小说、新闻、专业文献等多种体裁,共包含1540个越南语句子,1514个汉语句子。我们对这些文章进行手工对齐,得到1474个句珠,作为标准答案。标准答案中各种类型句珠

的比例见表2。

基于词汇信息方法很重要的资源是双语词典。词典的质量会影响到对齐结果。在下文的实验中我们考查了以音节/汉字和词分别作为互译单元时Champollion算法的性能,并相应构造了两部词典:第一部是基于音节/汉字的词典4,包括15741个词条;第二部是基于词的词典5,包括92496个词条。

我们使用

-

时间衡量句子对齐算法的性能,其中 分别是手工标注和经过自动对齐过程得到的句珠集。

4.2. 实验参数和条件

对于基于长度方法,我们考查了以音节/汉字、字节分别作为句子长度单位情况下算法的性能。对应不同的长度定义,构造的概率模型的参数不同。表3为 , 参数的值,其中 通过计算标准答案各句珠中越汉句子长度比值的平均值的对数得到, 通过计算标准答案各句珠中越汉句子长度比值的平均值的对数的方差得到。

对于Champollion算法,我们分别考查了以词、音节、改进音节作为互译单元时算法的性能。互译单元为音节时使用基于音节的词典,其他情况使用基于词的词典。实验中用到的 借用Champollion算法的Perl 实现6中定义的形式。

在以下实验中,我们使用vnTokenizer4.1.1c作为越南语分词工具,[6]中报告的准确率达到96%;使用ICTCLAS作为汉语分词工具,ICTCLAS的主页提到准确率达到98.45%。

类似于英语、法语等,越南语中的句号有许多歧义,需要对句子边界进行辨识。在[5]中, 作者提出了基于最大熵原理的越南语句子边界识别算法,得到了较好的结果(论文中报告的召回率为95%),并提供了辨识工具vnSentDetector(vnTokenizer 包的插件)。在以下实验中,我们直接使用这一工具划分越南语句子,而使用句号划分汉语句子。

4.3. 不同算法在测试语料上的性能

各算法在测试语料上的结果如表4所示。从实验结果中可以看到,基于长度方法在速度上占优势,也获得了很好的Precision、Recall和F-measure。以词作为互译单元时,

【第五篇】对齐步走的看法阅读知识

阅读答题技巧知多少

阅读第一篇:文学类作品阅读(小说、散文)

1

( (

2

( ,再解释词语比喻义(引申义、指代义),最后结合作者情感分析。 (2

A,并解释词语本意(同义词) B再分析词语的修辞手法(比喻、拟人、夸张、对偶、排比、反复等)

套用“该词运用了——的修辞手法,生动形象地描写出了-主人公(景物)---------的特点) 或者描写手法(语言、动作、细节、心理、神态、外貌等)

套用“该词是人物的——描写,生动形象地表现了主人公---------的心情或者形象” -主人公(景物)---------的特点),表达了作者——的思想感情” ,套用“该句是人物的——描写,生动形象地表现了主人公---------的形象,表达了作者——的思想感情”

牢记作用:最常用三大作用是渲染气氛(如悲哀、凄凉、萧瑟、轻松、闲适)、烘托人物形象(心理、思想、性格、命运)、推动情节发展(为下文作铺垫),另加开头交代故事背景或定下情感基调、结尾突出主题。 套用“该句是环境描写,生动形象地描写出了——环境的至少两个作用”,表达了作者——的思想感情

象征(托物言志)、对比(衬托)、欲扬先抑、前后呼应、伏笔、以小见大等 套用“该句运用了——的表现手法,生动形象的表现了——的特点,表达了作者——的思想感情” 4 5

A烘托人物:形象、性格、心情;B交代环境:渲染气氛、奠定基调、C表现主题:升华主题、点明主旨 (2)结构上

开头:点题、引出下文、埋下伏笔、设置悬念、行文线索;中间:承上启下;结尾:呼应首段、点题、总结全文 (3 6(1)

正面人物:褒义词(淳朴、善良、冷静、稳重、乐观、诚实、谦虚、正直、豪放等)

反面人物:贬义词(胆小、怯懦、圆滑、暴躁、猥琐、势力等) 形象丰满的:优点缺点齐分析,评价全面

(2)具体的事例阐述(原文中事例归纳出来,一事一评价) 7、谈谈阅读感受、体验、观点类(最后一题)

先分析材料中的观点,再分析对自己的启发感受,字数不少于150个字,一定要结合自己的生活实际案例进行分析

阅读第二篇 :非文学类作品阅读(说明文、议论文、非连续性文本阅读)

(说明文篇)

1、 2、 (1)

(2) 空间顺序(从外到内、从上到下、从左到右、从前到后、由表及里) (3) 逻辑顺序(从主要到次要、从现象到本质、从原因到结果、从整体到局部、从概括到具体、从特点到用途) 3、 说明方法十大类、作用

(1) 下定义(科学准确简明)(2)作诠释(灵活运用)(3)举例子(具体形象)(

4)打比方(生动形象) (4) 列数字(科学准确)(6)作比较(突出说明)(7)分类别(条理清楚)(8)画图表(形象准确) (9)摹状貌(生动形象)(10)(能增强说明的科学性、准确性)

第三:使用该词时句子意思,去掉该词句子意思,与原句不符合

5、 第三:体现说明文语言的准确性(生动性)

(议论文篇)

答题:举了——例子证明了------论点(分论点),使道理更具体可感,更有说服力。 (2) 道理论证(使议论具有权威性、科学性,说服力强) 答题:引用了(名言、警句),深入浅出地论证了——论点,使道理更加透彻,有针对性,令人信服。

(3) 比喻论证(使道理具体可感,更有舒服了)

答题:使用了比喻论证方法,把——比作——,论证——论点,从而把抽象深刻的道理阐述地生动形象,浅显易懂。 (4) 对比论证(增强了说理的透彻性)

答题:将——与——加以对比,鲜明地突出了——论点,使道理更容易让人理解,有说服力。 (5) 引用论证(可以增强论证的说服力和权威性)

答题:使用了引用论证的手法,通过引用——证明了——论点,增强了论证的手法,通过引用——证明了——论点,增强了论证的说服力或增强了论证的趣味性,引起读者的阅读兴趣。

通用答题模式:使用了——的论证方法,把论证方法具体化,具体地证明了——论点,增强了文章的说服力,使得,然后证明——论点(论证方法举例,从几个角度论证的,有,最后得出——结论(结论得出方式)

150个字。 答题方法:(1)事实论据:人物、事例(100字)、简短评价(名人事例)(50字)

答题方法:两大要素——人物、事件

(2) 词语好在哪里,可否删、替换:用了——词,准确地论证了——论点,体现了议论文语言的准确严谨;删

(2) 删除类(分析句段作用)

开头:A提出论点,为下文论述做铺垫B开门见山,提出论点C作为论据,论证论点

D提出生活中现象或人们对某问题看法引出论点、论题 中间:承上启下、过渡照应

结尾:A总结全文,深化结论B提出问题,发人深省C提出希望、展望,发出号召

(非连续性文本阅读篇)

兼顾说明文、议论文、应用文等文体知识,答案基本可以在文中归纳出来,阅读时逐段圈出该段关键词。

应 用 文 体 写 作

1、感谢信:是为表示感谢而写的一种专用书信。

①标题:第一行正中写“感谢信”三字; ②称谓:顶格写被感谢的单位名称或个人姓名、称呼,后加冒号; ③正文:写感谢的内容,叙述先进事迹,赞扬好的品德作风以及产生的效果; ④结尾:写表示感谢、敬意的话 ⑤署名:写提出感谢的单位名称或个人姓名;⑥日期:写在署名下一行的右边。 例: 感谢信 ××农科所:

在今年五月我乡玉米发生大面积虫害,严重影响生长的紧急时刻,贵所派出全部农业技术人员来我乡根治病虫害,避免了上千亩玉米绝收。目前作物长势良好,丰收在望。谨向你们表示衷心感谢! 我们决心在党的十五大精神指引下,继续努力生产,以实际行动答谢你们的帮助和关怀。 此致 敬礼

××乡人民政府 ×年×月×日

2、留言条: 是指找人没有找到,又没有时间等候,只能留给对方一个简短而明了的条据。 ①称谓:称谓要顶格写,条子留给谁就称呼谁;

②正文:转行空两格写正文,简单明了的把你要给对方说的事情写清楚;

③署名和日期:在正文右下方写清楚谁留的条子,并在署名的下一行写清年、月、日。 刘磊同学:

原定星期日的春游改在星期六了。原因是气象台预报星期日有中雨。上午八时在校门口集合,请你准时参加。 同学:王明 ×年×月×日

3、请假条 ①标题:第一行正中写“请假条”三字; ②称谓:顶格写称谓,即向谁请假,注意应加上其职务,以示尊重; ③请假原因:空两格,说明请假事由,如病假、事假等; ④请假起止时间:Ⅹ月Ⅹ日至Ⅹ月Ⅹ日,共Ⅹ天; ⑤祝颂语:如“此致 敬礼”(注:可要可不要); ⑥请假人签名:右侧对齐; ⑦请假时间:在签名下面,写上请假条书写的日期。

例: 请假条 尊敬的李老师:

因我的生活费所剩无几,需回家去取,特向您请假两天(3月16、17日)。请您批准。 学生:张小光 2013年3月15日 4、通知

①标题:第一行居中写明“通知”或“关于XX 的通知”;②称呼:换行顶格写明被通知方的名称,后用冒号;③正文:另起一行空两格写通知内容,如会议通知包括会议内容、时间、地点、出席对象和有关准备事项等; ④署名:正文下一行的右下方写发出通知的单位或组织;⑤日期:写在署名下一行的右边。 例: 通知 各班班主任和政治老师:

明天下午第三课后在党支部办公室召开班主任和政治老师会议,讨论研究怎样加强学校政治思想工作问题。请充分准备意见,准时参加。

校党支部办公室 2014年6月6日 5、启事

①标题:第一行居中写明“XX启事”;②正文:另起一行空两格写启事内容,交代有关事情的原委和目的,提出要求和希望,说明有关注意事项及办理程序等。有些内容则不应写具体明确,如“招领启事”中有关失物的详情,以防冒领;③署名:正文下一行的右下方写提出启事的单位或个人;④日期:写在署名下一行的右边。 《国庆特刊》征稿启事

为了欢庆中华人民共和国XX华诞,班委会讨论决定,我班出一期“国庆特刊”。希望全班同学踊跃投稿。具体要求:

一、 内容能表达我们年轻一代对祖国对党的无限热爱之情,体裁不拘。 二、 500字左右,要用稿纸誊写清楚。

三、 稿件请于6月20日前交给宣传委员黄玲玲同学。 初三(1)班墙报编辑组 X月X日 6、 申请书 ①标题:第一行居中写明“申请”或“XXX申请”,加上标明性质的字样;②称呼:换行顶格写接收

申请书的单位名称或领导同志姓名,后用冒号;③正文:另起一行空两格写申请内容。内容应包括三个方面:第一,申请什么,要求批准什么;第二,提出申请的目的和理由;第三,表明自己的态度(或决心、愿望等);④结尾:写表示敬意之类的专用;⑤署名:正文下一行的右下方写提出申请的单位或个人;⑥日期:写在署名下一行的右边。

例: 申请书 敬爱的团支部:

中国共产主义青年团,„„我作为一名满十四周岁,生在新社会、长在红旗下的有志热血青年,申请早日加入自己的组织。 „„

现在,我正式向组织提出申请,希望团组织能够早日吸收我,以实现一个志在报国少年的心愿。入团后,我一定更加积极地工作,„„如果团组织不能批准我入团,说明我离团的要求还有有一定差距。我将继续加倍努力,创造条件,争取早日入团,请团组织看我的实际行动吧! 此致 敬礼!

申请人:xxx

xxxx年x月x日

7、请柬: 是用于邀请公众参加庆典、宴会、纪念会、展览会等活动时常用的通知性的人际交流形式。 ①标题(封面):第一行居中写明“请柬”(封面注明\\\'请柬\\\'、\\\'恭请\\\'等);

②正文:顶格写被邀请人的名字及称谓。内容另起一行,空两格,交待活动内容、时间、地点; ③结尾具礼、发柬者名称及时间。(有必要时,可加上入场券。) 例: 请柬 尊敬的XXX先生:

为了促进我国互联网产业的健康发展,中国互联网协会定于2014年4月25日,在厦门召开“2006中国站长论坛暨第二届中国站长大会”。邀请协会有关领导与互联网骨干网站站长,发表对促进互联网网站发展的观点和建议,为下一步发展打好基础。特邀请您莅临采访。

中国站长大会组委会 2014年3月25日

8、收条①标题:写在正文上方中间位置,字体稍大;②正文:转行空两格处开始写,但以“今收到”为标题的收条是不空格的。正文一般要写明下列内容,即写明收到的钱物的数量、物品的种类、规格等情况。 ③落款:一般要求写上收钱物的个人或单位的名称姓名,署上收到的具体日期,一般还要加盖公章。 收条

今收到高山公社铁匠沟大队马胜田、牛兴旺二同志送来的棉花技术承包合同奖金叁千元整。 ××省农业科学研究院(盖章) 经手人:张三山 一九八六年十月七日 壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、佰、仟、万

9、倡议书: 是个人或集体首先公开提出某种建议,以推动某一项任务或活动广泛开展的专用书信。

①标题:第一行居中写明“倡议书”三字;②正文:转行空两格写依据、原因、目的;主要部分写倡议内容,结语写决心与希望;③署名:正文下一行的右下方写发出倡议的单位或组织;④日期:写在署名下一行的右边。 议倡书 全校师生:

今年我国长江流域和嫩江流域,产生了建国以来的特大洪水,给国家造成了庞大的财产损失,给灾区人民的生活带来极大不便。

在社会主义大家庭里,“一方有难,八方支援”是共产主义精神的体现。我们倡议全校师生捐款捐物来帮助灾区人民渡过难关。“一分钱,一件衣”,钱物有价,情义无价,贵在大家的支持。希望大家尽己所能,热情地伸出友谊的双手,为灾区人民做出贡献,愿意捐款的师生请到学生会办公室联系。

学生会

xxxx年x月x日

【第六篇】对齐步走的看法两步对齐中英混排【第七篇】对齐步走的看法三步搞定References编号及对齐问题

如何对参考文献进行编号并对齐

1、 选中需要加序号的文献

2、 然后点击工具栏中的“编号”工具, 在下拉菜单栏中找到“定义新编号格式”(07版的word查询路径估计是:开始——段落——编号)

3、 双击“定义编号格式”之后,把第二项“编号格式”中的“1”改为“[1]”,点击确定即可。

哈哈,有木有对得齐

其实,也可以在每次输入“[?]”之后,按一下“Tab”键,这样也可以对齐。就是比较慢。

做好之后,如果需要调节悬挂缩进,打开段落对话框调节即可。