期刊问答网 论文发表 期刊发表 期刊问答
  • 回答数

    3

  • 浏览数

    200

luffy3
首页 > 期刊问答网 > 期刊问答 > 学位论文学术不端行为检测

3个回答 默认排序1
  • 默认排序
  • 按时间排序

dalian03

已采纳
学位论文学术不端行为检测系统(简称“TMLC”)以《中国学术文献网络出版总库》为全文比对数据库,实现了对抄袭与剽窃、伪造、篡改等学术不端行为的快速检测,可供用户检测学位论文,并支持用户自建比对库。

学位论文学术不端行为检测

225 评论(13)

会飞的笨企鹅

TMLC需要一个尽可能完备的全文数据比对资源库,而CNKI的《中国学术文献网络出版总库》则正好满足这一要求。到目前为止,CNKI拥有学术期刊7000余种,期刊全文文献2480万篇,期刊期数和文献收录完整率都大于9%,文献量居国际国内同类产品之首;出版503家硕士学位点的72万篇优秀硕士学位论文,368家博士学位点的6万篇博士学位论文;1286家重要会议论文106万篇;515家重要报纸500多万篇;1376种重要年鉴787万篇;600多种工具书220多万条;学术引文索引数据600多万条;这些出版物做到平均日更新20000条记录;国家标准、专利、SPRINGER数据库也集成到CNKI网络出版平台中;另外,出版平台还集成整合出版了各类第三方数据库资源1020种。在收录资源种类上,CNKI在国内具有明显优势,收录了期刊、学位论文、会议论文、报纸、年鉴、工具书、专利、外文文献、学术文献引文等与科学研究、学习相关的主要资源。在资源收录数量上,CNKI明显优于同类产品,各个资源库收录年限长,期刊等主要资源库回溯到创刊。在资源更新速度上,CNKI产品除了第三方合作的外文文献以外,其他资源都做到了日更新,单日更新数量大,这是推行产业化、标准化运作的结果。 学术不端行为检测系统采用的指标体系分为两个部分:1 总检测指标学位论文一般文献篇幅较大,字数多,硕士论文一般为3~5万字,博士论文则多达十多万字。因此,为了让用户对整个学位论文有一个快速的概况了解,特制定了以下指标体系:l 总重合字数(CCA)l 总文字复制比(TTR)l 总文字数(TCA)l 疑似章节数(QCA)l 总章节数(TCA)l 首部重合文字数(HCCA)l 尾部重合文字数(ECCA)上述指标从整体情况描述了论文的检测情况,便于用户快速了解该论文总的检测概况。下面对上述指标分别进行说明。1总重合字数(CCA)学位论文一般篇幅大,少则3~5万字,多则十多万字,若以文字复制比来衡量一篇论文的文字重合情况,则不太合适。因为对于一篇十几万字的博士论文来说,10%就已达到1万字,文字复制情况已经非常严重。因此,对于博硕士论文检测,检测系统使用绝对字数即总重合字数作为检测结果的核心指标。如图6所示:2总文字复制比(TTR)总文字复制比则是指学位论文中总的重合字数在总的论文字数中所占的比例。通过该指标,我们可以直观了解到重合字数在该检测学位论文中所占的比例情况。3总文字数(TCA)总文字数是指该检测论文所有包含的字数,文字复制比与总文字数的乘积即为重合字数。4疑似章节数(QCA)、总章节数(TCA)疑似章节数是则检测论文疑似存在学术不端行为的章节的数量。总章节数则是指学位论文总的章节数(对于不按章节显示,而是按照固定长度切分的论文,每一段落为一章节)。5首部重合文字数(HCCA)、尾部重合文字数(ECCA)首部重合文字数指学位论文前1万字中重合的文字数量。尾部重合文字数是指除去前1万字,剩下的部分中重合的文字数量。对于学位论文,一般开头部分均是综述性的报告介绍,其重要性远低于论文尾部。2 子检测指标对于学位论文的每一章节,又制定了如下检测指标来反映该章节的检测情况,对于一篇学位论文来说,每一章的内容各异,重点也不一样,其核心工作内容一般主要存在某几章中,子检测指标可以让用户迅速了解每一章节的检测情况。子检测指标包括:l 文字复制比(TR)l 重合字数(CNW)l 最大段长(LPL)l 平均段长(APL)l 段落数(PN)l 段文字比(PR)l 首部复制比(HR)l 尾部复制比(ER)l 引用复制比(RR)*上述指标从多个角度反映了检测文献的检测情况,便于用户进行针对性审核。下面对各项指标分别进行说明。1 文字复制比(TR)因为学位论文一般文字量较多,为了便于用户快速浏览检测结果。系统会自动对学位论文进行切分处理。有如下两种处理方式:1.若用户提交的论文是MS Word格式,且按照MS Word格式生成了文档目录,检测系统会自动识别论文章节,按论文实际章节信息显示论文内容。2.若学位论文不存在明显的章节信息,或者不是MS Word格式论文,则系统会自动按照每段1万余字符切分学位论文,按照切分后的结果显示。文字复制比即指论文切分后每一章节段落的文字复制情况。文字复制比即指学位论文的某一章节与比对文献比较后,重合文字部分在该章节中所占的比例。比例越高,反映该章节越多的文字来自于其他已发表文献。文字复制比反映了文章“抄袭”的文字数量比例,一般来说,文字复制比越高,存在学术不端行为的可能性越大。文字复制比情况如图7所示。2 重合字数(CNW)重合字数指学位论文该章节与比对文献比较后,重合部分的字数。一般来说,不管文字复制比如何,重合字数越多,存在学术不端行为的可能性越大。如图8所示,在图中,虽然文字复制比只有16%,比例不高,但图中左文标红部分实际上是抄袭了右文的标红部分。3 最大段长(LPL)、平均段长(APL)、段落数(PN)在学位论文检测中,当连续文字超过一定比例时,称之为段。在本系统中,一般认为,连续200以上文字称为段。与比对文献重合的最大段长度即为最大段长。最大段长反映成段抄袭特征。连续的文字越长,抄袭的可能性越大。在学位论文中,所有段的长度的平均值即为平均段长。在学位论文中,所有段的数量为段落数。平均段长和段落数反映了重合文字在学位论文中的分布情况,一般来说,指标参数越高,存在学术不端行为的可能性越大。如图9所示,标红部分的连续文字构成了段,而且它是算法设计的抄袭,审查人员比较容易判断;而在图10中,标红文字不构成段,连续文字较少,对它的性质判断则可能需要更多的信息。4 段文字比(PR)在学位论文的某一章节中,所有该章节文字重合段的字数之和占该章节文字数的比例为段文字比。段文字比反映了抄袭连续特征。一般来说,连续文字出现的越多,比文字分散出现的情况更可能存在学术不端行为。5 首部复制比(HR)学位论文某一章节的前20%称之为章节首部,首部的文字复制比为首部复制比。就中文文献来说,一般每一章节正文开头部分出现的是综述性语言,重要性相对偏低。如图11所示,左文和右文开头大段相同,但文字内容基本都是综述性的介绍。6 尾部复制比(ER)每一章节的后80%称之为章节尾部,尾部的文字复制比为尾部复制比。通常情况下,尾部文字内容就重要性来说,比前部文字内容要高。如图12所示,我们仔细查阅比较图11和图12的内容发现,图11中首部文献是综述他人工作,而图12中尾部文献则是阐述自己的研究工作的目的和意义,应该是作者个人工作的体现,在这部分直接抄袭他文,性质要严重得多。7 引用复制比(RR)引用复制比指与存在引证关系的文献的文字重合部分的比例。对于学位论文来说,存在引证关系与不存在引证关系的复制部分应区别对待。复制了他文内容,而不注明引用,性质要更加严重。同时我们也认为,不是所有的注明了引用的,就不存在抄袭,引用也应有一个度和范围的限制。
205 评论(13)

成功等于多少

论文查重工具有很多,可以根据自己的需求选择不同的查重工具进行检测。对于学生来说,手头不太宽裕的话,建议可以使用格子达免费论文查重工具先进行初步检测,格子达整合了数千万篇期刊文献和论文资料,并可实时扫描数十亿网页内容,有海量的对比资源覆盖,检测准确度也是有一定保障的。多自查几次后,可再使用学校使用的数据库进行最后的检测。在论文写作中,通过适当地引用文献资料来阐述或者补充自己的内容是必要的,这样能使我们的文章内容显得更饱满。然而,如果你保留了源作品的精华思想,但却未注明引证的出处,那么无论你怎样彻底地改变源作品的内容或陈述,你都仍然是抄袭。 那么,我们到底应该怎样正确地引用文献资料达到我们的目的呢? 一、使用了他人的思想和成果,就需要在正文里注明出处,并将其列在文章最后的文献列表里。 二、引用的目的仅限于介绍、评论某一作品或者说明某一问题。 三、引用适量的问题:所引用部分不能构成引用作品的主要部分或者实质部分。如某人写了一部法学专著,为使内容更充实、有趣、具有吸引力,便将他人专著中的案例引用于自己文中。作品完成以后计算为80万字,其中引自他人案例专著中的内容就占了50万字。这样引用他人作品,是不符合法律规定的。 四、引用作品不得损害被引用作品的利益。这里主要是指引用作品的风格、意图和表现手法,不能任意歪曲、篡改、割裂原作品。并必须在在作品中指明原作品作者的姓名以及原作品的名称。不能借引用为名达到剽窃和抄袭他人作品的目的,更不能借引用作品而擅自公开他人未发表的作品,从而侵犯作者的发表权。
290 评论(10)

相关问答