您当前的位置是:教育培训 今天是
2016NSTL科研数据管理与知识挖掘研修班面向业界限量招生
2016-05-03

                                         “2016'NSTL科研数据管理与知识挖掘”研修班

                                                                         通  

                        

                                                         承办:中国科学院文献情报中心

                                                                中国图书馆学会专业图书馆分会

        近几年,随着国际国内大数据、科学数据的迅速发展,数据分析和知识挖掘已经成为网络化时代科技信息服务的重要组成部分。在以数字化内容为基础的文献情报工作中,大数据情报分析、文本挖掘和知识发现、科学数据管理等已经成为崭新发展方向。面临这些新挑战和新发展,文献情报行业需要及时培养一批具有数据管理、数据服务、数据分析的高素质专业人才,着力推动文献情报工作实现向知识挖掘、情报分析服务转型。

       2015年,国家科技图书文献中心(NSTL)首次主办了“科研数据管理与知识挖掘研修班”取得良好效果,2016年,中国图书馆学会专业图书馆分会、中科院文献情报中心联合,继续举办“2016科学数据管理与数据挖掘”研修班,研修班设置二个模块,模块一:科研数据管理与服务实践,模块二:数据挖掘、文本挖掘及应用,全部课程内容均由雪城大学信息研究学院师资授课。

为扩大培养国内系统掌握科研数据管理与服务,能够进行数据挖掘和文本挖掘的规划、设计、实施和管理的专业人才,现面向业界图情机构限量招收部分学员。

相关信息如下:

 美国Syracuse大学信息研究学院(Syracuse University School of Information Studies). 介绍:(网址:http://ischool.syr.edu/)

Syracuse大学信息研究学院是美国具有很高知名度和影响力的图书情报学院系,在全美高校专业排名中实力拨群。学院的教师在数据科学、元数据、知识组织、数字保存、数字图书馆服务规划以及相关的研究领域卓有建树,在科学数据规划和实施方面拥有丰富的经验。该院研发了“数据科学高级研究认证课程”,也是信息政策、信息行为、信息管理、信息系统、信息技术和信息服务的主要研究和教学中心,拥有本科、硕士和博士学位授予权。

 

一.时间安排

 模块一:科研数据管理与服务实践,授课时间:2016年5月23-27日

 模块二:数据挖掘与文本挖掘,授课时间:2016年5月30日-6月3日

 二、课程内容及授课方式

 授课方式:课堂讲授、小组讨论、练习、作业报告等。

 考核方式:完成小组课程项目+项目汇报

 模块一:科学数据管理与数据服务实践
教学目标:系统学习科学数据管理与服务中的规划设计、项目实施、数据仓储服务与管理、技术方法、服务规划与评价、法律问题、用户推广等内容。

   (一)课程内容

时间

      主题

                   详细内容

5月23日

上午

数据管理的基础知识概述

 

概念:科研生命周期,数据生命周期,数据管理,数据长期保存,数据服务。

开放科学、开放数据与数据管理:数据管理的目标、动力、以及对科研、社会、政策的影响。

下午

数据科学

个人项目选题、规划

数据科学的主要领域, 数据分析的基本理论与方法,科研数据分析和可视化知识发现工具。

个人项目选题汇报与讨论。

5月24日

上午

科学数据管理与服务1:相关政策、法律及行政支持

科学数据管理与服务2:计划策划

数据的开放、共享、知识产权:政府数据、科研数据。

行政支持:机构关于数据管理、开放、共享的政策以及人员、资金的支持。

数据服务的政策:类型、成本/效益管理、协调合作协议。

计划策划:用户需求和要求、机构的数据管理能力/量评估、目标目的、实施程序和方法、可持续运行模式等。

下午

个案分析与讨论

小组项目分析

国内外研究数据管理实践。

5月25日

上午

数据管理的实施

 

数据管理流程:以数据生命周期为基础的管理流程

管理的侧重点:进行时数据管理,结束期数据管理,长期保存

数据资源建设方案、数据存储规范、数据授权许可、数据引用模式。

管理任务:数据格式转换包装、元数据描述、文档制作、质量检查、验证等

下午

数据仓储与元数据

个案学习:机构库

机构库软件系统:开源软件、文献仓储与数据仓储、

元数据:为科学数据的元数据标准,元数据工具

机构仓储与国家国际学科仓储:如何处理二者关系

5月26日

上午

数据分析与工具

数据的获取(原始数据的采集与二次数据的发现和利用)、清洗、转换

数据分析结果的展示:可视化

开源软件:R

下午

练习

利用R进行数据清洗、转换、分析

5月27日

上午

科研数据的发布与传播

学术期刊的数据政策、数据期刊政策、数据知识库政策、机构知识库政策

下午

个人项目汇报

 

(二)主讲老师:

  秦健,现任美国雪城大学(Syracuse University)信息研究学院终身教职教授,博士。研究领域主要包括两大方面:1)信息与知识的表述和组织,如元数据、信息的结构化表述、知识建模等;2)科学交流如科学数据管理、影响评估、信息和数据系统的设计等。曾任OCLC访问学者(2002年9月至11月),获OCLC图书馆信息学研究项目奖和科学信息研究所(Institute for Scientific Information)的引文研究奖。近年获美国科学基金会(NSF)和联邦博物馆图书馆局(IMLS)的多项奖助,致力于e-Science和科学数据管理保存及应用方面的研究,并同时开发本科生和研究生科学数据素养教育科目与课程。目前正在进行的项目包括NSF资助的为LIGO科研群体(LIGO Scientific Collaboration)的引力波研究数据开发工作流程与数据管理的元数据模型,以及利用GenBank数据仓储的元数据来研究科研合作的结构、动态、与影响。由于在这些新兴研究和教育领域里的建树,多次被邀请到美国东北、中部、和西部医学图书馆地区联盟讲学,普及e-Science及科学数据管理的知识和培训这个新兴领域所需要人才。多次在全美情报学会以及其它国际会议组织并主持有关科学交流、信息与知识组织、科学数据管理及教育方面的专题讨论,曾为《Information Processing and Management》、《Library Trends》等学术期刊主编过有关书目数据库知识发掘和知识组织的专辑, 在国内、美国及国际学术刊物和会议上发表多篇论文并有专著《元数据》(与曾蕾合著)第二版(2016)。从1999年起每年受国内大学和科研单位邀请多次回国参加学术会议和讲学,并担任《现代图书情报技术》和《Journal of Data and Information Science》编委。

 模块二: 数据挖掘、文本挖掘及应用

教学目标,学习数据挖掘与文本挖掘在图书馆用户、馆藏及作者分析中的应用,学习数据挖掘和文本挖掘技术在图书馆服务和信息组织业务应用,介绍数据挖掘新的研究方向。

(一)培训内容

 

上午

下午

5月30日

1.概述本周要学习的主要数据挖掘与文本挖掘技术,及在图情领域的典型应用

2. 数据及软件安装测试准备 (Weka, R, Anaconda, Mallet)

个人项目选题、规划。学员将上午介绍的技术联系到自己熟悉的图情业务,并提出备选个人项目。

5月31日

主题:关联规则发现

主要算法:Apriori, FP-tree

应用案例:基于借阅记录的图书馆个性化推荐系统。

主题:基于距离的分析-聚类分析

主要算法:kMeans, EM, HAC

应用案例:使用功能词进行作者和文本风格聚类。

个人项目跟进:寻找与关联规则或聚类分析有关的图情研究问题并建模

6月1日

主题:聚类分析2(文本聚类)

主要算法:LDA (Mallet)

应用案例:使用主题建模方法进行文本主题提取和趋势分析。

 

主题:分类和预测方法介绍

主要算法: decision tree, kNN

应用案例:写作风格分析

个人项目跟进:寻找与主题建模和文本分类有关的图情研究问题并建模

6月2日

主题:分类算法的评测方法,集成学习

主要算法:random forest

应用案例:图像分类

 

主题:文本分类及应用

主要算法:naïve Bayes, SVMs

应用案例:文本主题分类, 舆情分析

个人项目跟进:寻找与文本分类,情绪和意见分析有关的图情研究问题并建模

6月3日

主题:学员项目完成

老师辅助学员解决技术问题,完成项目

主题:学员项目汇报

 (二)主讲老师:

俞蓓,博士,雪城大学信息学院凯奇玛-威尔赫姆讲座副教授,数据科学高级研究认证课程教师领导人。研究领域为应用自然语言处理,尤其在情绪分析和意见挖掘以及在社会科学研究中的应用。在加入雪城大学之前,曾在西北大学凯洛格商学院做博士后研究。获得伊利诺伊大学香槟分校图书馆信息学博士,中国科学院计算技术研究所计算机科学硕士,以及中国科技大学计算机科学学士。

 三、学员条件:

    1.具有良好的图书情报专业基础和一定的数据处理与分析知识或经验

    2.具备良好的英语阅读水平,授课语言为中文,培训材料为英文。

    3.能遵守课堂纪律,不请假、不迟到早退。

四、培训费用:1500元/每个模块,交通、食宿自理。

五、报名:

   1.学员可选择全程参加或只参加其中一个模块的学习。

   2.开班前一周发正式报到通知,请以报到通知为准安排差旅。

   3.符合条件的学员经所在单位同意后填写报名表,并请于5月17日前登陆网上报名系统  

     http://peixun2016.csp.escience.cn/dct/page/1注册报名。

   4.5月17日关闭报名系统,不再接受报名,欲报从速。

   联系方式:

   单位:中国科学院文献情报中心/专业图书馆分会

   电子邮件:peixun@mail.las.ac.cn

   电话:(010)82626812,(010)82626611-6225、6231 ;

   联系人:姚老师、赵老师

 

2016科学数据管理与数据挖掘研修班通知(面向业界).pdf
会员注册
2016年专业图书馆分会学术年会
出版物与资料
问学科馆员
发表评论
文献情报中心著作权网站
问题反馈