今年度のプロジェクト

昨年初めて応募した文部科学省科学研究費補助金の交付内定が出て、代表1件と分担2件が新規に採択されました。

・2016-2020 研究代表者. 「ライティングプロセス可視化コーパスの構築と英語学習者のライティングプロセスの解明」 若手研究(B). 外国語教育.

 

<概要>

本研究の目的は,コンピュータのキー入力ログを用いたライティングプロセス可視化コーパスの構築と英語学習者のライティングプロセスの解明である。はじめに,キー入力記録システムWritingMaetriXを用いて,学習者のライティングプロセスデータを収集し,英語学習者のキー入力ログ情報を含んだ学習者コーパスを構築する。その後,それらのデータにライティングの評価や品詞情報などのアノテーションを行う。最後に,完成したプロダクトに関する指標とライティング執筆中のプロセスの指標を用いて,プロセスとプロダクトの関係性や評価に寄与する特徴量などを調査し,英語学習者のキー入力ログを用いた新しいライティングプロセス研究の可能性を検討する。

 

・2016-2019 研究分担者. 「タスクに基づくライティングテストにおける自動評価採点システムの実用化開発」基盤研究(C). 外国語教育. 杉田 由仁(代表者).

 

・2016-2019 研究分担者. 「日本人大学生の英語要約力検証と大学英語ライティング教育用要約教材の開発」基盤研究(C). 外国語教育. 澤木 泰代(代表者).

 

また昨年度から研究分担者として関わらせていただいている

 

・2014-2017 研究分担者. 「発話自動採点システムの開発と英語教育プログラムへの導入」基盤研究(C). 外国語教育. 近藤 悠介(代表者).
 

と合わせて、4件のプロジェクトを中心にこれから数年の研究を進めて行きます。

「データマイニングの手法を用いた英語ライティングへのアプローチ-日本人英語学習者のエッセイ評価に影響を与える文法的誤りパターンの検討-」

昨年受賞させて頂いた第27回英検研究助成の論文「データマイニングの手法を用いた英語ライティングへのアプローチ-日本人英語学習者のエッセイ評価に影響を与える文法的誤りパターンの検討-」が公開されました。

  

第27回報告書〈2015年〉| 報告書別 | 英語教育研究センター | 公益財団法人 日本英語検定協会

 

研究概要は下記の通りです。

 

本研究の目的は,データマイニングの手法を用いた日本人英語学習者のエッセイ評価と文法的誤りパターンの関係性についての検討である。日本人英語学習者のエッセイ評価において,文法的誤りがどの程度関係しているかというのは,まだ十分に明らかにされていない。本研究では,その関係性について検討するため,2つの調査を行った。1つは,文法的誤りを20個のカテゴリーに分類し,エッセイ評価別の共起関係についてデータマイニング手法の1つであるアソシエーション分析を用いて,日本人英語教師がライティングを評価する際に寄与する文法的誤りについて検討した。もう1つは,文法的誤りの頻度情報からエッセイ評価の予測をするため,画像処理などによく用いられる手法である最近傍法を用いてエッセイ自動評価の可能性について検討した。

 

書誌情報は下記の通りです。

 

石井雄隆(2015)「データマイニングの手法を用いた英語ライティングへのアプローチ ―日本人英語学習者のエッセイ評価に影響を与える文法的誤りパターンの検討」 EIKEN BULLETIN, 27, 28-39.

  

ご笑覧頂けましたら幸いです。

The Cambridge Handbook of Learner Corpus Researchのまとめ

下記の本が昨年末に出版されました。

 

The Cambridge Handbook of Learner Corpus Research (Cambridge Handbooks in Language and Linguistics)

The Cambridge Handbook of Learner Corpus Research (Cambridge Handbooks in Language and Linguistics)

  • 作者: Sylviane Granger,Gaëtanelle Gilquin,Fanny Meunier
  • 出版社/メーカー: Cambridge University Press
  • 発売日: 2015/10/01
  • メディア: ハードカバー
  • この商品を含むブログを見る
 

 

この本のchapter 1とchapter 25の内容をまとめる機会があったので、下記に転載します。

 

Chapter 1

Granger, S., Gilquin, G., & Meunier, F. (2015). Introduction: learner corpus research – past, present and future. In S. Granger, G. Gilquin & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 1-5). Cambridge University Press.

 

Chapter 25

Leacock, C., Chodorow, M., & Tetreault, J. (2015). Automatic grammar- and spell-checking for language learners. In S. Granger, G. Gilquin & F. Meunier (Eds.), The Cambridge Handbook of Learner Corpus Research (pp. 567-587). Cambridge University Press.

 

———————————————————————————————————————-

  1. Introduction: learner corpus research – past, present and future

 

Learner corpus research (LCR) emerged in the late 1980s.

 

There are two advantages in access to electronic collections of L2 data.

・They are more representative than smaller data samples.

・The data can be analyzed with a whole battery of software tools

Cf. POS taggers and concordance program

 

The field of learner corpus research has undergone remarkable developments

・137 learner corpora (Learner corpora around the world)

82 (60%) L2 English, the rest focusing on other languages

The dominant focus is on writing (essay writing)

 

・Research design (longitudinal data)

 

・Individual variability

 

<参考>

Paquot, M., & Plonsky, L. (2015). Quantitative research methods and study quality in learner corpus research. LCR 2015. https://twitter.com/mrkm_a/status/642802550928998400

 

石井 (2014): 1994-2013までの英語コーパス研究184本を分析。日本人英語学習者コーパスの利用は10%に満たない。

 

The handbook is subdivided into five main parts:

  1. Learner corpus design and methodology
  2. Analysis of learner language
  3. LCR and SLA
  4. LCR and language teaching
  5. LCR and NLP

 

Chapter format

 

Introduction

A number of issues

Representative studies

Critical look

Recommended key readings

 

———————————————————————————————————————-

  1. Automatic grammar- and spell-checking for language learners

 

  1. Introduction

Granger and Meunier (1994): grammar- and spell-checking as a promising application for learner corpus research.

 

There is a complex relationship between automated error-correction systems and the learner corpora.

 

・Some systems require large amounts of error-annotated learner writing.

・Reliable annotation

 

2 Core issues
2.1 Brief background on grammatical error correction

Published research first appeared in the 1980s.

Cf. Grammar Writer’s Workbench

→rule-based approaches

 

The approach began to shift from rule-based to statistical in the mid 1990s.

⇔almost all error-correction systems make use of at least some rules.

※この辺りの経緯は自然言語処理の学説史と密接な関係<辻井 (2012)など参照>。

 

2.2 Brief background on spelling-error correction

Kukich (1992) identified three strands of research.

(1) non-word error detection

(2) isolated-word error correction

(3) context-dependent error correction

 

Cf. 編集距離 (edit distance)とは、「2つの文字列があるときに,一方の文字列をどのくらい編集するともう一方の文字列が作成されるかを距離として計算することで,2 つの文字列の類似度(相違度)を測る尺度」(投野・望月, 2013, p. 74)

 

2.3 The needs of L2 learners

From researcher’s pedagogical experience to learner corpus such as Cambridge Learner Corpus

→The most common error is content word choice.

 

Rimrott and Heift (2008) evaluated the helpfulness of generic spell-checkers for L2 learners.

 

The spelling errors were classified as lexical, morphological and phonological.

 

For 62% of the learners’ errors, the intended word was among the suggested corrections provided by Microsoft Word.

 

2.4 The importance and design of learner corpora
2.4.1 Annotation of grammatical errors in learner corpora

Precisionとは「システムが出した結果において、本当に正しかったものの割合。検索対象の文書群の中から、正しく検索された文書の割合を指す。正確性に関する指標」

Recallとは、「結果として出てくるべきもの(記事や文書)のうち、実際に出て来たものの割合。網羅性に関する指標」

 

Gamon (2010)’s research

Errors are often ambiguous.

→researchers have often used learner text that is annotated for only a single targeted type of error.

 

The cost of developing the corpus was quite high.

→To use the error –detection system to output the errors it has found in learner text and then to ask one or more annotators to verify the output.

⇔Whenever the system is modified, its output is likely to change.

⇔It cannot be used for calculating recall.

 

Judgments of usage errors are not as clear-cuts as those of grammatical errors.

→Using crowdsourcing to annotate learner errors.

 

Errors often appear in ‘noisy’, error-ridden contexts.

→measuring the edit distance

 

2.4.2 Annotation of spelling errors in learner corpora

Bestgen and Granger (2011): identifying the categories of errors that affect essay scores.

Flor and Futagi (2012, 2013); Flor (2012): developing algorithms for spelling correction.

 

2.4.3 Error-annotated learner corpora freely available to the NLP community

  1. Helping Our Own 1 (HOO-1)
  2. Helping Our Own 2 (HOO-2)
  3. 2013 conference on Computational Natural Language Learning (CoNLL 2013)
  4. 2014 conference on Computational Natural Language Learning (CoNLL 2014)

Cf. EDCW (Error Detection and Correction Workshop) 2012

 

  1. Representative studies

A brief overview of two commonly used techniques: machine-learning (ML) statistical classifiers and language models.

 

machine-learning (ML) statistical classifiers: 教師あり学習

具体例:最近傍法(石井, 2015)

language models: 教師なし学習

 

3.1 Tetreault and Chodorow (2008)

TASK: 34 most frequent prepositions

Training data: about 7 million preposition from the Lexile corpus (fiction, non-fiction and textbooks).

RESULTS: 84% precision, almost 19 % recall.

 

3.2 Han, Tetreault, Lee and Ha (2010)

TASK: preposition-error identification and correction

Data: error-tagged corpus of essays written by English as a FL students in South Korea (111,000 essays)

Training data: about 1 million cases of preposition usage from the data.

RESULTS: 93 % precision, 15 % recall.


3.3 Rozovskaya and Roth (2010)

Developed four methods for artificially introducing article errors into training data.

Cf. GenERRate (http://www.computing.dcu.ie/~jfoster/resources/genERRate.html)


3.4 Mitton and Okada (2007)

TASK: Developed an algorhithm for spell-checker

RESULTS: The top suggestion (from 61.2% to 65.8%), the top three suggestions (73.3% to 78.7%) and among the top six suggestion (77.9% to 83.5%)

 

4 Critical assessment and future directions

There has been an immense amount of research into the development of grammatical error correction system.

 

・There is a need for efficient and reliable annotation of learner corpora for system training and evaluation.

・there is also a need to develop error-correction resources for learners of other languages.

・tailoring the error-detection systems to the native language of the writer.

・mainly focused on developing error-specific modules, one for each error type.

 

What is needed by the NLP research community is learner corpora that identify the range of error types and corrections for each error.

 

References

石井卓巳(2014)「日本の英語コーパス言語学の研究課題・手法の変遷:『英語コーパス研究』掲載論文を用いた基礎的検討」外国語教育メディア学会(LET)関西支部メソドロジー研究部会2014年度第1回研究会発表資料.

石井雄隆(2015)「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」全国英語教育学会熊本研究大会発表資料.

投野由紀夫・望月源(2012)「編集距離を用いた英文自動エラータグ付与ツールの開発と評価」『コーパスに基づく言語学教育研究報告』9, 71-92.

辻井潤一(2012)「合理主義と経験主義のはざまで―内的な処理の計算モデル―」人工知能学会誌, 27(3), 273-283.

シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」

下記の通り、自動採点研究に関するシンポジウムを早稲田大学早稲田キャンパスで開催させていただきます。

 

f:id:yishii_0207:20160119191550j:plain

 


早稲田大学 CCDL 研究所第1回シンポジウム「外国語教育研究におけるスピーキングとライティングの自動採点・評価」

 

日時:3月19日(土)13:00-18:00

 

場所:早稲田大学早稲田キャンパス3号館302教室

http://www.waseda.jp/top/assets/uploads/2015/08/waseda-campus-map.pdf

 

司会・進行 亘理 陽一(静岡大学

 

13:00-13:05 開会挨拶・趣旨説明

 

13:05-13:40 今井 新悟(筑波大学)「SJ-CAT (Speaking Japanese Computerized

Test)の開発」

 

13:45-14:20 小林 雄一郎(東洋大学)「学習者コーパス機械学習に基づく自動評価システムの改良」

 

14:25-15:00 近藤 悠介(早稲田大学)「評定者の信頼性から考える自動採点の必要性」

 

15:20-15:55 杉田 由仁(明治学院大学)「タスクに基づくライティングテストにおける自動評価採点システムの開発」

 

16:00-16:35 石井 雄隆(早稲田大学)「データマイニングと外国語教育の接点としての自動採点研究」

 

16:55-17:55 ディスカッション

 

17:55-18:00 閉会挨拶

 

18:30-20:30 懇親会(※要事前申込)

 

参加費:無料

 

参加申込:http://www.yusukekondo.com/sonas/

 

問合せ:早稲田大学・石井雄隆 yutakaishii#aoni.waseda.jp (Replace # with @)

「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」

全国英語教育学会熊本研究大会で下記の発表をしました。

 

石井雄隆. (2015). 「データマイニングの手法を用いた英語ライティング研究―プロセスとプロダクトの観点から―」. 全国英語教育学会熊本研究大会. 熊本学園大学.

 

予稿集原稿

 

Dropbox – JASELE2015_Ishii.pdf

 

スライド

 

www.slideshare.net

「学習者コーパスによる英語CEFRレベル基準特性の特定と活用に関する総合的研究」 (代表:投野由紀夫) 公開会議のお知らせ

以下のような公開会議があるとのこと。トピック的に参加しないと行けないが、この時期に東京にいるかどうか微妙なところ。

 

以下の要領で公開会議を開催します。奮ってご参加ください。
  
■日時:2014年12月27日(土)午後2:30~5:00
■場所:成城大学 8号館 831 教室(収容人数 150名)
■入場無料(要事前申込み)
 
■プログラム
 14:30 – 14:45  挨拶+科研の進捗状況報告
 14:45 – 15:30  講演「英語学習者の作文における文法的誤りの自動添削について」
            奥村 学 (東京工業大学教授,研究分担者)
 15:30 – 15:40  休憩
 15:40 – 16:05  研究報告①:動詞の構文パターンに見られるCEFRレベル基準特性
            能登原祥之(同志社大学,研究分担者)
 16:05 – 16:30  研究報告②:Corpus-based research on the development of nominal modifiers in L2
 金子恵美子(会津大学、研究分担者)
 16:30 – 16:55  研究報告③:Pre-A1, A1, A2レベル教材の言語特性: n-gramによる一分析(第1報)
相川真佐夫(京都外国語大学、研究分担者)
 
参加ご希望の方は、以下の === 部分をメール本文に貼り付けて,投野研究室までお送りください。メールのタイトルは「公開会議参加申し込み」としてください。:
 
tonolab.tufsATgmail.com (AT を @ に換えて送信)
 
===
 
公開会議に参加を希望します
 
氏名:
所属:
Eメール:
 
===

第4回早稲田ELF国際ワークショップ(2014年11月14日-15日)

第4回早稲田ELF国際ワークショップが11月14日-15日に早稲田大学早稲田キャンパス16号館305教室で開催されるとのこと。15日午後のパネルでは最近話題になっているEMI(English-medium instruction)をExploring ELF in EMI settingsという題で取りあげる。 詳細は下記の通り。参加費、予約等は不要。

 

Friday, 14th November 2014 Special Lectures
(4th Waseda ELF International Workshop* : Part 1)

 

16:30~18:00 Professor Dr Henry Widdowson,
Honorary Professor, University of Vienna,
Professor Emeritus, University of London
‘The Pragmatics of ELF Variation’

 

18:00~19:30 Professor Dr Barbara Seidlhofer, University Professor,
University of Vienna
‘The Global Significance of ELF Study’

Venue: Room 305, Building 16 (School of Education), Waseda Campus,
Waseda University

 

Saturday, 15th November 2014

10:00~18:45 4th Waseda ELF International Workshop*: Part 2

– Exploring ELF in Academic and Business contexts –

 

Programme

 

1) 10:00 Opening & Introduction  Kumiko Murata

 

2) 10:05 ~11:35 Special Lecture

Professor Dr Elana Shohamy, Tel Aviv University
‘Critical language testing and English Lingua Franca, how can one
help the other?’

 

11:35~11:40 Short Break

 

3) 11:40~12:30 Individual Presentation Session 1

 

11:40~12:00 Akiko Otsu, Daito Bunka University & Waseda University
‘Beyond ‘Nice to meet you’: small talk in ELF for initial business
communication’

 

12:00~12:20 Dr Alan Thompson, Gifu Shotoku Gakuen University
‘Three Asian ELF settings: diverse situations, diverse practices’

 

12:20~12:30 Questions & Answers, Comments

12:30~13:45 Lunch

 

4) 13:45~15:50 Individual Presentation Session 2

 

13:45~14:05 Mayu Konakahara, Waseda University
‘How ELF users negotiate face during complaining: An analysis
of third-party complaints in ELF casual conversation among friends’

 

14:05~14:25 Dr Yoko Nogami, Matsuyama University
‘Identity, sociopragmatic discernment and us vs. them discourse
in ELF’

 

14:25~14:45 Dr Keiko Tsuchiya, Tokai University
‘Comparing articles of an ELF-based and a native-norm-based
journal using a small-scale corpus’

 

14:45~15:05 Assoc. Prof. Leah Gilner, Bunkyo Gakuin University
‘Vocabulary preferences of English speakers in localized and
globalized settings’

15:05 Questions & Answers 

 

15:15 Comments on Individual Presentation Sessions 1 & 2
Commentators: Profs Barbara Seidlhofer, Elana Shohamy,
and Henry Widdowso

 

15:35 General Questions & Answers, and Discussion 

 

15:50-16:05 Coffee/ Tea Break

 

5) 16:05-18:30 Invited Panel – Exploring ELF in EMI Settings –

 

16:05 Introduction Kumiko Murata

 

16:10 Special Panel Contribution
Dr Ying Wang, China Three Gorges University
‘A case study of the role of English in a Chinese university’

 

16:30 Professor Jim D’Angelo, Chukyo University
‘Challenges of nurturing EMI in broad-based Japanese Higher Education’

 

16:50 Professor Masaki Oda, Tamagawa University
‘University English Language programs in Transition: EFL to ELF, then?’

 

17:10 Professor Nobuyuki Hino, Osaka University
‘Toward the development of CELFIL (Content and ELF Integrated
Learning) for EMI classes in higher education in Japan’

 

17:30 Professor Michiko Nakano, Waseda University
‘Challenges in EMI, a case study of ‘World Englishes online’

 

17:50 Questions & Answers

 

18:00 Discussants Profs Barbara Seidlhofer, Elana Shohamy,
and Henry Widdowson

 

18:20-18:40 General Questions & Answers, and Discussion

 

6) 18:40 Round-up Kumiko Murata

 

Venue: Room 305, Building 16 (School of Education),
Waseda Campus, Waseda University

 

* This workshop is supported by Grants-in-Aid for Scientific Research
(JSPS, Kiban (Foundation) B, No. 26284083)

 

19:00-21:00 Reception (Atton – an Italian restaurant)

 

コーパス関係の国際ジャーナル

少し前にTwitterでやりとりしたことの備忘録。情報提供していただいたAkira Murakami (@mrkm_a) | TwitterさんとIshii, T. (@imukat141) | Twitterさんに深謝。他にも関係がありそうなジャーナルがあれば、ご教示頂けましたら幸いです。

 

ICAME Journal

 

RiCL – Research in Corpus Linguistics

 

Translation: Computation, Corpora, Cognition

 

Oxford Journals | Arts & Humanities | Literary and Linguistic Computing

 

ELR Journal – Home Page

 

Computer Speech and Language – Journal – Elsevier

 

Language Resources and Evaluation – incl. option to publish open access

 

Corpus Linguistics and Linguistic Theory

 

International Journal of Corpus Linguistics

https://benjamins.com/#catalog/journals/ijcl/main

 

International Journal of Learner Corpus Research

https://benjamins.com/#catalog/journals/ijlcr/main

 

Corpora

http://www.euppublishing.com/journal/cor

 

Computational Linguistics

http://www.mitpressjournals.org/loi/coli

外国語教育メディア学会第54回全国研究大会シンポジウム「ライティング・プロダクトからライティング・プロセスへ―Writing MaertiX Corpus Project―」の発表資料

2014年8月5日に外国語教育メディア学会第54回全国研究大会@福岡大学で行ったシンポジウム「ライティング・プロダクトからライティング・プロセスへ-Writing MaetriX Corpus Project-」の資料です。WritingMaetriXのサイトからも閲覧できますが、こちらにもリンクを貼っておきます。

 

 

LETシンポジウム20140805 趣旨説明

 

LETシンポジウム20140805 WritingMaetriXについて

 

LETシンポジウム20140805 コーパス構築計画

 

LETシンポジウム20140805 予備的検討

 

LETシンポジウム20140805 総括

 

書誌情報は下記の通りです。

 

石井雄隆・石井卓巳・草薙邦広・阿部大輔・福田純也・川口勇作. (2014). 「ライティング・プロダクトからライティング・プロセスへ -Writing MaetriX Corpus Project-」. 外国語教育メディア学会第54回全国研究大会. 福岡大学. [シンポジウム].

最近気になった論文など2

2014/03/23-2014/06/03までにリンクを呟いた論文をまとめています。

 

Assembling validity evidence for assessing academic writing: Rater reactions to integrated tasks

 

Instructional rubrics: Effects of presentation options on writing quality

 

Examining the impact of L2 proficiency and keyboarding skills on scores on TOEFL-iBT writing tasks

 

Measuring written linguistic accuracy with weighted clause ratios: A question of validity

 

Assessing learners’ writing skills in a SLA study: Validating the rating process across tasks, scales and languages

 

A Ranking Method for Evaluating Constructed Responses

 

 

Cambridge Journals Online – ReCALL – Fulltext – Enhancing writing pedagogy with learner corpus data

 

Automated Essay Scoring feedback for second language writers: How does it compare to instructor feedback?

 

Dynamics of Complexity and Accuracy: A Longitudinal Case Study of Advanced Untutored Development

 

Maureen S. Andrade and Norman W. Evans: Principles and Practices for Response in Second Language Writing: Developing Self-Regulated Learners

 

Cue Reliance in L2 Written Production – Wiechmann – 2014 – Language Learning – Wiley Online Library

 

World Englishes in international proficiency tests – HAMID – 2014 – World Englishes – Wiley Online Library

 

THE ISSUE: Research on Materials and Their Role in Classroom Discourse and SLA – Tarone – 2014 – The Modern Language Journal – Wiley Online Library

 

Teacher assessment of grammatical ability in second language academic writing: A case study

 

Assessing the Validity of Can-Do Statements in Retrospective (Then-Now) Self-Assessment – Brown – 2014 – Foreign Language Annals – Wiley Online Library

 

CiNii 論文 –  統計的機械翻訳を用いた英語文法誤り訂正の結果をリランキングすることで訂正性能の改善はできるか?

 

機械翻訳システムの詳細な誤り分析のための誤り順位付け手法

http://www.phontron.com/paper/akabe14nl05.pdf

 

Missing Generalizations: A Supervised Machine Learning Approach to L2 Written Production

http://www.newdesign.aclweb.org/anthology-new/W/W14/W14-0511.pdf

 

Automated feedback in a large-scale implementation of a formative writing
system: Implications for improving student writing

http://www.apparent-wind.com/mbr/papers/Formative-writing-Foltz-et-AERA.pdf

 

On the Universal Generation Problem for Unification Grammars

http://www.mitpressjournals.org/doi/abs/10.1162/COLI_a_00191#.U45wofl_t8G

 

Genre research and automated writing evaluation: Using the lens of genre to understand exposure and readiness in teaching and assessing school and workplace writing

http://jillburstein.com/uploads/Genre-AES_NCME2014.Final.pdf