今やってる研究に関連して、L2のwritingにおける人間の評価を何らかの変数で予測しようとした研究や自動採点と評定者の一致度が報告されている最近の論文のリストを作ってみました。自分用メモなので、APAに基づいていない箇所などありますがご容赦下さい。またここに載っていない論文があれば是非ご教示頂ければ幸いです。
Uenishi, K. (2006).A Study of Factors Contributing to English Writing Ability : With a Focus on Two Types of Writing Task . annual review of English language education in Japan (ARELE).17, 71-80.
北村まゆみ (2010)「英文エッセーの総合的評価を予測する言語学的特徴-学習者コーパスの流暢性および文法的・語彙的複雑性の分析-」『ククロス : 国際コミュニケーション論集』 (7), 31-45
Kitamura, M. (2012). Influence of Japanese EFL Learner Errors on Essay Evaluation. annual review of English language education in Japan (ARELE), 169-184,
小林雄一郎・田中省作・冨浦洋一 (2011). 「メタ談話標識を素性とするパターン認識を用いた英語科学論文の質判定」『人文科学とコンピュータシンポジウム論文集―「デジタル・アーカイブ」再考』(pp. 51-58).
小林雄一郎・田中省作・冨浦洋一 (2011). 「ランダムフォレストを用いた英語科学論文の分類と評価」 『情報処理学会研究報告』2011-CH-90 (pp. 53-68)
小林雄一郎・田中省作・冨浦洋一 (2012). 「N-gramを素性とするパターン認識を用いた英語科学論文の質判定」 『情報処理学会研究報告』2012-NL-205 (6p)
小林雄一郎・金丸敏幸 (2012). 「Coh-Metrixとパターン認識を用いた課題英作文の自動評価」 『人文科学とコンピュータシンポジウム論文集―つながるデジタルアーカイブ』(pp. 259-266)
小林雄一郎 (2012). 「ランダムフォレストを用いた英語習熟度の自動推定」 『言語処理学会第18回年次大会発表論文集』
杉浦正利 (2008). 「英文ライティング能力の評価に寄与する言語的特徴について」 成田真澄 (編) 『学習者コーパスに基づく英語ライティング能力の評価法に関する研究』 平成 17 年度~平成 19 年度科学研究費補助金(基盤研究(C))研究成果報告書 (pp. 33-58).
Narita, M. and Sugiura, M. (2009) Linguistic Features and Writing Quality of Essays by Japanese EFL College Students. 『英語コーパス研究』 第16号. pp. 15-31.
水本篤 (2008)「自由英作文における語彙の統計指標と評定者の総合的評価の関係」『統計数理研究所共同研究リポート 』 215, 15–28.
Attali, Y. (2007). Construct validity of e-rater in scoring TOEFL essays (ETS Research Rep. No RR-07-21). Princeton, NJ: ETS.
Attali, Y., & Burstein, J. (2006). Automated essay scoring with e-rater v.2. Journal of Technology, Learning, and Assessment, 4(3), 1–30.
Crossley, S. A. & McNamara, D. S. (2010). Cohesion, coherence, and expert evaluations of writing proficiency. In S. Ohlsson & R. Catrambone (Eds.), Proceedings of the 32nd Annual Conference of the Cognitive Science Society (pp. 984-989). Austin, TX: Cognitive Science Society.
Crossley, S. A., Salsbury, T., McNamara, D. S., & Jarvis, S. (2010). Predicting lexical proficiency in language learner texts using computational indices. Language Testing. doi:10.1177/0265532210378031.
Crossley, S. A., & McNamara, D. S. (2011). Shared features of L2 writing: Intergroup homogeneity and text classification. Journal of Second Language Writing, 20(4), 271-285.
Crossley, S. A., & McNamara, D. S. (2011). Understanding expert ratings of essay quality: Coh-Metrix analyses of first and second language writing. International Journal of Continuing Engineering Education and Life-Long Learning, 21 (2/3), 170-191.
Crossley, S. A., & McNamara, D. S. (2012). Predicting second language writing proficiency: The role of cohesion, readability, and lexical difficulty. Journal of Research in Reading, 35 (2), 115-135.
Crossley, S.A. (2013). Advancing research in second language writing through computational tools and machine learning techniques: A research agenda. Language Teaching, 46 (2), pp. 256–271
Enright, M. K., & Quinlan, T. (2010). Complementing human judgment of essays written by English language learners with e-rater® scoring [Special issue]. Language Testing, 27(3), 317–334.
McNamara, D. S., Crossley, S. A., & McCarthy, P. M. (2010). The linguistic features of quality writing. Written Communication, 27 (1), 57-86.
Graesser, A. C., McNamara, D., & Kulikowich, J. (2011). Coh-Metrix: Providing multilevel analyses of text characteristics. Educational Researcher, 40, 223–234.
Guo, L., Crossley, S. A., & McNamara, D. S. (2013). Predicting human judgments of essay quality in both integrated and independent second language writing samples: A comparison study. Assessing Writing, 18(3), 218-238.
Lee Y-W, Gentile C, and Kantor R (2008). Analytic scoring of TOEFL® CBT essays: Scores from humans and e-rater®. Educational Testing Service: TOEFL Research Report No. RR-81
McNamara, D.S., Crossley, S.A. & McCarthy, P.M. (2010). The linguistic features of quality writing. Written Communication, 27 (1), 57–86.
McNamara, D. S., Louwerse, M. M., McCarthy, P. M., & Graesser, A. C. (2010). Coh-Metrix: Capturing linguistic features of cohesion. Discourse Processes, 47, 292–330.
Powers, D. E., Burstein, J. C., Chodorow, M., Fowles, M. E., & Kukich, K. (2000). Comparing the validity of automated and human essay scores(GRE Board Research Report No. 98-08a; ETS RR-00-10). Princeton, NJ: ETS.
Streeter L, Bernstein J, Foltz P, DeLand D (2011) Pearson’s automated scoring of writing, speaking, and Mathematics.http://www.pearsonassessments.com/hai/images/automatedscoring/downloads/PearsonsAutomatedScoringofWritingSpeakingandMathematics.pdf.
Weigle, S. C. (2010). Validation of automated scoring of TOEFL iBT tasks against non-test indicators of writing ability. Language Testing, 27(3), 335–353.
Weston, J. L., Crossley, S. A., & McNamara, D. S. (2012). Computational assessing human judgments of freewriting. In P. M. McCarthy and C. Boonthum (Eds.), Applied natural language processing and content analysis: Identification, investigation, and resolution. (pp. 365-382). Hershey, PA: IGI Global.
Williamson, D., Xi, X. & Breyer, F.J. (2012). A framework for evaluation and use of automated scoring. Educational Measurement: Issues and Practice, 31 (1) , pp. 2–13.
自動採点の論文がまとまっていて一番最新の書籍は、
になるのかな。後、以下の大澤先生のブログエントリーも参考になる。
教育・研究に関する記録: LET関西支部2013年度秋季研究大会