2020年1月5日日曜日

2020 01.05 ESP研究会+石川科研共催 新春ワークショップ

2020.01.05 2020年Casualconc新春ワークショップ

時間 0930ー1630
場所 京都キャンパスプラザ第1会議室
講師 今尾康裕大阪大学准教授
タイトル 「1日でCasualconcを極める」
参加者 10名
(受付終了しました)

メモ
concord
右下の「単語」にしても,ある程度OK
?は1以上
*は0以上
|はOR
/はおおきなOR,たとえば,it was ? that/it is ? ? that
「文字」だと,?は本当に「?」になる

「文脈語」にチェックを入れると
その範囲に特定の単語が含まれるものを検索できる
除外は,Casualconcの環境設定のconcordからチェックを入れる

いろいろ設定は,ファイル→「環境設定」から

単語の定義
アポストロフィやハイフンは,文字と文字の間のもののみ,単語として数えたいとき,チェックを入れる
その他→Na+の+をいれるかどうかなど

単語の扱い
「スキップ文字」この文字は入れたくない特殊文字
単語として扱う文字列 「e.g.」など
ー>「リスト」
グループー>English->選択→右側にリストを使える

環境設定
Tagger→トークン化ははずす
環境設定→一般→ストップワードにチェックをいれる→ 
右下のSWが出ているときは,ストップワードが入っているので注意
Type,Token,統計値が入っているのでチェック
一般ー>Wordcout→事前に処理するにチェックをいれる→割合のところが変化する→ 先に機能語を抜いて,N-gramを作成するなど。
ストップワード選んで,読み込む
必ず単語として扱うもの,たとえば,i.e., e.g., et al. per centなどは,単語に,san fransiscoなどは,その都度,分けたいので,連語となっている

「文字置換」
記号として無視する場合はそれでもよいが,別の文字として入るので,同じものとして認識させたい場合。
「不正文字置換」
PDFから取り込んだときに制御文字が入ったりする。完ぺきではないがある程度削除できる
「レマ」
左でグループを作って,右で制御
e-lemma
異綴り
完ぺきではないが,今尾リストあり,アメリカ中心の異綴りリストあり,タブ区切り,
環境設定
一般→レマ・異綴りの詳細記録にチェックを入れると,詳細が出る→日本指クリック→詳細窓
異綴り → per centは1語とすると,percentが出てくる

「ファイル情報」
グループ分け ファイルごと,混合(自分のところは1つなど)

設定変更→OKの手順がないので,設定変更した時点で「設定変更」できている。